JP3768105B2

JP3768105B2 - 翻訳装置、翻訳方法並びに翻訳プログラム

Info

Publication number: JP3768105B2
Application number: JP2001020195A
Authority: JP
Inventors: 顕司小野
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2001-01-29
Filing date: 2001-01-29
Publication date: 2006-04-19
Anticipated expiration: 2021-01-29
Also published as: US7080320B2; US20040216050A1; US7505895B2; JP2002222189A; US20080228465A1

Description

【０００１】
【発明の属する技術分野】
本発明は、文書のタイトルや見出し、特に新聞記事のヘッドラインの翻訳に好適な翻訳装置、翻訳方法並びに翻訳プログラム関する。
【０００２】
【従来の技術】
近年、インターネット上の英語ウェブページ閲覧のために機械翻訳ソフトが利用されることが増えてきた。例えば、海外の動向をリアルタイムに伝えてくれるオンラインニュースのウェブページの閲覧に、機械翻訳ソフトが利用される。翻訳ソフトを使ってこれらのページを読むユーザは、ヘッドラインの訳文を見て記事本文を読むか否かを判断することが多い。従って、ヘッドライン部分の翻訳は本文部分の翻訳よりも重要性が高い。
【０００３】
しかしながら、このような英語ニュース記事においては、翻訳辞書に登録されていない新しい固有名詞が多々使用されており、また、文体が特殊であることから、機械翻訳が困難である。特にそのヘッドライン（記事タイトル）は、英語圏の読者の背景知識を前提として断片的に記述されており、機械翻訳は極めて困難である。
【０００４】
【発明が解決しようとする課題】
このように、従来、ニュース記事においては、特にヘッドラインにおいて特殊な用法が用いられていることから、機械翻訳が極めて困難であるという問題点があった。
【０００５】
本発明は、ニュース記事を高精度に機械翻訳することができる翻訳装置、翻訳方法並びに翻訳プログラムを提供することを目的とする。
【０００６】
本発明は、ニュース記事の特にヘッドラインを高精度に機械翻訳することができる翻訳装置、翻訳方法並びに翻訳プログラムを提供することを目的とする。
【０００７】
【課題を解決するための手段】
本発明に係る翻訳装置は、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳装置であって、前記ヘッドライン部分と前記記事本文部分とを判定する判定手段と、前記判定手段の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手段とを具備し、前記翻訳手段は、前記判定手段の判定結果を利用して、前記ヘッドライン部分の語句と前記記事本文部分の語句との間でフレーズアラインメント処理を行って、前記ヘッドライン中の名詞句と前記記事本文の名詞句との類似度を算出し、同一物を指している語句の対応情報を処理結果として得るフレーズアラインメント手段を具備し、前記フレーズアラインメント手段の前記処理結果を前記ヘッドライン部分の翻訳に利用することを特徴とする。
【０００８】
本発明の請求項１においては、判定手段によって記事情報のヘッドライン部分と記事本文部分とが判定される。この判定結果に基づいて、翻訳手段は、ヘッドライン部分と記事本文部分とを特定して、これらの部分に対して翻訳を行う。
【０００９】
本発明の請求項９においては、先ず、記事情報のヘッドライン部分と記事本文部分とが判定される。この判定結果に基づいて、ヘッドライン部分と記事本文部分とが特定されてこれらの部分の翻訳が行われる。
【００１０】
本発明の請求項１３において、コンピュータは、記事情報のヘッドライン部分と記事本文部分とを判定する判定処理と、判定処理の判定結果に基づいて、ヘッドライン部分と記事本文部分とを特定してこれらの部分を翻訳する翻訳処理とを実行する。
【００１１】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図１は本発明に係る翻訳装置の一実施の形態を示すブロック図である。本実施の形態は英語記事を日本語の翻訳記事に変換するものに適用した例を示しているが、いずれの言語間の翻訳にも適用可能である。
【００１２】
本実施の形態は、ニュース記事のヘッドライン部分及び本文の部分を検出して、これらの部分を正確に翻訳することを可能にするものであり、ニュース記事の分類に応じた翻訳手法を用いて翻訳精度を向上させる構成と、略語を含む名詞句の正確な抽出及び翻訳を可能にして翻訳精度を向上させる構成と、ヘッドラインと本文とに対して適応的な翻訳手法を用いることにより翻訳精度を向上させる構成とを備えている。なお、これらの構成は単独又は自由に組み合わせて使用可能である。
【００１３】
図１の翻訳装置は、解析用辞書６、翻訳用辞書８及び英日対訳コーパス７を記録するハードディスク等の記録部と、前処理部１、類似記事検索部２、訳語情報抽出部３、フレーズアラインメント処理部４及び翻訳処理部５等の処理部によって構成されている。各処理部は、プログラムによって構成可能である。
【００１４】
前処理部１には英語記事の電子情報が入力される。前処理部１は、翻訳対象として入力された英語記事を解析し、ヘッドライン部分及び記事本文部分を判別する。
【００１５】
図２は前処理部１におけるヘッドライン部分及び記事本文部分を判別するアルゴリズムを示すフローチャートである。図２の例は翻訳対象の英語記事が例えばインターネット上のニュースサイトのウェブ文書である場合の一例を示している。
【００１６】
前処理部１は、ステップＳ1 において、翻訳対象のウェブページのＵＲＬ（Uniform Resource Locater）をチェックして取得し、ステップＳ2 において、取得したＵＲＬから対象のウェブページが、登録されているニュースサイトであるか否かを判断する。前処理部１は、翻訳対象のウェブページがニュースサイトとして登録されている場合には、ステップＳ3 において、ニュースサイト毎に用意されている判定アルゴリズムに基づいて、入力された英語記事のうちヘッドライン部分及び記事本文部分の判定を行う。
【００１７】
登録ＵＲＬの例としては、
"http://xxxxnews・xxxxx.com/headlines/ts/index.html"
"http://www.xxx.com/"
"http://www.newsxxx.com/"
"http://www.xxtimes.coln/71
等がある。
【００１８】
登録された各ＵＲＬについては、それぞれのウェブページの構成に対応したヘッドライン・記事本文判定アルゴリズムが用意されている。例えば、ヘッドラインの位置をタグ＜ＮＹＴ＿ＨＥＡＤＬＩＮＥ＞，＜／ＮＹＴ＿ＨＥＡＤＬＩＮＥ＞相互間に配置するウェブページにおいては、これらのタグによってヘッドラインの位置を判定することができ、また例えば、記事本文（リード部分）をタグ＜ＮＹＴ＿ＳＵＭＭＡＲＹ＞，＜／ＮＹＴ＿ＳＵＭＭＡＲＹ＞相互間に配置するウェブページにおいては、これらのタグによって記事本文の位置を判定することができる。通常、各ニュースサイト毎に、ヘッドライン及び記事本文の配列は規定されており、前処理部１は、規定された配列に対応する判定アルゴリズムを用いて、ヘッドライン及び記事本文を判別して抽出することができる。
【００１９】
なお、同一のニュースサイトであっても、ＵＲＬの一部が異なる場合には、ウェブページの構成も異なることがある。このような場合には、各ＵＲＬ毎にヘッドライン及び記事本文の判定アルゴリズムを登録すればよい。
【００２０】
ＵＲＬが登録されていない場合には、前処理部１は、ステップＳ4 において、ＵＲＬがニュースサイトである可能性が高い文字列、例えば、“news”や“press”等の文字列を含んでいるか否かを判断する。前処理部１は、これらの文字列がＵＲＬ内に含まれる場合には、対象のウェブページがニュースサイトであるものと判断して、入力された英文記事に所定の判定アルゴリズムを適用して、ヘッドライン及び記事本文の判別及び抽出を行う（ステップＳ5 ）。
【００２１】
図３は図２中のステップＳ5 の判定アルゴリズムを示している。即ち、図３の判定アルゴリズムにおいては、登録されていないＵＲＬのサイトについてもヘッドライン及び記事本文の判別，抽出が可能である。
【００２２】
前処理部１は、ステップＳ11において翻訳対象のウェブページの電子情報を取得する。前処理部１は、ステップＳ12においてスクリプトコード等の非表示部分の情報を削除し、ステップＳ13において、タグを含んでいない連続する文字列部分を取り出し、変数Ｎに取り出した文字列部分の個数（単語数）を代入する。次に、前処理部１は、ステップＳ14で、表示される文字列部分の表示属性を規定するタグ情報を取得する。
【００２３】
前処理部１は、ステップＳ15で変数Ｉに１を代入し、ステップＳ16でＮが１よりも小さいか否かを判断する。Ｎが１よりも小さい場合には処理を終了し、Ｎが１以上の場合には、前処理部１はステップＳ17において、文字列部分の属性がヘッドライン部分に多用されているものと同一であるか否かを判断する。例えば、前処理部１は、ステップＳ17において、判定対象の文字列が太字タグでマークアップされているか、他のページへのリンクになっているか、他の部分に比して大きいサイズのフォントが指定されているか否か等を判断する。
【００２４】
記事のヘッドラインは、通常太字又は記事本文よりも大きいフォントで表示されることが多く、また、特定のタグが使用されていることも多い。更に、記事のヘッドラインは、詳細な記事本文ページヘのＨＴＭＬ（Hyper Text Markup Language ）リンクになっている場合もある。
【００２５】
そこで、前処理部１は、ステップＳ17の判定をヘッドライン部分であるか否かの１判定基準とする。しかし、太字のフォントは記者名や日時等で使用されることも多い。そこで、前処理部１は、ステップＳ17によってヘッドラインに多用されるフォント等であると判断した場合には、次のステップＳ18の処理によって更に判定を行うようになっている。
【００２６】
ステップＳ18においては、判定対象の文字列部分Ｉがヘッドライン以外の部分において多用されるものであるか否かの判定が行われる。例えば、前処理部１は、文字列部分Ｉに「Written by ・・・」や「Photo by ・・・」が含まれるか否か、文字列部分Ｉが日時を示す数値であるか否かを判定する。
【００２７】
更に、前処理部１は、ヘッドライン部分においては単語数が制限を受けることを利用してヘッドライン部分の判定を行う。即ち、前処理部１は、ステップＳ19，Ｓ20において単語数を判定する。例えば、文字列部分が太字やＨＴＭＬリンクになっていても、数単語以下の場合にはヘッドラインでないことが多い。逆に、単語数が多すぎる場合も、ヘッドラインでないことが多い。前処理部１は、ステップＳ19，Ｓ20において、単語数が３単語以上１０単語以下である場合にヘッドラインであると判定する（ステップＳ21）。
【００２８】
また、前処理部１は、ステップＳ17においてヘッドライン部分以外の部分であると判定した場合には、次のステップＳ22において、単語数を判定することにより、記事本文部分かそれ以外の部分かを判定するようになっている。即ち、前処理部１は、単語数が１０単語以上である場合には記事本文であると判定（ステップＳ23）し、それよりも少ない場合にはそれ以外の部分であると判定する（ステップＳ24）。
【００２９】
なお、前処理部１は、ステップＳ18，Ｓ19においてヘッドライン部分以外の部分であると判定した場合にも、ステップＳ24においてヘッドライン部分以外で且つ記事本文部分以外の部分であるものと判定する。ステップＳ21，Ｓ23，Ｓ24における判定が行われると、ステップＳ25においてＩをインクリメントして次の文字列部分についてステップＳ16以降の処理を繰返す。
【００３０】
更に、ヘッドライン及び記事本文の判定方法としては種々考えられる。例えば、ヘッドラインはページの先頭や、ＨＴＭＬ文書の＜ＨＥＡＤ＞部に記載されていることが多いことを利用して、ヘッドライン部分を判定することも可能である。これらの各種判定基準を利用することにより、図２の例よりは精度が低いが、ヘッドライン及び記事本文の判定を行うことができる。
【００３１】
翻訳対処の英語記事がＳＧＭＬ（Standard Generalized Markup Language）又はＸＭＬ（eXtensible Markup Language ）文書の場合には、前処理部１は、タグコードからヘッドライン及び記事本文がいずれの部分であるかを容易に判別することができる。
【００３２】
また、翻訳対象の英語記事がこのようなタグ情報や属性情報を有していないワープロ文書やテキスト文書の場合であっても、記事先頭に近い文字列で著者名や場所、日付でないものをその記事のヘッドラインとし、それ以降の文字列を記事本文と判定するようなヒューリスティックスを用いることによって、ある程度ヘッドラインの自動判定を行うことができる。また、著者名や場所の判定には、形態素解析を利用することも考えられる。
【００３３】
更に、前処理部１は、ヘッドラインや記事本文部分を自動判定できない場合には、ヘッドラインの候補を表示してユーザの指示入力によって、ヘッドライン及び記事本文部分を決定するようにしてもよい。
【００３４】
図１に示すように、前処理部１の前処理結果は、類似記事検索部２、フレーズアラインメント処理部４及び翻訳処理部５に与えられる。本実施の形態においては、前処理結果を利用することで、翻訳部分を特定して類似記事検索部２及び訳語情報抽出部３によってニュース記事の分類に応じた翻訳が可能となり、フレーズアラインメント処理部４によって名詞句の正確な抽出及び翻訳が可能となり、翻訳処理部５によってヘッドラインと本文とに対して適応的な翻訳が可能となる。
【００３５】
類似記事検索部２及び訳語情報抽出部３によって、ニュース記事の分類に応じた訳語を得る。先ず、類似記事検索部２は、前処理部１の処理結果である単語ベクトルを用いて、英日対訳コーパス７中の英語記事で翻訳対象の英語記事と類似しているものを検索する。英日対訳コーパス７は、英語記事とその翻訳記事とを対になった形で登録したデータベースである。日本語翻訳記事は人手で作成された品質のよいものが望ましいが、英語記事の抄訳であるようなものでも後述する訳語情報抽出処理が可能ならば許容される。
【００３６】
解析用辞書６には、英語単語の辞書見出しと品詞や複数形、略記形、活用形などの情報が含まれている。類似記事検索部２の形態素解析処理、つまり翻訳対象の英語記事及び英日対訳コーパス中の英語記事の形態素解析にこれを利用する。なお解析用辞書６の内容は翻訳用辞書８の英日辞書と重複するので、翻訳用辞書８で解析用辞書６を代用することも可能である。
【００３７】
類似記事検索部２は下記（ａ）乃至（ｆ）のステップによって英日対訳コーパス７から翻訳対象の英語記事に類似した類似記事を検索する。
【００３８】
（ａ）解析用辞書６を用いて、ヘッドラインと本文部分を形態素素解析して、単語を取り出す。
【００３９】
（ｂ）とりだした単語の出現頻度を計算し、各語幹を次元とし、その頻度をその次元の値とするベクトルを記事ごとに作成する。そして、次元（単語）のインデックスをｋとして、英語記事ベクトルをｅk と表記する。
【００４０】
（ｃ）英日対訳コーパス７中の各英語記事について、ステップ（ａ），（ｂ）と同様の処理を行う。この場合には、記事番号のインデックスをｊとし、次元（単語）のインデックスをｋとして、記事ベクトルをＥjkと表記する。
【００４１】
（ｄ）翻訳対象の記事と英日コーパス７内の記事との記事間の類似度を、各記事ベクトル間の内積計算を行うことにより求める。英語記事と英日対訳コーパス７中の英語記事ｊとの間の類似度は下記（１）式によって求まる。
【００４２】

（ｅ）類似度値が高い順に、記事の対をソートする。なお、類似度がしきい値以下のものは除く。
【００４３】
（ｆ）類似度が高い順に、規定された個数だけ記事の対を選択し、選択された英日対訳コーパス７内の記事対を類似記事として出力する。
【００４４】
即ち、類似記事検索部２は、類似度が高い英日対訳コーパス７中のコーパス英語記事を、翻訳対象の英語記事に類似した類似記事と判断するのである。
【００４５】
なお、このような類似記事検索部２の処理（記事アラインメント技術）については、下記参考文献（１），（２），（３）に詳述されている。
【００４６】
（１）Collier，N. Kumano， A.，Hikrakawa，H.”English-Japanese news article alignment form the internet using MT” ， Japan SOC. for AI annual meeting， 1998.
（２）Collier，N・，Hirakawa，H.，Kumano，A.”Machine Translation vs Dictionary Term Translation − a cornparison for English-Japanese nevvs article alignment”， COLING-ACL-1998.
（３）Collier， N・，Hirakawa，H・，Kumano，A. ” Creating a noisy parallel corpus from newswire articles using multi-lingual information retrieval” ， Transactions of J. SOC.Information Processing，1999.
なお、上述したステップ（ｃ）の処理は、事前に実行しておいて、その処理結果（各記事の英語単語ベクトル）のみを英日対訳コーパス７内に保持させておくようにしてもよい。この場合には、処理を高速化させることができ、英日対訳コーパス７中に英語記事本文を保持させる必要がないので必要な記憶容量を低減させることができる。
【００４７】
なお、類似記事検索部２は、類似記事検索の類似度の判定において、固有名詞や日付、数量表現の重みを下げるようになっている。検索された類似記事は訳語情報を抽出するために用いるので、必ずしも翻訳対象の英語記事で扱っている事件に直接関係した記事である必要はなく、火事の記事であるとか、企業の買収の記事であるとか、記事で扱っている事件のタイプが似ていれば十分である。従って、記事の中で固有名詞や日付、数量表現によって示される誰が、何を、どこで、いつ、どれだけといった情報が類似している必要はないので、類似度判定におけるそれらの重みを下げるのである。逆に、これらの重みを下げない場合には、英日対訳コーパス７の中から十分な数の類似記事を検索することができず、後述する訳語情報抽出処理を適切に行うことができなくなる。
【００４８】
また、上記ステップ（ａ），（ｂ），（ｃ）において、形態素解析して単語を抽出するかわりに、ポーター（Porter）アルゴリズムと呼ばれるヒューリスティックルールを用いて英単語の語幹部分を取り出して、単語の代わりに利用することも考えられる。この処理はステミングと呼ばれ、辞書を必要としないので高速に実行できるメリットがある。Porterアルゴリズムについては、参考文献（４）Porter, M.F. , " An Algorithm For Sumx Stripping,"，Program 14 (3),July 1980, pp. 130-137.に記述されている。
【００４９】
また、ステップ（ｂ），（ｃ）においては、固有名詞（大文字で始まる単語）や日付、金額などの数量表現の重みを下げるだけでなく、ヘッドライン部の単語や記事の先頭段落（リード）部分の単語について、記事本文部分の単語より重みを大きくすることも考えられる。
【００５０】
図４は上述したステップ（ｄ），（ｅ），（ｆ）の処理を、これと等価でより高速化したアルゴリズムで実現する手法を示すフローチャートである。
【００５１】
図４のアルゴリズムは、上述したステップ（ｄ）によって英日対訳コーパス７中の各記事毎の類似度を求める際に、各時点で類似度が上位のものを規定個数だけ保存更新することにより、処理に必要な記憶容量を大幅に削減すると共に、ステップ（ｅ）のソーティング処理を不要にして処理の高速化を達成するものである。
【００５２】
図４のステップＳ31においては、類似記事検索部２が出力する類似記事数の上限をＮとし、英日対訳コーパス７の英語記事総数をＭとし、類似度の閾値をＰとする。サイズがＮの配列ＡＲＲＡＹを準備する。
【００５３】
ステップＳ32において、変数Ｌ（ＡＲＲＡＹ中の記事の類似度最小値）＝０とし、変数Ｋ（ＡＲＲＡＹ中の記事数）＝０とする。次に、ステップＳ33において英日対訳コーパス７中の英語記事番号Ｉを１に初期化する。
【００５４】
類似記事検索部２は、ステップＳ34において英日対訳コーパス７中の全ての英語記事についての類似記事の検索処理が行われたか否かを判断する。ステップＳ36では、類似記事検索部２は、翻訳対象の英語記事と英日対訳コーパス７中の英語記事Ｉの類似度Ｓを、上記ステップ（ａ），（ｂ），（ｃ）で求めた記事ベクトルの内積によって計算する。
【００５５】
ステップＳ37では、類似記事検索部２は、求めた類似度Ｓが閾値Ｐよりも大きいか否かを判定する。類似度Ｓが閾値Ｐよりも小さい場合には、英語記事Ｉは類似記事には該当しないものと判断して、処理をステップＳ46に移行し、次の英語記事Ｉ（Ｉ＋１）についてステップＳ34以降の処理を繰返す。
【００５６】
類似記事検索部２は、ステップＳ36で求めた類似度Ｓが閾値Ｐよりも大きい場合には、ステップＳ38において、配列ＡＲＲＡＹ内の記事数Ｋが配列Ｎのサイズを越えていないか否かを判定する。越えていない場合には、ステップＳ39において配列ＡＲＲＡＹに英語記事Ｉを追加し、記事数Ｋをインクリメントする。
【００５７】
次に、類似記事検索部２は、類似度Ｓが配列ＡＲＲＡＹ内の英語記事の類似度の最小値Ｌよりも小さいか否かを判断し、ＳがＬ以上の場合にはステップＳ46に移行し、ＳがＬよりも小さい場合には、ステップＳ41においてＬにＳを代入した後ステップＳ46に移行する。
【００５８】
ステップＳ38において、配列ＡＲＲＡＹ内の記事数Ｋが配列Ｎのサイズを越えていると判定された場合には、類似記事検索部２は、ステップＳ42において類似度Ｓが現配列ＡＲＲＡＹ内の記事の類似度最小値Ｌよりも大きいか否かを判定する。ＳがＬよりも小さい場合には、ステップＳ46に移行して次の記事について処理を行う。ＳがＬよりも大きい場合には、類似記事検索部２は次のステップＳ43において類似度最小値Ｌの記事を配列ＡＲＲＡＹから削除し、ステップＳ44において配列ＡＲＲＡＹに記事Ｉを追加しステップＳ45において類似度最小値Ｌを求めてＬに代入する。次いで、ステップＳ46に移行して、次の記事について同様の処理を繰返す。
【００５９】
類似記事検索部２は、ステップＳ34において英日対訳コーパス７中の全ての記事についての類似度検索が行われたものと判断すると、ステップＳ35において配列ＡＲＲＡＹ内の類似記事を出力する。このように、各記事毎に類似を計算し、類似度が上位Ｋ個の英語記事を配列ＡＲＲＡＹに保存するようにしているので、処理に必要な容量を削減し、ソーティングを不要にして高速化を図ることができる。
【００６０】
類似記事の電子情報は訳語情報抽出部３に供給される。訳語情報抽出部３は、類似記事検索部２が検出した英日対訳コーパス７中の英語類似記事とその日本語翻訳記事とから英単語とその訳語の情報を抽出する。即ち、前処理部１に入力された英語記事内の各単語の訳語として、英日対訳コーパス７中の類似記事の訳語を利用するのである。つまり、訳語情報抽出部３は類似記事検索部２の検索結果である類似記事とその翻訳記事から、類似記事中の英単語がどの訳語に翻訳されているかを検出し、訳語情報として出力する。
【００６１】
翻訳用辞書８には英日辞書と日英辞書が含まれている。英日辞書には英語単語の辞書見出しと品詞や複数形、活用形等の情報、及び日本語訳後のリストが含まれている。日英辞書には日本語単語の辞書見出しと品詞や活用形等の情報、及び訳語のリストが含まれている。
【００６２】
訳語情報抽出部３は、類似記事の英語記事から英語単語を取得しその日本語訳語候補を取得するのに翻訳用辞書８の英日辞書を利用する。また、類似記事の日本語記事から日本語単語を取得しその英語訳語候補を取得するのに翻訳用辞書８の日英辞書を利用する。
【００６３】
翻訳処理部５では、翻訳用辞書８の英日辞書を利用して翻訳を行う。
【００６４】
図５は訳語情報抽出部３の処理アルゴリズムを示すフローチャートである。
【００６５】
訳語情報抽出部３は、訳語候補の抽出のために機械翻訳用の英日辞書及び日英辞書からなる翻訳用辞書８を利用する。先ず、訳語情報抽出部３は、ステップＳ51において類似記事のうちの英語記事の各単語を取得し、その日本語訳語候補を翻訳用辞書８中の英日辞書から取得する。次に、訳語情報抽出部３は、ステップＳ52において類似記事のうちの日本語記事の単語を取得し、その英語訳語候補を翻訳用辞書８中の日英辞書から取得する。
【００６６】
次に、訳語情報抽出部３は、ステップＳ53において、英語記事の日本語訳語候補のうち日本語記事に出現するものを取得する。訳語情報抽出部３は、ステップＳ54において、英語記事の単語Ｅｍに対する日本語訳語候補のうち最も多く出現する単語を、単語Ｅｍの日本語訳語Ｊｍとし、英単語と日本語訳語との単語対及びその出願頻度Ｈｍの情報（Ｅｍ，Ｊｍ，Ｈｍ）を得る。
【００６７】
次に、訳語情報抽出部３は、ステップＳ55において、日本語記事の英語訳語候補のうち英語記事に出現するものを取得する。訳語情報抽出部３は、ステップＳ56において、日本語記事の単語Ｊｎに対する英語訳語候補のうち最も多く出現する単語を、単語Ｊｎの英語訳語ＥＮとし、日本語単語と英語訳語との単語対及びその出願頻度Ｈｎの情報（Ｅｎ，Ｊｎ，Ｈｎ）を得る。
【００６８】
これにより、英日対訳コーパス７中の英語記事中の各単語と日本語記事中の各単語との対応が推定される。
【００６９】
次に、訳語情報抽出部３は、ステップＳ57において、単語対の情報（Ｅｍ，Ｊｍ，Ｈｍ），（Ｅｎ，Ｊｎ，Ｈｎ）をマージする。即ち、訳語情報抽出部３は、Ｅｍ＝＝Ｅｎ，Ｊｍ＝＝Ｊｎである単語対の情報のみを（Ｅｍ，Ｊｍ，Ｈｍ＋Ｈｎ）という１単語対の情報にマージする。
【００７０】
そして、訳語情報抽出部３は、同一英単語に対して異なる日本語単語が存在する場合には、頻度が最大のもののみを残して他の単語対の情報を削除し、ステップＳ59において単語対の情報を訳語情報として出力する。
【００７１】
こうして、類似記事について、各英単語の日本語訳語がその頻度の情報と共に訳語情報として得られる。この訳語情報、即ち、類似記事の訳語情報を用いて翻訳を行うことにより、記事の分類に応じた翻訳が可能となる。
【００７２】
なお、対訳記事からの訳語情報の抽出の手法としては種々考えられる。図５のアルゴリズムの例によれば、翻訳文書の文の並びや構造が原文書と相当異なるような場合でも、有効な訳語情報を得ることができる。例えば、新聞記事等の翻訳の場合には、自国の読者に読みやすいように文体や記述する内容の順番が原文とかなり異なっていることが多いので、図５のアルゴリズムは新聞記事等の翻訳に適している。
【００７３】
ところで、訳語情報抽出部３の処理については、種々の変形例が考えられる。例えば、１つの変形例として、前処理部１で翻訳対象の英語記事に記述されている英単語を抽出しておき、訳語情報抽出部３はそれらの英単語についてのみ、訳語情報の抽出を行うようにすることが考えられる。これによって、訳語情報抽出処理を高速化することができる。
【００７４】
また、他の変形例として、前処理部１の動作を拡張して、前処理の際に翻訳処理部５を利用して翻訳対象の英語記事を一度翻訳し、英単語の訳語を抽出して訳語情報抽出部３に出力する。抽出した訳語をその英単語のデフォルト訳語と呼ぶことにする。そして、訳語情報抽出部３は抽出した訳語情報のうち訳語がデフォルト訳語と異なるものだけを翻訳処理部５に出力することも考えられる。この方式によれば、最終的に訳語の変化に寄与する訳語情報だけが訳語情報抽出部３から出力されることになり、翻訳処理部５での処理を高速化することができる。
【００７５】
図１のフレーズアラインメント処理部４は、名詞句の正確な抽出及び翻訳を可能にする。例えば、企業名等においては、記事本文においては正確な名詞句を記述しても、ヘッドライン部分にはその一部のみを記述することが多い。つまり、ヘッドラインでは短縮した表現や略語が用いられることが多く、通常の翻訳辞書では翻訳が困難である。そこで、フレーズアラインメント処理部４は、ヘッドライン中の語句（名詞句）と記事本文、特に記事の先頭文の名詞句の間の類似度を計算して、同一物を指している語句の対応情報（フレーズアラインメント結果）を出力する。これにより、ヘッドライン中の略語等を正確に翻訳することが可能となる。
【００７６】
図６はフレーズアラインメント処理のアルゴリズムを示すフローチャートである。
【００７７】
ステップＳ61，62においては、フレーズアラインメント処理部４は、記事ヘッドライン及び記事本文又は先頭文に対して形態素解析を行って、一定の条件（例えば、下記（２）式）を満たす部分品詞列を名詞句候補として抽出する。なお、フレーズアラインメント処理部４は、構文解析結果から名詞句候補を抽出することも考えられるが、速度的には形態素解析列から抽出する方が早い。フレーズアラインメント処理部４は品詞列に対する候補抽出の条件を正規表現で記述する。下記条件式（２）はその一例を示している。なお、（２）式において、？は直前の品詞を省略可能であることを示し、（○｜□）は○又は□を示し、＊は直前の品詞（（２）の例では名詞又は形容詞）の１回以上の繰り返しを示している。
【００７８】
“冠詞？（名詞｜形容詞）＊名詞” …（２）
フレーズアラインメント処理部４は、次のステップＳ63乃至Ｓ64において、ヘッドライン中の名詞句に対応する名詞句候補を記事本文、特に記事先頭文から抽出する。即ち、フレーズアラインメント処理部４は、先ずステップＳ63において、ヘッドライン中の各名詞句候補と記事本文中の名詞句候補との全ての組み合わせに対して、形態素解析で取得した部分単語同士の一致を検出する。
【００７９】
次に、フレーズアラインメント処理部４は、ステップＳ64において、一致率（一致する単語数／名詞句の全単語数）が所定の閾値以上の名詞句候補同士の組を相互に対応する名詞句候補であるものと判断して抽出する。例えば、ヘッドライン中の所定の名詞句が３単語で構成され、記事本文中の所定の名詞句が５単語で構成されている場合に、そのうちの２単語が相互に一致する単語である場合には一致率は２／５となり、閾値が例えば１／３の場合には、これらの名詞句の組は同一のものを表すものとして抽出される。
【００８０】
しかし、ヘッドライン中の名詞句の単語数の方が記事本文中の名詞句の単語数よりも多い場合、即ち、記事本文中の名詞句がヘッドライン中の名詞句の例えば部分集合を構成する場合には、翻訳にはヘッドライン中の名詞句をそのまま用いた方がよいので、フレーズアラインメント処理部４は、ステップＳ65において、ステップＳ64で抽出した名詞句の組を棄却する。
【００８１】
例えばヘッドライン中の名詞句の“S.Korean/ship/fire”に対して、記事本文中の対応する名詞句が“S.Korean/ship/fire”あるいは“ship/fire”のように、ヘッドライン中の名詞句と同一又はその一部に過ぎないような場合には、フレーズアラインメント結果に従ってヘッドライン中の語句を記事先頭文の語句で置換して翻訳すると、元のヘッドラインの情報が失われてしまう。そこで、ステップＳ65において、このような名詞句の組を排除するのである。
【００８２】
また、ヘッドライン中の名詞句に対応する記事本文中の名詞句として、例えば省略の方法が相違する場合のように異なる複数の名詞句が用いられることがある。そこで、フレーズアラインメント処理部４は、ステップＳ66において、ヘッドライン中の１名詞句についてステップＳ64で複数の名詞句が抽出された場合には、一致率が最も高い名詞句を対応する名詞句として抽出する。
【００８３】
フレーズアラインメント処理部４は、次のステップＳ67において、対応付けられた名詞句対を出力する。なお、フレーズアラインメント処理部４は、名詞句の照合の際には、各単語の表層形（記事中に出現している形態）でなく辞書見出しを利用するが、未知単語については、表層形態を利用する。
【００８４】
また、ヘッドライン中には略語表現が多いことを考慮して、ヘッドライン中の略語は元の辞書見出しの単語に置き換えて、記事本文との照合に利用する。例えば、ヘッドライン中に“mln”や“bln”という表記があった場合には、その辞書見出しである“million”，“billion”を記事本文との照合に用いる。
【００８５】
更に、フレーズアラインメント処理部４は、ステップＳ63の一致検出において、図７のフローチャートによって示すアルゴリズムを採用することができる。図７のアルゴリズムは、ヘッドライン中において略語表記が行われている場合に対応した略語推定処理を示している。
【００８６】
例えばヘッドライン中に未知単語である“ＨＫＭＡ”が記述されており、記事本文中に名詞句“”Hong Kong/Monetary Authority”が記述されている場合には、この語句を対応するものとして処理する。なお、“/”は単語区切りを示しており、“/”から“”/”までの文字列が辞書見出しである（以下同様）。
【００８７】
フレーズアラインメント処理部４は、先ずステップＳ71において、ヘッドライン中の名詞句を単語に分割する。名詞句としては、略語表記が単独で記述される場合だけでなく、他の単語列と連結されて記述されることがある。ステップＳ71はこの点を考慮したものであり、フレーズアラインメント処理部４は、見出し語がスペースやハイフンを含む場合には、これらのスペース又はハイフンの位置で分割する。フレーズアラインメント処理部４は、分割した単語列を単語列Ａとする。
【００８８】
次に、フレーズアラインメント処理部４は、ステップＳ72において、記事本文（又は先頭文）について、ステップＳ71と同様に名詞句を単語に分割し、分割した単語列を単語列Ｂとする。
【００８９】
次のステップＳ73では、フレーズアラインメント処理部４は、単語列Ａの中の英単語のいずれかが大文字のみによって構成されているか否かを判別し、大文字のみによって構成されている英単語が存在する場合には、ステップＳ74においてこの文字列を略語候補配列ＲＡに追加する。
【００９０】
次に、フレーズアラインメント処理部４は、ステップＳ75において、単語列Ｂの中の単語系列が大文字で始まる単語の連結によって構成されているか否かを判別し、大文字で始まる単語の連結によって構成されている単語系列が存在する場合には、ステップＳ76においてこの文字列を略語候補配列ＲＢに追加する。
【００９１】
フレーズアラインメント処理部４は、ステップＳ77において、単語列Ａ，Ｂ中の同一単語の数をカウントする。この処理は図６のステップＳ63と同様の処理である。更に、略語と略語の元の単語系列とについては同一のものを表現しているものとして、フレーズアラインメント処理部４は、ステップＳ78において、略語候補配列ＲＡ及び略語候補配列ＲＢ相互間で同一エントリの数を、各名詞句の照合に際して加算してカウントする。
【００９２】
こうして、図７のアルゴリズムを採用することにより、略語表現も考慮して、ヘッドライン中の名詞句と記事本文の名詞句との対応を表す名詞句対の情報が得られる。
【００９３】
更に、フレーズアラインメント処理部４は、図７の略語推定処理を拡張し、例えば、略語“ＭＩＴＩ”が“the Ministry of International Trade and Industry”に対応していることを推定可能にすることも考えられる。即ち、この場合には、フレーズアラインメント処理部４は、大文字単語の直前や大文字単語に挟まれる冠詞や接続詞、前置詞を除いて略語候補を作成し、略語候補配列Ｂに追加するようにすればいい。
【００９４】
また、例えばヘッドライン中に単語“Alexander ”があり、記事本文中に単語“Alexander the Great ”がある場合には、この語句は部分的に対応するものとして処理する。つまり、スペースやハイフンを含む辞書見出しについてはそこで分割して、分割された単位を１名詞とみなして処理を行う。
【００９５】
このように、フレーズアラインメント処理部４によって、ヘッドライン中の名詞句を記事本文中の最適な名詞句に置き換えて、ヘッドライン中の名詞句の確実な翻訳を可能にする。
【００９６】
図１において、翻訳処理部５は訳語情報抽出部３の出力結果である訳語情報とフレーズアラインメント処理部４の出力結果である語句の対応情報を利用して、翻訳を行う。即ち、翻訳処理部５は、翻訳対象の英語記事の英単語の翻訳に際して、その英単語が訳語情報抽出部３が抽出した訳語情報に含まれている場合には、対応する日本語単語を訳語として優先する。また、翻訳処理部５は、フレーズアラインメント処理部４の出力結果である語句の対応情報を利用して、ヘッドライン中の断片的な語句を、対応する本文中の語句で置換又は補完して翻訳を行う。
【００９７】
更に、翻訳処理部５は、前処理結果を利用して、ヘッドラインと本文とに対して適応的な翻訳を行う。例えば、翻訳処理部５は、ヘッドラインの翻訳の際には、訳文を体言止めにする等のヘッドライン翻訳専用の翻訳ルールを適用して翻訳を行う。
【００９８】
次に、このように構成された実施の形態の作用について説明する。
【００９９】
いま、下記《翻訳対象の英語記事》を含む入力記事が入力されるものとする。前処理部１は、入力記事からヘッドライン部分及び記事本文部分の英語記事を抽出する。ヘッドライン部分及び記事本文部分は前処理結果として類似記事検索部２に供給される。なお、下記《翻訳対象の英語記事》のうち、“Dissss to ・・shares”の部分はヘッドラインであり、“BUUBANK,・・Monday”の部分は記事本文である。
【０１００】
《翻訳対象の英語記事》
Dissss to buy back up to 95 mln shares
BUUBANK, Calif., April 23 (Reete) - Waaa Dissss Co said its board had approved a stock repurchase program of up to 95 million shares.
The program replaces a similar program that was in place prior to its acquisition of Caapii Citti/AAC, it said on Monday.
----------------------
英日対訳コーパス７には、様々な分野の複数の英語記事と各英語記事の日本語翻訳である複数の日本語記事が対応付けられて記録されている。類似記事検索部２は、解析用辞書６を利用して形態素解析を行い、単語ベクトルを作成して、英日対訳コーパス７中の英語記事で翻訳対象の英語記事と類似しているものを検索する。類似度が高い英日対訳コーパス７中のコーパス英語記事を、《翻訳対象の英語記事》に類似した類似記事と判断するのである。
【０１０１】
いま、類似記事検索部２による検索結果が下記《類似記事の検索結果》に示すものであるものとする。即ち、下記検索結果は、上述した《翻訳対象の英語記事》に類似していると判断された英日対訳コーパス７中の英語記事の例（ヘッドライン部分のみを示す）である。検索結果は類似度が高い順に配列してある。
【０１０２】
《類似記事の検索結果》
類似度ヘッドライン
0.582435250282288 Notwet to buy back up to 5 mln shares
0.574999988079071 Cisss increases buyback program
0.529697775840759 Deel Computer increases share buyback
0.505964457988739 Micoot Inc bought back 164,500 shares
0.464757978916168 PainWer increases share buyback plan
0.461880236864090 Gillee sets 10-15 mln share buyback
0.444467127323151 Campbee heir continues share sale
0.433333337306976 Texxxa has bought 1.5 mln shrs
0.427617967128754 AMM to buy back up to 20 mln of its shares
----------------------
下記《類似記事》は、《類似記事の検索結果》のうち最も類似度が高い英日対訳コーパス７中の英語記事とその日本語記事の原文を示している。
【０１０３】
《類似記事》
＜英語記事＞
Notwet to buy back up to 5 mln shares
MINNEAPOLIS, Dec 6 (Reete) - Notwet Airlines Corp said Friday its board had approved a program to buy back up to two million shares of Class A common stock. The repurchases will occur from time to time in the open market or through negotiated transactions, the airline said. Shares repurchased under the program would offset dilution resulting from the exercise of employee stock options, the company said. As of October 31, Notwet had 90,000,000 common shares outstanding (100,000,000 on a fully distributed and diluted basis), the company said.
＜日本語記事＞
ノットウェット航空（米）、役員会が普通株200万株の買い戻しを承認
［ミネアポリス６日リィー○○］米ノットウェット航空は、同航空の役員会が、クラスＡ普通株を最大２００万株買い戻す計画を承認した。
【０１０４】
買い戻しは、公開市場で、あるいは直接取引により、随時行っていくという。
【０１０５】
買い戻しにより、従業員株式オプションの行使により希薄化された分が相殺される見通し。
【０１０６】
１０月３１日時点で、同航空の発行済普通株の総数は９０００万株（完全発行済み・希薄化ベースで１億株）。
【０１０７】
----------------------
類似記事検索部２は、所定の類似度以上の類似記事の電子情報を訳語情報抽出部３に出力する。訳語情報抽出部３は、翻訳用辞書８を利用して、類似記事から訳語を抽出する。例えば、上記《類似記事》の＜英語記事＞に出現している英単語“exercise”の日本語訳語候補として、翻訳用辞書８によれば、練習／演習／教練／練習問題／演習問題／行使／権利行使／使用／運動／体操／儀式／式／エクササイズ等が存在するものとする。一方、上記＜日本語記事＞に出現しているのは「行使」のみであり、訳語情報抽出部３は“exercise”の訳語候補として、「行使」を抽出する。
【０１０８】
同様に、上記＜日本語記事＞に出現している日本語サ行５段動詞の「買い戻す」の英語訳語候補は、翻訳用辞書８によれば、“repurchase/redeem/buy”であるものとする。このうち上記＜英語記事＞に出現しているのは“buy”であるので、訳語情報抽出部３は、“buy”の訳語候補として、「買い戻す」を抽出する。
【０１０９】
同様に、訳語情報抽出部３は、上記《類似記事》について下記《訳語情報》を抽出する。なお、（・・・）は英語品詞を示しめしており、（n）は名詞で、（v）は動詞である。また、＜…＞は日本語品詞を示している。
【０１１０】
《訳語情報》
buy(v)→ 買い戻す＜サ行５段動詞＞
approve(v)→ 承認＜両性名詞＞
program(n)→ 計画＜両性名詞＞
buy(v)→ 買い戻す＜サ行５段動詞＞
common stock(n)→ 普通株＜名＞
repurchase(n)→ 買い戻し＜両性名詞＞,買い戻す＜サ行５段動詞＞
repurchase(v)→ 買い戻し＜両性名詞＞,買い戻す＜サ行５段動詞＞
offset(v)→ 相殺＜両性名詞＞
exercise(n)→ 行使＜両性名詞＞
employee(n)→ 従業員＜名＞
stock option(n)→ 株式オプション＜名＞
dilute(v)→ 希薄＜形容詞＞
----------------------
なお、類似度が最も高い《類似記事》についての訳語情報抽出例を説明したが、実際には《類似記事の検索結果》に示す全ての類似記事について同様に訳語情報の抽出処理を行う。
【０１１１】
一方、フレーズアラインメント処理部４は、前処理結果であるヘッドラインの文字列と記事本文の文字列の電子情報が入力される。フレーズアラインメント処理部４は、ヘッドラインの文字列と記事本文の文字列に対してフレーズアラインメント処理を行う。
【０１１２】
即ち、フレーズアラインメント処理部４は、先ず、ヘッドラインから名詞句として、
“Dissss”，“"back up”， “95 mln/shares” を抽出する。
【０１１３】
また、フレーズアラインメント処理部４は、記事の先頭文から名詞句として、“BUUBANK”，“Calif.”，“April/23”，“Reete”，“Waaa Dissss/Co”，“board”，“stock/repurchase/program”，“95 million/shares”を抽出する。
【０１１４】
これらの名詞句のうち同一単語を含む組み合わせは、“Dissss”と“Waaa Dissss/Co”、“95 mln/shares”と“95 million/shares”である。上述したように、スペースやハイフンを含む辞書見出しを考慮して一致度を計算すると、前者は１／３で３３％である。後者は３／３で１００％である。なお、“mln”は“million”として処理されるが“95million/shares”が“95 mln/shares” のサブセット（この場合同一）であるため削除される。なお、図６のステップＳ64の閾値が３０％だったものとする。こうして、下記《フレーズアラインメント結果》がフレーズアラインメント処理部４から出力される。
【０１１５】
《フレーズアラインメント結果》
Dissss → Waaa Dissss/Co
----------------------
上記《訳語情報》及び《フレーズアラインメント結果》は翻訳処理部５に与えられる。翻訳処理部５は、翻訳用辞書８の英日辞書だけでなく、《訳語情報》及び《フレーズアラインメント結果》を用いて翻訳を行う。下記《使用訳語》は、訳語情報抽出部３が抽出した訳語情報のうち、翻訳処理部５が上記《翻訳対象の英語記事》の翻訳に利用した訳語情報を示している。なお、下記《使用訳語》は、訳語情報抽出部３が抽出した訳語情報のうち、訳語の変化に寄与したものだけを示している。左端に示した英単語の訳語が、矢印の（→）の左側に示す翻訳用辞書８に基づく訳語から右側に示す訳語に変化したことを示している。（・・・）は英語品詞を示し、（n）は名詞で、（v）は動詞である。また、＜・・・＞は日本語品詞をあらわしている。
【０１１６】
《使用訳語》
board(n) ボード→ 取締役会＜名詞＞
buy(v) 買う→ 買い戻す＜サ行五段動詞＞
program(n) プログラム→ 計画＜両性名詞＞
say(v) 言う→ 述べる＜下１段動詞＞
stock(n) ストック→ 株(名詞)
----------------------
下記《翻訳結果》は、翻訳処理部５が上記《使用訳語》及び《フレーズアラインメント結果》を利用して、《翻訳対象の英語記事》を翻訳した結果を示している。なお、下記《翻訳結果》においては、《訳語情報》（《使用訳語》）や《フレーズアラインメント結果》を利用しない場合との比較のために、翻訳用辞書８のみを用いた通常の翻訳結果（＜従来翻訳＞）と《訳語情報》及び《フレーズアラインメント結果》を利用した翻訳結果（＜適用翻訳＞）とを１文毎に示している。また、＜従来翻訳＞と＜適用翻訳＞との翻訳結果の相違個所は『』によってマークアップしている。
【０１１７】
《翻訳結果》
ヘッドライン：Dissss to buy back up to 95 mln shares
＜従来翻訳＞：ディー○○は、９千５００万株までバックアップを買『う。』
＜適用翻訳＞：『ウァ○○・』ディー○○『社』は、９千５００万株までバックアップを買『い戻す』
原文１ : BUUBANK, Calif., April 23 (Reete) - Waaa Dissss Co said its board had approved
a stock repurchase program of up to 95 million shares.
＜従来翻訳＞：ブー○○(カリフォルニア)、4月23日(リィー○○)―ウァ○○・ディー○○社は、その『ボード』が
９千５００万株以内の『ストック』買い戻し『プログラム』を承認したと『言っ』た。
【０１１８】
＜適用翻訳＞：ブー○○(カリフォルニア『州』)、4月23日(リィー○○)―ウァ○○・ディー○○社は、
その『取締役会』が９千５００万株以内の『株』買い戻し『計画』を承認したと『述べ』た。
【０１１９】
原文２：The program replaces a similar program that was in place prior to its acquisition of
Caapii Citti/AAC, it said on Monday.
＜従来翻訳＞：『プログラム』がキャッピ・シテッティ/AACのその獲得に先立って適所にあった、
類似した『プログラム』を交換する、とそれは月曜日に『言っ』た。
【０１２０】
＜適用翻訳＞：『計画』がキャッピ・シテッティ/AACのその獲得に先立って適所にあった、
類似した『計画』を交換する、とそれは月曜日に『述べ』た。
【０１２１】
----------------------
上記《翻訳結果》に示すように、ヘッドラインについては、＜従来翻訳＞の「ディー○○」が＜適用翻訳＞では「ウァ○○・ディー○○社」となり、より正確に企業名が翻訳されている。記事本文については、“stock”の訳語が＜従来翻訳＞の「ストック」から＜適用翻訳＞の「株」に変更され、“board”の訳語が＜従来翻訳＞の「ボード」から＜適用翻訳＞の「取締役会」に変更されており、全般的に適正な訳語が用いられている。なお、この例では示していないが、訳語情報の利用によってヘッドライン部分の訳語が改善されることも期待することができる。
【０１２２】
更に、英語ヘッドラインは文体が特殊で通常の翻訳を行っても適切な訳文が得られないことが多いことから、翻訳処理部５は、ヘッドライン翻訳専用の翻訳ルールを準備し、ヘッドラインの翻訳の際にだけ適用する。下記《ヘッドライン適用翻訳》は、翻訳処理部５が原文Ｒ1 〜Ｒ4 についてヘッドライン翻訳専用の翻訳ルールを適用した翻訳（＜適用翻訳＞）と、適用していない翻訳＜従来翻訳＞とを示している。
【０１２３】
《ヘッドライン適用翻訳》
原文Ｒ1 ：PLO arrests 90 Arabs in Gaza-Jericho crackdown
従来翻訳：PLOは、ガザーエリコ弾圧での90人のアラビア人を逮捕する。
【０１２４】
適用翻訳：PLO、ガザーエリコ弾圧での90人のアラビア人を逮捕
原文Ｒ2 ：Interactive tv to offer vlewers new powers
従来翻訳：見る人に新しい力を提供する対話型のtv
適用翻訳：対話型のtv、見る人に新しい力を提供
原文Ｒ3 ：Indian 1994/95 GDP seen rising 5.3 pct - Sharma
従来翻訳：インドの1994/95のGDPは、5.3%-Sharma上昇するのを見られた。
【０１２５】
適用翻訳：インドの1994ノ95のGDP、5.3%上昇する見通し−シャルマ大統領
原文Ｒ4 ：Chechen conflict may overshadow CIS summit
従来翻訳：チェチェン矛盾はCIS頂上を暗くするかもしれない。
【０１２６】
適用翻訳：チェチェン矛盾、CISサミットを暗くする可能性
----------------------
原文Ｒ1 の例は、体言止めルールの適用例である。文末の動詞がサ変名詞である場合には、文末の”する”を除き、格助詞「は」を「、」に変更して訳出する。この場合において、動詞の目的語が無いときには、格助詞「は」，「が」を「、」に変更すると不自然な翻訳になるので、体言止めルールを適用しない。
【０１２７】
原文Ｒ2 の例は、“to”の翻訳ルールの適用例である。訳出する語句の順番がより自然になるようになっている。
【０１２８】
原文Ｒ3 の例は、“seen”の翻訳ルールの適用例である。
【０１２９】
原文Ｒ4 の例は、“may”の翻訳ルールの適用例である。
【０１３０】
このように、ヘッドライン翻訳専用の翻訳ルールを適用することによって訳文がより自然なものとなる。ただ、これらの翻訳ルールは記事の本文に適用すると逆に不自然な翻訳となる場合が多い。従って、前処理でヘッドライン部分と記事本文部分とを判別してヘッドライン部分だけに適用することが必要になる。
【０１３１】
なお、３番目の例で”Sharma”の訳語の変化は、以下に述べるニュースの情報源の処理によっている。また、最後の例で”summit”の訳語が「頂上」から「サミット」に変化したのは、訳語情報抽出部３の出力である訳語情報の利用による。
【０１３２】
なお、上述した例では、１記事の翻訳処理について述べたが、１文書に複数の記事が含まれる場合には、前処理で各記事のヘッドラインと記事本文を検出した後、各記事毎に類似記事検索処理、訳語情報抽出処理、フレーズアラインメント処理及び翻訳処理を行えばよい。
【０１３３】
ところで、英語ニュースヘッドラインにはニュースの情報源を文末に示す場合がある。このようなヘッドラインを普通に翻訳すると正しく翻訳できないことが多い。そこで、ヘッドラインの末尾の単語がニュースの情報源であるか否かを記事先頭文を参照して判定し、そうである場合には、ヘッドラインを分割して翻訳する手法が考えられる。
【０１３４】
このような処理においては、ヘッドラインと記事先頭文を参照するので、フレーズアラインメント処理部４がフレーズアラインメント処理と平行して行うようにした方がよい。
【０１３５】
図８はこの場合の処理アルゴリズムを示すフローチャートである。
【０１３６】
フレーズアラインメント処理部４は、ステップＳ81において、ヘッドラインの形態素解析結果から文末の名詞句を取得し、名詞句Ａとする。次に、ステップＳ82において、フレーズアラインメント処理部４は、ニユースの情報源を示す表現で典型的に使用される動詞“report”，“say”，“tell”等の主語を抽出する。即ち、記事先頭文の形態素解析列に対して、名詞句＋（“report”又は“say”又は“tell”）のパターンを照合し、このパターンが存在すれば名詞句Ｂとする。なお、これらの動詞の表層形は過去形でも現在形でも完了形でもよい。
【０１３７】
フレーズアラインメント処理部４は、次のステップＳ83において名詞句Ｂが存在するか否かを判断し、存在する場合には、ステップＳ84においてフレーズアラインメント処理結果を利用し、名詞句Ａと名詞句Ｂがフレーズアラインメント結果に含まれているか否かを判断する。
【０１３８】
なお、ステップＳ84において利用するアラインメント結果は、図６のステップＳ65を行わないで得られるものである。即ち、記事本文中の語句がヘッドライン中の語句と同一又はそのサブセットである場合を含む。フレーズアラインメント処理部４は、名詞句Ａ，Ｂがフレーズアラインメント結果に含まれる場合には、名詞句Ａを情報源部分と判断して、翻訳処理部５にその情報を出力する。
【０１３９】
下記《ニュース情報源の処理結果》は、フレーズアラインメント処理部４がニュース情報源を表す動詞を利用して情報源部分を判断した場合における翻訳処理部５の翻訳（＜適用翻訳＞）と、利用していない場合の翻訳＜従来翻訳＞とを示している。
【０１４０】
《ニュース情報源の処理結果》
ヘッドライン：HKMA nearing full control of HK banking--analysts
記事先頭文：HONG KONG, Feb 10 (Reete) - The Hong Kong Monetary Authority (HKMA) will move a step closer to gaining complete control over the colony's banking system if the Banking (Amendment) Bill 1995 passes in late February, analysts said.
＜従来翻訳＞：HKMAは、HK銀行業務--アナリスト--の十分なコントロールに近づいている。
【０１４１】
＜適用翻訳＞：香港通貨当局は、HK金融の十分な規制に近づいている−−アナリスト
----------------------
上記《ニュース情報源の処理結果》の例では、ヘッドライン末尾の“-analysts”がこの記事の情報源を示している。また、その部分が情報源であることは、記事先頭文末尾の“analysts said.” という部分から分かる。＜従来翻訳＞ではこの部分を適切に翻訳することができない。
【０１４２】
図８のアルゴリズムを用いることにより、ヘッドライン末尾に“analysts”という単語があること及び記事先頭文末尾に“analysts said” という表現があること、従ってヘッドラインと記事先願文との間のフレーズアラインメント結果に同一語句“analysts”があることから、ヘッドライン中の語句“analysts”が情報源であることを判断することができる。
【０１４３】
フレーズアラインメント処理部４はその判断結果を翻訳処理部５に伝える。翻訳処理部５はその部分（“analysts”の直前）でヘッドラインを分割し、分割した前後を夫々翻訳した後接続して、最終的なヘッドラインの翻訳として出力する。これにより、＜適用翻訳＞に示すように、ヘッドラインの訳文がより適切な表現となっている。
【０１４４】
このように、本実施の形態においては、ヘッドライン部分及び本文の部分を検出して、ニュース記事の分類に応じた訳語情報及び名詞句の正確な抽出を可能にしており、ヘッドラインと本文とに対して適応的な翻訳を用いることにより翻訳精度を著しく向上させることができる。即ち、ヘッドラインに対してはヘッドライン翻訳専用のルールを適用して、ヘッドライン部分の訳文をより自然なものにすることができ、ヘッドライン中の略記された人名や会社名等の断片的な語句については、本文中の語句とのフレーズアラインメント処理によって略記表現でない正確な訳語で翻訳することができヘッドラインの翻訳品質を向上させることができる。また、ヘッドラインに含まれていない情報も適宜付加するので、ヘッドラインの訳語を読みやすく理解しやすくすることができる。しかも、検索された類似記事から抽出した訳語情報を利用しており、ヘッドライン部分及び記事本文部分の訳語精度を向上させることもできる。
【０１４５】
なお、上記実施の形態においては、英日翻訳の場合について説明したが、基本的な事柄は日英翻訳やその他の言語間の翻訳にも通用可能であることは明らかである。また、本実施の形態においては、英日対訳コーパスを利用した訳語情報抽出について説明したが、目的言語の単言語コーパスを利用することも考えられる。例えば、英日翻訳において日本語記事コーパスを準備し、翻訳対象の英語記事を通常に翻訳した後、その翻訳結果の日本語記事と類似している記事を本実施の形態で述べた手法でコーパス中から検索し、検索された日本語記事と元の英語記事の間で訳語情報抽出を行い、その結果を利用して再度翻訳する、という手法も考えられる。またこの方法の変形例として、翻訳対象の英語記事と類似した日本語記事を検索するのに、英日翻訳辞書を参照して英語記事の単語の訳語候補を取得し、それを利用して類似記事を検索するという方法もある。なお、この手法については、前述の参考文献（１）に記述されている。この手法では翻訳対象の英語記事の翻訳は１度しかされないので、処理の高速化を図ることができる。
【０１４６】
なお、一般に単言語コーパスの作成は、対訳コーパスの作成に比べてはるかに容易に実行できるので、単言語コーパスを利用する手法はその点で有利である。
【０１４７】
図９は本発明の他の実施の形態を示すブロック図である。図９において図１と同一の構成要素には同一符号を付して説明を省略する。
【０１４８】
本実施の形態は類似記事検索部２、英日対訳コーパス７及び翻訳用辞書８に代えて夫々類似記事検索／訳語抽出部１２、英日対訳コーパス１１及び翻訳用辞書１３を採用し、訳語情報抽出部３を省略した点が図１の実施の形態と異なる。翻訳用辞書１３は翻訳用辞書８から日英翻訳辞書を削除したものである。
【０１４９】
図５の訳語情報抽出アルゴリズムの欠点は、抽出に用いる辞書に登録されていない訳語については抽出不能である点である。そこで、英日対訳コーパス中の各英日記事対についてその訳語情報を抽出した後、適宜不適切なものの削除又は不足するものの追加等を行って、訳語情報を修正しておくことが考えられる。
【０１５０】
そして、英日対訳コーパス１１に、予め抽出して修正した訳語情報をその記事対と対応づけて保持しておく。類似記事検索／訳語抽出部１２は、類似記事検索の検索結果に応じて、その訳語情報を出力する。これにより、訳語情報の抽出処理は不要となる。
【０１５１】
このように本実施の形態においては、全体の処理が高速になるのみならず、システム中に英日対訳コーパスの英日記事本文を保持しておく必要がないので、必要な記憶容量を著しく低減させることができる。
【０１５２】
【発明の効果】
以上説明したように本発明によれば、ニュース記事、特にヘッドラインを高精度に機械翻訳することができるという効果を有する。
【図面の簡単な説明】
【図１】本発明に係る翻訳装置の一実施の形態を示すブロック図。
【図２】前処理部におけるヘッドライン部分及び記事本文部分を判別するアルゴリズムを示すフローチャート。
【図３】図２中のステップＳ5 の判定アルゴリズムを示すフローチャート。
【図４】類似記事検索処理のステップ（ｄ），（ｅ），（ｆ）の処理を、これと等価でより高速化したアルゴリズムを示すフローチャート。
【図５】訳語情報抽出部３の処理アルゴリズムを示すフローチャート。
【図６】フレーズアラインメント処理のアルゴリズムを示すフローチャート。
【図７】ヘッドライン中において略語表記が行われている場合に対応した略語推定処理を示すフローチャート。
【図８】ニュース情報に対する情報源検出処理のアルゴリズムを示すフローチャート。
【図９】本発明の他の実施形態を示すブロック図。
【符号の説明】
１…前処理部、２…類似記事検索部、３…訳語情報抽出部、４…フレーズアラインメント処理部、５…翻訳処理部、７…英日対訳コーパス、８…翻訳用辞書。

Claims

記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳装置であって、
前記ヘッドライン部分と前記記事本文部分とを判定する判定手段と、
前記判定手段の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手段とを具備し、
前記翻訳手段は、前記判定手段の判定結果を利用して、前記ヘッドライン部分の語句と前記記事本文部分の語句との間でフレーズアラインメント処理を行って、前記ヘッドライン中の名詞句と前記記事本文の名詞句との類似度を算出し、同一物を指している語句の対応情報を処理結果として得るフレーズアラインメント手段を具備し、前記フレーズアラインメント手段の前記処理結果を前記ヘッドライン部分の翻訳に利用することを特徴とする翻訳装置。
前記フレーズアラインメント手段は、前記ヘッドライン部分の略語を前記記事本文部分の対応する語句に変換する略語推定処理が可能であることを特徴とする請求項１に記載の翻訳装置。
前記フレーズアラインメント手段は、前記ヘッドライン部分から大文字が連続する文字列を検出する第１の検出手段と、
前記記事本文部分から大文字で始まる単語の連結によって構成されている文字列を検出する第２の検出手段と、
前記第１及び第２の検出手段の検出結果に対するフレーズアラインメント処理によって前記略語を前記記事本文部分の対応する語句に変換することを特徴とする請求項２記載の翻訳装置。
記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳装置であって、
前記ヘッドライン部分と前記記事本文部分とを判定する判定手段と、
前記判定手段の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手段とを具備し、
前記翻訳手段は、所定の２つの言語の記事の対を複数保持する保持手段と、
前記判定手段の判定結果を用いて翻訳対象の記事を検出し、前記保持手段から前記翻訳対象の記事に類似した記事の対を検索する検索手段と、
前記検索手段が検索した記事の対から前記翻訳対象の記事の翻訳に用いる訳語情報を抽出する抽出手段と、
前記抽出手段が抽出した前記訳語情報を前記翻訳対象の記事の翻訳に利用する翻訳処理部とを具備したことを特徴とする翻訳装置。
前記検索手段は、前記保持手段が保持している２つの言語の記事の対に含まれる単語同士の類似度に基づいて翻訳対象の記事に類似した記事の対を検索することを特徴とする請求項４に記載の翻訳装置。
前記検索手段は、固有名詞、日付及び数量のうちの少なくとも１つの種類の単語については類似度判定の重みを下げることを特徴とする請求項５に記載の翻訳装置。
判定部、翻訳部、検出部及び略語推定部を備えたコンピュータによって、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳方法であって、
前記判定部が、前記ヘッドライン部分と前記記事本文部分とを判定する判定手順と、
前記翻訳部が、前記判定手順の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手順とを具備し、
前記翻訳手順は、前記判定手順の判定結果を利用して、前記ヘッドライン部分の語句と前記記事本文部分の語句との間でフレーズアラインメント処理を行って、前記ヘッドライン中の名詞句と前記記事本文の名詞句との類似度を算出し、同一物を指している語句の対応情報を処理結果として得るものであって、前記検出部が、前記ヘッドライン部分から大文字が連続する文字列を検出すると共に、前記記事本文部分から大文字で始まる単語の連結によって構成されている文字列を検出する検出手順と、
前記略語推定部が、前記検出手順の検出結果に対するフレーズアラインメント処理によって前記略語を前記記事本文部分の対応する語句に変換する略語推定手順と、
前記翻訳部が、前記略語推定手順の処理結果を前記ヘッドライン部分の翻訳に利用する手順とを具備したことを特徴とする翻訳方法。
判定部、翻訳部、検出部及び略語推定部を備えたコンピュータによって、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳方法であって、
前記判定部が、前記ヘッドライン部分と前記記事本文部分とを判定する判定手順と、
前記翻訳部が、前記判定手順の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手順とを具備し、
前記翻訳手順は、前記判定手順の判定結果を用いて翻訳対象の記事を検出し、前記検出部が所定の２つの言語の記事の対が複数保持された保持部から前記翻訳対象の記事に類似した記事の対を検索する検索手順と、
前記翻訳部が、前記検索手順によって検索した記事の対から前記翻訳対象の記事の翻訳に用いる訳語情報を抽出して前記翻訳対象の記事の翻訳に利用する手順とを具備したことを特徴とする翻訳方法。
判定部、翻訳部、検出部及び略語推定部を備えたコンピュータによって、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳プログラムであって、
前記コンピュータに、
前記判定部によって、前記ヘッドライン部分と前記記事本文部分とを判定する判定処理手順と、
前記翻訳部によって、前記判定処理手順の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳処理手順とを実行させるための翻訳プログラムであって、
前記翻訳処理手順は、前記判定処理手順の判定結果を利用して、前記ヘッドライン部分の語句と前記記事本文部分の語句との間でフレーズアラインメント処理を行って、前記ヘッドライン中の名詞句と前記記事本文の名詞句との類似度を算出し、同一物を指している語句の対応情報を処理結果として得るものであって、前記検出部によって、前記ヘッドライン部分から大文字が連続する文字列を検出すると共に、前記記事本文部分から大文字で始まる単語の連結によって構成されている文字列を検出する検出処理手順と、
前記略語推定部によって、前記検出処理手順の検出結果に対するフレーズアラインメント処理によって前記略語を前記記事本文部分の対応する語句に変換する略語推定処理手順と、
前記翻訳部によって、前記略語推定処理手順の処理結果を前記ヘッドライン部分の翻訳に利用する処理手順とを含むことを特徴とする翻訳プログラム。
判定部、翻訳部、検出部及び略語推定部を備えたコンピュータによって、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳プログラムであって、
前記コンピュータに、
前記判定部によって、前記ヘッドライン部分と前記記事本文部分とを判定する判定処理手順と、
前記翻訳部によって、前記判定処理手順の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳処理手順とを実行させるための翻訳プログラムであって、
前記翻訳処理手順は、前記判定処理手順の判定結果を用いて翻訳対象の記事を検出し、前記検出部によって、所定の２つの言語の記事の対が複数保持された保持部から前記翻訳対象の記事に類似した記事の対を検索する検索処理手順と、
前記翻訳部によって、前記検索処理手順によって検索した記事の対から前記翻訳対象の記事の翻訳に用いる訳語情報を抽出して前記翻訳対象の記事の翻訳に利用する処理手順とを含むことを特徴とする翻訳プログラム。