JP3765801B2

JP3765801B2 - 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム

Info

Publication number: JP3765801B2
Application number: JP2003150770A
Authority: JP
Inventors: さより下畑
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2003-05-28
Filing date: 2003-05-28
Publication date: 2006-04-12
Anticipated expiration: 2023-05-28
Also published as: JP2004355224A; US20050010390A1

Description

【０００１】
【発明の属する技術分野】
本発明は対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラムに関し、例えば、文対応のついていない２言語のコーパスから、対訳表現を抽出する場合などに適用して好適なものである。
【０００２】
【従来の技術】
コーパスから対訳表現を抽出する方法としては、一般的に、文対応のついた２言語コーパス（パラレルコーパス）を使って、対応する文に出現する語のペアを抽出する方法が知られている。しかし、実際に存在するパラレルコーパスは少ないため、適用範囲が限られ、実用上問題がある。
【０００３】
一方、文対応のついていない２言語のコーパスから対訳表現を抽出する方法として、下記の非特許文献１に開示されたものがある。この方法では、ある言語で共起する単語のペアは別の言語でも共起するという考えのもとに、対訳表現の抽出を行う。すなわち、２言語の対応する単語リストを使って、各言語での単語リスト中の単語と対応付けの対象語（以下、候補語と呼ぶ）の間の共起パターンを抽出し、２言語間で類似する共起パターンを持つ候補語のペアを対訳表現として抽出する。
【０００４】
一般的に「共起」とは、ある単語とある単語が一定の範囲内（例えば、文や段落）に同時に出現する状態のことをいうが、ここでは、候補語に注目し、当該候補語に対して単語リスト中の１または複数の単語が一定の範囲内に出現することが共起にあたる。
【０００５】
非特許文献１では、使用するコーパスは、同一内容、同一分野であることが望ましいものの、必ずしもパラレルコーパスである必要はない。このようなコーパスは多数存在するので、パラレルコーパスを用いる方法と比べて、適用範囲が広く、実用的である。
【０００６】
【非特許文献１】
「Finding Terminology Translations from Non-parallel Corpora」
Proceedings of 5th International Workshop of Very Large Corpora(WVLC-5),Pages 192-202,Hong Kong,August 1997
【０００７】
【発明が解決しようとする課題】
しかしながら、上記非特許文献１に開示された方法では、単語リストが固定（不変）のため、コーパスのサイズやコーパス中に含まれている単語の種類によっては、抽出できる対訳表現の数が少ないことが起こり得、対訳表現の抽出効率が低い。
【０００８】
対訳表現は例えば辞書などとして活用することで自然言語処理上、有用な言語資源となるから、コーパスから対訳表現を抽出する際の効率を高めることは重要である。
【０００９】
【課題を解決するための手段】
かかる課題を解決するために、第１の本発明にかかる対訳表現抽出装置は、（１）第１言語および第２言語のコーパスを格納したコーパス格納部と、（２）予め対応関係の確認されている第１言語の語句と第２言語の語句を対応付け、対訳表現として登録した対訳表現格納部と、（３）前記第１言語のコーパスから抽出した語句である第１候補語句と、前記対訳表現格納部に登録されている第１言語の１または複数の語句との共起状況と、前記第２言語のコーパスから抽出した語句である第２候補語句と、前記対訳表現格納部に登録されている第２言語の１または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算する類似度演算部と、（４）当該類似度演算部が演算結果として得た類似度が所定のしきい値以上に高い関係にある第１候補語句と第２候補語句を対応付け、新たな対訳表現として前記対訳表現格納部に追加的に登録する追加登録部とを備え、（５）この追加的な登録を行ったあとの対訳表現格納部をもとに、前記類似度演算部と、前記追加登録部を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする。
【００１０】
また、第２の本発明にかかる対訳表現抽出方法は、（１）第１言語および第２言語のコーパスをコーパス格納部に格納すると共に、予め対応関係の確認されている第１言語の語句と第２言語の語句を対応付け、対訳表現として対訳表現格納部に登録しておき、（２）類似度演算部が、前記第１言語のコーパスから抽出した語句である第１候補語句と、前記対訳表現格納部に登録されている第１言語の１または複数の語句との共起状況と、前記第２言語のコーパスから抽出した語句である第２候補語句と、前記対訳表現格納部に登録されている第２言語の１または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算し、（３）追加登録部が、当該類似度演算部が演算結果として得た類似度が所定のしきい値以上に高い関係にある第１候補語句と第２候補語句を対応付け、新たな対訳表現として前記対訳表現格納部に追加的に登録し、（４）この追加的な登録を行ったあとの対訳表現格納部をもとに、前記類似度演算部と、前記追加登録部を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする。
【００１１】
さらに、第３の本発明にかかる対訳表現抽出プログラムでは、コンピュータに、（１）第１言語および第２言語のコーパスを格納したコーパス格納機能と、（２）予め対応関係の確認されている第１言語の語句と第２言語の語句を対応付け、対訳表現として登録する対訳表現格納機能と、（３）前記第１言語のコーパスから抽出した語句である第１候補語句と、前記対訳表現格納機能によって登録されている第１言語の１または複数の語句との共起状況と、前記第２言語のコーパスから抽出した語句である第２候補語句と、前記対訳表現格納機能によって登録されている第２言語の１または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算する類似度演算機能と、（４）当該類似度演算機能が演算結果として得た類似度が所定のしきい値以上に高い関係にある第１候補語句と第２候補語句を対応付け、新たな対訳表現として前記対訳表現格納機能に追加的に登録させる追加登録機能とを実現させ、（５）この追加的な登録を行ったあとの対訳表現格納機能をもとに、前記類似度演算機能と、前記追加登録機能を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする。
【００１２】
【発明の実施の形態】
（Ａ）実施形態
以下、本発明にかかる対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラムの実施形態について説明する。
【００１３】
第１および第２の実施形態に共通する特徴は、対訳表現を特定し追加したあと、追加した対訳表現も含む全対訳表現集合を利用して、さらなる対訳表現の特定および追加を繰り返す点にある。
【００１４】
（Ａ−１）第１の実施形態の構成
本実施形態にかかる対訳表現収集システム１０の全体構成例を図１に示す。
【００１５】
図１において、当該対訳表現収集システム１０は、入出力装置１と、処理装置２と、記憶装置３とを備えている。
【００１６】
このうち入出力装置１は、入力部１１と出力部１２とからなる。
【００１７】
入力部１１は、例えば、キーボードやマウスなどのポインティングデバイス、スキャナと文字認識処理、マイクと音声認識処理などの各種機能によって構成され得る部分で、ユーザＵ１が各種入力操作を行なう際に機能する。
【００１８】
出力部１２は、例えば、ディスプレイ装置への表示、音声への変換および音声出力などの各種機能によって構成され得る部分で、ユーザＵ１に対して各種の情報を提供する。ここで、ユーザＵ１は、当該対訳表現収集システム１０を操作するオペレータなどであってよい。
【００１９】
ただし当該入力部１１や出力部１２は、人間であるユーザＵ１とのインタフェースとして機能するだけでなく、リモートの、あるいはローカルの情報処理装置（図示せず）とのあいだで制御情報やデータのやり取りを行うためにも機能し得る。このようなユーザＵ１あるいは情報処理装置とのやり取りに応じて、後述するコーパス３１の内容などが増減、変更されるものであってもよい。
【００２０】
例えば、リモートの情報処理装置とのやり取りの例としては、インターネット上のＷｅｂサーバから取得したＷｅｂページなどを、コーパスとして、随時、追加することがあげられる。パラレルコーパスに限定するとその数は限られてしまうが、本実施形態は、パラレルコーパスに限らず、文対応のついていない２言語のコーパスに対しても適用可能であるから、原文とその訳文の関係にあるコンテンツであれば、意訳しているために必ずしも原文、訳文間の文どうしの対応関係が明確でない場合などにも適用することができる。そのようなコンテンツは、インターネット上に分散配置されている多数のＷｅｂサーバから取得することが可能である。
【００２１】
また、コーパス３１に関する条件はさらに緩和し、同一分野（同一カテゴリ）の文章など、内容的に似た文章であれば、必ずしも原文と訳文の関係にないものであっても本実施形態のコーパスとして利用できる可能性がある。
【００２２】
前記記憶装置３は、ハードウエア的には、ハードディスクや光ディスクなどの不揮発性記憶手段や、メモリなどの揮発性記憶手段などから構成され、ソフトウエア的には、辞書やリストなど、各種のデータ構造に対応した形式で情報を収容し記憶する部分である。
【００２３】
この記憶装置３は、前記コーパス３１のほか、対応語リスト３２，候補語リスト３３と、獲得表現リスト３４を備えている。
【００２４】
コーパス３１は、自然言語的な観点からみると本実施形態で収集しようとしている対訳表現の母体となる言語資料の集合であるが、当該集合に対する探索操作などを容易にするため、データベースの形で提供される。
【００２５】
コーパス（２言語コーパス）３１には、多数の文章が含まれていてよいが、言語の相違の観点で大きく２つに分けることができる。第１言語のコーパス３１Ａと、第２言語のコーパス３１Ｂの２つである。第１言語、第２言語には、様々な言語を選定することが可能であるが、ここでは、第１言語として日本語を、第２言語として英語を選定するものとする。
【００２６】
本実施形態でも、第１言語のコーパス３１Ａと第２言語のコーパス３１Ｂのあいだで明確な文対応がついていること（パラレルコーパスであること）は、より品質の高い対訳表現を抽出する上で望ましいといえるが、それが必ずしも必須ではない点はすでに述べた通りである。すなわち、意訳しているために第１言語コーパス３１Ａと第２言語コーパス３１Ｂの間の文どうしの対応関係が明確でない場合などにも本実施形態は適用でき、また、同一分野（同一カテゴリ）の文章など、内容的に似た文章であれば、第１言語コーパス３１Ａと第２言語コーパス３１Ｂが、必ずしも原文と訳文の関係になくても本実施形態は適用できる可能性がある。
【００２７】
原文と訳文の関係にある場合には当然、第１言語コーパス３１Ａの属する分野と、第２言語コーパス３１Ｂの属する分野は同じであるため、本実施形態において第１言語コーパス３１Ａと第２言語コーパス３１Ｂの関係に関して必ず満足しなければならない最低限の条件は、属する分野が同じであることであるといえる。この分野には、様々なものを選定することが可能であるが、一例として、本実施形態では、「野球」を選定する。
【００２８】
この場合、コーパス３１Ａ、３１Ｂの具体例としては、例えば、野球に関する日本語の新聞記事（３１Ａに対応）と、その英語版の新聞記事（３１Ｂに対応）などをあげることができる。
【００２９】
前記対応語リスト３２は、あらかじめ対応関係が確認されている２言語の対訳表現（表現対）を格納するリストである。対応語リスト３２は、必ずしもデータ構造としてのリスト構造を用いて実現する必要はないが、本実施形態では、主として表現対の追加を繰り返すことになるため、リスト構造中に含まれる要素数（対訳表現の数）に依存しない一定の処理量で追加操作を行うことができるという意味で、データ構造としてのリスト構造を用いて対応語リスト３２を実現することは好ましい。
【００３０】
リスト構造として、例えば、先頭の要素（各要素に１つ（１対）の対訳表現が含まれる）を指定する特殊なポインタ（リストヘッダ）を伴う単リスト（単方向リスト）を仮定すると、処理量低減の観点から、要素の追加（対訳表現の追加登録）は、単リストの先頭部分に対して行うことが望ましい。単リスト上では各要素に含まれるポインタ（図示せず）のみがリスト上の前後関係を規定するため、先頭以外の要素に到達するには、先頭の要素から順番に１要素ずつたどって線形探索を実行することになるからである。
【００３１】
対応語リスト３２の内容には様々なものがあり得るが、一例として、図６に示すようなものであってよい。図６の例では、対応語リスト３２の表現対は前記「野球」分野に属するものとなっている。本実施形態の構成上、初期状態で、対応語リスト３２内に「野球」分野に属する対訳表現がある程度の数、登録されていることが求められるが、「野球」分野に属さない対訳表現が登録されていてもかまわない。必要ならば、初期状態で求められる、ある程度の数の「野球」分野に属する対訳表現は、前記入出力装置１を介してユーザＵ１が登録するようにしてもよい。
【００３２】
図６の例では、１つの対訳表現（例えば、「ブルペン」と「bull pen」から構成される対訳表現）が１つの要素であり、このような要素を単位として追加、探索、削除などの操作が行われ得る。
【００３３】
前記候補語リスト３３は、「リスト」という点に関して、前記対応語リスト３２と同様のことが成立するが、候補語リスト３３に登録されている単語は、例えば、形態素解析などを行うことによって、第１言語または第２言語のコーパス３１Ａ、３１Ｂから切り出されたものにすぎず、対応関係が未確認な単語である。
【００３４】
対応関係が確認されていないため、候補語リスト３３にも、前記コーパス３１と同様、第１言語の候補語リスト３３Ａと、第２言語の候補語リスト３３Ｂがある。一例として、第１言語候補語リスト３３Ａは図５（Ａ）に示すものであってよく、第２言語候補語リスト３３Ｂは図５（Ｂ）に示すものであってよい。あるいは、第１言語候補語リスト３３Ａは図８（Ａ）に示すもので、第２言語候補語リスト３３Ｂは図８（Ｂ）に示すものとしてもよい。
【００３５】
獲得表現リスト３４は、対訳表現収集システム１０によって対応関係が確認され新たに収集された獲得表現（対訳表現）を登録するためのリストで、基本的に、前記対応語リスト３２と同じ構造を有するものである。本実施形態の構成上、当該獲得表現リスト３４は必ずしも必須ではないが、この獲得表現リスト３４を用いれば、本実施形態で新たに収集された対訳表現を、すでに対応語リスト３２に登録されていた対訳表現と区別すること等も容易に行うことができる。
【００３６】
１つの第１言語の候補語に対して、複数の第２言語の候補語が抽出されることも起こり得るが、その場合には、例えば、類似度の高いほうのみを獲得表現リスト３４に格納したり、前記出力部１２を介して複数の候補語をユーザＵ１に提示しユーザＵ１が選択したものを獲得表現リスト３４に格納するなどの方法で、対訳表現中の第１言語と第２言語のあいだに１対１の対応関係を維持することができる。
【００３７】
当該獲得表現リスト３４に登録される獲得表現は、例えば、図１０に示すものであってよい。
【００３８】
前記処理装置２は、ＣＰＵ（中央処理装置）などの演算装置や作業用の記憶手段としてのメモリ、制御部（必要に応じて、ＯＳ（オペレーティングシステム）なども含む）などを備えており、共起パターン抽出部２１と、類似度判定部２２を有する。
【００３９】
共起パターン抽出部２１は、共起パターンの抽出を行う部分である。ここで、共起とは、２つの単語が一定の範囲内（文、節、章など）に同時に出現する状態のことである。また、共起パターンとは、単語の共起の傾向を特徴ベクトルの形式で数値化したもので、候補語リスト３３に格納されている各候補語ごとに抽出される。例えば、ある候補語が、前記対応語リスト３２に格納されている対訳表現のうちの一方である対応語（例えば、「ブルペン」と「bull pen」から構成される対訳表現の場合における「ブルペン」）とのあいだで、どのように共起するかを示す情報が、当該特徴ベクトルである。その候補語が例えば第１言語に属する単語であるものとすると、対応語も第１言語のほうから選ばれるのは当然である。
【００４０】
一例として、各候補語ごとに共起パターンを示すと、図７（Ａ）〜（Ｄ）のようになる。
【００４１】
例えば、図７（Ａ）では、候補語「打者」に対し、対応語群として「ブルペン」、「投球」、「ホームラン」、「ヒット」、「技術」、「経済」の共起頻度を調べ、「ホームラン」と「ヒット」の共起頻度が高く、「技術」の共起頻度が中で、「ブルペン」と「投球」の共起頻度が低く、「経済」との共起頻度はゼロ（共起しない）ことを示している。
【００４２】
共起パターンを示す特徴ベクトルの作成方法としては、各単語と共起するかどうかを１，０の属性値で示したベクトルを用いること等も可能であるが、ここでは、共起頻度を属性とする実数ベクトルを用いるものとする。図７に示した「高」、「中」、「低」、「無」のパターンの具体的内容が、当該実数ベクトルに対応する。
【００４３】
前記類似度判定部２２は、２言語間の候補語の共起パターンを比較し、その類似度を測る機能を有する部分である。ここでも、上述したように、ある言語（例えば、第１言語としての日本語）で共起する単語のペアは別の言語（例えば、第２言語としての英語）でも共起するという考えを利用している。
【００４４】
例えば、第１言語の「打者」に対応付けられて１つの対訳表現を構成するべき第２言語の単語は「batter」であるが、図７（Ａ）と（Ｄ）を対比すれば明らかなように、「打者」の共起パターンと「batter」の共起パターンは、対応語「技術」（technology）に対する共起頻度が相違するために同一ではなくなっているが、それ以外の対応語に対する共起頻度は同じであり、かなり類似しているといえる。
【００４５】
類似度判定部２２は、このような類似の度合い（類似度）を所定の計算方法で演算する部分で、得られた類似度が所定のしきい値ＴＨ１を越えた候補語の対は獲得表現として前記獲得表現リスト３４に格納するとともに、対訳表現として対応語リスト３２に格納する。ここで、獲得表現は、前記対訳表現に等しい。
【００４６】
類似度を計算するための計算方法としては、例えば、共起パターン間のユークリッド距離を求める方法、ｃｏｓｉｎｅｍｅａｓｕｒｅを求める方法などが考えられるが、ここでは、前記「高」、「中」、「低」などの共起頻度の段階が一致する対応語の数を計数することによって作成するものとする。
【００４７】
例えば、図７（Ａ）および（Ｄ）の例では、６つの対応語のうち「技術」（technology）を除く５つの対応語の共起頻度の段階が一致しているため、「打者」の共起パターンと「batter」の共起パターンの類似度は、５となる。
【００４８】
なお、共起頻度の段階は、共起の強さを示すものである。必要に応じて統計的な処理を行うことにより、コーパス３１中における共起の頻度が高いとされたものほど、段階が前記「高」に近づくことになる。
【００４９】
また、当該しきい値ＴＨ１は様々な値に設定することが可能であるが、図６に示したように、対訳表現の数が６程度ならば、４または３程度に設定するものであってよい。
【００５０】
以下、上記のような構成を有する本実施形態の動作について、図２〜図４のフローチャートを参照しながら説明する。
【００５１】
図２のフローチャートは全体的な処理の流れを示すもので、Ｓ２１〜Ｓ２７の各ステップを備えている。
【００５２】
これに対し図３のフローチャートは共起パターン抽出部２１の処理の流れを示すもので、Ｓ３１〜Ｓ３６の各ステップを備えている。同様に、図４のフローチャートは類似度判定部２２の処理の流れを示すフローチャートで、Ｓ４１〜Ｓ４５の各ステップを備えている。
【００５３】
（Ａ−２）第１の実施形態の動作
図２において、前記候補語リスト３３内の第１言語候補語リスト３３Ａと第２言語候補語リスト３３Ｂに各言語の候補語が格納され、格納された各候補語につき、前記共起パターン抽出部２１が共起パターンの抽出を行う（Ｓ２１，Ｓ２２）。
【００５４】
次に、前記類似度判定部２２が前記共起頻度の段階が一致する対応語の数を計数することにより、類似度が所定のしきい値ＴＨ１を越えた候補語の対の有無を検査する（Ｓ２３，Ｓ２４）。当該ステップＳ２３の処理は、候補語リスト３３中に残っているすべての候補語の可能な組み合わせ（対）に関して処理を終えるまで繰り返される。ステップＳ２４の検査の結果、類似度がしきい値ＴＨ１を越えた候補語の対がなければ、ステップＳ２４はｎｏ側に分岐して処理を終える。このケースでは、第１言語コーパス３１Ａ、第２言語コーパス３１Ｂを変更するか、対応語リスト３２の前記初期状態を変更しない限り、求める候補語の対（すなわち、対訳表現）は得られない。
【００５５】
一方、ステップＳ２４がｙｅｓ側に分岐したときには、その候補語の対を、前記獲得表現として獲得表現リスト３４に格納するとともに、前記対訳表現として対応語リスト３２に格納する（Ｓ２５，Ｓ２６）。獲得表現リスト３４や対応語リスト３２に格納した候補語の対に関してはこれによって処理が終了したため、前記候補語リスト３３から削除する。
【００５６】
例えば、図７（Ａ）〜（Ｄ）の例の場合、候補語「打者」と「batter」の対では計数結果は５であるのに対し、候補語「打者」と「pitcher」の対では計数結果は1である。また、候補語「投手」と「batter」の対では計数結果は１であるのに対し、候補語「投手」と「pitcher」の対では計数結果は４である。
【００５７】
したがって、この場合、前記しきい値ＴＨ１が３であるとするなら、候補語「打者」と「batter」の対と、候補語「投手」と「pitcher」の対に関して、ステップＳ２４がｙｅｓ側に分岐することになる。
【００５８】
このため、対応語リスト３２に対して行われるステップＳ２６による対訳表現の格納では、一度に、２つ（２対）の対訳表現、すなわち「打者」と「batter」の対である対訳表現と、「投手」と「pitcher」の対である対訳表現の２つが格納され得る。一度に格納される対訳表現の数は、コーパス３１の内容や対応語リスト３２の内容に応じて変動し、１つの対訳表現しか格納されないこともあり得るが、多くのケースでは、この例のように複数の対訳表現が格納されることになる。
【００５９】
このようにして対訳表現が登録されるたびに対応語リスト３２中の対訳表現は増加するため、同じ内容のコーパス３１に対する処理であっても、ステップＳ２１〜Ｓ２４の処理内容の詳細は、ステップＳ２１〜Ｓ２７によって構成されるループを繰り返すたびに変化し、より適切な対訳表現を、抽出することが可能になる。
【００６０】
これにより、登録された対訳表現の数が少ないときの処理では計算された類似度が小さいために獲得できなかった候補語の対も、対応語リスト３２中の対訳表現の数が増加したあとの処理では、対訳表現として獲得できる可能性が高まる。
【００６１】
例えば、対応語リスト３２の初期状態が図６に示すものであったとしても、前記ステップＳ２６で対訳表現（「打者」と、「batter」の対）が格納されたあとでは、図９に示す状態となり、図９の状態の対応語リスト３２を用いてステップＳ２１〜Ｓ２４の処理が実行されることになる。このように、図６の状態から図９の状態に変化する場合、図６の下端部（「経済」と「economy」の対）の位置が、上述した単リストの先頭部分に相当する構成とするのが望ましい。
【００６２】
なお、対応語リスト３２中の対訳表現の数が増加すれば、それに合わせて、前記しきい値ＴＨ１も大きくすることが望ましい。例えば、対応語リスト３２に登録された対訳表現の数が数百にも達しているのに、しきい値ＴＨ１が３のままであるとすると、本来、登録すべきではない候補語の対を対訳表現として登録してしまう可能性が高くなるからである。
【００６３】
一方、共起パターン抽出部２１の動作を示す図３のフローチャートは、図２のフローチャートとの関係では、図２中の前記ステップＳ２１またはＳ２２の詳細を示したものとみることもできる。
【００６４】
図３において、当該共起パターン抽出部２１は、候補語リスト３３からの候補語の読み込み（Ｓ３１）と、対応語リスト３２からの対訳表現の読み込み（Ｓ３２）を行い、前記共起の関係にある対応語と候補語を抽出する（Ｓ３３）。このステップＳ３２およびＳ３３の処理は未処理の対応語がなくなるまで繰り返される（Ｓ３４のｙｅｓ側の分岐）。したがって、ステップＳ３２〜Ｓ３４のループは、前記対応語リスト３２が図６に示す初期状態にあるときには６回、図９に示す状態にあるときには７回、各候補語に対して繰り返されることになる。この繰り返しの回数は、対応語リスト３２に含まれる対訳表現の数の増大に応じて増大することは当然である。
【００６５】
ある候補語に対して全対応語との共起の有無が検査されると、ステップＳ３４はｎｏ側に分岐し、前記共起パターン抽出部２１が当該候補語につき前記共起パターン（実数ベクトル）を抽出する（Ｓ３５）。抽出した共起パターンは、処理装置２内の前記メモリに格納しておくとよい。
【００６６】
前記ステップＳ３１〜Ｓ３５の処理は、すべての候補語に対する処理が終わるまで繰り返され（ステップＳ３６のｙｅｓ側の分岐）、すべての候補語に対する処理が終わると、図３のフローチャートが終了する。
【００６７】
なお、図３のフローチャートでは、最初に外側のループで候補語を１つ選定し、内側のループでは、選定したその候補語と組み合わせる対応語を次々と変化させ、最終的には候補語と対応語のすべての組み合わせにつき、共起頻度を得て、共起パターンを抽出しているが、内側のループと外側のループを入れ替え、最初に対応語を１つ選定するようにしてもよいことは当然である。
【００６８】
次に、図４のフローチャートを用いて類似度判定部２２の動作を説明する。図４のフローチャートは類似度判定部２２の動作を示したものであるが、図２のフローチャートとの関係では図２中の前記ステップＳ２３等の詳細を示したものとみることもできる。
【００６９】
第１言語の候補語と第２言語の候補語に対して図３のフローチャートの処理が実行されたことによって、すでに各候補語に対する共起パターンの抽出は完了しているため、図４のステップＳ４１とＳ４２では、それらの共起パターンを読み込むことができる。最初にステップＳ４１で第１言語の候補語を読み、次にステップＳ４２で第２言語の候補語を読み、第１言語の候補語に対する第２言語の候補語の組み合わせ（候補語の対）を変化させる。つづくステップＳ４３では、上述したように、各候補語の対に関し、共起頻度の段階が一致する対応語の数を計数することによって類似度を計算する。
【００７０】
なお、図４のフローチャートでは、最初に外側のループで第１言語の候補語を１つ選定し、内側のループでは、選定したその第１言語の候補語と組み合わせる第２言語の候補語を次々と変化させ、最終的には第１、第２言語間におけるすべての候補語の組み合わせにつき、類似度の計算を行っているが、内側のループと外側のループを入れ替え、最初に第２言語の候補語を１つ選定するようにしてもよいことは当然である。
【００７１】
（Ａ−３）第１の実施形態の効果
本実施形態によれば、文対応がついていなくても、同じ分野に属する第１言語コーパス（３１Ａ）と第２言語コーパス（３１Ｂ）を用意することにより、自動的に対訳表現を獲得することができる。
【００７２】
また、本実施形態では、獲得された対訳表現を登録して対訳表現の数が増加した対応語リスト（３２）を用いて、同じコーパス（３１Ａ、３１Ｂ）からさらなる対訳表現の獲得を行うことが可能である。
【００７３】
登録された対訳表現の数が少ないときの処理では計算された類似度が小さいために獲得できなかった候補語の対も、対応語リスト（３２）中の対訳表現の数が増加したあとの処理では対訳表現として獲得できる可能性が高まるから、対訳表現の抽出効率が向上する。
【００７４】
（Ｂ）第２の実施形態
以下では、本実施形態が第１の実施形態と相違する点についてのみ説明する。
【００７５】
第１の実施形態では、対応語リスト３２に含まれる全ての単語（対応語）に関する共起頻度を同等に評価しているため、出現頻度が共起頻度に直接影響する。このため、コーパス（３１Ａまたは３１Ｂ）における単語の出現頻度に偏りがある場合などには、類似度が低下する（係数結果が前記しきい値ＴＨ１以下となる）傾向があり、本来、抽出すべき対訳表現を抽出することができない可能性が高くなる。
【００７６】
すなわち、第１の実施形態では、もし、対応語リスト３２に、どんな単語とも共起しやすく、かつ、出現回数の多い第１言語の単語（例えば、図１４の「技術」）が数多く含まれていた場合、第１言語の候補語はそれらの単語との共起頻度が高くなる。それに対して、対応語リストで対応する第２言語の単語が同様の性質を持っているとは限らず、共起パターンに違いが生じる。この結果、本来対応すべき第２言語の候補語との類似度が低下してしまう。
【００７７】
第１の実施形態のように共起頻度を基準にする限り、その言語のコーパス（例えば、３１Ａ）上で多く出現する候補語は、対応語との共起頻度が高くなり、反対に、その言語のコーパス（例えば、３１Ｂ）上であまり出現しない候補語は、対応語との共起頻度が低くなる傾向がある。結果的に、第１言語の単語と第２言語の共起パターンの、類似性の判断に誤りが生じる原因となる。
【００７８】
そこで、本実施形態では上記問題点を解決するために、対応語りストに含まれる全ての単語を同等に評価するのではなく、共起パターンの類似性を分別するために有効な単語の評価を高くし、逆に、どんな単語とも共起するような分別に有効でない単語の評価を下げる構成とする。
【００７９】
具体的には、対応語リスト（前記の対応語リスト３２に相当）として、各対応語に、各言語（例えば、第１言語）における表現の弁別能力の高さに応じた重みを付与する。すなわち、共起パターンの類似性を分別するために有効な単語との共起頻度は、その共起頻度を高く評価するような重みを与え、逆に、どんな単語とも共起する分別には有効ではない単語との共起頻度は、その値が低くなるような重みを与える。このような重み付けを行なうことによって、出現回数の多い分別には有効ではない対応語リストの共起頻度の値の悪影響を退け、逆に、出現回数が少なくても分別に有効な対応語リストの共起頻度を正しく評価することができ、対訳表現抽出の精度向上につながる。
【００８０】
（Ｂ−１）第２の実施形態の構成および動作
本実施形態にかかる対訳表現収集システム４０の全体構成例を図１１に示す。
【００８１】
図１１において、図１と同じ符号を付与した構成要素の機能は第１の実施形態と同じなので、その詳しい説明は省略する。
【００８２】
本実施形態の処理装置２に関しては、学習部２３が付加された点が、記憶装置３に関しては、対応語リスト３５の内部構成が、第１の実施形態と相違する。
【００８３】
このうち学習部２３は、学習データと学習アルゴリズムからパラメータ（重み）を予測する処理を行なう部分である。具体的には、学習データとしてコーパス３１と対応語リスト３５を用いる。また、学習アルゴリズムとしては、決定木やＳＶＭ（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）、最大エントロピー法を用いることができる。学習アルゴリズムとしては、これ以外でも、後述するステップＳ１３４（図１３参照）の処理を行う上で必要な機能を持つあらゆるアルゴリズムを用いることが可能である。
【００８４】
学習データとしてコーパス３１を用いるのは、同じ対応語であっても、分野ごと、コーパスごとに、弁別能力（重み）が異なるからである。したがって、本実施形態では、コーパス３１の内容がかわると、重みも再学習する必要がある。
【００８５】
弁別能力とは該当するコーパス内（例えば、第１言語コーパス３１Ａ内）で特定の単語を他の単語から有意に弁別する能力のことで、特定の単語とは共起するが、それ以外の単語とは共起しないような単語ほど高い弁別能力を有するといえる。逆に、どの単語とも共起しない対応語や、どの単語とも共起する対応語は弁別能力が低い。弁別能力は、対応語リスト３５に登録されている対応語相互間の相対的な能力を指すから、ここで述べた単語とは、対応語（コーパス（例えば、３１Ａ）上に出現する対応語と同じ単語）のことである。
【００８６】
前記対応語リスト３５の内部構成は、例えば、図１４に示すものであってよい。第１の実施形態の対応語リスト３２との相違は、重み格納部を有する点である。
【００８７】
図１４は、対応語リスト３５の初期状態を示す。このとき、重み格納部に格納されている重みの値はすべて、標準的な値を示す「１」である。図１６は、前記学習部２３が重みを学習し、学習結果に応じた重みの値を格納したあとの対応語リスト３５の一例を示したものである。
【００８８】
本実施形態の動作例を示すフローチャートは、図１２と図１３である。図１２のフローチャートは、Ｓ１２１〜Ｓ１２８の各ステップから構成され、図１３のフローチャートは、Ｓ１３１〜Ｓ１３５の各ステップから構成されている。このうち図１２のフローチャートは、すでに説明した図２のフローチャートに対応し、図１２との相違は、前記重みの学習を実行するためのステップＳ１２１が存在する点のみである。
【００８９】
重みの学習に関する処理の詳細は、図１３のフローチャートに示した通りである。
【００９０】
図１３において、まず、対応語リスト３５から対応語を１つ取り出し（Ｓ１３１）、コーパス３１と残りの対応語をもとに、学習データ（訓練データ）を作成する（Ｓ１３２）。例えば、図１４に示すように、１言語につき６つの対応語が格納されている状態の対応語リスト３５から、当該ステップＳ１３１で対応語として「ブルペン」を取り出したものとすると、学習データのもとになる残りの対応語は、図１５（Ａ）に示すように、「＠」を付与した当該「ブルペン」を除く、５つとなる。図１５（Ｂ）は、ステップＳ１３１で対応語「投球」を取り出したケースを示す。
【００９１】
当該ステップＳ１３１，Ｓ１３２の処理を未処理の対応語がなくなるまで繰り返して学習データを作成し（Ｓ１３３のｙｅｓ側の分岐）、未処理の対応語がなくなったら、ステップＳ１３３はｎｏ側に分岐して、作成した学習データに基づく重みの学習を実行する（Ｓ１３４）。そしてこの学習の結果に応じた重みを、対応語リスト３５の重み格納部に格納する（Ｓ１３５）。
【００９２】
この学習では、前記ステップＳ１３１で取り出した注目している各対応語（例えば、「ブルペン」）が、対応語リスト３５中に登録されている他の対応語（例えば、「投球」や「ホームラン」など）と、コーパス３１（ここでは、第１言語コーパス３１Ａ）上でどのように共起するかを検査する。
【００９３】
具体的な重みの決定方法に依存するが、例えば、共起頻度の段階が「高」の数だけに基づいて重みの値を決定するなら、図１５（Ｂ）に示す「投球」は「高」の数が１で、図１５（Ａ）の「ブルペン」は「高」の数が２であるから、「ブルペン」のほうに大きな値の重みを付与することになる。ただし図１６の例では、共起頻度の段階が「中」の数などにも配慮した、もう少し複雑な決定方法を用いることで、「ブルペン」と「投球」に、同じ値（３）の重みを付与している。
【００９４】
対応語リスト３５中のすべての対応語に関し、該当する重み格納部に重みの値を格納して重みの付与が完了すると、図１２に示すステップＳ１２２以降の処理が開始される。
【００９５】
（Ｂ−２）第２の実施形態の効果
本実施形態によれば、第１の実施形態の効果と同等な効果を得ることができる。
【００９６】
加えて、本実施形態では、対応語の重要度（弁別能力）に応じた重みを加味した類似度判定処理が行なえるので、コーパス（３１Ａまたは３１Ｂ）における単語の出現頻度に偏りがある場合などでも、第１の実施形態よりも正確に、かつ、効率的に対訳表現を抽出することが可能である。
【００９７】
（Ｃ）他の実施形態
上述したように、前記獲得表現リスト３４は省略することができる。
【００９８】
なお、上記第１および第２の実施形態では、候補語や対応語が単語である場合について説明したが、複数の単語からなる句やイディオムなどを、この単語に置き換えることが可能である。同様のことは、共起や弁別能力に関しても成立する。
【００９９】
例えば、共起については、候補語と複数の対応語が一定の範囲に同時に出現する場合を共起とみなし、計数の対象にしてもかまわない。また、弁別能力の定義なども、句やイディオムに関して行うことが可能である。
【０１００】
また、上記第１および第２の実施形態では、候補語や対応語、コーパスを基本的にそのまま利用したが、あらかじめ形態素解析処理を行なって単語の形状を正規化した上で処理を行なってもよい。また、共起の抽出についても、候補語と対応語の見出しの一致だけでなく、品詞や語形、意味情報のような属性値、構文解析の結果得られる係り受けの情報などを条件として、条件が一致した場合にのみ計数するようにしてもよい。
【０１０１】
さらに、上記第１および第２の実施形態にかかわらず、コーパス３１や各種リスト３２〜３４は、ローカルの記憶装置３上に格納せず、ネットワークを介して参照する形態であってもよい。
【０１０２】
なお、上記第１および第２の実施形態では、類似度があらかじめ定めたしきい値ＴＨ１を超える候補語の対を対訳表現として獲得する場合について述べたが、候補語と類似度を出力し、対訳表現として獲得するか否かをユーザＵ１が直接指定できるようにしてもよい。
【０１０３】
以上の説明では主としてハードウエア的に本発明を実現したが、本発明はソフトウエア的に実現することも可能である。
【０１０４】
【発明の効果】
以上に説明したように、本発明によれば、対訳表現の抽出（追加的な登録）の効率を高めることが可能である。
【図面の簡単な説明】
【図１】第１の実施形態で使用する対訳表現収集システムの全体構成例を示す概略図である。
【図２】第１の実施形態の動作例を示すフローチャートである。
【図３】第１の実施形態の動作例を示すフローチャートである。
【図４】第１の実施形態の動作例を示すフローチャートである。
【図５】第１の実施形態の動作説明図である。
【図６】第１の実施形態の動作説明図である。
【図７】第１の実施形態の動作説明図である。
【図８】第１の実施形態の動作説明図である。
【図９】第１の実施形態の動作説明図である。
【図１０】第１の実施形態の動作説明図である。
【図１１】第２の実施形態で使用する対訳表現収集システムの全体構成例を示す概略図である。
【図１２】第２の実施形態の動作例を示すフローチャートである。
【図１３】第２の実施形態の動作例を示すフローチャートである。
【図１４】第２の実施形態の動作説明図である。
【図１５】第２の実施形態の動作説明図である。
【図１６】第２の実施形態の動作説明図である。
【符号の説明】
１…入出力装置、２…処理装置、３…記憶装置、１０，４０…対訳表現収集システム、１１…入力部、１２…出力部、２１…共起パターン抽出部、２２…類似度判定部、２３…学習部、３１…コーパス、３１Ａ…第１言語コーパス、３１Ｂ…第２言語コーパス、３２…対応語リスト、３３…候補語リスト、３３Ａ…第１言語候補語リスト、３３Ｂ…第２言語候補語リスト、３４…獲得表現リスト、３５…対応語リスト。

Claims

第１言語および第２言語のコーパスを格納したコーパス格納部と、
予め対応関係の確認されている第１言語の語句と第２言語の語句を対応付け、対訳表現として登録した対訳表現格納部と、
前記第１言語のコーパスから抽出した語句である第１候補語句と、前記対訳表現格納部に登録されている第１言語の１または複数の語句との共起状況と、前記第２言語のコーパスから抽出した語句である第２候補語句と、前記対訳表現格納部に登録されている第２言語の１または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算する類似度演算部と、
当該類似度演算部が演算結果として得た類似度が所定のしきい値以上に高い関係にある第１候補語句と第２候補語句を対応付け、新たな対訳表現として前記対訳表現格納部に追加的に登録する追加登録部とを備え、
この追加的な登録を行ったあとの対訳表現格納部をもとに、前記類似度演算部と、前記追加登録部を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする対訳表現抽出装置。
請求項１の対訳表現抽出装置において、
前記対訳表現格納部では、前記第１言語の語句と、前記第２言語の語句のそれぞれに、弁別能力の高さに応じた重み情報を付与しておき、
前記類似度演算部は、当該重み情報をもとに、前記類似度の演算を行うことを特徴とする対訳表現抽出装置。
請求項２の対訳表現抽出装置において、
前記第１言語および第２言語のコーパスと、前記対訳語句格納部の内容とをもとに、所定の学習アルゴリズムに対応する学習処理を実行して、前記重み情報を学習する学習処理部を備えたことを特徴とする対訳表現抽出装置。
請求項３の対訳表現抽出装置において、
前記対訳表現が対訳語句格納部に追加登録または削除されると、前記学習処理部が重み情報を学習し、学習結果に応じて、前記対訳語句格納部に登録されている重み情報の値を更新することを特徴とする対訳表現抽出装置。
第１言語および第２言語のコーパスをコーパス格納部に格納すると共に、予め対応関係の確認されている第１言語の語句と第２言語の語句を対応付け、対訳表現として対訳表現格納部に登録しておき、
類似度演算部が、前記第１言語のコーパスから抽出した語句である第１候補語句と、前記対訳表現格納部に登録されている第１言語の１または複数の語句との共起状況と、前記第２言語のコーパスから抽出した語句である第２候補語句と、前記対訳表現格納部に登録されている第２言語の１または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算し、
追加登録部が、当該類似度演算部が演算結果として得た類似度が所定のしきい値以上に高い関係にある第１候補語句と第２候補語句を対応付け、新たな対訳表現として前記対訳表現格納部に追加的に登録し、
この追加的な登録を行ったあとの対訳表現格納部をもとに、前記類似度演算部と、前記追加登録部を動作させ、新たな対訳表現の追加的な登録を行うことを特徴とする対訳表現抽出方法。
請求項５の対訳表現抽出方法において、
前記対訳表現格納部では、前記第１言語の語句と、前記第２言語の語句のそれぞれに、弁別能力の高さに応じた重み情報を付与しておき、
前記類似度演算部は、当該重み情報をもとに、前記類似度の演算を行うことを特徴とする対訳表現抽出方法。
請求項６の対訳表現抽出方法において、
学習処理部が、前記第１言語および第２言語のコーパスと、前記対訳語句格納部の内容とをもとに、所定の学習アルゴリズムに対応する学習処理を実行して、前記重み情報を学習することを特徴とする対訳表現抽出方法。
請求項７の対訳表現抽出方法において、
前記対訳表現が対訳語句格納部に追加登録または削除されると、前記学習処理部が重み情報を学習し、学習結果に応じて、前記対訳語句格納部に登録されている重み情報の値を更新することを特徴とする対訳表現抽出方法。
コンピュータを、
第１言語および第２言語のコーパスを格納したコーパス格納部と、
予め対応関係の確認されている第１言語の語句と第２言語の語句を対応付け、対訳表現として登録する対訳表現格納部と、
前記第１言語のコーパスから抽出した語句である第１候補語句と、前記対訳表現格納部に登録されている第１言語の１または複数の語句との共起状況と、前記第２言語のコーパスから抽出した語句である第２候補語句と、前記対訳表現格納部によって登録されている第２言語の１または複数の語句との共起状況を比較して各共起状況の類似性の高さを示す類似度を演算する類似度演算部と、
当該類似度演算部による演算結果として得た類似度が所定のしきい値以上に高い関係にある第１候補語句と第２候補語句を対応付け、新たな対訳表現として前記対訳表現格納部に追加的に登録させる追加登録部と、
この追加的な登録を行ったあとの対訳表現格納部の登録内容をもとに、前記類似度演算部と、前記追加登録部を動作させ、新たな対訳表現の追加的な登録を行う繰り返し処理部
として機能させるための対訳表現抽出プログラム。