JP4961755B2

JP4961755B2 - 単語アライメント装置、単語アライメント方法、単語アライメントプログラム

Info

Publication number: JP4961755B2
Application number: JP2006014468A
Authority: JP
Inventors: 紹明劉; ホンリンウ
Original assignee: Fuji Xerox Co Ltd; Fujifilm Business Innovation Corp
Current assignee: Fujifilm Business Innovation Corp
Priority date: 2006-01-23
Filing date: 2006-01-23
Publication date: 2012-06-27
Anticipated expiration: 2026-01-23
Also published as: CN101008943A; JP2007199793A; US8069027B2; US20070174040A1

Description

本発明は、単語アライメント装置、単語アライメント方法、および単語アライメントプログラムに関する。

機械翻訳とは、計算機を利用してある言語から別の言語に変換することである。こうした研究開発は半世紀をかけて世界中で行われている。機械翻訳方式は、１）解析ベース機械翻訳方式、２）例文ベース機械翻訳方式、３）統計ベース機械翻訳方式に大別することができる。

解析ベース機械翻訳方式は、第１言語を解析(形態素解析、構文・意味解析など)を行い、解析の結果を第２言語に変換し、さらに第２言語の訳文を生成する技術である。自然言語の解析技術は、まだ未熟な技術であるため、解析ベース機械翻訳方式の実用化に限界がある。さらに、学習することができないため、翻訳エンジンの改善・改良が困難になるという短所を有している。

統計ベース機械翻訳方式は、言語モデルと統計モデルを用いて翻訳モデルを構築する技術である。この方式は、各モデルの構成に必要な学習データ(コーパス)が限られているので実用化が限定的である。

特許文献１は、対訳テキストコーパスから訳語対を抽出する訳語対抽出装置に関し、第１言語、第２言語の単語の音韻を推定し、両者の音韻が一致する単語を単語対として出力するものである。また、特許文献２は、第１言語の表現に対応する第２言語の訳語を第２言語の文章中から発音の類似度に基づき抽出する技術を開示している。

例文ベース機械翻訳方式は、人間が外国語を勉強するメカニズムを真似して、既に学習した翻訳例文を参考にして新しい文書を翻訳することである。１９８０年代に長尾教授が始めてこの翻訳方式を提案した。その後、盛んに研究開発が行われている。非特許文献１は、第１言語の例文とその例文の第２言語の訳文からなる例文対に対して、例文と訳文をそれぞれ形態素解析して例文と訳文を構成している単語をそれぞれ抽出し、単語対訳辞書から例文を構成する単語の訳語を抽出し、抽出した訳語を訳文の単語と照合する技術を報告している。非特許文献２は、第１言語の例文とその例文の第２言語の訳文からなる例文対の集合から構成された単語と訳語間の統計モデルを用いてアライメントを行う。例えば、統計モデルは、DICE係数、X2、相互情報量、T-scoreなどである。

図１７は、機械翻訳システムの全体構成例を示す図である。機械翻訳システム１は、文書のすべての部分を正しく翻訳することはできず、翻訳できない部分に無理に翻訳すると、ユーザを混迷させ、原文の内容の把握に悪い影響を与えてしまう。そこで、翻訳結果において、正解または失敗の区別、あるいは信頼性の高低を与えるようにしている。また、翻訳システムに学習機能を設け、翻訳できない部分を自動的に回収し、正確な対訳を付与することで、翻訳の性能を向上させている。

機械翻訳システム１は、原言語テキスト文入力部１０から入力された文単位の文を翻訳する翻訳メモリ（翻訳装置）１２、翻訳メモリ１２において照合できなかった部分(文単位)、つまり適切に翻訳をできなかった文を形態素解析し、解析した結果を入力し例文で翻訳をする例文ベース翻訳エンジン１４と、例文ベース翻訳エンジン１４で適切に翻訳できなかった文の形態素解析した結果を入力し、単語ベースで翻訳する単語直訳翻訳エンジン１６と、目的言語テキスト文を作成する目的言語テキスト作成部１８とを有している。

翻訳メモリエンジン１２、例文ベース翻訳エンジン１４、単語直訳翻訳エンジン１６により翻訳した翻訳データは、目的言語テキスト作成部１８に入力される。目的言語テキスト作成部１８は、これらの翻訳データに基づき目的言語のテキストを作成する。このとき、翻訳メモリエンジン１２と例文ベース翻訳エンジン１４により翻訳成功した部分については、正確に翻訳されたことがわかるような識別を与える。単語直訳翻訳エンジン１６によって翻訳された翻訳データは、目的言語テキスト文作成部１８において、参考程度の翻訳として出力される。これにより、ユーザは、テキスト訳文において、どこが信頼できる翻訳結果であり、どこが信頼できない翻訳結果かを一見して把握することができる。

一方、翻訳メモリエンジン１２、例文ベース翻訳エンジン１４で翻訳失敗した部分(文単位)は、回収部２０によって回収され、翻訳者によって回収された翻訳失敗した部分(文単位)の訳文が翻訳される。回収された翻訳失敗部分とその訳文は、例文対訳辞書に出力され、同時に、学習エンジン２２において自動的に学習し、例文パターン対訳辞書のデータを自動的に生成する。学習エンジン２２によって生成された例文パターン対訳辞書のデータにおいて翻訳者によって修正およびチェックが成され、その結果が、翻訳辞書２４に出力される。翻訳辞書２４は、単語対訳辞書、例文対訳辞書、例文パターン対訳辞書等を含み、これらの辞書の対訳データは、翻訳メモリエンジン１２、例文ベース翻訳エンジン１４、単語直訳翻訳エンジン１６に供給される。

特開２００５−２５８６３７号特許第３２８２７８９号 Jin-Xia Huang, Key-Sun Choi. 2000. Using Bilingual Semantic Information in Chinese-Korean Word Alignment. Pacfic Asia Conference on Language, Information and Computation. PACLIC14, pp121-130. Melamed, Dan. "A Word-to-Word Model of Translational Equivalence". In Procs. of the ACL97.ｐp 490−497. Madrid Spain,1997.

例文ベース機械翻訳には、解決しなければならない二つの重要な課題がある。（ａ）参考例文の抽出：訳文例文コーパスから、入力文とよく似ている例文パターンを速やかに抽出しなければならない。（ｂ）自動学習：第１言語の例文とその例文の第２言語の訳文を与えられたときに、自動的に訳文例文パターンを生成しなければならない。

上記課題を解決する手段として、例文と訳文に含まれる単語間の対応関係（アライメント）を抽出し、その対応関係を付与する方法が考えられる。例文とその訳文の単語間のアライメントを自動的に生成しておくことで、入力文の単語に対応する訳文の抽出を高精度にかつ高速に行うことが可能となる。

図１８は、例文と訳文に含まれる単語間のアライメントを説明する図である。同図（ａ）は、中国語とその訳文の日本語の入力例文対を示している。同図（ｂ）は、それらの入力例文対を形態素解析して得られた中国語の単語と日本語の単語間の理想的なアライメントを示している。すべての例文と訳文の関係において、同図（ｂ）に示すような正確な単語間のアライメントを人間の手作業により設定することは、非常に時間と手間を要し、現実的ではない。その一方で、単語間のアライメントを自動生成するためには、高いリコール(Recall)率と高精度を要求される。リコール率とは、例文と訳文から抽出されるべき単語のペア数と実際に抽出された単語のペア数との比であり、精度は、実際に抽出された単語のペア数と正解の単語のペア数との比である（図１９を参照）。

単語アライメントにおいて非特許文献１に開示される単語対訳辞書を活用した単語の訳語抽出を適用することが可能であるが、この技術は、リコール率が非常に低く、単語対訳辞書に存在しない未登録の単語を処理できない。さらに訳語に多義性があるとどれを選択すべきか不明となってしまう。また、非特許文献２に開示されるように例文対訳辞書を活用した統計モデルにより例文と訳文の共起するパラメータを算出して単語アライメントを行う場合には、単語に多義性があると精度が低下し、最適なアライメントを保証することができない。

本発明は、上記従来の課題を解決するものであり、リコール率が高く、かつ精度良く単語のアライメントを行うことができる単語アライメント装置、単語アライメント方法、および単語アライメントプログラムを提供することを目的とする。

本発明に係る単語アライメント装置は、第１言語の例文と当該例文の対訳である第２言語の訳文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置であって、例文および訳文から少なくともそれぞれの単語を抽出する単語抽出手段と、第１言語および第２言語の単語間の形状の類似度の値を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出するアライメント算出手段と、２部グラフマッチングによりアライメントの最適化を図る最適化手段と、を有する。２部グラフマッチングによりアライメントの最適化を行うことで、確認度の低いアライメント候補、多対応のアライメント問題を解消し、最適な単語のアライメントを行うことができる。

アライメント算出手段は、さらに、第１言語と第２言語の単語間の意味上の類似度、および品詞の類似度の少なくとも一方の値を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出する。
アライメント算出手段は、単語対訳辞書を参照して第１言語と第２言語の単語間の意味上の類似度を求める。
アライメント算出手段は、さらに、コーパスの統計情報を参照して第１言語および第２言語の単語間の相関度を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出する。
相関度Ass(c,j)は、次式により算出される。

ここで、ｃは第１言語の単語、ｊは第２言語の単語、ａは、単語ｃと単語ｊの共起出現頻度、freq(c)は単語ｃの出現頻度、freq(j)は単語ｊの出現頻度である。
最適化手段は、アライメント算出手段により求められた類似度および相関度の少なくとも一方の値を重み付き２部グラフマッチングによりアライメントを最適化する。
最適化手段は、最大最小重みマッチングにより単語間のアライメントの最適化を図る。

好ましくは、最適化手段は、単語間の類似度および／または相関度の少なくとも一方の値が一定の閾値よりも高い場合には、それらの単語間のアライメントを固定し、残りの単語間のアライメントの最適化を行うようにしてもよい。例えば、第１言語と第２言語の単語が単語対訳辞書に含まれている場合には、そのような単語のアライメントを固定し、残りの単語間のアライメントの最適化を行う。これにより、アライメントの最適化を速やかに行うことができる。
単語抽出手段は、例文および訳文を形態素解析し、例文および訳文から単語を抽出する。

例文とその対訳は例文対訳辞書に格納されている。
単語アライメント装置はさらに、最適化された単語間のアライメントを記憶する記憶手段を含む。
単語アライメント装置において、アライメントすべき単語は、予め例文対訳辞書に格納された例文と当該例文の訳文を用いることができる。例文対訳辞書に含まれる例文と訳文の単語アライメントを実施し、そのアライメントを記憶しておくことで、新たな未登録の例文が入力されたとき、単語対訳辞書を利用して、自動的に訳文を生成する学習機能を与えることが可能になる。

本発明に係る単語アライメント方法は、第１言語の例文と当該例文の対訳である第２言語の訳文のそれぞれの単語間のアライメントをＣＰＵが行う単語アライメント方法であって、例文および訳文から少なくともそれぞれの単語をＣＰＵが抽出する第１のステップと、第１言語および第２言語の単語間の形状の類似度の値を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントをＣＰＵが算出する第２のステップと、２部グラフマッチングによりアライメントの最適化をＣＰＵが図る第３のステップと、を有する。

本発明に係る単語アライメントプログラムは、第１言語の例文と当該例文の対訳である第２言語の訳文のそれぞれの単語間のアライメントをＣＰＵに実行させるための単語アライメントプログラムであって、ＣＰＵに、例文および訳文から少なくともそれぞれの単語を抽出する第１のステップと、第１言語および第２言語の単語間の形状の類似度の値を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出する第２のステップと、２部グラフマッチングによりアライメントの最適化を図る第３のステップと、を実行させる。

本発明によれば、リコール率が高く、高精度の単語アライメント装置、単語アライメント方法および単語アライメントプログラムを得ることができる。さらに、そのような単語アライメント技術を例文対訳辞書に適用することで、例文対訳辞書に学習機能を与えることができる。

本発明を実施するための最適な形態を図面を参照して詳細に説明する。

図１は、本発明の実施例に係る単語アライメント装置の全体構成を説明する機能ブロック図である。単語アライメント１００は、例文とその訳文の対訳例文対を入力する入力部１０２、アライメントの結果（つまり，学習装置の結果として例文ベース機械翻訳用の例文パターン対訳辞書に格納される）を出力する出力部１０４、例文及び訳文を形態素解析し、それらに含まれる単語と品詞をそれぞれ抽出し番号を付与する前処理部１０６、例文とその訳文の対を格納する例文対訳辞書１０８、例文対訳辞書１０８から入力された例文及び訳文対に対してそれぞれ例文と訳文の単語と品詞を抽出し、高速に検索できるコーパスインデックスを構築するコーパス前処理部１１０、単語とその対訳を格納する単語対訳辞書１１２、単語対訳辞書を用いて単語アライメントを行う類似度計算部１１４、コーパス前処理部１１０で構築された単語のインデックス表を格納する単語インデックス表１１６、単語インデックス表のコーパス統計情報を用いて、単語と訳語間の相関度を求める相関度計算部１１８、２部グラフマッチング方法により確認度の低いアライメント候補や多対応のアライメント問題を解消し単語間のアライメントの最適化を図る２部グラフベースアライメント部１２０を有している。

図２は、単語アライメント装置の構成を示す図である。単語アライメント装置１００は、好ましくは、入力装置１３０、表示装置１３２、主記憶装置１３４、記憶装置１３６、中央処理装置（ＣＰＵ）１３８、これらを接続するバス１４０を含んで構成される。

入力装置１３０は、キー操作により情報を入力するキーボード、原稿に記載された文書等を光学的に読み取るスキャナ、外部装置や外部メモリ等からのデータを入力する入力インターフェース等を含む。表示装置１３２は、単語アライメントされた結果や例文訳文対等を表示するディスプレイ等を含む。主記憶装置１３４は、ＲＯＭまたはＲＡＭを含み、図１に示す各部の動作を制御するプログラムや演算処理されたデータ等を記憶する。記憶装置１３６は、例えばハードディスク等の大容量記憶装置を含み、単語対訳辞書や例文対訳辞書等のデータを格納する。ＣＰＵ（Central Processing Unit）１３８は、主記憶装置１３４に記憶されたプログラムに従い各部を制御する。

例文対訳辞書１０８は、第1言語の文とその文の第２言語の訳文からなる例文対の集合である。例えば、日本語と中国語の対訳例文辞書であれば、図３（ａ）に示すように、日本語「私は呉宏林です。」に対する中国語の訳文「我是呉宏林」が格納され、図３（ｂ）に示すように、日本語「この川は黄河です。」の中国語の訳文が格納されている。

図４は、前処理部の動作を説明するフローである。前処理部１０６は、入力部から入力された対訳例文対を例文と訳文に分離する（ステップＳ１０１）。対訳例文対は、例えば例文対訳辞書に格納されたものを用いる。分離された例文と訳文は、それぞれ形態素解析され、例文と訳文の単語にそれぞれ切り分けられ（ステップＳ１０２）、それぞれの各単語に品詞が付与される（ステップＳ１０３）。次に、単語順位番号が付与される（ステップＳ１０４）。単語順位番号の付与は、例文または訳文の左から右へ単語が出現する順序で番号を１から大きくなるように付与する。最後に、前処理結果は記憶装置に格納される（ステップＳ１０５）。前処理結果は、それぞれ例文の単語情報配列と訳文の単語情報配列を含んでいる。

図５は、コーパス前処理部１１０の動作を説明するフローである。コーパス前処理部１１０は、例文対訳辞書１０８から入力された例文対を例文と訳文に分離する（ステップＳ２０１）。分離された例文と訳文は、それぞれ形態素解析され、単語に切り分けられ（ステップＳ２０２）、それぞれの各単語に品詞が付与される（ステップＳ２０３）。次に、形態素解析された例文と訳文を収集し（ステップＳ２０４）、インデックス表を構築し（ステップＳ２０５）、インデックス表としてメモリに格納する（ステップＳ２０６）。

形態素解析は、自然言語文を構成する単語、品詞情報を抽出する。形態素解析は、公開されている任意の形態素解析ツールを使用することができる。例えば、日本語について、形態素解析ツールChaSenを使用することができる。中国語について、清華大学、或いは東北大学が開発した中国語形態素解析ツールを使用することができる。例えば図６（ａ）に示すように、中国語と日本語の対訳例文対が入力された場合、図６（ｂ）に示すような形態素解析結果が得られる。なお、前処理部１０６においても同様の形態素解析が実施される。

単語インデックス表は、単語と単語のインデックス情報からなる。単語インデックス情報は、単語を含む例文、或いは訳文の番号リストである。例えば、「中国」という単語が、１９４９番目、１０番目、１番目の訳文に出現しているとき、「中国語」のインデックスは、１９４９，１０，１となる。「カード」という単語が、１２３４番目、５６７番目、８９番目の例文に出現しているとき、「カード」のインデックスは、１２３４，５６７，８９となる。

図７は、インデックス表の一例を示す図である。コーパス前処理部は、ハッシュ（Hash）関数計算部１５０と、例文コーパスインデックス表１６０および訳文コーパスインデックス表１７０を含み、それぞれのコーパスインデックス表１６０、１７０は、単語リスト表（単語１、２、・・・）と文番号表(例文番号または訳文番号)から構成されている。例文コーパスインデックス表の単語リスト表は、コーパスにあるすべての例文に出現した単語を含み、訳文コーパスインデックス表の単語リスト表は、コーパスにあるすべての訳文に出現した単語を含む。例文コーパスインデックス表の文番号表には、対応している単語を含むコーパスにあるすべての例文番号はリスト表形式で記録される。例えば、上記した「カード」であれば、その出現した例文の番号が記録される。同様に、訳文コーパスインデックス表の文番号表には、該単語を含むコーパスにあるすべての訳文番号がリスト表形式で記録される。例えば、上記した「中国」の出現した訳文の番号が記録される。ハッシュ関数係数部１５０は、単語がどこに出現するかを計算するものであり、公知のハッシュ関数を利用することができる。

次に、類似度計算部の詳細について説明する。類似度計算部１１４は、上記したように、入力された例文対訳対に対して形態素解析により抽出された例文および訳文に含まれる単語間の類似度を算出し、例文と訳文の単語間のアライメント（対応関係）を求める。

図８は、単語対訳辞書１１２に格納された辞書レコード構造を示す図である。同図に示すように、辞書レコード構造は、単語、単語情報、訳語、および訳語情報を含んでいる。単語情報は、その単語の品詞等の属性を表す情報であり、訳語情報は、その訳語の品詞等の属性を表す情報である。

類似度計算部１１４は、例文と訳文の単語間において複数の類似度、つまり辞書類似度、形状類似度、意味類似度、品詞類似度を計算により求める。
（ａ）辞書類似度SimD：例文CSの任意の単語c、単語対訳辞書の中にcの訳語の集合をDTcとする。訳文JSの任意の単語jに対して、もし、j∈DTc、ならばSimD(c,j)=１とする。言い換えれば、例文の単語ｃの訳語が単語対訳辞書にあれば、SimDは「１」であり、存在しなければSimDは「０」である。
（ｂ）形状類似度SimM：例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語に対して、次の数式（１）で信用度を計算する。ここで、例文は中国語、訳文は日本語の場合(或いは、例文は日本語、訳文は中国語の場合)、訳文JSに日本語の漢字を含み、かつ対応している中国語の簡体字があれば、その漢字を中国語の簡体字に変換してから、SimM(c,j)を計算する。勿論、中国語の漢字を日本語の漢字に変換してから、SimM(c,j)を計算してもよい。また，繁体字の中国語に対しても同じ方法で処理する。

（ｃ）意味類似度SimS：例文CSのSim(c,j)≠1の各単語cについて、単語対訳辞書の中のcの訳語の集合をDTcとする。訳文JSのSim(w,j)≠1の任意の単語に対して次の数式（２）で信用度を計算する。Distance(c,j)、或いはSimilarity(c,j)の計算方法は、例えば数式（３）に示すように、公開された単語間の距離、或いは類似度を求める任意の方法を使用することができる。例えば、シソーラスを用いた方法、統計技術を用いた方法である。

（ｄ）品詞類似度SimP：品詞間の類似度SimP(c,j)を計算する。品詞集合を言語知識によって幾つかのグルーブに分類する。cの品詞が属している品詞類とjの品詞が属している品詞類が同じであれば、POS(c,j)=1，それ以外であれば、POS(c,j)=0である。勿論、公開された任意の方法でPOS(c,j)を求めることができる。

なお、上記以外の公開された任意のSimMとSimSの算出方法を用いても良い。SimMは、例えば数式（４）により求めることができる。ここで、MaxC(c,j)は、文字列CとJの最長共通部分列である。例えば、cがxyabcef、jが efkeabcfであれば、MaxC(c,j)はabcである。あるいは、数式（５）により文字列間の重み付き編集距離を用いて求めることもできる。ここで、qは挿入1文字の重み、rは削除1文字の重み、Pは１文字間の置換の重みであり、P←q+rである。なお、編集距離の参考文献として、V.I. Levenshtein, "Binary codes capable of correcting deletions, insertions, and reversals,"Cybernetics and Control Theory,vol.10,pp.707-710,1966、などがある。

SimSの他の求める方法の例は、以下の通りである。
相澤彰子、影浦峡、“著者キーワード中での共起に基づく専門用語間の関連度計算法”，信学論(D-I), Vol.J83-D-I, No.11, pp.1154-1162, 2000．
H. Schütze, “Ambiguity Resolution in Language Learning: Computational and Cognitive Models . California “, PhD thesis, Stanford University, Department of Linguistics, 1995.
小嶋秀樹・古郡廷治 : 単語の意味的な類似度の計算, 電子情報通信学会技術研究報告, AI92-100, pp.81-88, 1993.
小嶋秀樹・伊藤昭：文脈依存的に単語間の意味距離を計算する一手法，情報処理学会論文誌，Vol.38，No.3，pp.481-489, 1997.

次に、相関度計算部１１８の詳細について説明する。
例文CSのSim(c,j)≠1の各単語cについて、訳文JSのSim(w,j)≠1の任意の単語jに対して、単語と訳語間の相関度Assを計算する。相関度Assは、例えば、X²相関度（ガオの２乗方法）、Dice(ダイス)係数相関度、相互情報量、T-scoreなどを使用することができる。勿論、他の公開された任意の相関度を使用してもよい。

本実施例では、相関度を求める場合に、図９に示すようにパラメーターa,b,c,dを定義する。すべでの単語と訳語間のパラメーターa,b,c,dを例文対訳辞書から求めることが可能である。始めに、すべての例文にある単語とすべての訳文にある訳語の出現頻度freq(c)、freq(j)を求める。続いて、各例文にある単語ｃと各訳文にある訳語j間の共起出現頻度freq(c,j)を求める。最後に、パラメーターa,b,c,dを求める。なお、Ｎは、コーパスのすべての例文と訳文の対の数であり、ｄは、Ｎからパラメーターa,b,cを引いた値である。

次に、得られたパラメーターを用いて、数式（６）により相関度Ass(c,j)を求める。

上記相関度の算出方法のほか、図１０に示す方法により相関度を算出するようにしてもよい。同図の上から順に、ガオの２乗方法、ＤＩＣＥ係数法、相互情報量法、Ｔ−ｓｃｏｒｅの数式を示している。なお、X²相関度と相互情報量相関度に関する論文として、William A. Gale, Kenneth W. Church.1991. Identifying Word Correspondances in Parallel Texts, in proceedings of DARPA Workshop on Speech and Natural Language, pages 152-157. Pacific Grove, CA.などが知られている。

類似度計算部１１４および相関度計算部１１８は、算出した類似度および相関度に基づき例文と訳文の単語間の類似度／相関度リストを作成し、記憶する。類似度／相関度リストは、好ましくは、定数長の配列から構成され、ここでは定数長を１０としている。図６(ａ)に示す例文対訳対を例に用いた場合、図１１(ａ)に示すように、例文の中国語は６つの単語に分けられ、訳文の日本語は４つの単語に分けられる。図１１（ｂ）に示すように、リストの先頭から順番に例文と訳文の単語の類似度／相関度の「０」または「１」の２値データが記録される。例文の単語において「１」が記録されている単語は、訳語の単語との対応が存在し、「１」がなければ対応が存在しない。図１１(ｃ)は、例文と訳語の単語間のアライメント（対応関係）を示している。

図１２は、アライメント結果と例文および訳文の単語情報を保存するためのデータ構造である。データ構造は、単語情報、品詞情報、単語順位番号、インデックス表指針、アライメント表、および次のインデックス表指針とを含んで構成される。アライメント表は、図１１に示した相関度／類似度リストから抽出されたものである。これらのデータ構造は、類似度計算部および相関度計算部において生成され、記憶装置に格納される。図１３は、図６（ａ）の例文対訳対についてのデータ構造の生成例である。

次に、２部グラフベースアライメント部１２０の詳細について説明する。上記して算出された類似度および相関度に基づき、図１４(ａ)に示すような例文の単語と訳文の単語間の２部グラフを得ることができる。同図において、ａ１、ａ２、・・・は、例えば、例文の中国語の単語ｃを表しており、ｂ１、ｂ２、・・・は、訳文の日本語の単語ｊを表している。これらの対応関係は、アライメント表、すなわち類似度／相関度リストから得られた結果である。

本発明では、さらに２部グラフマッチングによりアライメントの最適化を図る。初めに、２部ベースアライメント部１２０は、e(a,b)<ρを満たすとき、該当する対応関係を取り除く。ｅは、２部グラフのノード間の対応関係を示す枝の重みであり、ρは、非負の実数である。これにより、該当する単語cと訳語jが取り除かれる。

取り除いた後、残りの例文の単語と訳文の単語を用いて，２部グラフを構築する．例文に残った単語集合をCSとし、訳文に残った訳語の集合をJSとする。構築方法として、２部グラフをG=(A,B,,e(a,b) )とする。ここで、AとBは、Gのノードの集合、e(a,b)は、AのノードaとBのノードbの間のリンク上の重みを表す。A=CS,CSの各単語をAの各ノードに対応させる。B=JS，JSの各訳語をBの各ノードに対応させる。

e(a,b)を次の計算数式（７）を用いて計算する。ノードaが単語cに、ノードbが訳語jに対応しているとし、α、β、χ、δは非負の実数、SimDは辞書類似度である。

次に、２部グラフG=(A,B,,e(a,b))の最大最小重みマッチングを求める。２部グラフG=(A,B,,e(a,b))の最大最小重みマッチングとは、２部グラフＧの枝を選び、選び方として、各ノードに結ぶ枝から選られた枝の数が<＝１、選んだ枝の数が最大、かつ、選んだ枝の重みの和が最小である。求められたマッチングの結果M={(a1,b1),(a2,b2),…}によって、単語アライメントを求める{(c1,js),(c2,jt,…)}。ここで、c1はa1、c2はa2、・・・に対応し、jsはbs、jtはbt、・・・に対応する。図１４（ｂ）は、２部グラフ最大最小重みマッチングにより１対１に最適化されたアライメントを示している。なお、最大最小重みマッチング法は、例えば、E.L. Lawler, Combinatorial Optimization : Networks and Matroids, Holt Rinehalt and Winston, New York, NY, 1976等の文献に開示されている。

このように本実施例では、辞書類似度、単語間の意味上の類似度、単語間の形状類似度、品詞類似度、単語と訳語間の相関度を２部グラフのリンクの重みとし、２部グラフ最適マッチング法を用いることで、高いリコール（Recall）率と高精度な単語アライメントを可能にし、これにより単語アライメント例文対訳辞書学習装置および訳語抽出装置を構築することが可能になる。また、２部グラフ最適マッチング法を用いて、最適な単語と訳語間の照合を実現することが可能になる。さらに、複数の類似度により単語の多義性問題によるアライメント精度の低下の問題および単語の辞書への未登録の問題を改善することが可能となる。

次に、本発明の第２の実施例について説明する。第２の実施例では、２部グラフベースアライメント部の動作を変更するものであり、その他の構成は第１の実施例と同様である。

先ず、入力された例文と訳文の対に対して、SimD(c,j)=1の単語cは、訳語jと対応付け(アライメント)する。すなわち、アライメントを固定し、２部グラフアライメント処理の対象から除外する。

もし，SimM(c,j)が閾値θより大きい場合は、単語cは、訳語jと対応付け(アライメント)する。ここで、θは非負の実数である。

もし，SimS(c,j)が閾値ξより大きい場合は、単語cは、訳語jと対応付け(アライメント)する。ここで、ξは非負の実数である。

入力された例文と訳文の対に対して、上記３つのステップで対応付けされた単語cと訳語jを取り除く。もし、e(a,b)<ρであれば、対応している単語cと訳語jを取り除く。ここで、ρは非負の実数である。

上記対応を取り除いた後、残りの例文の単語と訳文の単語を用いて、２部グラフを構築する。例文に残った単語集合をCSとし、訳文に残った訳語の集合をJSとする。構築方法として、２部グラフをG=(A,B,,e(c,j) )とする。ここで、AとBはノードの集合、e(a,b)はAのノードaとBのノードbの間のリンク上の重みを表す。A=CS,CSにある各単語cをAのノードaに対応させる。B=JS，JSにある各訳語jをBのノードbに対応させる。e(a,b)=e(c,j)=α*Ass(c,j)+β*SimP(c,j)+γ:SimS(c,j) + δ*SimM(c,j)。ここで、α、β、γとδは非負の実数である。

２部グラフG=(A,B,,e(a,b))の最大最小重みマッチングを求める。求められたマッチングの結果M={(a1,b1),(a2,b2),…}によって、単語アライメントを求める{(c1,js),(c2,jt,…)}。ここで、c1はa1、c2はa2、・・・に対応し、jsはbs、jtはbt、・・・に対応する。

第２の実施例によれば、２部ベースアライメント部の処理を軽減することで、単語アライメント処理の高速化を図ることができる。

図１６は、本発明の第２の実施例による入力例文対の単語アライメントの処理例を示す図である。SimDにおいて、「１」で示した単語の対応関係は、単語対訳辞書に存在するものであり、アライメントが固定される。３つの対応関係が「１」であり、これらが取り除かれる。

残りの単語の対応関係において、SimS,SimM,相関度が算出される。本例では、SimSの閾値ξ=0,999よりも大きい単語の対応関係、SimMの閾値θ=0.999よりも大きい単語の対応関係、相関度が0.999よりも単語の対応関係がさらに取り除かれ、結果として、３つの単語について２部グラフマッチングが行われている。最終的に、２部グラフマッチングを含む、例文の単語と訳文の単語間のアライメント結果が示されている。

図１６は、第２の実施例による単語アライメントを行ったときの実験結果を示す表である。例文対訳辞書は、15,405例分対を含み、領域はスポーツ新聞記事、テスト集合(Open test)は、98例分対であり、領域はスポーツ新聞記事である。従来のBaseline1およびBaseline2と比較して、本実施例の2BGでは、リコール率および精度の改善が見られる。なお、２つの2BGのうち、Ass1は本実施例の相関度を用いたものであり、もう一方はガオの２乗方法を用いたものである。

以上、本発明の好ましい実施の形態について詳述したが、本発明に係る特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

本発明に係る単語アライメント装置は、学習機能を備えた例文対訳辞書や訳語抽出装置等に利用される。

本発明の実施例に係る単語アライメント装置の機能ブロック図である。単語アライメント装置の構成例を示す図である。例文対訳辞書の内容を説明する図である。前処理部の動作フローチャートである。コーパス前処理の動作フローチャートである。前処理部およびコーパス前処理部における形態素解析の例を説明する図である。コーパスインデックス表の例を示す図である。単語対訳辞書の格納される単語レコード構造を示す図である。相関度のパラメーターを説明する図である。他の相関度の算出例を示す図である。類似度／相関度のリストを説明する図である。類似度および相関度の計算結果を保存するデータ構造を説明する図である。データ構造の例を示す図である。２部グラフマッチングを説明する図である。本発明の第２の実施例により入力例文対の単語アライメントを行った例を示す図である。本発明の第２の実施例による単語アライメントと従来の単語アライメントとのリコール率および精度を比較結果を示す表である。機械翻訳システムの概要を示すブロック図である。単語アライメントの概要を説明する図である。単語アライメントにおけるリコール率と精度を示す図である。

符号の説明

１００：単語アライメント装置１０２：入力部
１０４：出力部１０６：前処理部
１０８：例文対訳辞書１１０：コーパス前処理部
１１２：単語対訳辞書１１４：類似度計算部
１１６：コーパスインデックス表１１８：相関度計算部
１２０：２部グラフベースアライメント部
１３０：入力装置１３２：表示装置
１３４：主記憶装置１３６：記憶装置
１３８：ＣＰＵ

Claims

第１言語の例文と当該例文の対訳である第２言語の訳文のそれぞれに含まれる単語間のアライメントを行う単語アライメント装置であって、
例文および訳文から少なくともそれぞれの単語を抽出する単語抽出手段と、
第１言語および第２言語の単語間の形状の類似度の値を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出するアライメント算出手段と、
２部グラフマッチングにより前記アライメントの最適化を図る最適化手段と、
を有する単語アライメント装置。
アライメント算出手段は、さらに、第１言語と第２言語の単語間の意味上の類似度、および品詞の類似度の少なくとも一方の値を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出する、請求項１に記載の単語アライメント装置。
アライメント算出手段は、単語対訳辞書を参照して第１言語と第２言語の単語間の意味上の類似度を求める、請求項２に記載の単語アライメント装置。
アライメント算出手段は、さらに、コーパスの統計情報を参照して第１言語および第２言語の単語間の相関度を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出する、請求項１から３のいずれか１項に記載の単語アライメント装置。
相関度Ass(c,j)は、次式により算出される、請求項４に記載の単語アライメント装置。

ここで、ｃは第１言語の単語、ｊは第２言語の単語、ａは、単語ｃと単語ｊの共起出現頻度、freq(c)は単語ｃの出現頻度、freq(j)は単語ｊの出現頻度である。
最適化手段は、アライメント算出手段により求められた類似度および相関度の少なくとも一方の値を重み付き２部グラフマッチングによりアライメントを最適化する、請求項４又は５に記載の単語アライメント装置。
最適化手段は、最大最小重みマッチングにより単語間のアライメントの最適化を図る、請求項６に記載の単語アライメント装置。
最適化手段は、単語間の類似度および／または相関度の少なくとも一方の値が一定の閾値よりも高い場合には、それらの単語間のアライメントを固定し、残りの単語間のアライメントの最適化を行う、請求項４ないし７のいずれか１つに記載の単語アライメント装置。
前記単語抽出手段は、例文および訳文を形態素解析し、例文および訳文から単語を抽出する、請求項１から８のいずれか１項に記載の単語アライメント装置。
例文とその対訳は例文対訳辞書に格納されている、請求項１から９のいずれか１項に記載の単語アライメント装置。
単語アライメント装置はさらに、最適化された単語間のアライメントを記憶する記憶手段を含む、請求項１から１０のいずれか１項に記載の単語アライメント装置。
第１言語の例文と当該例文の対訳である第２言語の訳文のそれぞれの単語間のアライメントをＣＰＵが行う単語アライメント方法であって、
例文および訳文から少なくともそれぞれの単語をＣＰＵが抽出する第１のステップと、
第１言語および第２言語の単語間の形状の類似度の値を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントをＣＰＵが算出する第２のステップと、
２部グラフマッチングにより前記アライメントの最適化をＣＰＵが図る第３のステップと、
を有する単語アライメント方法。
第２のステップは、さらに、第１言語と第２言語の単語間の意味上の類似度、および品詞の類似度の少なくとも一方の値を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出する、請求項１２に記載の単語アライメント方法。
第２のステップは、単語対訳辞書を参照して第１言語と第２言語の単語間の意味上の類似度を求める、請求項１３に記載の単語アライメント方法。
第２のステップは、さらに、コーパスの統計情報を参照して第１言語および第２言語の単語間の相関度を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出する、請求項１２から１４のいずれか１項に記載の単語アライメント方法。
相関度Ass(c,j)は、次式により算出される、請求項１５に記載の単語アライメント方法。

ここで、ｃは第１言語の単語、ｊは第２言語の単語、ａは、単語ｃと単語ｊの共起出現頻度、freq(c)は単語ｃの出現頻度、freq(j)は単語ｊの出現頻度である。
第３のステップは、第２のステップにより求められた少なくとも類似度および相関度の一方の値を重み付き２部グラフマッチングによりアライメントを最適化する、請求項１５又は１６に記載の単語アライメント方法。
第３のステップは、最大最小重みマッチングにより単語間のアライメントを求める、請求項１７に記載の単語アライメント方法。
第３のステップは、単語間の類似度および／または相関度の少なくとも一方の値が一定の閾値よりも高い場合には、それらの単語間のアライメントを固定し、残りの単語間のアライメントの最適化を行う、請求項１５から１８のいずれか１項に記載の単語アライメント方法。
第１のステップは、例文対訳辞書に格納された例文とその訳文を抽出する、請求項１２から１９のいずれか１項に記載の単語アライメント方法。
第１のステップは、例文および訳文を形態素解析し、単語を抽出する、請求項１２から２０のいずれか１項に記載の単語アライメント方法。
最適化された単語間のアライメントを格納する第４のステップを含む、請求項１２から２１のいずれか１項に記載の単語アライメント方法。
第１言語の例文と当該例文の対訳である第２言語の訳文のそれぞれの単語間のアライメントをＣＰＵに実行させるための単語アライメントプログラムであって、
前記ＣＰＵに、
例文および訳文から少なくともそれぞれの単語を抽出する第１のステップと、
第１言語および第２言語の単語間の形状の類似度の値を求め、求められた値に基づき第１言語および第２言語の単語間のアライメントを算出する第２のステップと、
２部グラフマッチングにより前記アライメントの最適化を図る第３のステップと、
を実行させるための単語アライメントプログラム。