JP4381425B2

JP4381425B2 - 二言語単語対応付けモデル訓練方法及び装置、二言語単語対応付け方法及び装置

Info

Publication number: JP4381425B2
Application number: JP2007048881A
Authority: JP
Inventors: ワン・ハイフェン; リュー・ツァンイ; ウー・ファ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-02-28
Filing date: 2007-02-28
Publication date: 2009-12-09
Anticipated expiration: 2027-02-28
Also published as: US7844447B2; US20070203690A1; CN101030196A; CN101030196B; JP2007234023A

Description

本発明は、情報処理技術に関し、特に二言語単語対応付けの技術及び自然言語処理における統計的機械翻訳の技術に関する。

単語対応付けは自然言語処理に広く使用されている。既存の単語対応付け技術は、通常、二言語文対の対応する単語を対応付ける統計的単語対応付けモデルを用いている。統計的単語対応付けモデルは二言語文対の中の対応単語を決定するために使用される統計的情報を含む。

P. F. Brown, S. A. Della Pietra, V. J. Della Pietra and R. Mercer published in 1993,“The Mathematics of Statistical Machine Translation: Parameter Estimation” (Computational Linguistics, 19(2): 263-311）の論文において、統計的機械翻訳モデル及び統計的単語対応付けモデル並びに対応するパラメータ推定方法が記載されている。

統計的単語対応付けモデルはパラメータを訓練（トレーニング）するために充分に大きい二言語コーパスを必要とする。訓練のために充分大きなコーパスがない場合、得られたパラメータを用いて高品質で対応付け結果を得ることは不可能である。一部の言語であろうとも、利用可能な二言語コーパスがない。故に、二言語コーパスの量が統計的単語対応付けモデルの品質を限定し、統計的単語対応付けモデルの更なる適用に障害となる。

従来技術の上記問題を解決するために、本発明は、中間言語を用いて二言語単語対応付けモデルを訓練する方法及び装置並びに二言語単語対応付け方法及び装置を提供することを目的とする。

本発明の一態様によると、第１及び第２言語の二言語コーパスを用いて第１言語及び第２言語用二言語単語対応モデルを訓練すること、前記第２及び第３言語の二言語コーパスを用いて、前記第２言語及び第３言語用二言語単語対応モデルを訓練すること、前記第１及び第２言語用二言語単語対応モデル及び前記第２及び第３言語用二言語単語対応モデルに基づいて前記第１言語及び前記第３言語用二言語単語対応層モデルを推定すること、を含む二言語単語対応モデル訓練方法を提供する。

本発明の他の態様によると、上記二言語単語対応付けモデル訓練方法を使用することによって、前記第１及び第２言語の二言語コーパス及び前記第２及び第３言語の二言語コーパスに基づいて前記第１言語及び第３言語用二言語単語対応付けモデルを得ること、前記第１及び第３言語用二言語単語対応付けモデルを用いて前記第１及び第３言語の二言語対を単語対応付けすること、を含む二言語単語対応付け方法を提供する。

本発明の他の態様によると、第１及び第２言語の二言語コーパスを用いて、第１言語及び第２言語用二言語単語対応付けモデルを訓練するよう構成された第１訓練ユニットと、前記第２及び第３言語の二言語コーパスを用いて、前記第２言語及び第３言語用二言語単語対応付けモデルを訓練するよう構成される第２訓練ユニットと、前記第１及び第２言語用二言語単語対応付けモデル並びに前記第２及び第３言語用前記二言語単語対応付けモデルに基づいて、前記第１言語及び第３言語用二言語単語対応付けモデルを推定するよう構成されるモデル推定ユニットと、を具備する、二言語単語対応付けモデル訓練装置を提供する。

本発明の他の態様によると、上述の二言語単語対応付けモデル訓練装置によって前記第１及び第２言語の二言語コーパス並びに前記第２及び第３言語の二言語コーパスに基づいて第１言語及び第３言語用二言語単語対応モデルを得るように構成されるモデル取得ユニットと、前記第１及び第３言語用二言語単語対応付けモデルを用いて前記第１及び第３言語の二言語文対を単語対応付けするように構成された単語対応付けユニットと、を具備する、二言語単語対応付け装置を提供する。

次に、本発明の好適実施形態の詳細な説明を図面と関連して説明する。

図１は本発明の実施形態に従った二言語単語対応付けモデル(bilingual word alignment model)を訓練（トレーニング）する方法を示すフローチャートである。

図１に示すように、先ずステップ１０１では、第１及び第２言語間二言語コーパスが第１及び第２言語用二言語単語対応付けモデルを訓練するために使用される。この実施形態では、二言語単語対応付けモデルは単語翻訳サブモデル、位置歪み（position distortion）サブモデル及び単語増殖（word fertility）サブモデルを含む。

これらのサブモデルにおいて、単語翻訳サブモデルは一組の単語翻訳確率である。単語翻訳確率(word translation probability)p(w_s|w_t)が目標単語(target word)w_tからソース単語(source word)w_sへの翻訳確率(translation probability)である。

位置歪みサブモデルは一組の位置歪み確率である。位置歪み確率p(j|i,l,m)は目標言語の文におけるｉ番目の位置、ソース言語の文の長さｍそして目標言語の文の長さｌとしてソース言語の文におけるｊ番目の位置を選択する確率である。

単語増殖サブモデルは一組の単語増殖確率である。単語増殖確率p(φ_i|w_t)はφ_iソース単語を対応付ける目標単語w_tの確率である。

このステップにおいて、第１及び第２言語の二言語コーパスに基づいて統計的方法(statistical method)を用いて、二言語単語対応付けモデル、即ち単語翻訳サブモデル、位置歪みサブモデル及び第１及び第２言語用単語増殖サブモデルが訓練される。

次に、ステップ１０５では、第２及び第３言語の二言語コーパスが第２及び第３言語用二言語単語対応付けモデルを訓練するために使用される。ステップ１０１と同様に、このステップでも、第２及び第３言語の二言語コーパスに基づいて、統計的方法を用いて、二言語単語対応付けモデル、即ち、単語翻訳サブモデル、位置歪みサブモデル及び第２及び第３言語用単語増殖サブモデルが訓練される。

本実施形態では、第１及び第２言語間並びに第２及び第３言語間の大規模精密言語コーパス(large-scale accurate bilingual corpus)が利用できるが、第１及び第３言語間の二言語コーパスは不十分であると仮定する。故に、ステップ１０１及び１０５を通して、第１及び第２言語間並びに第２及び第３言語間の充分な二言語コーパスは第１及び第２言語に対して良好な品質並びに第２及び第３言語に対して良好な品質で二言語単語対応付けを得るために使用できる。

次に、ステップ１１０において、第１及び第２言語用二言語単語対応付けモデル並びに第２及び第３言語用二言語単語対応付けモデルに基づいて、第１及び第３言語用二言語単語対応付けモデルが推定される。

この実施形態では、次のステップを含めて、単語翻訳サブモデル、位置歪みサブモデル及び単語増殖サブモデルをそれぞれ推定することが必要である。即ち、
第１及び第２言語用単語翻訳サブモデル並びに第２及び第３言語用単語翻訳サブモデルに基づいて、第１及び第３言語用単語翻訳サブモデルを推定するステップと、
第１及び第２言語用位置歪みサブモデル並びに第２及び第３言語用位置歪みサブモデルに基づいて、第１及び第３言語用位置歪みサブモデルを推定するステップと、
第１及び第２言語用単語増殖サブモデル及び／又は第２及び第３言語用単語増殖サブモデル、第１及び第２言語用単語翻訳サブモデル及び／又は第２及び第３言語用単語翻訳サブモデルに基づいて、第１及び第３言語用単語増殖サブモデルを推定するステップとを含む。

次に、上記サブモデルの推定処理を詳細に説明する。

１）最初に、第１及び第３言語用単語翻訳サブモデルに関して、

２）次に、第１及び第３言語用位置歪みサブモデルの推定に関しては、

３）最後に、第１及び第３言語用単語増殖サブモデルの推定に関しては、

上記から本実施形態の二言語単語対応付けモデルを訓練する方法は訓練用に充分なコーパスがないために高品質で単語対応付けモデルを得る方法がない問題を解決するために中間言語を使用できることは理解できる。例えば、通常、中国語と日本語のための統計的単語対応付けモデルの品質を制限する、中国語と日本語間の充分な二言語コーパスが存在しない。この実施形態の方法を用いることによって、英語のような大規模コーパスを持つ中間言語がこの問題を解決するために使用できる。中国語と日本語間の大規模二言語コーパス及び日本語と英語間の大規模コーパスが利用できるので、中国語と英語に対して高品質を持つ単語対応付けモデル及び日本語と英語に対して高品質を持つ単語対応付けモデルが得ることができ、更に中国語と日本語に対する単語対応付けモデルは中国語と英語に対する単語対応付けモデルと日本語と英語に対する単語対応付けモデルを用いて推定できる。

むろん、本発明は中国語、英語及び日本語の場合に限定されなく、任意の言語が先の実施形態の第１，第２及び第３言語として使用できる。しかし、通常、大規模コーパスを持つこれら国際語は英語、フランス語及びスペイン語のように考慮に値する。

同じ発明概念に基づいて、図２は本発明の実施形態に従った二言語単語対応付け方法を示すフローチャートである。次に、図と関連して、この実施形態を説明する。先の実施形態の部分と同じ部分は適宜省略する。

図２に示すように、先ず、ステップ１０１で、第１言語及び第２言語の二言語コーパスが第１及び第２言語用二言語単語対応付けモデルを訓練するために使用される。それから、ステップ１０５において、第２言語及び第３言語の二言語コーパスが第２及び第３言語用二言語単語対応付けモデルを訓練するために使用される。それから、ステップ１１０で、第１及び第２言語用二言語単語対応付けモデル及び第２及び第３言語用二言語単語対応付けモデルに基づいて、第１言語及び第３言語のための二言語単語対応付けモデルが推定される。

上記ステップ１０１，１０５及び１１０は図１に示される実施形態と基本的には同じであり、ここでは説明を繰り返さない。

次に、ステップ２１５で、第１及び第３言語用推定二言語単語対応付けモデルが第１及び第３言語の二言語文を単語対応付けのするために使用される。特定の対応付け方法は以下の通りである。

１．単語翻訳確率及び位置対応付け確率が対応付けシリーズＡ０を得るようにソース言語単語毎に最適単語対応付けを見つけるために使用される。

２．対応付けシリーズＡｉに基づいて、単語翻訳確率、位置歪みモデル及び単語増殖モデルが任意の２つの対応付けを切換える、又は１つの対応付けを変更することを試みてより良い対応付けシリーズＡｉ＋１を見つけるために使用される。

３．処理２はより良い対応付けシリーズが見つけられなくなるまで繰り返される。

ここで、当業者は任意の周知及び将来の探索アルゴリズムが最適対応付けシリーズを見つけるために使用できることを理解しているはずである。

上記からこの実施形態の二言語単語対応付け方法が訓練用の充分なコーパスがないことによる高品質の単語対応付けモデルを得る方法がないと言う問題を解決するために中間言語を使用できることが理解できる。故に、中国語及び英語のような少ないコーパスの二カ国言語に対しても正確な単語対応付けができる。

同じ発明概念に基づいて、図３は本発明の実施形態に従った二言語単語対応付けモデルを訓練する装置を示すブロック図である。次に、図面と関連して、この実施形態を説明する。先の実施形態と同じ部分については適宜説明を省略する。

図３に示すように、この実施形態の二言語単語対応付けモデルを訓練する装置３００は第１及び第２言語の二言語コーパス３０１を用いて、第１言語及び第２言語用二言語単語対応付けモデルを訓練するように構成された第１訓練ユニット３０３と、第２及び第３言語の二言語コーパス３０２を用いて、第２言語及び第３言語用二言語単語対応付けモデルを訓練するように構成された第２訓練ユニット３０４と、第１訓練ユニット３０３によって訓練された第１及び第２言語用二言語単語対応付けモデル並びに第２訓練ユニット３０４によって訓練された第２及び第３言語用二言語単語対応付けモデルに基づいて、第１言語及び第３言語用二言語単語対応付けモデルを推定するように構成されたモデル推定ユニット３０５とを含む。

特に、第１訓練ユニット３０３によって訓練された第１及び第２言語用二言語単語対応付けモデル及び第２訓練ユニット３０４によって訓練された第２及び第３言語用二言語単語対応付けモデルは各々単語翻訳サブモデル、位置歪みサブモデル及び単語増殖サブモデルにより構成される。モデル推定ユニットは第１及び第２言語用単語翻訳サブモデル及び第２及び第３言語用単語翻訳サブモデルに基づいて、第１及び第３言語用単語翻訳サブモデルを推定するように構成される単語翻訳サブモデル推定ユニットと、第１及び第２言語用位置歪みサブモデル並びに第２及び第３言語用位置歪みサブモデルに基づいて、第１及び第３言語用位置歪みサブモデルを推定するように構成された位置歪みサブモデル推定ユニットと、第１及び第２言語用単語増殖サブモデル及び／又は第２及び第３言語用単語増殖サブモデル、第１及び第２言語用単語翻訳サブモデル及び／又は第２及び第３言語用単語翻訳サブモデルに基づいて、第１及び第３言語用単語増殖サブモデルを推定するように構成される単語増殖サブモデルとを含む。

上記からこの実施形態の二言語単語対応付けモデルを訓練する装置は操作上図１に示された実施形態の二言語単語対応付けモデルを訓練する方法を実現できる。この実施形態を使用することによって、訓練用の充分なコーパスがないことにより高品質の単語対応付けモデルを得る方法がないと言う問題が中間言語を使用することによって解決できる。

ここで、実施形態の二言語単語対応付けモデルを訓練する装置３００及びその構成要素は専用の回路又はチップによって構成でき、又は対応するプログラムを実行してコンピュータ（プロセッサ）によって実現できる。

同じ発明概念に基づいて、図４はこの発明の実施形態に従った二言語単語対応付け装置を示すブロック図である。次に、図と関連して、この実施形態を説明する。先の実施形態と同一部分は適宜説明を省略する。

図４に示すように、この実施形態の二言語単語対応付け装置４００は図３にて説明された二言語単語対応付けモデルを訓練する装置と単語対応付けユニット４０６とによって構成される。単語対応付けユニット４０６は二言語単語対応付けモデルを訓練する装置３００によって得られる第１及び第３言語用二言語単語対応付けモデルを用いて、第１及び第３言語の二言語文対を単語対応付けする。特定の単語対応付け方法は先の実施形態で説明されており、ここでは繰り返さない。

上記からこの実施形態の二言語単語対応付け装置４００は操作上この発明の上記実施形態の二言語単語対応付け方法を実現できる。この実施形態の二言語単語対応付け装置を使用することによって、訓練に充分でないコーパスによって高品質の単語対応付けモデルを得る方法がない問題が中間言語を用いることによって解決できる。故に、中国語及び英語のような少ないコーパスを持つこれら二カ国言語でさえ、正確な単語対応付けが行える。

ここで、実施形態の二言語単語対応付け装置４００及びその構成要素は専用回路又はチップによって構成でき、又は対応するプログラムを実施することによってコンピュータ（プロセッサ）によって実現できる。

二言語単語対応付け方法及び装置並びに本発明の二言語単語対応付けモデルを訓練する方法及び装置は幾つかの模範的な実施形態で詳細に説明したが、これら実施形態は包括的ではない。当業者は本発明の精神と範囲内で種々変更及び変形できる。故に、本発明はこれら実施形態に限定されなく、本発明の範囲は添付請求項によってのみ定義される。

本発明の実施形態に従った二言語単語対応付けモデルを訓練する方法を示すフローチャートである。本発明の実施形態に従った二言語単語対応付け方法を示すフローチャートである。本発明の実施形態に従った二言語単語対応付けモデルを訓練する装置を示すブロック図である。本発明の実施形態に従った二言語単語対応付け装置を示すブロック図である。

Claims

第１及び第２言語の二言語コーパスを用いて、前記第１言語及び第２言語用二言語単語対応付けモデルを訓練するよう構成される第１訓練ユニットと、
前記第２及び第３言語の二言語コーパスを用いて、前記第２言語及び第３言語用二言語単語対応付けモデルを訓練するよう構成される第２訓練ユニットと、
前記第１及び第２言語用二言語単語対応付けモデル及び前記第２及び第３言語用二言語単語対応付けモデルに基づいて、前記第１言語及び第３言語用二言語単語対応付けモデルを推定するよう構成されるモデル推定ユニットと、
を具備し、
前記第１及び第２言語用二言語単語対応付けモデル並びに前記第２及び第３言語用二言語単語対応付けモデルは各々単語翻訳サブモデル、位置歪みサブモデル及び単語増殖サブモデルからなり、
前記モデル推定ユニットは、
前記第１及び第２言語用前記単語翻訳サブモデル並びに前記第２及び第３言語用単語翻訳サブモデルに基づいて、前記第１及び第３言語用単語翻訳サブモデルを推定するよう構成される単語翻訳サブモデル推定ユニットと、
前記第１及び第２言語用前記位置歪みサブモデル並びに前記第２及び第３言語用位置歪みサブモデルに基づいて、前記第１及び第３言語用位置歪みサブモデルを推定するよう構成される位置歪みサブモデル推定ユニットと、
前記第１及び第２言語用単語増殖サブモデル及び／又は前記第２及び第３言語用単語増殖サブモデル、前記第１及び第２言語用単語翻訳サブモデル及び／又は前記第２及び第３言語用単語翻訳サブモデルに基づいて、前記第１及び第３言語用単語増殖サブモデルを推定するよう構成される単語増殖サブモデル推定ユニットと、
を具備し、
請求項１に記載の二言語単語対応付けモデル訓練装置により前記第１及び第２言語の前記二言語コーパス並びに前記第２及び第３言語の二言語コーパスに基づいて第１言語及び第３言語用二言語単語対応モデルを得るように構成されるモデル取得ユニットと、
前記第１及び第３言語用前記二言語単語対応付けモデルを用いて前記第１及び第３言語の二言語文対を単語対応付けするよう構成される単語対応付けユニットと、
を具備する、二言語単語対応付け装置。
第１訓練ユニットが第１及び第２言語の二言語コーパスを用いて、前記第１言語及び第２言語用二言語単語対応付けモデルを訓練する第１ステップと、
第２訓練ユニットが前記第２及び第３言語の二言語コーパスを用いて、前記第２言語及び第３言語用二言語単語対応付けモデルを訓練する第２ステップと、
モデル推定ユニットが前記第１及び第２言語用二言語単語対応付けモデル及び前記第２及び第３言語用二言語単語対応付けモデルに基づいて、前記第１言語及び第３言語用二言語単語対応付けモデルを推定する第３ステップと、
を含み、
前記第１及び第２言語用二言語単語対応付けモデル並びに前記第２及び第３言語用二言語単語対応付けモデルは各々単語翻訳サブモデル、位置歪みサブモデル及び単語増殖サブモデルからなり、
前記第３ステップは、
前記第１及び第２言語用前記単語翻訳サブモデル並びに前記第２及び第３言語用単語翻訳サブモデルに基づいて、前記第１及び第３言語用単語翻訳サブモデルを推定する第１サブステップと、
前記第１及び第２言語用前記位置歪みサブモデル並びに前記第２及び第３言語用位置歪みサブモデルに基づいて、前記第１及び第３言語用位置歪みサブモデルを推定する第２サブステップと、
前記第１及び第２言語用単語増殖サブモデル及び／又は前記第２及び第３言語用単語増殖サブモデル、前記第１及び第２言語用単語翻訳サブモデル及び／又は前記第２及び第３言語用単語翻訳サブモデルに基づいて、前記第１及び第３言語用単語増殖サブモデルを推定する第３サブステップと、
を含み、
請求項３に記載の二言語単語対応付けモデル訓練方法により前記第１及び第２言語の前記二言語コーパス並びに前記第２及び第３言語の二言語コーパスに基づいて第１言語及び第３言語用二言語単語対応モデルを取得するステップと、
前記第１及び第３言語用前記二言語単語対応付けモデルを用いて前記第１及び第３言語の二言語文対を単語対応付けするステップと、
を含む、二言語単語対応付け方法。