JP4331219B2

JP4331219B2 - 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置

Info

Publication number: JP4331219B2
Application number: JP2007048894A
Authority: JP
Inventors: ウー・ファ; ワン・ハイフェン; リュー・ツァンイ
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2006-02-28
Filing date: 2007-02-28
Publication date: 2009-09-16
Anticipated expiration: 2027-02-28
Also published as: US20070203689A1; JP2007234024A; US7827027B2; CN101030197A

Description

本発明は、情報処理の技術に関し、特に、二言語単語対応付けの技術および自然言語処理における統計的機械翻訳の技術に関する。

単語対応付けが、自然言語処理で広範に使用されている。既存の単語対応付けの技術は、通常、統計的単語対応モデルを使用して、二言語文における、対の一方が他方の翻訳である単語対間の対応付けを行う。統計的単語対応モデルは、二言語文における、対の一方が他方の翻訳である単語対を決定するのに使用される統計的情報を含む。

P.F.Brown、S.A.Della Pietra、V.J.Della PietraおよびＲ．Ｍｅｒｃｅｒ著、１９９３年刊の論文、「統計的機械翻訳の数学：パラメータ推定（The Mathematics of Statistical Machine Translation: Parameter Estimation）」（計算言語学、１９（２）：２６３〜３１１）には、統計的機械翻訳モデルおよび統計的単語対応モデル、ならびに対応するパラメータ推定方法が記載されている。

しかしながら、現在の統計的単語対応モデルは、大規模な無ラベル二言語コーパスを使用して、監修なしで統計的単語対応モデルを訓練するため、かかる統計的単語対応モデルは、多くの誤った単語対応結果の生成につながり得る。単語対応が手作業でラベル付けされる二言語コーパスを使用して、監修付きで訓練が行えば、より高度な正確さを有する対応モデルが獲得できる。

他方、大規模な二言語コーパス内の単語を手作業で対応付けするのは根気の要る作業である。ごく小規模なコーパスを手作業でラベル付けしさえすればよいのであれば、さほどの労力も時間も要さない。

既存の技法の前述の問題を解決するために、本発明は、二言語単語対応付けの方法および装置、ならびに二言語単語対応モデルを訓練する方法および装置を提供する。

本発明の一態様によれば、単語対応ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練することと、上記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うことと、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、上記二言語文対をラベル付き二言語コーパスに追加し、上記二言語文対を無ラベル二言語コーパスから除去することと、拡張ラベル付き二言語コーパスを使用して二言語単語対応モデルを再訓練することと、再訓練された二言語単語対応モデルを使用して無ラベル二言語コーパス内の残りの二言語文対の再単語対応付けを行うことと、を含む二言語単語対応付け方法が提供される。

本発明の別の態様によれば、単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練することと、上記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うことと、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、上記二言語文対をラベル付き二言語コーパスに追加し、上記二言語文対を無ラベル二言語コーパスから除去することと、拡張ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練することと、を含む二言語単語対応モデルの訓練方法が提供される。

本発明の別の態様によれば、単語対応ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されているモデル訓練ユニットと、上記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うように構成されている単語対応付けユニットと、上記複数の二言語文対の単語対応が正しいかどうか判定し、正しい場合に、上記二言語文対をラベル付き二言語コーパスに追加し、上記二言語文対を無ラベル二言語コーパスから除去するように構成されている判定ユニットと、上記判定ユニットによって拡張ラベル付き二言語コーパスを使用して二言語単語対応モデルを再訓練するように構成されているモデル再訓練ユニットと、再訓練された二言語単語対応モデルを使用して、無ラベル二言語コーパス内の残りの二言語文対の再単語対応付けを行うように構成されている再単語対応付けユニットとを備える二言語単語対応付け装置が提供される。

本発明の別の態様によれば、単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練するように構成されている初期モデル訓練ユニットと、上記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うように構成されている単語対応付けユニットと、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、上記二言語文対をラベル付き二言語コーパスに追加し、上記二言語文対を無ラベル二言語コーパスから除去するように構成されている判定ユニットと、上記判定ユニットによって拡張ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されているモデル訓練ユニットとを備える二言語単語対応モデルの訓練装置が提供される。

次に、図面と併せて、本発明の好ましい実施形態を詳細に説明する。

図１は、本発明の一実施形態による二言語単語対応付けの方法を示すフローチャートである。

図１に示すように、まずステップ１０１で、二言語単語対応モデルが、単語対応ラベル付き二言語コーパスを使用して訓練される。このステップで、ラベル付きコーパスは、（翻訳者などの）専門家によって、手作業で単語対応のラベル付けが行われる二言語コーパスであり、これには、複数の二言語文対および各二言語文対の単語対応情報が含まれ、各文対は、対の他方の文の翻訳である文を有する。ラベル付き二言語コーパスが大きいほどシステムの性能は向上するが、手作業で単語対応付けを行うには労力と時間を要し、よって、ラベル付きコーパスは、後述する無ラベルコーパスと比べて非常に小さい。

この実施形態において、二言語単語対応モデルは、少なくとも単語翻訳可能性、位置ねじれ可能性および単語増殖可能性を含む統計的単語対応モデルであり、単語翻訳確率ｐ（ｗ_ｓ／ｗ_ｔ）は、目標言語内の単語ｗ_ｔが、起点言語内の単語ｗ_ｓに翻訳される確率であり、位置ねじれ確率ｐ（ｊ／ｉ，ｌ，ｍ）は、ｍを起点言語中の文の長さとし、ｌを目標言語中の文の長さとするという条件下で、目標言語の文中のｉ番目の位置が、起点言語の文中のｊ番目の位置に対応する確率である。単語増殖確率ｐ（φ_ｉ／ｗ_ｔ）は、目標言語内の単語ｗ_ｔが、起点言語内のφ_ｉ個の単語に対応する確率である。

さらに、この実施形態では、二言語単語対応モデルは、順方向二言語単語対応モデルと逆方向二言語単語対応モデルを含む。このステップでは、ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルが訓練され、逆方向二言語単語対応モデルが訓練される。例えば、中国語／英語二言語コーパスでは、中国語／英語単語対応モデルと、英語／中国語単語対応モデルを訓練することが求められる。

次に、ステップ１０５で、上記ステップ１０１で訓練された二言語単語対応モデルを使用して、無ラベル二言語コーパス内の複数の二言語文対の単語対応付けが行われる。この実施形態では、翻訳確率、位置ねじれ確率および単語増殖確率を含む二言語単語対応モデルが使用される。具体的な対応付けの仕方は以下の通りである。

１．単語翻訳確率および位置対応確率を使用して、対応系列Ａ０を獲得するために、各起点言語単語ごとの最適単語対応が見つけ出される。

２．対応系列Ａｉに基づいて、単語翻訳確率、位置ねじれモデルおよび単語増殖モデルを使用して、任意の２つの対応を交換し、または対応を変更しようとすることによって、より良い対応系列Ａｉ＋１が見つけ出される。

３．プロセス２が、より良い対応系列が見つからなくなるまで繰り返される。

ここでは、最適対応系列をサーチするのに、任意の知られているサーチアルゴリズムおよび将来のサーチアルゴリズムが使用され得ることを、当業者は理解するはずである。

このステップでは、上記ステップ１０１で訓練された二言語単語対応モデルを使用して、順方向単語対応結果と逆方向単語対応をそれぞれ獲得するために、無ラベル二言語コーパス内の複数の二言語文対の単語対応付けが行われる。

次に、ステップ１１０で、各二言語文対の単語対応が正しいか否かが判定される。単語対応が正しい場合、正しいと判定されている対応二言語文対がラベル付き二言語コーパスに追加され、無ラベル二言語コーパスから削除される。

具体的には、この実施形態では、順方向単語対応結果Ａ_１と逆方向単語対応結果Ａ_２の交差Ａ_１∩Ａ_２が、各二言語文対ごとに計算される。

この二言語文対に対して順方向単語対応結果Ａ_１と逆方向単語対応結果Ａ_２の和集合Ａ_１∪Ａ_２が計算される。

上記交差Ａ_１∩Ａ_２内の要素数と上記和集合Ａ_１∪Ａ_２内の要素数の比

が所定の閾値ｔｈより大きい場合、この二言語文対の単語対応は正しいと判定され、そうでない場合、この二言語文対の単語対応は正しくないと判定される。正しい単語対応を有する二言語文対については、無ラベルコーパスからラベル付きコーパスに移動される。

さらに、このステップでは、二言語文対の順方向単語対応結果が逆方向単語対応結果と同一でない場合、すなわち、ｔｈ＜Ｒ＜１の場合、上記順方向単語対応結果と上記逆方向単語対応結果の異なる部分の単語翻訳確率がそれぞれ計算され、より高い単語翻訳確率を有する単語対応結果が上記ラベル付き二言語コーパスに追加される。

例えば、英語／中国語の文対について、
英語：Please put the red jacket on the bed.
中国語：清把紅色的来克放在床上
この単語対応モデルを使用して、以下の順方向および逆方向対応結果が得られる。

英語／中国語対応（順方向）

中国語／英語対応（逆方向）

ここで、
＃（Ａ_１）＝７／／順方向対応の数
＃（Ａ_２）＝７／／逆方向対応の数
であり、
中国語／英語対応結果には「ｏｎ＜−＞在」があり、英語／中国語対応結果には「ｏｎ＜−＞在．．上」がある。よって、
＃（Ａ_１∩Ａ_２）＝６／／順方向対応結果と逆方向対応結果の両方に出現する対応の数（順方向対応結果と逆方向対応結果の両方に出現する対応が１対応とみなされる）
＃（Ａ_１ＵＡ_２）＝８／／順方向と逆方向の対応の総和における対応の数
よって、定義

に基づき、Ｒ＝６／８＝０．７５＞０．７である（所定の閾値ｔｈが０．７であるものと仮定する）
よって、例文の獲得された対応は、要件を満たす。次いで、Ａ_１∩Ａ_２に出現しない対応について、「単語対応確率」を使用して、どの対応が正しいか決定される。上記の例では、「ｏｎ＜−＞在」と「ｏｎ＜−＞在．．上」がある。これらの２つの対応の確率がそれぞれ計算され、「ｏｎ＜−＞在．．上」の確率がより大きいため、「ｏｎ＜−＞在．．上」が選択される。例文および処理された対応は、ラベル付き集合に保存される。すなわち、以下の結果がラベル付き集合に保存される。

次に、ステップ１１５で、拡張ラベル付き二言語コーパスを使用して、二言語単語対応モデルが再訓練される。上記ステップ１０１と同様に、このステップでは、拡張ラベル付き二言語コーパスを使用して、順方向二言語単語対応モデルと逆方向二言語単語対応モデルが訓練される。

次に、ステップ１２０で、上記二言語単語対応モデルを使用して、無ラベル二言語コーパス内の残りの二言語文対の再単語対応付けが行われる。

上記の説明から、この実施形態の二言語単語対応付けの方法が使用される場合、手作業で単語対応のラベル付けが行われる二言語コーパスを使用して監修付きの訓練を行うために、より高度な正確さを有する対応モデルを獲得することができ、また同時に、ラベル付き二言語コーパスの規模が、無ラベルコーパスの規模よりはるかに小さいため、手作業によるラベル付けにあまり労力と時間を要しないことが分かる。よって、この実施形態の二言語単語対応付けの方法は、既存の単語対応付け方法より正確に、無ラベルコーパス内の文対の単語対応付けを行うことができる。

さらに、本発明の別の実施形態によれば、ステップ１２０の後、上記の判定（ステップ１１０）、再訓練（ステップ１１５）および再単語対応付けのステップ（ステップ１２０）が、さらに、新規に正しい単語対応が生成されなくなるまで繰り返される。よって、新しい対応結果を使用して対応モデルをさらに洗練させて、単語対応の正確さが向上させることができる。

図２は、同じ発明概念による、本発明の一実施形態による二言語単語対応モデルを訓練する方法を示すフローチャートである。次に、図２と併せて、この実施形態を説明する。前の実施形態の部分と同一の部分についての説明は、適宜省略する。

図２に示すように、まず、ステップ２０１で、ラベル付き二言語コーパスを使用して、初期二言語単語対応モデルが訓練される。図１に示すステップ１０１と同様に、ラベル付きコーパスは、（翻訳者などの）専門家によって、手作業で単語対応のラベル付けが行われる二言語コーパスであり、これには、複数の二言語文対および各二言語文対の単語対応情報が含まれ、各文対は、対の他方の文の翻訳である文を有する。

さらに、この実施形態では、二言語単語対応モデルは、順方向二言語単語対応モデルと逆方向二言語単語対応モデルを含む。このステップでは、ラベル付き二言語コーパスを使用して、順方向二言語単語対応モデルが訓練され、また、逆方向二言語単語対応モデルが訓練される。

次に、ステップ２０５で、訓練された初期二言語単語対応モデルを使用して、無ラベル二言語コーパス内の複数の二言語文対の単語対応付けが行われる。図１に示すステップ１０５と同様に、この実施形態では、翻訳確率、位置ねじれ確率および単語増殖確率を含む二言語単語対応モデルが使用される。具体的な対応付けの仕方は以下のとおりである。

ここでは、最適対応系列をサーチするのに、任意の知られているサーチアルゴリズムおよび将来のサーチアルゴリズムが使用できることを、当業者は理解するはずである。

このステップでは、訓練された初期二言語単語対応モデルを使用して、順方向単語対応結果と逆方向単語対応をそれぞれ獲得するために、無ラベル二言語コーパス内の複数の二言語文対の単語対応付けが行われる。

次に、ステップ２１０で、各二言語文対の単語対応が正しいか否かが判定される。単語対応が正しい場合、正しいと判定されている対応二言語文対がラベル付き二言語コーパスに追加され、無ラベル二言語コーパスから削除される。

この二言語文対の順方向単語対応結果Ａ_１と逆方向単語対応結果Ａ_２の和集合Ａ_１∪Ａ_２が計算される。

さらに、このステップでは、二言語文対の順方向単語対応結果が逆方向単語対応結果と同一でない、すなわち、ｔｈ＜Ｒ＜１の場合、上記順方向単語対応結果と上記逆方向単語対応結果の異なる部分の単語翻訳確率がそれぞれ計算され、より高い単語翻訳確率を有する単語対応結果が上記ラベル付き二言語コーパスに追加される。

次に、ステップ２１５で、拡張ラベル付き二言語コーパスを使用して、二言語単語対応モデルが再訓練される。このステップでは、拡張ラベル付き二言語コーパスを使用して、順方向二言語単語対応モデルと逆方向二言語単語対応モデルが訓練される。

上記の説明から、この実施形態の二言語単語対応付けの方法が使用される場合、手作業で単語対応のラベル付けが行われる二言語コーパスを使用して監修付きの訓練を行うために、高度な正確さを有する初期対応モデルを獲得することができることがわかる。さらに、初期単語対応モデルを使用して、無ラベルコーパスの単語対応付けが行われ、正しいと判定された対応結果を使用して、二言語単語対応モデルを訓練するためにラベル付きコーパスが拡張される。よって、あまり労力と時間を要しないと同時に、訓練される単語対応モデルの品質が保証され得る。

さらに、本発明の別の実施形態によれば、ステップ２１５の後、上記の新規に訓練された二言語単語対応モデルを使用して、残りの二言語文対の再単語対応付けが行われ、上記の判定（ステップ２１０）、再訓練（ステップ２１５）および再単語対応付けのステップは、さらに、新規に正しい単語対応が生成されなくなるまで繰り返される。よって、新しい対応結果を使用して対応モデルをさらに洗練させることができる。

図３は、本発明の一実施形態による二言語単語対応付けの装置を示すブロック図である。次に、図３と併せて、この実施形態を説明する。前の実施形態の部分と同一の部分についての説明は適宜省略する。

図３に示すように、この実施形態の二言語単語対応付けの装置３００は、単語対応ラベル付き二言語文対を含むラベル付きコーパス３０３と、無ラベル二言語文対を含む無ラベルコーパス３０７と、ラベル付き二言語コーパス３０３を使用して二言語単語対応モデルを訓練するように構成されているモデル訓練ユニット３０１と、上記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うように構成されている単語対応付けユニット３０２と、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、二言語文対をラベル付き二言語コーパス３０３に追加し、二言語文対を無ラベル二言語コーパス３０７から除去するように構成されている判定ユニット３０６と、上記判定ユニット３０６によって拡張ラベル付き二言語コーパス３０３を使用して二言語単語対応モデルを再訓練するように構成されているモデル再訓練ユニット３０４と、モデル再訓練ユニット３０４によって再訓練された二言語単語対応モデルを使用して無ラベル二言語コーパス３０７内の残りの二言語文対の再単語対応付けを行うように構成されている再単語対応付けユニット３０５とを備える。

図１に示す実施形態と同様に、この実施形態では、二言語単語対応モデルは、少なくとも１つの単語翻訳確率、位置ねじれ確率および単語増殖確率を含む。また、モデル訓練ユニット３０１は、ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、また、ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する。単語対応付けユニット３０２は、順方向二言語単語対応モデルを使用して、二言語文対のそれぞれの順方向単語対応付けを行い、逆方向二言語単語対応モデルを使用して、二言語文対のそれぞれの逆方向単語対応付けを行う。判定ユニット３０６は、二言語文対のそれぞれの順方向単語対応結果Ａ_１と逆方向単語対応結果Ａ_２の交差Ａ_１∩Ａ_２を計算し、二言語文対の順方向単語対応結果Ａ_１と順方向単語対応結果Ａ_２の和集合Ａ_１∪Ａ_２を計算する。上記交差Ａ_１∩Ａ_２内の要素数と上記和集合Ａ_１∪Ａ_２内の要素数の比

が所定の閾値ｔｈより大きい場合、この二言語文対の単語対応は正しいと判定され、そうでない場合、この二言語文対の単語対応は正しくないと判定される。正しい単語対応を有する二言語文対については、無ラベルコーパスからラベル付きコーパスに移動される。二言語文対の順方向単語対応結果が逆方向単語対応結果と同一でない場合、上記順方向単語対応結果と上記逆方向単語対応結果の異なる部分の単語翻訳確率がそれぞれ計算され、より高い単語翻訳確率を有する単語対応結果が上記ラベル付き二言語コーパスに追加される。

モデル再訓練ユニット３０４は、拡張ラベル付きコーパスを使用して順方向二言語単語対応モデルを再訓練し、また、拡張ラベル付きコーパスを使用して逆方向二言語単語対応モデルを再訓練する。

上記の説明から、この実施形態の二言語単語対応付けの装置は、前述の本発明の実施形態の二言語単語対応付けの方法を、既存の単語対応付け方法より正確に無ラベルコーパス内の文対の単語対応付けを行うように実施することができ、あまり労力と時間を要しないことがわかる。

さらに、本発明の別の実施形態によれば、再単語対応付けユニット３０５によって単語対応付けが行われる文対について、ラベル付きコーパス３０３をもう一度拡張するように、判定ユニット３０６によって再判定が行える。前の実施形態で説明しているように、判定することと、再訓練することと、再単語対応付けを行うこととの各ステップは、新規に正しい単語対応が生成されなくなるまで繰り返される。よって、新しい対応結果を使用して対応モデルをさらに洗練させて、単語対応の正確さを向上させることができる。

なお、二言語単語対応付けの装置３００およびこれの構成要素は、専用の回路またはチップを用いて構築することもでき、対応するプログラムを実行することを通じてコンピュータ（プロセッサ）によって実現することもできることに留意すべきである。

図４は、本発明の一実施形態による二言語単語対応モデルを訓練する装置を示すブロック図である。次に、図４と併せて、この実施形態を説明する。前の実施形態の部分と同一の部分についての説明は、適宜省略する。

図４に示すように、この実施形態の二言語単語対応モデルを訓練する装置４００は、単語対応ラベル付き二言語文対を含むラベル付きコーパス３０３と、無ラベル二言語文対を含む無ラベルコーパス３０７と、ラベル付きコーパス３０３内の単語対応ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されている初期モデル訓練ユニット４０１と、上記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うように構成されている単語対応付けユニット４０２と、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、この二言語文対を、無ラベル二言語コーパス３０７からラベル付き二言語コーパス３０３に移動するように構成されている判定ユニット４０６と、上記判定ユニット４０６によって拡張されたラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されているモデル再訓練ユニット４０４とを備える。

図２に示す実施形態と同様に、この実施形態では、二言語単語対応モデルは、少なくとも、翻訳確率、位置ねじれ確率および単語増殖確率を含む。また、初期モデル訓練ユニット４０１は、ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する。単語対応付けユニット４０２は、順方向二言語単語対応モデルを使用して二言語文対のそれぞれの順方向単語対応付けを行い、逆方向二言語単語対応モデルを使用して二言語文対のそれぞれの逆方向単語対応付けを行う。判定ユニット４０６は、二言語文対のそれぞれの順方向単語対応結果Ａ_１と逆方向単語対応結果Ａ_２の交差Ａ_１∩Ａ_２を計算し、二言語文対の順方向単語対応結果Ａ_１と逆方向単語対応結果のＡ_２の和集合Ａ_１∪Ａ_２を計算する。上記交差Ａ_１∩Ａ２内の要素数と上記和集合Ａ_１∪Ａ_２内の要素数の比

が所定の閾値ｔｈより大きい場合、この二言語文対の単語対応は正しいと判定され、そうでない場合、この二言語文対の単語対応は正しくないと判定される。正しい単語対応を有する二言語文対については、無ラベルコーパスからラベル付きコーパスに移動される。二言語文対の順方向単語対応結果が逆方向単語対応結果と同一でない場合、上記順方向単語対応結果と上記逆方向単語対応結果の異なる部分の単語翻訳確率がそれぞれ計算され、より高い単語翻訳確率を有する単語対応結果が、上記ラベル付き二言語コーパスに追加される。

上記の説明から、この実施形態の二言語単語対応モデルを訓練する装置は、前述の本発明の実施形態の二言語単語対応モデルを訓練する方法を実施し得ることがわかる。手作業で単語対応のラベル付けが行われる二言語コーパスを使用して監修付きの訓練を行うため、高い正確さを有する初期対応モデルを獲得することができ、さらに、初期単語対応モデルを使用して無ラベルコーパスの単語対応付けを行い、正しいと判定された対応結果を使用して、二言語単語対応モデルを訓練するためにラベル付きコーパスが拡張される。よって、あまり労力と時間を要しないと同時に、訓練される単語対応モデルの品質が保証できる。

さらに、本発明の別の実施形態によれば、モデル訓練ユニット４０４は、拡張ラベル付きコーパスを使用して順方向二言語単語対応モデルを訓練し、また、拡張ラベル付きコーパスを使用して逆方向二言語単語対応モデルを訓練する。単語対応付けユニット４０２は、さらに、モデル訓練ユニット４０４によって新規に訓練された二言語単語対応モデルを使用して、無ラベルコーパス３０７内の残りの二言語文対の再単語対応付けを行う。上記の実施形態で説明しているように、決定、訓練および再単語対応付けの各ステップは、新規に正しい単語対応が生成されなくなるまで繰り返される。よって、新しい対応結果を使用して単語対応モデルをさらに洗練させることができる。

なお、二言語単語対応モデルを訓練する装置４００およびこれの構成要素は、専用の回路またはチップを用いて構築することもでき、対応するプログラムを実行することを通じて、コンピュータ（プロセッサ）によって実現することもできることに留意すべきである。

本発明の、二言語単語対応付けの方法および装置、ならびに二言語単語対応モデルを訓練する方法および装置を、いくつかの例示的実施形態を用いて詳細に説明しているが、これらの実施形態は網羅的なものではなく、当業者は、本発明の精神および範囲内において、様々な変形および改変を行うことができる。よって、本発明は、これらの実施形態だけに限定されず、本発明の範囲は、添付の特許請求の範囲によってのみ定義されるものである。

本発明の一実施形態による二言語単語対応付けの方法を示すフローチャートである。本発明の一実施形態による二言語単語対応モデルを訓練する方法を示すフローチャートである。本発明の一実施形態による二言語単語対応付けの装置を示すブロック図である。本発明の一実施形態による二言語単語対応モデルを訓練する装置を示すブロック図である。

Claims

二言語単語対応付け装置であって、
単語対応ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するよう構成され、前記単語対応ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練するモデル訓練ユニットと、
前記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うよう構成され、前記順方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けをと、前記逆方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う単語対応付けユニットと、
前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するよう構成され、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する判定ユニットと、
前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して前記二言語単語対応モデルを再訓練するよう構成されているモデル再訓練ユニットと、
前記再訓練された二言語単語対応モデルを使用して前記無ラベル二言語コーパス内の残りの前記二言語文対の再単語対応付けを行うよう構成されている再単語対応付けユニットと、
を備える二言語単語対応付け装置。
前記モデル再訓練ユニットは、前記拡張ラベル付き二言語コーパスを使用して前記順方向二言語単語対応モデルを再訓練し、前記拡張ラベル付き二言語コーパスを使用して前記逆方向二言語単語対応モデルを再訓練する、請求項１に記載の二言語単語対応付け装置。
前記判定ユニットは、前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率をさらに計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加する、請求項１に記載の二言語単語対応付け装置。
二言語単語対応モデルの訓練装置であって、
単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練するよう構成され、前記単語対応ラベル付き二言語コーパスを使用して順方向初期二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向初期二言語単語対応モデルを訓練する初期モデル訓練ユニットと、
前記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うよう構成され、前記順方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けと、前記逆方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う単語対応付けユニットと、
前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するように構成され、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する判定ユニットと、
前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されているモデル訓練ユニットと、
を備える二言語単語対応モデルの訓練装置。
前記モデル訓練ユニットは、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する、請求項４に記載の二言語単語対応モデルの訓練装置。
前記判定ユニットは、前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率を計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加する、請求項４に記載の二言語単語対応モデルの訓練装置。
二言語単語対応付け方法であって、
モデル訓練ユニットが単語対応ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する第１ステップと、
単語対応付けユニットが前記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うため、前記順方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けと、前記逆方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う第２ステップと、
判定ユニットが前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するため、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する第３ステップと、
モデル再訓練ユニットが前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して前記二言語単語対応モデルを再訓練する第４ステップと、
再単語対応付けユニットが前記再訓練された二言語単語対応モデルを使用して前記無ラベル二言語コーパス内の残りの前記二言語文対の再単語対応付けを行う第５ステップと、
を含む二言語単語対応付け方法。
前記第４ステップは前記拡張ラベル付き二言語コーパスを使用して前記順方向二言語単語対応モデルを再訓練し、前記拡張ラベル付き二言語コーパスを使用して前記逆方向二言語単語対応モデルを再訓練するステップを含む、請求項７に記載の二言語単語対応付け方法。
前記第３ステップは前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記判定ユニットが前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率をさらに計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加するステップを含む、請求項７に記載の二言語単語対応付け方法。
二言語単語対応モデルの訓練方法であって、
初期モデル訓練ユニットが単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練するため、前記単語対応ラベル付き二言語コーパスを使用して順方向初期二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向初期二言語単語対応モデルを訓練する第１ステップと、
単語対応付けユニットが前記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うため、前記順方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けと、前記逆方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う第２ステップと、
判定ユニットが前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するため、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する第３ステップと、
モデル訓練ユニットが前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練する第４ステップと、
を含む二言語単語対応モデルの訓練方法。
前記第３ステップは、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練するステップを含む、請求項１０に記載の二言語単語対応モデルの訓練方法。
前記第３ステップは、前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率を計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加するステップを含む、請求項１０に記載の二言語単語対応モデルの訓練方法。