JP4331219B2 - 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置 - Google Patents

二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置 Download PDF

Info

Publication number
JP4331219B2
JP4331219B2 JP2007048894A JP2007048894A JP4331219B2 JP 4331219 B2 JP4331219 B2 JP 4331219B2 JP 2007048894 A JP2007048894 A JP 2007048894A JP 2007048894 A JP2007048894 A JP 2007048894A JP 4331219 B2 JP4331219 B2 JP 4331219B2
Authority
JP
Japan
Prior art keywords
bilingual
word
model
corpus
correspondence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2007048894A
Other languages
English (en)
Other versions
JP2007234024A (ja
Inventor
ウー・ファ
ワン・ハイフェン
リュー・ツァンイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Publication of JP2007234024A publication Critical patent/JP2007234024A/ja
Application granted granted Critical
Publication of JP4331219B2 publication Critical patent/JP4331219B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars

Description

本発明は、情報処理の技術に関し、特に、二言語単語対応付けの技術および自然言語処理における統計的機械翻訳の技術に関する。
単語対応付けが、自然言語処理で広範に使用されている。既存の単語対応付けの技術は、通常、統計的単語対応モデルを使用して、二言語文における、対の一方が他方の翻訳である単語対間の対応付けを行う。統計的単語対応モデルは、二言語文における、対の一方が他方の翻訳である単語対を決定するのに使用される統計的情報を含む。
P.F.Brown、S.A.Della Pietra、V.J.Della PietraおよびR.Mercer著、1993年刊の論文、「統計的機械翻訳の数学:パラメータ推定(The Mathematics of Statistical Machine Translation: Parameter Estimation)」(計算言語学、19(2):263〜311)には、統計的機械翻訳モデルおよび統計的単語対応モデル、ならびに対応するパラメータ推定方法が記載されている。
しかしながら、現在の統計的単語対応モデルは、大規模な無ラベル二言語コーパスを使用して、監修なしで統計的単語対応モデルを訓練するため、かかる統計的単語対応モデルは、多くの誤った単語対応結果の生成につながり得る。単語対応が手作業でラベル付けされる二言語コーパスを使用して、監修付きで訓練が行えば、より高度な正確さを有する対応モデルが獲得できる。
他方、大規模な二言語コーパス内の単語を手作業で対応付けするのは根気の要る作業である。ごく小規模なコーパスを手作業でラベル付けしさえすればよいのであれば、さほどの労力も時間も要さない。
既存の技法の前述の問題を解決するために、本発明は、二言語単語対応付けの方法および装置、ならびに二言語単語対応モデルを訓練する方法および装置を提供する。
本発明の一態様によれば、単語対応ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練することと、上記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うことと、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、上記二言語文対をラベル付き二言語コーパスに追加し、上記二言語文対を無ラベル二言語コーパスから除去することと、拡張ラベル付き二言語コーパスを使用して二言語単語対応モデルを再訓練することと、再訓練された二言語単語対応モデルを使用して無ラベル二言語コーパス内の残りの二言語文対の再単語対応付けを行うことと、を含む二言語単語対応付け方法が提供される。
本発明の別の態様によれば、単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練することと、上記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うことと、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、上記二言語文対をラベル付き二言語コーパスに追加し、上記二言語文対を無ラベル二言語コーパスから除去することと、拡張ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練することと、を含む二言語単語対応モデルの訓練方法が提供される。
本発明の別の態様によれば、単語対応ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されているモデル訓練ユニットと、上記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うように構成されている単語対応付けユニットと、上記複数の二言語文対の単語対応が正しいかどうか判定し、正しい場合に、上記二言語文対をラベル付き二言語コーパスに追加し、上記二言語文対を無ラベル二言語コーパスから除去するように構成されている判定ユニットと、上記判定ユニットによって拡張ラベル付き二言語コーパスを使用して二言語単語対応モデルを再訓練するように構成されているモデル再訓練ユニットと、再訓練された二言語単語対応モデルを使用して、無ラベル二言語コーパス内の残りの二言語文対の再単語対応付けを行うように構成されている再単語対応付けユニットとを備える二言語単語対応付け装置が提供される。
本発明の別の態様によれば、単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練するように構成されている初期モデル訓練ユニットと、上記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うように構成されている単語対応付けユニットと、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、上記二言語文対をラベル付き二言語コーパスに追加し、上記二言語文対を無ラベル二言語コーパスから除去するように構成されている判定ユニットと、上記判定ユニットによって拡張ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されているモデル訓練ユニットとを備える二言語単語対応モデルの訓練装置が提供される。
次に、図面と併せて、本発明の好ましい実施形態を詳細に説明する。
図1は、本発明の一実施形態による二言語単語対応付けの方法を示すフローチャートである。
図1に示すように、まずステップ101で、二言語単語対応モデルが、単語対応ラベル付き二言語コーパスを使用して訓練される。このステップで、ラベル付きコーパスは、(翻訳者などの)専門家によって、手作業で単語対応のラベル付けが行われる二言語コーパスであり、これには、複数の二言語文対および各二言語文対の単語対応情報が含まれ、各文対は、対の他方の文の翻訳である文を有する。ラベル付き二言語コーパスが大きいほどシステムの性能は向上するが、手作業で単語対応付けを行うには労力と時間を要し、よって、ラベル付きコーパスは、後述する無ラベルコーパスと比べて非常に小さい。
この実施形態において、二言語単語対応モデルは、少なくとも単語翻訳可能性、位置ねじれ可能性および単語増殖可能性を含む統計的単語対応モデルであり、単語翻訳確率p(w/w)は、目標言語内の単語wが、起点言語内の単語wに翻訳される確率であり、位置ねじれ確率p(j/i,l,m)は、mを起点言語中の文の長さとし、lを目標言語中の文の長さとするという条件下で、目標言語の文中のi番目の位置が、起点言語の文中のj番目の位置に対応する確率である。単語増殖確率p(φ/w)は、目標言語内の単語wが、起点言語内のφ個の単語に対応する確率である。
さらに、この実施形態では、二言語単語対応モデルは、順方向二言語単語対応モデルと逆方向二言語単語対応モデルを含む。このステップでは、ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルが訓練され、逆方向二言語単語対応モデルが訓練される。例えば、中国語/英語二言語コーパスでは、中国語/英語単語対応モデルと、英語/中国語単語対応モデルを訓練することが求められる。
次に、ステップ105で、上記ステップ101で訓練された二言語単語対応モデルを使用して、無ラベル二言語コーパス内の複数の二言語文対の単語対応付けが行われる。この実施形態では、翻訳確率、位置ねじれ確率および単語増殖確率を含む二言語単語対応モデルが使用される。具体的な対応付けの仕方は以下の通りである。
1.単語翻訳確率および位置対応確率を使用して、対応系列A0を獲得するために、各起点言語単語ごとの最適単語対応が見つけ出される。
2.対応系列Aiに基づいて、単語翻訳確率、位置ねじれモデルおよび単語増殖モデルを使用して、任意の2つの対応を交換し、または対応を変更しようとすることによって、より良い対応系列Ai+1が見つけ出される。
3.プロセス2が、より良い対応系列が見つからなくなるまで繰り返される。
ここでは、最適対応系列をサーチするのに、任意の知られているサーチアルゴリズムおよび将来のサーチアルゴリズムが使用され得ることを、当業者は理解するはずである。
このステップでは、上記ステップ101で訓練された二言語単語対応モデルを使用して、順方向単語対応結果と逆方向単語対応をそれぞれ獲得するために、無ラベル二言語コーパス内の複数の二言語文対の単語対応付けが行われる。
次に、ステップ110で、各二言語文対の単語対応が正しいか否かが判定される。単語対応が正しい場合、正しいと判定されている対応二言語文対がラベル付き二言語コーパスに追加され、無ラベル二言語コーパスから削除される。
具体的には、この実施形態では、順方向単語対応結果Aと逆方向単語対応結果Aの交差A∩Aが、各二言語文対ごとに計算される。
この二言語文対に対して順方向単語対応結果Aと逆方向単語対応結果Aの和集合A∪Aが計算される。
上記交差A∩A内の要素数と上記和集合A∪A内の要素数の比
Figure 0004331219
が所定の閾値thより大きい場合、この二言語文対の単語対応は正しいと判定され、そうでない場合、この二言語文対の単語対応は正しくないと判定される。正しい単語対応を有する二言語文対については、無ラベルコーパスからラベル付きコーパスに移動される。
さらに、このステップでは、二言語文対の順方向単語対応結果が逆方向単語対応結果と同一でない場合、すなわち、th<R<1の場合、上記順方向単語対応結果と上記逆方向単語対応結果の異なる部分の単語翻訳確率がそれぞれ計算され、より高い単語翻訳確率を有する単語対応結果が上記ラベル付き二言語コーパスに追加される。
例えば、英語/中国語の文対について、
英語:Please put the red jacket on the bed.
中国語:清 把 紅色 的 来克 放 在 床 上
この単語対応モデルを使用して、以下の順方向および逆方向対応結果が得られる。
英語/中国語対応(順方向)
Figure 0004331219
中国語/英語対応(逆方向)
Figure 0004331219
ここで、
#(A)=7//順方向対応の数
#(A)=7//逆方向対応の数
であり、
中国語/英語対応結果には「on<−>在」があり、英語/中国語対応結果には「on<−>在..上」がある。よって、
#(A∩A)=6//順方向対応結果と逆方向対応結果の両方に出現する対応の数(順方向対応結果と逆方向対応結果の両方に出現する対応が1対応とみなされる)
#(AUA)=8//順方向と逆方向の対応の総和における対応の数
よって、定義
Figure 0004331219
に基づき、R=6/8=0.75>0.7である(所定の閾値thが0.7であるものと仮定する)
よって、例文の獲得された対応は、要件を満たす。次いで、A∩Aに出現しない対応について、「単語対応確率」を使用して、どの対応が正しいか決定される。上記の例では、「on<−>在」と「on<−>在..上」がある。これらの2つの対応の確率がそれぞれ計算され、「on<−>在..上」の確率がより大きいため、「on<−>在..上」が選択される。例文および処理された対応は、ラベル付き集合に保存される。すなわち、以下の結果がラベル付き集合に保存される。
Figure 0004331219
次に、ステップ115で、拡張ラベル付き二言語コーパスを使用して、二言語単語対応モデルが再訓練される。上記ステップ101と同様に、このステップでは、拡張ラベル付き二言語コーパスを使用して、順方向二言語単語対応モデルと逆方向二言語単語対応モデルが訓練される。
次に、ステップ120で、上記二言語単語対応モデルを使用して、無ラベル二言語コーパス内の残りの二言語文対の再単語対応付けが行われる。
上記の説明から、この実施形態の二言語単語対応付けの方法が使用される場合、手作業で単語対応のラベル付けが行われる二言語コーパスを使用して監修付きの訓練を行うために、より高度な正確さを有する対応モデルを獲得することができ、また同時に、ラベル付き二言語コーパスの規模が、無ラベルコーパスの規模よりはるかに小さいため、手作業によるラベル付けにあまり労力と時間を要しないことが分かる。よって、この実施形態の二言語単語対応付けの方法は、既存の単語対応付け方法より正確に、無ラベルコーパス内の文対の単語対応付けを行うことができる。
さらに、本発明の別の実施形態によれば、ステップ120の後、上記の判定(ステップ110)、再訓練(ステップ115)および再単語対応付けのステップ(ステップ120)が、さらに、新規に正しい単語対応が生成されなくなるまで繰り返される。よって、新しい対応結果を使用して対応モデルをさらに洗練させて、単語対応の正確さが向上させることができる。
図2は、同じ発明概念による、本発明の一実施形態による二言語単語対応モデルを訓練する方法を示すフローチャートである。次に、図2と併せて、この実施形態を説明する。前の実施形態の部分と同一の部分についての説明は、適宜省略する。
図2に示すように、まず、ステップ201で、ラベル付き二言語コーパスを使用して、初期二言語単語対応モデルが訓練される。図1に示すステップ101と同様に、ラベル付きコーパスは、(翻訳者などの)専門家によって、手作業で単語対応のラベル付けが行われる二言語コーパスであり、これには、複数の二言語文対および各二言語文対の単語対応情報が含まれ、各文対は、対の他方の文の翻訳である文を有する。
さらに、この実施形態では、二言語単語対応モデルは、順方向二言語単語対応モデルと逆方向二言語単語対応モデルを含む。このステップでは、ラベル付き二言語コーパスを使用して、順方向二言語単語対応モデルが訓練され、また、逆方向二言語単語対応モデルが訓練される。
次に、ステップ205で、訓練された初期二言語単語対応モデルを使用して、無ラベル二言語コーパス内の複数の二言語文対の単語対応付けが行われる。図1に示すステップ105と同様に、この実施形態では、翻訳確率、位置ねじれ確率および単語増殖確率を含む二言語単語対応モデルが使用される。具体的な対応付けの仕方は以下のとおりである。
1.単語翻訳確率および位置対応確率を使用して、対応系列A0を獲得するために、各起点言語単語ごとの最適単語対応が見つけ出される。
2.対応系列Aiに基づいて、単語翻訳確率、位置ねじれモデルおよび単語増殖モデルを使用して、任意の2つの対応を交換し、または対応を変更しようとすることによって、より良い対応系列Ai+1が見つけ出される。
3.プロセス2が、より良い対応系列が見つからなくなるまで繰り返される。
ここでは、最適対応系列をサーチするのに、任意の知られているサーチアルゴリズムおよび将来のサーチアルゴリズムが使用できることを、当業者は理解するはずである。
このステップでは、訓練された初期二言語単語対応モデルを使用して、順方向単語対応結果と逆方向単語対応をそれぞれ獲得するために、無ラベル二言語コーパス内の複数の二言語文対の単語対応付けが行われる。
次に、ステップ210で、各二言語文対の単語対応が正しいか否かが判定される。単語対応が正しい場合、正しいと判定されている対応二言語文対がラベル付き二言語コーパスに追加され、無ラベル二言語コーパスから削除される。
具体的には、この実施形態では、順方向単語対応結果Aと逆方向単語対応結果Aの交差A∩Aが、各二言語文対ごとに計算される。
この二言語文対の順方向単語対応結果Aと逆方向単語対応結果Aの和集合A∪Aが計算される。
上記交差A∩A内の要素数と上記和集合A∪A内の要素数の比
Figure 0004331219
が所定の閾値thより大きい場合、この二言語文対の単語対応は正しいと判定され、そうでない場合、この二言語文対の単語対応は正しくないと判定される。正しい単語対応を有する二言語文対については、無ラベルコーパスからラベル付きコーパスに移動される。
さらに、このステップでは、二言語文対の順方向単語対応結果が逆方向単語対応結果と同一でない、すなわち、th<R<1の場合、上記順方向単語対応結果と上記逆方向単語対応結果の異なる部分の単語翻訳確率がそれぞれ計算され、より高い単語翻訳確率を有する単語対応結果が上記ラベル付き二言語コーパスに追加される。
次に、ステップ215で、拡張ラベル付き二言語コーパスを使用して、二言語単語対応モデルが再訓練される。このステップでは、拡張ラベル付き二言語コーパスを使用して、順方向二言語単語対応モデルと逆方向二言語単語対応モデルが訓練される。
上記の説明から、この実施形態の二言語単語対応付けの方法が使用される場合、手作業で単語対応のラベル付けが行われる二言語コーパスを使用して監修付きの訓練を行うために、高度な正確さを有する初期対応モデルを獲得することができることがわかる。さらに、初期単語対応モデルを使用して、無ラベルコーパスの単語対応付けが行われ、正しいと判定された対応結果を使用して、二言語単語対応モデルを訓練するためにラベル付きコーパスが拡張される。よって、あまり労力と時間を要しないと同時に、訓練される単語対応モデルの品質が保証され得る。
さらに、本発明の別の実施形態によれば、ステップ215の後、上記の新規に訓練された二言語単語対応モデルを使用して、残りの二言語文対の再単語対応付けが行われ、上記の判定(ステップ210)、再訓練(ステップ215)および再単語対応付けのステップは、さらに、新規に正しい単語対応が生成されなくなるまで繰り返される。よって、新しい対応結果を使用して対応モデルをさらに洗練させることができる。
図3は、本発明の一実施形態による二言語単語対応付けの装置を示すブロック図である。次に、図3と併せて、この実施形態を説明する。前の実施形態の部分と同一の部分についての説明は適宜省略する。
図3に示すように、この実施形態の二言語単語対応付けの装置300は、単語対応ラベル付き二言語文対を含むラベル付きコーパス303と、無ラベル二言語文対を含む無ラベルコーパス307と、ラベル付き二言語コーパス303を使用して二言語単語対応モデルを訓練するように構成されているモデル訓練ユニット301と、上記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うように構成されている単語対応付けユニット302と、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、二言語文対をラベル付き二言語コーパス303に追加し、二言語文対を無ラベル二言語コーパス307から除去するように構成されている判定ユニット306と、上記判定ユニット306によって拡張ラベル付き二言語コーパス303を使用して二言語単語対応モデルを再訓練するように構成されているモデル再訓練ユニット304と、モデル再訓練ユニット304によって再訓練された二言語単語対応モデルを使用して無ラベル二言語コーパス307内の残りの二言語文対の再単語対応付けを行うように構成されている再単語対応付けユニット305とを備える。
図1に示す実施形態と同様に、この実施形態では、二言語単語対応モデルは、少なくとも1つの単語翻訳確率、位置ねじれ確率および単語増殖確率を含む。また、モデル訓練ユニット301は、ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、また、ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する。単語対応付けユニット302は、順方向二言語単語対応モデルを使用して、二言語文対のそれぞれの順方向単語対応付けを行い、逆方向二言語単語対応モデルを使用して、二言語文対のそれぞれの逆方向単語対応付けを行う。判定ユニット306は、二言語文対のそれぞれの順方向単語対応結果Aと逆方向単語対応結果Aの交差A∩Aを計算し、二言語文対の順方向単語対応結果Aと順方向単語対応結果Aの和集合A∪Aを計算する。上記交差A∩A内の要素数と上記和集合A∪A内の要素数の比
Figure 0004331219
が所定の閾値thより大きい場合、この二言語文対の単語対応は正しいと判定され、そうでない場合、この二言語文対の単語対応は正しくないと判定される。正しい単語対応を有する二言語文対については、無ラベルコーパスからラベル付きコーパスに移動される。二言語文対の順方向単語対応結果が逆方向単語対応結果と同一でない場合、上記順方向単語対応結果と上記逆方向単語対応結果の異なる部分の単語翻訳確率がそれぞれ計算され、より高い単語翻訳確率を有する単語対応結果が上記ラベル付き二言語コーパスに追加される。
モデル再訓練ユニット304は、拡張ラベル付きコーパスを使用して順方向二言語単語対応モデルを再訓練し、また、拡張ラベル付きコーパスを使用して逆方向二言語単語対応モデルを再訓練する。
上記の説明から、この実施形態の二言語単語対応付けの装置は、前述の本発明の実施形態の二言語単語対応付けの方法を、既存の単語対応付け方法より正確に無ラベルコーパス内の文対の単語対応付けを行うように実施することができ、あまり労力と時間を要しないことがわかる。
さらに、本発明の別の実施形態によれば、再単語対応付けユニット305によって単語対応付けが行われる文対について、ラベル付きコーパス303をもう一度拡張するように、判定ユニット306によって再判定が行える。前の実施形態で説明しているように、判定することと、再訓練することと、再単語対応付けを行うこととの各ステップは、新規に正しい単語対応が生成されなくなるまで繰り返される。よって、新しい対応結果を使用して対応モデルをさらに洗練させて、単語対応の正確さを向上させることができる。
なお、二言語単語対応付けの装置300およびこれの構成要素は、専用の回路またはチップを用いて構築することもでき、対応するプログラムを実行することを通じてコンピュータ(プロセッサ)によって実現することもできることに留意すべきである。
図4は、本発明の一実施形態による二言語単語対応モデルを訓練する装置を示すブロック図である。次に、図4と併せて、この実施形態を説明する。前の実施形態の部分と同一の部分についての説明は、適宜省略する。
図4に示すように、この実施形態の二言語単語対応モデルを訓練する装置400は、単語対応ラベル付き二言語文対を含むラベル付きコーパス303と、無ラベル二言語文対を含む無ラベルコーパス307と、ラベル付きコーパス303内の単語対応ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されている初期モデル訓練ユニット401と、上記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うように構成されている単語対応付けユニット402と、上記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、この二言語文対を、無ラベル二言語コーパス307からラベル付き二言語コーパス303に移動するように構成されている判定ユニット406と、上記判定ユニット406によって拡張されたラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されているモデル再訓練ユニット404とを備える。
図2に示す実施形態と同様に、この実施形態では、二言語単語対応モデルは、少なくとも、翻訳確率、位置ねじれ確率および単語増殖確率を含む。また、初期モデル訓練ユニット401は、ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する。単語対応付けユニット402は、順方向二言語単語対応モデルを使用して二言語文対のそれぞれの順方向単語対応付けを行い、逆方向二言語単語対応モデルを使用して二言語文対のそれぞれの逆方向単語対応付けを行う。判定ユニット406は、二言語文対のそれぞれの順方向単語対応結果Aと逆方向単語対応結果Aの交差A∩Aを計算し、二言語文対の順方向単語対応結果Aと逆方向単語対応結果のAの和集合A∪Aを計算する。上記交差A∩A2内の要素数と上記和集合A∪A内の要素数の比
Figure 0004331219
が所定の閾値thより大きい場合、この二言語文対の単語対応は正しいと判定され、そうでない場合、この二言語文対の単語対応は正しくないと判定される。正しい単語対応を有する二言語文対については、無ラベルコーパスからラベル付きコーパスに移動される。二言語文対の順方向単語対応結果が逆方向単語対応結果と同一でない場合、上記順方向単語対応結果と上記逆方向単語対応結果の異なる部分の単語翻訳確率がそれぞれ計算され、より高い単語翻訳確率を有する単語対応結果が、上記ラベル付き二言語コーパスに追加される。
上記の説明から、この実施形態の二言語単語対応モデルを訓練する装置は、前述の本発明の実施形態の二言語単語対応モデルを訓練する方法を実施し得ることがわかる。手作業で単語対応のラベル付けが行われる二言語コーパスを使用して監修付きの訓練を行うため、高い正確さを有する初期対応モデルを獲得することができ、さらに、初期単語対応モデルを使用して無ラベルコーパスの単語対応付けを行い、正しいと判定された対応結果を使用して、二言語単語対応モデルを訓練するためにラベル付きコーパスが拡張される。よって、あまり労力と時間を要しないと同時に、訓練される単語対応モデルの品質が保証できる。
さらに、本発明の別の実施形態によれば、モデル訓練ユニット404は、拡張ラベル付きコーパスを使用して順方向二言語単語対応モデルを訓練し、また、拡張ラベル付きコーパスを使用して逆方向二言語単語対応モデルを訓練する。単語対応付けユニット402は、さらに、モデル訓練ユニット404によって新規に訓練された二言語単語対応モデルを使用して、無ラベルコーパス307内の残りの二言語文対の再単語対応付けを行う。上記の実施形態で説明しているように、決定、訓練および再単語対応付けの各ステップは、新規に正しい単語対応が生成されなくなるまで繰り返される。よって、新しい対応結果を使用して単語対応モデルをさらに洗練させることができる。
なお、二言語単語対応モデルを訓練する装置400およびこれの構成要素は、専用の回路またはチップを用いて構築することもでき、対応するプログラムを実行することを通じて、コンピュータ(プロセッサ)によって実現することもできることに留意すべきである。
本発明の、二言語単語対応付けの方法および装置、ならびに二言語単語対応モデルを訓練する方法および装置を、いくつかの例示的実施形態を用いて詳細に説明しているが、これらの実施形態は網羅的なものではなく、当業者は、本発明の精神および範囲内において、様々な変形および改変を行うことができる。よって、本発明は、これらの実施形態だけに限定されず、本発明の範囲は、添付の特許請求の範囲によってのみ定義されるものである。
本発明の一実施形態による二言語単語対応付けの方法を示すフローチャートである。 本発明の一実施形態による二言語単語対応モデルを訓練する方法を示すフローチャートである。 本発明の一実施形態による二言語単語対応付けの装置を示すブロック図である。 本発明の一実施形態による二言語単語対応モデルを訓練する装置を示すブロック図である。

Claims (12)

  1. 二言語単語対応付け装置であって、
    単語対応ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するよう構成され、前記単語対応ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練するモデル訓練ユニットと、
    前記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うよう構成され、前記順方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けをと、前記逆方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う単語対応付けユニットと、
    前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するよう構成され、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する判定ユニットと
    前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して前記二言語単語対応モデルを再訓練するよう構成されているモデル再訓練ユニットと、
    前記再訓練された二言語単語対応モデルを使用して前記無ラベル二言語コーパス内の残りの前記二言語文対の再単語対応付けを行うよう構成されている再単語対応付けユニットと、
    を備える二言語単語対応付け装置。
  2. 前記モデル再訓練ユニットは、前記拡張ラベル付き二言語コーパスを使用して前記順方向二言語単語対応モデルを再訓練し、前記拡張ラベル付き二言語コーパスを使用して前記逆方向二言語単語対応モデルを再訓練する、請求項1に記載の二言語単語対応付け装置。
  3. 前記判定ユニットは、前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率をさらに計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加する、請求項に記載の二言語単語対応付け装置。
  4. 二言語単語対応モデルの訓練装置であって、
    単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練するよう構成され、前記単語対応ラベル付き二言語コーパスを使用して順方向初期二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向初期二言語単語対応モデルを訓練する初期モデル訓練ユニットと、
    前記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うよう構成され、前記順方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けと、前記逆方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う単語対応付けユニットと、
    前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するように構成され、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する判定ユニットと
    前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練するように構成されているモデル訓練ユニットと、
    を備える二言語単語対応モデルの訓練装置。
  5. 前記モデル訓練ユニットは、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する、請求項に記載の二言語単語対応モデルの訓練装置。
  6. 前記判定ユニットは、前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率を計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加する、請求項に記載の二言語単語対応モデルの訓練装置。
  7. 二言語単語対応付け方法であって、
    モデル訓練ユニットが単語対応ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練する第1ステップと、
    単語対応付けユニットが前記二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うため、前記順方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けと、前記逆方向二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う第2ステップと、
    判定ユニットが前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するため、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する第3ステップと、
    モデル再訓練ユニットが前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して前記二言語単語対応モデルを再訓練する第4ステップと、
    再単語対応付けユニットが前記再訓練された二言語単語対応モデルを使用して前記無ラベル二言語コーパス内の残りの前記二言語文対の再単語対応付けを行う第5ステップと、
    を含む二言語単語対応付け方法。
  8. 前記第4ステップは前記拡張ラベル付き二言語コーパスを使用して前記順方向二言語単語対応モデルを再訓練し、前記拡張ラベル付き二言語コーパスを使用して前記逆方向二言語単語対応モデルを再訓練するステップを含む、請求項7に記載の二言語単語対応付け方法。
  9. 前記第3ステップは前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記判定ユニットが前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率をさらに計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加するステップを含む、請求項7に記載の二言語単語対応付け方法。
  10. 二言語単語対応モデルの訓練方法であって、
    初期モデル訓練ユニットが単語対応ラベル付き二言語コーパスを使用して初期二言語単語対応モデルを訓練するため、前記単語対応ラベル付き二言語コーパスを使用して順方向初期二言語単語対応モデルを訓練し、また、前記単語対応ラベル付き二言語コーパスを使用して逆方向初期二言語単語対応モデルを訓練する第1ステップと、
    単語対応付けユニットが前記初期二言語単語対応モデルを使用して無ラベル二言語コーパス内の複数の二言語文対の単語対応付けを行うため、前記順方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの順方向単語対応付けと、前記逆方向初期二言語単語対応モデルを使用して前記複数の二言語文対のそれぞれの逆方向単語対応付けを行う第2ステップと、
    判定ユニットが前記複数の二言語文対のそれぞれの単語対応が正しいかどうか判定し、正しい場合に、前記二言語文対を前記ラベル付き二言語コーパスに追加し、前記二言語文対を前記無ラベル二言語コーパスから除去するため、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の交差集合を計算し、前記二言語文対の前記順方向単語対応付け結果と前記逆方向単語対応付け結果の間の和集合を計算し、前記交差集合の要素数と前記和集合の要素数の比が所定の閾値より大きい場合、前記二言語文対の単語対応が正しいと判定する第3ステップと、
    モデル訓練ユニットが前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して二言語単語対応モデルを訓練する第4ステップと、
    を含む二言語単語対応モデルの訓練方法。
  11. 前記第3ステップは、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して順方向二言語単語対応モデルを訓練し、前記判定ユニットによって拡張された前記ラベル付き二言語コーパスを使用して逆方向二言語単語対応モデルを訓練するステップを含む、請求項10に記載の二言語単語対応モデルの訓練方法。
  12. 前記第3ステップは、前記順方向単語対応付け結果と前記逆方向単語対応付け結果が同一でない場合、前記順方向単語対応付け結果と前記逆方向単語対応付け結果の異なる部分の単語翻訳確率を計算し、より高い単語翻訳確率を有する前記単語対応付け結果を前記ラベル付き二言語コーパスに追加するステップを含む、請求項10に記載の二言語単語対応モデルの訓練方法。
JP2007048894A 2006-02-28 2007-02-28 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置 Expired - Fee Related JP4331219B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2006100580727A CN101030197A (zh) 2006-02-28 2006-02-28 双语词对齐方法和装置、训练双语词对齐模型的方法和装置

Publications (2)

Publication Number Publication Date
JP2007234024A JP2007234024A (ja) 2007-09-13
JP4331219B2 true JP4331219B2 (ja) 2009-09-16

Family

ID=38445092

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007048894A Expired - Fee Related JP4331219B2 (ja) 2006-02-28 2007-02-28 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置

Country Status (3)

Country Link
US (1) US7827027B2 (ja)
JP (1) JP4331219B2 (ja)
CN (1) CN101030197A (ja)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101452446A (zh) * 2007-12-07 2009-06-10 株式会社东芝 目标语言单词变形的方法及装置
US8229728B2 (en) * 2008-01-04 2012-07-24 Fluential, Llc Methods for using manual phrase alignment data to generate translation models for statistical machine translation
US8849665B2 (en) * 2008-01-30 2014-09-30 At&T Intellectual Property I, L.P. System and method of providing machine translation from a source language to a target language
US8504354B2 (en) 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
KR20100037813A (ko) * 2008-10-02 2010-04-12 삼성전자주식회사 통계적 자동 번역 장치 및 방법
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
JP2010170306A (ja) * 2009-01-22 2010-08-05 Toshiba Corp 対訳可逆性適性判断システムおよび機械翻訳システム
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
CN102855263A (zh) * 2011-06-30 2013-01-02 富士通株式会社 一种对双语语料库进行句子对齐的方法及装置
US10529013B2 (en) * 2013-07-01 2020-01-07 Intuit Inc. Identifying business type using public information
CN105446958A (zh) * 2014-07-18 2016-03-30 富士通株式会社 词对齐方法和词对齐设备
CN107436865B (zh) * 2016-05-25 2020-10-16 阿里巴巴集团控股有限公司 一种词对齐训练方法、机器翻译方法及系统
CN107704456B (zh) * 2016-08-09 2023-08-29 松下知识产权经营株式会社 识别控制方法以及识别控制装置
CN107798386B (zh) * 2016-09-01 2022-02-15 微软技术许可有限责任公司 基于未标注数据的多过程协同训练
CN109992763A (zh) * 2017-12-29 2019-07-09 北京京东尚科信息技术有限公司 语言标注处理方法、系统、电子设备及计算机可读介质
CN108664999B (zh) * 2018-05-03 2021-02-12 北京图森智途科技有限公司 一种分类模型的训练方法及其装置、计算机服务器
CN110874536B (zh) * 2018-08-29 2023-06-27 阿里巴巴集团控股有限公司 语料质量评估模型生成方法和双语句对互译质量评估方法
CN109857746B (zh) * 2018-11-09 2021-05-04 语联网(武汉)信息技术有限公司 双语词库的自动更新方法、装置与电子设备
KR102592630B1 (ko) * 2018-11-21 2023-10-23 한국전자통신연구원 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법
US20200401878A1 (en) * 2019-06-19 2020-12-24 International Business Machines Corporation Collaborative real-time solution efficacy
CN111933116B (zh) * 2020-06-22 2023-02-14 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN112668307B (zh) * 2020-12-30 2022-06-21 清华大学 一种双语句子自动对齐方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2272091B (en) * 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
US6092034A (en) * 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US7349839B2 (en) * 2002-08-27 2008-03-25 Microsoft Corporation Method and apparatus for aligning bilingual corpora
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7318022B2 (en) * 2003-06-12 2008-01-08 Microsoft Corporation Method and apparatus for training a translation disambiguation classifier
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
US7593843B2 (en) * 2004-03-30 2009-09-22 Microsoft Corporation Statistical language model for logical form using transfer mappings
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US7945437B2 (en) * 2005-02-03 2011-05-17 Shopping.Com Systems and methods for using automated translation and other statistical methods to convert a classifier in one language to another language
US7672830B2 (en) * 2005-02-22 2010-03-02 Xerox Corporation Apparatus and methods for aligning words in bilingual sentences

Also Published As

Publication number Publication date
US20070203689A1 (en) 2007-08-30
JP2007234024A (ja) 2007-09-13
US7827027B2 (en) 2010-11-02
CN101030197A (zh) 2007-09-05

Similar Documents

Publication Publication Date Title
JP4331219B2 (ja) 二言語単語対応付けの方法および装置、二言語単語対応モデルを訓練する方法および装置
CN111226222B (zh) 使用人工神经网络的基于深度上下文的语法错误校正
US8886514B2 (en) Means and a method for training a statistical machine translation system utilizing a posterior probability in an N-best translation list
JP4381425B2 (ja) 二言語単語対応付けモデル訓練方法及び装置、二言語単語対応付け方法及び装置
US9311299B1 (en) Weakly supervised part-of-speech tagging with coupled token and type constraints
CN109284503B (zh) 翻译语句结束判断方法与系统
US20130054224A1 (en) Method and system for enhancing text alignment between a source language and a target language during statistical machine translation
US11775763B2 (en) Weakly supervised and explainable training of a machine-learning-based named-entity recognition (NER) mechanism
CN112016271A (zh) 语言风格转换模型的训练方法、文本处理方法以及装置
CN114254658A (zh) 翻译评测训练数据的生成方法及装置、设备和存储介质
CN110442877B (zh) 使用机器人规划作为平行语言语料库
CN109325237B (zh) 用于机器翻译的完整句识别方法与系统
Vashistha et al. Active learning for neural machine translation
WO2022242535A1 (zh) 一种翻译方法、翻译装置、翻译设备以及存储介质
US8655640B2 (en) Automatic word alignment
CN114580391A (zh) 中文错误检测模型训练方法、装置、设备及存储介质
Yoshikawa et al. Automatic generation of high quality CCGbanks for parser domain adaptation
JP2007317000A (ja) 機械翻訳装置、その方法およびプログラム
Esplà-Gomis et al. Predicting insertion positions in word-level machine translation quality estimation
Alfaidi et al. Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets.
KR20160085100A (ko) 하이브리드 번역 장치 및 그 방법
US20180033425A1 (en) Evaluation device and evaluation method
CN116306601B (zh) 小语种纠错模型训练方法、纠错方法、系统、介质及设备
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
WO2023090014A1 (ja) 学習データ拡張装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090217

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20090526

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20090617

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120626

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130626

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees