JP5918625B2 - 句翻訳モデル学習装置およびそのプログラム - Google Patents

句翻訳モデル学習装置およびそのプログラム Download PDF

Info

Publication number
JP5918625B2
JP5918625B2 JP2012114631A JP2012114631A JP5918625B2 JP 5918625 B2 JP5918625 B2 JP 5918625B2 JP 2012114631 A JP2012114631 A JP 2012114631A JP 2012114631 A JP2012114631 A JP 2012114631A JP 5918625 B2 JP5918625 B2 JP 5918625B2
Authority
JP
Japan
Prior art keywords
phrase
pair
monolingual
occurrence probability
occurrence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2012114631A
Other languages
English (en)
Other versions
JP2013242654A (ja
Inventor
正 熊野
正 熊野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012114631A priority Critical patent/JP5918625B2/ja
Publication of JP2013242654A publication Critical patent/JP2013242654A/ja
Application granted granted Critical
Publication of JP5918625B2 publication Critical patent/JP5918625B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)

Description

本発明は、2つの異なる言語の文書対から、対応する句の出現頻度を表す句翻訳モデルを学習する句翻訳モデル学習装置およびそのプログラムに関する。
従来、句翻訳モデルに基づいて、入力文に対して最尤な翻訳文を生成する句ベース統計機械翻訳の技術が知られている。ここで、句翻訳モデルとは、2つの異なる言語において、一方の言語の単語等の列が他方の言語の単語等の列に翻訳される確率を表すモデルである。
この句翻訳モデルは、通常、等価な内容を表現する文対の集合である対訳文対コーパスから学習によって生成される(非特許文献1参照)。
この非特許文献1に示された手法(以下、従来手法1)は、最初に、学習データである対訳文対コーパス(学習コーパス)の各文対について、単語アライメントを推定する。すなわち、従来手法1は、まず、対訳文対の一方の言語文中の単語と、他方の言語文中の単語との対応付けを行う。
そして、従来手法1は、その対応付けられた単語を、ヒューリスティック(発見的)に組み合せることで、さまざまな粒度の単語列(句)を抽出し、学習コーパス全体における各句対の出現頻度に基づいて翻訳確率を計算することで、句翻訳モデルを生成する。
しかし、従来手法1は、単語アライメントの推定と句対の抽出とを独立して行うとともに、対応付けられた単語から句対を抽出する手法がヒューリスティックであるため、統計的に最適解となる句対を抽出することができない。
このような問題を解決すべく、近年、新たな手法が提案された(非特許文献2参照)。
この非特許文献2に示された手法(以下、従来手法2)は、ある句対の生起確率を、これを構成可能なより小さな2つの句対の生起確率の組み合せ、および、単語翻訳モデル等の他の知識源より導かれた生起確率の推定値から計算される事前確率と、学習コーパスにおいて当該句対が観測された頻度から得られる観測尤度とをある確率比で混合したものとして計算されるベイズ事後確率として定義する。
これによって、ある句対の生起は、その句に属する、より小さな2つの句対に依存し、さらにその各々の句対の生起は、さらに小さな2つの句対に依存するといった木構造と捉えることができる。すなわち、ある文対に対して、文対全体を1つの句対とみなし、当該句対を木構造の根とし、再帰的に末端の小さな句対まで辿って各階層の句対を観測することで、さまざま粒度の句対を観測することが可能になる。
このとき、従来手法2は、可能な木構造のうちで、確率の相対比に応じて1つを選択する。なお、従来手法2は、木構造の候補を選択する際に、チャート法を用いた同期文脈自由文法の解析手法を用いている。
そして、従来手法2は、学習コーパスに対して、木構造をサンプリングして句対を観測する操作を繰り返し適用することで、ギブスサンプリングによる句翻訳モデルの学習を実現している。
P. Koehn, F. J. Och, and D. Marcu. "Statistical Phrase-Based Translation". In proceedings of the Human Language Technology Conference(HLT-NAACL), pp. 48-54, 2003. Graham Neubig, 渡辺太郎, 隅田英一郎, 森信介, 河原達也. "階層的モデルを用いた機械翻訳のためのフレーズアラインメント". 言語処理学会第17回年次大会(NLP2011) 予稿集. 2011.
従来の手法は、等価な内容を表現する文対、すなわち、単語列(句)が「直訳」で対応するとともに、それぞれの文が対応している「文対」の集合を学習データとして用いることで、句翻訳モデルを学習している。
しかし、一般に、2つの異なる言語において、対訳データは必ずしも、「直訳」、「文対」といった性質を有していない。例えば、複数言語で同一トピックに関して発信されるニュース原稿の場合、その内容において、相互に多数の欠落や不一致があり、また、その文間の対応関係も自明でないことがほとんどである。
すなわち、従来の手法では、一般的に収集可能な対訳データを学習データとして利用することができず、「直訳」で、かつ、「文対」の集合の学習データでなければ句翻訳モデルを学習することができないという問題がある。
言い換えれば、従来の手法は、句翻訳モデルを学習させるためだけに、「直訳」で、かつ、「文対」の集合の学習データを大量に準備しなければならないという問題がある。
本発明は、以上のような問題に鑑みてなされたものであり、2つの異なる言語間で、単語や文の欠落や不一致が存在する「非直訳」で、かつ、「文書対」の集合であっても、句翻訳モデルを学習することが可能な句翻訳モデル学習装置およびそのプログラムを提供することを課題とする。
本発明は、前記課題を解決するために創案されたものであり、まず、請求項1に記載の句翻訳モデル学習装置は、2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習する句翻訳モデル学習装置であって、単言語句モデル学習手段と、単言語句モデル記憶手段と、2言語句モデル学習手段と、を備え、2言語句モデル学習手段が、単言語句生起確率計算手段と、2言語句対生起確率計算手段と、句対サンプリング手段と、再帰的句対追加手段と、を備える構成とした。
かかる構成において、句翻訳モデル学習装置は、単言語句モデル学習手段によって、2つの異なる言語の複数の単言語文ごとに、その単言語文を構成するさまざまな粒度の句(1以上の単語列)の出現頻度を学習し、単言語句モデル記憶手段に記憶する。この出現頻度の学習には、例えば、中華レストラン過程(Chinese Restaurant Process)を用いることができる。なお、この単言語文は、対訳文書対のそれぞれの文書中の文を用いてもよいし、別途用意しても構わない。
そして、句翻訳モデル学習装置は、2言語句モデル学習手段によって、複数の対訳文書対から、対訳文書対を構成するさまざまな粒度の2言語の句の対である句対の出現頻度を学習する。
ここで、句翻訳モデル学習装置は、2言語句モデル学習手段の単言語句生起確率計算手段によって、単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、対訳文書対の各言語側の、文境界を跨がない任意の句の対における、単言語ごとの句の生起確率を計算する。
これによって、1対1の文対に限定されず、1対多(多対1)、あるいは、多対多の文の関係を有する文書対において、組み合せ可能な句対の一方の言語の句の生起確率と、他方の言語の句の生起確率とが求められる。
そして、句翻訳モデル学習装置は、2言語句モデル学習手段の2言語句対生起確率計算手段によって、単言語句生起確率計算手段で計算された単言語ごとの句の生起確率と、単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する。
これによって、一方の言語の一部の句(細分句)のみが、他方の言語の句(全体句)に対応する場合であっても、生起確率の確率値が割り当てられることになり、句同士が対訳として完全に一致しない場合であっても、対応する句対として学習結果に反映させることができる。
また、句翻訳モデル学習装置は、2言語句モデル学習手段の句対サンプリング手段によって、単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングすることで、選択された集合に含まれる句対一覧を得る。このサンプリングは、例えば、マルチスタックビームサーチで行うことができる。
そして、句翻訳モデル学習装置は、2言語句モデル学習手段の再帰的句対追加手段によって、単言語句生起確率計算手段、2言語句対生起確率計算手段および句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、句対の出現頻度を学習する。
また、請求項2に記載の句翻訳モデル学習装置は、2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習する句翻訳モデル学習装置であって、単言語句モデル記憶手段と、単言語句生起確率計算手段と、再帰的句追加手段と、2言語句対生起確率計算手段と、句対サンプリング手段と、再帰的句対追加手段と、を備える構成とした。
かかる構成において、句翻訳モデル学習装置は、単言語句生起確率計算手段によって、単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、対訳文書対の各言語側の、文境界を跨がない任意の句の対における、単言語ごとの句の生起確率を計算する。
また、句翻訳モデル学習装置は、再帰的句追加手段によって、対訳文書対の各言語側の各文に対して、再帰的に細分化された句を観測することで、句の出現頻度を学習する。
そして、句翻訳モデル学習装置は、2言語句対生起確率計算手段によって、単言語句生起確率計算手段で学習された単言語ごとの句の出現頻度と、計算された単言語ごとの句の生起確率とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する。
そして、句翻訳モデル学習装置は、句対サンプリング手段によって、単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングすることで、選択された集合に含まれる句対一覧を得る。
そして、句翻訳モデル学習装置は、再帰的句対追加手段によって、単言語句生起確率計算手段、2言語句対生起確率計算手段および句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、句対の出現頻度を学習する。
さらに、請求項3に記載の句翻訳モデル学習プログラムは、2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習するために、コンピュータを、単言語句モデル学習手段、単言語句生起確率計算手段、2言語句対生起確率計算手段、句対サンプリング手段、再帰的句対追加手段、として機能させる構成とした。
かかる構成において、句翻訳モデル学習プログラムは、単言語句モデル学習手段によって、2つの異なる言語の複数の単言語文ごとに、その単言語文を構成するさまざまな粒度の句(1以上の単語列)の出現頻度を学習し、単言語句モデル記憶手段に記憶する。
そして、句翻訳モデル学習プログラムは、単言語句生起確率計算手段によって、単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、対訳文書対の各言語側の、文境界を跨がない任意の句の対における、単言語ごとの句の生起確率を計算する。
そして、句翻訳モデル学習プログラムは、2言語句対生起確率計算手段によって、単言語句生起確率計算手段で計算された単言語ごとの句の生起確率と、前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する。
また、句翻訳モデル学習プログラムは、句対サンプリング手段によって、単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングすることで、選択された集合に含まれる句対一覧を得る。
そして、句翻訳モデル学習プログラムは、再帰的句対追加手段によって、単言語句生起確率計算手段、2言語句対生起確率計算手段および句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、句対の出現頻度を学習する。
また、請求項4に記載の句翻訳モデル学習プログラムは、2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習するために、コンピュータを、単言語句生起確率計算手段、再帰的句追加手段、2言語句対生起確率計算手段、句対サンプリング手段、再帰的句対追加手段、として機能させる構成とした。
かかる構成において、句翻訳モデル学習プログラムは、単言語句生起確率計算手段によって、単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、対訳文書対の各言語側の、文境界を跨がない任意の句の対における、単言語ごとの句の生起確率を計算する。
また、句翻訳モデル学習プログラムは、再帰的句追加手段によって、対訳文書対の各言語側の各文に対して、再帰的に細分化された句を観測することで、句の出現頻度を学習する。
そして、句翻訳モデル学習プログラムは、は、2言語句対生起確率計算手段によって、単言語句生起確率計算手段で学習された単言語ごとの句の出現頻度と、計算された単言語ごとの句の生起確率とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する。
そして、句翻訳モデル学習プログラムは、は、句対サンプリング手段によって、単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングすることで、選択された集合に含まれる句対一覧を得る。
そして、句翻訳モデル学習プログラムは、は、再帰的句対追加手段によって、単言語句生起確率計算手段、2言語句対生起確率計算手段および句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、句対の出現頻度を学習する。
本発明は、以下に示す優れた効果を奏するものである。
請求項1,3に記載の発明によれば、対訳文書対を構成する句対から、句対の出現頻度を学習するため、文書中の文同士が完全に対応していない場合であっても、句翻訳モデル(句頻度)を学習することができる。さらに、請求項1,3に記載の発明によれば、句対の出現頻度を学習する際に、句同士が完全に一致しない場合についても確率値を割り当てて演算を行うため、非直訳文書対であっても、句翻訳モデルを学習することができる。
請求項2,4に記載の発明によれば、請求項1,3に記載の発明の効果に加え、単言語モデルの学習を、2言語モデルの学習と並列して行うことができる。
本発明の実施形態に係る句翻訳モデル学習装置の構成を示すブロック構成図である。 中華レストラン過程(CRP)の概要を説明するための説明図である。 図1の単言語句モデル学習手段の学習結果である言語句頻度のデータ構造を示す図である。 図1の2言語句モデル学習手段の学習結果である句対頻度のデータ構造を示す図である。 図1の2言語句対生起確率計算手段において、対応する句同士の組み合せを説明するための説明図であって、(a)は句を構成する細分句同士が対応する例、(b)は一方の言語の細分句のみが他方の言語の全体句と対応する例、(c)は他方の言語の細分句のみが一方の言語の全体句と対応する例、(d)は2言語の全体句同士が対応する例を示している。 図1の句対サンプリング手段において、対訳文書対の句対を抽出する例を説明するための説明図である。 図1の句対サンプリング手段において、句対をサンプリングする手法を説明するための説明図である。 本発明の実施形態に係る句翻訳モデル学習装置の単言語句学習の動作を示すフローチャートである。 本発明の実施形態に係る句翻訳モデル学習装置の2言語句学習の動作を示すフローチャートである。 本発明の他の実施形態に係る句翻訳モデル学習装置の構成を示すブロック構成図である。
以下、本発明の実施形態について図面を参照して説明する。
[句翻訳モデル学習装置の構成]
まず、図1を参照して、本発明の実施形態に係る句翻訳モデル学習装置1の構成について説明する。
図1に示した句翻訳モデル学習装置1は、2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習するものである。2つの異なる言語は、例えば、日本語と英語、英語とフランス語等、異なる言語体系を有する言語であるが、以降の説明では、異なる言語の一方を第1言語、他方を第2言語と記載することとする。なお、いずれか一方の言語を区別することなく単に1つの言語を指す場合には、単言語といい、2つの言語をまとめて指す場合には、2言語ということとする。また、句とは、その言語における1つ以上の単語の列で構成される単語列のことをいう。なお、単言語文は、予め単語に区分され、図示を省略した記憶装置に記憶されているものとする。
ここでは、句翻訳モデル学習装置1は、言語モデル記憶手段10と、単言語句モデル学習手段20と、単言語観測句記憶手段30と、単言語句モデル記憶手段40と、2言語句モデル学習手段50と、2言語観測句対記憶手段60と、2言語句モデル記憶手段70と、を備える。
言語モデル記憶手段10は、第1言語および第2言語のそれぞれについての言語モデル(第1言語モデル、第2言語モデル)を予め記憶するものであって、ハードディスク等の一般的な記憶装置である。この言語モデル(第1言語モデル、第2言語モデル)は、それぞれの言語の大量のテキストから予め学習した出力系列(単語等)の出現確率等をモデル化したものである。この言語モデルには、例えば、一般的な「Nグラム言語モデル」を用いることができる。
単言語句モデル学習手段20は、言語モデル記憶手段10に記憶されている言語モデルを参照して、複数の単言語文から、単言語の句の出現頻度を示す単言語句モデルを学習により生成するものである。なお、この単言語文は、2言語句モデル(句翻訳モデル)を学習する際の対訳文書対の各単語の文であっても構わないし、別途準備した文であっても構わない。
この単言語句モデル学習手段20は、学習対象を第1言語とする場合、第1言語モデルを参照して、複数の第1言語文から、第1言語の単言語句モデル(第1言語句頻度)を学習し、単言語句モデル記憶手段40に書き込む。また、単言語句モデル学習手段20は、学習対象を第2言語とする場合、第2言語モデルを参照して、複数の第2言語文から、第2言語の単言語句モデル(第2言語句頻度)を学習し、単言語句モデル記憶手段40に書き込む。なお、ここでは、単言語句モデル学習手段20は、第1言語の単言語句モデル(第1言語句頻度)を学習した後、第2言語の単言語句モデル(第2言語句頻度)を学習することとする。
この単言語句モデル学習手段20は、図示を省略した初期化手段によって、予め初期化された単言語句モデル記憶手段40の言語句頻度(第1言語句頻度、第2言語句頻度)に対して、予め定めた回数だけ、複数の単言語文から句を観測することによって言語句頻度を更新する処理(手段21〜24)を繰り返し実行する。なお、初期化手段(不図示)の初期化処理は、例えば、学習対象の複数の単言語文から、各文をランダムに分割する、あるいは何らかの事前情報を参照するなどして、句を予め抽出し、その抽出結果を学習対象の各文に対応した観測句一覧として単言語観測句記憶手段30に書き込むとともに、当該句に対して後記する句の頻度情報(図2参照)を対応付けて単言語句モデル記憶手段40に書き込む。
この単言語句モデル学習手段20における繰り返し処理は、一般的な中華レストラン過程(Chinese Restaurant Process:以下、CRPという)を用いることができる。このCRPは、複数のテーブルがある中華レストランに、新たな客が入ってきたときに、その客が多くの客が座っているテーブルに座り易いという過程を、モデル化したものである。この単言語句モデル学習手段20は、CRPにおいて、客を「句」、テーブルを「クラスタ」とすることで、単言語句モデルを学習する。
ここで、先に、単言語句モデル学習手段20の学習結果について、図2,図3を参照して説明しておく。なお、この学習結果は、単言語句モデル記憶手段40に記憶される言語句頻度(第1言語句頻度、第2言語句頻度)の内容である。
図2に示すように、CRPは、客Mが中華レストランに入店した際に、すでに客がいるテーブルTに座って、同じ料理(ここでは「句」)を食べるか、新しいテーブルに座って、新しい料理を注文するかをモデル化し、多くの客Mが座っているテーブルT上の料理(「句」)ほど、人気(出現頻度)が高いというモデルを表している。
ここでは、図3に示すように、言語句頻度のデータ構造は、入力した単言語文で観測される句(単語列)wごとに、全単言語文中で観測された頻度である観測頻度nと、CRPにおいて生成されているテーブルTの数であるテーブル数(総クラスタ数)cと、各テーブルTの客Mの数(クラスタごとの句数)t(1)〜t(c)とからなる頻度情報を対応付けた構造となっている。
また、ここでは、言語句頻度のデータに、すべての句の観測頻度nの総数である全観測頻度Nと、すべての句のテーブル数cの総数である全テーブル数Cとを含むこととするが、これらは、観測頻度nやテーブル数cから計算によって求められるものであるため、必ずしも保持しておく必要はない。
また、ここでは、言語句頻度のデータに、パラメータd、θを含んでいる。このパラメータd、θは、後記する単言語句生起確率計算手段23(図1)において、句の生起確率を計算する際のPitman−Yor過程のパラメータである。
図1に戻って、句翻訳モデル学習装置1の構成について説明を続ける。
単言語句モデル学習手段20は、文処理順決定手段21と、対象句削除手段22と、単言語句生起確率計算手段23と、再帰的句追加手段24と、を備え、CRPの処理を実行する。
文処理順決定手段21は、学習対象である複数の単言語文に対して、繰り返し処理の各回の処理において処理する文の順番をランダムに決定するものである。例えば、文処理順決定手段21は、複数の単言語文(s〜s)に対して、1〜nの範囲で擬似乱数を発生させ、その乱数の順番で、単言語文の処理順を決定する。
対象句削除手段22は、文処理順決定手段21で決定された順番に従って与えられた、処理対象の単言語文に対して、単言語句モデル記憶手段40に記憶されている言語句頻度(図3参照)から、当該文から前回観測された各句の頻度情報を削減するものである。
具体的には、対象句削除手段22は、単言語観測句記憶手段30に記憶されている、当該文に対して前回観測された句の一覧を取得し、その各々について、当該句に対応する客数t(1)〜t(c)の中から、客数の比に応じた確率でテーブルiを選択する。
そして、対象句削除手段22は、当該句の観測頻度nから“1”を減算するとともに、選択したテーブルiの客数t(i)から“1”を減算する。なお、このとき、客数t(i)が“0”になった場合、対象句削除手段22は、客数t(1)〜t(c)から、t(i)を削除して、テーブル数cから“1”を減算する。
単言語句生起確率計算手段23は、単言語句モデル記憶手段40に記憶されている学習途中の言語句頻度を参照して、文処理順決定手段21で決定された順番に従って与えられた、処理対象の単言語文の可能な部分単語列である各句の生起確率を計算するものである。
すなわち、単言語句生起確率計算手段23は、入力された単言語文S(=w…w)の任意の部分単語列である句wi:j(=wi+1…wj−1、ただし、1≦i≦j≦k)の生起確率P(wi:j)を、以下の式(1)により算出する。
Figure 0005918625
ここで、n(wi:j)は、単言語句モデル記憶手段40に記憶されている観測された句wi:jの出現頻度(図3の観測頻度n)、Nは、n(wi:j)の総和(図3の全観測頻度N)、c(wi:j)は、句wi:jのテーブル数(図3のテーブル数c)、Cは、テーブルの総数(図3の全テーブル数C)、P(wi:j)は、句wi:jの事前確率、d、θは、Pitman−Yor過程のパラメータである。
ここでは、単言語句生起確率計算手段23は、前記式(1)における第1項と第2項とを、それぞれ、以下の式(2)、式(3)に示すように、観測頻度成分P(wi:j),事前確率成分P(wi:j)とに分けて算出する。
Figure 0005918625
なお、前記式(1)、式(3)における事前確率P(wi:j)は、以下の式(4)で算出する。
Figure 0005918625
ここで、P(U)は、事前確率における句をさらに細分化する度合いを示し、P(B)は、事前確率における他の事前知識の度合いであってこれ以上の句の細分化を要しない度合いを示す予め定めた値である。なお、事前知識である前記式(4)のP(wi:m)およびP(wm+1:j)は、それぞれ同様に式(4)によって計算される、各細分句の生起確率であり、また、P(wi:j)は、言語モデル記憶手段10に記憶されている言語モデルで特定される接続確率である。
このように、単言語句生起確率計算手段23は、入力された単言語文において、その任意の部分単語列である句についての生起確率を、観測頻度成分P(wi:j)と、事前確率成分P(wi:j)とに分けて計算する。
なお、ある句の生起確率を計算するためには、その事前確率の計算において、この句のすべての可能な2分割結果である細分句の生起確率の計算結果が必要となり、その各細分句の生起確率を計算するためにもその更なる細分句の計算結果が必要となる。このような再帰的な計算を効率的に行い、単言語文に含まれるすべての可能な句の生起確率の計算結果を得るには、例えばチャート法を用いることができる。
すなわち、単言語句生起確率計算手段23は、長さkの入力文S(=w…w)において、まずこれに含まれるすべての可能な長さ“1”の句の生起確率を計算して記憶し、次にこれら記憶された計算結果を参照しながら、すべての可能な長さ“2”の句の生起確率を計算し、というように、計算対象の句の長さを“1”ずつ増やしながら最終的に長さk以下のすべての可能な句の生起確率を得る。
この単言語句生起確率計算手段23において算出された単言語の句の生起確率は、図示を省略したメモリ等に記憶され、再帰的句追加手段24において参照される。
再帰的句追加手段24は、単言語句生起確率計算手段23で計算された、入力文に含まれるすべての句の生起確率に基づいて、入力文の再帰的な細分化(サンプリング)と、言語句頻度の更新とを行うものである。
具体的には、再帰的句追加手段24は、入力文全体を1つの処理対象句として以下に示す再帰的処理を実行する。
まず、再帰的句追加手段24は、処理対象句wi:jにおいて、単言語句生起確率計算手段23で計算された生起確率の観測頻度成分P(wi:j)および事前確率成分P(wi:j)における確率比に基づいて、観測頻度成分Pまたは事前確率成分Pのいずれか一方を選択する。例えば、再帰的句追加手段24は、観測頻度成分Pおよび事前確率成分Pを、その和が“1”となるように正規化し、0〜1の範囲で擬似乱数を発生させ、その乱数に対応する成分を選択する。
ここで、観測頻度成分Pが選択された場合、再帰的句追加手段24は、その成分を算出した際の句(wi:j)を、学習結果である言語句頻度に追加する。具体的には、再帰的句追加手段24は、図3の言語句頻度において、句(wi:j)に対応する客数t(1)〜(c)から、その客数比に応じた確率でテーブルiを選択し、そのテーブルiに対応する客数t(i)を“1”増加させるとともに、観測頻度nを“1”増加させる。
また、このとき、再帰的句追加手段24は、単言語観測句記憶手段30の当該単言語文に対応する今回の観測句一覧に、句(wi:j)を追加しておく。
一方、事前確率成分Pが選択された場合、再帰的句追加手段24は、その成分を算出した際の句(wi:j)を、学習結果である言語句頻度に追加する。具体的には、再帰的句追加手段24は、図3の言語句頻度において、句(wi:j)に、新たなテーブルを割り当てる。すなわち、再帰的句追加手段24は、句(wi:j)に対応する観測頻度nを“1”増加させ、テーブル数cを“1”増加させるとともに、新しいテーブルの客数t(c)に“1”を設定する。
また、このとき、再帰的句追加手段24は、単言語観測句記憶手段30の当該単言語文に対応する今回の観測句一覧に、句(wi:j)を追加しておく。
さらに、事前確率成分Pが選択された場合、再帰的句追加手段24は、前記式(4)におけるPとして総和された各項、すなわち、P(U)P(wi:i)P(wi+1:j),P(U)P(wi:i+1)P(wi+2:j),…,P(U)P(wi:j−1)P(wj:j),P(B)P(wi:j)の中から1つを、その確率比に応じて選択する。このサンプリングの結果、項P(U)P(wi:m)P(wm+1:j)(i≦m≦j−1)が選択された場合にのみ、句(wi:j)を細分化した句である句wi:mおよび句wm+1:jの各々について、再帰的句追加手段24を再帰的に実行する。
これによって、再帰的句追加手段24は、入力文に階層的な粒度で含まれる、観測された句の各々を単言語観測句記憶手段30の観測句一覧に追加するとともに、単言語句モデル記憶手段40の言語句モデル(第1言語句頻度、第2言語句頻度)を更新する。
このように、単言語句モデル学習手段20は、第1言語の単言語文である複数の第1言語文と、言語モデル記憶手段10に記憶している第1言語モデルとから、単言語句モデル記憶手段40に記憶する第1言語句頻度を学習する。また、単言語句モデル学習手段20は、第2言語の単言語文である複数の第2言語文と、言語モデル記憶手段10に記憶している第2言語モデルとから、単言語句モデル記憶手段40に記憶する第2言語句頻度を学習する。
この単言語句モデル学習手段20で学習された第1言語句頻度および第2言語句頻度は、2言語句モデル学習手段50において、2言語の句対頻度を学習する際に参照される。
単言語観測句記憶手段30は、単言語句モデル学習手段20において、複数の単言語文で観測される句の一覧を記憶するものであって、半導体メモリ等の一般的な記憶媒体である。すなわち、単言語観測句記憶手段30には、単言語句モデル学習手段20によって、予め定めた回数だけ、複数の単言語文から新たな言語句頻度を生成する処理を繰り返す際に、その繰り返しごとに、観測句一覧が書き込まれる。そして、単言語観測句記憶手段30において、その繰り返しごとに、前回の観測句一覧と今回の観測句一覧とが交互に更新される。
単言語句モデル記憶手段40は、単言語句モデル学習手段20で学習された単言語句の出現頻度を記憶するものであって、ハードディスク等の一般的な記憶装置である。この単言語句モデル記憶手段40には、単言語句モデル学習手段20によって、複数の第1言語文から学習した結果である第1言語句頻度と、複数の第2言語文から学習した結果である第2言語句頻度とが書き込まれる。なお、言語句頻度(第1言語句頻度、第2言語句頻度)のデータ構造は、図3で説明した通りである。
2言語句モデル学習手段50は、言語モデル記憶手段10に記憶されている言語モデルと、単言語句モデル記憶手段40に記憶されている第1言語句頻度および第2言語句頻度とを参照して、複数の対訳文書対から、2言語の対となる句の出現頻度を示す2言語句モデルを学習により生成するものである。
この2言語句モデル学習手段50は、図示を省略した初期化手段によって、予め初期化された2言語句モデル記憶手段70の句対頻度に対して、予め定めた回数だけ、複数の対訳文書対から句対を観測することによって句対頻度を更新する処理(手段51〜56)を繰り返し実行する。なお、初期化手段(不図示)の初期化処理は、例えば、学習対象の複数の対訳文書対から、句対を予め抽出し、その抽出結果を観測句対一覧として2言語観測句対記憶手段60に書き込むとともに、当該句対に対して後記する句対の頻度情報(図4参照)を対応付けて2言語句モデル記憶手段70に書き込む。
この2言語句モデル学習手段50における繰り返し処理は、単言語句モデル学習手段20と同様に中華レストラン過程(CRP)を用いることとする。ただし、単言語句モデル学習手段20が学習する対象が単言語の句であったのに対し、2言語句モデル学習手段50では、対応する2言語の文書対(対訳文書対)における句の対を学習対象とする。
ここで、先に、2言語句モデル学習手段50の学習結果について、図4を参照して説明しておく。なお、この学習結果は、2言語句モデル記憶手段70に記憶される句対頻度の内容である。この句対頻度は、図3で説明した言語句頻度のデータ構造において、出現頻度を求める対象を句wから、2つの言語の句の対である句対<e,f>としたもので、それ以外の情報は、図3で説明した言語句頻度と同じである。
図1に戻って、句翻訳モデル学習装置1の構成について説明を続ける。
2言語句モデル学習手段50は、文書対処理順決定手段51と、対象句対削除手段52と、単言語句生起確率計算手段53と、2言語句対生起確率計算手段54と、句対サンプリング手段55と、再帰的句対追加手段56と、を備え、CRPの処理を実行する。
文書対処理順決定手段51は、学習対象である複数の対訳文書対に対して、繰り返し処理の各回の処理において処理する文書対の順番をランダムに決定するものである。例えば、文書対処理順決定手段51は、複数の対訳文書対(<E,F>〜<E,F>)に対して、1〜nの範囲で擬似乱数を発生させ、その乱数の順番で、対訳文書対の処理順を決定する。
対象句対削除手段52は、文書対処理順決定手段51で決定された順番に従って与えられた、処理対象の対訳文書対に対して、2言語句モデル記憶手段70に記憶されている句対頻度(図4参照)から、当該文書対から前回観測された各句対の頻度情報を削減するものである。
具体的には、対象句対削除手段52は、2言語観測句対記憶手段50に記憶されている、当該文書対に対して前回観測された句対の一覧を取得し、その各々について、当該句対に対応する客数t(1)〜t(c)の中から、客数の比に応じた確率でテーブルiを選択する。
そして、対象句対削除手段52は、観測頻度nから“1”を減算するとともに、選択したテーブルiの客数t(i)から“1”を減算する。なお、このとき、客数t(i)が“0”になった場合、対象句対削除手段52は、客数t(1)〜t(c)から、t(i)を削除して、テーブル数cから“1”を減算する。
単言語句生起確率計算手段53は、単言語句モデル記憶手段40に記憶されている2つの言語句頻度を参照して、文書対処理順決定手段51で決定された順番で入力された対訳文書対を構成する各言語側各文の可能な部分単語列である各句対において、それぞれの単言語ごとに句の生起確率を計算するものである。
なお、単言語句生起確率計算手段53における生起確率は、単言語句生起確率計算手段23と同様、それぞれの言語において、前記(1)式の演算により算出することができる。
この単言語句生起確率計算手段53において算出された単言語の各文における句の生起確率は、図示を省略したメモリ等に記憶され、2言語句対生起確率計算手段54において2言語句対の生起確率を算出する際、および、句対サンプリング手段55において文書対から句対をサンプリングする際に参照される。
2言語句対生起確率計算手段54は、単言語句生起確率計算手段53で算出された単言語句の生起確率と、単言語句モデル記憶手段40に記憶されている2つの言語句頻度とを参照して、対訳文書対を構成する各言語側の文のすべての組み合せについて、当該文対に含まれる可能な句の2言語対の生起確率を計算するものである。
すなわち、2言語句対生起確率計算手段54は、入力された対訳文書対の可能な2言語文対の組み合せの各々において、当該文対の第1言語側文E(=e…e)および第2言語側文F(=f…f)に対して、E,F各々の任意の部分単語列である第1言語側の句ei,j(=ei+1…ej−1、ただし、1≦i≦j≦k)、および、第2言語側の句fq,r(=fq+1…fr−1、ただし、1≦q≦r≦s)から構成される句対の生起確率P(<ei:j,fq:r>)を、以下の式(5)により算出する。
Figure 0005918625
ここで、n(<ei:j,fq:r>)は、2言語句モデル記憶手段70に記憶されている観測された句対<ei:j,fq:r>の出現頻度(図4の観測頻度n)、Nは、n(<ei:j,fq:r>)の総和(図4の全観測頻度N)、c(<ei:j,fq:r>)は、句対<ei:j,fq:r>のテーブル数(図4のテーブル数c)、Cは、テーブルの総数(図4の全テーブル数C)、P(<ei:j,fq:r>)は、句対<ei:j,fq:r>の事前確率、d、θは、Pitman−Yor過程のパラメータである。
ここでは、2言語句対生起確率計算手段54は、前記式(5)における第1項と第2項とを、それぞれ、以下の式(6)、式(7)に示すように、観測頻度成分P(<ei:j,fq:r>),事前確率成分P(<ei:j,fq:r>)とに分けて算出する。
Figure 0005918625
なお、前記式(5)、式(7)における事前確率P(<ei:j,fq:r>)は、以下の式(8)で算出する。
Figure 0005918625
ここで、P(R)は、句対を2句同士の対応としたときに、同じ順番(語順が同じ)に対応する度合いを示し、P(I)は、句対を2句同士の対応としたときに、順番が反転(語順が逆)する度合いを示す予め定めた値であり、P(R)+P(I)とする。
また、m((<ei:j,fq:r>))は、それぞれの句ei:j,fq:rが独立よりどれだけ対訳らしいかを示す度合いである。例えば、図示を省略した記憶手段に対訳辞書を備え、句ei:j,fq:rが対訳として掲載されていればその値を大きく設定する。なお、このような事前の知識がなければ、値を“1”としてもよい。
ここで、前記式(8)の事前確率P(<ei:j,fq:r>)を、以下の式(9)に示すように、4つの成分P〜Pで表すと、それぞれの成分は、以下の意味を持つことになる。
Figure 0005918625
すなわち、Pは、一方の言語の句を構成する個々の句(細分句)が、他方の言語の句を構成する個々の句(細分句)に過不足なく対応(個別句一致対応)する確率の、各言語側におけるすべての可能な細分の仕方についての総和を示す。また、Pは、一方の言語の句を構成する句の一部(細分句)が、他方の言語の句全体(全体句)に対応(一側欠落対応)する確率の、一側のすべての可能な細分の仕方についての総和を示す。また、Pは、一方の言語の句全体(全体句)が、他方の言語の句を構成する句の一部(細分句)と対応(他側欠落対応)する確率の、他側のすべての可能な細分の仕方についての総和を示す。さらに、Pは、一方の言語の句全体が、他方の言語の句全体に、各々細分化されることなく対応(完全句一致対応)する確率を示す。
ここで、図5を参照して、前記式(8)、式(9)の意味を模式的に説明する。
式(9)のP成分は、図5(a)に示すように、e言語句ei:jと、f言語句fq:rにおいて、それぞれの句をある位置で区分したときの前方の句同士である句ei:m,fq:nと、後方の句同士である句em+1:j,fn+1:rとがそれぞれ対応する関係(同順対応(a1))となる確率と、e言語句ei:jの前方の句ei:mおよびf言語句fq:rの後方の句fn+1:rが対応し、e言語句ei:jの後方の句em+1:jおよびf言語句fq:rの前方の句fq:nが対応する関係(反転対応(a2))となる確率を、P(R)およびP(I)の割合で加算した成分(個別句一致対応成分)である。
また、式(9)のP成分は、図5(b)に示すように、e言語句ei:jをある位置で区分した前方の句ei:mがf言語句fq:r全体に対応し、e言語句ei:jの後方の句em+1:jがf言語句fq:rと対応しない関係(後方欠落対応(b1))となる確率と、e言語句ei:jの後方の句em+1:jがf言語句fq:r全体に対応し、e言語句ei:jの前方の句ei:mがf言語句fq:rと対応しない関係(前方欠落対応(b2))となる確率とを加算平均した成分(一側欠落対応成分)である。
また、式(9)のP成分は、図5(c)に示すように、e言語句ei:j全体がf言語句fq:rの後方の句fn+1:rに対応し、f言語句fq:rをある位置で区分した前方の句fq:nがe言語句ei:jと対応しない関係(前方欠落対応(c1))となる確率と、e言語句ei:j全体がf言語句fq:rの前方の句fq:nに対応し、f言語句fq:rの後方の句fn+1:rがe言語句ei:jと対応しない関係(後方欠落対応(c2))となる確率とを加算平均した成分(他側欠落対応成分)である。
さらに、式(9)のP成分は、図5(d)に示すように、e言語句ei:j全体がf言語句fq:r全体に細分されることなく対応する確率成分(完全句一致対応成分)である。
この図5(b)の一側欠落対応や図5(c)の他側欠落対応にように、一部の句が対応関係にない場合であっても、確率成分を“0”としないため、学習過程において、なんらかの確率値が与えられることになる。これによって、2言語句対生起確率計算手段54は、対訳文書対が、直訳文のように1対1で対応していない場合であっても、2言語句の生起確率を求めることができる。
なお、P、P、Pの各成分の計算に用いる各細分句対の生起確率は、それぞれ同様に前記式(8)によって計算されるものであり、P、P、Pの各成分の計算に用いる各単言語句の生起確率は、それぞれ単言語句生起確率計算手段53の処理の記憶結果を参照することで特定される。
この2言語句対生起確率計算手段54において算出された、対訳文書対のすべての可能な2言語文対に含まれる各句対の生起確率は、図示を省略したメモリ等に記憶され、句対サンプリング手段55において参照される。
なお、単言語句生起確率の計算と同様に、効率的に文対に含まれるすべての可能な句の生起確率の計算結果を得るには、例えばチャート法を用いることができる。
すなわち、2言語句対生起確率計算手段54は、両言語文E(=e…e)およびF(=f…f)の長さの和が(k+s)である入力文対<E,F>において、まずこれに含まれるすべての可能な長さの和“2”の句対の生起確率を計算して記憶し、次にこれら記憶された計算結果を参照しながら、すべての可能な長さの和“3”の句対の生起確率を計算し、というように、計算対象の句対の長さの和を“1”ずつ増やしながら最終的に長さの和(k+s)以下のすべての可能な句対の生起確率を得る。
句対サンプリング手段55は、文書対処理順決定手段51で決定された順番で入力される対訳文書対において、単言語句生起確率計算手段53で算出された各言語の単言語句の生起確率、および、2言語句対生起確率計算手段54で算出された句対の生起確率に基づいて、当該の対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングすることで、選択された集合に含まれる句対一覧を得る。
例えば、図6に示すように、対訳文書対D,Dにおいて、e言語側の文SE1,SE2と、f言語側の文SF1,SF2とが存在する場合に、句対サンプリング手段55は、e言語側の文SE1の各句e,eに対して、f言語側の複数の文、ここでは、文SF1,SF2とで組み合せ可能な句対<e,f>,<e,f>について、文書対D,Dの文書対が生起する確率(文書対生起確率)の大きいものからサンプリングすることで抽出する。これによって、対訳文書対の各言語文が、1対1に対応していない場合であっても、対訳となる句対の候補を抽出することができる。
なお、この句対サンプリング手段55におけるサンプリングは、例えば、マルチスタックビームサーチで行うことができる。このマルチスタックビームサーチを実現する手順は、種々存在するが、以下に図7を参照して、その手法の一例について説明する。
図7(a)に示すように、ここでは、対訳文書対として、e言語側の文書D(ここでは、単語eからなる文SE1と、単語eからなる文SE2の2文とする)と、f言語側の文書D(ここでは、単語fからなる文SF1と、単語fからなる文SF2の2文とする)とする。
このとき、句対サンプリング手段55は、図7(b)に示すように、e言語側の各単語(ここでは、e〜e)に対応した優先キュー(ここでは、Q〜Q)を設定する。優先キューQは、e〜eからなるe言語側の部分文書とf言語側文書Dとの対として構成される部分文書対を過不足なく構成可能な、e言語側の句の集合、f言語側の句の集合、および、句対の集合の3つの組(以下、句・句対集合と呼ぶ)を、当該句および句対の生起確率の総積の大きい順に、予め定められた個数を上限として列挙した結果が格納されるものとする。従って、ある優先キューに句・句対集合を追加する操作は、当該集合を当該キューの既存の各集合とその値によって比較した優先度の位置に挿入し、その結果キューに保持されている個数が予め定められて上限を超えた場合には、最も優先度の小さいものを破棄する操作のことを意味する。
より具体的には、句対サンプリング手段55は、初期値として、優先キューQに、e言語側句の集合を空集合(φ)、f言語側句の集合を、文書Dの各文(文SF1,SF2)からなる句(ここでは、{f1:3、f4:7})を各要素とする集合、句対の集合を空集合(φ)とした候補1個を設定する。そして、句対サンプリング手段55は、Qから順に各キューを参照し、以下に述べる処理を行うことで、最終的に、e言語側の文書末に対応するキューに保持されている、当該文書対を過不足なく構成可能な句・句対集合の候補を得ることができる。
すなわち、句対サンプリング手段55は、ある優先キューQj−1に保持されている句・句対集合の各々に対して、先頭が単語eであるe言語側の句、および、先頭が単語eであるe言語側句を一方に持つ句対のうち、当該句・句対集合の句集合の各要素と区間の重なりのない句対の一覧を列挙する。そして、前述の一覧の各々について、その句または句対のe言語側末尾単語がeであるとして、当該句・句対集合のe言語側句もしくは句対集合にそれを追加し、また、f言語側集合をこの新しい句対集合で構成されないDの各区間からなる句を各要素とした集合で置き換えた新しい句・句対集合を作成し、これを優先キューQに追加する。
なお、図7(c)には、句対サンプリング手段55によって設定された優先キューの内容の一部を示している。
例えば、図7(c)に示すように、優先キューQのキューq61には、文書対<D,D>を構成可能な、e言語側の句集合(ここでは、1要素:句e4:4)と、f言語側の句集合(ここでは、2要素:句f3:3,句f4:4)と、句対集合(ここでは、3要素:<e1:2,f1:2>,<e3:3,f5:6>,<e5:6,f4:4>)のすべての要素の生起確率の総積が、最も大きいことを示している。なお、キューq61の例では、その文書生起確率は、e言語側の句e4:4の生起確率P(e4:4)と、f言語側の句f3:3および句f4:4のそれぞれの生起確率P(f3:3)および句f4:4の生起確率P(f4:4)と、句対<e1:2,f1:2>,<e3:3,f5:6>,<e5:6,f4:4>のそれぞれの生起確率P(<e1:2,f1:2>),P(<e3:3,f5:6>),P(<e5:6,f4:4>)との積(P(e4:4)×P(f3:3)×P(f4:4)×P(<e1:2,f1:2>)×P(<e3:3,f5:6>)×P(<e5:6,f4:4>)となる。
ここで、例えば、図7(c)のキューq61の内容は、図7(a)において、e言語側の文SE1における句e1:2が、f言語側の文SF1の句f1:2に対応し、e言語側の文SE1における句e3:3が、f言語側の文SF2の句f5:6に対応し、e言語側の文SE2における句e5:6が、f言語側の文SF2の句f4:4に対応している関係を示している。すなわち、句対サンプリング手段55は、対訳文書対の各言語文が、1対1に対応していない場合であっても、対訳となる句対の候補を抽出することができる。
このように、句対サンプリング手段55は、当該文書対を過不足なく構成可能な句・句対集合の候補一覧を計算し、その後に、当該一覧の中から、その各要素の生起確率の総積の比に応じて、1つをサンプリングして選択する。そして、句対サンプリング手段55は、選択結果の句・句対集合に含まれる句対集合を得る。
図1に戻って、句翻訳モデル学習装置1の構成について説明を続ける。
再帰的句対追加手段56は、2言語句対生起確率計算手段54で計算された、対訳文書対に含まれるすべての可能な句対の生起確率に基づいて、句対サンプリング手段55にて抽出された句対集合の各々について、その再帰的な細分化(サンプリング)と、句対頻度の更新とを行うものである。
具体的には、再帰的句対追加手段56は、句対サンプリング手段55にて抽出された句対集合の各要素である1つの句対を処理対象句対として、以下に示す再帰的処理を実行する。
まず、再帰的句対追加手段56は、処理対象句対<ei:j,fq:r>において、
2言語句対生起確率計算手段54で計算された生起確率の観測頻度成分P(<ei:j,fq:r>)および事前確率成分P(<ei:j,fq:r>)における確率比に基づいて、観測頻度成分Pまたは事前確率成分Pのいずれか一方を選択する。例えば、再帰的句対追加手段56は、観測頻度成分Pおよび事前確率成分Pを、その和が“1”となるように正規化し、0〜1の範囲で擬似乱数を発生させ、その乱数に対応する成分を選択する。
ここで、観測頻度成分Pが選択された場合、再帰的句対追加手段56は、その成分を算出した際の句対<ei:j,fq:r>を、学習結果である句対頻度に追加する。具体的には、再帰的句対追加手段56は、図4の句対頻度において、句対<ei:j,fq:r>に対応する客数t(1)〜(c)から、その客数比に応じた確率でテーブルiを選択し、そのテーブルiに対応する客数t(i)を“1”増加させるとともに、観測頻度nを“1”増加させる。
また、このとき、再帰的句対追加手段56は、2言語観測句対記憶手段60の処理対象文書対に対応する今回の観測句対一覧に、句対<ei:j,fq:r>を追加しておく。
一方、事前確率成分Pが選択された場合、再帰的句対追加手段56は、その成分を算出した際の句対<ei:j,fq:r>を、学習結果である句対頻度に追加する。具体的には、再帰的句対追加手段56は、図4の句対頻度において、句対<ei:j,fq:r>に、新たなテーブルを割り当てる。すなわち、再帰的句対追加手段56は、句対<ei:j,fq:r>に対応する観測頻度nを“1”増加させ、テーブル数cを“1”増加させるとともに、新しいテーブルの客数t(c)に“1”を設定する。
また、このとき、再帰的句対追加手段56は、2言語観測句対記憶手段60の処理対象文書対に対応する今回の観測句一覧に、句対<ei:j,fq:r>を追加しておく。
さらに、事前確率成分Pが選択された場合、再帰的句対追加手段56は、前記式(8),式(9)において、P,P,PまたはPを、その確率比に応じて選択する。なお、ここで、P,P,PおよびPは、図5で説明したように、対象句対が、どのように対応するかを示した確率成分である。
ここで、Pを選択した場合、再帰的句対追加手段56は、Pとして総和された各項、P(R)P(<ei:i,fq:q>)P(<ei+1:j,fq+1:r>),P(R)P(<ei:j,fq:q+1>)P(<ei+1:j,fq+2:r>),…,P(R)P(<ei:j+1,fq:q>)P(<ei+2:j,fq+1:r>),…,P(R)P(<ei:i+1,fq:q>)P(<ei+2:j,fq+1:r>),…,P(R)P(<ei:j−1,fq:r−1>)P(<ej:j,fr:r>),P(I)P(<ei:i,fq+1:r>)P(<ei+1:j,fq:q>),P(I)P(<ei:j,fq+2:r>)P(<ei+1:j,fq:q+1>),…,P(I)P(<ei:j+1,fq+1:r>)P(<ei+2:j,fq:q>),…,P(I)P(<ei:j−1,fr:r>)P(<ej:j,fq:r−1>)の中から1つを、その確率比に応じて選択する。このサンプリングの結果、項P(R)P(<ei:m,fq:n>)P(<em+1:j,fn+1:r>)(i≦m≦j−1,q≦n≦r−1)が選択された場合には、句対<ei:m,fq:n>および句対<em+1:j,fn+1:r>の各々について、当該句対を新たな処理対象として再帰的句対追加手順56を再帰的に実行する。同様に、サンプリングの結果、項P(I)P(<ei:m,fn+1:r>)P(<em+1:j,fq:n>)(i≦k≦j−1,q≦n≦r−1)が選択された場合には、句対<ei:m,fn+1:r>および句対<em+1:j,fq:n>の各々について、当該句対を新たな処理対象として再帰的句対追加手順56を再帰的に実行する。
また、Pを選択した場合、再帰的句対追加手段56は、Pとして総和された各項、1/2×P(<ei:i,fq:r>)P(ei+1:j),1/2×P(<ei+1:j,fq:r>)P(ei:i),1/2×P(<ei:i+1,fq:r>)P(ei+2:j),1/2×P(<ei+2:j,fq:r>)P(ei:i+1),…,1/2×P(<ei:j−1,fq:r>)P(ej:j),1/2×P(<ej:j,fq:r>)P(ei:j−1)の中から1つを、その確率比に応じて選択する。このサンプリングの結果、項1/2×P(<ei:m,fq:r>)P(em+1:j)(i≦m≦j−1)が選択された場合には、句対<ei:m,fq:r>を新たな処理対象として再帰的句対追加手順56を再帰的に実行する。同様に、サンプリングの結果、項1/2×P(<em+1:j,fq:r>)P(ei:m)(i≦m≦j−1)が選択された場合には、句対<em+1:j,fq:r>を新たな処理対象として再帰的句対追加手順56を再帰的に実行する。
また、Pを選択した場合、再帰的句対追加手段56は、Pとして総和された各項、1/2×P(<ei:j,fq:q>)P(fq+1:r),1/2×P(<ei:j,fq+1:r>)P(fq:q),1/2×P(<ei:j,fq:q+1>)P(fq+2:r),1/2×P(<ei:j,fq+2:r>)P(fq:q+1),…,1/2×P(<ei:j,fq:r−1>)P(fr:r),1/2×P(<ei:j,fr:r>)P(fq:r−1)の中から1つを、その確率比に応じて選択する。このサンプリングの結果、項1/2×P(<ei:j,fq:n>)P(fn+1:j)(q≦n≦r−1)が選択された場合には、句対<ei:j,fq:n>を新たな処理対象として再帰的句対追加手順56を再帰的に実行する。同様に、サンプリングの結果、項1/2×P(<ei:j,fn+1:r>)P(eq:n)(q≦n≦r−1)が選択された場合には、句対<ei:j,fn+1:r>を新たな処理対象として再帰的句対追加手順56を再帰的に実行する。
また、Pを選択した場合、再帰的句対追加手段56は、対象句対についての処理を終了する。
このように再帰的句対追加手段56を句対サンプリング手段55にて抽出された句対集合の各々について実行することで、その各々に階層的な粒度で含まれる、観測された句対の各々を2言語観測句対記憶手段60の観測句対一覧に追加するとともに、2言語句モデル記憶手段70の句対頻度を更新する。
このように、2言語句モデル学習手段50は、対訳文書対と、言語モデル記憶手段10に記憶している第1言語モデルと、単言語句モデル記憶手段40に記憶している単言語の言語句頻度(第1言語句頻度、第2言語句頻度)とから、句翻訳モデルである句対頻度を学習する。
2言語観測句対記憶手段60は、2言語句モデル学習手段50において、対訳文書対の各々について、観測された句対の一覧を記憶するものであって、半導体メモリ等の一般的な記憶媒体である。すなわち、2言語観測句対記憶手段60には、2言語句モデル学習手段50によって、予め定めた回数だけ、複数の対訳文書対から新たな句対頻度を生成する処理を繰り返す際に、その繰り返しごとに、観測句対一覧が書き込まれる。そして、2言語観測句対記憶手段60において、その繰り返しごとに、前回の観測句対一覧と今回の観測句対一覧とが交互に更新される。
2言語句モデル記憶手段(句翻訳モデル記憶手段)70は、2言語句モデル学習手段50で学習された句対の出現頻度(句対頻度)を記憶するものであって、ハードディスク等の一般的な記憶装置である。なお、句対頻度のデータ構造は、図4で説明した通りである。
以上、句翻訳モデル学習装置1は、図5で説明したように、2言語句対生起確率計算手段54が、句対の生起確率を計算する際に、句同士が完全に一致しない句対に対しても生起確率を算出するため、対訳文が非直訳文でなくても、句対を学習することができる。
また、句翻訳モデル学習装置1は、図6で説明したように、句対サンプリング手段55が、複数の文からなる文書対全体にわたって句対をサンプリングするため、文同士が翻訳として対応していない文書対であっても、句対を学習することができる。
[句翻訳モデル学習装置の動作]
次に、図8,図9を参照(構成については適宜図1参照)して、本発明の実施形態に係る句翻訳モデル学習装置1の動作について、単言語句の学習動作と2言語句の学習動作とに分けて説明する。なお、単言語句の学習動作は、第1言語文と第2言語文とで同様の動作であるため、一つの言語(単言語)についてのみ説明する。
(単言語句学習)
最初に、図8を参照(構成については適宜図1参照)して、単言語句の学習動作について説明する。
まず、句翻訳モデル学習装置1は、図示を省略した初期化手段によって、単言語観測句記憶手段30に記憶する、学習対象である複数の単言語文の各々に対応する、階層的な粒度で含まれる観測句一覧と、単言語句モデル記憶手段40に記憶する言語句頻度とを初期化する(ステップS1)。
そして、句翻訳モデル学習装置1は、単言語句モデル学習手段20によって、以下の繰り返し処理によって単言語句を学習する。
すなわち、句翻訳モデル学習装置1は、文処理順決定手段21によって、学習対象である複数の単言語文に対して、繰り返し処理の1回の処理において処理する順番をランダムに決定する(ステップS2)。
そして、句翻訳モデル学習装置1は、対象句削除手段22によって、ステップS2で決定された順番で単言語文を入力する。そして、句翻訳モデル学習装置1は、対象句削除手段22によって、単言語観測句記憶手段30に記憶されている、当該文に階層的な粒度で含まれている前回の観測句の各々について、単言語句モデル記憶手段40に記憶されている言語句頻度から頻度情報を削減する(ステップS3)。
その後、句翻訳モデル学習装置1は、単言語句生起確率計算手段23によって、単言語句モデル記憶手段40に記憶されている学習途中の言語句頻度を参照して、入力された単言語文の可能な部分単語列であるすべての単言語句の生起確率を計算する(ステップS4)。このとき、単言語句生起確率計算手段23は、観測頻度成分Pと事前確率成分Pとに分けて、単言語句の生起確率を算出する(前記式(1)〜(4)参照)。
ここで、句翻訳モデル学習装置1は、再帰的句追加手段24によって、後記するステップS6〜S9において再帰処理を行う最初の処理対象句として当該単言語文全体を設定する(ステップS5)。
そして、句翻訳モデル学習装置1は、再帰的句追加手段24によって、処理対象句について、ステップS4で計算された当該句の観測頻度成分Pおよび事前確率成分Pの確率比に基づいて、観測頻度成分Pまたは事前確率成分Pのいずれか一方を選択する。ここで、観測頻度成分Pが選択された場合(ステップS6でYes)、再帰的句追加手段24は、当該句について、単言語句モデル記憶手段40の言語句頻度に頻度情報を追加するとともに、単言語観測句記憶手段30の当該文の今回の観測句一覧に追加する(ステップS7)。なお、ここで、処理対象句についての処理は終了する。
一方、事前確率成分Pが選択された場合(ステップS6でNo)、再帰的句追加手段24は、当該句について、単言語句モデル記憶手段40の言語句頻度に頻度情報を追加するとともに、単言語観測句記憶手段30の当該文の今回の観測句一覧に追加する(ステップS8)。なお、ステップS7とステップS8との違いは、CRP(中華レストラン過程)において、ステップS7では、対象句に対応するテーブルの客数を増加させるのに対して、ステップS8では、新たなテーブルを追加する点が異なっている。
さらに、ステップS8の後、句翻訳モデル学習装置1は、再帰的句追加手段24によって、処理対象句の事前確率Pとして総和された各項の中の1つを、その確率比に応じて選択する。ここで、細分化を要する項が選択された場合(ステップS9でYes)、前記式(4)において対象句の事前確率を計算した当該対象句を細分化した句(式(4)中、句wi:m,wm+1:j)を、それぞれ処理対象句とし、ステップS6以降の処理を再帰的に実行して句の学習を行う。
以上の動作によって、句翻訳モデル学習装置1は、ある単言語文を構成する句についての学習を行う。
そして、句翻訳モデル学習装置1は、すべての単言語文を学習対象としたか否かを判定し(ステップS10)、まだ、すべての単言語文を学習対象としていない場合(ステップS10でNo)、ステップS3に戻って、新たな単言語文について学習を行う。
一方、すべての単言語文を学習対象とした場合(ステップS10でYes)、句翻訳モデル学習装置1は、予め定めた回数学習を行ったか否かを判定する(ステップS11)。
ここで、まだ、予め定めた回数の学習が終了していない場合(ステップS11でNo)、句翻訳モデル学習装置1は、ステップS2に戻って、すべての単言語文について、新たな処理順を決定して、学習を継続する。
一方、予め定めた回数の学習が終了した場合(ステップS11でYes)、句翻訳モデル学習装置1は、動作を終了する。
以上の動作によって、句翻訳モデル学習装置1は、複数の単言語文から、単言語句モデル記憶手段40における言語句頻度を学習する。句翻訳モデル学習装置1は、この単言語句学習を2つの言語文(第1言語文,第2言語文)それぞれについて行うことで、学習結果として、単言語句モデル記憶手段40に第1言語句頻度および第2言語句頻度を書き込む。
(2言語句学習)
次に、図9を参照(構成については適宜図1参照)して、2言語句の学習動作について説明する。
まず、句翻訳モデル学習装置1は、図示を省略した初期化手段によって、2言語観測句対記憶手段60に記憶する、学習対象である対象文書対の各々に対応する、階層的な粒度で含まれる観測句対一覧と、2言語句モデル記憶手段70に記憶する句対頻度とを初期化する(ステップS20)。
そして、句翻訳モデル学習装置1は、2言語句モデル学習手段50によって、以下の繰り返し処理によって2言語句を学習する。
すなわち、句翻訳モデル学習装置1は、文書対処理順決定手段51によって、学習対象である複数の対訳文書対に対して、繰り返し処理の1回の処理において処理する順番をランダムに決定する(ステップS21)。
そして、句翻訳モデル学習装置1は、対象句対削除手段52によって、ステップS21で決定された順番で対訳文書対を入力する。そして、句翻訳モデル学習装置1は、対象句対削除手段52によって、2言語観測句対記憶手段60に記憶されている、当該文書対に階層的な粒度で含まれている前回の観測句対の各々について、2言語句モデル記憶手段70に記憶されている句対頻度から頻度情報を削減する(ステップS22)。
そして、句翻訳モデル学習装置1は、単言語句生起確率計算手段53によって、単言語句モデル記憶手段40に記憶されている2つの言語句頻度を参照して、ステップS21で決定された順番で入力された対訳文書対のそれぞれの単言語ごとに、当該文書の可能な部分単語列であるすべての単言語句の生起確率を計算する(ステップS23)。
その後、句翻訳モデル学習装置1は、2言語句対生起確率計算手段54によって、ステップS23で算出された単言語句の生起確率と、単言語句モデル記憶手段40に記憶されている2つの言語句頻度とを参照して、対訳文書対の可能な部分単語列の2言語対である句対の生起確率を計算する(ステップS24)。このとき、2言語句対生起確率計算手段54は、観測頻度成分Pと事前確率成分Pとに分けて、対象句対の生起確率を算出する(前記式(5)〜(8)参照)。
さらに、句翻訳モデル学習装置1は、句対サンプリング手段55によって、ステップS21で決定された順番で入力された対訳文書対において、ステップS23で算出された各言語の単言語句の生起確率の大きさ、および、ステップS24で算出された句対の生起確率の大きさに基づいて、句対集合をサンプリングする(ステップS25)。
ここで、句翻訳モデル学習装置1は、再帰的句対追加手段56によって、後記するステップS27〜S30において再帰処理を行う最初の処理対象句対として、ステップS25で得られた句対集合の1つを設定する(ステップS26)。
そして、句翻訳モデル学習装置1は、再帰的句対追加手段56によって、処理対象句対について、ステップS24で計算された当該句対の観測頻度成分Pおよび事前確率成分Pの確率比に基づいて、観測頻度成分Pまたは事前確率成分Pのいずれか一方を選択する。ここで、観測頻度成分Pが選択された場合(ステップS27でYes)、再帰的句対追加手段56は、当該句対について、2言語句モデル記憶手段70の句対頻度に頻度情報を追加するとともに、2言語観測句対記憶手段60の当該対訳文書対の今回の観測句対一覧に追加する(ステップS28)。なお、ここで、処理対象句対についての処理は終了する。
一方、事前確率成分Pが選択された場合(ステップS27でNo)、再帰的句対追加手段56は、当該句対について、2言語句モデル記憶手段70の句対頻度に頻度情報を追加するとともに、2言語観測句対記憶手段60の当該対訳文書対の今回の観測句対一覧に追加する(ステップS29)。なお、ステップS28とステップS29との違いは、CRP(中華レストラン過程)において、ステップS28では、対象句対に対応するテーブルの客数を増加させるのに対して、ステップS29では、新たなテーブルを追加する点が異なっている。
さらに、ステップS28の後、句翻訳モデル学習装置1は、再帰的句対追加手段56によって、前記式(8)を計算した際の各成分(式(9))を確率比で選択する。ここで、細分化を要する成分(式(9)中、P,P,P)が選択された場合(ステップS30でYes)、当該成分として総和された各項の中から1つをさらに、その確率比も応じて選択し、選択結果に含まれる句対の各々をそれぞれ対象句対とし、ステップS27以降の処理を再帰的に実行して句対の学習を行う。
以上の動作によって、句翻訳モデル学習装置1は、ある対訳文書対を構成する句対についての学習を行う。
そして、句翻訳モデル学習装置1は、再帰的句対追加手段56によって、ステップS25で得られた句対集合のすべての句対を処理対象句対に設定したか否かを判定し(ステップS31)、まだ、すべての句対を処理対象句対に設定していない場合(ステップS31でNo)、ステップS26に戻って、新たな処理対象句対を設定する。
一方、すべての句対を処理対象句対に設定した場合(ステップS31でNo)、句翻訳モデル学習装置1は、すべての対訳文書対を学習対象としたか否かを判定し(ステップS32)、まだ、すべての対訳文書対を学習対象としていない場合(ステップS32でNo)、ステップS22に戻って、新たな対訳文書対について学習を行う。
一方、すべての対訳文書対を学習対象とした場合(ステップS32でYes)、句翻訳モデル学習装置1は、予め定めた回数学習を行ったか否かを判定する(ステップS33)。
ここで、まだ、予め定めた回数の学習が終了していない場合(ステップS33でNo)、句翻訳モデル学習装置1は、ステップS21に戻って、すべての対訳文書対について、新たな処理順を決定して、学習を継続する。
一方、予め定めた回数の学習が終了した場合(ステップS33でYes)、句翻訳モデル学習装置1は、動作を終了する。
以上の動作によって、句翻訳モデル学習装置1は、複数の対訳文書対から、2言語句モデル記憶手段70における句対頻度を学習する。
以上、本発明の実施形態に係る句翻訳モデル学習装置1の構成および動作について説明したが、本発明は、この実施形態に限定されるものではない。
例えば、ここでは、句翻訳モデル学習装置1は、学習結果として、2言語間の句対頻度を学習したが、さらに、句対の生起確率を算出する構成を付加することとしてもよい。
その場合、句翻訳モデル学習装置1は、さらに、単言語句生起確率計算手段53と同じ第2の単言語句生起確率計算手段(不図示)と、2言語句対生起確率計算手段54と同じ第2の2言語句対生起確率計算手段(不図示)とを備え、第2の単言語句生起確率計算手段(不図示)によって、それぞれの言語の句の生起確率を計算し、第2の2言語句対生起確率計算手段(不図示)によって、句対の生起確率を計算すればよい。
また、ここでは、句翻訳モデル学習装置1は、単言語句モデル学習手段20において、予め単言語(第1言語,第2言語)句モデル(言語ごとの句頻度)を学習した後、2言語句モデル学習手段50によって、2言語句モデル(句対頻度)を学習することとした。しかし、この単言語の句の学習は、2言語句モデルを学習する際に、並列して行うこととしてもよい。
すなわち、本発明は、図10の句翻訳モデル学習装置1Aに示すように、句翻訳モデル学習装置1から、単言語句モデル学習手段20を省略する。そして、単言語句モデル学習手段20の再帰的句追加手段24を、2言語句モデル学習手段50の2言語句対生起確率計算手段54、句対サンプリング手段55および再帰的句対追加手段56と並列して構成した2言語句モデル学習手段50Aとする。
なお、このとき、対象句対削除手段52Aは、対象句削除手段22と対象句対削除手段52の両機能を併せ持つこととする。すなわち、対象句対削除手段52Aは、入力した対訳文書対で観測される単言語の句を、単言語句モデル学習手段20の前回の観測結果である単言語観測句記憶手段30に記憶されている句の一覧(観測句一覧)から抽出し、単言語句モデル記憶手段40に記憶されている言語句頻度(図3参照)から、該当する句の頻度情報を削減する。さらに、対象句対削除手段52Aは、入力した対訳文書対で観測される句対を、2言語句モデル学習手段50の前回の観測結果である2言語観測句対記憶手段60に記憶されている句対の一覧(観測句対一覧)から抽出し、2言語句モデル記憶手段70に記憶されている句対頻度(図4参照)から、該当する句対の頻度情報を削減する。
また、単言語句生起確率計算手段53は、再帰的句追加手段24によって再帰的に実行されることで、単言語句モデル記憶手段40に記憶する出現頻度である言語句頻度(第1言語句頻度、第2言語句頻度)を学習とともに、句の生起確率を計算する。
このように、句翻訳モデル学習装置1Aを構成することで、句翻訳モデル学習装置1Aは、複数の対訳文書対から、一度に句翻訳モデル(句対頻度)を学習することができる。
以上、本発明の実施形態に係る句翻訳モデル学習装置1およびその変形例について説明したが、この句翻訳モデル学習装置1,1Aは、一般的なCPUや記憶媒体(RAM、ROM、外部記憶媒体等)によって構成することができる。また、句翻訳モデル学習装置1,1Aは、コンピュータを、前記した各手段として機能させるための句翻訳モデル学習プログラムによって動作させることができる。
1 句翻訳モデル学習装置
10 言語モデル記憶手段
20 単言語句モデル学習手段
21 文処理順決定手段
22 対象句削除手段
23 単言語句生起確率計算手段
24 再帰的句追加手段
30 単言語観測句記憶手段
40 単言語句モデル記憶手段
50 2言語句モデル学習手段
51 文書対処理順決定手段
52 対象句対削除手段
53 単言語句生起確率計算手段
54 2言語句対生起確率計算手段
55 句対サンプリング手段
56 再帰的句対追加手段
60 2言語観測句対記憶手段
70 2言語句モデル記憶手段(句翻訳モデル記憶手段)

Claims (4)

  1. 2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習する句翻訳モデル学習装置であって、
    前記2つの異なる言語の単言語文ごとに、当該単言語文を構成する句の出現頻度を学習する単言語句モデル学習手段と、
    この単言語句モデル学習手段で学習された前記単言語文ごとの句の出現頻度を記憶する単言語句モデル記憶手段と、
    前記対訳文書対から、当該対訳文書対を構成する2言語の句の対である句対の出現頻度を学習する2言語句モデル学習手段と、を備え、
    前記2言語句モデル学習手段は、
    前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、前記対訳文書対を構成する句対における単言語ごとの句の生起確率を計算する単言語句生起確率計算手段と、
    この単言語句生起確率計算手段で計算された単言語ごとの句の生起確率と、前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する2言語句対生起確率計算手段と、
    前記単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、前記2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、前記対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングする句対サンプリング手段と、
    前記単言語句生起確率計算手段、前記2言語句対生起確率計算手段および前記句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、前記句対の出現頻度を学習する再帰的句対追加手段と、
    を備えることを特徴とする句翻訳モデル学習装置。
  2. 2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習する句翻訳モデル学習装置であって、
    単言語文ごとの句の出現頻度を記憶する単言語句モデル記憶手段と、
    前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、前記対訳文書対を構成する句対における単言語ごとの句の生起確率を計算する単言語句生起確率計算手段と、
    前記対訳文書対の各言語側の各文に対して、再帰的に細分化された句を観測することで、句の出現頻度を学習する再帰的句追加手段と、
    前記単言語句生起確率計算手段で学習された単言語ごとの句の出現頻度と、計算された単言語ごとの句の生起確率とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する2言語句対生起確率計算手段と、
    前記単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、前記2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、前記対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングする句対サンプリング手段と、
    前記単言語句生起確率計算手段、前記2言語句対生起確率計算手段および前記句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、前記句対の出現頻度を学習する再帰的句対追加手段と、
    を備えることを特徴とする句翻訳モデル学習装置。
  3. 2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習するために、コンピュータを、
    前記2つの異なる言語の単言語文ごとに、当該単言語文を構成する句の出現頻度を学習して、前記単言語文ごとの句の出現頻度を単言語句モデル記憶手段に記憶する単言語句モデル学習手段、
    前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、前記対訳文書対を構成する句対における単言語ごとの句の生起確率を計算する単言語句生起確率計算手段、
    この単言語句生起確率計算手段で計算された単言語ごとの句の生起確率と、前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する2言語句対生起確率計算手段、
    前記単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、前記2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、前記対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングする句対サンプリング手段、
    前記単言語句生起確率計算手段、前記2言語句対生起確率計算手段および前記句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、前記句対の出現頻度を学習する再帰的句対追加手段、
    として機能させるための句翻訳モデル学習プログラム。
  4. 2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習するために、コンピュータを、
    単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、前記対訳文書対を構成する句対における単言語ごとの句の生起確率を計算する単言語句生起確率計算手段、
    前記対訳文書対の各言語側の各文に対して、再帰的に細分化された句を観測することで、句の出現頻度を学習する再帰的句追加手段、
    前記単言語句生起確率計算手段で学習された単言語ごとの句の出現頻度と、計算された単言語ごとの句の生起確率とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する2言語句対生起確率計算手段、
    前記単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、前記2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、前記対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングする句対サンプリング手段、
    前記単言語句生起確率計算手段、前記2言語句対生起確率計算手段および前記句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、前記句対の出現頻度を学習する再帰的句対追加手段、
    として機能させための句翻訳モデル学習プログラム。
JP2012114631A 2012-05-18 2012-05-18 句翻訳モデル学習装置およびそのプログラム Active JP5918625B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012114631A JP5918625B2 (ja) 2012-05-18 2012-05-18 句翻訳モデル学習装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012114631A JP5918625B2 (ja) 2012-05-18 2012-05-18 句翻訳モデル学習装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2013242654A JP2013242654A (ja) 2013-12-05
JP5918625B2 true JP5918625B2 (ja) 2016-05-18

Family

ID=49843495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012114631A Active JP5918625B2 (ja) 2012-05-18 2012-05-18 句翻訳モデル学習装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP5918625B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972244B2 (en) * 2013-01-25 2015-03-03 Xerox Corporation Sampling and optimization in phrase-based machine translation using an enriched language model representation
JP6482073B2 (ja) * 2015-06-08 2019-03-13 日本電信電話株式会社 情報処理方法、装置、及びプログラム
JP7251181B2 (ja) 2019-02-05 2023-04-04 富士通株式会社 対訳処理方法および対訳処理プログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4084789B2 (ja) * 2004-09-28 2008-04-30 株式会社国際電気通信基礎技術研究所 統計機械翻訳装置および統計機械翻訳プログラム
JP4939347B2 (ja) * 2007-09-05 2012-05-23 日本放送協会 対訳表現アラインメント装置およびそのプログラム
JP5550074B2 (ja) * 2010-10-25 2014-07-16 独立行政法人情報通信研究機構 バイリンガルコーパスを同時セグメント化するための装置及びそのコンピュータプログラム

Also Published As

Publication number Publication date
JP2013242654A (ja) 2013-12-05

Similar Documents

Publication Publication Date Title
JP2019505913A (ja) チャットデータに関する固有表現認識
CN105068997B (zh) 平行语料的构建方法及装置
Mallinson et al. Edit5: Semi-autoregressive text-editing with t5 warm-start
US10380243B2 (en) Parallel-translation dictionary creating apparatus and method
KR20220010436A (ko) 다국어 시멘틱 표현 모델의 훈련 방법, 장치, 전자 기기 및 기록 매체
CN104536979A (zh) 主题模型的生成方法及装置、主题分布的获取方法及装置
JP5918625B2 (ja) 句翻訳モデル学習装置およびそのプログラム
JP6243072B1 (ja) 入出力システム、入出力プログラム、情報処理装置、チャットシステム
JP6112536B2 (ja) 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム
Guo et al. Constrained labeled data generation for low-resource named entity recognition
JP5710551B2 (ja) 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム
Howcroft et al. Most NLG is Low-Resource: here's what we can do about it
CN110852063A (zh) 基于双向lstm神经网络的词向量生成方法及装置
JP2012185622A (ja) 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法
Tao et al. Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies
Arun et al. Monte Carlo techniques for phrase-based translation
JP2018181300A (ja) 入出力システム、入出力プログラム、情報処理装置、チャットシステム
Pang et al. Amortized noisy channel neural machine translation
JP4084789B2 (ja) 統計機械翻訳装置および統計機械翻訳プログラム
JP6584361B2 (ja) キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム
JP2010027020A (ja) 単語アライメント装置及び単語アライメントプログラム
Nidhi et al. English-maithili machine translation and divergence
CN110866395A (zh) 基于译员编辑行为的词向量生成方法及装置
JP5416021B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム
Tiedemann Optimization of word alignment clues

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20140328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150401

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160308

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160315

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160408

R150 Certificate of patent or registration of utility model

Ref document number: 5918625

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250