JP5918625B2 - 句翻訳モデル学習装置およびそのプログラム - Google Patents
句翻訳モデル学習装置およびそのプログラム Download PDFInfo
- Publication number
- JP5918625B2 JP5918625B2 JP2012114631A JP2012114631A JP5918625B2 JP 5918625 B2 JP5918625 B2 JP 5918625B2 JP 2012114631 A JP2012114631 A JP 2012114631A JP 2012114631 A JP2012114631 A JP 2012114631A JP 5918625 B2 JP5918625 B2 JP 5918625B2
- Authority
- JP
- Japan
- Prior art keywords
- phrase
- pair
- monolingual
- occurrence probability
- occurrence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
Description
この句翻訳モデルは、通常、等価な内容を表現する文対の集合である対訳文対コーパスから学習によって生成される(非特許文献1参照)。
そして、従来手法1は、その対応付けられた単語を、ヒューリスティック(発見的)に組み合せることで、さまざまな粒度の単語列(句)を抽出し、学習コーパス全体における各句対の出現頻度に基づいて翻訳確率を計算することで、句翻訳モデルを生成する。
このような問題を解決すべく、近年、新たな手法が提案された(非特許文献2参照)。
そして、従来手法2は、学習コーパスに対して、木構造をサンプリングして句対を観測する操作を繰り返し適用することで、ギブスサンプリングによる句翻訳モデルの学習を実現している。
しかし、一般に、2つの異なる言語において、対訳データは必ずしも、「直訳」、「文対」といった性質を有していない。例えば、複数言語で同一トピックに関して発信されるニュース原稿の場合、その内容において、相互に多数の欠落や不一致があり、また、その文間の対応関係も自明でないことがほとんどである。
すなわち、従来の手法では、一般的に収集可能な対訳データを学習データとして利用することができず、「直訳」で、かつ、「文対」の集合の学習データでなければ句翻訳モデルを学習することができないという問題がある。
言い換えれば、従来の手法は、句翻訳モデルを学習させるためだけに、「直訳」で、かつ、「文対」の集合の学習データを大量に準備しなければならないという問題がある。
ここで、句翻訳モデル学習装置は、2言語句モデル学習手段の単言語句生起確率計算手段によって、単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、対訳文書対の各言語側の、文境界を跨がない任意の句の対における、単言語ごとの句の生起確率を計算する。
これによって、1対1の文対に限定されず、1対多(多対1)、あるいは、多対多の文の関係を有する文書対において、組み合せ可能な句対の一方の言語の句の生起確率と、他方の言語の句の生起確率とが求められる。
これによって、一方の言語の一部の句(細分句)のみが、他方の言語の句(全体句)に対応する場合であっても、生起確率の確率値が割り当てられることになり、句同士が対訳として完全に一致しない場合であっても、対応する句対として学習結果に反映させることができる。
また、句翻訳モデル学習装置は、再帰的句追加手段によって、対訳文書対の各言語側の各文に対して、再帰的に細分化された句を観測することで、句の出現頻度を学習する。
そして、句翻訳モデル学習装置は、再帰的句対追加手段によって、単言語句生起確率計算手段、2言語句対生起確率計算手段および句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、句対の出現頻度を学習する。
そして、句翻訳モデル学習プログラムは、単言語句生起確率計算手段によって、単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、対訳文書対の各言語側の、文境界を跨がない任意の句の対における、単言語ごとの句の生起確率を計算する。
そして、句翻訳モデル学習プログラムは、再帰的句対追加手段によって、単言語句生起確率計算手段、2言語句対生起確率計算手段および句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、句対の出現頻度を学習する。
また、句翻訳モデル学習プログラムは、再帰的句追加手段によって、対訳文書対の各言語側の各文に対して、再帰的に細分化された句を観測することで、句の出現頻度を学習する。
そして、句翻訳モデル学習プログラムは、は、再帰的句対追加手段によって、単言語句生起確率計算手段、2言語句対生起確率計算手段および句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、句対の出現頻度を学習する。
請求項1,3に記載の発明によれば、対訳文書対を構成する句対から、句対の出現頻度を学習するため、文書中の文同士が完全に対応していない場合であっても、句翻訳モデル(句頻度)を学習することができる。さらに、請求項1,3に記載の発明によれば、句対の出現頻度を学習する際に、句同士が完全に一致しない場合についても確率値を割り当てて演算を行うため、非直訳文書対であっても、句翻訳モデルを学習することができる。
請求項2,4に記載の発明によれば、請求項1,3に記載の発明の効果に加え、単言語モデルの学習を、2言語モデルの学習と並列して行うことができる。
[句翻訳モデル学習装置の構成]
まず、図1を参照して、本発明の実施形態に係る句翻訳モデル学習装置1の構成について説明する。
図1に示した句翻訳モデル学習装置1は、2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習するものである。2つの異なる言語は、例えば、日本語と英語、英語とフランス語等、異なる言語体系を有する言語であるが、以降の説明では、異なる言語の一方を第1言語、他方を第2言語と記載することとする。なお、いずれか一方の言語を区別することなく単に1つの言語を指す場合には、単言語といい、2つの言語をまとめて指す場合には、2言語ということとする。また、句とは、その言語における1つ以上の単語の列で構成される単語列のことをいう。なお、単言語文は、予め単語に区分され、図示を省略した記憶装置に記憶されているものとする。
図2に示すように、CRPは、客Mが中華レストランに入店した際に、すでに客がいるテーブルTに座って、同じ料理(ここでは「句」)を食べるか、新しいテーブルに座って、新しい料理を注文するかをモデル化し、多くの客Mが座っているテーブルT上の料理(「句」)ほど、人気(出現頻度)が高いというモデルを表している。
また、ここでは、言語句頻度のデータに、パラメータd、θを含んでいる。このパラメータd、θは、後記する単言語句生起確率計算手段23(図1)において、句の生起確率を計算する際のPitman−Yor過程のパラメータである。
図1に戻って、句翻訳モデル学習装置1の構成について説明を続ける。
そして、対象句削除手段22は、当該句の観測頻度nから“1”を減算するとともに、選択したテーブルiの客数t(i)から“1”を減算する。なお、このとき、客数t(i)が“0”になった場合、対象句削除手段22は、客数t(1)〜t(c)から、t(i)を削除して、テーブル数cから“1”を減算する。
すなわち、単言語句生起確率計算手段23は、入力された単言語文S(=w1w2…wk)の任意の部分単語列である句wi:j(=wiwi+1…wj−1wj、ただし、1≦i≦j≦k)の生起確率P(wi:j)を、以下の式(1)により算出する。
ここでは、単言語句生起確率計算手段23は、前記式(1)における第1項と第2項とを、それぞれ、以下の式(2)、式(3)に示すように、観測頻度成分Po(wi:j),事前確率成分Pr(wi:j)とに分けて算出する。
このように、単言語句生起確率計算手段23は、入力された単言語文において、その任意の部分単語列である句についての生起確率を、観測頻度成分Po(wi:j)と、事前確率成分Pr(wi:j)とに分けて計算する。
すなわち、単言語句生起確率計算手段23は、長さkの入力文S(=w1w2…wk)において、まずこれに含まれるすべての可能な長さ“1”の句の生起確率を計算して記憶し、次にこれら記憶された計算結果を参照しながら、すべての可能な長さ“2”の句の生起確率を計算し、というように、計算対象の句の長さを“1”ずつ増やしながら最終的に長さk以下のすべての可能な句の生起確率を得る。
この単言語句生起確率計算手段23において算出された単言語の句の生起確率は、図示を省略したメモリ等に記憶され、再帰的句追加手段24において参照される。
具体的には、再帰的句追加手段24は、入力文全体を1つの処理対象句として以下に示す再帰的処理を実行する。
まず、再帰的句追加手段24は、処理対象句wi:jにおいて、単言語句生起確率計算手段23で計算された生起確率の観測頻度成分Po(wi:j)および事前確率成分Pr(wi:j)における確率比に基づいて、観測頻度成分Poまたは事前確率成分Prのいずれか一方を選択する。例えば、再帰的句追加手段24は、観測頻度成分Poおよび事前確率成分Prを、その和が“1”となるように正規化し、0〜1の範囲で擬似乱数を発生させ、その乱数に対応する成分を選択する。
また、このとき、再帰的句追加手段24は、単言語観測句記憶手段30の当該単言語文に対応する今回の観測句一覧に、句(wi:j)を追加しておく。
また、このとき、再帰的句追加手段24は、単言語観測句記憶手段30の当該単言語文に対応する今回の観測句一覧に、句(wi:j)を追加しておく。
これによって、再帰的句追加手段24は、入力文に階層的な粒度で含まれる、観測された句の各々を単言語観測句記憶手段30の観測句一覧に追加するとともに、単言語句モデル記憶手段40の言語句モデル(第1言語句頻度、第2言語句頻度)を更新する。
この単言語句モデル学習手段20で学習された第1言語句頻度および第2言語句頻度は、2言語句モデル学習手段50において、2言語の句対頻度を学習する際に参照される。
この2言語句モデル学習手段50は、図示を省略した初期化手段によって、予め初期化された2言語句モデル記憶手段70の句対頻度に対して、予め定めた回数だけ、複数の対訳文書対から句対を観測することによって句対頻度を更新する処理(手段51〜56)を繰り返し実行する。なお、初期化手段(不図示)の初期化処理は、例えば、学習対象の複数の対訳文書対から、句対を予め抽出し、その抽出結果を観測句対一覧として2言語観測句対記憶手段60に書き込むとともに、当該句対に対して後記する句対の頻度情報(図4参照)を対応付けて2言語句モデル記憶手段70に書き込む。
2言語句モデル学習手段50は、文書対処理順決定手段51と、対象句対削除手段52と、単言語句生起確率計算手段53と、2言語句対生起確率計算手段54と、句対サンプリング手段55と、再帰的句対追加手段56と、を備え、CRPの処理を実行する。
そして、対象句対削除手段52は、観測頻度nから“1”を減算するとともに、選択したテーブルiの客数t(i)から“1”を減算する。なお、このとき、客数t(i)が“0”になった場合、対象句対削除手段52は、客数t(1)〜t(c)から、t(i)を削除して、テーブル数cから“1”を減算する。
なお、単言語句生起確率計算手段53における生起確率は、単言語句生起確率計算手段23と同様、それぞれの言語において、前記(1)式の演算により算出することができる。
ここでは、2言語句対生起確率計算手段54は、前記式(5)における第1項と第2項とを、それぞれ、以下の式(6)、式(7)に示すように、観測頻度成分Po(<ei:j,fq:r>),事前確率成分Pr(<ei:j,fq:r>)とに分けて算出する。
ここで、前記式(8)の事前確率Pp(<ei:j,fq:r>)を、以下の式(9)に示すように、4つの成分P1〜P4で表すと、それぞれの成分は、以下の意味を持つことになる。
式(9)のP1成分は、図5(a)に示すように、e言語句ei:jと、f言語句fq:rにおいて、それぞれの句をある位置で区分したときの前方の句同士である句ei:m,fq:nと、後方の句同士である句em+1:j,fn+1:rとがそれぞれ対応する関係(同順対応(a1))となる確率と、e言語句ei:jの前方の句ei:mおよびf言語句fq:rの後方の句fn+1:rが対応し、e言語句ei:jの後方の句em+1:jおよびf言語句fq:rの前方の句fq:nが対応する関係(反転対応(a2))となる確率を、Px(R)およびPx(I)の割合で加算した成分(個別句一致対応成分)である。
この図5(b)の一側欠落対応や図5(c)の他側欠落対応にように、一部の句が対応関係にない場合であっても、確率成分を“0”としないため、学習過程において、なんらかの確率値が与えられることになる。これによって、2言語句対生起確率計算手段54は、対訳文書対が、直訳文のように1対1で対応していない場合であっても、2言語句の生起確率を求めることができる。
この2言語句対生起確率計算手段54において算出された、対訳文書対のすべての可能な2言語文対に含まれる各句対の生起確率は、図示を省略したメモリ等に記憶され、句対サンプリング手段55において参照される。
すなわち、2言語句対生起確率計算手段54は、両言語文E(=e1e2…ek)およびF(=f1f2…fs)の長さの和が(k+s)である入力文対<E,F>において、まずこれに含まれるすべての可能な長さの和“2”の句対の生起確率を計算して記憶し、次にこれら記憶された計算結果を参照しながら、すべての可能な長さの和“3”の句対の生起確率を計算し、というように、計算対象の句対の長さの和を“1”ずつ増やしながら最終的に長さの和(k+s)以下のすべての可能な句対の生起確率を得る。
なお、図7(c)には、句対サンプリング手段55によって設定された優先キューの内容の一部を示している。
このように、句対サンプリング手段55は、当該文書対を過不足なく構成可能な句・句対集合の候補一覧を計算し、その後に、当該一覧の中から、その各要素の生起確率の総積の比に応じて、1つをサンプリングして選択する。そして、句対サンプリング手段55は、選択結果の句・句対集合に含まれる句対集合を得る。
図1に戻って、句翻訳モデル学習装置1の構成について説明を続ける。
具体的には、再帰的句対追加手段56は、句対サンプリング手段55にて抽出された句対集合の各要素である1つの句対を処理対象句対として、以下に示す再帰的処理を実行する。
まず、再帰的句対追加手段56は、処理対象句対<ei:j,fq:r>において、
2言語句対生起確率計算手段54で計算された生起確率の観測頻度成分Po(<ei:j,fq:r>)および事前確率成分Pr(<ei:j,fq:r>)における確率比に基づいて、観測頻度成分Poまたは事前確率成分Prのいずれか一方を選択する。例えば、再帰的句対追加手段56は、観測頻度成分Poおよび事前確率成分Prを、その和が“1”となるように正規化し、0〜1の範囲で擬似乱数を発生させ、その乱数に対応する成分を選択する。
また、このとき、再帰的句対追加手段56は、2言語観測句対記憶手段60の処理対象文書対に対応する今回の観測句対一覧に、句対<ei:j,fq:r>を追加しておく。
また、このとき、再帰的句対追加手段56は、2言語観測句対記憶手段60の処理対象文書対に対応する今回の観測句一覧に、句対<ei:j,fq:r>を追加しておく。
また、P4を選択した場合、再帰的句対追加手段56は、対象句対についての処理を終了する。
このように、2言語句モデル学習手段50は、対訳文書対と、言語モデル記憶手段10に記憶している第1言語モデルと、単言語句モデル記憶手段40に記憶している単言語の言語句頻度(第1言語句頻度、第2言語句頻度)とから、句翻訳モデルである句対頻度を学習する。
また、句翻訳モデル学習装置1は、図6で説明したように、句対サンプリング手段55が、複数の文からなる文書対全体にわたって句対をサンプリングするため、文同士が翻訳として対応していない文書対であっても、句対を学習することができる。
次に、図8,図9を参照(構成については適宜図1参照)して、本発明の実施形態に係る句翻訳モデル学習装置1の動作について、単言語句の学習動作と2言語句の学習動作とに分けて説明する。なお、単言語句の学習動作は、第1言語文と第2言語文とで同様の動作であるため、一つの言語(単言語)についてのみ説明する。
最初に、図8を参照(構成については適宜図1参照)して、単言語句の学習動作について説明する。
まず、句翻訳モデル学習装置1は、図示を省略した初期化手段によって、単言語観測句記憶手段30に記憶する、学習対象である複数の単言語文の各々に対応する、階層的な粒度で含まれる観測句一覧と、単言語句モデル記憶手段40に記憶する言語句頻度とを初期化する(ステップS1)。
すなわち、句翻訳モデル学習装置1は、文処理順決定手段21によって、学習対象である複数の単言語文に対して、繰り返し処理の1回の処理において処理する順番をランダムに決定する(ステップS2)。
ここで、句翻訳モデル学習装置1は、再帰的句追加手段24によって、後記するステップS6〜S9において再帰処理を行う最初の処理対象句として当該単言語文全体を設定する(ステップS5)。
以上の動作によって、句翻訳モデル学習装置1は、ある単言語文を構成する句についての学習を行う。
一方、すべての単言語文を学習対象とした場合(ステップS10でYes)、句翻訳モデル学習装置1は、予め定めた回数学習を行ったか否かを判定する(ステップS11)。
一方、予め定めた回数の学習が終了した場合(ステップS11でYes)、句翻訳モデル学習装置1は、動作を終了する。
次に、図9を参照(構成については適宜図1参照)して、2言語句の学習動作について説明する。
まず、句翻訳モデル学習装置1は、図示を省略した初期化手段によって、2言語観測句対記憶手段60に記憶する、学習対象である対象文書対の各々に対応する、階層的な粒度で含まれる観測句対一覧と、2言語句モデル記憶手段70に記憶する句対頻度とを初期化する(ステップS20)。
すなわち、句翻訳モデル学習装置1は、文書対処理順決定手段51によって、学習対象である複数の対訳文書対に対して、繰り返し処理の1回の処理において処理する順番をランダムに決定する(ステップS21)。
ここで、句翻訳モデル学習装置1は、再帰的句対追加手段56によって、後記するステップS27〜S30において再帰処理を行う最初の処理対象句対として、ステップS25で得られた句対集合の1つを設定する(ステップS26)。
以上の動作によって、句翻訳モデル学習装置1は、ある対訳文書対を構成する句対についての学習を行う。
一方、すべての対訳文書対を学習対象とした場合(ステップS32でYes)、句翻訳モデル学習装置1は、予め定めた回数学習を行ったか否かを判定する(ステップS33)。
一方、予め定めた回数の学習が終了した場合(ステップS33でYes)、句翻訳モデル学習装置1は、動作を終了する。
以上の動作によって、句翻訳モデル学習装置1は、複数の対訳文書対から、2言語句モデル記憶手段70における句対頻度を学習する。
例えば、ここでは、句翻訳モデル学習装置1は、学習結果として、2言語間の句対頻度を学習したが、さらに、句対の生起確率を算出する構成を付加することとしてもよい。
その場合、句翻訳モデル学習装置1は、さらに、単言語句生起確率計算手段53と同じ第2の単言語句生起確率計算手段(不図示)と、2言語句対生起確率計算手段54と同じ第2の2言語句対生起確率計算手段(不図示)とを備え、第2の単言語句生起確率計算手段(不図示)によって、それぞれの言語の句の生起確率を計算し、第2の2言語句対生起確率計算手段(不図示)によって、句対の生起確率を計算すればよい。
このように、句翻訳モデル学習装置1Aを構成することで、句翻訳モデル学習装置1Aは、複数の対訳文書対から、一度に句翻訳モデル(句対頻度)を学習することができる。
10 言語モデル記憶手段
20 単言語句モデル学習手段
21 文処理順決定手段
22 対象句削除手段
23 単言語句生起確率計算手段
24 再帰的句追加手段
30 単言語観測句記憶手段
40 単言語句モデル記憶手段
50 2言語句モデル学習手段
51 文書対処理順決定手段
52 対象句対削除手段
53 単言語句生起確率計算手段
54 2言語句対生起確率計算手段
55 句対サンプリング手段
56 再帰的句対追加手段
60 2言語観測句対記憶手段
70 2言語句モデル記憶手段(句翻訳モデル記憶手段)
Claims (4)
- 2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習する句翻訳モデル学習装置であって、
前記2つの異なる言語の単言語文ごとに、当該単言語文を構成する句の出現頻度を学習する単言語句モデル学習手段と、
この単言語句モデル学習手段で学習された前記単言語文ごとの句の出現頻度を記憶する単言語句モデル記憶手段と、
前記対訳文書対から、当該対訳文書対を構成する2言語の句の対である句対の出現頻度を学習する2言語句モデル学習手段と、を備え、
前記2言語句モデル学習手段は、
前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、前記対訳文書対を構成する句対における単言語ごとの句の生起確率を計算する単言語句生起確率計算手段と、
この単言語句生起確率計算手段で計算された単言語ごとの句の生起確率と、前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する2言語句対生起確率計算手段と、
前記単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、前記2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、前記対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングする句対サンプリング手段と、
前記単言語句生起確率計算手段、前記2言語句対生起確率計算手段および前記句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、前記句対の出現頻度を学習する再帰的句対追加手段と、
を備えることを特徴とする句翻訳モデル学習装置。 - 2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習する句翻訳モデル学習装置であって、
単言語文ごとの句の出現頻度を記憶する単言語句モデル記憶手段と、
前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、前記対訳文書対を構成する句対における単言語ごとの句の生起確率を計算する単言語句生起確率計算手段と、
前記対訳文書対の各言語側の各文に対して、再帰的に細分化された句を観測することで、句の出現頻度を学習する再帰的句追加手段と、
前記単言語句生起確率計算手段で学習された単言語ごとの句の出現頻度と、計算された単言語ごとの句の生起確率とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する2言語句対生起確率計算手段と、
前記単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、前記2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、前記対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングする句対サンプリング手段と、
前記単言語句生起確率計算手段、前記2言語句対生起確率計算手段および前記句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、前記句対の出現頻度を学習する再帰的句対追加手段と、
を備えることを特徴とする句翻訳モデル学習装置。 - 2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習するために、コンピュータを、
前記2つの異なる言語の単言語文ごとに、当該単言語文を構成する句の出現頻度を学習して、前記単言語文ごとの句の出現頻度を単言語句モデル記憶手段に記憶する単言語句モデル学習手段、
前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、前記対訳文書対を構成する句対における単言語ごとの句の生起確率を計算する単言語句生起確率計算手段、
この単言語句生起確率計算手段で計算された単言語ごとの句の生起確率と、前記単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する2言語句対生起確率計算手段、
前記単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、前記2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、前記対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングする句対サンプリング手段、
前記単言語句生起確率計算手段、前記2言語句対生起確率計算手段および前記句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、前記句対の出現頻度を学習する再帰的句対追加手段、
として機能させるための句翻訳モデル学習プログラム。 - 2つの異なる言語の対訳文書対から、対応する句の出現頻度を表す句翻訳モデルを学習するために、コンピュータを、
単言語句モデル記憶手段に記憶されている単言語ごとの句の出現頻度に基づいて、前記対訳文書対を構成する句対における単言語ごとの句の生起確率を計算する単言語句生起確率計算手段、
前記対訳文書対の各言語側の各文に対して、再帰的に細分化された句を観測することで、句の出現頻度を学習する再帰的句追加手段、
前記単言語句生起確率計算手段で学習された単言語ごとの句の出現頻度と、計算された単言語ごとの句の生起確率とに基づいて、句対を構成する一言語側の句と他言語側の句とにおいて、それぞれの全体句および当該全体句を構成する細分句において、いずれか一方の言語の細分句が他方の言語の全体句と対応しない関係を含んだ句同士の組み合せの生起確率を事前確率として当該句対の生起確率を計算する2言語句対生起確率計算手段、
前記単言語句生起確率計算手段で計算された単言語ごとの句の生起確率、および、前記2言語句対生起確率計算手段で計算された句対の生起確率に基づいて、前記対訳文書対を過不足なく構成可能な単言語句および句対の集合を列挙し、各集合に対してその各要素である単言語句および句対の生起確率の総積である文書対生起確率を計算した上で、その相対比に応じて1つをサンプリングする句対サンプリング手段、
前記単言語句生起確率計算手段、前記2言語句対生起確率計算手段および前記句対サンプリング手段により得られた各句対に対して、再帰的に細分化された句対を観測することで、前記句対の出現頻度を学習する再帰的句対追加手段、
として機能させための句翻訳モデル学習プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012114631A JP5918625B2 (ja) | 2012-05-18 | 2012-05-18 | 句翻訳モデル学習装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012114631A JP5918625B2 (ja) | 2012-05-18 | 2012-05-18 | 句翻訳モデル学習装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013242654A JP2013242654A (ja) | 2013-12-05 |
JP5918625B2 true JP5918625B2 (ja) | 2016-05-18 |
Family
ID=49843495
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012114631A Active JP5918625B2 (ja) | 2012-05-18 | 2012-05-18 | 句翻訳モデル学習装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5918625B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8972244B2 (en) * | 2013-01-25 | 2015-03-03 | Xerox Corporation | Sampling and optimization in phrase-based machine translation using an enriched language model representation |
JP6482073B2 (ja) * | 2015-06-08 | 2019-03-13 | 日本電信電話株式会社 | 情報処理方法、装置、及びプログラム |
JP7251181B2 (ja) | 2019-02-05 | 2023-04-04 | 富士通株式会社 | 対訳処理方法および対訳処理プログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4084789B2 (ja) * | 2004-09-28 | 2008-04-30 | 株式会社国際電気通信基礎技術研究所 | 統計機械翻訳装置および統計機械翻訳プログラム |
JP4939347B2 (ja) * | 2007-09-05 | 2012-05-23 | 日本放送協会 | 対訳表現アラインメント装置およびそのプログラム |
JP5550074B2 (ja) * | 2010-10-25 | 2014-07-16 | 独立行政法人情報通信研究機構 | バイリンガルコーパスを同時セグメント化するための装置及びそのコンピュータプログラム |
-
2012
- 2012-05-18 JP JP2012114631A patent/JP5918625B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013242654A (ja) | 2013-12-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2019505913A (ja) | チャットデータに関する固有表現認識 | |
CN105068997B (zh) | 平行语料的构建方法及装置 | |
Mallinson et al. | Edit5: Semi-autoregressive text-editing with t5 warm-start | |
US10380243B2 (en) | Parallel-translation dictionary creating apparatus and method | |
KR20220010436A (ko) | 다국어 시멘틱 표현 모델의 훈련 방법, 장치, 전자 기기 및 기록 매체 | |
CN104536979A (zh) | 主题模型的生成方法及装置、主题分布的获取方法及装置 | |
JP5918625B2 (ja) | 句翻訳モデル学習装置およびそのプログラム | |
JP6243072B1 (ja) | 入出力システム、入出力プログラム、情報処理装置、チャットシステム | |
JP6112536B2 (ja) | 対訳表現抽出装置、対訳表現抽出方法及び対訳表現抽出のためのコンピュータプログラム | |
Guo et al. | Constrained labeled data generation for low-resource named entity recognition | |
JP5710551B2 (ja) | 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム | |
Howcroft et al. | Most NLG is Low-Resource: here's what we can do about it | |
CN110852063A (zh) | 基于双向lstm神经网络的词向量生成方法及装置 | |
JP2012185622A (ja) | 対訳フレーズ学習装置、フレーズベース統計的機械翻訳装置、対訳フレーズ学習方法、および対訳フレーズ生産方法 | |
Tao et al. | Scaling Laws with Vocabulary: Larger Models Deserve Larger Vocabularies | |
Arun et al. | Monte Carlo techniques for phrase-based translation | |
JP2018181300A (ja) | 入出力システム、入出力プログラム、情報処理装置、チャットシステム | |
Pang et al. | Amortized noisy channel neural machine translation | |
JP4084789B2 (ja) | 統計機械翻訳装置および統計機械翻訳プログラム | |
JP6584361B2 (ja) | キーワード抽出装置、キーワード抽出方法及びキーワード抽出プログラム | |
JP2010027020A (ja) | 単語アライメント装置及び単語アライメントプログラム | |
Nidhi et al. | English-maithili machine translation and divergence | |
CN110866395A (zh) | 基于译员编辑行为的词向量生成方法及装置 | |
JP5416021B2 (ja) | 機械翻訳装置、機械翻訳方法、およびそのプログラム | |
Tiedemann | Optimization of word alignment clues |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140328 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150401 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20160308 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160315 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160408 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5918625 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |