JP2005025474A - Machine translation device, computer program, and computer - Google Patents
Machine translation device, computer program, and computer Download PDFInfo
- Publication number
- JP2005025474A JP2005025474A JP2003189787A JP2003189787A JP2005025474A JP 2005025474 A JP2005025474 A JP 2005025474A JP 2003189787 A JP2003189787 A JP 2003189787A JP 2003189787 A JP2003189787 A JP 2003189787A JP 2005025474 A JP2005025474 A JP 2005025474A
- Authority
- JP
- Japan
- Prior art keywords
- chunk
- output
- translation
- language
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
Description
【0001】
【発明の属する技術分野】
この発明は統計的機械翻訳装置に関し、特に、対訳コーパスを用いた学習により、構造が大きく異なった言語間でも精度よく翻訳する事が可能な統計的機械翻訳装置に関する。
【0002】
【従来の技術】
[従来の技術の概論]
機械翻訳の一方法として最近盛んに研究されている方式に、統計的機械翻訳がある。統計的機械翻訳では、第1の言語の文と第2の言語の文との対訳文を多数含む対訳コーパスを用いた学習により予め翻訳モデルを作成しておき、この翻訳モデルを用いて翻訳を行なう。翻訳時には、具体的には次の様な作業を行なう。なお以下の説明では、第1の言語を日本語とし、「J」と表記する。また第2の言語を英語とし、「E」と表記する。
【0003】
統計的機械翻訳では、第1の言語Jの入力文から第2の言語Eへの翻訳を、条件付確率P(E|J)の最大化問題(^E=argmaxEP(E|J))として定式化する。この式にベイズの定理を適用する事により、^E=argmaxEP(E)P(J|E)が得られる。この式のうちP(E)は言語モデルと呼ばれるものであり、ターゲット言語Eの文における単語の出現尤度を示すものである。後者のP(J|E)が翻訳モデルと呼ばれるものであり、第2の言語の文Eから第1の言語の文Jが生成される確率を表す。この言語モデルと翻訳モデルとを用いて、入力文Jに対し前述した条件付確率P(E)P(J|E)が最大となる翻訳文^Eを生成する。
【0004】
なお、翻訳モデル作成の際の翻訳の原言語をソース言語、翻訳の目的言語をターゲット言語と呼ぶ。したがってこの翻訳モデルではソース言語はE,ターゲット言語はJとなる。これはこの翻訳モデルを用いて実際に翻訳をする際の入力言語と出力言語との関係を逆にしたものとなっている。以下の説明では、ソース言語の文及び単語をそれぞれソース文及びソース単語、ターゲット言語の文及び単語をそれぞれターゲット文及びターゲット単語と呼ぶ。
【0005】
翻訳モデルP(J|E)を実現するにあたって、フランス語と英語、及びドイツ語と英語など、互いに近い関係にある言語間の翻訳では、語アライメント方式と呼ばれる統計的翻訳がよい成績を収めてきた。
【0006】
[語アライメントによる統計的翻訳]
語アライメント方式の統計的翻訳は、語アライメントという概念によって二つの言語の対応関係を表し翻訳モデルを生成する。なお、語アライメントでは、ソース文の単語の各々に対して1対多の関係でのターゲット単語の生成を許すものとする。
【0007】
図1は、翻訳モデル(J|E)におけるソース言語(英語)Eとターゲット言語(日本語)Jとについての、語アライメントの例を示すものである。図1において、英語の文E(”show me the one in the window”)の各単語と、それに対応する日本語の文J(「ウィンドノシナモノオミセテクダサイ(uindo no shinamono o mise tekudasai)」の各単語との対応関係を示す。対応している単語の対を線で結んである。なお、文JとEとの各単語の右下に示した数字は、その単語の文頭からの位置を示す番号である。
【0008】
以下の説明では、語アライメントについて「A」という符号を用いて説明する。図1において、語アライメントAは「7 0 4 0 1 1」となっている。これは、日本語の文Jを構成する各単語に対応する英語の文E中の単語の位置を、日本語の文J中の単語の順に並べたものである。すなわち、日本語の文J中の番号1,2,3,4,5,6の単語はそれぞれ、英語の文E中の番号7,0,4,0,1,1に対応付けられている(アラインされている)。なおここで「0」は、対応する単語が存在しないこと(NULLに対応すること)を示す。逆に複数の単語に一つの単語が対応する場合もある。この例では、枠20で示すソース単語「show1」からは、枠22で示す「mise5」及び「tekudasai6」という2つのターゲット単語が生成されている。
【0009】
こうした語アライメントを想定すると、翻訳モデルP(J|E)はさらに、厳密に以下の通り分解できる。
【0010】
【数1】
この式は、ソース文Eとターゲット文Jとの間の語アライメントAを全て考え、それらの尤度を全て加算したものが、ソース文Eに対するターゲット文Jの尤度となる事を意味する。
【0011】
[IBMモデル]
ソース文Eからターゲット文Jへの生成プロセスにおいて、P(J,A|E)は、挿入、削除、及び並べ替えの様ないくつかのプロセスが組合わされて構成されている。後掲の非特許文献1により定義されている語アライメント方式の翻訳モデル(例えばIBMモデル4)は、以下の様なシナリオに従っている。
【0012】
(1) ソース単語の各々について、いくつのターゲット単語を生成するかをファーティリティモデルにより選択する。例を図2に示す。図2は、左端に示したソース文(単語を縦に配列してある。)から、右端に示したターゲット文への変換過程において、単語の対応関係がどのように変化するかを示す。矢印は、その左側の単語がその右側の単語(群)に対応付けられていることを示す。図2において、枠30に示す通り「show」というソース単語は2語に増やされ、枠32に示すソース単語「me」は削除されている。
【0013】
(2) NULL生成モデルに従って、適切な位置にNULLを挿入する。図2に示す例では、枠34に示す通り、二つの「show」の各々の後にNULLが挿入されている。
【0014】
(3) 生成された単語の各々について、語彙モデルを用いたルックアップによって1語ごとに翻訳を行なう。図2に示す例では、二つのソース単語「show」のうち、枠36によって示すものがターゲット単語「mise」に翻訳されている。
【0015】
(4) ディストーションモデルを参照する事により翻訳後の単語を並べ替える。図2の例では、枠38によって示す通り、「mise」は5番目の位置に配置され、「uindo」は先頭に配置される。句の制約を保存するために、単語の位置は直前の語のアライメントによって決定される。
【0016】
この従来例で用いられている各モデルでのシンボルの意味については、非特許文献1を参照されたい。
【0017】
【非特許文献1】
ピーター F.ブラウン、スティーブン A.デラ・ピエトラ、ビンセント J.デラ・ピエトラ、及びロバート L.メルサー、1993、「統計的機械翻訳の数学:パラメータ推定」、コンピューテーショナル リングイスティックス、19(2):263−311(Peter F.Brown,StephenA.Della Pietra,Vincent J.Della Pietra,and Robert L.Mercer.1993.The mathematics of statistical machine translation:Parameter estimation.Computational Linguistics、19(2):263−311.
【0018】
【発明が解決しようとする課題】
語アライメント方式の翻訳モデルの生成では、ソース文に含まれる単語の集合の各々について個別に翻訳語を生成してターゲット単語の集合を生成し、さらにそれらターゲット単語の、翻訳文内での位置を決定する事により翻訳を行なう、という戦略を採っている。こうした手続を用いて翻訳モデルを生成する事により、同種の言語間の翻訳モデルではその対応関係を比較的精度よく捕らえる事ができる。しかし、日本語と英語の様に構造が互いに大きく異なる言語間ではさらに解決すべき問題が残っている。
【0019】
ファーティリティモデルでは、削除についてのモデル化がされているが、残念ながら文脈に関わらず削除された語にゼロを割当てているだけである。同様に、挿入される語は語彙モデルパラメータを用いて選択され、二項分布により決定される位置に挿入されるに過ぎない。
【0020】
この様な挿入/削除の方式は翻訳プロセスの表現を単純化する上では有用であり、膨大な対訳文の集合に基づいて処理を行なう事が可能になるという効果を持つ。しかし、語の削除及び挿入の様な現象についてこの様に弱いモデル化しか行なわない場合、日本語と英語の様に互いに大きく異なる言語の組合せについては、十分な翻訳性能を期待する事はできない。
【0021】
IBMモデル4(及び5)は、ディストーションモデルのパラメータとして、暗黙のうちに句の制約をシミュレートしている。さらに、全体の並べ替えは局所的な並べ替えを寄せ集めたものにより決定されており、長い距離にわたる句の制約を十分に捕らえる事はできない。
【0022】
それゆえに本発明の目的は、大きく異なる言語間でも精度の高い機械翻訳を行なう事ができる統計的機械翻訳装置を提供する事である。
【0023】
この発明の他の目的は、大きく異なる言語間でも、長い距離にわたる句の制約を反映した精度の高い機械翻訳を行なう事ができる統計的機械翻訳装置を提供する事である。
【0024】
【課題を解決するための手段】
本発明の第1の局面にかかる機械翻訳装置は、第1の言語の入力文を第2の言語に翻訳するための機械翻訳装置であって、入力文を1又は複数個のチャンクに分割することにより得られたチャンクの各々について個別に翻訳を行なうためのチャンク翻訳手段と、チャンク翻訳手段から出力される翻訳後のチャンクを並べ替える事により、入力文に対する翻訳文を生成するためのチャンク並べ替え手段とを含む。
【0025】
好ましくは、機械翻訳装置は、チャンク方式の翻訳モデルを記憶するための手段をさらに含み、チャンク翻訳手段、及びチャンク並べ替え手段は、第1の言語の入力文に対して、チャンク方式の翻訳モデルを参照して処理を行なう。
【0026】
さらに好ましくは、チャンク翻訳手段は、入力文に対して複数通りのチャンク分割を行ない、各々が1又は複数個のチャンクを含む1又は複数個のチャンク列を出力するためのチャンク分割手段と、チャンク分割手段により出力される1又は複数個のチャンク列の各々に対し、当該チャンク列が含むチャンクの各々に対する翻訳を行なうことにより1又は複数個の出力チャンク列を作成するための出力チャンク作成手段とを含む。出力チャンク作成手段は、1又は複数個の出力チャンク列に対し、翻訳モデルに基づいて尤度を算出する。
【0027】
機械翻訳装置はさらに、出力チャンク作成手段により作成される出力チャンク列のうち、尤度が所定の条件を充足するものを選択してチャンク並べ替え手段に与えるための出力チャンク列選択手段を含んでもよい。
【0028】
出力チャンク列選択手段は、出力チャンク作成手段により作成される出力チャンク列のうち、尤度が所定の値以上のものを選択してチャンク並べ替え手段に与えるための手段を含んでもよい。
【0029】
好ましくは、機械翻訳装置は、第1の言語のチャンクと第2の言語のチャンクとの対を記憶しておくためのチャンク対記憶手段をさらに含む。チャンク翻訳手段はさらに、出力チャンク作成手段により作成された出力チャンクと、当該出力チャンクに対応する入力文のチャンクとの対が、チャンク対記憶手段に記憶されたものと一致していることを検出して、当該出力チャンクの尤度を所定の計算方法にしたがって変更するための尤度変更手段を含む。
【0030】
より好ましくは、機械翻訳装置は、予め準備された、第1の言語と第2の言語との対訳コーパスに出現するチャンク対を検出し、チャンク対記憶手段に記憶させるための手段をさらに含む。
【0031】
チャンク対記憶手段は、第1の言語のチャンクと第2の言語のチャンクとの対ごとに予め割当てられた重みを記憶していてもよく、尤度変更手段は、出力チャンク作成手段により作成された出力チャンクと、当該出力チャンクに対応する入力文のチャンクとの対が、チャンク対記憶手段に記憶された第1のチャンク対と一致していることを検出して、当該出力チャンクの尤度を、第1のチャンク対に割当てられた重みの関数により変更するための手段を含んでもよい。
【0032】
好ましくは、機械翻訳装置は、予め準備された、第1の言語と第2の言語との対訳コーパスに出現するチャンク対と、各チャンク対の対訳コーパス中での出現頻度とを検出し、当該チャンク対と、当該チャンク対の頻度からなる重みとをチャンク対記憶手段に記憶させるための手段をさらに含む。
【0033】
チャンク分割手段は、入力文に対して可能な全てのチャンク分割を行ない、各々が1又は複数個のチャンクを含む1又は複数個のチャンク列を出力するための手段を含んでもよい。
【0034】
好ましくは、チャンク方式の翻訳モデルは、第2の言語をソース言語、第1の言語をターゲット言語とする、チャンクの並べ替えモデルを含む。そしてチャンク並べ替え手段は、チャンク翻訳手段から出力される出力チャンク列の各々について1又は複数通りのチャンクの並べ替えを行ない、各チャンクの並べ替えモデルから算出されるチャンク並べ替えの尤度と、当該出力チャンク列に含まれる出力チャンクの各々に対して算出されている尤度とから、各並べ替えの尤度を算出し、最も高い尤度を持つチャンクの配列を翻訳文として出力するための手段をさらに含んでもよい。
【0035】
第1の言語は日本語、第2の言語は英語でもよい。
【0036】
本発明の第2の局面にかかるコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの機械翻訳装置として動作させる。
【0037】
本発明の第3の局面にかかるコンピュータは、上記したコンピュータプログラムによりプログラムされたものである。
【0038】
【発明の実施の形態】
[概略]
本実施の形態に係る機械翻訳装置は、上記した様な従来の語アライメント方式に替えて、チャンク方式の統計的機械翻訳を行なうものである。チャンクとは、文中で連続している単語の集まりをいう。チャンク方式の翻訳モデル作成の際の翻訳プロセスは以下の通りである。すなわち、まずソース文を複数通りのチャンク分割方法にしたがってチャンク分けする。局所単語アライメントを用いて各チャンクをターゲット言語に翻訳する。最後に、ターゲット言語の制約に従う様に翻訳後のチャンクを並べ替える。このシナリオに従うと、チャンク方式の統計的翻訳モデルは複数の要素で構成され、EMアルゴリズムの亜種によって訓練される。
【0039】
翻訳結果の探索時には、この翻訳モデルを用い、第1の言語(翻訳モデル生成の際のターゲット言語)の入力文が与えられたとき、入力文を複数通りのチャンク分割の方法により複数個のチャンク列を生成する。各チャンク列は1又は複数個のチャンクを含む。一つのチャンク列の各チャンクに含まれる単語を個々に翻訳し、それらを並べ替えて1又は複数の出力チャンクを得る。この出力チャンクの各々に対しては、翻訳モデルにより尤度が算出できる。さらにこれら出力チャンクを並べ替える。このチャンクの並べ替えの各々に対し、チャンク並べ替えモデルを用いて尤度が算出できる。
【0040】
このようにして、入力文から得られる複数個のチャンク列の各々について、出力チャンク列がその尤度と共に求められる。これらチャンク列のうち、最も尤度が高くなるチャンク列を探索する。最も尤度が高くなるチャンク列を第2の言語の翻訳文として出力する。
【0041】
この探索時には、生成される仮説の数が膨大となる。そのため、翻訳のための各段階で展開された仮説のうち、スコアが高い仮説数を一定数だけ残すleft−to−right型のビーム探索を行なう事により、計算量を削減する。
【0042】
実験の結果、翻訳の品質を表すBLEUスコアでは従来の技術の46.5%から52.1%への向上が見られ、主観的な評価でも59.2%から65.1%への評価の向上が見られた。
【0043】
[チャンク方式の統計的翻訳]
以下の説明では、従来の技術の説明と同様、第1の言語(ターゲット言語)を日本語、第2の言語(ソース言語)を英語として、日本語から英語へのチャンク方式の統計的機械翻訳について説明する。チャンク方式の統計的翻訳モデルは、ソース及びターゲット言語の文、EとJとのチャンク分けプロセスを次の式によってモデル化する。
【0044】
【数2】
ただしJ*及びE*はそれぞれターゲット文J及びソース文Eに対するチャンク分けを表し、2次元の配列として定義される。例えば、J* i,jはi番目のチャンクのj番目の語を表す。ソース及びターゲットのチャンク数は等しいものとする。すなわち、|E*|=|J*|である。こうする事により、各チャンクは情報の付加も削除もなしにひとまとまりの意味を表すと考える事ができる。
【0045】
P(J,J*,E*|E)をさらにチャンクアライメントA及び各チャンクの翻訳に対する語アライメントA*により分解する。すなわち、
【0046】
【数3】
この式の意味するところは、文J,チャンク分けした文J*及びE*という組合せに割当てられる尤度は、文J,チャンク分けした文J*及びE*に対するチャンクアライメントA及び語アライメントA*の組合せの尤度を全て合計したものに等しい、という事である。
【0047】
アライメントAという概念自体は、語アライメント方式の翻訳モデルで用いられているものと同一である。チャンクアライメントAでは、各ターゲットチャンクに対してソースチャンクインデックスを割当てる。A*は二次元配列であり、チャンク毎に、ターゲットの単語に対してソースの単語のインデックスを割当てる。
【0048】
例えば、図3は図1に示す例により、2段階のアライメントを示したものである。図3において、最も上に示されているのは、ソース文Eに対するチャンク分けE*である。チャンク分けE*はソース文Eを3つのチャンクに分けている。図3においても、各単語の右下には単語番号が、各チャンクの右下にはチャンク番号が、それぞれ示されている。
【0049】
チャンク分けE*の各チャンクに含まれる単語の集合をそれぞれターゲット言語に訳したものが図3において2段目に示されるものである。この例ではチャンクごとに尤度が高くなるように単語を配列してある。このチャンクを尤度が高くなるようにさらにアラインすることにより、3段目に示されるターゲット語の文Jのチャンク分けJ*が生成される。図3において、ソース言語のチャンク分けE*の番号3,2,1のチャンクが、ターゲット言語のチャンク分けJ*の番号1,2,3のチャンクに対応している。したがってこの例でのチャンクアライメントAは「3,2,1」となる。ターゲット言語のチャンク分けJ*における各チャンク内での単語のアライメントを、ソース言語の単語の番号でチャンクごとに角カッコで分離して示したものがアライメントA*である。
【0050】
3番目の位置のターゲットチャンクJ*、「mise tekudasai」は先頭位置(A3=1)にアラインされ、「mise」と「tekudasai」との双方ともソース文の先頭位置にアラインされている(A* 3,1=1、A* 3,2=1)。
【0051】
[翻訳モデルの構造]
P(J,J*,A,A*,E*|E)という項はさらに、以下のシナリオによって近似的に以下の様に分解される。なお図4は、ソース文Eを最左端に、ターゲット文Jを最右端に示し、ソース文Eからターゲット文Jへの翻訳の過程を、チャンク分け、削除及びファーティリティモデルの適用、挿入モデルの適用、語彙モデルの適用、チャンク内での語の並べ替えモデルの適用、及びチャンク並べ替えモデルの適用の各段階ごとに示したものである。
【0052】
図4において、角を丸めた四角はチャンクを示し、矢印は隣合う二つの段階における単語またはチャンクの対応関係を示す。
【0053】
(1) ソース文Eに対してP(E*|E)を用いてチャンク分けを行なう。例えば、「show me」及び「the one」というチャンクが得られる。このプロセスはさらに以下の二つのステップ(a)及び(b)によりモデル化される。
【0054】
(a) ヘッドモデルによりチャンクサイズを選択する。各語Eiについて、ヘッドモデルε(Φi|Ei)を用いてチャンクサイズΦiを割当てる。0より大きなチャンクサイズの語はヘッド語として取り扱われ、それ以外の語は非ヘッド語として取り扱われる。すなわちヘッドモデルは、単語をチャンクのヘッド語とするか、非ヘッド語とするかを指定するための機能を持つ。図4において、ヘッド語はボールド体で示してある。
【0055】
(b) 非ヘッド語をそれぞれ、ヘッド語に関連付ける(チャンクモデル)。各非ヘッド語Eiを尤度η(c(Eh)|h−i、c(Ei))によってヘッド語Ehに関連付ける。ただしhはヘッド語の位置であり、c(E)は単語Eをその単語クラス(例えば品詞)にマップする関数である。例えば、「the3」は4−3=+1の位置に存在するヘッド語「one4」に関連付けられる。こうした操作により、入力文が1又は複数個のチャンクに分割される。かつ各チャンクには一つのヘッド語が含まれる事になる。すなわちチャンクモデルは、ヘッド語以外の単語をヘッド語と関連付ける機能を持つ。
【0056】
(2) 削除及びファーティリティモデルにより翻訳対象単語を選択する。
【0057】
(a) ヘッド語の数を選択する。各ヘッド語Eh(Φh>0)に対し、ファーティリティモデルν(φh|Eh)に従ってファーティリティφhを選ぶ。ファーティリティモデルは、ソース言語Eの単語をターゲット言語Jに翻訳した後の語数を決める機能を持つ。ここでは、ヘッド語は必ず翻訳する事を想定する。従ってヘッド語についてはφh>0である。加えて、ファーティリティモデルにより生成された語のうちの一つは、一様分布1/φhを用いて、ターゲット文でのヘッド語として選択される。
【0058】
(b) 非ヘッド語の幾つかを削除する。非ヘッド語Ei(Φi=0)の各々に対し、削除モデルδ(di|c(Ei),c(Eh))に従って削除する。ここで、Ehは同じチャンク内のヘッド語であり、diはEiが削除される場合に1、それ以外の場合には0となる。
【0059】
(3) 単語を挿入する。図4において、二つのチャンクでNULLが挿入されている。各チャンクE* iに対し、挿入モデルι(φ’ i|c(Eh))によりスプリアス語φ’ iの数を選択する。ここでEhはチャンクE* hのヘッド語である。
【0060】
(4) 単語ごとに翻訳する。スプリアス語を含め、ソース単語Eiの各々を語彙モデルτ(Jj|Ei)に従ってJjに翻訳する。
【0061】
(5) 単語を並べ替える。チャンク内の各単語を並べ替えモデルP(A* i|εAj、J* j)に従って並べ替える。この並べ替えモデルは翻訳後のチャンクに含まれる単語の順序を尤度によりモデル化したものであり、チャンクの並べ替えはIBMモデル4に従って行なわれる。すなわち、単語の位置はヘッド語に対する相対的位置によって決定される。
【0062】
【数4】
ただしhはチャンクJ* jに対するヘッド語の位置を示す。例えば、「no」は「uindo」に対し−1の位置にある。
【0063】
(6) チャンクを並べ替える。全てのチャンクを、チャンク並べ替えモデルP(A|E*、J*)に従って並べ替える。チャンク並べ替えはディストーションモデルにも類似している。ディストーションモデルでは、直前のアライメントでの相対的位置によって位置が決定される。チャンク並べ替えモデルは以下の式で表される。
【0064】
【数5】
ただしj’は直前のチャンクaE* Aj−1のチャンクアライメントである。h及びh’はそれぞれ、J* j及びE* Aj−1のヘッド語のインデックスである。なお、この並べ替えはヘッド語とは独立である。
【0065】
以上を要約すると、チャンク方式の翻訳モデルは以下の様に定式化できる。
【0066】
【数6】
[チャンク方式翻訳モデルの特徴]
チャンク方式翻訳モデルが語アライメント方式の翻訳モデルと異なるのは、単語の集合の翻訳の取り扱いである。語アライメント翻訳モデルでは、各ソース単語について単語の集合を生成する。それに対してチャンク方式翻訳モデルでは、ソース単語の集合に対してターゲット単語の集合を構築する。この振舞いは、最初に単語をその属するチャンクのヘッド語に関連付け、さらにチャンク毎の翻訳/挿入/削除を行なうチャンク処理プロセスとしてモデル化される。
【0067】
語アライメントは複雑であるが、二段階にわたる単語位置の決定により処理される。すなわちチャンクの翻訳とチャンクの並べ替えとである。前者は局部的な順序を決定し、後者は全体的な順序を決定する。さらに、各チャンクにヘッド語を設定する事により、ヘッド語からの位置によって、2段階の並べ替えに対する制約を設ける事が可能になっている。
【0068】
[パラメータ推定]
チャンク方式の翻訳モデルのパラメータ推定にはEMアルゴリズムを用いる。大きな対訳コーパス(これを「学習コーパス」と呼ぶ。)を準備し、以下の条件確率をターゲット文J及びソース文Eの対の各々に対して推定する(Eステップ)。
【0069】
【数7】
さらにこの推定された条件確率に基づいて、各モデルのパラメータを計算する(Mステップ)。これらステップを、パラメータの集合が収束するまで繰返す。
【0070】
しかし、この様な単純なアルゴリズムだと、非常に困難な計算問題に遭遇する。チャンク分けJ*及びE*、さらに語アライメントA*及びチャンクアライメントAに関して可能なものを全て列挙しようとすれば、非常に大きな計算量が必要である。従って、本実施の形態ではEステップの計算においてインサイド‐アウトサイド・アルゴリズムの一種を導入した。インサイド‐アウトサイド・アルゴリズムについては後掲の参考文献1を参照されたい。本実施の形態で使用したインサイド‐アウトサイド・アルゴリズムについては別に説明する。
【0071】
計算量の問題に加え、局所最大値問題も存在する。すなわちEMアルゴリズムである最大値解に収束したとしても、それがグローバルな最大値であるという保証はない。この問題に対処し、かつパラメータの収束を早めるため、本実施の形態では学習の初期値としてIBMモデル4のパラメータを用いる。語彙モデルとファーティリティモデルとはチャンク方式の翻訳モデルに直接に適用するが、他のパラメータは一様なものとする。
【0072】
[インサイド‐アウトサイド・アルゴリズム]
インサイド・アウトサイド計算の基本的考え方は、プロセス全体を二つの部分(すなわちチャンク個々の翻訳と、チャンクの並べ替えと)に切り分けるという事である。チャンク翻訳では各チャンクの翻訳を行なう。チャンクの並べ替えでは、チャンク分けと翻訳後のチャンクの入替えとを行なう。
【0073】
インサイド(バックワード又はベータ)確率はチャンクと文とのソース/ターゲットの組合せの確率を表し、これは算出する事ができる。アウトサイド(フォワード又はアルファ)確率は、特定のチャンク分け及びチャンクの並べ替えにおいて、特定のソース及びターゲットの対が出現する確率として定義する事ができる。
【0074】
<インサイド確率>
まず、ソース文Eとターゲット文Jとが与えられると、ソース及びターゲットのチャンク対Ei’ j及びJj’ jについて考えられる全ての組合せについて、チャンク翻訳のインサイド確率を下の式に従い計算する。ここでEi’ jはインデックスiからi’までのチャンクを表す。
【0075】
【数8】
ただしPθは、ε(Φi|Ei)又はτ(Jj|又はEi)など、対応するランダム変数のための値に対応付けられたモデルの確率である。ただし、チャンク並べ替えモデルについては除く。A’はチャンクEi’ i及びJj’ jのための語アライメントである。
【0076】
次に、ソース文Eとターゲット文Jとの対について、考えられるすべてのチャンク分けとチャンクアライメントを考慮してインサイド確率を計算する。
【0077】
<アウトサイド確率>
文の対作成のためのアウトサイド確率は常に1である。すなわち、
α(E,J)=1.0
各チャンク対のアウトサイド確率は以下で与えられる。
【0078】
【数9】
<インサイド‐アウトサイド計算>
上述のインサイド‐アウトサイド確率の組合せにより、対の累積発生数を求める以下の式が得られる。
【0079】
まず、関連のランダム変数 countθ(Θ)を持つ各モデルパラメータθのカウントは以下で与えられる。
【0080】
【数10】
次に、関連のランダム変数
【0081】
【数11】
を持つチャンク並替えのカウントは以下で与えられる。
【0082】
【数12】
<近似>
インサイド‐アウトサイドによるパラメータ推定のパラダイムを導入しても、考えられるすべてのチャンク対作成と語のアライメントとを列挙するにはO(lmk4(k+1)k)の計算が必要である。ここでlとmとは、それぞれソース文Eとターゲット文Jの文の長さであり、kはチャンク当たり許される最大の語数である。さらに、考えられる全てのチャンク分けされた文について、考えられるすべてのアライメントを数え挙げると、O(2l2mn!)となる。ただしここでn=|J*|=|E*|である。
【0083】
要求される膨大な計算量に対処するために、インサイド‐アウトサイド推定手順に近似を適用する。まず、チャンクの翻訳のための語アライメントを列挙するのに、特定の語アライメントの移動/交換動作を通し、ビタビアライメントと隣接アライメントというアライメントの組によって近似する。
【0084】
次に、チャンクアライメントを列挙する際にも、以下の様に、チャンク分けとチャンクアライメントの組合せによって近似する。
1.文当たりのチャンク数を決定する。
2.最初のチャンク分けとアライメントとを決定する。
3.以下のオペレータを用いた山登り法によって、ビタビチャンク分け‐アライメントを計算する。
【0085】
・チャンクの境界を移動
・チャンクアライメントの交換
・ヘッド位置を移動
4.上述のオペレータを用いて、隣接チャンク分け‐アライメントを計算する。
【0086】
[デコーディング(翻訳)]
本実施の形態に係るデコードアルゴリズムは、後掲の参考文献2において提示された、語アライメント方式の統計的翻訳のためのビーム探索アルゴリズムに基づくものである。このアルゴリズムでは、入力を任意の順序で消費し、文頭から文末への順で出力を生成する。
【0087】
デコーダは2段階からなる。
(1) 考えられる入力チャンクの全てに対し、考えられる出力チャンクを全て生成する。
(2) 入力チャンクを任意の順序で消費しながら、考えられる出力を全て左から右への順序で結合する事により、仮の出力を生成する。
【0088】
考えられる出力チャンクの生成は、参考文献2に記載の逆語彙モデル及び挿入文字列シーケンスによって評価される。さらに、実例によるスコアの加算方式を導入する。この方式では、ビタビアルゴリズムにより得られるチャンク分けとアライメントとを学習コーパスからルックアップする事により候補のチャンクを作成する。
【0089】
考えられる全てのチャンクの組合せについて計算を行なうと計算量が膨大となるので、以下の様な枝刈りとスコアリング戦略とを導入する。
【0090】
<ビーム枝刈り>
探索空間が非常に大きいので、上記した二段階の双方において、出力の一部のみを残すためのサイズしきい値を設定する。またスコアリングのためのしきい値も導入し、あるスコアより大きな出力のみを処理する様にする。すなわち、あるしきい値以下のスコアしか持たない出力候補は翻訳の候補から除外される。
【0091】
<実例によるスコア加算>
学習コーパスに実際に現れる入力/出力チャンクの組合せに対して、それらが探索のビームに残る確率を高くするために以下の様なスコア方法を取り入れる。すなわち、デコードのプロセスの第1段階で、学習コーパスに現れたチャンクの組合せが現れると、そのスコアを以下の式(対数形式で示す。)に従い加算する。
【0092】
【数13】
ただしPtm(J|E)及びPlm(E)は、それぞれ、翻訳モデル及び言語モデルであり、freq(E* Aj,J* j)は学習コーパスにE* AjとJ* jとの対が現れる頻度を表し、weightは調整のためのパラメータ(重み)を表す。この加算により、学習コーパスに実際に現れたチャンク対に対しては、他のものよりも高い尤度が割当てられる。また、学習コーパスに現れる頻度が高ければ高いほど、そのチャンク対に割当てられる尤度は高くなる。
【0093】
[装置の構成]
図5に、本実施の形態に係る、日本語から英語への統計的機械翻訳装置のブロック図を示す。図5を参照して、この統計的機械翻訳装置60は、日本語と英語との多数の対訳文からなる、学習コーパスとしての対訳コーパス70と、対訳コーパス70を用い、前述したEMアルゴリズムによりチャンク方式の翻訳モデルを生成するための学習部72と、学習部72により生成された翻訳モデルを記憶するための翻訳モデル記憶部74とを含む。対訳コーパス70に含まれる対訳文の各々は、日本語の文と、それに対応する英語の文とからなっている。本実施の形態の装置では、これら対訳文について、前もってチャンク分けなどの処理はされていない。
【0094】
図6を参照して、翻訳モデル記憶部74が記憶する翻訳モデルは、ヘッドモデル100と、チャンクモデル102と、ファーティリティモデル104と、削除モデル106と、挿入モデル108と、語彙モデル110と、翻訳後のチャンク内の語の並べ替えに用いられる並べ替えモデル112と、翻訳後のチャンクの並べ替えに用いられるチャンク並べ替えモデル114とを含む。この翻訳モデルにおいて、ソース言語は英語E、ターゲット言語は日本語Jである。
【0095】
再び図5を参照して、統計的機械翻訳装置60はさらに、学習部72による翻訳モデルの学習の過程で対訳コーパス70内に出現した日本語と英語のチャンク対を記憶するためのチャンク対記憶部76と、翻訳モデル記憶部74に記憶された翻訳モデルとチャンク対記憶部76に記憶されたチャンク対とを用いて、入力文78に対して上記した様なチャンク方式の統計的翻訳を行ない、翻訳文82を出力するためのデコーダ80と、デコーダ80が入力チャンクのチャンク分けの際および個々の単語の翻訳の際に参照する辞書を記憶した辞書記憶部84とを含む。
【0096】
デコーダ80は、入力文78を受け、辞書記憶部84に記憶された辞書と、翻訳モデル記憶部74に記憶された翻訳モデルとを用い、入力文の任意のチャンク分けについて得られる翻訳後のチャンク列のうち、尤度の高い複数個のチャンク列を出力するためのチャンク翻訳部90と、チャンク翻訳部90から出力される出力チャンク列の各々についてチャンクの並べ替えを行ない、翻訳モデル記憶部74に記憶された翻訳モデルとチャンク対記憶部76に記憶されたチャンク対の出現頻度とにしたがって計算される尤度の最も高くなるチャンクの配列を翻訳文82として出力するためのチャンク並べ替え処理部92とを含む。
【0097】
入力チャンク作成部94は、辞書記憶部84に記憶されたチャンク分け用の辞書を用いて、入力文78に対して考えられる入力チャンク列を全て作成するための入力チャンク作成部94と、入力チャンク作成部94により作成されたチャンク列の各々について、辞書記憶部84に記憶された翻訳用の辞書及び翻訳モデル記憶部74に記憶された翻訳モデルとを用いて、可能な出力チャンク列を全て生成するための出力チャンク作成部96とを含む。出力チャンク作成部96はこのとき、出力されるチャンクの各々に対し、翻訳モデル記憶部74に記憶された翻訳モデルのうち、ヘッドモデル100、チャンクモデル102、ファーティリティモデル104、削除モデル106、挿入モデル108、語彙モデル110、及び並べ替えモデル112を用いて尤度を算出する。この尤度の算出の際には、前述のとおり、チャンク対記憶部76に記憶されたチャンク対と同一のチャンク対については尤度の加算が行なわれる。
【0098】
なお、実際には出力チャンク作成部96は、翻訳モデルによる尤度計算を行なってチャンク列を出力する際、ビーム探索を行なう事によりチャンクの中でも尤度の高いもののみを残すようにすることにより計算量を削減している。これはこの後のプロセスでも同様である。しかし以下の説明では、説明を簡略化するためにそうしたビーム探索による計算量の削減には言及しない。
【0099】
チャンク並べ替え処理部92は、出力チャンク選択部98から出力されるチャンク列の各々についてチャンクの並べ替えを行ない、翻訳モデル中のチャンク並べ替えモデル114に従って尤度を算出し、その結果に従って最も高い翻訳結果を選択し出力する機能を持っている。
【0100】
[動作]
図5に示した統計的機械翻訳装置60は以下の様に動作する。統計的機械翻訳装置60の動作には二つの局面がある。第1の局面は翻訳モデルの学習という局面である。第2の局面は、学習した翻訳モデルを用いて、入力文に対する統計的翻訳を行なうという局面である。これらを順に説明する。
【0101】
<翻訳モデルの学習の局面>
この翻訳モデル作成において、前述の通りソース言語は英語E、ターゲット言語は日本語Jとする。翻訳モデルの学習に先立って、対訳コーパス70が準備される。学習部72は、前述した通りのEMアルゴリズムに従って対訳コーパス70から翻訳モデルを生成する。すなわち、学習部72は、翻訳モデルの初期値から出発してEMアルゴリズムを用いて翻訳モデルのパラメータを繰返し計算する。翻訳モデルは、ヘッドモデル100、チャンクモデル102、ファーティリティモデル104、削除モデル106、挿入モデル108、語彙モデル110、並べ替えモデル112及びチャンク並べ替えモデル114を含む。学習部72はEMアルゴリズムに従って計算したこれら翻訳モデルのパラメータが収束すると、その結果を翻訳モデル記憶部74に格納する。
【0102】
学習部72はまた、上記した学習の過程で、対訳コーパス70に出現する日本語と英語とのチャンク対を調べ、出現する全てのチャンク対と、その頻度とをチャンク対記憶部76に格納する。
【0103】
翻訳モデル記憶部74及びチャンク対記憶部76が準備できた時点で第1の局面は終了する。なお、このとき言語モデルP(E)も利用可能となっているものとする。
【0104】
<統計的翻訳の局面>
日本語の入力文78が与えられると、入力チャンク作成部94が辞書記憶部84に記憶されたチャンク分け用の辞書を参照して、入力文78の考えられるチャンク分けを全て作成する。出力チャンク作成部96は、入力チャンク作成部94により作成された入力文78のチャンク分けごとに、考えられる英語の出力チャンク列を全て作成する。出力チャンク作成部96はこのとき、語彙モデル110及び並べ替えモデル112を用いて出力チャンクの尤度を算出する。また、チャンク対記憶部76に記憶されたチャンク対と同一のチャンク対が現れた場合、そのチャンク対の尤度については前述したとおり加算が行なわれる。
【0105】
なお、出力チャンク作成部96から出力される出力チャンク列のうち、全体としての尤度が所定の値以上のものをチャンク並べ替え処理部92に与えるようにする。この処理は、前述したとおりビーム探索アルゴリズムにより実現される。
【0106】
チャンク並べ替え処理部92は、出力チャンク作成部96が作成した出力チャンク列の各々について、チャンクの並べ替えを行なう。そうした並べ替えにより得られる全ての出力チャンク列に対しスコア(尤度)をチャンク並べ替えモデル114及び各チャンクの尤度を用いて計算し、最も高いスコアを示した出力文を翻訳文82として出力する。
【0107】
入力チャンク作成部94、出力チャンク作成部96及びチャンク並べ替え処理部92は、最もスコアの高い翻訳文の探索にあたって、前記したインサイド‐アウトサイドアルゴリズムを用いる。
【0108】
こうして得られた翻訳文82が、入力文78に対してチャンク方式による統計的機械翻訳で得られた結果である。
【0109】
なお、上記した処理は全て、コンピュータ、当該コンピュータの記憶装置に格納される電子的に読取可能な対訳コーパス、及び当該コンピュータにより実行されるソフトウェアにより実現できる。特に、学習部72の処理及びデコーダ80の処理は、いずれもコンピュータプログラムによって実現する事が可能である。
【0110】
[実験]
上記した処理が可能な様にプログラムされたコンピュータを用いて以下の実験を行なった。本実験で使用した対訳コーパスは、出願人において用意した日本語と英語とからなる旅行会話の対話集である(参考文献3を参照されたい。)。この対訳コーパスの概略を以下の表1に示す。
【0111】
【表1】
このコーパスの全体を3部に分割した。すなわち、トレーニング用の152,169文、テスト用の4,846文、及びパラメータ調整のための10,148文である。パラメータ調整は、学習時の繰返し終了のための判断基準及びデコーダ80の調整のために行なった。
【0112】
比較のための3つの翻訳システムをテストした。それらはモデル4、chunk3、及びchunk3+である。以下、それらについて簡単に説明する。
【0113】
モデル4は、語アライメント方式の翻訳モデルであり、ビーム探索デコーダを備えたIBM モデル4である。
【0114】
chunk3は本実施の形態と同様のチャンク方式の翻訳モデルであり、最大チャンクサイズを3に制限したものである。
【0115】
chunk3+は、chunk3に加え、本実施の形態で説明した通り、実際の文例を用いたチャンク候補生成を行なうチャンク方式の翻訳モデルである。
【0116】
図7に、英語から日本語への翻訳におけるchunk3でのビタビチャンク化及びチャンクアライメントの例を示す。図7において、チャンクは角カッコで区分してある。また各チャンクのヘッド語の左側には「*」マークを付してある。また、チャンク間のアライメントは、チャンクの対の間にひいた棒線で示してある。たとえば、1番目の例でいえば、「i have」というチャンクは「は あります」というチャンクと、「the number」というチャンクは「番号 の 控え」というチャンクと、「of my passport」というチャンクは「パスポート の」というチャンクと、それぞれアラインされている。
【0117】
実験では、テスト文の集合からランダムに選んだ510文を翻訳し、16個の基準文の集合を参照して、以下の基準により翻訳結果を評価した。
【0118】
WER:Word−error−rate。これは基準となる翻訳に到達するまでの編集距離に対応する。この値が低いほど評価は高い。
【0119】
PER:位置と独立なWER。これは語順上の問題を考慮しない。値が低いほど評価は高い。
【0120】
BLEU:BLEUスコア。これは、翻訳結果のうち、基準となる訳文の中に見出されたN−グラムの率を計算するものである。値が高いほど評価も高い。
【0121】
SE:主観的評価。ネイティブ・スピーカにより、ランクAからランクD(A:完璧 B:良好 C:可 D:ナンセンス)までの範囲で評価したものである。A,A+B,A+B+Cの範囲に含まれる訳文の率を表す。一般的に、値が高いほど評価も高い。
【0122】
表2は、日本語から英語への翻訳結果の評価を要約したものである。また図8はモデル4及びchunk3+の結果をいくつか示したものである。
【0123】
【表2】
表2を参照して、chunk3は非主観的な評価においてはモデル4よりもよい結果を示している。もっとも、主観的評価では両者はほぼ同じである。chunk3では、実際に学習コーパスに現れた例を候補としているので、これら3つの中では最もよいスコアを示している事が分かる。
【0124】
以上の通り、本実施の形態に係る統計的機械翻訳装置は、入力文をチャンク分けし、各チャンク内で翻訳を行なう事により出力チャンクを作成し、さらに出力チャンクを並べ替える事により翻訳を行なう。個々のチャンク内という局所的な部分で第1段階の翻訳と語の並べ替えが行なわれるので、局所的に正しい翻訳が得られる可能性が高くなる。また、文全体の翻訳結果を得るために、語ではなくチャンク単位での並べ替えが行なわれるので、最終的に得られる翻訳文の構造が、入力文の構造を正しく反映したものとなる可能性も高くなる。その結果、日本語と英語など、大きく構造が異なる言語間でも良好な翻訳結果を得る事ができる。さらに、2段階の並べ替えを行なうので、文中の比較的長い距離にわたる制約でも翻訳結果に反映する事ができる。
【0125】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
【0126】
[参考文献1]
ケンジ ヤマダ及びケビン ナイト、2001、シンタックス・ベースの統計的翻訳モデル、ACL2000予稿集、ツールーズ、フランス(Kenji Yamada and Kevin Knight.2001.A syntax−based statistical translation model.In Proc.of ACL 2001、Toulouse,France.)
【0127】
[参考文献2]
クリストフ ティルマン及びハーマン ネイ、2000、統計的翻訳における語の並べ替え及びdp方式の探索、COLING 2000予稿集、7月‐8月(Christoph Tillmann and Hermann Ney.2000.Word re−ordering and dp−based search in statistical machine translation.In Proc.of the COLING 2000,July−August.)
【0128】
[参考文献3]
トシユキ タケザワ、エイイチロウ スミタ、フミアキ スガヤ、ヒロフミ ヤマモト、及びセイイチ ヤマモト.2002.実世界における旅行会話の音声翻訳のための大規模バイリンガルコーパスの構築に向けて.LREC 2002予稿集、147頁‐152頁、ラス・パルマス、カナリア諸島、スペイン、5月(Toshiyuki Takezawa,Eiichirou Sumita,Fumiaki Sugaya,Hirofumi yamamoto,and Seiichi Yamamoto.2002.Toward a broad−coverage bilingual corpus for speech translation of travel conversation in the real world. In Proc. of LREC 2002,pages 147−152.Las Palmas,Canary Islands,Spain,May.)
【図面の簡単な説明】
【図1】従来の技術による語アライメント方式の機械翻訳における語の対応関係を説明するための図である。
【図2】従来の技術にかかる、語アライメント方式の機械翻訳の翻訳プロセスを説明するための図である。
【図3】本発明の一実施の形態に係る機械翻訳装置での2段階の並べ替えを説明するための図である。
【図4】本発明の一実施の形態に係る機械翻訳装置での翻訳プロセスを説明するための図である。
【図5】本発明の一実施の形態に係る機械翻訳装置の機能ブロック図である。
【図6】本発明の一実施の形態に係る機械翻訳装置で用いられる翻訳モデルを模式的に示す図である。
【図7】本発明の一実施の形態に係る機械翻訳装置による翻訳結果の例を示す図である。
【図8】本発明の一実施の形態に係る機械翻訳装置の翻訳結果の評価を、従来の機械翻訳装置の翻訳結果の評価と対比して示す図である。
【符号の説明】
60 統計的機械翻訳装置、70 対訳コーパス、72 学習部、74 翻訳モデル記憶部、76 チャンク対記憶部、80 デコーダ、90 チャンク翻訳部、92 チャンク並べ替え処理部、94 入力チャンク作成部、96 出力チャンク作成部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a statistical machine translation apparatus, and more particularly, to a statistical machine translation apparatus that can accurately translate between languages having greatly different structures by learning using a bilingual corpus.
[0002]
[Prior art]
[Overview of conventional technology]
Statistical machine translation is a method that has been actively studied recently as one method of machine translation. In statistical machine translation, a translation model is created in advance by learning using a bilingual corpus that includes a large number of parallel translations of sentences in a first language and sentences in a second language, and translation is performed using this translation model. Do. Specifically, the following work is performed during translation. In the following description, the first language is Japanese and is represented as “J”. In addition, the second language is English and expressed as “E”.
[0003]
In statistical machine translation, the translation from the input sentence of the first language J to the second language E is performed by maximizing the conditional probability P (E | J) (^ E = argmaxEFormulated as P (E | J)). By applying Bayes' theorem to this equation, ^ E = argmaxEP (E) P (J | E) is obtained. Of these expressions, P (E) is called a language model and indicates the likelihood of appearance of a word in a sentence of the target language E. The latter P (J | E) is called a translation model, and represents the probability that the sentence J of the first language is generated from the sentence E of the second language. Using this language model and the translation model, a translation sentence ^ E having the maximum conditional probability P (E) P (J | E) described above is generated for the input sentence J.
[0004]
The source language for translation when creating a translation model is called a source language, and the target language for translation is called a target language. Therefore, in this translation model, the source language is E and the target language is J. This reverses the relationship between the input language and the output language when actually translating using this translation model. In the following description, a source language sentence and a word are referred to as a source sentence and a source word, respectively, and a target language sentence and a word are referred to as a target sentence and a target word, respectively.
[0005]
In implementing translation model P (J | E), statistical translation called word alignment has been successful in translating between languages such as French and English and German and English. .
[0006]
[Statistical translation by word alignment]
Statistical translation using the word alignment method expresses the correspondence between two languages by the concept of word alignment and generates a translation model. In the word alignment, it is assumed that target words are generated in a one-to-many relationship with respect to each word of the source sentence.
[0007]
FIG. 1 shows an example of word alignment for a source language (English) E and a target language (Japanese) J in a translation model (J | E). In FIG. 1, each word of an English sentence E (“show me the one in the window”) and a corresponding Japanese sentence J (“Wind no Sinamono o misse tekudai”). The correspondence between each word is shown, and the pair of corresponding words is connected with a line.The numbers shown at the lower right of each word of sentences J and E indicate the position of the word from the beginning of the sentence. It is a number to show.
[0008]
In the following description, the word alignment will be described using the symbol “A”. In FIG. 1, the word alignment A is “7 0 4 0 1 1”. In this example, the positions of the words in the English sentence E corresponding to the words constituting the Japanese sentence J are arranged in the order of the words in the Japanese sentence J. That is, the
[0009]
Assuming such word alignment, the translation model P (J | E) can be further decomposed strictly as follows.
[0010]
[Expression 1]
This expression means that the word alignment A between the source sentence E and the target sentence J is considered, and the total of those likelihoods is the likelihood of the target sentence J with respect to the source sentence E.
[0011]
[IBM model]
In the generation process from the source sentence E to the target sentence J, P (J, A | E) is configured by combining several processes such as insertion, deletion, and rearrangement. The translation model (for example, IBM model 4) of the word alignment method defined by the
[0012]
(1) For each source word, the number of target words to be generated is selected by the parity model. An example is shown in FIG. FIG. 2 shows how the correspondence relationship between words changes in the process of conversion from the source sentence shown at the left end (words are arranged vertically) to the target sentence shown at the right end. The arrow indicates that the left word is associated with the right word (group). In FIG. 2, the source word “show” is increased to two words as indicated by a
[0013]
(2) Insert NULL at an appropriate position according to the NULL generation model. In the example illustrated in FIG. 2, NULL is inserted after each of the two “shows” as indicated by a
[0014]
(3) For each generated word, translation is performed for each word by lookup using a vocabulary model. In the example illustrated in FIG. 2, of the two source words “show”, the one indicated by the
[0015]
(4) Rearrange translated words by referring to the distortion model. In the example of FIG. 2, as indicated by the
[0016]
Refer to
[0017]
[Non-Patent Document 1]
Peter F. Brown, Steven A. Della Pietra, Vincent Della Pietra and Robert L. Melser, 1993, “Mathematics of Statistical Machine Translation: Parameter Estimation”, Computational Linguistics, 19 (2): 263-311 (Peter F. Brown, Stephen A. Della Pietra, Vincent J. Della Pietra, and Robert L. Mercer. 1993. The mathematical of of static machine translation: Parameter estimation. Computational Linguistics, 19 (2): 263-311.
[0018]
[Problems to be solved by the invention]
In the generation of a word alignment translation model, a translation word is generated individually for each set of words included in the source sentence to generate a set of target words, and the position of the target word in the translation sentence is further determined. The strategy is to translate by making a decision. By generating a translation model using such a procedure, it is possible to capture the correspondence between translation models of the same kind of language with relatively high accuracy. However, there are still problems that need to be solved between languages that have very different structures such as Japanese and English.
[0019]
The parity model models deletion, but unfortunately only assigns zeros to deleted words regardless of context. Similarly, inserted words are selected using vocabulary model parameters and are only inserted at positions determined by the binomial distribution.
[0020]
Such an insertion / deletion method is useful for simplifying the expression of the translation process, and has an effect that it is possible to perform processing based on a huge collection of parallel translation sentences. However, if only such weak modeling of phenomena such as deletion and insertion of words is performed, sufficient translation performance cannot be expected for combinations of languages that are greatly different from each other, such as Japanese and English.
[0021]
The IBM model 4 (and 5) implicitly simulates phrase constraints as a distortion model parameter. Furthermore, the overall sort is determined by a collection of local sorts, and the phrase constraints over long distances cannot be fully captured.
[0022]
Therefore, an object of the present invention is to provide a statistical machine translation apparatus capable of performing machine translation with high accuracy even between greatly different languages.
[0023]
Another object of the present invention is to provide a statistical machine translation apparatus capable of performing machine translation with high accuracy reflecting the restriction of phrases over a long distance even between languages that are greatly different.
[0024]
[Means for Solving the Problems]
A machine translation device according to a first aspect of the present invention is a machine translation device for translating an input sentence in a first language into a second language, and divides the input sentence into one or a plurality of chunks. The chunk translation means for individually translating each of the obtained chunks, and the chunk arrangement for generating a translation sentence for the input sentence by rearranging the translated chunks output from the chunk translation means Replacement means.
[0025]
Preferably, the machine translation device further includes means for storing a chunk-based translation model, and the chunk translation means and the chunk rearranging means are adapted to the chunk-based translation model for the input sentence in the first language. Processing is performed with reference to.
[0026]
More preferably, the chunk translating means performs a plurality of chunk divisions on the input sentence and outputs one or a plurality of chunk strings each including one or a plurality of chunks. Output chunk creation means for creating one or more output chunk strings by translating each of the one or more chunk strings output by the dividing means with respect to each of the chunks included in the chunk string; including. The output chunk creation means calculates the likelihood for one or a plurality of output chunk strings based on the translation model.
[0027]
The machine translation apparatus may further include an output chunk sequence selection unit for selecting an output chunk sequence created by the output chunk creation unit and having a likelihood satisfying a predetermined condition and giving the selected chunk to the chunk rearranging unit. Good.
[0028]
The output chunk sequence selection means may include means for selecting, from the output chunk sequences created by the output chunk creation means, those having a likelihood equal to or greater than a predetermined value and giving them to the chunk rearrangement means.
[0029]
Preferably, the machine translation apparatus further includes a chunk pair storage unit for storing a pair of the first language chunk and the second language chunk. The chunk translation means further detects that the pair of the output chunk created by the output chunk creation means and the chunk of the input statement corresponding to the output chunk matches the one stored in the chunk pair storage means. And the likelihood change means for changing the likelihood of the said output chunk according to a predetermined calculation method is included.
[0030]
More preferably, the machine translation device further includes means for detecting a chunk pair appearing in a bilingual corpus of the first language and the second language prepared in advance and storing the chunk pair in the chunk pair storage unit.
[0031]
The chunk pair storage means may store a weight assigned in advance for each pair of the first language chunk and the second language chunk, and the likelihood changing means is created by the output chunk creating means. The likelihood of the output chunk is detected by detecting that the pair of the output chunk and the chunk of the input sentence corresponding to the output chunk match the first chunk pair stored in the chunk pair storage means. May be included according to a function of the weight assigned to the first chunk pair.
[0032]
Preferably, the machine translation device detects a chunk pair appearing in a bilingual corpus of the first language and the second language prepared in advance, and an appearance frequency of each chunk pair in the bilingual corpus, The apparatus further includes means for storing the chunk pair and the weight including the frequency of the chunk pair in the chunk pair storage means.
[0033]
The chunk division means may include means for performing all possible chunk divisions on the input sentence and outputting one or more chunk strings each including one or more chunks.
[0034]
Preferably, the chunk translation model includes a chunk rearrangement model in which the second language is the source language and the first language is the target language. The chunk rearrangement means performs one or a plurality of chunk rearrangements for each of the output chunk strings output from the chunk translation means, and the likelihood of chunk rearrangement calculated from the chunk rearrangement model; For calculating the likelihood of each permutation from the likelihood calculated for each of the output chunks included in the output chunk sequence, and outputting an array of chunks having the highest likelihood as a translated sentence Means may further be included.
[0035]
The first language may be Japanese and the second language may be English.
[0036]
When the computer program according to the second aspect of the present invention is executed by a computer, it causes the computer to operate as one of the machine translation devices described above.
[0037]
A computer according to the third aspect of the present invention is programmed by the computer program described above.
[0038]
DETAILED DESCRIPTION OF THE INVENTION
[Outline]
The machine translation apparatus according to the present embodiment performs chunk type statistical machine translation instead of the conventional word alignment method as described above. A chunk is a collection of consecutive words in a sentence. The translation process for creating a chunked translation model is as follows. That is, the source sentence is first chunked according to a plurality of chunk division methods. Translate each chunk into the target language using local word alignment. Finally, the translated chunks are rearranged to comply with the target language constraints. According to this scenario, the chunked statistical translation model is composed of multiple elements and trained by variants of the EM algorithm.
[0039]
When searching for a translation result, this translation model is used, and when an input sentence in the first language (target language for generating the translation model) is given, the input sentence is divided into a plurality of chunks by a plurality of chunk division methods. Generate a column. Each chunk column includes one or more chunks. The words contained in each chunk of one chunk sequence are individually translated and rearranged to obtain one or more output chunks. For each of these output chunks, the likelihood can be calculated by a translation model. Furthermore, these output chunks are rearranged. For each of the chunk rearrangements, the likelihood can be calculated using the chunk rearrangement model.
[0040]
In this way, for each of a plurality of chunk strings obtained from the input sentence, an output chunk string is obtained together with its likelihood. Among these chunk sequences, the chunk sequence having the highest likelihood is searched. The chunk string with the highest likelihood is output as a translated sentence in the second language.
[0041]
During this search, the number of hypotheses generated is enormous. Therefore, the amount of calculation is reduced by performing a left-to-right type beam search that leaves a certain number of hypotheses having a high score among the hypotheses developed at each stage for translation.
[0042]
As a result of the experiment, the BLEU score representing the quality of translation shows an improvement from 46.5% to 52.1% of the conventional technique, and the subjective evaluation also shows an evaluation from 59.2% to 65.1%. An improvement was seen.
[0043]
[Static translation of chunk method]
In the following description, as in the case of the conventional technology, the chunk language statistical machine translation from Japanese to English, where the first language (target language) is Japanese and the second language (source language) is English Will be described. The chunk-based statistical translation model models the chunking process of source and target language sentences, E and J, by the following formula.
[0044]
[Expression 2]
However, J*And E*Represents chunking for the target sentence J and the source sentence E, respectively, and is defined as a two-dimensional array. For example, J* i, jRepresents the j-th word of the i-th chunk. The number of source and target chunks shall be equal. That is, | E*| = | J*|. In this way, each chunk can be considered to represent a group of meanings without adding or deleting information.
[0045]
P (J, J*, E*| E) further chunk alignment A and word alignment A for translation of each chunk*Decompose by. That is,
[0046]
[Equation 3]
This expression means sentence J, chunked sentence J*And E*Likelihood assigned to the combination is sentence J, sentence J divided into chunks*And E*Chunk alignment A and word alignment A*Is equal to the sum of all the likelihoods of the combinations.
[0047]
The concept of alignment A itself is the same as that used in the word alignment translation model. In chunk alignment A, a source chunk index is assigned to each target chunk. A*Is a two-dimensional array and assigns the index of the source word to the target word for each chunk.
[0048]
For example, FIG. 3 shows two-stage alignment according to the example shown in FIG. In FIG. 3, the top part shows the chunk division E for the source sentence E.*It is. Chunk separation E*Divides the source sentence E into three chunks. Also in FIG. 3, a word number is shown at the lower right of each word, and a chunk number is shown at the lower right of each chunk.
[0049]
Chunk separation E*A set of words contained in each chunk is translated into a target language as shown in the second row in FIG. In this example, words are arranged so that the likelihood is high for each chunk. By further aligning this chunk so as to increase the likelihood, chunk division J of the sentence J of the target word shown in the third row*Is generated. In FIG. 3, source language chunking E*The chunks numbered 3, 2, and 1 are the target language chunking J*Correspond to chunks numbered 1, 2, and 3. Therefore, the chunk alignment A in this example is “3, 2, 1”. Target language chunking J*Alignment of words in each chunk in, with the source language word number separated by square brackets for each chunk, is alignment A*It is.
[0050]
Target chunk J in the third position*, “Miss tekudasai” is the head position (A3= 1), both “miss” and “tekudasai” are aligned at the beginning of the source sentence (A* 3,1= 1, A* 3, 2= 1).
[0051]
[Structure of translation model]
P (J, J*, A, A*, E*The term | E) is further decomposed approximately as follows by the following scenario. FIG. 4 shows the source sentence E at the left end and the target sentence J at the right end, and the process of translation from the source sentence E to the target sentence J is divided into chunking, deletion, application of the parity model, insertion model It is shown for each stage of application, application of a vocabulary model, application of a word rearrangement model within a chunk, and application of a chunk rearrangement model.
[0052]
In FIG. 4, squares with rounded corners indicate chunks, and arrows indicate the correspondence between words or chunks in two adjacent stages.
[0053]
(1) P (E for source sentence E*Chunking is performed using | E). For example, chunks “show me” and “the one” are obtained. This process is further modeled by the following two steps (a) and (b).
[0054]
(A) Chunk size is selected according to the head model. Each word EiFor the head model ε (Φi| Ei) For chunk size ΦiIs assigned. Words with a chunk size greater than 0 are treated as head words, and other words are treated as non-head words. That is, the head model has a function for designating whether a word is a chunk head word or a non-head word. In FIG. 4, the head word is shown in bold.
[0055]
(B) Each non-head word is associated with a head word (chunk model). Each non-head word EiIs the likelihood η (c (Eh) | Hi, c (Ei)) Head word EhAssociate with. Here, h is the position of the head word, and c (E) is a function that maps the word E to its word class (eg part of speech). For example, “the3"Is the head word" one "at the position 4-3 = + 14". By such an operation, the input sentence is divided into one or a plurality of chunks. And each chunk will contain one head word. That is, the chunk model has a function of associating words other than the head word with the head word.
[0056]
(2) Select a translation target word by deletion and a parity model.
[0057]
(A) Select the number of head words. Each head word Eh(Φh> 0) for the fertility model ν (φh| EhAccording tohSelect. The parity model has a function of determining the number of words after the words of the source language E are translated into the target language J. Here, it is assumed that the head word is always translated. Therefore, for head words, φh> 0. In addition, one of the words generated by the parity model has the
[0058]
(B) Delete some non-head words. Non-head word Ei(Φi= 0), the deletion model δ (di| C (Ei), C (EhDelete according to)). Where EhIs the head word in the same chunk, diIs
[0059]
(3) Insert a word. In FIG. 4, NULL is inserted in two chunks. Each chunk E* iIn contrast, the insertion model ι (φ' i| C (Eh))' iSelect the number of. Where EhIs Chunk E* hIs the head word.
[0060]
(4) Translate word by word. Source word E, including spuriousiEach vocabulary model τ (Jj| Ei) JjTranslate to
[0061]
(5) Rearrange words. Reorder each word in the chunk model P (A* i| ΕAj, J* j) This rearrangement model is obtained by modeling the order of words included in the translated chunk by likelihood, and the rearrangement of chunks is performed according to the
[0062]
[Expression 4]
Where h is chunk J* jIndicates the position of the head word relative to. For example, “no” is at a position of −1 relative to “uindo”.
[0063]
(6) Rearrange the chunks. All chunks are replaced with the chunk rearrangement model P (A | E*, J*) Chunk sorting is similar to the distortion model. In the distortion model, the position is determined by the relative position in the previous alignment. The chunk rearrangement model is expressed by the following formula.
[0064]
[Equation 5]
Where j 'is the previous chunk aE* Aj-1This is the chunk alignment. h and h ′ are J* jAnd E* Aj-1This is the index of head words. This rearrangement is independent of the head word.
[0065]
In summary, the chunk-based translation model can be formulated as follows:
[0066]
[Formula 6]
[Characteristics of chunk translation model]
The chunk translation model differs from the word alignment translation model in the handling of translation of a set of words. The word alignment translation model generates a set of words for each source word. In contrast, the chunk translation model builds a set of target words for a set of source words. This behavior is modeled as a chunk processing process that first associates a word with the head word of the chunk to which it belongs and further translates / inserts / deletes each chunk.
[0067]
Word alignment is complex, but is handled by word position determination in two stages. That is, chunk translation and chunk rearrangement. The former determines the local order and the latter determines the overall order. Furthermore, by setting a head word for each chunk, it is possible to set a restriction on rearrangement in two stages depending on the position from the head word.
[0068]
[Parameter estimation]
The EM algorithm is used for parameter estimation of the chunk translation model. A large parallel corpus (referred to as a “learning corpus”) is prepared, and the following conditional probabilities are estimated for each of the target sentence J and source sentence E pairs (E step).
[0069]
[Expression 7]
Further, parameters of each model are calculated based on the estimated conditional probability (M step). These steps are repeated until the parameter set converges.
[0070]
However, such a simple algorithm encounters a very difficult computational problem. Chunk separation J*And E*Furthermore, word alignment A*And if you want to enumerate everything possible with respect to chunk alignment A, a very large amount of computation is required. Therefore, in this embodiment, a kind of inside-outside algorithm is introduced in the calculation of the E step. For the inside-outside algorithm, see
[0071]
In addition to the computational complexity problem, there is a local maximum value problem. That is, even if it converges to the maximum value solution which is an EM algorithm, there is no guarantee that it is a global maximum value. In order to cope with this problem and speed up the convergence of the parameters, the parameters of the
[0072]
[Inside-outside algorithm]
The basic idea of inside / outside computation is to divide the entire process into two parts (ie, chunk individual translation and chunk reordering). In chunk translation, each chunk is translated. In the chunk rearrangement, chunk separation and chunk replacement after translation are performed.
[0073]
The inside (backward or beta) probability represents the probability of a chunk / sentence source / target combination, which can be calculated. The outside (forward or alpha) probability can be defined as the probability that a particular source and target pair will appear in a particular chunking and chunk reordering.
[0074]
<Inside probability>
First, given source sentence E and target sentence J, source and target chunk pair Ei ' jAnd Jj ' jFor all possible combinations of, calculate the inside probability of chunk translation according to the following formula: Where Ei ' jRepresents chunks from index i to i '.
[0075]
[Equation 8]
Where Pθ is ε (Φi| Ei) Or τ (Jj| Or Ei) And the like, the probability of the model associated with the value for the corresponding random variable. However, the chunk rearrangement model is excluded. A ’is Chunk Ei ' iAnd Jj ' jWord alignment for
[0076]
Next, for the pair of the source sentence E and the target sentence J, the inside probability is calculated in consideration of all possible chunk divisions and chunk alignments.
[0077]
<Outside probability>
The outside probability for sentence pair creation is always 1. That is,
α (E, J) = 1.0
The outside probability for each chunk pair is given by
[0078]
[Equation 9]
<Inside-outside calculation>
The combination of the above-mentioned inside-outside probabilities gives the following formula for determining the cumulative number of pairs.
[0079]
First, a count for each model parameter θ with an associated random variable count θ (Θ) is given by:
[0080]
[Expression 10]
Then the associated random variable
[0081]
## EQU11 ##
The count of chunk reordering with is given below.
[0082]
[Expression 12]
<Approximation>
Even with the inside-outside parameter estimation paradigm, O (lmk) can be used to enumerate all possible chunk pair creations and word alignments.4(K + 1)k) Calculation is required. Here, l and m are the sentence lengths of the source sentence E and the target sentence J, respectively, and k is the maximum number of words allowed per chunk. Furthermore, for all possible chunked statements, enumerate all possible alignments, O (2l2mn! ) Where n = | J*| = | E*|.
[0083]
An approximation is applied to the inside-outside estimation procedure to deal with the large amount of computation required. First, word alignments for chunk translation are enumerated through a specific word alignment move / exchange operation and approximated by an alignment pair of Viterbi alignment and adjacent alignment.
[0084]
Next, when enumerating chunk alignment, approximation is performed by a combination of chunk division and chunk alignment as follows.
1. Determine the number of chunks per sentence.
2. Determine the initial chunking and alignment.
3. The Viterbi chunk division-alignment is calculated by the hill-climbing method using the following operators.
[0085]
-Move chunk boundaries
・ Chang alignment
-Move the head position
4). The adjacent chunking-alignment is calculated using the operator described above.
[0086]
[Decoding (translation)]
The decoding algorithm according to the present embodiment is based on the beam search algorithm for statistical translation of the word alignment method presented in
[0087]
The decoder consists of two stages.
(1) Generate all possible output chunks for all possible input chunks.
(2) Generate temporary output by combining all possible outputs in order from left to right while consuming input chunks in any order.
[0088]
The generation of possible output chunks is evaluated by the reverse vocabulary model and the inserted string sequence described in
[0089]
If the calculation is performed for all possible combinations of chunks, the calculation amount becomes enormous. Therefore, the following pruning and scoring strategies are introduced.
[0090]
<Beam pruning>
Since the search space is very large, a size threshold for leaving only a part of the output is set in both of the above two stages. A threshold for scoring is also introduced, so that only output larger than a certain score is processed. That is, an output candidate having only a score below a certain threshold is excluded from translation candidates.
[0091]
<Score addition by example>
For input / output chunk combinations that actually appear in the learning corpus, the following scoring method is introduced to increase the probability that they will remain in the search beam. That is, when a combination of chunks appearing in the learning corpus appears in the first stage of the decoding process, the scores are added according to the following equation (shown in logarithmic form).
[0092]
[Formula 13]
However, Ptm(J | E) and Plm(E) is a translation model and a language model, respectively, and freq (E* Aj, J* j) Is the learning corpus E* AjAnd J* jRepresents the frequency at which the pair appears, and weight represents a parameter (weight) for adjustment. By this addition, a higher likelihood than the others is assigned to the chunk pair that actually appears in the learning corpus. Further, the higher the frequency of appearing in the learning corpus, the higher the likelihood assigned to the chunk pair.
[0093]
[Device configuration]
FIG. 5 shows a block diagram of a statistical machine translation apparatus from Japanese to English according to the present embodiment. Referring to FIG. 5, this statistical
[0094]
Referring to FIG. 6, the translation model stored in translation
[0095]
Referring again to FIG. 5, the statistical
[0096]
The
[0097]
The input
[0098]
Actually, the output
[0099]
The chunk
[0100]
[Operation]
The statistical
[0101]
<Learning aspects of translation model>
In creating this translation model, the source language is English E and the target language is Japanese J as described above. Prior to learning the translation model, a
[0102]
The
[0103]
The first phase ends when the translation
[0104]
<Statistical translation>
When the
[0105]
Note that, among the output chunk sequences output from the output
[0106]
The chunk
[0107]
The input
[0108]
The
[0109]
All of the above processing can be realized by a computer, an electronically readable parallel corpus stored in a storage device of the computer, and software executed by the computer. In particular, both the processing of the
[0110]
[Experiment]
The following experiment was performed using a computer programmed to allow the above processing. The bilingual corpus used in this experiment is a travel conversation dialogue collection in Japanese and English prepared by the applicant (see Reference 3). The outline of this bilingual corpus is shown in Table 1 below.
[0111]
[Table 1]
The entire corpus was divided into three parts. That is, there are 152,169 sentences for training, 4,846 sentences for testing, and 10,148 sentences for parameter adjustment. The parameter adjustment was performed for the determination criterion for the repetition end at the time of learning and the adjustment of the
[0112]
Three translation systems for comparison were tested. They are
[0113]
[0114]
[0115]
Chunk3 + is a chunk type translation model that generates chunk candidates using actual sentence examples, as described in the present embodiment, in addition to chunk3.
[0116]
FIG. 7 shows an example of chunking and chunk alignment in
[0117]
In the experiment, 510 sentences randomly selected from a set of test sentences were translated, and the results of translation were evaluated according to the following criteria with reference to a set of 16 standard sentences.
[0118]
WER: Word-error-rate. This corresponds to the edit distance until the reference translation is reached. The lower this value, the higher the evaluation.
[0119]
PER: WER independent of position. This does not take into account word order problems. The lower the value, the higher the evaluation.
[0120]
BLEU: BLEU score. This is to calculate the rate of N-grams found in the translation that becomes the reference among the translation results. The higher the value, the higher the evaluation.
[0121]
SE: Subjective evaluation. It was evaluated by a native speaker in a range from rank A to rank D (A: perfect B: good C: acceptable D: nonsense). It represents the rate of translated sentences included in the range of A, A + B, A + B + C. Generally, the higher the value, the higher the evaluation.
[0122]
Table 2 summarizes the evaluation of the translation results from Japanese to English. FIG. 8 shows some results of
[0123]
[Table 2]
Referring to Table 2,
[0124]
As described above, the statistical machine translation apparatus according to the present embodiment divides an input sentence into chunks, creates an output chunk by performing translation within each chunk, and performs translation by rearranging the output chunks. . Since the first-stage translation and word rearrangement are performed in a local portion within each chunk, the possibility of obtaining a correct translation locally increases. Also, since the result of translation of the entire sentence is sorted by chunks instead of words, the final translation structure may reflect the structure of the input sentence correctly. Also gets higher. As a result, a good translation result can be obtained even between languages such as Japanese and English having different structures. Furthermore, since the sorting is performed in two stages, even a restriction over a relatively long distance in the sentence can be reflected in the translation result.
[0125]
The embodiment disclosed herein is merely an example, and the present invention is not limited to the above-described embodiment. The scope of the present invention is indicated by each claim in the claims after taking into account the description of the detailed description of the invention, and all modifications within the meaning and scope equivalent to the wording described therein are intended. Including.
[0126]
[Reference 1]
Kenji Yamada and Kevin Knight, 2001, syntax-based statistical translation model, ACL2000 proceedings, Toulouse, France (Kenji Yamada and Kevin Knight. 2001. A syntax-basted statistical Trans. , France.)
[0127]
[Reference 2]
Christoph Tillman and Herman Ney, 2000, word reordering and statistical search in statistical translation, COLING 2000 proceedings, July-August (Christoph Tillmann and Hermann Ney. 2000. Word re-ordering and dp-based search in statistical machine translation. In Proc. of the COLING 2000, July-August.)
[0128]
[Reference 3]
Toshiyuki Takezawa, Eiichirou Sumita, Fumiaki Sugaya, Hirofumi Yamamoto, and Seichi Yamamoto. 2002. Toward the construction of a large-scale bilingual corpus for speech translation of travel conversations in the real world. LREC 2002 Proceedings, pp. 147-152, Las Palmas, Canary Islands, Spain, May (translation of travel conversion in the real world. In Proc. of LREC 2002, pages 147-152. Las Palmas, Canada Islands, Spain, May.)
[Brief description of the drawings]
FIG. 1 is a diagram for explaining a correspondence relationship between words in machine translation using a word alignment method according to a conventional technique;
FIG. 2 is a diagram for explaining a translation process of word alignment type machine translation according to a conventional technique;
FIG. 3 is a diagram for explaining two-stage sorting in the machine translation device according to one embodiment of the present invention.
FIG. 4 is a diagram for explaining a translation process in a machine translation apparatus according to an embodiment of the present invention.
FIG. 5 is a functional block diagram of a machine translation apparatus according to an embodiment of the present invention.
FIG. 6 is a diagram schematically showing a translation model used in the machine translation apparatus according to one embodiment of the present invention.
FIG. 7 is a diagram illustrating an example of a translation result obtained by the machine translation device according to the embodiment of the present invention.
FIG. 8 is a diagram showing the evaluation of the translation result of the machine translation device according to the embodiment of the present invention in comparison with the evaluation of the translation result of the conventional machine translation device.
[Explanation of symbols]
60 statistical machine translation device, 70 parallel corpus, 72 learning unit, 74 translation model storage unit, 76 chunk pair storage unit, 80 decoder, 90 chunk translation unit, 92 chunk rearrangement processing unit, 94 input chunk creation unit, 96 output Chunk creation part
Claims (15)
前記入力文を1又は複数個のチャンクに分割することにより得られたチャンクの各々について個別に翻訳を行なうためのチャンク翻訳手段と、
前記チャンク翻訳手段から出力される翻訳後のチャンクを並べ替える事により、前記入力文に対する翻訳文を生成するためのチャンク並べ替え手段とを含む、機械翻訳装置。A machine translation device for translating an input sentence in a first language into a second language,
Chunk translation means for individually translating each of the chunks obtained by dividing the input sentence into one or a plurality of chunks;
A machine translation apparatus comprising: a chunk rearranging unit for rearranging the translated chunks output from the chunk translation unit to generate a translated sentence for the input sentence.
前記入力文に対して複数通りのチャンク分割を行い、各々が1又は複数個のチャンクを含む1又は複数個のチャンク列を出力するためのチャンク分割手段と、
前記チャンク分割手段により出力される1又は複数個のチャンク列の各々に対し、当該チャンク列が含むチャンクの各々に対する翻訳を行なうことにより1又は複数個の出力チャンク列を作成するための出力チャンク作成手段とを含み、
前記出力チャンク作成手段は、前記1又は複数個の出力チャンク列に対し、前記翻訳モデルに基づいて尤度を算出する、請求項2に記載の機械翻訳装置。The chunk translation means includes:
Chunk division means for performing a plurality of chunk divisions on the input sentence and outputting one or a plurality of chunk strings each including one or a plurality of chunks;
Output chunk creation for creating one or a plurality of output chunk sequences by translating each of one or a plurality of chunk sequences output by the chunk dividing means with respect to each of the chunks included in the chunk sequence Means,
The machine translation apparatus according to claim 2, wherein the output chunk creation unit calculates a likelihood based on the translation model for the one or a plurality of output chunk strings.
前記チャンク翻訳手段はさらに、前記出力チャンク作成手段により作成された出力チャンクと、当該出力チャンクに対応する入力文のチャンクとの対が、前記チャンク対記憶手段に記憶されたものと一致していることを検出して、当該出力チャンクの尤度を所定の計算方法にしたがって変更するための尤度変更手段を含む、請求項3に記載の機械翻訳装置。The machine translation device further includes chunk pair storage means for storing a pair of the chunk of the first language and the chunk of the second language,
The chunk translating means further matches the pair of the output chunk created by the output chunk creating means and the chunk of the input sentence corresponding to the output chunk with the one stored in the chunk pair storage means. The machine translation device according to claim 3, further comprising likelihood changing means for detecting this and changing the likelihood of the output chunk according to a predetermined calculation method.
前記尤度変更手段は、前記出力チャンク作成手段により作成された出力チャンクと、当該出力チャンクに対応する入力文のチャンクとの対が、前記チャンク対記憶手段に記憶された第1のチャンク対と一致していることを検出して、当該出力チャンクの尤度を、前記第1のチャンク対に割当てられた重みの関数により変更するための手段を含む、請求項6に記載の機械翻訳装置。The chunk pair storage means stores a weight assigned in advance for each pair of the first language chunk and the second language chunk,
The likelihood changing means includes a pair of an output chunk created by the output chunk creating means and a chunk of an input sentence corresponding to the output chunk as a first chunk pair stored in the chunk pair storage means. The machine translation device according to claim 6, further comprising means for detecting a match and changing the likelihood of the output chunk according to a function of a weight assigned to the first chunk pair.
前記チャンク並べ替え手段は、前記チャンク翻訳手段から出力される出力チャンク列の各々について1又は複数通りのチャンクの並べ替えを行ない、各前記チャンクの並べ替えモデルから算出されるチャンク並べ替えの尤度と、当該出力チャンク列に含まれる出力チャンクの各々に対して算出されている尤度とから、各並べ替えの尤度を算出し、最も高い尤度を持つチャンクの配列を前記翻訳文として出力するための手段をさらに含む、請求項3から請求項9のいずれかに記載の機械翻訳装置。The chunk-based translation model includes a chunk rearrangement model in which the second language is a source language and the first language is a target language,
The chunk rearranging means rearranges one or a plurality of chunks for each output chunk sequence output from the chunk translating means, and the likelihood of chunk rearrangement calculated from the chunk rearrangement model And the likelihood calculated for each of the output chunks included in the output chunk sequence, the likelihood of each sort is calculated, and the array of chunks having the highest likelihood is output as the translated sentence The machine translation device according to claim 3, further comprising means for
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003189787A JP2005025474A (en) | 2003-07-01 | 2003-07-01 | Machine translation device, computer program, and computer |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2003189787A JP2005025474A (en) | 2003-07-01 | 2003-07-01 | Machine translation device, computer program, and computer |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005025474A true JP2005025474A (en) | 2005-01-27 |
Family
ID=34187892
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003189787A Pending JP2005025474A (en) | 2003-07-01 | 2003-07-01 | Machine translation device, computer program, and computer |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2005025474A (en) |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011242895A (en) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | Translation device, method and program for machine translation |
JP2013054608A (en) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | Translation device, method and program, and translation model learning device, method and program |
JP2013054607A (en) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | Rearrangement rule learning device, method and program, and translation device, method and program |
JP2013254473A (en) * | 2012-05-10 | 2013-12-19 | Takashi Kinoshita | Method for automatically translating chinese sentence into japanese sentence |
US8630839B2 (en) | 2006-10-19 | 2014-01-14 | Fujitsu Limited | Computer product for phrase alignment and translation, phrase alignment device, and phrase alignment method |
JP2014229087A (en) * | 2013-05-23 | 2014-12-08 | 木下 崇 | Method for automatically translating japanese sentence into chinese sentence |
JP2016519370A (en) * | 2013-04-19 | 2016-06-30 | 富士通株式会社 | DATA PROCESSING DEVICE, DATA PROCESSING METHOD, AND ELECTRONIC DEVICE |
WO2022264404A1 (en) * | 2021-06-18 | 2022-12-22 | 富士通株式会社 | Translation method, translation program, and information processing device |
CN117195922A (en) * | 2023-11-07 | 2023-12-08 | 四川语言桥信息技术有限公司 | Human-in-loop neural machine translation method, system and readable storage medium |
-
2003
- 2003-07-01 JP JP2003189787A patent/JP2005025474A/en active Pending
Cited By (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8630839B2 (en) | 2006-10-19 | 2014-01-14 | Fujitsu Limited | Computer product for phrase alignment and translation, phrase alignment device, and phrase alignment method |
JP2011242895A (en) * | 2010-05-14 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | Translation device, method and program for machine translation |
JP2013054608A (en) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | Translation device, method and program, and translation model learning device, method and program |
JP2013054607A (en) * | 2011-09-05 | 2013-03-21 | Nippon Telegr & Teleph Corp <Ntt> | Rearrangement rule learning device, method and program, and translation device, method and program |
JP2013254473A (en) * | 2012-05-10 | 2013-12-19 | Takashi Kinoshita | Method for automatically translating chinese sentence into japanese sentence |
JP2016519370A (en) * | 2013-04-19 | 2016-06-30 | 富士通株式会社 | DATA PROCESSING DEVICE, DATA PROCESSING METHOD, AND ELECTRONIC DEVICE |
JP2014229087A (en) * | 2013-05-23 | 2014-12-08 | 木下 崇 | Method for automatically translating japanese sentence into chinese sentence |
WO2022264404A1 (en) * | 2021-06-18 | 2022-12-22 | 富士通株式会社 | Translation method, translation program, and information processing device |
CN117195922A (en) * | 2023-11-07 | 2023-12-08 | 四川语言桥信息技术有限公司 | Human-in-loop neural machine translation method, system and readable storage medium |
CN117195922B (en) * | 2023-11-07 | 2024-01-26 | 四川语言桥信息技术有限公司 | Human-in-loop neural machine translation method, system and readable storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7925493B2 (en) | Machine translation apparatus and machine translation computer program | |
US7797148B2 (en) | Systems and methods for fast and memory efficient machine translation using statistical integrated phase lattice | |
CN106021227B (en) | A kind of Chinese Chunk analysis method based on state transfer and neural network | |
US11276394B2 (en) | Method for re-aligning corpus and improving the consistency | |
Garg et al. | Machine translation: a literature review | |
US8504353B2 (en) | Phrase-based statistical machine translation as a generalized traveling salesman problem | |
JP2014142975A (en) | Extraction of treelet translation pair | |
US20090150139A1 (en) | Method and apparatus for translating a speech | |
CN108427717B (en) | Letter class language family medical text relation extraction method based on gradual expansion | |
JP5319141B2 (en) | Language model pruning method and apparatus | |
JP2005025474A (en) | Machine translation device, computer program, and computer | |
Siahbani et al. | Efficient left-to-right hierarchical phrase-based translation with improved reordering | |
JP5734917B2 (en) | Rearrangement model learning apparatus, method, and program, and translation apparatus, method, and program | |
JP4113204B2 (en) | Machine translation apparatus, method and program thereof | |
JP5780670B2 (en) | Translation apparatus, method, and program, and translation model learning apparatus, method, and program | |
JP5544518B2 (en) | Machine translation apparatus, machine translation method, and program thereof | |
JP4829702B2 (en) | Machine translation device, machine translation method, generation rule creation device, generation rule creation method, and program and recording medium thereof | |
JP6590723B2 (en) | Word rearrangement learning method, word rearrangement method, apparatus, and program | |
JP5700833B2 (en) | Rearrangement model generation device, word order rearrangement device, method, and program | |
KR101721536B1 (en) | statistical WORD ALIGNMENT METHOD FOR APPLYING ALIGNMENT TENDENCY BETWEEN WORD CLASS AND machine translation APPARATUS USING THE SAME | |
CN113807081B (en) | Chat text content error correction method and device based on context | |
Dugonik et al. | The usage of differential evolution in a statistical machine translation | |
JP2012093808A (en) | Device for simultaneously segmenting bilingual corpus, and computer program therefor | |
Gu et al. | Improving statistical natural concept generation in interlingua-based speech-to-speech translation. | |
JP6083645B2 (en) | Word order rearrangement device, translation device, translation model learning device, method, and program |