JP2005100335A6

JP2005100335A6 - 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ

Info

Publication number: JP2005100335A6
Application number: JP2004151965A
Authority: JP
Inventors: 太郎渡辺; 英一郎隅田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2003-09-01
Filing date: 2004-05-21
Publication date: 2006-04-06

Abstract

【課題】統計的機械翻訳を用いるシステムであって、言語の組合せにかかわらず高品質の翻訳を得ることができる機械翻訳システムを提供する。
【解決手段】機械翻訳装置２０は、入力文３０との類似を示す所定の条件を充足する第１の言語の文を含む対訳文を、翻訳のための初期候補として対訳コーパス３４の中から検索する初期候補選択部３２と、検索された対訳文に含まれる第２の言語の文を第１の候補文として、当該第１の候補文に対して所定のオペレータを適用して得られる修正候補文を探索し、得られた修正候補文の中で統計的に予め定められる所定の条件を充足するものを入力文３０に対する翻訳文４２として出力する候補修正部３６とを含む。
【選択図】図１

Description

この発明は機械翻訳装置に関し、特に、用例翻訳の利点を生かしながら精度の高い翻訳を行なうことが可能な統計的機械翻訳装置に関する。

統計的機械翻訳では、ある言語の文（Ｊ）を他の言語の文（Ｅ）に翻訳するという問題を、次の条件付確率を最大化する問題として定式化する。

この式に対してベイズの定理を適用することにより次の式が得られる。

このうち、Ｐ（Ｊ）は＾Ｅの算出とは無関係である（なお本文中の記号「＾」は、本来はその直後の文字の直上に記載されるべきものである。）。従って次の式が得られる。

右辺のうち第１項Ｐ（Ｅ）は言語モデルと呼ばれ、文Ｅの尤度を表す。第２項のＰ（Ｊ｜Ｅ）は翻訳モデルと呼ばれ、文Ｅから文Ｊが生成される確率を表す。

こうした考え方の下で、単語アライメント（単語の対応付け）という概念により第１の言語の文（チャンネルターゲット文と呼ぶ。）を第２の言語の文（チャンネルソース文と
呼ぶ。）にマップするという翻訳モデルが提案されている。この翻訳モデルは、フランス語と英語、及びドイツ語と英語等、互いに類似した言語の間では成功をもたらした。

しかし、この翻訳モデルは、例えば日本語と英語等、互いに非常に異なる言語に適用しても成果が得られなかった。こうした結果は、構造が互いに異なる言語間でのマップにおいては単語の挿入及び削除が頻繁に行なわれること、各単語のファーティリティが多数であること、及び語の対応付けが複雑であること、などにより、探索空間が膨大になるという問題による。探索が複雑となるため、ビーム探索によるデコードアルゴリズムを用いると、多くの場合局所的な解しか得られない。

単語アライメントに基づく統計的機械翻訳は、単語アライメントＡという考え方を用いて二つの言語の対応を表す。この場合、１単語に複数単語を対応付けることが許される。単語アライメントＡとは、チャンネルターゲット文の各単語が、チャンネルソース文のどの単語に対応しているかを、チャンネルソース文の単語の指標を用いて表す配列である。この配列では、チャンネルソース文の単語との対応はチャンネルソース文の単語に付された指標によって表され、それら指標がチャンネルターゲット文の単語の順番に従って配列される。

図７に英語（Ｅ）及び日本語（Ｊ）の文の間の単語アライメントの例Ａを示す。図７を参照して、第２の言語（ここでは英語Ｅ）の文１１０の１〜７の各単語は、第１の言語（ここでは日本語Ｊ）の文１１４の各単語１−６に対応付けられている。対応付けはチャンネルソース文１１０の各単語とチャンネルターゲット文１１４の単語とを結ぶライン群１１２により表されている。例えば、チャンネルソース文１１０の単語「ｓｈｏｗ₁」からはチャンネルターゲット文１１４の二つの単語「ｍｉｓｅ₅」及び「ｔｅｋｕｄａｓａｉ₆」が生成されている。またチャンネルターゲット文１１４の二つの単語「ｎｏ₂」及び「ｏ₄」はチャンネルソース文１１０のどの単語にも対応しておらず、チャンネルソース文１１０の先頭に「ＮＵＬＬ₀」を想定し、これに対応しているものとする。するとこの場合、アライメントＡは「７，０，４，０，１，１」となる。

単語アライメントとしてこのようなマッピングを想定すると、翻訳モデルＰ（Ｊ｜Ｅ）はさらに次の様に書くことができる。

右辺の項Ｐ（Ｊ，Ａ｜Ｅ）はさらに４つの要素に分解される。その４つの要素により、チャンネルソース文Ｅを、アライメントＡを有するチャンネルターゲット文Ｊに変換する従来技術の手順が構成される。それら４つの要素は以下の通りである。

（１）ファーティリティモデルに従い、チャンネルソース文の各単語に対しいくつの訳語を生成するかを決定する。一つの単語から二つの訳語が生成される場合もあるし、訳語が一つも生成されない場合もあり得る。

（２）ＮＵＬＬ生成モデルに従い、チャンネルソース文の適切な位置にＮＵＬＬを挿入する。

（３）語彙モデルをルックアップすることにより、生成された各単語に対する翻訳を行なう。

（４）変形モデルを参照することにより、翻訳された各単語を並べ替える。句に関する制約を保存するため、このときの位置は直前の単語のアライメントによって決定される。

こうして、単語アライメントという考え方に基づく、翻訳モデルが得られる。

一方、最初にチャンネルソース文の各単語に翻訳したものをチャンネルターゲット文の順番で並べたものを最初に生成し、この文に対し種々のオペレータを適用して多数の文を生成していく方法が提案されている（非特許文献１）。提案された手法では、その様に生成された文のうち、最も尤度の高いものを求めて翻訳文として選択する。

ウルリヒゲルマン、ミハエルヤール、ケビンナイト、ダニエルマルキュ、ケンジヤマダ、「機械翻訳のための高速デコーディング及び最適デコーディング」、２００１、ＡＣＬ２００１予稿集、ツールーズ、フランス（ＵｌｒｉｃｈＧｅｒｍａｎｎ，ＭｉｃｈａｅｌＪａｈｒ，ＫｅｖｉｎＫｎｉｇｈｔ，ＤａｎｉｅｌＭａｒｃｕ，ａｎｄＫｅｎｊｉＹａｍａｄａ，"Ｆａｓｔｄｅｃｏｄｉｎｇａｎｄｏｐｔｉｍａｌｄｅｃｏｄｉｎｇｆｏｒｍａｃｈｉｎｅｔｒａｎｓｌａｔｉｏｎ，"（２００１）ｉｎＰｒｏｃ．ｏｆＡＣＬ２００１，Ｔｏｕｌｏｕｓｅ，Ｆｒａｎｃｅ．）

単語アライメントに基づく統計的翻訳モデルは、例えばフランス語と英語など、互いに類似した言語のペアに対するものとして考案された。一方、日本語と英語とは、互いに大きく異なった構造を持つ。そのため、日本語と英語との場合には、図７に示す様に単語アライメントは非常に複雑になる。この複雑さは、言語の構造の差異を反映したものである。例えば英語はＳＶＯという文型をとるのに対し、日本語はＳＯＶという文型をとることが通常である。加えて、図７に示した例からも明らかな通り、挿入と削除とが非常に頻繁に生ずる。例えば図７に示す「ｔｈｅ₃」及び「ｔｈｅ₆」については日本語には対応する形態素は存在しない。従って、これらの語については日本語から英語に翻訳する際には挿入しなければならない。同様に、日本語のｎｏ₂及びｏ₄については削除しなければならない。

この様にアライメントが複雑なこと、及び語の挿入及び削除が頻繁なことにより、単語ごとのビーム探索を行なうと、計算量が非常に大きくなるという問題がある。ある程度の時間内に結果を導出できる様にするためには、何らかの形で刈り込みをしなければならない。しかし、通常の探索アルゴリズムではその様に限定した空間で探索すると探索誤りが生ずることが避けられない。翻訳の品質と翻訳モデルにより割当てられた尤度との間にはある程度の相関が存在することは認められるが、ビーム探索ではよい品質を見出すことは困難である。

また非特許文献１に記載の方法では、探索において局所的最適解に到達してしまうことが多いという問題があり、高精度の解が安定して得られる訳ではない。

それゆえに本発明の目的は、統計的機械翻訳を用いるシステムであって、言語の組合せにかかわらず高品質の翻訳を得ることができる機械翻訳システムを提供することである。

この発明の他の目的は、統計的機械翻訳を用いるシステムであって、言語の組合せにかかわらず、ある程度の時間内に高品質の翻訳を得ることができる機械翻訳システムを提供することである。

この発明のさらに他の目的は、統計的機械翻訳を用いるシステムであって、言語の組合せにかかわらず、高品質の翻訳を安定して得ることができる機械翻訳システムを提供することである。

本発明の第１の局面に係る機械翻訳装置は、第１の言語の文と第２の言語の文とからなる対訳を複数個含む対訳コーパスとともに用いられる機械翻訳装置であって、第１の言語の入力文を受け、入力文に対する第２の言語の翻訳文の初期候補を準備するための初期候補準備手段と、この初期候補に対して所定のオペレータを適用して得られる修正候補文を探索し、得られた修正候補文の中で統計的に予め定められる所定の条件を充足するものを入力文に対する翻訳文として出力するための候補修正手段とを含む。

好ましくは、初期候補準備手段は、前記第１の言語の入力文を受け、前記入力文との類似度に関連する所定の条件を充足する前記第１の言語の文を含む対訳文を、前記初期候補として前記対訳コーパス中から検索するための初期候補選択手段を含む。

さらに好ましくは、機械翻訳装置は、初期候補選択手段が初期候補を選択できないことを検出するための検出手段と、検出手段により初期候補選択手段による初期候補の選択ができないことが検出されたことに応答して、入力文を文よりも小さな部分単位に分割し、分割された部分単位ごとに対訳コーパスから検索された訳を組合せることにより、初期候補を準備するための手段とをさらに含む。

初期候補準備手段は、第１の言語の入力文を受け、入力文に対して所定の機械翻訳方式により機械翻訳を行なって初期候補を準備するための機械翻訳手段を含んでもよい。

また、初期候補準備手段は、第１の言語の入力文を受け、予め定める用例コーパス（例えば上記した対訳コーパス）を用いて用例翻訳を行なうことにより前記入力文に対応する訳文を生成するための用例翻訳手段を含んでもよい。

好ましくは、初期候補準備手段は、初期候補を予め定める複数個選択する。

さらに好ましくは、初期候補選択手段は、対訳コーパスに含まれる第１の言語の各文と入力文との間で、対訳コーパスに含まれる第１の言語の文を文書とみなして定義される文書頻度を用いた所定の類似尺度を算出するための類似尺度算出手段と、対訳コーパスに含まれる第１の言語の各文と入力文との間の編集距離を算出するための編集距離算出手段と、類似尺度算出手段により算出された類似尺度、及び編集距離算出手段により算出された編集距離に基づいて定義されるスコアを算出し、当該スコアが所定の条件を充足する対訳文を初期候補として選択するためのスコア算出手段とを含む。

類似尺度算出手段は、対訳コーパスに含まれる第１の言語の各文と入力文との間で、以下の式に従ってｔｆ／ｉｄｆ基準Ｐ_tf/idfを算出するための手段を含んでもよく、

ただしＪ₀は入力文、Ｊ_0,iは入力文Ｊ₀のｉ番目の単語、ｄｆ（Ｊ_0,i）は単語入力文Ｊ_0,iに対する文書頻度、Ｊ_kはｋ番目の第１の言語の文（１≦ｋ≦Ｎ）、Ｎは対訳コーパス内の全ての対訳文の数を、それぞれ示す。

編集距離算出手段は、入力文Ｊ₀と第１の言語の文Ｊ_kの間のＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングを行なって編集距離ｄｉｓ（Ｊ_k，Ｊ₀）を算出するための手段を含み、編集距離ｄｉｓ（Ｊ_k，Ｊ₀）は以下の式

ただしｋは１≦ｋ≦Ｎなる整数、Ｉ（Ｊ_k，Ｊ₀）、Ｄ（Ｊ_k，Ｊ₀）、及びＳ（Ｊ_k，Ｊ₀）はそれぞれ文Ｊ₀を文Ｊ_kに変形させる際に必要な語の挿入、削除、及び置換の数、により定められる。

好ましくは、スコア算出手段は、第１の言語の文Ｊ_kに対し、類似尺度算出手段により算出されたｔｆ／ｉｄｆ基準Ｐ_tf/idf、及び編集距離算出手段により算出された編集距離ｄｉｓ（Ｊ_k，Ｊ₀）に基づいて次の式

ただしαは調整パラメータ、により定義されるスコアを算出するための手段と、スコアを算出するための手段により算出されたスコアの大きなものから順番に予め定める個数の対訳文を初期候補として選択するための手段とを含む。

機械翻訳装置は、スコアが１の対訳文があるか否かを判定し、スコアが１の対訳文があるときに、当該スコアが１の対訳文を訳文として選択するための手段をさらに含んでもよい。

好ましくは、機械翻訳装置は、第２の言語の言語モデル、及び第２の言語から第１の言語への翻訳モデルに接続されて使用され、候補修正手段は、スコアが１の対訳文がないと判定されたことに応答して、初期候補選択手段により選択された対訳文を第１の候補文として、当該第１の候補文に対して所定のオペレータを適用して得られる修正候補文を探索するための探索手段と、探索手段により探索された修正候補文の各々の尤度を言語モデル及び翻訳モデルに基づいて算出するための尤度算出手段と、探索手段により探索される修正候補文の尤度に対し山登り法を適用して、最高の尤度を持つ修正候補文を選択するための手段とを含む。

機械翻訳装置は、第２の言語の言語モデル、及び第２の言語から第１の言語への翻訳モデルに接続されて使用され、候補修正手段は、初期候補準備手段により準備された初期候補に対して所定のオペレータを適用して得られる修正候補文を探索するための探索手段と、探索手段により探索された修正候補文の各々の尤度を言語モデル及び翻訳モデルに基づいて算出するための尤度算出手段と、探索手段により探索された修正候補文の尤度に対し山登り法を適用して、最高の尤度を持つ修正候補文を選択するための手段とを含んでもよい。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの機械翻訳装置として動作させるものである。

本発明の第３の局面に係るコンピュータは、上記したコンピュータプログラムによりプログラムされたものである。

［第１の実施の形態］
ビーム探索の様に単語ごとに翻訳をするシステムではない機械翻訳システムとして、用例ベースのもの（用例翻訳）が存在する。用例翻訳は、対訳コーパスに基づく翻訳方式の一つである。対訳コーパスには、第１の言語の文と、第２の言語の訳文とからなる対訳文が多数格納されている。第１の言語の入力文が与えられると、入力文に類似した第１の言語の文を対訳コーパスの中から探し出し、探し出された第１の言語の文の訳文（第２の言語）に基づいて出力文を作成する。

本実施の形態の機械翻訳システムは、この用例翻訳システムと統計的機械翻訳システムとを組合せた新たな枠組みに基づくものである。

−構成−
図１に、本実施の形態に係る機械翻訳システム２０のブロック図を示す。図１を参照して、この機械翻訳システム２０は、第１の言語（これを言語Ｊとする。）の文と第２の言語（これを言語Ｅとする。）の訳文とからなる対訳文を多数含む対訳コーパス３４と、第１の言語の入力文３０を受け、対訳コーパス３４から入力文３０に類似した所定の数（例えば５個）の第１の言語の文を選択するための初期候補選択部３２とを含む。

機械翻訳システム２０はさらに、統計的機械翻訳で通常用いられる、第２の言語の言語モデル（Ｐ（Ｅ））３８及び翻訳モデル（Ｐ（Ｊ｜Ｅ））４０と、初期候補選択部３２により選択された複数の第１の言語の文の各々に対し、後述する様に探索しながら第２の言語の訳文を修正して行き、言語モデル３８及び翻訳モデル４０を用いて算出される尤度が最も高い訳文を入力文３０に対する翻訳の結果得られる出力文４２として出力するための候補修正部３６とを含む。

図２に、初期候補選択部３２の詳細なブロック図を示す。図２を参照して、初期候補選択部３２は、対訳コーパス３４を参照して、入力文３０と対訳コーパス３４の第１の言語の文の各々との類似の程度を示す類似尺度としてｔｆ／ｉｄｆ基準Ｐ_tf/idfを算出するためのｔｆ／ｉｄｆ算出部５０を含む。ｔｆ／ｉｄｆ基準Ｐ_tf/idfは、対訳コーパス３４の第１の言語の各文を一つの文書とみなして、情報検索アルゴリズムで一般的に用いられる文書頻度と呼ばれる概念を用いて下の式により定義された尺度である。

ただしＪ₀は入力文、Ｊ_0,iは入力文Ｊ₀のｉ番目の単語、ｄｆ（Ｊ_0,i）は入力文Ｊ₀のｉ番目の単語Ｊ_0,iに対する文書頻度、Ｎは対訳コーパス３４内の全ての訳文の数を、それぞれ示す。文書頻度ｄｆ（Ｊ_0,i）とは、入力文Ｊ₀中のｉ番目の単語Ｊ_0,iが出現する文書（本実施の形態では訳文）の数のことをいう。

初期候補選択部３２はさらに、対訳コーパス３４に含まれている各対訳文（Ｊ_k，Ｅ_k）の第１の言語の文Ｊ_kについて、入力文Ｊ₀との間のＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングを行なって編集距離ｄｉｓ（Ｊ_k，Ｊ₀）を算出するための編集距離算出部５２と、ｔｆ／ｉｄｆ算出部５０により算出されたｔｆ／ｉｄｆ基準Ｐ_tf/idfに基づいて、後述する式に従って各対訳文のスコアを算出するためのスコア算出部５４とを含む。

編集距離算出部５２により算出される編集距離ｄｉｓ（Ｊ_k，Ｊ₀）は以下の式で表される。

ただしｋは１≦ｋ≦Ｎなる整数、Ｉ（Ｊ_k，Ｊ₀）、Ｄ（Ｊ_k，Ｊ₀）、及びＳ（Ｊ_k，Ｊ₀）はそれぞれ文Ｊ₀から文Ｊ_kに至るまでの挿入／削除／置換の数である。

スコア算出部５４により算出されるスコアＳｃｏｒｅは以下の式により表される。

ただしαは調整パラメータであり、本実施の形態ではα＝０．２としている。

図２を参照して、初期候補選択部３２はさらに、スコア算出部５４により算出されたスコアｓｃｏｒｅに基づき、スコアが上位の所定個数（本実施の形態では５個）の対訳文を選択し、候補対訳文５８として出力し図１に示す候補修正部３６に与えるための対訳文選択部５６を含む。

図３に、図１に示す候補修正部３６の詳細なブロック図を示す。図３を参照して、候補修正部３６は、初期候補選択部３２が出力した候補対訳文５８に含まれる各初期候補対訳文（Ｊ_k，Ｅ_k）を受け、初期候補対訳文の各々について、言語モデルと翻訳モデルとを使用して、第１の言語の入力文と第２の言語の文との間の最も尤度の高いビタビアライメントを算出するためのビタビアライメント部７０を含む。ビタビアライメント部７０により、入力文Ｊ₀と各初期候補対訳文（Ｊ_k，Ｅ_k）のうちの第２の言語の文Ｅ_kとからなる新たな候補対訳文（Ｊ₀，Ｅ_k）について初期アライメントＡ_kが算出される。アライメントが終了した候補対訳文を（Ｊ₀，Ａ_k，Ｅ_k）と表す。

候補修正部３６はさらに、ビタビアライメント部７０によりアライメントＡ_kが算出されたアライメント済みの各候補対訳文（Ｊ_o，Ａ_k，Ｅ_k）のうちでスコアが１のものがあるか否かを判定し、一致があれば第１の値を、一致がなければ第２の値を、それぞれとる一致検出信号７３を出力するとともに、スコアが１の候補対訳文があったときにはその候補対訳文７５をアライメントとともに出力するための一致検出部７２と、一致検出部７２により一致が検出されなかったときに、ビタビアライメント部７０から与えられたアライメント済みの候補対訳文（Ｊ₀，Ａ_k，Ｅ_k）に対して以下に述べるようなアライメントＡ_k及び訳文Ｅ_kの修正を行ない、最終的に入力３０に対する訳文として最高の尤度を示す対訳文７７をそのアライメントとともに出力するアライメント探索部７４とを含む。アライメント探索部７４は、この探索時には、後述する様に言語モデル３８及び翻訳モデル４０を使用する。

候補修正部３６はさらに、一致検出部７２の出力する一致検出信号７３に応答し、一致検出信号７３が第１の値か第２の値かに従って、一致検出部７２の出力する対訳文７５又はアライメント探索部７４の出力する対訳文７７のいずれかを選択して出力文４２として出力するための訳文選択部７６を含む。

図４に、アライメント探索部７４が行なう修正候補文の探索と山登り法との概略について示す。図４を参照して、アライメント探索部７４は、ビタビアライメント部７０から与えられる候補対訳文５８に含まれるアライメント済みの対訳文８０Ａ〜８０Ｎに対して、単語の移動・削除・置換などを表すオペレータを一つ適用することによりアライメントを修正し、多数の新たな候補対訳文の群８２Ａ，８２Ｂ，…を生成するためのオペレータ適用部８１Ａ，８１Ｂ，…を含む。アライメント探索部７４はさらに、こうして得られた候補対訳文群８２Ａ、８２Ｂ…の各々に含まれるアライメント修正後の対訳文の各々について言語モデル３８及び翻訳モデル４０を用いて尤度を算出し、各候補対訳文群の中で尤度が最も高かったものから順番に所定個数（本実施の形態では５個）の候補対訳文を残して他の候補対訳文を削除し、候補対訳文群８２Ａ，８２Ｂ，…から新たな候補対訳文群８６Ａ，…，８６Ｎを生成するための尤度による選択処理部８４Ａ，８４Ｂ，…を含む。

アライメント探索部７４のオペレータ適用部８１Ａ，８１Ｂ，…は、例えば候補対訳文群８６Ａに含まれる候補対訳文８８Ａ，…，８８Ｎについても、前述した動作を行ない新たな候補対訳文群９０Ａ，…，９０Ｎを作成する。そして尤度による選択処理部８４Ａ，８４Ｂ，…は、これら候補対訳文群９４Ａ，…，９４Ｎに対しても言語モデル３８及び翻訳モデル４０を用いて最も高い尤度を有する候補対訳文９６Ａ，…，９６Ｎを残し新たな候補対訳文群９４Ａ，…，９４Ｎを作成する。

この様にして、アライメント探索部７４は最初の候補対訳文５８に含まれる候補対訳文８０Ａ，…，８０Ｎをシーズとして、対訳文のアライメントに次々にオペレータを適用して新たな候補対訳文を作成していく。アライメント探索部７４は、上記した繰返し処理を、尤度による選択処理部８４Ａ，８４Ｂ，…による候補対訳文の選択の際に、候補対訳文に対して計算される尤度の改善が得られなくなったと判定された時点で打ち切る（山登り法）。

この様にしてアライメント探索部７４は対訳文のアライメントを探索し修正していき、山登り法に従って探索処理で求められた候補対訳文とアライメントとの内で最も高い尤度の翻訳文を出力文４２として出力する。

オペレータ適用部８１Ａ，８１Ｂ，…がアライメント済みの対訳（Ｊ₀，Ａ_k，Ｅ_k）に対して行なうオペレータは、非特許文献１に記載されたものとほぼ同様で、以下の通りである。

（１）単語の翻訳
単語Ｊ_0,jにアラインされた出力の単語Ｅ_Ajを単語ｅに変更する。もしも単語ｅがＮＵＬＬであれば、単語Ｊ_0,jはＮＵＬＬにアラインされ、Ａ_j＝０とする。単語Ｅ_Ajのファーティリティが０になればその単語Ｅ_Ajは削除される。単語ｅは語彙モデルを逆に利用することにより計算される、単語候補から選択される。

（２）単語の翻訳及び挿入
単語の翻訳を行ない、適切な場所にファーティリティがゼロの一連の単語を挿入する。ファーティリティがゼロの一連の単語の候補は、学習コーパスに対するビタビアライメントから選択する。

（３）単語の翻訳及びアライン
アライメント中のｊ番目の単語Ｅ_jをｉ番目に移動し、ｉ番目の単語Ｅ_iを単語ｅに修正する。

（４）アライメントの移動
このオペレータは出力単語のシーケンスの変更は行なわず、アライメントＡの移動及び交換によりアライメントのみを修正する。

（５）セグメントの交換
訳文Ｅのうち、重複のない部分を互いに交換する。すなわち、ｉ₀番目からi₁番目の単語からなるセグメントと、ｉ₂番目からi₃番目（ただしｉ₁＜ｉ₂）の単語からなるセグメントとを交換する。

（６）単語（群）の削除
訳文Ｅからファーティリティがゼロの単語シーケンスを削除する。

（７）単語の結合
訳文Ｅi及びＥi'に含まれる単語のファーティリティがいずれも１以上である場合、この二つの単語を結合する。

これら７つのオペレータのうち、（３）と（４）とを除く残りの５つは、非特許文献１に記載されたものとほぼ同様である。（３）と（４）とのオペレータは、本実施の形態で新たに追加したものである。最初にビタビアライメント部７０により行なわれるビタビアライメントでは、第１の言語の文のうち第２の言語の文に対応する訳語が存在しない単語はＮＵＬＬと対応付けられるか、又はファーティリティを上げることにより不適切な単語にアラインされることがある。オペレータ（３）単語の翻訳及びアラインによって、語彙モデルを用いて適切な単語ごとの翻訳を見つけ出すことが可能になり、このアライメントが他の単語に強制的に移動されることになる。同様に、オペレータ（４）アライメントの移動では、既にあるアライメントを移動させることにより同様の効果を奏する。

−動作−
機械翻訳システム２０は以下の様に動作する。対訳コーパス３４には予め第１の言語の文と第２の言語の訳文とからなる多数の対訳文が含まれている。また言語モデル３８及び翻訳モデル４０も何らかの手段により予め準備されているものとする。

図１を参照して、入力文３０が初期候補選択部３２に与えられる。図２を参照して、初期候補選択部３２のｔｆ／ｉｄｆ算出部５０は、入力文３０と対訳コーパス３４中の全ての対訳文のうちの第１の言語の文との間でｔｆ／ｉｄｆ基準Ｐ_tf/idfを算出する。編集距離算出部５２は、同様に入力文３０と全ての対訳コーパス３４中の第１の言語の文Ｊ_kとの間で編集距離ｄｉｓ（Ｊ_k，Ｊ₀）を算出する。

スコア算出部５４は、ｔｆ／ｉｄｆ算出部５０により算出されたｔｆ／ｉｄｆ基準Ｐtf/idf及び編集距離算出部５２により算出された編集距離ｄｉｓ（Ｊ_k，Ｊ₀）を用いて前述したスコアｓｃｏｒｅを次の式に従い算出する。

対訳文選択部５６は、対訳コーパス３４に含まれる対訳文のうち、スコアｓｃｏｒｅの高いものから所定個を選択し、候補対訳文５８として図３のビタビアライメント部７０に与える。

図３を参照して、ビタビアライメント部７０は、入力文Ｊ₀と与えられた候補対訳文５８に含まれる対訳文（Ｊ_k，Ｅ_k）の各々のうちの第２の言語の文Ｅ_kについてビタビアライメントＡ_kを算出し、一致検出部７２及びアライメント探索部７４に結果を（Ｊ₀，Ａ_k，Ｅ_k）の形で与える。

一致検出部７２は、ビタビアライメント部７０から与えられた対訳文のうち、スコアｓｃｏｒｅ＝１となっているものがあるか否かを判定する。すなわち一致検出部７２は、候補対訳文のうち第１の言語の文が入力文３０と一致しているものがあるか否かを判定する。一致するものがある場合には一致検出部７２は一致検出信号７３の値を第１の値とし、それ以外の場合には一致検出部７２は一致検出信号７３の値を第２の値とする。一致するものがある場合には一致検出部７２はまた、その対訳文を対訳文７５として訳文選択部７６に与える。

アライメント探索部７４は、ビタビアライメント部７０から与えられたアライメント済みの候補対訳文（Ｊ₀，Ａ_k，Ｅ_k）を最初のシーズとして、言語モデル３８及び翻訳モデル４０を参照して、前述した探索を行ない、山登り法に従って尤度が最高のものが得られるまで探索を行なう。探索の過程では、アライメント探索部７４は、全てのアライメント済みの候補対訳文に対し、可能な全てのオペレータを適用して新たな候補対訳文（とアライメント）を生成する。アライメント探索部７４はさらに、こうして生成された候補対訳文（とアライメント）のうちで所定の条件を充足するもの（尤度の高いものから所定個数の対訳文）のみを残し、他は削除する。アライメント探索部７４はさらに、残った候補対訳文をシーズとして同様の処理を繰返す。そして、生成された候補対訳文に対して計算される尤度の改善が認められなくなったときに、その経路の探索を終了する（山登り法）。

こうして、すべての経路についての探索が終了した時点で最も高い尤度を与える対訳文が最終的な出力となる。アライメント探索部７４は、この対訳文７７を訳文選択部７６に与える。訳文選択部７６は、一致検出信号７３が第１の値であるときは一致検出部７２の出力である対訳文７５を、それ以外のときにはアライメント探索部７４の出力である対訳文７７を、それぞれ選択し出力文４２として出力する。

−評価−
上記した実施の形態に係るシステムの翻訳精度の評価を行なった。コーパスとして、出願人において準備した旅行会話用のコーパスを用いた。このコーパスは、日本語、英語、韓国語、及び中国語の対訳文を含んでいる。コーパスの統計情報を次の表に示す。

コーパス全体を３分割した。すなわち、１５２，１６９文を翻訳モデル及び言語モデルの学習に用い、４，８４９文をテストに用い、残りの１０，１４８文をパラメータ調整に用いた。パラメータとしては、学習時の繰返しの終了基準、及びデコーダのパラメータの調整のためのものがある。

言語モデルとして４つの言語の３−グラム言語モデルの学習を行ない、上の表に示す通りパープレキシティ尺度により評価した。４つの言語の組合せの全てについて、双方の方向の翻訳に関し、全部で１２の翻訳モデルの学習を行なった。

下の表に、本実施の形態に係るシステムを用いて上記した４言語の間で翻訳をして得られた結果を示す。表中に使用されている略語の意味は以下の通りである。

＜ＷＥＲ＞Ｗｏｒｄ−ｅｒｒｏｒ−ｒａｔｅ（単語誤り率）を表す。これは、基準となる模範的翻訳と比較した際の編集距離（挿入／削除／置換）を反映したものである。

＜ＰＥＲ＞位置独立な（Ｐｏｓｉｔｉｏｎ−ｉｎｄｅｐｅｎｄｅｎｔ）ＷＥＲを表す。これは、位置的な問題を除き、挿入と削除とのみに関する編集距離を反映したものである。

＜ＢＬＥＵ＞ＢＬＥＵスコアを表す。これは翻訳結果のｎ−グラムのうち、基準となる模範訳の中に見出されるものの率を表す。上記したＷＥＲ及びＰＥＲと異なり、ＢＬＵＥスコアは値が高いほど翻訳の質は高い。

＜ＳＥ＞主観的評価を表す。Ａ〜Ｄ（Ａ：完璧、Ｂ：ほぼ問題なし、Ｃ：まずまず、Ｄ：ナンセンス）の４段階により、人間が評価したもの。この評価は、人間がＡと評価したものの割合（Ａ）、Ａ又はＢと評価したものの割合（Ａ＋Ｂ）、及びＡ、Ｂ、又はＣと評価したものの割合（Ａ＋Ｂ＋Ｃ）で表す。本実験では上記４言語のうち、英語以外の３言語から英語への翻訳、及び日本語以外の３言語から日本語への翻訳について、日本語−英語間の翻訳結果であるとみなして評価した。この表において、細字はビーム探索を用いた機械翻訳装置による翻訳結果、太字は本実施の形態に係る機械翻訳装置による翻訳結果を示す。

この表から明らかな様に、本実施の形態による機械翻訳装置による翻訳結果は、全ての言語の組合せで、いずれの方向への翻訳においてもビーム探索方式の翻訳装置よりも優れた結果を示した。この相違はかなり大きなもので、本実施の形態による機械翻訳装置の性能が、ビーム探索を用いたものと比較して非常に高いことが明らかとなった。また、本実施の形態による翻訳結果は安定しており、局所的な最適解に陥ってしまうことも少ない。これは、最初の解として入力文に近いものを検索し、それを出発点として上記した山登り法と組合せた探索をすることで、大域的に見て最適な翻訳結果に近づく可能性が高いためと思われる。

初期候補選択部３２による初期候補の選択では、何らかの基準により入力文３０に近い第１の言語の文を持つ対訳文を探すことができれば、本実施の形態において用いた初期候補選択部３２とは異なる構成のものを用いてもよい。また、対訳コーパス３４から文単位で入力文に対する翻訳文を検索できない場合もあり得る。そのように文単位での検索ができなかった場合、入力文をより小さな単位、例えば句又は節などに分割し、分割後の単位で対訳コーパス３４を検索することによりそれらに対する訳を探し出し、それらを組合せることにより初期候補を作成するようにしてもよい。

さらに、初期候補選択部３２による初期候補の選択に替えて、他の何らかの翻訳方式による翻訳装置を用いて入力文を翻訳し、それを初期候補としてもよい。例えばそうした翻訳装置として用例翻訳装置を用い、用例翻訳の結果を初期候補としてもよい。その場合、用例翻訳で使用するコーパスは対訳コーパス３４と同一でもよいし、全く別のコーパスでもよい。

なお、上記した実施の形態では、アライメント探索部７４による山登り法において、幅優先探索と同様のアルゴリズムを用いた。しかし本発明はそうした実施の形態に限定されるわけではなく、深さ優先アルゴリズムを用いることも理論的には可能である。

−コンピュータによる実現−

なお、本実施の形態に係る機械翻訳装置は、コンピュータハードウェアと、当該コンピュータハードウェア上で動作するプログラム、及び当該コンピュータの記憶装置に記憶される対訳コーパス、翻訳モデル、及び言語モデルにより実現することもできる。特に、図４に示すアライメント探索部７４による探索は、再帰的プログラミングを用いることにより効率的に実行することができる。

そうしたプログラムは、上記した実施の形態の説明により、当業者であれば容易に実現できるであろう。

図５はこの機械翻訳装置を実現するコンピュータシステム３３０の外観を示し、図６はコンピュータシステム３３０の内部構成を示す。

図５を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図６を参照して、コンピュータ３４０は、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、プリンタ３４４を含んでいる。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０に機械翻訳装置としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態の機械翻訳装置としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）またはサードパーティのプログラム、もしくはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した機械翻訳装置を実現する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰り返さない。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。

本発明の一実施の形態に係る機械翻訳システムの機能ブロック図である。図１に示す初期候補選択部３２のより詳細な機能ブロック図である。図１に示す候補修正部３６のより詳細な機能ブロック図である。図３に示すアライメント探索部７４の処理の詳細を模式的に示す図である。本発明の一実施の形態に係る機械翻訳システムを実現するコンピュータの外観を示す図である。図５に示すコンピュータのブロック図である。語アライメントの一例を示す図である。

符号の説明

２０機械翻訳システム、３０入力文、３２初期候補選択部、３４対訳コーパス、３６候補修正部、３８言語モデル、４０翻訳モデル、４２出力文、５０ｔｆ／ｉｄｆ算出部、５２編集距離算出部、５４スコア算出部、５６対訳文選択部、５８候補対訳文、７０ビタビアライメント部、７２一致検出部

Claims

第１の言語の文と第２の言語の文とからなる対訳を複数個含む対訳コーパスとともに用いられる機械翻訳装置であって、
前記第１の言語の入力文を受け、前記入力文に対する前記第２の言語の翻訳文の初期候補を準備するための初期候補準備手段と、
前記初期候補に対して所定のオペレータを適用して得られる修正候補文を探索し、得られた修正候補文の中で統計的に予め定められる所定の条件を充足するものを前記入力文に対する翻訳文として出力するための候補修正手段とを含む、機械翻訳装置。
前記初期候補準備手段は、前記第１の言語の入力文を受け、前記入力文との類似度に関連する所定の条件を充足する前記第１の言語の文を含む対訳文を、前記初期候補として前記対訳コーパス中から検索するための初期候補選択手段を含む、請求項１に記載の機械翻訳装置。
前記初期候補選択手段が前記初期候補を選択できないことを検出するための検出手段と、
前記検出手段により前記初期候補選択手段による前記初期候補の選択ができないことが検出されたことに応答して、前記入力文を文よりも小さな部分単位に分割し、分割された部分単位ごとに前記対訳コーパスから検索された訳を組合せることにより、前記初期候補を準備するための手段とをさらに含む、請求項２に記載の機械翻訳装置。
前記初期候補準備手段は、前記第１の言語の入力文を受け、前記入力文に対して所定の機械翻訳方式により機械翻訳を行なって前記初期候補を準備するための機械翻訳手段を含む、請求項１に記載の機械翻訳装置。
前記初期候補準備手段は、前記第１の言語の入力文を受け、予め定める用例コーパスを用いて用例翻訳を行なうことにより前記入力文に対応する訳文を生成するための用例翻訳手段を含む、請求項１に記載の機械翻訳装置。
前記用例コーパスは前記対訳コーパスである、請求項５に記載の機械翻訳装置。
前記初期候補準備手段は、前記初期候補を予め定める複数個準備する、請求項１〜請求項６のいずれかに記載の機械翻訳装置。
前記初期候補選択手段は、
前記対訳コーパスに含まれる前記第１の言語の各文と前記入力文との間で、前記対訳コーパスに含まれる前記第１の言語の文を文書とみなして定義される文書頻度を用いた所定の類似尺度を算出するための類似尺度算出手段と、
前記対訳コーパスに含まれる前記第１の言語の各文と前記入力文との間の編集距離を算出するための編集距離算出手段と、
前記類似尺度算出手段により算出された類似尺度、及び前記編集距離算出手段により算出された編集距離に基づいて定義されるスコアを算出し、当該スコアが所定の条件を充足する対訳文を前記初期候補として選択するためのスコア算出手段とを含む、請求項２に記載の機械翻訳装置。
前記類似尺度算出手段は、前記対訳コーパスに含まれる前記第１の言語の各文と前記入力文との間で、以下の式に従ってｔｆ／ｉｄｆ基準Ｐ_tf/idfを算出するための手段を含み、

ただしＪ₀は入力文、Ｊ_0,iは入力文Ｊ₀のｉ番目の単語、ｄｆ（Ｊ_0,i）は単語Ｊ_0,iに対する文書頻度、Ｊ_kはｋ番目の前記第１の言語の文（１≦ｋ≦Ｎ）、Ｎは対訳コーパス内の全ての対訳文の数を、それぞれ示す、請求項８に記載の機械翻訳装置。
前記編集距離算出手段は、入力文Ｊ₀と前記第１の言語の文Ｊ_kの間のＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチングを行なって編集距離ｄｉｓ（Ｊ_k，Ｊ₀）を算出するための手段を含み、編集距離ｄｉｓ（Ｊ_k，Ｊ₀）は以下の式

ただしｋは１≦ｋ≦Ｎなる整数、Ｉ（Ｊ_k，Ｊ₀）、Ｄ（Ｊ_k，Ｊ₀）、及びＳ（Ｊ_k，Ｊ₀）はそれぞれ文Ｊ₀を文Ｊ_kに変形させる際に必要な語の挿入、削除、及び置換の数、により定められる、請求項９に記載の機械翻訳装置。
前記スコア算出手段は、前記第１の言語の文Ｊ_kに対し、前記類似尺度算出手段により算出されたｔｆ／ｉｄｆ基準Ｐ_tf/idf、及び前記編集距離算出手段により算出された編集距離ｄｉｓ（Ｊ_k，Ｊ₀）に基づいて次の式

ただしαは調整パラメータ、により定義されるスコアを算出するための手段と、
前記スコアを算出するための手段により算出されたスコアの大きなものから順番に予め定める個数の対訳文を前記初期候補として選択するための手段とを含む、請求項１０に記載の機械翻訳装置。
前記スコアが１の対訳文があるか否かを判定し、スコアが１の対訳文があるときに、当該対訳文を前記訳文として選択するための手段をさらに含む、請求項１１に記載の機械翻訳装置。
前記機械翻訳装置は、前記第２の言語の言語モデル、及び前記第２の言語から前記第１の言語への翻訳モデルに接続されて使用され、
前記候補修正手段は、
前記スコアが１の対訳文がないと判定されたことに応答して、前記初期候補選択手段により選択された対訳文を第１の候補文として、当該第１の候補文に対して所定のオペレータを適用して得られる修正候補文を探索するための探索手段と、
前記探索手段により探索された修正候補文の各々の尤度を前記言語モデル及び前記翻訳モデルに基づいて算出するための尤度算出手段と、
前記探索手段により探索される修正候補文の尤度に対し山登り法を適用して、最高の尤度を持つ修正候補文を選択するための手段とを含む、請求項１２に記載の機械翻訳装置。
前記機械翻訳装置は、前記第２の言語の言語モデル、及び前記第２の言語から前記第１の言語への翻訳モデルに接続されて使用され、
前記候補修正手段は、
前記初期候補準備手段により準備された初期候補に対して所定のオペレータを適用して得られる修正候補文を探索するための探索手段と、
前記探索手段により探索された修正候補文の各々の尤度を前記言語モデル及び前記翻訳モデルに基づいて算出するための尤度算出手段と、
前記探索手段により探索された修正候補文の尤度に対し山登り法を適用して、最高の尤度を持つ修正候補文を選択するための手段とを含む、請求項１〜請求項１２のいずれかに記載の機械翻訳装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項１４のいずれかに記載の機械翻訳装置として動作させる、機械翻訳コンピュータプログラム。
請求項１５に記載のコンピュータプログラムによりプログラムされたコンピュータ。