JP2007317000A

JP2007317000A - 機械翻訳装置、その方法およびプログラム

Info

Publication number: JP2007317000A
Application number: JP2006146849A
Authority: JP
Inventors: Masaaki Nagata; 昌明永田; Kuniko Saito; 邦子齋藤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2006-05-26
Filing date: 2006-05-26
Publication date: 2007-12-06

Abstract

【課題】原言語の文を語順が大きく異なる別の目的言語の文に機械翻訳する際に、より自然で文法的に正しい翻訳を可能とすること。
【解決手段】近似的に求めたＮ−ｂｅｓｔ句対応付けの初期値から翻訳モデル推定手段３により句翻訳確率と句並び替え確率を求め、その句翻訳確率と句並び替え確率と言語確率を用いてＮ−ｂｅｓｔ句対応付け手段４によりＮ−ｂｅｓｔ句対応付けを求め、さらにこのＮ−ｂｅｓｔ句対応付けから翻訳モデル推定手段３により句翻訳確率と句並び替え確率を求めるという手順を繰り返すことによって句翻訳確率と句並び替え確率を精度良く推定し、こうして推定した句翻訳確率と句並び替え確率を用いて翻訳デコーディング手段８により、原言語文の文を句に分割し、各々の句の対訳となる目的言語の句を列挙し、これを並べ替えることにより目的言語の文を生成する。
【選択図】図３

Description

本発明は、第１の言語（原言語）の文を該第１の言語とは別の第２の言語（目的言語）の文に翻訳する機械翻訳技術、特に入力された原言語の文を句に分割し、各々の句の対訳となる目的言語の句を列挙し、これを並べ替えることにより目的言語の文を生成する機械翻訳装置において、互いに翻訳になっている原言語の句と目的言語の句との対の確率モデル、および、原言語における句の並びと目的言語における句の並びとの対応関係の確率モデルをより正確に求めることにより、目的言語の句の選択および句の並び替えがより適切に行われるようにした機械翻訳装置に関するものである。

近年、対訳コーパスから翻訳モデルを学習することで統計的に翻訳を行う統計的機械翻訳（統計翻訳）についての研究が盛んに行われている。辞書や規則を人手で作成する従来の方法に比べて、統計的機械翻訳は、対訳コーパスさえあれば、短期間に低コストで機械翻訳システムを作成できるという利点がある。

統計的機械翻訳は、１９９０年代前半にＩＢＭ研究所においてその基礎が確立された。当時ＩＢＭで考案された翻訳モデルは、単語を翻訳の基本単位としており、一般に「ＩＢＭ翻訳モデル」と呼ばれる。

また、近年、単語を翻訳の基本単位とするＩＢＭモデルに対して、１つの単語もしくは２つ以上の連続する単語からなる単語列、即ち句（ｐｈｒａｓｅ）を翻訳の基本単位とする「句に基づく翻訳モデル」が盛んに研究されている。句に基づく翻訳モデルは、単語に基づく翻訳モデルに比べて、文脈に基づく訳語選択や局所的な語の並べ替えを表現する能カが高いため、現在、最も優れた統計翻訳モデルとされている。

しかし、従来の句に基づく翻訳における句の並び替えのモデルは、目的言語において隣り合う２つの句に対応する原言語の２つの句の相対的な距離の絶対値に基づいて、原言語と目的言語との句の並び方が同じでない場合にペナルティを与えるという単純なものである。このため、語順が近い言語間の翻訳では有効に働くが、日本語と英語のように語順が離れた言語間の翻訳は難しいという問題があった。

そこで、非特許文献１において、原言語と目的言語との間で句の並びが正順か逆順か、および、句が隣接しているか隣接していないかに着目する大局的な句並び替えモデルが提案された。以下、この大局的な句並び替えモデルの概要を説明する。

まず、統計的機械翻訳では、原言語ｆが目的言語ｅへ翻訳される確率ｐ（ｅ｜ｆ）を最大とする目的言語の文

を求める。これはベイズの法則によりｐ（ｆ｜ｅ）ｐ（ｅ）を最大化すれば良い。

ここで、ｐ（ｅ）を「言語モデル」、ｐ（ｆ｜ｅ）を「翻訳モデル」と呼ぶ。言語モデルは、目的言語の文の尤もらしさを確率として表現するモデルで、一般的には単語ｔｒｉｇｒａｍモデルが用いられる。

句に基づく翻訳では、翻訳モデルとして次式を使用する。

ここで、

を「句翻訳確率」、

を「句並び替え確率」と呼ぶ。また、句翻訳確率を計算するための確率モデルを「句翻訳モデル」と呼び、句並び替え確率を計算するための確率モデルを「句並び替えモデル」と呼ぶ。従って、翻訳モデルは句翻訳モデルと句並び替えモデルから構成されることになる。

式（２）においてＩは句の数を表し、原言語の文はＩ個の句の列

に分割される。

は分割されたそれぞれの句、

は

の対訳となる句である。目的言語の文はＩ個の句の列

から構成される。

句翻訳確率は、互いに対訳になっている句（対訳句）の集合を対訳コーパスから統計的な方法で予め求めておけば、次式のように、同じ目的言語の句の対訳となる様々な原言語の句の相対頻度から計算することができる。

非特許文献１では、目的言語の隣り合う２つの句に対応する原言語の２つの句の間の距離および順序関係を以下の４つの場合に分けている。以後、これを「翻訳順序パターン」と呼ぶことにする。
・正順間隙なし（ＭｏｎｏｔｏｎｅＡｄｊａｃｅｎｔ；ＭＡ）：対応する原言語の２つの句は、目的言語の句と同じ順番で、かつ、連接している。
・正順間隙あり（ＭｏｎｏｔｏｎｅＧａｐ；ＭＧ）：対応する原言語の２つの句は、目的言語の句と同じ順番で、かつ、連接していない。
・逆順間隙なし（ＲｅｖｅｒｓｅＡｄｊａｃｅｎｔ；ＲＡ）：対応する原言語の２つの句は、目的言語の句とは反対の順番で、かつ、連接している。
・逆順間隙あり（ＲｅｖｅｒｓｅＧａｐ；ＲＧ）：対応する原言語の２つの句は、目的言語の句とは反対の順番で、かつ、連接していない。

図１に、正順間隙なし（ＭＡ）、正順間隙あり（ＭＧ）、逆順間隙なし（ＲＡ）、逆順間隙あり（ＲＧ）のそれぞれにおける、目的言語（ｔａｒｇｅｔ）の隣り合う２つの句

と

に対する原言語（Ｓｏｕｒｃｅ）の２つの句

と

の位置関係を図示する。

また、日本語から英語への翻訳において「言語はコミュニケーションの道具である」と“ｌａｎｇｕａｇｅｉｓａｍｅａｎｓｏｆｃｏｍｍｕｎｉｃａｔｉｏｎ”の句対応付けを図２に示す。ここでは、この対訳文は以下の４つの対訳句に分割され、
ｂ₁：（ｌａｎｇｕａｇｅ，言語は）
ｂ₂：（ｉｓ，である）
ｂ₃：（ａｍｅａｎｓ，道具）
ｂ₄：（ｏｆｃｏｍｍｕｎｉｃａｔｉｏｎ，コミュニケーションの）
目的言語（英語）の文を生成する際の句の並び替えは以下のように表現される。
ｂ₁→ｂ₂ 正順間隙あり（ＭＧ）
ｂ₂→ｂ₃ 逆順間隙なし（ＲＡ）
ｂ₃→ｂ₄ 逆順間隙なし（ＲＡ）
ここでは、目的言語の隣り合う２つの句に対応する原言語の２つの句が与えられた際に、上記の翻訳順序パターンのいずれにあてはまるかを予測する確率を「句並び替え確率」と呼ぶ。

句並び替え確率は、対訳文の句対応付けが与えられれば、目的言語の隣り合う２つの句および対応する原言語の２つの句に対する翻訳順序パターンの相対頻度から求めることができる。

ＫａｚｕｔｅｒｕＯｈａｓｈｉ，ＨｉｄｅｋａｚｕＹａｍａｍｏｔｏ，ＫｕｎｉｋｏＳａｉｔｏ，ａｎｄＭａｓａａｋｉＮａｇａｔａ"ＮＵＴ−ＮＴＴＳｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎＳｙｓｔｅｍｆｏｒＩＷＳＬＴ２００５"，ＰｒｏｃｅｅｄｉｎｇｓｏｆＩｎｔｅｒｎａｔｉｏｎａｌＷｏｒｋｓｈｏｐｆｏｒＳｐｏｋｅｎＬａｎｇａｕｇｅＴｒａｎｓｌａｔｉｏｎ，２００５，ｐ．１２８〜１３３

前述した大局的な句並び替えモデルを用いる統計的機械翻訳手法では、句並び替え確率を計算するために、何らかの方法で対訳文の句対応付けを求める必要がある。

ところが、従来の句に基づく翻訳モデルでは、任意の原言語の句と任意の目的言語の句に対して、句翻訳確率を求めることができないので、任意の対訳文に対して必ず句対応付けを求められる保証がない。

またそもそも、句翻訳確率と句並び替え確率が既知であれば句対応付けを求めることができ、句対応付けが既知であれば句翻訳確率と句並び替え確率を求めることができるというように、両者は「タマゴとニワトリの関係」にある。

そこで、非特許文献１では、単語翻訳確率ｐ（ｆ_j｜ｅ_i）を用いて句翻訳確率を次式のように近似し、

次式のように句翻訳確率の積が最大となる句対応を求めることで、句翻訳確率および句並び替え確率を使わずに、句対応付けを求めている。

従って、従来の手法では、近似的にしか句並び替え確率を求めておらず、句翻訳確率や句並び替え確率の値が必ずしも正確であるという保証がないという問題点があった。

本発明は、このような事情に鑑みてなされたものであり、従来手法において近似的に求めていた句対応付けを初期値として、句対応付けから句翻訳確率と句並び替え確率を求め、句翻訳確率と句並び替え確率から句対応付けを求めるという手順を繰り返すことにより、句翻訳確率と句並び替え確率をより正確に推定し、こうして推定された句翻訳確率と句並び替え確率を使用することにより、より自然で文法的に正しい目的言語の文を生成できる機械翻訳装置を提供することを目的とする。

図３は本発明の機械翻訳装置の原理構成図である。

本発明の機械翻訳装置は、対訳コーパス１と、初期Ｎ−ｂｅｓｔ句対応付け手段２と、翻訳モデル推定手段３と、Ｎ−ｂｅｓｔ句対応付け手段４と、句翻訳モデル（句翻訳確率計算手段）５と、句並び替えモデル（句並び替え確率計算手段）６と、言語モデル（言語確率計算手段）７と、翻訳デコーディング手段８とを有する。

対訳コーパス１は、互いに翻訳になっている原言語の文と目的言語の文との対である対訳文を多数記憶している。初期Ｎ−ｂｅｓｔ句対応付け手段２は、対訳コーパス１から各対訳文のＮ−ｂｅｓｔ句対応付けの初期値を求める。

翻訳モデル推定手段３は、初期Ｎ−ｂｅｓｔ句対応付け手段２で求められる対訳コーパス中の各対訳文のＮ−ｂｅｓｔ句対応付けの初期値、もしくはＮ−ｂｅｓｔ句対応付け手段４で求められる対訳コーパス中の各対訳文のＮ−ｂｅｓｔ句対応付けから、句翻訳モデル５および句並び替えモデル６を用いて句翻訳確率および句並び替え確率を求める。

Ｎ−ｂｅｓｔ句対応付け手段４は、対訳コーパス１中の各対訳文に対して、原言語の各句の対訳となる目的言語の句のうちで目的言語の文に含まれる句を句翻訳モデル５から検索し、これらの句を並び替えることにより得られるものが目的言語の文と一致するような句対応付けを、句翻訳モデル５により求められる句翻訳確率と、句並び替えモデル６により求められる句並び替え確率と、言語モデル７により求められる言語確率との積が大きいものから順にＮ個求め、Ｎ−ｂｅｓｔ句対応付けとして出力する。

句翻訳モデル５は、互いに翻訳になっている原言語の句と目的言語の句との組を多数記憶するとともに、目的言語の句が原言語の句へ翻訳される確率である句翻訳確率を求める。句並び替えモデル６は、目的言語の隣り合う２つの句に対応する原言語の２つの句の距離および順序に関する確率である句並び替え確率を求める。言語モデル７は、目的言語の任意の単語列が生成される確率である言語確率を求める。

翻訳デコーディング手段８は、入力された原言語の文を句に分割し、原言語の各句の対訳となる目的言語の句を句翻訳モデル５から検索し、これらの句を並び替えることにより目的言語の文を作成し、該作成した目的言語の文の中で、句翻訳モデル５により求められる句翻訳確率と、句並び替えモデル６により求められる句並び替え確率と、言語モデル７により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する。

図４は本発明の機械翻訳装置の原理のうち、翻訳モデル（句翻訳モデルと句並び替えモデル）を推定する部分を説明するためのフローチャートである。

本発明の機械翻訳装置では、翻訳モデルを推定するために、
まず、初期Ｎ−ｂｅｓｔ句対応付け手段２により対訳コーパス１から各対訳文のＮ−ｂｅｓｔ句対応付けの初期値を求める（ステップｓ１）。

次に、翻訳モデル推定手段３により対訳コーパス１中の各対訳文のＮ−ｂｅｓｔ句対応付けの初期値から句翻訳モデルと句並び替えモデルを求める、即ち対訳コーパス１中の各対訳文のＮ−ｂｅｓｔ句対応付けの初期値を句翻訳モデル５および句並び替えモデル６に与え、句翻訳確率および句並び替え確率をそれぞれ求めさせる（ステップｓ２）。

次に、Ｎ−ｂｅｓｔ句対応付け手段４により句翻訳モデルと句並び替えモデルと言語モデルとを用いて対訳コーパス１からＮ−ｂｅｓｔ句対応付けを求める、即ち原言語の各句の対訳となる目的言語の句のうちで目的言語の文に含まれる句を句翻訳モデル５から検索し、これらの句を並び替えることにより得られるものが目的言語の文と一致するような句対応付けを、句翻訳モデル５により求められる句翻訳確率と、句並び替えモデル６により求められる句並び替え確率と、言語モデル７により求められる言語確率との積が大きいものから順にＮ個求め、Ｎ−ｂｅｓｔ句対応付けとして出力する（ステップｓ３）。

次に、Ｎ−ｂｅｓｔ句対応付け手段４で求めた対訳コーパス１中の各対訳文のＮ−ｂｅｓｔ句対応付けから、翻訳モデル推定手段３により前記同様にして句翻訳確率と句並び替え確率を求める（ステップｓ４）。

ここで、終了条件に達していれば、翻訳モデルの推定は終了する（ステップｓ５）。終了条件としては、一般に、繰り返しの回数の上限を指定するか、または、対訳コーパス１の対数尤度の変化がある閾値以下に達することを指定する。終了条件に達していなければ、ステップｓ３へ戻り（ステップｓ５）、同様な処理を繰り返す。

従って、このような構成になっているので、Ｎ−ｂｅｓｔ句対応付けの初期値から句翻訳確率と句並び替え確率を求め、この句翻訳確率と句並び替え確率と言語確率を使ってＮ−ｂｅｓｔ句対応付けを求め、さらにこのＮ−ｂｅｓｔ句対応付けから句翻訳確率と句並び替え確率を求めるという手順を繰り返すことにより、句翻訳確率と句並び替え確率を精度良く推定し、より自然かつ文法的に正しい目的言語の文を生成できるような機械翻訳装置を構成できる。

［作用］
従来の句に基づく翻訳では、大局的な句並び替えモデルを近似的にしか求められないという問題があった。

本発明は、まずＮ−ｂｅｓｔ句対応付けの初期値を求め、次にＮ−ｂｅｓｔ句対応付けから句並び替え確率を求め、句並び替え確率を使ってＮ−ｂｅｓｔ句対応付けを求めることを繰り返すことにより、より正確に句並び替え確率を求めることができる。これにより、従来に比べて、目的言語の句の並びがより自然で文法的に正しい語順となるような機械翻訳装置を実現できる。

本発明によれば、Ｎ−ｂｅｓｔ句対応付けから句翻訳確率と句並び替え確率を求め、句翻訳確率と句並び替え確率と言語確率とからＮ−ｂｅｓｔ句対応付けを求めることを繰り返すことによって、句翻訳確率と句並び替え確率を正確に推定し、この句翻訳確率と句並び替え確率（翻訳モデル）を用いて翻訳を行うことにより、より文法的に正しく自然な語順を持つ目的言語の文を生成できる機械翻訳装置を実現できる。

図５は本発明の機械翻訳装置の実施の形態の一例を示すもので、図中、図３と同一構成部分は同一符号をもって表す。即ち、１は対訳コーパス、２は初期Ｎ−ｂｅｓｔ句対応付け手段、３は翻訳モデル推定手段、４はＮ−ｂｅｓｔ句対応付け手段、５は句翻訳モデル（句翻訳確率計算手段）、６は句並び替えモデル（句並び替え確率計算手段）、７は言語モデル（言語確率計算手段）、８は翻訳デコーディング手段、９は単語翻訳モデル（単語翻訳確率計算手段）、１０は単語翻訳確率推定手段、１１は句翻訳確率近似手段である。

単語翻訳モデル９は、互いに翻訳になっている原言語の単語と目的言語の単語との組を多数記憶するとともに、目的言語の単語が原言語の単語へ翻訳される確率である単語翻訳確率を求める。単語翻訳確率推定手段１０は、対訳コーパス１中の各対訳文を単語翻訳モデル９に与え、単語翻訳確率を求めさせる。句翻訳確率近似手段１１は、単語翻訳確率から句翻訳確率の近似値を求める。

また、ここで、初期Ｎ−ｂｅｓｔ句対応付け手段２は、対訳コーパス１中の各対訳文に対して、原言語の各句の対訳となる目的言語の句のうちで目的言語の文に含まれる句を句翻訳モデル５から検索し、これらの句を並び替えることにより得られるものが目的言語の文と一致するような句対応付けを、前記句翻訳確率の近似値の積が大きいものから順にＮ個の句対応付けを求め、Ｎ−ｂｅｓｔ句対応付けの初期値として翻訳モデル推定手段３に与える。

＜翻訳モデルを求める手順＞
本発明の実施の形態における単語翻訳確率推定手段１０は、対訳コーパス１から単語翻訳確率を求められる手法であれば何でも良い。例えば、ＩＢＭ翻訳モデルを学習するアルゴリズムを実装し、一般に公開されているツールであるＧＩＺＡ＋＋を使えば良い。

句翻訳確率近似手段１１も、単語翻訳確率に基づくものであれば何でも良い。本発明の実施の形態では、ＩＢＭ翻訳モデルにおいて原言語と目的言語を交換することにより２つの単語翻訳確率ｐ（ｆ_j｜ｅ_i）とｐ（ｅ_i｜ｆ_j）を求め、次式により句翻訳確率を近似する。

二種類の単語翻訳確率を用いることにより、ｐ（ｆ_j｜ｅ_i）とｐ（ｅ_i｜ｆ_j）のいずれかがゼロに近い値になった際でも、全体の確率がゼロに近くなってしまうことを防げるという効果がある。

本発明の実施の形態では、初期Ｎ−ｂｅｓｔ句対応付け手段２として、次式の句翻訳確率の積が大きい順にＮ個の句対応を求める。

図６にＮ−ｂｅｓｔ句対応付けの一例を示す。この例では、「信号は赤でした」という日本語文と“ｔｈｅｌｉｇｈｔｗａｓｒｅｄ”という英文の上位３個の句対応を表示している。

本発明の実施の形態における翻訳モデル推定手段３では、全ての対訳文の全てのＮ−ｂｅｓｔ句対応候補を対等に扱う。そして、次式により句翻訳確率を推定し、

また次式により句並び替えモデルを推定する。

本発明の実施の形態におけるＮ−ｂｅｓｔ句対応付け手段４では、次式の句翻訳確率と句並び替え確率の積が大きい順にＮ個の句対応付けを求める。

以後、翻訳モデルの推定とＮ−ｂｅｓｔ句対応付けを繰り返す。

一方、本発明の実施の形態における言語モデル７は、単語ｔｒｉｇｒａｍモデルである。この単語ｔｒｉｇｒａｍモデルは、対訳コーパス１における目的言語の文から作成しても良いし、他の目的言語のコーパスから作成しても良い。

＜翻訳の実行＞
本発明の実施の形態において、翻訳デコーディング手段８により、原言語の文を目的言語の文に翻訳する手順について説明する。

まず、入力された原言語の文を句に分割し、原言語の文に含まれる全ての原言語の句の対訳となる目的言語の句を句翻訳モデル５から検索し、これらの句を並び替えることにより目的言語の文を作成する。次に、作成した目的言語の文の中で、句翻訳モデル５により求められる句翻訳確率と、句並び替えモデル６により求められる句並び替え確率と、言語モデル７により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する。

なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図２、図５の構成図に示された機能を実現するプログラムあるいは図４のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。

翻訳順序パターンの説明図翻訳順序パターンを用いた句対応付けの一例を示す説明図本発明の機械翻訳装置の原理構成図本発明の機械翻訳装置の原理を説明するためのフローチャート本発明の機械翻訳装置の実施の形態の一例を示す構成図Ｎ−ｂｅｓｔ句対応付けの一例を示す説明図

符号の説明

１：対訳コーパス、２：初期Ｎ−ｂｅｓｔ句対応付け手段、３：翻訳モデル推定手段、４：Ｎ−ｂｅｓｔ句対応付け手段、５：句翻訳モデル（句翻訳確率計算手段）、６：句並び替えモデル（句並び替え確率計算手段）、７：言語モデル（言語確率計算手段）、８：翻訳デコーディング手段、９：単語翻訳モデル（単語翻訳確率計算手段）、１０：単語翻訳確率推定手段、１１：句翻訳確率近似手段。

Claims

第１の言語の文を該第１の言語とは別の第２の言語の文に翻訳する機械翻訳装置であって、
互いに翻訳になっている第１の言語の文と第２の言語の文との対である対訳文を多数記憶した対訳コーパスと、
互いに翻訳になっている第１の言語の句と第２の言語の句との組を多数記憶するとともに、第２の言語の句が第１の言語の句へ翻訳される確率である句翻訳確率を求める句翻訳確率計算手段と、
第２の言語の隣り合う２つの句に対応する第１の言語の２つの句の距離および順序に関する確率である句並び替え確率を求める句並び替え確率計算手段と、
第２の言語の任意の単語列が生成される確率である言語確率を求める言語確率計算手段と、
対訳コーパス中の各対訳文のＮ−ｂｅｓｔ句対応付けもしくはその初期値から前記句翻訳確率計算手段および前記句並び替え確率計算手段を用いて句翻訳確率および句並び替え確率を求める翻訳モデル推定手段と、
対訳コーパス中の各対訳文に対して、第１の言語の各句の対訳となる第２の言語の句のうちで第２の言語の文に含まれる句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより得られるものが第２の言語の文と一致するような句対応付けを、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が大きいものから順にＮ個求め、Ｎ−ｂｅｓｔ句対応付けとして出力するＮ−ｂｅｓｔ句対応付け手段と、
入力された第１の言語の文を句に分割し、第１の言語の各句の対訳となる第２の言語の句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより第２の言語の文を作成し、該作成した第２の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーディング手段とを備え、
翻訳モデル推定手段によりＮ−ｂｅｓｔ句対応付けの初期値から前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求め、Ｎ−ｂｅｓｔ句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパス中の各対訳文に対するＮ−ｂｅｓｔ句対応付けを求め、翻訳モデル推定手段によりＮ−ｂｅｓｔ句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求め、終了条件に達していれば処理を終了し、終了条件に達していなければ、Ｎ−ｂｅｓｔ句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパスからＮ−ｂｅｓｔ句対応付けを求め、翻訳モデル推定手段によりＮ−ｂｅｓｔ句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めることを繰り返す
ことを特徴とする機械翻訳装置。
前記に加え、
互いに翻訳になっている第１の言語の単語と第２の言語の単語との組を多数記憶するとともに、第２の言語の単語が第１の言語の単語へ翻訳される確率である単語翻訳確率を求める単語翻訳モデルと、
単語翻訳確率から句翻訳確率の近似値を求める句翻訳確率近似手段と、
対訳コーパス中の各対訳文に対する句対応付けのうち、句翻訳確率の近似値の積が大きいものから順にＮ個の句対応付けを求め、Ｎ−ｂｅｓｔ句対応付けの初期値として翻訳モデル推定手段に与える初期Ｎ−ｂｅｓｔ句対応付け手段とを備える
ことを特徴とする請求項１記載の機械翻訳装置。
コンピュータを用いて第１の言語の文を該第１の言語とは別の第２の言語の文に翻訳する方法であって、
コンピュータは、
互いに翻訳になっている第１の言語の文と第２の言語の文との対である対訳文を多数記憶した対訳コーパスと、
互いに翻訳になっている第１の言語の句と第２の言語の句との組を多数記憶するとともに、第２の言語の句が第１の言語の句へ翻訳される確率である句翻訳確率を求める句翻訳確率計算手段と、
第２の言語の隣り合う２つの句に対応する第１の言語の２つの句の距離および順序に関する確率である句並び替え確率を求める句並び替え確率計算手段と、
第２の言語の任意の単語列が生成される確率である言語確率を求める言語確率計算手段と、
対訳コーパス中の各対訳文のＮ−ｂｅｓｔ句対応付けもしくはその初期値から前記句翻訳確率計算手段および前記句並び替え確率計算手段を用いて句翻訳確率および句並び替え確率を求める翻訳モデル推定手段と、
対訳コーパス中の各対訳文に対して、第１の言語の各句の対訳となる第２の言語の句のうちで第２の言語の文に含まれる句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより得られるものが第２の言語の文と一致するような句対応付けを、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が大きいものから順にＮ個求め、Ｎ−ｂｅｓｔ句対応付けとして出力するＮ−ｂｅｓｔ句対応付け手段と、
入力された第１の言語の文を句に分割し、第１の言語の各句の対訳となる第２の言語の句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより第２の言語の文を作成し、該作成した第２の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーディング手段とを備え、
前記コンピュータが、
翻訳モデル推定手段によりＮ−ｂｅｓｔ句対応付けの初期値から前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求め、
Ｎ−ｂｅｓｔ句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパス中の各対訳文に対するＮ−ｂｅｓｔ句対応付けを求め、
翻訳モデル推定手段によりＮ−ｂｅｓｔ句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求め、
終了条件に達していれば処理を終了し、終了条件に達していなければ、Ｎ−ｂｅｓｔ句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパスからＮ−ｂｅｓｔ句対応付けを求め、翻訳モデル推定手段によりＮ−ｂｅｓｔ句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めることを繰り返す
ことを特徴とする機械翻訳方法。
コンピュータは、前記に加え、
互いに翻訳になっている第１の言語の単語と第２の言語の単語との組を多数記憶するとともに、第２の言語の単語が第１の言語の単語へ翻訳される確率である単語翻訳確率を求める単語翻訳モデルと、
単語翻訳確率から句翻訳確率の近似値を求める句翻訳確率近似手段と、
対訳コーパス中の各対訳文に対する句対応付けのうち、句翻訳確率の近似値の積が大きいものから順にＮ個の句対応付けを求める初期Ｎ−ｂｅｓｔ句対応付け手段とを備え、
初期Ｎ−ｂｅｓｔ句対応付け手段で求めたＮ−ｂｅｓｔ句対応付けをＮ−ｂｅｓｔ句対応付けの初期値として翻訳モデル推定手段に与える
ことを特徴とする請求項３記載の機械翻訳方法。
コンピュータに第１の言語の文を該第１の言語とは別の第２の言語の文に翻訳させるプログラムであって、
互いに翻訳になっている第１の言語の文と第２の言語の文との対である対訳文を多数記憶した対訳コーパスと、
互いに翻訳になっている第１の言語の句と第２の言語の句との組を多数記憶するとともに、第２の言語の句が第１の言語の句へ翻訳される確率である句翻訳確率を求める句翻訳確率計算手段と、
第２の言語の隣り合う２つの句に対応する第１の言語の２つの句の距離および順序に関する確率である句並び替え確率を求める句並び替え確率計算手段と、
第２の言語の任意の単語列が生成される確率である言語確率を求める言語確率計算手段と、
対訳コーパス中の各対訳文のＮ−ｂｅｓｔ句対応付けもしくはその初期値から前記句翻訳確率計算手段および前記句並び替え確率計算手段を用いて句翻訳確率および句並び替え確率を求める翻訳モデル推定手段と、
対訳コーパス中の各対訳文に対して、第１の言語の各句の対訳となる第２の言語の句のうちで第２の言語の文に含まれる句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより得られるものが第２の言語の文と一致するような句対応付けを、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が大きいものから順にＮ個求め、Ｎ−ｂｅｓｔ句対応付けとして出力するＮ−ｂｅｓｔ句対応付け手段と、
入力された第１の言語の文を句に分割し、第１の言語の各句の対訳となる第２の言語の句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより第２の言語の文を作成し、該作成した第２の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーディング手段とを備えたコンピュータに、
翻訳モデル推定手段によりＮ−ｂｅｓｔ句対応付けの初期値から前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めるステップと、
Ｎ−ｂｅｓｔ句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパス中の各対訳文に対するＮ−ｂｅｓｔ句対応付けを求めるステップと、
翻訳モデル推定手段によりＮ−ｂｅｓｔ句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めるステップと、
終了条件に達していれば処理を終了し、終了条件に達していなければ、Ｎ−ｂｅｓｔ句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパスからＮ−ｂｅｓｔ句対応付けを求めるステップ、および翻訳モデル推定手段によりＮ−ｂｅｓｔ句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めるステップを繰り返すステップとを実行させる
ことを特徴とする機械翻訳プログラム。
コンピュータは、前記に加え、
互いに翻訳になっている第１の言語の単語と第２の言語の単語との組を多数記憶するとともに、第２の言語の単語が第１の言語の単語へ翻訳される確率である単語翻訳確率を求める単語翻訳モデルと、
単語翻訳確率から句翻訳確率の近似値を求める句翻訳確率近似手段と、
対訳コーパス中の各対訳文に対する句対応付けのうち、句翻訳確率の近似値の積が大きいものから順にＮ個の句対応付けを求める初期Ｎ−ｂｅｓｔ句対応付け手段とを備え、
初期Ｎ−ｂｅｓｔ句対応付け手段で求めたＮ−ｂｅｓｔ句対応付けをＮ−ｂｅｓｔ句対応付けの初期値として翻訳モデル推定手段に与える
ことを特徴とする請求項５記載の機械翻訳プログラム。