JP2007317000A - 機械翻訳装置、その方法およびプログラム - Google Patents

機械翻訳装置、その方法およびプログラム Download PDF

Info

Publication number
JP2007317000A
JP2007317000A JP2006146849A JP2006146849A JP2007317000A JP 2007317000 A JP2007317000 A JP 2007317000A JP 2006146849 A JP2006146849 A JP 2006146849A JP 2006146849 A JP2006146849 A JP 2006146849A JP 2007317000 A JP2007317000 A JP 2007317000A
Authority
JP
Japan
Prior art keywords
phrase
probability
translation
language
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2006146849A
Other languages
English (en)
Inventor
Masaaki Nagata
昌明 永田
Kuniko Saito
邦子 齋藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2006146849A priority Critical patent/JP2007317000A/ja
Publication of JP2007317000A publication Critical patent/JP2007317000A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】原言語の文を語順が大きく異なる別の目的言語の文に機械翻訳する際に、より自然で文法的に正しい翻訳を可能とすること。
【解決手段】近似的に求めたN−best句対応付けの初期値から翻訳モデル推定手段3により句翻訳確率と句並び替え確率を求め、その句翻訳確率と句並び替え確率と言語確率を用いてN−best句対応付け手段4によりN−best句対応付けを求め、さらにこのN−best句対応付けから翻訳モデル推定手段3により句翻訳確率と句並び替え確率を求めるという手順を繰り返すことによって句翻訳確率と句並び替え確率を精度良く推定し、こうして推定した句翻訳確率と句並び替え確率を用いて翻訳デコーディング手段8により、原言語文の文を句に分割し、各々の句の対訳となる目的言語の句を列挙し、これを並べ替えることにより目的言語の文を生成する。
【選択図】図3

Description

本発明は、第1の言語(原言語)の文を該第1の言語とは別の第2の言語(目的言語)の文に翻訳する機械翻訳技術、特に入力された原言語の文を句に分割し、各々の句の対訳となる目的言語の句を列挙し、これを並べ替えることにより目的言語の文を生成する機械翻訳装置において、互いに翻訳になっている原言語の句と目的言語の句との対の確率モデル、および、原言語における句の並びと目的言語における句の並びとの対応関係の確率モデルをより正確に求めることにより、目的言語の句の選択および句の並び替えがより適切に行われるようにした機械翻訳装置に関するものである。
近年、対訳コーパスから翻訳モデルを学習することで統計的に翻訳を行う統計的機械翻訳(統計翻訳)についての研究が盛んに行われている。辞書や規則を人手で作成する従来の方法に比べて、統計的機械翻訳は、対訳コーパスさえあれば、短期間に低コストで機械翻訳システムを作成できるという利点がある。
統計的機械翻訳は、1990年代前半にIBM研究所においてその基礎が確立された。当時IBMで考案された翻訳モデルは、単語を翻訳の基本単位としており、一般に「IBM翻訳モデル」と呼ばれる。
また、近年、単語を翻訳の基本単位とするIBMモデルに対して、1つの単語もしくは2つ以上の連続する単語からなる単語列、即ち句(phrase)を翻訳の基本単位とする「句に基づく翻訳モデル」が盛んに研究されている。句に基づく翻訳モデルは、単語に基づく翻訳モデルに比べて、文脈に基づく訳語選択や局所的な語の並べ替えを表現する能カが高いため、現在、最も優れた統計翻訳モデルとされている。
しかし、従来の句に基づく翻訳における句の並び替えのモデルは、目的言語において隣り合う2つの句に対応する原言語の2つの句の相対的な距離の絶対値に基づいて、原言語と目的言語との句の並び方が同じでない場合にペナルティを与えるという単純なものである。このため、語順が近い言語間の翻訳では有効に働くが、日本語と英語のように語順が離れた言語間の翻訳は難しいという問題があった。
そこで、非特許文献1において、原言語と目的言語との間で句の並びが正順か逆順か、および、句が隣接しているか隣接していないかに着目する大局的な句並び替えモデルが提案された。以下、この大局的な句並び替えモデルの概要を説明する。
まず、統計的機械翻訳では、原言語fが目的言語eへ翻訳される確率p(e|f)を最大とする目的言語の文
Figure 2007317000
を求める。これはベイズの法則によりp(f|e)p(e)を最大化すれば良い。
Figure 2007317000
ここで、p(e)を「言語モデル」、p(f|e)を「翻訳モデル」と呼ぶ。言語モデルは、目的言語の文の尤もらしさを確率として表現するモデルで、一般的には単語trigramモデルが用いられる。
句に基づく翻訳では、翻訳モデルとして次式を使用する。
Figure 2007317000
ここで、
Figure 2007317000
を「句翻訳確率」、
Figure 2007317000
を「句並び替え確率」と呼ぶ。また、句翻訳確率を計算するための確率モデルを「句翻訳モデル」と呼び、句並び替え確率を計算するための確率モデルを「句並び替えモデル」と呼ぶ。従って、翻訳モデルは句翻訳モデルと句並び替えモデルから構成されることになる。
式(2)においてIは句の数を表し、原言語の文はI個の句の列
Figure 2007317000
に分割される。
Figure 2007317000
は分割されたそれぞれの句、
Figure 2007317000
Figure 2007317000
の対訳となる句である。目的言語の文はI個の句の列
Figure 2007317000
から構成される。
句翻訳確率は、互いに対訳になっている句(対訳句)の集合を対訳コーパスから統計的な方法で予め求めておけば、次式のように、同じ目的言語の句の対訳となる様々な原言語の句の相対頻度から計算することができる。
Figure 2007317000
非特許文献1では、目的言語の隣り合う2つの句に対応する原言語の2つの句の間の距離および順序関係を以下の4つの場合に分けている。以後、これを「翻訳順序パターン」と呼ぶことにする。
・正順間隙なし(Monotone Adjacent;MA):対応する原言語の2つの句は、目的言語の句と同じ順番で、かつ、連接している。
・正順間隙あり(Monotone Gap;MG):対応する原言語の2つの句は、目的言語の句と同じ順番で、かつ、連接していない。
・逆順間隙なし(Reverse Adjacent;RA):対応する原言語の2つの句は、目的言語の句とは反対の順番で、かつ、連接している。
・逆順間隙あり(Reverse Gap;RG):対応する原言語の2つの句は、目的言語の句とは反対の順番で、かつ、連接していない。
図1に、正順間隙なし(MA)、正順間隙あり(MG)、逆順間隙なし(RA)、逆順間隙あり(RG)のそれぞれにおける、目的言語(target)の隣り合う2つの句
Figure 2007317000
Figure 2007317000
に対する原言語(Source)の2つの句
Figure 2007317000
Figure 2007317000
の位置関係を図示する。
また、日本語から英語への翻訳において「言語はコミュニケーションの道具である」と“language is a means of communication”の句対応付けを図2に示す。ここでは、この対訳文は以下の4つの対訳句に分割され、
1:(language,言語は)
2:(is,で ある)
3:(a means,道具)
4:(of communication,コミュニケーション の)
目的言語(英語)の文を生成する際の句の並び替えは以下のように表現される。
1→b2 正順間隙あり(MG)
2→b3 逆順間隙なし(RA)
3→b4 逆順間隙なし(RA)
ここでは、目的言語の隣り合う2つの句に対応する原言語の2つの句が与えられた際に、上記の翻訳順序パターンのいずれにあてはまるかを予測する確率を「句並び替え確率」と呼ぶ。
句並び替え確率は、対訳文の句対応付けが与えられれば、目的言語の隣り合う2つの句および対応する原言語の2つの句に対する翻訳順序パターンの相対頻度から求めることができる。
Figure 2007317000
Kazuteru Ohashi,Hidekazu Yamamoto,Kuniko Saito,and Masaaki Nagata"NUT−NTT Statistical Machine Translation System for IWSLT 2005",Proceedings of International Workshop for Spoken Langauge Translation,2005,p.128〜133
前述した大局的な句並び替えモデルを用いる統計的機械翻訳手法では、句並び替え確率を計算するために、何らかの方法で対訳文の句対応付けを求める必要がある。
ところが、従来の句に基づく翻訳モデルでは、任意の原言語の句と任意の目的言語の句に対して、句翻訳確率を求めることができないので、任意の対訳文に対して必ず句対応付けを求められる保証がない。
またそもそも、句翻訳確率と句並び替え確率が既知であれば句対応付けを求めることができ、句対応付けが既知であれば句翻訳確率と句並び替え確率を求めることができるというように、両者は「タマゴとニワトリの関係」にある。
そこで、非特許文献1では、単語翻訳確率p(fj|ei)を用いて句翻訳確率を次式のように近似し、
Figure 2007317000
次式のように句翻訳確率の積が最大となる句対応を求めることで、句翻訳確率および句並び替え確率を使わずに、句対応付けを求めている。
Figure 2007317000
従って、従来の手法では、近似的にしか句並び替え確率を求めておらず、句翻訳確率や句並び替え確率の値が必ずしも正確であるという保証がないという問題点があった。
本発明は、このような事情に鑑みてなされたものであり、従来手法において近似的に求めていた句対応付けを初期値として、句対応付けから句翻訳確率と句並び替え確率を求め、句翻訳確率と句並び替え確率から句対応付けを求めるという手順を繰り返すことにより、句翻訳確率と句並び替え確率をより正確に推定し、こうして推定された句翻訳確率と句並び替え確率を使用することにより、より自然で文法的に正しい目的言語の文を生成できる機械翻訳装置を提供することを目的とする。
図3は本発明の機械翻訳装置の原理構成図である。
本発明の機械翻訳装置は、対訳コーパス1と、初期N−best句対応付け手段2と、翻訳モデル推定手段3と、N−best句対応付け手段4と、句翻訳モデル(句翻訳確率計算手段)5と、句並び替えモデル(句並び替え確率計算手段)6と、言語モデル(言語確率計算手段)7と、翻訳デコーディング手段8とを有する。
対訳コーパス1は、互いに翻訳になっている原言語の文と目的言語の文との対である対訳文を多数記憶している。初期N−best句対応付け手段2は、対訳コーパス1から各対訳文のN−best句対応付けの初期値を求める。
翻訳モデル推定手段3は、初期N−best句対応付け手段2で求められる対訳コーパス中の各対訳文のN−best句対応付けの初期値、もしくはN−best句対応付け手段4で求められる対訳コーパス中の各対訳文のN−best句対応付けから、句翻訳モデル5および句並び替えモデル6を用いて句翻訳確率および句並び替え確率を求める。
N−best句対応付け手段4は、対訳コーパス1中の各対訳文に対して、原言語の各句の対訳となる目的言語の句のうちで目的言語の文に含まれる句を句翻訳モデル5から検索し、これらの句を並び替えることにより得られるものが目的言語の文と一致するような句対応付けを、句翻訳モデル5により求められる句翻訳確率と、句並び替えモデル6により求められる句並び替え確率と、言語モデル7により求められる言語確率との積が大きいものから順にN個求め、N−best句対応付けとして出力する。
句翻訳モデル5は、互いに翻訳になっている原言語の句と目的言語の句との組を多数記憶するとともに、目的言語の句が原言語の句へ翻訳される確率である句翻訳確率を求める。句並び替えモデル6は、目的言語の隣り合う2つの句に対応する原言語の2つの句の距離および順序に関する確率である句並び替え確率を求める。言語モデル7は、目的言語の任意の単語列が生成される確率である言語確率を求める。
翻訳デコーディング手段8は、入力された原言語の文を句に分割し、原言語の各句の対訳となる目的言語の句を句翻訳モデル5から検索し、これらの句を並び替えることにより目的言語の文を作成し、該作成した目的言語の文の中で、句翻訳モデル5により求められる句翻訳確率と、句並び替えモデル6により求められる句並び替え確率と、言語モデル7により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する。
図4は本発明の機械翻訳装置の原理のうち、翻訳モデル(句翻訳モデルと句並び替えモデル)を推定する部分を説明するためのフローチャートである。
本発明の機械翻訳装置では、翻訳モデルを推定するために、
まず、初期N−best句対応付け手段2により対訳コーパス1から各対訳文のN−best句対応付けの初期値を求める(ステップs1)。
次に、翻訳モデル推定手段3により対訳コーパス1中の各対訳文のN−best句対応付けの初期値から句翻訳モデルと句並び替えモデルを求める、即ち対訳コーパス1中の各対訳文のN−best句対応付けの初期値を句翻訳モデル5および句並び替えモデル6に与え、句翻訳確率および句並び替え確率をそれぞれ求めさせる(ステップs2)。
次に、N−best句対応付け手段4により句翻訳モデルと句並び替えモデルと言語モデルとを用いて対訳コーパス1からN−best句対応付けを求める、即ち原言語の各句の対訳となる目的言語の句のうちで目的言語の文に含まれる句を句翻訳モデル5から検索し、これらの句を並び替えることにより得られるものが目的言語の文と一致するような句対応付けを、句翻訳モデル5により求められる句翻訳確率と、句並び替えモデル6により求められる句並び替え確率と、言語モデル7により求められる言語確率との積が大きいものから順にN個求め、N−best句対応付けとして出力する(ステップs3)。
次に、N−best句対応付け手段4で求めた対訳コーパス1中の各対訳文のN−best句対応付けから、翻訳モデル推定手段3により前記同様にして句翻訳確率と句並び替え確率を求める(ステップs4)。
ここで、終了条件に達していれば、翻訳モデルの推定は終了する(ステップs5)。終了条件としては、一般に、繰り返しの回数の上限を指定するか、または、対訳コーパス1の対数尤度の変化がある閾値以下に達することを指定する。終了条件に達していなければ、ステップs3へ戻り(ステップs5)、同様な処理を繰り返す。
従って、このような構成になっているので、N−best句対応付けの初期値から句翻訳確率と句並び替え確率を求め、この句翻訳確率と句並び替え確率と言語確率を使ってN−best句対応付けを求め、さらにこのN−best句対応付けから句翻訳確率と句並び替え確率を求めるという手順を繰り返すことにより、句翻訳確率と句並び替え確率を精度良く推定し、より自然かつ文法的に正しい目的言語の文を生成できるような機械翻訳装置を構成できる。
[作用]
従来の句に基づく翻訳では、大局的な句並び替えモデルを近似的にしか求められないという問題があった。
本発明は、まずN−best句対応付けの初期値を求め、次にN−best句対応付けから句並び替え確率を求め、句並び替え確率を使ってN−best句対応付けを求めることを繰り返すことにより、より正確に句並び替え確率を求めることができる。これにより、従来に比べて、目的言語の句の並びがより自然で文法的に正しい語順となるような機械翻訳装置を実現できる。
本発明によれば、N−best句対応付けから句翻訳確率と句並び替え確率を求め、句翻訳確率と句並び替え確率と言語確率とからN−best句対応付けを求めることを繰り返すことによって、句翻訳確率と句並び替え確率を正確に推定し、この句翻訳確率と句並び替え確率(翻訳モデル)を用いて翻訳を行うことにより、より文法的に正しく自然な語順を持つ目的言語の文を生成できる機械翻訳装置を実現できる。
図5は本発明の機械翻訳装置の実施の形態の一例を示すもので、図中、図3と同一構成部分は同一符号をもって表す。即ち、1は対訳コーパス、2は初期N−best句対応付け手段、3は翻訳モデル推定手段、4はN−best句対応付け手段、5は句翻訳モデル(句翻訳確率計算手段)、6は句並び替えモデル(句並び替え確率計算手段)、7は言語モデル(言語確率計算手段)、8は翻訳デコーディング手段、9は単語翻訳モデル(単語翻訳確率計算手段)、10は単語翻訳確率推定手段、11は句翻訳確率近似手段である。
単語翻訳モデル9は、互いに翻訳になっている原言語の単語と目的言語の単語との組を多数記憶するとともに、目的言語の単語が原言語の単語へ翻訳される確率である単語翻訳確率を求める。単語翻訳確率推定手段10は、対訳コーパス1中の各対訳文を単語翻訳モデル9に与え、単語翻訳確率を求めさせる。句翻訳確率近似手段11は、単語翻訳確率から句翻訳確率の近似値を求める。
また、ここで、初期N−best句対応付け手段2は、対訳コーパス1中の各対訳文に対して、原言語の各句の対訳となる目的言語の句のうちで目的言語の文に含まれる句を句翻訳モデル5から検索し、これらの句を並び替えることにより得られるものが目的言語の文と一致するような句対応付けを、前記句翻訳確率の近似値の積が大きいものから順にN個の句対応付けを求め、N−best句対応付けの初期値として翻訳モデル推定手段3に与える。
<翻訳モデルを求める手順>
本発明の実施の形態における単語翻訳確率推定手段10は、対訳コーパス1から単語翻訳確率を求められる手法であれば何でも良い。例えば、IBM翻訳モデルを学習するアルゴリズムを実装し、一般に公開されているツールであるGIZA++を使えば良い。
句翻訳確率近似手段11も、単語翻訳確率に基づくものであれば何でも良い。本発明の実施の形態では、IBM翻訳モデルにおいて原言語と目的言語を交換することにより2つの単語翻訳確率p(fj|ei)とp(ei|fj)を求め、次式により句翻訳確率を近似する。
Figure 2007317000
二種類の単語翻訳確率を用いることにより、p(fj|ei)とp(ei|fj)のいずれかがゼロに近い値になった際でも、全体の確率がゼロに近くなってしまうことを防げるという効果がある。
本発明の実施の形態では、初期N−best句対応付け手段2として、次式の句翻訳確率の積が大きい順にN個の句対応を求める。
Figure 2007317000
図6にN−best句対応付けの一例を示す。この例では、「信号は赤でした」という日本語文と“the light was red”という英文の上位3個の句対応を表示している。
本発明の実施の形態における翻訳モデル推定手段3では、全ての対訳文の全てのN−best句対応候補を対等に扱う。そして、次式により句翻訳確率を推定し、
Figure 2007317000
また次式により句並び替えモデルを推定する。
Figure 2007317000
本発明の実施の形態におけるN−best句対応付け手段4では、次式の句翻訳確率と句並び替え確率の積が大きい順にN個の句対応付けを求める。
Figure 2007317000
以後、翻訳モデルの推定とN−best句対応付けを繰り返す。
一方、本発明の実施の形態における言語モデル7は、単語trigramモデルである。この単語trigramモデルは、対訳コーパス1における目的言語の文から作成しても良いし、他の目的言語のコーパスから作成しても良い。
<翻訳の実行>
本発明の実施の形態において、翻訳デコーディング手段8により、原言語の文を目的言語の文に翻訳する手順について説明する。
まず、入力された原言語の文を句に分割し、原言語の文に含まれる全ての原言語の句の対訳となる目的言語の句を句翻訳モデル5から検索し、これらの句を並び替えることにより目的言語の文を作成する。次に、作成した目的言語の文の中で、句翻訳モデル5により求められる句翻訳確率と、句並び替えモデル6により求められる句並び替え確率と、言語モデル7により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する。
なお、本発明は、周知のコンピュータに媒体もしくは通信回線を介して、図2、図5の構成図に示された機能を実現するプログラムあるいは図4のフローチャートに示された手順を備えるプログラムをインストールすることによっても実現可能である。
翻訳順序パターンの説明図 翻訳順序パターンを用いた句対応付けの一例を示す説明図 本発明の機械翻訳装置の原理構成図 本発明の機械翻訳装置の原理を説明するためのフローチャート 本発明の機械翻訳装置の実施の形態の一例を示す構成図 N−best句対応付けの一例を示す説明図
符号の説明
1:対訳コーパス、2:初期N−best句対応付け手段、3:翻訳モデル推定手段、4:N−best句対応付け手段、5:句翻訳モデル(句翻訳確率計算手段)、6:句並び替えモデル(句並び替え確率計算手段)、7:言語モデル(言語確率計算手段)、8:翻訳デコーディング手段、9:単語翻訳モデル(単語翻訳確率計算手段)、10:単語翻訳確率推定手段、11:句翻訳確率近似手段。

Claims (6)

  1. 第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳する機械翻訳装置であって、
    互いに翻訳になっている第1の言語の文と第2の言語の文との対である対訳文を多数記憶した対訳コーパスと、
    互いに翻訳になっている第1の言語の句と第2の言語の句との組を多数記憶するとともに、第2の言語の句が第1の言語の句へ翻訳される確率である句翻訳確率を求める句翻訳確率計算手段と、
    第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離および順序に関する確率である句並び替え確率を求める句並び替え確率計算手段と、
    第2の言語の任意の単語列が生成される確率である言語確率を求める言語確率計算手段と、
    対訳コーパス中の各対訳文のN−best句対応付けもしくはその初期値から前記句翻訳確率計算手段および前記句並び替え確率計算手段を用いて句翻訳確率および句並び替え確率を求める翻訳モデル推定手段と、
    対訳コーパス中の各対訳文に対して、第1の言語の各句の対訳となる第2の言語の句のうちで第2の言語の文に含まれる句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより得られるものが第2の言語の文と一致するような句対応付けを、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が大きいものから順にN個求め、N−best句対応付けとして出力するN−best句対応付け手段と、
    入力された第1の言語の文を句に分割し、第1の言語の各句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより第2の言語の文を作成し、該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーディング手段とを備え、
    翻訳モデル推定手段によりN−best句対応付けの初期値から前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求め、N−best句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパス中の各対訳文に対するN−best句対応付けを求め、翻訳モデル推定手段によりN−best句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求め、終了条件に達していれば処理を終了し、終了条件に達していなければ、N−best句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパスからN−best句対応付けを求め、翻訳モデル推定手段によりN−best句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めることを繰り返す
    ことを特徴とする機械翻訳装置。
  2. 前記に加え、
    互いに翻訳になっている第1の言語の単語と第2の言語の単語との組を多数記憶するとともに、第2の言語の単語が第1の言語の単語へ翻訳される確率である単語翻訳確率を求める単語翻訳モデルと、
    単語翻訳確率から句翻訳確率の近似値を求める句翻訳確率近似手段と、
    対訳コーパス中の各対訳文に対する句対応付けのうち、句翻訳確率の近似値の積が大きいものから順にN個の句対応付けを求め、N−best句対応付けの初期値として翻訳モデル推定手段に与える初期N−best句対応付け手段とを備える
    ことを特徴とする請求項1記載の機械翻訳装置。
  3. コンピュータを用いて第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳する方法であって、
    コンピュータは、
    互いに翻訳になっている第1の言語の文と第2の言語の文との対である対訳文を多数記憶した対訳コーパスと、
    互いに翻訳になっている第1の言語の句と第2の言語の句との組を多数記憶するとともに、第2の言語の句が第1の言語の句へ翻訳される確率である句翻訳確率を求める句翻訳確率計算手段と、
    第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離および順序に関する確率である句並び替え確率を求める句並び替え確率計算手段と、
    第2の言語の任意の単語列が生成される確率である言語確率を求める言語確率計算手段と、
    対訳コーパス中の各対訳文のN−best句対応付けもしくはその初期値から前記句翻訳確率計算手段および前記句並び替え確率計算手段を用いて句翻訳確率および句並び替え確率を求める翻訳モデル推定手段と、
    対訳コーパス中の各対訳文に対して、第1の言語の各句の対訳となる第2の言語の句のうちで第2の言語の文に含まれる句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより得られるものが第2の言語の文と一致するような句対応付けを、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が大きいものから順にN個求め、N−best句対応付けとして出力するN−best句対応付け手段と、
    入力された第1の言語の文を句に分割し、第1の言語の各句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより第2の言語の文を作成し、該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーディング手段とを備え、
    前記コンピュータが、
    翻訳モデル推定手段によりN−best句対応付けの初期値から前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求め、
    N−best句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパス中の各対訳文に対するN−best句対応付けを求め、
    翻訳モデル推定手段によりN−best句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求め、
    終了条件に達していれば処理を終了し、終了条件に達していなければ、N−best句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパスからN−best句対応付けを求め、翻訳モデル推定手段によりN−best句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めることを繰り返す
    ことを特徴とする機械翻訳方法。
  4. コンピュータは、前記に加え、
    互いに翻訳になっている第1の言語の単語と第2の言語の単語との組を多数記憶するとともに、第2の言語の単語が第1の言語の単語へ翻訳される確率である単語翻訳確率を求める単語翻訳モデルと、
    単語翻訳確率から句翻訳確率の近似値を求める句翻訳確率近似手段と、
    対訳コーパス中の各対訳文に対する句対応付けのうち、句翻訳確率の近似値の積が大きいものから順にN個の句対応付けを求める初期N−best句対応付け手段とを備え、
    初期N−best句対応付け手段で求めたN−best句対応付けをN−best句対応付けの初期値として翻訳モデル推定手段に与える
    ことを特徴とする請求項3記載の機械翻訳方法。
  5. コンピュータに第1の言語の文を該第1の言語とは別の第2の言語の文に翻訳させるプログラムであって、
    互いに翻訳になっている第1の言語の文と第2の言語の文との対である対訳文を多数記憶した対訳コーパスと、
    互いに翻訳になっている第1の言語の句と第2の言語の句との組を多数記憶するとともに、第2の言語の句が第1の言語の句へ翻訳される確率である句翻訳確率を求める句翻訳確率計算手段と、
    第2の言語の隣り合う2つの句に対応する第1の言語の2つの句の距離および順序に関する確率である句並び替え確率を求める句並び替え確率計算手段と、
    第2の言語の任意の単語列が生成される確率である言語確率を求める言語確率計算手段と、
    対訳コーパス中の各対訳文のN−best句対応付けもしくはその初期値から前記句翻訳確率計算手段および前記句並び替え確率計算手段を用いて句翻訳確率および句並び替え確率を求める翻訳モデル推定手段と、
    対訳コーパス中の各対訳文に対して、第1の言語の各句の対訳となる第2の言語の句のうちで第2の言語の文に含まれる句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより得られるものが第2の言語の文と一致するような句対応付けを、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が大きいものから順にN個求め、N−best句対応付けとして出力するN−best句対応付け手段と、
    入力された第1の言語の文を句に分割し、第1の言語の各句の対訳となる第2の言語の句を前記句翻訳確率計算手段から検索し、これらの句を並び替えることにより第2の言語の文を作成し、該作成した第2の言語の文の中で、前記句翻訳確率計算手段により求められる句翻訳確率と、前記句並び替え確率計算手段により求められる句並び替え確率と、前記言語確率計算手段により求められる言語確率との積が最大となる文を求め、翻訳結果として出力する翻訳デコーディング手段とを備えたコンピュータに、
    翻訳モデル推定手段によりN−best句対応付けの初期値から前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めるステップと、
    N−best句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパス中の各対訳文に対するN−best句対応付けを求めるステップと、
    翻訳モデル推定手段によりN−best句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めるステップと、
    終了条件に達していれば処理を終了し、終了条件に達していなければ、N−best句対応付け手段により句翻訳確率と句並び替え確率と言語確率とを用いて対訳コーパスからN−best句対応付けを求めるステップ、および翻訳モデル推定手段によりN−best句対応付けから前記句翻訳確率計算手段と句並び替え確率計算手段を用いて句翻訳確率と句並び替え確率を求めるステップを繰り返すステップとを実行させる
    ことを特徴とする機械翻訳プログラム。
  6. コンピュータは、前記に加え、
    互いに翻訳になっている第1の言語の単語と第2の言語の単語との組を多数記憶するとともに、第2の言語の単語が第1の言語の単語へ翻訳される確率である単語翻訳確率を求める単語翻訳モデルと、
    単語翻訳確率から句翻訳確率の近似値を求める句翻訳確率近似手段と、
    対訳コーパス中の各対訳文に対する句対応付けのうち、句翻訳確率の近似値の積が大きいものから順にN個の句対応付けを求める初期N−best句対応付け手段とを備え、
    初期N−best句対応付け手段で求めたN−best句対応付けをN−best句対応付けの初期値として翻訳モデル推定手段に与える
    ことを特徴とする請求項5記載の機械翻訳プログラム。
JP2006146849A 2006-05-26 2006-05-26 機械翻訳装置、その方法およびプログラム Pending JP2007317000A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006146849A JP2007317000A (ja) 2006-05-26 2006-05-26 機械翻訳装置、その方法およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006146849A JP2007317000A (ja) 2006-05-26 2006-05-26 機械翻訳装置、その方法およびプログラム

Publications (1)

Publication Number Publication Date
JP2007317000A true JP2007317000A (ja) 2007-12-06

Family

ID=38850793

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006146849A Pending JP2007317000A (ja) 2006-05-26 2006-05-26 機械翻訳装置、その方法およびプログラム

Country Status (1)

Country Link
JP (1) JP2007317000A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823795A (zh) * 2012-11-16 2014-05-28 佳能株式会社 机器翻译系统、机器翻译方法和与其一起使用的解码器
WO2014192598A1 (ja) * 2013-05-29 2014-12-04 独立行政法人情報通信研究機構 翻訳語順情報出力装置、翻訳語順情報出力方法、および記録媒体
JP2016058003A (ja) * 2014-09-12 2016-04-21 日本放送協会 翻訳装置
WO2022264404A1 (ja) * 2021-06-18 2022-12-22 富士通株式会社 翻訳方法、翻訳プログラム及び情報処理装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103823795A (zh) * 2012-11-16 2014-05-28 佳能株式会社 机器翻译系统、机器翻译方法和与其一起使用的解码器
WO2014192598A1 (ja) * 2013-05-29 2014-12-04 独立行政法人情報通信研究機構 翻訳語順情報出力装置、翻訳語順情報出力方法、および記録媒体
JP2014232452A (ja) * 2013-05-29 2014-12-11 独立行政法人情報通信研究機構 翻訳語順情報出力装置、翻訳語順情報出力方法、およびプログラム
JP2016058003A (ja) * 2014-09-12 2016-04-21 日本放送協会 翻訳装置
WO2022264404A1 (ja) * 2021-06-18 2022-12-22 富士通株式会社 翻訳方法、翻訳プログラム及び情報処理装置

Similar Documents

Publication Publication Date Title
US10061768B2 (en) Method and apparatus for improving a bilingual corpus, machine translation method and apparatus
Chahuneau et al. Translating into morphologically rich languages with synthetic phrases
US9176936B2 (en) Transliteration pair matching
CN101271452B (zh) 生成译文和机器翻译的方法及装置
JP2004038976A (ja) 用例ベースの機械翻訳システム
JP2010061645A (ja) フレーズベースの統計的機械翻訳方法及びシステム
CN104375988A (zh) 一种词语对齐方法及装置
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
JP2007317000A (ja) 機械翻訳装置、その方法およびプログラム
JP2016224483A (ja) モデル学習装置、方法、及びプログラム
Mermer Unsupervised search for the optimal segmentation for statistical machine translation
JP2007149109A (ja) 翻訳支援装置
JP2015060458A (ja) 機械翻訳装置、方法、及びプログラム
KR20100062834A (ko) 번역 오류 후처리 보정 장치 및 방법
KR101740330B1 (ko) 단어 공기 정보에 기반한 다국어 형태소 분석 오류 정정 장치 및 방법
JP5523929B2 (ja) テキスト要約装置、テキスト要約方法及びテキスト要約プログラム
KR101735314B1 (ko) 하이브리드 번역 장치 및 그 방법
KR102531114B1 (ko) 마스크 언어 모형을 이용한 문맥의존 철자오류 교정 장치 및 방법
JP2005092682A (ja) 翻字装置、及び翻字プログラム
Yu et al. Machine translation evaluation metric based on dependency parsing model
JP2016189154A (ja) 翻訳方法、装置、及びプログラム
JP6663881B2 (ja) 並列句解析装置、並列句解析モデル学習装置、方法、及びプログラム
JP2007004446A (ja) 機械翻訳装置、その方法およびプログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
Tambouratzis Conditional Random Fields versus template-matching in MT phrasing tasks involving sparse training data