JP2005100335A6 - 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ - Google Patents

機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ Download PDF

Info

Publication number
JP2005100335A6
JP2005100335A6 JP2004151965A JP2004151965A JP2005100335A6 JP 2005100335 A6 JP2005100335 A6 JP 2005100335A6 JP 2004151965 A JP2004151965 A JP 2004151965A JP 2004151965 A JP2004151965 A JP 2004151965A JP 2005100335 A6 JP2005100335 A6 JP 2005100335A6
Authority
JP
Japan
Prior art keywords
sentence
translation
language
candidate
machine translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004151965A
Other languages
English (en)
Other versions
JP2005100335A (ja
JP2005100335A5 (ja
Inventor
太郎 渡辺
英一郎 隅田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2004151965A priority Critical patent/JP2005100335A/ja
Priority claimed from JP2004151965A external-priority patent/JP2005100335A/ja
Priority to US10/917,420 priority patent/US7925493B2/en
Priority to CNA2004100749435A priority patent/CN1591415A/zh
Publication of JP2005100335A publication Critical patent/JP2005100335A/ja
Publication of JP2005100335A6 publication Critical patent/JP2005100335A6/ja
Publication of JP2005100335A5 publication Critical patent/JP2005100335A5/ja
Pending legal-status Critical Current

Links

Images

Abstract

【課題】 統計的機械翻訳を用いるシステムであって、言語の組合せにかかわらず高品質の翻訳を得ることができる機械翻訳システムを提供する。
【解決手段】 機械翻訳装置20は、入力文30との類似を示す所定の条件を充足する第1の言語の文を含む対訳文を、翻訳のための初期候補として対訳コーパス34の中から検索する初期候補選択部32と、検索された対訳文に含まれる第2の言語の文を第1の候補文として、当該第1の候補文に対して所定のオペレータを適用して得られる修正候補文を探索し、得られた修正候補文の中で統計的に予め定められる所定の条件を充足するものを入力文30に対する翻訳文42として出力する候補修正部36とを含む。
【選択図】 図1

Description

この発明は機械翻訳装置に関し、特に、用例翻訳の利点を生かしながら精度の高い翻訳を行なうことが可能な統計的機械翻訳装置に関する。
統計的機械翻訳では、ある言語の文(J)を他の言語の文(E)に翻訳するという問題を、次の条件付確率を最大化する問題として定式化する。
Figure 2005100335
この式に対してベイズの定理を適用することにより次の式が得られる。
Figure 2005100335
このうち、P(J)は^Eの算出とは無関係である(なお本文中の記号「^」は、本来はその直後の文字の直上に記載されるべきものである。)。従って次の式が得られる。
Figure 2005100335
右辺のうち第1項P(E)は言語モデルと呼ばれ、文Eの尤度を表す。第2項のP(J|E)は翻訳モデルと呼ばれ、文Eから文Jが生成される確率を表す。
こうした考え方の下で、単語アライメント(単語の対応付け)という概念により第1の言語の文(チャンネルターゲット文と呼ぶ。)を第2の言語の文(チャンネルソース文と
呼ぶ。)にマップするという翻訳モデルが提案されている。この翻訳モデルは、フランス語と英語、及びドイツ語と英語等、互いに類似した言語の間では成功をもたらした。
しかし、この翻訳モデルは、例えば日本語と英語等、互いに非常に異なる言語に適用しても成果が得られなかった。こうした結果は、構造が互いに異なる言語間でのマップにおいては単語の挿入及び削除が頻繁に行なわれること、各単語のファーティリティが多数であること、及び語の対応付けが複雑であること、などにより、探索空間が膨大になるという問題による。探索が複雑となるため、ビーム探索によるデコードアルゴリズムを用いると、多くの場合局所的な解しか得られない。
単語アライメントに基づく統計的機械翻訳は、単語アライメントAという考え方を用いて二つの言語の対応を表す。この場合、1単語に複数単語を対応付けることが許される。単語アライメントAとは、チャンネルターゲット文の各単語が、チャンネルソース文のどの単語に対応しているかを、チャンネルソース文の単語の指標を用いて表す配列である。この配列では、チャンネルソース文の単語との対応はチャンネルソース文の単語に付された指標によって表され、それら指標がチャンネルターゲット文の単語の順番に従って配列される。
図7に英語(E)及び日本語(J)の文の間の単語アライメントの例Aを示す。図7を参照して、第2の言語(ここでは英語E)の文110の1〜7の各単語は、第1の言語(ここでは日本語J)の文114の各単語1−6に対応付けられている。対応付けはチャンネルソース文110の各単語とチャンネルターゲット文114の単語とを結ぶライン群112により表されている。例えば、チャンネルソース文110の単語「show1」からはチャンネルターゲット文114の二つの単語「mise5」及び「tekudasai6」が生成されている。またチャンネルターゲット文114の二つの単語「no2」及び「o4」はチャンネルソース文110のどの単語にも対応しておらず、チャンネルソース文110の先頭に「NULL0」を想定し、これに対応しているものとする。するとこの場合、アライメントAは「7,0,4,0,1,1」となる。
単語アライメントとしてこのようなマッピングを想定すると、翻訳モデルP(J|E)はさらに次の様に書くことができる。
Figure 2005100335
右辺の項P(J,A|E)はさらに4つの要素に分解される。その4つの要素により、チャンネルソース文Eを、アライメントAを有するチャンネルターゲット文Jに変換する従来技術の手順が構成される。それら4つの要素は以下の通りである。
(1) ファーティリティモデルに従い、チャンネルソース文の各単語に対しいくつの訳語を生成するかを決定する。一つの単語から二つの訳語が生成される場合もあるし、訳語が一つも生成されない場合もあり得る。
(2) NULL生成モデルに従い、チャンネルソース文の適切な位置にNULLを挿入する。
(3) 語彙モデルをルックアップすることにより、生成された各単語に対する翻訳を行なう。
(4) 変形モデルを参照することにより、翻訳された各単語を並べ替える。句に関する制約を保存するため、このときの位置は直前の単語のアライメントによって決定される。
こうして、単語アライメントという考え方に基づく、翻訳モデルが得られる。
一方、最初にチャンネルソース文の各単語に翻訳したものをチャンネルターゲット文の順番で並べたものを最初に生成し、この文に対し種々のオペレータを適用して多数の文を生成していく方法が提案されている(非特許文献1)。提案された手法では、その様に生成された文のうち、最も尤度の高いものを求めて翻訳文として選択する。
ウルリヒ ゲルマン、ミハエル ヤール、ケビン ナイト、ダニエル マルキュ、ケンジ ヤマダ、「機械翻訳のための高速デコーディング及び最適デコーディング」、2001、ACL2001予稿集、ツールーズ、フランス(Ulrich Germann,Michael Jahr,Kevin Knight,Daniel Marcu,and Kenji Yamada,"Fast decoding and optimal decoding for machine translation,"(2001)in Proc.of ACL2001,Toulouse,France.)
単語アライメントに基づく統計的翻訳モデルは、例えばフランス語と英語など、互いに類似した言語のペアに対するものとして考案された。一方、日本語と英語とは、互いに大きく異なった構造を持つ。そのため、日本語と英語との場合には、図7に示す様に単語アライメントは非常に複雑になる。この複雑さは、言語の構造の差異を反映したものである。例えば英語はSVOという文型をとるのに対し、日本語はSOVという文型をとることが通常である。加えて、図7に示した例からも明らかな通り、挿入と削除とが非常に頻繁に生ずる。例えば図7に示す「the3」及び「the6」については日本語には対応する形態素は存在しない。従って、これらの語については日本語から英語に翻訳する際には挿入しなければならない。同様に、日本語のno2及びo4については削除しなければならない。
この様にアライメントが複雑なこと、及び語の挿入及び削除が頻繁なことにより、単語ごとのビーム探索を行なうと、計算量が非常に大きくなるという問題がある。ある程度の時間内に結果を導出できる様にするためには、何らかの形で刈り込みをしなければならない。しかし、通常の探索アルゴリズムではその様に限定した空間で探索すると探索誤りが生ずることが避けられない。翻訳の品質と翻訳モデルにより割当てられた尤度との間にはある程度の相関が存在することは認められるが、ビーム探索ではよい品質を見出すことは困難である。
また非特許文献1に記載の方法では、探索において局所的最適解に到達してしまうことが多いという問題があり、高精度の解が安定して得られる訳ではない。
それゆえに本発明の目的は、統計的機械翻訳を用いるシステムであって、言語の組合せにかかわらず高品質の翻訳を得ることができる機械翻訳システムを提供することである。
この発明の他の目的は、統計的機械翻訳を用いるシステムであって、言語の組合せにかかわらず、ある程度の時間内に高品質の翻訳を得ることができる機械翻訳システムを提供することである。
この発明のさらに他の目的は、統計的機械翻訳を用いるシステムであって、言語の組合せにかかわらず、高品質の翻訳を安定して得ることができる機械翻訳システムを提供することである。
本発明の第1の局面に係る機械翻訳装置は、第1の言語の文と第2の言語の文とからなる対訳を複数個含む対訳コーパスとともに用いられる機械翻訳装置であって、第1の言語の入力文を受け、入力文に対する第2の言語の翻訳文の初期候補を準備するための初期候補準備手段と、この初期候補に対して所定のオペレータを適用して得られる修正候補文を探索し、得られた修正候補文の中で統計的に予め定められる所定の条件を充足するものを入力文に対する翻訳文として出力するための候補修正手段とを含む。
好ましくは、初期候補準備手段は、前記第1の言語の入力文を受け、前記入力文との類似度に関連する所定の条件を充足する前記第1の言語の文を含む対訳文を、前記初期候補として前記対訳コーパス中から検索するための初期候補選択手段を含む。
さらに好ましくは、機械翻訳装置は、初期候補選択手段が初期候補を選択できないことを検出するための検出手段と、検出手段により初期候補選択手段による初期候補の選択ができないことが検出されたことに応答して、入力文を文よりも小さな部分単位に分割し、分割された部分単位ごとに対訳コーパスから検索された訳を組合せることにより、初期候補を準備するための手段とをさらに含む。
初期候補準備手段は、第1の言語の入力文を受け、入力文に対して所定の機械翻訳方式により機械翻訳を行なって初期候補を準備するための機械翻訳手段を含んでもよい。
また、初期候補準備手段は、第1の言語の入力文を受け、予め定める用例コーパス(例えば上記した対訳コーパス)を用いて用例翻訳を行なうことにより前記入力文に対応する訳文を生成するための用例翻訳手段を含んでもよい。
好ましくは、初期候補準備手段は、初期候補を予め定める複数個選択する。
さらに好ましくは、初期候補選択手段は、対訳コーパスに含まれる第1の言語の各文と入力文との間で、対訳コーパスに含まれる第1の言語の文を文書とみなして定義される文書頻度を用いた所定の類似尺度を算出するための類似尺度算出手段と、対訳コーパスに含まれる第1の言語の各文と入力文との間の編集距離を算出するための編集距離算出手段と、類似尺度算出手段により算出された類似尺度、及び編集距離算出手段により算出された編集距離に基づいて定義されるスコアを算出し、当該スコアが所定の条件を充足する対訳文を初期候補として選択するためのスコア算出手段とを含む。
類似尺度算出手段は、対訳コーパスに含まれる第1の言語の各文と入力文との間で、以下の式に従ってtf/idf基準Ptf/idfを算出するための手段を含んでもよく、
Figure 2005100335
ただしJ0は入力文、J0,iは入力文J0のi番目の単語、df(J0,i)は単語入力文J0,iに対する文書頻度、Jkはk番目の第1の言語の文(1≦k≦N)、Nは対訳コーパス内の全ての対訳文の数を、それぞれ示す。
編集距離算出手段は、入力文J0と第1の言語の文Jkの間のDP(Dynamic Programming)マッチングを行なって編集距離dis(Jk,J0)を算出するための手段を含み、編集距離dis(Jk,J0)は以下の式
Figure 2005100335
ただしkは1≦k≦Nなる整数、I(Jk,J0)、D(Jk,J0)、及びS(Jk,J0)はそれぞれ文J0を文Jkに変形させる際に必要な語の挿入、削除、及び置換の数、により定められる。
好ましくは、スコア算出手段は、第1の言語の文Jkに対し、類似尺度算出手段により算出されたtf/idf基準Ptf/idf、及び編集距離算出手段により算出された編集距離dis(Jk,J0)に基づいて次の式
Figure 2005100335
ただしαは調整パラメータ、により定義されるスコアを算出するための手段と、スコアを算出するための手段により算出されたスコアの大きなものから順番に予め定める個数の対訳文を初期候補として選択するための手段とを含む。
機械翻訳装置は、スコアが1の対訳文があるか否かを判定し、スコアが1の対訳文があるときに、当該スコアが1の対訳文を訳文として選択するための手段をさらに含んでもよい。
好ましくは、機械翻訳装置は、第2の言語の言語モデル、及び第2の言語から第1の言語への翻訳モデルに接続されて使用され、候補修正手段は、スコアが1の対訳文がないと判定されたことに応答して、初期候補選択手段により選択された対訳文を第1の候補文として、当該第1の候補文に対して所定のオペレータを適用して得られる修正候補文を探索するための探索手段と、探索手段により探索された修正候補文の各々の尤度を言語モデル及び翻訳モデルに基づいて算出するための尤度算出手段と、探索手段により探索される修正候補文の尤度に対し山登り法を適用して、最高の尤度を持つ修正候補文を選択するための手段とを含む。
機械翻訳装置は、第2の言語の言語モデル、及び第2の言語から第1の言語への翻訳モデルに接続されて使用され、候補修正手段は、初期候補準備手段により準備された初期候補に対して所定のオペレータを適用して得られる修正候補文を探索するための探索手段と、探索手段により探索された修正候補文の各々の尤度を言語モデル及び翻訳モデルに基づいて算出するための尤度算出手段と、探索手段により探索された修正候補文の尤度に対し山登り法を適用して、最高の尤度を持つ修正候補文を選択するための手段とを含んでもよい。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの機械翻訳装置として動作させるものである。
本発明の第3の局面に係るコンピュータは、上記したコンピュータプログラムによりプログラムされたものである。
[第1の実施の形態]
ビーム探索の様に単語ごとに翻訳をするシステムではない機械翻訳システムとして、用例ベースのもの(用例翻訳)が存在する。用例翻訳は、対訳コーパスに基づく翻訳方式の一つである。対訳コーパスには、第1の言語の文と、第2の言語の訳文とからなる対訳文が多数格納されている。第1の言語の入力文が与えられると、入力文に類似した第1の言語の文を対訳コーパスの中から探し出し、探し出された第1の言語の文の訳文(第2の言語)に基づいて出力文を作成する。
本実施の形態の機械翻訳システムは、この用例翻訳システムと統計的機械翻訳システムとを組合せた新たな枠組みに基づくものである。
−構成−
図1に、本実施の形態に係る機械翻訳システム20のブロック図を示す。図1を参照して、この機械翻訳システム20は、第1の言語(これを言語Jとする。)の文と第2の言語(これを言語Eとする。)の訳文とからなる対訳文を多数含む対訳コーパス34と、第1の言語の入力文30を受け、対訳コーパス34から入力文30に類似した所定の数(例えば5個)の第1の言語の文を選択するための初期候補選択部32とを含む。
機械翻訳システム20はさらに、統計的機械翻訳で通常用いられる、第2の言語の言語モデル(P(E))38及び翻訳モデル(P(J|E))40と、初期候補選択部32により選択された複数の第1の言語の文の各々に対し、後述する様に探索しながら第2の言語の訳文を修正して行き、言語モデル38及び翻訳モデル40を用いて算出される尤度が最も高い訳文を入力文30に対する翻訳の結果得られる出力文42として出力するための候補修正部36とを含む。
図2に、初期候補選択部32の詳細なブロック図を示す。図2を参照して、初期候補選択部32は、対訳コーパス34を参照して、入力文30と対訳コーパス34の第1の言語の文の各々との類似の程度を示す類似尺度としてtf/idf基準Ptf/idfを算出するためのtf/idf算出部50を含む。tf/idf基準Ptf/idfは、対訳コーパス34の第1の言語の各文を一つの文書とみなして、情報検索アルゴリズムで一般的に用いられる文書頻度と呼ばれる概念を用いて下の式により定義された尺度である。
Figure 2005100335
ただしJ0は入力文、J0,iは入力文J0のi番目の単語、df(J0,i)は入力文J0のi番目の単語J0,iに対する文書頻度、Nは対訳コーパス34内の全ての訳文の数を、それぞれ示す。文書頻度df(J0,i)とは、入力文J0中のi番目の単語J0,iが出現する文書(本実施の形態では訳文)の数のことをいう。
初期候補選択部32はさらに、対訳コーパス34に含まれている各対訳文(Jk,Ek)の第1の言語の文Jkについて、入力文J0との間のDP(Dynamic Programming)マッチングを行なって編集距離dis(Jk,J0)を算出するための編集距離算出部52と、tf/idf算出部50により算出されたtf/idf基準Ptf/idfに基づいて、後述する式に従って各対訳文のスコアを算出するためのスコア算出部54とを含む。
編集距離算出部52により算出される編集距離dis(Jk,J0)は以下の式で表される。
Figure 2005100335
ただしkは1≦k≦Nなる整数、I(Jk,J0)、D(Jk,J0)、及びS(Jk,J0)はそれぞれ文J0から文Jkに至るまでの挿入/削除/置換の数である。
スコア算出部54により算出されるスコアScoreは以下の式により表される。
Figure 2005100335
ただしαは調整パラメータであり、本実施の形態ではα=0.2としている。
図2を参照して、初期候補選択部32はさらに、スコア算出部54により算出されたスコアscoreに基づき、スコアが上位の所定個数(本実施の形態では5個)の対訳文を選択し、候補対訳文58として出力し図1に示す候補修正部36に与えるための対訳文選択部56を含む。
図3に、図1に示す候補修正部36の詳細なブロック図を示す。図3を参照して、候補修正部36は、初期候補選択部32が出力した候補対訳文58に含まれる各初期候補対訳文(Jk,Ek)を受け、初期候補対訳文の各々について、言語モデルと翻訳モデルとを使用して、第1の言語の入力文と第2の言語の文との間の最も尤度の高いビタビアライメントを算出するためのビタビアライメント部70を含む。ビタビアライメント部70により、入力文J0と各初期候補対訳文(Jk,Ek)のうちの第2の言語の文Ekとからなる新たな候補対訳文(J0,Ek)について初期アライメントAkが算出される。アライメントが終了した候補対訳文を(J0,Ak,Ek)と表す。
候補修正部36はさらに、ビタビアライメント部70によりアライメントAkが算出されたアライメント済みの各候補対訳文(Jo,Ak,Ek)のうちでスコアが1のものがあるか否かを判定し、一致があれば第1の値を、一致がなければ第2の値を、それぞれとる一致検出信号73を出力するとともに、スコアが1の候補対訳文があったときにはその候補対訳文75をアライメントとともに出力するための一致検出部72と、一致検出部72により一致が検出されなかったときに、ビタビアライメント部70から与えられたアライメント済みの候補対訳文(J0,Ak,Ek)に対して以下に述べるようなアライメントAk及び訳文Ekの修正を行ない、最終的に入力30に対する訳文として最高の尤度を示す対訳文77をそのアライメントとともに出力するアライメント探索部74とを含む。アライメント探索部74は、この探索時には、後述する様に言語モデル38及び翻訳モデル40を使用する。
候補修正部36はさらに、一致検出部72の出力する一致検出信号73に応答し、一致検出信号73が第1の値か第2の値かに従って、一致検出部72の出力する対訳文75又はアライメント探索部74の出力する対訳文77のいずれかを選択して出力文42として出力するための訳文選択部76を含む。
図4に、アライメント探索部74が行なう修正候補文の探索と山登り法との概略について示す。図4を参照して、アライメント探索部74は、ビタビアライメント部70から与えられる候補対訳文58に含まれるアライメント済みの対訳文80A〜80Nに対して、単語の移動・削除・置換などを表すオペレータを一つ適用することによりアライメントを修正し、多数の新たな候補対訳文の群82A,82B,…を生成するためのオペレータ適用部81A,81B,…を含む。アライメント探索部74はさらに、こうして得られた候補対訳文群82A、82B…の各々に含まれるアライメント修正後の対訳文の各々について言語モデル38及び翻訳モデル40を用いて尤度を算出し、各候補対訳文群の中で尤度が最も高かったものから順番に所定個数(本実施の形態では5個)の候補対訳文を残して他の候補対訳文を削除し、候補対訳文群82A,82B,…から新たな候補対訳文群86A,…,86Nを生成するための尤度による選択処理部84A,84B,…を含む。
アライメント探索部74のオペレータ適用部81A,81B,…は、例えば候補対訳文群86Aに含まれる候補対訳文88A,…,88Nについても、前述した動作を行ない新たな候補対訳文群90A,…,90Nを作成する。そして尤度による選択処理部84A,84B,…は、これら候補対訳文群94A,…,94Nに対しても言語モデル38及び翻訳モデル40を用いて最も高い尤度を有する候補対訳文96A,…,96Nを残し新たな候補対訳文群94A,…,94Nを作成する。
この様にして、アライメント探索部74は最初の候補対訳文58に含まれる候補対訳文80A,…,80Nをシーズとして、対訳文のアライメントに次々にオペレータを適用して新たな候補対訳文を作成していく。アライメント探索部74は、上記した繰返し処理を、尤度による選択処理部84A,84B,…による候補対訳文の選択の際に、候補対訳文に対して計算される尤度の改善が得られなくなったと判定された時点で打ち切る(山登り法)。
この様にしてアライメント探索部74は対訳文のアライメントを探索し修正していき、山登り法に従って探索処理で求められた候補対訳文とアライメントとの内で最も高い尤度の翻訳文を出力文42として出力する。
オペレータ適用部81A,81B,…がアライメント済みの対訳(J0,Ak,Ek)に対して行なうオペレータは、非特許文献1に記載されたものとほぼ同様で、以下の通りである。
(1)単語の翻訳
単語J0,jにアラインされた出力の単語EAjを単語eに変更する。もしも単語eがNULLであれば、単語J0,jはNULLにアラインされ、Aj=0とする。単語EAjのファーティリティが0になればその単語EAjは削除される。単語eは語彙モデルを逆に利用することにより計算される、単語候補から選択される。
(2)単語の翻訳及び挿入
単語の翻訳を行ない、適切な場所にファーティリティがゼロの一連の単語を挿入する。ファーティリティがゼロの一連の単語の候補は、学習コーパスに対するビタビアライメントから選択する。
(3)単語の翻訳及びアライン
アライメント中のj番目の単語Ejをi番目に移動し、i番目の単語Eiを単語eに修正する。
(4)アライメントの移動
このオペレータは出力単語のシーケンスの変更は行なわず、アライメントAの移動及び交換によりアライメントのみを修正する。
(5)セグメントの交換
訳文Eのうち、重複のない部分を互いに交換する。すなわち、i0番目からi1番目の単語からなるセグメントと、i2番目からi3番目(ただしi1<i2)の単語からなるセグメントとを交換する。
(6)単語(群)の削除
訳文Eからファーティリティがゼロの単語シーケンスを削除する。
(7)単語の結合
訳文Ei及びEi'に含まれる単語のファーティリティがいずれも1以上である場合、この二つの単語を結合する。
これら7つのオペレータのうち、(3)と(4)とを除く残りの5つは、非特許文献1に記載されたものとほぼ同様である。(3)と(4)とのオペレータは、本実施の形態で新たに追加したものである。最初にビタビアライメント部70により行なわれるビタビアライメントでは、第1の言語の文のうち第2の言語の文に対応する訳語が存在しない単語はNULLと対応付けられるか、又はファーティリティを上げることにより不適切な単語にアラインされることがある。オペレータ(3)単語の翻訳及びアラインによって、語彙モデルを用いて適切な単語ごとの翻訳を見つけ出すことが可能になり、このアライメントが他の単語に強制的に移動されることになる。同様に、オペレータ(4)アライメントの移動では、既にあるアライメントを移動させることにより同様の効果を奏する。
−動作−
機械翻訳システム20は以下の様に動作する。対訳コーパス34には予め第1の言語の文と第2の言語の訳文とからなる多数の対訳文が含まれている。また言語モデル38及び翻訳モデル40も何らかの手段により予め準備されているものとする。
図1を参照して、入力文30が初期候補選択部32に与えられる。図2を参照して、初期候補選択部32のtf/idf算出部50は、入力文30と対訳コーパス34中の全ての対訳文のうちの第1の言語の文との間でtf/idf基準Ptf/idfを算出する。編集距離算出部52は、同様に入力文30と全ての対訳コーパス34中の第1の言語の文Jkとの間で編集距離dis(Jk,J0)を算出する。
スコア算出部54は、tf/idf算出部50により算出されたtf/idf基準Ptf/idf及び編集距離算出部52により算出された編集距離dis(Jk,J0)を用いて前述したスコアscoreを次の式に従い算出する。
Figure 2005100335
対訳文選択部56は、対訳コーパス34に含まれる対訳文のうち、スコアscoreの高いものから所定個を選択し、候補対訳文58として図3のビタビアライメント部70に与える。
図3を参照して、ビタビアライメント部70は、入力文J0と与えられた候補対訳文58に含まれる対訳文(Jk,Ek)の各々のうちの第2の言語の文EkについてビタビアライメントAkを算出し、一致検出部72及びアライメント探索部74に結果を(J0,Ak,Ek)の形で与える。
一致検出部72は、ビタビアライメント部70から与えられた対訳文のうち、スコアscore=1となっているものがあるか否かを判定する。すなわち一致検出部72は、候補対訳文のうち第1の言語の文が入力文30と一致しているものがあるか否かを判定する。一致するものがある場合には一致検出部72は一致検出信号73の値を第1の値とし、それ以外の場合には一致検出部72は一致検出信号73の値を第2の値とする。一致するものがある場合には一致検出部72はまた、その対訳文を対訳文75として訳文選択部76に与える。
アライメント探索部74は、ビタビアライメント部70から与えられたアライメント済みの候補対訳文(J0,Ak,Ek)を最初のシーズとして、言語モデル38及び翻訳モデル40を参照して、前述した探索を行ない、山登り法に従って尤度が最高のものが得られるまで探索を行なう。探索の過程では、アライメント探索部74は、全てのアライメント済みの候補対訳文に対し、可能な全てのオペレータを適用して新たな候補対訳文(とアライメント)を生成する。アライメント探索部74はさらに、こうして生成された候補対訳文(とアライメント)のうちで所定の条件を充足するもの(尤度の高いものから所定個数の対訳文)のみを残し、他は削除する。アライメント探索部74はさらに、残った候補対訳文をシーズとして同様の処理を繰返す。そして、生成された候補対訳文に対して計算される尤度の改善が認められなくなったときに、その経路の探索を終了する(山登り法)。
こうして、すべての経路についての探索が終了した時点で最も高い尤度を与える対訳文が最終的な出力となる。アライメント探索部74は、この対訳文77を訳文選択部76に与える。訳文選択部76は、一致検出信号73が第1の値であるときは一致検出部72の出力である対訳文75を、それ以外のときにはアライメント探索部74の出力である対訳文77を、それぞれ選択し出力文42として出力する。
−評価−
上記した実施の形態に係るシステムの翻訳精度の評価を行なった。コーパスとして、出願人において準備した旅行会話用のコーパスを用いた。このコーパスは、日本語、英語、韓国語、及び中国語の対訳文を含んでいる。コーパスの統計情報を次の表に示す。
Figure 2005100335
コーパス全体を3分割した。すなわち、152,169文を翻訳モデル及び言語モデルの学習に用い、4,849文をテストに用い、残りの10,148文をパラメータ調整に用いた。パラメータとしては、学習時の繰返しの終了基準、及びデコーダのパラメータの調整のためのものがある。
言語モデルとして4つの言語の3−グラム言語モデルの学習を行ない、上の表に示す通りパープレキシティ尺度により評価した。4つの言語の組合せの全てについて、双方の方向の翻訳に関し、全部で12の翻訳モデルの学習を行なった。
下の表に、本実施の形態に係るシステムを用いて上記した4言語の間で翻訳をして得られた結果を示す。表中に使用されている略語の意味は以下の通りである。
<WER> Word−error−rate(単語誤り率)を表す。これは、基準となる模範的翻訳と比較した際の編集距離(挿入/削除/置換)を反映したものである。
<PER> 位置独立な(Position−independent)WERを表す。これは、位置的な問題を除き、挿入と削除とのみに関する編集距離を反映したものである。
<BLEU> BLEUスコアを表す。これは翻訳結果のn−グラムのうち、基準となる模範訳の中に見出されるものの率を表す。上記したWER及びPERと異なり、BLUEスコアは値が高いほど翻訳の質は高い。
<SE> 主観的評価を表す。A〜D(A:完璧、B:ほぼ問題なし、C:まずまず、D:ナンセンス)の4段階により、人間が評価したもの。この評価は、人間がAと評価したものの割合(A)、A又はBと評価したものの割合(A+B)、及びA、B、又はCと評価したものの割合(A+B+C)で表す。本実験では上記4言語のうち、英語以外の3言語から英語への翻訳、及び日本語以外の3言語から日本語への翻訳について、日本語−英語間の翻訳結果であるとみなして評価した。この表において、細字はビーム探索を用いた機械翻訳装置による翻訳結果、太字は本実施の形態に係る機械翻訳装置による翻訳結果を示す。
Figure 2005100335
この表から明らかな様に、本実施の形態による機械翻訳装置による翻訳結果は、全ての言語の組合せで、いずれの方向への翻訳においてもビーム探索方式の翻訳装置よりも優れた結果を示した。この相違はかなり大きなもので、本実施の形態による機械翻訳装置の性能が、ビーム探索を用いたものと比較して非常に高いことが明らかとなった。また、本実施の形態による翻訳結果は安定しており、局所的な最適解に陥ってしまうことも少ない。これは、最初の解として入力文に近いものを検索し、それを出発点として上記した山登り法と組合せた探索をすることで、大域的に見て最適な翻訳結果に近づく可能性が高いためと思われる。
初期候補選択部32による初期候補の選択では、何らかの基準により入力文30に近い第1の言語の文を持つ対訳文を探すことができれば、本実施の形態において用いた初期候補選択部32とは異なる構成のものを用いてもよい。また、対訳コーパス34から文単位で入力文に対する翻訳文を検索できない場合もあり得る。そのように文単位での検索ができなかった場合、入力文をより小さな単位、例えば句又は節などに分割し、分割後の単位で対訳コーパス34を検索することによりそれらに対する訳を探し出し、それらを組合せることにより初期候補を作成するようにしてもよい。
さらに、初期候補選択部32による初期候補の選択に替えて、他の何らかの翻訳方式による翻訳装置を用いて入力文を翻訳し、それを初期候補としてもよい。例えばそうした翻訳装置として用例翻訳装置を用い、用例翻訳の結果を初期候補としてもよい。その場合、用例翻訳で使用するコーパスは対訳コーパス34と同一でもよいし、全く別のコーパスでもよい。
なお、上記した実施の形態では、アライメント探索部74による山登り法において、幅優先探索と同様のアルゴリズムを用いた。しかし本発明はそうした実施の形態に限定されるわけではなく、深さ優先アルゴリズムを用いることも理論的には可能である。
−コンピュータによる実現−
なお、本実施の形態に係る機械翻訳装置は、コンピュータハードウェアと、当該コンピュータハードウェア上で動作するプログラム、及び当該コンピュータの記憶装置に記憶される対訳コーパス、翻訳モデル、及び言語モデルにより実現することもできる。特に、図4に示すアライメント探索部74による探索は、再帰的プログラミングを用いることにより効率的に実行することができる。
そうしたプログラムは、上記した実施の形態の説明により、当業者であれば容易に実現できるであろう。
図5はこの機械翻訳装置を実現するコンピュータシステム330の外観を示し、図6はコンピュータシステム330の内部構成を示す。
図5を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図6を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330に機械翻訳装置としての動作を行なわせるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶され、さらにハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。CD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にプログラムをロードしてもよい。
このプログラムは、コンピュータ340にこの実施の形態の機械翻訳装置としての動作を行なわせる複数の命令を含む。この方法を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した機械翻訳装置を実現する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰り返さない。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内でのすべての変更を含む。
本発明の一実施の形態に係る機械翻訳システムの機能ブロック図である。 図1に示す初期候補選択部32のより詳細な機能ブロック図である。 図1に示す候補修正部36のより詳細な機能ブロック図である。 図3に示すアライメント探索部74の処理の詳細を模式的に示す図である。 本発明の一実施の形態に係る機械翻訳システムを実現するコンピュータの外観を示す図である。 図5に示すコンピュータのブロック図である。 語アライメントの一例を示す図である。
符号の説明
20 機械翻訳システム、30 入力文、32 初期候補選択部、34 対訳コーパス、36 候補修正部、38 言語モデル、40 翻訳モデル、42 出力文、50 tf/idf算出部、52 編集距離算出部、54 スコア算出部、56 対訳文選択部、58 候補対訳文、70 ビタビアライメント部、72 一致検出部

Claims (16)

  1. 第1の言語の文と第2の言語の文とからなる対訳を複数個含む対訳コーパスとともに用いられる機械翻訳装置であって、
    前記第1の言語の入力文を受け、前記入力文に対する前記第2の言語の翻訳文の初期候補を準備するための初期候補準備手段と、
    前記初期候補に対して所定のオペレータを適用して得られる修正候補文を探索し、得られた修正候補文の中で統計的に予め定められる所定の条件を充足するものを前記入力文に対する翻訳文として出力するための候補修正手段とを含む、機械翻訳装置。
  2. 前記初期候補準備手段は、前記第1の言語の入力文を受け、前記入力文との類似度に関連する所定の条件を充足する前記第1の言語の文を含む対訳文を、前記初期候補として前記対訳コーパス中から検索するための初期候補選択手段を含む、請求項1に記載の機械翻訳装置。
  3. 前記初期候補選択手段が前記初期候補を選択できないことを検出するための検出手段と、
    前記検出手段により前記初期候補選択手段による前記初期候補の選択ができないことが検出されたことに応答して、前記入力文を文よりも小さな部分単位に分割し、分割された部分単位ごとに前記対訳コーパスから検索された訳を組合せることにより、前記初期候補を準備するための手段とをさらに含む、請求項2に記載の機械翻訳装置。
  4. 前記初期候補準備手段は、前記第1の言語の入力文を受け、前記入力文に対して所定の機械翻訳方式により機械翻訳を行なって前記初期候補を準備するための機械翻訳手段を含む、請求項1に記載の機械翻訳装置。
  5. 前記初期候補準備手段は、前記第1の言語の入力文を受け、予め定める用例コーパスを用いて用例翻訳を行なうことにより前記入力文に対応する訳文を生成するための用例翻訳手段を含む、請求項1に記載の機械翻訳装置。
  6. 前記用例コーパスは前記対訳コーパスである、請求項5に記載の機械翻訳装置。
  7. 前記初期候補準備手段は、前記初期候補を予め定める複数個準備する、請求項1〜請求項6のいずれかに記載の機械翻訳装置。
  8. 前記初期候補選択手段は、
    前記対訳コーパスに含まれる前記第1の言語の各文と前記入力文との間で、前記対訳コーパスに含まれる前記第1の言語の文を文書とみなして定義される文書頻度を用いた所定の類似尺度を算出するための類似尺度算出手段と、
    前記対訳コーパスに含まれる前記第1の言語の各文と前記入力文との間の編集距離を算出するための編集距離算出手段と、
    前記類似尺度算出手段により算出された類似尺度、及び前記編集距離算出手段により算出された編集距離に基づいて定義されるスコアを算出し、当該スコアが所定の条件を充足する対訳文を前記初期候補として選択するためのスコア算出手段とを含む、請求項2に記載の機械翻訳装置。
  9. 前記類似尺度算出手段は、前記対訳コーパスに含まれる前記第1の言語の各文と前記入力文との間で、以下の式に従ってtf/idf基準Ptf/idfを算出するための手段を含み、
    Figure 2005100335
    ただしJ0は入力文、J0,iは入力文J0のi番目の単語、df(J0,i)は単語J0,iに対する文書頻度、Jkはk番目の前記第1の言語の文(1≦k≦N)、Nは対訳コーパス内の全ての対訳文の数を、それぞれ示す、請求項8に記載の機械翻訳装置。
  10. 前記編集距離算出手段は、入力文J0と前記第1の言語の文Jkの間のDP(Dynamic Programming)マッチングを行なって編集距離dis(Jk,J0)を算出するための手段を含み、編集距離dis(Jk,J0)は以下の式
    Figure 2005100335
    ただしkは1≦k≦Nなる整数、I(Jk,J0)、D(Jk,J0)、及びS(Jk,J0)はそれぞれ文J0を文Jkに変形させる際に必要な語の挿入、削除、及び置換の数、により定められる、請求項9に記載の機械翻訳装置。
  11. 前記スコア算出手段は、前記第1の言語の文Jkに対し、前記類似尺度算出手段により算出されたtf/idf基準Ptf/idf、及び前記編集距離算出手段により算出された編集距離dis(Jk,J0)に基づいて次の式
    Figure 2005100335
    ただしαは調整パラメータ、により定義されるスコアを算出するための手段と、
    前記スコアを算出するための手段により算出されたスコアの大きなものから順番に予め定める個数の対訳文を前記初期候補として選択するための手段とを含む、請求項10に記載の機械翻訳装置。
  12. 前記スコアが1の対訳文があるか否かを判定し、スコアが1の対訳文があるときに、当該対訳文を前記訳文として選択するための手段をさらに含む、請求項11に記載の機械翻訳装置。
  13. 前記機械翻訳装置は、前記第2の言語の言語モデル、及び前記第2の言語から前記第1の言語への翻訳モデルに接続されて使用され、
    前記候補修正手段は、
    前記スコアが1の対訳文がないと判定されたことに応答して、前記初期候補選択手段により選択された対訳文を第1の候補文として、当該第1の候補文に対して所定のオペレータを適用して得られる修正候補文を探索するための探索手段と、
    前記探索手段により探索された修正候補文の各々の尤度を前記言語モデル及び前記翻訳モデルに基づいて算出するための尤度算出手段と、
    前記探索手段により探索される修正候補文の尤度に対し山登り法を適用して、最高の尤度を持つ修正候補文を選択するための手段とを含む、請求項12に記載の機械翻訳装置。
  14. 前記機械翻訳装置は、前記第2の言語の言語モデル、及び前記第2の言語から前記第1の言語への翻訳モデルに接続されて使用され、
    前記候補修正手段は、
    前記初期候補準備手段により準備された初期候補に対して所定のオペレータを適用して得られる修正候補文を探索するための探索手段と、
    前記探索手段により探索された修正候補文の各々の尤度を前記言語モデル及び前記翻訳モデルに基づいて算出するための尤度算出手段と、
    前記探索手段により探索された修正候補文の尤度に対し山登り法を適用して、最高の尤度を持つ修正候補文を選択するための手段とを含む、請求項1〜請求項12のいずれかに記載の機械翻訳装置。
  15. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項14のいずれかに記載の機械翻訳装置として動作させる、機械翻訳コンピュータプログラム。
  16. 請求項15に記載のコンピュータプログラムによりプログラムされたコンピュータ。
JP2004151965A 2003-09-01 2004-05-21 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ Pending JP2005100335A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004151965A JP2005100335A (ja) 2003-09-01 2004-05-21 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
US10/917,420 US7925493B2 (en) 2003-09-01 2004-08-13 Machine translation apparatus and machine translation computer program
CNA2004100749435A CN1591415A (zh) 2003-09-01 2004-09-01 机器翻译装置以及机器翻译计算机程序

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003308409 2003-09-01
JP2003308409 2003-09-01
JP2004151965A JP2005100335A (ja) 2003-09-01 2004-05-21 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ

Publications (3)

Publication Number Publication Date
JP2005100335A JP2005100335A (ja) 2005-04-14
JP2005100335A6 true JP2005100335A6 (ja) 2006-04-06
JP2005100335A5 JP2005100335A5 (ja) 2007-06-21

Family

ID=34220787

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004151965A Pending JP2005100335A (ja) 2003-09-01 2004-05-21 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ

Country Status (3)

Country Link
US (1) US7925493B2 (ja)
JP (1) JP2005100335A (ja)
CN (1) CN1591415A (ja)

Families Citing this family (61)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
JP2005507524A (ja) * 2001-10-29 2005-03-17 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー 機械翻訳
US7584092B2 (en) * 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7552046B2 (en) * 2004-11-15 2009-06-23 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US20070010989A1 (en) * 2005-07-07 2007-01-11 International Business Machines Corporation Decoding procedure for statistical machine translation
JP3983794B2 (ja) * 2005-07-13 2007-09-26 松下電器産業株式会社 対話支援装置
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8296123B2 (en) 2006-02-17 2012-10-23 Google Inc. Encoding and adaptive, scalable accessing of distributed models
US8898052B2 (en) 2006-05-22 2014-11-25 Facebook, Inc. Systems and methods for training statistical speech translation systems from speech utilizing a universal speech recognizer
US8209163B2 (en) * 2006-06-02 2012-06-26 Microsoft Corporation Grammatical element generation in machine translation
US7865352B2 (en) * 2006-06-02 2011-01-04 Microsoft Corporation Generating grammatical elements in natural language sentences
EP2054817A4 (en) * 2006-08-18 2009-10-21 Ca Nat Research Council MEANS AND METHOD FOR DRIVING A STATISTICAL MACHINE TRANSLATION SYSTEM
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
US8000955B2 (en) 2006-12-20 2011-08-16 Microsoft Corporation Generating Chinese language banners
US7895030B2 (en) * 2007-03-16 2011-02-22 International Business Machines Corporation Visualization method for machine translation
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US8180624B2 (en) * 2007-09-05 2012-05-15 Microsoft Corporation Fast beam-search decoding for phrasal statistical machine translation
US8046211B2 (en) 2007-10-23 2011-10-25 Microsoft Corporation Technologies for statistical machine translation based on generated reordering knowledge
US20090326916A1 (en) * 2008-06-27 2009-12-31 Microsoft Corporation Unsupervised chinese word segmentation for statistical machine translation
US8326599B2 (en) * 2009-04-21 2012-12-04 Xerox Corporation Bi-phrase filtering for statistical machine translation
US8185373B1 (en) * 2009-05-05 2012-05-22 The United States Of America As Represented By The Director, National Security Agency, The Method of assessing language translation and interpretation
WO2011016078A1 (ja) * 2009-08-04 2011-02-10 株式会社 東芝 機械翻訳装置および翻訳プログラム
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
JP5666937B2 (ja) * 2011-02-16 2015-02-12 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US20120209590A1 (en) * 2011-02-16 2012-08-16 International Business Machines Corporation Translated sentence quality estimation
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US8725496B2 (en) * 2011-07-26 2014-05-13 International Business Machines Corporation Customization of a natural language processing engine
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US9646001B2 (en) * 2011-09-19 2017-05-09 Nuance Communications, Inc. Machine translation (MT) based spoken dialog systems customer/machine dialog
US9218339B2 (en) * 2011-11-29 2015-12-22 Educational Testing Service Computer-implemented systems and methods for content scoring of spoken responses
US9098494B2 (en) * 2012-05-10 2015-08-04 Microsoft Technology Licensing, Llc Building multi-language processes from existing single-language processes
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
CN103092831B (zh) * 2013-01-25 2015-08-19 哈尔滨工业大学 一种用于统计机器翻译的参数调整方法
US20160132491A1 (en) * 2013-06-17 2016-05-12 National Institute Of Information And Communications Technology Bilingual phrase learning apparatus, statistical machine translation apparatus, bilingual phrase learning method, and storage medium
KR101509727B1 (ko) 2013-10-02 2015-04-07 주식회사 시스트란인터내셔널 자율학습 정렬 기반의 정렬 코퍼스 생성 장치 및 그 방법과, 정렬 코퍼스를 사용한 파괴 표현 형태소 분석 장치 및 그 형태소 분석 방법
JP5850512B2 (ja) * 2014-03-07 2016-02-03 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
CN105094358A (zh) * 2014-05-20 2015-11-25 富士通株式会社 信息处理装置和通过外码输入目标语言文字的方法
US9778929B2 (en) 2015-05-29 2017-10-03 Microsoft Technology Licensing, Llc Automated efficient translation context delivery
US10114817B2 (en) * 2015-06-01 2018-10-30 Microsoft Technology Licensing, Llc Data mining multilingual and contextual cognates from user profiles
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US9747281B2 (en) 2015-12-07 2017-08-29 Linkedin Corporation Generating multi-language social network user profiles by translation
US10318640B2 (en) * 2016-06-24 2019-06-11 Facebook, Inc. Identifying risky translations
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
CN109977426A (zh) * 2017-12-27 2019-07-05 北京搜狗科技发展有限公司 一种翻译模型的训练方法、装置以及机器可读介质
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
JP7107059B2 (ja) * 2018-07-24 2022-07-27 日本電信電話株式会社 文生成装置、モデル学習装置、文生成方法、モデル学習方法、及びプログラム
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN110543642A (zh) * 2019-08-20 2019-12-06 语联网(武汉)信息技术有限公司 基于机器翻译引擎的翻译方法及装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5369574A (en) * 1990-08-01 1994-11-29 Canon Kabushiki Kaisha Sentence generating system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
CA2408819C (en) * 2000-05-11 2006-11-07 University Of Southern California Machine translation techniques
US7295962B2 (en) * 2001-05-11 2007-11-13 University Of Southern California Statistical memory-based translation system
WO2002093417A1 (en) * 2001-05-17 2002-11-21 University Of Southern California Statistical method for building a translation memory
JP2003006193A (ja) 2001-06-20 2003-01-10 Atr Onsei Gengo Tsushin Kenkyusho:Kk 機械翻訳装置および方法
US20030110023A1 (en) 2001-12-07 2003-06-12 Srinivas Bangalore Systems and methods for translating languages
WO2003077152A2 (en) * 2002-03-04 2003-09-18 University Of Southern California Sentence generator
CN1647068A (zh) * 2002-03-28 2005-07-27 南加利福尼亚大学 统计机器翻译
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
US7349839B2 (en) * 2002-08-27 2008-03-25 Microsoft Corporation Method and apparatus for aligning bilingual corpora
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7319949B2 (en) * 2003-05-27 2008-01-15 Microsoft Corporation Unilingual translator

Similar Documents

Publication Publication Date Title
JP2005100335A6 (ja) 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
JP2005100335A (ja) 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
Matusov et al. Computing consensus translation for multiple machine translation systems using enhanced hypothesis alignment
Och et al. An efficient A* search algorithm for statistical machine translation
CA2480398C (en) Phrase-based joint probability model for statistical machine translation
JP4993762B2 (ja) 用例ベースの機械翻訳システム
Vogel et al. The CMU statistical machine translation system
US9342499B2 (en) Round-trip translation for automated grammatical error correction
US9176936B2 (en) Transliteration pair matching
Popovic et al. Towards the Use of Word Stems and Suffixes for Statistical Machine Translation.
Alqudsi et al. A hybrid rules and statistical method for Arabic to English machine translation
Rama et al. Modeling letter-to-phoneme conversion as a phrase based statistical machine translation problem with minimum error rate training
Ahmadnia et al. Statistical machine translation for bilingually low-resource scenarios: A round-tripping approach
Zhou et al. Constrained phrase-based translation using weighted finite-state transducers
Cherry et al. Discriminative substring decoding for transliteration
JP4113204B2 (ja) 機械翻訳装置、その方法およびプログラム
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
Menezes et al. Microsoft research treelet translation system: IWSLT evaluation
Xu et al. Partitioning parallel documents using binary segmentation
He et al. Ict system description for the 2006 tc-star run# 2 slt evaluation
Gascó et al. ITI-UPV system description for IWSLT 2010
Lee et al. IBM Chinese-to-English PatentMT System for NTCIR-9.
Jan et al. Transliteration retrieval model for cross lingual information retrieval
Gu et al. On feature selection in maximum entropy approach to statistical concept-based speech-to-speech translation