JP2004038406A - 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体 - Google Patents

複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体 Download PDF

Info

Publication number
JP2004038406A
JP2004038406A JP2002192579A JP2002192579A JP2004038406A JP 2004038406 A JP2004038406 A JP 2004038406A JP 2002192579 A JP2002192579 A JP 2002192579A JP 2002192579 A JP2002192579 A JP 2002192579A JP 2004038406 A JP2004038406 A JP 2004038406A
Authority
JP
Japan
Prior art keywords
translation
score
machine translation
computer
regression tree
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002192579A
Other languages
English (en)
Other versions
JP2004038406A5 (ja
Inventor
Yasuhiro Akiba
秋葉 泰弘
Eiichiro Sumida
隅田 英一郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2002192579A priority Critical patent/JP2004038406A/ja
Publication of JP2004038406A publication Critical patent/JP2004038406A/ja
Publication of JP2004038406A5 publication Critical patent/JP2004038406A5/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Machine Translation (AREA)

Abstract

【課題】複数の機械翻訳システムを用いた翻訳システムにおいて、より高い精度で最良の翻訳を選択できるようにする。
【解決手段】この最良訳を選択する方法は、翻訳結果の各々に対し翻訳モデル、言語モデル、または双方を用いた採点関数を適用して翻訳結果ごとにスコア群を算出するステップ(92)と、スコア群に対して統計的検定を行なって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するステップ(94,96)と、判定結果にしたがって、複数個の翻訳結果のうちから最良のものを選択するステップ(98、100)とを含む。判定ステップでは、人間評価とスコアリング関数とに基づいて予め学習した回帰木を用いて各翻訳結果の評点を推定してもよい。
【選択図】   図5

Description

【0001】
【発明の属する技術分野】
この発明は、一般的には機械翻訳装置に関し、特に、複数の機械翻訳システムの出力から所定の基準にしたがって最良の出力を選択することにより機械翻訳の精度を向上させるための技術に関する。
【0002】
【従来の技術】
コンピュータ技術の発達により、コンピュータを利用した翻訳システム(機械翻訳システム)もほぼ実用の域に達しているといえる。たとえば外国語のホームページを即座に自国語に翻訳するシステム、複数国の参加者の間でキーボード入力を用いて会議をする際に、他の言語での発言を即座に自国語に翻訳するシステム、日本語の特許公報を求めに応じて直ちに英語に翻訳するシステムなどがあり、今後ますます利用される局面が広がることが予想される。
【0003】
しかしながら、そうした機械翻訳システムの翻訳結果に依然として改善の余地があることも確かである。機械翻訳の精度の改善のための方策として最初に挙げられるのは、個々の機械翻訳システムを構成するソフトウェアの改善である。しかし、そうした改善を行なったとしても、それぞれの機械翻訳システムに得手・不得手は依然として残り得る。
【0004】
そこで、翻訳精度の改善の方策として、複数の機械翻訳システムの出力から、何らかの基準にしたがって最良と思われるものを自動的に選ぶという方法が考えられる。ある原文に対する第1の機械翻訳システムの翻訳結果が第2の機械翻訳システムの翻訳結果よりも好ましい場合には、第1の機械翻訳システムの翻訳結果を選択し、逆の場合には第2の機械翻訳システムを選ぶ。そうすることにより、最終的に生成される翻訳結果は、第1の機械翻訳システムおよび第2の機械翻訳システムが個々に生成する翻訳結果よりも好ましいものになることが予測できる。
【0005】
出願人も機械翻訳システムを複数個開発している。日本語から英語への機械翻訳システム(日英翻訳システム)としては、TDMT(後掲の参考文献(1)),D3(参考文献(2))、およびSMT(参考文献(3))がある。英語から日本語への機械翻訳システム(英日翻訳システム)としては、TDMT(参考文献(1))、HPAT(参考文献(4))およびSMT(参考文献(3))がある。
【0006】
仮に前述したように複数個の機械翻訳システムの翻訳結果のうち最良のものを選ぶ理想的なシステムを実現した場合の結果を次のようにしてシミュレートした。上記した3個の日英翻訳システム(TDMT,D3,SMT)および3個の英日翻訳システム(TDMT,HPAT,SMT)の各々について、その翻訳結果を、翻訳のソース言語に堪能な、翻訳のターゲット言語のネイティブスピーカが評価し、4つのランクA,B,CおよびDに分類した。
【0007】
ランクAとは、翻訳結果に原文の情報が漏れなく含まれ、かつ文法的な問題もないものをいう。ランクBは、翻訳結果が容易に理解可能であるが、あまり重要でない情報が一部漏れていたり、文法的に一部誤りがあったりするものをいう。ランクCとは、原文の重要な情報が漏れていたり、文法的な間違いが大分あって、かなり崩れた訳であるが、よく考えれば理解可能なものをいう。ランクDとは、重要な情報が誤って翻訳され、理解不能なものをいう。
【0008】
上記した3個の日英翻訳システム(TDMT,D3,SMT)の翻訳結果のうち、翻訳のソース言語に堪能な、翻訳のターゲット言語のネイティブスピーカの評価が最も高い翻訳結果を選択することができる理想的なシステムを想定した。その結果を、各日英翻訳システムの翻訳結果とともに図15に示す。
【0009】
図15において、最も左側の「A」とラベル付けされた個所には、各日英翻訳システムの翻訳結果のうち「A」評価を受けた文の割合と、それらの組合わせのうちで最良の評価を受けた文を選択した理想的選択システムでの「A」評価の割合とを百分率で示す。
【0010】
図15において、中央の「A+B」とラベル付けされた個所には、各日英翻訳システムの翻訳結果のうち「A」評価を受けた文と「B」評価を受けた文との合計の割合と、それらの組合わせのうちで最良の評価を受けたものを選択した理想的選択システムでの「A」評価および「B」評価の合計の割合とを百分率で示す。
【0011】
図15において、最も右の「A+B+C」とラベル付けされた個所には、各日英翻訳システムの翻訳結果のうち「A」評価を受けた文と「B」評価を受けた文と「C」評価を受けた文との合計の割合と、それらの組合わせのうちで最良の評価を受けたものを選択した理想的選択システムでの「A」「B」「C」評価の合計の割合とを百分率で示す。
【0012】
図16には、同様に3個の英日翻訳システム(TDMT,HPAT,SMT)の翻訳結果のうち、ネイティブスピーカの評価が最も高い翻訳結果を選択することができる理想的なシステムを想定した結果を、各日英翻訳システムの翻訳結果とともに示した。
【0013】
図15および図16から分かるように、複数個の機械翻訳システムの出力のうち最良のものを選択することにより、最終的な機械翻訳の精度はかなり高くなることが分かる。そこで、このように複数個の機械翻訳システムの出力の中からどのようにして最良と思われるものを選択するかが問題となる。
【0014】
そうした技術として従来知られているものに、Chris Callison−Burch and Raymond S. Flournoyらによる論文「複数の機械翻訳エンジンからの最良の出力を自動的に選択するためのプログラム」(参考文献(5))において提案されたシステムがある。
【0015】
このシステムでは、ターゲット言語の言語モデル(Language Model: LM)にしたがって各機械翻訳システムの出力に統計的言語モデルを用いたスコア(以下「LMスコア」と呼ぶ。)を付ける。そして、最も高いLMスコアを示した出力を選択する。
【0016】
図17に、このシステムの機能的構成を示す。図17を参照してこのシステム300は、各々入力文310を翻訳してターゲット言語の翻訳文322,324,326をそれぞれ出力する3種類の機械翻訳システム312、314および316と、これら翻訳文322,324,326に対するLMスコアを計算し、最も高いLMスコアを示した翻訳文をこのシステムの出力332として出力するための選択部330と、機械翻訳システム312,314,316および選択部330を制御し、入力文を一文ずつ処理させるための制御部328とを含む。
【0017】
このシステム300の動作は上記したとおりである。以下では、このシステム300を実現するためのプログラムのフローチャートの概略を図18および図19を参照して説明する。このシステムの動作は大きく二つに分割される。第1は準備フェーズであり、第2は翻訳フェーズである。図18には準備フェーズのプログラムが、図19には翻訳フェーズのプログラムが、それぞれ示されている。
【0018】
図18を参照して、従来システムの準備フェーズでは、最初にソース言語とターゲット言語との対訳文の集まりである対訳コーパスが電子的に読取可能な形式で準備される(350)。対訳コーパスは比較的準備しやすい言語資源であり、たとえば米国のLDC(Linguistic Data Consortium)という組織から入手可能である。
【0019】
続いてコーパス中の全単語、全バイグラムおよび全トライグラムの出現回数を計数し、テーブル化する(352)。「バイグラム」とは、特定の順序で出現する特定の二つの単語の組合せのことをいう。「トライグラム」とは、特定の順序で出現する特定の三つの単語の組合せのことをいう。
【0020】
後に述べるようにこの従来のシステムでは、あるターゲット言語の翻訳文について、そこに出現するすべてのトライグラムの出現確率(特定のバイグラムの全出現数中における特定のトライグラムの出現数)の積をその翻訳文のLMスコアとする。バイグラムおよびトライグラムの出現数のテーブル化は確率計算のための準備である。
【0021】
図19を参照して、従来の方法による翻訳文の評価のためのソフトウェアの構成は以下のとおりである。この処理に先立って、すべての機械翻訳システムを用いて入力文を翻訳し、翻訳結果を得ておく。
【0022】
各翻訳結果に含まれる全てのトライグラムの出現確率を、図18のステップ352で作成したテーブルを用いて計算する(360)。具体的には、コーパス中における対象トライグラムの全出現数を、そのトライグラムに含まれるバイグラムの全出現数で除算する。各翻訳結果に含まれる全てのトライグラムの出現確率を各翻訳結果ごとに乗算する(362)。こうして得られた結果が、各翻訳結果のLMスコアである。
【0023】
続いて、各翻訳結果のうち、最も高い確率(LMスコア)を示したものを採用し翻訳結果として出力する(364)。
【0024】
こうした処理を全ての入力文に対して繰返すことで、入力された文章中の全文が順に翻訳される。各入力文に対して、上のようにして計算されたLMスコアの最も大きな翻訳結果が選択される。なおLMスコアの計算においては、トライグラムに限らず一般にNグラム(特定の順序で出現するN個の特定の単語の組合せ)を用いることができる。
【0025】
【発明が解決しようとする課題】
上のようにして計算されたLMスコアは、ターゲット言語の中のNグラム(たとえばトライグラム)の出現確率を表わす。この出現確率は、つまるところ翻訳文の中の語順が自然なものかどうかだけを表わし、入力文に含まれる全情報がもれなく翻訳されているかどうかという点を反映していない。
【0026】
入力文に含まれる重要な情報が翻訳文から漏れていれば、その翻訳文はよいものとはいえない。人間が翻訳結果を評価する際にはそのような情報に関しても判断の材料としている。そのため、従来の技術の選択方法では必ずしも人間の判断基準と同様の基準での最良訳が選択できるとは限らない。その結果、従来の技術の選択方法では、単一の翻訳システムの性能に比べて十分な性能向上が期待できるとは限らないという問題がある。
【0027】
それゆえに本発明の目的は、複数の機械翻訳システムを用いた翻訳システムにおいて、より高い精度で最良の翻訳を選択できるようにすることである。
【0028】
本発明の他の目的は、複数の機械翻訳システムを用いた翻訳システムにおいて、入力文の情報をも反映した基準にしたがって最良の翻訳を選択できるようにすることである。
【0029】
本発明のさらに他の目的は、複数の機械翻訳システムを用いた翻訳システムにおいて、入力文の情報をも反映して、人間の評価と同様の基準にしたがって最良の翻訳を選択できるようにすることである。
【0030】
【課題を解決するための手段】
本発明の第1の局面は、コンピュータ上で処理可能な形式の原文と、当該原文に対する、コンピュータ上で処理可能な形式の複数個の翻訳結果とに基づいて、複数個の翻訳結果の中から最良訳を選択するようコンピュータを動作させる方法に関する。この方法は、複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより翻訳結果ごとにスコア群を算出するようコンピュータを動作させるステップと、スコア群に対する統計的検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するようコンピュータを動作させる判定ステップと、判定するステップでの結果にしたがって、複数個の翻訳結果のうちから最良のものを選択するよう、コンピュータを動作させる選択ステップとを含む。
【0031】
スコア群の中で他のスコア群と統計的に有意な差を持つものがあれば、それに対応する翻訳結果を選択する。こうすることによって、より的確に最良訳を選択することが可能となる。また、翻訳モデルを用いたスコアでは翻訳結果だけでなく原文をも考慮した採点が行なわれるので、情報の欠落がある翻訳を誤って選択してしまうおそれは少ない。
【0032】
本発明の第2の局面によれば、複数個の翻訳結果は3個以上の翻訳結果を含み、判定ステップは、スコア群に対して相互に多重検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するようコンピュータを動作させるステップを含む。
【0033】
多重検定を行なうことで、計算量を抑えながら複数のスコア群に対して適切な信頼度を保って検定を行なうことができ、的確な選択を行なうことができる。
【0034】
本発明の第3の局面によれば、多重検定はノンパラメトリック検定である。
【0035】
ノンパラメトリック検定を用いることにより、スコアに何らかの分布を仮定できない場合でも適切な検定を行なうことができる。
【0036】
本発明の第4の局面によれば、多重検定はパラメトリック検定である。
【0037】
パラメトリック検定を用いることにより、スコアに正規分布を仮定できる場合に適切な検定を行なうことができる。
【0038】
本発明の第5の局面によれば、複数個の翻訳結果は3個以上の翻訳結果を含み、判定ステップは、スコア群に含まれる各スコアの、全スコア群中における順位を算出するようコンピュータを動作させるステップと、スコア群の各々に含まれるスコアの平均順位をスコア群ごとに算出するようコンピュータを動作させるステップと、スコア群ごとに算出される平均順位の間で多重検定を行なうことにより、平均順位の中で他のスコア群の平均順位と有意な差を持つものがあるか否かを判定するようコンピュータを動作させるステップとを含み、選択ステップは、他のスコア群の平均順位と有意な差を持つと判定された平均順位を持つスコア群に対応する翻訳結果を最良訳として選択するようコンピュータを動作させるステップを含む。
【0039】
各スコア群の平均順位を用いてノンパラメトリックな多重検定が行なわれるので、翻訳結果が3個以上の場合でも、比較的少ない計算量で適切な選択を行なうことができる。
【0040】
本発明の第6の局面によれば、翻訳結果は、3個以上の機械翻訳システムの翻訳結果であり、かつ3個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、選択ステップはさらに、他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するようにコンピュータを動作させるステップを含む。
【0041】
有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【0042】
本発明の第7の局面によれば、複数個の翻訳結果は3個以上の翻訳結果を含み、判定ステップは、スコア群ごとにスコアの平均値を算出するようコンピュータを動作させるステップと、スコア群ごとに算出される平均値の間で多重検定を行なうことにより、平均値の中で他のスコア群の平均値と有意な差を持つものがあるか否かを判定するようコンピュータを動作させるステップとを含み、選択ステップは、他のスコア群の平均値と有意な差を持つと判定された平均値を持つスコア群に対応する翻訳結果を最良訳として選択するようコンピュータを動作させるステップを含む。
【0043】
平均値を用いたパラメトリックな多重検定が行なわれるので、スコアに正規分布が仮定できる場合に、適切な選択を行なうことができる。
【0044】
本発明の第8の局面によれば、翻訳結果は、3個以上の機械翻訳システムの翻訳結果であり、かつ3個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、選択ステップはさらに、他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するようにコンピュータを動作させるステップを含む。
【0045】
有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【0046】
本発明の第9の局面によれば、複数個の翻訳結果は2個の翻訳結果を含み、判定ステップは、スコア群の間の一対比較を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するようコンピュータを動作させるステップを含む。
【0047】
翻訳結果が2個である場合に、多重検定ではなく一対比較を行なうことで適切な選択を行なうことができる。
【0048】
本発明の第10の局面にかかる、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法は、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成するようにコンピュータを動作させるための方法であって、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するステップと、予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するようコンピュータを動作させるステップと、訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するようコンピュータを動作させるステップと、各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての評点とを成分とする学習用ベクトルを算出するようコンピュータを動作させるステップと、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木を学習するようコンピュータを動作させる学習ステップと、得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するようコンピュータを動作させるステップとを含む。
【0049】
翻訳結果の選択にこのような回帰木を用いるという技術は従来は存在していなかった。回帰木を用いることで、目標となる採点基準に近い形で各翻訳の評点を推定することができる。
【0050】
本発明の第11の局面によれば、学習ステップは、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するようコンピュータを動作させるステップと、学習された回帰木を予め定められた程度だけ剪定または縮小させるようコンピュータを動作させるステップとを含む。
【0051】
回帰木は、通常の形式で作成すると過学習となり、一般的なデータについては的確な推定が必ずしもできるとは限らない。そこで剪定または縮小を行なうことによって、一般的なデータについても一定の精度で推定ができるようになる。
【0052】
本発明の第12の局面によれば、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、評点とするステップをさらに含む。
【0053】
人間の評価に基づいて翻訳結果の評点が得られ、かつその値が2値的に得られる。したがってコンピュータ上での処理が容易に行なえる。
【0054】
本発明の第13の局面にかかる複数個の翻訳結果から最良訳を選択する方法は、複数個の回帰木データを用いて複数個の機械翻訳システムの翻訳結果のうちの最良訳を選択するようにコンピュータを動作させるための方法である。複数個の回帰木データの各々は、対応の機械翻訳システムの翻訳結果の各々に対して予め定められた複数個の採点関数を適用した結果得られるスコア群を説明変数として与えられると、目標となる採点基準にしたがって推定される評点の推定値を出力するように利用可能である。この方法は、回帰木データをコンピュータ読取可能な形式で準備するステップと、入力される文に対する複数個の機械翻訳システムの翻訳結果の各々に対して、複数個の採点関数を用いてスコア群を算出するようにコンピュータを動作させるステップと、スコア群を説明変数として複数個の回帰木データに適用することにより、各複数個の回帰木データからそれぞれ評点の推定値を得るようにコンピュータを動作させるステップと、評点の推定値のうち、最も高い評点の推定値に対応する回帰木に関連付けられた機械翻訳システムの翻訳結果を選択して出力するようにコンピュータを動作させるステップとを含む。
【0055】
一般に、翻訳結果に対する評点が分布にしたがうものとは限らない。そうした場合、分布を想定することのない回帰木データを用いて評点を推定することにより、より適切な訳を選択することができる。
【0056】
本発明の第14の局面によれば、複数個の回帰木データは、第10〜第12のいずれかの局面にかかる方法によって準備されたものである。
【0057】
本発明の第15の局面によれば、複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、この方法は、評点の推定値のうち、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択するステップをさらに含む。
【0058】
最高の推定値を与える回帰木が複数個ある場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【0059】
本発明の第16の局面にかかる最良訳選択型の機械翻訳プログラムは、コンピュータ上で処理可能な形式の原文と、当該原文に対する、コンピュータ上で処理可能な形式の複数個の翻訳結果とに基づいて、複数個の翻訳結果の中から最良訳を選択する最良訳選択型の機械翻訳システムとしてコンピュータを動作させるプログラムである。この最良訳選択型の機械翻訳システムは、複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより翻訳結果ごとにスコア群を算出するための手段と、スコア群に対する統計的検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための判定手段と、判定手段での結果にしたがって、複数個の翻訳結果のうちから最良のものを選択するための選択手段とを含む。
【0060】
スコア群の中で他のスコア群と有意な差を持つものがあれば、それに対応する翻訳結果を選択する。こうすることによって、より的確に最良訳を選択することが可能となる。翻訳モデルを用いたスコアでは翻訳結果だけでなく原文をも考慮した採点が行なわれるので、情報の欠落がある翻訳を誤って選択してしまうおそれは少ない。
【0061】
本発明の第17の局面によれば、複数個の翻訳結果は3個以上の翻訳結果を含み、判定手段は、スコア群に対して相互に多重検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための手段を含む。
【0062】
多重検定を行なうことで、計算量を抑えながら複数のスコア群に対して適切な信頼度を保って検定を行なうことができ、的確な選択を行なうことができる。
【0063】
本発明の第18の局面によれば、多重検定はノンパラメトリック検定である。
【0064】
ノンパラメトリック検定を用いることにより、スコアに何らかの分布を仮定できない場合でも適切な検定を行なうことができる。
【0065】
本発明の第19の局面によれば、多重検定はパラメトリック検定である。
【0066】
パラメトリック検定を用いることにより、スコアに正規分布を仮定できる場合に適切な検定を行なうことができる。
【0067】
本発明の第20の局面によれば、複数個の翻訳結果は3個以上の翻訳結果を含み、判定手段は、スコア群に含まれる各スコアの、全スコア群中における順位を算出するための手段と、スコア群の各々に含まれる全スコアの平均順位をスコア群ごとに算出するための手段と、スコア群ごとに算出される平均順位の間で多重検定を行なうことにより、平均順位の中で他のスコア群の平均順位と有意な差を持つものがあるか否かを判定するための手段とを含み、選択手段は、他のスコア群の平均順位と有意な差を持つと判定された平均順位を持つスコア群に対応する翻訳結果を最良訳として選択するための手段を含む。
【0068】
各スコア群の平均順位を用いてノンパラメトリックな多重検定が行なわれるので、翻訳結果が3個以上の場合でも、比較的少ない計算量で適切な選択を行なうことができる。
【0069】
本発明の第21の局面によれば、翻訳結果は、3個以上の機械翻訳システムの翻訳結果であり、かつ複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、選択手段はさらに、他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するための手段を含む。
【0070】
有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【0071】
本発明の第22の局面によれば、複数個の翻訳結果は3個以上の翻訳結果を含み、判定手段は、スコア群ごとにスコアの平均値を算出するための手段と、スコア群ごとに算出される平均値の間で多重検定を行なうことにより、平均値の中で他のスコア群の平均値と有意な差を持つものがあるか否かを判定するための手段とを含み、選択手段は、他のスコア群の平均値と有意な差を持つと判定された平均値を持つスコア群に対応する翻訳結果を最良訳として選択するための手段を含む。
【0072】
平均値を用いたパラメトリックな多重検定が行なわれるので、スコアに正規分布が仮定できる場合に、適切な選択を行なうことができる。
【0073】
本発明の第23の局面によれば、翻訳結果は、3個以上の機械翻訳システムの翻訳結果であり、かつ3個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、選択手段はさらに、他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するための手段を含む。
【0074】
有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【0075】
本発明の第24の局面によれば、複数個の翻訳結果は2個の翻訳結果を含み、判定手段は、スコア群の間の一対比較を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための手段を含む。
【0076】
翻訳結果が2個である場合に、多重検定ではなく一対比較を行なうことで適切な選択を行なうことができる。
【0077】
本発明の第25の局面にかかる回帰木生成プログラムは、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する回帰木生成装置としてコンピュータを動作させるための、コンピュータ読取可能なプログラムであって、回帰木生成装置は、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するための手段と、予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するための手段と、訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するための手段と、各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての評点とを成分とする学習用ベクトルを算出するための手段と、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木を学習するための学習手段と、得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するための手段とを含む。
【0078】
翻訳結果の選択にこのような回帰木を用いるという技術は従来は存在していなかった。回帰木を用いることで、目標となる採点基準に近い形で各翻訳の評点を推定することができる。
【0079】
本発明の第26の局面によれば、学習手段は、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するための手段と、学習された回帰木を予め定められた程度だけ剪定または縮小するための手段とを含む。
【0080】
回帰木は、通常の形式で作成すると過学習となり、一般的なデータについては的確な推定が必ずしもできるとは限らない。そこで剪定または縮小を行なうことによって、一般的なデータについても一定の精度で推定ができるようになる。
【0081】
本発明の第27の局面によれば、回帰木生成装置は、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、評点とするための手段をさらに含む。
【0082】
人間の評価に基づいて翻訳結果の評点が得られ、かつその値が2値的に得られる。したがってコンピュータ上での処理が容易に行なえ、また得られた結果は人間の評価に近いものとなる。
【0083】
本発明の第28の局面にかかる最良訳選択型の機械翻訳プログラムは、複数個の回帰木データを用いて複数個の機械翻訳システムの翻訳結果のうちの最良訳を選択する最良訳選択型の機械翻訳システムとしてコンピュータを動作させるための、コンピュータ読取可能なプログラムである。複数個の回帰木データの各々は、対応の機械翻訳システムの翻訳結果の各々に対して予め定められた複数個の採点関数を適用した結果得られるスコア群を説明変数として与えられると、目標となる採点基準にしたがって推定される評点の推定値を出力するように利用可能である。この最良訳選択型の機械翻訳システムは、回帰木データをコンピュータ読取可能な形式で準備するための手段と、入力される文に対する複数個の機械翻訳システムの翻訳結果の各々に対して、複数個の採点関数を用いてスコア群を算出するための手段と、スコア群を説明変数として複数個の回帰木データに適用することにより、各複数個の回帰木データからそれぞれ評点の推定値を得るための手段と、評点の推定値のうち、最も高い評点の推定値に対応する回帰木に関連付けられた機械翻訳システムの翻訳結果を選択して出力するための手段とを含む。
【0084】
一般に、翻訳結果に対する評点が正規分布にしたがうものとは限らない。そうした場合、分布を想定することのない回帰木データを用いて評点を推定することにより、より適切な訳を選択することができる。
【0085】
本発明の第29の局面によれば、複数個の回帰木データは、第25〜第27のいずれかの局面にかかる方法によって準備されたものである。
【0086】
本発明の第30の局面によれば、複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、最良訳選択型の機械翻訳システムは、評点の推定値のうち、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択するための手段をさらに含む。
【0087】
最高の推定値を与える回帰木が複数個ある場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【0088】
本発明の第31の局面にかかる記憶媒体は、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを記憶した記憶媒体である。この回帰木データは、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するステップと、予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するステップと、訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するステップと、各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての評点とを成分とする学習用ベクトルを算出するステップと、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木を学習するステップと、得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するステップとを含む方法によって作成されたものである。
【0089】
翻訳結果の選択にこのような回帰木を用いるという技術は従来は存在していなかった。回帰木を用いることで、目標となる採点基準に近い形で各翻訳の評点を推定することができる。
【0090】
本発明の第32の局面によれば、学習するステップは、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するステップと、学習された回帰木を予め定められた程度だけ剪定または縮小するステップとを含む。
【0091】
回帰木は、通常の形式で作成すると過学習となり、一般的なデータについては的確な推定が必ずしもできるとは限らない。そこで剪定または縮小を行なうことによって、一般的なデータについても一定の精度で推定ができるようになる。
【0092】
本発明の第33の局面によれば、前記した方法は、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、評点とするステップをさらに含む。
【0093】
人間の評価に基づいて翻訳結果の評点が得られ、かつその値が2値的に得られる。したがってコンピュータ上での処理が容易に行なえ、また得られた結果は人間の評価に近いものとなる。
【0094】
【発明の実施の形態】
[第1の実施の形態]
―概略―
第1の実施の形態の機械翻訳システムは、複数の個別の機械翻訳システムの翻訳結果のうち、最良のものを選ぶ最良訳選択型の機械翻訳システムであって、最良訳の選択時に、他の機械翻訳システムの翻訳結果の評価値と比較して、有意な差をもつ最高の評価値を示した機械翻訳システムの翻訳結果を採用するというものである。この実施の形態ではその検定には多重比較を用いる。ただし、関係する機械翻訳システムの数が二つの場合には、後述するように一対比較を用いる。
【0095】
―構成―
以下に述べる本発明の各実施の形態は、コンピュータおよびコンピュータ上で動作するソフトウェアにより実現される。もちろん、以下に述べる機能の一部又は全部を、ソフトウェアでなくハードウェアで実現することも可能である。
【0096】
図1に、本実施の形態で利用されるコンピュータシステム20の外観図を、図2にコンピュータシステム20のブロック図を、それぞれ示す。なおここに示すコンピュータシステム20はあくまで一例であり、この他にも種々の構成が可能である。
【0097】
図1を参照して、コンピュータシステム20は、コンピュータ40と、いずれもこのコンピュータ40に接続されたモニタ42、キーボード46、およびマウス48を含む。コンピュータ40にはさらに、CD―ROM(Compact Disc Read−Only Memory)ドライブ50と、FD(Flexible Disk)ドライブ52とが内蔵されている。
【0098】
図2を参照して、コンピュータシステム20はさらに、コンピュータ40に接続されるプリンタ44を含むが、これは図1には示していない。またコンピュータ40はさらに、CD―ROMドライブ50およびFDドライブ52に接続されたバス66と、いずれもバス66に接続された中央演算装置(Central Processing Unit:CPU)56、コンピュータ40のブートアッププログラムなどを記憶したROM(Read−Only Memory)58、CPU56が使用する作業エリアおよびCPU56により実行されるプログラムの格納エリアを提供するRAM(Random Access Memory)60、および後述する対訳コーパス、翻訳結果などを格納するハードディスク54を含む。
【0099】
以下に述べる実施の形態のシステムを実現するソフトウェアは、たとえば、CD―ROM62のような記録媒体上に記録されて流通し、CD―ROMドライブ50のような読取装置を介してコンピュータ40に読込まれ、ハードディスク54に格納される。CPU56がこのプログラムを実行する際には、ハードディスク54からこのプログラムを読み出してRAM60に格納し、図示しないプログラムカウンタによって指定されるアドレスから命令を読出して実行する。CPU56は、処理対象のデータをハードディスク54から読出し、処理結果を同じくハードディスク54に格納する。
【0100】
コンピュータシステム20の動作自体は周知であるので、ここではその詳細については繰り返さない。
【0101】
なお、ソフトウェアの流通形態は上記したように記憶媒体に固定された形には限定されない。たとえば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通することもあり得る。また、ソフトウェアの一部が予めハードディスク54中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク54に取込んで実行時に統合するような形の流通形態もあり得る。
【0102】
一般的に、現代のプログラムはコンピュータのオペレーティングシステム(OS)またはいわゆるサードパーティ等によって提供される汎用の機能を利用し、それらを所望の目的にしたがって組織化した形態で実行することにより前記した所望の目的を達成する。したがって、以下に述べる本実施の形態の各機能のうち、OSまたはサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合せだけを指定するプログラム(群)であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム(群)である限り、それらが本発明の技術的範囲に含まれることは明らかである。
【0103】
以下にのべる実施の形態を説明するに先立って、翻訳結果の採点方法について説明する。予備的実験として、本発明の発明者は前述したLMスコアと、IBM4と呼ばれる翻訳モデル(T(s,t)で翻訳モデルTMを用いて計算する
【0104】
【数1】
Figure 2004038406
を表記する。ここで、sは原文であり、tは訳出であり、Sはアライメント集合(参考文献(6))、すなわち、最良アライメント(the best alignment)、ある種の近接アライメント(neighboring alignmentsとpegged alignments)からなるアライメント集合である。)によるスコア(「TMスコア」と呼ぶ。)、およびLMスコアとTMスコアとの積(TM*LM)とをそれぞれ用いて最良訳を選択する実験を行なった。
【0105】
ここで翻訳モデルについて説明する。翻訳モデルでは、翻訳というタスクを次のように考える。すなわち、「原言語の文Sが、雑音のある通信路を通って目標言語の文Tとして観測されたものと考え、この目標言語の文Tから原言語の文Sを推測すること」が翻訳であると考える。言換えれば、目標言語の文Tから原言語の文Sを復号することが翻訳である。このとき、Tが与えられたときにSが生ずる確率P(S|T)を最大にするSを求めれば、誤りを最小にできる。すなわち、原言語の文Sを最小の誤差で復号できるということであるから、復号された原言語の文は目標言語の文Tの最良の翻訳文ということになる。
【0106】
ベイズの法則よりP(S|T)=P(S)P(T|S)/P(T)である。P(T)は目標言語における単語の統計的モデルにしたがう値で、言語モデルSとは無関係である。したがって、確率P(S|T)を最大とするためにはP(S)P(T|S)を最大にすればよい。ここで、P(S)は、原言語における単語の統計的なモデルである。このP(S)を与えるモデルが前述の言語モデルであって、要するに原言語の統計的情報から原文Sが生ずる確からしさを表わすものといえる。一方、P(T|S)を与えるモデルを翻訳モデルと呼び、原文Sが生じたときにターゲット言語の文Tが生ずる確率を表わすものといえる。これらのモデルのパラメータは、大規模な言語データベースを用いて自動的に推定される。
【0107】
なお、上の翻訳モデルの説明からわかるように、翻訳モデルにおける「目標言語の文T」とは、翻訳というタスクを中心に考えれば翻訳の原文sに相当する。また翻訳モデルにおける「原言語の文S」とは、翻訳というタスクを中心に考えれば翻訳後の訳文tに相当する。したがって、翻訳モデルでの考え方と、翻訳というタスクを中心とした考え方とでは、「目標言語(ターゲット言語)」と「原言語(ソース言語)」という用語がちょうど逆の意味で使われることになるので、注意が必要である。
【0108】
実験には、前述した3つの日英翻訳システムを用いた。その結果を表1に示す。
【0109】
【表1】
Figure 2004038406
表1は、上のようにして得られたスコア(TM*LM、LM、およびTM)に基づいて最良訳を選択した場合のランクAの割合と、機械翻訳システムD3による翻訳結果のランクAの割合との間の相違を示す。システムD3はランクAについては最良の結果を残していたことを想起されたい(図15参照)。
【0110】
この予備的実験からは、TMスコアおよびLMスコアを用いた場合には翻訳精度の向上は見られないことが分かる。一方、TM*LMスコアを用いた場合には明らかに翻訳精度の向上が見られる。したがって、最良訳の選択にはTM*LMスコアを用いることが有効と思われる。
【0111】
ただし、このような採点方法はあくまで統計的なものであり、学習にどのようなコーパスを使用するかによって、得られるスコアは異なってくることに注意する必要がある。以下の説明では、主として採点にはTM*LMスコアを用いるものとして説明する。
【0112】
本実施の形態のプログラムのうち、最良の翻訳結果を選択する選択部を装置とみなして機能的に示したのが図3のブロック図である。図3に示される選択部70は、図17に示す選択部330に代えて用いることができる。なお、制御部328の機能は一文ごとの処理の繰返しを制御するものであり、通常はプログラム中のループ処理により実現される。したがって図3では制御部328の制御によって動作を開始したり終了したりする機能は示していない。ただし、本発明をプログラムではなくハードウェア回路によって実現することも可能であることはもちろんである。
【0113】
図3を参照して、この第1の実施の形態における選択部70は、3つの機械翻訳システム(これらをそれぞれMT,MTおよびMTとする。)に対してそれぞれ後に述べる手法により採点する(スコアをつける)処理を行なう採点部72A,72Bおよび72Cと、採点部72A―72Cから出力されるスコアを比較し、それらのうち最高のスコアであって、かつ他の機械翻訳システムによるスコアに対して有意な差を持っているものを原則として選択し翻訳結果として出力するための比較・選択部78とを含む。
【0114】
これら各機能ブロックは、いずれも本実施の形態ではソフトウェアにより実現される。また、採点のための準備的な作業についても本実施の形態ではソフトウェアにより実現される。以下、図4〜図5を参照して、それらソフトウェアの制御構造について説明する。この第1の準備形態のシステムもやはり、準備フェーズと翻訳フェーズとを持つ。図4には準備フェーズを、図5には翻訳フェーズを、それぞれ示す。
【0115】
図4を参照して、準備フェーズでは、最初に規模がほぼ同じ複数個の対訳コーパスC (i=1,…,L)を電子的に読取可能な形式で準備する(80)。ここでは例としてL=10とする。実際には、一つの大きな対訳コーパスCを10個の部分集合Vに等分し、差集合C−VをCとすることが考えられる。
【0116】
続いてコーパスC(i=1,…,10)をそれぞれ用いて採点関数F (i=1,…,10)を学習する(82)。この場合、翻訳が好ましいほど点数が大きくなるように採点関数Fを定める。採点関数Fとしては、前述したLMスコア、TMスコア、その積LM*TMスコアなどを用いることができる。コーパスCが10個あり、そのそれぞれを用いて採点関数Fを学習させるので、結果として採点関数Fも10個得られることに注意する。なおここでいう「採点関数を学習する」というのは、各コーパスに基づいて言語モデルまたは翻訳モデルを学習し、その結果にしたがって採点関数の値が定まるように、必要な統計量を予め取得しておくことを意味する。
【0117】
図5を参照して、翻訳フェーズでは以下のような処理が行なわれる。まず、原文sを各機械翻訳システム(MT: k=1,…,3)に入力し、それぞれ翻訳結果tを得る(90)。この場合の翻訳単位は通常は一文である。ただし翻訳単位が一文に限定されるわけではない。
【0118】
続いて、原文sと各機械翻訳システム(MT)による翻訳結果tとの組(s,t)に対し、採点関数F(i=1,…,10)を用いて点数を付ける(92)。その結果、各組(s,t)ごとに10個の点数F(s,t)(i=1,…,10,k=1,…,3)が得られる。すべての組をあわせて各組をその点数F(s,t)で降順にソーティングし、その結果にしたがって各組に順位H(s,t)(i=1,…,10,k=1,…,3)を付ける。
【0119】
各機械翻訳システムMTごとに、その機械翻訳システムと翻訳結果との組(s,t)に対して付けられた順位H(s,t)(i=1,…,10)の平均値M=ΣH(s,t)/10を求める(94)。この平均値を「平均順位」と呼ぶ。
【0120】
このようにして得られた各機械翻訳システムの出力の点数の平均順位M(k=1,…,3)のうち、最高のものが他のものと有意な差を有しているか否かを判定する(96)。本実施の形態では、この判定にはクルスカル・ワリス検定を用いた多重比較による検定を用いる。その詳細については、たとえば田中豊・垂水共之編「統計解析ハンドブック パラメトリック法」(共立出版株式会社)の「4.独立なk標本データの解析」、特に「4.2 クラスカル・ワリス検定」および「4.5 多重比較」に詳細な記載がある。
【0121】
一般に、上のようにして得られた翻訳結果に対する点数F(s,t)が正規分布にしたがっているとは限らない。むしろ正規分布にはしたがっていないと考えるべきである。そこで、ここではノンパラメトリック統計における多重比較を用いる。この実施の形態では、テューキー・クレイマー型の多重検定を用いている。より具体的には、市販の統計ツールにより提供される多重検定のための関数を用いるとよい。たとえばMatlabの中に含まれるkruskalwallis関数およびmultcompare関数を利用することができる。
【0122】
もしも、上記したように最高の平均順位が他の平均順位に対して有意な差を持っている場合(ステップ96の判定結果がYES)、制御はステップ98に移る。ステップ98では、その最小の平均順位を与えた機械翻訳システムの出力を採用する。
【0123】
最高の平均順位が他の平均順位に対して有意な差を持っていない場合(ステップ96の判定結果がNO)、制御はステップ100に移る。ステップ100では、最小の平均順位と有意な差がない平均順位を与えた機械翻訳システムのうち、予め指定された順番にしたがって優位なものが選択される。この順番としてはたとえば、何らかの基準によって予め性能を測定しておき、性能のよいものから指定するようにすればよい。ここでいう性能とは、単に言語モデルや翻訳モデルによるものではなく、総合的な性能という意味で予め分かっているものとする。
【0124】
続いて、全文の翻訳が終了したか否かを判定する(102)。もしも全文の翻訳が終了していれば翻訳処理を終了し、さもなければ次の文に処理対象ポインタを進め(104)た後、新たな入力文に対してステップ90からの処理を繰返す。
【0125】
―動作―
以上述べたハードウェアとソフトウェアとにより構成される本実施の形態のシステムは、以下のように動作する。
【0126】
準備作業として以下のような作業を行なう。図4のステップ80に示すように、規模がほぼ同じ複数の対訳コーパスC(i=1,…,10)を準備する。次に、図4のステップ82に示すように、これらコーパスCを用い、一つのコーパスに対し一つの採点関数を学習する。この処理により10個の採点関数F(i=1,…,10)を得る。以上で準備作業は終了である。
【0127】
翻訳時には以下のような処理が行なわれる。まず翻訳対象のポインタを入力文章中の先頭文を示す値に設定した後、図5の処理が開始される。最初の文sを3個の機械翻訳システムMT、MT,MTに入力し、それぞれ翻訳結果t,t,tを得る(ステップ90)。これらの翻訳結果に対して、以下のようにして採点をおこなう(ステップ92)。
【0128】
すなわち、第1の機械翻訳システムMTの出力tについては、F(s,t),F(s,t),…,F10(s,t)を計算する。第2の機械翻訳システムMTの出力tについては、F(s,t),F(s,t),…,F10(s,t)を計算する。第3の機械翻訳システムMTの出力tについては、F(s,t),F(s,t),…,F10(s,t)を計算する。
【0129】
続いて各機械翻訳システムごとに、点数の平均順位を計算する(94)。次にそれら平均順位の最小値で、かつ他の平均順位に対して有意な差を持つものがあるか否かを判定する(96)。そうしたものがある場合にはステップ98でその機械翻訳システムの翻訳結果を選択する。そうしたものがない場合には、最小値と有意な差がない平均順位を与えた機械翻訳システムのうち、予め定められた順序にしたがって優位なものを選択する(100)。選択された翻訳結果は、たとえばメモリ中に蓄積されたり、ハードディスクに書込まれたりする。
【0130】
この後、全文の翻訳が終了したか否かを判定する(102)。入力される文章に含まれる文が複数個ある場合には、ここでの判定結果はNOとなる。したがって処理対象を示すポインタを進めて(104)、ステップ90に戻る。ステップ90以降は、2番目の文章に対して上述した処理を繰返す。
【0131】
こうして、入力される文章に対する処理が全て終了すると、ステップ102での判定結果が「YES」となる。その結果この処理全体が終了する。最終的にメモリまたはハードディスクには、入力文章の全体について、各文が最良訳からなる翻訳文が格納されている。
【0132】
この実施の形態のシステムによる具体的な効果については後述する。
【0133】
なお、この実施の形態では、各機械翻訳システムとその翻訳結果との組の平均順位に基づいたノンパラメトリック検定を使用している。しかし、本発明はそのような実施の形態には限定されない。たとえば、各機械翻訳システムと翻訳結果との組(s,t)に対して付けられた点数F(s,t)(i=1,…,10)が正規分布を仮定できる場合には平均値M’=ΣF(s,t)/10を求め、これら平均値を用いて多重検定を行なってもよい。この場合、検定はパラメトリックなものとなる。
【0134】
より一般的に、機械翻訳システムの訳文のうち最良のものを選択するために、統計的検定を用い、他の機械翻訳システムの訳文の評価に対して有意な差をもって優れていると判定された機械翻訳システムの訳文を選択する点に本実施の形態の特徴がある。
【0135】
以上の説明では、検定の対象となる値として、採点結果の平均順位または平均値をあげた。しかし本実施の形態にかかる発明はそれらの値を用いるものに限らない。母集団である採点結果の集まりのデータを代表する値(代表値)であればどのようなものを用いてもよい。応用によって、最頻値、中央値、算術平均、幾何平均、調和平均など、統計学上で代表値として挙げられるもののうち適切なものが選択できる。
【0136】
また、本実施の形態では機械翻訳システムの訳文を選択する際の統計的検定において、機械翻訳システムの比較の組合せが複数個あるため、多重比較を用いている。しかし本実施の形態にかかる発明はそのような実施の形態には限定されない。たとえば機械翻訳システムが2つの場合には、比較する代表値の数は二つ(一対)となる。このときには、多重比較でなく、二つの代表値を用いた一対比較を行なえばよい。パラメトリックな一対比較の検定手法としてはt−検定があり、ノンパラメトリックな一対比較の検定手法としては、順位和を用いることができる。もちろん、これ以外にも適切な検定手法を用いることが可能である。
【0137】
[第2の実施の形態]
―概略―
第2の実施の形態のシステムは、複数個の採点関数による採点結果と、人間による評価の結果とに基づいて、採点関数による採点から人間の評価を推定しその結果に基づいて翻訳結果を選択する点に特徴がある。その推定のためにこのシステムでは、ある翻訳結果に対する複数個の評価関数による点数の並びから、その翻訳結果に対応する人間の評価を条件付き確率として推定できる方法を用いる。ここでは、後述するように回帰木を用いる。
【0138】
この第2の実施の形態のシステムを実現するためのハードウェアは、第1の実施の形態のシステムに関連して説明したものと同様である。したがってここではそれらについての詳細な説明は繰返さない。
【0139】
この第2の実施の形態のシステムでも、作業は準備フェーズと翻訳フェーズとに分かれる。準備フェーズはさらに、各ユーザのシステムにこの機械翻訳システムをインストールする前に行なう事前準備と、各ユーザのシステムにインストールされた後に、各ユーザごとに行なわれる個別の準備とに分かれる。
【0140】
事前準備では、訓練事例を用いて翻訳システムに翻訳を行なわせ、翻訳結果に対して人間による評点を割当てる。
【0141】
個別の準備では、各ユーザごとに対訳コーパスを用意して、このコーパスを用いて翻訳結果に対する複数個の評価関数を定める。個別の準備ではさらに、訓練事例の翻訳結果に対して上記したように得られた複数個の評価関数による点数と、事前準備によって得られた人間の評価結果とから、その翻訳結果に対する人間の評価を推定するための回帰木の学習が行なわれる。
【0142】
翻訳フェーズでは、複数の機械翻訳システムに入力文の翻訳を行なわせる。翻訳結果に対して前述の複数個の評価関数を適用して複数個の点数を計算する。これらの点数の並びに対して回帰木を適用することで、各翻訳結果に対する人間の評価を条件付き確率として推定する。
【0143】
これら各フェーズの詳細については後述する。なお、各ユーザごとに行なわれる個別の準備は、ユーザが特にシステムのカスタマイズを必要としない(ユーザ固有の評価関数を用いない)場合には、事前準備として各ユーザのシステムへのインストール前に共通の対訳コーパスを用いて評価関数を定めることによって行なうこともできる。
【0144】
評価関数としては、たとえば前述のLMスコア,TMスコア,TM*LMスコアなどを用いることができる。もちろんこれ以外にも翻訳の精度を示す尺度となるものがあればそれを採用することができる。
【0145】
―構成―
図6は、個別の準備処理のうち、回帰木の作成処理を実現するソフトウェア(「回帰木作成部110」として示す。)を機能的に表わすブロック図である。ここでは、この機械翻訳システムは構成要素として3つの個別の機械翻訳システムMT1−MT3を利用するものとする。
【0146】
この回帰木作成部110は、訓練事例の対訳コーパスと、定義済の複数個の評価関数112と、訓練事例に対して事前準備で得られた人による評価114とに基づき、それぞれ機械翻訳システムMT1−MT3に対応する学習済回帰木116A〜116Cを作成するための個別回帰木作成部120A〜120Cを含む。
【0147】
個別回帰木作成部120A〜120Cはいずれも同じ構成である。たとえば個別回帰木作成部120Aは、訓練事例の全入力文の翻訳結果の各々に対し、複数個の評価関数112による点数を算出するための採点部122Aと、各翻訳結果について採点部122Aから出力される複数個の採点と、その翻訳結果に対応する人間の評価値とをベクトル化するためのベクトル化部124Aと、ベクトル化部124Aから各翻訳結果に対して出力されるベクトルに基づき、後述する回帰木を学習するための回帰木学習部126Aとを含む。回帰木学習部126Aの出力が学習済回帰木116Aである。
【0148】
個別回帰木作成部120Bおよび120Cについては、その各構成要素には同じ参照符号に添え字BおよびCを付して表わすこととし、その構成の詳細はここでは繰返さない。
【0149】
この実施の形態では、学習済回帰木116A〜116Cの機能は、ある翻訳結果に対する複数の評価関数112による点数の並びを与えられると、その点数の並びから、対応する人間の評価の推定値を出力する、というものである。具体的には、回帰木は、与えられた点数の並びに基づいて適切に分岐をしていくことによって点数の並びと人間の評価値を表わす値とを成分とするベクトルからなるベクトル空間を複数個の部分空間に分割し、かつ各部分空間に属するベクトルに含まれる人間の評価値がある共通の傾向をもつようにする。たとえば、評価値が「1」のものと「0」のものとをできるだけ分離するように分割をする。そして、推定時には、与えられた点数の並び(ベクトル)に基づいて解析木をたどっていくことでそのベクトルの属する部分空間を定める。その部分空間に属するベクトルの人間の評価値の平均値を、与えられたベクトルの評価値の推定値とする。
【0150】
たとえば、機械翻訳システムMT,MT,およびMTを考える。訓練事例中のある原文sに対してこれらシステムが出力する訳をそれぞれt,tおよびtとする。そしてこれらに対する人間の評価をそれぞれR,RおよびRと表わす。ここでR,RおよびRはそれぞれ、翻訳結果t,tおよびtに対する人間の評価が、他の訳(それぞれ「tおよびt」、「tおよびt」、ならびに「tおよびt」)の評価より悪くないかどうかを表わす変数である。悪くない場合には値は1、そうでない場合には値は0となるものとする。
【0151】
また、評価関数をG,GおよびGとする。ここでは評価関数の数と機械翻訳システムの数とがたまたま一致しているが、両者は無関係である。j番目の原文sに対する機械翻訳システムMTの出力をt1jで表わし、そのときのたとえば評価関数Gの値をG(s,t1j)のように表わす。入力文sと翻訳出力t1jとの対を(s、t1j)で表わすと、ベクトル化部124Aは(s,t1j)を以下のようなベクトルV1jとして表わす。
【0152】
(s,t1j) −> V1j=(G(s,t1j),G(s,t1j),G(s,t1j),R1j
ここでR1jは、前述のR,RおよびRと同様の値であって、1番目の機械翻訳システムMTによるj番目の原文sの訳の評価が、他の機械翻訳システムの訳の評価より悪くないかどうかを表わす変数である。悪くない場合には値は1、そうでない場合は値は0となるものとする。
【0153】
これらベクトルを多数与えられることにより、回帰木学習部126Aは適切に条件分岐を定めて、人間による評価がよいものと悪いものとがなるべく区別できるようにベクトル空間を分割していく。回帰木の学習とは、そのようにして適切な分割方法を定めていくことである。
【0154】
なお回帰木の学習自体は統計学では公知の手法である。回帰木の学習についても著名な統計処理ツール「Splus」のtree関数を用い、予測変数(本実施の形態では人間による評価値)と、説明変数(本実施の形態での評価関数に相当)と、学習のためのデータセットへのポインタとを引数として与えることで容易に実行することができる。
【0155】
回帰木の利用では、回帰木と、判定したいデータが入っているベクトル(学習時と同じ順序で成分を含むもの)とを引数として関数predictを実行することにより予測変数の推定値を得ることができる。
【0156】
Splusにおける回帰木の基本原理、学習、およびその利用に関しては、J.M.チェンバースおよびT.J.ヘイスティ編「Sと統計モデル」(共立出版株式会社)の第9章「樹形モデル」に詳細に記載されており、その記載をも参考にすれば、回帰木の学習、予測、後述する剪定と縮小などについても容易に実現できる。
【0157】
図7には、学習済の回帰木を用いて入力文に対する複数の機械翻訳システムの出力から最良のものを選択するための選択部130の機能的構成をブロック図形式で示す。図7を参照して、選択部130は、3つの機械翻訳システムに対応して設けられ、それぞれの出力について複数個の評価関数132を用いて採点をし、さらにその点数を用いて各システムごとの回帰木134を用いて各翻訳結果に関する人間評価を推定するための個別評価推定部140A〜140Cと、個別評価推定部140A〜140Cの出力を比較することにより、最も好ましいと思われる翻訳結果を選択するための比較評価部146とを含む。
【0158】
個別評価推定部140A〜140Cはいずれも同じ構成を有する。たとえば個別評価推定部140Aは、入力文と翻訳結果との組に対して複数個の評価関数132を用いて採点を行なうための採点部142Aと、採点部142Aから出力される点数の並びをこの機械翻訳システムに対応する回帰木に与えることにより、回帰木から当該翻訳結果の人間評価の推定値を得るための評価推定部144Aとを含む。各部の機能の詳細については、後のフローチャートにより明らかとなる。
【0159】
本実施の形態のシステムは、実際には前述したとおりコンピュータのハードウェアと、その上で動作するソフトウェアとにより実現される。以下、このソフトウェアの制御構造について説明する。
【0160】
このシステムの動作には事前準備フェーズ、個別準備フェーズ、および翻訳フェーズがある。これらにつき以下図8〜図11を参照して説明する。
【0161】
図8は、事前準備フェーズでの処理手順を示す。ここでの処理は、すべてのユーザについて共通に行なわれる。したがってこの処理は、たとえば本システムを製造し出荷する者が行なえばよい。ただし、ユーザが独自の訓練事例を用い、独自の評価を行なう場合には、この事前準備フェーズをユーザが行なってもよい。
【0162】
図8を参照して、事前準備処理は、すべての訓練事例s(j=1,…,N:Nは訓練事例の数)に対して、当該システムで使用されることが想定される全ての機械翻訳システムMT(k=1,…,3)で翻訳を行なう(160)。この結果得られた翻訳結果をtkj(j=1,…,N,k=1,…,3)とする。
【0163】
続いて、すべての翻訳結果tkjに対して、人間が評価し、その結果をこの事前準備を行なっているコンピュータに入力し、各翻訳結果と関連付けて記憶する(162)。
【0164】
最後に、機械翻訳システムMT(k=1,…,3)の翻訳結果tkj(j=1,…,N)に対する人間評価が、他の機械翻訳システムに対する人間評価より悪くない場合には1、それ以外の場合には0をとる変数Rkjを、全ての機械翻訳システムのすべての翻訳結果に対して算出する。このようにして得られた人間による評価と、変数Rkjとは、後の個別準備フェーズでコンピュータが利用できるように、電子的に読取可能な形で各機械翻訳システムおよびその翻訳結果(または入力文)と関連付けてハードディスクなどに保存される。
【0165】
次に、各ユーザにおいて行なわれる個別準備フェーズについて、図9を参照して説明する。各ユーザは、対訳コーパスを電子的に読取可能な形で準備する(170)。具体的には、ハードディスクなどに対訳コーパスを格納し、その位置をこのシステムに指示する。
【0166】
続いて、このコーパスを用いて、複数通りの採点関数G(i=1,…,3)を学習する(172)。この実施の形態では、前述したとおりLM,TM,およびTM*LMの採点を用いる。
【0167】
訓練事例の全てまたは一部の例文sを機械翻訳システムMT1−MT3を用いて翻訳し、翻訳結果tkjに対して上記のように得られた3つの採点関数Gを使用して採点を行なう(174)。
【0168】
こうして得られた点数と、事前準備フェーズで得られていた人間評価を表わす変数Rkjとをベクトル化する(176)。このベクトルをVkjと表わす。その内容については既に述べた。
【0169】
そして、このようにして得られたベクトルVkj(k=1,…,3、j=1,…,N)を、Rkjを従属変数として統計解析ツールの回帰木学習関数に与えることにより、機械翻訳システムMTに対する回帰木を得る。
【0170】
このように統計解析ツールを用いて回帰木を作成した場合、通常は過学習と呼ばれる状態となっていることが多い。過学習とは、できあがった回帰木が学習データにのみ適合しすぎ、一般的なデータについて適切な推定ができないような状態になっていることをいう。具体的には、回帰木のルートからリーフまでの分岐数が多くなりすぎ、ベクトル空間をあまりに細かく分割している状態である。
【0171】
そこで、図10に示すように、いったん回帰木の全体を作成し(190)、その後にこの回帰木を剪定、または縮小する(192)。剪定と縮小とは、一般的に木構造に対して行なわれる処理であって、学習データに対する当てはめのよさをできるだけ犠牲にせずに、木構造を単純化する処理のことをいう。剪定では複数の葉をまとめて一つの葉としてしまうことで、木構造の枝を削除する。縮小では、複数の葉を一箇所に集中させることで木構造の枝を削除する。縮小では、実際には葉の数は減少しないが、実質的には葉の数を減少させているのと同様と考えられる。いずれの方法を用いるかは、単純化により倹約された表現と、予測の正確さとのどちらを重視するかによる。本実施の形態では縮小を用いることにする。
【0172】
なお、一般的な統計解析ツール、たとえば前述のSplusでは、剪定は「prune.tree」という関数で、縮小は「shrink.tree」という関数で提供されている。
【0173】
以上で、準備処理のためのソフトウェアの制御構造の説明を終わる。
【0174】
次に、実際の翻訳を行なうためのソフトウェアの制御構造について説明する。図11は、翻訳時のソフトウェアの制御構造を示すフローチャートである。図11を参照して、処理対象となる入力文章中の文の番号を示す変数jに1を代入する(200)。
【0175】
原文sを複数の機械翻訳システムMT1−MT3の各々に与え、それぞれの翻訳結果を得る(202)。一般的に機械翻訳システムは翻訳結果を文字コード列として出力するので、ここではそれら文字コード列が各機械翻訳システムからの出力として得られる。
【0176】
原文sと機械翻訳システムMT1−MT3による翻訳結果t1j、t2j、t3jのそれぞれとの組(s,t1j)、(s,t2j)、(s,t3j)に、複数の採点関数G,…,Gを用いて点数G(s,tkj)(i=1,…,3,k=1,…,3)を付ける(204)。この処理は、各関数に引数として上記した各組を与えることで行なわれる。
【0177】
こうして原文sと翻訳結果t1j、t2j、t3jのそれぞれとの組(s,t1j)、(s,t2j)、(s,t3j)の各々について、得られた点数の並びを対応する回帰木に与える。これにより、それらの翻訳結果に対する人間評価の推定値RT(t1j)、RT(t2j)、RT(t3j)が得られる(206)。
【0178】
得られたRT,RT,RTのうち、最大値を与える回帰木が一つだけか否かを調べる(208)。最大値を与える回帰木が一つのみの場合、その最大値を与えた回帰木に対応する機械翻訳システムの翻訳結果を採用する(210)。最大値を与える回帰木が複数個ある場合、最大値を与える回帰木のうちで、予め指定された順序にしたがって最も優位にある機械翻訳システムの翻訳結果を採用する(212)。この点は第1の実施の形態の場合と同様である。
【0179】
この後、全文の翻訳が終了したか否かを判定する(214)。全文の翻訳が終了した場合、処理を終了し、さもなければ次の文を処理対象とするために変数jに1を加算して、再び制御はステップ202に戻る。
【0180】
以上が翻訳フェーズを実現するプログラムの制御構造である。
【0181】
―動作―
この機械翻訳装置は以下のように動作する。事前準備フェーズについてはここでは特に説明せず、個別の準備フェーズからその動作について説明する。図9を参照して、ユーザが対訳コーパスを準備すると(170)、このコーパスを用いて、複数通りの採点関数Gの学習を行なう(172)。本実施の形態ではTM,LMおよびTM*LMスコアを用いた採点を行なう(G,G,G)。
【0182】
訓練事例の入力文sに対し三つの機械翻訳システムMT−MTを用いて翻訳を行なう。さらに、それらの翻訳結果tkj(k=1,…,3)の各々に対して、ステップ172で準備された関数G,G,Gを用いてそれぞれ評価を行なう(174)。この結果、点数G(s,tkj)(i=1,2,3,k=1,2,3,j=1,…,N)が得られる。
【0183】
入力文sに対して、ベクトルVkj=(G(s,tkj)、G(s、tkj)、G(s,tkj)、Rkj)を求める。ここでkは機械翻訳システムの番号を、jは入力文の番号を、それぞれ表わす(176)。またRkjはj番目の訓練事例の入力文に対するk番目の機械翻訳システムの翻訳結果が、他の機械翻訳システムのj番目の訓練事例の入力文に対する翻訳結果より悪くないと人間により評価されたか否かを示す変数である。この値は事前準備フェーズにおいて準備されている。Rkjは、k番目の機械翻訳システムの翻訳結果が他の機械翻訳システムの翻訳結果より悪くないと人間により評価された場合には1を、それ以外の場合には0をとる。
【0184】
続いて、このベクトルVkjを用い、ベクトル中の採点関数による点数の並びを説明変数、Rkjを従属変数(予測変数)として回帰木を学習する(178)。この学習は、各機械翻訳システムごとに行なわれる。
【0185】
回帰木の学習においては、統計解析ツールを用いていったん回帰木の全体を作成したのち(図10のステップ190)、縮小を行なって(192)回帰の過学習を解消する。
【0186】
以上の処理を行なうことにより、入力文と、その翻訳結果との組に対し、採点関数G,G,Gを求めてその値からその翻訳結果に対する人間評価を推定するための回帰木が得られる。この回帰木は使用される機械翻訳システムごとに得られる。またこの回帰木では、訓練事例に含まれる例文だけでなく、一般的な文についても人間評価を推定できることに注意が必要である。
【0187】
以上で準備は終了である。次に、実際の翻訳時の動作を説明する。
【0188】
最初に翻訳対象の原文番号を表わす変数jに1を代入する(図11の200)。原文sを各機械翻訳システムMT−MTに入力し、それぞれについて翻訳結果を得る(202)。
【0189】
原文sと機械翻訳システムMT−MTによるその翻訳結果t11、t21、t31とのそれぞれからなる組に対し、採点関数G,G,Gを用いて点数G(s,tk1)、G(s,tk1)、G(s,tk1)を計算する(204)。
【0190】
各機械翻訳システムMT−MTごとに、その翻訳結果に対して得られた点数G(s,tk1)、G(s,tk1)、G(s,tk1)をその機械翻訳システムに対応する回帰木に与える。回帰木からはその翻訳結果tk1に対する人間評価の推定値RT(tk1)(k=1,…,3)が得られる(206)。
【0191】
このRT(t11)、RT(t21)、RT(t31)のうち、最大値を与えるものが一つか否かを調べ(208)、一つである場合にはその値を与えた回帰木に対応する機械翻訳システムの出力を選択する。最大値を与えるものが一つでない場合、予め機械翻訳システムに割当てられていた順位付けにしたがい、優位なものを選びその翻訳結果を選択する。
【0192】
以上の処理により、入力される文章中の一番めの文に対する最良訳が出力されたことになる。
【0193】
続いて、全文の翻訳が終了したか否かを判定する(214)。もし終了していれば、翻訳フェーズ全体も終了である。もし終了していなければ、ステップ216で変数j(=1)に1を加算し、ステップ202から処理を繰返す。今度は2番目の入力文sに対する処理が以上と同様に繰返される。
【0194】
こうして入力文章中の各文について、上記した処理が繰返され、最終的に全ての入力文について一文ごとの処理が完了すると、全体の翻訳処理も終了する。
【発明の実施例】
上に述べた第1の実施の形態および第2の実施の形態のシステムの性能がどの程度のものかを確認するために、以下のような実験を行なった。その際、成分として使用される機械翻訳システムの個々の性能と比較して、最良訳選択型の機械翻訳システムの性能の向上がどの程度になるのか、および使用される採点関数によって性能の向上の程度がどのように異なるか、についてを評価した。
【0195】
この実施例では、3つの日英翻訳システム(TDMT,D3およびSMT)を構成要素とする最良訳選択型の日英翻訳システムと、3つの英日翻訳システム(TDMT,HPAT,SMT)を構成要素とする最良訳選択型の英日翻訳システムとを用いて第1の実施の形態のシステムと、第2の実施の形態のシステムとを作成し、その結果を調べた。
【0196】
英語および日本語の対訳コーパスとして、参考文献(2)によるものを用いた。このコーパスは、125,537の文ペアからなる学習セットと、9,872の文ペアからなる検定セットと、10,023の文ペアからなるテストセットとの3部分からなる。
【0197】
翻訳ターゲットの言語モデル(LM)と翻訳モデル(TM)を学習させる際のコーパスCとして、上述の学習セットを用いた。すなわち、第2の実施の形態にしたがった実施例ではこのコーパスCを用いて学習を行なった。第1の実施の形態にしたがった実施例では、コーパスC全体をほぼ10等分して部分集合Vi(i=1,...,10)とし、10個のサブセットCi=C−Vi(i=1,…,10)を用いて学習を行なった。
【0198】
翻訳モデルと言語モデルとは、それぞれGIZA++(参考文献(7)による。)、およびCMU―Cambridgeツールキット(参考文献(8)による。)を用いて学習を行なった。翻訳モデルの学習では参考文献(7)により示唆されたHMM(隠れマルコフモデル)を含むIBM1―4を用いた。学習の繰返しは、検定セットに対するパープレクシティ(perplexity)のスコアが最も低くなった時点で終了させた。翻訳モデルの学習で使用した単語クラスはTDMTの品詞(Part−of−speech,POS)クラスであった。多重比較において使用したP値は0.05である。
【0199】
各々、英語文と日本語文との500対からなる4つのセットをテスト用セットからランダムに選択した。これら4つのセットのうち、英語の文を英日の最良訳選択型の機械翻訳システムの構成要素となっている機械翻訳システムにより日本語に翻訳させた。さらにそれら翻訳結果を英語が堪能な日本語のネイティブスピーカによってランク付けした。同様に日本語文を日英の最良訳選択型の機械翻訳システムの構成要素となっている機械翻訳システムにより英語に翻訳させた。さらにそれら翻訳結果を日本語が堪能な英語のネイティブスピーカによってランク付けした。
【0200】
これら4つのセットの各々について性能評価したのち、それら4つのセットの性能評価の平均をとって最終的な性能評価とした。特に、第2の実施の形態にかかるシステムの性能については、4重クロス検定にしたがって評価した(参考文献(9))。
【0201】
最良訳選択型の機械翻訳システムの性能評価は、その構成要素となっている機械翻訳システムの中で最も性能の高いものとの比較により行なった。図15に示すとおり、日英翻訳システムの中ではランクAについてはD3が、ランクA+BおよびランクA+B+CについてはTDMTが、それぞれ最も高い性能を示している。また図16に示すとおり、英日翻訳システムの中ではランクA、ランクA+BおよびランクA+B+CのすべてにおいてTDMTが最も高い性能を示している。
【0202】
図12、図13、および図14に結果を示す。図12は、日英翻訳においてD3を基準として実施例の性能を示す。図13は、日英翻訳においてTDMTを基準として実施例の性能を示す。さらに図14は、英日翻訳においてTDMTを基準として実施例の性能を示す。
【0203】
これら図の全てにおいて、「A」「A+B」および「A+B+C」とラベル付けされた棒グラフ群は、翻訳結果のうちでランクA、ランクAまたはB,ランクA,BまたはCとなったものの比率を、それぞれ上記した最も高い性能を示したものとの差で示している。
【0204】
各棒グラフ群を構成する各棒グラフは、3本ずつ、4つの組に分けられる。最初の組は、先に述べた予備的実験の結果を示し、左から右に向かってTM*LMスコア、TMスコア、およびLMスコアを用いて最良訳を選択した結果を示す。2番目の組は第1の実施の形態にしたがったシステムの結果を示し、左から右に向かってTM*LMスコア、TMスコア、およびLMスコアを用いて最良訳を選択した結果を示す。3番目の組は第2の実施の形態にしたがったシステムの結果を示し、左から右に向かって、予測変数をTM*LMスコアに限定した場合、TM*LMスコアとTMスコアとの双方に限定した場合、およびTM*LMスコア、TMスコアおよびLMスコアの全てを使用した場合について、それぞれ独立変数に何ら限定を付さずに、対応の回帰木を用いて最良訳を選択した結果を示す。ここでは、回帰木を縮小によって単純化することにより回帰木の過学習を補正している。最後の組は、同じく第2の実施の形態に従ったものを示すが、回帰木の単純化に剪定を用いた場合の結果を示す。
【0205】
なお、図12,図13および図14において「Accuracy」とは、すべての試行において最も高いランクが与えられた翻訳結果を正しく選択することができた比率を示す。
【0206】
図12によれば、TM*LMスコアを使用した第1の実施の形態のシステム(222)が、最もよい改善結果220を示している。その差はランクAについては約6パーセントである。一方、単にLM(翻訳ターゲット言語の言語モデル)スコアを用いた従前のシステムでは性能は改善されておらず、ランクAに関してはむしろ性能は低下していることが分かる。
【0207】
図13によれば、ランクA+Bにおいて、TM*LMスコアとTMスコアとを併用した、第2の実施の形態にしたがい、かつ回帰木の単純化に剪定を用いたシステム(232)が最もよい改善結果230を示している。その差は約5パーセントである。一方、単にLMスコアを用いた従前のシステムではランクA+Bに対する性能は最も悪く、その低下は約6パーセントとなっている。
【0208】
図14によれば、ランクAに対して、第2の実施の形態のシステム(250)がいずれも約2パーセントの性能の改善を示している(240)ことがわかる。これは回帰木の単純化に剪定と縮小とのいずれを用いても同様である。また使用したスコアの種類にもあまり左右されていない。さらにまた、ランクA+Bについては、第2の実施の形態のシステムで、回帰木の単純化に剪定を用い、かつ採点にすべての採点を用いたもの(252)が2パーセントをやや上回る改善を示している(242)ことが分かる。
【0209】
以上から、第1の実施の形態および第2の実施の形態のいずれも、翻訳精度を高める効果があることがわかる。特に第1の実施の形態にしたがった場合、ランクAの翻訳結果を効果的に高めることができる。また第2の実施の形態にしたがった場合には、すべてのランクで安定した翻訳精度の向上を実現することができる。特に、従前のシステムでは翻訳精度の向上が見られないような局面でも翻訳精度を効果的に高めることができる。
【0210】
[参考文献]
(1) Osamu Furuse and Hitoshi Iida. 1996. Incremental translation utilizing constituent boundary patterns. In Proceedings of16th International Conference on computational Linguistics: COLING−96,pp. 412−417.
(2) Eiichiro Sumita. 2001. Example−based machine translationusing DB−matching between work sequences. In proceedings of the ACL 2001 Workshop on Data−Driven Methods in Machine Translation: DDMT−2001,pp. 1−8.
(3) Taro Watanabe,Kenji Imamura,and Eiichiro Sumita. 2002.Statistical machine translation system based on hierarchical phrase alignment. In Proceedings of the 9th Conference on Theoretical and Methodological Issues in Machine Translation,pp. 188−198.
(4) Kenji Imamura. 2002. Application of translation knowledge acquired by hierarchical phrase alignment for pattern−based MT. In Proceedings of the 9th Conference on Theoretical and Methodological Issues in Machine Translation,pp. 74−84.
(5) Chris Callison−Burch and Raymond S. Flournoy. 2001. A program for automatically selecting the best output from multiple machine translation engines. In Proceedings of MT summit VIII,pp. 63−66.
(6) Peter F. Brown,Stephen Della Pietra,Vincent J. Della Pietra,and Robert L. Mercer. 1993. The mathematics of statistical machine translation: Parameter estimation. Computational Linguistics,19(2): 263−311.
(7) Franz Josef Och and Hermann Ney. 2000. Improved statistical alignment models. In proc. of the 38th Annual Meeting ofthe Association for Computational Linguistics: ACL00,pp. 440−447,Hong Kong,China.
(8) Philip Clarkson and Ronald Rosenfeld. 1997. Statisticallanguage modeling using the CMU−Cambridge toolkit. In Proceedings of European Conference on Speech Communication and Technology: EUROSPEECH−97,pp. 2707−2710,Rhodes,Greece.
(9) Tom M. Mitchell. 1997. Machine Learning. The McGraw−Hill Companies Inc.,New York,U.S.A.
【発明の効果】
以上のように本発明によれば、複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより翻訳結果ごとにスコア群を算出し、スコア群の中で他のスコア群と統計的に有意な差を持つものがあれば、それに対応する翻訳結果を選択する。こうすることによって、より的確に最良訳を選択することが可能となる。また、翻訳モデルを用いたスコアでは翻訳結果だけでなく原文をも考慮した採点が行なわれるので、情報の欠落がある翻訳を誤って選択してしまうおそれは少なく、言語モデルのみを利用する場合と比較してより適切な翻訳結果を選択できる。
【0211】
スコア群に対して相互に多重検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するようにすると、計算量を抑えながら複数のスコア群に対して適切な信頼度を保って検定を行なうことができ、的確な選択を行なうことができる。
【0212】
多重検定としてノンパラメトリック検定を用いることにより、スコアに何らかの分布を仮定できない場合でも適切な検定を行なうことができる。
【0213】
多重検定としてパラメトリック検定を用いることにより、スコアに正規分布を仮定できる場合には適切な検定を行なうことができる。
【0214】
各スコア群の平均順位を用いてパラメトリックな多重検定を行なうと、翻訳結果が3個以上の場合でも、比較的少ない計算量で適切な選択を行なうことができる。
【0215】
機械翻訳システムに予め優先順位を割当てておき、他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するようにできる。これにより、有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【0216】
各スコア群の平均値を用いてパラメトリックな多重検定を行なうと、スコアに正規分布が仮定できる場合に、適切な選択を行なうことができる。
【0217】
機械翻訳システムに予め優先順位を割当てておき、他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するようにできる。この場合、有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【0218】
翻訳結果が2個である場合に、多重検定ではなく一対比較を行なうことで適切な選択を行なうことができる。
【0219】
複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法によれば、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データが生成される。翻訳結果の選択にこのような回帰木を用いるという技術は従来は存在していなかった。回帰木を用いることで、目標となる採点基準に近い形で各翻訳の評点を推定することができる。
【0220】
回帰木は、通常の形式で作成すると過学習となり、一般的なデータについては的確な推定が必ずしもできるとは限らない。そこで剪定または縮小を行なうことによって、一般的なデータについても一定の精度で推定ができるようになる。
【0221】
予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、これを評点としてもよい。この場合、人間の評価に基づいて翻訳結果の評点が得られ、かつその値が2値的に得られる。したがって人間の評価に近い選択が可能で、かつコンピュータ上での処理が容易に行なえる。
【0222】
一般に、翻訳結果に対する評点が分布にしたがうものとは限らない。そうした場合、分布を想定することのない回帰木データを用いて評点を推定することにより、より適切な訳を選択することができる。
【0223】
機械翻訳システムに予め優先順位を割当てておき、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択することもできる。これにより、最高の推定値を与える回帰木が複数個ある場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【図面の簡単な説明】
【図1】本発明の一実施の形態の装置を実現するコンピュータシステムの外観を示す図である。
【図2】図1に示すコンピュータシステムのブロック図である。
【図3】本発明の第1の実施の形態の装置の選択部を実現するプログラムの機能的構成をブロック図形式で示す図である。
【図4】第1の実施の形態にかかるシステムの準備フェーズを実現するプログラムのフローチャートである。
【図5】第1の実施の形態にかかるシステムの翻訳フェーズを実現するプログラムのフローチャートである。
【図6】本発明の第2の実施の形態の装置の回帰木の学習部を実現するプログラムの機能的構成をブロック図形式で示す図である。
【図7】本発明の第2の実施の形態の装置の翻訳フェーズを実現するプログラムの機能的構成をブロック図形式で示す図である。
【図8】第2の実施の形態にかかるシステムの事前準備フェーズを実現するプログラムのフローチャートである。
【図9】第2の実施の形態にかかるシステムの準備フェーズを実現するプログラムのフローチャートである。
【図10】第2の実施の形態にかかるシステムの準備フェーズのうち、回帰木の学習処理を実現するプログラムのフローチャートである。
【図11】第2の実施の形態にかかるシステムの翻訳フェーズを実現するプログラムのフローチャートである。
【図12】本発明の実施例の効果を示すためのグラフである。
【図13】本発明の実施例の効果を示すためのグラフである。
【図14】本発明の実施例の効果を示すためのグラフである。
【図15】日英翻訳における理想的な選択システムの効果を説明するためのグラフである。
【図16】英日翻訳における理想的な選択システムの効果を説明するためのグラフである。
【図17】従来の翻訳システムの機能的構成を示すブロック図である。
【図18】従来の翻訳システムの準備フェースの手順を示すフローチャートである。
【図19】従来の翻訳システムの評価フェーズの手順を示すフローチャートである。
【符号の説明】
20 コンピュータシステム、58 ROM、60 RAM、62 CD−ROM、70,110 選択部、74A−74C,122A−122C,142A−142C 採点部、76A−76C 平均計算部、78 比較・選択部、110 回帰木作成部、124A−124C ベクトル化部、120A−120C 個別回帰木作成部、126A−126C 回帰木学習部、140A−140C 個別評価推定部、144A−144C 評価推定部、146 評価比較部

Claims (33)

  1. コンピュータ上で処理可能な形式の原文と、当該原文に対する、コンピュータ上で処理可能な形式の複数個の翻訳結果とに基づいて、前記複数個の翻訳結果の中から最良訳を選択するようコンピュータを動作させる方法であって、
    前記複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより前記翻訳結果ごとにスコア群を算出するよう前記コンピュータを動作させるステップと、
    前記スコア群に対する統計的検定を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させる判定ステップと、
    前記判定するステップでの結果にしたがって、前記複数個の翻訳結果のうちから最良のものを選択するよう、前記コンピュータを動作させる選択ステップとを含む、複数個の翻訳結果から最良訳を選択する方法。
  2. 前記複数個の翻訳結果は3個以上の翻訳結果を含み、
    前記判定ステップは、前記スコア群に対して相互に多重検定を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させるステップを含む、請求項1に記載の複数個の翻訳結果から最良訳を選択する方法。
  3. 前記多重検定はノンパラメトリック検定である、請求項2に記載の複数個の翻訳結果から最良訳を選択する方法。
  4. 前記多重検定はパラメトリック検定である、請求項2に記載の複数個の翻訳結果から最良訳を選択する方法。
  5. 前記複数個の翻訳結果は3個以上の翻訳結果を含み、
    前記判定ステップは、
    前記スコア群に含まれる各スコアの、全スコア群中における順位を算出するよう前記コンピュータを動作させるステップと、
    前記スコア群の各々に含まれる全スコアの平均順位を前記スコア群ごとに算出するよう前記コンピュータを動作させるステップと、
    前記スコア群ごとに算出される平均順位の間で多重検定を行なうことにより、前記平均順位の中で他のスコア群の平均順位と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させるステップとを含み、
    前記選択ステップは、前記他のスコア群の平均順位と有意な差を持つと判定された平均順位を持つスコア群に対応する翻訳結果を最良訳として選択するよう前記コンピュータを動作させるステップを含む、請求項1に記載の複数個の翻訳結果から最良訳を選択する方法。
  6. 前記翻訳結果は、3個以上の機械翻訳システムの翻訳結果であり、かつ前記3個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
    前記選択ステップはさらに、前記他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するように前記コンピュータを動作させるステップを含む、請求項5に記載の複数個の翻訳結果から最良訳を選択する方法。
  7. 前記複数個の翻訳結果は3個以上の翻訳結果を含み、
    前記判定ステップは、
    前記スコア群ごとにスコアの平均値を算出するよう前記コンピュータを動作させるステップと、
    前記スコア群ごとに算出される平均値の間で多重検定を行なうことにより、前記平均値の中で他のスコア群の平均値と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させるステップとを含み、
    前記選択ステップは、前記他のスコア群の平均値と有意な差を持つと判定された平均値を持つスコア群に対応する翻訳結果を最良訳として選択するよう前記コンピュータを動作させるステップを含む、請求項1に記載の複数個の翻訳結果から最良訳を選択する方法。
  8. 前記翻訳結果は、3個以上の機械翻訳システムの翻訳結果であり、かつ前記3個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
    前記選択ステップはさらに、前記他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するように前記コンピュータを動作させるステップを含む、請求項7に記載の複数個の翻訳結果から最良訳を選択する方法。
  9. 前記複数個の翻訳結果は2個の翻訳結果を含み、
    前記判定ステップは、前記スコア群の間の一対比較を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させるステップを含む、請求項1に記載の複数個の翻訳結果から最良訳を選択する方法。
  10. 複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成するようにコンピュータを動作させるための方法であって、
    予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するステップと、
    予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するよう前記コンピュータを動作させるステップと、
    前記訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して前記複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するよう前記コンピュータを動作させるステップと、
    各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての前記評点とを成分とする学習用ベクトルを算出するよう前記コンピュータを動作させるステップと、
    各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木を学習するようコンピュータを動作させる学習ステップと、
    得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するよう前記コンピュータを動作させるステップとを含む、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法。
  11. 前記学習ステップは、
    各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するようコンピュータを動作させるステップと、
    学習された回帰木を予め定められた程度だけ剪定または縮小させるようコンピュータを動作させるステップとを含む、請求項10に記載の複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法。
  12. 予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各前記翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、前記評点とするステップをさらに含む、請求項10または請求項11に記載の複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法。
  13. 複数個の回帰木データを用いて複数個の機械翻訳システムの翻訳結果のうちの最良訳を選択するようにコンピュータを動作させるための方法であって、
    前記複数個の回帰木データの各々は、対応の機械翻訳システムの翻訳結果の各々に対して予め定められた複数個の採点関数を適用した結果得られるスコア群を説明変数として与えられると、目標となる採点基準にしたがって推定される評点の推定値を出力するように利用可能であり、
    前記回帰木データをコンピュータ読取可能な形式で準備するステップと、
    入力される文に対する前記複数個の機械翻訳システムの翻訳結果の各々に対して、前記複数個の採点関数を用いてスコア群を算出するよう前記コンピュータを動作させるステップと、
    前記スコア群を説明変数として前記複数個の回帰木データに適用することにより、各前記複数個の回帰木データからそれぞれ前記評点の推定値を得るように前記コンピュータを動作させるステップと、
    前記評点の推定値のうち、最も高い評点の推定値に対応する回帰木に関連付けられた機械翻訳システムの翻訳結果を選択して出力するように前記コンピュータを動作させるステップとを含む、複数個の翻訳結果から最良訳を選択する方法。
  14. 前記複数個の回帰木データは、請求項10〜請求項12のいずれかに記載の方法によって準備されたものである、請求項13に記載の最良訳を選択するようにコンピュータを動作させるための方法。
  15. 前記複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
    前記評点の推定値のうち、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択するステップをさらに含む、請求項13または請求項14に記載の最良訳を選択するようにコンピュータを動作させるための方法。
  16. コンピュータ上で処理可能な形式の原文と、当該原文に対する、コンピュータ上で処理可能な形式の複数個の翻訳結果とに基づいて、前記複数個の翻訳結果の中から最良訳を選択する最良訳選択型の機械翻訳システムとしてコンピュータを動作させるプログラムであって、
    前記最良訳選択型の機械翻訳システムは、
    前記複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより前記翻訳結果ごとにスコア群を算出するための手段と、
    前記スコア群に対する統計的検定を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための判定手段と、
    前記判定手段での結果にしたがって、前記複数個の翻訳結果のうちから最良のものを選択するための選択手段とを含む、最良訳選択型の機械翻訳プログラム。
  17. 前記複数個の翻訳結果は3個以上の翻訳結果を含み、
    前記判定手段は、前記スコア群に対して相互に多重検定を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための手段を含む、請求項16に記載のプログラム。
  18. 前記多重検定はノンパラメトリック検定である、請求項17に記載のプログラム。
  19. 前記多重検定はパラメトリック検定である、請求項17に記載のプログラム。
  20. 前記複数個の翻訳結果は3個以上の翻訳結果を含み、
    前記判定手段は、
    前記スコア群に含まれる各スコアの、全スコア群中における順位を算出するための手段と、
    前記スコア群の各々に含まれるスコアの平均順位を前記スコア群ごとに算出するための手段と、
    前記スコア群ごとに算出される平均順位の間で多重検定を行なうことにより、前記平均順位の中で他のスコア群の平均順位と有意な差を持つものがあるか否かを判定するための手段とを含み、
    前記選択手段は、前記他のスコア群の平均順位と有意な差を持つと判定された平均順位を持つスコア群に対応する翻訳結果を最良訳として選択するための手段を含む、請求項16に記載のプログラム。
  21. 前記翻訳結果は、3個以上の機械翻訳システムの翻訳結果であり、かつ前記複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
    前記選択手段はさらに、前記他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するための手段を含む、請求項20に記載のプログラム。
  22. 前記複数個の翻訳結果は3個以上の翻訳結果を含み、
    前記判定手段は、
    前記スコア群ごとにスコアの平均値を算出するための手段と、
    前記スコア群ごとに算出される平均値の間で多重検定を行なうことにより、前記平均値の中で他のスコア群の平均値と有意な差を持つものがあるか否かを判定するための手段とを含み、
    前記選択手段は、前記他のスコア群の平均値と有意な差を持つと判定された平均値を持つスコア群に対応する翻訳結果を最良訳として選択するための手段を含む、請求項16に記載のプログラム。
  23. 前記翻訳結果は、3個以上の機械翻訳システムの翻訳結果であり、かつ前記3個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
    前記選択手段はさらに、前記他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するための手段を含む、請求項22に記載のプログラム。
  24. 前記複数個の翻訳結果は2個の翻訳結果を含み、
    前記判定手段は、前記スコア群の間の一対比較を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための手段を含む、請求項16に記載の複数個の翻訳結果から最良訳を選択する方法。
  25. 複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する回帰木生成装置としてコンピュータを動作させるための、コンピュータ読取可能なプログラムであって、
    前記回帰木生成装置は、
    予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するための手段と、
    予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するための手段と、
    前記訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して前記複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するための手段と、
    各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての前記評点とを成分とする学習用ベクトルを算出するための手段と、
    各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木を学習するための学習手段と、
    得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するための手段とを含む、回帰木生成プログラム。
  26. 前記学習手段は、
    各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するための手段と、
    学習された回帰木を予め定められた程度だけ剪定または縮小するための手段とを含む、請求項25に記載のプログラム。
  27. 前記回帰木生成装置は、予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各前記翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、前記評点とするための手段をさらに含む、請求項25または請求項26に記載のプログラム。
  28. 複数個の回帰木データを用いて複数個の機械翻訳システムの翻訳結果のうちの最良訳を選択する最良訳選択型の機械翻訳システムとしてコンピュータを動作させるための、コンピュータ読取可能なプログラムであって、
    前記複数個の回帰木データの各々は、対応の機械翻訳システムの翻訳結果の各々に対して予め定められた複数個の採点関数を適用した結果得られるスコア群を説明変数として与えられると、目標となる採点基準にしたがって推定される評点の推定値を出力するように利用可能であり、
    前記最良訳選択型の機械翻訳システムは、
    前記回帰木データをコンピュータ読取可能な形式で準備するための手段と、
    入力される文に対する前記複数個の機械翻訳システムの翻訳結果の各々に対して、前記複数個の採点関数を用いてスコア群を算出するための手段と、
    前記スコア群を説明変数として前記複数個の回帰木データに適用することにより、各前記複数個の回帰木データからそれぞれ前記評点の推定値を得るための手段と、
    前記評点の推定値のうち、最も高い評点の推定値に対応する回帰木に関連付けられた機械翻訳システムの翻訳結果を選択して出力するための手段とを含む、最良訳選択型の機械翻訳プログラム。
  29. 前記複数個の回帰木データは、請求項25〜請求項27のいずれかに記載の方法によって準備されたものである、請求項28に記載のプログラム。
  30. 前記複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
    前記最良訳選択型の機械翻訳システムは、
    前記評点の推定値のうち、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択するための手段をさらに含む、請求項28または請求項29に記載のプログラム。
  31. 複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを記憶した記憶媒体であって、
    前記回帰木データは、
    予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するステップと、
    予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するステップと、
    前記訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して前記複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するステップと、
    各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての前記評点とを成分とする学習用ベクトルを算出するステップと、
    各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木を学習するステップと、
    得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するステップとを含む方法によって作成されたものである、回帰木データを記憶した記憶媒体。
  32. 前記学習するステップは、
    各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するステップと、
    学習された回帰木を予め定められた程度だけ剪定または縮小するステップとを含む、請求項31に記載の記憶媒体。
  33. 前記方法は、予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各前記翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、前記評点とするステップをさらに含む、請求項31または請求項32に記載の記憶媒体。
JP2002192579A 2002-07-01 2002-07-01 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体 Pending JP2004038406A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002192579A JP2004038406A (ja) 2002-07-01 2002-07-01 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002192579A JP2004038406A (ja) 2002-07-01 2002-07-01 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体

Publications (2)

Publication Number Publication Date
JP2004038406A true JP2004038406A (ja) 2004-02-05
JP2004038406A5 JP2004038406A5 (ja) 2005-04-21

Family

ID=31701804

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002192579A Pending JP2004038406A (ja) 2002-07-01 2002-07-01 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体

Country Status (1)

Country Link
JP (1) JP2004038406A (ja)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323476A (ja) * 2006-06-02 2007-12-13 National Institute Of Information & Communication Technology 機械翻訳装置及びコンピュータプログラム
JP2008059440A (ja) * 2006-09-01 2008-03-13 National Institute Of Information & Communication Technology 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム
JP2008176536A (ja) * 2007-01-18 2008-07-31 Toshiba Corp 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム
WO2014062941A1 (en) * 2012-10-17 2014-04-24 Proz.Com Method and apparatus to facilitate high-quality translation of texts by multiple translators
JP2014137654A (ja) * 2013-01-16 2014-07-28 ▲うぇい▼強科技股▲ふん▼有限公司 翻訳システム及びその翻訳方法
KR20150116675A (ko) * 2014-04-08 2015-10-16 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
KR20160052506A (ko) * 2016-04-26 2016-05-12 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
CN106776583A (zh) * 2015-11-24 2017-05-31 株式会社Ntt都科摩 机器翻译评价方法和设备及机器翻译方法和设备
JP2018026127A (ja) * 2016-08-10 2018-02-15 三星電子株式会社Samsung Electronics Co.,Ltd. 翻訳方法、翻訳装置及びコンピュータプログラム
CN112183117A (zh) * 2019-06-14 2021-01-05 上海流利说信息技术有限公司 一种翻译评价的方法、装置、存储介质及电子设备
CN113017650A (zh) * 2021-03-12 2021-06-25 南昌航空大学 一种基于功率谱密度图像的脑电特征提取方法和系统

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007323476A (ja) * 2006-06-02 2007-12-13 National Institute Of Information & Communication Technology 機械翻訳装置及びコンピュータプログラム
JP2008059440A (ja) * 2006-09-01 2008-03-13 National Institute Of Information & Communication Technology 翻訳装置、クラスタ生成装置、クラスタの製造方法、およびプログラム
JP2008176536A (ja) * 2007-01-18 2008-07-31 Toshiba Corp 入力された原言語文を目的言語に機械翻訳する装置、方法およびプログラム
US10331793B2 (en) 2012-10-17 2019-06-25 Proz.Com Method and apparatus to facilitate high-quality translation of texts by multiple translators
WO2014062941A1 (en) * 2012-10-17 2014-04-24 Proz.Com Method and apparatus to facilitate high-quality translation of texts by multiple translators
JP2014137654A (ja) * 2013-01-16 2014-07-28 ▲うぇい▼強科技股▲ふん▼有限公司 翻訳システム及びその翻訳方法
KR20150116675A (ko) * 2014-04-08 2015-10-16 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
US9760569B2 (en) 2014-04-08 2017-09-12 Naver Corporation Method and system for providing translated result
US9971769B2 (en) 2014-04-08 2018-05-15 Naver Corporation Method and system for providing translated result
KR101864361B1 (ko) * 2014-04-08 2018-06-04 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
JP2017097882A (ja) * 2015-11-24 2017-06-01 株式会社Nttドコモ 機械翻訳評価方法および装置、並びに機械翻訳方法および装置
CN106776583A (zh) * 2015-11-24 2017-05-31 株式会社Ntt都科摩 机器翻译评价方法和设备及机器翻译方法和设备
KR101916781B1 (ko) 2016-04-26 2018-11-08 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
KR20160052506A (ko) * 2016-04-26 2016-05-12 네이버 주식회사 다양한 의미 범주에 기반한 번역 결과 제공 방법 및 시스템
JP2018026127A (ja) * 2016-08-10 2018-02-15 三星電子株式会社Samsung Electronics Co.,Ltd. 翻訳方法、翻訳装置及びコンピュータプログラム
CN107729324A (zh) * 2016-08-10 2018-02-23 三星电子株式会社 基于并行处理的翻译方法和设备
JP7066349B2 (ja) 2016-08-10 2022-05-13 三星電子株式会社 翻訳方法、翻訳装置及びコンピュータプログラム
CN112183117A (zh) * 2019-06-14 2021-01-05 上海流利说信息技术有限公司 一种翻译评价的方法、装置、存储介质及电子设备
CN112183117B (zh) * 2019-06-14 2022-12-30 上海流利说信息技术有限公司 一种翻译评价的方法、装置、存储介质及电子设备
CN113017650A (zh) * 2021-03-12 2021-06-25 南昌航空大学 一种基于功率谱密度图像的脑电特征提取方法和系统

Similar Documents

Publication Publication Date Title
US5895446A (en) Pattern-based translation method and system
KR101031970B1 (ko) 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
US20200380216A1 (en) Artificial intelligence system using phrase tables to evaluate and improve neural network based machine translation
KR100911621B1 (ko) 한영 자동번역 방법 및 장치
US20040255281A1 (en) Method and apparatus for improving translation knowledge of machine translation
US10025778B2 (en) Training markov random field-based translation models using gradient ascent
Samuelsson et al. Comparing a linguistic and a stochastic tagger
JP6727610B2 (ja) 文脈解析装置及びそのためのコンピュータプログラム
US20080306728A1 (en) Apparatus, method, and computer program product for machine translation
US20050171757A1 (en) Machine translation
JP4319860B2 (ja) 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置
JP2004199427A (ja) 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
JP2008165786A (ja) 機械翻訳用のシーケンス分類
JP2008165783A (ja) シーケンス分類のためのモデルの識別トレーニング
CN111611810A (zh) 一种多音字读音消歧装置及方法
Akiba et al. Using language and translation models to select the best among outputs from multiple MT systems
JP3765799B2 (ja) 自然言語処理装置、自然言語処理方法及び自然言語処理プログラム
JP2004038406A (ja) 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体
Ringger et al. Linguistically informed statistical models of constituent structure for ordering in sentence realization
Gerber et al. Systran MT dictionary development
KR101626386B1 (ko) 요소화 언어모델을 이용한 번역 오류 후처리 보정 방법 및 장치
JP5500636B2 (ja) 句テーブル生成器及びそのためのコンピュータプログラム
JP2007323476A (ja) 機械翻訳装置及びコンピュータプログラム
Haque et al. Supertags as source language context in hierarchical phrase-based SMT
KR100420474B1 (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040610

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040610

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20061003

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070116