JP2004038406A

JP2004038406A - 複数個の翻訳結果から最良訳を選択する方法、最良訳を選択するための回帰木データを生成する方法、最良訳選択型の機械翻訳プログラム、回帰木生成プログラム、および回帰木データを記憶した記憶媒体

Info

Publication number: JP2004038406A
Application number: JP2002192579A
Authority: JP
Inventors: Yasuhiro Akiba; 秋葉　泰弘; Eiichiro Sumida; 隅田　英一郎
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-07-01
Filing date: 2002-07-01
Publication date: 2004-02-05

Abstract

【課題】複数の機械翻訳システムを用いた翻訳システムにおいて、より高い精度で最良の翻訳を選択できるようにする。
【解決手段】この最良訳を選択する方法は、翻訳結果の各々に対し翻訳モデル、言語モデル、または双方を用いた採点関数を適用して翻訳結果ごとにスコア群を算出するステップ（９２）と、スコア群に対して統計的検定を行なって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するステップ（９４，９６）と、判定結果にしたがって、複数個の翻訳結果のうちから最良のものを選択するステップ（９８、１００）とを含む。判定ステップでは、人間評価とスコアリング関数とに基づいて予め学習した回帰木を用いて各翻訳結果の評点を推定してもよい。
【選択図】　　　図５

Description

【０００１】
【発明の属する技術分野】
この発明は、一般的には機械翻訳装置に関し、特に、複数の機械翻訳システムの出力から所定の基準にしたがって最良の出力を選択することにより機械翻訳の精度を向上させるための技術に関する。
【０００２】
【従来の技術】
コンピュータ技術の発達により、コンピュータを利用した翻訳システム（機械翻訳システム）もほぼ実用の域に達しているといえる。たとえば外国語のホームページを即座に自国語に翻訳するシステム、複数国の参加者の間でキーボード入力を用いて会議をする際に、他の言語での発言を即座に自国語に翻訳するシステム、日本語の特許公報を求めに応じて直ちに英語に翻訳するシステムなどがあり、今後ますます利用される局面が広がることが予想される。
【０００３】
しかしながら、そうした機械翻訳システムの翻訳結果に依然として改善の余地があることも確かである。機械翻訳の精度の改善のための方策として最初に挙げられるのは、個々の機械翻訳システムを構成するソフトウェアの改善である。しかし、そうした改善を行なったとしても、それぞれの機械翻訳システムに得手・不得手は依然として残り得る。
【０００４】
そこで、翻訳精度の改善の方策として、複数の機械翻訳システムの出力から、何らかの基準にしたがって最良と思われるものを自動的に選ぶという方法が考えられる。ある原文に対する第１の機械翻訳システムの翻訳結果が第２の機械翻訳システムの翻訳結果よりも好ましい場合には、第１の機械翻訳システムの翻訳結果を選択し、逆の場合には第２の機械翻訳システムを選ぶ。そうすることにより、最終的に生成される翻訳結果は、第１の機械翻訳システムおよび第２の機械翻訳システムが個々に生成する翻訳結果よりも好ましいものになることが予測できる。
【０００５】
出願人も機械翻訳システムを複数個開発している。日本語から英語への機械翻訳システム（日英翻訳システム）としては、ＴＤＭＴ（後掲の参考文献（１）），Ｄ３（参考文献（２））、およびＳＭＴ（参考文献（３））がある。英語から日本語への機械翻訳システム（英日翻訳システム）としては、ＴＤＭＴ（参考文献（１））、ＨＰＡＴ（参考文献（４））およびＳＭＴ（参考文献（３））がある。
【０００６】
仮に前述したように複数個の機械翻訳システムの翻訳結果のうち最良のものを選ぶ理想的なシステムを実現した場合の結果を次のようにしてシミュレートした。上記した３個の日英翻訳システム（ＴＤＭＴ，Ｄ３，ＳＭＴ）および３個の英日翻訳システム（ＴＤＭＴ，ＨＰＡＴ，ＳＭＴ）の各々について、その翻訳結果を、翻訳のソース言語に堪能な、翻訳のターゲット言語のネイティブスピーカが評価し、４つのランクＡ，Ｂ，ＣおよびＤに分類した。
【０００７】
ランクＡとは、翻訳結果に原文の情報が漏れなく含まれ、かつ文法的な問題もないものをいう。ランクＢは、翻訳結果が容易に理解可能であるが、あまり重要でない情報が一部漏れていたり、文法的に一部誤りがあったりするものをいう。ランクＣとは、原文の重要な情報が漏れていたり、文法的な間違いが大分あって、かなり崩れた訳であるが、よく考えれば理解可能なものをいう。ランクＤとは、重要な情報が誤って翻訳され、理解不能なものをいう。
【０００８】
上記した３個の日英翻訳システム（ＴＤＭＴ，Ｄ３，ＳＭＴ）の翻訳結果のうち、翻訳のソース言語に堪能な、翻訳のターゲット言語のネイティブスピーカの評価が最も高い翻訳結果を選択することができる理想的なシステムを想定した。その結果を、各日英翻訳システムの翻訳結果とともに図１５に示す。
【０００９】
図１５において、最も左側の「Ａ」とラベル付けされた個所には、各日英翻訳システムの翻訳結果のうち「Ａ」評価を受けた文の割合と、それらの組合わせのうちで最良の評価を受けた文を選択した理想的選択システムでの「Ａ」評価の割合とを百分率で示す。
【００１０】
図１５において、中央の「Ａ＋Ｂ」とラベル付けされた個所には、各日英翻訳システムの翻訳結果のうち「Ａ」評価を受けた文と「Ｂ」評価を受けた文との合計の割合と、それらの組合わせのうちで最良の評価を受けたものを選択した理想的選択システムでの「Ａ」評価および「Ｂ」評価の合計の割合とを百分率で示す。
【００１１】
図１５において、最も右の「Ａ＋Ｂ＋Ｃ」とラベル付けされた個所には、各日英翻訳システムの翻訳結果のうち「Ａ」評価を受けた文と「Ｂ」評価を受けた文と「Ｃ」評価を受けた文との合計の割合と、それらの組合わせのうちで最良の評価を受けたものを選択した理想的選択システムでの「Ａ」「Ｂ」「Ｃ」評価の合計の割合とを百分率で示す。
【００１２】
図１６には、同様に３個の英日翻訳システム（ＴＤＭＴ，ＨＰＡＴ，ＳＭＴ）の翻訳結果のうち、ネイティブスピーカの評価が最も高い翻訳結果を選択することができる理想的なシステムを想定した結果を、各日英翻訳システムの翻訳結果とともに示した。
【００１３】
図１５および図１６から分かるように、複数個の機械翻訳システムの出力のうち最良のものを選択することにより、最終的な機械翻訳の精度はかなり高くなることが分かる。そこで、このように複数個の機械翻訳システムの出力の中からどのようにして最良と思われるものを選択するかが問題となる。
【００１４】
そうした技術として従来知られているものに、Ｃｈｒｉｓ　Ｃａｌｌｉｓｏｎ−Ｂｕｒｃｈ　ａｎｄ　Ｒａｙｍｏｎｄ　Ｓ．　Ｆｌｏｕｒｎｏｙらによる論文「複数の機械翻訳エンジンからの最良の出力を自動的に選択するためのプログラム」（参考文献（５））において提案されたシステムがある。
【００１５】
このシステムでは、ターゲット言語の言語モデル（Ｌａｎｇｕａｇｅ　Ｍｏｄｅｌ：　ＬＭ）にしたがって各機械翻訳システムの出力に統計的言語モデルを用いたスコア（以下「ＬＭスコア」と呼ぶ。）を付ける。そして、最も高いＬＭスコアを示した出力を選択する。
【００１６】
図１７に、このシステムの機能的構成を示す。図１７を参照してこのシステム３００は、各々入力文３１０を翻訳してターゲット言語の翻訳文３２２，３２４，３２６をそれぞれ出力する３種類の機械翻訳システム３１２、３１４および３１６と、これら翻訳文３２２，３２４，３２６に対するＬＭスコアを計算し、最も高いＬＭスコアを示した翻訳文をこのシステムの出力３３２として出力するための選択部３３０と、機械翻訳システム３１２，３１４，３１６および選択部３３０を制御し、入力文を一文ずつ処理させるための制御部３２８とを含む。
【００１７】
このシステム３００の動作は上記したとおりである。以下では、このシステム３００を実現するためのプログラムのフローチャートの概略を図１８および図１９を参照して説明する。このシステムの動作は大きく二つに分割される。第１は準備フェーズであり、第２は翻訳フェーズである。図１８には準備フェーズのプログラムが、図１９には翻訳フェーズのプログラムが、それぞれ示されている。
【００１８】
図１８を参照して、従来システムの準備フェーズでは、最初にソース言語とターゲット言語との対訳文の集まりである対訳コーパスが電子的に読取可能な形式で準備される（３５０）。対訳コーパスは比較的準備しやすい言語資源であり、たとえば米国のＬＤＣ（Ｌｉｎｇｕｉｓｔｉｃ　Ｄａｔａ　Ｃｏｎｓｏｒｔｉｕｍ）という組織から入手可能である。
【００１９】
続いてコーパス中の全単語、全バイグラムおよび全トライグラムの出現回数を計数し、テーブル化する（３５２）。「バイグラム」とは、特定の順序で出現する特定の二つの単語の組合せのことをいう。「トライグラム」とは、特定の順序で出現する特定の三つの単語の組合せのことをいう。
【００２０】
後に述べるようにこの従来のシステムでは、あるターゲット言語の翻訳文について、そこに出現するすべてのトライグラムの出現確率（特定のバイグラムの全出現数中における特定のトライグラムの出現数）の積をその翻訳文のＬＭスコアとする。バイグラムおよびトライグラムの出現数のテーブル化は確率計算のための準備である。
【００２１】
図１９を参照して、従来の方法による翻訳文の評価のためのソフトウェアの構成は以下のとおりである。この処理に先立って、すべての機械翻訳システムを用いて入力文を翻訳し、翻訳結果を得ておく。
【００２２】
各翻訳結果に含まれる全てのトライグラムの出現確率を、図１８のステップ３５２で作成したテーブルを用いて計算する（３６０）。具体的には、コーパス中における対象トライグラムの全出現数を、そのトライグラムに含まれるバイグラムの全出現数で除算する。各翻訳結果に含まれる全てのトライグラムの出現確率を各翻訳結果ごとに乗算する（３６２）。こうして得られた結果が、各翻訳結果のＬＭスコアである。
【００２３】
続いて、各翻訳結果のうち、最も高い確率（ＬＭスコア）を示したものを採用し翻訳結果として出力する（３６４）。
【００２４】
こうした処理を全ての入力文に対して繰返すことで、入力された文章中の全文が順に翻訳される。各入力文に対して、上のようにして計算されたＬＭスコアの最も大きな翻訳結果が選択される。なおＬＭスコアの計算においては、トライグラムに限らず一般にＮグラム（特定の順序で出現するＮ個の特定の単語の組合せ）を用いることができる。
【００２５】
【発明が解決しようとする課題】
上のようにして計算されたＬＭスコアは、ターゲット言語の中のＮグラム（たとえばトライグラム）の出現確率を表わす。この出現確率は、つまるところ翻訳文の中の語順が自然なものかどうかだけを表わし、入力文に含まれる全情報がもれなく翻訳されているかどうかという点を反映していない。
【００２６】
入力文に含まれる重要な情報が翻訳文から漏れていれば、その翻訳文はよいものとはいえない。人間が翻訳結果を評価する際にはそのような情報に関しても判断の材料としている。そのため、従来の技術の選択方法では必ずしも人間の判断基準と同様の基準での最良訳が選択できるとは限らない。その結果、従来の技術の選択方法では、単一の翻訳システムの性能に比べて十分な性能向上が期待できるとは限らないという問題がある。
【００２７】
それゆえに本発明の目的は、複数の機械翻訳システムを用いた翻訳システムにおいて、より高い精度で最良の翻訳を選択できるようにすることである。
【００２８】
本発明の他の目的は、複数の機械翻訳システムを用いた翻訳システムにおいて、入力文の情報をも反映した基準にしたがって最良の翻訳を選択できるようにすることである。
【００２９】
本発明のさらに他の目的は、複数の機械翻訳システムを用いた翻訳システムにおいて、入力文の情報をも反映して、人間の評価と同様の基準にしたがって最良の翻訳を選択できるようにすることである。
【００３０】
【課題を解決するための手段】
本発明の第１の局面は、コンピュータ上で処理可能な形式の原文と、当該原文に対する、コンピュータ上で処理可能な形式の複数個の翻訳結果とに基づいて、複数個の翻訳結果の中から最良訳を選択するようコンピュータを動作させる方法に関する。この方法は、複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより翻訳結果ごとにスコア群を算出するようコンピュータを動作させるステップと、スコア群に対する統計的検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するようコンピュータを動作させる判定ステップと、判定するステップでの結果にしたがって、複数個の翻訳結果のうちから最良のものを選択するよう、コンピュータを動作させる選択ステップとを含む。
【００３１】
スコア群の中で他のスコア群と統計的に有意な差を持つものがあれば、それに対応する翻訳結果を選択する。こうすることによって、より的確に最良訳を選択することが可能となる。また、翻訳モデルを用いたスコアでは翻訳結果だけでなく原文をも考慮した採点が行なわれるので、情報の欠落がある翻訳を誤って選択してしまうおそれは少ない。
【００３２】
本発明の第２の局面によれば、複数個の翻訳結果は３個以上の翻訳結果を含み、判定ステップは、スコア群に対して相互に多重検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するようコンピュータを動作させるステップを含む。
【００３３】
多重検定を行なうことで、計算量を抑えながら複数のスコア群に対して適切な信頼度を保って検定を行なうことができ、的確な選択を行なうことができる。
【００３４】
本発明の第３の局面によれば、多重検定はノンパラメトリック検定である。
【００３５】
ノンパラメトリック検定を用いることにより、スコアに何らかの分布を仮定できない場合でも適切な検定を行なうことができる。
【００３６】
本発明の第４の局面によれば、多重検定はパラメトリック検定である。
【００３７】
パラメトリック検定を用いることにより、スコアに正規分布を仮定できる場合に適切な検定を行なうことができる。
【００３８】
本発明の第５の局面によれば、複数個の翻訳結果は３個以上の翻訳結果を含み、判定ステップは、スコア群に含まれる各スコアの、全スコア群中における順位を算出するようコンピュータを動作させるステップと、スコア群の各々に含まれるスコアの平均順位をスコア群ごとに算出するようコンピュータを動作させるステップと、スコア群ごとに算出される平均順位の間で多重検定を行なうことにより、平均順位の中で他のスコア群の平均順位と有意な差を持つものがあるか否かを判定するようコンピュータを動作させるステップとを含み、選択ステップは、他のスコア群の平均順位と有意な差を持つと判定された平均順位を持つスコア群に対応する翻訳結果を最良訳として選択するようコンピュータを動作させるステップを含む。
【００３９】
各スコア群の平均順位を用いてノンパラメトリックな多重検定が行なわれるので、翻訳結果が３個以上の場合でも、比較的少ない計算量で適切な選択を行なうことができる。
【００４０】
本発明の第６の局面によれば、翻訳結果は、３個以上の機械翻訳システムの翻訳結果であり、かつ３個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、選択ステップはさらに、他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するようにコンピュータを動作させるステップを含む。
【００４１】
有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【００４２】
本発明の第７の局面によれば、複数個の翻訳結果は３個以上の翻訳結果を含み、判定ステップは、スコア群ごとにスコアの平均値を算出するようコンピュータを動作させるステップと、スコア群ごとに算出される平均値の間で多重検定を行なうことにより、平均値の中で他のスコア群の平均値と有意な差を持つものがあるか否かを判定するようコンピュータを動作させるステップとを含み、選択ステップは、他のスコア群の平均値と有意な差を持つと判定された平均値を持つスコア群に対応する翻訳結果を最良訳として選択するようコンピュータを動作させるステップを含む。
【００４３】
平均値を用いたパラメトリックな多重検定が行なわれるので、スコアに正規分布が仮定できる場合に、適切な選択を行なうことができる。
【００４４】
本発明の第８の局面によれば、翻訳結果は、３個以上の機械翻訳システムの翻訳結果であり、かつ３個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、選択ステップはさらに、他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するようにコンピュータを動作させるステップを含む。
【００４５】
有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【００４６】
本発明の第９の局面によれば、複数個の翻訳結果は２個の翻訳結果を含み、判定ステップは、スコア群の間の一対比較を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するようコンピュータを動作させるステップを含む。
【００４７】
翻訳結果が２個である場合に、多重検定ではなく一対比較を行なうことで適切な選択を行なうことができる。
【００４８】
本発明の第１０の局面にかかる、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法は、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成するようにコンピュータを動作させるための方法であって、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するステップと、予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するようコンピュータを動作させるステップと、訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するようコンピュータを動作させるステップと、各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての評点とを成分とする学習用ベクトルを算出するようコンピュータを動作させるステップと、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木を学習するようコンピュータを動作させる学習ステップと、得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するようコンピュータを動作させるステップとを含む。
【００４９】
翻訳結果の選択にこのような回帰木を用いるという技術は従来は存在していなかった。回帰木を用いることで、目標となる採点基準に近い形で各翻訳の評点を推定することができる。
【００５０】
本発明の第１１の局面によれば、学習ステップは、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するようコンピュータを動作させるステップと、学習された回帰木を予め定められた程度だけ剪定または縮小させるようコンピュータを動作させるステップとを含む。
【００５１】
回帰木は、通常の形式で作成すると過学習となり、一般的なデータについては的確な推定が必ずしもできるとは限らない。そこで剪定または縮小を行なうことによって、一般的なデータについても一定の精度で推定ができるようになる。
【００５２】
本発明の第１２の局面によれば、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、評点とするステップをさらに含む。
【００５３】
人間の評価に基づいて翻訳結果の評点が得られ、かつその値が２値的に得られる。したがってコンピュータ上での処理が容易に行なえる。
【００５４】
本発明の第１３の局面にかかる複数個の翻訳結果から最良訳を選択する方法は、複数個の回帰木データを用いて複数個の機械翻訳システムの翻訳結果のうちの最良訳を選択するようにコンピュータを動作させるための方法である。複数個の回帰木データの各々は、対応の機械翻訳システムの翻訳結果の各々に対して予め定められた複数個の採点関数を適用した結果得られるスコア群を説明変数として与えられると、目標となる採点基準にしたがって推定される評点の推定値を出力するように利用可能である。この方法は、回帰木データをコンピュータ読取可能な形式で準備するステップと、入力される文に対する複数個の機械翻訳システムの翻訳結果の各々に対して、複数個の採点関数を用いてスコア群を算出するようにコンピュータを動作させるステップと、スコア群を説明変数として複数個の回帰木データに適用することにより、各複数個の回帰木データからそれぞれ評点の推定値を得るようにコンピュータを動作させるステップと、評点の推定値のうち、最も高い評点の推定値に対応する回帰木に関連付けられた機械翻訳システムの翻訳結果を選択して出力するようにコンピュータを動作させるステップとを含む。
【００５５】
一般に、翻訳結果に対する評点が分布にしたがうものとは限らない。そうした場合、分布を想定することのない回帰木データを用いて評点を推定することにより、より適切な訳を選択することができる。
【００５６】
本発明の第１４の局面によれば、複数個の回帰木データは、第１０〜第１２のいずれかの局面にかかる方法によって準備されたものである。
【００５７】
本発明の第１５の局面によれば、複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、この方法は、評点の推定値のうち、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択するステップをさらに含む。
【００５８】
最高の推定値を与える回帰木が複数個ある場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【００５９】
本発明の第１６の局面にかかる最良訳選択型の機械翻訳プログラムは、コンピュータ上で処理可能な形式の原文と、当該原文に対する、コンピュータ上で処理可能な形式の複数個の翻訳結果とに基づいて、複数個の翻訳結果の中から最良訳を選択する最良訳選択型の機械翻訳システムとしてコンピュータを動作させるプログラムである。この最良訳選択型の機械翻訳システムは、複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより翻訳結果ごとにスコア群を算出するための手段と、スコア群に対する統計的検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための判定手段と、判定手段での結果にしたがって、複数個の翻訳結果のうちから最良のものを選択するための選択手段とを含む。
【００６０】
スコア群の中で他のスコア群と有意な差を持つものがあれば、それに対応する翻訳結果を選択する。こうすることによって、より的確に最良訳を選択することが可能となる。翻訳モデルを用いたスコアでは翻訳結果だけでなく原文をも考慮した採点が行なわれるので、情報の欠落がある翻訳を誤って選択してしまうおそれは少ない。
【００６１】
本発明の第１７の局面によれば、複数個の翻訳結果は３個以上の翻訳結果を含み、判定手段は、スコア群に対して相互に多重検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための手段を含む。
【００６２】
多重検定を行なうことで、計算量を抑えながら複数のスコア群に対して適切な信頼度を保って検定を行なうことができ、的確な選択を行なうことができる。
【００６３】
本発明の第１８の局面によれば、多重検定はノンパラメトリック検定である。
【００６４】
ノンパラメトリック検定を用いることにより、スコアに何らかの分布を仮定できない場合でも適切な検定を行なうことができる。
【００６５】
本発明の第１９の局面によれば、多重検定はパラメトリック検定である。
【００６６】
パラメトリック検定を用いることにより、スコアに正規分布を仮定できる場合に適切な検定を行なうことができる。
【００６７】
本発明の第２０の局面によれば、複数個の翻訳結果は３個以上の翻訳結果を含み、判定手段は、スコア群に含まれる各スコアの、全スコア群中における順位を算出するための手段と、スコア群の各々に含まれる全スコアの平均順位をスコア群ごとに算出するための手段と、スコア群ごとに算出される平均順位の間で多重検定を行なうことにより、平均順位の中で他のスコア群の平均順位と有意な差を持つものがあるか否かを判定するための手段とを含み、選択手段は、他のスコア群の平均順位と有意な差を持つと判定された平均順位を持つスコア群に対応する翻訳結果を最良訳として選択するための手段を含む。
【００６８】
各スコア群の平均順位を用いてノンパラメトリックな多重検定が行なわれるので、翻訳結果が３個以上の場合でも、比較的少ない計算量で適切な選択を行なうことができる。
【００６９】
本発明の第２１の局面によれば、翻訳結果は、３個以上の機械翻訳システムの翻訳結果であり、かつ複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、選択手段はさらに、他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するための手段を含む。
【００７０】
有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【００７１】
本発明の第２２の局面によれば、複数個の翻訳結果は３個以上の翻訳結果を含み、判定手段は、スコア群ごとにスコアの平均値を算出するための手段と、スコア群ごとに算出される平均値の間で多重検定を行なうことにより、平均値の中で他のスコア群の平均値と有意な差を持つものがあるか否かを判定するための手段とを含み、選択手段は、他のスコア群の平均値と有意な差を持つと判定された平均値を持つスコア群に対応する翻訳結果を最良訳として選択するための手段を含む。
【００７２】
平均値を用いたパラメトリックな多重検定が行なわれるので、スコアに正規分布が仮定できる場合に、適切な選択を行なうことができる。
【００７３】
本発明の第２３の局面によれば、翻訳結果は、３個以上の機械翻訳システムの翻訳結果であり、かつ３個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、選択手段はさらに、他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するための手段を含む。
【００７４】
有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【００７５】
本発明の第２４の局面によれば、複数個の翻訳結果は２個の翻訳結果を含み、判定手段は、スコア群の間の一対比較を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための手段を含む。
【００７６】
翻訳結果が２個である場合に、多重検定ではなく一対比較を行なうことで適切な選択を行なうことができる。
【００７７】
本発明の第２５の局面にかかる回帰木生成プログラムは、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する回帰木生成装置としてコンピュータを動作させるための、コンピュータ読取可能なプログラムであって、回帰木生成装置は、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するための手段と、予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するための手段と、訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するための手段と、各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての評点とを成分とする学習用ベクトルを算出するための手段と、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木を学習するための学習手段と、得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するための手段とを含む。
【００７８】
翻訳結果の選択にこのような回帰木を用いるという技術は従来は存在していなかった。回帰木を用いることで、目標となる採点基準に近い形で各翻訳の評点を推定することができる。
【００７９】
本発明の第２６の局面によれば、学習手段は、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するための手段と、学習された回帰木を予め定められた程度だけ剪定または縮小するための手段とを含む。
【００８０】
回帰木は、通常の形式で作成すると過学習となり、一般的なデータについては的確な推定が必ずしもできるとは限らない。そこで剪定または縮小を行なうことによって、一般的なデータについても一定の精度で推定ができるようになる。
【００８１】
本発明の第２７の局面によれば、回帰木生成装置は、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、評点とするための手段をさらに含む。
【００８２】
人間の評価に基づいて翻訳結果の評点が得られ、かつその値が２値的に得られる。したがってコンピュータ上での処理が容易に行なえ、また得られた結果は人間の評価に近いものとなる。
【００８３】
本発明の第２８の局面にかかる最良訳選択型の機械翻訳プログラムは、複数個の回帰木データを用いて複数個の機械翻訳システムの翻訳結果のうちの最良訳を選択する最良訳選択型の機械翻訳システムとしてコンピュータを動作させるための、コンピュータ読取可能なプログラムである。複数個の回帰木データの各々は、対応の機械翻訳システムの翻訳結果の各々に対して予め定められた複数個の採点関数を適用した結果得られるスコア群を説明変数として与えられると、目標となる採点基準にしたがって推定される評点の推定値を出力するように利用可能である。この最良訳選択型の機械翻訳システムは、回帰木データをコンピュータ読取可能な形式で準備するための手段と、入力される文に対する複数個の機械翻訳システムの翻訳結果の各々に対して、複数個の採点関数を用いてスコア群を算出するための手段と、スコア群を説明変数として複数個の回帰木データに適用することにより、各複数個の回帰木データからそれぞれ評点の推定値を得るための手段と、評点の推定値のうち、最も高い評点の推定値に対応する回帰木に関連付けられた機械翻訳システムの翻訳結果を選択して出力するための手段とを含む。
【００８４】
一般に、翻訳結果に対する評点が正規分布にしたがうものとは限らない。そうした場合、分布を想定することのない回帰木データを用いて評点を推定することにより、より適切な訳を選択することができる。
【００８５】
本発明の第２９の局面によれば、複数個の回帰木データは、第２５〜第２７のいずれかの局面にかかる方法によって準備されたものである。
【００８６】
本発明の第３０の局面によれば、複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、最良訳選択型の機械翻訳システムは、評点の推定値のうち、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択するための手段をさらに含む。
【００８７】
最高の推定値を与える回帰木が複数個ある場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【００８８】
本発明の第３１の局面にかかる記憶媒体は、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを記憶した記憶媒体である。この回帰木データは、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するステップと、予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するステップと、訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するステップと、各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての評点とを成分とする学習用ベクトルを算出するステップと、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木を学習するステップと、得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するステップとを含む方法によって作成されたものである。
【００８９】
翻訳結果の選択にこのような回帰木を用いるという技術は従来は存在していなかった。回帰木を用いることで、目標となる採点基準に近い形で各翻訳の評点を推定することができる。
【００９０】
本発明の第３２の局面によれば、学習するステップは、各機械翻訳システムごとに、学習用ベクトルを用い、スコア群および評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するステップと、学習された回帰木を予め定められた程度だけ剪定または縮小するステップとを含む。
【００９１】
回帰木は、通常の形式で作成すると過学習となり、一般的なデータについては的確な推定が必ずしもできるとは限らない。そこで剪定または縮小を行なうことによって、一般的なデータについても一定の精度で推定ができるようになる。
【００９２】
本発明の第３３の局面によれば、前記した方法は、予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、評点とするステップをさらに含む。
【００９３】
人間の評価に基づいて翻訳結果の評点が得られ、かつその値が２値的に得られる。したがってコンピュータ上での処理が容易に行なえ、また得られた結果は人間の評価に近いものとなる。
【００９４】
【発明の実施の形態】
［第１の実施の形態］
―概略―
第１の実施の形態の機械翻訳システムは、複数の個別の機械翻訳システムの翻訳結果のうち、最良のものを選ぶ最良訳選択型の機械翻訳システムであって、最良訳の選択時に、他の機械翻訳システムの翻訳結果の評価値と比較して、有意な差をもつ最高の評価値を示した機械翻訳システムの翻訳結果を採用するというものである。この実施の形態ではその検定には多重比較を用いる。ただし、関係する機械翻訳システムの数が二つの場合には、後述するように一対比較を用いる。
【００９５】
―構成―
以下に述べる本発明の各実施の形態は、コンピュータおよびコンピュータ上で動作するソフトウェアにより実現される。もちろん、以下に述べる機能の一部又は全部を、ソフトウェアでなくハードウェアで実現することも可能である。
【００９６】
図１に、本実施の形態で利用されるコンピュータシステム２０の外観図を、図２にコンピュータシステム２０のブロック図を、それぞれ示す。なおここに示すコンピュータシステム２０はあくまで一例であり、この他にも種々の構成が可能である。
【００９７】
図１を参照して、コンピュータシステム２０は、コンピュータ４０と、いずれもこのコンピュータ４０に接続されたモニタ４２、キーボード４６、およびマウス４８を含む。コンピュータ４０にはさらに、ＣＤ―ＲＯＭ（Ｃｏｍｐａｃｔ　Ｄｉｓｃ　Ｒｅａｄ−Ｏｎｌｙ　Ｍｅｍｏｒｙ）ドライブ５０と、ＦＤ（Ｆｌｅｘｉｂｌｅ　Ｄｉｓｋ）ドライブ５２とが内蔵されている。
【００９８】
図２を参照して、コンピュータシステム２０はさらに、コンピュータ４０に接続されるプリンタ４４を含むが、これは図１には示していない。またコンピュータ４０はさらに、ＣＤ―ＲＯＭドライブ５０およびＦＤドライブ５２に接続されたバス６６と、いずれもバス６６に接続された中央演算装置（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ：ＣＰＵ）５６、コンピュータ４０のブートアッププログラムなどを記憶したＲＯＭ（Ｒｅａｄ−Ｏｎｌｙ　Ｍｅｍｏｒｙ）５８、ＣＰＵ５６が使用する作業エリアおよびＣＰＵ５６により実行されるプログラムの格納エリアを提供するＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）６０、および後述する対訳コーパス、翻訳結果などを格納するハードディスク５４を含む。
【００９９】
以下に述べる実施の形態のシステムを実現するソフトウェアは、たとえば、ＣＤ―ＲＯＭ６２のような記録媒体上に記録されて流通し、ＣＤ―ＲＯＭドライブ５０のような読取装置を介してコンピュータ４０に読込まれ、ハードディスク５４に格納される。ＣＰＵ５６がこのプログラムを実行する際には、ハードディスク５４からこのプログラムを読み出してＲＡＭ６０に格納し、図示しないプログラムカウンタによって指定されるアドレスから命令を読出して実行する。ＣＰＵ５６は、処理対象のデータをハードディスク５４から読出し、処理結果を同じくハードディスク５４に格納する。
【０１００】
コンピュータシステム２０の動作自体は周知であるので、ここではその詳細については繰り返さない。
【０１０１】
なお、ソフトウェアの流通形態は上記したように記憶媒体に固定された形には限定されない。たとえば、ネットワークを通じて接続された他のコンピュータからデータを受取る形で流通することもあり得る。また、ソフトウェアの一部が予めハードディスク５４中に格納されており、ソフトウェアの残りの部分をネットワーク経由でハードディスク５４に取込んで実行時に統合するような形の流通形態もあり得る。
【０１０２】
一般的に、現代のプログラムはコンピュータのオペレーティングシステム（ＯＳ）またはいわゆるサードパーティ等によって提供される汎用の機能を利用し、それらを所望の目的にしたがって組織化した形態で実行することにより前記した所望の目的を達成する。したがって、以下に述べる本実施の形態の各機能のうち、ＯＳまたはサードパーティが提供する汎用的な機能を含まず、それら汎用的な機能の実行順序の組合せだけを指定するプログラム（群）であっても、それらを利用して全体的として所望の目的を達成する制御構造を有するプログラム（群）である限り、それらが本発明の技術的範囲に含まれることは明らかである。
【０１０３】
以下にのべる実施の形態を説明するに先立って、翻訳結果の採点方法について説明する。予備的実験として、本発明の発明者は前述したＬＭスコアと、ＩＢＭ４と呼ばれる翻訳モデル（Ｔ_ｉ（ｓ，ｔ）で翻訳モデルＴＭ_ｉを用いて計算する
【０１０４】
【数１】

を表記する。ここで、ｓは原文であり、ｔは訳出であり、Ｓはアライメント集合（参考文献（６））、すなわち、最良アライメント（ｔｈｅ　ｂｅｓｔ　ａｌｉｇｎｍｅｎｔ）、ある種の近接アライメント（ｎｅｉｇｈｂｏｒｉｎｇ　ａｌｉｇｎｍｅｎｔｓとｐｅｇｇｅｄ　ａｌｉｇｎｍｅｎｔｓ）からなるアライメント集合である。）によるスコア（「ＴＭスコア」と呼ぶ。）、およびＬＭスコアとＴＭスコアとの積（ＴＭ＊ＬＭ）とをそれぞれ用いて最良訳を選択する実験を行なった。
【０１０５】
ここで翻訳モデルについて説明する。翻訳モデルでは、翻訳というタスクを次のように考える。すなわち、「原言語の文Ｓが、雑音のある通信路を通って目標言語の文Ｔとして観測されたものと考え、この目標言語の文Ｔから原言語の文Ｓを推測すること」が翻訳であると考える。言換えれば、目標言語の文Ｔから原言語の文Ｓを復号することが翻訳である。このとき、Ｔが与えられたときにＳが生ずる確率Ｐ（Ｓ｜Ｔ）を最大にするＳを求めれば、誤りを最小にできる。すなわち、原言語の文Ｓを最小の誤差で復号できるということであるから、復号された原言語の文は目標言語の文Ｔの最良の翻訳文ということになる。
【０１０６】
ベイズの法則よりＰ（Ｓ｜Ｔ）＝Ｐ（Ｓ）Ｐ（Ｔ｜Ｓ）／Ｐ（Ｔ）である。Ｐ（Ｔ）は目標言語における単語の統計的モデルにしたがう値で、言語モデルＳとは無関係である。したがって、確率Ｐ（Ｓ｜Ｔ）を最大とするためにはＰ（Ｓ）Ｐ（Ｔ｜Ｓ）を最大にすればよい。ここで、Ｐ（Ｓ）は、原言語における単語の統計的なモデルである。このＰ（Ｓ）を与えるモデルが前述の言語モデルであって、要するに原言語の統計的情報から原文Ｓが生ずる確からしさを表わすものといえる。一方、Ｐ（Ｔ｜Ｓ）を与えるモデルを翻訳モデルと呼び、原文Ｓが生じたときにターゲット言語の文Ｔが生ずる確率を表わすものといえる。これらのモデルのパラメータは、大規模な言語データベースを用いて自動的に推定される。
【０１０７】
なお、上の翻訳モデルの説明からわかるように、翻訳モデルにおける「目標言語の文Ｔ」とは、翻訳というタスクを中心に考えれば翻訳の原文ｓに相当する。また翻訳モデルにおける「原言語の文Ｓ」とは、翻訳というタスクを中心に考えれば翻訳後の訳文ｔに相当する。したがって、翻訳モデルでの考え方と、翻訳というタスクを中心とした考え方とでは、「目標言語（ターゲット言語）」と「原言語（ソース言語）」という用語がちょうど逆の意味で使われることになるので、注意が必要である。
【０１０８】
実験には、前述した３つの日英翻訳システムを用いた。その結果を表１に示す。
【０１０９】
【表１】

表１は、上のようにして得られたスコア（ＴＭ＊ＬＭ、ＬＭ、およびＴＭ）に基づいて最良訳を選択した場合のランクＡの割合と、機械翻訳システムＤ３による翻訳結果のランクＡの割合との間の相違を示す。システムＤ３はランクＡについては最良の結果を残していたことを想起されたい（図１５参照）。
【０１１０】
この予備的実験からは、ＴＭスコアおよびＬＭスコアを用いた場合には翻訳精度の向上は見られないことが分かる。一方、ＴＭ＊ＬＭスコアを用いた場合には明らかに翻訳精度の向上が見られる。したがって、最良訳の選択にはＴＭ＊ＬＭスコアを用いることが有効と思われる。
【０１１１】
ただし、このような採点方法はあくまで統計的なものであり、学習にどのようなコーパスを使用するかによって、得られるスコアは異なってくることに注意する必要がある。以下の説明では、主として採点にはＴＭ＊ＬＭスコアを用いるものとして説明する。
【０１１２】
本実施の形態のプログラムのうち、最良の翻訳結果を選択する選択部を装置とみなして機能的に示したのが図３のブロック図である。図３に示される選択部７０は、図１７に示す選択部３３０に代えて用いることができる。なお、制御部３２８の機能は一文ごとの処理の繰返しを制御するものであり、通常はプログラム中のループ処理により実現される。したがって図３では制御部３２８の制御によって動作を開始したり終了したりする機能は示していない。ただし、本発明をプログラムではなくハードウェア回路によって実現することも可能であることはもちろんである。
【０１１３】
図３を参照して、この第１の実施の形態における選択部７０は、３つの機械翻訳システム（これらをそれぞれＭＴ_１，ＭＴ_２およびＭＴ_３とする。）に対してそれぞれ後に述べる手法により採点する（スコアをつける）処理を行なう採点部７２Ａ，７２Ｂおよび７２Ｃと、採点部７２Ａ―７２Ｃから出力されるスコアを比較し、それらのうち最高のスコアであって、かつ他の機械翻訳システムによるスコアに対して有意な差を持っているものを原則として選択し翻訳結果として出力するための比較・選択部７８とを含む。
【０１１４】
これら各機能ブロックは、いずれも本実施の形態ではソフトウェアにより実現される。また、採点のための準備的な作業についても本実施の形態ではソフトウェアにより実現される。以下、図４〜図５を参照して、それらソフトウェアの制御構造について説明する。この第１の準備形態のシステムもやはり、準備フェーズと翻訳フェーズとを持つ。図４には準備フェーズを、図５には翻訳フェーズを、それぞれ示す。
【０１１５】
図４を参照して、準備フェーズでは、最初に規模がほぼ同じ複数個の対訳コーパスＣ_ｉ　（ｉ＝１，…，Ｌ）を電子的に読取可能な形式で準備する（８０）。ここでは例としてＬ＝１０とする。実際には、一つの大きな対訳コーパスＣを１０個の部分集合Ｖ_ｉに等分し、差集合Ｃ−Ｖ_ｉをＣ_ｉとすることが考えられる。
【０１１６】
続いてコーパスＣ_ｉ（ｉ＝１，…，１０）をそれぞれ用いて採点関数Ｆ_ｉ　（ｉ＝１，…，１０）を学習する（８２）。この場合、翻訳が好ましいほど点数が大きくなるように採点関数Ｆ_ｉを定める。採点関数Ｆ_ｉとしては、前述したＬＭスコア、ＴＭスコア、その積ＬＭ＊ＴＭスコアなどを用いることができる。コーパスＣ_ｉが１０個あり、そのそれぞれを用いて採点関数Ｆ_ｉを学習させるので、結果として採点関数Ｆ_ｉも１０個得られることに注意する。なおここでいう「採点関数を学習する」というのは、各コーパスに基づいて言語モデルまたは翻訳モデルを学習し、その結果にしたがって採点関数の値が定まるように、必要な統計量を予め取得しておくことを意味する。
【０１１７】
図５を参照して、翻訳フェーズでは以下のような処理が行なわれる。まず、原文ｓを各機械翻訳システム（ＭＴ_ｋ：　ｋ＝１，…，３）に入力し、それぞれ翻訳結果ｔ_ｋを得る（９０）。この場合の翻訳単位は通常は一文である。ただし翻訳単位が一文に限定されるわけではない。
【０１１８】
続いて、原文ｓと各機械翻訳システム（ＭＴ_ｋ）による翻訳結果ｔ_ｋとの組（ｓ，ｔ_ｋ）に対し、採点関数Ｆ_ｉ（ｉ＝１，…，１０）を用いて点数を付ける（９２）。その結果、各組（ｓ，ｔ_ｋ）ごとに１０個の点数Ｆ_ｉ（ｓ，ｔ_ｋ）（ｉ＝１，…，１０，ｋ＝１，…，３）が得られる。すべての組をあわせて各組をその点数Ｆ_ｉ（ｓ，ｔ_ｋ）で降順にソーティングし、その結果にしたがって各組に順位Ｈ_ｉ（ｓ，ｔ_ｋ）（ｉ＝１，…，１０，ｋ＝１，…，３）を付ける。
【０１１９】
各機械翻訳システムＭＴ_ｋごとに、その機械翻訳システムと翻訳結果との組（ｓ，ｔ_ｋ）に対して付けられた順位Ｈ_ｉ（ｓ，ｔ_ｋ）（ｉ＝１，…，１０）の平均値Ｍ_ｋ＝ΣＨ_ｉ（ｓ，ｔ_ｋ）／１０を求める（９４）。この平均値を「平均順位」と呼ぶ。
【０１２０】
このようにして得られた各機械翻訳システムの出力の点数の平均順位Ｍ_ｋ（ｋ＝１，…，３）のうち、最高のものが他のものと有意な差を有しているか否かを判定する（９６）。本実施の形態では、この判定にはクルスカル・ワリス検定を用いた多重比較による検定を用いる。その詳細については、たとえば田中豊・垂水共之編「統計解析ハンドブック　パラメトリック法」（共立出版株式会社）の「４．独立なｋ標本データの解析」、特に「４．２　クラスカル・ワリス検定」および「４．５　多重比較」に詳細な記載がある。
【０１２１】
一般に、上のようにして得られた翻訳結果に対する点数Ｆ_ｉ（ｓ，ｔ_ｋ）が正規分布にしたがっているとは限らない。むしろ正規分布にはしたがっていないと考えるべきである。そこで、ここではノンパラメトリック統計における多重比較を用いる。この実施の形態では、テューキー・クレイマー型の多重検定を用いている。より具体的には、市販の統計ツールにより提供される多重検定のための関数を用いるとよい。たとえばＭａｔｌａｂの中に含まれるｋｒｕｓｋａｌｗａｌｌｉｓ関数およびｍｕｌｔｃｏｍｐａｒｅ関数を利用することができる。
【０１２２】
もしも、上記したように最高の平均順位が他の平均順位に対して有意な差を持っている場合（ステップ９６の判定結果がＹＥＳ）、制御はステップ９８に移る。ステップ９８では、その最小の平均順位を与えた機械翻訳システムの出力を採用する。
【０１２３】
最高の平均順位が他の平均順位に対して有意な差を持っていない場合（ステップ９６の判定結果がＮＯ）、制御はステップ１００に移る。ステップ１００では、最小の平均順位と有意な差がない平均順位を与えた機械翻訳システムのうち、予め指定された順番にしたがって優位なものが選択される。この順番としてはたとえば、何らかの基準によって予め性能を測定しておき、性能のよいものから指定するようにすればよい。ここでいう性能とは、単に言語モデルや翻訳モデルによるものではなく、総合的な性能という意味で予め分かっているものとする。
【０１２４】
続いて、全文の翻訳が終了したか否かを判定する（１０２）。もしも全文の翻訳が終了していれば翻訳処理を終了し、さもなければ次の文に処理対象ポインタを進め（１０４）た後、新たな入力文に対してステップ９０からの処理を繰返す。
【０１２５】
―動作―
以上述べたハードウェアとソフトウェアとにより構成される本実施の形態のシステムは、以下のように動作する。
【０１２６】
準備作業として以下のような作業を行なう。図４のステップ８０に示すように、規模がほぼ同じ複数の対訳コーパスＣ_ｉ（ｉ＝１，…，１０）を準備する。次に、図４のステップ８２に示すように、これらコーパスＣ_ｉを用い、一つのコーパスに対し一つの採点関数を学習する。この処理により１０個の採点関数Ｆ_ｉ（ｉ＝１，…，１０）を得る。以上で準備作業は終了である。
【０１２７】
翻訳時には以下のような処理が行なわれる。まず翻訳対象のポインタを入力文章中の先頭文を示す値に設定した後、図５の処理が開始される。最初の文ｓを３個の機械翻訳システムＭＴ_１、ＭＴ_２，ＭＴ_３に入力し、それぞれ翻訳結果ｔ_１，ｔ_２，ｔ_３を得る（ステップ９０）。これらの翻訳結果に対して、以下のようにして採点をおこなう（ステップ９２）。
【０１２８】
すなわち、第１の機械翻訳システムＭＴ_１の出力ｔ_１については、Ｆ_１（ｓ，ｔ_１），Ｆ_２（ｓ，ｔ_１），…，Ｆ_１０（ｓ，ｔ_１）を計算する。第２の機械翻訳システムＭＴ_２の出力ｔ_２については、Ｆ_１（ｓ，ｔ_２），Ｆ_２（ｓ，ｔ_２），…，Ｆ_１０（ｓ，ｔ_２）を計算する。第３の機械翻訳システムＭＴ_３の出力ｔ_３については、Ｆ_１（ｓ，ｔ_３），Ｆ_２（ｓ，ｔ_３），…，Ｆ_１０（ｓ，ｔ_３）を計算する。
【０１２９】
続いて各機械翻訳システムごとに、点数の平均順位を計算する（９４）。次にそれら平均順位の最小値で、かつ他の平均順位に対して有意な差を持つものがあるか否かを判定する（９６）。そうしたものがある場合にはステップ９８でその機械翻訳システムの翻訳結果を選択する。そうしたものがない場合には、最小値と有意な差がない平均順位を与えた機械翻訳システムのうち、予め定められた順序にしたがって優位なものを選択する（１００）。選択された翻訳結果は、たとえばメモリ中に蓄積されたり、ハードディスクに書込まれたりする。
【０１３０】
この後、全文の翻訳が終了したか否かを判定する（１０２）。入力される文章に含まれる文が複数個ある場合には、ここでの判定結果はＮＯとなる。したがって処理対象を示すポインタを進めて（１０４）、ステップ９０に戻る。ステップ９０以降は、２番目の文章に対して上述した処理を繰返す。
【０１３１】
こうして、入力される文章に対する処理が全て終了すると、ステップ１０２での判定結果が「ＹＥＳ」となる。その結果この処理全体が終了する。最終的にメモリまたはハードディスクには、入力文章の全体について、各文が最良訳からなる翻訳文が格納されている。
【０１３２】
この実施の形態のシステムによる具体的な効果については後述する。
【０１３３】
なお、この実施の形態では、各機械翻訳システムとその翻訳結果との組の平均順位に基づいたノンパラメトリック検定を使用している。しかし、本発明はそのような実施の形態には限定されない。たとえば、各機械翻訳システムと翻訳結果との組（ｓ，ｔ_ｋ）に対して付けられた点数Ｆ_ｉ（ｓ，ｔ_ｋ）（ｉ＝１，…，１０）が正規分布を仮定できる場合には平均値Ｍ’_ｋ＝ΣＦ_ｉ（ｓ，ｔ_ｋ）／１０を求め、これら平均値を用いて多重検定を行なってもよい。この場合、検定はパラメトリックなものとなる。
【０１３４】
より一般的に、機械翻訳システムの訳文のうち最良のものを選択するために、統計的検定を用い、他の機械翻訳システムの訳文の評価に対して有意な差をもって優れていると判定された機械翻訳システムの訳文を選択する点に本実施の形態の特徴がある。
【０１３５】
以上の説明では、検定の対象となる値として、採点結果の平均順位または平均値をあげた。しかし本実施の形態にかかる発明はそれらの値を用いるものに限らない。母集団である採点結果の集まりのデータを代表する値（代表値）であればどのようなものを用いてもよい。応用によって、最頻値、中央値、算術平均、幾何平均、調和平均など、統計学上で代表値として挙げられるもののうち適切なものが選択できる。
【０１３６】
また、本実施の形態では機械翻訳システムの訳文を選択する際の統計的検定において、機械翻訳システムの比較の組合せが複数個あるため、多重比較を用いている。しかし本実施の形態にかかる発明はそのような実施の形態には限定されない。たとえば機械翻訳システムが２つの場合には、比較する代表値の数は二つ（一対）となる。このときには、多重比較でなく、二つの代表値を用いた一対比較を行なえばよい。パラメトリックな一対比較の検定手法としてはｔ−検定があり、ノンパラメトリックな一対比較の検定手法としては、順位和を用いることができる。もちろん、これ以外にも適切な検定手法を用いることが可能である。
【０１３７】
［第２の実施の形態］
―概略―
第２の実施の形態のシステムは、複数個の採点関数による採点結果と、人間による評価の結果とに基づいて、採点関数による採点から人間の評価を推定しその結果に基づいて翻訳結果を選択する点に特徴がある。その推定のためにこのシステムでは、ある翻訳結果に対する複数個の評価関数による点数の並びから、その翻訳結果に対応する人間の評価を条件付き確率として推定できる方法を用いる。ここでは、後述するように回帰木を用いる。
【０１３８】
この第２の実施の形態のシステムを実現するためのハードウェアは、第１の実施の形態のシステムに関連して説明したものと同様である。したがってここではそれらについての詳細な説明は繰返さない。
【０１３９】
この第２の実施の形態のシステムでも、作業は準備フェーズと翻訳フェーズとに分かれる。準備フェーズはさらに、各ユーザのシステムにこの機械翻訳システムをインストールする前に行なう事前準備と、各ユーザのシステムにインストールされた後に、各ユーザごとに行なわれる個別の準備とに分かれる。
【０１４０】
事前準備では、訓練事例を用いて翻訳システムに翻訳を行なわせ、翻訳結果に対して人間による評点を割当てる。
【０１４１】
個別の準備では、各ユーザごとに対訳コーパスを用意して、このコーパスを用いて翻訳結果に対する複数個の評価関数を定める。個別の準備ではさらに、訓練事例の翻訳結果に対して上記したように得られた複数個の評価関数による点数と、事前準備によって得られた人間の評価結果とから、その翻訳結果に対する人間の評価を推定するための回帰木の学習が行なわれる。
【０１４２】
翻訳フェーズでは、複数の機械翻訳システムに入力文の翻訳を行なわせる。翻訳結果に対して前述の複数個の評価関数を適用して複数個の点数を計算する。これらの点数の並びに対して回帰木を適用することで、各翻訳結果に対する人間の評価を条件付き確率として推定する。
【０１４３】
これら各フェーズの詳細については後述する。なお、各ユーザごとに行なわれる個別の準備は、ユーザが特にシステムのカスタマイズを必要としない（ユーザ固有の評価関数を用いない）場合には、事前準備として各ユーザのシステムへのインストール前に共通の対訳コーパスを用いて評価関数を定めることによって行なうこともできる。
【０１４４】
評価関数としては、たとえば前述のＬＭスコア，ＴＭスコア，ＴＭ＊ＬＭスコアなどを用いることができる。もちろんこれ以外にも翻訳の精度を示す尺度となるものがあればそれを採用することができる。
【０１４５】
―構成―
図６は、個別の準備処理のうち、回帰木の作成処理を実現するソフトウェア（「回帰木作成部１１０」として示す。）を機能的に表わすブロック図である。ここでは、この機械翻訳システムは構成要素として３つの個別の機械翻訳システムＭＴ１−ＭＴ３を利用するものとする。
【０１４６】
この回帰木作成部１１０は、訓練事例の対訳コーパスと、定義済の複数個の評価関数１１２と、訓練事例に対して事前準備で得られた人による評価１１４とに基づき、それぞれ機械翻訳システムＭＴ１−ＭＴ３に対応する学習済回帰木１１６Ａ〜１１６Ｃを作成するための個別回帰木作成部１２０Ａ〜１２０Ｃを含む。
【０１４７】
個別回帰木作成部１２０Ａ〜１２０Ｃはいずれも同じ構成である。たとえば個別回帰木作成部１２０Ａは、訓練事例の全入力文の翻訳結果の各々に対し、複数個の評価関数１１２による点数を算出するための採点部１２２Ａと、各翻訳結果について採点部１２２Ａから出力される複数個の採点と、その翻訳結果に対応する人間の評価値とをベクトル化するためのベクトル化部１２４Ａと、ベクトル化部１２４Ａから各翻訳結果に対して出力されるベクトルに基づき、後述する回帰木を学習するための回帰木学習部１２６Ａとを含む。回帰木学習部１２６Ａの出力が学習済回帰木１１６Ａである。
【０１４８】
個別回帰木作成部１２０Ｂおよび１２０Ｃについては、その各構成要素には同じ参照符号に添え字ＢおよびＣを付して表わすこととし、その構成の詳細はここでは繰返さない。
【０１４９】
この実施の形態では、学習済回帰木１１６Ａ〜１１６Ｃの機能は、ある翻訳結果に対する複数の評価関数１１２による点数の並びを与えられると、その点数の並びから、対応する人間の評価の推定値を出力する、というものである。具体的には、回帰木は、与えられた点数の並びに基づいて適切に分岐をしていくことによって点数の並びと人間の評価値を表わす値とを成分とするベクトルからなるベクトル空間を複数個の部分空間に分割し、かつ各部分空間に属するベクトルに含まれる人間の評価値がある共通の傾向をもつようにする。たとえば、評価値が「１」のものと「０」のものとをできるだけ分離するように分割をする。そして、推定時には、与えられた点数の並び（ベクトル）に基づいて解析木をたどっていくことでそのベクトルの属する部分空間を定める。その部分空間に属するベクトルの人間の評価値の平均値を、与えられたベクトルの評価値の推定値とする。
【０１５０】
たとえば、機械翻訳システムＭＴ_１，ＭＴ_２，およびＭＴ_３を考える。訓練事例中のある原文ｓに対してこれらシステムが出力する訳をそれぞれｔ_１，ｔ_２およびｔ_３とする。そしてこれらに対する人間の評価をそれぞれＲ_１，Ｒ_２およびＲ_３と表わす。ここでＲ_１，Ｒ_２およびＲ_３はそれぞれ、翻訳結果ｔ_１，ｔ_２およびｔ_３に対する人間の評価が、他の訳（それぞれ「ｔ_２およびｔ_３」、「ｔ_３およびｔ_１」、ならびに「ｔ_１およびｔ_２」）の評価より悪くないかどうかを表わす変数である。悪くない場合には値は１、そうでない場合には値は０となるものとする。
【０１５１】
また、評価関数をＧ_１，Ｇ_２およびＧ_３とする。ここでは評価関数の数と機械翻訳システムの数とがたまたま一致しているが、両者は無関係である。ｊ番目の原文ｓ_ｊに対する機械翻訳システムＭＴ_１の出力をｔ_１ｊで表わし、そのときのたとえば評価関数Ｇ_１の値をＧ_１（ｓ_ｊ，ｔ_１ｊ）のように表わす。入力文ｓ_ｊと翻訳出力ｔ_１ｊとの対を（ｓ_ｊ、ｔ_１ｊ）で表わすと、ベクトル化部１２４Ａは（ｓ_ｊ，ｔ_１ｊ）を以下のようなベクトルＶ_１ｊとして表わす。
【０１５２】
（ｓ_ｊ，ｔ_１ｊ）　−＞　Ｖ_１ｊ＝（Ｇ_１（ｓ_ｊ，ｔ_１ｊ），Ｇ_２（ｓ_ｊ，ｔ_１ｊ），Ｇ_３（ｓ_ｊ，ｔ_１ｊ），Ｒ_１ｊ）
ここでＲ_１ｊは、前述のＲ_１，Ｒ_２およびＲ_３と同様の値であって、１番目の機械翻訳システムＭＴ_１によるｊ番目の原文ｓ_ｊの訳の評価が、他の機械翻訳システムの訳の評価より悪くないかどうかを表わす変数である。悪くない場合には値は１、そうでない場合は値は０となるものとする。
【０１５３】
これらベクトルを多数与えられることにより、回帰木学習部１２６Ａは適切に条件分岐を定めて、人間による評価がよいものと悪いものとがなるべく区別できるようにベクトル空間を分割していく。回帰木の学習とは、そのようにして適切な分割方法を定めていくことである。
【０１５４】
なお回帰木の学習自体は統計学では公知の手法である。回帰木の学習についても著名な統計処理ツール「Ｓｐｌｕｓ」のｔｒｅｅ関数を用い、予測変数（本実施の形態では人間による評価値）と、説明変数（本実施の形態での評価関数に相当）と、学習のためのデータセットへのポインタとを引数として与えることで容易に実行することができる。
【０１５５】
回帰木の利用では、回帰木と、判定したいデータが入っているベクトル（学習時と同じ順序で成分を含むもの）とを引数として関数ｐｒｅｄｉｃｔを実行することにより予測変数の推定値を得ることができる。
【０１５６】
Ｓｐｌｕｓにおける回帰木の基本原理、学習、およびその利用に関しては、Ｊ．Ｍ．チェンバースおよびＴ．Ｊ．ヘイスティ編「Ｓと統計モデル」（共立出版株式会社）の第９章「樹形モデル」に詳細に記載されており、その記載をも参考にすれば、回帰木の学習、予測、後述する剪定と縮小などについても容易に実現できる。
【０１５７】
図７には、学習済の回帰木を用いて入力文に対する複数の機械翻訳システムの出力から最良のものを選択するための選択部１３０の機能的構成をブロック図形式で示す。図７を参照して、選択部１３０は、３つの機械翻訳システムに対応して設けられ、それぞれの出力について複数個の評価関数１３２を用いて採点をし、さらにその点数を用いて各システムごとの回帰木１３４を用いて各翻訳結果に関する人間評価を推定するための個別評価推定部１４０Ａ〜１４０Ｃと、個別評価推定部１４０Ａ〜１４０Ｃの出力を比較することにより、最も好ましいと思われる翻訳結果を選択するための比較評価部１４６とを含む。
【０１５８】
個別評価推定部１４０Ａ〜１４０Ｃはいずれも同じ構成を有する。たとえば個別評価推定部１４０Ａは、入力文と翻訳結果との組に対して複数個の評価関数１３２を用いて採点を行なうための採点部１４２Ａと、採点部１４２Ａから出力される点数の並びをこの機械翻訳システムに対応する回帰木に与えることにより、回帰木から当該翻訳結果の人間評価の推定値を得るための評価推定部１４４Ａとを含む。各部の機能の詳細については、後のフローチャートにより明らかとなる。
【０１５９】
本実施の形態のシステムは、実際には前述したとおりコンピュータのハードウェアと、その上で動作するソフトウェアとにより実現される。以下、このソフトウェアの制御構造について説明する。
【０１６０】
このシステムの動作には事前準備フェーズ、個別準備フェーズ、および翻訳フェーズがある。これらにつき以下図８〜図１１を参照して説明する。
【０１６１】
図８は、事前準備フェーズでの処理手順を示す。ここでの処理は、すべてのユーザについて共通に行なわれる。したがってこの処理は、たとえば本システムを製造し出荷する者が行なえばよい。ただし、ユーザが独自の訓練事例を用い、独自の評価を行なう場合には、この事前準備フェーズをユーザが行なってもよい。
【０１６２】
図８を参照して、事前準備処理は、すべての訓練事例ｓ_ｊ（ｊ＝１，…，Ｎ：Ｎは訓練事例の数）に対して、当該システムで使用されることが想定される全ての機械翻訳システムＭＴ_ｋ（ｋ＝１，…，３）で翻訳を行なう（１６０）。この結果得られた翻訳結果をｔ_ｋｊ（ｊ＝１，…，Ｎ，ｋ＝１，…，３）とする。
【０１６３】
続いて、すべての翻訳結果ｔ_ｋｊに対して、人間が評価し、その結果をこの事前準備を行なっているコンピュータに入力し、各翻訳結果と関連付けて記憶する（１６２）。
【０１６４】
最後に、機械翻訳システムＭＴ_ｋ（ｋ＝１，…，３）の翻訳結果ｔ_ｋｊ（ｊ＝１，…，Ｎ）に対する人間評価が、他の機械翻訳システムに対する人間評価より悪くない場合には１、それ以外の場合には０をとる変数Ｒ_ｋｊを、全ての機械翻訳システムのすべての翻訳結果に対して算出する。このようにして得られた人間による評価と、変数Ｒ_ｋｊとは、後の個別準備フェーズでコンピュータが利用できるように、電子的に読取可能な形で各機械翻訳システムおよびその翻訳結果（または入力文）と関連付けてハードディスクなどに保存される。
【０１６５】
次に、各ユーザにおいて行なわれる個別準備フェーズについて、図９を参照して説明する。各ユーザは、対訳コーパスを電子的に読取可能な形で準備する（１７０）。具体的には、ハードディスクなどに対訳コーパスを格納し、その位置をこのシステムに指示する。
【０１６６】
続いて、このコーパスを用いて、複数通りの採点関数Ｇ_ｉ（ｉ＝１，…，３）を学習する（１７２）。この実施の形態では、前述したとおりＬＭ，ＴＭ，およびＴＭ＊ＬＭの採点を用いる。
【０１６７】
訓練事例の全てまたは一部の例文ｓ_ｊを機械翻訳システムＭＴ１−ＭＴ３を用いて翻訳し、翻訳結果ｔ_ｋｊに対して上記のように得られた３つの採点関数Ｇ_ｉを使用して採点を行なう（１７４）。
【０１６８】
こうして得られた点数と、事前準備フェーズで得られていた人間評価を表わす変数Ｒ_ｋｊとをベクトル化する（１７６）。このベクトルをＶ_ｋｊと表わす。その内容については既に述べた。
【０１６９】
そして、このようにして得られたベクトルＶ_ｋｊ（ｋ＝１，…，３、ｊ＝１，…，Ｎ）を、Ｒ_ｋｊを従属変数として統計解析ツールの回帰木学習関数に与えることにより、機械翻訳システムＭＴ_ｋに対する回帰木を得る。
【０１７０】
このように統計解析ツールを用いて回帰木を作成した場合、通常は過学習と呼ばれる状態となっていることが多い。過学習とは、できあがった回帰木が学習データにのみ適合しすぎ、一般的なデータについて適切な推定ができないような状態になっていることをいう。具体的には、回帰木のルートからリーフまでの分岐数が多くなりすぎ、ベクトル空間をあまりに細かく分割している状態である。
【０１７１】
そこで、図１０に示すように、いったん回帰木の全体を作成し（１９０）、その後にこの回帰木を剪定、または縮小する（１９２）。剪定と縮小とは、一般的に木構造に対して行なわれる処理であって、学習データに対する当てはめのよさをできるだけ犠牲にせずに、木構造を単純化する処理のことをいう。剪定では複数の葉をまとめて一つの葉としてしまうことで、木構造の枝を削除する。縮小では、複数の葉を一箇所に集中させることで木構造の枝を削除する。縮小では、実際には葉の数は減少しないが、実質的には葉の数を減少させているのと同様と考えられる。いずれの方法を用いるかは、単純化により倹約された表現と、予測の正確さとのどちらを重視するかによる。本実施の形態では縮小を用いることにする。
【０１７２】
なお、一般的な統計解析ツール、たとえば前述のＳｐｌｕｓでは、剪定は「ｐｒｕｎｅ．ｔｒｅｅ」という関数で、縮小は「ｓｈｒｉｎｋ．ｔｒｅｅ」という関数で提供されている。
【０１７３】
以上で、準備処理のためのソフトウェアの制御構造の説明を終わる。
【０１７４】
次に、実際の翻訳を行なうためのソフトウェアの制御構造について説明する。図１１は、翻訳時のソフトウェアの制御構造を示すフローチャートである。図１１を参照して、処理対象となる入力文章中の文の番号を示す変数ｊに１を代入する（２００）。
【０１７５】
原文ｓ_ｊを複数の機械翻訳システムＭＴ１−ＭＴ３の各々に与え、それぞれの翻訳結果を得る（２０２）。一般的に機械翻訳システムは翻訳結果を文字コード列として出力するので、ここではそれら文字コード列が各機械翻訳システムからの出力として得られる。
【０１７６】
原文ｓ_ｊと機械翻訳システムＭＴ１−ＭＴ３による翻訳結果ｔ_１ｊ、ｔ_２ｊ、ｔ_３ｊのそれぞれとの組（ｓ_ｊ，ｔ_１ｊ）、（ｓ_ｊ，ｔ_２ｊ）、（ｓ_ｊ，ｔ_３ｊ）に、複数の採点関数Ｇ_１，…，Ｇ_３を用いて点数Ｇ_ｉ（ｓ_ｊ，ｔ_ｋｊ）（ｉ＝１，…，３，ｋ＝１，…，３）を付ける（２０４）。この処理は、各関数に引数として上記した各組を与えることで行なわれる。
【０１７７】
こうして原文ｓ_ｊと翻訳結果ｔ_１ｊ、ｔ_２ｊ、ｔ_３ｊのそれぞれとの組（ｓ_ｊ，ｔ_１ｊ）、（ｓ_ｊ，ｔ_２ｊ）、（ｓ_ｊ，ｔ_３ｊ）の各々について、得られた点数の並びを対応する回帰木に与える。これにより、それらの翻訳結果に対する人間評価の推定値ＲＴ_１（ｔ_１ｊ）、ＲＴ_２（ｔ_２ｊ）、ＲＴ_２（ｔ_３ｊ）が得られる（２０６）。
【０１７８】
得られたＲＴ_１，ＲＴ_２，ＲＴ_３のうち、最大値を与える回帰木が一つだけか否かを調べる（２０８）。最大値を与える回帰木が一つのみの場合、その最大値を与えた回帰木に対応する機械翻訳システムの翻訳結果を採用する（２１０）。最大値を与える回帰木が複数個ある場合、最大値を与える回帰木のうちで、予め指定された順序にしたがって最も優位にある機械翻訳システムの翻訳結果を採用する（２１２）。この点は第１の実施の形態の場合と同様である。
【０１７９】
この後、全文の翻訳が終了したか否かを判定する（２１４）。全文の翻訳が終了した場合、処理を終了し、さもなければ次の文を処理対象とするために変数ｊに１を加算して、再び制御はステップ２０２に戻る。
【０１８０】
以上が翻訳フェーズを実現するプログラムの制御構造である。
【０１８１】
―動作―
この機械翻訳装置は以下のように動作する。事前準備フェーズについてはここでは特に説明せず、個別の準備フェーズからその動作について説明する。図９を参照して、ユーザが対訳コーパスを準備すると（１７０）、このコーパスを用いて、複数通りの採点関数Ｇ_ｉの学習を行なう（１７２）。本実施の形態ではＴＭ，ＬＭおよびＴＭ＊ＬＭスコアを用いた採点を行なう（Ｇ_１，Ｇ_２，Ｇ_３）。
【０１８２】
訓練事例の入力文ｓ_ｊに対し三つの機械翻訳システムＭＴ_１−ＭＴ_３を用いて翻訳を行なう。さらに、それらの翻訳結果ｔ_ｋｊ（ｋ＝１，…，３）の各々に対して、ステップ１７２で準備された関数Ｇ_１，Ｇ_２，Ｇ_３を用いてそれぞれ評価を行なう（１７４）。この結果、点数Ｇ_ｉ（ｓ_ｊ，ｔ_ｋｊ）（ｉ＝１，２，３，ｋ＝１，２，３，ｊ＝１，…，Ｎ）が得られる。
【０１８３】
入力文ｓ_ｊに対して、ベクトルＶ_ｋｊ＝（Ｇ_１（ｓ_ｊ，ｔ_ｋｊ）、Ｇ_２（ｓ_ｊ、ｔ_ｋｊ）、Ｇ_３（ｓ_ｊ，ｔ_ｋｊ）、Ｒ_ｋｊ）を求める。ここでｋは機械翻訳システムの番号を、ｊは入力文の番号を、それぞれ表わす（１７６）。またＲ_ｋｊはｊ番目の訓練事例の入力文に対するｋ番目の機械翻訳システムの翻訳結果が、他の機械翻訳システムのｊ番目の訓練事例の入力文に対する翻訳結果より悪くないと人間により評価されたか否かを示す変数である。この値は事前準備フェーズにおいて準備されている。Ｒ_ｋｊは、ｋ番目の機械翻訳システムの翻訳結果が他の機械翻訳システムの翻訳結果より悪くないと人間により評価された場合には１を、それ以外の場合には０をとる。
【０１８４】
続いて、このベクトルＶ_ｋｊを用い、ベクトル中の採点関数による点数の並びを説明変数、Ｒ_ｋｊを従属変数（予測変数）として回帰木を学習する（１７８）。この学習は、各機械翻訳システムごとに行なわれる。
【０１８５】
回帰木の学習においては、統計解析ツールを用いていったん回帰木の全体を作成したのち（図１０のステップ１９０）、縮小を行なって（１９２）回帰の過学習を解消する。
【０１８６】
以上の処理を行なうことにより、入力文と、その翻訳結果との組に対し、採点関数Ｇ_１，Ｇ_２，Ｇ_３を求めてその値からその翻訳結果に対する人間評価を推定するための回帰木が得られる。この回帰木は使用される機械翻訳システムごとに得られる。またこの回帰木では、訓練事例に含まれる例文だけでなく、一般的な文についても人間評価を推定できることに注意が必要である。
【０１８７】
以上で準備は終了である。次に、実際の翻訳時の動作を説明する。
【０１８８】
最初に翻訳対象の原文番号を表わす変数ｊに１を代入する（図１１の２００）。原文ｓ_１を各機械翻訳システムＭＴ_１−ＭＴ_３に入力し、それぞれについて翻訳結果を得る（２０２）。
【０１８９】
原文ｓ_１と機械翻訳システムＭＴ_１−ＭＴ_３によるその翻訳結果ｔ_１１、ｔ_２１、ｔ_３１とのそれぞれからなる組に対し、採点関数Ｇ_１，Ｇ_２，Ｇ_３を用いて点数Ｇ_１（ｓ_１，ｔ_ｋ１）、Ｇ_２（ｓ_１，ｔ_ｋ１）、Ｇ_３（ｓ_１，ｔ_ｋ１）を計算する（２０４）。
【０１９０】
各機械翻訳システムＭＴ_１−ＭＴ_３ごとに、その翻訳結果に対して得られた点数Ｇ_１（ｓ_１，ｔ_ｋ１）、Ｇ_２（ｓ_１，ｔ_ｋ１）、Ｇ_３（ｓ_１，ｔ_ｋ１）をその機械翻訳システムに対応する回帰木に与える。回帰木からはその翻訳結果ｔ_ｋ１に対する人間評価の推定値ＲＴ_ｋ（ｔ_ｋ１）（ｋ＝１，…，３）が得られる（２０６）。
【０１９１】
このＲＴ_１（ｔ_１１）、ＲＴ_２（ｔ_２１）、ＲＴ_２（ｔ_３１）のうち、最大値を与えるものが一つか否かを調べ（２０８）、一つである場合にはその値を与えた回帰木に対応する機械翻訳システムの出力を選択する。最大値を与えるものが一つでない場合、予め機械翻訳システムに割当てられていた順位付けにしたがい、優位なものを選びその翻訳結果を選択する。
【０１９２】
以上の処理により、入力される文章中の一番めの文に対する最良訳が出力されたことになる。
【０１９３】
続いて、全文の翻訳が終了したか否かを判定する（２１４）。もし終了していれば、翻訳フェーズ全体も終了である。もし終了していなければ、ステップ２１６で変数ｊ（＝１）に１を加算し、ステップ２０２から処理を繰返す。今度は２番目の入力文ｓ_２に対する処理が以上と同様に繰返される。
【０１９４】
こうして入力文章中の各文について、上記した処理が繰返され、最終的に全ての入力文について一文ごとの処理が完了すると、全体の翻訳処理も終了する。
【発明の実施例】
上に述べた第１の実施の形態および第２の実施の形態のシステムの性能がどの程度のものかを確認するために、以下のような実験を行なった。その際、成分として使用される機械翻訳システムの個々の性能と比較して、最良訳選択型の機械翻訳システムの性能の向上がどの程度になるのか、および使用される採点関数によって性能の向上の程度がどのように異なるか、についてを評価した。
【０１９５】
この実施例では、３つの日英翻訳システム（ＴＤＭＴ，Ｄ３およびＳＭＴ）を構成要素とする最良訳選択型の日英翻訳システムと、３つの英日翻訳システム（ＴＤＭＴ，ＨＰＡＴ，ＳＭＴ）を構成要素とする最良訳選択型の英日翻訳システムとを用いて第１の実施の形態のシステムと、第２の実施の形態のシステムとを作成し、その結果を調べた。
【０１９６】
英語および日本語の対訳コーパスとして、参考文献（２）によるものを用いた。このコーパスは、１２５，５３７の文ペアからなる学習セットと、９，８７２の文ペアからなる検定セットと、１０，０２３の文ペアからなるテストセットとの３部分からなる。
【０１９７】
翻訳ターゲットの言語モデル（ＬＭ）と翻訳モデル（ＴＭ）を学習させる際のコーパスＣとして、上述の学習セットを用いた。すなわち、第２の実施の形態にしたがった実施例ではこのコーパスＣを用いて学習を行なった。第１の実施の形態にしたがった実施例では、コーパスＣ全体をほぼ１０等分して部分集合Ｖｉ（ｉ＝１，．．．，１０）とし、１０個のサブセットＣｉ＝Ｃ−Ｖｉ（ｉ＝１，…，１０）を用いて学習を行なった。
【０１９８】
翻訳モデルと言語モデルとは、それぞれＧＩＺＡ＋＋（参考文献（７）による。）、およびＣＭＵ―Ｃａｍｂｒｉｄｇｅツールキット（参考文献（８）による。）を用いて学習を行なった。翻訳モデルの学習では参考文献（７）により示唆されたＨＭＭ（隠れマルコフモデル）を含むＩＢＭ１―４を用いた。学習の繰返しは、検定セットに対するパープレクシティ（ｐｅｒｐｌｅｘｉｔｙ）のスコアが最も低くなった時点で終了させた。翻訳モデルの学習で使用した単語クラスはＴＤＭＴの品詞（Ｐａｒｔ−ｏｆ−ｓｐｅｅｃｈ，ＰＯＳ）クラスであった。多重比較において使用したＰ値は０．０５である。
【０１９９】
各々、英語文と日本語文との５００対からなる４つのセットをテスト用セットからランダムに選択した。これら４つのセットのうち、英語の文を英日の最良訳選択型の機械翻訳システムの構成要素となっている機械翻訳システムにより日本語に翻訳させた。さらにそれら翻訳結果を英語が堪能な日本語のネイティブスピーカによってランク付けした。同様に日本語文を日英の最良訳選択型の機械翻訳システムの構成要素となっている機械翻訳システムにより英語に翻訳させた。さらにそれら翻訳結果を日本語が堪能な英語のネイティブスピーカによってランク付けした。
【０２００】
これら４つのセットの各々について性能評価したのち、それら４つのセットの性能評価の平均をとって最終的な性能評価とした。特に、第２の実施の形態にかかるシステムの性能については、４重クロス検定にしたがって評価した（参考文献（９））。
【０２０１】
最良訳選択型の機械翻訳システムの性能評価は、その構成要素となっている機械翻訳システムの中で最も性能の高いものとの比較により行なった。図１５に示すとおり、日英翻訳システムの中ではランクＡについてはＤ３が、ランクＡ＋ＢおよびランクＡ＋Ｂ＋ＣについてはＴＤＭＴが、それぞれ最も高い性能を示している。また図１６に示すとおり、英日翻訳システムの中ではランクＡ、ランクＡ＋ＢおよびランクＡ＋Ｂ＋ＣのすべてにおいてＴＤＭＴが最も高い性能を示している。
【０２０２】
図１２、図１３、および図１４に結果を示す。図１２は、日英翻訳においてＤ３を基準として実施例の性能を示す。図１３は、日英翻訳においてＴＤＭＴを基準として実施例の性能を示す。さらに図１４は、英日翻訳においてＴＤＭＴを基準として実施例の性能を示す。
【０２０３】
これら図の全てにおいて、「Ａ」「Ａ＋Ｂ」および「Ａ＋Ｂ＋Ｃ」とラベル付けされた棒グラフ群は、翻訳結果のうちでランクＡ、ランクＡまたはＢ，ランクＡ，ＢまたはＣとなったものの比率を、それぞれ上記した最も高い性能を示したものとの差で示している。
【０２０４】
各棒グラフ群を構成する各棒グラフは、３本ずつ、４つの組に分けられる。最初の組は、先に述べた予備的実験の結果を示し、左から右に向かってＴＭ＊ＬＭスコア、ＴＭスコア、およびＬＭスコアを用いて最良訳を選択した結果を示す。２番目の組は第１の実施の形態にしたがったシステムの結果を示し、左から右に向かってＴＭ＊ＬＭスコア、ＴＭスコア、およびＬＭスコアを用いて最良訳を選択した結果を示す。３番目の組は第２の実施の形態にしたがったシステムの結果を示し、左から右に向かって、予測変数をＴＭ＊ＬＭスコアに限定した場合、ＴＭ＊ＬＭスコアとＴＭスコアとの双方に限定した場合、およびＴＭ＊ＬＭスコア、ＴＭスコアおよびＬＭスコアの全てを使用した場合について、それぞれ独立変数に何ら限定を付さずに、対応の回帰木を用いて最良訳を選択した結果を示す。ここでは、回帰木を縮小によって単純化することにより回帰木の過学習を補正している。最後の組は、同じく第２の実施の形態に従ったものを示すが、回帰木の単純化に剪定を用いた場合の結果を示す。
【０２０５】
なお、図１２，図１３および図１４において「Ａｃｃｕｒａｃｙ」とは、すべての試行において最も高いランクが与えられた翻訳結果を正しく選択することができた比率を示す。
【０２０６】
図１２によれば、ＴＭ＊ＬＭスコアを使用した第１の実施の形態のシステム（２２２）が、最もよい改善結果２２０を示している。その差はランクＡについては約６パーセントである。一方、単にＬＭ（翻訳ターゲット言語の言語モデル）スコアを用いた従前のシステムでは性能は改善されておらず、ランクＡに関してはむしろ性能は低下していることが分かる。
【０２０７】
図１３によれば、ランクＡ＋Ｂにおいて、ＴＭ＊ＬＭスコアとＴＭスコアとを併用した、第２の実施の形態にしたがい、かつ回帰木の単純化に剪定を用いたシステム（２３２）が最もよい改善結果２３０を示している。その差は約５パーセントである。一方、単にＬＭスコアを用いた従前のシステムではランクＡ＋Ｂに対する性能は最も悪く、その低下は約６パーセントとなっている。
【０２０８】
図１４によれば、ランクＡに対して、第２の実施の形態のシステム（２５０）がいずれも約２パーセントの性能の改善を示している（２４０）ことがわかる。これは回帰木の単純化に剪定と縮小とのいずれを用いても同様である。また使用したスコアの種類にもあまり左右されていない。さらにまた、ランクＡ＋Ｂについては、第２の実施の形態のシステムで、回帰木の単純化に剪定を用い、かつ採点にすべての採点を用いたもの（２５２）が２パーセントをやや上回る改善を示している（２４２）ことが分かる。
【０２０９】
以上から、第１の実施の形態および第２の実施の形態のいずれも、翻訳精度を高める効果があることがわかる。特に第１の実施の形態にしたがった場合、ランクＡの翻訳結果を効果的に高めることができる。また第２の実施の形態にしたがった場合には、すべてのランクで安定した翻訳精度の向上を実現することができる。特に、従前のシステムでは翻訳精度の向上が見られないような局面でも翻訳精度を効果的に高めることができる。
【０２１０】
［参考文献］
（１）　Ｏｓａｍｕ　Ｆｕｒｕｓｅ　ａｎｄ　Ｈｉｔｏｓｈｉ　Ｉｉｄａ．　１９９６．　Ｉｎｃｒｅｍｅｎｔａｌ　ｔｒａｎｓｌａｔｉｏｎ　ｕｔｉｌｉｚｉｎｇ　ｃｏｎｓｔｉｔｕｅｎｔ　ｂｏｕｎｄａｒｙ　ｐａｔｔｅｒｎｓ．　Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ１６ｔｈ　Ｉｎｔｅｒｎａｔｉｏｎａｌ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ：　ＣＯＬＩＮＧ−９６，ｐｐ．　４１２−４１７．
（２）　Ｅｉｉｃｈｉｒｏ　Ｓｕｍｉｔａ．　２００１．　Ｅｘａｍｐｌｅ−ｂａｓｅｄ　ｍａｃｈｉｎｅ　ｔｒａｎｓｌａｔｉｏｎｕｓｉｎｇ　ＤＢ−ｍａｔｃｈｉｎｇ　ｂｅｔｗｅｅｎ　ｗｏｒｋ　ｓｅｑｕｅｎｃｅｓ．　Ｉｎ　ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　ＡＣＬ　２００１　Ｗｏｒｋｓｈｏｐ　ｏｎ　Ｄａｔａ−Ｄｒｉｖｅｎ　Ｍｅｔｈｏｄｓ　ｉｎ　Ｍａｃｈｉｎｅ　Ｔｒａｎｓｌａｔｉｏｎ：　ＤＤＭＴ−２００１，ｐｐ．　１−８．
（３）　Ｔａｒｏ　Ｗａｔａｎａｂｅ，Ｋｅｎｊｉ　Ｉｍａｍｕｒａ，ａｎｄ　Ｅｉｉｃｈｉｒｏ　Ｓｕｍｉｔａ．　２００２．Ｓｔａｔｉｓｔｉｃａｌ　ｍａｃｈｉｎｅ　ｔｒａｎｓｌａｔｉｏｎ　ｓｙｓｔｅｍ　ｂａｓｅｄ　ｏｎ　ｈｉｅｒａｒｃｈｉｃａｌ　ｐｈｒａｓｅ　ａｌｉｇｎｍｅｎｔ．　Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　９ｔｈ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｔｈｅｏｒｅｔｉｃａｌ　ａｎｄ　Ｍｅｔｈｏｄｏｌｏｇｉｃａｌ　Ｉｓｓｕｅｓ　ｉｎ　Ｍａｃｈｉｎｅ　Ｔｒａｎｓｌａｔｉｏｎ，ｐｐ．　１８８−１９８．
（４）　Ｋｅｎｊｉ　Ｉｍａｍｕｒａ．　２００２．　Ａｐｐｌｉｃａｔｉｏｎ　ｏｆ　ｔｒａｎｓｌａｔｉｏｎ　ｋｎｏｗｌｅｄｇｅ　ａｃｑｕｉｒｅｄ　ｂｙ　ｈｉｅｒａｒｃｈｉｃａｌ　ｐｈｒａｓｅ　ａｌｉｇｎｍｅｎｔ　ｆｏｒ　ｐａｔｔｅｒｎ−ｂａｓｅｄ　ＭＴ．　Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ｔｈｅ　９ｔｈ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｔｈｅｏｒｅｔｉｃａｌ　ａｎｄ　Ｍｅｔｈｏｄｏｌｏｇｉｃａｌ　Ｉｓｓｕｅｓ　ｉｎ　Ｍａｃｈｉｎｅ　Ｔｒａｎｓｌａｔｉｏｎ，ｐｐ．　７４−８４．
（５）　Ｃｈｒｉｓ　Ｃａｌｌｉｓｏｎ−Ｂｕｒｃｈ　ａｎｄ　Ｒａｙｍｏｎｄ　Ｓ．　Ｆｌｏｕｒｎｏｙ．　２００１．　Ａ　ｐｒｏｇｒａｍ　ｆｏｒ　ａｕｔｏｍａｔｉｃａｌｌｙ　ｓｅｌｅｃｔｉｎｇ　ｔｈｅ　ｂｅｓｔ　ｏｕｔｐｕｔ　ｆｒｏｍ　ｍｕｌｔｉｐｌｅ　ｍａｃｈｉｎｅ　ｔｒａｎｓｌａｔｉｏｎ　ｅｎｇｉｎｅｓ．　Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　ＭＴ　ｓｕｍｍｉｔ　ＶＩＩＩ，ｐｐ．　６３−６６．
（６）　Ｐｅｔｅｒ　Ｆ．　Ｂｒｏｗｎ，Ｓｔｅｐｈｅｎ　Ｄｅｌｌａ　Ｐｉｅｔｒａ，Ｖｉｎｃｅｎｔ　Ｊ．　Ｄｅｌｌａ　Ｐｉｅｔｒａ，ａｎｄ　Ｒｏｂｅｒｔ　Ｌ．　Ｍｅｒｃｅｒ．　１９９３．　Ｔｈｅ　ｍａｔｈｅｍａｔｉｃｓ　ｏｆ　ｓｔａｔｉｓｔｉｃａｌ　ｍａｃｈｉｎｅ　ｔｒａｎｓｌａｔｉｏｎ：　Ｐａｒａｍｅｔｅｒ　ｅｓｔｉｍａｔｉｏｎ．　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，１９（２）：　２６３−３１１．
（７）　Ｆｒａｎｚ　Ｊｏｓｅｆ　Ｏｃｈ　ａｎｄ　Ｈｅｒｍａｎｎ　Ｎｅｙ．　２０００．　Ｉｍｐｒｏｖｅｄ　ｓｔａｔｉｓｔｉｃａｌ　ａｌｉｇｎｍｅｎｔ　ｍｏｄｅｌｓ．　Ｉｎ　ｐｒｏｃ．　ｏｆ　ｔｈｅ　３８ｔｈ　Ａｎｎｕａｌ　Ｍｅｅｔｉｎｇ　ｏｆｔｈｅ　Ａｓｓｏｃｉａｔｉｏｎ　ｆｏｒ　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ：　ＡＣＬ００，ｐｐ．　４４０−４４７，Ｈｏｎｇ　Ｋｏｎｇ，Ｃｈｉｎａ．
（８）　Ｐｈｉｌｉｐ　Ｃｌａｒｋｓｏｎ　ａｎｄ　Ｒｏｎａｌｄ　Ｒｏｓｅｎｆｅｌｄ．　１９９７．　Ｓｔａｔｉｓｔｉｃａｌｌａｎｇｕａｇｅ　ｍｏｄｅｌｉｎｇ　ｕｓｉｎｇ　ｔｈｅ　ＣＭＵ−Ｃａｍｂｒｉｄｇｅ　ｔｏｏｌｋｉｔ．　Ｉｎ　Ｐｒｏｃｅｅｄｉｎｇｓ　ｏｆ　Ｅｕｒｏｐｅａｎ　Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｓｐｅｅｃｈ　Ｃｏｍｍｕｎｉｃａｔｉｏｎ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ：　ＥＵＲＯＳＰＥＥＣＨ−９７，ｐｐ．　２７０７−２７１０，Ｒｈｏｄｅｓ，Ｇｒｅｅｃｅ．
（９）　Ｔｏｍ　Ｍ．　Ｍｉｔｃｈｅｌｌ．　１９９７．　Ｍａｃｈｉｎｅ　Ｌｅａｒｎｉｎｇ．　Ｔｈｅ　ＭｃＧｒａｗ−Ｈｉｌｌ　Ｃｏｍｐａｎｉｅｓ　Ｉｎｃ．，Ｎｅｗ　Ｙｏｒｋ，Ｕ．Ｓ．Ａ．
【発明の効果】
以上のように本発明によれば、複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより翻訳結果ごとにスコア群を算出し、スコア群の中で他のスコア群と統計的に有意な差を持つものがあれば、それに対応する翻訳結果を選択する。こうすることによって、より的確に最良訳を選択することが可能となる。また、翻訳モデルを用いたスコアでは翻訳結果だけでなく原文をも考慮した採点が行なわれるので、情報の欠落がある翻訳を誤って選択してしまうおそれは少なく、言語モデルのみを利用する場合と比較してより適切な翻訳結果を選択できる。
【０２１１】
スコア群に対して相互に多重検定を行なうことによって、スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するようにすると、計算量を抑えながら複数のスコア群に対して適切な信頼度を保って検定を行なうことができ、的確な選択を行なうことができる。
【０２１２】
多重検定としてノンパラメトリック検定を用いることにより、スコアに何らかの分布を仮定できない場合でも適切な検定を行なうことができる。
【０２１３】
多重検定としてパラメトリック検定を用いることにより、スコアに正規分布を仮定できる場合には適切な検定を行なうことができる。
【０２１４】
各スコア群の平均順位を用いてパラメトリックな多重検定を行なうと、翻訳結果が３個以上の場合でも、比較的少ない計算量で適切な選択を行なうことができる。
【０２１５】
機械翻訳システムに予め優先順位を割当てておき、他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するようにできる。これにより、有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【０２１６】
各スコア群の平均値を用いてパラメトリックな多重検定を行なうと、スコアに正規分布が仮定できる場合に、適切な選択を行なうことができる。
【０２１７】
機械翻訳システムに予め優先順位を割当てておき、他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するようにできる。この場合、有意な差を持つものがない場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【０２１８】
翻訳結果が２個である場合に、多重検定ではなく一対比較を行なうことで適切な選択を行なうことができる。
【０２１９】
複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法によれば、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データが生成される。翻訳結果の選択にこのような回帰木を用いるという技術は従来は存在していなかった。回帰木を用いることで、目標となる採点基準に近い形で各翻訳の評点を推定することができる。
【０２２０】
回帰木は、通常の形式で作成すると過学習となり、一般的なデータについては的確な推定が必ずしもできるとは限らない。そこで剪定または縮小を行なうことによって、一般的なデータについても一定の精度で推定ができるようになる。
【０２２１】
予め訓練事例の原文を複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、これを評点としてもよい。この場合、人間の評価に基づいて翻訳結果の評点が得られ、かつその値が２値的に得られる。したがって人間の評価に近い選択が可能で、かつコンピュータ上での処理が容易に行なえる。
【０２２２】
一般に、翻訳結果に対する評点が分布にしたがうものとは限らない。そうした場合、分布を想定することのない回帰木データを用いて評点を推定することにより、より適切な訳を選択することができる。
【０２２３】
機械翻訳システムに予め優先順位を割当てておき、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択することもできる。これにより、最高の推定値を与える回帰木が複数個ある場合でも、予め割当てられた優先順位によって、適切な翻訳結果を選択できる。
【図面の簡単な説明】
【図１】本発明の一実施の形態の装置を実現するコンピュータシステムの外観を示す図である。
【図２】図１に示すコンピュータシステムのブロック図である。
【図３】本発明の第１の実施の形態の装置の選択部を実現するプログラムの機能的構成をブロック図形式で示す図である。
【図４】第１の実施の形態にかかるシステムの準備フェーズを実現するプログラムのフローチャートである。
【図５】第１の実施の形態にかかるシステムの翻訳フェーズを実現するプログラムのフローチャートである。
【図６】本発明の第２の実施の形態の装置の回帰木の学習部を実現するプログラムの機能的構成をブロック図形式で示す図である。
【図７】本発明の第２の実施の形態の装置の翻訳フェーズを実現するプログラムの機能的構成をブロック図形式で示す図である。
【図８】第２の実施の形態にかかるシステムの事前準備フェーズを実現するプログラムのフローチャートである。
【図９】第２の実施の形態にかかるシステムの準備フェーズを実現するプログラムのフローチャートである。
【図１０】第２の実施の形態にかかるシステムの準備フェーズのうち、回帰木の学習処理を実現するプログラムのフローチャートである。
【図１１】第２の実施の形態にかかるシステムの翻訳フェーズを実現するプログラムのフローチャートである。
【図１２】本発明の実施例の効果を示すためのグラフである。
【図１３】本発明の実施例の効果を示すためのグラフである。
【図１４】本発明の実施例の効果を示すためのグラフである。
【図１５】日英翻訳における理想的な選択システムの効果を説明するためのグラフである。
【図１６】英日翻訳における理想的な選択システムの効果を説明するためのグラフである。
【図１７】従来の翻訳システムの機能的構成を示すブロック図である。
【図１８】従来の翻訳システムの準備フェースの手順を示すフローチャートである。
【図１９】従来の翻訳システムの評価フェーズの手順を示すフローチャートである。
【符号の説明】
２０　コンピュータシステム、５８　ＲＯＭ、６０　ＲＡＭ、６２　ＣＤ−ＲＯＭ、７０，１１０　選択部、７４Ａ−７４Ｃ，１２２Ａ−１２２Ｃ，１４２Ａ−１４２Ｃ　採点部、７６Ａ−７６Ｃ　平均計算部、７８　比較・選択部、１１０　回帰木作成部、１２４Ａ−１２４Ｃ　ベクトル化部、１２０Ａ−１２０Ｃ　個別回帰木作成部、１２６Ａ−１２６Ｃ　回帰木学習部、１４０Ａ−１４０Ｃ　個別評価推定部、１４４Ａ−１４４Ｃ　評価推定部、１４６　評価比較部

Claims

コンピュータ上で処理可能な形式の原文と、当該原文に対する、コンピュータ上で処理可能な形式の複数個の翻訳結果とに基づいて、前記複数個の翻訳結果の中から最良訳を選択するようコンピュータを動作させる方法であって、
前記複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより前記翻訳結果ごとにスコア群を算出するよう前記コンピュータを動作させるステップと、
前記スコア群に対する統計的検定を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させる判定ステップと、
前記判定するステップでの結果にしたがって、前記複数個の翻訳結果のうちから最良のものを選択するよう、前記コンピュータを動作させる選択ステップとを含む、複数個の翻訳結果から最良訳を選択する方法。
前記複数個の翻訳結果は３個以上の翻訳結果を含み、
前記判定ステップは、前記スコア群に対して相互に多重検定を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させるステップを含む、請求項１に記載の複数個の翻訳結果から最良訳を選択する方法。
前記多重検定はノンパラメトリック検定である、請求項２に記載の複数個の翻訳結果から最良訳を選択する方法。
前記多重検定はパラメトリック検定である、請求項２に記載の複数個の翻訳結果から最良訳を選択する方法。
前記複数個の翻訳結果は３個以上の翻訳結果を含み、
前記判定ステップは、
前記スコア群に含まれる各スコアの、全スコア群中における順位を算出するよう前記コンピュータを動作させるステップと、
前記スコア群の各々に含まれる全スコアの平均順位を前記スコア群ごとに算出するよう前記コンピュータを動作させるステップと、
前記スコア群ごとに算出される平均順位の間で多重検定を行なうことにより、前記平均順位の中で他のスコア群の平均順位と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させるステップとを含み、
前記選択ステップは、前記他のスコア群の平均順位と有意な差を持つと判定された平均順位を持つスコア群に対応する翻訳結果を最良訳として選択するよう前記コンピュータを動作させるステップを含む、請求項１に記載の複数個の翻訳結果から最良訳を選択する方法。
前記翻訳結果は、３個以上の機械翻訳システムの翻訳結果であり、かつ前記３個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
前記選択ステップはさらに、前記他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するように前記コンピュータを動作させるステップを含む、請求項５に記載の複数個の翻訳結果から最良訳を選択する方法。
前記複数個の翻訳結果は３個以上の翻訳結果を含み、
前記判定ステップは、
前記スコア群ごとにスコアの平均値を算出するよう前記コンピュータを動作させるステップと、
前記スコア群ごとに算出される平均値の間で多重検定を行なうことにより、前記平均値の中で他のスコア群の平均値と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させるステップとを含み、
前記選択ステップは、前記他のスコア群の平均値と有意な差を持つと判定された平均値を持つスコア群に対応する翻訳結果を最良訳として選択するよう前記コンピュータを動作させるステップを含む、請求項１に記載の複数個の翻訳結果から最良訳を選択する方法。
前記翻訳結果は、３個以上の機械翻訳システムの翻訳結果であり、かつ前記３個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
前記選択ステップはさらに、前記他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するように前記コンピュータを動作させるステップを含む、請求項７に記載の複数個の翻訳結果から最良訳を選択する方法。
前記複数個の翻訳結果は２個の翻訳結果を含み、
前記判定ステップは、前記スコア群の間の一対比較を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するよう前記コンピュータを動作させるステップを含む、請求項１に記載の複数個の翻訳結果から最良訳を選択する方法。
複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成するようにコンピュータを動作させるための方法であって、
予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するステップと、
予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するよう前記コンピュータを動作させるステップと、
前記訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して前記複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するよう前記コンピュータを動作させるステップと、
各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての前記評点とを成分とする学習用ベクトルを算出するよう前記コンピュータを動作させるステップと、
各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木を学習するようコンピュータを動作させる学習ステップと、
得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するよう前記コンピュータを動作させるステップとを含む、複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法。
前記学習ステップは、
各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するようコンピュータを動作させるステップと、
学習された回帰木を予め定められた程度だけ剪定または縮小させるようコンピュータを動作させるステップとを含む、請求項１０に記載の複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法。
予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各前記翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、前記評点とするステップをさらに含む、請求項１０または請求項１１に記載の複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する方法。
複数個の回帰木データを用いて複数個の機械翻訳システムの翻訳結果のうちの最良訳を選択するようにコンピュータを動作させるための方法であって、
前記複数個の回帰木データの各々は、対応の機械翻訳システムの翻訳結果の各々に対して予め定められた複数個の採点関数を適用した結果得られるスコア群を説明変数として与えられると、目標となる採点基準にしたがって推定される評点の推定値を出力するように利用可能であり、
前記回帰木データをコンピュータ読取可能な形式で準備するステップと、
入力される文に対する前記複数個の機械翻訳システムの翻訳結果の各々に対して、前記複数個の採点関数を用いてスコア群を算出するよう前記コンピュータを動作させるステップと、
前記スコア群を説明変数として前記複数個の回帰木データに適用することにより、各前記複数個の回帰木データからそれぞれ前記評点の推定値を得るように前記コンピュータを動作させるステップと、
前記評点の推定値のうち、最も高い評点の推定値に対応する回帰木に関連付けられた機械翻訳システムの翻訳結果を選択して出力するように前記コンピュータを動作させるステップとを含む、複数個の翻訳結果から最良訳を選択する方法。
前記複数個の回帰木データは、請求項１０〜請求項１２のいずれかに記載の方法によって準備されたものである、請求項１３に記載の最良訳を選択するようにコンピュータを動作させるための方法。
前記複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
前記評点の推定値のうち、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択するステップをさらに含む、請求項１３または請求項１４に記載の最良訳を選択するようにコンピュータを動作させるための方法。
コンピュータ上で処理可能な形式の原文と、当該原文に対する、コンピュータ上で処理可能な形式の複数個の翻訳結果とに基づいて、前記複数個の翻訳結果の中から最良訳を選択する最良訳選択型の機械翻訳システムとしてコンピュータを動作させるプログラムであって、
前記最良訳選択型の機械翻訳システムは、
前記複数個の翻訳結果の各々に対して、翻訳モデル、言語モデル、またはその双方を用いた予め準備された複数個の採点関数を適用することにより前記翻訳結果ごとにスコア群を算出するための手段と、
前記スコア群に対する統計的検定を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための判定手段と、
前記判定手段での結果にしたがって、前記複数個の翻訳結果のうちから最良のものを選択するための選択手段とを含む、最良訳選択型の機械翻訳プログラム。
前記複数個の翻訳結果は３個以上の翻訳結果を含み、
前記判定手段は、前記スコア群に対して相互に多重検定を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための手段を含む、請求項１６に記載のプログラム。
前記多重検定はノンパラメトリック検定である、請求項１７に記載のプログラム。
前記多重検定はパラメトリック検定である、請求項１７に記載のプログラム。
前記複数個の翻訳結果は３個以上の翻訳結果を含み、
前記判定手段は、
前記スコア群に含まれる各スコアの、全スコア群中における順位を算出するための手段と、
前記スコア群の各々に含まれるスコアの平均順位を前記スコア群ごとに算出するための手段と、
前記スコア群ごとに算出される平均順位の間で多重検定を行なうことにより、前記平均順位の中で他のスコア群の平均順位と有意な差を持つものがあるか否かを判定するための手段とを含み、
前記選択手段は、前記他のスコア群の平均順位と有意な差を持つと判定された平均順位を持つスコア群に対応する翻訳結果を最良訳として選択するための手段を含む、請求項１６に記載のプログラム。
前記翻訳結果は、３個以上の機械翻訳システムの翻訳結果であり、かつ前記複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
前記選択手段はさらに、前記他のスコア群の平均順位と有意な差を持つと判定された平均順位が存在しない場合に、最高の平均順位と有意な差を持たない範囲の平均順位を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するための手段を含む、請求項２０に記載のプログラム。
前記複数個の翻訳結果は３個以上の翻訳結果を含み、
前記判定手段は、
前記スコア群ごとにスコアの平均値を算出するための手段と、
前記スコア群ごとに算出される平均値の間で多重検定を行なうことにより、前記平均値の中で他のスコア群の平均値と有意な差を持つものがあるか否かを判定するための手段とを含み、
前記選択手段は、前記他のスコア群の平均値と有意な差を持つと判定された平均値を持つスコア群に対応する翻訳結果を最良訳として選択するための手段を含む、請求項１６に記載のプログラム。
前記翻訳結果は、３個以上の機械翻訳システムの翻訳結果であり、かつ前記３個以上の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
前記選択手段はさらに、前記他のスコア群の平均値と有意な差を持つと判定された平均値が存在しない場合に、最高の平均値と有意な差を持たない範囲の平均値を示した翻訳結果を出力した機械翻訳システムのうちで最も高い優先順位を有しているものを選択するための手段を含む、請求項２２に記載のプログラム。
前記複数個の翻訳結果は２個の翻訳結果を含み、
前記判定手段は、前記スコア群の間の一対比較を行なうことによって、前記スコア群の中で他のスコア群と有意な差を持つものがあるか否かを判定するための手段を含む、請求項１６に記載の複数個の翻訳結果から最良訳を選択する方法。
複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを生成する回帰木生成装置としてコンピュータを動作させるための、コンピュータ読取可能なプログラムであって、
前記回帰木生成装置は、
予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するための手段と、
予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するための手段と、
前記訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して前記複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するための手段と、
各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての前記評点とを成分とする学習用ベクトルを算出するための手段と、
各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木を学習するための学習手段と、
得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するための手段とを含む、回帰木生成プログラム。
前記学習手段は、
各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するための手段と、
学習された回帰木を予め定められた程度だけ剪定または縮小するための手段とを含む、請求項２５に記載のプログラム。
前記回帰木生成装置は、予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各前記翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、前記評点とするための手段をさらに含む、請求項２５または請求項２６に記載のプログラム。
複数個の回帰木データを用いて複数個の機械翻訳システムの翻訳結果のうちの最良訳を選択する最良訳選択型の機械翻訳システムとしてコンピュータを動作させるための、コンピュータ読取可能なプログラムであって、
前記複数個の回帰木データの各々は、対応の機械翻訳システムの翻訳結果の各々に対して予め定められた複数個の採点関数を適用した結果得られるスコア群を説明変数として与えられると、目標となる採点基準にしたがって推定される評点の推定値を出力するように利用可能であり、
前記最良訳選択型の機械翻訳システムは、
前記回帰木データをコンピュータ読取可能な形式で準備するための手段と、
入力される文に対する前記複数個の機械翻訳システムの翻訳結果の各々に対して、前記複数個の採点関数を用いてスコア群を算出するための手段と、
前記スコア群を説明変数として前記複数個の回帰木データに適用することにより、各前記複数個の回帰木データからそれぞれ前記評点の推定値を得るための手段と、
前記評点の推定値のうち、最も高い評点の推定値に対応する回帰木に関連付けられた機械翻訳システムの翻訳結果を選択して出力するための手段とを含む、最良訳選択型の機械翻訳プログラム。
前記複数個の回帰木データは、請求項２５〜請求項２７のいずれかに記載の方法によって準備されたものである、請求項２８に記載のプログラム。
前記複数個の機械翻訳システムには予め定められた基準にしたがって予め優先順位が割当てられており、
前記最良訳選択型の機械翻訳システムは、
前記評点の推定値のうち、最も高い評点の推定値が複数個あった場合に、それら複数個の評点の推定値を与えた回帰木データに対応する機械翻訳システムのうち、最も高い優先順位を割当てられている機械翻訳システムの出力を最良訳として選択するための手段をさらに含む、請求項２８または請求項２９に記載のプログラム。
複数個の機械翻訳システムの翻訳結果から最良訳を選択するための回帰木データを記憶した記憶媒体であって、
前記回帰木データは、
予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して、目標となる採点基準にしたがって予め定められた評点を、各訓練事例および各機械翻訳システムと関連付けてコンピュータにより処理可能な形式で準備するステップと、
予め準備された対訳コーパスを用い、翻訳モデル、言語モデル、またはその双方を用いた複数個の採点関数を学習するステップと、
前記訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果の各々に対して前記複数個の採点関数を適用することにより、各原文ごとに、かつ各機械翻訳システムごとにスコア群を算出するステップと、
各機械翻訳システムごとに、かつ各原文ごとに、得られたスコア群と、当該機械翻訳システムと当該原文とについての前記評点とを成分とする学習用ベクトルを算出するステップと、
各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木を学習するステップと、
得られた回帰木を、それぞれ対応の機械翻訳システムと関連付けてコンピュータ読取可能な形式のデータとして保存するステップとを含む方法によって作成されたものである、回帰木データを記憶した記憶媒体。
前記学習するステップは、
各機械翻訳システムごとに、前記学習用ベクトルを用い、前記スコア群および前記評点をそれぞれ説明変数および従属変数として回帰木の全体を学習するステップと、
学習された回帰木を予め定められた程度だけ剪定または縮小するステップとを含む、請求項３１に記載の記憶媒体。
前記方法は、予め訓練事例の原文を前記複数個の機械翻訳システムに翻訳させた翻訳結果に対して人間が与えたランクに基づき、各前記翻訳結果が他の翻訳結果より悪くないか否かを示す値を算出し、前記評点とするステップをさらに含む、請求項３１または請求項３２に記載の記憶媒体。