JP5207016B2

JP5207016B2 - 機械翻訳評価装置及び方法

Info

Publication number: JP5207016B2
Application number: JP2006066836A
Authority: JP
Inventors: 清貴内元; 均井佐原
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2006-03-13
Filing date: 2006-03-13
Publication date: 2013-06-12
Anticipated expiration: 2026-03-13
Also published as: JP2007241910A

Description

本発明はコンピュータを用いて機械翻訳結果を自動的に評価する装置及び方法に係り、より詳しくは評価事項としての部分目標への適合の有無により評価を行う機械翻訳評価装置及び方法に関する。

機械翻訳技術において、機械翻訳の品質評価は重要な課題であると認識されてきた。近年、その品質評価を自動化しその性能を向上させようという試みが数多くなされている。(非特許文献１ないし５参照）。
自動評価の性能が向上することにより、機械翻訳システムの利用や改良が効率良くできるようになることが期待されるからである。例えば、非特許文献４によれば、自動評価の指標をシステムパラメータのチューニングに利用することにより、翻訳性能が向上したという報告がある。この報告は、自動評価の性能が向上すれば翻訳性能が自動的に向上することを示している。

しかし、これまでに提案されている自動評価手法では、３００文程度のまとまったデータがあれば翻訳システムの優劣を判別することができるが、個々の文について各システムの翻訳の優劣を判別するのは難しい。

例えば、従来の技術として、特許文献１の技術では、機械翻訳文を解析する第１翻訳文解析ステップ、望ましい翻訳文を解析する第２翻訳文解析ステップ、二つの翻訳文の間の語句の対応関係を解析する語句対応づけステップ、対応づけられた語句の割合と対応する語句の一致度に基づいて二つの翻訳文の一致度を算出する翻訳文一致度算出ステップによって機械翻訳文を評価することが提案されている。

このように、望ましい翻訳文と、機械翻訳文との一致度（類似度）を利用する方法は一般的であるが、１つの文章間だけでは翻訳結果の適切な評価は行えない。

また、特許文献２に開示される技術では、第１の言語で表わされた原文を取得し、順方向機械翻訳部によって、原文を第２の言語の順方向翻訳文に機械翻訳し、３種類の逆方向機械翻訳部によって、順方向翻訳文を第１の言語に機械翻訳して、３個の逆方向翻訳文を生成し、３個の逆方向翻訳文と原文とに基づいて、順方向翻訳文の良否を評価する。

この方法は逆方向翻訳の結果を用いて、順方向翻訳の性能を測るものであるが、複数の逆方向機械翻訳部を用いなければならない上に、各逆方向機械翻訳部の精度が相当に高くなければ、結局正確な評価を行うことは難しい。

さらに、特許文献３の技術では、機械的に翻訳された翻訳文の善し悪しを自動的に評価する機械翻訳文の自動評価方法として、学習ステップと評価ステップとからなるものを提案している。
学習ステップは、予め人手によってランク付けが行なわれているとともに、予め人手によって正解翻訳文が用意されている複数の学習用機械翻訳文それぞれを、それに対する正解翻訳文との間の複数種類の編集距離を用いて、編集距離の種類数に応じた要素からなるベクトルに符号化するステップ、および得られたベクトルを訓練事例としてランク付け規則を学習するステップを備えている。

この方法も、複数の機械翻訳文と正解翻訳文とを比較することで評価を行うものであるから、特許文献１と同様の問題を有している。

Sonja Niessen, Franz Josef Och, Gregor Leusch, and Hermann Ney. An Evaluation Tool for Machine Translation: Fast Evaluation for MT Research. In Proceedings of the LREC 2000, pp. 39-45, 2000年 Kishore Papineni, SalimRoukos, Todd Ward, and Weiing. Zhu. BLEU: a Method for Automatic Evaluation of Machine Translation. In Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics (ACL), pp. 311-318, 2002年 NIST. Automatic Evaluation of Machine Translation Quality Using N-gram Co-Occurrence Statistics. Technical report, NIST, 2002年 Franz Josef Och. Minimum Error Training in Statistical Machine Translation. In Proceedings of the 41st Annual Meeting of the Association for Computational Linguistics (ACL), pp. 160-167, 2003年 Joseph P. Turian, Luke Shen, and I. Dan Melamed. Evaluation of Machine Translation and its Evaluation. In Proceedings of the MT Summit IX, pp. 386-393, 2003年特開平05-298360号公報特開2005-078318号公報特開2003-085172号公報

本発明は、上記従来技術の有する問題点に鑑みて創出されたものであり、機械翻訳の翻訳結果を自動評価する際に、単文のみを対象としても誤りの生じやすい翻訳結果を重点的に確認することができ、高速かつ簡便な方法で自動評価を行うための技術を提供する。

本発明は次のような手段により上記の課題の解決を図る。
一般に、ある文を翻訳する際には、英日翻訳で言えば前置詞や不定詞の訳し分けのように翻訳品質を良好に保つために満たすべき条件がひとつ以上存在する。
それらの条件を設問の形で各テスト文に付与したテストセットと、個々の設問に対する回答を自動推定するシステムを作成することにより、従来の手法に比べ個々の翻訳文の品質をより適切に自動評価することが可能となる。

この具体的な方法として、請求項１に記載の機械翻訳評価装置は、記憶手段に格納した、評価事項である複数の部分目標に対応する複数の設問パターンを備え、該設問パターンには少なくとも機械翻訳結果と比較処理する対象となる文字列を定義し、機械翻訳結果である翻訳先テキストにおいて、単数又は複数の設問パターンに定義された文字列が含まれる、又は含まれないかを順次比較処理することで各部分目標の達成・未達成又は達成度の判定を行う部分目標判定手段と、該部分目標判定において、全ての部分目標の達成・未達成の数又は達成度に基づき所定の計算式を用いて機械翻訳結果の評価値を算出する評価手段と、
評価値を出力する出力手段とを備えたことを特徴とする。

請求項２に記載の機械翻訳評価装置は、前記所定の計算式において、設問パターンに応じて重み付けを行うことを特徴とする。

請求項３に記載の機械翻訳評価装置は、機械翻訳結果である翻訳先テキストから文を抽出する文単位抽出手段を備え、抽出された文に対して部分目標判定手段が処理することを特徴とする。

請求項４に記載の機械翻訳評価装置は、記憶手段に予め格納される、又は情報取得手段から取得される、翻訳元言語の翻訳元テキストと、正解の翻訳結果である参照テキストと、辞書データベースとを用い、翻訳元テキストに含まれる語句を辞書データベースで照合した時の訳語又は品詞が、参照テキストに含まれているか否かを参照し、その結果に応じて該訳語又は品詞を、予め定義されて記憶手段に格納された設問パターン書式に挿入することで設問パターンを定義する設問パターン定義手段を備えたことを特徴とする。

また、本発明は次のような機械翻訳評価方法を提供することもできる。

すなわち、請求項５に記載の機械翻訳評価方法は、評価事項である複数の部分目標に対応する複数の設問パターンを用い、該設問パターンには少なくとも機械翻訳結果と比較処理する対象となる文字列を定義し、部分目標判定手段が、機械翻訳結果である翻訳先テキストににおいて、単数又は複数の設問パターンに定義された文字列が含まれる、又は含まれないかを順次比較処理することで各部分目標の達成・未達成又は達成度の判定を行う部分目標判定ステップ、評価手段が、該部分目標判定において、全ての部分目標の達成・未達成の数又は達成度に基づき所定の計算式を用いて機械翻訳結果の評価値を算出する評価ステップ、出力手段が、評価値を出力する出力ステップの各ステップを含む。

請求項６に記載の機械翻訳評価方法は、前記所定の計算式において、設問パターンに応じて重み付けを行うことを特徴とする。

請求項７に記載の機械翻訳評価方法は、上記に加えて文単位抽出手段が、機械翻訳結果である翻訳先テキストから文を抽出する文単位抽出ステップを含み、抽出された文に対して部分目標判定ステップ以下を処理することを特徴とする。

請求項８に記載の機械翻訳評価方法は、翻訳元言語の翻訳元テキストと、正解の翻訳結果である参照テキストと、辞書データベースとを用い、設問パターン定義手段が、該翻訳元テキストに含まれる語句を該辞書データベースで照合した時の訳語又は品詞が、該参照テキストに含まれているか否かを参照する。

そして、その結果に応じて該訳語又は品詞を、予め定義されて記憶手段に格納された設問パターン書式に挿入することで設問パターンを定義する設問パターン定義ステップを含み、該定義された設問パターンを用いることを特徴とする。

本発明は、上記構成を備えることにより次のような効果を奏する。
請求項１又は６に記載の発明によると、部分目標として設問パターンを用い、適合した設問パターンと適合しなかった設問パターンに関する情報というコンピュータ上の処理が容易な指標により機械翻訳結果を評価することができる。
特に、機械翻訳で生じる典型的な誤りについて重点的に評価することが可能であり、１つの文章についても適切な評価が行える。

請求項２又は７に記載の発明によると、設問パターンに応じて重み付けを行うことができるので、より高精度な機械翻訳評価を行うことができる。

請求項３又は８に記載の発明によると、複数の文を含むテキストについても、文単位抽出手段が各文を抽出して、部分目標判定手段及び評価手段による評価を行うことができる。

請求項４又は９に記載の発明によると、正解の翻訳結果である参照テキストを用いることで、設問パターン書式から設問パターンを自動的に定義することが可能であり、設問パターンの充実に寄与する。

請求項５又は１０に記載の発明によると、人手によって予め定義され、人間による評価を行いやすい設問をある程度用意しておくことで、翻訳元テキストと参照テキストとから適当な設問を設定することができる。さらに、設問をコンピュータによる処理が行いやすい設問パターンとして定義することができるので、人間によっても確認しやすく、かつ本発明の自動評価が可能な方法を提供することができる。

以下、本発明の実施形態を、図面に示す実施例を基に説明する。なお、実施形態は下記に限定されるものではない。
本発明に係る設問パターンを予め用意して処理する実施例１、設問パターンを自動的に定義する実施例２、さらに設問を選択して設問パターンを定義する実施例３をそれぞれ説述する。

本発明による機械翻訳評価装置（以下、本装置と呼ぶ。）を図１に示す。本装置（１）は、公知のパーソナルコンピュータによって構成することが便宜である。パーソナルコンピュータには、周知のように演算・情報処理を司るＣＰＵ（１０）と、表示装置であるモニタ（２０）、ハードディスクなどの外部記憶装置（３０）、インターネット等と接続し外部サーバ・クライアントからの情報の取得、出力を可能にするネットワークアダプタ（４０）、ユーザが直接データを入力するキーボード・マウス（５０）などを備えている。

ＣＰＵ（１０）では、複数の文から各文を抽出する文単位抽出部（１１）と、外部記憶装置（３０）に格納された設問パターンテーブルに該当するか否かを判定する部分目標判定部（１２）、部分目標の判定結果から機械翻訳結果の評価値を所定の計算式に基づいて算出する評価部（１３）、該評価結果を出力する出力部（１４）を備える。

図２には機械翻訳評価方法に係るフローチャートを示す。
まず機械翻訳結果である翻訳先テキスト（１００）を外部記憶装置からの読み込み又はネットワークアダプタからの取得によりＣＰＵ（１０）に取得すると、文単位抽出部（１１）が文単位に分割して抽出する。（Ｓ１）
翻訳先テキストの言語によって公知の抽出方法を適宜選択することができるが、例えば日本語であれば読点や段落、改行コードなどをテキストから検索して、その位置で文が終了すると判定することができる。

なお、本発明では予め文単位に分割された翻訳先テキストを入力してもよいので、必ずしも文単位抽出部（１１）を備えていなくてもよい。

次に、部分目標判定部（１２）の処理（Ｓ２）に進む。
本発明では、機械翻訳評価を行うために、設問パターンを用いる。設問パターンは外部記憶装置（３０）にデータテーブルの形式で格納されており、例えば次の表１のように定義される。

上記表において、翻訳元テキストに対して、各設問パターンが定義されており、設問パターンの○は「〜が含まれる」、×は「〜が含まれない」を表す。
まず日本語を対象とする場合には、あらかじめ漢字を句読点を含まない仮名文に変換した後に処理を行う。第１文を「私は今日の午後、彼を店に連れて行く」と訳した場合には、「わたしはきょうのごごかれをみせにつれていく」と変換する。このような変換は辞書データベース（図示しない）を用いて仮名に置換することで容易に行える。さらに周知の形態素解析処理手段を用いて高精度な変換を行うこともできる。一例としてJUMAN(非特許文献６参照）を用いて処理することができる。

http://www.kc.t.u-tokyo.ac.jp/nl-resource/juman.html

ここで、第３文「It is important for him to come early.」においてfor himを「彼にとって」と訳すのは最適ではなく、本文では「彼が早く来ることは重要である」「早く来ることは、彼にとって重要です。」「彼が早く来ることは重要です。」などと訳すのがよい。
そこで、設問パターンには、「(かれが)はやくくる(こと|の)は」が含まれる、と定義しておき、翻訳先テキストに「かれが」が前置されても、されなくてもよく、続いて「はやくくることは」又は「はやくくるのは」が含まれるか否か、２択で判定できるようにしてある。

部分目標判定部（１２）では、このような設問パターンテーブル（３０）を参照して、翻訳先テキスト（１００）が該当するか否か判定する。該判定は、上述した通りまず翻訳先テキスト（１００）を仮名で表記された文章に変換処理した後、設問パターンに定義された文字列が含まれる、又は含まれないか否か比較処理することで判定することができる。

なお、最も簡単な形態としては予め入力される翻訳先テキスト（１００）に対して部分目標判定する設問パターンが決まっている場合が考えられるが、通常は翻訳先テキストと共に、翻訳先テキストへの対訳付けがされた翻訳元テキストを同時に入力し、部分目標判定部（１２）において、翻訳元テキスト中に設問パターンテーブルの「翻訳元テキスト」に該当する語句・文が含まれている場合には、部分目標判定の処理を行うようにするのが望ましい。
これにより、任意の翻訳元テキスト・翻訳先テキストを入力することで、自動的に設問パターンを選択して部分目標を判定することができる。

部分目標が判定された後、評価部（１３）における評価（Ｓ３）を行う。
本発明における評価としては、入力された翻訳先テキスト（１００）に対して部分目標判定で設問パターンと合致すると判定された個数と、合致しないと判定された個数とを用いて予め定めた計算式で算出する。

その１つの方法は数１によるものであり、
（数１）
評価値＝（合致した個数）／（合致した個数＋合致しなかった個数）
により評価値を得る。この場合、評価値が１に近いほど正確な機械翻訳結果であると評価できる。しきい値を用いて、一定の評価値以上の場合に合格、それ未満の場合に不合格などと判定してもよい。

さらに、従来の技術でも用いられている類似度を考慮した評価を行うこともできる。この場合、翻訳先テキスト（１００）の他に、予め翻訳元テキストについて正解である訳出例を外部記憶装置（３０）に格納しておき、その訳出例を参照テキストとして用いる。
部分目標の達成度をＱ、翻訳先テキストと参照テキストとの類似度をＳとし、ある翻訳先テキストに対する評価値Ａを次の式で定義する。

ここで、Ｑはｎ個の部分目標が選択された場合の部分目標達成度を表わす。λ は部分目標達成度の重みである。Ｑの値は、部分目標の合否による多数決により決まり、達成されている部分目標の方が多ければ１、少なければ−１、同数であれば０となる。Qi(0≦i≦n) はi番目のカテゴリを持つ部分目標に対する達成度を表わす。
このQiは部分目標が達成されていれば１、達成されていなければ−１の値を返す。fi は、評価対象の翻訳先テキストに依存して設問テーブル中の項目で判定する場合には１、しない場合には０をとる。（部分目標判定部での選択を基に決定する）

Ｓは翻訳先テキストと参照テキストとの類似度である。類似度としては任意の方法で算出することができる。例えば、機械翻訳自動評価手法としてよく用いられるBLEU（非特許文献７を参照）を拡張した指標を用いる。BLEU score の計算式は次の式により表わされる。

Linguistic Data Annotation Specification: Assessment of Fluency and Adequacy in Arabic-English and Chinese-English Translations. http://www.ldc.upenn.edu/Projects/TIDES/Translation/TransAssess02.pdf, 2002年

数４において、ｒは参照文の単語長、ｃはテスト文の単語長、Ｎは考慮する単語n-gramの最大のｎの値を表わす。pnは次の式で表わされる。

ここで、Count(n-gram) はテスト文における単語n-gramの出現頻度を表わす。Countclip(n-gram) は、次の式で表わされる。

ここで、Max Ref Count はテスト文における単語n-gramの出現頻度を表わす。BLEUからの拡張は、単語n-gram を依存構造木から抽出する点、テスト文と参照文を入れ替えて計算したBLEU score ともとのBLEU score の調和平均を採用した点、シソーラスを用いて汎化した点の３点である。本技術については、非特許文献８に記載している。

Kiyotaka Uchimoto, Naoko Hayashida, Toru Ishida, and Hitoshi Isahara. Automatic Rating of Machine Translatability.In Proceedings of the MT Summit X, pp. 235-242, 2005年

以上の数２及び３による評価値Ａは、翻訳先テキストと参照テキストとの類似度に加えて、設問パターンに合致した部分目標の多数決とその部分目標に対する重みλから算出するものである。

重みλは、設問パターンテーブルに予め定義する。特に重要な設問パターンに重みをつけるようにすればよいが、次のように高精度なλの設定を行うこともできる。
すなわち、予め複数の機械翻訳結果についてfluency（流暢さ）とadequancy（妥当性）を人手によって数値評価し、λを例えば０から０．１ずつ増加させていって、両者の数値評価と評価部で計算されるＡとの相関が最大となるときのλを求める。これにより、評価部（１３）における評価の高精度化が図られる。

ここで、重みλについてＱについてのみ設定したが、類似度Ｓについても重みλSを用いて類似度をどの程度重視するか、重み付けしてもよい。

以上のような評価部（１３）での評価値（１０１）は出力部（１４）によって出力処理（Ｓ４）される。出力方法としては、外部記憶装置への書き出しや、ネットワークアダプタを介してのデータ送信、モニタでの表示などが可能である。

本発明の第２の実施例として、上記した設問パターンを、表１のように予め定義しておくのではなく、設問パターン書式に従って自動的に定義することも可能である。
本実施例では図３のように設問パターン定義部（１５）をＣＰＵ（１０）に備え、外部記憶装置（３０）には設問パターン書式を予め定義しておく。
設問パターン書式としては表２に示すようなものを用いる

上記表１で「〜を含んでいる」等と具体的に定義していたのに対して、表２では（語句）の部分は代入すべき空欄として定義されている。また、特定の品詞として用いられていなければならない場合も「（品詞）を用いているか？」という書式で定義されている。

このような書式を用いて、設問パターン定義部（１５）は（語句）や（品詞）に該当する言葉を自動的に定義する。図４は実施例２に係るフローチャートである。なお、設問パターン定義ステップ（Ｓ１０）は部分目標判定（Ｓ２）よりも前であれば文単位抽出処理（Ｓ１）との先後は問わない。

まず翻訳元テキスト（１０２）と、参照テキスト（１０３）とを設問パターン定義部（１５）が読み出し、翻訳先テキストに含まれていなければならない語句や品詞を抽出する。その際、全ての訳語を抽出するのではなく、特徴的な訳語についてのみ設問パターンとして定義する。

この方法としては、図示しない辞書データベースにおいて、複数の意味（例えばa、b、cの３種類の意味）を持つ単語Ｗが翻訳元テキスト（１０２）に含まれているか検索して抽出し、その単語が参照先テキスト（１０３）においてどの意味で用いられているかを比較し調べる。その結果がaの意味であったときに、設問パターン定義部（１５）は設問パターン書式にあてはめて当該翻訳元の文に対して「aを含んでいるか？」という設問パターンを定義する。

同時に、「bを含んでいないか」「cを含んでいないか」という設問パターンも定義する。
このとき、図示しない同義語データベースを用い、aの同義語a1,a2,a3についても「（a｜a1｜a2｜a3）を含んでいるか？」という設問パターンとして定義してもよい。「含んでいないか」についても同様である。

このような訳語選択の場合の他、例えば「They speak English in New Zealand」の翻訳元テキストに対して「ニュージーランドでは英語を話す」という参照テキストがあるとき、単語Theyについて辞書データベースから得られる「彼らは」「それらは」といった訳語が参照テキストには含まれていないことが両者の比較から検出できる。
このとき、設問パターン定義部（１５）は「（かれらは｜それらは）を含んでいないか」という設問パターンとして定義することができる。

同様に「She lived there by herself」（翻訳元テキスト）に対して参照テキスト「彼女は独りで暮らしている」を比較すると、byの訳語である「よって」を含んでいないことが設問パターンとして定義できる。
同時に、両者の文の対訳関係が予め定義されているとき、又は周知の対訳関係の抽出処理によって判明するときには、「by herself」が「独りで」と訳されていることから、「ひとりでを含んでいるか？」という設問パターンとなる。
同義語データベースを用いれば、「ひとり（だけ｜きり）で｜たんどくで｜たんしんでを含んでいるか？」という設問パターンを定義できる。

「The percentage of stomach cancer among the workers appears to be the highest for any asbestos workers」の翻訳元テキストに対して参照テキスト「労働者中の胃ガンの割合はアスベスト労働者で最高となるようだ」があるとき、対訳関係からappear toが「ようだ」であることがわかる。
「ようだ」を辞書データベースで検索すると助動詞であることもわかるから、設問パターン定義部（１５）はappear toについて「助動詞を含んでいるか？」という設問パターンを定義することができる。
このように、訳語の選択だけでなく、正しい品詞で用いられているかについて部分目標の評価を行うこともできる。

翻訳元テキスト、翻訳先テキスト、参照テキストの間の語句間の対応付けを自動的に抽出する方法は公知であるが、例えば、非特許文献９に開示されるシステムでは多数の対訳文を入力することにより、自動的に精度良く単語間のアラインメントを行うことができる。

http://www.fjoch.com/GIZA++.html

そして、以上のように翻訳元テキストと、参照テキストの組み合わせから設問パターンを自動定義することができ、これを用いて実施例１の機械翻訳評価を行うことが可能である。このとき、翻訳元テキストや翻訳先テキストは、実施例２で設問パターンを定義したときと異なるテキストであってよい。

設問パターンは上記したようにコンピュータによって判定が容易に高速に判定が行えるものであるが、翻訳評価を行うための設問が人為的に付与されている場合に、その設問は必ずしも設問パターンと同様の処理が可能とは言えない。
例えば、非特許文献１０で示されたテストセットが知られている。

井佐原均, 内野一, 荻野紫穂, 奥西稔幸, 木下聡, 柴田昇吾, 杉尾俊之, 高山泰博, 土井伸一, 永野正, 成田真澄, 野村浩郷. 開発者の視点からの機械翻訳システムの技術的評価- テストセットを用いた品質評価法-. 自然言語処理, Vol. 3, No. 3, pp. 83-102,1996年

このテストセットに付与されている特徴的な情報としては、翻訳結果を評価するためのyes/no 設問が挙げられる。この設問は、例えば、「for が「〜で」のように原因・理由を表すように訳されていますか？」といったもので、この設問に対し人間がyes/no で回答することによって、翻訳結果を客観的に評価することができるようになっている。

例えば、上記の例文「The percentage of stomach cancer among the workers appears to be the highest for any asbestos workers.」についての設問は「appear to が「ようだ」のように助動詞として訳されていますか？」と定義されている。
設問は主として文法的な観点からカテゴリ分けされており、上の設問は連鎖動詞に関するものである。

本発明の第３の実施例は、このような複数の設問が定義されているテストセットを用いて設問パターンを定義するものである。図５は本実施例の機械翻訳評価装置、図６は本実施例のフローチャートである。
表３は、外部記憶装置（３０）に格納される設問データベースの一例である。

このような設問を多数用意した設問データベースを用い、設問設定部では、評価すべき翻訳先テキストについてどの設問を用いるのがよいか、選択する。この選択方法としては、翻訳元テキストの中に設問データベースの翻訳元テキスト欄で定義されたのと同一又は類似の文があるときに、当該設問を選択する。
翻訳元テキストでは表３に示したような具体的な文の他「＊ｌｉｖｅ＊ｂｙ＊ｓｅｌｆ」（＊は任意、動詞は原形に変換して登録する）などのような形で定義してもよい。

また、類似の文については、公知の方法によって類似度を算出し、設問データベース記載の翻訳元テキストと類似度の高いものに設問を選択するほか、重要な語句を翻訳元テキストに指定しておき、該単語を含むものについて設問を選択するようにすることができる。例えば「She [lived] there [by herself]」として重要な語句を[]で指定する。そして、[lived]と[by herself]が含まれる文が参照テキストから抽出された場合に、その文に対応する翻訳先テキストについて"by herself"が「独りでのように訳されていますか？という設問を選択する。

このように設問設定部（１６）で設問を選択した後、設問パターン定義部（１７）において、設問パターン書式に基づいて設問パターンを定義する。この処理は、人間にとってわかりやすい設問を、コンピュータ処理が容易な設問パターンに変換する処理と言うことができる。

例えば、「"by herself"が「独りで」のように訳されていますか？」という設問に対して表２の設問パターン書式では「(語句）を含んでいるか？」が妥当し、「独りでを含んでいるか？」という設問パターンに変換する。
具体的には、表４に示すような設問・設問パターン変換テーブルを外部記憶装置（３０）に備えておくのが簡便である。

上段の例では、○○の部分は不要であるから除去して、「△△を含んでいるか？」という単純な設問パターンに変換する。△△の同義語を加えてもよい。
下段の例では「△△のように」は単なる例示であり、□□を表すようにというさらに有益な情報が含まれているため、「□□を表す」語句を辞書データベースから抽出して代入する。

このような変換テーブルを利用することによって、設問パターン定義部（１７）がコンピュータが処理しやすい設問パターンに変換する処理を行うことができる。

以上説述したとおり、本発明は機械翻訳結果を自動評価する方法であり、客観的かつ高速な評価を実現する。また、このようにして得られた評価値を機械翻訳装置にフィードバックすることによって、高い翻訳精度を実現する機械翻訳装置に寄与させることができる。

本発明の機械翻訳評価装置（第１実施例）の構成図である。本発明の機械翻訳評価方法（第１実施例）のフローチャートである。本発明の機械翻訳評価装置（第２実施例）の構成図である。本発明の機械翻訳評価方法（第２実施例）のフローチャートである。本発明の機械翻訳評価装置（第３実施例）の構成図である。本発明の機械翻訳評価方法（第３実施例）のフローチャートである。

符号の説明

１機械翻訳評価装置
１０ＣＰＵ
１１文単位抽出部
１２部分目標判定部
１３評価部
１４出力部
２０モニタ
３０外部記憶装置
４０ネットワークアダプタ
５０キーボード・マウス

Claims

機械翻訳結果を自動的に評価する機械翻訳評価装置であって、
記憶手段には、評価事項である複数の部分目標に対応する複数の設問パターンを備え、該設問パターンには少なくとも機械翻訳結果と比較処理する対象となる文字列を定義し、
機械翻訳結果である翻訳先テキストにおいて、単数又は複数の設問パターンに定義された文字列が含まれる、又は含まれないかを順次比較処理することで各部分目標の達成・未達成又は達成度の判定を行う部分目標判定手段と、
該部分目標判定において、全ての部分目標の達成・未達成の数又は達成度に基づき所定の計算式を用いて機械翻訳結果の評価値を算出する評価手段と、
評価値を出力する出力手段と
を備えたことを特徴とする機械翻訳評価装置。
前記所定の計算式において、設問パターンに応じて重み付けを行う
請求項１に記載の機械翻訳評価装置。
前記機械翻訳評価装置において、
機械翻訳結果である翻訳先テキストから文を抽出する文単位抽出手段を備え、
抽出された文に対して部分目標判定手段が処理する
請求項１又は２に記載の機械翻訳評価装置。
記憶手段に予め格納される、又は情報取得手段から取得される、翻訳元言語の翻訳元テキストと、正解の翻訳結果である参照テキストと、辞書データベースとを用い、
該翻訳元テキストに含まれる語句を該辞書データベースで照合した時の訳語又は品詞が、該参照テキストに含まれているか否かを参照し、その結果に応じて該訳語又は品詞を、予め定義されて記憶手段に格納された設問パターン書式に挿入することで設問パターンを定義する設問パターン定義手段を備えた
請求項１ないし３に記載の機械翻訳評価装置。
機械翻訳結果を自動的に評価する機械翻訳評価方法であって、
評価事項である複数の部分目標に対応する複数の設問パターンを用い、該設問パターンには少なくとも機械翻訳結果と比較処理する対象となる文字列を定義し、
部分目標判定手段が、機械翻訳結果である翻訳先テキストにおいて、単数又は複数の設問パターンに定義された文字列が含まれる、又は含まれないかを順次比較処理することで各部分目標の達成・未達成又は達成度の判定を行う部分目標判定ステップ、
評価手段が、該部分目標判定において、全ての部分目標の達成・未達成の数又は達成度に基づき所定の計算式を用いて機械翻訳結果の評価値を算出する評価ステップ、
出力手段が、評価値を出力する出力ステップ
を含むことを特徴とする機械翻訳評価方法。
前記所定の計算式において、設問パターンに応じて重み付けを行う
請求項５に記載の機械翻訳評価方法。
前記機械翻訳評価方法において、
文単位抽出手段が、機械翻訳結果である翻訳先テキストから文を抽出する文単位抽出ステップを含み、
抽出された文に対して部分目標判定ステップ以下を処理する
請求項５又は６に記載の機械翻訳評価方法。
翻訳元言語の翻訳元テキストと、正解の翻訳結果である参照テキストと、辞書データベースとを用い、
設問パターン定義手段が、該翻訳元テキストに含まれる語句を該辞書データベースで照合した時の訳語又は品詞が、該参照テキストに含まれているか否かを参照し、その結果に応じて該訳語又は品詞を、予め定義されて記憶手段に格納された設問パターン書式に挿入することで設問パターンを定義する設問パターン定義ステップを含み、
該定義された設問パターンを用いる
請求項５ないし７に記載の機械翻訳評価方法。