JP2014013514A

JP2014013514A - 機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラム

Info

Publication number: JP2014013514A
Application number: JP2012150929A
Authority: JP
Inventors: Hiroyori Taira; 博順平; Masaaki Nagata; 昌明永田
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2012-07-04
Filing date: 2012-07-04
Publication date: 2014-01-23
Anticipated expiration: 2032-07-04
Also published as: JP5710551B2

Abstract

【課題】代名詞の省略補完を行うことにより翻訳精度が向上した翻訳結果に対して、翻訳品質を適切に評価することができるようにする。
【解決手段】単語分割部２は、翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び翻訳元言語の文字列を正しく翻訳した目標言語の文字列である参照訳文字列の各々を単語単位に分割する。代名詞Ｆ値計算部４は、機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、参照訳文字列の分割結果に基づいて、代名詞リストに含まれる各代名詞の出現数をカウントし、カウントされた機械翻訳文字列における各代名詞の出現数及び参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、算出した再現率及び適合率に基づいて、代名詞に対するＦ値を、品質スコアとして算出する。
【選択図】図１

Description

本発明は、機械翻訳結果評価装置、翻訳パラメータ最適化装置、方法、及びプログラムに係り、特に、日本語、韓国語等、主語、目的語などの単語の省略が頻繁に起こる言語から、英語、フランス語等の主語、目的語などの単語の省略に非寛容的な言語へ翻訳を行う機械翻訳器の翻訳結果を評価する機械翻訳結果評価装置、方法、プログラムおよび、翻訳モデルのパラメータを最適化する翻訳パラメータ最適化装置に関する。

従来、統計的機械翻訳システムの性能を評価する方法として、BLEU（非特許文献１参照）がある。BLEUは、基本的には、参照訳（人手で作成した正解訳）とシステム訳（機械翻訳システムが機械翻訳を行い出力した訳）との間のNグラム（通常はN＝1〜4）が一致した数を計算した上で、それらの幾何平均を取り、参照訳の長さの影響を加味した補正を行って、BLEU値を得、これを翻訳精度とする。BLEU値は、ヨーロッパ言語間での翻訳では人間による評価と相関が高いといわれており、計算コストが少ない等の理由により、広く用いられている。また、翻訳品質を自動的に向上させる方法として、BLEUを評価指標に用いたMERT法（非特許文献２参照）が多く用いられている。

MERT法は、デコーダにおける言語モデルや翻訳モデルに与える重みの最適化を行う。
n個の重みの組λ₁ ⁿ＝λ₁〜λ_nについて、BLEU値が最大となる翻訳結果が選ばれる重みの組を^λ₁ ⁿとしたとき、以下の（１）式に示す最適化の式を計算する。

ここで、smt(λ)はパラメータが与えられたときのデコーダの出力文、またBLEU（）はデコーダの出力文と入力文に対するBLEU値を表し、e_refは、あらかじめ与えられた翻訳正解文を表す。

重みの最適化は、
１．λに初期値を与える。
２．λを用いてデコーディングを行い、確率の高い上位N文を出力する
３．上位N文の中でBLEUスコアが高い文が上位に来るようλを最適化する
４．重みが収束するまで２，３を繰り返す。

Papineni, K., Roukos, S., Ward, T., and Zhu, W.J. 「 BLEU: a method for automatic evaluation of machine translation」, Proc. of the Annual Meeting of the Association of Computational Linguistics (ACL), pp. 311−318, 2002年 Franz Josef Och 「Minimum error rate training for statistical machine translation」, Proc. of the Annual Meeting of the Association of Computational Linguistics (ACL), 2003年

日本語や韓国語のように主語・目的語などの単語の省略が頻繁に起こる翻訳元言語から、英語、フランス語等の単語の省略が頻繁には起こらない目標言語へ機械翻訳を行う際、源言語側の単語の省略により、目標言語において本来省略されてはいけない代名詞の欠如を引き起こし、機械翻訳の質が低下してしまう、という問題がある。例えば、「今日の夕方までに届けてください。」という文があった場合、「あなたは」「それを」が省略されていることにより「It by this evening ？」といった意味の通じないおかしな翻訳を出力してしまうことがある。

従来、機械翻訳の質の評価方法としてBLEUがあり、翻訳品質を向上させる方法として、BLEU値の評価値を基準にしたMERT法があった。ところが、翻訳元言語の省略を原因とする目標言語の代名詞の欠如による機械翻訳の質の低下は、目標言語の代名詞の欠如がBLEU値にほとんど影響を与えないため、BLEUによる品質評価や、MERT法による機械翻訳の品質を向上させることは困難であった。

本発明は上記問題点を解決するためになされたものであり、代名詞の省略補完を行うことにより翻訳精度が向上した翻訳結果に対して、翻訳品質を適切に評価することができる翻訳品質評価装置、方法、及びプログラムを提供することを第１の目的とする。
また、代名詞の省略による翻訳の質の低下を考慮して翻訳モデルのパラメータを最適化することができる翻訳パラメータ最適化装置及びプログラムを提供することを第２の目的とする。

上記目的を達成するために、本発明の機械翻訳結果評価装置は、翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割する分割手段と、前記分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、前記分割手段による前記参照訳文字列の分割結果に基づいて、前記代名詞リストに含まれる各代名詞の出現数をカウントする代名詞カウント手段と、前記代名詞カウント手段によりカウントされた前記機械翻訳文字列における各代名詞の出現数及び前記参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、代名詞に対するＦ値を、品質スコアとして算出する算出手段と、を含んで構成されている。

本発明の機械翻訳結果評価方法は、分割手段、代名詞カウント手段、及び算出手段を含む機械翻訳結果評価装置における機械翻訳結果評価方法であって、前記機械翻訳結果評価装置は、前記分割手段によって、翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割するステップと、前記分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、前記分割手段による前記参照訳文字列の分割結果に基づいて、前記代名詞リストに含まれる各代名詞の出現数をカウントするステップと、前記代名詞カウント手段によりカウントされた前記機械翻訳文字列における各代名詞の出現数及び前記参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、代名詞に対するＦ値を、品質スコアとして算出するステップと、を含むことを特徴とする。

本発明によれば、分割手段により、翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割し、代名詞カウント手段により、分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた代名詞リストに含まれる各代名詞の出現数をカウントすると共に、分割手段による参照訳文字列の分割結果に基づいて、代名詞リストに含まれる各代名詞の出現数をカウントする。

そして、算出手段により、代名詞カウント手段によりカウントされた機械翻訳文字列における各代名詞の出現数及び参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、算出した再現率及び適合率に基づいて、代名詞に対するＦ値を、品質スコアとして算出する。

このように、機械翻訳結果中の代名詞の出現数および参照訳中の代名詞の出現数から品質スコアとして代名詞Ｆ値を算出することにより、代名詞の省略補完を行うことにより翻訳精度が向上した翻訳結果に対して、翻訳品質を適切に評価することができる。

本発明の翻訳パラメータ最適化装置は、上記機械翻訳結果評価装置と、翻訳モデルに基づいて、翻訳元言語の文字列を目標言語の文字列に翻訳する機械翻訳手段と、前記機械翻訳手段によって翻訳された前記目標言語の文字列について前記機械翻訳結果装置によって算出された前記品質スコアに基づいて、前記翻訳モデルのモデルパラメータを更新する更新手段と、前記翻訳モデルのモデルパラメータが最適化されるまで、前記機械翻訳手段による翻訳、及び前記更新手段による更新を繰り返すパラメータ最適化手段と、を含んで構成されている。

第４の発明によれば、代名詞の省略による翻訳の質の低下を考慮して翻訳モデルのパラメータを最適化することができる。

また、上記の品質スコアを、全ての代名詞に対するＦ値とすることができる。

また、上記の品質スコアを、代名詞Ｆ値とＢＬＥＵ値の線形和とすることができる。

本発明のプログラムは、コンピュータを、翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割する分割手段、前記分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、前記分割手段による前記参照訳文字列の分割結果に基づいて、前記代名詞リストに含まれる各代名詞の出現数をカウントする代名詞カウント手段、及び前記代名詞カウント手段によりカウントされた前記機械翻訳文字列における各代名詞の出現数及び前記参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、代名詞に対するＦ値を、品質スコアとして算出する算出手段として機能させるためのプログラムである。

以上説明したように、本発明の機械翻訳結果評価装置、方法、及びプログラムによれば、機械翻訳結果中の代名詞の出現数および参照訳中の代名詞の出現数から品質スコアとして代名詞Ｆ値を算出することにより、代名詞の省略補完を行うことにより翻訳精度が向上した翻訳結果に対して、翻訳品質を適切に評価することができる。
また、本発明の翻訳パラメータ最適化装置によれば、代名詞の省略による翻訳の質の低下を考慮して翻訳モデルのパラメータを最適化することができる。

第１の実施の形態の翻訳結果評価装置の機能的構成を示すブロック図である。第１の実施の形態の翻訳結果評価装置における機械翻訳結果評価処理ルーチンの内容を示すフローチャートである。入力するシステム翻訳結果例を示す図である。入力する参照訳例を示す図である。代名詞リストの例を示す図である。システム翻訳結果中の代名詞リストに含まれる代名詞の出現回数の例を示す図である。参照訳中の代名詞リストに含まれる代名詞の出現回数の例を示す図である。システム翻訳結果1およびシステム翻訳結果２に関する代名詞Ｆ値の計算の例を示す図である。第２の実施の形態の第１の実施の形態に係る翻訳結果評価装置を用いた翻訳パラメータ最適化装置の機能的構成を示すブロック図である。第２の実施の形態の第１の実施の形態に係る翻訳結果評価装置を用いた翻訳パラメータ最適化装置における翻訳品質向上処理ルーチンの内容を示すフローチャートである。

以下、図面を参照して本発明の実施の形態を詳細に説明する。本実施の形態では、代名詞の省略補完による翻訳結果の翻訳品質について適切に自動評価を行うために、目標言語側の代名詞リストを用意し、目標言語側での代名詞が適切に訳出できたかどうかについてＦ値を利用して評価することで、翻訳品質の自動評価を行う。

図１に示すように、第１の実施の形態に係る翻訳結果評価装置２０は、入力部１０と、後述する機械翻訳結果評価処理ルーチンを実行するコンピュータ１と、コンピュータ１での処理により算出される品質スコアを出力する出力部６と、を備えている。

入力部１０により、システム翻訳結果及び参照訳が、自然言語の形態でコンピュータ１に入力される。入力部１０としては、ユーザによって操作されるキーボート、インターネット等のネットワークを介してコンピュータ１と接続可能なユーザの端末、又はコンピュータ１とユーザの端末とを中継するネットワークサーバ等が挙げられる。システム翻訳結果は、機械翻訳システムにより翻訳元言語の文字列を機械翻訳した目標言語の文字列（テキスト）であり、参照訳は、当該翻訳元言語の文字列を人手等により翻訳した正解翻訳としての目標言語の文字列（テキスト）である。ここで、翻訳元言語は日本語や韓国語等の主語や目的語などの単語の省略に対して寛容的な言語であり、目標言語は英語、フランス語等に主語、目的語などの単語の省略に対して非慣用的な言語である。

コンピュータ１は、翻訳結果評価装置２０全体の制御を司るＣＰＵ、後述する翻訳結果評価ルーチンのプログラム等を記憶した記憶媒体としてのＲＯＭ、ワークエリアとしてデータを一時格納するＲＡＭ、及びこれらを接続するバスを含んで構成されている。このような構成の場合には、各構成要素の機能を実現するためのプログラムをＲＯＭやＨＤＤ等の記憶媒体に記憶しておき、これをＣＰＵが実行することによって、各機能が実現されるようにする。

このコンピュータ１をハードウエアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図１に示すように、入力部１０により入力されたシステム翻訳結果を記憶するシステム翻訳結果記憶部７と、入力部１０により入力された参照訳を記憶する参照訳記憶部８と、予め用意された目標言語の複数の代名詞を含む代名詞リストを記憶する代名詞リスト記憶部９と、システム翻訳結果記憶部７に記憶されたシステム翻訳結果及び参照訳記憶部８に記憶された参照訳のそれぞれについて単語単位に分割する単語分割部２と、単語分割部２により分割されたシステム翻訳結果及び参照訳の各々の単語分割済みテキストを記憶する単語分割済みテキストテーブル３と、予め用意された目標言語の代名詞リストに基づいてシステム翻訳結果及び参照訳のそれぞれについて代名詞Ｆ値を計算する代名詞Ｆ値計算部４と、品質スコアである代名詞Ｆ値を記憶する評価値テーブル５と、を含んだ構成で表すことができる。

単語分割部２は、システム翻訳結果及び参照訳の各々を単語単位に単語分割する。なお、単語分割は、形態素解析等に従来既知の手法より行えばよいため、詳細な説明を省略する。

単語分割済みテキストテーブル３は、単語分割部２で分割されたシステム翻訳結果及び参照訳の各々の単語分割済みテキストを記憶する。

代名詞Ｆ値計算部４は、単語分割済みテキストテーブル３に格納されているシステム翻訳結果の単語分割済みテキストに基づいて、代名詞リストに存在する各代名詞の出現数をカウントし、単語分割済みテキストテーブル３に格納されている参照訳の単語分割済みテキストに基づいて、代名詞リストに存在する各代名詞の出現数をカウントする。代名詞Ｆ値計算部４は、システム翻訳結果についての各代名詞の出現数及び参照訳についての各代名詞の出現数から、代名詞毎に、代名詞の適合率及び再現率を計算し、計算された適合率及び再現率に基づいて、システム翻訳結果の品質スコアとして、代名詞のＦ値を計算する。

ここで、ある代名詞pに対する適合率P(p)は、
P(p)＝min(システムが出力した翻訳結果中にある代名詞pの個数, 参照訳による正解の翻訳結果中にある代名詞pの個数) / (システムが出力した翻訳結果中にある代名詞pの個数)
で求められ、
ある代名詞pに対する再現率R(p)は、
R(p)＝min(システムが出力した翻訳結果中にある代名詞pの個数, 参照訳による正解の翻訳結果中にある代名詞pの個数) / (参照訳による正解の翻訳結果中にある代名詞pの個数)
で求められ、
ある代名詞pに対するF値、F(p)は、
F(p) = 2 * P(p) * R(p) / (P(p) + R(p))
で求められる。

なお、ここでmin(A,B)とはAとBの内、値が大きくない方を示す。

評価値テーブル５は、代名詞Ｆ値計算部４で算出された各代名詞のＦ値を記憶する。

出力部６は、評価値テーブルに記憶されている各代名詞のＦ値を外部に出力する。

次に、図２を参照して、第１の実施の形態の翻訳結果評価装置２０のコンピュータ１で実行される機械翻訳結果評価処理ルーチンについて説明する。

ステップＳ１０１で、システム翻訳結果記憶部７に記憶されたシステム翻訳結果に対して単語分割部２が単語分割、単語の正規化を行い、単語分割済みテキストテーブル３に単語分割済みテキストを格納する。図３にシステム翻訳結果について２つの例を示す。

次にステップＳ１０２で、参照訳記憶部８に記憶された、人手等で作成した正解訳（参照訳）に対して単語分割部２が単語分割、単語の正規化を行い、単語分割済みテキストテーブル３に格納する。図４に参照訳についての１つの例を示す。

次にステップＳ１０３で、代名詞Ｆ値計算部４が、単語分割済みテキストテーブル３に格納されているシステム翻訳結果の単語分割済みテキストから、代名詞リストに存在する各代名詞の出現数をカウントし、記憶部に保持する。図５に代名詞リストの例を示す。図6に、システム翻訳結果における各代名詞の出現数をカウントした結果を示す。

次にステップＳ１０４で、代名詞Ｆ値計算部４が、単語分割済みテキストテーブル３に格納されている参照訳の単語分割済みテキストから、代名詞リストに存在する各代名詞の出現数をカウントし、記憶部に保持する。図７に、参照訳における各代名詞の出現数をカウントした結果を示す。

次にステップＳ１０５で、代名詞Ｆ値計算部４が、記憶部に保持されたシステム翻訳結果中の各代名詞の出現数および参照訳中の代名詞の出現数から代名詞毎の適合率、再現率、Ｆ値を計算し、計算結果を評価値テーブルに格納する。図８にその計算結果を示す。

次に、ステップＳ１０６で、出力部６により評価値テーブル中の各代名詞のＦ値を、システム翻訳結果の品質スコアとして外部に出力して処理を終了する。

例で示したシステム翻訳結果１と２では、主語等が正しく訳出されている頻度の高いシステム翻訳結果２の方が人手評価では訳の質が高い。しかしながら、BLEU値で測ると、翻訳結果１と２ではほとんどスコアの差がなく、見かけ上、品質が向上しているようには見えない。

一方、代名詞F値による評価を行うと、主格に関しては、iの代名詞F値が0から１へとスコアが向上しており、代名詞の省略補完による品質向上を確認することができる。

以上説明したように、第１の実施の形態の翻訳結果評価装置２０によれば、システム翻訳結果に対する品質スコアとして、代名詞毎にＦ値を算出することにより、代名詞の省略補完を行い翻訳精度が向上した翻訳結果に対して、翻訳品質を的確に評価することができる。また、目標言語が、単語の省略に対して非寛容的な言語である場合の、単語省略に関して感度の高い翻訳品質評価をすることができる。

なお、上記の実施の形態では、品質スコアとしたＦ値を代名詞毎に算出する場合を例に説明したが、これに限定されるものではない。例えば、代名詞Ｆ値を算出すると共に、システム翻訳結果及び参照訳に基づいてＢＬＥＵ値を算出し、算出された代名詞Ｆ値とＢＬＥＵをある重み付けで線形和を取ったものを品質スコアとして算出してもよい。例えば、品質スコアを、α×代名詞F値＋β×BLEU値（α＋β＝１）のように算出してもよい。この場合には、単語の並びと代名詞が正しく訳せているかのどちらも考慮して翻訳品質を自動評価することができる。
また、Ｆ値を代名詞毎に算出する場合を例に説明したが、これに限定されるものではない。

すべての代名詞に対するF値を求める場合には、すべての代名詞に対する適合率Pは、
P＝Σp {min(システムが出力した翻訳結果中にある代名詞pの個数, 参照訳による正解の翻訳結果中にある代名詞pの個数)} / Σp { (システムが出力した翻訳結果中にある代名詞pの個数)}
で求められ、
すべての代名詞に対する再現率Rは、
R＝Σp {min(システムが出力した翻訳結果中にある代名詞pの個数, 参照訳による正解の翻訳結果中にある代名詞pの個数)} /Σp { (参照訳による正解の翻訳結果中にある代名詞pの個数)}
で求められ、
すべての代名詞に対するF値、Fは、
F = 2 * P * R / (P + R)
で求められる。

次に第２の実施の形態について説明する。なお、第１の実施の形態と同様の構成となる部分については、同一符号を付して説明を省略する。

第２の実施の形態では、第１の実施の形態である翻訳結果評価装置を組み込んだ翻訳パラメータ最適化装置という点が第１の実施の形態とは異なる。

図９に示すように、第２の実施の形態の翻訳パラメータ最適化装置５０は、入力部５２と、コンピュータ５４と、を備えている。
入力部５２は、原文テキスト及び参照訳を自然言語の形態でコンピュータ５４に入力する。入力部５２としては、ユーザによって操作されるキーボート、インターネット等のネットワークを介して翻訳パラメータ最適化装置５０と接続可能なユーザの端末、または翻訳パラメータ最適化装置５０とユーザの端末とを中継するネットワークサーバ等が挙げられる。原文テキストは、翻訳元言語の文字列であり、参照訳は、当該翻訳元言語の文字列を人手等により翻訳した正解翻訳としての目標言語の文字列（テキスト）である。
コンピュータ５４をハードウェアとソフトウエアとに基づいて定まる機能実現手段毎に分割した機能ブロックで説明すると、図９に示すように、入力部５２により入力された原文テキストを記憶する原文テキスト記憶部６２と、統計的翻訳モデルに基づいて原文テキストを機械翻訳する統計的機械翻訳部５６と、第１の実施の形態の翻訳結果評価装置と同様の構成である翻訳品質自動評価部６０と、翻訳品質の品質スコアが最も高くなるように、統計的翻訳モデルのモデルパラメータを最適化する翻訳パラメータ最適化部５８と、を含んだ構成で表すことができる。

統計的機械翻訳部５６は、原文テキスト記憶部６２に記憶されている複数の原文テキストの各々について、統計的翻訳モデルに基づいて翻訳処理を行い、システム翻訳結果として目標言語の文字列を出力する。なお、翻訳処理については、従来既知の手法を用いればよいため、詳細な説明を省略する。また、翻訳品質向上処理ルーチンが行われる前には、統計的翻訳モデルにデフォルトのモデルパラメータが設定されている。

翻訳品質自動評価部６０は、第１の実施の形態の翻訳結果評価装置２０のコンピュータ１と同様の構成であり、システム翻訳結果記憶部７、参照訳記憶部８、代名詞リスト９、単語分割部２、単語分割済みテキストテーブル３、代名詞Ｆ値計算部４、評価値テーブル５を備えている。翻訳品質自動評価部６０は、統計的機械翻訳部５６から出力された、各原文テキストについてシステム翻訳結果の各々について、各代名詞のＦ値を算出する。また、翻訳品質自動評価部６０は、統計的機械翻訳部５６から出力された、各原文テキストについてシステム翻訳結果の各々について、当該原文テキストに対する参照訳（人手で作成した正解訳）とシステム翻訳結果との間のNグラム（通常はN＝1〜4）が一致した数を計算した上で、それらの幾何平均を取り、参照訳の長さの影響を加味した補正を行って、BLEU値を算出する。
翻訳品質自動評価部６０は、各原文テキストについてシステム翻訳結果の各々について、代名詞毎に、当該代名詞について算出したF値とBLEU値をある重み付けで線形和を取ったものを、品質スコアとして算出する。

翻訳パラメータ最適化部５８は、翻訳品質自動評価部６０で算出された翻訳品質の品質スコアが最も高くなるように、統計的翻訳モデルのモデルパラメータを最適化して、統計的機械翻訳部５６のモデルパラメータを更新する。

次に、図１０を参照して、第２の実施の形態の翻訳パラメータ最適化装置５０のコンピュータ５４で実行される翻訳品質向上処理ルーチンについて説明する。

ステップＳ１５０で、原文テキスト記憶部６２に記憶されている複数の原文テキスト、参照訳記憶部８に記憶されている複数の参照訳、及び代名詞リスト記憶部９に記憶されている代名詞リストを取得する。

ステップＳ１５２で、取得した原文テキストそれぞれについて統計的翻訳モデルに基づいて翻訳処理を行い、システム翻訳結果を出力する。

ステップＳ１５４で、システム翻訳結果それぞれについて翻訳品質の品質スコアを算出する。具体的には、代名詞毎に、当該代名詞について算出したＦ値とシステム翻訳結果及び参照訳に基づいて算出されるＢＬＥＵ値とをある重み付けで線形和を取ったものを品質スコアとする。例えば、品質スコアは、α×代名詞F値＋β×BLEU値（α＋β＝１）のように代名詞毎に算出される。

ステップＳ１５６で、各システム翻訳結果に対する品質スコアが高くなるように、統計的翻訳モデルのモデルパラメータを更新する。

ステップＳ１５８で、翻訳品質の品質スコアが収束したか判定する。品質スコアが収束した場合は、統計的翻訳モデルのモデルパラメータと判断して、処理を終了し、品質スコアが収束していない場合は、ステップＳ１５２へ移行する。

以上、第２の実施の形態の翻訳パラメータ最適化装置５０によれば、第１の実施の形態の翻訳結果評価装置２０を組み込んだ翻訳パラメータ最適化装置５０により、代名詞の省略による翻訳品質低下も考慮して、翻訳品質の高い翻訳結果が得られる翻訳パラメータ最適化装置を構成することができる。また、翻訳品質の品質スコアが収束するまで繰り返すことによって、翻訳品質の高い統計的機械翻訳装置を得られる効果がある。

なお、上記の実施の形態では、Ｆ値を代名詞毎に算出する場合を例に説明したが、これに限定されるものではない。例えば、全ての代名詞に対するＦ値を算出し、全ての代名詞に対するＦ値とＢＬＥＵ値との線形和を、品質スコアとして算出してもよい。また、ＢＬＥＵ値以外の評価値と、Ｆ値との線形和を品質スコアとして算出してもよい。

また、本発明は、上記実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。

また、上述の翻訳結果評価装置２０及び、翻訳パラメータ最適化装置５０は、内部にコンピュータシステムを有しているが、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能であるし、ネットワークを介して提供することも可能である。また、本実施の形態の翻訳結果評価装置２０及び翻訳パラメータ最適化装置５０の各部をハードウエアにより構成してもよい。また、ルールテンプレートや各種テーブルが記憶される記憶部としては、ハードディスク装置やファイルサーバ等に例示される記憶手段によって実現可能であり、翻訳結果評価装置２０内部及び翻訳パラメータ最適化装置５０に記憶部を設けてもよいし、外部装置に設けてもよい。

１コンピュータ
２単語分割部
３単語分割済みテキストテーブル
４代名詞Ｆ値計算部
５評価値テーブル
６出力部
７システム翻訳結果記憶部
８参照訳記憶部
９代名詞リスト記憶部
１０入力部
２０翻訳結果評価装置
５０翻訳パラメータ最適化装置
５２入力部
５４コンピュータ
５６統計的機械翻訳部
５８翻訳パラメータ最適化部
６０翻訳品質自動評価部
６２原文テキスト記憶部

Claims

翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割する分割手段と、
前記分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、前記分割手段による前記参照訳文字列の分割結果に基づいて、前記代名詞リストに含まれる各代名詞の出現数をカウントする代名詞カウント手段と、
前記代名詞カウント手段によりカウントされた前記機械翻訳文字列における各代名詞の出現数及び前記参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、代名詞に対するＦ値を、品質スコアとして算出する算出手段と、
を含む機械翻訳結果評価装置。
前記算出手段は、全ての代名詞に対する再現率、及び全ての代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、全ての代名詞に対するＦ値を、品質スコアとして算出する請求項１記載の機械翻訳結果評価装置。
前記算出手段は、前記代名詞に対するＦ値を算出すると共に、前記分割手段による前記機械翻訳文字列の分割結果と前記参照訳文字列の分割結果とに基づいて、ＢＬＥＵ値を算出し、前記算出した前記代名詞に対するＦ値とＢＬＥＵ値との線形和を、品質スコアとして算出する、請求項１記載の機械翻訳結果評価装置。
請求項１〜請求項３の何れか１項記載の機械翻訳結果評価装置と、
翻訳モデルに基づいて、翻訳元言語の文字列を目標言語の文字列に翻訳する機械翻訳手段と、
前記翻訳モデルのモデルパラメータを更新する更新手段と、
前記機械翻訳手段によって翻訳された前記目標言語の文字列について前記機械翻訳結果装置によって算出された前記品質スコアが最も高くなるように、前記翻訳モデルのモデルパラメータが最適化されるまで、前記機械翻訳手段による翻訳、及び前記更新手段による更新を繰り返すパラメータ最適化手段と、
を含む翻訳パラメータ最適化装置。
分割手段、代名詞カウント手段、及び算出手段を含む機械翻訳結果評価装置における機械翻訳結果評価方法であって、
前記機械翻訳結果評価装置は、
前記分割手段によって、翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割するステップと、
前記分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、前記分割手段による前記参照訳文字列の分割結果に基づいて、前記代名詞リストに含まれる各代名詞の出現数をカウントするステップと、
前記代名詞カウント手段によりカウントされた前記機械翻訳文字列における各代名詞の出現数及び前記参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、代名詞に対するＦ値を、品質スコアとして算出するステップと、
を含んで実行することを特徴とする機械翻訳結果評価方法。
前記算出手段によって算出するステップは、全ての代名詞に対する再現率、及び全ての代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、全ての代名詞に対するＦ値を、品質スコアとして算出する請求項５記載の機械翻訳結果評価方法。
コンピュータを、
翻訳元言語の文字列を機械翻訳した目標言語の文字列である機械翻訳文字列、及び前記翻訳元言語の文字列を正しく翻訳した前記目標言語の文字列である参照訳文字列の各々を単語単位に分割する分割手段、
前記分割手段による前記機械翻訳文字列の分割結果に基づいて、予め求められた目標言語の代名詞リストに含まれる各代名詞の出現数をカウントすると共に、前記分割手段による前記参照訳文字列の分割結果に基づいて、前記代名詞リストに含まれる各代名詞の出現数をカウントする代名詞カウント手段、及び
前記代名詞カウント手段によりカウントされた前記機械翻訳文字列における各代名詞の出現数及び前記参照訳文字列における各代名詞の出現数に基づいて、代名詞に対する再現率、及び代名詞に対する適合率を算出し、前記算出した再現率及び適合率に基づいて、代名詞に対するＦ値を、品質スコアとして算出する算出手段
として機能させるためのプログラム。