JP2006252290A

JP2006252290A - 機械翻訳装置及びコンピュータプログラム

Info

Publication number: JP2006252290A
Application number: JP2005069375A
Authority: JP
Inventors: Eiji Aramaki; 英治荒牧; Sadao Kurohashi; 禎夫黒橋; Hidenori Kashioka; 秀紀柏岡; Naoto Kato; 直人加藤
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-03-11
Filing date: 2005-03-11
Publication date: 2006-09-21

Abstract

【目的】翻訳確率を用い、安定した翻訳が可能な用例を選択できる用例ベースの機械翻訳装置を提供する。
【解決手段】機械翻訳装置は、原言語のテキストの構文木から複数の部分木群を作成する部分木群作成部１１０と、複数の部分木群に含まれる部分木の各々に対し、用例データベース４４から当該部分木と一致する原言語の構文木を持つ用例群を検索する用例群検索部１１２と、検索された用例群に含まれる用例の各々に対する翻訳確率を、各用例のコンテキスト類似度以上のコンテキスト類似度を持つ部分用例群内における、当該用例の出現頻度により算出する確率算出部１１６と、この翻訳確率に基づき最尤の部分木群を選択する最尤候補選択部１１８と、最尤候補選択部１１８が選択した部分木群と、当該部分木群に含まれる部分木に対し検索された用例とに基づいて、目的言語のテキストを生成する目的言語テキスト生成部とを含む。
【選択図】図５

Description

この発明は機械翻訳装置に関し、特に、用例ベースの機械翻訳の改良に関する。

最近、データ駆動型（又はコーパスベース）の機械翻訳、例えば統計的機械翻訳（ＳＭＴ）及び用例機械翻訳（ＥＢＭＴ）等、大規模コーパスを利用した機械翻訳が注目されている。

ＳＭＴでは、用例を小さな単位（単語又は句等）に分割し、コーパスを用いて精度高く翻訳確率を計算することにより、ターゲット言語の言語モデルに基づいて受理可能な翻訳を生成する。ＳＭＴのプロセスは統計的な定式化にしたがって行なわれる。

一方ＥＢＭＴでは、入力文と部分的に類似した文をコーパスから作成した用例データベース中で検索し、組合せて翻訳文を生成する。ＥＢＭＴでは、できるだけ長い（サイズの大きな）用例を翻訳に使用しようとする。なぜなら、翻訳文が長いと、考慮されるコンテキストもそれだけ広くなるからである。現在までのところＥＢＭＴでは、何らかの経験的な基準又は尺度に基づいて、できるだけ大きな用例を検索するようにしている。

例えば特許文献１には、入力文と最も類似する原文を持つ用例を、原文と訳文とが対になった用例データベースから探し、その用例を修正することで入力文に対する翻訳を生成する用例翻訳装置が開示されている。特許文献１に記載のものでは、用例を探すための基準はいわゆる編集距離であり、編集距離が最も小さな原文を持つ用例が用例データベースから取出される。編集距離とは、一方の文から他方の文を生成するために、単語の挿入、削除、置換が何個必要とされるか、を表すものであり、二つの文がどの程度類似しているかを表すものと考えられる。
特開２００３−００６１９３号公報、段落００３３〜００５２、図２サダオクロハシ、マコトナガオ、「結合構造に基づく、長い日本語文の統語的構造の分析方法」、計算言語学ジャーナル、第２０巻、第４号、５０７頁〜５３４頁、１９９４年１０月（ＳａｄａｏＫｕｒｏｈａｓｈｉａｎｄＭａｋｏｔｏＮａｇａｏ， "ＡＳｙｎｔａｃｔｉｃＡｎａｌｙｓｉｓＭｅｔｈｏｄｏｆＬｏｎｇＪａｐａｎｅｓｅＳｅｎｔｅｎｃｅｓｂａｓｅｄｏｎｔｈｅＤｅｔｅｃｔｉｏｎｏｆＣｏｎｊｕｎｃｔｉｖｅＳｔｒｕｃｔｕｒｅｓ"，ＪｏｕｒｎａｌｏｆＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，Ｖｏｌ．２０，Ｎｏ．４，ｐｐ．５０７−５３４（１９９４．１０））ユージーンチャルニアク、「最大エントロピー法に示唆されたパーザ」、ＮＡＡＣＬ２０００予稿集、１３２頁〜１３９頁、２０００年（ＥｕｇｅｎｅＣｈａｒｎｉａｋ，"Ａｍａｘｉｍｕｍ−ｅｎｔｒｏｐｙ−ｉｎｓｐｉｒｅｄｐａｒｓｅｒ"，ＩｎＰｒｏｃｅｅｄｉｎｇｓｏｆＮＡＡＣＬ２０００，ｐｐ．１３２−１３９）

簡単に言えば、ＥＢＭＴとＳＭＴとの間には二つの相違が存在する。すなわち、（１）ＥＢＭＴはサイズを重視するのに対し、ＳＭＴは頻度を重視する。（２）ＥＢＭＴは経験的な基準又は尺度に頼るのに対して、ＳＭＴは定式化した方式を用いる。

ＥＢＭＴに関しては、これまで多くの研究がなされてきた。その結果、前記した特許文献１に記載の機械翻訳装置のように、ＥＢＭＴの基本的アイデアが機能することは実証されてきた。しかし、これまでのＥＢＭＴでは、用例のサイズ又は類似度等という、経験的な基準又は尺度が用いられており、用例を探し出すための確固たる基準はなかったといえる。その結果、ＥＢＭＴによる機械翻訳は、ＳＭＴによるものと比較するとその機能が不透明であり、どの程度の翻訳結果が得られるかを予測することは難しかった。

したがって本発明の目的は、経験的な基準を排し、明確な基準を用いて用例ベースの翻訳に適した用例を選択することができる機械翻訳装置を提供することである。

この発明の他の目的は、翻訳確率という確立された基準を用い、安定した翻訳をすることが可能な用例を選択できる、用例ベースの機械翻訳装置を提供することである。

本発明の第１の局面に係る機械翻訳装置は、予め準備された用例データベースを用いて、原言語のテキストを目的言語のテキストに翻訳する機械翻訳装置である。用例データベースは、原言語の構文木と目的言語の構文木との対を含む。この機械翻訳装置は、原言語のテキストの依存構造解析を行ない、構文木を生成するための依存構造解析手段と、依存構造解析手段により生成される構文木を複数通りの分割方法により１又は複数の部分木に分割することにより、複数の部分木群を作成するための部分木群作成手段と、部分木群作成手段により作成された複数の部分木群の各々に含まれる部分木の各々に対し、用例データベースを参照して、当該部分木と所定の関係を有する用例群を検索するための用例検索手段と、用例検索手段により検索された用例群に含まれる用例の各々の翻訳確率を、当該用例群の内から予め定められる基準により選択される部分用例群内における当該用例の出現頻度により計算するための確率計算手段と、複数の部分木群の各々に対し、当該部分木群に含まれる部分木の各々に対して用例検索手段により検索された用例の、確率計算手段により計算された翻訳確率に基づいて最尤の部分木群を用例候補として選択するための最尤候補選択手段と、最尤候補選択手段により選択された部分木群と、当該部分木群に含まれる部分木に対し用例検索手段により検索された用例とに基づいて、原言語のテキストに対する目的言語のテキストを生成するための目的言語テキスト生成手段とを含む。

入力テキストから得られた部分木に対する用例群に含まれる用例に、用例データベースから得られた翻訳確率をそのまま用いるのではなく、当該用例群の内から予め定められる基準により選択される部分用例群内における当該用例の出現頻度により計算した翻訳確率を割当てる。候補となる用例は少なくなるが、ある基準により選択された部分用例群内における出現頻度を用いて翻訳確率を計算することにより、候補となる用例に割当てられる翻訳確率は安定したものとなり、安定した翻訳結果を得ることができる。その結果、用例ベースの機械翻訳装置において、翻訳確率という確立された基準を用い、安定した翻訳をすることが可能な用例を選択することができる。

好ましくは、用例検索手段は、部分木群作成手段により作成された複数の部分木群の各々に含まれる部分木の各々に対し、用例データベースを参照して、当該部分木と一致する原言語の構文木を持つ用例を検索するための手段を含む。

さらに好ましくは、確率計算手段は、用例検索手段により検索された用例群に含まれる用例の各々に対し、当該処理対象の用例と対応する部分木との間でコンテキスト類似度を算出するためのコンテキスト類似度算出手段と、用例検索手段により検索された用例群から、用例のコンテキスト類似度と所定の関係にあるコンテキスト類似度を持つ用例からなる部分用例群を抽出するための部分用例群抽出手段と、部分用例群抽出手段中により抽出された部分用例群における当該処理対象の用例の出現確率により、当該処理対象の用例に割当てられている翻訳確率を置換するための手段とを含む。

例えば、部分用例群抽出手段は、用例検索手段により検索された用例群から、用例のコンテキスト類似度の値以上のコンテキスト類似度を持つ用例からなる部分用例群を抽出するための手段を含んでもよい。

より好ましくは、用例データベースには、原言語の構文木と目的言語の構文木とが、それぞれコンテキストを含めて対として格納されており、コンテキスト類似度算出手段は、処理対象の用例の構文木に含まれるコンテキストと、対応する部分木の対応するコンテキストとの間でそれぞれ所定の算出式により算出される類似度の関数として、処理対象の用例の構文木のコンテキスト類似度を算出するための手段を含む。

関数は、処理対象の用例の構文木に含まれるコンテキストと、対応する部分木の対応するコンテキストとの間でそれぞれ所定の算出式により算出される類似度の総和でもよい。

好ましくは、機械翻訳装置は、原言語の単語をその意味にしたがって階層化したシソーラスをさらに含み、所定の算出式は、シソーラスにおける、二つの単語の間の意味的な距離に基づいて算出される。

本発明の第２の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの機械翻訳装置として動作させるものである。

以下、本発明の第１の実施の形態に係る用例機械翻訳システムについて説明する。このシステムは日英の機械翻訳をするものであるが、以下の説明から明らかなとおり、言語の組合わせは任意であり、どのような言語の組合せでも本発明は適用できる。また、以下の説明及び図面において、同一の部品には同一の参照番号を付す。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。

＜第１の実施の形態＞
［構成］
図１に、本発明の第１の実施の形態に係る用例機械翻訳システム３０のブロック図を示す。図１を参照して、用例機械翻訳システム３０は、日本語と英語との多数の対訳文からなるバイリンガルコーパス４０と、英語と日本語との単語の訳語対からなる翻訳辞書５４と、翻訳辞書５４を用い、バイリンガルコーパス４０から用例データベース４４を構築するためのデータベース構築装置４２とを含む。

用例機械翻訳システム３０はさらに、日本語の単語を、その意味にしたがって分類し階層化した日本語のシソーラス４６と、用例データベース４４及びシソーラス４６を用い、日本語の入力文４８を英語の出力文５２に翻訳するための、翻訳確率を用いた用例翻訳装置５０とを含む。

翻訳確率は以下のように定義される。今、英語の部分木ｔと日本語の部分木ｓとを考え、日本語の部分木ｓから英語の部分木ｔが翻訳として得られる確率（翻訳確率）をＰ（ｔ｜ｓ）とする。翻訳確率Ｐ（ｔ｜ｓ）は、次の式で表されるように、用例群中での部分木ｓ，ｔの組合せの出現数を、用例群中の全ての部分木ｓの出現数で除したものである。

ただしｃｏｕｎｔ（ｔ，ｓ）は用例群中における部分木ｔ，ｓの組合せの出現数であり、ｃｏｕｎｔ（＊，ｓ）は用例群中における日本語の部分木ｓの出現数である。

図２を参照して、データベース構築装置４２は、バイリンガルコーパス４０の各対訳に含まれる日本語文の構文解析を行ない、単語の依存構造を作成するための日本語構文解析部７０と、同様に対訳のうち英語文の構文解析を行ない、英語の依存構造を作成するための英語構文解析部７２と、日本語構文解析部７０により作成された日本語文の依存構造と、英語構文解析部７２により作成された英語の依存構造とを対にして記憶するための依存構造記憶部７４とを含む。

本明細書においては、文（句）の依存構造とは、文（句）を構成する構成素の間の支配及び従属の関係を表す構造のことをいう。依存構造は文（句）の構文木の形で表現される。

本実施の形態では、日本語構文解析部７０としては、非特許文献１に記載の日本語パーザＫＮＰを使用する。ＫＮＰの出力する句の単位は、内容語列とその後に続く機能語とからなる。英語構文解析部７２としては、非特許文献２に記載の英語のｎｌパーザを使用する。このパーザは句構造を出力する。この句構造を、句内の主要語に対し所定の規則を適用することで依存構造に変換する。英語構文解析部７２の出力は名詞句又は動詞句の単位からなる。

データベース構築装置４２はさらに、依存構造記憶部７４に記憶された日本語と英語との依存構造の対の間で、翻訳辞書５４を用いて句及び部分木の対応関係を推定するための対応関係推定部７６と、対応関係推定部７６により句及び部分木の対応関係が推定された日本語と英語との依存構造から、部分木の対応関係の組合せを全て生成することにより用例を作成し、用例データベース４４に出力するための翻訳組合せ生成部７８とを含む。

図３に、対応関係が推定された後の依存構造の対から翻訳組合せ生成部７８が作成する対応関係の組合せについて示す。図３を参照して、ある依存構造対２３０が、日本語の依存構造２４０と、英語の依存構造２４２とを含むものとする。そして、対応関係推定部７６により、対応関係２５０、２５２、２５４が推定されたものとする。すなわち、日本語の依存構造２４０の「日本語の」と英語の依存構造２４２の「Japanese」との間に対応関係２５０が、「新聞を」と「newspaper」との間に対応関係２５２が、「下さい」と「Give me」との間に対応関係２５４が、それぞれ推定されたものとする。

この場合、翻訳組合せ生成部７８は、対応関係２５０のみを含む用例２６０、対応関係２５２のみを含む用例２７０、対応関係２５０及び対応関係２５２を含む用例２８０、対応関係２５４及び対応関係２５２を含む用例２９０、対応関係２５４のみを含む用例３００、及び対応関係２５０，２５２及び２５４を全て含む用例３１０を全て生成し、用例データベース４４に格納する。なおこのとき、各用例は、その用例で特に対応関係にある句として定めた句の対だけでなく、依存構造の中のその他の句も構文木形式で含んでいる。これは、実際の翻訳において、入力文と用例との間のコンテキスト類似度（後述）を算出するために必要なためである。なおコンテキストとは、文の依存構造において、着目している用例と親子関係にある句等、依存構造において着目している用例と隣接している句のことをいう。

図３から明らかなように、本実施の形態における用例とは、日本語と英語との対訳から作成された部分木（句）同士の対のことを言い、特にそれらに隣接する句も含んでいる。

図４に、図１に示す用例翻訳装置５０のブロック図を示す。図４を参照して、用例翻訳装置５０は、日本語の入力文４８に対する構文解析を行なって依存構造を示す構文木９６を出力するための構文解析部９０と、構文解析部９０が出力する構文木９６に基づき、シソーラス４６を使用して算出されるコンテキスト類似度を用いた後述の検索方法により、入力文４８に対し用例翻訳する際に最も適切と判定される用例の組合せ（以下「最尤候補」と呼ぶ。）９８を用例データベース４４中の用例から選択し出力するための用例選択部９２と、用例選択部９２により選択された最尤候補９８に含まれる英語句の構文木に基づき、入力文４８に対する翻訳を作成し出力文５２を出力するための文生成部９４とを含む。構文解析部９０としては、前述したＫＮＰを用いる。

図５に、用例選択部９２のより詳細なブロック図を示す。図５を参照して、用例選択部９２は、図６に示すように、構文木９６を複数通りの分割方法により部分木に分割し、構文木９６を構成することが可能な部分木の組合せ（部分木群）１６０，１６２，１６４，１６６等を全て作成するための部分木群作成部１１０と、部分木群作成部１１０により作成された部分木群の各々を構成する部分木の各々について、用例データベース４４を参照して当該部分木と一致する日本語の構文木を持つ用例群を検索・抽出し、用例群１２０として出力するための用例群検索部１１２と、用例群検索部１１２が出力した用例群１２０を構文木９６とともに記憶するための用例群記憶部１１４とを含む。

なお、図６において最下部に示す部分木１６６は、構文木９６の全体と一致しているが、そうしたものが用例データベース４４に格納されている例は少ない。このように、想定される部分木が用例データベース４４中に存在しないときは、本実施の形態に係る部分木群作成部１１０は当該部分木については出力しない。逆に、そうした部分木が用例データベース４４に存在しているときには、当該用例を入力文に対する翻訳文としてそのまま出力すればよい。

再び図５を参照して、用例選択部９２はさらに、用例群記憶部１１４に記憶された用例の各々に対し、シソーラス４６を参照して算出されるコンテキスト類似度を用いて翻訳確率を計算するための確率算出部１１６と、確率算出部１１６により算出された翻訳確率を用い、各部分木の組合せにより得られる文全体の翻訳確率を計算し、最も文の翻訳確率が高くなる部分木の組合せを最尤候補として選択し最尤候補９８として出力するための最尤候補選択部１１８とを含む。なお、本実施の形態では、文全体の翻訳確率は、その文を構成する部分木の翻訳確率を全て掛け合わせることにより算出する。

すなわち、ある部分木の組合せｄ_ｉが、Ｍ_ｉ個の部分木を含むものとすると、部分木の組合せｄｉは以下のように書くことができる。

ただしｓ_ｉｊは入力文の部分木の組合せｄ_ｊを構成するｊ番目の部分木を表す。

部分木ｓ_ｉｊに対し英語の表現ｔ_ｉｊが翻訳確率Ｐ（ｔ_ij｜ｓ_ij）で選択されるものとする。この場合、部分木の組合せｄｉの全体に対する翻訳確率Ｔ_ｐ（ｄ_ｉ）は以下の式により算出される。

そして、以下の式により、入力に対する最尤の翻訳を与える部分木の組合せｄ_ｍを求める。

この部分木の組合せｄｍから得られた翻訳が入力に対する最尤の英語訳となる。

図７に、確率算出部１１６のより詳細なブロック図を示す。図７を参照して、確率算出部１１６は、用例群記憶部１１４に記憶された用例群中の用例の各々に対し、当該用例中の日本語のコンテキストを含めた構文木と、入力文のコンテキストを含めた対応する部分木との間のコンテキスト類似度を算出し、その値以上のコンテキスト類似度を有する用例のみを部分用例群として抽出するための類似用例検索部１４２と、類似用例検索部１４２から用例中の日本語のコンテキストを含んだ構文木を与えられ、入力構文木９６中の対応する部分木との間でコンテキスト類似度を算出し類似用例検索部１４２に返すためのコンテキスト類似度算出部１４０とを含む。類似用例検索部１４２により抽出された部分用例群はコンテキスト類似度付サブコーパス１４４に記憶される。

確率算出部１１６はさらに、用例群記憶部１１４に記憶された各部分木に対し、コンテキスト類似度付サブコーパス１４４に記憶された部分用例群の中における当該部分木の出現確率からなる翻訳確率を割当てるための確率計算部１４６を含む。

類似用例検索部１４２は、用例群記憶部１１４に記憶された各用例に対し、当該用例のコンテキスト確率以上のコンテキスト確率を持つ用例のみを用例群記憶部１１４から抽出する。これをコンテキスト確率に基づくフィルタリングと呼ぶ。このフィルタリングを用いることにより、用例の翻訳確率が、自分自身のコンテキスト確率以上のコンテキスト確率を持つ用例の出現数を基準として算出される。この処理により、英語表現のあいまいさが削減される。

コンテキスト類似度とは、入力文の構文木と、用例との間で、意味的な距離（近さ）を規定するものである。図８に示すように、本実施の形態では、入力文と、日本語部分ｓ及び英語部分ｔが対になった用例の日本語部分ｓ（以下単に用例ｓと呼ぶ。）との間のコンテキスト類似度context_sim(s)は次の式で定義される。

ただし、図８に示すように、ｉ（図８におけるｉ_１〜ｉ_３）は用例ｓと隣接する句（コンテキスト）を、ｊ（図８におけるｊ_１〜ｊ_３）は句ｉに対応する入力文中の句を、それぞれ指し、Ｎはｉの集合（図８に示す例ではＮ＝｛ｉ_１，ｉ_２，ｉ_３｝）を指す。すなわち、コンテキスト類似度は、入力文の構文木に含まれるコンテキストｉと他の用例の構文木に含まれる対応する句ｊとの間で算出される類似度ｓｉｍ（ｉ，ｊ）の総和をいう。類似度ｓｉｍ（ｉ，ｊ）は二つの句ｉ、ｊの間の類似度であり、シソーラス４６を用いて次の式により定義される。

ｄ_ｉとｄ_ｊはそれぞれ、シソーラス中における語ｉと語ｊとの深さを指し、ｄ_ｃはシソーラス４６の意味階層において語ｉと語ｊとが共通に属するノードのうち最も深いもの（最も特定的なもの）をいう。語ｉ又は語ｊが複合語等の場合には、その主要語について類似度を算出する。

例えば、「彼はグラウンドをかける」において、入力句「グラウンド（を）」と用例句「広場（を）」との間で計算されるコンテキスト類似度が０．８であるものとする。この場合、用例群記憶部１１４に記憶された用例の内で、入力句「グラウンド（を）」との間のコンテキスト類似度が０．８以上の用例のみがコンテキスト類似度付サブコーパス１４４に抽出される。そして、「グラウンド（を）」の翻訳確率は、コンテキスト類似度付サブコーパス１４４中に含まれる用例の中での「グラウンド（を）」の出現確率により計算される。この例を図９に示す。

図９を参照して、日本語の「かける」に対応する用例として、「広場をかける」、「野原をかける」、「土地をかける」、…、「電話をかける」、…、「金銭をかける」などが存在する。これらと「グラウンドをかける」のコンテキスト「グラウンド（を）」との間でコンテキスト類似度を算出し、その結果が図９に示されるとおりであるものとする。用例群記憶部１１４に記憶された用例と、「グラウンド（を）」との間のコンテキスト類似度が０．８であれば、図９に示される例のうち、コンテキスト類似度が０．８以上の３個のみ（図９において一点鎖線で示す。）がコンテキスト類似度付サブコーパス１４４に抽出される。この場合、日本語の「かける」に対し、対応英語が「ｒｕｎ」となっている用例が２個、「ｂｅｔ」となっている用例が１個である。したがって翻訳確率Ｐ（ｒｕｎ｜かける）＝２／３、Ｐ（ｂｅｔ｜かける）は１／３となる。

このように、入力構造木と一致する日本語の部分木を持つものとして抽出された用例のうち、コンテキスト類似度が高いもののみを用いて翻訳確率を計算する。これにより、コンテキスト類似度を考慮せず翻訳確率を計算した場合と比較して翻訳結果はより安定したものとなる。

再び図４を参照して、文生成部９４は、このようにして得られた最尤候補の部分木の組合せと、その部分木の各々に対応する用例中の英語句とを用いて英語の文を生成する。この際、用例中における依存関係は保存され、用例間の依存関係は入力文中における対応する日本語句の依存関係と等しくされる。

例えば、図１０を参照して、入力文２００から出力文２０２が得られたものとする。入力文２００は、用例２１０と用例２１２とを含み、出力文２０２は用例２１０から得られた英語の部分木２２０と、用例２１２から得られた英語の部分木２２２とを含むものとする。この場合、部分木２２０は、用例２１０の依存関係を保存している。すなわち、英語の部分木２２０における英語句Ａ’と英語句Ｂ’との間の依存関係は、対応する日本語の部分木２１０における、これらに対応する日本語句Ａと日本語句Ｂとの間の依存関係と一致している。

これに対し英語句Ｂ’と英語句Ｃ’とは互いに異なる部分木２１０、２１２からそれぞれ得られたものである。この場合には、出力文２０２における句Ｂ’と句Ｃ’との間の依存関係は、入力文２００における句Ｂと句Ｃとの間の依存関係と等しくなるように出力文２０２が生成される。

［動作］
以上、構成について説明した用例機械翻訳システム３０（図１参照）は以下のように動作する。用例機械翻訳システム３０の動作は二つの局面に分けられる。第１の局面は、データベース構築装置４２による用例データベース４４の構築である。第２の局面は、用例データベース４４及びシソーラス４６を用いた、用例翻訳装置５０による入力文４８の翻訳である。

−第１の局面：用例データベースの構築−
第１の局面では、データベース構築装置４２は以下のように動作する。図１を参照して、バイリンガルコーパス４０及び翻訳辞書５４が予めコンピュータ読取可能な形式で準備されているものとする。

図２を参照して、データベース構築装置４２の日本語構文解析部７０及び英語構文解析部７２は、それぞれバイリンガルコーパス４０中の用例の一つから日本語文及び英語文をそれぞれ読出し、構文解析して結果を依存構造記憶部７４に記憶させる。対応関係推定部７６は、依存構造記憶部７４に格納された日本語と英語との構文木を読出し、翻訳辞書５４を参照することにより、日本語と英語との間の、句の対応関係を推定する。句の対応関係を示す情報が付された構文木の対は翻訳組合せ生成部７８に与えられる。

翻訳組合せ生成部７８は、与えられた構文木の対に基づき、図３に示されるように、句の対応関係の組合せとして可能なものを全て作成し、それぞれのコンテキスト情報（構文木）とともに用例データベース４４に用例として格納する。

バイリンガルコーパス４０に含まれる処理対象の用例に対し、上記した処理が終了することにより、用例データベース４４が完成する。

−第２の局面：用例翻訳−
第２の局面では、データベース構築装置４２は以下のように動作する。

図４を参照して、入力文４８が与えられると、構文解析部９０が入力文４８を構文解析し、その結果得られた構文木９６を用例選択部９２に与える。

図５を参照して、用例選択部９２の部分木群作成部１１０は、図６の左側に示されるように、入力される構文木９６を複数通りの分割方法で部分木に分割し、構文木９６を構成する部分木の組合せとして可能な全てのものを作成し用例群検索部１１２に与える。

用例群検索部１１２は、部分木群作成部１１０から与えられた部分木の組合せの全てについて、それらを構成する部分木の各々に対し、当該部分木と一致する日本語の構造木を持つ用例を用例データベース４４から抽出する。用例群検索部１１２は、このようにして得られた用例を全て用例群記憶部１１４に記憶させる。

図７を参照して、確率算出部１１６は、用例群記憶部１１４に記憶された用例の各々に対し、以下の処理を実行する。類似用例検索部１４２は最初に、当該用例の構文木と、構文木９６のうちで対応する部分木との間のコンテキスト類似度を、コンテキスト類似度算出部１４０に依頼して算出させる。次に類似用例検索部１４２は、用例群記憶部１１４に記憶された用例中の日本語の構造木と、構文木９６の中で対応する部分木との間のコンテキスト類似度を、コンテキスト類似度算出部１４０に依頼して算出させる。類似用例検索部１４２はさらに、こうして算出されたコンテキスト類似度を用い、用例群記憶部１１４に格納された用例のうち、処理対象の用例に対して算出されたコンテキスト類似度以上のコンテキスト類似度を持つ用例のみをコンテキスト類似度付サブコーパス１４４に書出す。

確率計算部１４６は、コンテキスト類似度付サブコーパス１４４に上記した条件を満たす全ての用例が書出されると、それらの中における処理対象の用例の出現頻度に基づき、その出現確率を算出する。確率計算部１４６は、算出された出現確率を用例群記憶部１１４に記憶された処理対象の用例の翻訳確率として用例群記憶部１１４の内容を書換える。

確率算出部１１６は、この処理を、用例群記憶部１１４に記憶された部分木の組合せを構成する全ての用例について行なう。

再び図５を参照して、最尤候補選択部１１８は、こうして計算された翻訳確率を用い、各部分木の組合せごとに翻訳確率を計算する。すなわち、最尤候補選択部１１８は、図６に示される各部分木の組合せ１６０，１６２，１６４等の各々に対し、それらを構成する部分木に割当てられた翻訳確率の積により、その組合せの翻訳確率を算出する。最尤候補選択部１１８は、こうして算出された翻訳確率が最も大きくなる組合せを最尤候補として選択し、最尤候補９８として出力する。

例えば図６において、組合せ１６０については、日本語句のうち、「かける」の部分について二つの用例が得られ、それらの翻訳確率は０．０５（ｒｕｎ）と０．１（ｂｅｔ）である。この二つのうち、翻訳確率の高い方の「ｂｅｔ」が選択される。他の二つの日本語句については、それぞれ「ｈｅ」及び「ｇｒｏｕｎｄ」が最も高い翻訳確率を持つ用例として検索され、それぞれ０．７及び０．９であるものとする。それらを組合わせて得られる全体の翻訳確率をＴｐ（ｄ_１）とすると、Ｔｐ（ｄ_１）は以下の式により算出される
Ｔｐ（ｄ_１）＝０．７（ｈｅ）×０．９（ｇｒｏｕｎｄ）×０．１（ｂｅｔ）
＝０．０６
同様に、組合せ１６２についてはＴｐ（ｄ_２）＝０．９×０．２＝０．１８、組合せ１６４についてはＴｐ（ｄ_３）＝０．７×０．８＝０．５６と計算される。したがってこの例では、組合せ１６４が最尤候補として選択される。

図４を参照して、文生成部９４は、こうして選択された最尤候補９８に含まれる英語句の依存構造と、入力文４８の依存構造とに基づき、入力文４８に対する翻訳を作成し出力文５２を出力する。すなわち、文生成部９４は、最尤候補９８を構成する部分木の組合せと、その部分木の各々に付された用例中の英語句とを用いて英語の文を生成する。この際、図１０を参照して説明したように、用例中における依存関係は保存され、用例間の依存関係は、入力文中における対応する日本語句の依存関係と等しくされる。

［コンピュータによる実現および動作］
この実施の形態の用例機械翻訳システム３０は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現可能である。図１１は、この用例機械翻訳システム３０を実現するためのコンピュータシステム３３０の外観を示す図である。図１２はコンピュータシステム３３０の内部構成を示す。

図１１を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２およびＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図１２を参照して、コンピュータ３４０は、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２およびＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、プリンタ３４４を含んでいる。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０を上記した用例機械翻訳システム３０として動作させるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０またはＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２またはＦＤ３６４に記憶されており、その記憶内容はハードディスク３５４に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。なお、プログラムはハードディスク３５４を経由することなくＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、またはネットワークを介して、直接にＲＡＭ３６０にロードされてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態の用例機械翻訳システム３０としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）またはサードパーティのプログラム、もしくはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した用例機械翻訳システム３０の各機能を実現する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

また、データベース構築装置４２及び用例翻訳装置５０もそれぞれ、コンピュータハードウェア及びソフトウェアにより別個に実現可能であることもいうまでもない。

＜実験＞
［実験条件］
本実施の形態に係る用例機械翻訳システム３０の性能評価のため、以下のような実験を行なった。トレーニングコーパスとして、２万個の英語−日本語対訳からなる、旅行ドメインのコーパスを用いた。このトレーニングコーパスから、データベース構築装置４２により用例データベース４４を構築した。この用例データベース４４を用い、テストセットに含まれる文の翻訳を行なった。

テストセットは日本語の５００文と、それらに対する基準翻訳として英語文５００×１６個とを含む。すなわち、一つの日本語文に対して正解の英語訳として１６文を準備した。

評価のため、以下の５つのシステムを用いて翻訳を行なった。

・提案システム：上記実施の形態に係る用例翻訳装置５０
・ベーシック：用例選択において、用例翻訳装置５０と異なり経験的な基準を用いたもの。このシステムの文生成には、図４に示す文生成部９４と同じメカニズムを用いている。

・ベースライン：文字ベースのＤＰ（ＤｙｎａｍｉｃＰｒｏｇｒａｍｍｉｎｇ）マッチング手法により、入力日本語文に最も類似した日本語文を持つ用例を検索し、検索された用例に含まれる英語文を出力する用例ベース機械翻訳装置。

・Ｃ１及びＣ２：いずれも市販の機械翻訳システム。

［評価］
評価は、以下の条件により、表１に示す５つの評価基準によって行なった。

・ケース・インセンシティブ
・句読点（．，？！”）なし
・ハイフンなし
・数字はスペルアウト
・品詞情報付き

［結果］
結果を表２に示す。提案システムの精度がベーシックの精度とほぼ同程度であることから、本実施の形態に係るシステムにおいて翻訳精度がうまく機能していることが分かる。

［コーパスサイズと精度］
トレーニングコーパスとして使用するコーパスのサイズと翻訳精度（ＢＬＥＵ）との関係を、本実施の形態に係るシステムと、上記したベーシックシステムとについて調べた。その結果を図１３に示す。

図１３を参照して、コーパスサイズの全ての範囲において、本実施の形態に係るシステムの方がベーシックシステムよりもよい値を示した。特に、コーパスサイズが比較的小さな領域（コーパスサイズが５０００程度）でその差が最も大きくなった。この結果により、トレーニングデータ数が少ないときには、本実施の形態に係るシステムの方がベーシックシステムよりも頑健な結果を出すことができることが分かる。

さらに注目すべきは、トレーニングデータ数が多くなり、２００００程度になってもまだ精度に改善が見られることである。この結果、トレーニングコーパスのサイズが大きくなると、さらに本実施の形態に係るシステムの性能が向上することが分かる。

以上のように本実施の形態に係る用例機械翻訳システム３０によれば、翻訳確率をコンテキスト類似度を用いて計算した結果、用例数が比較的少ないときにも頑健な用例ベース翻訳を行なうことができる。また、用例数が大きくなるとさらに精度を高めることができる。

＜可能な変形例＞
上記した実施の形態は、日本語から英語への用例ベースの翻訳を行なうものであった。しかし、本発明はそのような言語の組合せに限定されるわけではなく、また実施の形態に記載したような翻訳方向のみに限定されるわけでもない。二つの言語の対訳からなるコーパスが存在し、各々の言語に対する構文解析が可能であれば、上記した実施の形態と同様、当該言語間の任意の方向の用例ベースの翻訳を実現できる。

また、上記実施の形態では、確率算出部１１６は各用例の翻訳確率を計算するにあたり、コンテキスト類似度が当該用例のコンテキスト類似度以上であるもののみを用いた。しかし本発明はそのような実施の形態には限定されない。安定した翻訳を実現するためには、コンテキスト類似度がある条件により定められる値以上であればよい。例えば、各用例のコンテキスト類似度の８割程度の値以上のコンテキスト類似度を持つ用例のみを翻訳確率の計算で用いるようにしてもよい。

さらに、上記実施の形態では、コンテキスト類似度を算出する際の句の間の類似度ｓｉｍとして、シソーラスの階層関係により算出されるものを用いた。しかし本発明はそうした実施の形態には限定されない。各句に対し、各々が特定の意味傾向を表す複数の要素からなる特徴ベクトルを割当てたものを用意しておき、各ベクトルの間でベクトル類似度を算出することで句の間の類似度を算出するようにしてもよい。

また、上記実施の形態では、コンテキスト類似度を算出する際に、着目している語に隣接する句のみをコンテキストとしている。しかし本発明はそのような実施の形態には限定されず、さらに遠くの句までコンテキストとするようにしてもよい。この場合、着目している句からの距離により、例えば着目している句に近い句ほど重みが大きくなるように、各句の類似度に重みを割当てるようにしてもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。

本発明の第１の実施の形態に係る用例機械翻訳システム３０のブロック図である。図１に示すデータベース構築装置４２のブロック図である。図１に示す用例データベース４４の内容を説明するための図である。図１に示す用例翻訳装置５０のブロック図である。図４に示す用例選択部９２のブロック図である。図５に示す部分木群作成部１１０及び用例群検索部１１２の機能を説明するための図である。図５に示す確率算出部１１６のブロック図である。確率算出部１１６におけるコンテキスト類似度の算出方法を説明するための図である。コンテキスト類似度context_simと、確率算出部１１６の機能とを説明するための図である。図４に示す文生成部９４の動作を説明するための図である。本発明の一実施の形態に係る用例機械翻訳システム３０を実現するコンピュータの外観図である。図１１に示すコンピュータのブロック図である。コーパスサイズと機械翻訳システムの性能との関係を示すグラフである。

符号の説明

３０用例機械翻訳システム
４０バイリンガルコーパス
４２データベース構築装置
４４用例データベース
４６シソーラス
４８入力文
５０用例翻訳装置
５２出力文
７０日本語構文解析部
７２英語構文解析部
７４依存構造記憶部
７６対応関係推定部
７８翻訳組合せ生成部
９０構文解析部
９２用例選択部
９４文生成部
１１０部分木群作成部
１１２用例群検索部
１１４用例群記憶部
１１６確率算出部
１１８最尤候補選択部
１４０コンテキスト類似度算出部
１４２類似用例検索部
１４４コンテキスト類似度付サブコーパス
１４６確率計算部

Claims

予め準備された用例データベースを用いて、原言語のテキストを目的言語のテキストに翻訳する機械翻訳装置であって、前記用例データベースは、前記原言語の構文木と前記目的言語の構文木との対を含み、前記機械翻訳装置は、
前記原言語のテキストの依存構造解析を行ない、構文木を生成するための依存構造解析手段と、
前記依存構造解析手段により生成される構文木を複数通りの分割方法により１又は複数の部分木に分割することにより、複数の部分木群を作成するための部分木群作成手段と、
前記部分木群作成手段により作成された複数の部分木群の各々に含まれる部分木の各々に対し、前記用例データベースを参照して、当該部分木と所定の関係を有する用例群を検索するための用例検索手段と、
前記用例検索手段により検索された用例群に含まれる用例の各々の翻訳確率を、当該用例群の内から予め定められる基準により選択される部分用例群内における当該用例の出現頻度により計算するための確率計算手段と、
前記複数の部分木群の各々に対し、当該部分木群に含まれる部分木の各々に対して前記用例検索手段により検索された用例の、前記確率計算手段により計算された翻訳確率に基づいて最尤の部分木群を用例候補として選択するための最尤候補選択手段と、
前記最尤候補選択手段により選択された部分木群と、当該部分木群に含まれる部分木に対し前記用例検索手段により検索された用例とに基づいて、前記原言語のテキストに対する前記目的言語のテキストを生成するための目的言語テキスト生成手段とを含む、機械翻訳装置。
前記確率計算手段は、
前記用例検索手段により検索された用例群に含まれる用例の各々に対し、
当該処理対象の用例と対応する部分木との間でコンテキスト類似度を算出するためのコンテキスト類似度算出手段と、
前記用例検索手段により検索された用例群から、前記用例のコンテキスト類似度と所定の関係にあるコンテキスト類似度を持つ用例からなる部分用例群を抽出するための部分用例群抽出手段と、
前記部分用例群抽出手段中により抽出された部分用例群における当該処理対象の用例の出現確率により、当該処理対象の用例に割当てられている翻訳確率を置換するための手段とを含む、請求項１に記載の機械翻訳装置。
前記部分用例群抽出手段は、前記用例検索手段により検索された用例群から、前記用例のコンテキスト類似度の値以上のコンテキスト類似度を持つ用例からなる部分用例群を抽出するための手段を含む、請求項２に記載の機械翻訳装置。
コンピュータにより実行されると、当該コンピュータを請求項１〜請求項３のいずれかに記載の機械翻訳装置として動作させる、コンピュータプログラム。