JP2006252290A - 機械翻訳装置及びコンピュータプログラム - Google Patents

機械翻訳装置及びコンピュータプログラム Download PDF

Info

Publication number
JP2006252290A
JP2006252290A JP2005069375A JP2005069375A JP2006252290A JP 2006252290 A JP2006252290 A JP 2006252290A JP 2005069375 A JP2005069375 A JP 2005069375A JP 2005069375 A JP2005069375 A JP 2005069375A JP 2006252290 A JP2006252290 A JP 2006252290A
Authority
JP
Japan
Prior art keywords
group
subtree
translation
partial
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2005069375A
Other languages
English (en)
Inventor
Eiji Aramaki
英治 荒牧
Sadao Kurohashi
禎夫 黒橋
Hidenori Kashioka
秀紀 柏岡
Naoto Kato
直人 加藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2005069375A priority Critical patent/JP2006252290A/ja
Publication of JP2006252290A publication Critical patent/JP2006252290A/ja
Pending legal-status Critical Current

Links

Images

Abstract

【目的】翻訳確率を用い、安定した翻訳が可能な用例を選択できる用例ベースの機械翻訳装置を提供する。
【解決手段】機械翻訳装置は、原言語のテキストの構文木から複数の部分木群を作成する部分木群作成部110と、複数の部分木群に含まれる部分木の各々に対し、用例データベース44から当該部分木と一致する原言語の構文木を持つ用例群を検索する用例群検索部112と、検索された用例群に含まれる用例の各々に対する翻訳確率を、各用例のコンテキスト類似度以上のコンテキスト類似度を持つ部分用例群内における、当該用例の出現頻度により算出する確率算出部116と、この翻訳確率に基づき最尤の部分木群を選択する最尤候補選択部118と、最尤候補選択部118が選択した部分木群と、当該部分木群に含まれる部分木に対し検索された用例とに基づいて、目的言語のテキストを生成する目的言語テキスト生成部とを含む。
【選択図】 図5

Description

この発明は機械翻訳装置に関し、特に、用例ベースの機械翻訳の改良に関する。
最近、データ駆動型(又はコーパスベース)の機械翻訳、例えば統計的機械翻訳(SMT)及び用例機械翻訳(EBMT)等、大規模コーパスを利用した機械翻訳が注目されている。
SMTでは、用例を小さな単位(単語又は句等)に分割し、コーパスを用いて精度高く翻訳確率を計算することにより、ターゲット言語の言語モデルに基づいて受理可能な翻訳を生成する。SMTのプロセスは統計的な定式化にしたがって行なわれる。
一方EBMTでは、入力文と部分的に類似した文をコーパスから作成した用例データベース中で検索し、組合せて翻訳文を生成する。EBMTでは、できるだけ長い(サイズの大きな)用例を翻訳に使用しようとする。なぜなら、翻訳文が長いと、考慮されるコンテキストもそれだけ広くなるからである。現在までのところEBMTでは、何らかの経験的な基準又は尺度に基づいて、できるだけ大きな用例を検索するようにしている。
例えば特許文献1には、入力文と最も類似する原文を持つ用例を、原文と訳文とが対になった用例データベースから探し、その用例を修正することで入力文に対する翻訳を生成する用例翻訳装置が開示されている。特許文献1に記載のものでは、用例を探すための基準はいわゆる編集距離であり、編集距離が最も小さな原文を持つ用例が用例データベースから取出される。編集距離とは、一方の文から他方の文を生成するために、単語の挿入、削除、置換が何個必要とされるか、を表すものであり、二つの文がどの程度類似しているかを表すものと考えられる。
特開2003−006193号公報、段落0033〜0052、図2 サダオ クロハシ、マコト ナガオ、「結合構造に基づく、長い日本語文の統語的構造の分析方法」、計算言語学ジャーナル、第20巻、第4号、507頁〜534頁、1994年10月(Sadao Kurohashi and Makoto Nagao, "A Syntactic Analysis Method of Long Japanese Sentences based on the Detection of Conjunctive Structures", Journal of Computational Linguistics, Vol.20, No.4, pp.507−534 (1994.10)) ユージーン チャルニアク、「最大エントロピー法に示唆されたパーザ」、NAACL2000予稿集、132頁〜139頁、2000年(Eugene Charniak,"A maximum−entropy−inspired parser",In Proceedings of NAACL2000,pp.132−139)
簡単に言えば、EBMTとSMTとの間には二つの相違が存在する。すなわち、(1)EBMTはサイズを重視するのに対し、SMTは頻度を重視する。(2)EBMTは経験的な基準又は尺度に頼るのに対して、SMTは定式化した方式を用いる。
EBMTに関しては、これまで多くの研究がなされてきた。その結果、前記した特許文献1に記載の機械翻訳装置のように、EBMTの基本的アイデアが機能することは実証されてきた。しかし、これまでのEBMTでは、用例のサイズ又は類似度等という、経験的な基準又は尺度が用いられており、用例を探し出すための確固たる基準はなかったといえる。その結果、EBMTによる機械翻訳は、SMTによるものと比較するとその機能が不透明であり、どの程度の翻訳結果が得られるかを予測することは難しかった。
したがって本発明の目的は、経験的な基準を排し、明確な基準を用いて用例ベースの翻訳に適した用例を選択することができる機械翻訳装置を提供することである。
この発明の他の目的は、翻訳確率という確立された基準を用い、安定した翻訳をすることが可能な用例を選択できる、用例ベースの機械翻訳装置を提供することである。
本発明の第1の局面に係る機械翻訳装置は、予め準備された用例データベースを用いて、原言語のテキストを目的言語のテキストに翻訳する機械翻訳装置である。用例データベースは、原言語の構文木と目的言語の構文木との対を含む。この機械翻訳装置は、原言語のテキストの依存構造解析を行ない、構文木を生成するための依存構造解析手段と、依存構造解析手段により生成される構文木を複数通りの分割方法により1又は複数の部分木に分割することにより、複数の部分木群を作成するための部分木群作成手段と、部分木群作成手段により作成された複数の部分木群の各々に含まれる部分木の各々に対し、用例データベースを参照して、当該部分木と所定の関係を有する用例群を検索するための用例検索手段と、用例検索手段により検索された用例群に含まれる用例の各々の翻訳確率を、当該用例群の内から予め定められる基準により選択される部分用例群内における当該用例の出現頻度により計算するための確率計算手段と、複数の部分木群の各々に対し、当該部分木群に含まれる部分木の各々に対して用例検索手段により検索された用例の、確率計算手段により計算された翻訳確率に基づいて最尤の部分木群を用例候補として選択するための最尤候補選択手段と、最尤候補選択手段により選択された部分木群と、当該部分木群に含まれる部分木に対し用例検索手段により検索された用例とに基づいて、原言語のテキストに対する目的言語のテキストを生成するための目的言語テキスト生成手段とを含む。
入力テキストから得られた部分木に対する用例群に含まれる用例に、用例データベースから得られた翻訳確率をそのまま用いるのではなく、当該用例群の内から予め定められる基準により選択される部分用例群内における当該用例の出現頻度により計算した翻訳確率を割当てる。候補となる用例は少なくなるが、ある基準により選択された部分用例群内における出現頻度を用いて翻訳確率を計算することにより、候補となる用例に割当てられる翻訳確率は安定したものとなり、安定した翻訳結果を得ることができる。その結果、用例ベースの機械翻訳装置において、翻訳確率という確立された基準を用い、安定した翻訳をすることが可能な用例を選択することができる。
好ましくは、用例検索手段は、部分木群作成手段により作成された複数の部分木群の各々に含まれる部分木の各々に対し、用例データベースを参照して、当該部分木と一致する原言語の構文木を持つ用例を検索するための手段を含む。
さらに好ましくは、確率計算手段は、用例検索手段により検索された用例群に含まれる用例の各々に対し、当該処理対象の用例と対応する部分木との間でコンテキスト類似度を算出するためのコンテキスト類似度算出手段と、用例検索手段により検索された用例群から、用例のコンテキスト類似度と所定の関係にあるコンテキスト類似度を持つ用例からなる部分用例群を抽出するための部分用例群抽出手段と、部分用例群抽出手段中により抽出された部分用例群における当該処理対象の用例の出現確率により、当該処理対象の用例に割当てられている翻訳確率を置換するための手段とを含む。
例えば、部分用例群抽出手段は、用例検索手段により検索された用例群から、用例のコンテキスト類似度の値以上のコンテキスト類似度を持つ用例からなる部分用例群を抽出するための手段を含んでもよい。
より好ましくは、用例データベースには、原言語の構文木と目的言語の構文木とが、それぞれコンテキストを含めて対として格納されており、コンテキスト類似度算出手段は、処理対象の用例の構文木に含まれるコンテキストと、対応する部分木の対応するコンテキストとの間でそれぞれ所定の算出式により算出される類似度の関数として、処理対象の用例の構文木のコンテキスト類似度を算出するための手段を含む。
関数は、処理対象の用例の構文木に含まれるコンテキストと、対応する部分木の対応するコンテキストとの間でそれぞれ所定の算出式により算出される類似度の総和でもよい。
好ましくは、機械翻訳装置は、原言語の単語をその意味にしたがって階層化したシソーラスをさらに含み、所定の算出式は、シソーラスにおける、二つの単語の間の意味的な距離に基づいて算出される。
本発明の第2の局面に係るコンピュータプログラムは、コンピュータにより実行されると、当該コンピュータを上記したいずれかの機械翻訳装置として動作させるものである。
以下、本発明の第1の実施の形態に係る用例機械翻訳システムについて説明する。このシステムは日英の機械翻訳をするものであるが、以下の説明から明らかなとおり、言語の組合わせは任意であり、どのような言語の組合せでも本発明は適用できる。また、以下の説明及び図面において、同一の部品には同一の参照番号を付す。それらの名称及び機能も同一である。したがって、それらについての詳細な説明は繰返さない。
<第1の実施の形態>
[構成]
図1に、本発明の第1の実施の形態に係る用例機械翻訳システム30のブロック図を示す。図1を参照して、用例機械翻訳システム30は、日本語と英語との多数の対訳文からなるバイリンガルコーパス40と、英語と日本語との単語の訳語対からなる翻訳辞書54と、翻訳辞書54を用い、バイリンガルコーパス40から用例データベース44を構築するためのデータベース構築装置42とを含む。
用例機械翻訳システム30はさらに、日本語の単語を、その意味にしたがって分類し階層化した日本語のシソーラス46と、用例データベース44及びシソーラス46を用い、日本語の入力文48を英語の出力文52に翻訳するための、翻訳確率を用いた用例翻訳装置50とを含む。
翻訳確率は以下のように定義される。今、英語の部分木tと日本語の部分木sとを考え、日本語の部分木sから英語の部分木tが翻訳として得られる確率(翻訳確率)をP(t|s)とする。翻訳確率P(t|s)は、次の式で表されるように、用例群中での部分木s,tの組合せの出現数を、用例群中の全ての部分木sの出現数で除したものである。
Figure 2006252290
ただしcount(t,s)は用例群中における部分木t,sの組合せの出現数であり、count(*,s)は用例群中における日本語の部分木sの出現数である。
図2を参照して、データベース構築装置42は、バイリンガルコーパス40の各対訳に含まれる日本語文の構文解析を行ない、単語の依存構造を作成するための日本語構文解析部70と、同様に対訳のうち英語文の構文解析を行ない、英語の依存構造を作成するための英語構文解析部72と、日本語構文解析部70により作成された日本語文の依存構造と、英語構文解析部72により作成された英語の依存構造とを対にして記憶するための依存構造記憶部74とを含む。
本明細書においては、文(句)の依存構造とは、文(句)を構成する構成素の間の支配及び従属の関係を表す構造のことをいう。依存構造は文(句)の構文木の形で表現される。
本実施の形態では、日本語構文解析部70としては、非特許文献1に記載の日本語パーザKNPを使用する。KNPの出力する句の単位は、内容語列とその後に続く機能語とからなる。英語構文解析部72としては、非特許文献2に記載の英語のnlパーザを使用する。このパーザは句構造を出力する。この句構造を、句内の主要語に対し所定の規則を適用することで依存構造に変換する。英語構文解析部72の出力は名詞句又は動詞句の単位からなる。
データベース構築装置42はさらに、依存構造記憶部74に記憶された日本語と英語との依存構造の対の間で、翻訳辞書54を用いて句及び部分木の対応関係を推定するための対応関係推定部76と、対応関係推定部76により句及び部分木の対応関係が推定された日本語と英語との依存構造から、部分木の対応関係の組合せを全て生成することにより用例を作成し、用例データベース44に出力するための翻訳組合せ生成部78とを含む。
図3に、対応関係が推定された後の依存構造の対から翻訳組合せ生成部78が作成する対応関係の組合せについて示す。図3を参照して、ある依存構造対230が、日本語の依存構造240と、英語の依存構造242とを含むものとする。そして、対応関係推定部76により、対応関係250、252、254が推定されたものとする。すなわち、日本語の依存構造240の「日本語の」と英語の依存構造242の「Japanese」との間に対応関係250が、「新聞を」と「newspaper」との間に対応関係252が、「下さい」と「Give me」との間に対応関係254が、それぞれ推定されたものとする。
この場合、翻訳組合せ生成部78は、対応関係250のみを含む用例260、対応関係252のみを含む用例270、対応関係250及び対応関係252を含む用例280、対応関係254及び対応関係252を含む用例290、対応関係254のみを含む用例300、及び対応関係250,252及び254を全て含む用例310を全て生成し、用例データベース44に格納する。なおこのとき、各用例は、その用例で特に対応関係にある句として定めた句の対だけでなく、依存構造の中のその他の句も構文木形式で含んでいる。これは、実際の翻訳において、入力文と用例との間のコンテキスト類似度(後述)を算出するために必要なためである。なおコンテキストとは、文の依存構造において、着目している用例と親子関係にある句等、依存構造において着目している用例と隣接している句のことをいう。
図3から明らかなように、本実施の形態における用例とは、日本語と英語との対訳から作成された部分木(句)同士の対のことを言い、特にそれらに隣接する句も含んでいる。
図4に、図1に示す用例翻訳装置50のブロック図を示す。図4を参照して、用例翻訳装置50は、日本語の入力文48に対する構文解析を行なって依存構造を示す構文木96を出力するための構文解析部90と、構文解析部90が出力する構文木96に基づき、シソーラス46を使用して算出されるコンテキスト類似度を用いた後述の検索方法により、入力文48に対し用例翻訳する際に最も適切と判定される用例の組合せ(以下「最尤候補」と呼ぶ。)98を用例データベース44中の用例から選択し出力するための用例選択部92と、用例選択部92により選択された最尤候補98に含まれる英語句の構文木に基づき、入力文48に対する翻訳を作成し出力文52を出力するための文生成部94とを含む。構文解析部90としては、前述したKNPを用いる。
図5に、用例選択部92のより詳細なブロック図を示す。図5を参照して、用例選択部92は、図6に示すように、構文木96を複数通りの分割方法により部分木に分割し、構文木96を構成することが可能な部分木の組合せ(部分木群)160,162,164,166等を全て作成するための部分木群作成部110と、部分木群作成部110により作成された部分木群の各々を構成する部分木の各々について、用例データベース44を参照して当該部分木と一致する日本語の構文木を持つ用例群を検索・抽出し、用例群120として出力するための用例群検索部112と、用例群検索部112が出力した用例群120を構文木96とともに記憶するための用例群記憶部114とを含む。
なお、図6において最下部に示す部分木166は、構文木96の全体と一致しているが、そうしたものが用例データベース44に格納されている例は少ない。このように、想定される部分木が用例データベース44中に存在しないときは、本実施の形態に係る部分木群作成部110は当該部分木については出力しない。逆に、そうした部分木が用例データベース44に存在しているときには、当該用例を入力文に対する翻訳文としてそのまま出力すればよい。
再び図5を参照して、用例選択部92はさらに、用例群記憶部114に記憶された用例の各々に対し、シソーラス46を参照して算出されるコンテキスト類似度を用いて翻訳確率を計算するための確率算出部116と、確率算出部116により算出された翻訳確率を用い、各部分木の組合せにより得られる文全体の翻訳確率を計算し、最も文の翻訳確率が高くなる部分木の組合せを最尤候補として選択し最尤候補98として出力するための最尤候補選択部118とを含む。なお、本実施の形態では、文全体の翻訳確率は、その文を構成する部分木の翻訳確率を全て掛け合わせることにより算出する。
すなわち、ある部分木の組合せdが、M個の部分木を含むものとすると、部分木の組合せdiは以下のように書くことができる。
Figure 2006252290
ただしsijは入力文の部分木の組合せdを構成するj番目の部分木を表す。
部分木sijに対し英語の表現tijが翻訳確率P(tij|sij)で選択されるものとする。この場合、部分木の組合せdiの全体に対する翻訳確率T(d)は以下の式により算出される。
Figure 2006252290
そして、以下の式により、入力に対する最尤の翻訳を与える部分木の組合せdを求める。
Figure 2006252290
この部分木の組合せdmから得られた翻訳が入力に対する最尤の英語訳となる。
図7に、確率算出部116のより詳細なブロック図を示す。図7を参照して、確率算出部116は、用例群記憶部114に記憶された用例群中の用例の各々に対し、当該用例中の日本語のコンテキストを含めた構文木と、入力文のコンテキストを含めた対応する部分木との間のコンテキスト類似度を算出し、その値以上のコンテキスト類似度を有する用例のみを部分用例群として抽出するための類似用例検索部142と、類似用例検索部142から用例中の日本語のコンテキストを含んだ構文木を与えられ、入力構文木96中の対応する部分木との間でコンテキスト類似度を算出し類似用例検索部142に返すためのコンテキスト類似度算出部140とを含む。類似用例検索部142により抽出された部分用例群はコンテキスト類似度付サブコーパス144に記憶される。
確率算出部116はさらに、用例群記憶部114に記憶された各部分木に対し、コンテキスト類似度付サブコーパス144に記憶された部分用例群の中における当該部分木の出現確率からなる翻訳確率を割当てるための確率計算部146を含む。
類似用例検索部142は、用例群記憶部114に記憶された各用例に対し、当該用例のコンテキスト確率以上のコンテキスト確率を持つ用例のみを用例群記憶部114から抽出する。これをコンテキスト確率に基づくフィルタリングと呼ぶ。このフィルタリングを用いることにより、用例の翻訳確率が、自分自身のコンテキスト確率以上のコンテキスト確率を持つ用例の出現数を基準として算出される。この処理により、英語表現のあいまいさが削減される。
コンテキスト類似度とは、入力文の構文木と、用例との間で、意味的な距離(近さ)を規定するものである。図8に示すように、本実施の形態では、入力文と、日本語部分s及び英語部分tが対になった用例の日本語部分s(以下単に用例sと呼ぶ。)との間のコンテキスト類似度context_sim(s)は次の式で定義される。
Figure 2006252290
ただし、図8に示すように、i(図8におけるi〜i)は用例sと隣接する句(コンテキスト)を、j(図8におけるj〜j)は句iに対応する入力文中の句を、それぞれ指し、Nはiの集合(図8に示す例ではN={i,i,i})を指す。すなわち、コンテキスト類似度は、入力文の構文木に含まれるコンテキストiと他の用例の構文木に含まれる対応する句jとの間で算出される類似度sim(i,j)の総和をいう。類似度sim(i,j)は二つの句i、jの間の類似度であり、シソーラス46を用いて次の式により定義される。
Figure 2006252290
とdはそれぞれ、シソーラス中における語iと語jとの深さを指し、dはシソーラス46の意味階層において語iと語jとが共通に属するノードのうち最も深いもの(最も特定的なもの)をいう。語i又は語jが複合語等の場合には、その主要語について類似度を算出する。
例えば、「彼はグラウンドをかける」において、入力句「グラウンド(を)」と用例句「広場(を)」との間で計算されるコンテキスト類似度が0.8であるものとする。この場合、用例群記憶部114に記憶された用例の内で、入力句「グラウンド(を)」との間のコンテキスト類似度が0.8以上の用例のみがコンテキスト類似度付サブコーパス144に抽出される。そして、「グラウンド(を)」の翻訳確率は、コンテキスト類似度付サブコーパス144中に含まれる用例の中での「グラウンド(を)」の出現確率により計算される。この例を図9に示す。
図9を参照して、日本語の「かける」に対応する用例として、「広場をかける」、「野原をかける」、「土地をかける」、…、「電話をかける」、…、「金銭をかける」などが存在する。これらと「グラウンドをかける」のコンテキスト「グラウンド(を)」との間でコンテキスト類似度を算出し、その結果が図9に示されるとおりであるものとする。用例群記憶部114に記憶された用例と、「グラウンド(を)」との間のコンテキスト類似度が0.8であれば、図9に示される例のうち、コンテキスト類似度が0.8以上の3個のみ(図9において一点鎖線で示す。)がコンテキスト類似度付サブコーパス144に抽出される。この場合、日本語の「かける」に対し、対応英語が「run」となっている用例が2個、「bet」となっている用例が1個である。したがって翻訳確率P(run|かける)=2/3、P(bet|かける)は1/3となる。
このように、入力構造木と一致する日本語の部分木を持つものとして抽出された用例のうち、コンテキスト類似度が高いもののみを用いて翻訳確率を計算する。これにより、コンテキスト類似度を考慮せず翻訳確率を計算した場合と比較して翻訳結果はより安定したものとなる。
再び図4を参照して、文生成部94は、このようにして得られた最尤候補の部分木の組合せと、その部分木の各々に対応する用例中の英語句とを用いて英語の文を生成する。この際、用例中における依存関係は保存され、用例間の依存関係は入力文中における対応する日本語句の依存関係と等しくされる。
例えば、図10を参照して、入力文200から出力文202が得られたものとする。入力文200は、用例210と用例212とを含み、出力文202は用例210から得られた英語の部分木220と、用例212から得られた英語の部分木222とを含むものとする。この場合、部分木220は、用例210の依存関係を保存している。すなわち、英語の部分木220における英語句A’と英語句B’との間の依存関係は、対応する日本語の部分木210における、これらに対応する日本語句Aと日本語句Bとの間の依存関係と一致している。
これに対し英語句B’と英語句C’とは互いに異なる部分木210、212からそれぞれ得られたものである。この場合には、出力文202における句B’と句C’との間の依存関係は、入力文200における句Bと句Cとの間の依存関係と等しくなるように出力文202が生成される。
[動作]
以上、構成について説明した用例機械翻訳システム30(図1参照)は以下のように動作する。用例機械翻訳システム30の動作は二つの局面に分けられる。第1の局面は、データベース構築装置42による用例データベース44の構築である。第2の局面は、用例データベース44及びシソーラス46を用いた、用例翻訳装置50による入力文48の翻訳である。
−第1の局面:用例データベースの構築−
第1の局面では、データベース構築装置42は以下のように動作する。図1を参照して、バイリンガルコーパス40及び翻訳辞書54が予めコンピュータ読取可能な形式で準備されているものとする。
図2を参照して、データベース構築装置42の日本語構文解析部70及び英語構文解析部72は、それぞれバイリンガルコーパス40中の用例の一つから日本語文及び英語文をそれぞれ読出し、構文解析して結果を依存構造記憶部74に記憶させる。対応関係推定部76は、依存構造記憶部74に格納された日本語と英語との構文木を読出し、翻訳辞書54を参照することにより、日本語と英語との間の、句の対応関係を推定する。句の対応関係を示す情報が付された構文木の対は翻訳組合せ生成部78に与えられる。
翻訳組合せ生成部78は、与えられた構文木の対に基づき、図3に示されるように、句の対応関係の組合せとして可能なものを全て作成し、それぞれのコンテキスト情報(構文木)とともに用例データベース44に用例として格納する。
バイリンガルコーパス40に含まれる処理対象の用例に対し、上記した処理が終了することにより、用例データベース44が完成する。
−第2の局面:用例翻訳−
第2の局面では、データベース構築装置42は以下のように動作する。
図4を参照して、入力文48が与えられると、構文解析部90が入力文48を構文解析し、その結果得られた構文木96を用例選択部92に与える。
図5を参照して、用例選択部92の部分木群作成部110は、図6の左側に示されるように、入力される構文木96を複数通りの分割方法で部分木に分割し、構文木96を構成する部分木の組合せとして可能な全てのものを作成し用例群検索部112に与える。
用例群検索部112は、部分木群作成部110から与えられた部分木の組合せの全てについて、それらを構成する部分木の各々に対し、当該部分木と一致する日本語の構造木を持つ用例を用例データベース44から抽出する。用例群検索部112は、このようにして得られた用例を全て用例群記憶部114に記憶させる。
図7を参照して、確率算出部116は、用例群記憶部114に記憶された用例の各々に対し、以下の処理を実行する。類似用例検索部142は最初に、当該用例の構文木と、構文木96のうちで対応する部分木との間のコンテキスト類似度を、コンテキスト類似度算出部140に依頼して算出させる。次に類似用例検索部142は、用例群記憶部114に記憶された用例中の日本語の構造木と、構文木96の中で対応する部分木との間のコンテキスト類似度を、コンテキスト類似度算出部140に依頼して算出させる。類似用例検索部142はさらに、こうして算出されたコンテキスト類似度を用い、用例群記憶部114に格納された用例のうち、処理対象の用例に対して算出されたコンテキスト類似度以上のコンテキスト類似度を持つ用例のみをコンテキスト類似度付サブコーパス144に書出す。
確率計算部146は、コンテキスト類似度付サブコーパス144に上記した条件を満たす全ての用例が書出されると、それらの中における処理対象の用例の出現頻度に基づき、その出現確率を算出する。確率計算部146は、算出された出現確率を用例群記憶部114に記憶された処理対象の用例の翻訳確率として用例群記憶部114の内容を書換える。
確率算出部116は、この処理を、用例群記憶部114に記憶された部分木の組合せを構成する全ての用例について行なう。
再び図5を参照して、最尤候補選択部118は、こうして計算された翻訳確率を用い、各部分木の組合せごとに翻訳確率を計算する。すなわち、最尤候補選択部118は、図6に示される各部分木の組合せ160,162,164等の各々に対し、それらを構成する部分木に割当てられた翻訳確率の積により、その組合せの翻訳確率を算出する。最尤候補選択部118は、こうして算出された翻訳確率が最も大きくなる組合せを最尤候補として選択し、最尤候補98として出力する。
例えば図6において、組合せ160については、日本語句のうち、「かける」の部分について二つの用例が得られ、それらの翻訳確率は0.05(run)と0.1(bet)である。この二つのうち、翻訳確率の高い方の「bet」が選択される。他の二つの日本語句については、それぞれ「he」及び「ground」が最も高い翻訳確率を持つ用例として検索され、それぞれ0.7及び0.9であるものとする。それらを組合わせて得られる全体の翻訳確率をTp(d)とすると、Tp(d)は以下の式により算出される
Tp(d)=0.7(he)×0.9(ground)×0.1(bet)
=0.06
同様に、組合せ162についてはTp(d)=0.9×0.2=0.18、組合せ164についてはTp(d)=0.7×0.8=0.56と計算される。したがってこの例では、組合せ164が最尤候補として選択される。
図4を参照して、文生成部94は、こうして選択された最尤候補98に含まれる英語句の依存構造と、入力文48の依存構造とに基づき、入力文48に対する翻訳を作成し出力文52を出力する。すなわち、文生成部94は、最尤候補98を構成する部分木の組合せと、その部分木の各々に付された用例中の英語句とを用いて英語の文を生成する。この際、図10を参照して説明したように、用例中における依存関係は保存され、用例間の依存関係は、入力文中における対応する日本語句の依存関係と等しくされる。
[コンピュータによる実現および動作]
この実施の形態の用例機械翻訳システム30は、コンピュータハードウェアと、そのコンピュータハードウェアにより実行されるプログラムと、コンピュータハードウェアに格納されるデータとにより実現可能である。図11は、この用例機械翻訳システム30を実現するためのコンピュータシステム330の外観を示す図である。図12はコンピュータシステム330の内部構成を示す。
図11を参照して、このコンピュータシステム330は、FD(フレキシブルディスク)ドライブ352およびCD−ROM(コンパクトディスク読出専用メモリ)ドライブ350を有するコンピュータ340と、キーボード346と、マウス348と、モニタ342とを含む。
図12を参照して、コンピュータ340は、FDドライブ352およびCD−ROMドライブ350に加えて、CPU(中央処理装置)356と、CPU356、FDドライブ352およびCD−ROMドライブ350に接続されたバス366と、ブートアッププログラム等を記憶する読出専用メモリ(ROM)358と、バス366に接続され、プログラム命令、システムプログラム、および作業データ等を記憶するランダムアクセスメモリ(RAM)360とを含む。コンピュータシステム330はさらに、プリンタ344を含んでいる。
ここでは示さないが、コンピュータ340はさらにローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
コンピュータシステム330を上記した用例機械翻訳システム30として動作させるためのコンピュータプログラムは、CD−ROMドライブ350またはFDドライブ352に挿入されるCD−ROM362またはFD364に記憶されており、その記憶内容はハードディスク354に転送される。または、プログラムは図示しないネットワークを通じてコンピュータ340に送信されハードディスク354に記憶されてもよい。プログラムは実行の際にRAM360にロードされる。なお、プログラムはハードディスク354を経由することなくCD−ROM362から、FD364から、またはネットワークを介して、直接にRAM360にロードされてもよい。
このプログラムは、コンピュータ340にこの実施の形態の用例機械翻訳システム30としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ340上で動作するオペレーティングシステム(OS)またはサードパーティのプログラム、もしくはコンピュータ340にインストールされる各種ツールキットのモジュールにより提供される。従って、このプログラムはこの実施の形態のシステムおよび方法を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能または「ツール」を呼出すことにより、上記した用例機械翻訳システム30の各機能を実現する命令のみを含んでいればよい。コンピュータシステム330の動作は周知であるので、ここでは繰返さない。
また、データベース構築装置42及び用例翻訳装置50もそれぞれ、コンピュータハードウェア及びソフトウェアにより別個に実現可能であることもいうまでもない。
<実験>
[実験条件]
本実施の形態に係る用例機械翻訳システム30の性能評価のため、以下のような実験を行なった。トレーニングコーパスとして、2万個の英語−日本語対訳からなる、旅行ドメインのコーパスを用いた。このトレーニングコーパスから、データベース構築装置42により用例データベース44を構築した。この用例データベース44を用い、テストセットに含まれる文の翻訳を行なった。
テストセットは日本語の500文と、それらに対する基準翻訳として英語文500×16個とを含む。すなわち、一つの日本語文に対して正解の英語訳として16文を準備した。
評価のため、以下の5つのシステムを用いて翻訳を行なった。
・提案システム:上記実施の形態に係る用例翻訳装置50
・ベーシック:用例選択において、用例翻訳装置50と異なり経験的な基準を用いたもの。このシステムの文生成には、図4に示す文生成部94と同じメカニズムを用いている。
・ベースライン:文字ベースのDP(Dynamic Programming)マッチング手法により、入力日本語文に最も類似した日本語文を持つ用例を検索し、検索された用例に含まれる英語文を出力する用例ベース機械翻訳装置。
・C1及びC2:いずれも市販の機械翻訳システム。
[評価]
評価は、以下の条件により、表1に示す5つの評価基準によって行なった。
・ケース・インセンシティブ
・句読点(.,?!”)なし
・ハイフンなし
・数字はスペルアウト
・品詞情報付き
Figure 2006252290
[結果]
結果を表2に示す。提案システムの精度がベーシックの精度とほぼ同程度であることから、本実施の形態に係るシステムにおいて翻訳精度がうまく機能していることが分かる。
Figure 2006252290
[コーパスサイズと精度]
トレーニングコーパスとして使用するコーパスのサイズと翻訳精度(BLEU)との関係を、本実施の形態に係るシステムと、上記したベーシックシステムとについて調べた。その結果を図13に示す。
図13を参照して、コーパスサイズの全ての範囲において、本実施の形態に係るシステムの方がベーシックシステムよりもよい値を示した。特に、コーパスサイズが比較的小さな領域(コーパスサイズが5000程度)でその差が最も大きくなった。この結果により、トレーニングデータ数が少ないときには、本実施の形態に係るシステムの方がベーシックシステムよりも頑健な結果を出すことができることが分かる。
さらに注目すべきは、トレーニングデータ数が多くなり、20000程度になってもまだ精度に改善が見られることである。この結果、トレーニングコーパスのサイズが大きくなると、さらに本実施の形態に係るシステムの性能が向上することが分かる。
以上のように本実施の形態に係る用例機械翻訳システム30によれば、翻訳確率をコンテキスト類似度を用いて計算した結果、用例数が比較的少ないときにも頑健な用例ベース翻訳を行なうことができる。また、用例数が大きくなるとさらに精度を高めることができる。
<可能な変形例>
上記した実施の形態は、日本語から英語への用例ベースの翻訳を行なうものであった。しかし、本発明はそのような言語の組合せに限定されるわけではなく、また実施の形態に記載したような翻訳方向のみに限定されるわけでもない。二つの言語の対訳からなるコーパスが存在し、各々の言語に対する構文解析が可能であれば、上記した実施の形態と同様、当該言語間の任意の方向の用例ベースの翻訳を実現できる。
また、上記実施の形態では、確率算出部116は各用例の翻訳確率を計算するにあたり、コンテキスト類似度が当該用例のコンテキスト類似度以上であるもののみを用いた。しかし本発明はそのような実施の形態には限定されない。安定した翻訳を実現するためには、コンテキスト類似度がある条件により定められる値以上であればよい。例えば、各用例のコンテキスト類似度の8割程度の値以上のコンテキスト類似度を持つ用例のみを翻訳確率の計算で用いるようにしてもよい。
さらに、上記実施の形態では、コンテキスト類似度を算出する際の句の間の類似度simとして、シソーラスの階層関係により算出されるものを用いた。しかし本発明はそうした実施の形態には限定されない。各句に対し、各々が特定の意味傾向を表す複数の要素からなる特徴ベクトルを割当てたものを用意しておき、各ベクトルの間でベクトル類似度を算出することで句の間の類似度を算出するようにしてもよい。
また、上記実施の形態では、コンテキスト類似度を算出する際に、着目している語に隣接する句のみをコンテキストとしている。しかし本発明はそのような実施の形態には限定されず、さらに遠くの句までコンテキストとするようにしてもよい。この場合、着目している句からの距離により、例えば着目している句に近い句ほど重みが大きくなるように、各句の類似度に重みを割当てるようにしてもよい。
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味および範囲内でのすべての変更を含む。
本発明の第1の実施の形態に係る用例機械翻訳システム30のブロック図である。 図1に示すデータベース構築装置42のブロック図である。 図1に示す用例データベース44の内容を説明するための図である。 図1に示す用例翻訳装置50のブロック図である。 図4に示す用例選択部92のブロック図である。 図5に示す部分木群作成部110及び用例群検索部112の機能を説明するための図である。 図5に示す確率算出部116のブロック図である。 確率算出部116におけるコンテキスト類似度の算出方法を説明するための図である。 コンテキスト類似度context_simと、確率算出部116の機能とを説明するための図である。 図4に示す文生成部94の動作を説明するための図である。 本発明の一実施の形態に係る用例機械翻訳システム30を実現するコンピュータの外観図である。 図11に示すコンピュータのブロック図である。 コーパスサイズと機械翻訳システムの性能との関係を示すグラフである。
符号の説明
30 用例機械翻訳システム
40 バイリンガルコーパス
42 データベース構築装置
44 用例データベース
46 シソーラス
48 入力文
50 用例翻訳装置
52 出力文
70 日本語構文解析部
72 英語構文解析部
74 依存構造記憶部
76 対応関係推定部
78 翻訳組合せ生成部
90 構文解析部
92 用例選択部
94 文生成部
110 部分木群作成部
112 用例群検索部
114 用例群記憶部
116 確率算出部
118 最尤候補選択部
140 コンテキスト類似度算出部
142 類似用例検索部
144 コンテキスト類似度付サブコーパス
146 確率計算部

Claims (4)

  1. 予め準備された用例データベースを用いて、原言語のテキストを目的言語のテキストに翻訳する機械翻訳装置であって、前記用例データベースは、前記原言語の構文木と前記目的言語の構文木との対を含み、前記機械翻訳装置は、
    前記原言語のテキストの依存構造解析を行ない、構文木を生成するための依存構造解析手段と、
    前記依存構造解析手段により生成される構文木を複数通りの分割方法により1又は複数の部分木に分割することにより、複数の部分木群を作成するための部分木群作成手段と、
    前記部分木群作成手段により作成された複数の部分木群の各々に含まれる部分木の各々に対し、前記用例データベースを参照して、当該部分木と所定の関係を有する用例群を検索するための用例検索手段と、
    前記用例検索手段により検索された用例群に含まれる用例の各々の翻訳確率を、当該用例群の内から予め定められる基準により選択される部分用例群内における当該用例の出現頻度により計算するための確率計算手段と、
    前記複数の部分木群の各々に対し、当該部分木群に含まれる部分木の各々に対して前記用例検索手段により検索された用例の、前記確率計算手段により計算された翻訳確率に基づいて最尤の部分木群を用例候補として選択するための最尤候補選択手段と、
    前記最尤候補選択手段により選択された部分木群と、当該部分木群に含まれる部分木に対し前記用例検索手段により検索された用例とに基づいて、前記原言語のテキストに対する前記目的言語のテキストを生成するための目的言語テキスト生成手段とを含む、機械翻訳装置。
  2. 前記確率計算手段は、
    前記用例検索手段により検索された用例群に含まれる用例の各々に対し、
    当該処理対象の用例と対応する部分木との間でコンテキスト類似度を算出するためのコンテキスト類似度算出手段と、
    前記用例検索手段により検索された用例群から、前記用例のコンテキスト類似度と所定の関係にあるコンテキスト類似度を持つ用例からなる部分用例群を抽出するための部分用例群抽出手段と、
    前記部分用例群抽出手段中により抽出された部分用例群における当該処理対象の用例の出現確率により、当該処理対象の用例に割当てられている翻訳確率を置換するための手段とを含む、請求項1に記載の機械翻訳装置。
  3. 前記部分用例群抽出手段は、前記用例検索手段により検索された用例群から、前記用例のコンテキスト類似度の値以上のコンテキスト類似度を持つ用例からなる部分用例群を抽出するための手段を含む、請求項2に記載の機械翻訳装置。
  4. コンピュータにより実行されると、当該コンピュータを請求項1〜請求項3のいずれかに記載の機械翻訳装置として動作させる、コンピュータプログラム。
JP2005069375A 2005-03-11 2005-03-11 機械翻訳装置及びコンピュータプログラム Pending JP2006252290A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005069375A JP2006252290A (ja) 2005-03-11 2005-03-11 機械翻訳装置及びコンピュータプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005069375A JP2006252290A (ja) 2005-03-11 2005-03-11 機械翻訳装置及びコンピュータプログラム

Publications (1)

Publication Number Publication Date
JP2006252290A true JP2006252290A (ja) 2006-09-21

Family

ID=37092712

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005069375A Pending JP2006252290A (ja) 2005-03-11 2005-03-11 機械翻訳装置及びコンピュータプログラム

Country Status (1)

Country Link
JP (1) JP2006252290A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217360A (ja) * 2008-03-07 2009-09-24 Toshiba Corp 機械翻訳する装置、方法およびプログラム
CN113807105A (zh) * 2021-07-22 2021-12-17 中国测绘科学研究院 一种法语地名机器翻译方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009217360A (ja) * 2008-03-07 2009-09-24 Toshiba Corp 機械翻訳する装置、方法およびプログラム
CN113807105A (zh) * 2021-07-22 2021-12-17 中国测绘科学研究院 一种法语地名机器翻译方法
CN113807105B (zh) * 2021-07-22 2023-07-21 中国测绘科学研究院 一种法语地名机器翻译方法

Similar Documents

Publication Publication Date Title
US10303761B2 (en) Method, non-transitory computer-readable recording medium storing a program, apparatus, and system for creating similar sentence from original sentences to be translated
US20080040095A1 (en) System for Multiligual Machine Translation from English to Hindi and Other Indian Languages Using Pseudo-Interlingua and Hybridized Approach
Saini et al. A survey of machine translation techniques and systems for Indian languages
JP2004038976A (ja) 用例ベースの機械翻訳システム
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2018055670A (ja) 類似文生成方法、類似文生成プログラム、類似文生成装置及び類似文生成システム
JP2006251843A (ja) 同義語対抽出装置及びそのためのコンピュータプログラム
JP2006065387A (ja) テキスト文検索装置、テキスト文検索方法、及びテキスト文検索プログラム
EP1503295A1 (en) Text generation method and text generation device
JP2009217689A (ja) 情報処理装置、情報処理方法、及びプログラム
JP2020126360A (ja) 学習データ拡張装置、学習装置、翻訳装置、およびプログラム
Aasha et al. Machine translation from English to Malayalam using transfer approach
Sulaeman et al. Development of Indonesian-Japanese statistical machine translation using lemma translation and additional post-process
Singh et al. An English-assamese machine translation system
JP2006252290A (ja) 機械翻訳装置及びコンピュータプログラム
KR100512541B1 (ko) 기계번역 장치 및 시스템, 방법
JP2006004366A (ja) 機械翻訳システム及びそのためのコンピュータプログラム
Zeng et al. Lexicon expansion for latent variable grammars
Jusoh et al. Automated translation machines: Challenges and a proposed solution
JP2006127405A (ja) バイリンガルパラレルテキストをアライメントする方法及びそのためのコンピュータで実行可能なプログラム
JP4708682B2 (ja) 対訳単語対の学習方法、装置、及び、対訳単語対の学習プログラムを記録した記録媒体
Khenglawt Machine translation and its approaches
JP2006024114A (ja) 機械翻訳装置および機械翻訳コンピュータプログラム
JP3921543B2 (ja) 機械翻訳装置
JP5416021B2 (ja) 機械翻訳装置、機械翻訳方法、およびそのプログラム