JP3973549B2 - 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 - Google Patents
対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 Download PDFInfo
- Publication number
- JP3973549B2 JP3973549B2 JP2002367553A JP2002367553A JP3973549B2 JP 3973549 B2 JP3973549 B2 JP 3973549B2 JP 2002367553 A JP2002367553 A JP 2002367553A JP 2002367553 A JP2002367553 A JP 2002367553A JP 3973549 B2 JP3973549 B2 JP 3973549B2
- Authority
- JP
- Japan
- Prior art keywords
- correspondence
- bilingual
- dictionary
- dependency structure
- language sentence
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
Description
【発明の属する技術分野】
本発明は、対訳文の第1言語文と第2言語文の依存構造を対応付ける対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体に関するものである。
【0002】
【従来の技術】
機械翻訳用の対訳辞書や文法規則を自動的に作成するために、第1言語文(以下、原文と呼ぶ)と第2言語文(以下、翻訳文と呼ぶ)とでなる対訳文が利用される。そして、対訳辞書や文法規則などを作成するために、対訳文の原文と翻訳文とのそれぞれについて、その構成要素(例えば、句や形態素)間の依存関係の構造(以下、依存構造と呼ぶ)を求め、原文の依存構造のどの部分が翻訳文の依存構造のどの部分に対応付けられるかを決定することを要する。
【0003】
【非特許文献1】
Finding Translation Correspondences from Parallel Parsed Corpus for Example-based Translation, E. Aramaki 他, Proceedings of MT-Summit VIII, pp27-32, 2001
非特許文献1は、原文の依存構造のどの部分が翻訳文の依存構造のどの部分に対応付けられるかを求める方法についての提案している。非特許文献1の対応付け方法は、(1)原文、翻訳文の句単位の依存構造を求め、(2)既存の対訳辞書を利用して、原文と翻訳文の句単位の対応付けを求め、(3)対応付けることができずに余った句の対応付けを考える、という3段階のステップでなり、(2)のステップでは、3つの評価基準を定義し、対訳辞書による対応付けの際に複数の候補が存在した場合でも最適な対応付けを求め、(3)のステップでは依存構造間の対応度を計るための評価関数及び閾値を定義し、評価関数の値が最も高く、かつ、閾値を満足する対応付けを求めるようにしている。非特許文献1の対応付け方法は、対訳辞書で見つかった部分をキーとして対応を見つけていくというボトムアップ的な手法と言うことができる。
【0004】
【発明が解決しようとする課題】
しかし、非特許文献1の対応付け方法は、既存の対訳辞書の大きさが対応付けの精度を左右する、言い換えると、対訳辞書が十分存在しないと対応付けることができないという課題がある。
【0005】
また、対応付けに利用される評価指標等、設定すべき値が多く、その結果、対応付けの結果を良くするためのチューニングが難しいという課題がある。
【0006】
さらに、依存構造木全体に対して対応付けるのではなく、閾値を満たす対応部分のみの対応付けであるので、カバレッジ(対訳文のうち、対応が見つかった部分の割合)が低い(テストセット100の対訳文での試行は最高で61%)という課題がある。
【0007】
そのため、処理を複雑とすることなく、対訳文の第1言語文と第2言語文の依存構造を精度良く対応付けることができる、カバレッジが高い対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体が求められている。
【0008】
【課題を解決するための手段】
第1の本発明の対訳依存構造対応付け装置は、(1)第1言語文と第2言語文の文対の集合からなる対訳文書中の少なくとも一対の第1言語文及び第2言語文のそれぞれについて、依存構造を解析する依存構造解析手段と、(2)単語又は単語列を見出しとする、第1言語文におけるその単語又は単語列と第2言語文におけるその単語又は単語列との対応度合いを表す対応度付きの対訳辞書と、(3)上記依存構造解析手段が得た対をなす第1言語文と第2言語文の依存構造に対して、上記対応度付き対訳辞書で対応付けし、上記対応度付き対訳辞書では対応が付かない箇所が一部にでもある場合、及び又は、複数の対応の候補が一部にでもある場合には、第1言語文、第2言語文のそれぞれにおいて依存構造が保持されるという条件を満たし、かつ、対応度による評価値が最大になるという条件で、不足する依存構造の対応付けを求め、又は、複数候補の最適対応を決定する依存構造照合処理手段とを有することを特徴とする。
【0009】
第2の本発明の対訳依存構造対応付け方法は、(1)第1言語文と第2言語文の文対の集合からなる対訳文書中の少なくとも一対の第1言語文及び第2言語文のそれぞれについて、依存構造を解析する、依存構造解析手段が実行する依存構造解析工程と、(2)上記依存構造解析工程で得た対をなす第1言語文と第2言語文の依存構造に対して、単語又は単語列を見出しとする、第1言語文におけるその単語又は単語列と第2言語文におけるその単語又は単語列との対応度合いを表す対応度付きの対訳辞書を用いて対応付けし、上記対応度付き対訳辞書では対応が付かない箇所が一部にでもある場合、及び又は、複数の対応の候補が一部にでもある場合には、第1言語文、第2言語文のそれぞれにおいて依存構造が保持されるという条件を満たし、かつ、対応度による評価値が最大になるという条件で、不足する依存構造の対応付けを求め、又は、複数候補の最適対応を決定する、依存構造照合処理手段が実行する依存構造照合処理工程とを含むことを特徴とする。
【0010】
第3の本発明の対訳依存構造対応付けプログラムは、コンピュータを、(1)第1言語文と第2言語文の文対の集合からなる対訳文書中の少なくとも一対の第1言語文及び第2言語文のそれぞれについて、依存構造を解析する依存構造解析手段と、(2)単語又は単語列を見出しとする、第1言語文の単語又は単語列と第2言語文の単語又は単語列の対応度合いを表す対応度付きの対訳辞書と、(3)上記依存構造解析手段が得た対をなす第1言語文と第2言語文の依存構造に対して、上記対応度付き対訳辞書で対応付けし、上記対応度付き対訳辞書では対応が付かない箇所が一部にでもある場合、及び又は、複数の対応の候補が一部にでもある場合には、第1言語文、第2言語文のそれぞれにおいて依存構造が保持されるという条件を満たし、かつ、対応度による評価値が最大になるという条件で、不足する依存構造の対応付けを求め、又は、複数候補の最適対応を決定する依存構造照合処理手段として機能させることを特徴とする。
【0011】
第4の本発明の記録媒体は、第3の本発明の対訳依存構造対応付けプログラムを記録していることを特徴とする。
【0012】
【発明の実施の形態】
(A)第1の実施形態
以下、本発明による対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体の第1の実施形態を図面を参照しながら説明する。
【0013】
この第1の実施形態は、対訳文書から統計的な手法で原文に出現する単語列と翻訳文に出現する単語列を対応付けた結果、得られる対応度付きの対訳辞書を利用して、原文と翻訳文の依存構造全体の対応付けを精度良く、かつ、効率良く行うことができるようにしたものである。
【0014】
(A−1)第1の実施形態の構成
図1は、第1の実施形態の対訳依存構造対応付け装置の機能的構成を示すブロック図である。
【0015】
例えば、パソコンなどのコンピュータに対し、CD−ROMなどの記録媒体に記憶されている対訳依存構造対応付けプログラムをインストールすることにより、対訳依存構造対応付け装置が構成され、それを機能的に表すと、図1に示すようになる。
【0016】
第1の実施形態の対訳依存構造対応付け装置1は、入出力部1.1、依存構造解析部1.2、対訳辞書構築処理部1.3、依存構造照合処理部1.4、辞書読み込み処理部1.5及び対応度付き対訳辞書1.6を有する。
【0017】
入出力部1.1は、対訳辞書を作成するための対訳文書を入力部1.02から入力したり、依存構造対応付けをするための対訳文(原文と翻訳文)を入力部1.02から入力したりする入力処理部1.12や、依存構造の対応付け結果を出力部1.01に出力する出力処理部1.11から構成される。入力部1.02は、例えば、キーボードなどのテキストデータを直接入力するものに限定されず、対訳文書や対訳文を内蔵する記憶媒体又は装填された記憶媒体から読み出す記憶媒体アクセス装置や、外部の情報処理装置から通信によって対訳文書や対訳文を取り出す通信部が該当する。出力部1.01は、例えば、ディスプレイや、プリンタや、外部の情報処理装置への通信部や、記憶媒体に書き込む記憶媒体アクセス装置が該当する。
【0018】
依存構造解析部1.2は、対訳文の原文及び翻訳文のそれぞれについて、後述する図9及び図10に示すような依存構造を求めるものである。依存構造解析部1.2による処理は、「http://cl.aist-nara.ac.jp/lab/nlt/NLT.html」で公開されている統計的な手法を利用した係り受け解析システムの方法や、特開2002−41512号公報の「翻訳処理部」の原文側の構文解析結果(パターンベースの手法)を得る方法を適用することができる。いずれも、形態素解析部1.21と構文解析部1.22を有し、各処理を行うことにより文の依存構造を求めることができる。
【0019】
対訳辞書構築処理部1.3は、統計的手法に基づいた対訳辞書作成を行うものである。この作成方法としては、特開平10−11445号公報や下記文献1に記載の方法を適用することができる。対訳辞書構築処理部1.3によって作成された対応度付き対訳辞書情報は、対応度付き対訳辞書1.6に格納される。
【0020】
文献1:「対訳コーパスを利用した対訳表現の自動抽出」,北村他,情報処理学会論文誌,Vol38,No.4,Apr. 1997
依存構造照合処理部1.4は、辞書読込み処理部1.5が読み込んだ対訳辞書を利用して、依存構造解析部1.2で得られた原文と翻訳文の依存構造の対応付けを行うものである。
【0021】
辞書読込み処理部1.5は、対応度付き対訳辞書1.6から対訳辞書を読み込む際、依存構造照合処理部1.4が利用できるように、各対訳に付いている対応度の値を正規化するものであるである。
【0022】
(A−2)第1の実施形態の動作
次に、第1の実施形態の対訳依存構造対応付け装置の動作(第1の実施形態の対訳依存構造対応付け方法)を説明する。
【0023】
動作の基本的な流れは、以下の通りである。
【0024】
統計的手法により獲得できる対訳辞書及び対応度を手がかりとして依存構造の対応付けを行う。この時点では正しくない対応付けの可能性もある。
【0025】
対応付けられない部分(余り部分)や候補が複数の部分がどこに対応付けた場合が全体として、最適な対応付けになるかを、評価関数を利用することによって、全ての可能性において計算し、その中で、最も高い評価値をもつ対応付けの結果を選択する。
【0026】
以下、翻訳用例集から対応度付き対訳辞書を作成すると共に、その翻訳用例集に存在する、次の対訳文について、依存構造の対応付け結果を求める場合を例に、第1の実施形態の動作を説明する。
【0027】
日本語:ケンは機械翻訳システムで手紙を書く。
【0028】
英語:Ken writes a letter with a machine translation system.
図2は、第1の実施形態における依存構造の対応付け処理を示すフローチャートである。
【0029】
ユーザは、例えば、翻訳用例集のファイル名等を入力部1.02を用いて、入力処理部1.12に入力し、入力処理部1.12は、そのファイルを取り込んで形態素解析部1.21に渡す(S51)。形態素解析部1.21は、そのファイル中の英文と日本語文をそれぞれ形態素解析し(S52)、対訳辞書構築処理部1.3に渡す。
【0030】
図3は、対訳辞書構築処理部1.3が実行する対訳辞書構築処理を示すフローチャートである(特開平10−11445号公報、文献1参照)。
【0031】
まず、対訳辞書構築処理部1.3は、形態素解析部1.21から受け取った英文、日本語文の形態素解析結果から、それぞれ1〜n(nは通常5を設定)個からなる単語列を抽出する(S61)。予め決めておいた出現回数の閾値になるまで(S62)、出現回数の設定値を徐々に下げていきながら、その出現回数の設定値以上の出現回数を持つ単語列に対して、出現回数を求める(S63)。次に、英文、日本語文の双方(対訳文)に同時に出現した出現回数と単独で出現した回数から英語と日本語の単語列の対応度を計算し(S64)、対応度がある値以上を持つ単語列のペアを抽出し(S65)、その単語列のペア及び対応度を対応度付き対訳辞書に登録する(S66)。ステップS66で登録された語数(ペア数)がある語数以上であれば(S67)、その出現回数の設定値で、再度、ステップS63からステップS66の処理を繰り返す。ステップS66で登録された語数がある語数より少なければ(S67)、出現回数の設定値を下げて(S68)、再度、ステップS62からステップS67の処理を繰り返す。
【0032】
図4は、対訳辞書構築処理により、作成された対応度付き対訳辞書1.6の一例を示している。
【0033】
対応度付き対訳辞書1.6における各フィールドはタブで区切られており、第1フィールド8.1は、日本語単語列、第2フィールド8.2は英語単語列、第3フィールド8.3は対応度を示している。
【0034】
図2に戻り、次に、構文解析部1.22は、翻訳用例集の形態素解析結果から、依存構造解析結果を得る(S54)。翻訳用例集の依存構造解析結果は、英語と日本語の文対応が付けられた状態で、バッファに格納される。
【0035】
図5は、バッファに格納された依存構造解析結果の一例を示している。この例では、結果はxml形式で表現されており、言語や文対応や句間の依存関係は、それぞれ、lang(9.1e,9.1j)やsentenceのid(9.2e,9.2j)やchunkのlink(9.3)で表されている。図6は、図5を木構造的に表現した例を示している。符号10.1は英語の依存構造木を表しており、符号10.2が日本語の依存構造木を表している。以降では、説明を容易にするために、この木構造を用いる。各木構造の各ノードには、説明を容易にするために、e1,e2,…及びj1,j2,…というidを付与した。
【0036】
図2に戻り、次に、依存構造照合処理部1.4や辞書読込み処理部1.5等によって依存構造照合処理が行われる(S55)。図7は、依存構造照合処理を示すフローチャートである。
【0037】
まず、辞書読込み処理部1.5によって、対応度付き対訳辞書1.6が読み込まれ(S71)、次に、各対訳に付与されている対応度の正規化処理が行われる(S72)。ここで、正規化処理とは、0〜∞の対応度を0〜1の対応度に写像させる処理である。例えば、旧対応度が4以上の場合は対応の正解率が100%であるので、新しい対応度を1とし、4未満の値であれば、旧対応度×1/4を新しい対応度とする(例えば、旧対応度が3.2の場合は、3.2/4=0.8が新しい対応度となる)。
【0038】
次に、バッファに格納された1個の依存構造解析結果(依存構造解析木)を依存構造照合処理部1.4が読み込み(S73)、対応付ける依存構造が存在すれば(読み込みが成功すれば)(S74)、依存構造・辞書対応付け処理(S75)を行う。
【0039】
依存構造・辞書対応付け処理は、原文と翻訳文の依存構造において、対応度付き対訳辞書1.6によって、依存関係が保持される制約の下、対応付けられる部分の候補を全て抽出するという処理である。言い換えると、対応度付き対訳辞書1.6の情報によって対応付けられる依存構造を全て抽出するという処理である。例えば、図4の対応度付き対訳辞書と図6の依存構造解析結果の例の場合、「手紙 書く/write letter」、「システム/system」、「機械翻訳/machine translation」が対応付けられる。この対応付け結果は、図8に示すように、ノードのidの集合の対で格納される。
【0040】
次に、仮に、対応度付き対訳辞書1.6で全てのノードの対応付けがなされなければ、言い換えると、余りノードが存在すれば、(S76)、依存関係が保持される制約の下で、余ったノードの対応付けの候補を全て抽出する(S77)。対応付けの候補に対して、評価関数を適用して計算し(S78)、対応度が最大となる対応付けの結果を求める(S79)。
【0041】
ここで用いる評価関数として、例えば、下記文献2で利用している評価関数を適用する(評価関数の詳細は下記文献2参照)。
【0042】
文献2:「対訳コーパスを利用した翻訳規則の自動獲得」,北村他,情報処理学会論文誌,Vo137,No.6,June 1996
図6の例で、ステップS77からステップS79を具体的に説明する。図6の場合は、余りノードはe2とj2であるので(図8参照)、依存関係が保持される制約のもとでは[e2][j2]と、[e1,e2,e3][j1,j2,j3]との2つの対応付け候補が考えられる(S77)。なお、後者の候補は、余りノードはe2、j2の上位ノードe1,j1が既に対応付けられており、その依存関係が保持されるために形成された候補である。各候補について、評価関数を用いて計算した結果(S78)、前者の評価値が後者より高くなり、前者の候補が対応付け結果として選択される(S79)。図9は、図8の依存構造解析結果に対する最終的な依存構造照合処理の結果を依存構造木で表したものである。
【0043】
ある依存構造解析結果に対する依存構造照合処理の結果を得ると、次の依存構造解析結果を対象として(S80)、同様な処理を繰り返し、全ての対訳文の依存構造解析結果に対する対応付け結果を得ると、一連の依存構造照合処理を終了する。なお、1組の対訳文に対し、複数の依存構造解析結果が得られることがあるが、この場合には、各依存構造解析結果に対し、依存構造照合処理を行う。
【0044】
図2に戻り、次に、出力処理部1.11は、依存構造対応付けの結果を出力部1.01によってユーザに出力する(S56)。例えば、依存構造対応付けの結果は、出力処理部1.11によって、ユーザの好みの形式に変換され、ディスプレー等の出力部1.01で出力される。
【0045】
図10は、図9の依存構造対応付け結果における表示例を示している。対訳例13.1と、依存構造対応付け結果13.2とが表示されている。
【0046】
(A−3)第1の実施形態の効果
第1の実施形態によれば、以下の効果を奏することができる。
【0047】
処理開始時に対訳辞書が存在しない場合でも、精度良く依存構造の対応付けができる。
【0048】
依存構造の対応付けの際に、非特許文献1のような多くの評価指標及び評価関数を利用していないので、最適な(適切な)評価指標及び評価関数を求めるための多くの時間を必要としない。
【0049】
得られた対応度付き対訳辞書をそのまま適用するのではなく、正規化して適用するようにしているので、言い換えると、対応度が低い場合の信用度を下げて、依存構造の対応付けをしているので、語と語の依存関係と統計的な対応度の両方を利用して統計的手法により得られた対訳辞書の精錬化を行っているとも言え、精錬化された対訳辞書を用いた依存構造の対応付けとなっており、対応付け精度を向上させることができる。
【0050】
対応度付き対訳辞書を利用した依存構造の対応付けをまず行い、その後、余りノードに対する対応付けを行うようにしているので、全てのノードを、余りノードの対応付けと同様な方法で対応付ける場合に比較すると、高速に処理することができる。
【0051】
依存構造の全ての部分の対応付けが可能である。カバレージは100%なので、全ての対応付け結果を組み合わせれば、必ず元の対訳文が完成する。例えば、対応付け結果からパターン辞書を作成し、それを利用してパターン翻訳処理をすれば、対訳文と同じ翻訳結果を得ることができる。
【0052】
(B)第2の実施形態
次に、本発明による対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体の第2の実施形態を図面を参照しながら説明する。
【0053】
第2の実施形態の特徴は、第1の実施形態と比較すると、依存構造の対応付けに句単位の情報を、以下のように利用する2点にある。
【0054】
1.統計的手法により対応度付き対訳辞書を作成する際に、複数単語列を利用するだけでなく、依存構造解析時に得られる句単位の情報を利用して対応度付き対訳辞書を作成する。複数単語列をどこまで認めるかの判定に際し、第1の実施形態では、ユーザが決めた適当な値(デフォルト値は5)を利用していたが、第2の実施形態では、依存構造解析時に得られる句の単位を最長の単語列として判定する。
【0055】
2.依存構造照合処理において、句単位内を分割するような対応付けがあれば、句単位をひとまとまりとして対応付けるようにする。
【0056】
例えば、第1の実施形態では、依存構造対応付け結果は、以下の例のように句単位を無視して、ひとまとまりになるが、
手紙を書く/write(a)letter
機械翻訳/machine translation
システム/system
一方、第2の実施形態では、句単位を考慮した対応付けのため
手紙/letter
書く/write
機械翻訳システム/machine translation system
となる。
【0057】
(B−1)第2の実施形態の構成
第2の実施形態の依存構造対応付け装置も、構成を機能ブロック図で表すと、第1の実施形態に係る図1で表すことができる。しかし、以下の点が異なっている。
【0058】
対訳辞書構築処理部1.3は、統計的手法に基づいた対訳辞書作成を行う。対訳辞書構築処理部1.3は、第1の実施形態と同様に、文献1や特開平10−11445号公報の方法等により実現されているが、複数単語列をどこまで認めるかの判定に際し、第1の実施形態ではユーザが決めた適当な値(デフォルト値は5)を利用していたが、第2の実施形態では、依存構造解析時に得られる句の単位を最長の単語列として判定する処理に変更されている点が異なる。句の単位を単語列区切りに利用するため、依存構造解析部1.2の結果を利用する。
【0059】
依存構造照合処理部2.4は、辞書読込み処理部1.5が読み込んだ対応度付き対訳辞書1.6を利用して、原文と翻訳文の依存構造の対応付けを行うものであるが、句単位を対応付け単位としている所で、第1の実施形態と一部処理が異なっている。
【0060】
(B−2)第2の実施形態の動作
以下、第1の実施形態で用いた例を利用して、第2の実施形態の動作を説明する。
【0061】
図11は、第2の実施形態における依存構造対応付け処理を示すフローチャートである。
【0062】
図11において、第1の実施形態と異なる点は、第1の実施形態では対訳辞書構築処理に形態素解析の結果を利用したのに対し、第2の実施形態では依存構造解析(形態素解析及び構文解析)の結果を利用するという点である。すなわち、依存構造解析処理(S142)の後に、対訳辞書構築処理(S143)に移行する。
【0063】
第2の実施形態においても、対訳辞書構築処理(S143)は、第1の実施形態で説明した上述した図3に示すフローチャートに従って実行される。
【0064】
但し、第1の実施形態では、対訳辞書構築処理における単語列抽出(図3のS61)の際、1〜n個からなる単語列を抽出していたが、この第2の実施形態では、1〜句の構成語数の単語列を抽出する。句単位の情報は、図5でのchunk情報から得られる。この結果、作成される単語列は、句の単位を超えない。
【0065】
図12は、第2の実施形態における対応度付き対訳辞書1.6の例を示している。「手紙/letter」(16.1)や、「書く/write」(16.2)のように句の単位で分割されている点が、図4に示した第1の実施形態の対訳辞書とは異なっている。
【0066】
対訳辞書構築処理(S143)が終了すると、第2の実施形態においても、次に、依存構造照合処理(S144)に移行する。
【0067】
図13は、第2の実施形態における依存構造照合処理の詳細を示すフローチャートであり、第1の実施形態に係る図7に対応している。
【0068】
ステップS159の余りノードの対応付け候補の対応を付ける処理に至るまでは、第1の実施形態と同様である。但し、対応度付き対訳辞書1.6が句単位の対訳辞書となっている点が第1の実施形態と異なっているので、依存構造・辞書対応付け処理(S155)の結果も異なっている。
【0069】
図14は、第2の実施形態での依存構造・辞書対応付け処理の結果の例を示している。符号17.1,17.2を付して示すように、write([e1][j1])とletter([e3][j3])とは各々で対応付けられている。
【0070】
余りノードの対応付け候補の対応を付ける処理(S159)も、第2の実施形態の特徴になっており、余りノードを対応付けるだけでなく、対応が句単位になっているかの見直し修正も行っている。この見直し修正処理では、句単位で依存構造を取り出し、句の内部で分割されて対応付けられていれば(句の単位を超えた部分が含まれている場合は除く)、それをひとまとまりとして対応付ける。
【0071】
図15は、第2の実施形態の最終的な依存構造解析結果を示している。この図15を参照しながら、見直し修正処理について説明する。
【0072】
例えば、図18において[e4,e5,d6]は、前置詞句(PP)であり、[j4,j5,j6]は名詞句(NP)である。しかし、余りノードを対応付けた段階では、[e4][j4]と、[e5,e6][j5,j6]とに2つに分割されている。この場合、句単位の[e4,e5,e6][j4,j5,j6]で対応付ける。余りノードの対応に対しても同様に、句単位での対応を優先させるように対応度を補正処理する。
【0073】
例えば、「機械翻訳」(システムなし)と「機械翻訳システム」とが翻訳用例集に混在して現れ、「機械翻訳」(システムなし)の出現回数の方が多い状況では(原文、翻訳文共に)、図12に示すような対応度付き対訳辞書が作成され、句単位で対応度付き対訳辞書を作成しても、「機械翻訳システム」が「機械翻訳」と「システム」とに分割されて対応付けられることがあり、このような状態を見直し修正している。
【0074】
これ以降の処理は、第1の実施形態と同様である。
【0075】
(B−3)第2の実施形態の効果
第2の実施形態によっても、第1の実施形態と同様な効果を奏することができる。これに加え、以下のような効果を奏することができる。
【0076】
句単位の情報を、(1)統計的手法による対応度付き対訳辞書の作成時と、(2)依存構造における対応付けの両方で利用することができる。それにより、句単位での依存構造の対応付けが優先されるようになる。句単位で対応付けられていると、依存構造の対応付け結果から機械翻訳用の辞書を作成しやすくなる。句とは、名詞句、動詞句、形容詞句等である。そのような単位で対応付けされていた場合、その句を名詞、動詞、形容詞として直接登録することが可能になる。
【0077】
(C)第3の実施形態
次に、本発明による対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体の第3の実施形態を図面を参照しながら説明する。
【0078】
第3の実施形態は、第2の実施形態に比較すると、統計的に得られた対応度付き対訳辞書だけでなく、既存の対訳辞書をも利用するという特徴を有している。そして、既存の対訳辞書は、単純に対訳辞書として利用するのではなく、辞書の拡張を行うために利用する。
【0079】
具体例を挙げて説明すると、例えば、日英辞書に「購入する/purchase、買う/buy」があり、英日辞書に「purchase/買う」があったとする。このとき、「購入する/buy」という対応は対訳辞書には存在しないが、
購入する→purchase→買う→buy => 購入する→buy
という拡張処理を行うことによって、「購入する/buy」も対訳辞書として利用することができる。対訳辞書が増えるということは、依存構造の対応付けの精度も向上する。
【0080】
(C−1)第3の実施形態の構成
図16は、第3の実施形態である依存構造対応付け装置3の機能的構成を示すブロック図である。
【0081】
第3の実施形態の依存構造対応付け装置3は、入出力部3.1、依存構造解析部3.2、対訳辞書構築処理部3.3、依存構造照合処理部3.4、辞書拡張処理部3.5、対応度付き対訳辞書3.6、日英対訳辞書3.7及び英日対訳辞書3.8を有する。
【0082】
入出力部3.1、依存構造解析部3.2、対訳辞書構築処理部3.3、依存構造照合処理部3.4及び対応度付き対訳辞書3.6は、第2の実施形態のものと同様である。
【0083】
辞書拡張処理部3.5は、対応度付き対訳辞書3.6、日英対訳辞書3.7及び英日対訳辞書3.8から対訳辞書を読み込むと共に、上述したような辞書の拡張を行い、かつ、依存構造照合処理部3.4が利用できるように、各対訳に付いている対応度の値を正規化する。
【0084】
(C−2)第3の実施形態の動作
以下、翻訳用例集の中に存在するとした下記の対訳例文を利用して、第3の実施形態の動作を説明する。
【0085】
日本語:私はATMスウィッチングシステムを購入する。
【0086】
英語:I buy the ATM switching system.
この第3の実施形態と第2の実施形態との違いは、(1)辞書読込み処理部の代わりに辞書拡張処理部3.5が存在し、上述した図13の依存構造照合処理のフローチャートにおいて、辞書読み込み処理(S151)は、辞書拡張処理(S151’)に置き換えられる点、(2)それに伴い既存の英日・日英対訳辞書を対応付けに利用するという点である。
【0087】
まず、辞書拡張処理(S151’)を図17〜図19を参照しながらを説明する。なお、図17は、辞書拡張処理(S151’)の詳細を示すフローチャートであり、図18は、日英対訳辞書の例を示す説明図であり、図19は、英日対訳辞書の例を示す説明図である。
【0088】
まず、日英対訳辞書3.7から、1つの日本語見出し及びそれに対応する全ての英訳語を取り出す(S191)。図18の例では、1つの日本語見出し「購入する」に対してその英訳語”purchase”が取り出される。取り出しに成功したならば(S192)、次に、取り出した英訳語をインデックスとして英日対訳辞書3.8を引き、その日本語訳語を取り出す(S193)。図19の例では、”purchase”に対して「買う」が取り出される。さらに、その日本語訳語をインデックスとして、日英対訳辞書3.7を引き、その英訳語を取り出す(S194)。ここでは、「買う」に対して”buy”,”obtain”が取り出される。次に、最初の日本語見出しと拡張によって得られた最終的な英訳語から対訳を作成し、拡張辞書に格納する(S195)。上記の例では、「購入する」と”buy”、「購入する」と”obtain”が対訳となる。
【0089】
以上の処理を、日英対訳辞書3.7の未処理見出しがなくなるまで繰り返し、未処理見出しがなくなれば(S192)、対応度付き対訳辞書3.6、日英対訳辞書3.7及び英日対訳辞書3.8を拡張辞書にマージし、重複を消し、対応度がない各対訳には対応度を付与する(S196)。
【0090】
なお、重複を消す際には、既存の対応度付き対訳を最優先し、次に、日英対訳辞書3.7及び英日対訳辞書3.8を優先する。また、対応度がない各対訳に対応度を付与する際において、同一の単語又は単語列を、日本語又は英語の一方に含む対訳間において、拡張された対訳より、既存の対訳の対応度を高くするように設定する。例えば、日英対訳辞書3.7又は英日対訳辞書3.8に存在する既存の対訳の対応度を1にし、拡張された対訳の対応度を0.8にする。
【0091】
図20は、辞書拡張処理によって作成された拡張辞書の例を示している。ここでは、「購入する/buy」と「購入する/obtain」が拡張されたものであり、各々0.8という対応度が付与されており、「購入する/purchase」等の既存の対訳には1.0の対応度が付与されている。
【0092】
これ以降の処理は、第2の実施形態と同様である。
【0093】
図21は、第3の実施形態における依存構造対応付けの結果を示している。対応度付き対訳辞書3.6、日英対訳辞書3.7及び英日対訳辞書3.8に、”buy”と「購入する」との対応がなくても、拡張辞書の利用によって、”buy”と「購入する」とが対応付けられる。
【0094】
(C−3)第3の実施形態の効果
第3の実施形態によっても、第2の実施形態と同様な効果を奏することができる。これに加え、以下のような効果を奏することができる。
【0095】
第3の実施形態では、辞書の拡張を行うことにより、対訳辞書によって対応付けられる依存構造が増え、対応付けの精度を向上させることができる。
【0096】
一般に、ある語の訳語にはさまざまな言い回しがある。しかし、機械翻訳等で利用される対訳辞書では、全ての訳語が登録されているわけではなく、ある意味の代表的な訳語が登録されているのみである(例えば、buyの訳語として「買う」、「購入する」の両方の訳語は登録されておらず、どちらか一方である)。従って、このような対訳辞書を依存構造の対応付けの手がかりとして利用した場合、対訳辞書の登録語不足が顕著な問題となるが、第3の実施形態では、かかる問題を解決している。
【0097】
拡張して作成された対訳辞書は、まれに適切でない場合がある(理解する→understand→わかる→find=>理解する/find?)。このような場合、拡張して作成された対訳によって正しくない対応付けをする可能性がある。第3の実施形態では、拡張されて作成された対訳は、直接辞書に登録されている対訳より対応度を下げていることにより、辞書拡張による副作用を避けることができる。
【0098】
(D)第4の実施形態
次に、本発明による対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体の第4の実施形態を図面を参照しながら説明する。
【0099】
第4の実施形態の特徴は、第1〜第3の実施形態の技術思想をパターンベース型機械翻訳システムのパターン辞書作成に利用することにある。
【0100】
(D−1)第4の実施形態の構成
図22は、第4の実施形態の依存構造対応付け装置(機械翻訳パターン作成装置)4の機能的構成を示すブロック図である。
【0101】
図22において、第4の実施形態の機械翻訳パターン作成装置4は、入出力部4.1、翻訳処理部4.2、目的言語依存解析部4.3、依存構造照合処理部4.4、辞書拡張処理部4.5、日英対訳辞書4.6及び英日対訳辞書4.7を有する。
【0102】
入出力部4.1は、対訳文(原文と翻訳文)を入力する入力処理部4.12、作成されたパターン辞書を出力する出力処理部4.11から構成されている。
【0103】
翻訳処理部4.2は、通常は翻訳のために利用されるが、ここでは、原文の依存構造を獲得するために利用している。翻訳処理部4.2としては、例えば、特開2002−41512号公報に記載の「翻訳処理部」を適用する。
【0104】
原文の依存構造を獲得するために翻訳処理部4.2を適用している理由は、翻訳処理部4.2によって獲得された依存構造は、既存の対訳辞書(特開2002−41512号公報では「翻訳パターン辞書」と呼ばれている)の組み合わせからなる依存構造であるためである。既存の対訳辞書を利用して依存構造を作成し、それに対応する目的言語のパターンを翻訳対訳例から獲得すれば、既存の対訳辞書を変更することなく、翻訳対訳例文を復元するのに必要な対訳辞書を追加するのみで、対訳辞書を増強させることができるためである。
【0105】
目的言語依存構造解析部4.3は、目的言語側(翻訳文)の依存構造を求めるためのものである。目的言語依存構造解析部4.3にも、機械翻訳システムの翻訳処理部を利用することができ、また、第1の実施形態の説明で挙げた、統計的な手法を利用した文献1の係り受け解析システムを利用しても良い。すなわち、目的言語側はどんな依存構造解析ツールを適用しても構わない。
【0106】
第4の実施形態の依存構造照合処理部4.4は、辞書拡張処理部4.5が読み込んだ辞書を利用して、原文と翻訳文の依存構造の対応付けを行うものである。
【0107】
第4の実施形態の辞書拡張処理部4.5は、日英対訳辞書4.7や英日対訳辞書4.8を読み込み、第3の実施形態で説明したような辞書の拡張を行い、拡張した辞書を辞書拡張処理部4.5内のバッファに格納しておき、その拡張辞書を依存構造照合処理部4.4が利用する。
【0108】
辞書登録処理部4.6は、依存構造対応付けによって得られた対応付けの結果から、対訳辞書を作成し、作成された対訳辞書が既存の対訳辞書4.7又は4.8に登録されているか否かを判定し、登録されていない場合に各辞書4.7、4.8に登録するものである。
【0109】
(D−2)第4の実施形態の動作
以下、ユーザが入力した次の対訳例文
日本語:私はATMスウィッチングシステムを購入する。
【0110】
英語:I buy the ATM switching system.
から、対訳辞書(翻訳パターン)を作成して既存の対訳辞書に追加登録する場合を例に、第4の実施形態の動作を説明する。
【0111】
図23は、第4の実施形態における対訳辞書(翻訳パターン)作成処理を示すフローチャートである。
【0112】
ユーザは、対訳文と作成したい辞書の種類をキーボード等の入力部4.01を用いて、入力処理部4.12より入力する(S241)。入力処理部4.12は、作成したい対訳辞書が英日対訳辞書であれば、対訳文の英文を翻訳処理部4.2へ渡し、日本語文を目的言語依存構造解析部4.3へ渡し、一方、作成したい対訳辞書が日英対訳辞書であれば、日本語文を翻訳処理部4.2へ渡し、英文を目的言語依存構造解析部4.3へ渡す。以下、前者であるとして説明する。
【0113】
翻訳処理部4.2では、翻訳処理によって英文の依存構造を得(S242)、目的言語依存構造解析部4.2では、翻訳文に対する依存構造解析処理によって日本語文の依存構造を得る(S243)。
【0114】
次に、各依存構造が依存構造照合処理部4.4に与えられ、依存構造照合処理が行われる(S244)。対応度付き対訳辞書は存在しないが、第4の実施形態の依存構造照合処理も、第3の実施形態の方法と同様になされる。また、辞書は翻訳パターン形式で格納されていても、単語又は単語列の対訳に直して、第3の実施形態の方法を適用する。上述した図21は、この第4の実施形態での依存構造照合処理の結果例にもなっている。
【0115】
次に、辞書登録処理部4.6が依存構造の対応付け結果から、翻訳処理部4.2で利用された英日対訳辞書4.8と同じ形式の対訳辞書(翻訳パターン)を作成する。翻訳処理部4.2が得る英語の依存構造は、英日対訳辞書4.8を利用して作成されているので、英日対訳辞書4.8から依存構造を作成する方法とは逆の処理で、新たな対訳辞書を依存構造から作成することができる。
【0116】
図24は、作成された新たな対訳辞書の例を示している。図21の符号23.1で示す対応から、図24の符号25.1で示す辞書(翻訳パターン)が作成され、図21の符号23.2で示す対応から、図24の符号25.2で示す辞書(翻訳パターン)が作成され、図21の符号23.3で示す対応から、図24の符号25.3で示す辞書(翻訳パターン)が作成されている。
【0117】
次に、翻訳パターン作成処理(S245)で作成された新たな対訳辞書と既存の英日対訳辞書4.8を比較し、既存の英日対訳辞書4.8に登録されていない対訳辞書を検出する(S246)。図25は、既存の英日対訳辞書4.8に登録されていないと検出された対訳辞書の例を示している。
【0118】
このような未登録の対訳辞書は、出力処理部4.11に渡され、CRTディスプレイ等の出力部4.01でユーザに出力されると共に、既存の英日対訳辞書3.8に新しく登録される(S247)。
【0119】
(D−3)第4の実施形態の効果
第4の実施形態によれば、機械翻訳システムの翻訳結果に関係なく、現在不足するパターン辞書の獲得が容易となる。従来技術の中には、機械翻訳システムの翻訳結果と正しい翻訳結果の差分を検出して、その差分をカバーするためのパターン辞書を作成する方法であるが、第4の実施形態では、機械翻訳システムの翻訳結果を利用することなく、原文と正しい翻訳結果から、直接、不足するパターン辞書を作成することができる。
【0120】
また、目的言語の依存構造解析処理は、機械翻訳等で利用されているrigidな(厳密な)解析である必要はなく、句単位の係り受け解析のようなroughな(粗い)解析(例えば、統計的係り受け解析)で十分利用可能である。目的言語の依存構造解析に失敗する確率は低くなり、依存構造の対応付けが成功する確率は高くなる。
【0121】
さらに、依存構造の対応付けは、文の全ての部分の対応付けを保証しているので(カバレージが100%であることを保証しているので)、翻訳正解例を復元できるパターン辞書を作成することが保証される。
【0122】
さらにまた、第3の実施形態の辞書拡張処理によって拡張された対訳を直接辞書化することにより辞書を増強することは可能であるが、その場合、正しくない対訳も登録してしまう可能性もある。第4の実施形態のように、対応付けの結果でフィルターをかけることにより、精度の高い辞書を増強することができる。
【0123】
(E)他の実施形態
上記各実施形態では、入力される対訳が日本語文及び英語文であるものを示したが、言語の種類はこれに限定されるものではない。
【0124】
第1〜第3の実施形態で獲得できる依存構造の対応付けの結果は、全ての変換ベース(ルールベースとも呼ばれる)の機械翻訳システムの変換辞書として利用することができる。すなわち、各システムにより辞書の形式は異なるが、変換ベースの機械翻訳システムの基本は構文木の変換なので、構文木の変換規則として利用することができる。
【0125】
また、第3の実施形態で利用した既存の辞書は、日英・英日対訳辞書に限らない。例えば、ある専門分野の対訳用語集と一般的な対訳辞書の組み合わせであっても良いし、統計的に獲得した辞書と既存の辞書の組み合わせであっても良い。また、2種類以上であっても構わない(2種類以上であれば拡張を拡大することになる(なお、拡張を拡大するほど対応度をより低くする))。また、第3の実施形態では、日英の辞書引き、英日の辞書引きの順序で拡張したが、その方向性は問わない。すなわち、英日の辞書引き、日英の辞書引きの順序で拡張しても良い。
【0126】
第4の実施形態では、翻訳処理部として、特開2002−41512号公報記載のパターンベース翻訳処理部を適用したとして動作を説明したが、変換ベースの翻訳処理部でも利用可能である。なお、特開2002−41512号公報記載のパターンベース翻訳処理は、対訳辞書と文法規則は同一なので対訳辞書ならびに文法規則も本手法で獲得することができる。
【0127】
また、第4の実施形態では、対訳辞書構築処理部(統計的な対訳辞書(対応度付き対訳辞書)を作成する機能)を有しない例で説明したが、対訳辞書構築処理部を搭載することも可能である。
【0128】
さらに、第4の実施形態では、翻訳例文から、必要な翻訳パターンを自動作成する方法を説明したが、翻訳処理部が出力した翻訳結果をユーザが後修正した結果を翻訳文として、必要な翻訳パターンを自動作成する方法でも構わない。この場合は機械翻訳システムの後修正結果から翻訳パターンを自動作成する装置となる。
【0129】
さらにまた、第3の実施形態において、統計的な手法で得られた辞書と既存の対訳辞書の併用の例を示したが、他の実施形態においても併用することは可能である。例えば、100文以上の翻訳例文が入力されれば、対訳辞書構築処理部が作動し、辞書を併用するが、100文未満であれば既存の対訳辞書のみ用いるというように使い分けることも可能である。
【0130】
【発明の効果】
以上のように、本発明によれば、処理を複雑とすることなく、対訳文の第1言語文と第2言語文の依存構造を精度良く対応付けることができる、カバレッジが高い対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体を提供できる。
【図面の簡単な説明】
【図1】第1の実施形態の対訳依存構造対応付け装置の機能的構成を示すブロック図である。
【図2】第1の実施形態の依存構造の対応付け処理を示すフローチャートである。
【図3】第1の実施形態の対訳辞書構築処理を示すフローチャートである
【図4】第1の実施形態の対訳辞書構築処理により作成された対応度付き対訳辞書の一例を示す説明図である。
【図5】第1の実施形態の依存構造解析結果の一例を示す説明図である。
【図6】図5の依存構造解析結果を木構造で表現した説明図である。
【図7】第1の実施形態の依存構造照合処理を示すフローチャートである。
【図8】図6の依存構造解析結果に対し図4の対応度付き対訳辞書を利用した段階での依存構造対応付け結果を示す説明図である。
【図9】図8の余りノードに対する対応付け後の依存構造対応付け結果を示す説明図である。
【図10】図9の依存構造対応付け結果の出力形式例を示す説明図である。
【図11】第2の実施形態の依存構造の対応付け処理を示すフローチャートである。
【図12】第2の実施形態の対訳辞書構築処理により作成された対応度付き対訳辞書の一例を示す説明図である。
【図13】第2の実施形態の依存構造照合処理を示すフローチャートである。
【図14】第2の実施形態の依存構造・辞書対応付け処理の結果の例を示す説明図である。
【図15】第2の実施形態の最終的な依存構造対応付けの結果例を示す説明図である。
【図16】第3の実施形態の対訳依存構造対応付け装置の機能的構成を示すブロック図である。
【図17】第3の実施形態の辞書拡張処理の詳細を示すフローチャートである。
【図18】第3の実施形態の日英対訳辞書の例を示す説明図である。
【図19】第3の実施形態の英日対訳辞書の例を示す説明図である。
【図20】第3の実施形態の辞書拡張処理の結果を示す説明図である。
【図21】第3の実施形態の最終的な依存構造対応付けの結果例を示す説明図である。
【図22】第4の実施形態の対訳依存構造対応付け装置(機械翻訳パターン作成装置)の機能的構成を示すブロック図である。
【図23】第4の実施形態の対訳辞書(翻訳パターン)作成処理を示すフローチャートである。
【図24】第4の実施形態の新たに作成された対訳辞書(翻訳パターン)の例を示す説明図である。
【図25】第4の実施形態の追加登録の対訳辞書(翻訳パターン)の例を示す説明図である。
【符号の説明】
1、3…対訳依存構造対応付け装置、1.1、3.1、4.1…入出力部、1.2、3.2…依存構造解析部、1.21、3.21…形態素解析部、1.22、3.22…構文解析部、1.3、3.3…対訳辞書構築処理部、1.4、3.4、4.4…依存構造照合処理部、1.5…辞書読み込み処理部、1.6、3.6…対応度付き対訳辞書、3.5、4.5…辞書拡張処理部、3.7、4.6…日英対訳辞書、3.8、4.7…英日対訳辞書、4…機械翻訳パターン作成装置(対訳依存構造対応付け装置)、4.2…翻訳処理部、4.3…目的言語依存解析部。
Claims (16)
- 第1言語文と第2言語文の文対の集合からなる対訳文書中の少なくとも一対の第1言語文及び第2言語文のそれぞれについて、依存構造を解析する依存構造解析手段と、
単語又は単語列を見出しとする、第1言語文におけるその単語又は単語列と第2言語文におけるその単語又は単語列との対応度合いを表す対応度付きの対訳辞書と、
上記依存構造解析手段が得た対をなす第1言語文と第2言語文の依存構造に対して、上記対応度付き対訳辞書で対応付けし、上記対応度付き対訳辞書では対応が付かない箇所が一部にでもある場合、及び又は、複数の対応の候補が一部にでもある場合には、第1言語文、第2言語文のそれぞれにおいて依存構造が保持されるという条件を満たし、かつ、対応度による評価値が最大になるという条件で、不足する依存構造の対応付けを求め、又は、複数候補の最適対応を決定する依存構造照合処理手段と
を有することを特徴とする対訳依存構造対応付け装置。 - 上記対訳文書における上記各対訳文を形態素解析し、上記第1言語文及び上記第2言語文の各対訳文の形態素解析結果から、(a)それぞれ所定個数以下の個数の単語又は単語列を抽出し、(b)予め決めておいた出現回数の閾値になるまで、出現回数の設定値を徐々に下げていきながら、(c)その出現回数の設定値以上の出現回数を持つ単語列に対して、出現回数を求め、(d)上記第1言語文及び上記第2言語文の対訳文に同時に出現した出現回数と単独で出現した回数から上記第1言語文及び上記第2言語文の単語又は単語列の対応度を計算し、(e)対応度がある値以上を持つ単語又は単語列のペアを抽出し、(f)その単語又は単語列のペア及び対応度を対応度付き対訳辞書に登録し、(g)この際に登録したペア数がある数以上であれば、その出現回数の設定値で、再度、上述した処理(c)から処理(f)を繰り返し、(h)上述した処理(g)の処理で登録されたペア数がある数より少なければ、出現回数の設定値を下げて、再度、上述した処理(b)から処理(g)を繰り返すことにより、単語又は単語列を見出しとする上記対応度付き対訳辞書を構築する第1の対応度付き対訳辞書構築処理手段を有することを特徴とする請求項1に記載の対訳依存構造対応付け装置。
- 第1言語及び第2言語に関する、種類の異なった複数の対訳辞書と、 種類の異なった複数の対訳辞書の情報により、上記各対訳辞書にはない第1言語と第2言語の見出しの対を形成させて辞書情報を拡張させ、拡張した見出しの対と、上記各対訳辞書に当初より存在する見出しの対とに対応度を付与すると共に、拡張した見出しの対の対応度を上記各対訳辞書に当初より存在する見出しの対より低くする辞書拡張処理部とでなる
第2の対応度付き対訳辞書構築処理手段を有し、上記辞書拡張処理部の処理結果を上記対応度付き対訳辞書とする
ことを特徴とする請求項1又は2に記載の対訳依存構造対応付け装置。 - 上記依存構造照合処理手段は、上記対訳文書の文数が設定された文数未満であれば、上記第2の対応度付き対訳辞書構築処理手段による上記対応度付き対訳辞書のみを利用し、上記対訳文書の文数が設定された文数以上であれば、上記第1の対応度付き対訳辞書構築処理手段による上記対応度付き対訳辞書及び上記第2の対応度付き対訳辞書構築処理手段による上記対応度付き対訳辞書の双方を利用することを特徴とする請求項3に記載の対訳依存構造対応付け装置。
- 上記依存構造照合処理手段は、上記依存構造解析手段の依存構造解析結果における句情報を利用することにより、句単位の対応付けを基本とすることを特徴とする請求項1〜4のいずれかに記載の対訳依存構造対応付け装置。
- 上記第1の対応度付き対訳辞書構築処理手段が、上記依存構造解析手段の依存構造解析結果を利用して、構築する上記対応度付き対訳辞書の各辞書見出しを句単位を超えないようにするものであることを特徴とする請求項2〜5のいずれかに記載の対訳依存構造対応付け装置。
- 上記依存構造解析手段が、上記第1言語文に対する翻訳処理を通じて第1言語文から依存構造解析結果を得る翻訳処理部と、上記第2言語文から依存構造解析結果を得る目的言語依存構造解析部とでなると共に、
上記依存構造照合処理手段による依存構造の対応付けの結果から、文法規則及び対訳辞書を作成し、上記翻訳処理部が既に用いている文法規則及び辞書との差分をとって既存のものには含まれていない文法規則及び対訳辞書を新規に登録する辞書登録処理手段を有する
ことを特徴とする請求項1〜6のいずれかに記載の対訳依存構造対応付け装置。 - 第1言語文と第2言語文の文対の集合からなる対訳文書中の少なくとも一対の第1言語文及び第2言語文のそれぞれについて、依存構造を解析する、依存構造解析手段が実行する依存構造解析工程と、
上記依存構造解析工程で得た対をなす第1言語文と第2言語文の依存構造に対して、単語又は単語列を見出しとする、第1言語文の単語又は単語列と第2言語文の単語又は単語列の対応度合いを表す対応度付きの対訳辞書を用いて対応付けし、上記対応度付き対訳辞書では対応が付かない箇所が一部にでもある場合、及び又は、複数の対応の候補が一部にでもある場合には、第1言語文、第2言語文のそれぞれにおいて依存構造が保持されるという条件を満たし、かつ、対応度による評価値が最大になるという条件で、不足する依存構造の対応付けを求め、又は、複数候補の最適対応を決定する、依存構造照合処理手段が実行する依存構造照合処理工程と
を含むことを特徴とする対訳依存構造対応付け方法。 - 上記対訳文書における上記各対訳文を形態素解析し、上記第1言語文及び上記第2言語文の各対訳文の形態素解析結果から、(a)それぞれ所定個数以下の個数の単語又は単語列を抽出し、(b)予め決めておいた出現回数の閾値になるまで、出現回数の設定値を徐々に下げていきながら、(c)その出現回数の設定値以上の出現回数を持つ単語列に対して、出現回数を求め、(d)上記第1言語文及び上記第2言語文の対訳文に同時に出現した出現回数と単独で出現した回数から上記第1言語文及び上記第2言語文の単語又は単語列の対応度を計算し、(e)対応度がある値以上を持つ単語又は単語列のペアを抽出し、(f)その単語又は単語列のペア及び対応度を対応度付き対訳辞書に登録し、(g)この際に登録したペア数がある数以上であれば、その出現回数の設定値で、再度、上述した処理(c)から処理(f)を繰り返し、(h)上述した処理(g)の処理で登録されたペア数がある数より少なければ、出現回数の設定値を下げて、再度、上述した処理(b)から処理(g)を繰り返すことにより、単語又は単語列を見出しとする上記対応度付き対訳辞書を構築する、第1の対応度付き対訳辞書構築処理手段が実行する第1の対応度付き対訳辞書構築処理工程を有することを特徴とする請求項8に記載の対訳依存構造対応付け方法。
- 第1言語及び第2言語に関する、種類の異なった複数の対訳辞書の情報により、上記各対訳辞書にはない第1言語と第2言語の見出しの対を形成させて辞書情報を拡張させ、拡張した見出しの対と、上記各対訳辞書に当初より存在する見出しの対とに対応度を付与すると共に、拡張した見出しの対の対応度を上記各対訳辞書に当初より存在する見出しの対より低くする辞書拡張処理を含む、第2の対応度付き対訳辞書構築処理手段が実行する第2の対応度付き対訳辞書構築処理工程を有し、上記辞書拡張処理の結果を上記対応度付き対訳辞書とすることを特徴とする請求項8又は9に記載の対訳依存構造対応付け方法。
- 上記依存構造照合処理工程は、上記対訳文書の文数が設定された文数未満であれば、上記第2の対応度付き対訳辞書構築処理工程による上記対応度付き対訳辞書のみを利用し、上記対訳文書の文数が設定された文数以上であれば、上記第1の対応度付き対訳辞書構築処理工程による上記対応度付き対訳辞書及び上記第2の対応度付き対訳辞書構築処理工程による上記対応度付き対訳辞書の双方を利用することを特徴とする請求項10に記載の対訳依存構造対応付け方法。
- 上記依存構造照合処理工程は、上記依存構造解析工程の依存構造解析結果における句情報を利用することにより、句単位の対応付けを基本とすることを特徴とする請求項8〜11のいずれかに記載の対訳依存構造対応付け方法。
- 上記第1の対応度付き対訳辞書構築処理工程が、上記依存構造解析工程の依存構造解析結果を利用して、構築する上記対応度付き対訳辞書の各辞書見出しを句単位を超えないようにするものであることを特徴とする請求項9〜12のいずれかに記載の対訳依存構造対応付け方法。
- 上記依存構造解析工程が、上記第1言語文に対する翻訳処理を通じて第1言語文から依存構造解析結果を得る翻訳処理と、上記第2言語文から依存構造解析結果を得る目的言語依存構造解析処理とでなると共に、
上記依存構造照合処理工程による依存構造の対応付けの結果から、文法規則及び対訳辞書を作成し、上記翻訳処理で既に用いている文法規則及び辞書との差分をとって既存のものには含まれていない文法規則及び対訳辞書を新規に登録する辞書登録処理工程を有する ことを特徴とする請求項8〜13のいずれかに記載の対訳依存構造対応付け方法。 - コンピュータを、
第1言語文と第2言語文の文対の集合からなる対訳文書中の少なくとも一対の第1言語文及び第2言語文のそれぞれについて、依存構造を解析する依存構造解析手段と、
単語又は単語列を見出しとする、第1言語文の単語又は単語列と第2言語文の単語又は単語列の対応度合いを表す対応度付きの対訳辞書と、
上記依存構造解析手段が得た対をなす第1言語文と第2言語文の依存構造に対して、上記対応度付き対訳辞書で対応付けし、上記対応度付き対訳辞書では対応が付かない箇所が一部にでもある場合、及び又は、複数の対応の候補が一部にでもある場合には、第1言語文、第2言語文のそれぞれにおいて依存構造が保持されるという条件を満たし、かつ、対応度による評価値が最大になるという条件で、不足する依存構造の対応付けを求め、又は、複数候補の最適対応を決定する依存構造照合処理手段と
して機能させることを特徴とする対訳依存構造対応付けプログラム。 - 請求項15の対訳依存構造対応付けプログラムを記録していることを特徴とする記録媒体。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002367553A JP3973549B2 (ja) | 2002-12-19 | 2002-12-19 | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 |
US10/738,260 US20040230418A1 (en) | 2002-12-19 | 2003-12-18 | Bilingual structural alignment system and method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002367553A JP3973549B2 (ja) | 2002-12-19 | 2002-12-19 | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2004199427A JP2004199427A (ja) | 2004-07-15 |
JP3973549B2 true JP3973549B2 (ja) | 2007-09-12 |
Family
ID=32764405
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002367553A Expired - Fee Related JP3973549B2 (ja) | 2002-12-19 | 2002-12-19 | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 |
Country Status (2)
Country | Link |
---|---|
US (1) | US20040230418A1 (ja) |
JP (1) | JP3973549B2 (ja) |
Families Citing this family (43)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
AU2002316581A1 (en) | 2001-07-03 | 2003-01-21 | University Of Southern California | A syntax-based statistical translation model |
WO2004001623A2 (en) | 2002-03-26 | 2003-12-31 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
GB0406619D0 (en) * | 2004-03-24 | 2004-04-28 | British Telecomm | Induction of grammar rules |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
DE112005002534T5 (de) | 2004-10-12 | 2007-11-08 | University Of Southern California, Los Angeles | Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet |
US7698124B2 (en) * | 2004-11-04 | 2010-04-13 | Microsoft Corporaiton | Machine translation system incorporating syntactic dependency treelets into a statistical framework |
US7869989B1 (en) * | 2005-01-28 | 2011-01-11 | Artificial Cognition Inc. | Methods and apparatus for understanding machine vocabulary |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US7805289B2 (en) * | 2006-07-10 | 2010-09-28 | Microsoft Corporation | Aligning hierarchal and sequential document trees to identify parallel data |
US8249855B2 (en) * | 2006-08-07 | 2012-08-21 | Microsoft Corporation | Identifying parallel bilingual data over a network |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
JP4256891B2 (ja) * | 2006-10-27 | 2009-04-22 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳の精度を向上させる技術 |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8185377B2 (en) * | 2007-08-11 | 2012-05-22 | Microsoft Corporation | Diagnostic evaluation of machine translators |
US8706477B1 (en) * | 2008-04-25 | 2014-04-22 | Softwin Srl Romania | Systems and methods for lexical correspondence linguistic knowledge base creation comprising dependency trees with procedural nodes denoting execute code |
US8762130B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for natural language processing including morphological analysis, lemmatizing, spell checking and grammar checking |
US8762131B1 (en) | 2009-06-17 | 2014-06-24 | Softwin Srl Romania | Systems and methods for managing a complex lexicon comprising multiword expressions and multiword inflection templates |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US20120158398A1 (en) * | 2010-12-17 | 2012-06-21 | John Denero | Combining Model-Based Aligner Using Dual Decomposition |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8484218B2 (en) * | 2011-04-21 | 2013-07-09 | Google Inc. | Translating keywords from a source language to a target language |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9081762B2 (en) * | 2012-07-13 | 2015-07-14 | Enyuan Wu | Phrase-based dictionary extraction and translation quality evaluation |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
JP7030434B2 (ja) * | 2017-07-14 | 2022-03-07 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 翻訳方法、翻訳装置及び翻訳プログラム |
CN110874535B (zh) * | 2018-08-28 | 2023-07-25 | 阿里巴巴集团控股有限公司 | 依存关系对齐组件、依存关系对齐训练方法、设备及介质 |
KR102592630B1 (ko) * | 2018-11-21 | 2023-10-23 | 한국전자통신연구원 | 번역단위 대역 코퍼스를 이용하는 동시통역 시스템 및 방법 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3377290B2 (ja) * | 1994-04-27 | 2003-02-17 | シャープ株式会社 | イディオム処理機能を持つ機械翻訳装置 |
JP2001101185A (ja) * | 1999-09-24 | 2001-04-13 | Internatl Business Mach Corp <Ibm> | 辞書の自動切り換えが可能な機械翻訳方法および装置並びにそのような機械翻訳方法を実行するためのプログラムを記憶したプログラム記憶媒体 |
US7010479B2 (en) * | 2000-07-26 | 2006-03-07 | Oki Electric Industry Co., Ltd. | Apparatus and method for natural language processing |
JP4330285B2 (ja) * | 2001-04-16 | 2009-09-16 | 沖電気工業株式会社 | 機械翻訳用辞書登録装置、機械翻訳用辞書登録方法、機械翻訳装置、機械翻訳方法及び記録媒体 |
US7734459B2 (en) * | 2001-06-01 | 2010-06-08 | Microsoft Corporation | Automatic extraction of transfer mappings from bilingual corpora |
US7349839B2 (en) * | 2002-08-27 | 2008-03-25 | Microsoft Corporation | Method and apparatus for aligning bilingual corpora |
-
2002
- 2002-12-19 JP JP2002367553A patent/JP3973549B2/ja not_active Expired - Fee Related
-
2003
- 2003-12-18 US US10/738,260 patent/US20040230418A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
JP2004199427A (ja) | 2004-07-15 |
US20040230418A1 (en) | 2004-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3973549B2 (ja) | 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体 | |
JP4404211B2 (ja) | マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム | |
US6523000B1 (en) | Translation supporting apparatus and method and computer-readable recording medium, wherein a translation example useful for the translation task is searched out from within a translation example database | |
CA2202696C (en) | Method and apparatus for language translation | |
JP7251181B2 (ja) | 対訳処理方法および対訳処理プログラム | |
JP5235344B2 (ja) | 機械翻訳を行う装置、方法およびプログラム | |
US9239826B2 (en) | Method and system for generating new entries in natural language dictionary | |
JP4319860B2 (ja) | 転移ベースの機械翻訳システムで使用される転移辞書を開発するための方法および装置 | |
JP4372133B2 (ja) | 辞書登録装置、辞書登録方法及び辞書登録プログラム | |
JP2020190970A (ja) | 文書処理装置およびその方法、プログラム | |
JP2009157888A (ja) | 音訳モデル作成装置、音訳装置、及びそれらのためのコンピュータプログラム | |
CN1627289B (zh) | 用于分析汉语的装置和方法 | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
JP3326646B2 (ja) | 機械翻訳システム用辞書・ルール学習装置 | |
JP4059501B2 (ja) | 自然語辞書更新装置 | |
JP3353647B2 (ja) | 機械翻訳システム用辞書・ルール学習装置及び機械翻訳システム用辞書・ルール学習プログラムを格納した記憶媒体 | |
JP4313967B2 (ja) | 自然言語変換システム | |
JP3419748B2 (ja) | 辞書作成装置および方法と辞書作成プログラムを記録した記録媒体 | |
JP5521670B2 (ja) | パターンマッチング装置、翻訳装置、翻訳システム及び翻訳プログラム | |
JP4007504B2 (ja) | 単語分割装置、記憶媒体およびプログラム | |
JP2000250914A (ja) | 機械翻訳方法、装置、および機械翻訳プログラムを記録した記録媒体 | |
JP2004264960A (ja) | 用例ベースの文変換装置、およびコンピュータプログラム | |
JP4021813B2 (ja) | 複合語登録プログラムおよび登録装置 | |
JP2006053867A (ja) | 対訳辞書作成方法および装置、ならびにコンピュータプログラム | |
JP2004326584A (ja) | 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041029 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070403 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20070522 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070612 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20070612 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100622 Year of fee payment: 3 |
|
LAPS | Cancellation because of no payment of annual fees |