JP4001605B2 - 翻訳パターン作成装置 - Google Patents

翻訳パターン作成装置 Download PDF

Info

Publication number
JP4001605B2
JP4001605B2 JP2005157889A JP2005157889A JP4001605B2 JP 4001605 B2 JP4001605 B2 JP 4001605B2 JP 2005157889 A JP2005157889 A JP 2005157889A JP 2005157889 A JP2005157889 A JP 2005157889A JP 4001605 B2 JP4001605 B2 JP 4001605B2
Authority
JP
Japan
Prior art keywords
translation
pattern
translation pattern
dictionary
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2005157889A
Other languages
English (en)
Other versions
JP2006331335A (ja
Inventor
美穂子 北村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2005157889A priority Critical patent/JP4001605B2/ja
Publication of JP2006331335A publication Critical patent/JP2006331335A/ja
Application granted granted Critical
Publication of JP4001605B2 publication Critical patent/JP4001605B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、機械翻訳装置等で使用される翻訳パターンを作成する翻訳パターン作成装置に関し、例えば、対訳文書を与えるだけで翻訳処理に必要な翻訳パターンを自動的に作成しようとしたものである。
機械翻訳装置に使用する対訳辞書の訳語を決定する作業は難しい。単語の訳語は、一意に決まらず、その単語と共起する単語に依存したり、前後の文脈に依存したりするためである。さらに、単語単位では訳されるとは限らず、“you are welcome/どういたしまして”というように、複数の単語が共起することによって一つの訳語が与えられるという、イディオムや固定的な言い回しのような複数単語に関する辞書も必要である。
このような問題を解決するアイデアの一つとして、特許文献1に記載された方法がある。この方法は、既存の対訳文書と翻訳辞書を利用して、複合語辞書を自動作成し、新規辞書登録する技術である。例えば、翻訳辞書に“business”に「ビジネス、事業、勤務」という訳語があり、“hour”に「時間」という訳語が登録されているとする。
ある対訳文書に“business hours”という表現があるとする。これは「ビジネス時間」、「事業時間」、「勤務時間」の3つの訳の候補が考えられるが、その候補の中で対訳文書中に存在する表現があれば、その表現を訳として辞書に登録するという技術である。例えば、「勤務時間」が対訳文書に存在すれば、“business hours/勤務時間” が新しく翻訳辞書に登録される。
また、対訳文書から翻訳辞書を作成する技術として、特許文献2に記載のものがある。
この技術は、対訳文書における原言語の表現と目的言語の表現の同時出現頻度に基づく統計情報を利用して、対訳文書が有する原言語と目的言語の表現の対を自動的に抽出し、翻訳辞書を作成する技術である。
特開2001−142882号公報 特開平10−11445号公報
しかしながら、特許文献1の記載技術では、十分な翻訳辞書の存在が必要である。例えば、上記の場合では“business”に「勤務」という訳語が翻訳辞書に登録されていなければ、“business hours/勤務時間”を辞書に登録することができない。さらに、特許文献1の記載技術は、複合語の訳語は、各単語の訳語の組合せからなることを前提としており、“you are welcome/どういたしまして”のような、各単語の訳語と直接関係のない訳語を有する辞書は作成することができない。
これに対して、特許文献2の記載技術では、翻訳辞書を利用することなく、対訳文書に頻出する表現に関する翻訳辞書を自動的に作成することができる。上述したように、特許文献2の記載技術では、対訳文書における原言語の表現と目的言語の表現との対応付けを同時出現頻度に基づく統計情報を利用して行っているが、対応付けそのものの評価はなされていない(言い換えれば、上記統計情報がそのまま評価値にもなっている)。
そのため、対応付けを評価した高品質の翻訳パターンを作成することができる翻訳パターン作成装置が望まれている。
発明の翻訳パターン作成装置は、文単位の対応が付いた対訳文書から翻訳に必要な翻訳パターンを作成する翻訳パターンものであって、(1)対訳文書の各言語の文に対して形態素解析を行う形態素解析手段と、(2)各言語の形態素解析結果を用いて各言語の単語、単語列の対応関係を推定し、対応度合が基準度合を超えている対応関係から翻訳パターンを作成する翻訳パターン作成手段と、(3)同一文に対し、作成された翻訳パターンを使用して機械翻訳すると共に、作成された翻訳パターンを使用しないで機械翻訳する翻訳手段と、(4)作成された翻訳パターンを使用した翻訳結果の第1の評価値と使用しない翻訳結果の第2の評価値とを得る翻訳結果評価手段と、(5)第1の評価値が第2の評価値より、翻訳結果と上記対訳文書との差分が少ないことを示す値であるときに、上記基準度合を下げる変更を行って、上記翻訳パターン作成手段に翻訳パターン作成処理を再度行わせるパターン作成継続判定手段とを有することを特徴とする。
本発明によれば、対応付けを評価した高品質の翻訳パターンを作成することができる翻訳パターン作成装置を提供できる。
(A)第1の実施形態
以下、本発明による翻訳パターン作成装置の第1の実施形態を、図面を参照しながら詳述する。
第1の実施形態は、上記特許文献2の記載技術をベースとし、作成される翻訳パターンの高品質化を図ったものである。第1の実施形態は、対訳で対応していると推定されている部分が、翻訳パターンの作成に値する対応度合であるか否かを切り分けるパラメータ(閾値)を自動設定できる点に特徴を有している。
(A−1)第1の実施形態の構成
図1は、第1の実施形態の翻訳パターン作成装置の機能的構成を示すブロック図である。第1の実施形態の翻訳パターン作成装置は、パソコンなどの情報処理装置(1台に限定されず、複数台を分散処理し得るようにしたものであっても良い)上に、翻訳パターン作成プログラム(固定データを含む)をインストールすることにより、構築されるものであるが、機能的には、図1で表すことができる。
図1において、第1の実施形態の翻訳パターン作成装置1は、入出力部1.1及び翻訳パターン作成部1.2を有する。
入出力部1.1は、入力装置1.01から対訳文書を取り込む入力処理部1.11と、作成した翻訳テンプレートを出力装置1.02に出力する出力処理部1.12とを有する。
入力処理部1.11は、キーボードから入力された対訳文書を取り込んだり、記録媒体や装置内蔵の記憶装置から対訳文書を取り込んだり、外部装置(例えば、プロバイダサーバなどのコンテンツサーバ)から対訳文書をダウンロードによって取り込んだりするものであり、入力装置1.01からの対訳文書の入力方法は問われないものである。出力処理部1.12は、出力装置1.02がディスプレイであれば表示出力させ、出力装置1.02がプリンタであれば印刷出力させ、出力装置1.02が外部装置であれば送信出力させ、出力装置1.02がファイル記憶装置であれば格納させるものである。
翻訳パターン作成部1.2は、ハードウェア的には、CPU、ROM、RAM、EEPROM、ハードディスクなどの翻訳パターン作成プログラムの実行構成が該当する(なお、上述の入出力部1.1も、このようなハードウェア構成も該当する)。
翻訳パターン作成部1.2は、入力された対訳文書に対して単語区切り及び品詞推定を行う形態素解析部1.21と、両言語の形態素解析結果から、両言語間の形態素間の対応を推定する対応推定部1.22と、原言語の形態素解析結果を受け取り、翻訳処理を行い、目的言語の翻訳結果を出力する翻訳エンジン部1.23と、翻訳エンジン部1.23が出力した翻訳結果を評価したり、比較したりする翻訳結果評価部1.24と、翻訳結果評価部1.24による評価結果に基づいて、閾値を再設定する閾値設定部1.25とを有する。また、翻訳パターン作成部1.2は、形態素解析部1.21が利用する形態素辞書1.261と、翻訳エンジン部1.23が利用する翻訳バターン辞書1.262と、対応推定部1.22により作成された翻訳パターンを格納する翻訳パターン一時辞書1.263とを有する。さらに、翻訳パターン作成部1.2は、作業用のバッファとして、対応推定時に用いる第1のバッファ1.271と、翻訳結果を格納する第2のバッファ1.272を有する。
ここで、翻訳エンジン部1.23は、特開2002−41512号公報(参考文献1)に記載のようなパターンベースの翻訳エンジンが適している。
(A−2)第1の実施形態の動作
次に、第1の実施形態の翻訳パターン作成装置の動作を、図面を参照しながら説明する。以下では、使用者が、英語(原言語)が日本語(目的言語)に翻訳された対訳文書を入力した場合を例に、第1の実施形態の翻訳パターン作成装置の動作を説明する。
図2は、第1の実施形態の翻訳パターン作成処理の全体の流れを記したフローチャートである。以下、このフローチャートに沿って説明する。なお、図1におけるt1、t2、…は、第1の実施形態の処理の順番を記している。
図3は、入力となる英日対訳文書の例である(日本語については、以降の説明を簡単にするために形態素単位で区切っているが、実際の例文は区切られていない)。第1の実施形態の場合、図3に示すように、入力となる対訳文書は、1文単位で対応が付いていることが前提となる(なお、特開平8−297675号公報(参考文献2)に示すように、文の対応付けアルゴリズムを使用することによって、対応付けられていない文の入力も可能である。1文対1文の対訳である必要はなく、1文対複数文であっても構わないし、複数文対複数文であっても構わない)。
使用者が、入力装置1.01から、図3のような英日対訳文書を入力すると、入力された英日対訳文書は、入力処理部1.11を経て、形態素解析部1.21に渡される(S301)。形態素解析部1.21は、形態素辞書1.261を利用して、英語文書、日本語文書両方の形態素解析を行い、原言語である英語文書の形態素解析結果を、翻訳エンジン部1.23に渡し、一方、目的言語の日本語の形態素解析結果を、第2のバッファ1.272に格納する(S302)。翻訳エンジン部1.23は、翻訳パターン辞書1.262を用いて英語文書を翻訳し(作成翻訳パターンを利用しない翻訳)、その翻訳結果を第2のバッファ1.272に格納する(S303)。
次に、翻訳結果評価部1.24が、第2のバッファ1.272の翻訳結果を評価し、評価点を、第2のバッファ1.272に格納する(S304;作成翻訳パターンを利用しない翻訳の評価)。評価の方式は、翻訳結果と、第2のバッファ1.272中の日本語形態素解析結果(正解例)との差分を測り、その差分ができるだけ少ない方が評価点が大きくなる評価方式を適用する。
例えば、図4に示すような対訳例文と翻訳結果が第2のバッファ1.272に存在する場合、正解例(対訳例文)と翻訳結果とにおいて、等しい箇所は、「addbib」、「入力する」等であり、異なる箇所(つまり差分)は、「最初」、「プロンプト」等である。等しい箇所が多いほど(差分が少ないほど)、翻訳結果は正解例に近く、つまり翻訳結果が良いと言うことができる。ステップS304の評価処理では、このような考え方を用いた自動評価方式を利用する。例えば、以下の参考文献3や参考文献4に記載の方式などを適用することができる。
参考文献3:Kishore Papineni, Salim Roukos, Todd Ward, and Wei-Jing Zhu, “BLEU:a method for Automatic Evaluation of machine translation”, In Proc. of the 40 ACL, pages311-318,2002
参考文献4:金山博、荻野紫穂共著,「翻訳精度評価手法BLEUの日英翻訳の適用」,自然言語処理154-19,pages131-136,2003
上述したステップS304においては、例えば、これらの技術を利用して評価点を求めて第2のバッファ1.272に格納する。図5(A)は、このときの第2のバッファ1.272の評価値の格納状態を示している。
次に、対応推定部1.22は、出現回数の閾値zを後述する初期値(z=10)に設定し、英語、日本語両言語の形態素解析結果を用いて、両言語間の形態素間での対応関係を推定し、推定された対応関係に基づいて翻訳パターンを作成する(S305、S306)。図6は、作成された翻訳パターンの例を示している。
対応推定部1.22によるステップS305及びS306の処理として、上述した特許文献2に記載の技術を用いる。参考までに、特許文献2に記載の技術、すなわち、対応推定処理およびその前後の処理を含む翻訳パターンの作成処理を、この第1の実施形態に適用した場合の流れを図7のフローチャートに示している。
図7の(1)の処理が図2のS302の処理に対応し、図7の(2)〜(7)の処理が図2のS305及びS306の処理に対応し、図7の(8)及び(9)の処理が図2のS307の処理に対応し、図7の(10)の処理が図2のS308の処理に対応し、図7の(11)の処理が図2のS309に対応する。
対応推定部1.22によって作成された翻訳パターンは、翻訳パターン一時辞書1.263に格納される(S307)。なお、処理開始時の出現回数の閾値(特許文献2の段落「0124」に記載のzの条件)は、翻訳パターンの品質が100%保証される値(例えばZ=10)にセットする(S305;図7の(5)の処理)。また、作成された翻訳パターンの翻訳パターン一時辞書1.263への登録(格納)は、後述するように、その翻訳パターンが翻訳パターン辞書1.262に登録されることもあれば登録されないこともあるものであるため、仮登録状態にあるものである。
翻訳エンジン部1.23は、作成された翻訳パターンが格納された翻訳パターン一時辞書1.263と、翻訳パターン辞書1.262の両方の辞書を用いて、入力処理部1.11により入力された英語文書を再度翻訳する(S307;図7の(10)の処理)。このステップS307の翻訳処理は、上述したステップS303の翻訳が翻訳パターン一時辞書1.263を利用しない翻訳であるのに対して、翻訳パターン一時辞書1.263を利用している点で異なっている。
ステップS307の翻訳処理による翻訳結果に対しても、翻訳結果評価部1.24は、上述したと同様に評価し、その評価点を、第2のバッファ1.272に格納する(S309;作成した翻訳パターンを利用した翻訳の評価)。
この際の第2のバッファ1.272の評価値状態例を図6(B)に示す。第2のバッファ1.272には、翻訳パターンが登録される前後の翻訳パターン一時辞書1.263を使用した翻訳結果に対する評価点が格納されている。図6(B)の例の場合には、翻訳パターンが登録された後の翻訳パターン一時辞書1.263を使用した評価点の方が、翻訳パターンが登録される前の翻訳パターン一時辞書1.263を使用した評価点より良くなっている。
以上のようにして、翻訳パターン一時辞書1.263をも使用した評価点を得たときには、翻訳パターン一時辞書1.263の使用前後の評価点を比較する(S311)。
この比較により、翻訳パターン一時辞書1.263をも使用した評価点の方が良い、又は、等しいと判断されたならば、閾値設定部1.25は、閾値zを緩めて(例えば、z←z−1)、翻訳パターン一時辞書1.263中に存在する翻訳パターンを翻訳パターン辞書1.262に登録する(S312)。そして、上述したステップS305の対応推定処理に戻る(図7では(1)、(2)の処理後に、(6)の処理に戻ることに相当する)。
閾値zを緩めてステップS305の対応推定処理に戻ることは、両言語間の形態素間での対応関係を推定し、推定された対応関係に基づいて翻訳パターンを作成する際の、翻訳パターンとするか否かの対応関係の境界を緩めたことを意味し、それだけ翻訳パターンとして作成されるものが多くなり易いことを意味している。
一方、上述したステップS311の翻訳パターン一時辞書1.263の使用前後の評価点を比較で、使用後の評価点の方が低いという結果を得ると、翻訳パターン一時辞書1.263から翻訳パターン辞書1.262に新規登録された全ての翻訳パターンを出力処理部1.12により出力(例えば表示)し(S313)、図2に示す一連の処理を終了する。なお、上述したように、図6は、作成されて翻訳パターン一時辞書1.263に仮登録された翻訳パターンの例を示したものであるが、この具体例の場合には、最終的に出力される翻訳パターンも、図6に示したものである。
(A−3)第1の実施形態の効果
上記第1の実施形態によれば、作成した翻訳パターンを仮登録し、仮登録した翻訳パターンの使用前後での翻訳結果の正解例文に比較した評価値を得、これら評価値同士を比較し、仮登録した翻訳パターンを使用した翻訳結果の評価値が良好であれば、本登録すると共に、仮登録するか否かの基準を下げて処理を繰り返すようにしたので、翻訳結果の品質を向上できる限りにおいて、対応が推定された対訳の部分から有効な翻訳パターンを作成することができる。
すなわち、対応付けの基準を固定にしていた場合には、翻訳結果の出力を下げる翻訳パターンが登録されることもあり得たが、第1の実施形態では、対応付けが評価された翻訳品質を向上できる品質が高い翻訳パターンを登録することができる。
(B)第2の実施形態
次に、本発明による翻訳パターン作成装置の第2の実施形態を、図面を参照しながら詳述する。
(B−1)第2の実施形態の構成
第2の実施形態は、翻訳パターン一時辞書の使用前後の翻訳結果を評価することによって、一語一語に対して登録すべきか否かを判断するものである。また、その判断結果を翻訳パターンの自動作成方法に再利用する(判断結果をフィードバックする)ことにより、対応推定の精度の向上を図ったものである。
図8は、第2の実施形態の翻訳パターン作成装置の機能的構成を示すブロック図であり、第1の実施形態に係る図1との同一、対応部分には対応符号(「1.xx」と「2.xx」との相違)を付して示している。
図8において、第2の実施形態の翻訳パターン作成装置2は、翻訳パターン作成部において翻訳結果評価部2.24及び閾値設定部1.25に代えて辞書選定部2.25が設けられている点、削除辞書2.264が新たに加わっている点が、第1の実施形態と異なっており、その他は、第1の実施形態と同様である。
辞書選定部2.25は、対応推定部2.22が作成し、翻訳パターン一時辞書2.263に記憶(仮登録)した翻訳パターンを、その翻訳パターンの記憶前後の翻訳パターン一時辞書2.263及び翻訳パターン辞書2.262を使用した2種類の翻訳結果などに基づいて評価し、翻訳パターン一時辞書2.263に記憶(仮登録)された翻訳パターンを、最終的に、翻訳パターン辞書2.262又は削除辞書2.264のいずれに記憶させるかを決定するものである。
削除辞書2.264は、翻訳パターン一時辞書2.263に記憶(仮登録)された翻訳パターンのうち、翻訳パターン辞書2.262に転送記憶されないものを記憶するものである。
(B−2)第2の実施形態の動作
次に、第2の実施形態の翻訳パターン作成装置の動作を、図面を参照しながら説明する。
図9は、第2の実施形態の翻訳パターン作成処理の全体の流れを記したフローチャートである。以下、第1の実施形態の場合と同様に、図3の英日対訳文書が入力された場合を例に、処理の流れを説明する。
英日対訳文書が入力されてから、翻訳エンジン部2.23が翻訳パターン辞書2.262を用いて英語文書を翻訳し、その翻訳結果を第2のバッファ2.272に格納するまでの処理(S901〜S903)は、第1の実施形態と同様である。
次に、対応推定部2.22が対応推定処理を行い(S904)、その結果作成された翻訳パターン(図11参照)を翻訳パターン一時辞書2.263に登録する(S905)。
第2の実施形態においても、特許文献2に記載の技術を応用したものを用いる。第2の実施形態で用いる対応推定処理(その前後の処理を含む)の流れを、第1の実施形態に係る図7に対応する図10に示している。ここで、重要な点は、対応推定時に、翻訳パターン辞書2.262及び削除辞書2.264を参照し、これらの辞書2.262及び2.264は対応推定処理が繰り返される度に拡張される点である。なお、図10における「翻訳パターン辞書」は図8の翻訳パターン辞書2.262に相当し、図10の「削除辞書」は図8の削除辞書2.264に相当する。
翻訳エンジン部1.23は、翻訳パターン一時辞書2.263と翻訳パターン辞書2.262の両方の辞書を用いて、入力処理部2.12より入力された英語文書を最後翻訳し、再翻訳結果を第2のバッファ2.272に格納する(S906)。
ステップS906の処理が数回実行されたときの第2のバッファ2.272の格納状態を図12に示している。図12において、Enn(後のnは文番号を表している)にはn番目の原文(英語文)、Janにはn番目の翻訳例文(日本文)、Trfnには翻訳パターン一時辞書2.263に翻訳パターンが登録される前のn番目の文の翻訳結果、Trsnには、翻訳パターン一時辞書2.263に翻訳パターンが登録された後のn番目の文の翻訳結果が格納されている。
以上のような対応関係にある4種類の文が格納されている第2のバッファ2.272に対して辞書選定処理(S907)が実行される。辞書選定処理の詳細を図13に示している。
まず初めに、文番号変数nに初期値1をセットし(S1701)、文番号変数nで定まる4種類の文Enn、Jan、Trfn、Trsnのそれぞれについて自立語を取り出し、所定のエリアにセットする処理を行う(S1702)。
例えば、原文(英語文)Ennに含まれている自立語を全て取り出し、en1,en2,…,enSにセットする(SはEnnの自立語の数)。同様に、翻訳例文Janに含まれている自立語を全て取り出し、ja1,ja2,…,jaTにセットする(TはJanの自立語の数)。また、翻訳パターン一時辞書2.263に翻訳パターンが登録される前のn番目の文の翻訳結果Trfnに含まれている自立語を全て取り出し、trf1,trf2,…,trfMにセットする(MはTrfnの自立語の数)。さらに、翻訳パターン一時辞書2.263に翻訳パターンが登録される後のn番目の文の翻訳結果Trsnに含まれている自立語を全て取り出し、trs1,trs2,…,trsOにセットする(OはTrsnの自立語の数)。
以下では、翻訳例文Janが翻訳の正解を与えているとし、翻訳例文Janの自立語に基づいて、翻訳パターンの登録前後の翻訳結果Trfn及びTrsnを評価する。
翻訳例文自立語変数xに初期値1をセットする(S1703)。そして、翻訳例文Janのx番目の自立語jaxが、翻訳パターンの登録前の翻訳結果Trfnにも自立語として含まれているか否かを判別する(S1704)。自立語jaxが翻訳パターンが登録される前の翻訳結果Trfnに含まれていなければ、翻訳パターン一時辞書2.263への登録前も間違った翻訳をさせるものであるので、翻訳パターンの対象外の自立語とみなし、後述するステップS1708に直ちに移行する。これに対して、自立語jaxが翻訳パターンが登録される前の翻訳結果Trfnに含まれていれば、翻訳パターンを翻訳パターン一時辞書2.263に登録する前には正しく翻訳できていたとみなし、翻訳例文Janのx番目の自立語jaxが、翻訳パターンの登録後の翻訳結果Trsnにも自立語として含まれているか否かを判別する(S1705)。
翻訳例文Janのx番目の自立語jaxが、翻訳パターンの登録後の翻訳結果Trsnに自立語として含まれていなければ、翻訳パターン一時辞書2.263への登録前は正しく翻訳できたのに、翻訳パターン一時辞書2.263への登録後は正しい翻訳ができなくなったとみなして後述するステップS1706に進み、一方、翻訳パターンの登録後の翻訳結果Trsnにも自立語として含まれていれば後述するステップS1708に進む。
ステップS1706においては、翻訳例文Janのx番目の自立語jaxが含まれている削除対象の翻訳パターンを以下のようにして検出し、ステップS1707(S908)において、検出された翻訳パターンを翻訳パターン一時辞書2.263から削除し、削除辞書2.264に登録する。
削除対象の検出(S1706)ではまず、翻訳例文Janのx番目の自立語jaxが含まれている翻訳パターンを翻訳パターン辞書2.262から取り出す。取り出された翻訳パターンは、正解を与えていた可能性が高いものである。その翻訳パターンに含まれている正解を与えている可能性が高い英語自立語を全て取り出す。次に、翻訳パターン一時辞書2.263から、その英語自立語を含む翻訳パターンを翻訳パターン一時辞書2.263から取り出す。ここで、翻訳パターン一時辞書2.263から取り出された翻訳パターンは、翻訳の品質を低下させた可能性が非常に高いものである。そして、取り出された翻訳パターンの中から、その日本語自立語に、trs1,trs2,…,trsOに含む翻訳パターンを削除対象として検出する。
以上のようにして、翻訳例文Janのx番目の自立語jaxに着目した翻訳パターン一時辞書2.263の翻訳パターンの見直しが終了すると、翻訳例文自立語変数xを1インクリメントし(S1708)、翻訳例文自立語変数xがその自立語総数Xより大きくなったか否かを判別する(S1709)。
翻訳例文自立語変数xがその自立語総数X以下であれば、上述したステップS1704に戻り、翻訳例文Janの次の自立語(jax)に着目した翻訳パターン一時辞書2.263の翻訳パターンの見直しに移行する。
これに対して、翻訳例文自立語変数xがその自立語総数Xより大きくなっていれば、すなわち、翻訳例文Janの全ての自立語について、その自立語に着目した翻訳パターン一時辞書2.263の翻訳パターンの見直しが終了していると、文番号変数nを1インクリメントし(すなわち、次の文を指示するものとする;S1710)、文番号変数nが文総数Nより大きくなっているか否かを判別する(S1711)。
文番号変数nが文総数Nより大きくなければ、すなわち、全ての文に対して処理を終了していなければ、上述したステップS1702に戻り、新しい翻訳例文Janの自立語jaxに着目した翻訳パターン一時辞書2.263の翻訳パターンの見直しに移行する。
文番号変数nが文総数Nより大きくなると、すなわち、全ての文に対する処理が終了すると、翻訳パターン一時辞書2.263に含まれている翻訳パターンを翻訳パターン辞書2.262に登録し(S1712;S908)、図13に示す一連の処理を終了する。
以下では、具体例を挙げて、辞書選定処理を説明する。ここで、一時辞書登録処理(S905)によって、上述した図11に示す翻訳パターン一時辞書2.263が作成されたとする。また、ステップS1702の処理対象の文が、図12の1番目の文En1、Ja1、Trf1、Trs1であって、ステップS1702によって、図14に示すような自立語の配列が第2のバッファ2.272に作成されたとする。
翻訳例文自立語変数xが8である場合のステップS1704において、jax(ja8)である自立語「与える」は、翻訳パターン一時辞書2.263の使用前の翻訳結果における自立語配列の中(trf8)に存在するので、ステップS1705に進む。次に、翻訳パターン一時辞書2.263の使用後の翻訳結果における自立語配列trs1〜trs7の中にはja8「与える」が含まれないため、ja8「与える」を含む翻訳パターンを翻訳パターン辞書2.262から検索する。
翻訳パターン辞書2.262の格納内容が図15に示すようであったとする。この場合、ja8「与える」を含む翻訳パターンとして、英語の自立語が“yield”、“give”であるものが検索される。その英語自立語“yield”、“give”を含む翻訳パターンを翻訳パターン一時辞書2.263から検索する。図11に示す翻訳パターン一時辞書2.263から、“yield/はじまる”という翻訳パターンが検索される。
そのため、この翻訳パターン“yield/はじまる”が削除辞書2.264に登録され、翻訳パターン一時辞書2.263から削除される(S1707)。
上述した処理を、対訳例文(言い換えると翻訳例文)の全文に対して行い、最終的に翻訳パターン一時辞書2.263に残った翻訳パターンが翻訳パターン辞書2.262に登録される(S1712)。
以上のような処理により、例えば、図11に示した翻訳パターン一時辞書2.263に記憶(仮登録)された翻訳パターンのうち、使用する翻訳パターンに含めた場合に翻訳の品質の低下を招かない図16に示すようなものが翻訳パターン辞書2.262に登録され、使用する翻訳パターンに含めた場合に翻訳の品質の低下を招く図17に示すようなものが削除辞書2.264に登録される(S908(S1707、S1712))。
このような登録後、閾値zを1デクリメントだけ更新した後、予め定められている設定値iと大小比較する終了判定処理を行い(S909)、継続させる場合には、上述したステップS904の対応推定処理に戻り、上述した処理を繰り返す。
なお、以降の対応推定処理時には、ステップS1707及びS1712で作成した削除辞書2.264及び翻訳パターン辞書2.262が利用されることになる。削除辞書2.264は、翻訳パターン一時辞書2.263に記憶させない翻訳パターンの一覧を記憶しているものとして利用される。例えば、削除辞書2.264に登録された翻訳パターンを、図10の(8)の「対訳辞書参照による対訳表現の抽出時」で参照し、それと同じ連続単語列ペア、又は、その部分を共通に含む翻訳パターンを辞書として選定しないようにする。
一方、閾値zが設定値iに到達したならば、表示処理(他の出力処理でも良い)に移り、翻訳パターン一時辞書2.263から翻訳パターン辞書2.262に登録された全翻訳パターンを出力処理部2.11により表示する(S910)。
(B−3)第2の実施形態の効果
第2の実施形態によれば、作成された翻訳パターンを使用した際の翻訳結果を評価することによって、一語一語に対して、その語を含む翻訳パターンを登録すべきか否かを判断し、翻訳結果を向上させる翻訳パターンを本登録する。従って、品質低下の可能性がある語を含む翻訳パターンは登録されることはない。このようにその語を登録すべきか否かの判断結果を、それ以降に行われる翻訳パターンの自動作成に再利用することにより、対応推定の精度の向上を図ることができる。
上述した説明では、「登録すべきではない」との判断された語(の翻訳パターン)を削除辞書に登録し、再度、翻訳パターンとして作成されることがないように再利用しているが、それ以外の再利用方法も考えられる。
例えば、図10の(7)の「対応度の計算」において、削除辞書を参照し、削除辞書に登録されているパターンを含む連続単語列ペアの対応度に対して、その値を低くするような重みを与えるようにしても良い。また例えば、図10の(7)の「対応度の計算」において、翻訳パターン辞書を参照し、翻訳パターン辞書に登録されたパターンを含む連続単語列ペアの対応度に対して、その値を高くするような重みを与えるようにしても良い。
(C)他の実施形態
(c1)第2の実施形態では、閾値zは既定の設定値iを利用する方式で説明したが、第1の実施形態のように、閾値zの限界値を変化させる自動的な対応推定を行っても良い。
すなわち、第1の実施形態の技術思想と、第2の実施形態の技術思想とを融合させるようにしても良い。
(c2)上記各実施形態では、英語側が原言語である英日の翻訳の場合を示したが、日本語側が原言語である英日の翻訳の場合にも本発明を適用することができ、さらに、任意の2言語間の翻訳の場合にも本発明を適用することができる。
(c3)第2の実施形態では、大量の対訳文書を一度に与え、翻訳パターンを作成する方法を示したが、対訳文書をいくつかの単位に分割し、徐々に与える文数を増やしていくという方法を適用するようにしても良い。
与える文数を徐々に増やしながら翻訳パターン作成を行う利点は、評価結果を翻訳パターン作成に効果的に利用できる点である。具体的に言えば、(1)文数の少ない段階で翻訳パターンを作成する、(2)その翻訳パターンは評価され、良い翻訳パターンと悪い翻訳パターンに分類される、(3)対象となる文数を増やす、(4)増やされた文における翻訳パターンの作成は、分類された(2)の翻訳パターンを参照して作成されるため、翻訳パターン作成の精度が向上する。
(c4)第1の実施形態で利用する評価方法は、仮登録された翻訳パターンの使用前後の2種類の翻訳結果の比較評価ができるものであれば、第1の実施形態の説明で記載した技術以外であっても構わない。
(c5)上記各実施形態では、翻訳パターンの作成方法として特許文献2に記載のものをベースとしたものであったが、翻訳パターンを徐々に抽出する方法であれば、各実施形態に記載の方法以外でも構わない。例えば、参考文献5に記載の翻訳パターンの作成方法を適用するようにしても良い。
参考文献5:K.Yamamoto and Y.Matsumoto,“Acquisition of Phrase-level Bilingual correspondence using Dependency structure”, In Proceedings of 23『COLING-200,pages 933-939,2000
(c6)翻訳エンジンは、参考文献1に記載のパターンベースの翻訳エンジンが適していると説明したが、原言語と目的言語の表現を対とする対訳辞書を用いる翻訳エンジンであれば、どんなエンジンであっても構わない。
(c7)上記各実施形態においては、翻訳パターン一時辞書の翻訳パターンを評価するために翻訳させる例文も、翻訳パターンを作成させるための対訳文書内の文章であるものを示したが、上記例文として、入力された対訳文書の文と異なるものを適用するようにしても良い。
第1の実施形態の翻訳パターン作成装置の機能的構成を示すブロック図である。 第1の実施形態の翻訳パターン作成装置における作成処理を示すフローチャートである。 第1の実施形態の動作説明に利用した英日対訳文書例を示す説明図である。 第1の実施形態における翻訳結果の評価方法の説明図である。 第1の実施形態の作成翻訳パターンの使用前後の翻訳結果の評価値の関係例を示す説明図である。 第1の実施形態の作成された翻訳パターン例を示す説明図である。 図2の対応推定処理の基本的な処理の流れを示すフローチャートである。 第2の実施形態の翻訳パターン作成装置の機能的構成を示すブロック図である。 第2の実施形態の翻訳パターン作成装置における作成処理を示すフローチャートである。 図9の対応推定処理の基本的な処理の流れを示すフローチャートである。 第2の実施形態の作成された翻訳パターン例を示す説明図である。 第2の実施形態における英日の対訳文、作成翻訳パターンの使用前後の翻訳結果の計4種類の文の例を示す説明図である。 図9の辞書選定処理の詳細を示すフローチャートである。 図12の4種類の文の自立語の抽出結果を示す説明図である。 作成翻訳パターンの使用前の翻訳結果にのみ含まれている日本語対訳文の自立語に着目して取り出した既存の翻訳パターンの例を示す説明図である。 図11の作成翻訳パターンのうち翻訳パターン辞書に登録されるものを示す説明図である。 図11の作成翻訳パターンのうち削除辞書に登録されるものを示す説明図である。
符号の説明
1、2…翻訳パターン作成装置、1.1、2.1…入出力部、1.01、2.01…入力装置、1.11、2.11…入力処理部、1.02、2.02…出力装置、1.12、2.12…出力処理部、1.2、2.2…翻訳パターン作成部、1.21、2.21…形態素解析部、1.22、2.22…対応推定部、1.23、2.23…翻訳エンジン部、1.24…翻訳結果評価部、1.25…閾値設定部、1.261、2.261…形態素辞書、1.262、2.262…翻訳バターン辞書、1.263、2.263…翻訳パターン一時辞書、2.25…辞書選定部、2.264…削除辞書。

Claims (1)

  1. 文単位の対応が付いた対訳文書から翻訳に必要な翻訳パターンを作成する翻訳パターン作成装置において、
    対訳文書の各言語の文に対して形態素解析を行う形態素解析手段と、
    各言語の形態素解析結果を用いて各言語の単語、単語列の対応関係を推定し、対応度合が基準度合を超えている対応関係から翻訳パターンを作成する翻訳パターン作成手段と、
    同一文に対し、作成された翻訳パターンを使用して機械翻訳すると共に、作成された翻訳パターンを使用しないで機械翻訳する翻訳手段と、
    作成された翻訳パターンを使用した翻訳結果の第1の評価値と使用しない翻訳結果の第2の評価値とを得る翻訳結果評価手段と、
    第1の評価値が第2の評価値より、翻訳結果と上記対訳文書との差分が少ないことを示す値であるときに、上記基準度合を下げる変更を行って、上記翻訳パターン作成手段に翻訳パターン作成処理を再度行わせるパターン作成継続判定手段と
    を有することを特徴とする翻訳パターン作成装置。
JP2005157889A 2005-05-30 2005-05-30 翻訳パターン作成装置 Expired - Fee Related JP4001605B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005157889A JP4001605B2 (ja) 2005-05-30 2005-05-30 翻訳パターン作成装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005157889A JP4001605B2 (ja) 2005-05-30 2005-05-30 翻訳パターン作成装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2007177230A Division JP4480741B2 (ja) 2007-07-05 2007-07-05 翻訳パターン作成装置

Publications (2)

Publication Number Publication Date
JP2006331335A JP2006331335A (ja) 2006-12-07
JP4001605B2 true JP4001605B2 (ja) 2007-10-31

Family

ID=37552937

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005157889A Expired - Fee Related JP4001605B2 (ja) 2005-05-30 2005-05-30 翻訳パターン作成装置

Country Status (1)

Country Link
JP (1) JP4001605B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008217770A (ja) * 2007-02-05 2008-09-18 Sorun Corp 言語データ表示システム、言語データ表示方法、及び言語データ表示プログラム

Also Published As

Publication number Publication date
JP2006331335A (ja) 2006-12-07

Similar Documents

Publication Publication Date Title
JP4940325B2 (ja) 文書校正支援装置、方法およびプログラム
JP7251181B2 (ja) 対訳処理方法および対訳処理プログラム
JP2008276517A (ja) 訳文評価装置、訳文評価方法およびプログラム
WO2009035863A2 (en) Mining bilingual dictionaries from monolingual web pages
Baldridge et al. How well does active learning actually work? Time-based evaluation of cost-reduction strategies for language documentation.
JP5646792B2 (ja) 単語分割装置、単語分割方法、及び単語分割プログラム
JP2007241764A (ja) 構文解析プログラム、構文解析方法、構文解析装置、及び構文解析プログラムが記録されたコンピュータ読み取り可能な記録媒体
JP2020190970A (ja) 文書処理装置およびその方法、プログラム
CN112650836B (zh) 基于句法结构元素语义的文本分析方法、装置及计算终端
JP2015060458A (ja) 機械翻訳装置、方法、及びプログラム
Ive et al. Reassessing the proper place of man and machine in translation: a pre-translation scenario
Li et al. Chinese spelling check based on neural machine translation
JP4001605B2 (ja) 翻訳パターン作成装置
JP5025603B2 (ja) 機械翻訳装置、機械翻訳プログラム及び機械翻訳方法
JP4480741B2 (ja) 翻訳パターン作成装置
JP4869281B2 (ja) 機械翻訳装置、プログラム及び方法
WO2009144890A1 (ja) 翻訳前換言規則生成システム
JP4812811B2 (ja) 機械翻訳装置及び機械翻訳プログラム
JP3437782B2 (ja) 機械翻訳方法及びその装置並びに機械翻訳プログラムを記憶した媒体
Afli et al. From Arabic user-generated content to machine translation: integrating automatic error correction
KR20020054244A (ko) 부분문틀을 이용한 장문 번역 장치 및 그 방법
JP2000250914A (ja) 機械翻訳方法、装置、および機械翻訳プログラムを記録した記録媒体
JP2004326584A (ja) 対訳固有表現抽出装置及び方法、対訳固有表現抽出プログラム
Favaro et al. POS Tagging and Lemmatization of Historical Varieties of Languages. The Challenge of Old Italian
JP3999771B2 (ja) 翻訳支援プログラム、翻訳支援装置、翻訳支援方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070508

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070705

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070705

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070814

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20070814

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100824

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100824

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110824

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120824

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130824

Year of fee payment: 6

LAPS Cancellation because of no payment of annual fees