JP2004163993A - トピックベースの翻訳知識ベースを準備するための方法およびコンピュータに当該方法を実行させる、コンピュータ実行可能なプログラム、ならびにトピックベースの機械翻訳のためのプログラムおよび方法 - Google Patents
トピックベースの翻訳知識ベースを準備するための方法およびコンピュータに当該方法を実行させる、コンピュータ実行可能なプログラム、ならびにトピックベースの機械翻訳のためのプログラムおよび方法 Download PDFInfo
- Publication number
- JP2004163993A JP2004163993A JP2002267983A JP2002267983A JP2004163993A JP 2004163993 A JP2004163993 A JP 2004163993A JP 2002267983 A JP2002267983 A JP 2002267983A JP 2002267983 A JP2002267983 A JP 2002267983A JP 2004163993 A JP2004163993 A JP 2004163993A
- Authority
- JP
- Japan
- Prior art keywords
- translation
- sentence
- translation knowledge
- topic
- computer
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
【課題】ソースセンテンスの文脈に即し適切な語を選択できる機械翻訳の方法および装置を提供する。
【解決手段】翻訳方法は、コンピュータ読取可能な媒体50上に、複数のトピック依存の翻訳知識リソース80−T1〜80−Tnを準備するステップと、入力文26が発話された状況30を同定するステップと、同定された状況に応じてリソース80−T1〜80−Tnの一つを選択するステップ90と、トピック依存の翻訳知識リソース80−T1〜80−Tnを用いて文を機械翻訳するステップ92とを含む。
【選択図】 図3
【解決手段】翻訳方法は、コンピュータ読取可能な媒体50上に、複数のトピック依存の翻訳知識リソース80−T1〜80−Tnを準備するステップと、入力文26が発話された状況30を同定するステップと、同定された状況に応じてリソース80−T1〜80−Tnの一つを選択するステップ90と、トピック依存の翻訳知識リソース80−T1〜80−Tnを用いて文を機械翻訳するステップ92とを含む。
【選択図】 図3
Description
【0001】
【発明が属する技術分野】
本発明は用例ベースの機械翻訳に関し、特に、トピックベースの翻訳知識を用いて翻訳語を選択する用例ベースの機械翻訳に関する。
【0002】
【従来の技術】
機械翻訳においては、それぞれの文の文脈に即した適切な語の翻訳を選択することは非常に困難な問題である。文が発話される状況により、翻訳は極端に変わることがある。例を図16に示す。
【0003】
図16に示すように、英語の単語「take」、「medium」、および「Okay」は、文脈に応じて非常に多様な日本語の単語または句に翻訳される。従来技術の機械翻訳は文脈についてはあまり活用しておらず、従って、従来の技術の機械翻訳により選択された翻訳語は、多くの場合、不適切なものであった。
【非特許文献1】
イマムラ、K.(2001),構文解析と融合した階層的句アライメント、第6回NLPRS予稿集、377頁〜384頁(Imamura, K. (2001) Hierarchical Phrase Alignment Harmonized with Parsing. In Proc. of the6th NLPRS (pp. 377−384))
【非特許文献2】
マラメッド、D,(2000),語の間での翻訳等価性のモデル、コンピューテーショナル・リングイスティクス 26−2、第221頁〜249頁(Melamed, D.(2000) Models of 翻訳 Equivalence among Words. In Computational Linguistics 26−2 (pp. 221−249))
【非特許文献3】
大野 晋、浜西 正人(1984)、類語新辞典、角川書店(Ohno, S. andHamanishi, M. (1984), Ruigo−Shin−Jiten, Kadokawa)
【非特許文献4】
タケザワ、T.他(2002)、実世界における旅行会話の会話翻訳のための大規模バイリンガルコーパスに向けて、第3回LREC予稿集、pp.147〜152、ラス・パルマス、スペイン(Takezawa, T. et al. (2002). Towarda broad−coverage バイリンガル corpus for speech 翻訳 of 旅行会話 in the real world. In Proc. of the 3rd LREC (pp. 147−152), Las Palmas, Spain)
【特許文献1】
今村賢治他、2002年、特開2002−245037
【発明が解決しようとする課題】
人間の翻訳者であれば、語の選択作業に必要な情報をそれぞれの文が発話された状況(トピック)から得ることができる。しかし、従来の技術の機械翻訳システムでは、そのような情報を得ることはできなかった。さらに、従来技術の機械翻訳システムは、仮に文のトピックが分かっていたとしても、適切な翻訳語を選択することはできない。
【0004】
従って、もしもそれぞれの状況に応じて選択すべき適切な翻訳語を機械翻訳システムが決定できれば、翻訳の品質は著しく改善されると思われる。
【0005】
従って、本発明の目的は、それぞれの文が発話された状況に依存して、適切な単語を選択する機械翻訳方法および装置を提供することである。
【0006】
本発明の他の目的は、それぞれの文が発話された状況に依存して、トピックが付されたバイリンガルコーパスから抽出された翻訳知識に従って、適切な単語を選択する機械翻訳方法および装置を提供することである。
【0007】
【課題を解決するための手段】
本発明のある局面は、トピックベースの翻訳知識ベースを準備する方法に関するものであり、その方法は、各々がソース言語とターゲット言語との文の対の集合を含む複数のバイリンガルコーパスを準備するステップを含む。各文の対はその文の対の集合に特有のトピックに関するものである。この方法はさらに、バイリンガルコーパスの各々から翻訳知識を抽出するステップと、複数の翻訳知識リソースをコンピュータ可読な記憶媒体に格納するステップとを含み、複数の翻訳知識リソースの各々は、それぞれバイリンガルコーパスから抽出された翻訳知識を含む。
【0008】
翻訳知識は、ソース言語とターゲット言語との辞書を含んでもよい。
【0009】
翻訳知識はさらに、ソース言語の文をターゲット言語に翻訳するための翻訳規則を含んでもよい。
【0010】
本発明の他の局面は、複数の翻訳知識リソースを含むトピックベースの翻訳知識ベースを格納したコンピュータ可読な記憶媒体に関する。翻訳知識リソースの各々は、ソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、各文の対は、その文の対の集合に特有のトピックに関するものである。
【0011】
ソース言語は英語でもよく、ターゲット言語は日本語でもよい。
【0012】
本発明のさらに他の局面は、ソース言語の文をターゲット言語の文にトピックベースで機械翻訳する方法に関し、その方法は、複数の翻訳知識リソースを記憶したコンピュータ可読な記憶媒体を準備するステップを含む。各翻訳知識リソースは、ソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、文の対は、その文の対の集合に特有のトピックに関するものである。この方法はさらに、ソース言語の文が発話された状況を同定するステップと、同定するステップで同定された状況に応じて、複数の翻訳リソースの内の一つをコンピュータに選択させるステップと、選択させるステップで選択された翻訳知識リソースを用いて、ソース言語の文をターゲット言語に機械翻訳するステップとを含む。
【0013】
コンピュータ可読な記憶媒体は、複数の翻訳知識リソースを準備する際に使用されたバイリンガルコーパスを組合せたものから抽出された汎用翻訳知識リソースを含み、前記方法はさらに、翻訳された文の信頼度を判定するステップと、汎用翻訳知識を用いてソース言語の文をターゲット言語に機械翻訳するステップと、判定するステップで判定された信頼度に従って、機械翻訳ステップで翻訳されたターゲット言語の文のうちの一つを選択するステップとを含む。
【0014】
機械翻訳するステップは、並列に実行しても、順次に実行してもよい。
【0015】
同定するステップは、操作者の手入力によって、状況に関する情報を受取るステップを含んでもよい。
【0016】
上記した方法は、コンピュータで実行可能なプログラムにより実現可能である。
【0017】
【発明の実施の形態】
−システムの構造−
図1は、本発明の一実施の形態にかかるトピックベースの機械翻訳システムの概略的ブロック図を示す。図1を参照して、トピックベースの機械翻訳システムは、CD−ROM(Compact Disc Read−Only Memory)22などの記憶媒体に格納されるトピック依存の翻訳知識ベース44を構築するための知識ベース構築部20と、入力文26のトピックに関する操作者の入力に応答して、入力文26をCD−ROM22に格納された知識ベースに基づいて出力28に翻訳するためのMT(機械翻訳)部24とを含む。当業者であれば、知識ベース構築部20および翻訳部24が同一のコンピュータ上に存在しているのであれば、CD−ROM22が不要であることは容易に理解できるであろう。またはこれに替えて、インターネットなどのデータネットワークを介して、知識ベースを知識ベース構築部20から翻訳部24に送信するようにしてもよい。
【0018】
知識ベース構築部20は、それぞれトピックが付されたバイリンガル(英語および日本語)の文の対の集合を含むバイリンガルコーパス40と、バイリンガルコーパス40からトピック依存の翻訳知識ベース44を構築するための知識ベース構築モジュール42とを含む。
【0019】
翻訳部24は、CD−ROM22に格納された知識ベースを格納するための、ハードディスクなどの記憶媒体50と、入力文26のトピックに関する入力30に従って、記憶媒体50に格納された知識ベースから適切な翻訳語を選択することにより入力文26を翻訳するための、トピックベースの翻訳装置52とを含む。
【0020】
図2は、知識ベース構築モジュール42をより詳細に示す。図2を参照して、知識ベース構築モジュール42は、バイリンガルコーパス40中のそれぞれの文をクラスタリングして、コーパスの、特定のトピックのサブセット62−T1,62−T2,…,62−Tnを生成するためのクラスタリングモジュール60を含む。各サブセットは、例えば、語彙に関して特定の特徴を示し、トピックに特有の翻訳語の対を同定する際にこの特徴を利用できる。
【0021】
知識ベース構築モジュール42はさらに、両言語のシソーラス64を含み、シソーラス64は単語間の意味的距離を考慮に入れる際に用いられるものであり、さらに、コーパス62−T1〜62−Tnおよびバイリンガルコーパス40中の文を形態素解析しタグ付けするためのタグ付け部66と、コーパス62−T1〜62−Tnおよびバイリンガルコーパス40中の文を構文解析するためのパーザ68と、バイリンガルコーパス40およびその特定トピックのサブセット62−T1〜62−Tn中の文をアライメントし、バイリンガルコーパス40およびコーパス62−T1〜62−Tnの各々に対して、各トピックの特徴を利用する多数の機械翻訳規則および辞書をコーパス知識82および翻訳知識リソース80−T1〜80−Tnとして抽出するための翻訳知識抽出部70とを含む。言語学では、「構文解析」とは、一文または複数の文を、分析可能な要素に分解することをいう。ある文を構文解析するとき、その文は単語および句に分割され、各要素は同定されて特定の名前がタグ付けされる。
【0022】
図3は、図1に示すトピックベースの翻訳装置52の詳細を示す。図3を参照して、トピックベースの翻訳装置52は、トピック30に関し操作者により入力された情報に応答して知識リソース80−T1〜80−Tnの一つを選択し、また選択された知識を用いて翻訳された文が検証されなかった場合にはコーパス知識82を選択するための、知識選択モジュール90と、知識選択モジュール90により選択された特定の知識を使用して入力文26を翻訳するための翻訳エンジン92と、翻訳部24の翻訳を検証し、その翻訳が所定の基準を満たさない場合には知識選択モジュール90および翻訳エンジン92に汎用コーパス知識82を使用させるための検証モジュール94とを含む。
【0023】
図4に、本実施の形態および後掲の実験で使用された種々のトピックと、それらの特徴とを要約して示す。さらに、トピックに特有の文の述部、すなわちある特定の一つのトピックにしか出現しない述部も列挙してある。
【0024】
バイリンガルコーパス40は、日本語(J)の発話と、それらの英語(E)訳との集まりを含むが、これらは外国に行く旅行者のための会話集によく見出されるものである(非特許文献3を参照)。これら翻訳は一文ごとに行なわれ、その結果、一文単位でアライメントされたコーパスが得られる。コーパス40は、約200Kのバイリンガル文を含む。さらに、コーパスの各文にはその文が発話された状況に応じたトピックの注釈が付されている。合計では、このコーパス中には20の別々のトピックの注釈がつけられている。
【0025】
クラスタリングモジュール60は、それぞれの文をコーパスの特定トピックのサブセット62−T1〜62−Tnにクラスタリングする。各サブセットは、例えばその語彙に関して、特定トピックの翻訳語の対の選択に利用できる可能性のある特徴を示す。図5は、英語の動詞「LEAVE」に対する、日本語の特定トピックの翻訳語の候補の例を示す。
【0026】
翻訳知識抽出部70は、バイリンガルコーパスから自動的に翻訳規則および辞書を抽出するための、非特許文献1で紹介された句アライメントモジュールを採用している。抽出アルゴリズムは各トピックサブセット62−T1〜62−Tnと、全コーパス40(トピックに依存しない)とに適用され、(n=|トピック|+1)個の翻訳知識リソースが得られる。これら翻訳知識リソースの各々は翻訳規則および辞書を含む。ただし、|トピック|はトピックの数を示す。
【0027】
またはこれに替えて、非特許文献2で紹介された、同等のリンク用アルゴリズムを使用することもできる。この確率的方法は、共起関係に関する、境界に基づくモデルを用いている。このモデルは、所与の語の対がバイリンガルテキストの対応する領域において共起するか否かを示すものであり、一対一関係の仮定、すなわち、各語は他のたかだか一語にしか翻訳されないという仮定に基づいている。このアルゴリズムは共起しているトークン対の間で最も確からしいリンクを貪欲法により選択し、より確からしさの低いリンクについては、それ以前に選択されているものと競合しない場合のみ選択する。
【0028】
特定トピックの翻訳知識リソース80−T1〜80−Tnは、バイリンガルコーパス40の、それぞれのコーパスのサブセット62−T1〜62−Tnから構築されるが、トピックに依存しない知識リソース82はバイリンガルコーパス40の全体に基づいている。本実施の形態で用いている句アライメント方法の詳細については、前掲の特許文献1を参照されたい。図6は、トピック毎の辞書の統計を示す。ここで、「DSCORE」は以下の式により定義される。
【0029】
【数1】
ただし|TOPICS(ターゲット)|は、先頭のターゲット翻訳として共通の、特定のターゲット翻訳語を有するトピックの数を表し、|ターゲット|は特定のソースの単語に対する異なる先頭のターゲット翻訳語の数を表し、SUM(ターゲット)は、特定のソースの単語に対する異なるターゲットの単語全体にわたる1/|トピックS(ターゲット)|の和である。
【0030】
DSCORE尺度は、ソース表現に対して同じ翻訳語を共有するトピックの数を示す。このスコアが大きくなるほど、特定トピックの翻訳語がより多く辞書内に定義されている。つまり、DSCOREはそれぞれの見出しの曖昧さのレベルに関するある種の情報を与える。
【0031】
図7および図8は、DSCOREの計算例を示す。図7を参照して、英語の動詞「BUY」の場合には、先頭のターゲット翻訳語は、全てのトピックに対して「買う」である。従って、|ターゲット|は1に等しくDSCOREは0に等しい。これに対し、英語の動詞「LEAVE」はトピックにより幾つかの異なる翻訳を持つ。トピックT1、T4およびT8に関する先頭のターゲットの単語は「出発する」であり、トピックT3に対しては「発つ」であり、トピックT5に対しては「任せる」であり、トピックT6に対しては「残す」であり、トピックT7に対しては「出る」である。先頭のターゲット単語に対するトピック数は、図8に示すように3,1,1、および1である。ターゲットの単語数は5である。従って、この場合のDSCOREは図8に示すように0.866667である。
【0032】
日本語に対してはより多くのソース表現が抽出されており、複数翻訳の率は、英語から日本語に翻訳する際の翻訳の曖昧さがより高いことを示している。特に、動詞の構成素に対しては、コーパスから非常に多くの複数翻訳(J: 42.7%, E: 55.1%)が抽出されている。しかし、品詞の本動詞およびVに対するDSCOREが高くなっているのは、動詞の構成素の語の選択においては、トピック毎の情報が役に立つことを示している。
【0033】
さらに、全コーパス(汎用)から抽出されたターゲットの数をトピック毎の辞書からのものと比較すると、翻訳の曖昧さが、ソースでの述部の27.8%(J)および40%(E)に対し、平均で33.8%(J)および38.5%(E)低くなっていることが分かった。加えて、トピック毎の翻訳語の集まりの組合せ中に存在するターゲット表現の12%は汎用辞書内には存在せず、そのためこれらのソースの単語に対する翻訳候補の範囲が広くなる。
【0034】
図9はトピック依存の翻訳知識リソースの統計と、バイリンガルコーパス40から抽出されたそれぞれのリソースの、一意なソースおよびターゲット語の語彙の大きさとを示している。
【0035】
−システムの動作−
このシステムは二つのステップ又はフェーズで動作する。最初はトレーニングステップで、トピック依存の翻訳知識リソースがバイリンガルコーパス40から抽出される。第2は翻訳ステップで、トピックベースの翻訳装置52がトピック依存の翻訳知識を用いて入力文26を翻訳する。
【0036】
トレーニングステップでは、MT規則/辞書抽出モジュールがバイリンガルコーパス40とその特定トピック毎のサブセットコーパス62−T1〜62−Tnに対して適用され、各トピックに対し特定の特徴を利用した多数の機械翻訳規則および辞書を知識リソース80−T1〜80−Tnとして抽出し、バイリンガルコーパス40の全体から知識リソース82を抽出する。
【0037】
翻訳ステップでは、入力文26が与えられると、知識選択モジュール90が対応する翻訳知識リソース80−T1〜80−Tnを選択し、それが入力文26を翻訳する際に翻訳エンジン92により使用される。
【0038】
翻訳は検証モジュール94により検証される。もし翻訳が所定の基準を満足すれば、検証モジュール94は出力を通過させる。さもなければ、検証モジュール94は知識選択モジュール90および翻訳エンジン92に信号を与え、それらが汎用コーパスの知識リソース82の翻訳規則/単語を用いるようにさせる。従って、この場合にはトピックベースの翻訳と汎用の翻訳とが順次に実行される。またはこれに替えて、翻訳を並列に実行し、検証モジュール94は単に検証結果に応じて翻訳のうちの一つを選択するようにしてもよい。
【0039】
所与の入力文のトピックを同定するために、文が発話された状況(トピック)を同定する(30)。操作者は単にバイリンガルコーパス内に付されたトピックを参照するだけでよい。しかし、不明な入力文のトピックを自動的に同定するための研究が進められており、そのような方法であればどれでも使用することができる。
【0040】
しかし、操作者が翻訳に使用されるべきトピックを選択できるようにしなければならないので、本実施の形態ではトピックの外部入力(手入力)30が利用可能であると仮定する。
【0041】
入力文について同定されたトピックに基づき、翻訳知識選択モジュール90がそれぞれの知識リソースを選択し、選択された知識リソース内のトピック毎の辞書および翻訳規則を翻訳エンジン92のメモリにロードする。翻訳エンジン92の翻訳アルゴリズムは、これらのトピック毎の知識リソースを利用し、入力文の翻訳を生成する。
【0042】
さらに、翻訳エンジン92が特定トピックの翻訳知識リソースを用いて適切な翻訳/単語選択を達成できない場合に備え、全ての入力文26に対してトピックに依存しない知識リソース82を用いてバックアップ翻訳を行う(フェイルセーフ戦略)。
【0043】
特定トピックの翻訳を出力すべきか、トピックに依存しない(汎用の)翻訳を出力すべきかの判定は、その業務により異なる。単語の選択に関しては、ある単語が選択されたリソース中の辞書に定義されていれば、特定トピックの翻訳語を選択する。特定トピックの翻訳の評価のために、検証モジュールはシステム内部の意味的距離の尺度を用い、この尺度が特定のしきい値を下回った場合には、特定トピックの翻訳を用いる(信頼度)。それ以外の場合には、コーパス翻訳知識82を用いる。
【0044】
−システムの評価−
本実施の形態にかかる、トピックベースの語の曖昧性排除の評価を行なった。ここで使用した基準は、選択された単語と、バイリンガルのテストコーパスで用いられている翻訳語との比較である。結果を図10に示す。今回のアプローチを評価するにあたっては、コーパスのうち、特定トピックの辞書を作成する際に用いられなかった10,000の発話を使用した。さらに、このアプローチの効果の上限を評価するために、角川類語辞典(非特許文献3)に基づいた階層構造をもつシソーラスを使用した。
【0045】
図10において、ベースラインの方法Gは、汎用の翻訳辞書のターゲット表現を出力するものである。方法Tは、特定トピックの翻訳を選択する際に、テスト文のトピック情報を使用するものである。ここで使用した組合せ方法TGは、特定トピックの翻訳の見出しが存在している場合にはその翻訳を優先的に採用し、それ以外の場合には汎用のターゲット語を採用するものである。辞書内に複数個の翻訳語の候補が定義されている場合には、順序付の候補リストの内の先頭の候補(図5でマークを付した見出し)を選択した。それぞれの方法によってはソースの単語がカバーされていない場合、利用できる翻訳語は存在しない。「下限」は、選択された単語と正しい翻訳との語の一致の百分率を示す。「上限」は選択された単語と正しい翻訳との間の、(シソーラス64に基づく)意味的な一致の百分率を示す。システムの性能は、この下限と上限との間のどこかにあると考えられる。
【0046】
図10に示すように、特定トピックの辞書がカバーする率は、汎用の辞書よりも低い。しかしそれでも、組合せた場合にはある程度の増加に貢献し、テストデータの95%について翻訳語が得られる。一方、特定トピックの単語を選択することにより、汎用の翻訳語を用いたときよりも精度が高くなる。この場合にも、双方の辞書を組合せることで最もよい結果が得られ、60%程度の「正しい」翻訳語が得られる。入力される文の翻訳に対して同義語または換言が可能なことを考慮すれば、人による評価によって、より高い精度を得られる可能性もある。しかし、本提案に係る方法の上限値は80%程度であり、汎用の辞書を使用した翻訳の結果に対して13%もの相対的な改善が得られる。
【0047】
図11は、本実施の形態に係るトピックベースの翻訳の評価を示す。この評価にあたっては、’http://www.nist.gov/speech/tests/mt/’(cf. 非特許文献2)において入手可能な、機械翻訳の自動的評価ツールを使用した。この場合の評価基準は、NIST(National Institute of Standards and Technology)のスコアの計算と比較とによる。ここに記載した方法「G」、「T」、「GT」は、図10で用いたものと同じである。
【0048】
方法TGにおけるシステムT/Gの配分は、Gに対して1303[20.4%]、Tに対して5071[79.6%]である。
【0049】
−コンピュータによる実装−
上記した実施の形態は、コンピュータハードウェア、およびそのコンピュータ上で実行されるソフトウェアにより実現される。図12は、本実施の形態にかかるコンピュータシステム130の外観を示し、図13はコンピュータシステム130のブロック図である。図12を参照して、コンピュータシステム130は、FD(Flexible Disk)ドライブ152と、CD−ROMドライブ150と、キーボード146と、マウス148と、モニタ142とを含む。
【0050】
図13を参照して、コンピュータ140は、FDドライブ152およびCD−ROMドライブ150に加えて、CPU(Central Processing Unit)156と、CPU156、CD−ROMドライブ150およびFDドライブ152に接続されたバス166と、ブートアッププログラムなどのプログラムを格納するための読出専用メモリ(Read−Only Memory(ROM))158と、バス166に接続され、アプリケーションプログラム命令、システムプログラムおよびデータを記憶するためのランダムアクセスメモリ(RAM)160とを含む。
【0051】
ここには示していないが、コンピュータ140はさらに、ローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
【0052】
コンピュータシステム130にこの機械翻訳の方法を実行させるプログラムは、CD−ROMドライブ150またはFDドライブ152にそれぞれ挿入されるCD−ROM162またはFD164に格納され、さらにハードディスク154に転送される。またはこれに替えて、このプログラムを図示しないネットワークを介してコンピュータ140に送信し、ハードディスク154に格納するようにしてもよい。このプログラムは実行時にはRAM160にロードされる。なお、プログラムはCD−ROM162、FD164から、またはネットワークを介して、RAM160に直接ロードされてもよい。
【0053】
以下に述べるプログラムは、本実施の形態に係る方法をコンピュータ140に実行させるための多数の命令を含む。この方法を実行する上で必要な基本的命令の幾つかは、コンピュータ140上で動作するオペレーティングシステム(OS)、またはコンピュータ140にインストールされたサードパーティのプログラムまたは最適化ツールボックスにより提供されるので、このプログラムは必ずしも本実施の形態に係る方法を実装するために必要な全ての基本的命令を含まなくてもよい。このプログラムは、所望の結果が得られるように、管理された形で適切な関若しくは「ツール」を呼出すことで最適化プロセスを実行する部分の命令だけを含んでいればよい。コンピュータシステム130の動作は周知であるので、ここではそれについては繰り返さない。
【0054】
−プログラムフローチャート−
図14および図15は、コンピュータシステム130上で実行されるプログラムの制御の流れを示すフローチャートである。図14および図15に示すステップは、図2および図3に示したモジュールに対応している。図2はトレーニングステップを示し、図3は翻訳ステップを示す。
【0055】
図14を参照して、トレーニングステップは、コーパス内のトレーニング用の文にタグ付けされたトピックに従ってバイリンガルコーパス40をサブセットコーパス62−T1〜62−Tnに分割するステップ130と、トレーニングデータのそれぞれの部分から特定トピックの辞書と翻訳規則とを抽出するステップ132とを含む。
【0056】
図15を参照して、翻訳ステップは、入力文を受取るステップ190と、入力文のトピックに関する特徴を受取るステップ192と、特定トピックの翻訳知識を選択し、それを入力文に対して適用するステップ194とを含む。
【0057】
翻訳ステップはさらに、選択された特定トピックのリソースと、トピックに依存しないリソースとを用いて特定トピックの翻訳と汎用翻訳とを生成するステップ196と、特定トピックの翻訳/語の選択の信頼度を判定するステップ198とを含む。もし信頼度がステップ200で所定のしきい値と同等と判定されれば、特定トピックの翻訳がステップ202で出力され、それ以外の場合にはステップ204でトピックに依存しない翻訳が出力される。
【0058】
−結論−
以上述べたように、ここではバイリンガルコーパスから自動的に抽出された特定トピック毎の翻訳辞書に基づく単語選択手法を提案した。最初に、統計的な単語アライメント方法を、同じ状況(トピック)で発話された文に対して適用し、そのトピックに特有の翻訳語の対を得る。第2のステップでは、ソースのそれぞれの単語に対する特定トピック毎の翻訳語の全てを、コーパス全体のアライメントにより得られた汎用の翻訳と組合せる。マージされた翻訳辞書を用い、所与の入力文のトピック情報に対し、最も適切な翻訳語を選択する。
【図面の簡単な説明】
【図1】本発明の一実施の形態にかかるトピックベースの機械翻訳システムの概略ブロック図である。
【図2】知識ベース構築モジュール42の詳細を示す図である。
【図3】トピックベースの翻訳装置52の詳細を示す図である。
【図4】この実施の形態および実験に対して使用した種々のトピックおよびそれらの特徴の概略を示す図である。
【図5】英語の動詞「LEAVE」に対する、日本語のトピック毎の翻訳語の候補の例を示す図である。
【図6】トピック毎の辞書の統計を示す図である。
【図7】DSCOREの計算例を示す図である。
【図8】DSCOREの他の計算例を示す図である。
【図9】トピック毎の翻訳知識リソースの統計を示す図である。
【図10】本実施の形態における、トピックベースの語の曖昧さの排除の結果を示す図である。
【図11】本実施の形態にかかるトピックベースの翻訳の評価を示す図である。
【図12】本実施の形態にかかるコンピュータシステム130の外観を示す図である。
【図13】コンピュータシステム130のブロック図である。
【図14】トレーニングステップのプログラムの制御の流れを示すフローチャートである。
【図15】翻訳ステップのプログラムの制御の流れを示すフローチャートである。
【図16】翻訳語の変化形の例を示す図である。
【符号の説明】
20 知識ベース構築部、24 翻訳部、26 翻訳文、28 出力、30 トピック(入力)、40 バイリンガルコーパス、42 特定トピックの翻訳知識ベース構築モジュール、44 特定トピックの翻訳知識ベース、52 翻訳装置、60 クラスタリング部、62−T1〜62−Tn サブコーパス、64 シソーラス、70 翻訳知識抽出部、80−T1〜80−Tn 特定トピック毎の翻訳知識リソース、82 コーパスの翻訳知識リソース、90 知識選択モジュール、92 翻訳エンジン、94 検証部
【発明が属する技術分野】
本発明は用例ベースの機械翻訳に関し、特に、トピックベースの翻訳知識を用いて翻訳語を選択する用例ベースの機械翻訳に関する。
【0002】
【従来の技術】
機械翻訳においては、それぞれの文の文脈に即した適切な語の翻訳を選択することは非常に困難な問題である。文が発話される状況により、翻訳は極端に変わることがある。例を図16に示す。
【0003】
図16に示すように、英語の単語「take」、「medium」、および「Okay」は、文脈に応じて非常に多様な日本語の単語または句に翻訳される。従来技術の機械翻訳は文脈についてはあまり活用しておらず、従って、従来の技術の機械翻訳により選択された翻訳語は、多くの場合、不適切なものであった。
【非特許文献1】
イマムラ、K.(2001),構文解析と融合した階層的句アライメント、第6回NLPRS予稿集、377頁〜384頁(Imamura, K. (2001) Hierarchical Phrase Alignment Harmonized with Parsing. In Proc. of the6th NLPRS (pp. 377−384))
【非特許文献2】
マラメッド、D,(2000),語の間での翻訳等価性のモデル、コンピューテーショナル・リングイスティクス 26−2、第221頁〜249頁(Melamed, D.(2000) Models of 翻訳 Equivalence among Words. In Computational Linguistics 26−2 (pp. 221−249))
【非特許文献3】
大野 晋、浜西 正人(1984)、類語新辞典、角川書店(Ohno, S. andHamanishi, M. (1984), Ruigo−Shin−Jiten, Kadokawa)
【非特許文献4】
タケザワ、T.他(2002)、実世界における旅行会話の会話翻訳のための大規模バイリンガルコーパスに向けて、第3回LREC予稿集、pp.147〜152、ラス・パルマス、スペイン(Takezawa, T. et al. (2002). Towarda broad−coverage バイリンガル corpus for speech 翻訳 of 旅行会話 in the real world. In Proc. of the 3rd LREC (pp. 147−152), Las Palmas, Spain)
【特許文献1】
今村賢治他、2002年、特開2002−245037
【発明が解決しようとする課題】
人間の翻訳者であれば、語の選択作業に必要な情報をそれぞれの文が発話された状況(トピック)から得ることができる。しかし、従来の技術の機械翻訳システムでは、そのような情報を得ることはできなかった。さらに、従来技術の機械翻訳システムは、仮に文のトピックが分かっていたとしても、適切な翻訳語を選択することはできない。
【0004】
従って、もしもそれぞれの状況に応じて選択すべき適切な翻訳語を機械翻訳システムが決定できれば、翻訳の品質は著しく改善されると思われる。
【0005】
従って、本発明の目的は、それぞれの文が発話された状況に依存して、適切な単語を選択する機械翻訳方法および装置を提供することである。
【0006】
本発明の他の目的は、それぞれの文が発話された状況に依存して、トピックが付されたバイリンガルコーパスから抽出された翻訳知識に従って、適切な単語を選択する機械翻訳方法および装置を提供することである。
【0007】
【課題を解決するための手段】
本発明のある局面は、トピックベースの翻訳知識ベースを準備する方法に関するものであり、その方法は、各々がソース言語とターゲット言語との文の対の集合を含む複数のバイリンガルコーパスを準備するステップを含む。各文の対はその文の対の集合に特有のトピックに関するものである。この方法はさらに、バイリンガルコーパスの各々から翻訳知識を抽出するステップと、複数の翻訳知識リソースをコンピュータ可読な記憶媒体に格納するステップとを含み、複数の翻訳知識リソースの各々は、それぞれバイリンガルコーパスから抽出された翻訳知識を含む。
【0008】
翻訳知識は、ソース言語とターゲット言語との辞書を含んでもよい。
【0009】
翻訳知識はさらに、ソース言語の文をターゲット言語に翻訳するための翻訳規則を含んでもよい。
【0010】
本発明の他の局面は、複数の翻訳知識リソースを含むトピックベースの翻訳知識ベースを格納したコンピュータ可読な記憶媒体に関する。翻訳知識リソースの各々は、ソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、各文の対は、その文の対の集合に特有のトピックに関するものである。
【0011】
ソース言語は英語でもよく、ターゲット言語は日本語でもよい。
【0012】
本発明のさらに他の局面は、ソース言語の文をターゲット言語の文にトピックベースで機械翻訳する方法に関し、その方法は、複数の翻訳知識リソースを記憶したコンピュータ可読な記憶媒体を準備するステップを含む。各翻訳知識リソースは、ソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、文の対は、その文の対の集合に特有のトピックに関するものである。この方法はさらに、ソース言語の文が発話された状況を同定するステップと、同定するステップで同定された状況に応じて、複数の翻訳リソースの内の一つをコンピュータに選択させるステップと、選択させるステップで選択された翻訳知識リソースを用いて、ソース言語の文をターゲット言語に機械翻訳するステップとを含む。
【0013】
コンピュータ可読な記憶媒体は、複数の翻訳知識リソースを準備する際に使用されたバイリンガルコーパスを組合せたものから抽出された汎用翻訳知識リソースを含み、前記方法はさらに、翻訳された文の信頼度を判定するステップと、汎用翻訳知識を用いてソース言語の文をターゲット言語に機械翻訳するステップと、判定するステップで判定された信頼度に従って、機械翻訳ステップで翻訳されたターゲット言語の文のうちの一つを選択するステップとを含む。
【0014】
機械翻訳するステップは、並列に実行しても、順次に実行してもよい。
【0015】
同定するステップは、操作者の手入力によって、状況に関する情報を受取るステップを含んでもよい。
【0016】
上記した方法は、コンピュータで実行可能なプログラムにより実現可能である。
【0017】
【発明の実施の形態】
−システムの構造−
図1は、本発明の一実施の形態にかかるトピックベースの機械翻訳システムの概略的ブロック図を示す。図1を参照して、トピックベースの機械翻訳システムは、CD−ROM(Compact Disc Read−Only Memory)22などの記憶媒体に格納されるトピック依存の翻訳知識ベース44を構築するための知識ベース構築部20と、入力文26のトピックに関する操作者の入力に応答して、入力文26をCD−ROM22に格納された知識ベースに基づいて出力28に翻訳するためのMT(機械翻訳)部24とを含む。当業者であれば、知識ベース構築部20および翻訳部24が同一のコンピュータ上に存在しているのであれば、CD−ROM22が不要であることは容易に理解できるであろう。またはこれに替えて、インターネットなどのデータネットワークを介して、知識ベースを知識ベース構築部20から翻訳部24に送信するようにしてもよい。
【0018】
知識ベース構築部20は、それぞれトピックが付されたバイリンガル(英語および日本語)の文の対の集合を含むバイリンガルコーパス40と、バイリンガルコーパス40からトピック依存の翻訳知識ベース44を構築するための知識ベース構築モジュール42とを含む。
【0019】
翻訳部24は、CD−ROM22に格納された知識ベースを格納するための、ハードディスクなどの記憶媒体50と、入力文26のトピックに関する入力30に従って、記憶媒体50に格納された知識ベースから適切な翻訳語を選択することにより入力文26を翻訳するための、トピックベースの翻訳装置52とを含む。
【0020】
図2は、知識ベース構築モジュール42をより詳細に示す。図2を参照して、知識ベース構築モジュール42は、バイリンガルコーパス40中のそれぞれの文をクラスタリングして、コーパスの、特定のトピックのサブセット62−T1,62−T2,…,62−Tnを生成するためのクラスタリングモジュール60を含む。各サブセットは、例えば、語彙に関して特定の特徴を示し、トピックに特有の翻訳語の対を同定する際にこの特徴を利用できる。
【0021】
知識ベース構築モジュール42はさらに、両言語のシソーラス64を含み、シソーラス64は単語間の意味的距離を考慮に入れる際に用いられるものであり、さらに、コーパス62−T1〜62−Tnおよびバイリンガルコーパス40中の文を形態素解析しタグ付けするためのタグ付け部66と、コーパス62−T1〜62−Tnおよびバイリンガルコーパス40中の文を構文解析するためのパーザ68と、バイリンガルコーパス40およびその特定トピックのサブセット62−T1〜62−Tn中の文をアライメントし、バイリンガルコーパス40およびコーパス62−T1〜62−Tnの各々に対して、各トピックの特徴を利用する多数の機械翻訳規則および辞書をコーパス知識82および翻訳知識リソース80−T1〜80−Tnとして抽出するための翻訳知識抽出部70とを含む。言語学では、「構文解析」とは、一文または複数の文を、分析可能な要素に分解することをいう。ある文を構文解析するとき、その文は単語および句に分割され、各要素は同定されて特定の名前がタグ付けされる。
【0022】
図3は、図1に示すトピックベースの翻訳装置52の詳細を示す。図3を参照して、トピックベースの翻訳装置52は、トピック30に関し操作者により入力された情報に応答して知識リソース80−T1〜80−Tnの一つを選択し、また選択された知識を用いて翻訳された文が検証されなかった場合にはコーパス知識82を選択するための、知識選択モジュール90と、知識選択モジュール90により選択された特定の知識を使用して入力文26を翻訳するための翻訳エンジン92と、翻訳部24の翻訳を検証し、その翻訳が所定の基準を満たさない場合には知識選択モジュール90および翻訳エンジン92に汎用コーパス知識82を使用させるための検証モジュール94とを含む。
【0023】
図4に、本実施の形態および後掲の実験で使用された種々のトピックと、それらの特徴とを要約して示す。さらに、トピックに特有の文の述部、すなわちある特定の一つのトピックにしか出現しない述部も列挙してある。
【0024】
バイリンガルコーパス40は、日本語(J)の発話と、それらの英語(E)訳との集まりを含むが、これらは外国に行く旅行者のための会話集によく見出されるものである(非特許文献3を参照)。これら翻訳は一文ごとに行なわれ、その結果、一文単位でアライメントされたコーパスが得られる。コーパス40は、約200Kのバイリンガル文を含む。さらに、コーパスの各文にはその文が発話された状況に応じたトピックの注釈が付されている。合計では、このコーパス中には20の別々のトピックの注釈がつけられている。
【0025】
クラスタリングモジュール60は、それぞれの文をコーパスの特定トピックのサブセット62−T1〜62−Tnにクラスタリングする。各サブセットは、例えばその語彙に関して、特定トピックの翻訳語の対の選択に利用できる可能性のある特徴を示す。図5は、英語の動詞「LEAVE」に対する、日本語の特定トピックの翻訳語の候補の例を示す。
【0026】
翻訳知識抽出部70は、バイリンガルコーパスから自動的に翻訳規則および辞書を抽出するための、非特許文献1で紹介された句アライメントモジュールを採用している。抽出アルゴリズムは各トピックサブセット62−T1〜62−Tnと、全コーパス40(トピックに依存しない)とに適用され、(n=|トピック|+1)個の翻訳知識リソースが得られる。これら翻訳知識リソースの各々は翻訳規則および辞書を含む。ただし、|トピック|はトピックの数を示す。
【0027】
またはこれに替えて、非特許文献2で紹介された、同等のリンク用アルゴリズムを使用することもできる。この確率的方法は、共起関係に関する、境界に基づくモデルを用いている。このモデルは、所与の語の対がバイリンガルテキストの対応する領域において共起するか否かを示すものであり、一対一関係の仮定、すなわち、各語は他のたかだか一語にしか翻訳されないという仮定に基づいている。このアルゴリズムは共起しているトークン対の間で最も確からしいリンクを貪欲法により選択し、より確からしさの低いリンクについては、それ以前に選択されているものと競合しない場合のみ選択する。
【0028】
特定トピックの翻訳知識リソース80−T1〜80−Tnは、バイリンガルコーパス40の、それぞれのコーパスのサブセット62−T1〜62−Tnから構築されるが、トピックに依存しない知識リソース82はバイリンガルコーパス40の全体に基づいている。本実施の形態で用いている句アライメント方法の詳細については、前掲の特許文献1を参照されたい。図6は、トピック毎の辞書の統計を示す。ここで、「DSCORE」は以下の式により定義される。
【0029】
【数1】
ただし|TOPICS(ターゲット)|は、先頭のターゲット翻訳として共通の、特定のターゲット翻訳語を有するトピックの数を表し、|ターゲット|は特定のソースの単語に対する異なる先頭のターゲット翻訳語の数を表し、SUM(ターゲット)は、特定のソースの単語に対する異なるターゲットの単語全体にわたる1/|トピックS(ターゲット)|の和である。
【0030】
DSCORE尺度は、ソース表現に対して同じ翻訳語を共有するトピックの数を示す。このスコアが大きくなるほど、特定トピックの翻訳語がより多く辞書内に定義されている。つまり、DSCOREはそれぞれの見出しの曖昧さのレベルに関するある種の情報を与える。
【0031】
図7および図8は、DSCOREの計算例を示す。図7を参照して、英語の動詞「BUY」の場合には、先頭のターゲット翻訳語は、全てのトピックに対して「買う」である。従って、|ターゲット|は1に等しくDSCOREは0に等しい。これに対し、英語の動詞「LEAVE」はトピックにより幾つかの異なる翻訳を持つ。トピックT1、T4およびT8に関する先頭のターゲットの単語は「出発する」であり、トピックT3に対しては「発つ」であり、トピックT5に対しては「任せる」であり、トピックT6に対しては「残す」であり、トピックT7に対しては「出る」である。先頭のターゲット単語に対するトピック数は、図8に示すように3,1,1、および1である。ターゲットの単語数は5である。従って、この場合のDSCOREは図8に示すように0.866667である。
【0032】
日本語に対してはより多くのソース表現が抽出されており、複数翻訳の率は、英語から日本語に翻訳する際の翻訳の曖昧さがより高いことを示している。特に、動詞の構成素に対しては、コーパスから非常に多くの複数翻訳(J: 42.7%, E: 55.1%)が抽出されている。しかし、品詞の本動詞およびVに対するDSCOREが高くなっているのは、動詞の構成素の語の選択においては、トピック毎の情報が役に立つことを示している。
【0033】
さらに、全コーパス(汎用)から抽出されたターゲットの数をトピック毎の辞書からのものと比較すると、翻訳の曖昧さが、ソースでの述部の27.8%(J)および40%(E)に対し、平均で33.8%(J)および38.5%(E)低くなっていることが分かった。加えて、トピック毎の翻訳語の集まりの組合せ中に存在するターゲット表現の12%は汎用辞書内には存在せず、そのためこれらのソースの単語に対する翻訳候補の範囲が広くなる。
【0034】
図9はトピック依存の翻訳知識リソースの統計と、バイリンガルコーパス40から抽出されたそれぞれのリソースの、一意なソースおよびターゲット語の語彙の大きさとを示している。
【0035】
−システムの動作−
このシステムは二つのステップ又はフェーズで動作する。最初はトレーニングステップで、トピック依存の翻訳知識リソースがバイリンガルコーパス40から抽出される。第2は翻訳ステップで、トピックベースの翻訳装置52がトピック依存の翻訳知識を用いて入力文26を翻訳する。
【0036】
トレーニングステップでは、MT規則/辞書抽出モジュールがバイリンガルコーパス40とその特定トピック毎のサブセットコーパス62−T1〜62−Tnに対して適用され、各トピックに対し特定の特徴を利用した多数の機械翻訳規則および辞書を知識リソース80−T1〜80−Tnとして抽出し、バイリンガルコーパス40の全体から知識リソース82を抽出する。
【0037】
翻訳ステップでは、入力文26が与えられると、知識選択モジュール90が対応する翻訳知識リソース80−T1〜80−Tnを選択し、それが入力文26を翻訳する際に翻訳エンジン92により使用される。
【0038】
翻訳は検証モジュール94により検証される。もし翻訳が所定の基準を満足すれば、検証モジュール94は出力を通過させる。さもなければ、検証モジュール94は知識選択モジュール90および翻訳エンジン92に信号を与え、それらが汎用コーパスの知識リソース82の翻訳規則/単語を用いるようにさせる。従って、この場合にはトピックベースの翻訳と汎用の翻訳とが順次に実行される。またはこれに替えて、翻訳を並列に実行し、検証モジュール94は単に検証結果に応じて翻訳のうちの一つを選択するようにしてもよい。
【0039】
所与の入力文のトピックを同定するために、文が発話された状況(トピック)を同定する(30)。操作者は単にバイリンガルコーパス内に付されたトピックを参照するだけでよい。しかし、不明な入力文のトピックを自動的に同定するための研究が進められており、そのような方法であればどれでも使用することができる。
【0040】
しかし、操作者が翻訳に使用されるべきトピックを選択できるようにしなければならないので、本実施の形態ではトピックの外部入力(手入力)30が利用可能であると仮定する。
【0041】
入力文について同定されたトピックに基づき、翻訳知識選択モジュール90がそれぞれの知識リソースを選択し、選択された知識リソース内のトピック毎の辞書および翻訳規則を翻訳エンジン92のメモリにロードする。翻訳エンジン92の翻訳アルゴリズムは、これらのトピック毎の知識リソースを利用し、入力文の翻訳を生成する。
【0042】
さらに、翻訳エンジン92が特定トピックの翻訳知識リソースを用いて適切な翻訳/単語選択を達成できない場合に備え、全ての入力文26に対してトピックに依存しない知識リソース82を用いてバックアップ翻訳を行う(フェイルセーフ戦略)。
【0043】
特定トピックの翻訳を出力すべきか、トピックに依存しない(汎用の)翻訳を出力すべきかの判定は、その業務により異なる。単語の選択に関しては、ある単語が選択されたリソース中の辞書に定義されていれば、特定トピックの翻訳語を選択する。特定トピックの翻訳の評価のために、検証モジュールはシステム内部の意味的距離の尺度を用い、この尺度が特定のしきい値を下回った場合には、特定トピックの翻訳を用いる(信頼度)。それ以外の場合には、コーパス翻訳知識82を用いる。
【0044】
−システムの評価−
本実施の形態にかかる、トピックベースの語の曖昧性排除の評価を行なった。ここで使用した基準は、選択された単語と、バイリンガルのテストコーパスで用いられている翻訳語との比較である。結果を図10に示す。今回のアプローチを評価するにあたっては、コーパスのうち、特定トピックの辞書を作成する際に用いられなかった10,000の発話を使用した。さらに、このアプローチの効果の上限を評価するために、角川類語辞典(非特許文献3)に基づいた階層構造をもつシソーラスを使用した。
【0045】
図10において、ベースラインの方法Gは、汎用の翻訳辞書のターゲット表現を出力するものである。方法Tは、特定トピックの翻訳を選択する際に、テスト文のトピック情報を使用するものである。ここで使用した組合せ方法TGは、特定トピックの翻訳の見出しが存在している場合にはその翻訳を優先的に採用し、それ以外の場合には汎用のターゲット語を採用するものである。辞書内に複数個の翻訳語の候補が定義されている場合には、順序付の候補リストの内の先頭の候補(図5でマークを付した見出し)を選択した。それぞれの方法によってはソースの単語がカバーされていない場合、利用できる翻訳語は存在しない。「下限」は、選択された単語と正しい翻訳との語の一致の百分率を示す。「上限」は選択された単語と正しい翻訳との間の、(シソーラス64に基づく)意味的な一致の百分率を示す。システムの性能は、この下限と上限との間のどこかにあると考えられる。
【0046】
図10に示すように、特定トピックの辞書がカバーする率は、汎用の辞書よりも低い。しかしそれでも、組合せた場合にはある程度の増加に貢献し、テストデータの95%について翻訳語が得られる。一方、特定トピックの単語を選択することにより、汎用の翻訳語を用いたときよりも精度が高くなる。この場合にも、双方の辞書を組合せることで最もよい結果が得られ、60%程度の「正しい」翻訳語が得られる。入力される文の翻訳に対して同義語または換言が可能なことを考慮すれば、人による評価によって、より高い精度を得られる可能性もある。しかし、本提案に係る方法の上限値は80%程度であり、汎用の辞書を使用した翻訳の結果に対して13%もの相対的な改善が得られる。
【0047】
図11は、本実施の形態に係るトピックベースの翻訳の評価を示す。この評価にあたっては、’http://www.nist.gov/speech/tests/mt/’(cf. 非特許文献2)において入手可能な、機械翻訳の自動的評価ツールを使用した。この場合の評価基準は、NIST(National Institute of Standards and Technology)のスコアの計算と比較とによる。ここに記載した方法「G」、「T」、「GT」は、図10で用いたものと同じである。
【0048】
方法TGにおけるシステムT/Gの配分は、Gに対して1303[20.4%]、Tに対して5071[79.6%]である。
【0049】
−コンピュータによる実装−
上記した実施の形態は、コンピュータハードウェア、およびそのコンピュータ上で実行されるソフトウェアにより実現される。図12は、本実施の形態にかかるコンピュータシステム130の外観を示し、図13はコンピュータシステム130のブロック図である。図12を参照して、コンピュータシステム130は、FD(Flexible Disk)ドライブ152と、CD−ROMドライブ150と、キーボード146と、マウス148と、モニタ142とを含む。
【0050】
図13を参照して、コンピュータ140は、FDドライブ152およびCD−ROMドライブ150に加えて、CPU(Central Processing Unit)156と、CPU156、CD−ROMドライブ150およびFDドライブ152に接続されたバス166と、ブートアッププログラムなどのプログラムを格納するための読出専用メモリ(Read−Only Memory(ROM))158と、バス166に接続され、アプリケーションプログラム命令、システムプログラムおよびデータを記憶するためのランダムアクセスメモリ(RAM)160とを含む。
【0051】
ここには示していないが、コンピュータ140はさらに、ローカルエリアネットワーク(LAN)への接続を提供するネットワークアダプタボードを含んでもよい。
【0052】
コンピュータシステム130にこの機械翻訳の方法を実行させるプログラムは、CD−ROMドライブ150またはFDドライブ152にそれぞれ挿入されるCD−ROM162またはFD164に格納され、さらにハードディスク154に転送される。またはこれに替えて、このプログラムを図示しないネットワークを介してコンピュータ140に送信し、ハードディスク154に格納するようにしてもよい。このプログラムは実行時にはRAM160にロードされる。なお、プログラムはCD−ROM162、FD164から、またはネットワークを介して、RAM160に直接ロードされてもよい。
【0053】
以下に述べるプログラムは、本実施の形態に係る方法をコンピュータ140に実行させるための多数の命令を含む。この方法を実行する上で必要な基本的命令の幾つかは、コンピュータ140上で動作するオペレーティングシステム(OS)、またはコンピュータ140にインストールされたサードパーティのプログラムまたは最適化ツールボックスにより提供されるので、このプログラムは必ずしも本実施の形態に係る方法を実装するために必要な全ての基本的命令を含まなくてもよい。このプログラムは、所望の結果が得られるように、管理された形で適切な関若しくは「ツール」を呼出すことで最適化プロセスを実行する部分の命令だけを含んでいればよい。コンピュータシステム130の動作は周知であるので、ここではそれについては繰り返さない。
【0054】
−プログラムフローチャート−
図14および図15は、コンピュータシステム130上で実行されるプログラムの制御の流れを示すフローチャートである。図14および図15に示すステップは、図2および図3に示したモジュールに対応している。図2はトレーニングステップを示し、図3は翻訳ステップを示す。
【0055】
図14を参照して、トレーニングステップは、コーパス内のトレーニング用の文にタグ付けされたトピックに従ってバイリンガルコーパス40をサブセットコーパス62−T1〜62−Tnに分割するステップ130と、トレーニングデータのそれぞれの部分から特定トピックの辞書と翻訳規則とを抽出するステップ132とを含む。
【0056】
図15を参照して、翻訳ステップは、入力文を受取るステップ190と、入力文のトピックに関する特徴を受取るステップ192と、特定トピックの翻訳知識を選択し、それを入力文に対して適用するステップ194とを含む。
【0057】
翻訳ステップはさらに、選択された特定トピックのリソースと、トピックに依存しないリソースとを用いて特定トピックの翻訳と汎用翻訳とを生成するステップ196と、特定トピックの翻訳/語の選択の信頼度を判定するステップ198とを含む。もし信頼度がステップ200で所定のしきい値と同等と判定されれば、特定トピックの翻訳がステップ202で出力され、それ以外の場合にはステップ204でトピックに依存しない翻訳が出力される。
【0058】
−結論−
以上述べたように、ここではバイリンガルコーパスから自動的に抽出された特定トピック毎の翻訳辞書に基づく単語選択手法を提案した。最初に、統計的な単語アライメント方法を、同じ状況(トピック)で発話された文に対して適用し、そのトピックに特有の翻訳語の対を得る。第2のステップでは、ソースのそれぞれの単語に対する特定トピック毎の翻訳語の全てを、コーパス全体のアライメントにより得られた汎用の翻訳と組合せる。マージされた翻訳辞書を用い、所与の入力文のトピック情報に対し、最も適切な翻訳語を選択する。
【図面の簡単な説明】
【図1】本発明の一実施の形態にかかるトピックベースの機械翻訳システムの概略ブロック図である。
【図2】知識ベース構築モジュール42の詳細を示す図である。
【図3】トピックベースの翻訳装置52の詳細を示す図である。
【図4】この実施の形態および実験に対して使用した種々のトピックおよびそれらの特徴の概略を示す図である。
【図5】英語の動詞「LEAVE」に対する、日本語のトピック毎の翻訳語の候補の例を示す図である。
【図6】トピック毎の辞書の統計を示す図である。
【図7】DSCOREの計算例を示す図である。
【図8】DSCOREの他の計算例を示す図である。
【図9】トピック毎の翻訳知識リソースの統計を示す図である。
【図10】本実施の形態における、トピックベースの語の曖昧さの排除の結果を示す図である。
【図11】本実施の形態にかかるトピックベースの翻訳の評価を示す図である。
【図12】本実施の形態にかかるコンピュータシステム130の外観を示す図である。
【図13】コンピュータシステム130のブロック図である。
【図14】トレーニングステップのプログラムの制御の流れを示すフローチャートである。
【図15】翻訳ステップのプログラムの制御の流れを示すフローチャートである。
【図16】翻訳語の変化形の例を示す図である。
【符号の説明】
20 知識ベース構築部、24 翻訳部、26 翻訳文、28 出力、30 トピック(入力)、40 バイリンガルコーパス、42 特定トピックの翻訳知識ベース構築モジュール、44 特定トピックの翻訳知識ベース、52 翻訳装置、60 クラスタリング部、62−T1〜62−Tn サブコーパス、64 シソーラス、70 翻訳知識抽出部、80−T1〜80−Tn 特定トピック毎の翻訳知識リソース、82 コーパスの翻訳知識リソース、90 知識選択モジュール、92 翻訳エンジン、94 検証部
Claims (21)
- トピックベースの翻訳知識ベースを準備するための方法であって、
各々がソース言語とターゲット言語との文の対の集合を含む複数個のバイリンガルコーパスを準備するステップを含み、前記文の対は当該文の対の集合に特有のトピックに関するものであり、さらに、
前記複数個のバイリンガルコーパスの各々から翻訳知識を抽出するステップと、
コンピュータ可読な記憶媒体上に、複数の翻訳知識リソースを格納するステップとを含み、前記複数の翻訳知識リソースの各々は、それぞれ対応のバイリンガルコーパスから抽出された翻訳知識を含む、方法。 - 前記翻訳知識は、前記ソース言語と前記ターゲット言語との辞書を含む、請求項1に記載の方法。
- 前記翻訳知識はさらに、前記ソース言語の文を前記ターゲット言語に翻訳するための翻訳規則を含む、請求項2に記載の方法。
- 前記翻訳知識は、前記ソース言語の文を前記ターゲット言語に翻訳するための翻訳規則を含む、請求項1に記載の方法。
- トピックペースの翻訳知識ベースを準備する方法をコンピュータに実行させるための、コンピュータで実行可能なプログラムであって、前記方法は、
各々がソース言語とターゲット言語との文の対の集合を含む複数個のバイリンガルコーパスを準備するステップを含み、前記文の対は当該文の対の集合に特有のトピックに関するものであり、さらに、
前記複数個のバイリンガルコーパスの各々から翻訳知識を抽出するステップと、
コンピュータ可読な記憶媒体上に、複数の翻訳知識リソースを格納するステップとを含み、前記複数の翻訳知識リソースの各々は、それぞれ対応のバイリンガルコーパスから抽出された翻訳知識を含む、プログラム。 - 前記翻訳知識は、前記ソース言語と前記ターゲット言語との辞書を含む、請求項5に記載のプログラム。
- 前記翻訳知識はさらに、前記ソース言語の文を前記ターゲット言語に翻訳するための翻訳規則を含む、請求項6に記載のプログラム。
- 前記翻訳知識は、前記ソース言語の文を前記ターゲット言語に翻訳するための翻訳規則を含む、請求項5に記載のプログラム。
- 複数の翻訳知識リソースを含むトピックベースの翻訳知識ベースを格納した、コンピュータ可読な記憶媒体であって、前記翻訳知識リソースの各々は、各々がソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、前記文の対は、前記文の対の集合に特有のトピックに関するものである、コンピュータ可読な記憶媒体。
- 前記ソース言語は英語である、請求項9に記載のコンピュータ可読な記憶媒体。
- 前記ターゲット言語は日本語である、請求項9または請求項10に記載のコンピュータ可読な記憶媒体。
- トピックに基づき、ソース言語の文をターゲット言語の文に機械翻訳するための方法であって、
複数の翻訳知識リソースを含むトピックベースの翻訳知識ベースを格納した、コンピュータ可読な記憶媒体を準備するステップを含み、前記翻訳知識リソースの各々は、各々がソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、前記文の対は、前記文の対の集合に特有のトピックに関するものであり、さらに、
前記ソース言語の文が発話される状況を同定するステップと、
前記同定するステップで同定された状況に従って、前記複数の翻訳知識リソースの内の一つをコンピュータに選択させるステップと、
前記選択させるステップで選択された翻訳知識リソースを用いて、前記ソース言語の文を前記ターゲット言語の文に機械翻訳するステップとを含む、方法。 - 前記コンピュータ可読な記憶媒体はさらに、前記複数の翻訳知識リソースを準備するのに用いられたバイリンガルコーパスを組み合わせたものから抽出された汎用翻訳知識リソースを格納しており
前記方法はさらに、
翻訳された文の信頼度を判定するステップと、
前記ソース言語の文を前記汎用翻訳知識リソースを用いて前記ターゲット言語に機械翻訳するステップと、
前記判定するステップで判定された信頼度に従って、前記機械翻訳するステップで翻訳された前記ターゲット言語の文の一つを選択するステップとをさらに含む、請求項12に記載の方法。 - 前記機械翻訳するステップが互いに並列に実行される、請求項13に記載の方法。
- 前記機械翻訳するステップが順次に実行される、請求項13に記載の方法。
- 前記同定するステップが、操作者の手入力によって前記状況に関する情報を受取るステップを含む、請求項12から請求項15のいずれかに記載の方法。
- ソース言語の文をターゲット言語に機械翻訳する、トピックベースの機械翻訳方法をコンピュータに実行させるための、コンピュータで実行可能なプログラムであって、前記方法は、
複数の翻訳知識リソースを含むトピックベースの翻訳知識ベースを格納した、コンピュータ可読な記憶媒体を準備するステップを含み、前記翻訳知識リソースの各々は、各々がソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、前記文の対は、前記文の対の集合に特有のトピックに関するものであり、さらに、
前記ソース言語の文が発話される状況を同定するステップと、
前記同定するステップで同定された状況に従って、前記複数の翻訳知識リソースの内の一つをコンピュータに選択させるステップと、
前記選択させるステップで選択された翻訳知識リソースを用いて、前記ソース言語の文を前記ターゲット言語の文に機械翻訳するステップとを含む、プログラム。 - 前記コンピュータ可読な記憶媒体はさらに、前記複数の翻訳知識リソースを準備するのに用いられたバイリンガルコーパスを組合せたものから抽出された汎用翻訳知識リソースを格納しており
前記方法はさらに、
翻訳された文の信頼度を判定するステップと、
前記ソース言語の文を前記汎用翻訳知識リソースを用いて前記ターゲット言語に機械翻訳するステップと、
前記判定するステップで判定された信頼度に従って、前記機械翻訳するステップで翻訳された前記ターゲット言語の文の一つを選択するステップとをさらに含む、請求項17に記載のプログラム。 - 前記機械翻訳するステップが互いに並列に実行される、請求項18に記載の方法。
- 前記機械翻訳するステップが順次に実行される、請求項18に記載の方法。
- 前記同定するステップが、操作者の手入力によって前記状況に関する情報を受取るステップを含む、請求項17から請求項20のいずれかに記載の方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002267983A JP2004163993A (ja) | 2002-09-13 | 2002-09-13 | トピックベースの翻訳知識ベースを準備するための方法およびコンピュータに当該方法を実行させる、コンピュータ実行可能なプログラム、ならびにトピックベースの機械翻訳のためのプログラムおよび方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2002267983A JP2004163993A (ja) | 2002-09-13 | 2002-09-13 | トピックベースの翻訳知識ベースを準備するための方法およびコンピュータに当該方法を実行させる、コンピュータ実行可能なプログラム、ならびにトピックベースの機械翻訳のためのプログラムおよび方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2004163993A true JP2004163993A (ja) | 2004-06-10 |
Family
ID=32800904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2002267983A Pending JP2004163993A (ja) | 2002-09-13 | 2002-09-13 | トピックベースの翻訳知識ベースを準備するための方法およびコンピュータに当該方法を実行させる、コンピュータ実行可能なプログラム、ならびにトピックベースの機械翻訳のためのプログラムおよび方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2004163993A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008513856A (ja) * | 2004-09-15 | 2008-05-01 | アップル インコーポレイテッド | リアルタイムデータローカライズ |
JP2011243087A (ja) * | 2010-05-20 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 自動単語対応付け装置とその方法とプログラム |
CN111859998A (zh) * | 2020-06-18 | 2020-10-30 | 北京百度网讯科技有限公司 | 篇章翻译的方法、装置、电子设备和可读存储介质 |
-
2002
- 2002-09-13 JP JP2002267983A patent/JP2004163993A/ja active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008513856A (ja) * | 2004-09-15 | 2008-05-01 | アップル インコーポレイテッド | リアルタイムデータローカライズ |
JP4842953B2 (ja) * | 2004-09-15 | 2011-12-21 | アップル インコーポレイテッド | リアルタイムデータローカライズ |
JP2011243087A (ja) * | 2010-05-20 | 2011-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 自動単語対応付け装置とその方法とプログラム |
CN111859998A (zh) * | 2020-06-18 | 2020-10-30 | 北京百度网讯科技有限公司 | 篇章翻译的方法、装置、电子设备和可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107209759B (zh) | 注解辅助装置及记录介质 | |
KR101968102B1 (ko) | 논팩토이드형 질의 응답 시스템 및 컴퓨터 프로그램 | |
EP1351158A1 (en) | Machine translation | |
Mitkov | Outstanding issues in anaphora resolution | |
JPS6299865A (ja) | 自然言語の共起関係辞書保守方法 | |
JP2002215617A (ja) | 品詞タグ付けをする方法 | |
US9600469B2 (en) | Method for detecting grammatical errors, error detection device for same and computer-readable recording medium having method recorded thereon | |
KR100853173B1 (ko) | 통계적 자동 번역 방식에 기반한 음성 자동 통역 시스템 및그에 적용되는 번역 처리 방법 및 그 훈련방법 | |
Menacer et al. | Machine translation on a parallel code-switched corpus | |
Hardmeier | A neural model for part-of-speech tagging in historical texts | |
Tsvetkov et al. | Generating English determiners in phrase-based translation with synthetic translation options | |
Rahman et al. | A corpus based n-gram hybrid approach of bengali to english machine translation | |
Yousif | Hidden Markov Model tagger for applications based Arabic text: A review | |
Issam et al. | Goud. ma: a news article dataset for summarization in moroccan darija | |
Rabiee | Adapting standard open-source resources to tagging a morphologically rich language: a case study with Arabic | |
Stepanov et al. | Cross-language transfer of semantic annotation via targeted crowdsourcing: task design and evaluation | |
Lee et al. | Detection of non-native sentences using machine-translated training data | |
JP2004163993A (ja) | トピックベースの翻訳知識ベースを準備するための方法およびコンピュータに当該方法を実行させる、コンピュータ実行可能なプログラム、ならびにトピックベースの機械翻訳のためのプログラムおよび方法 | |
Mohaghegh et al. | Improved language modeling for English-Persian statistical machine translation | |
JP2005284723A (ja) | 自然言語処理システム及び自然言語処理方法、並びにコンピュータ・プログラム | |
JP2006004366A (ja) | 機械翻訳システム及びそのためのコンピュータプログラム | |
JP2005202924A (ja) | 対訳判断装置、方法及びプログラム | |
JP5245291B2 (ja) | 文書解析装置、および文書解析方法、並びにコンピュータ・プログラム | |
KR20040018008A (ko) | 품사 태깅 장치 및 태깅 방법 | |
España-Bonet et al. | Going beyond zero-shot MT: combining phonological, morphological and semantic factors. The UdS-DFKI System at IWSLT 2017 |