JP2004163993A

JP2004163993A - トピックベースの翻訳知識ベースを準備するための方法およびコンピュータに当該方法を実行させる、コンピュータ実行可能なプログラム、ならびにトピックベースの機械翻訳のためのプログラムおよび方法

Info

Publication number: JP2004163993A
Application number: JP2002267983A
Authority: JP
Inventors: Paul Michael; ミヒャエルパウル; Eiichiro Sumida; 英一郎隅田
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2002-09-13
Filing date: 2002-09-13
Publication date: 2004-06-10

Abstract

【課題】ソースセンテンスの文脈に即し適切な語を選択できる機械翻訳の方法および装置を提供する。
【解決手段】翻訳方法は、コンピュータ読取可能な媒体５０上に、複数のトピック依存の翻訳知識リソース８０−Ｔ１〜８０−Ｔｎを準備するステップと、入力文２６が発話された状況３０を同定するステップと、同定された状況に応じてリソース８０−Ｔ１〜８０−Ｔｎの一つを選択するステップ９０と、トピック依存の翻訳知識リソース８０−Ｔ１〜８０−Ｔｎを用いて文を機械翻訳するステップ９２とを含む。
【選択図】図３

Description

【０００１】
【発明が属する技術分野】
本発明は用例ベースの機械翻訳に関し、特に、トピックベースの翻訳知識を用いて翻訳語を選択する用例ベースの機械翻訳に関する。
【０００２】
【従来の技術】
機械翻訳においては、それぞれの文の文脈に即した適切な語の翻訳を選択することは非常に困難な問題である。文が発話される状況により、翻訳は極端に変わることがある。例を図１６に示す。
【０００３】
図１６に示すように、英語の単語「ｔａｋｅ」、「ｍｅｄｉｕｍ」、および「Ｏｋａｙ」は、文脈に応じて非常に多様な日本語の単語または句に翻訳される。従来技術の機械翻訳は文脈についてはあまり活用しておらず、従って、従来の技術の機械翻訳により選択された翻訳語は、多くの場合、不適切なものであった。
【非特許文献１】
イマムラ、Ｋ．（２００１），構文解析と融合した階層的句アライメント、第６回ＮＬＰＲＳ予稿集、３７７頁〜３８４頁（Ｉｍａｍｕｒａ，Ｋ．（２００１）ＨｉｅｒａｒｃｈｉｃａｌＰｈｒａｓｅＡｌｉｇｎｍｅｎｔＨａｒｍｏｎｉｚｅｄｗｉｔｈＰａｒｓｉｎｇ．ＩｎＰｒｏｃ．ｏｆｔｈｅ６^ｔｈＮＬＰＲＳ（ｐｐ．３７７−３８４））
【非特許文献２】
マラメッド、Ｄ，（２０００），語の間での翻訳等価性のモデル、コンピューテーショナル・リングイスティクス２６−２、第２２１頁〜２４９頁（Ｍｅｌａｍｅｄ，Ｄ．（２０００）Ｍｏｄｅｌｓｏｆ翻訳ＥｑｕｉｖａｌｅｎｃｅａｍｏｎｇＷｏｒｄｓ．ＩｎＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ２６−２（ｐｐ．２２１−２４９））
【非特許文献３】
大野晋、浜西正人（１９８４）、類語新辞典、角川書店（Ｏｈｎｏ，Ｓ．ａｎｄＨａｍａｎｉｓｈｉ，Ｍ．（１９８４），Ｒｕｉｇｏ−Ｓｈｉｎ−Ｊｉｔｅｎ，Ｋａｄｏｋａｗａ）
【非特許文献４】
タケザワ、Ｔ．他（２００２）、実世界における旅行会話の会話翻訳のための大規模バイリンガルコーパスに向けて、第３回ＬＲＥＣ予稿集、ｐｐ．１４７〜１５２、ラス・パルマス、スペイン（Ｔａｋｅｚａｗａ，Ｔ．ｅｔａｌ．（２００２）．Ｔｏｗａｒｄａｂｒｏａｄ−ｃｏｖｅｒａｇｅバイリンガルｃｏｒｐｕｓｆｏｒｓｐｅｅｃｈ翻訳ｏｆ旅行会話ｉｎｔｈｅｒｅａｌｗｏｒｌｄ．ＩｎＰｒｏｃ．ｏｆｔｈｅ３ｒｄＬＲＥＣ（ｐｐ．１４７−１５２），ＬａｓＰａｌｍａｓ，Ｓｐａｉｎ）
【特許文献１】
今村賢治他、２００２年、特開２００２−２４５０３７
【発明が解決しようとする課題】
人間の翻訳者であれば、語の選択作業に必要な情報をそれぞれの文が発話された状況（トピック）から得ることができる。しかし、従来の技術の機械翻訳システムでは、そのような情報を得ることはできなかった。さらに、従来技術の機械翻訳システムは、仮に文のトピックが分かっていたとしても、適切な翻訳語を選択することはできない。
【０００４】
従って、もしもそれぞれの状況に応じて選択すべき適切な翻訳語を機械翻訳システムが決定できれば、翻訳の品質は著しく改善されると思われる。
【０００５】
従って、本発明の目的は、それぞれの文が発話された状況に依存して、適切な単語を選択する機械翻訳方法および装置を提供することである。
【０００６】
本発明の他の目的は、それぞれの文が発話された状況に依存して、トピックが付されたバイリンガルコーパスから抽出された翻訳知識に従って、適切な単語を選択する機械翻訳方法および装置を提供することである。
【０００７】
【課題を解決するための手段】
本発明のある局面は、トピックベースの翻訳知識ベースを準備する方法に関するものであり、その方法は、各々がソース言語とターゲット言語との文の対の集合を含む複数のバイリンガルコーパスを準備するステップを含む。各文の対はその文の対の集合に特有のトピックに関するものである。この方法はさらに、バイリンガルコーパスの各々から翻訳知識を抽出するステップと、複数の翻訳知識リソースをコンピュータ可読な記憶媒体に格納するステップとを含み、複数の翻訳知識リソースの各々は、それぞれバイリンガルコーパスから抽出された翻訳知識を含む。
【０００８】
翻訳知識は、ソース言語とターゲット言語との辞書を含んでもよい。
【０００９】
翻訳知識はさらに、ソース言語の文をターゲット言語に翻訳するための翻訳規則を含んでもよい。
【００１０】
本発明の他の局面は、複数の翻訳知識リソースを含むトピックベースの翻訳知識ベースを格納したコンピュータ可読な記憶媒体に関する。翻訳知識リソースの各々は、ソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、各文の対は、その文の対の集合に特有のトピックに関するものである。
【００１１】
ソース言語は英語でもよく、ターゲット言語は日本語でもよい。
【００１２】
本発明のさらに他の局面は、ソース言語の文をターゲット言語の文にトピックベースで機械翻訳する方法に関し、その方法は、複数の翻訳知識リソースを記憶したコンピュータ可読な記憶媒体を準備するステップを含む。各翻訳知識リソースは、ソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、文の対は、その文の対の集合に特有のトピックに関するものである。この方法はさらに、ソース言語の文が発話された状況を同定するステップと、同定するステップで同定された状況に応じて、複数の翻訳リソースの内の一つをコンピュータに選択させるステップと、選択させるステップで選択された翻訳知識リソースを用いて、ソース言語の文をターゲット言語に機械翻訳するステップとを含む。
【００１３】
コンピュータ可読な記憶媒体は、複数の翻訳知識リソースを準備する際に使用されたバイリンガルコーパスを組合せたものから抽出された汎用翻訳知識リソースを含み、前記方法はさらに、翻訳された文の信頼度を判定するステップと、汎用翻訳知識を用いてソース言語の文をターゲット言語に機械翻訳するステップと、判定するステップで判定された信頼度に従って、機械翻訳ステップで翻訳されたターゲット言語の文のうちの一つを選択するステップとを含む。
【００１４】
機械翻訳するステップは、並列に実行しても、順次に実行してもよい。
【００１５】
同定するステップは、操作者の手入力によって、状況に関する情報を受取るステップを含んでもよい。
【００１６】
上記した方法は、コンピュータで実行可能なプログラムにより実現可能である。
【００１７】
【発明の実施の形態】
−システムの構造−
図１は、本発明の一実施の形態にかかるトピックベースの機械翻訳システムの概略的ブロック図を示す。図１を参照して、トピックベースの機械翻訳システムは、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）２２などの記憶媒体に格納されるトピック依存の翻訳知識ベース４４を構築するための知識ベース構築部２０と、入力文２６のトピックに関する操作者の入力に応答して、入力文２６をＣＤ−ＲＯＭ２２に格納された知識ベースに基づいて出力２８に翻訳するためのＭＴ（機械翻訳）部２４とを含む。当業者であれば、知識ベース構築部２０および翻訳部２４が同一のコンピュータ上に存在しているのであれば、ＣＤ−ＲＯＭ２２が不要であることは容易に理解できるであろう。またはこれに替えて、インターネットなどのデータネットワークを介して、知識ベースを知識ベース構築部２０から翻訳部２４に送信するようにしてもよい。
【００１８】
知識ベース構築部２０は、それぞれトピックが付されたバイリンガル（英語および日本語）の文の対の集合を含むバイリンガルコーパス４０と、バイリンガルコーパス４０からトピック依存の翻訳知識ベース４４を構築するための知識ベース構築モジュール４２とを含む。
【００１９】
翻訳部２４は、ＣＤ−ＲＯＭ２２に格納された知識ベースを格納するための、ハードディスクなどの記憶媒体５０と、入力文２６のトピックに関する入力３０に従って、記憶媒体５０に格納された知識ベースから適切な翻訳語を選択することにより入力文２６を翻訳するための、トピックベースの翻訳装置５２とを含む。
【００２０】
図２は、知識ベース構築モジュール４２をより詳細に示す。図２を参照して、知識ベース構築モジュール４２は、バイリンガルコーパス４０中のそれぞれの文をクラスタリングして、コーパスの、特定のトピックのサブセット６２−Ｔ１，６２−Ｔ２，…，６２−Ｔｎを生成するためのクラスタリングモジュール６０を含む。各サブセットは、例えば、語彙に関して特定の特徴を示し、トピックに特有の翻訳語の対を同定する際にこの特徴を利用できる。
【００２１】
知識ベース構築モジュール４２はさらに、両言語のシソーラス６４を含み、シソーラス６４は単語間の意味的距離を考慮に入れる際に用いられるものであり、さらに、コーパス６２−Ｔ１〜６２−Ｔｎおよびバイリンガルコーパス４０中の文を形態素解析しタグ付けするためのタグ付け部６６と、コーパス６２−Ｔ１〜６２−Ｔｎおよびバイリンガルコーパス４０中の文を構文解析するためのパーザ６８と、バイリンガルコーパス４０およびその特定トピックのサブセット６２−Ｔ１〜６２−Ｔｎ中の文をアライメントし、バイリンガルコーパス４０およびコーパス６２−Ｔ１〜６２−Ｔｎの各々に対して、各トピックの特徴を利用する多数の機械翻訳規則および辞書をコーパス知識８２および翻訳知識リソース８０−Ｔ１〜８０−Ｔｎとして抽出するための翻訳知識抽出部７０とを含む。言語学では、「構文解析」とは、一文または複数の文を、分析可能な要素に分解することをいう。ある文を構文解析するとき、その文は単語および句に分割され、各要素は同定されて特定の名前がタグ付けされる。
【００２２】
図３は、図１に示すトピックベースの翻訳装置５２の詳細を示す。図３を参照して、トピックベースの翻訳装置５２は、トピック３０に関し操作者により入力された情報に応答して知識リソース８０−Ｔ１〜８０−Ｔｎの一つを選択し、また選択された知識を用いて翻訳された文が検証されなかった場合にはコーパス知識８２を選択するための、知識選択モジュール９０と、知識選択モジュール９０により選択された特定の知識を使用して入力文２６を翻訳するための翻訳エンジン９２と、翻訳部２４の翻訳を検証し、その翻訳が所定の基準を満たさない場合には知識選択モジュール９０および翻訳エンジン９２に汎用コーパス知識８２を使用させるための検証モジュール９４とを含む。
【００２３】
図４に、本実施の形態および後掲の実験で使用された種々のトピックと、それらの特徴とを要約して示す。さらに、トピックに特有の文の述部、すなわちある特定の一つのトピックにしか出現しない述部も列挙してある。
【００２４】
バイリンガルコーパス４０は、日本語（Ｊ）の発話と、それらの英語（Ｅ）訳との集まりを含むが、これらは外国に行く旅行者のための会話集によく見出されるものである（非特許文献３を参照）。これら翻訳は一文ごとに行なわれ、その結果、一文単位でアライメントされたコーパスが得られる。コーパス４０は、約２００Ｋのバイリンガル文を含む。さらに、コーパスの各文にはその文が発話された状況に応じたトピックの注釈が付されている。合計では、このコーパス中には２０の別々のトピックの注釈がつけられている。
【００２５】
クラスタリングモジュール６０は、それぞれの文をコーパスの特定トピックのサブセット６２−Ｔ１〜６２−Ｔｎにクラスタリングする。各サブセットは、例えばその語彙に関して、特定トピックの翻訳語の対の選択に利用できる可能性のある特徴を示す。図５は、英語の動詞「ＬＥＡＶＥ」に対する、日本語の特定トピックの翻訳語の候補の例を示す。
【００２６】
翻訳知識抽出部７０は、バイリンガルコーパスから自動的に翻訳規則および辞書を抽出するための、非特許文献１で紹介された句アライメントモジュールを採用している。抽出アルゴリズムは各トピックサブセット６２−Ｔ１〜６２−Ｔｎと、全コーパス４０（トピックに依存しない）とに適用され、（ｎ＝｜トピック｜＋１）個の翻訳知識リソースが得られる。これら翻訳知識リソースの各々は翻訳規則および辞書を含む。ただし、｜トピック｜はトピックの数を示す。
【００２７】
またはこれに替えて、非特許文献２で紹介された、同等のリンク用アルゴリズムを使用することもできる。この確率的方法は、共起関係に関する、境界に基づくモデルを用いている。このモデルは、所与の語の対がバイリンガルテキストの対応する領域において共起するか否かを示すものであり、一対一関係の仮定、すなわち、各語は他のたかだか一語にしか翻訳されないという仮定に基づいている。このアルゴリズムは共起しているトークン対の間で最も確からしいリンクを貪欲法により選択し、より確からしさの低いリンクについては、それ以前に選択されているものと競合しない場合のみ選択する。
【００２８】
特定トピックの翻訳知識リソース８０−Ｔ１〜８０−Ｔｎは、バイリンガルコーパス４０の、それぞれのコーパスのサブセット６２−Ｔ１〜６２−Ｔｎから構築されるが、トピックに依存しない知識リソース８２はバイリンガルコーパス４０の全体に基づいている。本実施の形態で用いている句アライメント方法の詳細については、前掲の特許文献１を参照されたい。図６は、トピック毎の辞書の統計を示す。ここで、「ＤＳＣＯＲＥ」は以下の式により定義される。
【００２９】
【数１】

ただし｜ＴＯＰＩＣＳ（ターゲット）｜は、先頭のターゲット翻訳として共通の、特定のターゲット翻訳語を有するトピックの数を表し、｜ターゲット｜は特定のソースの単語に対する異なる先頭のターゲット翻訳語の数を表し、ＳＵＭ（ターゲット）は、特定のソースの単語に対する異なるターゲットの単語全体にわたる１／｜トピックＳ（ターゲット）｜の和である。
【００３０】
ＤＳＣＯＲＥ尺度は、ソース表現に対して同じ翻訳語を共有するトピックの数を示す。このスコアが大きくなるほど、特定トピックの翻訳語がより多く辞書内に定義されている。つまり、ＤＳＣＯＲＥはそれぞれの見出しの曖昧さのレベルに関するある種の情報を与える。
【００３１】
図７および図８は、ＤＳＣＯＲＥの計算例を示す。図７を参照して、英語の動詞「ＢＵＹ」の場合には、先頭のターゲット翻訳語は、全てのトピックに対して「買う」である。従って、｜ターゲット｜は１に等しくＤＳＣＯＲＥは０に等しい。これに対し、英語の動詞「ＬＥＡＶＥ」はトピックにより幾つかの異なる翻訳を持つ。トピックＴ１、Ｔ４およびＴ８に関する先頭のターゲットの単語は「出発する」であり、トピックＴ３に対しては「発つ」であり、トピックＴ５に対しては「任せる」であり、トピックＴ６に対しては「残す」であり、トピックＴ７に対しては「出る」である。先頭のターゲット単語に対するトピック数は、図８に示すように３，１，１、および１である。ターゲットの単語数は５である。従って、この場合のＤＳＣＯＲＥは図８に示すように０．８６６６６７である。
【００３２】
日本語に対してはより多くのソース表現が抽出されており、複数翻訳の率は、英語から日本語に翻訳する際の翻訳の曖昧さがより高いことを示している。特に、動詞の構成素に対しては、コーパスから非常に多くの複数翻訳（Ｊ：４２．７％，Ｅ：５５．１％）が抽出されている。しかし、品詞の本動詞およびＶに対するＤＳＣＯＲＥが高くなっているのは、動詞の構成素の語の選択においては、トピック毎の情報が役に立つことを示している。
【００３３】
さらに、全コーパス（汎用）から抽出されたターゲットの数をトピック毎の辞書からのものと比較すると、翻訳の曖昧さが、ソースでの述部の２７．８％（Ｊ）および４０％（Ｅ）に対し、平均で３３．８％（Ｊ）および３８．５％（Ｅ）低くなっていることが分かった。加えて、トピック毎の翻訳語の集まりの組合せ中に存在するターゲット表現の１２％は汎用辞書内には存在せず、そのためこれらのソースの単語に対する翻訳候補の範囲が広くなる。
【００３４】
図９はトピック依存の翻訳知識リソースの統計と、バイリンガルコーパス４０から抽出されたそれぞれのリソースの、一意なソースおよびターゲット語の語彙の大きさとを示している。
【００３５】
−システムの動作−
このシステムは二つのステップ又はフェーズで動作する。最初はトレーニングステップで、トピック依存の翻訳知識リソースがバイリンガルコーパス４０から抽出される。第２は翻訳ステップで、トピックベースの翻訳装置５２がトピック依存の翻訳知識を用いて入力文２６を翻訳する。
【００３６】
トレーニングステップでは、ＭＴ規則／辞書抽出モジュールがバイリンガルコーパス４０とその特定トピック毎のサブセットコーパス６２−Ｔ１〜６２−Ｔｎに対して適用され、各トピックに対し特定の特徴を利用した多数の機械翻訳規則および辞書を知識リソース８０−Ｔ１〜８０−Ｔｎとして抽出し、バイリンガルコーパス４０の全体から知識リソース８２を抽出する。
【００３７】
翻訳ステップでは、入力文２６が与えられると、知識選択モジュール９０が対応する翻訳知識リソース８０−Ｔ１〜８０−Ｔｎを選択し、それが入力文２６を翻訳する際に翻訳エンジン９２により使用される。
【００３８】
翻訳は検証モジュール９４により検証される。もし翻訳が所定の基準を満足すれば、検証モジュール９４は出力を通過させる。さもなければ、検証モジュール９４は知識選択モジュール９０および翻訳エンジン９２に信号を与え、それらが汎用コーパスの知識リソース８２の翻訳規則／単語を用いるようにさせる。従って、この場合にはトピックベースの翻訳と汎用の翻訳とが順次に実行される。またはこれに替えて、翻訳を並列に実行し、検証モジュール９４は単に検証結果に応じて翻訳のうちの一つを選択するようにしてもよい。
【００３９】
所与の入力文のトピックを同定するために、文が発話された状況（トピック）を同定する（３０）。操作者は単にバイリンガルコーパス内に付されたトピックを参照するだけでよい。しかし、不明な入力文のトピックを自動的に同定するための研究が進められており、そのような方法であればどれでも使用することができる。
【００４０】
しかし、操作者が翻訳に使用されるべきトピックを選択できるようにしなければならないので、本実施の形態ではトピックの外部入力（手入力）３０が利用可能であると仮定する。
【００４１】
入力文について同定されたトピックに基づき、翻訳知識選択モジュール９０がそれぞれの知識リソースを選択し、選択された知識リソース内のトピック毎の辞書および翻訳規則を翻訳エンジン９２のメモリにロードする。翻訳エンジン９２の翻訳アルゴリズムは、これらのトピック毎の知識リソースを利用し、入力文の翻訳を生成する。
【００４２】
さらに、翻訳エンジン９２が特定トピックの翻訳知識リソースを用いて適切な翻訳／単語選択を達成できない場合に備え、全ての入力文２６に対してトピックに依存しない知識リソース８２を用いてバックアップ翻訳を行う（フェイルセーフ戦略）。
【００４３】
特定トピックの翻訳を出力すべきか、トピックに依存しない（汎用の）翻訳を出力すべきかの判定は、その業務により異なる。単語の選択に関しては、ある単語が選択されたリソース中の辞書に定義されていれば、特定トピックの翻訳語を選択する。特定トピックの翻訳の評価のために、検証モジュールはシステム内部の意味的距離の尺度を用い、この尺度が特定のしきい値を下回った場合には、特定トピックの翻訳を用いる（信頼度）。それ以外の場合には、コーパス翻訳知識８２を用いる。
【００４４】
−システムの評価−
本実施の形態にかかる、トピックベースの語の曖昧性排除の評価を行なった。ここで使用した基準は、選択された単語と、バイリンガルのテストコーパスで用いられている翻訳語との比較である。結果を図１０に示す。今回のアプローチを評価するにあたっては、コーパスのうち、特定トピックの辞書を作成する際に用いられなかった１０，０００の発話を使用した。さらに、このアプローチの効果の上限を評価するために、角川類語辞典（非特許文献３）に基づいた階層構造をもつシソーラスを使用した。
【００４５】
図１０において、ベースラインの方法Ｇは、汎用の翻訳辞書のターゲット表現を出力するものである。方法Ｔは、特定トピックの翻訳を選択する際に、テスト文のトピック情報を使用するものである。ここで使用した組合せ方法ＴＧは、特定トピックの翻訳の見出しが存在している場合にはその翻訳を優先的に採用し、それ以外の場合には汎用のターゲット語を採用するものである。辞書内に複数個の翻訳語の候補が定義されている場合には、順序付の候補リストの内の先頭の候補（図５でマークを付した見出し）を選択した。それぞれの方法によってはソースの単語がカバーされていない場合、利用できる翻訳語は存在しない。「下限」は、選択された単語と正しい翻訳との語の一致の百分率を示す。「上限」は選択された単語と正しい翻訳との間の、（シソーラス６４に基づく）意味的な一致の百分率を示す。システムの性能は、この下限と上限との間のどこかにあると考えられる。
【００４６】
図１０に示すように、特定トピックの辞書がカバーする率は、汎用の辞書よりも低い。しかしそれでも、組合せた場合にはある程度の増加に貢献し、テストデータの９５％について翻訳語が得られる。一方、特定トピックの単語を選択することにより、汎用の翻訳語を用いたときよりも精度が高くなる。この場合にも、双方の辞書を組合せることで最もよい結果が得られ、６０％程度の「正しい」翻訳語が得られる。入力される文の翻訳に対して同義語または換言が可能なことを考慮すれば、人による評価によって、より高い精度を得られる可能性もある。しかし、本提案に係る方法の上限値は８０％程度であり、汎用の辞書を使用した翻訳の結果に対して１３％もの相対的な改善が得られる。
【００４７】
図１１は、本実施の形態に係るトピックベースの翻訳の評価を示す。この評価にあたっては、’ｈｔｔｐ：／／ｗｗｗ．ｎｉｓｔ．ｇｏｖ／ｓｐｅｅｃｈ／ｔｅｓｔｓ／ｍｔ／’（ｃｆ．非特許文献２）において入手可能な、機械翻訳の自動的評価ツールを使用した。この場合の評価基準は、ＮＩＳＴ（ＮａｔｉｏｎａｌＩｎｓｔｉｔｕｔｅｏｆＳｔａｎｄａｒｄｓａｎｄＴｅｃｈｎｏｌｏｇｙ）のスコアの計算と比較とによる。ここに記載した方法「Ｇ」、「Ｔ」、「ＧＴ」は、図１０で用いたものと同じである。
【００４８】
方法ＴＧにおけるシステムＴ／Ｇの配分は、Ｇに対して１３０３［２０．４％］、Ｔに対して５０７１［７９．６％］である。
【００４９】
−コンピュータによる実装−
上記した実施の形態は、コンピュータハードウェア、およびそのコンピュータ上で実行されるソフトウェアにより実現される。図１２は、本実施の形態にかかるコンピュータシステム１３０の外観を示し、図１３はコンピュータシステム１３０のブロック図である。図１２を参照して、コンピュータシステム１３０は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ１５２と、ＣＤ−ＲＯＭドライブ１５０と、キーボード１４６と、マウス１４８と、モニタ１４２とを含む。
【００５０】
図１３を参照して、コンピュータ１４０は、ＦＤドライブ１５２およびＣＤ−ＲＯＭドライブ１５０に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１５６と、ＣＰＵ１５６、ＣＤ−ＲＯＭドライブ１５０およびＦＤドライブ１５２に接続されたバス１６６と、ブートアッププログラムなどのプログラムを格納するための読出専用メモリ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ（ＲＯＭ））１５８と、バス１６６に接続され、アプリケーションプログラム命令、システムプログラムおよびデータを記憶するためのランダムアクセスメモリ（ＲＡＭ）１６０とを含む。
【００５１】
ここには示していないが、コンピュータ１４０はさらに、ローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。
【００５２】
コンピュータシステム１３０にこの機械翻訳の方法を実行させるプログラムは、ＣＤ−ＲＯＭドライブ１５０またはＦＤドライブ１５２にそれぞれ挿入されるＣＤ−ＲＯＭ１６２またはＦＤ１６４に格納され、さらにハードディスク１５４に転送される。またはこれに替えて、このプログラムを図示しないネットワークを介してコンピュータ１４０に送信し、ハードディスク１５４に格納するようにしてもよい。このプログラムは実行時にはＲＡＭ１６０にロードされる。なお、プログラムはＣＤ−ＲＯＭ１６２、ＦＤ１６４から、またはネットワークを介して、ＲＡＭ１６０に直接ロードされてもよい。
【００５３】
以下に述べるプログラムは、本実施の形態に係る方法をコンピュータ１４０に実行させるための多数の命令を含む。この方法を実行する上で必要な基本的命令の幾つかは、コンピュータ１４０上で動作するオペレーティングシステム（ＯＳ）、またはコンピュータ１４０にインストールされたサードパーティのプログラムまたは最適化ツールボックスにより提供されるので、このプログラムは必ずしも本実施の形態に係る方法を実装するために必要な全ての基本的命令を含まなくてもよい。このプログラムは、所望の結果が得られるように、管理された形で適切な関若しくは「ツール」を呼出すことで最適化プロセスを実行する部分の命令だけを含んでいればよい。コンピュータシステム１３０の動作は周知であるので、ここではそれについては繰り返さない。
【００５４】
−プログラムフローチャート−
図１４および図１５は、コンピュータシステム１３０上で実行されるプログラムの制御の流れを示すフローチャートである。図１４および図１５に示すステップは、図２および図３に示したモジュールに対応している。図２はトレーニングステップを示し、図３は翻訳ステップを示す。
【００５５】
図１４を参照して、トレーニングステップは、コーパス内のトレーニング用の文にタグ付けされたトピックに従ってバイリンガルコーパス４０をサブセットコーパス６２−Ｔ１〜６２−Ｔｎに分割するステップ１３０と、トレーニングデータのそれぞれの部分から特定トピックの辞書と翻訳規則とを抽出するステップ１３２とを含む。
【００５６】
図１５を参照して、翻訳ステップは、入力文を受取るステップ１９０と、入力文のトピックに関する特徴を受取るステップ１９２と、特定トピックの翻訳知識を選択し、それを入力文に対して適用するステップ１９４とを含む。
【００５７】
翻訳ステップはさらに、選択された特定トピックのリソースと、トピックに依存しないリソースとを用いて特定トピックの翻訳と汎用翻訳とを生成するステップ１９６と、特定トピックの翻訳／語の選択の信頼度を判定するステップ１９８とを含む。もし信頼度がステップ２００で所定のしきい値と同等と判定されれば、特定トピックの翻訳がステップ２０２で出力され、それ以外の場合にはステップ２０４でトピックに依存しない翻訳が出力される。
【００５８】
−結論−
以上述べたように、ここではバイリンガルコーパスから自動的に抽出された特定トピック毎の翻訳辞書に基づく単語選択手法を提案した。最初に、統計的な単語アライメント方法を、同じ状況（トピック）で発話された文に対して適用し、そのトピックに特有の翻訳語の対を得る。第２のステップでは、ソースのそれぞれの単語に対する特定トピック毎の翻訳語の全てを、コーパス全体のアライメントにより得られた汎用の翻訳と組合せる。マージされた翻訳辞書を用い、所与の入力文のトピック情報に対し、最も適切な翻訳語を選択する。
【図面の簡単な説明】
【図１】本発明の一実施の形態にかかるトピックベースの機械翻訳システムの概略ブロック図である。
【図２】知識ベース構築モジュール４２の詳細を示す図である。
【図３】トピックベースの翻訳装置５２の詳細を示す図である。
【図４】この実施の形態および実験に対して使用した種々のトピックおよびそれらの特徴の概略を示す図である。
【図５】英語の動詞「ＬＥＡＶＥ」に対する、日本語のトピック毎の翻訳語の候補の例を示す図である。
【図６】トピック毎の辞書の統計を示す図である。
【図７】ＤＳＣＯＲＥの計算例を示す図である。
【図８】ＤＳＣＯＲＥの他の計算例を示す図である。
【図９】トピック毎の翻訳知識リソースの統計を示す図である。
【図１０】本実施の形態における、トピックベースの語の曖昧さの排除の結果を示す図である。
【図１１】本実施の形態にかかるトピックベースの翻訳の評価を示す図である。
【図１２】本実施の形態にかかるコンピュータシステム１３０の外観を示す図である。
【図１３】コンピュータシステム１３０のブロック図である。
【図１４】トレーニングステップのプログラムの制御の流れを示すフローチャートである。
【図１５】翻訳ステップのプログラムの制御の流れを示すフローチャートである。
【図１６】翻訳語の変化形の例を示す図である。
【符号の説明】
２０知識ベース構築部、２４翻訳部、２６翻訳文、２８出力、３０トピック（入力）、４０バイリンガルコーパス、４２特定トピックの翻訳知識ベース構築モジュール、４４特定トピックの翻訳知識ベース、５２翻訳装置、６０クラスタリング部、６２−Ｔ１〜６２−Ｔｎサブコーパス、６４シソーラス、７０翻訳知識抽出部、８０−Ｔ１〜８０−Ｔｎ特定トピック毎の翻訳知識リソース、８２コーパスの翻訳知識リソース、９０知識選択モジュール、９２翻訳エンジン、９４検証部

Claims

トピックベースの翻訳知識ベースを準備するための方法であって、
各々がソース言語とターゲット言語との文の対の集合を含む複数個のバイリンガルコーパスを準備するステップを含み、前記文の対は当該文の対の集合に特有のトピックに関するものであり、さらに、
前記複数個のバイリンガルコーパスの各々から翻訳知識を抽出するステップと、
コンピュータ可読な記憶媒体上に、複数の翻訳知識リソースを格納するステップとを含み、前記複数の翻訳知識リソースの各々は、それぞれ対応のバイリンガルコーパスから抽出された翻訳知識を含む、方法。
前記翻訳知識は、前記ソース言語と前記ターゲット言語との辞書を含む、請求項１に記載の方法。
前記翻訳知識はさらに、前記ソース言語の文を前記ターゲット言語に翻訳するための翻訳規則を含む、請求項２に記載の方法。
前記翻訳知識は、前記ソース言語の文を前記ターゲット言語に翻訳するための翻訳規則を含む、請求項１に記載の方法。
トピックペースの翻訳知識ベースを準備する方法をコンピュータに実行させるための、コンピュータで実行可能なプログラムであって、前記方法は、
各々がソース言語とターゲット言語との文の対の集合を含む複数個のバイリンガルコーパスを準備するステップを含み、前記文の対は当該文の対の集合に特有のトピックに関するものであり、さらに、
前記複数個のバイリンガルコーパスの各々から翻訳知識を抽出するステップと、
コンピュータ可読な記憶媒体上に、複数の翻訳知識リソースを格納するステップとを含み、前記複数の翻訳知識リソースの各々は、それぞれ対応のバイリンガルコーパスから抽出された翻訳知識を含む、プログラム。
前記翻訳知識は、前記ソース言語と前記ターゲット言語との辞書を含む、請求項５に記載のプログラム。
前記翻訳知識はさらに、前記ソース言語の文を前記ターゲット言語に翻訳するための翻訳規則を含む、請求項６に記載のプログラム。
前記翻訳知識は、前記ソース言語の文を前記ターゲット言語に翻訳するための翻訳規則を含む、請求項５に記載のプログラム。
複数の翻訳知識リソースを含むトピックベースの翻訳知識ベースを格納した、コンピュータ可読な記憶媒体であって、前記翻訳知識リソースの各々は、各々がソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、前記文の対は、前記文の対の集合に特有のトピックに関するものである、コンピュータ可読な記憶媒体。
前記ソース言語は英語である、請求項９に記載のコンピュータ可読な記憶媒体。
前記ターゲット言語は日本語である、請求項９または請求項１０に記載のコンピュータ可読な記憶媒体。
トピックに基づき、ソース言語の文をターゲット言語の文に機械翻訳するための方法であって、
複数の翻訳知識リソースを含むトピックベースの翻訳知識ベースを格納した、コンピュータ可読な記憶媒体を準備するステップを含み、前記翻訳知識リソースの各々は、各々がソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、前記文の対は、前記文の対の集合に特有のトピックに関するものであり、さらに、
前記ソース言語の文が発話される状況を同定するステップと、
前記同定するステップで同定された状況に従って、前記複数の翻訳知識リソースの内の一つをコンピュータに選択させるステップと、
前記選択させるステップで選択された翻訳知識リソースを用いて、前記ソース言語の文を前記ターゲット言語の文に機械翻訳するステップとを含む、方法。
前記コンピュータ可読な記憶媒体はさらに、前記複数の翻訳知識リソースを準備するのに用いられたバイリンガルコーパスを組み合わせたものから抽出された汎用翻訳知識リソースを格納しており
前記方法はさらに、
翻訳された文の信頼度を判定するステップと、
前記ソース言語の文を前記汎用翻訳知識リソースを用いて前記ターゲット言語に機械翻訳するステップと、
前記判定するステップで判定された信頼度に従って、前記機械翻訳するステップで翻訳された前記ターゲット言語の文の一つを選択するステップとをさらに含む、請求項１２に記載の方法。
前記機械翻訳するステップが互いに並列に実行される、請求項１３に記載の方法。
前記機械翻訳するステップが順次に実行される、請求項１３に記載の方法。
前記同定するステップが、操作者の手入力によって前記状況に関する情報を受取るステップを含む、請求項１２から請求項１５のいずれかに記載の方法。
ソース言語の文をターゲット言語に機械翻訳する、トピックベースの機械翻訳方法をコンピュータに実行させるための、コンピュータで実行可能なプログラムであって、前記方法は、
複数の翻訳知識リソースを含むトピックベースの翻訳知識ベースを格納した、コンピュータ可読な記憶媒体を準備するステップを含み、前記翻訳知識リソースの各々は、各々がソース言語とターゲット言語との文の対の集合を含むバイリンガルコーパスから抽出された翻訳知識を含み、前記文の対は、前記文の対の集合に特有のトピックに関するものであり、さらに、
前記ソース言語の文が発話される状況を同定するステップと、
前記同定するステップで同定された状況に従って、前記複数の翻訳知識リソースの内の一つをコンピュータに選択させるステップと、
前記選択させるステップで選択された翻訳知識リソースを用いて、前記ソース言語の文を前記ターゲット言語の文に機械翻訳するステップとを含む、プログラム。
前記コンピュータ可読な記憶媒体はさらに、前記複数の翻訳知識リソースを準備するのに用いられたバイリンガルコーパスを組合せたものから抽出された汎用翻訳知識リソースを格納しており
前記方法はさらに、
翻訳された文の信頼度を判定するステップと、
前記ソース言語の文を前記汎用翻訳知識リソースを用いて前記ターゲット言語に機械翻訳するステップと、
前記判定するステップで判定された信頼度に従って、前記機械翻訳するステップで翻訳された前記ターゲット言語の文の一つを選択するステップとをさらに含む、請求項１７に記載のプログラム。
前記機械翻訳するステップが互いに並列に実行される、請求項１８に記載の方法。
前記機械翻訳するステップが順次に実行される、請求項１８に記載の方法。
前記同定するステップが、操作者の手入力によって前記状況に関する情報を受取るステップを含む、請求項１７から請求項２０のいずれかに記載の方法。