JP5500636B2

JP5500636B2 - 句テーブル生成器及びそのためのコンピュータプログラム

Info

Publication number: JP5500636B2
Application number: JP2010046158A
Authority: JP
Inventors: ミヒャエル・パウル; アンドリュー・フィンチ; 英一郎隅田
Original assignee: National Institute of Information and Communications Technology
Current assignee: National Institute of Information and Communications Technology
Priority date: 2010-03-03
Filing date: 2010-03-03
Publication date: 2014-05-21
Anticipated expiration: 2030-03-03
Also published as: JP2011180941A

Description

この発明は自然言語処理（ＮａｔｕｒａｌＬａｎｇｕａｇｅＰｒｏｃｅｓｓｉｎｇ：ＮＬＰ）の前処理に関し、特に、ＳＭＴ（ＳｔａｔｉｓｔｉｃａｌＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：統計的機械翻訳）又は自然言語理解における入力テキストを信頼性高くセグメント化することに関する。

単語セグメント化の作業、すなわち連続したテキストにおいて単語の境界を特定することは、自然言語理解、情報抽出及び機械翻訳等のデータ駆動のＮＬＰ応用では基本的な前処理ステップのひとつである。英語等のインド−ヨーロッパ系言語と異なり、中国語、日本語等のアジア系言語の多くは、意味のある単語単位を区別するのに空白文字を用いない。

これら言語の単語セグメント化には以下の課題がある。

（１）多義性。たとえば、中国語では、単一の文字が、ある文脈では構成要素のひとつであり、別の文脈ではそれだけでひとつの単語であり得る。

（２）未知語。すなわち、既存の単語を組合せると、例えば「ホワイトハウス」等の固有名詞等の新たな単語になりうる。

これまでに提案された方法には以下のものがある。

（ａ）純粋に辞書ベースのアプローチでは、最長一致ヒューリスティックスによってこれらの課題に対処しているが、その精度は、利用される辞書の守備範囲に大いに依存する。

（ｂ）ユニグラム単語分布又は標準的ｎグラム言語モデルに基づく確率的セグメント化モデル。

（ｃ）ディリクレプロセスに基づくノンパラメトリックなベイズ推論のアプローチであって、ユニグラム及びバイグラムの単語依存性を組込んだもの。

モノリンガルの確率モデルを用いても、良好な機械翻訳性能が得られるとは限らない。モノリンガルのみならずバイリンガルの情報も考慮して単語セグメント化を行なういくつかのアプローチから改良がなされる。

Ｊ．シュー、Ｊ．ガオ、Ｋ．トウタノバ、及びＨ．ネイ。ＳＭＴのためのベイズ半教師付き中国語単語セグメント化。ＣＯＬＩＮＧ（コンピュータ言語国際会議）予稿集、第１０１７−１０２４ページ、マンチェスター、ＵＫ、２００８年。（J. Xu, J. Gao, K. Toutanova, and H. Ney. Bayesian Semi-Supervised Chinese Word Segmentation for SMT. In Proc. of the COLING(International Conference on Computational Linguistics), pages 1017-1024, Manchester, UK, 2008.）Ａ．ラトナパルキ。品詞タグ付けのための最大エントロピモデル。ＥＭＮＬＰ（自然言語処理の経験的方法に関する会議）予稿集、ペンシルバニア、ＵＳＡ、１９９６年。（A. Ratnaparkhi. A Maximum Entropy Model for Part-Of-Speech Tagging. In Proc. of the EMNLP (The Conference on Empirical Methods on Natural Language Processing), Pennsylvania, USA, 1996.）Ｍ．ポールら、統計的機械翻訳のための言語独立単語セグメント化、ＩＵＣS（国際ユニバーサルコミュニケーションシンポジウム）予稿集、３６−４０ページ、２００９年。（M. Paul et al., Language Independent Word Segmentation for Statistical Machine Translation, Proceedings of the IUCS (International Universal Communication Symposium), pp. 36-40, 2009.）

言語資源の入手しやすさの点から、最近の研究は中国語から英語へのＳＭＴのための中国語の単語セグメント化（Ｃｈｉｎｅｓｅｗｏｒｄｓｅｇｍｅｎｔａｔｉｏｎ：ＣＷＳ）の最適化に焦点をあてている。例えば、非特許文献１はＣＷＳのためのベイズ半教師付きアプローチであって、上述のディリクレプロセスに基づくものを提案している。この生成的モデルは、まず市販の分離器を用いて中国語のテキストをセグメント化し、ＳＭＴに好適な新たな単語の種類と分布とを学習する。

しかし、セグメント化の一貫性と翻訳単位の粒度ともまた、ＣＷＳを改良するには重要である。

これに関連して、非特許文献３には、文字単位で分離されたソース言語と単語セグメント化されたターゲット言語訳文例とからなるパラレルテキストコーパスから開始して、ＭＴ翻訳の品質を最適化する単語セグメント化を自動的に学習するブートストラップ法が提案されている。以前のアプローチとは対照的に、このシステムは言語独立であり、文分離器の更新と分離器によってセグメント化されたテキストでトレーニングされたＳＭＴエンジンによる翻訳結果の評価とを繰返すことによって得られる、ＭＴに最適な単語セグメント化を統合している。

しかし、上述のとおり、翻訳の品質は利用される翻訳単位に大いに依存する。守備範囲と統計的モデルの翻訳作業の複雑さとのトレードオフを達成するために、翻訳単位の複数のレベルの粒度を組合せる必要がある。もしこのような組合せが達成されれば、（１）スパースであるが、所与の入力文の文脈において意味のあるより大きな翻訳単位を扱うことが可能であり、かつ（２）トレーニングコーパスには頻出するがその訳がかなりあいまいであるようなより小さな翻訳単位を扱うことも可能な、翻訳モデルが得られるであろう。これまでに提案された方法はいずれも、この課題を解決していない。

したがって、この発明の目的の一つは、複数のソース言語単語セグメント化方式をＳＭＴデコード処理に統合して翻訳の品質を高める、単語セグメント化システム及び単語セグメント化方法を提供することである。

ある局面にしたがえば、この発明は、第１の言語と第２の言語との翻訳を行うＳＭＴシステムで用いられる句テーブルを生成するための句テーブル生成器に関する。前記句テーブル生成器は翻訳対のバイリンガルコーパスを記憶するための手段を含み、翻訳対の各々は前記第１の言語のソース文と第２の言語のターゲット文とを含み、前記句テーブル生成器はさらに、前記バイリンガルコーパスを利用して統計的機械翻訳手段をトレーニングするためのトレーニング手段を含み、前記統計的機械翻訳手段は前記トレーニング手段のトレーニングの間に複数個の句テーブルを出力する。

前記複数個の句テーブルの各々は、前記第１の言語のソース句、前記第２の言語のターゲット句、及び前記ソース句がトレーニングの間に前記ターゲット句に翻訳される確率を示すスコアを各々が含むエントリを含む。前記複数個の句テーブルは前記バイリンガルコーパスの前記ソース文の異なるセグメント化を反映する。

前記句テーブル生成器はさらに、前記複数個の句テーブルを、前記複数個の句テーブルにおいて同一のソース及びターゲット句対を有するエントリ対がそれぞれ単一のエントリに統合された統合句テーブルに統合するための句テーブル統合手段を含む。

好ましくは、前記トレーニング手段は、前記バイリンガルコーパス中の前記ソース文を予め定められた区切りによって文字列にセグメント化するための文字ベースの第１の分離器と、前記ソース文と前記ターゲット文との翻訳対を含むバイリンガルトレーニングコーパスを利用して統計的機械翻訳手段をトレーニングするための第１のトレーニング手段と、を含む。前記統計的機械翻訳手段はトレーニングの間に前記バイリンガルトレーニングコーパス内の前記翻訳対の各々を対応付ける。前記統計的機械翻訳手段はトレーニングの間に句テーブルを出力する。前記句テーブルは、ソース句、ターゲット句、及びトレーニングの間に前記ソース句が前記ターゲット句に翻訳される確率を示すスコアを各々が含むエントリを含む。

前記トレーニング手段はさらに、前記トレーニング手段によってトレーニングされた前記統計的機械翻訳手段の性能を評価するための評価手段と、前記統計的機械翻訳手段による対応付けの結果を利用して、前記バイリンガルコーパスの前記ソース文の第２の分離器をトレーニングするための第２のトレーニング手段と、前記バイリンガルコーパス中の前記ソース文を、前記第２のトレーニング手段によってトレーニングされた前記第２の分離器を利用して、前記予め定められた区切りによって分離されたセグメント列に分離するためのセグメント化手段と、前記第１のトレーニング手段、前記評価手段、前記第２のトレーニング手段及び前記第２の分離器を、性能に関する予め定められた終了条件が満足されるまで繰返し動作するよう制御するための繰返し制御手段と、を含む。前記繰返し制御手段は、第１回目の繰返しに、前記第１の分離器によってセグメント化されたソース文を含む前記バイリンガルコーパスを選択し、その後の繰返しで前記第２の分離器によってセグメント化された前記ソース文を有する前記バイリンガルコーパスを選択する。前記繰返し制御手段は、前記選択されたバイリンガルコーパスを前記バイリンガルトレーニングコーパスとして利用して前記第１のトレーニング手段に前記統計的機械翻訳手段をトレーニングさせる。

さらに好ましくは、前記第２のトレーニング手段は、前記統計的機械翻訳手段による前記対応付けの結果を利用して前記バイリンガルコーパスの前記ソース文内の各文字に注釈を付け、各文字が単語の終端であるか否かを示す注釈を各文字に付与するための手段と、前記バイリンガルコーパスの前記ソース文における各文字の予め定められた特徴量セットを抽出するための手段とを含み、前記予め定められた特徴量セットは前記ソース文の対象の文字のコンテキストと、前記ソース文と対にされたターゲット文における対象の文字と対応付けされた句のコンテキストとを反映し、さらに前記第２の分離器で用いられる確率モデルをトレーニングするための手段を含み、前記確率モデルは前記抽出手段によって抽出された前記特徴量の組の統計的分析によって、ソース言語文中の文字が単語の終端であるか否かの確率を推定するのに用いられる。

さらに好ましくは、前記確率モデルは最大エントロピモデルを含む。

前記繰返し制御手段は前記第１のトレーニング手段、前記評価手段、前記第２のトレーニング手段、及び前記第２の分離器を、前記評価手段による評価が先行する繰返しでの前記評価手段の評価より悪くなるまで繰返し動作するよう制御する。

好ましくは、前記句テーブル統合手段は、前記複数個の句テーブルの各々のエントリの各々におけるソース句を前記予め定められた区切りでセグメント化するためのソース分離手段と、前記複数個のエントリの各々と同一のソース及びターゲット句対を有するエントリ数でスコアを除算して、前記複数個のエントリの各々のスコアを調整するためのスコア調整手段と、前記複数個の句テーブルを連結して、連結句テーブルにするための連結手段と、連結句テーブルのエントリを、同一のソース及びターゲット句対を有するエントリが１つを除いて削除され、削除されたエントリのスコアが残る１つに加算されるようにマージするためのマージ手段とを含む。

この発明の第２の局面は、コンピュータ上で実行されるとコンピュータを上述のいずれかの装置として機能させる、コンピュータプログラムに関する。

この発明の第３の局面は、上述のコンピュータプログラムを記憶するコンピュータ可読媒体に関する。

この発明の実施例にしたがったＳＭＴの全体構成を示す概略図である。この発明の１実施例にしたがった繰返しブートストラップ法を示す図である。ソース言語とターゲット言語との翻訳対を示す図である。コンピュータ上でこの発明の実施例を実現するプログラムのフロー図である。元の翻訳対と、ソース言語文が文字ベースでセグメント化された翻訳対との例を示す図である。句テーブルをマージする処理を示す図である。この発明の実施例において句テーブルをマージするコンピュータプログラムの制御の流れを示すフロー図である。この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。コンピュータシステム３２０の正面図である。コンピュータシステム３２０のブロック図である。

ここで提案するシステムは、多数のソース言語セグメント化方式をＳＭＴデコード処理に統合して翻訳の品質を高める、非特許文献３で提案の単語セグメント化方法を具体化している。ここで提案するシステムはさらに、ＳＭＴのトレーニングプロセスで得られる句テーブルを利用する。この方法は言語独立であり、どのような単語セグメント化方式にも対応できる。すなわち、これは（そのようなセグメント化ツールが利用可能であれば）言語学的に動機づけされたセグメント化方式と組合せることも、モノリンガル又はバイリンガルコーパスから自動的に学習されたセグメント化方式と組合せることもできる。ソース言語側を文字単位で分離し、ＳＭＴモデルの同一の翻訳対で異なった形にセグメント化されたものをマージすることにより、複数の単語セグメント化を組合せ、最終的な翻訳モデルとする。セグメント化の学習プロセスでは、ＳＭＴは翻訳プロセスで用いられることになる句テーブルを生成する。以下で説明する実施例では、これらの句テーブルを組合せて単一の句テーブルとする。この句テーブルはは翻訳単位に関する、複数のレベルの粒度の組合せを含む。

［概観］
先行のアプローチとは対照的に、この実施例では、最初のセグメント化を得るために、言語学的に導かれた単語セグメント化ツールが存在しなくてもよい、言語に依存しないアプローチを提案する。提案される方法は、パラレルコーパスを用い、文字列となっているソース言語の文をターゲット言語の空白文字で分離された単語単位に対応付ける。同じターゲット単語に対応付けされた連続する文字がマージされたより大きなソース言語単位になる。したがって、翻訳単位の粒度は、所与のバイリンガルコーパスの文脈により規定される。対応付けの誤りの副作用を最小にし、かつセグメント化の一貫性を保つために、最大エントロピ（Ｍａｘｉｍｕｍ−Ｅｎｔｒｏｐｙ：ＭＥ）アルゴリズムを適用し、再セグメント化されたバイリンガルコーパスでトレーニングされる、ＳＭＴシステムの翻訳品質を最適化するソース言語単語セグメント化の学習が行われる。

現代のＳＭＴシステムには、ＧＩＺＡ＋＋等のトークン−単語対応付けサブシステムが組込まれている。このようなサブシステムは、ソース言語文のトークンとターゲット言語文の単語との間の最も確率の高い対応付けを出力するものとして知られているが、その対応付け精度は時として疑問である。

５つのアジア系言語（日本語、韓国語、タイ語、中国語（標準中国語、台湾語））から英語への翻訳に、提案のセグメント化方法を適用した実験を行なった。実験の結果、提案の方法は、文字ごとに区切られたソース言語文を翻訳するベースラインシステムより性能がよく、言語学的ツールでセグメント化されたバイリンガルコーパスでトレーニングされたＳＭＴモジュールと同様の翻訳結果を得ることが分かった。
（単語セグメント化）
この実施例で利用される単語セグメント化は２つのステップからなる。第１のステップでは、ユニグラムにセグメント化されたソース言語文字列と、空白文字で分けられたターゲット言語の単語とからなるパラレルテキストコーパス上で、標準的ＳＭＴモデルがトレーニングされる。ＳＭＴトレーニング手順の文字−単語対応付けの結果を利用して、それぞれのバイリンガルコーパスで同じターゲット言語の単語に対応付けされた連続したソース言語の文字を特定し、これらの文字をマージしてより大きな翻訳単位とする。

第２のステップでは、単語セグメント化の作業を文字タグ付け課題として扱うが、ここでは２つのタグのみを用いる。すなわち、所与のソース言語の文字がターゲット言語の単語と対応付けられたマージ文字列の最後のものであれば「ＷＢ」（ｗｏｒｄｂｏｕｎｄａｒｙ：単語境界）であり、そうでなければ「ＮＢ」（ｎｏｂｏｕｎｄａｒｙ：非境界）である。対応付けに基づく単語境界注釈を用いて、ＭＥ法が適用され、最適なソース言語単語セグメント化が学習される。
（１）ＭＥタグ付けモデル
ＭＥモデルは、分類と予測とのための汎用の機械学習技術を提供する。これらは多くの特徴量を扱うことのできる多用途のツールであり、文境界検出又は品詞タグ付けを含む広範なＮＬＰ作業において非常に有効であることが知られている。

ＭＥ分類器は指数的モデルであって、複数の二値特徴量関数及びそれらの重みからなる。モデルは、トレーニングデータによって課される制約により、確率モデルのエントロピを最大にするよう重みを調節することでトレーニングされる。実験では条件付きＭＥモデルを用い、ここで所与の特徴量の組に対する結果の条件付き確率は非特許文献２でモデル化されている。モデルは以下の形である：

ここで、
ｔは予測されるタグであり、
ｃはｔのコンテキストであり、
γは正規化係数であり、
Ｋはモデル内の特徴量の数であり、
ｆ_ｋは二値特徴量関数であり、
α_ｋは特徴量関数ｆｋの重みであり、
ｐ_０はデフォルトモデルである。

特徴量の組を表１に示す。辞書によるコンテキスト特徴量はタグｔで注釈を付けられた（タグ付けされた）ソース言語の文字列を含む。ｃ_０はタグ付けされたコンテキスト単位（例えば文字、または単語）を示し、ｃ_−２、…ｃ_＋２は周囲のコンテキスト単位を示す。ｔ_０は現在のタグを示し、ｔ_−１は先行するタグを示し、以下同様である。タグコンテキスト特徴量は先行するタグ列のコンテキストに関する情報を供給する。この条件付きモデルは分類器として用いることができる。モデルは繰返しトレーニングされ、実験には改良された繰返しスケーリングアルゴリズム（ＩｍｐｒｏｖｅｄＩｔｅｒａｔｉｖｅＳｃａｌｉｎｇ：ＩＩＳ）を用いた。

（２）繰返しブートストラップ法
ＳＭＴのための最適単語セグメント化を学習する提案の繰返しブートストラップ法は、図１に示すシステムによって実現され、その分類トレーニングを図２にまとめた。

図１を参照して、この実施例のＳＭＴシステム１０は、バイリンガルコーパス３０上で分類器(図示せず)をトレーニングし、分類器のトレーニングの繰返し中にＳＭＴで得られた句テーブル１６の組を出力する分類器トレーニング装置１２と、句テーブル１６をマージされた句テーブル２０にマージして１つの句テーブルを生成する句テーブルマージ部１８とを含む。ここで句テーブル１６内で同一のソース−ターゲット句対を有するエントリ（見出し）は組合されて単一のエントリとされる。ＳＭＴシステム１０はさらに、入力テキスト２２をセグメント化するためのユニグラム分離器３６を用い、さらに、セグメント化されたテキストの翻訳の間にマージされた句テーブル２０を用いて、入力テキスト２２を翻訳文２６に翻訳するＳＭＴを含む。

図２を参照して、バイリンガルコーパス３０は、ターゲット言語テキスト３２とソース言語テキスト３４とを含む。ターゲット言語テキスト３２の各々は、ソース言語テキスト３４の１つと対になっている。

図３を参照して、翻訳対１１０は、ソース言語文１１２と、その文１１２の翻訳であるターゲット言語文１１４とを含む。

再び図２を参照して、分類器トレーニング装置１２は以下の繰返しプロセスを実現する機能ブロックを含む。最初の繰返し（０回目繰返し）では、ソース言語テキスト３４の各々がユニグラム分離器３６により文字ごとに、ユニグラムセグメント化されたソース言語文３８に分割される。ユニグラム分離器３６は単に、ソース言語テキスト３４の隣接する文字の各々の間に空白を挿入するだけである。

ターゲット言語テキスト３２とユニグラムセグメント化されたソース言語文３８とを含むバイリンガルコーパスを利用してＳＭＴ４０をトレーニングする。これは最初の繰返しなので、このＳＭＴ４０を「ＳＭＴ_０」と呼ぶ。ＳＭＴ４０のトレーニングの間に、ターゲット言語テキスト３２とユニグラムセグメント化されたソース言語文３８との文の対の各々が対応付けされる。ＳＭＴ_０４０の学習プロセスの間に、ＳＭＴ_０４０により句テーブル４１も生成される。句テーブル４１は０回目の繰返しで生成されるので、このテーブルを「ＰＴ_０」と呼ぶ。

次の繰返しが始まる前に、ソース言語文開発セット（図示せず）をターゲット言語文にデコードさせることによってＳＭＴ４０を評価し、さらにデコードされた結果を、ＢＬＥＵ（Ｋ．パピネニにより提案、「ＢＬＥＵ：機械翻訳の自動評価法」第４０回ＡＣＬ予稿集、第３１１−３１８ページ、フィラデルフィア、ＵＳ，２００２年、（K. Papineni, “BLEU:a Method for Automatic Evaluation of Machine Translation”, in Proceedings of the 40th ACL, pages 311-318, Philadelphia, US, 2002））又はＭＥＴＥＯＲ（Ｓ．ベネルジらにより提案、「ＭＥＴＥＯＲ：ＭＴ評価のための自動尺度」ＡＣＬ予稿集第６５−７２ページ、アンアーバー、ＵＳ、２００５年（S. Banerjee et al., “METEOR:An Automatic Metric for MT Evaluation” in Proceedings of the ACL, pages 65-72, Ann Arbor, US, 2005.））等の自動評価器によって評価する。評価結果４２のスコアを保存する。ＳＭＴ４０のトレーニングの間に、トークン―単語対応付けの結果４４が抽出される。

この実施例では、ユニグラムセグメント化されたソース言語文３８に、ＳＭＴ４０による対応付けの結果４４によって注釈が付けられる。例えば、ＳＭＴ４０のトレーニングにおいて、ある文字がある単語の終端であると判断されると、その単語に「ＷＥ」（ＷｏｒｄＥｎｄ：語終端）というラベルが付され、そうでなければ「ＮＥ」（ＮｏｔＥｎｄ：非終端）とされる。注釈付きソース言語文を用いてＭＥ分類器のトレーニングを行なう。この実施例では、ユニグラムセグメント化されたソース言語文３８の注釈付き文字の各々について、テーブル１に示すようなコンテキスト特徴量の組が導出される。ＭＥ分類器４６（ＭＥ_１）は、トレーニングデータにより所与の制約が課された場合に確率モデルのエントロピが最大になるようにトレーニングされ、より長い翻訳単位の取扱いが可能であると期待される。ＭＥモデルは特徴量の組により統計的にトレーニングされる。この実施例では、上述のとおり、ＭＥ分類器４６に対し条件付きＭＥモデルを用いる。

それぞれのバイリンガルコーパス３０の最初の文字−単語の対応付けからＭＥ分類器４６の学習が終わると、その後、同様の動作が繰返される。この繰返しを「１回目」の繰返しと呼ぶ。一回目の繰返しでは、獲得されたＭＥ分類器４６を適用してセグメント化されていないパラレルコーパスのソース言語テキスト３４を再セグメント化する。この動作の結果、ターゲット言語テキスト３２とソース言語文４８とを含む、別の形でセグメント化されたバイリンガルコーパスが得られる。このコーパスは別のＳＭＴ（ＳＭＴ_１）５０の再トレーニングと再評価に利用でき、これによって、最初のＳＭＴ（ＳＭＴ_０）より良好な翻訳性能と期待されるものが達成される。

教師なしＭＥタグ付け方法を、ＳＭＴ_１エンジンのトレーニングの際に抽出されるトークン−単語対応付けに適用することもでき、これによってより長い翻訳単位の取扱いが可能なＭＥ分類器５６（ＭＥ_２）を得ることができる。

トレーニングの間に、セグメント化されたソース言語文４８のセグメントの各々がターゲット言語テキスト３２の対応する単語と対応付けられる。対応付けの結果５４がＳＭＴ５０から抽出され、これを利用してセグメント化されたソース言語文４８に注釈が付けられる。注釈付きのセグメント化されたソース言語文４８を用いて次の繰返しのＭＥ分類器５６（ＭＥ_２分類器）をトレーニングする。さらに、ＳＭＴ_１５０のトレーニングの間に、句テーブル５１が生成される。このテーブルを「ＰＴ_１」と呼ぶ。エントリのいくつかはＰＴ_１５１内のソース句であって、ＰＴ_０４１と異なり、２又はそれ以上の文字からなる語を含むと予想される。

一方で、ＳＭＴ５０の性能を、ソース言語の開発セットの文をデコードすることによって評価する。評価結果５２を、最初の繰返しの評価結果４２を保存したものと比較する。もし結果５２が結果４２より良好であれば、繰返しが継続される。そうでなければ、この段階で繰返しを中止し、ＭＥ分類器４６がソース言語文のセグメント化に最適な分類器として出力される。

もし結果５２が保存された結果４２より良好であれば、評価結果５２が保存され、ソース言語テキスト３４がＭＥ分類器５６によりセグメント化されてセグメント化ソース言語文５８が結果として得られる。バイリンガルコーパス３０とセグメント化ソース言語文５８とを含むバイリンガルコーパスを利用してＳＭＴ６０（ＳＭＴ_２）をトレーニングする。ＳＭＴ_２６０のトレーニングの間のソース言語文の対応付けの結果（図示せず）が抽出される。ＳＭＴ_２６０の性能は、自動評価器で評価される。ＳＭＴ６０の評価結果６２が保存された結果５２より悪ければ、繰返しは終了し、ＭＥ分類器４６が最適な分類器として出力される。もし評価結果６２が保存された結果５２より良好なら、次の繰返しが行われる。さらにここでも、ＳＭＴ_２６０のトレーニングの間に、句テーブル６１（ＰＴ_２）が生成される。エントリのいくつかは句テーブルＰＴ_０４１及びＰＴ_１５１よりも長い語を含むソース句を有すると期待される。

ＭＥ分類器のトレーニング、ＭＥ分類器を用いたソース言語テキスト３４のセグメント化、セグメント化ソース言語文を含むバイリンガルコーパスによるＳＭＴのトレーニング、結果の句テーブルの生成、及びＳＭＴ性能の評価はこのようにして、評価結果が、先行する評価結果より悪くなるまで繰返される。

すなわち、図２を参照して、ＭＥ分類器７６が（Ｊ−１）回目の繰返しで（Ｊ−２）回目のＳＭＴトレーニングでのバイリンガルコーパスの対応付けを利用してトレーニングされると仮定する。（Ｊ−１）回目の繰返しでは、ソース言語テキスト３４はＭＥ分類器７６によってセグメント化される。結果として得られるセグメント化されたテキスト７８は、ターゲット言語テキスト３２とともにＳＭＴ８０（ＳＭＴ_Ｊ−１）のトレーニングに利用される。トレーニングの間に、句テーブルＰＴ_Ｊ−１８１が生成される。ＳＭＴ８０の性能が評価される。もし評価結果８２が先行する結果より良好なら、結果８２が保存され、ＳＭＴ８０のトレーニングにおける対応付けの結果が抽出される。ＭＥ分類器８６は対応付けの結果８４を用いてトレーニングされる。ソース言語テキスト３４はセグメント化されてセグメント化ソース言語文８８になる。ターゲット言語テキスト３２とセグメント化ソース言語文８８とを含むバイリンガルコーパスを利用してＳＭＴ９０をトレーニングする。トレーニングの間に、句テーブルＰＴ_Ｊ９１が生成される。ＳＭＴ９０の性能が自動評価器によって評価され、評価結果９２が先行する評価結果８２と比較される。ここでは、結果９２が結果８２より悪いと仮定する。ここで繰返しが中止され、先行する繰返しで得られた分類器７６が最適分類器として特定され、記憶される。

このようなブートストラップ法が一連のＳＭＴすなわちＳＭＴ_ｉと句テーブルＰＴ_ｉとを繰返し生成し、そのたびに翻訳の複雑さが少なくなる。なぜなら、より大きな塊を１のステップで翻訳することができ、語順又は語の明瞭化の誤りを発生させることがなくなるからである。しかし、ある時点で、トレーニングコーパスから学習した翻訳単位の長さの増大によりオーバーフィッティングが生じ、遭遇したことのない文を翻訳する際の翻訳性能が低下する。したがって、トレーニングコーパスのＪ回目の再セグメント化が、遭遇していないテストの組について、前回の繰返しより低い自動評価スコアをもたらした場合には、ブートストラップ法は中止される。そして、最も高い自動翻訳スコアを達成したＭＥ分類器７６（ＭＥ_Ｊ−１）が繰返しブートストラップ法の最終的な単語分離器として選択され出力される。

この実施例では特に、句テーブルＰＴ_０４１、ＰＴ_１５１、…ＰＴ_Ｊ−１８１を利用して図１に示す組合せ句テーブル２０を作成する。これらの句テーブルをマージして句テーブル２０を作成する処理については後述する。

［プログラム構造］
図４を参照して、このトークン分類器トレーニング装置１２を実現するコンピュータプログラムは、バイリンガルコーパス３０のソース言語テキスト３４をユニグラムにセグメント化してユニグラムセグメント化されたソース言語文４８を得るステップ１４０で開始し、その後、ターゲット言語テキスト３２とセグメント化ソース言語文４８とを含むバイリンガルコーパスを利用してＳＭＴ４０をトレーニングするステップ１４２を含む。

図５を参照して、バイリンガルコーパス３０は、ソース言語文及び対応のターゲット言語文を含む文対２４０等の多数の翻訳対（文対）を含む。図５（Ａ）は手動でセグメント化されたソース文を含む対２４０を示し、図５（Ｂ）はユニグラムセグメント化されたソース言語文を含む対２４２を示す。ここで、「ユニグラムセグメント化」とは、「１文字ずつにセグメント化された」という意味である。

プログラムはさらに、ＢＬＥＵまたはＭＥＴＥＯＲ等の自動評価器を用いてＳＭＴの性能を評価するステップ（１４４）と、評価の結果を得て、これが最初の繰返しであるか否かを判断するステップ（１４６）を含む。もしステップ１４６の判断がＹＥＳなら、制御はステップ１５０に進む。そうでなければ、制御はステップ１４８に進む。ステップ１４８で、ステップ１４４で計算された評価結果が先行する結果よりも悪いか否かが判断される。もし判断がＹＥＳならば、制御はステップ１６４に進み、ここで先行する繰返しで得られたＭＥ分類器が最適な分類器として出力され、制御は一連のプログラムを終了する。もしステップ１４８の判断がＮＯなら、制御はステップ１５０に進む。

ステップ１５０で、ステップ１４４で計算された結果がメモリロケーションに保存される。

プログラムはさらに、直前に得られたＭＥ分類器をメモリロケーションに記憶するステップ（１５２）と、先行するＳＭＴトレーニングステップからの対応付けの結果を抽出するステップ（１５４）と、対応付けの結果を用いてソース言語文に注釈を付けるステップ（１５６）と、セグメント化されたソース言語文のトークンの各々について特徴量セットを抽出するステップ（１５８）と、抽出された特徴量セットを利用して今回の繰返しのＭＥ分類器をトレーニングするステップ（１６０）と、ステップ１６０で得られたＭＥ分類器でソース言語文をセグメント化し（１６２）、制御をステップ１４２に戻すステップと、を含む。

最初の繰返しでは、ユニグラムセグメント化されたソース言語文を含むバイリンガルコーパスが選択されてＳＭＴのトレーニングに用いられる。これに続く繰返しでは、ステップ１６０でトレーニングされたＭＥ分類器を利用してセグメント化されたバイリンガルコーパスが選択され、ＳＭＴのトレーニングに用いられる。ユニグラムのセグメント化は文字ベースなので、ステップ１４０のセグメント化は言語に依存しない。したがって、言語学的に導かれた単語セグメント化ツールは不要である。

ＳＭＴのトレーニング中の対応付けには周知のツールがあるが、対応付けの結果はいくつかの対応誤りを含むことがある。対応付けの結果を直接バイリンガルコーパスのセグメント化に適用すると、結果に誤りが多くなるであろう。しかし、ＳＭＴトレーニングの対応付けの結果を利用してＭＥ分類器を統計的にトレーニングすることにより、ＭＥ分類器のセグメント化結果は比較的誤りが少なくなるであろう。上述の繰返しの終わりに結果として得られるＭＥ分類器は、ＳＭＴ性能が繰返しの間に得られるＳＭＴの中で最良となる、という意味で、結果として最適なものとなるであろう。

［句テーブルのマージ］
図６を参照して、句テーブルは以下のようにマージ（統合）される。図６（Ａ）は０回目の繰返しで得られる句テーブルの例であるテーブル２５０を示す。図６（Ａ）に示すように、ソース文字列は全て文字にセグメント化され、これは文字間におかれた空間で示される。例えば、エントリ２５２のソース文字列は「ａ＿ｂ＿ｃ」である（アンダースコアは文字間を分離するスペースを示す）。

「１回目」の繰返しで得られた句テーブル２６０では、対応付けの結果としてより長い語が認められ、したがっていくつかのエントリは２又はそれ以上の文字からなる語を有するであろう。例えば、テーブル２６０において、エントリ２６２と２６４とのソースはそれぞれ「ａｂ＿ｃ」と「ａ＿ｂｃ」であり、ここで「ａｂ」と「ｂｃ」とはそれぞれ新たに認められた単語である。

上述のように、これが繰返される。例えば、２回目の繰返しでは、テーブル２７０が得られる。いくつかのより長い語がさらに認められ、句テーブルのソース句のいくつかはさらに長い語を含むことになる。テーブル２７０の場合、ソースエントリ２７２は「ａｂｃ」であり、これは３つの文字「ａ」、「ｂ」及び「ｃ」からなる１語である。

テーブル２５０、２６０及び２７０を参照して、当業者には、エントリ２５２及び２６２のソース句が元の表現で同じ文字の文字列「ａｂｃ」を有すること、さらに同一のターゲット語の文字列「ＸＹＺ９」を有することが理解されるであろう。

別の形でセグメント化されたソース言語コーパスによってトレーニングされた統計的翻訳モデルは、各翻訳モデルのソース側を文字単位で分離し、同一の句翻訳対の確率を合計し、マージされた翻訳モデルの再スコアリングをすることによってマージ可能である。したがって、デコードの際に、より長い翻訳単位を選択できるため、適用可能な場合には翻訳作業の複雑さを減じることができる。他方で、単一繰返しモデルでのオーバーフィッティングの問題は回避できる。なぜなら、多数のより小さなソース言語翻訳単位を開発して、所与のソース言語入力部分をカバーし、関連付けられたターゲット句表現の連結に基づいて翻訳仮説を生成することができるからである。さらに、同じ表層の文字列をカバーしているが、ソース言語句のセグメント化のみが異なるソース／ターゲット翻訳対の翻訳可能性が、マージ処理により向上する。したがって、種々の繰返しモデルによってこのような翻訳対がより頻繁に学習されれば、ＳＭＴデコーダによりそれぞれのターゲット言語の表現はより頻繁に開発されることになる。

繰返しにより得られる句テーブルは、この実施例ではコンピュータプログラムによりマージされる。プログラムの制御フローを図７に示す。図８から図１２を参照して、具体例を説明する。

図８はこの処理によってマージすべき句テーブル４００及び４２０を示し、これらはそれぞれ０回目と１回目の繰返しとによって得られたものである。テーブル４００のソース句の各々が文字にセグメント化される。例えば、エントリ４１０のソース句は文字「、お元気」という文字列である。これに対し、テーブル４２０のエントリのいくつかの句には、２又はそれ以上の文字からなる語が含まれる。例えば、エントリ４３０にはソース句「、お元気」があり、ここで語「元気」は２文字の語である。同様に、エントリ４３２にはソース句「はじめまして、」があり、ここで「はじめまして」は６文字の語である。図６を参照して述べたように、句テーブルの各々において各エントリは、ターゲット句、翻訳確率Φ（Ｓ｜Ｔ）、辞書的重みｌｅｘ（Ｓ｜Ｔ）、句翻訳確率Φ（Ｔ｜S)、辞書的重みｌｅｘ（Ｔ｜Ｓ）及び句ペナルティＰＰを含むスコアを有する。この実施例では、句ペナルティＰＰは全てのエントリにおいて常にｅｘｐ（１）＝２．７１８に等しい。辞書的重みは語の対応付けから得られる語の翻訳確率の積である。

図７を参照して、プログラムはステップ３００で開始し、ここで全ての句テーブルのソース句が文字にセグメント化される。図９はステップ３００後の句テーブル４００及び４２０を示す。図９を参照して、句テーブル４００はステップ３００以前と変わらない。これに対して、テーブル４２０の各エントリのソース句は各々、文字ごとにセグメント化されている。例えば、エントリ４３０のソース句はここでは「、お元気」であり、エントリ４３２のソース句は「はじめまして」である。

図９でテーブル４００と４１０を比較すれば明らかなように、テーブル４００及び４２０のエントリ４１０及び４３０のソース及びターゲット句対はそれぞれステップ３００の後でも同一であり、したがって、エントリ４１０及び４３０はマージ可能である。

エントリ４１０及び４３０等のエントリをマージする前に、ステップ３０２でそれらのそれぞれのスコアを、翻訳確率Φ（Ｓ｜Ｔ)、辞書的重みｌｅｘ（Ｓ｜Ｔ）、句翻訳確率Φ（Ｔ｜Ｓ)及び辞書的重みｌｅｘ（Ｔ｜Ｓ）をマージすべきエントリの数で除算することによって調整する。この実施例では、句ペナルティは常に同じである。したがって、句ペナルティは調整しない。

すなわち、同一のソース及びターゲット句、「、お元気」と「Ｈｏｗ’ｒｅｙｏｕｄｏｉｎｇ」（エントリ４１０及び４３０）を有するエントリの数は２であるから、エントリ４１０及び４３０の翻訳確率Φ（Ｓ｜Ｔ)、辞書的重みｌｅｘ（Ｓ｜Ｔ）、句翻訳確率Φ（Ｔ｜Ｓ)及び辞書的重みｌｅｘ（Ｔ｜Ｓ）を２で除算する。

図１０において、スコアは全句テーブルの全エントリを参照して調整されていること、図９及び図１０にはテーブルの１部のみしか示されていないことに注意されたい。このため、図１０においてテーブル４００及び４２０のスコアは図９のものとは一貫しない。

スコアの調整後、句テーブル４００及び４２０はステップ３０４で連結される。すなわち、例えばテーブル４２０の全てのエントリがテーブル４００に付加され、その後ソース及びターゲット句の昇順でソートされて、図１１に示すような新たなテーブル５７０となる。

次に、ステップ３０６で、エントリ４１０及び４３０等の同一のソース及びターゲット句対を有するエントリがマージされる。すなわち、同一のエントリは最初のものを除きテーブルから削除され、それらのスコアは残りのエントリのそれぞれのスコアに加算される。この結果得られる句テーブル６００の例を図１２に示す。テーブル６００の最初のエントリ６０２は図１１のテーブル５７０の最初の２つのエントリをマージして得られたものである。テーブル５７０の６番目と７番目とのエントリは、マージされてテーブル６００の５番目のエントリとなっている。
最後のステップ３０８で、マージされた句テーブルが図１に示すマージ後の句テーブル２０として出力され、さらにＳＭＴ２４に与えられる。

［実験結果］
提案のセグメント化方法を５つのアジア系言語（日本語、韓国語、タイ語、中国語（標準中国語、台湾語））から英語への翻訳に適用した。ＳＭＴモデルのトレーニングには、標準的な単語対応付け及び言語モデル化ツールを用いた。デコーダのパラメータのチューニングには最小誤り率トレーニングを用いた。翻訳には、オープンソースツールキットＭＯＳＥＳと同等のマルチスタック句ベースデコーダを用いた。翻訳品質の評価には、標準的自動評価尺度、すなわちＢＬＥＵを用いた。以下の表は実験の結果をまとめたものである。ここでは、所与のスコアがパーセンテージの値としてリストされている。

テーブル２において、「文字」は、文字ごとにセグメント化されたソーステキスト（各文字間に空白文字を挿入したもの）を翻訳の為に用いるベースラインシステムを指す。

「学習済」はバイリンガルでトレーニングされた語セグメント化方式（非特許文献３）によってセグメント化されたコーパスでトレーニングされたＳＭＴである。

「マージ」は、ＳＭＴであってその翻訳モデルがこの実施例で提案された複数の語セグメント化方式を統合しているものである。

テーブル２に示されるように、句テーブルのマージを組込んだＳＭＴは日本語、韓国語、中国語及び台湾語において最も高いスコアを示した。タイ語では最高ではなかったが最高（「学習済」）にごく近い。このように、本発明の句テーブルをマージする方策は、意味のある単語単位を分離するのに空白文字を用いない言語の信頼性の高い翻訳を達成するのに効果的であることが検証された。

［コンピュータによる実現］
このように構成されたプログラムはコンピュータで実行されると、図１に示されるシステムと、図２に示すその動作とを実現するものであることが当業者には理解されるであろう。

図１３を参照して、コンピュータシステム３２０はコンピュータ３４０と、全てコンピュータ３４０に接続された、モニタ３４２と、キーボード３４６と、マウス３４８とを含む。さらに、コンピュータ３４０はＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ：ディジタル多用途ディスク）ドライブ３５０と、半導体メモリポート３５２と、を含む。

図１４を参照して、コンピュータ３４０はさらに、ＤＶＤドライブ３５０及び半導体メモリポート３５２に接続されたバス３６６と、上述の装置を実現するコンピュータプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３５６と、コンピュータ３４０のブートアッププログラムを記憶するＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３５８と、ＣＰＵ３５６によって用いられる作業領域及びＣＰＵ３５６によって実行されるプログラムの記憶領域を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３６０と、バイリンガルコーパス３０（図２を参照）及び他のデータを記憶するハードディスクドライブ（ＨａｒｄＤｉｓｋＤｒｉｖｅ：ＨＤＤ）３６４とを含む。

コンピュータ３４０が翻訳トレーニング装置として用いられる場合、ＨＤＤ３６４はＳＭＴモジュールのためのプログラムをさらに記憶し、バイリンガルコーパスとテストセットとを記憶する。

コンピュータ３４０はさらに、バス３６６に接続され、コンピュータ３４０をネットワーク３８２に接続するネットワークインターフェース（Ｉ／Ｆ）３８０を含む。

上述の実施例のシステムを実現するソフトウェアはＤＶＤ３６８又は半導体メモリ３７０等の記録媒体に記録されたオブジェクトコードの形で配布されてもよく、ＤＶＤドライブ３５０又は半導体メモリポート３５２等の読出装置によってコンピュータ３４０に提供され、ＨＤＤ３６４に記憶されてもよい。ＣＰＵ３５６がプログラムを実行する際には、プログラムはＨＤＤ３６４から読出され、ＲＡＭ３６０に記憶される。ＣＰＵ３５６内の図示しないプログラムカウンタから指定されるアドレスからＣＰＵ３５６に命令がフェッチされ実行される。ＣＰＵ３５６はＣＰＵ３５６、ＲＡＭ３６０又はＨＤＤ３６４内のレジスタから処理すべきデータを読出し、処理の結果をまたＣＰＵ３５６、ＲＡＭ３６０又はＨＤＤ３６４内のレジスタに記憶する。

コンピュータシステム３２０の一般的な動作は公知であるので、その詳細はここでは説明しない。

ソフトウェア配布の方法については、必ずしも記憶媒体に固定されていなくてもよい。例えば、ソフトウェアは別のコンピュータからコンピュータ３４０にネットワーク３８２を介して送信されてもよい。ソフトウェアの一部をＨＤＤ３６４に記憶し、ソフトウェアの残りの部分をネットワークからＨＤＤ３６４に取込んで、実行の際に統合してもよい。

典型的には、現代のコンピュータはコンピュータのオペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ：ＯＳ）によって提供される機能を利用し、これらの機能を所望の目的にしたがって制御されたやり方で実行する。したがって、これら機能を含まず、ＯＳによって、又は第三者によって提供され、一般的機能の実行の順序の組合せのみを指定するのみのプログラムもまた、そのプログラムが全体として所望の目的を達成する制御構造を有するのであれば、この発明の範囲に含まれる。

上述の実施例では、繰返しは評価結果が先行する繰返しの評価結果よりも悪いステップ１４８（図４を参照）で止まる。しかし、この発明はそのような実施例に限定されない。例えば、繰返しは、評価が先行する評価結果より高くないときに停止されてもよいし、一回の繰返しの評価結果に代えて、予め定められた繰返しの評価結果の移動平均を利用してもよい。

さらに、バイリンガルコーパスのソース言語文の文字にタグ付けするためのＭＥ分類器に代えて、ＭＥ以外の統計的モデルを用いてもよい。ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）又は判断ツリーをＭＥに代えて用いてもよい。

［結論］
この実施例は、現在のＳＭＴシステムの性能を改良するために、意味のある単語単位を分離するのに空白文字を用いない文を、教師なしでセグメント化する、新たな言語に依存しない方法を提案する。提案の方法はソース言語について何ら言語学的情報必要とせず、このため、形態素的分析ツールが利用できないこともしばしばである比較的マイナーな言語の翻訳のためのＳＭＴシステムを構築するのに重要である。加えて、開発費用は、バイリンガルコーパスの生成についてのみで、言語学的単語セグメント化ツールの開発、またはデータセットを人手でセグメント化するために人に支払う費用にくらべはるかに少ない。

さらに、この実施例では分離器のトレーニング過程で得られた多レベルの句テーブルを統合している。このため、この実施例では多レベルの単語セグメント化粒度を翻訳に利用する。この結果、より信頼性が高く、より品質の良い翻訳結果が得られる。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

１０ＳＭＴシステム
１２分類器トレーニング装置
１６、４１、５１、６１、８１及び９１句テーブル
１８句テーブルマージ部
２０マージされた句テーブル
２２入力テキスト
２４、４０、５０、６０、８０、９０ＳＭＴ
２６翻訳文
３０バイリンガルコーパス
３２ターゲット言語テキスト
３４ソース言語テキスト
３６ユニグラム分離器
４２、５２、６２、８２、９２評価結果
４４、５４、８４トークン対単語対応付け結果
４６、５６、７６、８６ＭＥ分類器
４８、５８、７８、８８セグメント化されたソース言語文

Claims

第１の言語と第２の言語との統計的機械翻訳で用いられる句テーブルを生成するための句テーブル生成器であって、
前記句テーブル生成器は
翻訳対のバイリンガルコーパスを記憶するための手段を含み、翻訳対の各々は前記第１の言語のソース文と第２の言語のターゲット文とを含み、前記ソース文の各々は、互いに区切りのない文字列から構成され、前記ターゲット文の各々の各単語は、互いに空白文字で区切られており、前記句テーブル生成器はさらに
前記バイリンガルコーパスを利用して統計的機械翻訳手段をトレーニングするためのトレーニング手段を含み、
前記トレーニング手段は
前記バイリンガルコーパス中の前記ソース文を予め定められた区切り文字によって文字ごとに分離してセグメント化するための文字ベースの第１の分離器と、
前記ソース文と前記ターゲット文との翻訳対を含むバイリンガルトレーニングコーパスを利用して前記統計的機械翻訳手段をトレーニングするための第１のトレーニング手段と、を含み、
前記統計的機械翻訳手段はトレーニングの間に前記バイリンガルトレーニングコーパス内の前記翻訳対の各々について、前記ソース文中の、前記区切り文字により分離されたセグメントの各々を、前記ターゲット文中の単語のいずれかに対応付ける機能を持ち、
前記統計的機械翻訳手段はトレーニングの間に句テーブルを出力し、前記句テーブルは、ソース句、ターゲット句、及び、トレーニングの間に前記ソース句が前記ターゲット句に翻訳される確率を示すスコアを各々が含むエントリを含み、さらに
前記トレーニング手段によってトレーニングされた前記統計的機械翻訳手段の性能を評価するための評価手段と、
前記統計的機械翻訳手段による対応付けの結果を利用して、前記バイリンガルコーパスの翻訳対の各々について、ソース文中の連続する文字であって、ターゲット文中の同じ単語に対応付けられた複数の文字を１つの文字列に統合しながら、当該ソース文をセグメントに分離するよう前記ソース文の第２の分離器をトレーニングするための第２のトレーニング手段と、
前記バイリンガルコーパス中の前記ソース文を、前記第２のトレーニング手段によってトレーニングされた前記第２の分離器を利用してセグメントに分離し、セグメント境界に前記予め定められた区切り文字を挿入するためのセグメント化手段と、
前記第１のトレーニング手段、前記評価手段、前記第２のトレーニング手段及び前記第２の分離器を、前記評価手段による評価の向上が見られなくなるまで繰返し動作するよう制御するための繰返し制御手段と、を含み、
前記繰返し制御手段は、第１回目の繰返しに、前記第１の分離器によってセグメント化されたソース文を含む前記バイリンガルコーパスを選択し、その後の繰返しで前記第２の分離器によってセグメント化された前記ソース文を有する前記バイリンガルコーパスを選択し、前記選択されたバイリンガルコーパスを前記バイリンガルトレーニングコーパスとして利用して前記第１のトレーニング手段に前記統計的機械翻訳手段をトレーニングさせ、
前記統計的機械翻訳手段は、前記繰返し制御手段による繰返しごとに句テーブルを出力することにより、前記トレーニング手段によるトレーニングの間に複数個の句テーブルを出力し、
前記複数個の句テーブルはそれぞれ、前記バイリンガルコーパスの前記ソース文の、前記繰返し制御手段による繰返しごとの、前記第１及び第２の分離器によるセグメント化を反映しており、さらに
前記複数個の句テーブルのうち、前記繰返し制御手段による繰返しの最後に得られた句テーブルを除く各々のエントリの各々におけるソース句を予め定められた区切り文字で文字ごとにセグメント化するためのソース分離手段と、
前記複数個の句テーブルのうち、前記ソース分離手段により各エントリのソース句がセグメント化された句テーブルを、同一のソース及びターゲット句対を有するエントリがそれぞれ単一のエントリに統合され、かつソース句又はターゲット句が異なるエントリを別々のエントリとして含む統合句テーブルに統合するための句テーブル統合手段とを含み、
前記句テーブル統合手段は、前記ソース分離手段により各エントリのソース句がセグメント化された句テーブルの全エントリのスコアを参照して、各エントリに対応するソース句とターゲット句との出現確率を反映するよう前記統合句テーブルの各エントリのスコアを調整する、句テーブル生成器。
前記第２のトレーニング手段は、
前記統計的機械翻訳手段による前記対応付けの結果を利用して前記バイリンガルコーパスの前記ソース文内の各文字に注釈を付け、各文字が単語の終端であるか否かを示す注釈を各文字に付与するための手段と、
前記バイリンガルコーパスの前記ソース文における各文字の予め定められた特徴量セットを抽出するための手段とを含み、前記予め定められた特徴量セットは前記ソース文の対象の文字のコンテキストを反映し、さらに
前記第２の分離器で用いられる確率モデルをトレーニングするための手段を含み、前記確率モデルは前記抽出手段によって抽出された前記特徴量の組の統計的分析によって、ソース文中の文字が単語の終端であるか否かの確率を推定するのに用いられる、請求項１に記載の句テーブル生成器。
前記確率モデルは最大エントロピモデルを含む、請求項２に記載の句テーブル生成器。
前記繰返し制御手段は、前記第１のトレーニング手段、前記評価手段、前記第２のトレーニング手段、及び前記第２の分離器を、前記評価手段による評価が先行する繰返しでの前記評価手段の評価より悪くなるまで繰返し動作するよう制御する、請求項１から３のいずれかに記載の句テーブル生成器。
前記句テーブル統合手段は
前記ソース分離手段により各エントリのソース句がセグメント化された句テーブルの各々のエントリの各々のスコアを、当該句テーブルの全てのエントリのスコアを参照して各エントリに対応するソース句とターゲット句との出現確率を反映するよう調整するためのスコア調整手段と、
前記ソース分離手段により各エントリのソース句がセグメント化された句テーブルを連結して、連結句テーブルにするための連結手段と、
前記連結句テーブルのエントリを、同一のソース及びターゲット句対を有する複数のエントリが１つを除いて削除され、削除されたエントリのスコアが残る１つのエントリに加算されるようにマージするためのマージング手段とを含む、請求項１から４のいずれかに記載の句テーブル生成器。
コンピュータによって実行されると、前記コンピュータを請求項１から請求項５のいずれかに記載の装置として機能させる、コンピュータプログラム。
請求項６に記載のコンピュータプログラムを記録したコンピュータ可読媒体。