JP4532863B2

JP4532863B2 - ２言語コーパスを整列させるための方法および装置

Info

Publication number: JP4532863B2
Application number: JP2003302014A
Authority: JP
Inventors: シー．ムーアロバート
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-08-27
Filing date: 2003-08-26
Publication date: 2010-08-25
Anticipated expiration: 2023-08-26
Also published as: JP2004086913A; EP1396795B1; DE60335327D1; US7349839B2; EP1396795A3; US20040044530A1; EP1396795A2; ATE491996T1

Description

本発明は、２言語コーパスを整列させることに関する。詳細には、本発明は、長さをベースとし、語の対応をベースとする整列に関する。

文が整列された並列２言語（ｂｉｌｉｎｇａｌ）コーパスは、機械学習を機械翻訳およびその他のＮＬＰタスクに適用するのに非常に有用であることが分かっている。残念ながら、カナダ国会の議事録などの、ほとんどの利用可能な並列２言語コーパスは、文が整列された形態で作成されない。したがって、コーパスの文を整列させてからでないと、機械学習のためにそのコーパスを使用することができない。

文を整列させることは、時々一方の言語における単一の文が、他方の言語において２つまたはそれより多くの文に翻訳されるため、些末なことではない。さらに、コーパスが不完全であるため、一方のコーパスに見られる文が、他方のコーパスに存在しない可能性がある。

Brown et al., The Mathematics of Statistical Machine Translation: Parameter Estimation, Computational Linguistics, 19(2): 263-311, 1993

これまで、２言語コーパスを整列させるために２つの一般的な技法が使用されてきた。第１の手法は、語をベースとし、または文字をベースとする。この手法では、２言語語彙集を使用して各コーパスにおける個々の語を整列させる。個々の語が整列していることを判定することが複雑であるため、この手法は、不要に遅い。さらに、この手法は、２言語語彙集が存在していることを要し、したがって、そのような語彙集が存在しない場合、コーパスを整列させるのに使用することができない。

２言語コーパスを整列させるための第２の一般的な方法は、一方の言語における文の長さと、他方の言語におけるその文の翻訳文の長さの間の関係を確率モデル化することを使用する。そのような長さをベースとするシステムは、語をベースとするシステムより高速であるが、正確ではない。

したがって、高速で、極めて正確であり、２言語語彙集を必要としない整列システムが必要とされている。

第１のコーパスにおける文を第２のコーパスにおける文に整列させるための方法を提供する。この方法は、長さをベースとする整列モデルを適用して第１のコーパスにおける文の文境界を第２のコーパスにおける文の文境界に整列させて整列された文のペアを形成することを含む。次に、整列された文のペアを使用して翻訳モデルを訓練する。訓練した後、その翻訳モデルを使用して第１のコーパスにおける文を第２のコーパスにおける文に整列させる。

本発明の一態様では、長さベースの整列は、可能な文境界の整列を剪定して、長さベースの整列によって剪定されなかった文境界整列だけにスコアを付けるのに翻訳モデルが使用されるようにするステップを含む。

本発明の第２の態様では、長さベースの整列が、ポアソン分布を利用して、第２のコーパスにおける第２の長さの文を所与として、第１のコーパスにおける文が第１の長さを有する尤度を記述する。

以下の図１の考察は、単に、本発明を使用することができる１つの例示的な環境だけを提示しており、本発明は、その他の環境においても使用することができる。

図１は、本発明を実施することができる適切な計算システム環境１００の例を示している。計算システム環境１００は、適切な計算環境の一例に過ぎず、本発明の使用または機能の範囲に関して全く限定は示唆していない。また、計算環境１００が、例示的な動作環境１００に図示した構成要素のいずれか１つ、またはいずれかの組合せに関する依存性、または要件を有すると解釈してはならない。

本発明は、多数の他の汎用、または特殊目的の計算システム環境または計算システム構成で機能する。本発明で使用するのに適している可能性がある周知の計算システム、計算環境、および／または計算構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電化製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、前述したシステムまたはデバイスのいずれかを含む分散計算環境等が含まれるが、以上には限定されない。

本発明は、コンピュータによって実行される、プログラムモジュールなどの、コンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造が含まれる。本発明は、通信網を介してリンクされた遠隔の処理デバイスによってタスクが行われる分散計算環境においても実施することが可能である。分散計算環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルのコンピュータ記憶媒体と遠隔のコンピュータ記憶媒体の両方の中に配置されることが可能である。

図１を参照すると、本発明を実施するための例示的なシステムが、コンピュータ１１０の形態で汎用計算デバイスを含む。コンピュータ１１０の構成要素には、処理ユニット１２０、システムメモリ１３０、ならびにシステムメモリから処理ユニット１２０までを含む様々なシステム構成要素を結合するシステムバス１２１が含まれることが可能であるが、以上には限定されない。システムバス１２１は、様々なバスアーキテクチャの任意のアーキテクチャを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造の任意の構造であることが可能である。例として、限定としてではなく、そのようなアーキテクチャには、インダストリスタンダードアーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ）（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ）（ＭＣＡ）バス、エンハンストＩＳＡ（ＥｎｈａｎｃｅｄＩＳＡ）（ＥＩＳＡ）バス、ビデオエレクトロニクススタンダーズアソシエーション（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ）（ＶＥＳＡ）ローカルバス、およびメザニン（Ｍｅｚｚａｎｉｎｅ）バスとしても知られるペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ）（ＰＣＩ）バスが含まれる。

コンピュータ１１０は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０がアクセスすることができる任意の利用可能な媒体であることが可能であり、揮発性の媒体と不揮発性の媒体、取外し可能な媒体と取外し不可能な媒体をともに含む。例として、限定としてではなく、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことが可能である。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶するための任意の方法または技術で実装された揮発性の媒体と不揮発性の媒体、取外し可能な媒体と取外し不可能な媒体がともに含まれる。コンピュータ記憶媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタルバーサタイルディスク（ＤＶＤ）またはその他の光ディスクストーレッジ、磁気カセット、磁気テープ、磁気ディスクストーレッジまたはその他の磁気記憶デバイス、あるいは所望の情報を記憶するのに使用することができ、コンピュータ１１０がアクセスすることができる任意の他の媒体が含まれるが、以上には限定されない。

通信媒体は、通常、搬送波などの変調されたデータ信号、または他のトランスポート機構でコンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを実体化し、あらゆる情報配信媒体が含まれる。「変調されたデータ信号」という用語は、信号に情報を符号化するような仕方で特性の１つまたは複数が設定または変更されている信号を意味する。例として、限定としてではなく、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体、ならびに音響媒体、ＦＲ媒体、赤外線媒体、およびその他の無線媒体などの無線媒体が含まれる。また、前述した媒体のいずれかの組合せも、コンピュータ可読媒体の範囲に含まれるべきである。

システムメモリ１３０は、読取り専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性メモリおよび／または不揮発性メモリの形態でコンピュータ記憶媒体を含む。始動中など、コンピュータ１１０内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入力／出力システム１３３（ＢＩＯＳ）が、通常、ＲＯＭ１３１の中に記憶されている。ＲＡＭ１３２は、通常、処理ユニット１２０によって即時にアクセス可能であり、かつ／または現在、処理されているデータおよび／またはプログラムモジュールを含む。例として、限定としてではなく、図１は、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７を示している。

また、コンピュータ１１０は、他の取外し可能な／取外し不可能な、揮発性／不揮発性のコンピュータ記憶媒体を含むことも可能である。単に例として、図１は、取外し不可能な不揮発性の磁気媒体に対して読取りおよび書込みを行うハードディスクドライブ１４１、取外し可能な不揮発性の磁気ディスク１５２に対して読取りおよび書込みを行う磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭまたは他の光媒体などの取外し可能な不揮発性の光ディスク１５６に対して読取りおよび書込みを行う光ディスクドライブ１５５を示している。例示的な動作環境において使用することができる他の取外し可能な／取外し不可能な揮発性／不揮発性のコンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタルバーサタイルディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭ等が含まれるが、以上には限定されない。ハードディスクドライブ１４１は、通常、インターフェース１４０のような取外し不可能なメモリインターフェースを介してシステムバス１２１に接続され、また磁気ディスクドライブ１５１および光ディスクドライブ１５５は、通常、インターフェース１５０のような取外し可能なメモリインターフェースでシステムバス１２１に接続される。

前述し、図１に示すドライブおよび関連するコンピュータ記憶媒体により、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータのストーレッジがコンピュータ１１０に提供される。図１では、例えば、ハードディスクドライブ１４１が、オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７を記憶しているのが示されている。以上の構成要素は、オペレーティングシステム１３４、アプリケーションプログラム１３５、他のプログラムモジュール１３６、およびプログラムデータ１３７と同じであることも、異なることも可能であることに留意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、他のプログラムモジュール１４６、およびプログラムデータ１４７に、ここでは、少なくともそれらが異なるコピーであることを示すために異なる符号を付けている。

ユーザは、キーボード１６２、マイクロホン１６３、ならびにマウス、トラックボール、またはタッチパッドなどのポインティングデバイス１６１などの入力デバイスを介してコンピュータ１１０にコマンドおよび情報を入力することができる。他の入力デバイス（図示せず）には、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等が含まれる可能性がある。以上の入力デバイスおよび他の入力デバイスは、しばしば、システムバスに結合されたユーザ入力インターフェース１６０を介して処理ユニット１２０に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）（ＵＳＢ）などの他のインターフェースおよびバス構造で接続してもよい。また、モニタ１９１または他のタイプの表示デバイスも、ビデオインターフェース１９０などのインターフェースを介してシステムバス１２１に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース１９５を介して接続することができるスピーカ１９７やプリンタ１９６などの他の周辺出力デバイスも含むことが可能である。

コンピュータ１１０は、遠隔コンピュータ１８０のような１つまたは複数の遠隔コンピュータに対する論理接続を使用するネットワーク化された環境で動作することも可能である。遠隔コンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、または他の一般的なネットワークノードであることが可能であり、通常、コンピュータ１１０に関連して前述した要素の多く、またはすべてを含む。図１に描いた論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１およびワイドエリアネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含むことも可能である。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット、およびインターネットで一般的である。

ＬＡＮネットワーキング環境で使用される場合、コンピュータ１１０は、ネットワークインターフェースまたはネットワークアダプタ１７０を介してＬＡＮ１７１に接続される。ＷＡＮネットワーキング環境で使用される場合、コンピュータ１１０は、通常、インターネットなどのＷＡＮ１７３を介して通信を確立するためのモデム１７２、または他の手段を含む。内部にあることも、外部にあることも可能なモデム１７２は、ユーザ入力インターフェース１６０または他の適切な機構を介してシステムバス１２１に接続することが可能である。ネットワーク化された環境では、コンピュータ１１０に関連して描いたプログラムモジュール、またはプログラムモジュールの部分を遠隔のメモリ記憶デバイスの中に記憶することができる。例として、限定としてではなく、図１は、遠隔アプリケーションプログラム１８５を遠隔コンピュータ１８０上に常駐するのを示している。図示したネットワーク接続は、例示的であり、コンピュータ間で通信リンクを確立する他の手段を使用してもよいことが認められよう。

本発明では、２つのテキストコーパスが整列されて、一方のコーパスにおける観念を伝える文が、他方のコーパスにおける同じ観念を伝える文と整列されるようになる。ほとんどの実施形態では、各コーパスは、別個の言語で書かれる。以下の考察では、２つの任意の言語、言語Ｅおよび言語Ｆを使用して本発明の実施形態を例示する。

図２は、文境界に沿った、言語Ｅで書かれたコーパスと言語Ｆで書かれたコーパスの整列を示す図を提供している。図２では、各コーパスは、数のストリングで表わされ、言語Ｅが、ストリング２００で表わされ、言語Ｆが、ストリング２０２で表わされている。ストリングにおける各数は、そのコーパスの単一の文の中に見られる語の数を表わしている。したがって、ストリング２００における数「１５」は、言語Ｅにおいて１５の語を有する単一の文を表わしている。

２つのコーパス間の整列ポイントは、図２では、単一の境界内に整列された文をグループ化することによって示されている。例えば、境界２０４が、言語Ｅコーパスの文２０６と、言語Ｆコーパスの文２０８および２１０の周囲に広がり、文２０６が、文２０８と２１０の結合と整列されていることを示している。その他の整列が、境界２１２、２１４、２１６、および２１８で示されている。

図２に示すとおり、本発明は、次のタイプの整列を含む多くのタイプの整列をサポートする。すなわち、タイプｅｆｆ整列と呼ばれ、境界２０４として示される言語Ｅの１つの文と言語Ｆの２つの文の整列、タイプｅｅｆ整列と呼ばれ、境界２１６として示される言語Ｅの２つの文と言語Ｆの１つの文の整列、タイプｅｆ整列または１対１整列と呼ばれ、境界２１２として示される言語Ｅの１つの文と言語Ｆの１つの文の整列、タイプｅ整列と呼ばれ、境界２１４として示される言語Ｅの１つの文と言語Ｆのゼロの文との整列、およびタイプｆ整列と呼ばれ、境界２１８として示される言語Ｆの１つの文と言語Ｅのゼロの文の整列である。

図３は、本発明の多くの実施形態における２つのコーパスを整列させる方法の流れ図を提供している。概要を述べると、この方法は、まず、長さベースの整列モデルを構築して、可能性の高いタイプｅｆ整列を特定し、いくつかの文境界整列状態を剪定するのに使用する。タイプｅｆ整列を使用することにより、翻訳モデルが構成され、次に、その翻訳モデルが、長さベースの整列モデルと組み合わせて使用されて、２つのコーパスに関する最良の整列が特定される。

図３の方法は、ステップ３００で開始し、長さベースの整列モデルのパラメータが、コーパスから決定される。このパラメータを使用して、以下のとおり定義される特定の整列の確率が計算される。

ここで、ｐ（整列）は、コーパスにわたる特定の整列の確率であり、Ｊは、コーパスにおける整列セグメントまたは整列ポイントの数であり、ｐ（整列＿タイプ）_ｘは、タイプｅｅｆ整列の確率、またはタイプｅｆ整列の確率などのセグメントｘに関する整列タイプの確率であり、またｐ（長さ＿結合）_ｘは、長さの特定の結合を有するセグメントｘにおける文の確率である。

本発明の一実施形態では、整列タイプに関する確率は、以下のとおり推定される。
ｐ（タイプ＿ｅ）＝．０１
ｐ（タイプ＿ｆ）＝．０１
ｐ（タイプ＿ｅｆ）＝．９７２
ｐ（タイプ＿ｅｅｆ）＝．０２６
ｐ（タイプ＿ｅｆｆ）＝．０２６

文の長さの結合に関する確率は、整列タイプに基づいて判定される。整列タイプｅおよびｆの場合、長さ結合確率を判定するのに必要な確率は、それぞれ、言語Ｅの文の長さであるｐ（ｌ_ｅ）、および言語Ｆの文の長さであるｐ（ｌ_ｆ）だけである。一実施形態では、ｐ（ｌ_ｅ）およびｐ（ｌ_ｆ）は、各コーパスにおいて見られるそれぞれの長さの文の相対頻度を判定することによって判定される。例えば、言語Ｅコーパスにおける長さ８の文の確率を判定するため、言語Ｅコーパスにおいて８という長さを有する文の数を言語Ｅコーパスにおける文の総数で割る。

タイプｅｆ整列（１対１整列）に関する文の長さの結合の確率は、以下のとおり定義される。

ここで、ｐ（ｌ_ｅ）は、言語Ｅに関する長さｌ_ｅの文の確率であり、この確率は、タイプｅ整列に関して前述したのと同じやり方で判定され、またｐ（ｌ_ｆ｜ｌ_ｅ）は、言語Ｅにおける長さｌ_ｅの文を所与とする、言語Ｆにおける長さｌ_ｆの文の確率である。

従来の長さベースの整列システムでは、ｐ（ｌ_ｆ｜ｌ_ｅ）は、長さｌ_ｅと長さｌ_ｆの比の対数に基づくガウス分布としてモデル化されている。ガウス分布は、それぞれの長さｌ_ｅに関して、２つの隠れたパラメータ、平均値および分散を含む。ガウス分布の平均値は、各コーパスに見られる文の平均の長さに基づいて推定することが可能であるが、分散は、整列されたコーパスを有さずに推定することができない。この結果、従来技術のシステムは、期待値最大化（ＥＭ）アルゴリズムを使用して、パラメータを繰り返し推定し、次に、その推定を使用して推定の整列を形成することにより、それらのパラメータを特定しなければならなかった。詳細には、従来の技術は、まず、ガウスモデルの平均値および分散を推定し、次に、推定されたモデルを使用して可能性の高い整列を特定した。この整列に基づき、ガウスモデルの平均値および分散が更新される。次に、更新されたモデルを使用して、新しい整列が特定される。モデルが安定するまでこれが続けられ、安定した時点で、最終の平均値および最終の分散が、そのモデルに関して選択される。

そのようなＥＭ訓練は、遅く、計算上の高いコストがかかる。本発明では、このＥＭ訓練が、ポアソン分布を使用する確率ｐ（ｌ_ｆ｜ｌ_ｅ）をモデル化することによって回避される。このような分布は、以下のとおり定義される。

ここで、ｒは、言語Ｆにおける文の平均の長さの、言語Ｅにおける文の平均の長さに対する比である。ポアソン分布を使用してこの確率をモデル化することにより、本発明は、隠れたパラメータを全く特定しなくてもよく、したがって、ＥＭ訓練なしに確率を判定することができる。

タイプｅｆｆ整列の場合、長さの結合の確率は、以下のとおり定義される。

ここで、ｐ（ｌ_ｅ）は、言語Ｅにおける長さｌ_ｅの文の確率であり、ｆ１およびｆ２は、タイプｅｆｆ整列における言語Ｆの第１の文および第２の文であり、ｐ（ｌ_ｆ１）およびｐ（ｌ_ｆ２）は、それぞれ、言語Ｆにおける長さｌ_ｆ１の文、および長さｌ_ｆ２の文の確率であり、またｐ（ｌ_ｆ１＋ｌ_ｆ２｜ｌ_ｅ）は、言語Ｅにおける長さｌ_ｅの文を所与としての、言語Ｆにおける結合された長さｌ_ｆ１＋ｌ_ｆ２の文の確率である。数式（ＥＱ）４の右側の分母により、ｌ_ｆ１＋ｌ_ｆ２という結合された文の長さを有する２つの文の長さのそれぞれの可能な結合に関する確率の和が与えられる。

確率ｐ（ｌ_ｅ）、ｐ（ｌ_ｆ１）、およびｐ（ｌ_ｆ２）は、タイプｅ整列およびタイプｆ整列に関して前述したのと同じやり方で判定される。確率ｐ（ｌ_ｆ１＋ｌ_ｆ２｜ｌ_ｅ）は、結合された長さｌ_ｆ１＋ｌ_ｆ２を言語Ｆにおける単一の文の長さとして扱いながら、数式（ＥＱ）３で説明したポアソン分布を使用して判定される。

タイプｅｅｆ整列の場合、長さ結合確率は、以下のとおり判定される。

ここで、ｐ（ｌ_ｅ１）およびｐ（ｌ_ｅ２）は、言語Ｅにおけるそれぞれの長さｌ_ｅ１およびｌ_ｅ２の文の確率であり、またｐ（ｌ_ｆ｜ｌ_ｅ１＋ｌ_ｅ２）は、言語Ｅにおける結合された長さｌ_ｅ１＋ｌ_ｅ２の文を所与としての、言語Ｆにおける長さｌ_ｆの文の確率である。

確率ｐ（ｌ_ｅ１）およびｐ（ｌ_ｅ２）は、タイプｅ整列に関して前述したのと同じ仕方で判定される。確率ｐ（ｌ_ｆ｜ｌ_ｅ１＋ｌ_ｅ２）は、結合された長さｌ_ｅ１＋ｌ_ｅ２を言語Ｅにおける単一の文の長さとして扱って、数式（ＥＱ）３のポアソン分布を使用して判定される。

したがって、ステップ３００で、整列タイプ確率が、各整列タイプに関して推定され、言語Ｅにおけるそれぞれの文の長さに関する確率ｐ（ｌ_ｅ）、および言語Ｆにおけるそれぞれの文の長さに関する確率ｐ（ｌ_ｆ）が判定される。さらに、言語Ｆにおける文の平均の長さと言語Ｅにおける文の平均の長さの比ｒが、確率ｐ（ｌ_ｆ｜ｌ_ｅ）を計算するのに使用するために判定される。

長さベースの整列モデルに関するパラメータが訓練された後、図３のプロセスは、ステップ３０２に進み、可能な整列の順方向探索が、長さベースの整列モデルを使用して行われる。この順方向探索は、整列格子を通るパスの探索として表わすことができ、格子における各ポイントは、２つのコーパス間の可能な文境界の整列のポイントを表わす。図４は、言語Ｆのコーパスに関する文境界が、水平軸４００に沿って示され、言語Ｅのコーパスに関する文境界が垂直軸４０２に沿って示されているそのような整列格子の図である。図４に示すとおり、言語Ｆのコーパスは、ｍ個の文境界を有し、言語Ｅのコーパスは、ｎ個の文境界を有している。

正常な整列であるためには、整列は、各コーパスの開始を表わすポイント０，０、および各コーパスの終了を表わすポイントｍ，ｎと交差しなければならない。理論上、この２つのポイント間の任意のパスが、２つのコーパスに関する適切な整列であることが可能である。ただし、これは、多数のパスであり、最良の整列パスを探索することが、計算上のコストの高いものとなり、大きいコーパスの場合、手に負えなくなる。

これを克服するため、本発明の一態様は、最良パスが見出されることを確実にしながらも、考慮されなければならないパスの数を制限する手段を提供する。本発明の以上の実施形態において、本発明者は、最良の整列が、ポイント０，０とポイントｍ，ｎの間の対角線４０４近くを通る可能性が高いことを認知している。探索されなければならない空間を小さくするため、以上の実施形態は、探索境界４０６および４０８を画定することにより、対角線４０４のまわりに探索帯域を作成する。これにより、探索は、探索境界内に留まるパスに限定される。したがって、探索は、探索エリア４１０に限定される。これは、探索境界の外側にある境界整列ポイントを剪定することと等価である。

どの境界整列ポイントを考慮すべきかを決めるため、本発明の一実施形態は、まず、言語Ｅにおける文境界の数ｎを言語Ｆにおける文境界の数ｍで割ることにより、対角線４０４の傾きを判定する。言語Ｆにおける各文境界に関して、言語Ｅにおける予期される対応する文境界が、言語Ｆ境界の位置に傾きを掛けて、言語Ｅにおける対応する文境界の予期される位置を特定することによって計算される。例えば、言語Ｆの文境界が、そのセットの文境界の中の第５の文境界であった場合、言語Ｅにおける対応する文境界の予期される位置は、傾きの５倍になる。

探索帯域は、言語Ｆにおける各文境界に関して、以上に定義したとおり、Ｅにおける予期される対応する文境界の何らかの距離Ｄ範囲内にある言語Ｅにおける対応する文境界だけを考慮することによって画定される。したがって、探索帯域の幅は、Ｄの値の２倍（Ｄポイントまでの予期される境界ポイントより大きい境界ポイントと、予期される境界ポイントより小さい境界ポイントを包含する）である。

一実施形態では、ステップ３０２の順方向探索は、初期ポイント０，０からの何らかのパスであるポイントに到達する確率を表わす、探索エリア４１０内の各ポイントに関する順方向状態確率スコアを特定することに関わる。順方向状態確率スコアは、初期ポイント０，０からポイントにつながるすべての可能なパスの確率の和と等しくなるように計算される。多数のそのようなパスが存在するが、すべてのパスは、多くても５つの最終ステップのどれかに帰着する。例えば、図４のポイント４１２に到達することに関して５つの可能な最終ステップが存在する。この最終ステップには、タイプｆ整列を表わすポイント４１４からのステップ、タイプｅ整列を表わすポイント４１６からのステップ、タイプｅｆ整列を表わすポイント４１８からのステップ、タイプｅｆｆ整列を表わすポイント４２０からのステップ、タイプｅｅｆ整列を表わすポイント４２２からのステップが含まれる。したがって、別々のパス確率が、０，０からポイント４１４、４１６、４１８、４２０、および４２２を経由してポイント４１２に至る各セットのパスに関して判定され、この別々の確率が合計されてポイント４１２に関する順方向状態確率スコアが形成される。

各パス確率は、先行するポイントに関する順方向状態確率と２つのポイント間のパスで表わされる整列の確率の積である。数式では、以下のとおりである。

ここで、パス＿確率_ｊｉは、状態ｊを通って状態ｉに至るパスのセットに関するパス確率であり、状態＿確率_ｊは、状態ｊの順方向状態確率であり、ｐ（整列＿タイプ）_ｊｉは、状態ｊから状態ｉまでのパスで表わされる整列のタイプに関する整列タイプ確率であり、またｐ（長さ＿結合）_ｊｉは、状態ｊから状態ｉまでの遷移で表わされる整列の中の文に関する長さ結合確率である。

探索エリア４１０内の各ポイントに関する順方向状態確率スコアの判定を行いながら、順方向探索は、各状態に入る推定の最良パスの記憶も行う。この推定の最良パスは、最高のパス確率を提供するパスである。推定の最良パスは、パス上で現行のポイントに先行するポイントに対するリファレンスを使用して記憶される。

当分野の技術者には認識されるとおり、この順方向探索は、ポイント０，０で開始し、探索エリアを通って終了ポイントｍ，ｎに向かって外向きに進む。探索がｍ，ｎに到達したとき、推定の最良パスに沿った状態を経由して元に戻る。そのような推定の最良パスの例を図５にパス５００として示している。探索は、最良パスに沿って元に戻る際、ステップ３０４で、その最良パスに沿ったポイントの中に探索境界４０６および４０８のしきい値以内のポイントが存在するかどうかを判定する。このしきい値の例を図５でしきい値境界５０２および５０４として示している。しきい値は、図５でゼロより大きいものとして示しているが、当分野の技術者には、ゼロのしきい値を含め、本発明の範囲内で他のしきい値も可能であることが認められよう。

推定の最良パスに沿ったポイントが探索境界のしきい値以内にある場合、最良パスは、探索境界によって除外されていたために、見出されていない可能性がある。これを訂正するため、図３のステップ３０６で探索帯域が拡張され、ステップ３０２で順方向探索が再実行される。図６は、拡張された探索エリア６００を形成する拡張された探索帯域を有する整列格子を示している。拡張された探索エリアのため、格子を通る最良パスの推定は、探索帯域が拡張される前の最良パスの推定とは異なる可能性があることに留意されたい。

探索境界のしきい値量の範囲内を横断しない整列格子を通る推定の最良パスが見出されると、順方向探索は、完了である。

探索帯域を使用して順方向探索を行うことについて、２つのテキストコーパスを整列させることの文脈で前述したが、この探索帯域の使用は、ＤＮＡ塩基配列などの他のアイテムの整列を探索することにも同様に適用できることに留意されたい。

順方向探索が完了した後、ステップ３０８で逆方向探索が行われる。この逆方向探索は、何らかの可能なパスで所与のポイントから最終ポイントｍ，ｎに到達する確率を表わす、各ポイントに関する逆方向状態確率スコアを計算する。逆方向状態確率スコアは、当分野の技術者には周知のとおり、順方向状態確率スコアが計算されるのと同様の仕方で計算される。この逆方向探索中、しきい値剪定を使用して、最終の整列が占める可能性が低い整列状態が除去される。詳細には、α（Ｓ_ｉ，ｊ）およびβ（Ｓ_ｉ，ｊ）がそれぞれ、言語Ｆの文境界ｉおよび言語Ｅの文境界ｊにおける状態ｉ，ｊに関する順方向確率スコアおよび逆方向確率スコアであり、またα（Ｓ_ｍ，ｎ）が、整列格子の最終状態における順方向確率スコアである場合、状態ｉ，ｊを通る整列の確率は、以下のとおり定義される。

数式（ＥＱ）７で使用される順方向パス確率は、０，０で開始して状態ｉ，ｊを通るすべてのパスの結合された確率を表わし、数式（ＥＱ）７で使用される逆方向パス確率は、状態ｉ，ｊで開始して状態ｍ，ｎで終了するすべてのパスの結合された確率を表わす。

数式（ＥＱ）７で定義される合計状態確率スコアは、所与のポイントに関する逆方向状態確率スコアβが計算されるとすぐに、逆方向探索中に計算される。というのは、必要なαの値は、順方向探索中に既に計算されているからである。合計状態確率スコアが定められたしきい値よりも小さい場合、そのポイントは剪定されて、他の状態に関する逆方向確率スコアを計算する際に使用することから除外され、またステップ３１２における後の考慮からも除外される。一実施形態では、このしきい値は、順方向探索において探索帯域が広げられるたびに毎回、低減される初期値に設定されて、最良の整列がそれほど確かでない場合に、より多くの可能性が考慮されることが可能になる。

逆方向走査の一環として、確率スコアが、各タイプｅｆ整列（１対１整列）に関して、前掲の数式（ＥＱ）６に見られる整列タイプの確率と長さ結合の確率の積に、整列の終了における境界整列ポイントに関する逆方向状態確率スコアと、整列の開始における境界整列ポイントに関する順方向状態確率スコアを掛けて、最終ポイントｍ，ｎに関する順方向状態確率スコアで割ったスコアとして生成される。このスコアは、２つのコーパスを所与として、この特定の整列の確率を表わす。高い確率スコアを有する整列がメモリの中に記憶され、以下で翻訳モデルを訓練するのに使用される。

逆方向走査が完了すると、剪定済みの格子が形成されている。一部の実施形態では、最初の可能な整列状態の１０パーセントだけが、剪定の後に残る。図７は、剪定済みの格子８００の例を提示している。この例は、長さベースの整列モデルを使用して予測された可能な整列の推定を表わしている。

図３のプロセスは、ステップ３１０に進み、翻訳モデルが、逆方向走査中に特定された高い確率のｅｆ整列を使用して構成される。この翻訳モデルは、以下で、逆方向走査中に特定された可能な整列パスの１つを選択するのに使用される。

図８は、翻訳モデルを生成するための本発明の方法の流れ図を提示している。この方法は、非特許文献１で説明されている方法を基礎にしている。詳細には、このモデルは、非特許文献１で構成されているモデル１翻訳モデルを基礎にしている。ただし、本発明の実施形態は、非特許文献１における方法を変更して効率を向上させている。

ステップ９００で、各コーパスにおける各語の頻度が判定され、頻度の低い語は、「その他」トークン、つまり汎用トークンで置き換えられる。この置換により、考慮されなければならない異なる翻訳可能性の数が減少する。一実施形態では、語は、コーパスにおいて一度だけ出現する場合、またはコーパスにおける上位５０００の最も頻度の高い語より低い頻度で出現する場合、低頻度である。

ステップ９０２で、長さベースの整列の逆方向走査中に特定された高い確率のｅｆ整列に関連する文のペアを使用して、可能な語翻訳に関するカウントが展開される。詳細には、所与のペアの文に関して、元の語／翻訳された語のペアが、言語Ｅの文における語と言語Ｆの文における語のそれぞれの可能なペアリング（ｐａｉｒｉｎｇ）に関して形成される。例えば、言語Ｆの文が語Ａ、Ｂ、およびＣを含み、言語Ｅの文が語Ｔ、Ｕ、Ｖ、およびＷを含む場合、語のペアＴＡ、ＵＡ、ＶＡ、ＷＡ、ＴＢ、ＵＢ、ＶＢ、ＷＢ、ＴＣ、ＵＣ、ＶＣ、およびＷＣが形成される。さらに、Ｆの文における語がＥのどの語にも対応しないことが可能であるので、元の言語Ｅの可能な語として「空」トークン「^＊」が提供される。この結果、追加のペア^＊Ａ、^＊Ｂ、および^＊Ｃが形成される。

各語のペアに関して、そのペアの確率、言い換えれば、そのペアの第１の語がそのペアの第２の語を生成した確率が判定される。この確率が文の範囲内で正規化され、カウントと呼ばれる。最初は、すべてのペアの組合せに同等の可能性がある。このため、文の範囲内の各ペアの組合せは、１／ｘの確率を有し、ここで、ｘは、空トークンの１つのインスタンスを含め、言語Ｅの文における語の数である。

ステップ９０４で、語のペアに関するカウントが検査されて、カウントが、特定のｅｆ整列における可能な翻訳と見なされるには低すぎるかどうかが判定される。ステップ９０４の初回の反復においては、どのカウントも低すぎるとは考えられない。初回の反復後のステップ９０４の反復において、語のペアに関するカウントが低すぎると考えられる場合、その低いカウントは、空トークンを有する対応するペアに移される。一実施形態では、カウントは、ｅｆ整列のＥの文における語からの選択がランダムであった場合に獲得されるのと同等か、それより低い場合に低すぎると考えられる。例えば、所与の文のペアにおいて、選択の対象となる言語Ｅのｘ個の語（空トークンも含め）が存在し、ＶＡに、１／ｘに等しいか、それより低いカウントが割り当てられる場合、ＶＡに関するカウントは、^＊Ａに関するカウントに加算されて、ＶＡに関するカウントは、そのｅｆ整列に関してゼロに設定される。これは、語のペアに関して構成されなければならないモデルの数を減らすために行われる。語のペアが、すべてのｅｆ整列においてゼロのカウントを有する場合、その語のペアには、翻訳確率が割り当てられない。

「空」トークンに低いカウント値が割り当てられた後、プロセスは、ステップ９０６に進み、様々な語のペアに関するカウントが、ｅｆ整列のすべてにわたって合計される。これにより、各語のペアに関する合計カウントがもたらされる。次に、同じ第２の語を有する語のペアに関する合計カウントが合計されて、１組の正規化値が形成される。したがって、語Ａで終わるすべての語のペアに関する合計カウントが合計されて、Ａで終わる語のペアに関する正規化値が形成される。次に、ステップ９０８で、この正規化値がそれぞれの合計カウントの各カウントに分割されて翻訳確率が生成される。数式（ＥＱ８）では、以下のとおりである。

ただし、ｔ（ｆ｜ｅ）は、語ｆを生成する語ｅに関する翻訳確率であり、ｃ（ｆ｜ｅ）_ｓは、整列された文ｓにおいて判定された語のペア「ｅｆ」に関する正規化されたカウントであり、ｃ（ｆ｜ｅ_ｉ）_ｓは、整列された文ｓにおける語のペア「ｅ_ｉｆ」に関する正規化されたカウントであり、またｎは、言後Ｅの中の空トークンも含めた異なる語の数である。

ステップ９１０で、翻訳確率が検査されて、安定した１組の値に収束したかどうかが判定される。これは、通常、現行の訓練反復の翻訳確率を１つまたは複数の以前の反復の翻訳確率と比較することによって行われる。翻訳確率が収束していない場合、プロセスは、ステップ９０２に戻り、それぞれの翻訳された語／元の語のペアに関する正規化されたカウントが、整列された文の各ペアに関して再び判定される。

第２回の反復中、前回の反復で見出された翻訳された語／元の語のペアに関する翻訳確率を使用して、正規化されたカウントが判定される。詳細には、正規化されたカウントは、次のとおり計算される。

ここで、ｃ（ｆ｜ｅ）は、正規化されたカウントであり、ｔ（ｆ｜ｅ）は、翻訳された語／元の語のペア「ｅｆ」に関する翻訳確率であり、ｔ（ｆ｜ｅ_ｉ）は、語のペア「ｅ_ｉｆ」に関する翻訳確率であり、またｘは、言語Ｅの文の中の空トークンを含めた語の総数である。

次に、プロセスは、翻訳確率が１組の安定した値に収束するまで、ステップ９０４、９０６、９０８、９１０、および９０２を繰り返す。翻訳確率が収束すると、翻訳モデルを訓練するプロセスが、ステップ９１２で終了する。

翻訳モデルが訓練されると、図３のプロセスは、ステップ３１２に進み、第２の順方向探索が、翻訳モデルに基づく語の対応をベースとする整列モデルと、長さをベースにする整列モデルの組合せを使用して行われる。詳細には、この合成モデルを使用して、図７の剪定済みの格子８００のような、長さベースの整列の逆方向走査中に形成された剪定済みの格子における高い確率の整列が特定される。

格子を通る第１の順方向走査と同様に、第２の順方向走査は、現行のポイントに遷移することが可能なすべての先行するポイントからのパス確率を合計することにより、剪定済みの格子における各ポイントに関する順方向状態確率スコアを判定する。

各パス確率は、先行するポイントに関する状態確率スコアと、２つのポイント間のパスで表わされる整列の確率の積である。数式では、以下のとおりである。

ここで、パス＿確率_ｊｉは、ポイントｊからポイントｉまでのパス確率であり、状態＿確率_ｊは、ポイントｊの順方向状態確率スコアであり、ｐ（整列）_ｊｉは、ポイントｊからポイントｉまでのパスで表わされる整列の確率である。

合成モデルでは、整列の確率は、長さベースのモデルによって提供される確率と、翻訳モデルによって提供される確率の結合である。前述した長さ結合の確率と同様に、整列の確率は、異なるタイプの整列に関して異なる仕方で計算される。

言語Ｅの文が言語Ｆの文と整列されないタイプｅ整列の場合、整列確率は、次のとおり定義される。

ここで、ｐ（タイプ＿ｅ）およびｐ（ｌ_ｅ）は、第１の順方向走査に関連して前述したのと同じ定義を有し、同じ仕方で判定され、またｐ（ｅ）は、言語Ｅの文で出現するシーケンスの語ｅの確率である。確率ｐ（ｅ）は、翻訳モデルの訓練中に行われた語の頻度カウントを使用して判定される。各頻度カウントが、コーパスにおけるすべての語に関する合計頻度カウントで割られて、各語に関する確率が提供される。次に、シーケンスｅの中の各語の確率が掛け合わされて、シーケンスｅの確率が提供される。

言語Ｆの文が言語Ｅの文と整列されないタイプｆ整列の場合、整列確率は、次のとおり定義される。

ここで、ｐ（タイプ＿ｆ）およびｐ（ｌ_ｆ）は、第１の順方向走査に関連して前述したのと同じ定義を有し、同じ仕方で判定され、またｐ（ｆ）は、ｐ（ｅ）の判定と同様の仕方であるが、言後Ｅのコーパスではなく、言語Ｆのコーパスにおける語の頻度カウントを使用して判定される、言語Ｆの文においてシーケンスの語ｆが出現する確率である。

言語Ｅの１つの文が言語Ｆの１つの文と整列されるタイプｅｆ整列の場合、整列確率は、次のとおり定義される。

ここで、ｐ（タイプ＿ｅｆ）およびｐ（ｌ_ｅ）は、第１の順方向走査に関連して前述したのと同じ定義を有し、同じ仕方で判定され、ｐ（ｌ_ｆ｜ｌ_ｅ）は、前掲の数式（ＥＱ）３で述べたポアソン分布を使用して判定され、ｐ（ｅ）は、数式（ＥＱ）１１におけるのと同じ仕方で判定され、またｐ（ｆ｜ｅ）は、言語Ｅの文で出現するシーケンスの語ｅを所与とし、またｆの長さを所与として、言語Ｆの文でシーケンスの語ｆが出現する確率である。

確率ｐ（ｆ｜ｅ）は、語の２つのシーケンスｆおよびｅの中の語に関する翻訳確率を使用して判定される。１つの特定の実施形態では、この確率は、以下のとおり計算される。

ここで、ｌは、シーケンスｅの中の語の数であり、ｍは、シーケンスｆの中の語の数であり、またｔ（ｆ_ｊ｜ｅ_ｉ）は、ステップ３１０で訓練された翻訳モデルによって提供される語ｅ_ｉを語ｆ_ｊに翻訳することに関する翻訳確率である。

言語Ｅの１つの文が言語Ｆの２つの文と整列されるタイプｅｆｆ整列の場合、整列確率は、次のとおり定義される。

ここで、ｐ（タイプ＿ｅｆｆ）、ｐ（ｌ_ｆ１＋ｌ_ｆ２｜ｌ_ｅ）、ｐ（ｌ_ｅ）、ｐ（ｌ_ｆ１）、およびｐ（ｌ_ｆ２）は、第１の順方向走査に関連して前述したのと同じ定義を有し、同じ仕方で判定され、ｐ（ｅ）は、数式（ＥＱ）１１に関して前述したのと同じ仕方で判定され、またｐ（ｆ１ｆ２｜ｅ）は、言語Ｅの文で出現するシーケンスの語ｅを所与とし、またｆ１およびｆ２の長さの和を所与として、言語Ｆの文で、シーケンスｆ１とシーケンスｆ２の組合せから形成されたシーケンスの語が出現する確率である。この確率は、ｍがシーケンスｆ１とｆ２の結合された長さに設定され、シーケンスｆ１とｆ２が言語Ｆの単一の文として扱われて、前掲の数式（ＥＱ）１４を使用して判定された確率である。

言語Ｅの２つの文が言語Ｆの１つの文と整列されるタイプｅｅｆ整列の場合、整列確率は、次のとおり定義される。

ここで、ｐ（タイプ＿ｅｅｆ）、ｐ（ｌ_ｆ｜ｌ_ｅ１＋ｌ_ｅ２）、ｐ（ｌ_ｅ１）、ｐ（ｌ_ｅ２）は、第１の順方向走査に関連した前述したのと同じ定義を有し、同じ仕方で判定され、ｐ（ｅ１ｅ２）は、言語Ｅの文で２つのシーケンスの語ｅ１およびｅ２が出現する確率であり、この確率は、２つのシーケンスを単一の文で出現するものとして扱いながら、数式（ＥＱ）１１に関して前述した頻度カウントに基づいて判定され、またｐ（ｆ｜ｅ１ｅ２）は、言語Ｅの文で出現するシーケンスｅ１とｅ２の組合せによって形成されたシーケンスの語を所与として、またｆの長さを所与として、言語Ｆの文でシーケンスの語ｆが出現する確率である。この確率は、ｌをシーケンスｅ１およびｅ２の結合された長さに設定し、シーケンスｅ１とｅ２を言語Ｅの単一の文として扱って、前掲の数式（ＥＱ）１４を使用して判定される。

この第２の順方向走査に続き、合成モデルを使用して、剪定された格子における各整列（２つのコーパスを所与として）に逆方向状態確率スコアおよび確率スコアを割り当てる第２の逆方向走査が行われる。第１の逆方向走査と同様に、合成モデルを組み込むように変更された数式（ＥＱ）７のバージョンによって計算された合計状態確率スコアを使用して、格子がさらに剪定される。第２の逆方向走査が完了したとき、所与のしきい値を超える確率スコアを有するすべての整列が生成される。一実施形態では、このしきい値は、０．５に設定され、同一の文に関して競合する整列が生成されないことが保証される。というのは、２つの競合する整列がともに、０．５を超える確率を有することは不可能だからである。

図３で説明した方法は、従来の技術に優るいくつかの利点を提供する。従来の技術のいくつかの例においてと同様に、この方法は、語の対応をベースとするモデルを探索空間全体に適用することのコストなしに、語の対応をベースとする整列の精度を有する整列を可能にする。というのは、この方法は、初期のより低コストの方法を使用して格子を剪定してから、最終モデルを適用するからである。ただし、従来の技術とは異なり、この初期探索は、初期探索空間における状態に関する実際の確率の推定を反映するスコアを生成し、これにより、従来の技術で使用されてきたより粗いヒューリスティック方法と比べて、精度を犠牲にすることなく探索空間をさらに剪定することが可能になる。

さらに、この方法により、整列前に２言語辞書の存在を必要とすることなく、語の翻訳に基づく整列が可能になる。したがって、本発明は、翻訳モデルの形成をブートストラップ（ｂｏｏｔｓｔｒａｐ）して、次に、この翻訳モデルを使用して語の対応をベースとする整列を行うことができる。

また、本発明は、探索帯域を画定することによって探索空間を小さくすること、翻訳モデルから低頻度の翻訳を除去すること、および長さをベースとする整列の逆方向走査中に整列ポイントを剪定することを含め、整列を行うのに必要とされる時間を短縮するいくつかの態様も提供する。

本発明を特定の実施形態に関連して説明してきたが、本発明の趣旨および範囲を逸脱することなく、形態および詳細の変更を行うことが可能であることが、当分野の技術者には認められよう。

本発明を実施することができる一般的な計算環境を示すブロック図である。２つのコーパスからの文の可能な整列を示す整列図である。本発明の実施形態におけるコーパスを整列させることを示す流れ図である。本発明で使用される探索帯域の概念を示す整列格子を示す図である。探索境界のしきい値の範囲内を横断する推定の最良パスを示す整列格子を示す図である。拡張された探索帯域、および再計算された推定の最良パスを有する整列格子を示す図である。剪定された整列格子を示す図である。本発明の多数の実施形態における翻訳モデルを訓練する方法を示す流れ図である。

符号の説明

１００計算システム環境
１１０、１８０コンピュータ
１２０処理ユニット
１２１システムバス
１３０システムメモリ
１３１読取り専用メモリ
１３２ランダムアクセスメモリ
１３３基本入力／出力システム
１３４、１４４オペレーティングシステム
１３５、１４５、１８５アプリケーションプログラム
１３６、１４６プログラムモジュール
１３７、１４７プログラムデータ
１４０取外し不可能な不揮発性のメモリのインターフェース
１４１ハードディスクドライブ
１５０取外し可能な不揮発性のメモリのインターフェース
１５１磁気ディスクドライブ
１５２磁気ディスク
１５５光ディスクドライブ
１５６光ディスク
１６０ユーザ入力インターフェース
１６１ポインティングデバイス
１６２キーボード
１６３マイクロホン
１７０ネットワークインターフェース
１７１ローカルエリアネットワーク
１７２モデム
１７３ワイドエリアネットワーク
１９０ビデオインターフェース
１９１モニタ
１９５出力周辺インターフェース
１９６プリンタ
１９７スピーカ

Claims

第１の情報処理手段、訓練手段および第２の情報処理手段を有する文書処理システムにおいて、第１のコーパスにおける文を第２のコーパスにおける文と整列させる方法であって、
前記第１の情報処理手段により、第１のコーパスの文境界および第２のコーパスの文境界により形成される整列格子上のポイント間のパスの確率を計算することによって、文の長さをベースとする整列モデルを前記第１のコーパスおよび前記第２のコーパスに適用して、前記第１のコーパスにおける少なくとも１つの文に関する文境界を前記第２のコーパスにおける文に関する文境界と整列させて少なくとも１つの整列された文のペアを生成するステップであって、そこでは、前記長さをベースとする整列モデルは、第１のコーパスにおける単一の文が、第２のコーパスにおける２つの文と整列させられる確率を与える整列タイプの確率を含むステップと、
前記訓練手段により、前記整列された文のペアを使用して、複数の整列された文のペアの中に出現する単語のペアをカウントし、該カウントに基づいて翻訳確率を計算することによって翻訳モデルを訓練するステップと、
前記第２の情報処理手段により、前記翻訳モデルを前記第１のコーパスおよび前記第２のコーパスに適用して、前記訓練手段により形成された翻訳確率から決定される前記第２のコーパスの文中の単語のシーケンスが与えられる前記第１のコーパス中の文の単語のシーケンスの確率と、前記文の長さをベースとする整列モデルからの確率とを乗算することによって、前記第１のコーパスにおける少なくとも１つの文に関する文境界を前記第２のコーパスにおける文に関する文境界と整列させるステップと
を実行することを特徴とする方法。
前記文の長さをベースとする整列モデルは、前記第２のコーパスにおける第２の長さの文を所与として、前記第１のコーパスにおける第１の長さの文の確率を示すポアソン分布によって記述される確率を含むことを特徴とする請求項１に記載の方法。
前記第１の情報処理手段により、文の長さをベースとするモデルを適用する前記ステップは、
前記第１のコーパスにおける文境界と前記第２のコーパスにおける文境界の整列をそれぞれが表わすすべての可能な文境界整列のサブセットを特定するステップと、
前記サブセットの中の各文境界整列に関するスコアを特定するステップと
を含むことを特徴とする請求項１に記載の方法。
前記すべての可能な文境界整列のサブセットを特定する前記ステップは、前記第１の情報処理手段により、探索帯域を画定する２つの探索境界を設定するステップを含むことを特徴とする請求項３に記載の方法。
前記第１の情報処理手段により、各文境界整列に関する前記スコアに基づいて推定の最良セットの文境界整列を特定するステップと、
前記第１の情報処理手段により、前記推定の最良セットの中の前記文境界整列の１つが探索境界のしきい値以内にあることを判定するステップと、
前記第１の情報処理手段により、少なくとも１つの探索境界を変更して、前記探索帯域よりも多くの可能な文境界整列を含む拡張された探索帯域を画定するステップと、
前記第１の情報処理手段により、前記拡張された探索帯域の中の各文境界整列に関するスコアを特定するステップと
をさらに含むことを特徴とする請求項４に記載の方法。
前記第１の情報処理手段により、前記探索帯域内のいくつかの文境界整列を剪定してさらなる考慮から除外するステップをさらに含むことを特徴とする請求項４に記載の方法。
前記第２の情報処理手段により、前記翻訳モデルを適用するステップは、さらなる考慮から未だ除外されていない前記剪定で残った前記探索帯域内の文境界整列に関してだけ前記翻訳モデルを適用してスコアを判定するステップを含むことを特徴とする請求項６に記載の方法。
前記整列された文のペアを使用して翻訳モデルを訓練する前記ステップは、前記訓練手段により、しきい値を超える整列の推定の確率を有する整列された文のペアを使用するステップを含むことを特徴とする請求項１に記載の方法。
前記整列された文のペアを使用して翻訳モデルを訓練する前記ステップは、前記第１のコーパスにおける低頻度の語を汎用トークンで置き換えるステップを含むことを特徴とする請求項１に記載の方法。
第１の訓練手段、第２の訓練手段、第１の情報処理手段および第２の情報処理手段を有するシステムにおいて、第１のコーパスを第２のコーパスと整列させる方法であって、
前記第１の訓練手段により、第１のコーパスにおける文の長さと第２のコーパスにおける文の長さの間の関係をポアソン分布としてモデル化することによって文の長さベースの整列モデルを形成すると共に、前記第２のコーパスの単一の文と整列する第１のコーパス中の単一の文の確率を有する整列タイプの確率を設定するステップと、
前記第１の情報処理手段により、前記第１のコーパスからの第１の文の長さｌ _ｆ、および前記第２のコーパスからの第２の文の長さｌ_ｅを前記ポアソン分布に適用して、尤度ｐ（ｌ_ｆ｜ｌ_ｅ）＝ｅｘｐ(−ｌ_ｅｒ)（ｌ_ｅｒ）^ｌｆ／（ｌ_ｆ！）
を計算し、該尤度と整列タイプの確率とを乗算することによって、長さベースの整列をすることの一部分として前記第１の文が前記第２の文と整列される尤度を判定するステップであって、ｒは前記第１のコーパスにおける平均の文の長さに対する前記第２のコーパスにおける平均の文の長さの比を表しているステップと
前記第２の訓練手段により、複数の整列された文のペアの中に出現する単語のペアをカウントし、該カウントに基づいて翻訳確率を計算することにより前記文の長さベースの整列に基づいて翻訳モデルを訓練するステップと、
前記第２の情報処理手段により、前記翻訳モデルおよび前記文の長さベースの整列モデルの組み合わせモデルを使用して、前記翻訳確率および前記整列タイプの確率の関数である整列確率を計算することによって前記第１のコーパスおよび前記第２のコーパスの間の文境界の整列を実行するステップと
を実行することを特徴とする方法。
前記文の長さをベースとする整列は、前記第１の情報処理手段により、すべての可能な文境界整列のサブセットを評価するステップを含むことを特徴とする請求項１０に記載の方法。
前記文の長さをベースとする整列は、前記第１の情報処理手段により、文境界整列を剪定してさらなる考慮から除外するステップを含むことを特徴とする請求項１０に記載の方法。
前記翻訳モデルを使用して文境界の整列を行うステップは、前記第２の情報処理手段により、前記文の長さをベースとする整列によって剪定されてさらなる考慮から除外されていない文境界整列を評価するステップを含むことを特徴とする請求項１２に記載の方法。
推定手段、剪定手段、スコアリング手段および特定手段を有する整列システムを使用して文境界に沿って２つのテキストコーパスを整列させる方法であって、
前記推定手段により、第１の整列モデルを使用して１組の可能な整列ポイントの確率を推定するステップと、
前記剪定手段により、前記第１の整列モデルから低い推定の確率を受ける可能な整列ポイントを、可能な整列ポイントのセットから取り除くことによって剪定するステップと、
前記スコアリング手段により、整列ポイントに関するスコアを判定するのに前記第１の整列モデルよりも１つの整列ポイント当たりより多くの計算を必要とする第２の整列モデルを使用して、前記剪定で残った前記可能な整列ポイントにスコアを付けるステップであって、そこでは、前記第２の整列モデルは文の長さベースの整列モデルおよび単語一致ベースの整列モデルの組み合わせモデルから成り、前記文の長さベースの整列モデルは一方のコーパスの２つの文と整列する他方のコーパスの単一の文の確率を与える整列タイプの確率を有するステップと、
前記特定手段により、前記スコアリング手段からの前記スコアを使用して前記２つのコーパスのセグメントに関する高い確率の整列を特定するステップと
を備えることを特徴とする方法。
前記第１の整列モデルは、文の長さをベースとする整列モデルであることを特徴とする請求項１４に記載の方法。
前記整列システムは、前記第１の整列モデルを使用して前記推定手段により特定された整列ポイントに基づいて、前記単語一致ベースのモデルを訓練する訓練手段をさらに含むことを特徴とする請求項１４に記載の方法。
前記推定手段はポアソン分布を有する第１の整列モデルを使用することを特徴とする請
求項１４に記載の方法。