JP4532863B2 - 2言語コーパスを整列させるための方法および装置 - Google Patents

2言語コーパスを整列させるための方法および装置 Download PDF

Info

Publication number
JP4532863B2
JP4532863B2 JP2003302014A JP2003302014A JP4532863B2 JP 4532863 B2 JP4532863 B2 JP 4532863B2 JP 2003302014 A JP2003302014 A JP 2003302014A JP 2003302014 A JP2003302014 A JP 2003302014A JP 4532863 B2 JP4532863 B2 JP 4532863B2
Authority
JP
Japan
Prior art keywords
sentence
alignment
corpus
probability
length
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2003302014A
Other languages
English (en)
Other versions
JP2004086913A (ja
Inventor
シー.ムーア ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004086913A publication Critical patent/JP2004086913A/ja
Application granted granted Critical
Publication of JP4532863B2 publication Critical patent/JP4532863B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Nonmetallic Welding Materials (AREA)

Description

本発明は、2言語コーパスを整列させることに関する。詳細には、本発明は、長さをベースとし、語の対応をベースとする整列に関する。
文が整列された並列2言語(bilingal)コーパスは、機械学習を機械翻訳およびその他のNLPタスクに適用するのに非常に有用であることが分かっている。残念ながら、カナダ国会の議事録などの、ほとんどの利用可能な並列2言語コーパスは、文が整列された形態で作成されない。したがって、コーパスの文を整列させてからでないと、機械学習のためにそのコーパスを使用することができない。
文を整列させることは、時々一方の言語における単一の文が、他方の言語において2つまたはそれより多くの文に翻訳されるため、些末なことではない。さらに、コーパスが不完全であるため、一方のコーパスに見られる文が、他方のコーパスに存在しない可能性がある。
Brown et al., The Mathematics of Statistical Machine Translation: Parameter Estimation, Computational Linguistics, 19(2): 263-311, 1993
これまで、2言語コーパスを整列させるために2つの一般的な技法が使用されてきた。第1の手法は、語をベースとし、または文字をベースとする。この手法では、2言語語彙集を使用して各コーパスにおける個々の語を整列させる。個々の語が整列していることを判定することが複雑であるため、この手法は、不要に遅い。さらに、この手法は、2言語語彙集が存在していることを要し、したがって、そのような語彙集が存在しない場合、コーパスを整列させるのに使用することができない。
2言語コーパスを整列させるための第2の一般的な方法は、一方の言語における文の長さと、他方の言語におけるその文の翻訳文の長さの間の関係を確率モデル化することを使用する。そのような長さをベースとするシステムは、語をベースとするシステムより高速であるが、正確ではない。
したがって、高速で、極めて正確であり、2言語語彙集を必要としない整列システムが必要とされている。
第1のコーパスにおける文を第2のコーパスにおける文に整列させるための方法を提供する。この方法は、長さをベースとする整列モデルを適用して第1のコーパスにおける文の文境界を第2のコーパスにおける文の文境界に整列させて整列された文のペアを形成することを含む。次に、整列された文のペアを使用して翻訳モデルを訓練する。訓練した後、その翻訳モデルを使用して第1のコーパスにおける文を第2のコーパスにおける文に整列させる。
本発明の一態様では、長さベースの整列は、可能な文境界の整列を剪定して、長さベースの整列によって剪定されなかった文境界整列だけにスコアを付けるのに翻訳モデルが使用されるようにするステップを含む。
本発明の第2の態様では、長さベースの整列が、ポアソン分布を利用して、第2のコーパスにおける第2の長さの文を所与として、第1のコーパスにおける文が第1の長さを有する尤度を記述する。
以下の図1の考察は、単に、本発明を使用することができる1つの例示的な環境だけを提示しており、本発明は、その他の環境においても使用することができる。
図1は、本発明を実施することができる適切な計算システム環境100の例を示している。計算システム環境100は、適切な計算環境の一例に過ぎず、本発明の使用または機能の範囲に関して全く限定は示唆していない。また、計算環境100が、例示的な動作環境100に図示した構成要素のいずれか1つ、またはいずれかの組合せに関する依存性、または要件を有すると解釈してはならない。
本発明は、多数の他の汎用、または特殊目的の計算システム環境または計算システム構成で機能する。本発明で使用するのに適している可能性がある周知の計算システム、計算環境、および/または計算構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラマブル家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、前述したシステムまたはデバイスのいずれかを含む分散計算環境等が含まれるが、以上には限定されない。
本発明は、コンピュータによって実行される、プログラムモジュールなどの、コンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データタイプを実装するルーチン、プログラム、オブジェクト、構成要素、データ構造が含まれる。本発明は、通信網を介してリンクされた遠隔の処理デバイスによってタスクが行われる分散計算環境においても実施することが可能である。分散計算環境では、プログラムモジュールは、メモリ記憶デバイスを含むローカルのコンピュータ記憶媒体と遠隔のコンピュータ記憶媒体の両方の中に配置されることが可能である。
図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形態で汎用計算デバイスを含む。コンピュータ110の構成要素には、処理ユニット120、システムメモリ130、ならびにシステムメモリから処理ユニット120までを含む様々なシステム構成要素を結合するシステムバス121が含まれることが可能であるが、以上には限定されない。システムバス121は、様々なバスアーキテクチャの任意のアーキテクチャを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造の任意の構造であることが可能である。例として、限定としてではなく、そのようなアーキテクチャには、インダストリスタンダードアーキテクチャ(Industry Standard Architecture)(ISA)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture)(MCA)バス、エンハンストISA(Enhanced ISA)(EISA)バス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association)(VESA)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnect)(PCI)バスが含まれる。
コンピュータ110は、通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110がアクセスすることができる任意の利用可能な媒体であることが可能であり、揮発性の媒体と不揮発性の媒体、取外し可能な媒体と取外し不可能な媒体をともに含む。例として、限定としてではなく、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことが可能である。コンピュータ記憶媒体には、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶するための任意の方法または技術で実装された揮発性の媒体と不揮発性の媒体、取外し可能な媒体と取外し不可能な媒体がともに含まれる。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタルバーサタイルディスク(DVD)またはその他の光ディスクストーレッジ、磁気カセット、磁気テープ、磁気ディスクストーレッジまたはその他の磁気記憶デバイス、あるいは所望の情報を記憶するのに使用することができ、コンピュータ110がアクセスすることができる任意の他の媒体が含まれるが、以上には限定されない。
通信媒体は、通常、搬送波などの変調されたデータ信号、または他のトランスポート機構でコンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを実体化し、あらゆる情報配信媒体が含まれる。「変調されたデータ信号」という用語は、信号に情報を符号化するような仕方で特性の1つまたは複数が設定または変更されている信号を意味する。例として、限定としてではなく、通信媒体には、有線ネットワークまたは直接配線接続などの有線媒体、ならびに音響媒体、FR媒体、赤外線媒体、およびその他の無線媒体などの無線媒体が含まれる。また、前述した媒体のいずれかの組合せも、コンピュータ可読媒体の範囲に含まれるべきである。
システムメモリ130は、読取り専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性メモリおよび/または不揮発性メモリの形態でコンピュータ記憶媒体を含む。始動中など、コンピュータ110内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入力/出力システム133(BIOS)が、通常、ROM131の中に記憶されている。RAM132は、通常、処理ユニット120によって即時にアクセス可能であり、かつ/または現在、処理されているデータおよび/またはプログラムモジュールを含む。例として、限定としてではなく、図1は、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137を示している。
また、コンピュータ110は、他の取外し可能な/取外し不可能な、揮発性/不揮発性のコンピュータ記憶媒体を含むことも可能である。単に例として、図1は、取外し不可能な不揮発性の磁気媒体に対して読取りおよび書込みを行うハードディスクドライブ141、取外し可能な不揮発性の磁気ディスク152に対して読取りおよび書込みを行う磁気ディスクドライブ151、およびCD−ROMまたは他の光媒体などの取外し可能な不揮発性の光ディスク156に対して読取りおよび書込みを行う光ディスクドライブ155を示している。例示的な動作環境において使用することができる他の取外し可能な/取外し不可能な揮発性/不揮発性のコンピュータ記憶媒体には、磁気テープカセット、フラッシュメモリカード、デジタルバーサタイルディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROM等が含まれるが、以上には限定されない。ハードディスクドライブ141は、通常、インターフェース140のような取外し不可能なメモリインターフェースを介してシステムバス121に接続され、また磁気ディスクドライブ151および光ディスクドライブ155は、通常、インターフェース150のような取外し可能なメモリインターフェースでシステムバス121に接続される。
前述し、図1に示すドライブおよび関連するコンピュータ記憶媒体により、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータのストーレッジがコンピュータ110に提供される。図1では、例えば、ハードディスクドライブ141が、オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147を記憶しているのが示されている。以上の構成要素は、オペレーティングシステム134、アプリケーションプログラム135、他のプログラムモジュール136、およびプログラムデータ137と同じであることも、異なることも可能であることに留意されたい。オペレーティングシステム144、アプリケーションプログラム145、他のプログラムモジュール146、およびプログラムデータ147に、ここでは、少なくともそれらが異なるコピーであることを示すために異なる符号を付けている。
ユーザは、キーボード162、マイクロホン163、ならびにマウス、トラックボール、またはタッチパッドなどのポインティングデバイス161などの入力デバイスを介してコンピュータ110にコマンドおよび情報を入力することができる。他の入力デバイス(図示せず)には、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナ等が含まれる可能性がある。以上の入力デバイスおよび他の入力デバイスは、しばしば、システムバスに結合されたユーザ入力インターフェース160を介して処理ユニット120に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(Universal Serial Bus)(USB)などの他のインターフェースおよびバス構造で接続してもよい。また、モニタ191または他のタイプの表示デバイスも、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタに加えて、コンピュータは、出力周辺インターフェース195を介して接続することができるスピーカ197やプリンタ196などの他の周辺出力デバイスも含むことが可能である。
コンピュータ110は、遠隔コンピュータ180のような1つまたは複数の遠隔コンピュータに対する論理接続を使用するネットワーク化された環境で動作することも可能である。遠隔コンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般的なネットワークノードであることが可能であり、通常、コンピュータ110に関連して前述した要素の多く、またはすべてを含む。図1に描いた論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、他のネットワークを含むことも可能である。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット、およびインターネットで一般的である。
LANネットワーキング環境で使用される場合、コンピュータ110は、ネットワークインターフェースまたはネットワークアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用される場合、コンピュータ110は、通常、インターネットなどのWAN173を介して通信を確立するためのモデム172、または他の手段を含む。内部にあることも、外部にあることも可能なモデム172は、ユーザ入力インターフェース160または他の適切な機構を介してシステムバス121に接続することが可能である。ネットワーク化された環境では、コンピュータ110に関連して描いたプログラムモジュール、またはプログラムモジュールの部分を遠隔のメモリ記憶デバイスの中に記憶することができる。例として、限定としてではなく、図1は、遠隔アプリケーションプログラム185を遠隔コンピュータ180上に常駐するのを示している。図示したネットワーク接続は、例示的であり、コンピュータ間で通信リンクを確立する他の手段を使用してもよいことが認められよう。
本発明では、2つのテキストコーパスが整列されて、一方のコーパスにおける観念を伝える文が、他方のコーパスにおける同じ観念を伝える文と整列されるようになる。ほとんどの実施形態では、各コーパスは、別個の言語で書かれる。以下の考察では、2つの任意の言語、言語Eおよび言語Fを使用して本発明の実施形態を例示する。
図2は、文境界に沿った、言語Eで書かれたコーパスと言語Fで書かれたコーパスの整列を示す図を提供している。図2では、各コーパスは、数のストリングで表わされ、言語Eが、ストリング200で表わされ、言語Fが、ストリング202で表わされている。ストリングにおける各数は、そのコーパスの単一の文の中に見られる語の数を表わしている。したがって、ストリング200における数「15」は、言語Eにおいて15の語を有する単一の文を表わしている。
2つのコーパス間の整列ポイントは、図2では、単一の境界内に整列された文をグループ化することによって示されている。例えば、境界204が、言語Eコーパスの文206と、言語Fコーパスの文208および210の周囲に広がり、文206が、文208と210の結合と整列されていることを示している。その他の整列が、境界212、214、216、および218で示されている。
図2に示すとおり、本発明は、次のタイプの整列を含む多くのタイプの整列をサポートする。すなわち、タイプeff整列と呼ばれ、境界204として示される言語Eの1つの文と言語Fの2つの文の整列、タイプeef整列と呼ばれ、境界216として示される言語Eの2つの文と言語Fの1つの文の整列、タイプef整列または1対1整列と呼ばれ、境界212として示される言語Eの1つの文と言語Fの1つの文の整列、タイプe整列と呼ばれ、境界214として示される言語Eの1つの文と言語Fのゼロの文との整列、およびタイプf整列と呼ばれ、境界218として示される言語Fの1つの文と言語Eのゼロの文の整列である。
図3は、本発明の多くの実施形態における2つのコーパスを整列させる方法の流れ図を提供している。概要を述べると、この方法は、まず、長さベースの整列モデルを構築して、可能性の高いタイプef整列を特定し、いくつかの文境界整列状態を剪定するのに使用する。タイプef整列を使用することにより、翻訳モデルが構成され、次に、その翻訳モデルが、長さベースの整列モデルと組み合わせて使用されて、2つのコーパスに関する最良の整列が特定される。
図3の方法は、ステップ300で開始し、長さベースの整列モデルのパラメータが、コーパスから決定される。このパラメータを使用して、以下のとおり定義される特定の整列の確率が計算される。
Figure 0004532863
ここで、p(整列)は、コーパスにわたる特定の整列の確率であり、Jは、コーパスにおける整列セグメントまたは整列ポイントの数であり、p(整列_タイプ)は、タイプeef整列の確率、またはタイプef整列の確率などのセグメントxに関する整列タイプの確率であり、またp(長さ_結合)は、長さの特定の結合を有するセグメントxにおける文の確率である。
本発明の一実施形態では、整列タイプに関する確率は、以下のとおり推定される。
p(タイプ_e)=.01
p(タイプ_f)=.01
p(タイプ_ef)=.972
p(タイプ_eef)=.026
p(タイプ_eff)=.026
文の長さの結合に関する確率は、整列タイプに基づいて判定される。整列タイプeおよびfの場合、長さ結合確率を判定するのに必要な確率は、それぞれ、言語Eの文の長さであるp(l)、および言語Fの文の長さであるp(l)だけである。一実施形態では、p(l)およびp(l)は、各コーパスにおいて見られるそれぞれの長さの文の相対頻度を判定することによって判定される。例えば、言語Eコーパスにおける長さ8の文の確率を判定するため、言語Eコーパスにおいて8という長さを有する文の数を言語Eコーパスにおける文の総数で割る。
タイプef整列(1対1整列)に関する文の長さの結合の確率は、以下のとおり定義される。
Figure 0004532863
ここで、p(l)は、言語Eに関する長さlの文の確率であり、この確率は、タイプe整列に関して前述したのと同じやり方で判定され、またp(l|l)は、言語Eにおける長さlの文を所与とする、言語Fにおける長さlの文の確率である。
従来の長さベースの整列システムでは、p(l|l)は、長さlと長さlの比の対数に基づくガウス分布としてモデル化されている。ガウス分布は、それぞれの長さlに関して、2つの隠れたパラメータ、平均値および分散を含む。ガウス分布の平均値は、各コーパスに見られる文の平均の長さに基づいて推定することが可能であるが、分散は、整列されたコーパスを有さずに推定することができない。この結果、従来技術のシステムは、期待値最大化(EM)アルゴリズムを使用して、パラメータを繰り返し推定し、次に、その推定を使用して推定の整列を形成することにより、それらのパラメータを特定しなければならなかった。詳細には、従来の技術は、まず、ガウスモデルの平均値および分散を推定し、次に、推定されたモデルを使用して可能性の高い整列を特定した。この整列に基づき、ガウスモデルの平均値および分散が更新される。次に、更新されたモデルを使用して、新しい整列が特定される。モデルが安定するまでこれが続けられ、安定した時点で、最終の平均値および最終の分散が、そのモデルに関して選択される。
そのようなEM訓練は、遅く、計算上の高いコストがかかる。本発明では、このEM訓練が、ポアソン分布を使用する確率p(l|l)をモデル化することによって回避される。このような分布は、以下のとおり定義される。
Figure 0004532863
ここで、rは、言語Fにおける文の平均の長さの、言語Eにおける文の平均の長さに対する比である。ポアソン分布を使用してこの確率をモデル化することにより、本発明は、隠れたパラメータを全く特定しなくてもよく、したがって、EM訓練なしに確率を判定することができる。
タイプeff整列の場合、長さの結合の確率は、以下のとおり定義される。
Figure 0004532863
ここで、p(l)は、言語Eにおける長さlの文の確率であり、f1およびf2は、タイプeff整列における言語Fの第1の文および第2の文であり、p(lf1)およびp(lf2)は、それぞれ、言語Fにおける長さlf1の文、および長さlf2の文の確率であり、またp(lf1+lf2|l)は、言語Eにおける長さlの文を所与としての、言語Fにおける結合された長さlf1+lf2の文の確率である。数式(EQ)4の右側の分母により、lf1+lf2という結合された文の長さを有する2つの文の長さのそれぞれの可能な結合に関する確率の和が与えられる。
確率p(l)、p(lf1)、およびp(lf2)は、タイプe整列およびタイプf整列に関して前述したのと同じやり方で判定される。確率p(lf1+lf2|l)は、結合された長さlf1+lf2を言語Fにおける単一の文の長さとして扱いながら、数式(EQ)3で説明したポアソン分布を使用して判定される。
タイプeef整列の場合、長さ結合確率は、以下のとおり判定される。
Figure 0004532863
ここで、p(le1)およびp(le2)は、言語Eにおけるそれぞれの長さle1およびle2の文の確率であり、またp(l|le1+le2)は、言語Eにおける結合された長さle1+le2の文を所与としての、言語Fにおける長さlの文の確率である。
確率p(le1)およびp(le2)は、タイプe整列に関して前述したのと同じ仕方で判定される。確率p(l|le1+le2)は、結合された長さle1+le2を言語Eにおける単一の文の長さとして扱って、数式(EQ)3のポアソン分布を使用して判定される。
したがって、ステップ300で、整列タイプ確率が、各整列タイプに関して推定され、言語Eにおけるそれぞれの文の長さに関する確率p(l)、および言語Fにおけるそれぞれの文の長さに関する確率p(l)が判定される。さらに、言語Fにおける文の平均の長さと言語Eにおける文の平均の長さの比rが、確率p(l|l)を計算するのに使用するために判定される。
長さベースの整列モデルに関するパラメータが訓練された後、図3のプロセスは、ステップ302に進み、可能な整列の順方向探索が、長さベースの整列モデルを使用して行われる。この順方向探索は、整列格子を通るパスの探索として表わすことができ、格子における各ポイントは、2つのコーパス間の可能な文境界の整列のポイントを表わす。図4は、言語Fのコーパスに関する文境界が、水平軸400に沿って示され、言語Eのコーパスに関する文境界が垂直軸402に沿って示されているそのような整列格子の図である。図4に示すとおり、言語Fのコーパスは、m個の文境界を有し、言語Eのコーパスは、n個の文境界を有している。
正常な整列であるためには、整列は、各コーパスの開始を表わすポイント0,0、および各コーパスの終了を表わすポイントm,nと交差しなければならない。理論上、この2つのポイント間の任意のパスが、2つのコーパスに関する適切な整列であることが可能である。ただし、これは、多数のパスであり、最良の整列パスを探索することが、計算上のコストの高いものとなり、大きいコーパスの場合、手に負えなくなる。
これを克服するため、本発明の一態様は、最良パスが見出されることを確実にしながらも、考慮されなければならないパスの数を制限する手段を提供する。本発明の以上の実施形態において、本発明者は、最良の整列が、ポイント0,0とポイントm,nの間の対角線404近くを通る可能性が高いことを認知している。探索されなければならない空間を小さくするため、以上の実施形態は、探索境界406および408を画定することにより、対角線404のまわりに探索帯域を作成する。これにより、探索は、探索境界内に留まるパスに限定される。したがって、探索は、探索エリア410に限定される。これは、探索境界の外側にある境界整列ポイントを剪定することと等価である。
どの境界整列ポイントを考慮すべきかを決めるため、本発明の一実施形態は、まず、言語Eにおける文境界の数nを言語Fにおける文境界の数mで割ることにより、対角線404の傾きを判定する。言語Fにおける各文境界に関して、言語Eにおける予期される対応する文境界が、言語F境界の位置に傾きを掛けて、言語Eにおける対応する文境界の予期される位置を特定することによって計算される。例えば、言語Fの文境界が、そのセットの文境界の中の第5の文境界であった場合、言語Eにおける対応する文境界の予期される位置は、傾きの5倍になる。
探索帯域は、言語Fにおける各文境界に関して、以上に定義したとおり、Eにおける予期される対応する文境界の何らかの距離D範囲内にある言語Eにおける対応する文境界だけを考慮することによって画定される。したがって、探索帯域の幅は、Dの値の2倍(Dポイントまでの予期される境界ポイントより大きい境界ポイントと、予期される境界ポイントより小さい境界ポイントを包含する)である。
一実施形態では、ステップ302の順方向探索は、初期ポイント0,0からの何らかのパスであるポイントに到達する確率を表わす、探索エリア410内の各ポイントに関する順方向状態確率スコアを特定することに関わる。順方向状態確率スコアは、初期ポイント0,0からポイントにつながるすべての可能なパスの確率の和と等しくなるように計算される。多数のそのようなパスが存在するが、すべてのパスは、多くても5つの最終ステップのどれかに帰着する。例えば、図4のポイント412に到達することに関して5つの可能な最終ステップが存在する。この最終ステップには、タイプf整列を表わすポイント414からのステップ、タイプe整列を表わすポイント416からのステップ、タイプef整列を表わすポイント418からのステップ、タイプeff整列を表わすポイント420からのステップ、タイプeef整列を表わすポイント422からのステップが含まれる。したがって、別々のパス確率が、0,0からポイント414、416、418、420、および422を経由してポイント412に至る各セットのパスに関して判定され、この別々の確率が合計されてポイント412に関する順方向状態確率スコアが形成される。
各パス確率は、先行するポイントに関する順方向状態確率と2つのポイント間のパスで表わされる整列の確率の積である。数式では、以下のとおりである。
Figure 0004532863
ここで、パス_確率jiは、状態jを通って状態iに至るパスのセットに関するパス確率であり、状態_確率は、状態jの順方向状態確率であり、p(整列_タイプ)jiは、状態jから状態iまでのパスで表わされる整列のタイプに関する整列タイプ確率であり、またp(長さ_結合)jiは、状態jから状態iまでの遷移で表わされる整列の中の文に関する長さ結合確率である。
探索エリア410内の各ポイントに関する順方向状態確率スコアの判定を行いながら、順方向探索は、各状態に入る推定の最良パスの記憶も行う。この推定の最良パスは、最高のパス確率を提供するパスである。推定の最良パスは、パス上で現行のポイントに先行するポイントに対するリファレンスを使用して記憶される。
当分野の技術者には認識されるとおり、この順方向探索は、ポイント0,0で開始し、探索エリアを通って終了ポイントm,nに向かって外向きに進む。探索がm,nに到達したとき、推定の最良パスに沿った状態を経由して元に戻る。そのような推定の最良パスの例を図5にパス500として示している。探索は、最良パスに沿って元に戻る際、ステップ304で、その最良パスに沿ったポイントの中に探索境界406および408のしきい値以内のポイントが存在するかどうかを判定する。このしきい値の例を図5でしきい値境界502および504として示している。しきい値は、図5でゼロより大きいものとして示しているが、当分野の技術者には、ゼロのしきい値を含め、本発明の範囲内で他のしきい値も可能であることが認められよう。
推定の最良パスに沿ったポイントが探索境界のしきい値以内にある場合、最良パスは、探索境界によって除外されていたために、見出されていない可能性がある。これを訂正するため、図3のステップ306で探索帯域が拡張され、ステップ302で順方向探索が再実行される。図6は、拡張された探索エリア600を形成する拡張された探索帯域を有する整列格子を示している。拡張された探索エリアのため、格子を通る最良パスの推定は、探索帯域が拡張される前の最良パスの推定とは異なる可能性があることに留意されたい。
探索境界のしきい値量の範囲内を横断しない整列格子を通る推定の最良パスが見出されると、順方向探索は、完了である。
探索帯域を使用して順方向探索を行うことについて、2つのテキストコーパスを整列させることの文脈で前述したが、この探索帯域の使用は、DNA塩基配列などの他のアイテムの整列を探索することにも同様に適用できることに留意されたい。
順方向探索が完了した後、ステップ308で逆方向探索が行われる。この逆方向探索は、何らかの可能なパスで所与のポイントから最終ポイントm,nに到達する確率を表わす、各ポイントに関する逆方向状態確率スコアを計算する。逆方向状態確率スコアは、当分野の技術者には周知のとおり、順方向状態確率スコアが計算されるのと同様の仕方で計算される。この逆方向探索中、しきい値剪定を使用して、最終の整列が占める可能性が低い整列状態が除去される。詳細には、α(Si,j)およびβ(Si,j)がそれぞれ、言語Fの文境界iおよび言語Eの文境界jにおける状態i,jに関する順方向確率スコアおよび逆方向確率スコアであり、またα(Sm,n)が、整列格子の最終状態における順方向確率スコアである場合、状態i,jを通る整列の確率は、以下のとおり定義される。
Figure 0004532863
数式(EQ)7で使用される順方向パス確率は、0,0で開始して状態i,jを通るすべてのパスの結合された確率を表わし、数式(EQ)7で使用される逆方向パス確率は、状態i,jで開始して状態m,nで終了するすべてのパスの結合された確率を表わす。
数式(EQ)7で定義される合計状態確率スコアは、所与のポイントに関する逆方向状態確率スコアβが計算されるとすぐに、逆方向探索中に計算される。というのは、必要なαの値は、順方向探索中に既に計算されているからである。合計状態確率スコアが定められたしきい値よりも小さい場合、そのポイントは剪定されて、他の状態に関する逆方向確率スコアを計算する際に使用することから除外され、またステップ312における後の考慮からも除外される。一実施形態では、このしきい値は、順方向探索において探索帯域が広げられるたびに毎回、低減される初期値に設定されて、最良の整列がそれほど確かでない場合に、より多くの可能性が考慮されることが可能になる。
逆方向走査の一環として、確率スコアが、各タイプef整列(1対1整列)に関して、前掲の数式(EQ)6に見られる整列タイプの確率と長さ結合の確率の積に、整列の終了における境界整列ポイントに関する逆方向状態確率スコアと、整列の開始における境界整列ポイントに関する順方向状態確率スコアを掛けて、最終ポイントm,nに関する順方向状態確率スコアで割ったスコアとして生成される。このスコアは、2つのコーパスを所与として、この特定の整列の確率を表わす。高い確率スコアを有する整列がメモリの中に記憶され、以下で翻訳モデルを訓練するのに使用される。
逆方向走査が完了すると、剪定済みの格子が形成されている。一部の実施形態では、最初の可能な整列状態の10パーセントだけが、剪定の後に残る。図7は、剪定済みの格子800の例を提示している。この例は、長さベースの整列モデルを使用して予測された可能な整列の推定を表わしている。
図3のプロセスは、ステップ310に進み、翻訳モデルが、逆方向走査中に特定された高い確率のef整列を使用して構成される。この翻訳モデルは、以下で、逆方向走査中に特定された可能な整列パスの1つを選択するのに使用される。
図8は、翻訳モデルを生成するための本発明の方法の流れ図を提示している。この方法は、非特許文献1で説明されている方法を基礎にしている。詳細には、このモデルは、非特許文献1で構成されているモデル1翻訳モデルを基礎にしている。ただし、本発明の実施形態は、非特許文献1における方法を変更して効率を向上させている。
ステップ900で、各コーパスにおける各語の頻度が判定され、頻度の低い語は、「その他」トークン、つまり汎用トークンで置き換えられる。この置換により、考慮されなければならない異なる翻訳可能性の数が減少する。一実施形態では、語は、コーパスにおいて一度だけ出現する場合、またはコーパスにおける上位5000の最も頻度の高い語より低い頻度で出現する場合、低頻度である。
ステップ902で、長さベースの整列の逆方向走査中に特定された高い確率のef整列に関連する文のペアを使用して、可能な語翻訳に関するカウントが展開される。詳細には、所与のペアの文に関して、元の語/翻訳された語のペアが、言語Eの文における語と言語Fの文における語のそれぞれの可能なペアリング(pairing)に関して形成される。例えば、言語Fの文が語A、B、およびCを含み、言語Eの文が語T、U、V、およびWを含む場合、語のペアTA、UA、VA、WA、TB、UB、VB、WB、TC、UC、VC、およびWCが形成される。さらに、Fの文における語がEのどの語にも対応しないことが可能であるので、元の言語Eの可能な語として「空」トークン「」が提供される。この結果、追加のペアA、B、およびCが形成される。
各語のペアに関して、そのペアの確率、言い換えれば、そのペアの第1の語がそのペアの第2の語を生成した確率が判定される。この確率が文の範囲内で正規化され、カウントと呼ばれる。最初は、すべてのペアの組合せに同等の可能性がある。このため、文の範囲内の各ペアの組合せは、1/xの確率を有し、ここで、xは、空トークンの1つのインスタンスを含め、言語Eの文における語の数である。
ステップ904で、語のペアに関するカウントが検査されて、カウントが、特定のef整列における可能な翻訳と見なされるには低すぎるかどうかが判定される。ステップ904の初回の反復においては、どのカウントも低すぎるとは考えられない。初回の反復後のステップ904の反復において、語のペアに関するカウントが低すぎると考えられる場合、その低いカウントは、空トークンを有する対応するペアに移される。一実施形態では、カウントは、ef整列のEの文における語からの選択がランダムであった場合に獲得されるのと同等か、それより低い場合に低すぎると考えられる。例えば、所与の文のペアにおいて、選択の対象となる言語Eのx個の語(空トークンも含め)が存在し、VAに、1/xに等しいか、それより低いカウントが割り当てられる場合、VAに関するカウントは、Aに関するカウントに加算されて、VAに関するカウントは、そのef整列に関してゼロに設定される。これは、語のペアに関して構成されなければならないモデルの数を減らすために行われる。語のペアが、すべてのef整列においてゼロのカウントを有する場合、その語のペアには、翻訳確率が割り当てられない。
「空」トークンに低いカウント値が割り当てられた後、プロセスは、ステップ906に進み、様々な語のペアに関するカウントが、ef整列のすべてにわたって合計される。これにより、各語のペアに関する合計カウントがもたらされる。次に、同じ第2の語を有する語のペアに関する合計カウントが合計されて、1組の正規化値が形成される。したがって、語Aで終わるすべての語のペアに関する合計カウントが合計されて、Aで終わる語のペアに関する正規化値が形成される。次に、ステップ908で、この正規化値がそれぞれの合計カウントの各カウントに分割されて翻訳確率が生成される。数式(EQ8)では、以下のとおりである。
Figure 0004532863
ただし、t(f|e)は、語fを生成する語eに関する翻訳確率であり、c(f|e)は、整列された文sにおいて判定された語のペア「ef」に関する正規化されたカウントであり、c(f|eは、整列された文sにおける語のペア「ef」に関する正規化されたカウントであり、またnは、言後Eの中の空トークンも含めた異なる語の数である。
ステップ910で、翻訳確率が検査されて、安定した1組の値に収束したかどうかが判定される。これは、通常、現行の訓練反復の翻訳確率を1つまたは複数の以前の反復の翻訳確率と比較することによって行われる。翻訳確率が収束していない場合、プロセスは、ステップ902に戻り、それぞれの翻訳された語/元の語のペアに関する正規化されたカウントが、整列された文の各ペアに関して再び判定される。
第2回の反復中、前回の反復で見出された翻訳された語/元の語のペアに関する翻訳確率を使用して、正規化されたカウントが判定される。詳細には、正規化されたカウントは、次のとおり計算される。
Figure 0004532863
ここで、c(f|e)は、正規化されたカウントであり、t(f|e)は、翻訳された語/元の語のペア「ef」に関する翻訳確率であり、t(f|e)は、語のペア「ef」に関する翻訳確率であり、またxは、言語Eの文の中の空トークンを含めた語の総数である。
次に、プロセスは、翻訳確率が1組の安定した値に収束するまで、ステップ904、906、908、910、および902を繰り返す。翻訳確率が収束すると、翻訳モデルを訓練するプロセスが、ステップ912で終了する。
翻訳モデルが訓練されると、図3のプロセスは、ステップ312に進み、第2の順方向探索が、翻訳モデルに基づく語の対応をベースとする整列モデルと、長さをベースにする整列モデルの組合せを使用して行われる。詳細には、この合成モデルを使用して、図7の剪定済みの格子800のような、長さベースの整列の逆方向走査中に形成された剪定済みの格子における高い確率の整列が特定される。
格子を通る第1の順方向走査と同様に、第2の順方向走査は、現行のポイントに遷移することが可能なすべての先行するポイントからのパス確率を合計することにより、剪定済みの格子における各ポイントに関する順方向状態確率スコアを判定する。
各パス確率は、先行するポイントに関する状態確率スコアと、2つのポイント間のパスで表わされる整列の確率の積である。数式では、以下のとおりである。
Figure 0004532863
ここで、パス_確率jiは、ポイントjからポイントiまでのパス確率であり、状態_確率は、ポイントjの順方向状態確率スコアであり、p(整列)jiは、ポイントjからポイントiまでのパスで表わされる整列の確率である。
合成モデルでは、整列の確率は、長さベースのモデルによって提供される確率と、翻訳モデルによって提供される確率の結合である。前述した長さ結合の確率と同様に、整列の確率は、異なるタイプの整列に関して異なる仕方で計算される。
言語Eの文が言語Fの文と整列されないタイプe整列の場合、整列確率は、次のとおり定義される。
Figure 0004532863
ここで、p(タイプ_e)およびp(l)は、第1の順方向走査に関連して前述したのと同じ定義を有し、同じ仕方で判定され、またp(e)は、言語Eの文で出現するシーケンスの語eの確率である。確率p(e)は、翻訳モデルの訓練中に行われた語の頻度カウントを使用して判定される。各頻度カウントが、コーパスにおけるすべての語に関する合計頻度カウントで割られて、各語に関する確率が提供される。次に、シーケンスeの中の各語の確率が掛け合わされて、シーケンスeの確率が提供される。
言語Fの文が言語Eの文と整列されないタイプf整列の場合、整列確率は、次のとおり定義される。
Figure 0004532863
ここで、p(タイプ_f)およびp(l)は、第1の順方向走査に関連して前述したのと同じ定義を有し、同じ仕方で判定され、またp(f)は、p(e)の判定と同様の仕方であるが、言後Eのコーパスではなく、言語Fのコーパスにおける語の頻度カウントを使用して判定される、言語Fの文においてシーケンスの語fが出現する確率である。
言語Eの1つの文が言語Fの1つの文と整列されるタイプef整列の場合、整列確率は、次のとおり定義される。
Figure 0004532863
ここで、p(タイプ_ef)およびp(l)は、第1の順方向走査に関連して前述したのと同じ定義を有し、同じ仕方で判定され、p(l|l)は、前掲の数式(EQ)3で述べたポアソン分布を使用して判定され、p(e)は、数式(EQ)11におけるのと同じ仕方で判定され、またp(f|e)は、言語Eの文で出現するシーケンスの語eを所与とし、またfの長さを所与として、言語Fの文でシーケンスの語fが出現する確率である。
確率p(f|e)は、語の2つのシーケンスfおよびeの中の語に関する翻訳確率を使用して判定される。1つの特定の実施形態では、この確率は、以下のとおり計算される。
Figure 0004532863
ここで、lは、シーケンスeの中の語の数であり、mは、シーケンスfの中の語の数であり、またt(f|e)は、ステップ310で訓練された翻訳モデルによって提供される語eを語fに翻訳することに関する翻訳確率である。
言語Eの1つの文が言語Fの2つの文と整列されるタイプeff整列の場合、整列確率は、次のとおり定義される。
Figure 0004532863
ここで、p(タイプ_eff)、p(lf1+lf2|l)、p(l)、p(lf1)、およびp(lf2)は、第1の順方向走査に関連して前述したのと同じ定義を有し、同じ仕方で判定され、p(e)は、数式(EQ)11に関して前述したのと同じ仕方で判定され、またp(f1f2|e)は、言語Eの文で出現するシーケンスの語eを所与とし、またf1およびf2の長さの和を所与として、言語Fの文で、シーケンスf1とシーケンスf2の組合せから形成されたシーケンスの語が出現する確率である。この確率は、mがシーケンスf1とf2の結合された長さに設定され、シーケンスf1とf2が言語Fの単一の文として扱われて、前掲の数式(EQ)14を使用して判定された確率である。
言語Eの2つの文が言語Fの1つの文と整列されるタイプeef整列の場合、整列確率は、次のとおり定義される。
Figure 0004532863
ここで、p(タイプ_eef)、p(l|le1+le2)、p(le1)、p(le2)は、第1の順方向走査に関連した前述したのと同じ定義を有し、同じ仕方で判定され、p(e1e2)は、言語Eの文で2つのシーケンスの語e1およびe2が出現する確率であり、この確率は、2つのシーケンスを単一の文で出現するものとして扱いながら、数式(EQ)11に関して前述した頻度カウントに基づいて判定され、またp(f|e1e2)は、言語Eの文で出現するシーケンスe1とe2の組合せによって形成されたシーケンスの語を所与として、またfの長さを所与として、言語Fの文でシーケンスの語fが出現する確率である。この確率は、lをシーケンスe1およびe2の結合された長さに設定し、シーケンスe1とe2を言語Eの単一の文として扱って、前掲の数式(EQ)14を使用して判定される。
この第2の順方向走査に続き、合成モデルを使用して、剪定された格子における各整列(2つのコーパスを所与として)に逆方向状態確率スコアおよび確率スコアを割り当てる第2の逆方向走査が行われる。第1の逆方向走査と同様に、合成モデルを組み込むように変更された数式(EQ)7のバージョンによって計算された合計状態確率スコアを使用して、格子がさらに剪定される。第2の逆方向走査が完了したとき、所与のしきい値を超える確率スコアを有するすべての整列が生成される。一実施形態では、このしきい値は、0.5に設定され、同一の文に関して競合する整列が生成されないことが保証される。というのは、2つの競合する整列がともに、0.5を超える確率を有することは不可能だからである。
図3で説明した方法は、従来の技術に優るいくつかの利点を提供する。従来の技術のいくつかの例においてと同様に、この方法は、語の対応をベースとするモデルを探索空間全体に適用することのコストなしに、語の対応をベースとする整列の精度を有する整列を可能にする。というのは、この方法は、初期のより低コストの方法を使用して格子を剪定してから、最終モデルを適用するからである。ただし、従来の技術とは異なり、この初期探索は、初期探索空間における状態に関する実際の確率の推定を反映するスコアを生成し、これにより、従来の技術で使用されてきたより粗いヒューリスティック方法と比べて、精度を犠牲にすることなく探索空間をさらに剪定することが可能になる。
さらに、この方法により、整列前に2言語辞書の存在を必要とすることなく、語の翻訳に基づく整列が可能になる。したがって、本発明は、翻訳モデルの形成をブートストラップ(bootstrap)して、次に、この翻訳モデルを使用して語の対応をベースとする整列を行うことができる。
また、本発明は、探索帯域を画定することによって探索空間を小さくすること、翻訳モデルから低頻度の翻訳を除去すること、および長さをベースとする整列の逆方向走査中に整列ポイントを剪定することを含め、整列を行うのに必要とされる時間を短縮するいくつかの態様も提供する。
本発明を特定の実施形態に関連して説明してきたが、本発明の趣旨および範囲を逸脱することなく、形態および詳細の変更を行うことが可能であることが、当分野の技術者には認められよう。
本発明を実施することができる一般的な計算環境を示すブロック図である。 2つのコーパスからの文の可能な整列を示す整列図である。 本発明の実施形態におけるコーパスを整列させることを示す流れ図である。 本発明で使用される探索帯域の概念を示す整列格子を示す図である。 探索境界のしきい値の範囲内を横断する推定の最良パスを示す整列格子を示す図である。 拡張された探索帯域、および再計算された推定の最良パスを有する整列格子を示す図である。 剪定された整列格子を示す図である。 本発明の多数の実施形態における翻訳モデルを訓練する方法を示す流れ図である。
符号の説明
100 計算システム環境
110、180 コンピュータ
120 処理ユニット
121 システムバス
130 システムメモリ
131 読取り専用メモリ
132 ランダムアクセスメモリ
133 基本入力/出力システム
134、144 オペレーティングシステム
135、145、185 アプリケーションプログラム
136、146 プログラムモジュール
137、147 プログラムデータ
140 取外し不可能な不揮発性のメモリのインターフェース
141 ハードディスクドライブ
150 取外し可能な不揮発性のメモリのインターフェース
151 磁気ディスクドライブ
152 磁気ディスク
155 光ディスクドライブ
156 光ディスク
160 ユーザ入力インターフェース
161 ポインティングデバイス
162 キーボード
163 マイクロホン
170 ネットワークインターフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
190 ビデオインターフェース
191 モニタ
195 出力周辺インターフェース
196 プリンタ
197 スピーカ

Claims (17)

  1. 第1の情報処理手段、訓練手段および第2の情報処理手段を有する文書処理システムにおいて、第1のコーパスにおける文を第2のコーパスにおける文と整列させる方法であって、
    前記第1の情報処理手段により、第1のコーパスの文境界および第2のコーパスの文境界により形成される整列格子上のポイント間のパスの確率を計算することによって文の長さをベースとする整列モデルを前記第1のコーパスおよび前記第2のコーパスに適用して、前記第1のコーパスにおける少なくとも1つの文に関する文境界を前記第2のコーパスにおける文に関する文境界と整列させて少なくとも1つの整列された文のペアを生成するステップであって、そこでは、前記長さをベースとする整列モデルは、第1のコーパスにおける単一の文が、第2のコーパスにおける2つの文と整列させられる確率を与える整列タイプの確率を含むステップと、
    前記訓練手段により、前記整列された文のペアを使用して、複数の整列された文のペアの中に出現する単語のペアをカウントし、該カウントに基づいて翻訳確率を計算することによって翻訳モデルを訓練するステップと、
    前記第2の情報処理手段により、前記翻訳モデルを前記第1のコーパスおよび前記第2のコーパスに適用して、前記訓練手段により形成され翻訳確率から決定される前記第2のコーパスの文中の単語のシーケンスが与えられる前記第1のコーパス中の文の単語のシーケンスの確率と、前記文の長さをベースとする整列モデルからの確率を乗算することによって、前記第1のコーパスにおける少なくとも1つの文に関する文境界を前記第2のコーパスにおける文に関する文境界と整列させるステップと
    を実行することを特徴とする方法。
  2. 前記文の長さをベースとする整列モデルは、前記第2のコーパスにおける第2の長さの文を所与として、前記第1のコーパスにおける第1の長さの文の確率を示すポアソン分布によって記述される確率を含むことを特徴とする請求項1に記載の方法。
  3. 前記第1の情報処理手段により、文の長さをベースとするモデルを適用する前記ステップは、
    前記第1のコーパスにおける文境界と前記第2のコーパスにおける文境界の整列をそれぞれが表わすすべての可能な文境界整列のサブセットを特定するステップと、
    前記サブセットの中の各文境界整列に関するスコアを特定するステップと
    を含むことを特徴とする請求項1に記載の方法。
  4. 前記すべての可能な文境界整列のサブセットを特定する前記ステップは、前記第1の情報処理手段により、探索帯域を画定する2つの探索境界を設定するステップを含むことを特徴とする請求項3に記載の方法。
  5. 前記第1の情報処理手段により、各文境界整列に関する前記スコアに基づいて推定の最良セットの文境界整列を特定するステップと、
    前記第1の情報処理手段により、前記推定の最良セットの中の前記文境界整列の1つが探索境界のしきい値以内にあることを判定するステップと、
    前記第1の情報処理手段により、少なくとも1つの探索境界を変更して、前記探索帯域よりも多くの可能な文境界整列を含む拡張された探索帯域を画定するステップと、
    前記第1の情報処理手段により、前記拡張された探索帯域の中の各文境界整列に関するスコアを特定するステップと
    をさらに含むことを特徴とする請求項4に記載の方法。
  6. 前記第1の情報処理手段により、前記探索帯域内のいくつかの文境界整列を剪定してさらなる考慮から除外するステップをさらに含むことを特徴とする請求項4に記載の方法。
  7. 前記第2の情報処理手段により、前記翻訳モデルを適用するステップは、さらなる考慮から未だ除外されていない前記剪定で残った前記探索帯域内の文境界整列に関してだけ前記翻訳モデルを適用してスコアを判定するステップを含むことを特徴とする請求項6に記載の方法。
  8. 前記整列された文のペアを使用して翻訳モデルを訓練する前記ステップは、前記訓練手段により、しきい値を超える整列の推定の確率を有する整列された文のペアを使用するステップを含むことを特徴とする請求項1に記載の方法。
  9. 前記整列された文のペアを使用して翻訳モデルを訓練する前記ステップは、前記第1のコーパスにおける低頻度の語を汎用トークンで置き換えるステップを含むことを特徴とする請求項1に記載の方法。
  10. 第1の訓練手段、第2の訓練手段、第1の情報処理手段および第2の情報処理手段を有するシステムにおいて、第1のコーパスを第2のコーパスと整列させる方法であって、
    前記第1の訓練手段により、第1のコーパスにおける文の長さと第2のコーパスにおける文の長さの間の関係をポアソン分布としてモデル化することによって文の長さベースの整列モデルを形成すると共に、前記第2のコーパスの単一の文と整列する第1のコーパス中の単一の文確率を有する整列タイプの確率を設定するステップと、
    前記第1の情報処理手段により、前記第1のコーパスからの第1の文の長さ 、および前記第2のコーパスからの第2の文の長さlを前記ポアソン分布に適用して、尤度p(l|l)=exp(−lr)(lr)lf/(l!)
    を計算し、該尤度と整列タイプの確率とを乗算することによって、長さベースの整列をすることの一部分として前記第1の文が前記第2の文と整列される尤度を判定するステップであって、rは前記第1のコーパスにおける平均の文の長さに対する前記第2のコーパスにおける平均の文の長さの比を表しているステップ
    前記第2の訓練手段により、数の整列された文のペアの中に出現する単語のペアをカウントし、該カウントに基づいて翻訳確率を計算することにより前記文の長さベースの整列に基づいて翻訳モデルを訓練するステップと、
    前記第2の情報処理手段により、前記翻訳モデルおよび前記文の長さベースの整列モデルの組み合わせモデルを使用して、前記翻訳確率および前記整列タイプの確率の関数である整列確率を計算することによって前記第1のコーパスおよび前記第2のコーパスの間の文境界の整列を実行するステップと
    を実行することを特徴とする方法。
  11. 前記文の長さをベースとする整列は、前記第1の情報処理手段により、すべての可能な文境界整列のサブセットを評価するステップを含むことを特徴とする請求項10に記載の方法。
  12. 前記文の長さをベースとする整列は、前記第1の情報処理手段により、文境界整列を剪定してさらなる考慮から除外するステップを含むことを特徴とする請求項10に記載の方法。
  13. 前記翻訳モデルを使用して文境界の整列を行うステップは、前記第2の情報処理手段により、前記文の長さをベースとする整列によって剪定されてさらなる考慮から除外されていない文境界整列を評価するステップを含むことを特徴とする請求項12に記載の方法。
  14. 推定手段、剪定手段、スコアリング手段および特定手段を有する整列システムを使用して文境界に沿って2つのテキストコーパスを整列させる方法であって、
    前記推定手段により、第1の整列モデルを使用して1組の可能な整列ポイントの確率を推定するステップと、
    前記剪定手段により、前記第1の整列モデルから低い推定の確率を受ける可能な整列ポイントを、可能な整列ポイントのセットから取り除くことによって剪定するステップと、
    前記スコアリング手段により、整列ポイントに関するスコアを判定するのに前記第1の整列モデルよりも1つの整列ポイント当たりより多くの計算を必要とする第2の整列モデルを使用して、前記剪定で残った前記可能な整列ポイントにスコアを付けるステップであって、そこでは、前記第2の整列モデルは文の長さベースの整列モデルおよび単語一致ベースの整列モデルの組み合わせモデルから成り、前記文の長さベースの整列モデルは一方のコーパスの2つの文と整列する他方のコーパスの単一の文の確率を与える整列タイプの確率を有するステップと、
    前記特定手段により、前記スコアリング手段からの前記スコアを使用して前記2つのコーパスのセグメントに関する高い確率の整列を特定するステップと
    備えることを特徴とする方法。
  15. 前記第1の整列モデルは、文の長さをベースとする整列モデルであることを特徴とする請求項14に記載の方法。
  16. 前記整列システムは、前記第1の整列モデルを使用して前記推定手段により特定された整列ポイントに基づいて前記単語一致ベースのモデルを訓練する訓練手段をさらに含むことを特徴とする請求項14に記載の方法。
  17. 前記推定手段はポアソン分布を有する第1の整列モデルを使用することを特徴とする請
    求項14に記載の方法。
JP2003302014A 2002-08-27 2003-08-26 2言語コーパスを整列させるための方法および装置 Expired - Fee Related JP4532863B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/229,125 US7349839B2 (en) 2002-08-27 2002-08-27 Method and apparatus for aligning bilingual corpora

Publications (2)

Publication Number Publication Date
JP2004086913A JP2004086913A (ja) 2004-03-18
JP4532863B2 true JP4532863B2 (ja) 2010-08-25

Family

ID=31715261

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003302014A Expired - Fee Related JP4532863B2 (ja) 2002-08-27 2003-08-26 2言語コーパスを整列させるための方法および装置

Country Status (5)

Country Link
US (1) US7349839B2 (ja)
EP (1) EP1396795B1 (ja)
JP (1) JP4532863B2 (ja)
AT (1) ATE491996T1 (ja)
DE (1) DE60335327D1 (ja)

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
AU2003269808A1 (en) * 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
JP3973549B2 (ja) * 2002-12-19 2007-09-12 沖電気工業株式会社 対訳依存構造対応付け装置、方法及びプログラム、並びに、対訳依存構造対応付けプログラムを記録した記録媒体
US8548794B2 (en) * 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
JP3919771B2 (ja) * 2003-09-09 2007-05-30 株式会社国際電気通信基礎技術研究所 機械翻訳システム、その制御装置、及びコンピュータプログラム
ATE421138T1 (de) * 2003-11-12 2009-01-15 Koninkl Philips Electronics Nv Vergabe semantischer etiketten an phrasen für die grammatikerzeugung
US7689412B2 (en) * 2003-12-05 2010-03-30 Microsoft Corporation Synonymous collocation extraction using translation information
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP4652737B2 (ja) * 2004-07-14 2011-03-16 インターナショナル・ビジネス・マシーンズ・コーポレーション 単語境界確率推定装置及び方法、確率的言語モデル構築装置及び方法、仮名漢字変換装置及び方法、並びに、未知語モデルの構築方法、
WO2006042321A2 (en) * 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US7680647B2 (en) * 2005-06-21 2010-03-16 Microsoft Corporation Association-based bilingual word alignment
US20070016397A1 (en) * 2005-07-18 2007-01-18 Microsoft Corporation Collocation translation using monolingual corpora
US7957953B2 (en) * 2005-10-03 2011-06-07 Microsoft Corporation Weighted linear bilingual word alignment model
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US10319252B2 (en) * 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
CN101030197A (zh) * 2006-02-28 2007-09-05 株式会社东芝 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US20080168049A1 (en) * 2007-01-08 2008-07-10 Microsoft Corporation Automatic acquisition of a parallel corpus from a network
CA2675208A1 (en) * 2007-01-10 2008-07-17 National Research Council Of Canada Means and method for automatic post-editing of translations
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) * 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
WO2009004723A1 (ja) * 2007-07-04 2009-01-08 Fujitsu Limited 翻訳支援プログラム、翻訳支援装置および翻訳支援方法
US8180624B2 (en) * 2007-09-05 2012-05-15 Microsoft Corporation Fast beam-search decoding for phrasal statistical machine translation
JP5100445B2 (ja) * 2008-02-28 2012-12-19 株式会社東芝 機械翻訳する装置および方法
US20100017293A1 (en) * 2008-07-17 2010-01-21 Language Weaver, Inc. System, method, and computer program for providing multilingual text advertisments
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8874428B2 (en) 2012-03-05 2014-10-28 International Business Machines Corporation Method and apparatus for fast translation memory search
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
CN104750687B (zh) * 2013-12-25 2018-03-20 株式会社东芝 改进双语语料库的方法及装置、机器翻译方法及装置
US9940324B2 (en) * 2015-03-10 2018-04-10 International Business Machines Corporation Performance detection and enhancement of machine translation
US9934203B2 (en) 2015-03-10 2018-04-03 International Business Machines Corporation Performance detection and enhancement of machine translation
CN106156010B (zh) 2015-04-20 2019-10-11 阿里巴巴集团控股有限公司 翻译训练方法、装置、系统、以及在线翻译方法及装置
CN109344389B (zh) * 2018-08-15 2020-08-18 中国科学院计算技术研究所 一种汉盲对照双语语料库的构建方法和系统
CA3081242A1 (en) * 2019-05-22 2020-11-22 Royal Bank Of Canada System and method for controllable machine text generation architecture

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS61105671A (ja) * 1984-10-29 1986-05-23 Hitachi Ltd 自然言語処理装置
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US6304841B1 (en) * 1993-10-28 2001-10-16 International Business Machines Corporation Automatic construction of conditional exponential models from elementary features
DE69818796T2 (de) * 1997-06-26 2004-08-05 Koninklijke Philips Electronics N.V. Maschinenorganisiertes verfahren und vorrichtung zum übersetzen einer wortorganisierten textquelle in einen wortorganisierten zieltext
US6092034A (en) * 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
US6665642B2 (en) * 2000-11-29 2003-12-16 Ibm Corporation Transcoding system and method for improved access by users with special needs

Also Published As

Publication number Publication date
JP2004086913A (ja) 2004-03-18
EP1396795B1 (en) 2010-12-15
DE60335327D1 (de) 2011-01-27
US7349839B2 (en) 2008-03-25
EP1396795A3 (en) 2007-06-20
US20040044530A1 (en) 2004-03-04
EP1396795A2 (en) 2004-03-10
ATE491996T1 (de) 2011-01-15

Similar Documents

Publication Publication Date Title
JP4532863B2 (ja) 2言語コーパスを整列させるための方法および装置
US7957953B2 (en) Weighted linear bilingual word alignment model
Mairesse et al. Stochastic language generation in dialogue using factored language models
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
US7680647B2 (en) Association-based bilingual word alignment
US7275029B1 (en) System and method for joint optimization of language model performance and size
JP4724377B2 (ja) 自然言語理解(NLU)システムにおける規則ベース文法に関するスロットおよび前終端記号(preterminal)に関する統計モデル
US7103531B2 (en) Method and apparatus for improving statistical word alignment models using smoothing
US7983898B2 (en) Generating a phrase translation model by iteratively estimating phrase translation probabilities
US20140350913A1 (en) Translation device and method
US11276394B2 (en) Method for re-aligning corpus and improving the consistency
US20110295897A1 (en) Query correction probability based on query-correction pairs
JP2004171575A (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
CN109614499B (zh) 一种词典生成方法、新词发现方法、装置及电子设备
US20220414332A1 (en) Method and system for automatically generating blank-space inference questions for foreign language sentence
JP2019082931A (ja) 検索装置、類似度算出方法、およびプログラム
CN111462751A (zh) 解码语音数据的方法、装置、计算机设备和存储介质
CN111611814B (zh) 一种基于相似度感知的神经机器翻译方法
CN113033204A (zh) 信息实体抽取方法、装置、电子设备和存储介质
Fusayasu et al. Word-error correction of continuous speech recognition based on normalized relevance distance
JP4738753B2 (ja) 文法オーサリングにおけるセグメント化あいまい性(segmentationambiguity)の自動的な解決
CN115862616A (zh) 语音识别方法
JP6261669B2 (ja) クエリ校正システムおよび方法
Park et al. Unsupervised abstractive dialogue summarization with word graphs and POV conversion
CN111078886B (zh) 基于dmcnn的特殊事件提取系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060623

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060818

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061120

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070305

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20070305

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070306

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070425

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100319

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100607

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100611

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4532863

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130618

Year of fee payment: 3

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100607

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees