JP2004038976A

JP2004038976A - 用例ベースの機械翻訳システム

Info

Publication number: JP2004038976A
Application number: JP2003185956A
Authority: JP
Inventors: Ming Zhou; シュウ　ミン; Jin-Xia Huang; ファン　ジンシャ; Chang Ning Huang; ファン　チャンニン（トム）; Wei Wang; ワン　ウェイ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2002-06-28
Filing date: 2003-06-27
Publication date: 2004-02-05
Anticipated expiration: 2023-06-27
Also published as: US20080133218A1; CN100440150C; JP2008262587A; US7353165B2; US20040002848A1; JP4993762B2; CN1475907A; JP4694111B2

Abstract

【課題】翻訳するソース言語センテンスのフラグメントを用例ベース中の用例のソース言語部分にマッチさせることによって機械翻訳を行うこと。
【解決手段】用例ベース中のすべての該当する用例を識別すると、それらの用例のフレーズアライメントを行う。フレーズアライメントでは、各用例中のターゲット言語センテンスのフラグメント、同じ用例中のソース言語センテンスのマッチしたフラグメントに対してアラインさせる。次いで、翻訳コンポーネントは、マッチした用例のアラインさせたターゲット言語フレーズをソース言語センテンス中のマッチしたフラグメントと置き換える。
【選択図】　　　　図２

Description

【０００１】
【発明の属する技術分野】
本発明は機械翻訳に関する。より詳細には、本発明は、用例ベースの機械翻訳システムまたは翻訳メモリシステムに関する。
【０００２】
【従来の技術】
機械翻訳とは、ソース言語の入力センテンス（またはセンテンスフラグメント）が機械翻訳システムに供給されるプロセスである。機械翻訳システムは、ソース言語の入力の１つまたは複数の翻訳を、ターゲット言語センテンスまたはセンテンスフラグメントとして出力する。用例ベースの機械翻訳（ＥＢＭＴ）システムを始めとして、何種類かの機械翻訳システムがある。
【０００３】
ＥＢＭＴシステムは、一般に、翻訳の実行において、２種類の基本的な動作を行う。これらの動作には、マッチングおよびトランスファーが含まれる。マッチング動作は、ソース言語の入力ストリングに「最も近いマッチ」を用例データベースから検索する。トランスファー動作は、そのマッチした用例に対する翻訳を生成する。特に、トランスファー動作は、実際には、マッチした２言語の用例の間のアライメントを行うことによって、入力ストリングの翻訳を得るプロセスである。本明細書で使用している「アライメント」とは、ソース言語センテンス中の翻訳の中のフラグメントに、ターゲット言語センテンス（または用例）中のどのフラグメントが対応しているかを決定することを意味する。
【０００４】
ＥＢＭＴシステムによっては、解析木や論理形式などの構文構造に基づいて類似マッチングを行うものもある。もちろん、これらのシステムでは、構文構造を得るために入力を構文解析する必要がある。このタイプのマッチング方法は、用例を適切に利用し、用例ベースの適用範囲を広げることができる。しかし、これらのタイプのシステムは、ソフトウェアのローカライゼーションなど、特定の分野においては問題が生じる。ソフトウェアのローカライゼーションにおいては、ソフトウェアのドキュメンテーションおよびコードが、様々な言語にローカライズ、すなわち翻訳される。ソフトウェアのマニュアル中で使用される用語は、浅い構文情報（単語セグメンテーション、品詞タグなど）でさえ誤っていることが多いため、従来のＥＢＭＴシステムの構文解析の正確度がきわめて低くなる。
【０００５】
また、このようなシステムは、用例ベースのメンテナンスコストが高い。これは、用例ベースの更新が必要になった場合にはいつでも、用例ベースに格納されている全ての用例の構文解析および訂正を、人が行わなければならないことによる。
【０００６】
その他のＥＢＭＴシステムおよび翻訳メモリシステムは、ストリングマッチングを利用している。これらのタイプのシステムでは、一般に、用例のマッチングが、通常、入力フラグメントと用例の間の編集距離（ｅｄｉｔ　ｄｉｓｔａｎｃｅ）である類似メトリック（ｓｉｍｉｌａｒｉｔｙ　ｍｅｔｒｉｃ）を使用して行われる。しかし、編集距離メトリック（ｅｄｉｔ　ｄｉｓｔａｎｃｅ　ｍｅｔｒｉｃ）は、完全なセンテンスまたは完全なセンテンスセグメントがマッチした場合にのみ、良好なマッチング正確度が提供される。
【０００７】
また、これまで、様々なアライメント技術が、特にフレーズのアライメントのために、使用されてきた。これまでのアライメント技術のほとんどを、異なる２種類のカテゴリの一方に分類することができる。構造方法は、パーサの助けを借りて、ソース言語およびターゲット言語のセンテンスまたはフラグメントの間の対応部分を見つける。この場合も、ソース言語とターゲット言語のフラグメントを構文解析し、それによって対になった解析木を得る。次いで、その対の解析木の構造上の制約に基づいて、構造的な対応部分が見つけられる。上述のように、パーサは、技術的分野などの特定の分野においては、困難な問題を呈する。
【０００８】
文法のないアライメントシステムにおいては、パーサを使用することによってではなく、共起性情報および幾何学的情報を利用することによって対応部分が見つけられる。共起性情報は、コーパス中に、ソース言語のフラグメントとターゲット言語のフラグメントの共起性があるかどうかを調べることによって得られる。幾何学的情報は、アライメントのスペースを制約するために使用する。捜し出された対応部分には文法がない。単語の対応部分が抽出されると、それらの対応部分は用例ベースに格納される。これは、ソース言語センテンスがあると、それに対応するターゲット言語センテンス、および単語対応情報が用例ベースに格納されることを意味する。翻訳の間、入力ストリングにマッチするフラグメントがその用例のソース言語側にあった場合にのみ、用例ベース中の用例が活性化される。
【０００９】
【非特許文献１】
Ｂｒｏｗｎ　ｅｔ　ａｌ．，　”Ｔｈｅ　Ｍａｔｈｅｍａｔｉｃｓ　ｏｆ　Ｓｔａｔｉｓｔｉｃａｌ　Ｍａｃｈｉｎｅ　Ｔｒａｎｓｌａｔｉｏｎ：　Ｐａｒａｍｅｔｅｒ　Ｅｓｔｉｍａｔｉｏｎ”，　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，　１９（２），　ｐｐ．　２６３−３１１　（１９９３）
【非特許文献２】
Ｋｅｒ　ｅｔ　ａｌ．，　”Ａ　Ｃｌａｓｓ−ｂａｓｅｄ　Ａｐｐｒｏａｃｈ　ｔｏ　Ｗｏｒｄ　Ａｌｉｇｎｍｅｎｔ”，　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ　Ｖｏｌ．　２３，　Ｎｕｍ．　２，　ｐｐ．　３１３−３４３　（１９９７）
【非特許文献３】
Ｂｒｏｗｎ，　Ｐ．Ｆ．，　”Ａ　Ｓｔａｔｉｓｔｉｃａｌ　Ａｐｐｒｏａｃｈ　ｔｏ　Ｌａｎｇｕａｇｅ　Ｔｒａｎｓｌａｔｉｏｎ”，ＣＯＬＩＮＧ−８８，　Ｖｏｌ．　１，　ｐｐ．　７１−７６　（１９９８）
【非特許文献４】
Ｐａｓｃａｌｅ，　”Ａ　Ｐａｔｔｅｒｎ　Ｍａｔｃｈｉｎｇ　Ｍｅｔｈｏｄ　ｆｏｒ　Ｆｉｎｄｉｎｇ　Ｎｏｕｎ　ａｎｄ　Ｐｒｏｐｅｒ　Ｎｏｕｎ　Ｔｒａｎｓｌａｔｉｏｎ　Ｆｒｏｍ　Ｎｏｉｓｙ　Ｐａｒａｌｌｅｌ　Ｃｏｒｐｏｒａ”，　Ｃｏｍｐｕｔａｔｉｏｎａｌ　Ｌｉｎｇｕｉｓｔｉｃｓ，　２１（４），　ｐｐ．　２２６−２３３（１９９５）
【００１０】
【発明が解決しようとする課題】
本発明は、ソース言語入力のフラグメントを、用例ベース中の用例の諸部分にマッチさせることによって、機械翻訳を行う。全ての該当する用例を用例ベースにおいて識別する。この場合、各用例内で、ターゲット言語センテンスのフラグメントを、ソース言語センテンスのフラグメントにアラインさせる。次いで、翻訳コンポーネントが、用例のアラインさせたターゲット言語フレーズを、ソース言語入力中のマッチしたフラグメントと置き換える。
【００１１】
【課題を解決するための手段】
一実施形態では、位置マークされた用語出現頻度／逆ドキュメント頻度（ｐｏｓｉｔｉｏｎ−ｍａｒｋｅｄ　ｔｅｒｍ　ｆｒｅｑｕｅｎｃｙ／ｉｎｖｅｒｔｅｄ　ｄｏｃｕｍｅｎｔ　ｆｒｅｑｕｅｎｃｙ）インデックススコアに基づいて、用例のマッチングを行う。用例がカバーするソース言語入力中のブロックについてＴＦ／ＩＤＦ重みを計算することにより、最良なブロック組合せを見つける。ブロック組合せ中の各ブロックの最良な用例も、ＴＦ／ＩＤＦ重みを計算することによって見つける。
【００１２】
一実施形態では、識別された該当用例が、アライメントコンポーネントに供給される。アライメントコンポーネントは、最初に、単語のアライメントを行って、考慮中の用例対のソース言語センテンスとターゲット言語センテンスの間に、アライメントアンカポイントを得る。次いで、ソース言語センテンスとターゲット言語センテンスの間の全ての連続アライメントが、不連続アライメントとして生成される。各アライメントについてスコアが計算され、最良のものがその翻訳として選択される。
【００１３】
本発明の別の実施形態によれば、翻訳出力について信頼メトリック（ｃｏｎｆｉｄｅｎｃｅ　ｍｅｔｒｉｃ）が計算される。信頼メトリックを使って、翻訳出力のうちユーザの留意が必要な部分をハイライト表示する。これは、修正の可能性があるエリアに、ユーザの注意を向ける。
【００１４】
【発明の実施の形態】
本発明は、機械翻訳システムに関する。しかし、本発明をより詳細に説明する前に、本発明を使用できる環境の一実施形態について説明する。
【００１５】
図１は、本発明を実施することができる、適切なコンピューティングシステム環境１００の例を示す。コンピューティングシステム環境１００は、適切なコンピューティング環境の一例であって、本発明の使用または機能の範囲に関していかなる限定も示唆するものではなない。また、コンピューティング環境１００は、その例示的動作環境１００中に例示してあるコンポーネントのいずれか１つまたは組合せに対して何らか依存するもの、あるいはそれらに関する要件を有するものとして解釈すべきものでもない。
【００１６】
本発明は、多数のその他の汎用または専用コンピューティングシステムの環境あるいは構成で、動作可能である。本発明で使用するのに適した周知のコンピューティングシステム、環境、および／または構成には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサに基づくシステム、セットトップボックス、プログラム可能なコンシューマ電子機器、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスのいずれかを含む分散コンピューティング環境などが非限定的に含まれる。
【００１７】
本発明を、プログラムモジュールなど、コンピュータによって実行されるコンピュータ実行可能命令の一般的な状況において説明することができる。一般に、プログラムモジュールには、特定のタスクを実行し、または特定の抽象データ型を実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明はまた、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される、分散コンピューティング環境においても実施することができる。分散コンピューティング環境においては、プログラムモジュールを、メモリストレージデバイスを含めて、ローカルとリモート両方のコンピュータストレージ媒体に配置することができる。
【００１８】
図１を参照すると、本発明を実施するための例示的システムは、コンピュータ１１０の形で汎用コンピューティングデバイスを含む。コンピュータ１１０のコンポーネントには、処理装置１２０、システムメモリ１３０、および、システムメモリを始めとする様々なシステムコンポーネントを処理装置１２０に結合するシステムバス１２１を非限定的に含めることができる。システムバス１２１は、様々なバスアーキテクチャのいずれかを使った、メモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含め、いくつかのタイプのバス構造のうちのいずれかであってよい。このようなアーキテクチャには、例として、業界標準アーキテクチャ（ＩＳＡ）バス、マイクロチャネルアーキテクチャ（ＭＣＡ）バス、拡張ＩＳＡ（ＥＩＳＡ）バス、ビデオエレクトロニクス標準委員会（Ｖｉｄｅｏ　Ｅｌｅｃｔｒｏｎｉｃｓ　Ｓｔａｎｄａｒｄｓ　Ａｓｓｏｃｉａｔｉｏｎ）（ＶＥＳＡ）ローカルバス、および、メザニンバスとしても知られる周辺コンポーネント相互接続（ＰＩＣ）バスが非限定的に含まれる。
【００１９】
コンピュータ１１０は、一般に、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０がアクセス可能ないずれかの利用可能な媒体であってよく、これには揮発性媒体および不揮発性媒体の、リムーバブルおよび非リムーバブル媒体を含む。例として、コンピュータ可読媒体は、コンピュータストレージ媒体および通信媒体を非限定的に含むことができる。コンピュータストレージ媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を記憶するためのいずれかの方法または技術で実装された、揮発性および不揮発性の、リムーバブルおよび非リムーバブル媒体を含む。コンピュータストレージ媒体には、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、ディジタル多用途ディスク（ＤＶＤ）またはその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたはその他の磁気ストレージデバイス、あるいは、所望の情報を記憶するために使用でき、コンピュータ１１０がアクセス可能ないずれかのその他の媒体が非限定的に含まれる。通信媒体は、一般に、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを、搬送波またはその他の転送メカニズムなどの変調データ信号中に組み込み、いずれかの情報送達媒体を含む。「変調データ信号」という用語は、その特性の１つまたは複数が、その信号中の情報を符号化するように設定または変更された信号を意味する。通信媒体には、例として、有線ネットワークまたは直接有線接続などの有線媒体、および、音響、ＦＲ、赤外線およびその他のワイアレス媒体などのワイアレス媒体が非限定的に含まれる。上記のいずれかの組合せも、コンピュータ可読媒体の範囲内に含まれるものとする。
【００２０】
システムメモリ１３０は、読出し専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２などの、揮発性および／または不揮発性メモリの形のコンピュータストレージ媒体を含む。起動時などに、コンピュータ１１０内のエレメント間の情報の転送を助ける基本的なルーチンを含む、基本入出力システム１３３（ＢＩＯＳ）は、一般にＲＯＭ１３１に記憶されている。ＲＡＭ１３２は、一般に、処理装置１２０が即時にアクセスすることが可能であり、かつ／または処理装置１２０が動作させている、データおよび／またはプログラムモジュールを含む。図１には、例として、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７を非限定的に示してある。
【００２１】
コンピュータ１１０は、その他のリムーバブル／非リムーバブルの揮発性／不揮発性コンピュータストレージ媒体も含むことがある。例にすぎないが、図１には、非リムーバブルの不揮発性磁気媒体からの読出し、またはそれへの書込みを行うハードディスクドライブ１４１、リムーバブル不揮発性磁気ディスク１５２からの読出し、またはそれへの書込みを行う磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭまたはその他の光媒体など、リムーバブル不揮発性光ディスク１５６からの読出し、またはそれへの書込みを行う光ディスクドライブ１５５を示してある。例示的動作環境で使用できる、その他のリムーバブル／非リムーバブルの揮発性／不揮発性コンピュータストレージ媒体には、磁気テープカセット、フラッシュメモリカード、ディジタル多用途ディスク、ディジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどが非限定的に含まれる。ハードディスクドライブ１４１は、一般に、インタフェース１４０などの非リムーバブルメモリインタフェースを介して、システムバス１２１に接続される。磁気ディスクドライブ１５１および光ディスクドライブ１５５は、一般に、インタフェース１５０などのリムーバブルメモリインタフェースによって、システムバス１２１に接続される。
【００２２】
上記に説明し、図１に示してある、ドライブおよびそれらに関連するコンピュータストレージ媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータの記憶を、コンピュータ１１０に提供する。図１では、例えば、ハードディスクドライブ１４１を、オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７を記憶しているものとして示してある。これらのコンポーネントが、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７と同じであってもよいし、あるいは異なってもよいことに注意されたい。ここでは、少なくとも異なるコピーであることを示すために、オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７に異なる番号を付してある。
【００２３】
ユーザは、キーボード１６２、マイクロフォン１６３、および、マウス、トラックボールまたはタッチパッドなどのポインティングデバイス１６１など、入力装置を介して、コマンドおよび情報をコンピュータ１１０に入力することができる。その他の入力装置（図示せず）には、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどを含めることができる。これらおよびその他の入力装置は、システムバスに結合されているユーザ入力インタフェース１６０を介して処理装置１２０に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）など、その他のインタフェースおよびバス構造によって接続することができる。モニタ１９１またはその他のタイプの表示デバイスも、ビデオインタフェース１９０などのインタフェースを介して、システムバス１２１に接続される。モニタに加えて、コンピュータは、スピーカ１９７およびプリンタ１９６など、その他の周辺出力装置を含む場合もある。それらは、出力周辺インタフェース１９５を介して接続することができる。
【００２４】
コンピュータ１１０は、リモートコンピュータ１８０など、１台または複数のリモートコンピュータへの論理接続を使った、ネットワーク化された環境で動作することができる。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、またはその他の一般的なネットワークノードであってよく、一般に、コンピュータ１１０に関して上記に説明したエレメントの多くまたは全てを含む。図１に示す論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１および広域ネットワーク（ＷＡＮ）１７３を含むが、その他のネットワークを含む場合もある。このようなネットワーキング環境は、オフィス、企業規模のコンピュータネットワーク、イントラネットおよびインターネットではよく見られる。
【００２５】
コンピュータ１１０をＬＡＮネットワーキング環境で使用する場合は、それを、ネットワークインタフェースまたはアダプタ１７０を介してＬＡＮ１７１に接続する。ＷＡＮネットワーキング環境で使用する場合、コンピュータ１１０は、一般に、モデム１７２、またはインターネットなどのＷＡＮ１７３を介して通信を確立するためのその他の手段を含む。モデム１７２は、内蔵でも外付けでもよく、ユーザ入力インタフェース１６０またはその他の適切なメカニズムを介して、システムバス１２１に接続することができる。ネットワーク化された環境では、コンピュータ１１０に関連して説明したプログラムモジュール、またはその一部をリモートメモリストレージデバイス中に記憶することができる。図１には、非限定的な例として、リモートアプリケーションプログラム１８５をリモートコンピュータ１８０に存在するものとして図示してある。図示のネットワーク接続は例示的なものであり、コンピュータ間の通信リンクを確立するその他の手段も使用できることを理解されよう。
【００２６】
本発明を、図１を参照して説明したコンピュータシステムなどの、コンピュータシステム上で実施できることに留意されたい。しかし、本発明は、サーバ、メッセージ処理専用のコンピュータ、または、本発明の異なる部分がその異なる部分において実施される、分散コンピューティングシステム上で実施することができる。
【００２７】
図２は、本発明の一実施形態による翻訳エンジン２００の構成図である。翻訳エンジン２００は、ソース言語の入力センテンス（またはセンテンスフラグメント）をソース言語入力２０２として受け取る。次いで、翻訳エンジン２００は、用例ベース２０４および用語ベース２０６にアクセスし、ターゲット言語出力２０８を生成する。一例では、ターゲット言語出力２０８は、ソース言語入力２０２のターゲット言語への翻訳である。
【００２８】
用例ベース２０４は、センテンスをアラインさせた二ヶ国語用例コーパス２１２に基づいて用例ベース生成器２１０から生成された、単語をアラインさせたターゲット言語およびソース言語の用例のデータベースである。一例では、アラインさせた二ヶ国語用例コーパス２１２は、対になったセンテンス（ソース言語センテンスと、それらのセンテンスをターゲット言語で翻訳したセンテンスを整列させたもの、または対にしたもの）を含む。用例ベース生成器２１０は、位置マークされた用語出現頻度／逆ドキュメント頻度（Ｐ−ＴＦ／ＩＤＦ）インデックス付けと呼ばれるものでインデックス付けされた、用例ベース２０４を生成する。
【００２９】
ＴＦ／ＩＤＦは、十分に発達した情報検索技術であり、効率的なドキュメント検索を可能にするために使用される単語のインデックス付けの一種である。インデックスファイル中の各用語（見出し語、または品詞（ＰＯＳ）タグ付き用語など）について、ＴＦ／ＩＤＦ重み（またはスコア）が計算される。ＴＦ／ＩＤＦ重みが高ければ高いほど、用語の重要性は増す。ＴＦ／ＩＤＦ重みは、以下の式によって求められる。
【００３０】
【数４】

【００３１】
上式で、Ｎ＝用例ベース（ＥＢ）中の用例の数であり、
ｎ_ｉ＝ＥＢ中の用語ｉの総出現数であり、
ｎ_ｊ＝用例ｊの総用語数であり、
ｎ_ｉｊ＝用例ｊ中の用語ｉの総出現数であり、
ＴＦ_ｉｊ＝用例ｊ中の、用語ｉの正規化された頻度であり、
ＴＦＩＤＦ_ｉｊ＝用例ｊ中の、用語ｉのＴＦＩＤＦ重みである。
【００３２】
単語のインデックスは効率的な用例検索を可能にし、また、センテンスの類似の計算において考慮すべき要因を反映すると考えられるため、本発明ではこのようなシステムを利用している。このような要因には、各用例中のマッチした単語の数（マッチした単語が多いほど、用例の重みは高くなる）、用例中の異なる単語の異なる重要性（用語の頻度が高いほど、用語の重みは低くなる）、所与の用例の長さ（用例の長さが長いほど、用例の重みは低くなる）、および用例中の余分な、またはマッチしない単語の数（余分な、またはマッチしない単語が多いほど、用例の重みは少なくなる）が含まれる。
【００３３】
入力センテンスに含まれている各用語と、それにマッチする用例のマッチング情報を保持するために、従来のＴＦ／ＩＤＦ技術を、位置マークされたＴＦ／ＩＤＦフォーマットに拡張してある。これは、用語の重みだけでなく、各用例中の用語の位置も反映する。表１は、用語「ａｎｔｉ−ｖｉｒｕｓ　ｔｏｏｌ」および「ｔｙｐｅ　ｏｆ」の例示的なＰ−ＴＦ／ＩＤＦインデックスファイルを示す。
【００３４】
【表１】

【００３５】
表１に示すように、検索速度を上げるために、本発明の一実施形態では、単一用語によるインデックス付けの代わりに複用語によるインデックス付けを使用している。表１において、最初の列は、インデックスとして記載された複用語からなる単位を示している。２番目の列は、用例ベース中のその複用語の平均ＴＦ／ＩＤＦ重みを示している。３番目の列は、関連する用例のインデックス番号、用例中のその複用語の重み、および用例センテンス中のその複用語の位置を示す。たとえば、複用語「ａｎｔｉ−ｖｉｒｕｓ　ｔｏｏｌ」の平均ＴＦ／ＩＤＦ重みは０．３３である。それを、インデックス番号１０２４５４などで識別される用例の中に見つけることができる。それが見つかる用例センテンスにおけるその特定の複用語の重みは、０．４５であり、用例センテンスにおけるその複用語の位置は、位置番号２である。複用語、「ｔｙｐｅ　ｏｆ」は、用例番号１０００４４中で、位置２および１２において２度見つけることができる。それは、用例１０００７４中の位置７などにも見つけることができる。このように、用例ベース生成器２１０は、表１に示すようにインデックス付けされた用例を生成する、いずれかの周知の用例ベース生成器であってよい。一例では、生成器２１０は、ＴＦ／ＩＤＦ重みを計算し（または、それらがすでに計算されている場合には、それらを単にインデックス付けし）、また、用例センテンスにおけるその複用語の位置を識別する。
【００３６】
用例ベース２０６は、用語ベース生成器２１４によって生成される。用語ベース生成器２１４はまた、二カ国語用例コーパス２１２にアクセスする。用語ベース生成器２１４は、単に、ソース言語およびターゲット言語の個々の用語の対応部分を生成するだけである。
【００３７】
次に、エンジン２００の全体的な動作を、図２、およびエンジン２００の全体的な動作の構成図である図３を参照しながら説明する。一例では、エンジン２００は、前処理コンポーネント２１６、用例マッチングコンポーネント２１８、フレーズアライメントコンポーネント２２０、翻訳コンポーネント２２２、および後処理コンポーネント２２４を含む。
【００３８】
エンジン２００は、まず、翻訳するソース言語の入力センテンス２０２を受け取る。これを、図３のブロック２２６で表す。次に、前処理コンポーネント２１６は、ソース言語入力２０２に対して前処理を行う。一例では、前処理コンポーネント２１６は、ソース言語入力２０２中の単語の語幹形式を識別する。もちろん、品詞のタグ付けの使用やその他の前処理技術など、その他の前処理も行うことができる。しかし、本発明は表層形式にも使用することができ、したがって、前処理が必要ない場合もある。いずれにしても、前処理を、図３のブロック２２８で表す。
【００３９】
前処理を行った後、用例マッチングコンポーネント２１８は、前処理を行ったソース言語入力を、用例ベース２０４中の用例に対してマッチさせる。コンポーネント２１８はまた、全ての候補単語シーケンス（またはブロック）を見つける。次いで、各ブロックの最良の用例である、最良のブロックの組合せが捜し出される。これを、図３のブロック２３０、２３２、および２３４で表す。これについては、以下に、図４および図５に関してより詳細に説明する。
【００４０】
各ブロックに該当する用例２３６を得て、フレーズアライメントコンポーネント２２０に供給する。次いで、対応するターゲット言語ブロックを捜し出し、ソース言語中のマッチしたフレーズを、その捜し出したターゲット言語の対応部分と置き換える。これを、図３のブロック２３５および２３８で表す。このようにして、ターゲット言語の対応部分を捜し出すことをフレーズアライメントコンポーネント２２０が行う。これについては、以下で、図６〜図１０に関してより詳細に説明する。
【００４１】
ソース言語入力に、複用語マッチングおよびフレーズアライメントの段階で翻訳されなかったいくつかの用語が依然として残っている場合がある。したがって、翻訳コンポーネント２２２は、用語ベース２０６にアクセスして、まだ翻訳されていない用語の翻訳を得る。コンポーネント２２２はまた、アラインさせたソース言語のフレーズを、ターゲット言語の用例の関連する部分と置き換える。これを、図３のブロック２４０で表す。次いで、その結果が、後処理コンポーネント２２４に供給される。
【００４２】
後処理コンポーネント２２４は、図３のブロック２４２で表すように、翻訳結果について信頼測度を計算し、ブロック２４４で表すように、翻訳結果の、ユーザの注意を必要とする関連する部分をオプションでハイライト表示することができる。これは、計算されたが、それらに関連する信頼測度が低い関連用例中の翻訳出力に対して、ユーザの注意を向けさせるものである。したがって、一例として、ターゲット言語出力２０８は、関連エリアを示すようにハイライト表示された翻訳結果を含む。
【００４３】
図４は、用例マッチングコンポーネント２１８の動作をよりよく説明する流れ図である。まず、上述のＰ−ＴＦ／ＩＤＥインデックスにアクセスすることによって、用例ベースから全ての該当する用例を得る。これを、図４のブロック２５０で表す。これを行うために、用例マッチングコンポーネント２１８は、単に、入力センテンス中にも見つけられる複用語シーケンスを含む用例を捜し出すだけである。もちろん、Ｐ−ＴＦ／ＩＤＦインデックスにアクセスすることによって、複用語シーケンスを含む用例の識別子を容易に見つけることができる（例えば、表１の第３列で）。次いで、ブロック２５０において識別された該当する用例のそれぞれについて、選択した該当用例と入力センテンスの間でマッチするブロックを全て識別する。これを、ブロック２５２で表す。
【００４４】
図５は、「マッチしているブロック」の意味をよりよく示す。入力センテンスが７つの用語（用語１〜用語７）で構成されており、そのそれぞれが、この用例中の単語であると仮定する。また、入力センテンスが、複用語３〜４（入力センテンス中の用語３および４を含む）、複用語４〜５（入力センテンス中の用語４および５を含む）、複用語５〜６（入力センテンス中の用語５および６を含む）、および複用語６〜７（入力センテンス中の用語６および７を含む）として識別される、インデックスに記載された４つの複用語を含むと仮定する。次に、同じ複用語連続シーケンスが、ある用例（図５中の用例１など）中に出現すると仮定する。また、その複用語シーケンスが用例１中では連続していると仮定する。したがって、ソース言語入力センテンス中の複用語を結合して、単一ブロック（ブロック３〜７）にすることができる。
【００４５】
しかし、入力センテンス中のマッチしているブロックは、互いにオーバラップする可能性がある。例えば、用例２は、入力センテンス中でブロック３〜５としてブロック化することができる連続複用語シーケンスを含むことがわかる。用例３は、入力センテンス中でブロック５〜７としてブロック化することができる連続複用語シーケンスを含む。用例４は、入力センテンス中でブロック４〜５としてブロック化することができる連続複用語シーケンスを含み、用例５は、入力センテンス中でブロック６〜７としてブロック化することができる連続複用語シーケンスを含む。
【００４６】
したがって、いくつかの異なるブロック組合せを導出することができる。このようなブロック組合せは、ブロック３〜７、ブロック３〜５＋６〜７、ブロック４〜５＋ブロック６〜７、または単にブロック５〜７だけ等である。入力センテンスを、これらの異なる方法のいずれによってもブロック化することができ、しかも、依然として、翻訳入力センテンスの諸部分を翻訳するために、用例を見つけることができる。したがって、用例マッチングコンポーネント２１８は、各ブロック組合せのＴＦ／ＩＤＦ重みを計算することによって、入力センテンス中の最良の用語ブロック組合せを見つける。これを、図４のブロック２５４で表す。
【００４７】
本発明の一実施形態によれば、最良のブロック組合せの問題を、最短パス問題としてみることができる。したがって、動的計画法アルゴリズムを使用することができる。本発明の一実施形態によれば、各ブロック組合せに関連する「エッジの長さ」（またはパスの長さ）を、以下の式によって計算する。
【００４８】
【数５】

【００４９】
上式で、
ｉ＝入力センテンス中の「エッジ」（ブロック）インデックス番号であり、
ｍ＝「エッジ」ｉの開始点の単語インデックス番号であり、
ｎ＝「エッジ」ｉの終了点の単語インデックス番号であり、
ｋ＝「エッジ」ｉの各用語の単語インデックス番号であり、
ＴＦＩＤＦ_ｋ＝ＥＢ中の用語ｋの平均ＴＦ／ＩＤＦ重みであり、
ＥｄｇｅＬｅｎ_ｉ＝ブロックｉの重みである。
【００５０】
したがって、識別された各ブロック組合せは、その重みが、上式に示すように計算される。したがって、入力センテンスの各ブロック組合せは、それらに関連する重みまたはパスの長さを有する。
【００５１】
次に、各ブロックに関連する用例が識別され、識別された各用例と入力センテンスの間の類似が、以下のように計算される。
【００５２】
【数６】

【００５３】
上式で、
Ｋ＝用例ｊおよび入力センテンスの両方に含まれる共通の用語の総数であり、
ＴＦＩＤＦ_ｋｊ＝用例ｊ中の用語ｋのＴＦ／ＩＤＦ重みであり、
Ｓｉｍｉｌａｒｉｔｙ_ｊ＝用例ｊと入力センテンスの間でマッチする重みである。
【００５４】
各用例に関連するＴＦＩＤＦ重みを見つけるステップを、図４のブロック２５６で表す。
【００５５】
したがって、用例マッチングコンポーネント２１８は、入力センテンスを分割することによってできる、異なるブロック組合せのそれぞれに関連するスコアを計算し終わっている。コンポーネント２１８はまた、異なるブロック組合せ中で識別される、全てのブロックに関連する各用例についても、スコアを計算し終わっている。コンポーネント２１８は、次いで、用例のリストを、十分な類似スコア、または十分な類似スコアとブロック組合せスコアの組合せを有するものだけに絞ることができ、図２中の該当する用例２３６をフレーズアライメントコンポーネント２２０に供給する。
【００５６】
フレーズアライメントコンポーネント２２０が、実際はソースセンテンス（またはフラグメント）とターゲットセンテンス（またはフラグメント）を含むセンテンス（またはテキストフラグメント）の対である用例を、また、その用例中のソースセンテンスの、翻訳する入力センテンスに対してマッチした部分を指定する境界情報を、入力として受け付けることがわかるであろう。したがって、フレーズアライメントコンポーネント２２０のジョブは、所与の用例のターゲットセンテンス中の可能な翻訳部分を、同じ用例のソースセンテンス中のマッチしたフレーズまたは単語シーケンスにアラインさせることであり、また、最良のターゲットフラグメントを、そのソースセンテンスのマッチした部分の翻訳として、したがって、入力センテンスのマッチした部分（翻訳する入力センテンスと、用例のソースセンテンスの間でマッチした部分）の翻訳として選択することである。これを行うために、フレーズアライメントコンポーネント２２０は、フレーズアラインプロセスにおいて、まず、一連の単語アライメントをアンカとして生成する。次いで、コンポーネント２２０は、これらのアンカに基づき、用例内のソースセンテンスのマッチした部分について、同じ用例内のターゲットセンテンス中の対応するフレーズを見つけることを試みる。
【００５７】
図６は、本発明の一実施形態による、アンカを得るための単語アライメントプロセスをよりよく示す流れ図である。図６は、単語アライメントプロセスにおいては、考慮中の用例（ソース言語入力センテンス３０１およびターゲット言語センテンス３００を含む）が、二カ国語辞書アライナ３０２として動作する第１のアライメントコンポーネントに入力されることを示す。アライナ３０２は、異なる言語の２つの単語を、どのようにして相手の言語に翻訳することができるかを記述する。これを行うための様々な方法がある。このタイプの翻訳信頼度を評価するためのいくつかのメトリックスには、翻訳確率（例えば、非特許文献１参照）、ダイス係数（例えば、非特許文献２参照）、相互情報（例えば、非特許文献３参照）、およびｔスコア（例えば、非特許文献４参照）が含まれる。
【００５８】
したがって、二カ国語辞書アライナ３０２は、ソースセンテンスから用例のターゲットセンテンス３００への直接の単語翻訳である、高信頼度の単一単語アンカポイントを設定する。これらは、後で、フレーズアライメントの間に使用する。
【００５９】
次に、用例のターゲットセンテンス３００が非セグメント化言語（中国語など）である場合には、単語セグメンテーションを行う。これは、様々な周知の方法のいずれによっても行うことができ、本発明はいずれかの特定の単語セグメンテーション技術に限定されるわけではない。用例のターゲットセンテンス３００の単語セグメンテーションを、図６のブロック３０４で表す。
【００６０】
次いで、拡張二カ国語辞書に基づくアライナ３０６を利用する。拡張二カ国語辞書に基づくアライナ３０６は、二カ国語辞書に基づいて計算された単語の類似を利用するだけでなく、ソースセンテンス中のある位置を、どのようにしてターゲットセンテンス中の別の位置にアラインさせることができるかを記述するための歪みモデルも使用する。二カ国語辞書アライナ３０２と同様に、利用することができる様々な、異なる歪みモデルがある。このようなモデルのいくつかとして、絶対的歪み（上述のＢｒｏｗｎらの著による非特許文献などに記載）相対的オフセット（上述のＢｒｏｗｎらの著による非特許文献などに記載）、隠れマルコフモデル（ＨＭＭ）ベースのシステムおよび構造制約システム（同じく、上述のＢｒｏｗｎらの著による非特許文献に記載）が挙げられる。
【００６１】
単語アライメントおよび歪みモデリングの後でも、いくつかの部分的なアライメントが存在する。したがって、一カ国語辞書にアクセスして、文字を単語に、また単語をフレーズにマージする。これを、図６のブロック３０８で表す。言い換えれば、二カ国語辞書が非常に大きくても、言語の基本的な複雑さのために、それがカバーする範囲は依然としてきわめて限定される。一カ国語辞書を使うことによって、いくつかの別個の単語（フレーズの一部であるため、分離すべきではない単語）を、フレーズとして識別することができる。したがって、フレーズのマージングを行う。
【００６２】
同様に、アラインしていない単語をアラインさせるために、いずれかの周知の統計的アライメントコンポーネントを使用することができる。これをブロック３１０で表す。このような統計的アライメント技術は周知であり、単に、統計的アライメントのスペースを制約するためのしきい値が提供されるだけである。
【００６３】
これらの項目をすべて考慮して、単語アライメントシステムが単語アライメントの結果３１２を出力する。
【００６４】
図６に示す実施形態では、単語アライメントメカニズムは、二カ国語辞書アライナ３０２、歪みアライナモデル３０６、フレーズマージングコンポーネント３０８、および統計的アライメントコンポーネント３１０からの翻訳情報を含むが、その他の情報ソースも同様に使用することができる。例えば、上述のｔスコアを、コンテキスト情報として使用することができる。いずれの場合も、単語アライメントの結果３１２は、ソース言語センテンス３０１とターゲット言語センテンス３００の間の高信頼アライメントを反映するアンカポイントを提供する。これらのアンカポイントは、フレーズアライメントの間に使用される。
【００６５】
図７は、本発明によるフレーズアライメントの一実施形態を示す流れ図である。フレーズアライメントコンポーネントは、用例の単語アライメントの結果３１２、および、用例マッチングコンポーネント２１８から生成された、用例のソースセンテンス中のマッチしたブロックの境界を識別する境界情報を入力として受け取る。
【００６６】
これらの入力に基づいて、フレーズアライメントコンポーネントは、ソース言語センテンス中のマッチしたブロックに対応する、全ての可能なターゲット言語の候補フラグメントを見つける。これを、図７のブロック３５０で表す。次に、フレーズアライメントコンポーネントは、識別された各候補フラグメントについてスコアを計算する。これをブロック３５２で表す。計算したスコアから、フレーズアライメントコンポーネントは、最良の候補、または所定の数の候補を翻訳出力として選択する。これを、図７のブロック３５４で表す。
【００６７】
次に、これらのステップを、より詳細に説明する。ステップ３５０で、全ての可能なターゲット言語候補フラグメントを見つける際、本発明はこのタスクを２つの部分に分ける。本発明は、全ての可能な連続する候補フラグメント、および全ての可能な不連続の候補フラグメントを見つける。図８および図９は、連続および不連続のフラグメントを示す。
【００６８】
連続するソース言語センテンスのフラグメントが、常に、連続するターゲット言語のフラグメントに対応するならば、フレーズアライメントのタスクは容易である。しかし、常にそうであるとは限らない。例えば、英語や中国などの言語では、図８に見られるケースであることが多い。図８は、単語（または単語シーケンス）Ａ、Ｂ、Ｃ、Ｄを含むソース言語センテンスを示す。図８はまた、ターゲット言語の単語（または単語シーケンス）Ｅ、Ｆ、Ｇ、Ｈを含む、対応するターゲット言語の用例のセンテンス（またはその一部）も示す。ここでの説明のために、連続するフラグメントを以下のように定義する。
【００６９】
ＳＦＲＡＧをソース言語センテンス中のフラグメント、ＴＦＲＡＧをターゲット言語センテンス中のフラグメントと仮定する。ＳＦＲＡＧ中のアラインさせた単語の全てが、ＴＦＲＡＧ中の単語にアラインしており、しかもＴＦＲＡＧ中の単語とのみアラインしている場合、ＳＦＲＡＧはＴＦＲＡＧに対して連続しており、またその反対が言える。そうでない場合には、不連続である。
【００７０】
例えば、図８において、ターゲット言語フラグメントＥ　Ｆ　Ｇ　Ｈは、フラグメントＡ　Ｂ　Ｃに対して連続フラグメントではない。なぜならば、Ａ　Ｂ　Ｃは、ソース言語センテンス中では連続しているが、Ａ　Ｂ　Ｃに対応するＥ　Ｆ　Ｈが、ターゲット言語センテンス中で連続していないからである。その代わりに、ターゲット言語センテンス中の単語（または単語シーケンス）Ｇは、ソース言語センテンス中の単語（または単語シーケンス）Ｄに対応している。
【００７１】
これら難しい点に対処するために、本発明の一実施形態では、図９に示すように、異なる状況を２つの異なるカテゴリに分けている。図９は、単語（または単語シーケンス）Ａ〜Ｆを含むソース言語センテンスと、単語（または単語シーケンス）Ｇ〜Ｎを含むターゲット言語センテンスの２つの場合を示す。最初の場合では、翻訳が求められている英語の言語フラグメント（Ｃ　Ｄ）が、図示のターゲットの用例中の、連続的なターゲット言語フラグメント（フラグメントＨ　Ｉ
Ｊ）に対応していることがわかる。これを「連続している」という。
【００７２】
２番目の場合では、連続的なソース言語フラグメントＡ　Ｂが、不連続のターゲット言語フラグメント（Ｇ　Ｈ　Ｌ　Ｍ）に対応している。しかし、範囲外のターゲット言語単語（または単語シーケンス）Ｉ　Ｊ　Ｋも、連続的なソース言語フラグメントＤ　Ｅに対応している。これを、不連続と呼ぶ。したがって、本発明は、全ての可能な連続フラグメント、次いで、全ての可能な不連続フラグメントを生成する。
【００７３】
図１０は、本発明の一実施形態において、ソース言語センテンス中のフラグメントに対して、ターゲット言語センテンス中の全ての可能な連続フラグメントがどのように識別されるかを示す流れ図である。まず、ソース言語およびターゲット言語のセンテンス（または前処理したセンテンス）を、単語アライメントの結果３１２とともに受け取る。これを、図１０のブロック３７０で表す。
【００７４】
アライメントが求められているソース言語フラグメントの境界情報も受け取る。現在の例の境界情報を、（ａ，ｂ）で表す。ここで、ａおよびｂは、ソース言語センテンス中の単語の位置である。したがって、図９において、アライメントが求められているソース言語センテンス中のフラグメントがＣ　Ｄであり、それぞれの文字が単語を表すとすれば、ソース言語センテンスにおいては、単語Ｃが単語位置３にあり、単語Ｄが単語位置４にあるため、境界情報は（３，４）になる。境界情報を受け取るステップを、図１０のブロック３７２で表す。
【００７５】
アライメントコンポーネントは、次いで、単語アライメントの結果に基づいて、ソース言語センテンス中の境界ａ，ｂを有するフラグメントにアラインしている、ターゲット言語センテンス中の単語集合（ＳＥＴ）を見つける。これを、図１０のブロック３７４で表す。
【００７６】
フレーズアライメントコンポーネントは、次いで、ターゲット言語センテンスのフラグメント（ｃ，ｄ）が、ソース言語フラグメントにアラインさせることができる、ターゲット言語センテンス中の最小限の可能アライメント（ＭｉｎＰＡ）になるように、ターゲットセンテンス中の（ＳＥＴ）中の単語の最も左側の単語位置（ｃ）、および最も右側の単語位置（ｄ）を見つける。これをブロック３７６で表す。次に、ＭｉｎＰＡのターゲット言語フラグメントの境界を左右に拡張する。それぞれの方向において一貫性のない（ｉｎｃｏｎｓｉｓｔｅｎｔ）アライメントアンカ（ＳＬ入力中の、ａ，ｂの外側の単語に対してアライメントを示すアンカ）にぶつかるまで拡張する。左右の境界を、それぞれ、左または右の境界（絶えず移動している）が一貫性のないアンカポイントにぶつかるまで、ターゲット言語センテンス内の１単語だけ移動させる。その点において、フラグメントの境界のその方向の拡張が終了する。したがって、新しいターゲット言語の境界は（ｅ，ｆ）になり、最大限の可能アライメント（ＭａｘＰＡ）を定義する。これをブロック３７８で表す。
【００７７】
次に、単語の集合ＡＰを得る。ＡＰは、ＭｉｎＰＡとＭａｘＰＡの間の全ての可能な連続サブストリングであり、その全てがＭｉｎＰＡを含んでいなければならない。連続ということは、その連続するサブストリング内に単語の途切れが全く存在しないことを意味する。これをブロック３８０で表す。次いで、ＭｉｎＰＡとＭａｘＰＡとＡＰを結合した集合を、ソース言語センテンス中の所与のフラグメントに対する、ターゲット言語中の全ての可能な連続アライメントとして返す。これをブロック３８２で表す。
【００７８】
次いで、（以下に、より詳細に説明するように、）全ての連続アライメントを採点する。アライメントの採点をブロック３８４で表す。全ての可能な連続アライメントを得るステップを、ソース言語入力中の各フラグメントについて実施する。
【００７９】
図１１は、全ての可能な不連続アライメントをどのように見つけるかを示す流れ図である。この場合も、不連続アライメントとは、図８、および図９の２番目の例で見られるような、連続ソースフラグメントが不連続のターゲットフラグメントに対応するアライメントを意味する。
【００８０】
全ての可能な連続フラグメントを得るために、フレーズアライメントコンポーネントは、まず、図１０のブロック３７０および３７２に関して説明したように、入力および境界を受け取る。次に、システムは、単語アライメントの結果に基づいて、ソース言語センテンス中の選択されたフラグメント（ａ，ｂ）にアラインさせた、用例（またはターゲット）センテンス中の単語集合（ＳＥＴ１）を見つける。これは、図１０のブロック３７４で表すステップと同じである。
【００８１】
次に、フレーズアライメントコンポーネントは、ＳＥＴ１の一部にアラインしているが、ソース言語センテンス中の（ａ，ｂ）の範囲の外にある、ソースセンテンス中の単語集合（ＳＥＴ２）を見つける。これを、図１１のブロック３８６で表す。
【００８２】
次に、ＳＥＴ２が、ソース言語センテンスにおいて連続しているかどうかを判断する。連続していない場合には、フレーズのアライメントは計算されない。これを、ブロック３８８および３９０で表す。しかし、ＳＥＴ２がソース言語センテンスにおいて連続している場合には（ＳＥＴ２中に単語の途切れが全くないことを意味する）、処理はブロック３９２に続く。
【００８３】
ブロック３９２で、フレーズアライメントコンポーネントは、ソース言語センテンス中のＳＥＴ２を含む連続単語集合（ＳＥＴ３）を得る。次に、ＳＥＴ３の、全ての可能なアライメントを得る。これを、一例では、図１０に関して説明したアルゴリズムを使って行う。ＳＥＴ３の全ての可能なアライメントを見つけるステップを、図１１のブロック３９４で表す。
【００８４】
次いで、全てのアライメントを採点し、ＳＥＴ３の最良のアライメントＳＥＴ４を選択する。これをブロック３９６で表す。
【００８５】
次いで、ＳＥＴ中の最も左側の位置（ｉ）および最も右側の位置（ｊ）を捜し出す。これをブロック３９８で表す。次いで、ＳＥＴ４をシーケンス（ｉ，ｊ）から取り除く。これをブロック４００で表す。
【００８６】
次いで、単語シーケンス（ｉ，ｊ）からＳＥＴ４を取り除いたものを、（ａ，ｂ）のＭｉｎＰＡとして識別する。これをブロック４０２で表す。
【００８７】
次いで、図１０のブロック３７８に関して説明したように、ＭｉｎＰＡを拡張してＭａｘＰＡを得る。これを図１１のブロック４０４で表す。
【００８８】
この場合も、ＡＰを、そのすべてがＭｉｎＰＡを含む、ＭｉｎＰＡとＭａｘＰＡの間の全ての可能な連続サブストリングとして得る。これを、図１１のブロック４０６で表す。次いで、ブロック４０８で表すように、ＭｉｎＰＡとＭａｘＰａとＡＰを結合したものを返す。次いで、ブロック４１０で表すように、返した可能な不連続アライメントのそれぞれを採点する。
【００８９】
本発明の一実施形態によれば、可能なアライメントのそれぞれに関連するスコアを以下の式によって表す。
重み＝　Ｐ　（ｍ｜ｌ）　Ｐ　（Δｋ｜ｍｌ）　Ｐ　（Δｊ｜ｍｌ）　　　　　（６）
上式で、
ｍ＝ＳＬフラグメントの長さであり、
ｌ＝ＴＬフラグメントの長さであり、
ｋ＝ＳＬセンテンス中の内容語の数であり、
ｊ＝ＳＬセンテンス中の機能語の数であり、
Δｊ＝｜ＴＬのｊ−ＳＬのｊ｜であり、
Δｋ＝｜ＴＬのｋ−ＳＬのｋ｜である。
【００９０】
しかし、その他のスコアリング技術も、同様に使用することができる。
【００９１】
最後に、ソース言語の単語およびフレーズを、アラインさせたターゲット言語の単語およびフレーズと置き換えた後、翻訳出力のそれぞれについて信頼レベルを計算する。システム２００中の翻訳コンポーネント２２２または後処理コンポーネント２２４が、これを行うことができる。いずれの場合も、一実施形態では、以下のように、翻訳信頼レベルが決定される。
ＣｏｎＬ　＝　ｃ_ｌ×ｌｏｇ　（ＡｌｉｇｎＣｏｎ×１０）　＋　ｃ_２×ｌｏｇ　（ＴｒａｎｓＰｅｒｃｅｎｔ×ｌ０）
＋　ｃ_３×ｌｏｇ　（１０／Ｅｘａｍｐｌｅ＿ｎｕｍ）　＋　ｃ_４×ｌｏｇ　（１０／Ｖａｌｉｄ＿ｂｌｏｃｋ＿ｎｕｍ）　（７）
【００９２】
【数７】

【００９３】
上式において、
ＣｏｎＬは前記翻訳信頼レベルであり、
ｃ_１、ｃ_２、ｃ_３、ｃ_４は定数であり、
ＡｌｉｇｎＣｏｎはアライメントの信頼レベルであり、
ＴｒａｎｓＰｅｒｃｅｎｔは加重翻訳率であり、
Ｅｘａｍｐｌｅ＿ｎｕｍは、使用した用例の番号であり、
Ｖａｌｉｄ＿ｂｌｏｃｋ＿ｎｕｍは、入力ストリングの翻訳の中のフラグメント番号であり、
ＰｈｒＳＬは、所与の入力ストリングに関連する、用例中のＳＬフレーズであり、
ＰｈｒＴＬは、用例の翻訳の中のＴＬ対応部分であり、
｜ＰｈｒＴＬ｜は、ＰｈｒＴＬの単語番号であり、
Ｃ_{ｉ．．．ｊ}は、ＳＬ単語ｉとＴＬ単語ｊの間の接続（ｃｏｎｎｅｃｔｉｏｎ）であり、
Ｃｏｎｆ（Ｃ_{ｉ．．．ｊ}）は、単語アライメントの信頼レベルである。
【００９４】
したがって、翻訳信頼レベルは、ターゲット言語の対応部分の、アライメント信頼レベル、アラインしている単語の信頼度、およびアラインしている、およびアラインしていない単語の数に基づく。システムは、出力の諸部分に信頼レベルを示すので、それによって、ユーザは、特に吟味を要する低信頼度の翻訳出力、およびユーザの注意を要するエリアを識別することができる。
【００９５】
したがって、本発明が、品質および速度の両方において、従来のシステムよりも、用例マッチング性能および検索性能を向上させる用例マッチング方法を使用していることがわかろう。同様に本発明は、従来のシステムに勝る正確度および速度をもたらす、フレーズアライメントにおいて最良候補を選択するための単語／フレーズアライメント技術およびスコア機能を使用している。最後に、本発明は、機械が生成した翻訳の品質を表し、また、ユーザの吟味を要する特定の翻訳部分についてはそれをハイライト表示する翻訳信頼度予測方法を使用している。
【００９６】
本発明を特定の実施形態を参照して説明してきたが、当業者は、本発明の趣旨および範囲から逸脱することなく、形態および詳細に変更を加えることが可能であることを認識されよう。
【図面の簡単な説明】
【図１】本発明を使用できる環境の構成図である。
【図２】本発明の一実施形態による翻訳エンジンの構成図である。
【図３】図２に示すシステムの全体的な動作を示す流れ図である。
【図４】本発明の一実施形態による用例のマッチングを示す流れ図である。
【図５】本発明の一実施形態による、入力センテンスに対応する複数の異なる用例を示す図である。
【図６】本発明の一実施形態による単語のアライメントを示すデータフロー図である。
【図７】本発明の一実施形態によるフレーズのアライメントを示す流れ図である。
【図８】連続および不連続アライメントを示す図である。
【図９】連続および不連続アライメントを示す図である。
【図１０】本発明の一実施形態による連続アライメントの生成を示す流れ図である。
【図１１】本発明の一実施形態による不連続アライメントの生成を示す流れ図である。
【符号の説明】
１００　コンピューティングシステム環境
１１０　コンピュータ
１２０　処理装置
１２１　システムバス
１３０　システムメモリ
１３１　読出し専用メモリ（ＲＯＭ）
１３２　ランダムアクセスメモリ（ＲＡＭ）
１３３　基本入出力システム（ＢＩＯＳ）
１３４　オペレーティングシステム
１３５　アプリケーションプログラム
１３６　その他のプログラムモジュール
１３７　プログラムデータ
１４０　メモリインタフェース
１４１　ハードディスクドライブ
１４４　オペレーティングシステム
１４５　アプリケーションプログラム
１４６　その他のプログラムモジュール
１４７　プログラムデータ
１５０　インタフェース
１５１　磁気ディスクドライブ
１５２　リムーバブル不揮発性磁気ディスク
１５５　光ディスクドライブ
１５６　リムーバブル不揮発性光ディスク
１６０　ユーザ入力インタフェース
１６１　ポインティングデバイス
１６２　キーボード
１６３　マイクロフォン
１７０　ネットワークインタフェースまたはアダプタ
１７１　ローカルエリアネットワーク（ＬＡＮ）
１７２　モデム
１７３　広域ネットワーク（ＷＡＮ）
１８０　リモートコンピュータ
１８５　リモートアプリケーションプログラム
１９０　ビデオインタフェース
１９１　モニタ
１９５　出力周辺インタフェース
１９６　プリンタ
１９７　スピーカ
２００　翻訳エンジン
２０２　ソース言語入力センテンス
２０４　用例ベース
２０６　用語ベース
２０８　ターゲット言語出力
２１０　用例ベース生成器
２１２　二カ国語用例コーパス
２１４　用語ベース生成器
２１６　前処理コンポーネント
２１８　用例マッチングコンポーネント
２２０　フレーズアライメントコンポーネント
２２２　翻訳コンポーネント
２２４　後処理コンポーネント
２３６　該当する用例
３００　ターゲット言語センテンス
３０１　ソース言語の入力センテンス
３０２　二カ国語辞書アライナ
３０６　拡張二カ国語辞書に基づくアライナ（歪みアライナモデル）
３０８　フレーズマージングコンポーネント
３１０　統計的アライメントコンポーネント
３１２　単語アライメントの結果

Claims

ソース言語（ＳＬ）入力を、ターゲット言語（ＴＬ）による翻訳出力にするための機械翻訳を行う方法であって、
前記ＳＬ入力のフラグメントを、用例ベース中の用例のＳＬフラグメントとマッチさせるステップと、
前記ＳＬ入力中の全てのマッチしたブロックを、用例中の１つまたは複数のＳＬフラグメントとマッチした、前記ＳＬ入力中の用語ブロックとして識別するステップと、
前記マッチしたブロックのブロック組合せを選択して前記ＳＬ入力の１つまたは複数のフラグメントをカバーするステップと、
前記選択したブロック組合せ中の各ブロックについて、そのブロックに関連する用例を識別するステップと、
識別した用例のＴＬ部分を、前記ＳＬ入力の前記１つまたは複数のフラグメントとマッチする、前記識別した用例のＳＬ部分にアラインさせるステップと、
前記アラインさせた部分に基づいて、翻訳出力を供給するステップと
を含むことを特徴とする方法。
前記翻訳出力を供給するステップは、複数の可能な翻訳出力を出力するステップを含むことを特徴とする請求項１に記載の方法。
各翻訳出力について信頼測度を計算するステップをさらに含むことを特徴とする請求項２に記載の方法。
前記計算するステップは、
次式のように、前記信頼測度を翻訳信頼レベルとして計算するステップを含み、
ＣｏｎＬ　＝　ｃ_ｌ×ｌｏｇ　（ＡｌｉｇｎＣｏｎ×１０）　＋　ｃ_２×ｌｏｇ　（ＴｒａｎｓＰｅｒｃｅｎｔ×ｌ０）
＋　ｃ_３×ｌｏｇ　（１０／Ｅｘａｍｐｌｅ＿ｎｕｍ）　＋　ｃ_４×ｌｏｇ　（１０／Ｖａｌｉｄ＿ｂｌｏｃｋ＿ｎｕｍ）　（７）

ここで、
ＣｏｎＬは前記翻訳信頼レベル、
ｃ_１、ｃ_２、ｃ_３、ｃ_４は定数、
ＡｌｉｇｎＣｏｎはアライメントの信頼レベル、
ＴｒａｎｓＰｅｒｃｅｎｔは加重翻訳率、
Ｅｘａｍｐｌｅ＿ｎｕｍは、前記識別した用例を識別する、使用した用例の番号、
Ｖａｌｉｄ＿ｂｌｏｃｋ＿ｎｕｍは、考慮中の可能なＴＬ翻訳の中のフラグメント番号、
ＰｈｒＳＬは、所与の入力ストリングに関連するＳＬフレーズ、
ＰｈｒＴＬは、前記ＳＬ入力の前記可能な翻訳の中のＴＬ対応部分、
｜ＰｈｒＴＬ｜は、ＰｈｒＴＬの単語番号、
Ｃ_{ｉ．．．ｊ}は、ＳＬ単語ｉとＴＬ単語ｊの間の接続、
Ｃｏｎｆ（Ｃ_{ｉ．．．ｊ}）は、単語アライメントの前記翻訳信頼レベル
であることを特徴とする請求項３に記載の方法。
前記翻訳出力の、ユーザの注意を要する部分を識別するステップをさらに含むことを特徴とする請求項３に記載の方法。
前記ＳＬ入力のフラグメントを用例のＳＬフラグメントとマッチさせるステップは、
前記ＳＬ入力中の複用語を識別するステップと、
インデックス複用語を含む用例を識別する用例識別子を含む、前記用例ベースの複用語インデックスにアクセスするステップを含むことを特徴とする請求項１に記載の方法。
前記複用語インデックスにアクセスするステップは、前記用例中で前記複用語が存在する単語位置を表す単語位置情報を含む、前記用例ベースの複用語インデックスにアクセスするステップと
を含むことを特徴とする請求項６に記載の方法。
前記複用語インデックスにアクセスするステップは、前記用例中の前記複用語の用語頻度／逆ドキュメント頻度（ＴＦ／ＩＤＦ）スコアを表すスコアを含む、前記用例ベースの複用語インデックスにアクセスするステップを含むことを特徴とする請求項７に記載の方法。
前記複用語インデックスにアクセスするステップは、前記用例ベース全体にわたる前記複用語の代表的なＴＦ／ＩＤＦスコアを表すコーパススコアを含む、前記用例ベースの複用語インデックスにアクセスするステップを含むことを特徴とする請求項８に記載の方法。
前記そのブロックに関連する用例を識別するステップは、前記ブロックを含む各用例に対応するブロックスコアを計算するステップと、前記ブロックスコアに基づいて、前記ブロックに関連する用例を識別するステップと
を含むことを特徴とする請求項１に記載の方法。
前記ブロックスコアを計算するステップは、
以下のように前記ブロックスコアを計算するステップを含み、

上式において、
Ｋ＝用例ｊおよび前記ＳＬ入力の両方に含まれる共通の用語の総数、
ＴＦＩＤＦ_ｋｊ＝用例ｊ中の用語ｋのＴＦ／ＩＤＦ重み、
Ｓｉｍｉｌａｒｉｔｙ_ｊ＝前記用例ｊと前記ＳＬ入力の間でマッチする重み
であることを特徴とする請求項１０に記載の方法。
前記ブロック組合せを選択するステップは、
前記識別したブロックの異なる組合せのブロック組合せスコアを計算するステップと、
前記ブロック組合せスコアに基づいてＮ個の最良のブロック組合せを識別するステップと
を含むことを特徴とする請求項１に記載の方法。
前記ブロック組合せスコアを計算するステップは、次式を含み、

ここで、
ｉ＝前記ＳＬ入力中の「エッジ」（ブロック）インデックス番号、
ｍ＝「エッジ」ｉの開始点の単語インデックス番号、
ｎ＝「エッジ」ｉの終了点の単語インデックス番号、
ｋ＝「エッジ」ｉの各用語の単語インデックス番号、
ＴＦＩＤＦ_ｋ＝用例ベース中の用語ｋの平均のＴＦ／ＩＤＦ重み、
ＥｄｇｅＬｅｎ_ｉ＝ブロックｉの重みであることを特徴とする請求項１２に記載の方法。
ソース言語（ＳＬ）入力の機械翻訳を行って、ターゲット言語（ＴＬ）による翻訳出力にするため方法であって、
用例ベースから前記ＳＬ入力のフラグメントに対応する用例を選択するステップと、
前記選択した用例のＴＬ部分を前記ＳＬ入力の前記フラグメントに対応するＳＬ部分にアラインさせるステップと
を含み、
前記アラインさせるステップは、各用例について
単語アライメントを実行して、前記ＳＬ部分と前記ＴＬ部分の間のアンカアライメントポイントを識別するステップと、
前記アンカアライメントポイントに基づいて、前記ＴＬ部分と前記ＳＬ部分の間の連続アライメントを見つけるステップと、
前記ＴＬ部分と前記ＳＬ部分の間の不連続アライメントを見つけるステップと、
前記連続および不連続アライメントから前記ＳＬ入力を翻訳して前記翻訳出力にするステップと
によるものであることを特徴とする方法。
前記連続および不連続アライメントに基づいて複数の翻訳出力を生成するステップと、
各翻訳出力についてスコアを計算するステップと、
少なくとも１つの翻訳出力を選択するステップと
を含むことを特徴とする請求項１４に記載の方法。
前記選択した翻訳出力について信頼測度を計算するステップと、
しきい値レベル以下の信頼測度を持った、前記翻訳出力の１つまたは複数の部分を識別するステップ
をさらに含むことを特徴とする請求項１５に記載の方法。
前記連続アライメントを見つけるステップは、アラインされる前記ＳＬ部分のフラグメントの境界を定義する、前記ＳＬ入力中の単語の位置を表すＳＬ境界情報を得るステップを含むことを特徴とする請求項１４に記載の方法。
前記連続アライメントを見つけるステップは、前記アンカアライメントポイントに基づいて、前記ＳＬ部分にアラインしている、前記用例の前記ＴＬ部分中の単語の境界位置を識別するＴＬ境界情報を得て、最小限の可能アライメント（ＭｉｎＰＡ）を得るステップをさらに含むことを特徴とする請求項１７に記載の方法。
前記連続アライメントを見つけるステップは、前記ＴＬ境界情報によって識別した境界を、一貫性のないアライメントアンカポイントに到達するまで境界を拡張することによって、最大限の可能アライメント（ＭａｘＰＡ）を識別するステップをさらに含むことを特徴とする請求項１８に記載の方法。
前記連続アライメントを見つけるステップは、ＭｉｎＰＡとＭａｘＰＡの間の全てのアライメントを生成するステップをさらに含み、前記全てのアライメントはＭｉｎＰＡを含むことを特徴とする請求項１９に記載の方法。
全ての不連続アライメントを見つけるステップは、前記アンカアライメントポイントに基づいて、アラインさせる前記ＳＬ部分に対応する前記用例の前記ＴＬ部分中の単語集合を識別するステップを含むことを特徴とする請求項１７に記載の方法。
全ての不連続アライメントを見つけるステップは、前記用例の前記ＳＬ部分中の単語集合を識別するステップをさらに含み、前記単語集合は前記ＴＬ部分中の前記単語集合の一部にアラインしているが、前記ＳＬ境界情報の外側にあることを特徴とする請求項２１に記載の方法。
全ての不連続アライメントを見つけるステップは、前記ＳＬ部分中の前記単語集合が連続している場合に、前記用例の前記ＳＬ部分および前記ＴＬ部分中の前記単語集合の、全ての可能な連続アライメントを見つけるステップを含むことを特徴とする請求項２２に記載の方法。
全ての不連続アライメントを見つけるステップは、前記ＴＬ部分中の前記単語集合から、前記ＳＬ部分中の、前記ＳＬ境界情報の外側にある単語にアラインしている単語を取り除いて、最小限の可能なアライメント（ＭｉｎＰＡ）を得るステップをさらに含むことを特徴とする請求項２２に記載の方法。
全ての不連続アライメントを見つけるステップは、ＭｉｎＰＡの境界を一貫性のないアライメントアンカポイントに到達するまで拡張して、最大限の可能アライメント（ＭａｘＰＡ）を得るステップをさらに含むことを特徴とする請求項２４に記載の方法。
全ての不連続アライメントを見つけるステップは、ＭｉｎＰＡとＭａｘＰＡの間の前記ＴＬ部分から連続するサブストリングを生成するステップを含み、前記サブストリングの全てがＭｉｎＰＡを含むことを特徴とする請求項２５に記載の方法。
前記単語アライメントを実行するステップは、二カ国語辞書にアクセスして、前記用例の前記ＳＬ部分と前記ＴＬ部分の間の単語翻訳を表す辞書情報を得るステップを含むことを特徴とする請求項１４に記載の方法。
前記単語アライメントを実行するステップは、前記用例の前記ＴＬ部分が非セグメント化言語の場合に、前記用例に対して単語セグメント化を実行するステップをさらに含むことを特徴とする請求項２７に記載の方法。
前記単語アライメントを実行するステップは、歪みモデルアライナを適用して、前記ＳＬ部分中の単語を、単語の位置に基づいて前記ＴＬ部分中の単語にアラインさせるステップをさらに含むことを特徴とする請求項２７に記載の方法。
前記単語アライメントを実行するステップは、単一言語辞書にアクセスして、前記ＴＬ部文中の文字を単語にマージし、かつ、前記ＴＬ部分中の単語をフレーズにマージするステップをさらに含むことを特徴とする請求項２９に記載の方法。
前記単語アライメントを実行するステップは、前記ＳＬ部分と前記ＴＬ部分の、まだアラインしていない単語の間の統計的アライメントを実行するステップをさらに含むことを特徴とする請求項３０に記載の方法。
用例ベース中の用例に基づいて、ソース言語（ＳＬ）入力をターゲット言語（ＴＬ）の翻訳出力にする、用例に基づく機械翻訳システムにおける単語アライメントシステムであって、
二カ国語辞書にアクセスして、選択した用例のＳＬ部分とＴＬ部分の間の単語翻訳を表す辞書情報を得る二ヶ国語辞書アライナと、
前記二カ国語辞書に結合されており、前記ＳＬ部分中の単語を、単語の位置に基づいて、前記選択した用例の前記ＴＬ部分中の単語にアラインさせるように構成された歪身モデルアライナと、
前記歪みモデルアライナに結合されており、前記ＴＬ部分中の文字を単語にマージし、かつ、前記ＴＬ部分中の単語をフレーズにマージするように構成された一カ国語辞書アライナと、
前記一カ国語辞書アライナに結合されており、前記用例の前記ＳＬ部分と前記ＴＬ部分のまだアラインさせていない単語の間の統計的アライメントを実行するように構成された統計的アライナと
を含むことを特徴とする単語アライメントシステム。
前記二カ国語辞書アライナに結合され、前記用例に対して単語セグメンテーションを実行するように構成された単語セグメンタをさらに含むことを特徴とする請求項３２に記載の単語アライメントシステム。