JP2004171575A - 句の間の翻訳関係を学習するための統計的な方法および装置 - Google Patents

句の間の翻訳関係を学習するための統計的な方法および装置 Download PDF

Info

Publication number
JP2004171575A
JP2004171575A JP2003389979A JP2003389979A JP2004171575A JP 2004171575 A JP2004171575 A JP 2004171575A JP 2003389979 A JP2003389979 A JP 2003389979A JP 2003389979 A JP2003389979 A JP 2003389979A JP 2004171575 A JP2004171575 A JP 2004171575A
Authority
JP
Japan
Prior art keywords
word
phrase
score
candidate
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2003389979A
Other languages
English (en)
Other versions
JP2004171575A5 (ja
JP4694121B2 (ja
Inventor
Robert C Moore
ロバート シー.ムーア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004171575A publication Critical patent/JP2004171575A/ja
Publication of JP2004171575A5 publication Critical patent/JP2004171575A5/ja
Application granted granted Critical
Publication of JP4694121B2 publication Critical patent/JP4694121B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

【課題】 句の間の翻訳関係を学習するための統計的な方法および装置を提供する。
【解決手段】 本発明は、ソース言語において特定された学習されるべき句を伴う並列に整列されたコーパスを受け取ることによって句の翻訳関係を学習する。ターゲット言語における候補句が生成され、ソース言語の句内部の語と候補句内部の語に関する語の関連スコアに基づいて内部スコアが計算される。ソース言語の句外部の語と候補句外部の語に関する語の関連スコアに基づいて外部スコアが計算される。内部スコアと外部スコアが結合されて合併スコアが獲得される。
【選択図】 図3

Description

本発明は、句の間の関係を学習することに関する。より詳細には、本発明は、相異なる言語における句の間の翻訳関係を学習するための統計的手法に関する。
機械翻訳システムは、1つの言語でテキスト入力を受け取り、その入力を第2の言語に翻訳し、第2の言語でテキスト出力を提供するシステムである。これを行う際、そのようなシステムは、通常、翻訳レキシコン(lexicon)を使用して、トレーニング中に得られた内容語の間の対応関係、つまり翻訳関係を獲得する。
経験的データから翻訳レキシコンを導出することの一般的な手法は、第1の言語L1内の語と第2の言語L2内の語の間における関連の度合いの測度を、並列2言語コーパスの整列させられた文において選択することに関わる。次に、語ペア(L1からの語とL2からの語からなる)が、選択された関連の測度に従うランクによって順序付けられる。しきい値が選択され、関連の度合いがそのしきい値を超えるすべての語ペアの翻訳レキシコンが形成される。
たとえば、1つの従来の手法では、類似性メトリック(語の間の関連の度合いの測度)は、整列させられた並列テキストコーパスの対応する領域(たとえば、文)の中でどれだけ頻繁に語が一緒に出現する(co−occur)かに基づく。異なる語ペアに関する関連スコアが計算され、それらの語ペアが、関連スコアの降順で分類される。この場合も、しきい値が選択され、関連スコアがそのしきい値を超える語ペアが、翻訳レキシコンの中のエントリになる。
しかし、このタイプの方法は、欠点を有する。1つの問題は、関連スコアが、通常、互いに独立に計算されることである。たとえば、言語L1における語が、kがL1における相異なる語を表わす整数である記号Vで表わされ、言語L2における語が、kがL2における相異なる語を表わす整数である記号Wで表わされるものと想定する。したがって、VのシーケンスとWのシーケンスは、2つの整列されたテキストセグメントを表わす。WとVが類似する2言語文脈(bilingual context)(たとえば、整列された文の中で)で出現する場合、妥当な類似性メトリックは、WとVの分布の相互依存性を反映して、WとVの間で高い関連をもたらす。
ただし、VとVk+1も類似の文脈(たとえば、同一の文の中)で出現すると想定する。そうであるとすると、Vの分布とVk+1の分布の間にも強い相互依存関係が存在する。したがって、WとVが類似の文脈で出現し、VとVk+1が類似の文脈で出現する場合、WとVk+1も類似の文脈で出現するという問題がもたらされる。これは、WとVの間の関連、およびVk+1とVの間の関連のためにだけ生じるので、間接関連として知られる。互いとは独立に関連スコアを計算する従来の方法は、直接関連(たとえば、WとVの間の関連)と間接関連(たとえば、WとVk+1の間の関連)を区別することができない。予期されるとおり、これにより、間接関連で一杯の翻訳レキシコンがもたらされ、この目録も不正確な可能性がある。
間接関連の具体例として、主に翻訳されたコンピュータソフトウェアマニュアルからなる並列フランス語−英語コーパスを考慮されたい。このコーパスでは、英語の用語、「file system」と「system files」が非常に頻繁に出現する。同様に、対応するフランス語の用語、「systeme de fichiers」と「fichiers systeme」も非常に頻繁に一緒に出現する。これらの一言語内連語(monolingual collocation)が一般的であるため、擬似の翻訳ペア、fichier/systemおよびsyst□me/fileもかなり高い関連スコアを得る。これらのスコアは、実際、多くの真の翻訳ペアよりも高い可能性がある。
この欠点には、いくつかの従来の技術によって対処がなされている。たとえば、非特許文献1が、この問題を対象としている。
非特許文献1は、翻訳として関連度の高い語ペアが、同じ語の一方または両方に関わるさらに関連度の高いペアが存在する整列された文から導出されている場合、その語ペアを無視することによってこの問題に対処する。言い換えれば、より強い関連が、同様により信頼でき、したがって、直接関連の方が間接関連より強力であると想定される。したがって、Vを含む分節(または文)がWとW'をともに含む分節(または文)と整列されている場合、エントリ(V,W)と(V,W')がともに翻訳レキシコンの中で出現してはならない。ともに出現する場合は、少なくとも一方が誤っている可能性が高い。直接関連の方が間接関連より強力である傾向にあると想定しているので、最も高い関連スコアを有するエントリが、正しい関連として選択されるエントリである。
前述した例では、フランス語側で「fichier」と「syst□me」を含み、英語側で「file」と「system」を含む並列の英語の文とフランス語の文において、fichier/systemの関連、およびsysteme/fileの関連が無視される。というのは、「fichier/file」に関する関連度、および「systeme/system」に関する関連度の方が、同じ整列された文の中ではるかに高い可能性が大きいからである。
この手法は、それまでに報告されていたよりもはるかに高いカバレッジ(coverage)・レベルに高精度出力を拡張することが報告されているが、欠点も有している。たとえば、この手法は、実施するのが極めて複雑で、面倒であり、実行するのに極めて時間がかかると考えられている。
語の間の翻訳関係を学習する際に遭遇する別の困難は、複合語(または、まとまりとして考えられて複合語を形成する複数語の文)に関わる。そのような複合語は、他方の言語における単一の語に翻訳される、または他方の言語における複数の語に翻訳される可能性がある。従来の技術は、レキシコン翻訳関係が、単独の語だけに関わると想定していた。もちろん、複合語の以下のリストで示されるとおり、この想定は、明らかに事実に反する。
Base_de_donnees/database
Mot_de_passe/password
Sauvegarder/back_up
Annuler/roll_back
Ouvrir_session/.log_on
以上にリストした最初の4つのペアにおいて、1つの言語における複合語が、別の言語における単一の語として翻訳されている。ただし、最後の例では、一方の言語における複合語が、他方の言語における複合語として翻訳されており、その複合語の個々の構成要素のそれぞれを他方の複合語の個々の構成要素の1つに意味のある仕方で翻訳することはできない。たとえば、「open」と通常、翻訳される「ouvrir」を「log」または「on」に無理なく翻訳することはできない。同様に、「session」と通常、翻訳される「session」も、「log」または「on」に無理なく翻訳することはできない。
この問題に対処する1つの従来の試みがまた、非特許文献2で説明されている。非特許文献2は、2つの翻訳モデル、候補複合語に関わる試行翻訳モデル、および候補複合語に関わらない基礎翻訳モデルを説き勧めている。非特許文献2の目的関数の値が、試行モデルにおいて、基礎モデルにおいてよりも高い場合、複合語は、有効であると見なされる。そうではない場合、候補複合語は、無効であると見なされる。ただし、非特許文献2が可能な複合語を選択するのに使用する方法は、極めて複雑であり、計算リソースを多く消費し(computationally expensive)、試行翻訳モデルの構成による非特許文献2の検証方法も同様である。
より大きい句に関する翻訳関係を学習することには、さらに少ない注意しか払われてこなかった。句の翻訳は、非対称的であるか、または対称的であり、固定の句を対象とするか、またはより柔軟な連語を対象とするものと見なされてきた。システムは、1組の句がソース言語において与えられており、課題は、ターゲット言語における翻訳を見出すことであると想定する場合、非対称的であり、他方、対称的システムは、問題を両方の言語において句を見出すことと見なす。同様に、システムは、ソース言語の句の翻訳が、ターゲット言語における連続した一連の語であると想定する場合、固定の句を対象とする。
非対称的であるとともに、固定の句をターゲットとする唯一の以前の取組みが、非特許文献3に記載されている。このシステムは、辞書編集者のための自動化されたアシスタントであり、1言語方法を使用してコーパスから抽出された技術用語を提案し、ユーザによって承認された技術用語に関して、並列コーパスから可能な翻訳を提案する。
柔軟性のある共起を対象とする非対称的システムの例が、非特許文献4に記載されている。対称的システムの例が、非特許文献5および非特許文献6に記載されている。
Melamed, Automatic Construction of Clean Broad-Coverage Translation Lexicons, Second Conference of the Association for Machine Translation in the America's (AMTA 1996), Montreal Canada Melamed, Automatic Discovery of Non-Compositional Compounds in Parallel Data, Conference on Empirical Methods in Natural Language Processing (EMNLP 97) Providence, Rhode Island (1997) Dagan and Church, Termight: Coordinating Humans and Machine in Bilingual Terminology Acquisition, Machine Translation, 12: 89-107, (1997) Smadja他, Translating Collocations for Bilingual Lexicons: A Statistical Approach, Computational Linguistics, 22 (1): 1-38 (1996) J. Kupiec, An Algorithm for Finding Noun Phrase Correspondences in Bilingual Corpora, Proceedings of 31st Annual Meeting of Association for Computational Linguistics, Columbus, Ohio pp. 17-22 (1993) K. Yamamoto他, A Competitive Study on Translational Units for Bilingual Lexicon Extraction, Proceedings of the Workshop on Data-Driven Machine Translation, 39th Annual Meeting of Association for Computational Linguistics, Toulouse, France pp. 87-94 (2001) Dunning, Accurate Methods for the Statistics of Surprise and Coincidence, Computational Linguistics, 19 (1): 61-74 (1993)
従来のシステムには上述したような種々の問題があり、さらなる改善が望まれている。 本発明は、このような状況に鑑みてなされたもので、その目的とするところは、句の間の翻訳関係を学習するための統計的な方法および装置を提供することにある。
本発明は、学習されるべき句がソース言語において特定された、並列に整列されたコーパスを受け取ることによって、句の翻訳関係を学習する。ターゲット言語における候補句が生成され、内部スコアが、ソース言語の句の内部の語と候補句内部の語に関する語の関連スコアに基づいて計算される。外部スコアが、ソース言語の句外部の語と候補句外部の語に関する語の関連スコアに基づいて計算される。内部スコアと外部スコアが結合されて、合併スコアが得られる。
一実施形態では、結合されたスコアは、句がコーパス全体においてどのように翻訳されているかに基づいて変更される。内部スコアは、クロスコーパスデータ(cross−corpus data)に基づいて変更され、重みが付けられる。
別の実施形態では、変更されたスコアは、次に、対数尤度比メトリックなどの好都合な翻訳信頼度メトリックに変換される。
本発明の別の態様は、3つのモデルを含む句の翻訳学習システムを含む。第1のモデルは、単語の関連スコアに基づいて候補句に関するスコアを計算する単語の関連モデルである。第2のモデルは、ソース言語の句がコーパス全体でどのように翻訳されているかを示すクロスセンテンスデータ(cross−sentence data)に基づいて、第1のモデルによって計算されたスコアを変更する。第3のモデルは、第2のモデルからの句の翻訳スコアを所望の信頼度メトリックに変換して、変換に基づいて最も可能性の高い句の翻訳の可能な変更を考慮に入れるメトリック変換モデルである。
また、本発明の別の実施形態は、コーパス全体にわたる翻訳データを調べ(内部スコアおよび外部スコアに基づき)、内部スコアを変更して、重み付けを行い、そのスコアを所望の信頼度メトリックに変換することを含む句の翻訳を学習するための方法およびシステムも含む。
別の実施形態は、句の翻訳学習構成要素において候補句を生成するためのシステムおよび方法である。ソース言語の句の中の語と最も強く関連している語で始まる候補句、およびそのような語で終わる候補句が生成されるか、またはその逆が行われる。オプションとして、ターゲット言語文の中で大文字で書かれた語で始まる候補句を生成することができる。
図1の以下の説明は、本発明を使用することが可能な1つの例示的な環境を示すことだけを目的とし、ただし、本発明は、他の環境においても使用することができる。
図1は、本発明の1つの例示的な実施形態によるコンピュータ20を示すブロック図である。図1、および関連する説明は、本発明を実施することが可能な適切なコンピューティング環境の簡単な一般的説明を提供することを目的とする。必須ではないが、本発明は、少なくとも一部分、パーソナルコンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的な状況において説明する。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データ型を実装するルーチンプログラム、オブジェクト、構成要素、データ構造等が含まれる。さらに、本発明は、ハンドヘルドデバイス、マルチプロセッサシステム、マイクロプロセッサベースの家庭用電化製品またはプログラマブル家庭用電化製品、ネットワークPC(personal computer)、ミニコンピュータ、メインフレームコンピュータ等を含む他のコンピュータシステム構成を使用しても実施できることが、当業者には認められよう。また、本発明は、通信網を介してリンクされたリモートの処理デバイスによってタスクが行われる分散コンピューティング環境においても実施することができる。分散コンピューティング環境では、プログラムモジュールは、ローカルのメモリ記憶デバイスとリモートのメモリ記憶デバイスの両方に配置されることが可能である。
図1では、本発明を実施するための例示的なシステムが、CPU(central processing unit)21、システムメモリ22、ならびにシステムメモリからCPU21までを含む様々なシステム構成要素を結合するシステムバス23を含む従来のパーソナルコンピュータ20の形態で汎用コンピューティングデバイスを含んでいる。システムバス23は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含むいくつかのタイプのバス構造のいずれかであることが可能である。システムメモリは、読取り専用メモリ(ROM)24、ランダムアクセスメモリ(RAM)25を含む。スタートアップ中などにパーソナルコンピュータ20内部の要素間で情報を転送するのを助ける基本ルーチンを含むBIOS(Basic Input/Output System)26が、ROM24の中に記憶されている。パーソナルコンピュータ20は、ハードディスク(図示せず)に関して読取りおよび書込みを行うためのハードディスクドライブ27、リムーバブル磁気ディスク29に関して読取りおよび書込みを行うための磁気ディスクドライブ28、およびCD(compact disc) ROMまたはその他の光媒体などのリムーバブル光ディスク31に関して読取りおよび書込みを行うための光ディスクドライブ30をさらに含む。ハードディスクドライブ27、磁気ディスクドライブ28、および光ディスクドライブ30は、それぞれ、ハードディスクドライブインタフェース32、磁気ディスクドライブインタフェース33、および光ドライブインタフェース34でシステムバス23に接続される。以上のドライブおよび関連するコンピュータ可読媒体によって、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータの不揮発性ストレージが、パーソナルコンピュータ20に提供される。
本明細書で説明する例示的な環境は、ハードディスク、リムーバブル磁気ディスク29、およびリムーバブル光ディスク31を使用するが、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読取り専用メモリ(ROM)などの、コンピュータによってアクセス可能なデータを記憶することができる他のタイプのコンピュータ可読媒体も、例示的な動作環境において使用できることが、当業者には認められよう。
オペレーティングシステム35、1つまたは複数のアプリケーションプログラム36、他のプログラムモジュール37、およびプログラムデータ38を含め、いくつかのプログラムモジュールが、ハードディスク、磁気ディスク29、光ディスク31、ROM24、またはRAM25に記憶されることが可能である。ユーザは、キーボード40やポインティングデバイス42などの入力デバイスを介してパーソナルコンピュータ20に、コマンドおよび情報を入力することができる。他の入力デバイス(図示せず)には、マイクロホン、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナ等が含まれることが可能である。以上の入力デバイス、およびその他の入力デバイスは、しばしば、システムバス23に結合されたシリアルポートインタフェース46を介してCPU21に接続されるが、サウンドカード、パラレルポート、ゲームポート、またはユニバーサルシリアルバスUSB(Universal Serial Bus)などの他のインタフェースで接続されることも可能である。また、モニタ47、またはその他のタイプの表示デバイスも、ビデオアダプタ48などのインタフェースを介してシステムバス23に接続される。モニタ47に加えて、パーソナルコンピュータは、通常、スピーカやプリンタ(図示せず)などの他の周辺出力デバイスも含むことが可能である。
パーソナルコンピュータ20は、リモートコンピュータ49のような1つまたは複数のリモートコンピュータに対する論理接続を使用するネットワーク化された環境において動作することができる。リモートコンピュータ49は、別のパーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイス、または他のネットワークノードであることが可能であり、通常、パーソナルコンピュータ20に関連して前述した要素の多く、またはすべてを含むが、メモリ記憶デバイス50だけを図1に示している。図1に描いた論理接続は、LAN(ローカルエリアネットワーク)51、およびWAN(ワイドエリアネットワーク)52を含む。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網のイントラネット、およびインターネットにおいて一般的である。
LANネットワーキング環境において使用される場合、パーソナルコンピュータ20は、ネットワークインタフェースまたはネットワークアダプタ53を介してローカルエリアネットワーク51に接続される。WANネットワーキング環境において使用される場合、パーソナルコンピュータ20は、通常、インターネットなどのワイドエリアネットワーク52を介して通信を確立するためのモデム54、またはその他の手段を含む。内部にあることも外部にあることも可能なモデム54は、シリアルポートインタフェース46を介してシステムバス23に接続される。ネットワーク環境では、パーソナルコンピュータ20に関連して描いたプログラムモジュール、またはプログラムモジュールの部分は、リモートのメモリ記憶デバイスの中に記憶されることが可能である。図示したネットワーク接続は、例示的であり、コンピュータ間で通信リンクを確立するための他の手段も使用できることが認められよう。
本発明を利用して、実質的にあらゆる環境または状況において句の間の翻訳関係を導出することができる。以下に説明する機械翻訳アーキテクチャは、1つの環境、または1つの状況に過ぎない。
論理形式は、本発明に必須ではないが、図2Aに示した機械翻訳アーキテクチャに関連して説明する。したがって、そのアーキテクチャを詳細に説明することに先立ち、論理形式を簡単に説明することが役立つ。論理形式、および論理形式を生成するためのシステムおよび方法の完全で詳細な説明は、ハイドーン(Heidorn)他に1999年10月12日に発行された、「構文ツリーから意味論理形式を計算するための方法およびシステム」という名称の米国特許第5,966,686号明細書で見ることができる。ただし、簡単に述べると、論理形式は、入力テキストに対して形態解析を行い、文法関係で強化された従来の句構造解析をもたらすことによって生成される。構文解析は、テキスト入力の中の内容語の間のラベル付けされた依存関係を記述するグラフ構造である論理形式を導出するために、さらに処理を受ける。論理形式は、ある構文上の交替(たとえば、能動/受動)を正規化し、文の内部の前方照応(intrasentential anaphora)と遠く離れた依存関係とをともに解決する。
具体的には、論理関係は、方向関係タイプ(たとえば、部分、時間、上位語、論理主語、原因、領域、場所、やり方、材料、手段、修飾語、所有者、目的、擬似上位語、類義語、論理対象、およびユーザ)によって合併された2つの語からなる。論理形式は、文などの単一のテキスト入力を表わす結合された論理関係のグラフである。論理形式は最低1つの論理関係からなる。論理形式は、構造上の関係(すなわち、構文関係および意味関係)、特に入力ストリングにおける重要な語の間の文法項(argument)関係および/または修飾語句(adjunct)関係を描写する。
機械翻訳アーキテクチャの1つの例示的な実施形態では、構文解析から論理形式を構築する特定のコードが、機械翻訳システムが処理する様々なソース言語およびターゲット言語にわたって共用される。共用されるアーキテクチャにより、異なる言語から論理形式分節を整列させる作業が大幅に単純化される。というのは、2つの言語における表面的に異なった構成体が、しばしば、類似の、または同一の論理形式表現に縮約されるからである。
図2Aは、本発明のための環境の一実施形態を定義する機械翻訳システム200のアーキテクチャを示すブロック図である。システム200は、構文解析構成要素204および206、統計的語関連学習構成要素208、論理形式整列構成要素210、語彙知識ベース構築構成要素212、2言語辞書214、辞書マージ構成要素216、転位(transfer)マッピングデータベース218、および更新された2言語辞書220を含む。ランタイム中、システムは、解析構成要素222、マッチング構成要素224、転位構成要素226、および生成構成要素228を利用する。
1つの例示的な実施形態では、2言語コーパスを使用してシステムがトレーニングされる。2言語コーパスは、翻訳関係が学習されるべきソース言語の句が特定されている、または何らかの形でマークが付けられている整列された翻訳済みの文(たとえば、スペイン語、またはフランス語などのソース言語またはターゲット言語の他方における翻訳と整列された、英語などのソース言語またはターゲット言語の文)を含む。トレーニング中、文が、整列された2言語コーパスからソース言語文230(翻訳されるべき文)、およびターゲット言語文232(ソース言語文の翻訳)としてシステム200に送り込まれる。構文解析構成要素204および206が、整列された2言語コーパスからの文を構文解析して、ソース論理形式234およびターゲット論理形式236を生成する。構文解析中、文の中の語が、正規化された語の形態(見出し語(lemma))に変換され、統計的語関連学習構成要素208に送り込まれる。単独語の関連、および複数語の関連が、それぞれに関する信頼できるセットが得られるまで学習構成要素208によって反復的に仮定され、スコアが付けられる。統計的語関連学習構成要素208は、学習された単独語翻訳ペア238、ならびに複数語ペア240を出力する。複数語ペア240は、2言語辞書214に追加のエントリを追加して更新された2言語辞書220を形成するのに使用される辞書マージ構成要素216に提供される。新しいエントリは、複数語ペア240を表わすものである。単独語ペア238、ならびにソース論理形式234およびターゲット論理形式236は、論理形式整列構成要素210に提供される。構成要素210はまず、それぞれソース論理形式230およびターゲット論理形式236におけるノード間で試験的な語彙対応を確立する。これは、統計的語関連学習構成要素208からの単独語翻訳ペア238で強化された2言語のレキシコン(または2言語辞書)214からの翻訳ペアを使用して行われる。また、辞書214は、図2Bに関連して説明した句の翻訳ペアによっても強化が行われる。可能な対応を確立した後、整列構成要素210が、語彙特性と構造特性の両方に従って論理形式ノードを整列させ、論理形式転位マッピング242を生成する。
基本的に、整列構成要素210は、2言語辞書情報214、単独語ペア238、および以下に説明する句ペアを使用して論理形式間にリンクを描く。転位マッピングは、ソース論理形式234およびターゲット論理形式236で見出される頻度に基づいてフィルタされ、語彙知識ベース構築構成要素212に提供される。
一例では、転位マッピングは、トレーニングデータの中で少なくとも2回、見られない場合、転位マッピングデータベース218を構築するのに使用されない。ただし、任意の他の所望の頻度をフィルタとして使用することも可能である。また、出現の頻度以外の他のフィルタリング技術も使用できることに留意されたい。たとえば、転位マッピングは、入力文の完全な構文解析から形成されているかどうか、また転位マッピングを生成するのに使用された論理形式が完全に整列しているかどうかに基づいてフィルタすることができる。
構成要素212が、基本的に、1つの言語における論理形式または論理形式の部分を、第2の言語における論理形式または論理形式の部分にリンクする、転位マッピングを含む転位マッピングデータベース218を構築する。このように転位マッピングデータベース218が生成されると、その時点で、システム200が、ランタイム翻訳のために構成されている。
ランタイム中、翻訳されるべきソース言語文250が、解析構成要素222に提供される。解析構成要素222は、ソース言語文250を受け取り、以下に説明する1言語辞書にアクセスし、ソース言語文入力に基づいてソース言語文250を構文解析してソース論理形式252を生成する。
ソース論理形式252は、マッチング構成要素224に提供される。マッチング構成要素224は、リンクされた論理形式254を得るためにソース論理形式252を転位マッピングデータベース218の中の論理形式にマッチさせることを試みる。複数の転位マッピングがソース論理形式252の部分にマッチする可能性がある。マッチング構成要素224は、マッチする見出し語、マッチする品詞、およびマッチする他の特徴情報を有するマッチする転位マッピングの最良のセットをデータベース218の中で探索する。より大きい(より具体的な)転位マッピングが、例として、より小さい(より一般的な)転位マッピングより選好される。等しいサイズのマッピングのなかで、マッチング構成要素224は、例として、より高い頻度のマッピングを選好することが可能である。また、マッピングは、ソース論理形式252の重なり合う部分をマッチさせることも、その重なり合う部分が全く競合しないという条件付きで可能である。
マッチする転位マッピングの最適セットが見出された後、マッチング構成要素224は、転位マッピングによって受け取られた対応するターゲット論理形式分節のコピーに対するリンクをソース論理形式252におけるノード上で作成して、リンクされた論理形式254を生成する。
転位構成要素226は、マッチング構成要素224からリンクされた論理形式254を受け取り、ターゲット翻訳の基礎を成すターゲット論理形式256を生成する。これは、ソース論理形式252のノード上のリンクによって指し示されるターゲット論理形式分節が結合されたリンクされた論理形式254の上から下へのトラバーサル(traversal)を行うことによって行われる。複雑である可能性がある複数語マッピングに関して論理形式分節を結合する場合、個々のノード間でマッチング構成要素224によって設定されたサブリンクを使用して、修飾語に関する正しい付加ポイントを決めること等が行われる。必要な場合、デフォルトの付加ポイントが使用される。
適用可能な転位マッピングが全く見付からない場合、ソース論理形式252におけるノード、およびそのノードの関係が、単にターゲット論理形式256にコピーされる。それでも、それらのノードに関してデフォルトの単独語翻訳および句の翻訳が転位マッピングデータベース218の中で見付かり、ターゲット論理形式256の中に挿入される可能性がある。しかし、全く見付からなかった場合、翻訳は、例として、整列中に使用した更新された2言語辞書220から獲得することが可能である。
生成構成要素228は、例として、ターゲット論理形式256からターゲットストリング(または出力ターゲット言語文)258にマップする規則ベースのアプリケーション独立生成構成要素である。生成構成要素228は、例として、入力論理形式のソース言語に関する情報を全く有さず、転位構成要素226によって送られた情報だけを使用して機能する。また、生成構成要素228は、例として、この情報を1言語(たとえば、ターゲット言語)辞書と併せて使用してターゲット言語文258を生成する。したがって、各言語に関して1つの一般的な生成構成要素228で十分である。
図2Bは、句の翻訳を学習するため、および図2Aで示したシステムにおいて使用される1言語辞書および2言語辞書を強化するための、システム300を示すより詳細なブロック図である。システム300は、整列された2言語コーパスから句の翻訳を学習し、2言語辞書216を強化して更新された2言語辞書220を獲得するため、および1言語辞書302を強化して更新された1言語辞書304を獲得するために使用される。更新された1言語辞書304は、構文解析構成要素204および/または206(図2Aに示す)によってトレーニング時に使用され、解析構成要素222(やはり図2Aに示す)によってランタイム中に使用される。いくつかのアイテムは、図2Aで述べているものと同じであり、同様の符号が付けられている。
ソース言語文230およびターゲット言語文232は、図2Aに関連して説明したとおり、整列されたトレーニングコーパスからの整列された文である。文230および232が、構文解析構成要素204および206に提供される。構文解析構成要素204および206は、その文を構文解析して、複数語の句にマークを付けることによってその文をトークン化する(tokenize)。トークン化された文は、トークン化されたソース言語文310およびトークン化されたターゲット言語文312によって示される。構文解析器は、様々な複数語の句にマークを付けることができる。
トークン化された文310および312は、句の翻訳学習構成要素400に入力される。句の翻訳学習構成要素400は、トークン化されたソース言語文310から関心対象の句を選択する。句の翻訳学習構成要素400は、次に、選択されたマークが付いたソース言語の句と整列されたターゲット言語文におけるその翻訳の間の関連を学習し、ブロック410で示されるとおり、翻訳ペアとその関連スコアを出力する。
句ペアおよび関連するスコア410は、句ペアとスコアを2言語辞書214にマージして更新された2言語辞書220を生成する辞書マージ構成要素216に提供される。また、辞書マージ構成要素216は、選択されたソース言語の句の翻訳として特定されたターゲット言語の句で1言語ターゲット言語辞書302を強化して、更新された1言語ターゲット言語辞書304を獲得することも行う。新たに学習されたターゲット言語の句が組み込まれたこの更新された1言語辞書は、したがって、図2Aに関連して説明したとおり、論理形式整列に関して入力文を構文解析する際により良好に機能することが可能である。さらに、更新された2言語辞書における学習された翻訳関係により、整列自体の働きも向上する。
以上の状況に留意して、以下に本説明は、句の翻訳を学習することに関連してより具体的に述べる。本発明は、生の入力テキストを構文解析する際に生じる問題に対処するのに使用することができる。背景技術のセクションで述べたとおり、句を翻訳する取組みは、ほとんど行われてこなかった。この問題は、多くのタイプのテキスト、特にあるタイプの技術テキストでは、句が通常の形で使用されず、その特定の分野における何物かの名称として使用されるため、さらにより困難になる。たとえば、文、「Click to remove the View As Web Page check mark.」は、非定形動詞句の統語形態を有する用語、「View As Web Page」を含む。しかし、この文の中で、この用語は、あたかも固有名詞であるかのように使用されている。構文解析器は、その句のこの特殊用法を認識しない場合、文を正しく構文解析することが実質的に不可能である。
英語では、このタイプの表現が、単純明快な仕方で扱われることが可能である。これは、主に、英語における大文字使用の慣習により、それらのタイプの句を認識することが容易になっているからである。構文解析を行うことに先立って入力テキストをトークン化するのに使用されるトークン化器は、「View As Web Page」などの大文字で書かれた語のシーケンスが、語彙化された複数語表現として扱われるべきであると仮定する。複数語のこのサブクラスを本明細書では、「キャプトイド(captoid)」と呼ぶ。
ただし、これらのキャプトイドの翻訳を特定することは、非常に困難である。これは、主に、他の言語(たとえば、フランス語またはスペイン語などの)における大文字使用の慣習では、そのような表現の最初の語だけが大文字で書かれるからである。したがって、キャプトイドがどこで始まり、どこで終わるかを特定することが英語では比較的単純明快であるが、他の言語では非常に困難である。
本発明を使用して、キャプトイドの翻訳を特定し、構文解析器によって使用される1言語のレキシコン、および機械翻訳システム内の様々な他の箇所で使用される2言語のレキシコンにその翻訳を追加し、キャプトイドを正確に構文解析し、翻訳できるようにすることが可能である。本発明は、英語では、そのようなキャプトイドを単純明快な仕方で特定することができることを利用し、また、複合語を特定するのに使用することができる本発明の機能も利用する。図3は、本発明の一実施形態による句の翻訳学習構成要素400をより詳細に示している。句の翻訳学習構成要素400は、キャプトイドに関わる句の間の関連を学習することに適しているが、実質的にあらゆる句に関しても同様である。
図3は、構成要素400がトークン化された文310および312を受け取り、トークン化済みの整列された文を処理のために3つの異なるモデルに提供する構成要素400を示している。まず、整列された文310および312が、単語の関連スコアモデル404に提供され、次に、クロスセンテンスモデル406に提供され、最後に、翻訳ペア、および関連するスコア410を出力する信頼性測度変換モデル408に提供される。
構成要素400は、句がソース言語文において特定されている整列されたトークン化済みの文310および312を受け取り、次に、ターゲット言語文における対応する句を自動的に学習する。ターゲット言語の句は、翻訳ペアおよび関連するスコア410から抽出することができ、トレーニング中およびランタイム中にターゲット言語を構文解析する際に使用されるレキシコンに追加することができる。さらに、翻訳ペアは、2言語翻訳辞書214(図2Aおよび2Bでも示す)に追加することができる。
構成要素400は、トークン化された文の代わりに論理形式を処理することもできる。さらに、構成要素400を機械翻訳機の外部で使用することも可能である。たとえば、構成要素400を辞書を形成する際に、または単に句の翻訳スコアまたは句の翻訳関係を生成するために使用することができる。
図4は、図3に示した構成要素400の全体的な動作をよりよく示す流れ図である。構成要素400はまず、翻訳されるべき句がソース言語において特定されている並列に整列された文を受け取る。これが、ブロック420で示されている。翻訳されるべき句は、ターゲット言語における連続した一連の語としてターゲット言語に翻訳されるものと想定されていることに留意されたい。さらに、翻訳されるべき句が、ターゲット言語文においてソース言語文と全く同じ形態で出現する場合、その文の中の対応する句は、1.0の確率を有する所望の翻訳であるものと想定される。
いずれにしても、整列された構文解析済みでトークン化済みの文が、システム400内の単語の関連スコアモデル404に提供される。モデル400は、例として、前述した単語ペアおよび複数語ペアに関する語の関連スコアを計算する統計的語関連学習器208の部分に対応することが可能であり、ただし、複数語は、複数語を構成する単独語に分解されてから、語の関連スコアが計算されるところが異なる。言い換えれば、ソース言語文における語(W)とターゲット言語文における語(W)の間の関連の度合いは、コーパスの整列された文の中でWとWが共起する頻度との比較における、コーパスのソース言語(S)部分の文の中でWが出現する頻度、およびコーパスのターゲット言語(T)部分の文の中でWが出現する頻度として計算される。
トレーニングコーパスにおける語ペア間の統計的語の関連を示すスコアを提供する語の関連メトリックが使用されてきた。1つのそのようなメトリックは、非特許文献7においてダニング(Dunning)が説明している対数尤度比統計である。この統計は、トレーニングデータにおける言語1(WL)における語または見出し語の全体的な頻度を、言語2(WL)における語または見出し語を所与とした言語1(WL)における語または見出し語の頻度(すなわち、WLが出現するL2の文と整列された、L1の文の中で、WLが出現する頻度)と比較するのに使用される。したがって、対数尤度比統計により、WLとWLとの間の観察された正の関連が偶然ではない尤度の測度が提供される。
また、関連スコアが計算される語ペアのリストを剪定(prune)することもできる。言い換えれば、語の関連スコアを計算するプロセスにより、大きいトレーニングコーパスに関して、多数の語(または見出し語)ペアに関する関連スコアが生成される。したがって、1つの例示的な実施形態では、語ペアのセットが剪定されて、さらなる処理が、翻訳ペアとして考慮される少なくとも何らかの可能性を有するペアだけに制限される。1つの例示的なヒューリスティック(heuristic)は、1回の他の出現に加えて、それぞれ1回の共起を有する語または見出し語のペアの関連の度合いに、このしきい値を設定する。
このように、モデル404は、対数尤度比統計を使用して、整列された文の中の語ペアに関する語の関連スコアを計算する。これが、図4のブロック422で示されている。
これらのスコアに基づき、単語の関連スコアモデル404は、ソース言語文の中の各特定された句に関して、ターゲット言語文の中の候補句を仮定する。次に、モデル404は、文ペアを、特定されたソース言語の句および候補句の範囲内にある文ペアの部分と、特定されたソース言語の句および候補句の範囲外にある文の部分に区分する。
対数尤度比統計は、単独語翻訳関係(スコアが高いほど、関連が真の翻訳関係である可能性がより高い)を学習するための優れた基礎であることが実証されているが、単語ペアに関するスコアを結合して句の翻訳候補に関する合成スコアにすることは困難である。
したがって、モデル404は、内部区分に関する語の関連スコア、および外部区分に関する語の関連スコアから確率(これは、容易に結合することができる)を生成する。このことは、図5Aおよび5Bに関連してより詳細に説明する。ただし、簡単に述べると、モデル404は、ソース言語の句における語と候補句の翻訳との間、およびその逆で見出されることが可能な最も強力な関連に関する関連確率の対数を合計することにより、ターゲット言語文の内部部分に関する合併確率スコアを計算する。この合併確率は、内部スコアと呼ばれる。内部スコアは、候補句の翻訳の中にないターゲット言語の語に対する、特定されたソース言語の句の中にないソース言語の語に関して、およびその逆で見出される可能性がある最も強力な関連に関する関連確率の対数の合計に加算される。これは、外部スコアと呼ばれる。したがって、候補翻訳の中にないターゲット言語の語が、特定されたソース言語の句の中のソース言語の語に関連する高い確率を有する場合、その候補翻訳は、その特定のターゲット言語の語を含んでいる別の候補翻訳よりも低いスコアを獲得する可能性が高い。
次に、モデル404は、オプションとして、内部スコアに加算され、いくつかの大文字使用パターンに関して推定された対数確率である大文字使用確率スコアを計算し、適用する。これも、図5Aおよび5Bに関連して以下に詳細に説明している。モデル404の適用が、図4にブロック424で示されている。
次に、区分スコアが、クロスセンテンスモデル406に提供される。モデル406は、整列されたコーパスにおけるすべての文にわたる特定の句の翻訳の傾向を考慮することの効果を有する。所与の句がいくつかの文において明らかに好ましい翻訳を有する場合、単語の関連確率では、句の翻訳が不明確なままになる文の中の句に関する翻訳を選択する際に、それを考慮に入れることができる。
モデル406の適用は、図10に関連してより詳細に説明しているが、明確にするために、ここで簡単に説明する。モデル406は、ソース言語の句を所与として候補句が出現する条件付き確率の直接推定と、候補句を所与としてソース言語の句が出現する条件付き確率の直接推定の積の対数で、モデル404において生成された内部スコアを置き換える。次に、改訂された内部スコアが、スケール変更され、元の語の関連ベースの外部スコアに結合される。改訂された内部スコアに関する初期値は、モデル404を使用して推定され、EMアルゴリズムを使用して反復的に再推定される。これは、例として、合成スコアをあたかも対数確率であるかのように扱い、推定モデル404から持ち込まれた各ソース言語の句に関する1組の候補翻訳にわたって合成スコアを正規化することによって行われる。クロスセンテンスモデル406を適用することが、図4にブロック426で示されている。
改訂されたスコアは、次に、信頼性測度変換モデル408に提供され、このモデル408が、そのスコアに適用される。これは、図11に関連してより詳細に説明する。簡単に述べると、モデル408が、ソース言語における特定された句、およびターゲット言語における候補翻訳に関する条件付き確率の結合を句全体に基づく対数尤度比メトリックで置き換え、句および候補翻訳の外部の文脈が除去される。モデルパラメータは、ビタビ(Viterbi)再推定を使用して反復式に再計算される。再推定が収束した場合、句の翻訳スコアの最終セットが、句全体に関する対数尤度比メトリックに関して獲得される。これにより、句の翻訳ペア410に関する信頼性の測度として使用する対数尤度比スコアの整合性のあるセットが生成される。モデル408の適用を図4のブロック428で示している。最終の句の翻訳ペアおよび関連するスコアが、図4のブロック430で示すとおり出力される。
次に、本発明の句の翻訳の態様をより詳細に説明する。図5Aおよび5Bは、本発明の一実施形態によるモデル404の動作をよりよく示す流れ図である。モデル404を適用することに先立って、単独語の関連のすべてが、前述したとおり計算されていることを想い起こされたい。さらに、翻訳が獲得されるべきソース言語の句におけるすべての句が特定されている。
語の関連スコアから結合可能な確率を導出するため、モデル404はまず、文ペア(すなわち、ソース言語における1つの文とターゲット言語における整列された文)を選択する。これが、図5Aのブロック500で示されている。次に、ソース言語文の中の各語(W)に関して、モデル404は、Wに最も強く関連しているターゲット言語文の中の語(W)を特定し、その最も強い関連のカウントを保持する。これが、図5Aのブロック502で示されている。
次に、ターゲット言語文の中の各語(W)に関して、モデル404は、Wに最も強く関連するソース言語文の中の語(W)を識別し、やはり、その最も強い関連のカウントを保持する。これが、ブロック504で示されている。以上が、ブロック506で示されるとおり、それぞれの整列された文ペアに関して行われる。
語の関連スコアは、対数尤度比に関するので、互いに結合して句の翻訳を獲得することが困難である。したがって、モデル404は、次に、カウントからの確率を推定する。というのは、確率は、容易に結合することができるからである。具体的には、生成されたカウントから、各語Wに関して、モデル404は、Wの出現が、所与の語Wを対応する整列された文の中の最も強力に関連する語として有する確率を推定する。これが、ブロック508で示されている。
同様に、カウントから、各語Wに関して、モデル404は、Wの出現が、所与の語Wを対応する整列された文の中の最も強力に関連する語として有する確率を推定する。これが、ブロック510で示されている。
次に、推定された確率が、周知のグッドターニング(Good−Turing)平滑化法などの周知の平滑化技術を使用して平滑化される。経験的に推定された確率分布を平滑化することの目的は、通常、トレーニングデータの中で決して観察されていないイベントに何らかの小さい確率を割り当てることである。つまり、いくつかの、またはすべての観察されたイベントの経験的に観察された確率が、いくらかの量だけ低減され、可能性があるが未観察のイベントのセットに配分される。このタイプの平滑化が行われない場合、トレーニングデータの中で観察されていないすべてのイベントに0の確率が割り当てられることになる。
0の確率の割当てを回避することに最も注意が払われるイベントのタイプは、ソース言語文またはターゲット言語文の中の語が、他方の文の中のいずれの語にも関連を有さないイベントである。これは、ソース言語文またはターゲット言語文の中の特定の語が逐語訳を有さないような自由翻訳に起因して、または一方の言語における他方の言語において対応する語を有さない機能語に起因して生じる可能性がある。たとえば、1つの言語において前置詞で表現される関係が、別の言語において純粋に語順で示され、その関係を表現する特定の語が存在しない可能性がある。
一方の言語における語に関連する他方の言語における対応する語が存在しない状況をモデル化するため、すべての文(または文の部分)の中で出現するものとして扱われる「ヌル(null)」語の概念を使用する。問題の文ペアにおいて、所与の語が他方の言語におけるいずれの語にも既知の関連を有さないことが分かった場合、最も関連度の高い語が「ヌル」語であるケースとしてそのことを分類する。ここで検討している確率に対する平滑化の適用の際、観察されたイベントから取り去られた確率のすべてが、ソース言語の語およびターゲット言語の語を「ヌル」語に関連付けるイベントに割り当てられる。観察されたイベントから差し引かれるべき確率の量は、例として、周知のグッドターニング法を使用して計算し、トレーニングデータの中である少数回(例として10)より少なく出現する観察されたイベントに適用することができる。
これらの平滑化された確率を計算した後、モデル404は、すべての文ペアを再び検討して、文ペアを選択し、対応するソース言語文の中の各特定された句に対する各ターゲット言語文の中の候補句のリストを生成する。これをブロック511および512で示し、図8に関連する適用例において以下により詳細に説明する。それぞれの整列された文ペアにおいて、ソース言語文の中の特定された句に関して、ターゲット言語文の中で1つまたは複数の候補句(場合により、空の句を含む)が仮定されると言えば十分であろう。次に、モデル404は、各候補句に関連するスコアを計算することに取りかかる。
したがって、各文ペア、およびそのペアのソース言語文の中の各特定された句に関して、モデル404はまず、ブロック514で示されるとおり、候補ターゲット言語の句を選択する。モデル404は、次に、ソース言語文の中の特定された句、およびターゲット言語文の中の候補句に基づいてソース言語文、およびターゲット言語文を区分化する。これが、図6に関連してよりよく示されている。
たとえば、ソース言語文516が、図示するとおり語S1〜S8を有するものと想定する。整列されたターゲット言語文518が、図示するとおり語T1〜T7を有するものと想定する。図6は、ソース言語文516から翻訳されるべき句が、用語S3〜S6を囲む括弧で特定され、符号520で識別されることをさらに示している。スコアが現在、計算されている候補句は、符号522で括弧によって特定されている。したがって、ソース言語文516とターゲット言語文518はともに、句520および522の内部の部分と、句520および522の外部の文の部分に区分化される。
モデル404は、次に、前述した平滑化された関連確率に基づいて内部スコアを計算する。これが、図5Bのブロック524で示されている。内部スコアを計算する際、モデル404はまず、句520内部のソース言語文516の中の各語に関して、ターゲット言語文518の中にあり、候補句522内部にもあるどの語が、平滑化された関連確率に従ってソース言語文の中の語に最も強く関連している可能性が最高であるかを判定する。「ヌル」語は、候補句522の一部として扱われ、ソース言語文の中の語に最も強く関連している可能性が最高である語であることが可能である。
したがって、モデル404はまず、句522の中のどの語が、句520の中の語Sに強く関連している可能性が高いかを判定する。対応する最も強く関連している語は、Tであることを見て取ることができる。次に、これが、句520の中の残りの語のそれぞれに関して行われ、ソース言語の語Sは、ターゲットTに最も強く関連しており、ソース言語の語Sも同様であることを見て取ることができる。また、ソース言語の語Sは、ターゲット言語の語Tに最も強く関連している。
この動作は、両方向で行われ、したがって、候補句522の中の各ターゲット言語の語に関して、モデル404は、ソース言語の句520の中のどの語がその語に最も強く関連している可能性が高いかを判定する。この目的で、「ヌル」語もソース言語の句の一部として扱われる。ターゲット言語の語Tは、ソース言語の語Sに最も強く関連している可能性が高く、ターゲット言語の語Tは、ソース言語の語Sに最も強く関連している可能性が高く、ターゲット言語の語Tは、ソース言語の語Sに最も強く関連している可能性が高いことを見て取ることができる。
ソース言語の句520内部および候補句522内部の最良の語ペアが特定されると、それらの語ペアの確率が、その確率の積の対数を取ることによって結合される。これが、たとえば、各ソース言語の語が特定されたターゲット言語の語に最も強く関連している確率と、各ターゲット言語の語が特定されたソース言語の語に最も強く関連している確率が互いに結合される式1によって示される。
(式1)
log (P (s3→t2)・P (t2→s3)・P (s4→t3)・P (t3→s4)・P (s5→t4)・P (t4→s5)・P (s6→t3))
これは、図5Bのブロック524で示されるとおり、計算された内部スコアである。
次に、モデル404は、同じやり方で文516および518に関する外部スコアを計算する。これが、ブロック526で示されている。言い換えれば、図7に示すとおり、モデル404は、句520の外部の各ソース言語の語に関して、候補句522の外部のどのターゲット言語の語が、その語に最も強く関連している可能性が高いかを判定する。同様に、候補句522の外部の各ターゲット言語の語に関して、特定された句520の外部のどのソース言語の語が、その語に最も強く関連している可能性が高いか。以上の尤度の1つの例示的な算出が、図7の矢印で示されている。次に、式2で示すとおり、確率が結合される。
(式2)
log (P (s1→t1)・P (t1→s1)・P (s2→t6)・P (t6→s2)・P (s7→t5)・P (t5→s7)・P (s8→t7)・P (t7→s8))
次に、図5Bのブロック528で示されるとおり、内部スコアと外部スコアが合計される。これは、句520と522の間の翻訳関係を解析する際にモデル404によって計算される基本的スコアと見なすことができ、ブロック527で示されるとおり、各文ペアに関して繰り返される。(句の内部と外部の)両方の区分にスコアを割り当てることにより、本発明は、ソース言語文の中の特定された句の翻訳に正しく属する語を特定することにおいて、従来の技術よりも優れている。
各文ペアおよび各特定されたソース言語の句に関して、候補ターゲット言語翻訳が、内部スコアおよび外部スコアとともに記憶され、したがって、内部スコアおよび外部スコアは、処理のさらなる段階において再計算される必要がない。必要とされるストレージを最小限に抑えるため、ならびに後続の処理の量を最小限に抑えるため、オプションとして、各文ペアおよび各特定されたソース言語の句に関して記憶される候補句の数を剪定して、何らかの数(例として15)の最高のスコアを有する候補句にすることができる。
必要とされる後続の処理の量をさらに削減するため、コーパス全体を処理した後、オプションとして、各特定されたソース言語の句に関連する候補ターゲット言語翻訳の総数をさらに剪定して、何らかの数(例として15)のコーパス全体にわたって最も可能性が高い候補翻訳にすることができる。コーパス全体にわたる各特定されたソース言語の句に関する最も可能性が高い候補翻訳は、モデル406に関連して以下に説明するEMアルゴリズムのEステップを使用して各候補に関する重み付きのカウントを獲得することによって特定することができる。重み付きのカウントが高いほど、候補翻訳は可能性が高い。
また、モデル404は、ソース言語文から翻訳されるべき句がキャプトイドである場合、候補句の大文字使用パターンの尤度を反映するさらなる確率を適用することもできる。これは、もちろん、オプションであり、所望されない場合、なくすことができる。いずれにしても、いくつかの異なる大文字使用パターンが、例として、モデル404のこの部分において考慮される。たとえば、特定された句がキャプトイドであり、候補句の最初の語が大文字で書かれている場合は、例として、第1の比較的高い確率に関連付けられる。候補句の中の語のいずれも大文字で書かれていない場合は、例として、第2のより低い確率に関連付けられる。最後に、候補句の最初の語が大文字で書かれていないが、候補句の中の他の語が大文字で書かれている場合は、例として、第3のさらにより低い確率に関連付けられる。大文字使用確率は、各文ペアおよび各特定されたソース言語の句に関して最高の翻訳確率(最高の内部スコアと外部スコアの合計)を有する候補句から、最初に推定される。
大文字使用確率の対数は、例として、句の翻訳に関して以前に計算されている内部スコアに加算される。これにより、もちろん、どの候補句が特定されたソース言語の句に対して最高の翻訳確率を有するかが変わる。したがって、大文字使用確率を適用し、翻訳スコアおよび大文字使用確率を再計算することは、最高の翻訳スコアを有する候補句が安定するまで反復して行われる。大文字使用確率の適用は、図5Bのブロック530で示されている。
モデル406をさらに詳細に説明することに先立って、どのように候補句がターゲット言語文の中で仮定されるか、または生成されるかを示す流れ図である図8を参照してこの説明を進める。多種多様な異なる技術を使用して候補句を生成することができる。たとえば、各ターゲット言語文のすべての可能なサブシーケンスを候補句として仮定することができる。ただし、これには、不要に時間がかかり、不要に計算リソースを消費する可能性がある。したがって、本発明の1つの例示的な実施形態によれば、候補句は、ヒューリスティックに仮定される。
本発明の一実施形態によれば、ターゲット言語文の中で候補句を生成するため、モデル404は、ソース言語文の中の各語を選択する。ソース言語文の中の各語に関して、モデル404は、ターゲット言語文全体にわたってソース言語文の中のその語が最も強く関連しているターゲット言語文の中の語を探し出す。これが、図8のブロック600で示されている。次に、ターゲット言語文の中の各語に関して、モデル404は、ソース言語文全体にわたってターゲット言語文の中のその語が最も強く関連しているソース言語文の中の語を探し出す。これが、ブロック602で示されている。それらの最も強く関連している語を特定する目的では、「ヌル」語は考慮されない。
次に、モデル404は、ソース言語の句520の中の語(W)に最も強く関連している各語(W)で、候補句が始まることが可能であるものと仮定する。これは、図9Aに関してよりよく示されており、図8のブロック604によっても示されている。図9Aは、ターゲット言語文の中の語Tが、ソース言語文の中の特定されたソース言語の句520の中の語Sに最も強く関連していることを示している。したがって、モデル404は、候補句が語Tで始まるものと仮定する。
また、モデル404は、特定されたソース句520からの語Wが最も強く関連している各語Wで、候補句が始まることが可能であることも仮定する。これが、ブロック606で示され、図9Bによってよりよく示されている。図9Bは、句520内部にあるソース言語の語Sが、ターゲット言語の語Tに最も強く関連していることを示している。したがって、モデル404は、候補句が語Tで始まるものと仮定する。
また、モデル404は、候補句が強く関連した語で終わることも仮定する。したがって、モデル404は、ソース言語の句520の中の語(W)に最も強く関連している各語(W)で、候補句が終わることが可能であるものと仮定する。これが、ブロック608で示されている。同様に、モデルは、特定されたソース言語の句520からの語(W)が最も強く関連している各語(W)で、候補句が終わることが可能であることも仮定する。これが、ブロック610で示されている。
追加のオプションのステップとして、モデル404は、ターゲット言語文の中のすべての大文字で書かれた語を候補句の中の可能な開始語として特定することができる。これが、図8のブロック612で示されている。
最後に、特定された可能な開始語の1つで始まり、選択された開始語の後に続く特定された可能な終了語の1つで終わるすべての可能な候補句が生成される。これが、ブロック613で示されている。
特定されたソース句の中の語に強く関連している語だけで候補句が始まる、または終わることを許すことにより、機能語が翻訳において望ましくない場合に機能語が含まれる尤度が低減されることが分かっている。機能語は、しばしば、何にも強く関連しておらず、したがって、機能語が含まれるべきでない場合にその語を含めることに関してモデルが確率によって罰せられないため、問題となる可能性がある。このため、本技術は、その問題に対処する。
モデル404は、整列された文の中の句の区分の内部と外部の両方の情報を考慮するが、特定された句が、コーパスにおける他の文ペア全体にわたってどのように識別されているかは考慮しない。したがって、モデル406が、この情報を考慮する。モデル406では、EMアルゴリズムのEステップが、コーパス、およびモデル404において計算された翻訳ペアに関するスコアに適用される。モデル406は、したがって、モデル404が(前述したオプションの剪定の後)それぞれの可能な翻訳に割り当てた正規化された確率で重み付けし、モデル404のスコアを対数確率として扱って、各ソース言語の句がどれだけ頻繁にターゲット言語の語の選択されたシーケンスとして翻訳されているかを、カウントする。
たとえば、特定の文ペアにおいて、厳密に2つのターゲット言語シーケンスを特定のソース言語の句に対する候補翻訳として特定したものと想定する。第1の候補のモデル404のスコアが0.0001という対数に等しく、第2の候補のモデル404のスコアが0.0009という対数に等しいものと想定する。EMアルゴリズムのEステップによれば、これらの確率は、結果合計を1にするように選択された共通因数を掛けることによって正規化され、それぞれ0.1と0.9が2つの候補の正規化された確率として与えられる。次に、第1の候補がソース言語の句の翻訳として出現する回数の重み付きのカウントに0.1を加算し、第2の候補がソース言語の句の翻訳として出現する回数の重み付きのカウントに0.9を加算する。整列されたコーパス全体にわたってEMアルゴリズムのEステップを適用することが、図10のブロック700で示されている。
モデル406は、次に、重み付きのカウントから直接に新しい内部スコアを推定する。これが、ブロック702で示されている。たとえば、コーパスにおいて特定のソース言語の句の10回の出現が存在し、特定の候補ターゲット言語の句がその翻訳であることに関してEMアルゴリズムのEステップによって計算された重み付きのカウントが7になる場合、モデル406は、ソース言語の句がその候補句の中のターゲット言語の語のシーケンスとして翻訳される0.7の確率(7/10)を割り当てる。同様に、候補句の出現がソース言語の句の翻訳である確率が計算される。したがって、候補句の合計で20回の出現が存在する場合、モデル406は、候補句がソース言語の句の翻訳である0.35の確率(7/20)を割り当てる。以上2つの確率の積の対数により、新しい内部スコアのベースが形成される。したがって、モデル406は、ソース言語における特定された句が、コーパス全体にわたってどのように翻訳されているかについての情報を利用する。
ただし、この技術により、スケーリングの問題が生じる。内部スコアと外部スコアが結合されるため、新しい内部スコアにおける2つだけの確率を外部スコアを構成する多くの確率に結合することにより、句の外部に余りにも大きな重み付けが行われ、内部スコアに対して十分な重み付けが行われないことになる。これが生じるのを防止するため、新しい内部スコアをスケーリングして、古い内部スコアと同じぐらい大きな変動を示すようにする必要がある。コーパスにおける特定されたソース言語の句のすべての出現の最も可能性が高い翻訳に関して、(大文字使用確率を組み込んでいない)古い内部スコアの標準偏差、および新しい内部スコアベースの標準偏差を計算することによって適切なスケールファクタ(scale factor)が計算される。以上の標準偏差は、古い内部スコアおよび新しい内部スコアベースの変動の度合いの測度であり、したがって、新しい内部スコアベースに以上2つの標準偏差の比からなるスケールファクタを掛けることによって新しい内部スコアがスケーリングされ、古い内部スコアと同じ標準偏差を有する新しいスケーリングされた内部スコアがもたらされる。新しい内部スコアベースにこのスケールファクタを適用することが、図10のブロック704で示されている。
したがって、モデル406スコアの初期の推定は、新しいスケーリングされた内部スコアと古い外部スコアの合計である。これらのスコアを合計することが、ブロック707で示されている。ただし、大文字使用確率の導入の場合と同様に、これにより、各文ペアにおける競合する翻訳候補の相対確率が変化する。したがって、各文ペアにおける各特定されたソース言語の句に対する最も可能性の高い翻訳がもはや変わらなくなるまで、各文ペアに関する翻訳確率、重み付きのカウント、および結果の句の翻訳確率を反復して再推定する。これが、ブロック709で示されている。モデル406により、したがって、コーパス全体にわたる翻訳の効果を考慮に入れる最も可能性の高い翻訳の新しいセットが生成される。これが、ブロック711で示されている。最も可能性の高い翻訳のこのセットが、モデル408に提供される。
図11は、モデル408の動作をより詳細に示す流れ図である。モデル408は、ブロック749で示されるとおり、モデル406から最も可能性の高い翻訳を受け取る。前述したとおり、対数尤度比スコアが、仮定された翻訳関係にどれだけの信頼を置くかについての非常に良好な指標である。したがって、対数尤度比スコアに変換して戻すことが望ましい可能性がある。
各文ペア、および各特定された句に関して、モデル408は、特定された句の最も可能性の高い翻訳をモデル406の計算から受け取り、この最も可能性の高い翻訳に1のカウントを与える。これが、図11のブロック750で示されている。モデル408は、次に、コーパス全体を検討することに戻り、そのカウントに基づいて候補句のすべてに関する対数尤度比スコアを再計算する。これが、ブロック752で示されている。
各文、および各特定された句に関して、モデル408は、計算されたばかりの対数尤度比スコアを所与として、最良の翻訳を探し出し、カウントする。これが、ブロック754で示されている。モデル408は、次に、新しいカウントに基づいて新しい対数尤度比スコアを計算する。これが、ブロック756で示されている。新しい対数尤度比スコアにより、異なる句の翻訳が特定される可能性がある。したがって、モデル408は、最良の句の翻訳が変わらなくなるまで、つまり安定するまで、ステップ754および756を反復する。これが、ブロック758で示されている。
最良の翻訳が安定すると、モデル408は、ブロック760で示されるとおり、ランク順の翻訳ペアおよびスコアを出力する。
以上、本発明により、キャプトイド、およびその他のタイプの句に関する翻訳関係の導出が強化されることを見て取ることができる。
本発明を特定の実施形態に関連して説明してきたが、本発明の趣旨および範囲を逸脱することなく、形態および詳細の変更を行うことが可能であることが、当業者には認められよう。
本発明を使用することが可能な一般的な状況を示すブロック図である。 本発明を使用することが可能な一般的な機械翻訳アーキテクチャを示すより詳細なブロック図である。 本発明の一実施形態に従って使用することができる句の翻訳学習システムを示すブロック図である。 本発明の一実施形態による句の翻訳学習器を示すブロック図である。 図3に示した句の翻訳学習器の全体的な動作を示す流れ図である。 本発明の一実施形態による単語の関連スコアモデルの動作を示す流れ図である。 本発明の一実施形態による単語の関連スコアモデルの動作を示す流れ図である。 本発明の一実施形態による内部スコアの計算を示す図である。 本発明の一実施形態による外部スコアの計算を示す図である。 本発明の一実施形態による候補句の生成を示す流れ図である。 候補句を生成するように処理される整列された文を示す図である。 候補句を生成するように処理される整列された文を示す図である。 本発明の一実施形態によるクロスセンテンスモデルの動作を示す流れ図である。 本発明の一実施形態による信頼性測度変換モデルの動作を示す流れ図である。
符号の説明
310 トークン化されたソース言語文
312 トークン化されたターゲット言語文
400 句の翻訳学習構成要素
404 単語の関連スコアモデル
406 クロスセンテンスモデル
408 信頼性測度変換モデル
410 翻訳ペアおよびスコア

Claims (33)

  1. ソース言語における句とターゲット言語における句との間の翻訳関係を特定する方法であって、
    1つが前記ソース言語におけるソースユニットであり、もう1つが前記ターゲット言語におけるターゲットユニットである、前記ソース言語の句が前記ソースユニットにおいて特定された、複数の語ユニットの整列されたペアに対するアクセスを受け取るステップと、
    前記ソース言語の句の仮定された翻訳である、前記ターゲットユニットにおける少なくとも1つの候補句を生成するステップと、
    各候補句に関して、前記ソース言語の句内部の語と前記候補句内部の語の間との関連に基づく内部成分と、前記ソース言語の句外部の語と前記候補句外部の語との間の関連に基づく外部成分とを含むスコアを計算するステップと、
    前記スコアに基づいて前記ソース言語の句と前記候補句との間の翻訳関係を特定するステップと
    を備えることを特徴とする方法。
  2. ペアは、前記ソースユニットにおける語と、前記ターゲットユニットにおける語とを含み、前記ソースユニットにおける語と前記ターゲットユニットにおける語とのペアの間の関連の度合いを示す個々の語の関連スコアを有する
    ことを特徴とする請求項1に記載の方法。
  3. 前記スコアを計算するステップは、
    前記ソース言語の句内部の語と前記候補句内部の語との間の関連の度合いを示す内部スコアを計算するステップと、
    前記ソース言語の句外部の前記ソースユニットにおける語と前記候補句外部の前記ターゲットユニットにおける語との間の関連の度合いを示す外部スコアを計算するステップとを含む
    ことを特徴とする請求項2に記載の方法。
  4. 前記スコアを計算するステップは、
    前記内部スコアと前記外部スコアとを結合して合併スコアを得るステップを含む
    ことを特徴とする請求項3に記載の方法。
  5. 前記翻訳関係を特定するステップは、
    前記合併スコアに基づいて前記ソース言語の句と前記候補句との間の翻訳関係を特定するステップを含む
    ことを特徴とする請求項4に記載の方法。
  6. 前記少なくとも1つの候補句を生成するステップは、
    前記個々の語の関連スコアに基づいて前記候補句を生成するステップを含む
    ことを特徴とする請求項1に記載の方法。
  7. 前記ソースユニットにおける各語は、その各語に最も強く関連しているヌル語を含む、前記ターゲットユニットにおける語を示す語の関連を有し、前記ターゲットユニットにおける各語は、その各語に最も強く関連している、ヌル語を含む、前記ソースユニットにおける語を示す語の関連を有し、前記アクセスを受け取るステップは、
    最も強く関連している語ペアの出現のカウントを生成するステップを含む
    ことを特徴とする請求項5に記載の方法。
  8. 前記候補句における大文字使用パターンを検出するステップと、
    前記大文字使用パターンに基づいて前記合併スコアを調整するステップと
    をさらに備えることを特徴とする請求項5に記載の方法。
  9. 前記大文字使用パターンを検出するステップは、
    前記候補句における第1の語が大文字で始まる第1のパターンと、
    前記候補句における前記第1の語は大文字で始まらないが、前記候補句における1つまたは複数の後続の語が大文字で始まる第2のパターンと、
    前記候補句におけるいずれの語も大文字で始まらない第3のパターンと
    の少なくとも1つを検出するステップを含む
    ことを特徴とする請求項8に記載の方法。
  10. 前記大文字使用パターンに基づいて前記合併スコアを調整するステップは、
    前記第1のパターンが検出された場合に第1の大文字使用スコアを適用するステップと、
    前記第2のパターンが検出された場合に第2の大文字使用スコアを適用するステップと、
    前記第3のパターンが検出された場合に第3の大文字使用スコアを適用するステップと を含むことを特徴とする請求項9に記載の方法。
  11. 前記内部スコアを計算するステップは、
    前記ソース言語の句内部の各語に関して、前記語の関連スコアに基づき、その各語に最も緊密に関連している、ヌル語を含む、前記候補句内部の語を特定するステップと、
    前記候補句内部の各語に関して、前記語の関連スコアに基づき、その各語に最も緊密に関連している、ヌル語を含む、前記ソース言語の句内部の語を特定するステップと
    によって内部語ペアを特定するステップを含む
    ことを特徴とする請求項3に記載の方法。
  12. 前記内部スコアを計算するステップは、
    各内部語ペアに関して、前記内部語ペアにおける1つの語の出現が前記内部語ペアにおける別の語を最も強く関連している語として有する確率を示す内部語ペアの確率を生成するステップと、
    前記内部語ペアの確率を結合するステップと
    をさらに含むことを特徴とする請求項11に記載の方法。
  13. 前記外部スコアを計算するステップは、
    前記ソース言語の句の外部の、前記ソースユニットにおける各語に関して、前記語の関連スコアに基づき、その各語に最も緊密に関連している、ヌル語を含む、前記候補句の外部の前記ターゲットユニットにおける語を特定するステップと、
    前記候補句の外部の前記ターゲットユニットにおける各語に関して、前記語の関連スコアに基づき、その各語に最も緊密に関連している、ヌル語を含む、前記ソース言語の句の外部の前記ソースユニットにおける語を特定するステップと
    によって外部語ペアを特定するステップを含む
    ことを特徴とする請求項12に記載の方法。
  14. 前記外部スコアを計算するステップは、
    各外部語ペアに関して、前記外部語ペアにおける1つの語の出現が前記外部語ペアにおける別の語を最も緊密に関連している語として有する確率を示す外部語ペアの確率を生成するステップと、
    前記外部語ペアの確率を結合するステップと
    をさらに含むことを特徴とする請求項13に記載の方法。
  15. 前記合併スコアを計算するステップは、
    前記内部語ペアの確率と前記外部語ペアの確率とを結合するステップを含む
    ことを特徴とする請求項14に記載の方法。
  16. 前記候補句を生成するステップは、
    前記ソース言語の句における語に最も強く関連している前記ターゲットユニットにおけるターゲット言語の語を特定するステップと、
    前記ソース言語の句における語が最も強く関連している前記ターゲットユニットにおけるターゲット言語の語を特定するステップと
    を含むことを特徴とする請求項1に記載の方法。
  17. 前記候補句を生成するステップは、
    特定されたターゲット言語の語で始まり、特定されたターゲット言語の語で終わる語のシーケンスに限定された前記ターゲットユニットにおける語のシーケンスとして候補句を生成するステップをさらに含む
    ことを特徴とする請求項16に記載の方法。
  18. 前記候補句を生成するステップは、
    大文字で始まるターゲット言語の語で始まり、特定されたターゲット言語の語で終わる候補句をさらに生成するステップをさらに含む
    ことを特徴とする請求項17に記載の方法。
  19. 前記句の翻訳関係を特定するステップは、
    候補句に関する前記合併スコアに基づき、前記コーパス全体にわたってどれだけ頻繁に候補句が前記ソース言語の句の翻訳として生成されているかに基づいて、各候補句に関連する前記合併スコアを変更して新しい合併スコアを得るステップを含む
    ことを特徴とする請求項5に記載の方法。
  20. 前記合併スコアを変更するステップは、
    前記合併スコアに基づいて前記コーパスにおける各ソース言語の句がどれだけ頻繁に所与の候補句として翻訳されているかについてのカウントを生成するステップを含む
    ことを特徴とする請求項19に記載の方法。
  21. 前記合併スコアを変更するステップは、
    生成された前記カウントから各候補句に関連する新しい内部スコアを推定するステップをさらに含む
    ことを特徴とする請求項20に記載の方法。
  22. 前記合併スコアを変更するステップは、
    前記新しい内部スコアにスケールファクタを適用して、スケーリングされた内部スコアを得るステップをさらに含む
    ことを特徴とする請求項21に記載の方法。
  23. 前記合併スコアを変更するステップは、
    各候補句に関して、前記スケーリングされた内部スコアと前記外部スコアとを結合して、各候補句に関する前記新しい合併スコアを得るステップをさらに含む
    ことを特徴とする請求項22に記載の方法。
  24. 前記句の翻訳関係を特定するステップは、
    各ユニットペアおよび各ソース言語の句に関して、前記新しい合併スコアに基づいて候補句を前記ソース言語の句の最も可能性の高い翻訳として特定し、特定された前記候補句にカウントを割り当てるステップ
    によって前記新しい合併スコアを所望の形態に変換するステップを含む
    ことを特徴とする請求項19に記載の方法。
  25. 前記変換するステップは、
    前記新しい合併スコアに基づいて対数尤度比スコアを計算するステップを含む
    ことを特徴とする請求項24に記載の方法。
  26. 前記変換するステップは、
    各ユニットペア、各ソース言語の句に関して、前記対数尤度比スコアに基づいて最良候補句にカウントを割り当てるステップをさらに含む
    ことを特徴とする請求項25に記載の方法。
  27. 前記変換するステップは、
    割り当てられた前記カウントに基づいて新しい対数尤度比スコアを計算するステップをさらに含む
    ことを特徴とする請求項26に記載の方法。
  28. 前記変換するステップは、
    前記最良候補句が安定するまで、前記カウントを割り当てるステップと前記新しい対数尤度比スコアを計算するステップとを繰り返すステップをさらに含む
    ことを特徴とする請求項27に記載の方法。
  29. 複数語ソースユニットにおける特定されたソース言語の句に対する複数語ターゲットユニットにおける句の翻訳を特定するためのシステムであって、
    前記ソース言語の句内部の語とターゲット言語の句内部の語との間の語の関連、および前記ソース言語の句外部の語と前記ターゲット言語の句外部の語との間の語の関連に基づいて、1つまたは複数の候補句、および各候補句に関するスコアを生成するように構成された、個々の単語の関連モデル
    を備えたことを特徴とするシステム。
  30. 前記ソースユニットと前記ターゲットユニットとは、整列されたコーパスの一部であるシステムであって、
    前記コーパス全体にわたって前記ソース言語の句に対して生成された他の候補句に基づいて前記スコアを変更して、変更されたスコアを得るように構成されたクロスセンテンスモデル
    をさらに備えたことを特徴とする請求項29に記載のシステム。
  31. 前記ソース言語の句の翻訳としての前記候補句に関連する信頼性レベルを示す所望の信頼性メトリックに、変更された前記スコアを変換するように構成された変換モデル
    をさらに備えたことを特徴とする請求項30に記載のシステム。
  32. ソース言語の複数語ソースユニットにおける特定された句の仮定された翻訳としてターゲット言語の複数語ターゲットユニットにおける候補句を生成する方法であって、
    前記ソース言語の句における語に最も強く関連している前記ターゲットユニットにおける第1のターゲット言語の語を特定するステップと、
    前記ソース言語の句における語に最も強く関連している前記ターゲットユニットにおける第2のターゲット言語の語を特定するステップと、
    第1のターゲット言語の語または第2のターゲット言語の語で始まり、第1のターゲット言語の語または第2のターゲット言語の語で終わる句として、前記候補句を生成するステップと
    を備えることを特徴とする方法。
  33. 前記候補句を生成するステップは、
    大文字で始まる語で始まり、第1のターゲット言語の語または第2のターゲット言語の語で終わる句として、追加の候補句を生成するステップ
    をさらに備えることを特徴とする請求項32に記載の方法。
JP2003389979A 2002-11-20 2003-11-19 句の間の翻訳関係を学習するための統計的な方法および装置 Expired - Fee Related JP4694121B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/300,309 2002-11-20
US10/300,309 US7249012B2 (en) 2002-11-20 2002-11-20 Statistical method and apparatus for learning translation relationships among phrases

Publications (3)

Publication Number Publication Date
JP2004171575A true JP2004171575A (ja) 2004-06-17
JP2004171575A5 JP2004171575A5 (ja) 2007-01-11
JP4694121B2 JP4694121B2 (ja) 2011-06-08

Family

ID=32229868

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003389979A Expired - Fee Related JP4694121B2 (ja) 2002-11-20 2003-11-19 句の間の翻訳関係を学習するための統計的な方法および装置

Country Status (8)

Country Link
US (2) US7249012B2 (ja)
EP (1) EP1422634B1 (ja)
JP (1) JP4694121B2 (ja)
KR (1) KR101031970B1 (ja)
CN (1) CN100565500C (ja)
AT (1) ATE438147T1 (ja)
BR (1) BR0305304A (ja)
DE (1) DE60328575D1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750886B1 (ko) 2005-12-09 2007-08-22 한국전자통신연구원 학습 데이터 구축 장치 및 방법

Families Citing this family (151)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7191115B2 (en) 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US20030074188A1 (en) * 2001-10-12 2003-04-17 Tohgo Murata Method and apparatus for language instruction
US7620538B2 (en) 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
US7634397B2 (en) * 2002-06-27 2009-12-15 Siebel Systems, Inc. Single server instance, multi-lingual applications based on loosely coupled metadata and presentation layers
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
JP2004280574A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
WO2005020093A1 (en) * 2003-08-21 2005-03-03 Idilia Inc. Internet searching using semantic disambiguation and expansion
JP2005100335A (ja) * 2003-09-01 2005-04-14 Advanced Telecommunication Research Institute International 機械翻訳装置、機械翻訳コンピュータプログラム及びコンピュータ
JP3919771B2 (ja) * 2003-09-09 2007-05-30 株式会社国際電気通信基礎技術研究所 機械翻訳システム、その制御装置、及びコンピュータプログラム
US7451398B1 (en) * 2003-11-18 2008-11-11 Google, Inc. Providing capitalization correction for unstructured excerpts
KR100556607B1 (ko) * 2003-12-19 2006-03-06 한국전자통신연구원 기계번역 시스템의 성능을 평가하기 위한 핵심어 전달율측정 방법
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US7593843B2 (en) * 2004-03-30 2009-09-22 Microsoft Corporation Statistical language model for logical form using transfer mappings
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
US7620539B2 (en) * 2004-07-12 2009-11-17 Xerox Corporation Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing
US7844464B2 (en) * 2005-07-22 2010-11-30 Multimodal Technologies, Inc. Content-based audio playback emphasis
US7680648B2 (en) 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US7996208B2 (en) * 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
DE202005022113U1 (de) 2004-10-12 2014-02-05 University Of Southern California Training für eine Text-Text-Anwendung, die eine Zeichenketten-Baum-Umwandlung zum Training und Decodieren verwendet
US7548849B2 (en) * 2005-04-29 2009-06-16 Research In Motion Limited Method for generating text that meets specified characteristics in a handheld electronic device and a handheld electronic device incorporating the same
US20060282255A1 (en) * 2005-06-14 2006-12-14 Microsoft Corporation Collocation translation from monolingual and available bilingual corpora
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7574348B2 (en) * 2005-07-08 2009-08-11 Microsoft Corporation Processing collocation mistakes in documents
US20070043553A1 (en) * 2005-08-16 2007-02-22 Microsoft Corporation Machine translation models incorporating filtered training data
US7957953B2 (en) * 2005-10-03 2011-06-07 Microsoft Corporation Weighted linear bilingual word alignment model
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
CN101361065B (zh) 2006-02-17 2013-04-10 谷歌公司 分布式模型的编码和自适应、可扩展访问
CN101030197A (zh) * 2006-02-28 2007-09-05 株式会社东芝 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7725306B2 (en) * 2006-06-28 2010-05-25 Microsoft Corporation Efficient phrase pair extraction from bilingual word alignments
US8886518B1 (en) * 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US7848915B2 (en) * 2006-08-09 2010-12-07 International Business Machines Corporation Apparatus for providing feedback of translation quality using concept-based back translation
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8195447B2 (en) * 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US20080120092A1 (en) * 2006-11-20 2008-05-22 Microsoft Corporation Phrase pair extraction for statistical machine translation
US7774193B2 (en) * 2006-12-05 2010-08-10 Microsoft Corporation Proofing of word collocation errors based on a comparison with collocations in a corpus
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US7856351B2 (en) * 2007-01-19 2010-12-21 Microsoft Corporation Integrated speech recognition and semantic classification
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8037086B1 (en) * 2007-07-10 2011-10-11 Google Inc. Identifying common co-occurring elements in lists
KR100912501B1 (ko) * 2007-08-09 2009-08-17 한국전자통신연구원 번역 지식 구축 방법 및 장치
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
US8463593B2 (en) * 2007-08-31 2013-06-11 Microsoft Corporation Natural language hypernym weighting for word sense disambiguation
JP5342760B2 (ja) * 2007-09-03 2013-11-13 株式会社東芝 訳語学習のためのデータを作成する装置、方法、およびプログラム
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation
US8849665B2 (en) * 2008-01-30 2014-09-30 At&T Intellectual Property I, L.P. System and method of providing machine translation from a source language to a target language
US20090210404A1 (en) * 2008-02-14 2009-08-20 Wilson Kelce S Database search control
US8521516B2 (en) * 2008-03-26 2013-08-27 Google Inc. Linguistic key normalization
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
JP2010044637A (ja) * 2008-08-14 2010-02-25 Just Syst Corp データ処理装置、方法、及びプログラム
US20100070262A1 (en) * 2008-09-10 2010-03-18 Microsoft Corporation Adapting cross-lingual information retrieval for a target collection
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
US20100204977A1 (en) * 2009-02-09 2010-08-12 Inventec Corporation Real-time translation system that automatically distinguishes multiple languages and the method thereof
US20100228538A1 (en) * 2009-03-03 2010-09-09 Yamada John A Computational linguistic systems and methods
US8275604B2 (en) 2009-03-18 2012-09-25 Microsoft Corporation Adaptive pattern learning for bilingual data mining
US8185373B1 (en) * 2009-05-05 2012-05-22 The United States Of America As Represented By The Director, National Security Agency, The Method of assessing language translation and interpretation
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US9235563B2 (en) 2009-07-02 2016-01-12 Battelle Memorial Institute Systems and processes for identifying features and determining feature associations in groups of documents
US8131735B2 (en) * 2009-07-02 2012-03-06 Battelle Memorial Institute Rapid automatic keyword extraction for information retrieval and analysis
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
WO2011100862A1 (en) * 2010-02-22 2011-08-25 Yahoo! Inc. Bootstrapping text classifiers by language adaptation
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8265923B2 (en) * 2010-05-11 2012-09-11 Xerox Corporation Statistical machine translation employing efficient parameter training
KR101745349B1 (ko) * 2010-09-02 2017-06-09 에스케이플래닛 주식회사 병렬 말뭉치의 구 정렬을 이용한 숙어 표현 인식 장치 및 그 방법
SG188531A1 (en) * 2010-09-24 2013-04-30 Univ Singapore Methods and systems for automated text correction
US20120158398A1 (en) * 2010-12-17 2012-06-21 John Denero Combining Model-Based Aligner Using Dual Decomposition
JP5666937B2 (ja) * 2011-02-16 2015-02-12 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US9063931B2 (en) * 2011-02-16 2015-06-23 Ming-Yuan Wu Multiple language translation system
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US20130024184A1 (en) * 2011-06-13 2013-01-24 Trinity College Dublin Data processing system and method for assessing quality of a translation
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8914277B1 (en) * 2011-09-20 2014-12-16 Nuance Communications, Inc. Speech and language translation of an utterance
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8793199B2 (en) 2012-02-29 2014-07-29 International Business Machines Corporation Extraction of information from clinical reports
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US9081762B2 (en) * 2012-07-13 2015-07-14 Enyuan Wu Phrase-based dictionary extraction and translation quality evaluation
US9116886B2 (en) * 2012-07-23 2015-08-25 Google Inc. Document translation including pre-defined term translator and translation model
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
JP6296592B2 (ja) * 2013-05-29 2018-03-20 国立研究開発法人情報通信研究機構 翻訳語順情報出力装置、機械翻訳装置、学習装置、翻訳語順情報出力方法、学習方法、およびプログラム
US20160132491A1 (en) * 2013-06-17 2016-05-12 National Institute Of Information And Communications Technology Bilingual phrase learning apparatus, statistical machine translation apparatus, bilingual phrase learning method, and storage medium
CN104252439B (zh) * 2013-06-26 2017-08-29 华为技术有限公司 日记生成方法及装置
US20150039286A1 (en) * 2013-07-31 2015-02-05 Xerox Corporation Terminology verification systems and methods for machine translation services for domain-specific texts
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
CN104794110B (zh) * 2014-01-20 2018-11-23 腾讯科技(深圳)有限公司 机器翻译方法及装置
JP5850512B2 (ja) * 2014-03-07 2016-02-03 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
WO2016043539A1 (ko) * 2014-09-18 2016-03-24 특허법인 남앤드남 소번역메모리를 포함하는 번역 메모리, 그를 이용한 역방향 번역메모리 및 이들을 기록한 컴퓨터 판독가능한 저장매체
US10083167B2 (en) 2014-10-03 2018-09-25 At&T Intellectual Property I, L.P. System and method for unsupervised text normalization using distributed representation of words
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
JP5995226B2 (ja) * 2014-11-27 2016-09-21 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 音響モデルを改善する方法、並びに、音響モデルを改善する為のコンピュータ及びそのコンピュータ・プログラム
US9864744B2 (en) 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US9734142B2 (en) * 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
CN106547743B (zh) 2015-09-23 2020-03-27 阿里巴巴集团控股有限公司 一种进行翻译的方法及其系统
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
CN106980390A (zh) * 2016-01-18 2017-07-25 富士通株式会社 辅助翻译输入方法和辅助翻译输入设备
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
CN107818086B (zh) * 2016-09-13 2021-08-10 株式会社东芝 机器翻译方法和装置
CN107861937B (zh) * 2016-09-21 2023-02-03 松下知识产权经营株式会社 对译语料库的更新方法、更新装置以及记录介质
CN106649288B (zh) * 2016-12-12 2020-06-23 北京百度网讯科技有限公司 基于人工智能的翻译方法和装置
US10372816B2 (en) 2016-12-13 2019-08-06 International Business Machines Corporation Preprocessing of string inputs in natural language processing
US10546063B2 (en) 2016-12-13 2020-01-28 International Business Machines Corporation Processing of string inputs utilizing machine learning
US10180935B2 (en) 2016-12-30 2019-01-15 Facebook, Inc. Identifying multiple languages in a content item
US10235361B2 (en) 2017-02-15 2019-03-19 International Business Machines Corporation Context-aware translation memory to facilitate more accurate translation
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
CN110516237B (zh) * 2019-08-15 2022-12-09 重庆长安汽车股份有限公司 短文本短语提取方法、系统及存储介质
US11842165B2 (en) * 2019-08-28 2023-12-12 Adobe Inc. Context-based image tag translation
US11373120B2 (en) * 2019-11-25 2022-06-28 Sap Se Attention mechanism for natural language processing
CN111079422B (zh) * 2019-12-13 2023-07-14 北京小米移动软件有限公司 关键词提取方法、装置及存储介质
CN111611811B (zh) * 2020-05-25 2023-01-13 腾讯科技(深圳)有限公司 翻译方法、装置、电子设备及计算机可读存储介质
KR20220118037A (ko) * 2021-02-18 2022-08-25 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11853712B2 (en) 2021-06-07 2023-12-26 International Business Machines Corporation Conversational AI with multi-lingual human chatlogs
US20230153542A1 (en) * 2021-11-15 2023-05-18 Salesforce.Com, Inc. Systems and methods for cross-lingual transfer in natural language processing
WO2023205290A1 (en) * 2022-04-20 2023-10-26 Zengines, Inc. Systems and methods for data conversion

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA1251570A (en) * 1985-05-14 1989-03-21 Kouji Miyao Bilingual translation system with self intelligence
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
SE466029B (sv) * 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
NL8900587A (nl) * 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5267156A (en) * 1991-12-05 1993-11-30 International Business Machines Corporation Method for constructing a knowledge base, knowledge base system, machine translation method and system therefor
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
JPH08329105A (ja) * 1995-05-31 1996-12-13 Canon Inc 文書処理方法及びその装置
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
US7020601B1 (en) * 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
US6092034A (en) * 1998-07-27 2000-07-18 International Business Machines Corporation Statistical translation system and method for fast sense disambiguation and translation of large corpora using fertility models and sense models
KR20000056245A (ko) * 1999-02-18 2000-09-15 윤종용 예제기반 기계번역에서 분별성이 반영된 유사도를 이용한 번역예문 선정방법
JP3669870B2 (ja) * 1999-06-28 2005-07-13 株式会社サン・フレア 最適テンプレートパターン探索方法,探索装置および記録媒体
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
JP2002351872A (ja) 2001-05-22 2002-12-06 Nippon Telegr & Teleph Corp <Ntt> 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体
US8214196B2 (en) * 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US7620538B2 (en) * 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100750886B1 (ko) 2005-12-09 2007-08-22 한국전자통신연구원 학습 데이터 구축 장치 및 방법
US7725408B2 (en) 2005-12-09 2010-05-25 Electronics And Telecommunications Research Institute Apparatus and method for constructing learning data

Also Published As

Publication number Publication date
CN100565500C (zh) 2009-12-02
US7249012B2 (en) 2007-07-24
ATE438147T1 (de) 2009-08-15
KR101031970B1 (ko) 2011-04-29
KR20040044176A (ko) 2004-05-27
EP1422634A2 (en) 2004-05-26
EP1422634B1 (en) 2009-07-29
EP1422634A3 (en) 2007-02-28
US20080015842A1 (en) 2008-01-17
JP4694121B2 (ja) 2011-06-08
CN1503161A (zh) 2004-06-09
BR0305304A (pt) 2004-08-31
DE60328575D1 (de) 2009-09-10
US20040098247A1 (en) 2004-05-20

Similar Documents

Publication Publication Date Title
JP4694121B2 (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
US7050964B2 (en) Scaleable machine translation system
US8275605B2 (en) Machine language translation with transfer mappings having varying context
US7356457B2 (en) Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US7295963B2 (en) Adaptive machine translation
CA2469593C (en) Adaptive machine translation
JP4945086B2 (ja) 論理形式のための統計的言語モデル
JP4993762B2 (ja) 用例ベースの機械翻訳システム
US7191115B2 (en) Statistical method and apparatus for learning translation relationships among words
US6990439B2 (en) Method and apparatus for performing machine translation using a unified language model and translation model
US7319949B2 (en) Unilingual translator
JP2003308320A (ja) 文実現システム
WO2005096708A2 (en) A system for multiligual machine translation from english to hindi and other indian languages using pseudo-interlingua and hybridized approach
KR20040084856A (ko) 자연 언어 생성 시스템에 있어서의 문장 실현에서서열화를 위한 구성 요소 구조의 언어학적으로 통지된통계적 모델들
Gdaniec et al. Derivational morphology to the rescue: how it can help resolve unfound words in MT
JP3176750B2 (ja) 自然言語の翻訳装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20061120

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20061120

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070612

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070912

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070918

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20071012

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20071017

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20071112

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071211

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080311

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080409

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080423

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080627

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100512

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110120

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110223

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140304

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4694121

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees