JP4491187B2 - 単語間の翻訳関係を計算する方法 - Google Patents

単語間の翻訳関係を計算する方法 Download PDF

Info

Publication number
JP4491187B2
JP4491187B2 JP2002180457A JP2002180457A JP4491187B2 JP 4491187 B2 JP4491187 B2 JP 4491187B2 JP 2002180457 A JP2002180457 A JP 2002180457A JP 2002180457 A JP2002180457 A JP 2002180457A JP 4491187 B2 JP4491187 B2 JP 4491187B2
Authority
JP
Japan
Prior art keywords
word
words
sentence
processor
relevance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2002180457A
Other languages
English (en)
Other versions
JP2003141115A5 (ja
JP2003141115A (ja
Inventor
シー.ムーア ロバート
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2003141115A publication Critical patent/JP2003141115A/ja
Publication of JP2003141115A5 publication Critical patent/JP2003141115A5/ja
Application granted granted Critical
Publication of JP4491187B2 publication Critical patent/JP4491187B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment

Description

【0001】
【発明の属する技術分野】
本発明は、単語間の翻訳関係を計算する方法に関する。より詳しくは、異なる言語の単語間の翻訳関係を学習する統計的手法である単語間の翻訳関係を計算する方法及び機械翻訳システムをトレーニングする方法に関する。
【0002】
【従来の技術】
機械翻訳システムは、ある言語のテキスト入力を受け取り、それを第2の言語に翻訳し、その第2の言語のテキスト出力を供給するシステムである。そうする際に、このようなシステムは、通常、翻訳用語集を使用して、学習時に取得した内容語間の対応関係、つまり翻訳関係を取得する。
【0003】
経験的データから翻訳用語集(translation lexicon)を導出する一般的なアプローチは、並行2カ国語コーパス(parallel bilingual corpus)の整合処理した(aligned)センテンスで第1の言語L1の単語と第2の言語L2の単語との間の関連性の程度の測定基準を選択する作業を伴う。単語の組(L1の単語とL2の単語からなる)は、選択された関連性の測定基準によるランクで順序付けられる。しきい値を選択し、翻訳用語集を関連性の程度がそのしきい値を超える単語のすべての組で構成する。
【0004】
たとえば、ある従来技術のアプローチでは、類似性距離(similarity metric)(単語間の関連性の程度の測定基準)は単語が整合処理した並行テキストコーパスの対応する領域(たとえば、センテンス)内に同時に出現する頻度に基づく。単語の異なる組に対する関連性スコア(association scores)が計算され、それらの単語の組は、その関連性スコアの降順で並べ替えられる。再び、しきい値が選択され、関連性スコアがしきい値を超える単語の組が翻訳用語集内のエントリになる。
【0005】
しかし、このタイプの方法には欠点がある。問題の1つは、関連性スコアは通常、互いに無関係に計算されるという点である。たとえば、kを言語L1の異なる単語を表す整数として言語L1の単語を記号Vで表し、kを言語L2の異なる単語を表す整数として言語L2の単語をWで表すものとする。そこで、VとWの並びで、整合処理した2つのテキストセグメントを表す。WおよびVが類似2カ国語文脈(たとえば、整合処理したセンテンス内)に出現した場合、妥当な類似性距離があれば、それらの間に高い関連性スコアが得られ、これは、分布の相互依存性を反映する。
【0006】
ただし、VおよびVk+1はさらに、類似の文脈(たとえば、同じセンテンス内)にも現れる。その場合、VとVk+1の分布間に強い相互依存性もある。そのため、WとVが類似の文脈内に現れ、VとVk+1が類似の文脈内に現れた場合、WとVk+1も類似の文脈内に現れるという問題が生じる。これは、WとVとの関連性およびVk+1とVとの関連性によってのみ生じるため間接的関連(indirect association)と呼ばれている。互いに無関係に関連性スコアを計算する従来の方法では、直接的関連(たとえば、WとVの間の)と間接的関連(たとえば、WとVk+1の間の関連)を区別できない。このため、間接的関連でいっぱいの翻訳用語集が生成され、正しくない場合もあることは驚くべきことではない。
【0007】
間接的関連の具体的例として、主にコンピュータソフトウェアの翻訳されたマニュアルからなる並行フランス語英語コーパスを考える。このコーパスでは、英語の用語「file system」と「system files」は出現頻度の非常に高いものである。同様に、対応するフランス語の用語
【0008】
【外1】
Figure 0004491187
【0009】
もまた出現頻度が非常に高い。これらの1カ国語のコロケーション(co−location)は共通なので、fichier/systemと
【0010】
【外2】
Figure 0004491187
【0011】
の偽翻訳ペア(spurious translation pairs)も、関連性スコアがかなり高くなる。これらのスコアは、実際、多くの真の翻訳ペアのスコアよりも高くなることがある。
【0012】
この欠点は、いくつかの従来の手法で対処してきた。たとえば、Melamed著「Automatic Construction of Clean Broad−Coverage Translation Lexicons」(Second Conference of the Associationfor Machine Translation in the America′s(AMTA 1996)、Montreal Canada)はこの問題を取り上げている。
【0013】
Melamedは、関連性の高い単語ペアが、同じ単語の一方または両方を伴う関連性がなおいっそう高いペアがある整合処理されたセンテンスから導出された場合に、関連性の高い単語ペアを翻訳として無視することによりこの問題に対処している。つまり、関連性は強いほど信頼性が高く、そのため直接的関連性は間接的関連性よりも強いということになる。したがって、Vを含むセグメント(またはセンテンス)とWおよびW′の両方を含むセグメント(またはセンテンス)とを整合処理した場合、エントリ(V,W)および(V,W′)は両方とも、翻訳用語集内に現れてはならない。もし現れた場合、少なくとも1つが不正である可能性がある。直接的関連は間接的関連よりも強い傾向があると仮定しているため、最も高い関連性スコアを持つエントリは、正しい関連と選択されたスコアである。
【0014】
上述の例では、フランス語側の「fichier」と
【0015】
【外3】
Figure 0004491187
【0016】
および英語側の「file」と「system」を含む並行な英語とフランス語のセンテンス内で、fichier/systemおよび
【0017】
【外4】
Figure 0004491187
【0018】
の関連は無視されるが、それは「fichier/file」および
【0019】
【外5】
Figure 0004491187
【0020】
の関連性の度合いが同じ整合処理済みセンテンスにおいてかなり高くなる可能性があるからである。
【0021】
このアプローチは、高精度の出力を以前に報告されていたののよりもかなり高い対象範囲レベルに拡張すると報告されているが、これは欠点である。たとえば、実装する作業はきわめて複雑で、面倒であり、実行もまたかなり時間を要すると思われる。
【0022】
単語間の翻訳関係を学習する際に遭遇する問題点としてはほかに、複合語(compound)(または、複合語を形成する多単語シーケンス)が挙げられる。このような複合語は、他の言語では単一の単語に翻訳され、また別の言語では複数の単語に翻訳される。従来の手法では、語彙翻訳関係には単一の単語のみが関わると想定していた。もちろん、次の複合語のリストからわかるように、このように想定することは明らかに正しくない。
Base_de_donnees/database
Mot_de_passe/password
Sauvegarder/back_up
Annuler/roll_back
Ouvrir_session/log_on
【0023】
上記の最初の4つのペアで、一方の言語の複合語は他方の言語の単一の単語として翻訳される。ただし、最後の例では、一方の言語の複合語は他方の言語の複合語として翻訳され、複合語の個々の構成要素のそれぞれは、他方の複合語の個々の構成要素の1つに意味のある形で翻訳することはできない。たとえば、「ouvrir」は通常「open」と翻訳されるが、「log」または「on」として適切に翻訳することはできない。同様に、「session」は通常「session」として翻訳されるが、これもまた、「log」とも「on」とも適切に翻訳することはできない。
【0024】
このような問題に対処しようとする従来の試みの1つについては、Melamedによる「Automatic Discovery of Non−Compositional Compounds in Parallel Data」(Conference on Empirical Methods in Natural Language Processing(EMNLP 97)Providence、Rhode Island(1997))でも説明されている。Malamedは、候補複合語(candidate compound)を伴う試行翻訳モデル(trial translation model)およびそうでない基本翻訳モデル(base translationmodel)という2つの翻訳モデルを誘導している。Melamedの目的関数の値が基本モデルよりも試行モデルでのほうが大きい場合に、複合語は有効であるとみなされる。そうでない場合は、候補複合語は無効であるとみなされる。ただし、Melamedが潜在的複合語を選択するために使用している方法は、きわめて複雑であり、計算コストが高いが、それは、試行翻訳モデルの構築による検証の方法だからである。
【0025】
【発明が解決しようとする課題】
上述のように、従来の単語間の翻訳関係を学習する方法は、複雑で実行のためのコストが高いという点において、未だ改善の余地があった。
【0026】
本発明は、このような問題に鑑みてなされたもので、その目的とするところは、実装が複雑でなく、実行する時間の効率が高い単語間の翻訳関係を計算する方法を提供することにある。
【0027】
【課題を解決するための手段】
並行2カ国語トレーニングコーパスを構文解析し、内容語に分ける。他の単語が出現する言語L2のセンテンスに対し2カ国語コーパスで整合処理したセンテンス内に出現する、言語L1の単語からなる内容語の各ペアの単語関連性スコアを付ける。単語のペアは、単語の一方がセンテンス内の単語のうち、他方の単語と最も関連性が高い場合に整合処理センテンスのペア内で「リンク」されているとみなされる。複合語の出現は、処理されスコアが付けられたトレーニングデータ内の整合済みセンテンスの各ペア内の、リンクされた単語の最大の接続集合を識別することにより、トレーニングデータ内で仮定される。これら最大の接続集合の1つが言語の一方または両方で複数の単語を含む場合に、その言語内の単語のサブセットは複合語として仮定される。元の入力テキストは書き換えられ、仮定された複合語は単一の融合したトークンで置き換えられる。関連性スコアは、複合語(融合トークンで置き換えられている)と入力テキスト内の残りの個々の単語ついて再計算される。関連性スコアを再度計算するが、ただし、このときは、等しく強いまたはより強い他の関連性がトレーニングコーパス内の整合処理センテンスの特定のペア内にない場合のみ、関連性スコアを計算する際に同時出現を考慮する。
【0028】
翻訳ペアは、関連性スコアを最後に計算した後、しきい値よりも高い関連性スコアを持つ単語ペアまたはトークンペアとして識別できる。
【0029】
もちろん、本発明は単に、整合処理された2カ国語コーパスを含むトレーニングデータに複合語の出現を仮定する方法またはシステムとして実現することもできる。
【0030】
同様に、本発明は、「キャプトイド(captoids)」の翻訳を識別する方法を含み、これにより、タイトルまたはその他の特別なフレーズを意味し、それらの単語はすべて先頭を大文字で始める。(キャプトイドの翻訳の検索ではフランス語やスペイン語などの言語において特別な問題が生じ、それらは規則により、このような項目の最初の単語のみが先頭が大文字で、キャプトイド翻訳の範囲は決定しにくい。)その実施形態では、複合語はまず、ソース言語(source language)(たとえば英語)で識別される。これは、最初の単語が大文字で始まり、連続する文字列内の後のトークンは小文字で始まらない、テキストの文字列を検索することで行う。次に、複合語がターゲットテキスト内にあると仮定するが、そのために、大文字で始まる単語を検索し、対応する複合語の可能な開始位置としてフラグを立てる。次に、ターゲットテキストを左から右に走査し、ソーステキスト内で識別された複合語内の単語に最も強く関連付けられている後続の単語にフラグを立てるが、最も関連性の高い単語が続く限り、所定の数まで(たとえば2)、連続する最も関連性が高いわけではない単語を許容する。
【0031】
左から右への走査は、ソーステキスト内で識別された複合語において単語に対する関連性が最も高いわけではない、所定の数を超える(たとえば、2よりも多い)連続する単語が見つかるまで、または関連性が最も高い単語がターゲットテキストに存在しなくなるまで、または句読点に達するまで続けることができる。
【0032】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。なお、各図面において同様の機能を有する箇所には同一の符号を付している。
【0033】
以下、図1の説明が簡単に述べてられているが、本発明を適用できる図解した1つの環境であって、本発明は他の環境でも使用できる。
【0034】
図1は、本発明の一実施例によるコンピュータ20のブロック図である。図1および関連する説明は、本実施形態を実施できる適当なコンピューティング環境について簡潔に述べた一般的な説明である。必要ではないが、本実施形態は、少なくとも一部は、パーソナルコンピュータによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的状況において説明される。一般に、プログラムモジュールには、特定のタスクを実行する、あるいは特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。さらに、当業者には、本実施形態が、携帯型デバイス、マルチプロセッサシステム、マイクロプロセッサベースのまたはプログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなど、他のコンピュータシステム構成でも実施できることは明白であろう。本実施形態は、さらに、通信ネットワークを介してリンクされているリモート処理デバイスによってタスクが実行される分散コンピューティング環境で実用することもできる。分散コンピューティング環境では、プログラムモジュールをローカルとリモートの両方のメモリ記憶デバイスに配置できる。
【0035】
図1では、本実施形態を実施するためのシステム例は、従来のパーソナルコンピュータ20の形態の汎用コンピューティングデバイスを使用し、プロセッサ21、システムメモリ22、およびシステムメモリを含む各種システムコンポーネントをプロセッサ21に結合するシステムバス23を備える。システムバス23には、メモリバスまたはメモリコントローラ、周辺機器バス、およびさまざまなバスアーキテクチャを使用するローカルバスを含む数種類のバス構造がある。システムメモリは、読み取り専用メモリ(ROM)24およびランダムアクセスメモリ(RAM)25を備える。起動時などにパーソナルコンピュータ20内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム(BIOS)26は通常、ROM 24に格納される。パーソナルコンピュータ20はさらに、ハードディスク(図には示されていない)への読み書きを行うハードディスクドライブ27、リムーバル磁気ディスク29への読み書きを行う磁気ディスクドライブ28、およびCD−ROMまたはその他の光媒体などのリムーバル可能光ディスク31への読み書きを行う光ディスクドライブ30を備える。ハードディスクドライブ27、磁気ディスクドライブ28、および光ディスクドライブ30は、ハードディスクドライブインタフェース32、磁気ディスクドライブインタフェース33、および光ドライブインタフェース34によりそれぞれ、システムバス23に接続される。ドライブおよび関連したコンピュータ読み取り可能媒体は、コンピュータ20用のコンピュータ読み取り可能命令、データ構造、プログラムモジュール、およびその他のデータを格納する不揮発性ストレージを備える。
【0036】
本実施形態で説明している環境例ではハードディスク、リムーバル可能磁気ディスク29、およびリムーバル可能光ディスク31を採用しているが、当業者であれば、磁気カセット、フラッシュメモリカード、デジタルビデオディスク、ベルヌーイカートリッジ、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)などのコンピュータからアクセス可能なデータを格納できる他のタイプのコンピュータ読み取り可能媒体もオペレーティング環境で使用できることも理解するであろう。
【0037】
ハードディスク、磁気ディスク29、光ディスク31、ROM 24またはRAM 25には、オペレーティングシステム35、1つまたは複数のアプリケーションプログラム36、その他のプログラムモジュール37、およびプログラムデータ38などのプログラムモジュールをいくつでも格納できる。ユーザは、キーボード40およびポインティングデバイス42などの入力デバイスを介してパーソナルコンピュータ20にコマンドおよび情報を入力できる。他の入力デバイス(図に示されていない)としては、マイク、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどがある。これらの入力デバイスやその他の入力デバイスは、システムバス23に結合されているシリアルポートインタフェース45を介してプロセッサ21に接続されることが多いが、サウンドカード、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインタフェースにより接続することもできる。モニタ47やその他のタイプの表示デバイスも、ビデオアダプタ48などのインタフェースを介してシステムバス23に接続される。モニタ47に加えて、パーソナルコンピュータは通常、スピーカやプリンタ(図に示されていない)などの他の周辺出力デバイスを備える場合もある。
【0038】
パーソナルコンピュータ20は、リモートコンピュータ49などの1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク環境で動作することもできる。リモートコンピュータ49は、他のパーソナルコンピュータ、サーバ、ルータ、ネットワークPC、ピアデバイスまたはその他の共通ネットワークノードでもよく、通常は、パーソナルコンピュータ20に関係する上述の要素の多くまたはすべてを含むが、メモリストレージデバイス50のみが図1に示されている。図1に示されている論理接続は、ローカルエリアネットワーク(LAN)51とワイドエリアネットワーク(WAN)52を含む。このようなネットワーキング環境は、事務所、企業規模のコンピュータネットワーク、イントラネットおよびインターネットではよくある。
【0039】
LANネットワーキング環境で使用する場合は、パーソナルコンピュータ20はネットワークインタフェースまたはネットワークアダプタ53を介してローカルエリアネットワーク51に接続される。WANネットワーキング環境で使用する場合は、パーソナルコンピュータ20は通常、モデム54またはインターネットなどのワイドエリアネットワーク52上で通信を確立するためのその他の手段を備える。モデム54は、内蔵でも外付けでもよいが、シリアルポートインタフェース46を介してシステムバス23に接続される。ネットワーク環境では、パーソナルコンピュータ20またはその一部に関して述べたプログラムモジュールは、リモートメモリ記憶媒体に格納できる。図に示されているネットワーク接続は例であり、コンピュータ間に通信リンクを確立するのにその他手段を使用できることは理解されるであろう。
【0040】
本実施形態を利用すれば、実質的にいかなる環境あるいは状況であっても、単語間の翻訳関係を導出することができる。これから説明する機械翻訳アーキテクチャは、1つの環境または状況にすぎない。
【0041】
本実施形態には論理形式は不要であるが、図2に示されている機械翻訳アーキテクチャに関連して説明する。したがって、このアーキテクチャについて詳述する前に、論理形式について簡単に説明すると役立つであろう。論理形式および論理形式を生成するためのシステムと方法の詳細は、「METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICALFORMS FROM SYNTAX TREES」という表題の1999年10月12日に発行された、Heidornなどの米国特許第5966686号に記載されている。ただし、簡単な論理形式は、入力テキストに対して形態素解析を実行して、文法関係で強化されている従来の句構造解析を出力することにより生成される。構文解析でさらに処理し、テキスト入力内の内容語間のラベル付き依存関係を記述するグラフ構造である論理形式を導出する。論理形式では、ある種の構文代替(たとえば、能動/受動)を正規化し、センテンス内の照応関係と長い距離の依存関係の両方を解決する。
【0042】
特に、論理関係は、方向関係タイプにより結合された2つの単語からなる(たとえば、部分、時刻、上位語、論理的主語、原因、定義域、場所、方法、資料、手段、修飾語句、プロセッサ、目的、準上位語、同意語、論理的目的語、およびユーザ)。論理形式は、センテンスなどの、単一テキスト入力を表す接続論理関係のグラフである。主に、1つの論理関係で構成される。論理形式では、構造的関係(つまり、構文および意味論的関係)、特に入力文字列内の重要な単語間の引数および/または修飾関係を記述する。
【0043】
機械翻訳アーキテクチャの一実施例では、構文解析から論理形式を構築する特定のコードは、機械翻訳システムが動作するさまざまなソース言語およびターゲット言語間で共有される。共有アーキテクチャを使用すると、異なる言語から論理形式セグメントの整合処理をするタスクが簡素化されるが、それは、2つの言語の表面上異なる構成は類似のあるいは同一の論理形式表現に頻繁に圧縮されるからである。
【0044】
図2は、本発明の環境の一実施形態を定める機械翻訳システム200のアーキテクチャのブロック図である。システム200は、構文解析コンポーネント204および206、統計的単語関連学習コンポーネント208(この環境で本発明の大部分が置かれている)、論理形式整合処理コンポーネント210、語彙知識ベース構築コンポーネント212、2カ国語辞書214、辞書マージコンポーネント216、転送マッピングデータベース218、および更新された2カ国語辞書220を含む。実行時に、システムは解析コンポーネント222、照合コンポーネント224、転送コンポーネント226、および生成コンポーネント228を利用する。
【0045】
一実施例では、2カ国語コーパスを使用して、システムのトレーニングを行う。2カ国語コーパスは、整合処理された翻訳済みセンテンスを含む(たとえば、英語などのソース言語またはターゲット言語の一方のセンテンスと、スペイン語やフランス語などのソース言語またはターゲット言語の他方の翻訳結果との整合処理)。トレーニングのときに、整合処理された2カ国語コーパスからシステム200に、ソースセンテンス230(翻訳すべきセンテンス)とターゲットセンテンス232(ソースセンテンスの翻訳)を送る。構文解析コンポーネント204および206は、整合処理された2カ国語コーパスからセンテンスを構文解析し、ソース論理形式234とターゲット論理形式236を出力する。構文解析時に、センテンス内の単語が正規化単語形式(題句)に変換される。「題句(lemma)」という用語は、ここでは、内容語の語幹または基語を意味する。たとえば、「sleep」は表層形式(surface forms)「sleep」、「sleeping」、および「slept」の題句である。ただし、本発明の一実施形態は内容語題句に適用される一方で、他の実施形態では本発明は代わりに表層形式に適用することができるが、パフォーマンスが幾分落ちることがあることに注意されたい。いずれの場合も、題句が統計的単語関連性学習コンポーネント208に送られる。信頼できるそれぞれの集まりが得られるまで、単一単語と複数単語の両方の関連が学習コンポーネント208により、繰り返し仮定され、スコアが付けられる。統計的単語関連性学習コンポーネント208は、学習した単一単語翻訳ペア238と複数単語ペア240を出力する。
【0046】
複数単語ペア240が辞書マージコンポーネント216に送られ、このコンポーネントを使用して、追加エントリを2カ国語辞書214に加えて、更新された2カ国語辞書220を形成する。新しいエントリは、複数単語ペア240を表す。
【0047】
単一単語ペア238は、ソース論理形式234およびターゲット論理形式236とともに、論理形式整合処理コンポーネント210に送られる。コンポーネント210はまず、ソース論理形式234とターゲット論理形式236のノード間の仮語彙対応関係を確立する。これは、統計的単語関連学習コンポーネント208の単一単語翻訳ペア238で増強された2カ国語語彙(または2カ国語辞書)214の翻訳ペアを使用して行う。可能な対応関係を確立した後、整合処理コンポーネント210は、語彙および構造特性の両方に応じて、論理形式ノードの整合処理を行い、論理形式転送マッピング242を作成する。
【0048】
基本的に、整合処理コンポーネント210は、2カ国語辞書情報214と単一単語ペア238を使用して論理形式間のリンクを描画する。ソース論理形式234およびターゲット論理形式236で見つける頻度に基づき転送マッピングをフィルタ処理し、語彙知識ベース構築コンポーネント212に送る。
【0049】
一実施例では、転送マッピングが少なくとも2回トレーニングデータ内に現れていない場合、転送マッピングデータベース218の構築に使用されないが、他の望ましい頻度をフィルタとして使用することもできる。さらに、出現頻度以外の他のフィルタ処理手法も使用できることに注意されたい。たとえば、入力センテンスの完全解析から形成するかどうかに基づき、また転送マッピングを作成するために使用される論理形式の完全整合処理を行うかどうかに基づき、転送マッピングのフィルタ処理を行うことができる。
【0050】
コンポーネント212は、基本的に一方の言語の論理形式またはその一部を第2の言語の論理形式またはその一部にリンクする転送マッピングを含む転送マッピングデータベース218を構築する。転送マッピングデータベース218をこうして作成してから、システム200を実行時翻訳に合わせて構成する。
【0051】
実行時に、翻訳すべきソースセンテンス250が解析コンポーネント222に送られる。解析コンポーネント222は、ソースセンテンス250を受け取り、ソースセンテンス入力に基づいてソース論理形式252を作成する。
【0052】
実施例が役立つと思われる。本実施形態の実施例では、ソースセンテンス250は、スペイン語のセンテンス「Haga click en el boton de opcion」で、これは、英語の「Click the option button」、または「Make click in the button of option」に翻訳される。
【0053】
ソース論理形式252を照合コンポーネント224に送る。照合コンポーネント224は、ソース論理形式252と転送マッピングデータベース218の論理形式と照合し、リンクされた論理形式254を取得しようとする。複数の転送マッピングにより、ソース論理形式252の一部の照合を行うことができる。照合コンポーネント224は、照合題句、音声の一部、およびその他の特徴情報を持つデータベース218内の照合転送マッピングの最良の集合を検索する。大きい(より具体的な)転送マッピングは、図からわかるように、小さな(より一般的な)転送マッピングよりも好ましい。サイズの等しいマッピングで、照合コンポーネント224では図からわかるように高い頻度のマッピングが好ましい。マッピングはさらに、決して衝突しないとした場合にソース論理形式252のオーバーラップする一部を照合することもできる。
【0054】
照合転送マッピングの最適な集合が見つかった後、照合コンポーネント224は、転送マッピングが受け取る対応するターゲット論理形式セグメントのコピーに対する、ソース論理形式252のノードのリンクを作成し、リンクされた論理形式254を生成する。
【0055】
転送コンポーネント226は、照合コンポーネント224からリンクされた論理形式254を受け取り、ターゲット翻訳の基礎を形成するターゲット論理形式256を作成する。そのためには、ソース論理形式252のリンクが指しているターゲット論理形式セグメントが組み合わされるリンクされた論理形式254の上から下への横断を実行する。場合によっては複雑な複数単語マッピングに対し論理形式セグメントを組み合わせて1つにした場合、個々のノード間で照合コンポーネント224によって設定されるサブリンクを使用して、修飾語などの正しい付加点(attachment point)を求める。必要ならばデフォルトの付加点が使用される。
【0056】
適用可能な転送マッピングが見つからない場合、ソース論理形式252のノードとその関係が単にターゲット論理形式256にコピーされるだけである。デフォルトの単一単語翻訳はそれでも、これらのノードに対して転送マッピングデータベース218内に見つかり、ターゲット論理形式256に挿入することができる。ただし、何も見つからなければ、翻訳は図からわかるように、整合処理時に使用した更新された2カ国語辞書220から取得できる。
【0057】
生成コンポーネント228は、図からわかるように、ルールベースのアプリケーション独立の生成コンポーネントであり、ターゲット論理形式256からターゲット文字列(または出力ターゲットセンテンス)258にマップする。生成コンポーネント228には、図からわかるように、入力論理形式のソース言語に関して何も情報がない場合があり、また転送コンポーネント226により受け渡される情報のみを操作する。生成コンポーネント228はさらに、図からわかるように、この情報を1カ国言語(たとえば、そのターゲット言語の)辞書とともに使用し、ターゲットセンテンス258を出力する。そのため、一つの一般的な生成コンポーネント228は、各言語に十分である。
【0058】
上の状況を念頭におくと、ここでの説明は、統計的単語関連学習コンポーネント208に関してさらに具体的なものになる。現在の状況では論理形式で機械翻訳アーキテクチャにより動作するコンポーネント208を示しているが、これは必ずしも当てはまるわけではないことに、再び注意されたい。むしろ、コンポーネント208は単に、トークン化されている整合処理されている(または個々の単語に分割されている)コーパスで動作することができる。コンポーネント208はさらに、機械翻訳機で動作する以外に、他のタスクを実行することもできる。たとえば、辞書作成にコンポーネント208を使用したり、あるいは単に異なる言語の単語間の単語関連性スコアまたは関係を生成することができ、機械翻訳機の状況で動作する必要はない。上では例のみで説明している。
【0059】
図3は、コンポーネント208で翻訳ペア(または異なる言語の単語のペア間の翻訳関係)を導出する方法を示す流れ図である。まず、コンポーネント208は、整合処理した2カ国語コーパスにアクセスする。これは、ブロック300で示される。コーパスを構文解析して、成分単語に分割する(たとえば、上述の題句、ただし表層形式でも保持できる)。これは、ブロック302で示される。もちろん、上記の状況で、コンポーネント204および206を構文解析してソース論理形式234とターゲット論理形式236に分割することにより整合処理されたコーパスを構文解析する。ただし、本実施形態は、構文解析で論理形式に変換されるテキスト入力での動作に限定されないが、その代わりに、単に整合処理されたコーパスを構文解析で内容語に分ける必要がある。さらに、パーサはさらに、いくつかの語彙複合語を単一のユニットであるかのようにも識別できる。このような複数単語表現を用語集に入れた場合、特定の意味または用途があるため、あるいは固有名詞、場所の名前、時刻式、日付、測定式などの多数の一般的カテゴリに含まれるため、複数単語として識別される。
【0060】
コンポーネント208は次に、整合処理され、構文解析された2カ国語コーパスの個別単語ペアの単語関連性スコアを計算する。これは、ブロック304で示される。トレーニングコーパス内の単語ペア間の統計的単語関連性を示すスコアを与える単語関連性距離を使用することができるが、本実施形態では、Dunning「Accurate Methods for the Statistics of Surprise and Coincidence,Computational Linguistics、19(1):61−74(1993)」でDunningが述べている対数尤度比を使用する。この統計量を使用して、トレーニングデータ内の言語1(WL)の単語または題句の全体的な頻度を、言語2(WL)の単語または題句が与えられる言語1(WL)の単語または題句の頻度と比較する(つまり、WLが出現するL2のセンテンスと整合処理されるL1のセンテンス内にWLが出現する頻度)。したがって、対数尤度比の統計値の適用は、WLとWLの間の観測された正の関連性が偶発的なものでない確率の測定基準となる。
【0061】
関連性スコアを計算する単語ペアのリストも切り詰めることができる。つまり、単語関連性スコアを計算するプロセスで、大きなトレーニングコーパスの多くの単語(または題句)ペアに対して関連性スコアを生成する。したがって、一実施例では、単語ペアの集合を切り詰めて、翻訳ペアとしてみなせる確率が少なくとも少しはあるペアに後の処理を制限する。発見的手法の一実施例では、このしきい値を同時出現1回とそれぞれ他の出現1回を含む単語または題句のペアの関連性の度合いに設定する。
【0062】
次に、コンポーネント208は、トレーニングデータ内の複合語の出現を仮定し、仮定したコンポーネントを単一のトークンで置き換える。これは、ブロック306で示される。一般化された例は役立つ場合がある。
【0063】
図4(a)は、英語とフランス語の整合処理センテンス内の単語の並びを示している。英語の並びの単語は、Eで表され、フランス語の並びの単語はFで表される。英語の並びからフランス語の並びへの矢印は、対応する英単語はフランス語の単語のうちどれと最も強い関連性を持つかを示す。したがって、たとえば、EはFと最も強い関連性を持つことがわかる。フランス語の並びから英語の並びへの矢印は、単語関連性スコアに基づき対応するフランス語単語が英単語のうちどの単語と最も強い関連性を持つかを示している。したがって、例では、FはEと最も強い関連性を持つこともわかる。各英単語は対応するフランス語単語と最も強い関連性を持ち、そのフランス語単語は対応する英単語と最も強い関連性を持つため、英語の単語の並びとフランス語の単語の並びとの間に単純な1対1対応関係があるといえる。
【0064】
同様に、図4(b)はさらに、単語の並びの間の1対1の対応関係を示している。図4(b)は図4(a)と幾分異なるが、それは、英単語E1はフランス語単語F2と最も強い関連性を持ち、英単語E2はフランス語単語F1と最も強い関連性を持つからである。ただし、フランス語単語F1はさらに、英単語E2と最も強い関連性を持ち、フランス語単語F2は英単語E1と最も強い関連性を持つ。したがって、それでも単語の並びの間に1対1の対応関係があるが、フランス語単語の順序は、英単語の順序と少し異なる。
【0065】
ただし、図5は少し異なるケースを示している。図5では、英単語E1およびE4はフランス語単語F1およびF4とそれぞれ1対1の関連を持つ。しかし、英単語E2はフランス語単語F2と最も強い関連性を持ち、フランス語単語F2は英単語E2と最も強い関連性を持ち、フランス語単語F3も英単語E2と最も強い関連性を持つ。したがって、英単語E2およびE3、フランス語単語F2およびF3は1対1の関係を持たない。このような1対1対応関係を欠いているということは、正しい翻訳を得るために複合語を仮定する必要があることを強く示している。図6に関して詳しく説明しているように、英単語E2およびE3、フランス語単語F2およびF3は複合語と仮定され、元の入力テキスト内の融合したトークン(たとえば、E2_E3とF2_F3)で置き換えられる。
【0066】
コンポーネント208は次に、書き換えた入力テキスト(つまり、複合語と残りの個々の単語)の関連性スコアを再計算する。これは、図3のブロック308で示される。これは、基本的に、ブロック304で示されるステップを繰り返しており、テキストは仮定した複合語に関して書き換えられる。
【0067】
次に、関連性スコアを再び計算する。ただし、このときに、整合処理されたセンテンス内に同じ強さまたはさらに強い他の関連がない場合同時出現のみを考慮する。これは、ブロック310で示される。つまり、翻訳に必要な複合語すべてを正しく識別し、トレーニングデータで単一項目として正しく識別され再公式化されていると仮定すると、トレーニングデータはすべての翻訳が1対1であるかのように取り扱うことができる。したがって、真の翻訳ペアは常に相互に所定の整合処理されたセンテンスペアと最も強い関連性を持つとの仮定に基づき、ランク付き翻訳ペアの最終集合を選択する。そこで、ブロック310で示される関連性スコアの再計算は、ブロック308により示されているのとまったく同じ方法で実行されるが、ただし、所定の整合処理されたセンテンスペアに存在する単語(または題句または複合語題句)間で、WLがWLと一意的に最も強い関連性を持ち、WLがWLと一意的に最も強い関連性を持つ場合のみ異なる言語(WLおよびWL)の単語は同時出現があるとみなされる。ステップ308で計算された関連を使用して、この決定を下す。関連の最終集合は関連性の強さの降順で並べ替えられる。
【0068】
最後に、最終リスト内で関連性スコアがしきい値を超えている単語および/または複合語のペアは互いの翻訳として識別される。これは、ブロック312で示される。しきい値は、経験に基づいて選択するか、または最終ペアリストにある結果の言語解析に基づいて選択するか、または他の望ましい手法を使用して選択することができる。
【0069】
図6は、図3のブロック306に示されているように、複合語をどのように仮定するかについて詳細に説明している流れ図である。整合処理されたセンテンス内の元の単語の並びの直接的な1対1対応関係がない場合に図5に示されている例に関して説明する。
【0070】
まず、センテンスの整合処理されたペア内の単語ごとに、コンポーネント208はそのペアの他のセンテンス内の最も強く関連付けられている単語を識別する。つまり、コンポーネント208は、基本的に、図5に示されているグラフまたはグラフの表現を構成する。これは、図6のブロック320で示される。
【0071】
コンポーネント208は、次に、グラフ内の最大接続単語集合を見つける。これは、ブロック322で示される。基本的に、コンポーネント208は、作成されたグラフを調べて、グラフ内の項目をグループ化(または円で囲む)でき、矢印がその領域の外に伸びていない領域を識別する。これは、図7で示されている破線で表されている。破線の1つに囲まれている単語のグループのそれぞれが、最大の接続集合として識別される。したがって最大接続集合内のすべての項目は、最大接続集合内のその項目と最も強い関連性を持ち、最大接続集合の外部の項目とさらに強い関連性を持つものはない。
【0072】
次にコンポーネント208は、最大接続集合を2つの異なる言語に分割し、各言語内の最大接続集合の複数単語コンポーネントが複合語であると仮定する。これは、ブロック324で示される。たとえば、図8は図7の最大接続集合が、英単語の並びとフランス語単語の並びを分ける水平線で分割されていることを示している。そこでコンポーネント208では、各言語の最大接続集合の複数単語コンポーネント(英語のコンポーネントE2およびE3とフランス語のコンポーネントF2とF3)は複合語であると仮定する。これは、たとえば、「ouvrir_session」および「log_on」などの複合語を識別する。
【0073】
さらにコンポーネント208は、元の入力ファイルを書き換えて、仮定されている複合語(E2とE3、F2とF3)を融合トークンで置き換える。これは、ブロック326で示される。図9は、このステップを詳細に説明している。図9で、用語E2_E3は、元のテキスト内の項目E2およびE3に対応する英語のトークンを表し、用語F2_F3は元のフランス語入力テキスト内の単語F2およびF3を表すトークンに対応する。こうしてトークンを仮定し書き換えると、複合語と残りの個々の単語の単語関連性スコアを計算する場合に処理は図3のブロック308に関して継続する。
【0074】
本実施形態はさらに、未処理の入力テキストの構文解析の際に生じる他の問題に対処するためにも使用できる。さまざまな種類のテキスト、特にある種の技術的なテキストでは、フレーズは通常の方法では使用されず、その代わりに、その特定の定義域での何かの名前として使用される。たとえば、センテンス「Click to remove the View As Web Page check mark.」は、非定形動詞句の構文形式を持つ語句「View AsWeb Page」を含む。しかし、このセンテンスでは、それが固有名詞であるかのように使用される。パーサがこのフレーズの特別な使用を認識しない場合、実質的にセンテンスを正しく構文解析することは不可能である。
【0075】
英語では、このタイプの表現は、直截的な方法で取り扱うことができるが、それは主に、英語における先頭文字を大文字にする規則によりこのようなフレーズを認識することが簡単になるからである。構文解析する前に入力テキストをトークン化するために使用されるトークナイザ(tokenizer)は、「View As Web Page」などの先頭文字が大文字の単語の並びは、語彙化された複数単語表現として取り扱うべきであると仮定する。複数単語のこのサブクラスは、ここでは「キャプトイド」と呼ばれる。
【0076】
ただし、これらのキャプトイドの翻訳を識別することは非常に難しい。これは主に、他の言語(たとえば、フランス語やスペイン語など)の先頭文字を大文字にする規則では、このような表現の最初の単語のみについて、先頭文字を大文字にするからである。したがって、キャプトイドの開始と終了の位置を決定することは英語では比較的直截的であるが、他の言語では非常に難しい。
【0077】
本実施形態を使用して、キャプトイドの翻訳を識別し、パーサで使用する、または機械翻訳システムの他のさまざまな場所で使用する翻訳用語集に追加し、キャプトイドを正確に翻訳できるようにする。本実施形態は、英語のこのようなキャプトイドは直截的な方法で識別できるという事実を利用し、また複合語を識別するのに使用できる本実施形態の特徴を利用する。図10は、本発明の一実施形態によるキャプトイドの翻訳を識別する方法をわかりやすく説明する流れ図である。
【0078】
まず、整合処理された2カ国語コーパスからのトレーニングデータを受け取る。これは、ブロック350で示される。次に、トレーニングデータをトークン化し、トレーニングデータ内のさまざまな異なる単語を取得する。トレーニングデータを単語に切り分けられる市販のトークナイザを使用できる。これは、ブロック352で示される。次に、キャプトイドを含む複数単語複合語が識別される。これは、ブロック354で示される。一実施形態では、単語の並びの中の最初の単語の先頭文字が大文字で始まり、単語の並びの中の後の単語は小文字で始まらない場合、単語の並びを検索して英語のキャプトイドを識別する。これにより、「3.0」などの英字以外のもののキャプトイドを表示できる。キャプトイドを識別したら、各キャプトイドを構成する単語の並びの中の単語はキャプトイドごとに単一のトークンとしてグループ化される。そのために、キャプトイドを形成する各単語の並び内の単語の間に下線を入れる。
【0079】
次にコンポーネント208はトークナイザ352が出力したトークンについて単語関連性スコアまたは統計量を計算し、さらに識別されたキャプトイド内の個々の単語について単語関連性スコアまたは統計量を計算する。各キャプトイド内の個々の単語は、単にキャプトイドの要素を下線マークで区切ることにより、直截的な方法で識別できる。単語関連性の計算は、図10のブロック356で示される。
【0080】
さらにコンポーネント208は、トークナイザによってソース言語内で識別されるキャプトイドに対応するターゲット言語内の対応する複合語を仮定する。これは、ブロック357で示される。識別されたキャプトイドに対応する複合語を仮定することについては、図11に関して詳細に説明する。
【0081】
次にコンポーネント208はトレーニングデータを書き換えて、仮定された複合語を単一のトークンで置き換える。これは、図10のブロック358で示される。
【0082】
ソース言語(たとえば英語)内の項目またはターゲット言語(たとえばフランス語)内の項目が大文字から始まる複数単語である場合にトレーニングデータ内の項目のペアについて単語関連性スコアを再計算する。これは、ブロック360で示される。これは、図10に示されているプロセスはキャプトイドの翻訳を識別することを目的にしているからである。したがって、ステップ360で、単語関連性スコアは、翻訳ペア内の項目のうち少なくとも1つがキャプトイド(つまり、大文字で始まる複数単語)である場合に項目について再計算するだけでよい。その結果得られるペアは、関連性スコアの強さに応じて順序付けられる。
【0083】
さらにコンポーネント208は、リストのフィルタ処理を行い、トレーニングデータ全体において翻訳ペア内のいずれかの項目について強さが等しいまたはより強い関連性がない翻訳ペアのみを含むようにする。これは、ブロック362で示される。このステップで適用される制限は、たとえば、図3のブロック310で適用されるものよりも厳しいことがわかる。これは、単一単語は異なる文脈で複数の翻訳を持つ場合があるが、キャプトイドで表される複雑な複数単語の並べ替えは通常、実質的にすべての文脈で同じ翻訳を受け取ると期待できるからである。したがって、コーパス全体にわたって相互に一意的に最も強い関連性のあるキャプトイドを伴う翻訳のみが受理される。
【0084】
最大の利益のケースに注目し、精度を高めるために、他のフィルタを翻訳ペアの生成に対し配置できることも注意されたい。たとえば、翻訳ペアは、このプロセスで構成された複数単語の1つであるターゲット項目のみ(フランス語がターゲット言語であるフランス語項目など)を含むものに制限できる。同様に、翻訳ペアを、英語項目が複数単語であり、成分単語のすべてが大文字の先頭文字を持つもののみを含むように制限できる。さらに、フランス語は一般に、英語よりも冗長な言語とみなされているため、翻訳ペアは、フランス語項目が少なくとも英語項目と同じ数の単語を含むもののみを含むように制限できる。もちろん、これらの制限を他の言語に合わせて少し手直しすることもできる。
【0085】
再び、もちろん、前述の実施形態のように、しきい値を決定し、そのしきい値を満たす単語関連性スコアを持つ翻訳ペアのみを互いの翻訳とみなし、残りを破棄することができる。
【0086】
キャプトイドの翻訳を識別した後、これらの翻訳は図からわかるように、構文解析コンポーネント204および206で使用する翻訳用語集にフィードバックされる。また、複数単語ペア240としてフィードフォワードし、更新された2カ国語辞書220を得るために、辞書マージコンポーネント216により2カ国語辞書214に追加することができる。
【0087】
図11は、図10のブロック357に示されているように、識別されたキャプトイドに対応する複合語がどのように仮定されているかを示す詳細な流れ図である。図11に示されているプロセスでは、ソース言語(たとえば英語)のキャプトイドがすでに識別されていると想定する。したがって、図11に示されているプロセスは、キャプトイドがすでにソース言語内で識別されている場合に、ターゲット言語でキャプトイドの翻訳のみを識別しようとするという点で、単方向性であるとみなせる。
【0088】
また、入力テキスト(識別されたキャプトイドと、単一ユニットとしてみなされるキャプトイド内の個々の単語)を表すトークンについて単語関連性スコアを計算した後、複合語を仮定するこのプロセスが実行されることにも注意されたい。一実施例では、ターゲット単語(たとえばフランス語の単語)とソース複数単語の成分単語(たとえば、英語の複数単語内の成分単語)との関連性スコアがターゲット言語の単語とソース言語内の複数単語全体との関連性スコアよりも高い場合、前記の最も高いスコアを使用して、ターゲット言語の単語(たとえばフランス語の単語)とソース言語の複数単語(たとえば、英語の複数単語)との関連性の程度を表す。
【0089】
さらに、特定の整合処理センテンスペア内で先頭文字が大文字の単語で始まるソース複数単語と最も強い関連性のある、ターゲット単語(たとえばフランス語の単語)の集合のみが複合語の基準として検討するために予約される。
【0090】
このときに、コンポーネント208は対象となる整合処理ペアのターゲット言語でセンテンスを走査する作業を左から右に開始する。これは、ブロック370で示される。この走査は、大文字で始まる単語を検索するために実行される。これは、ブロック372で示される。このような単語が見つかり、センテンス内の最初の単語である場合、識別された複合語(たとえば英語の複数単語)内の単語に最も密接に関連するかどうかを判別する。そのような場合、識別されたキャプトイドの翻訳である対応する複合語の可能な開始位置としてフラグが立てられる。これは、図11のブロック374で示される。
【0091】
ブロック372に置かれている単語が最初の単語でない場合(つまり、センテンスの最初の単語でない場合)、キャプトイド(たとえば、英語の複数単語)の翻訳の可能な開始位置としてフラグが立てられる。これは、ブロック376で示される。
【0092】
最初の単語が見つかると、コンポーネント208は左から右へターゲットテキストを走査し、識別されたキャプトイド内の単語と最も強い関連性を持つ後続の単語にフラグを立てる。そうする際に、コンポーネント208では、識別されたキャプトイド内の単語と最も高い関連性を持つ単語が後に続く限り、識別されたキャプトイド内の単語と最も高い関連性を持つわけではない最大2つまでの隣接する単語を許容する。これは、ブロック378で示される。このためシステムは、ソース複数単語内の何かと高い関連性を持たない可能性のある機能単語(フランス語の機能単語など)を説明できる。これら条件が満たされている限り、ターゲットセンテンス内のそれぞれの後続単語はターゲット複数単語に追加される(ソーステキスト内の識別されたキャプトイドの翻訳)。
【0093】
コンポーネント208は、識別されたキャプトイド内の単語と最も高い関連性を持たないターゲットテキスト内の2つよりも多い隣接する単語を見つけるか、または識別されたキャプトイド内の単語と最も高い関連性を持つターゲットテキスト内の単語がそれ以上ないか、または句読点記号に遭遇するまでこの走査を続ける。これは、ブロック380で示される。
【0094】
こうして、複合語をキャプトイドの可能な翻訳として仮定すると、トレーニングデータを書き換えて、仮定した複合語を単一のトークンで置き換え、関連性スコアを再計算し、翻訳ペアをフィルタ処理した場合に、図10のブロック358から処理が再び継続される。これは、ブロック358、360、および362で示されており、上で詳細に説明している。
【0095】
このようにして、本実施形態により、単語ペアと複合語の間の翻訳関係を導出する簡単な統計的アプローチが得られる。本実施形態は、その手法の実装があまり複雑でなく、実行する時間も資源もあまり必要ないという点で従来システムに勝っている。本実施形態は、さらに、複合語とキャプトイドの翻訳関係を導出する機能を高めている。
【0096】
本発明は、特定の実施形態を参照しながら説明したが、当業者は本発明の趣旨と範囲を逸脱することなく形式と詳細に変更を加えられることを認識するであろう。
【0097】
【発明の効果】
以上説明したように本発明によれば、単語ペアと複合語の間の翻訳関係を導出する簡単な統計的アプローチが得られ、また、その手法の実装があまり複雑でなく、実行する時間も資源もあまり必要ないという効果を奏する。
【図面の簡単な説明】
【図1】本発明を使用できる一般的状況のブロック図である。
【図2】本発明を使用できる一般的機械翻訳アーキテクチャの詳細ブロック図である。
【図3】整合処理した2カ国語コーパス内の単語間の翻訳関係を導出する一実施形態を説明する流れ図である。
【図4】2つの異なる言語の単語間の異なる統計的単語関連性の関係を示す図で、(a)は英語とフランス語の整合処理センテンス内の単語の並び、(b)は単語の並びの間の1対1の対応関係を示す図である。
【図5】2つの異なる言語の単語間の異なる統計的単語関連性の関係を示す図である。
【図6】仮定した複合語を識別する一実施形態を示す流れ図である。
【図7】トレーニングデータ内の整合処理されたセンテンスのペア内の単語の最大接続集合を識別する動作を説明する図である。
【図8】図7に示されている最大接続集合から複合語を仮定する動作を説明する図である。
【図9】単一トークンを使用して仮定した複合語を表す書き換えた入力文字列の図である。
【図10】キャプトイドの翻訳を識別する動作を説明する流れ図である。
【図11】識別されたキャプトイドに対応する複合語を仮定する方法を説明する流れ図である。
【符号の説明】
20 パーソナルコンピュータ
21 プロセッサ
22 システムメモリ
23 システムバス
24 読み取り専用メモリ(ROM)
25 ランダムアクセスメモリ(RAM)
26 基本入出力システム
27 ハードディスクドライブ
28 磁気ディスクドライブ
29、31 リムーバル可能磁気ディスク
30 光ディスクドライブ
32 ハードディスクドライブインタフェース
33 磁気ディスクドライブインタフェース
34 光ドライブインタフェース
35 オペレーティングシステム
36 アプリケーションプログラム
37 プログラムモジュール
38 プログラムデータ
40 キーボード
42 ポインティングデバイス
43 マイク
45 シリアルポートインタフェース
46 シリアルポートインタフェース
47 モニタ
48 ビデオアダプタ
49 リモートコンピュータ
50 メモリストレージデバイス
51 ローカルエリアネットワーク(LAN)
52 ワイドエリアネットワーク(WAN)
53 ネットワークアダプタ
54 モデム
200 機械翻訳システム
204、206 構文解析コンポーネント
208 統計的単語関連学習コンポーネント
210 論理形式整合処理コンポーネント
212 語彙知識ベース構築コンポーネント
214 2カ国語辞書
216 辞書マージコンポーネント
218 転送マッピングデータベース
220 更新された2カ国語辞書
222 解析コンポーネント
224 照合コンポーネント
226 転送コンポーネント
228 生成コンポーネント
230 ソースセンテンス
232 ターゲットセンテンス
234 ソース論理形式
236 ターゲット論理形式
238 学習した単一単語翻訳ペア
240 複数単語ペア
242 論理形式転送マッピング
250 翻訳すべきソースセンテンス
252 ソース論理形式
254 リンクされた論理形式
256 ターゲット論理形式
258 ターゲット文字列

Claims (16)

  1. 記憶手段、該記憶手段に結合されたプロセッサ、及び前記記憶手段内に格納され前記プロセッサ上で実行可能なプログラムを含むコンピュータが実行する、異なる言語の単語間の対応関係を計算する方法であって、前記プロセッサが前記記憶手段から前記プログラムを読み出して実行するときに、前記方法は、
    前記記憶手段内に、2カ国語のセンテンスのコーパスを格納しており、
    前記プロセッサによって実行される単語関連性学習コンポーネントが、前記記憶手段内の前記コーパスにアクセスし、前記記憶手段内の、前記コーパス内の前記2カ国語のセンテンスそれぞれの中で単語の同時出現に基づいて、単語ペアについて単語間の関連性を示す単語関連性スコアを計算するステップと、
    前記プロセッサによって実行される前記単語関連性学習コンポーネントが、単語間の1対1対応関係を示さない前記単語関連性スコアに基づいて、前記記憶手段内の、前記センテンス内の仮定した複合語を識別し、前記記憶手段内の前記コーパスを書き換え、前記記憶手段内の単語を前記仮定した複合語で置き換えるステップと、
    前記プロセッサによって実行される前記単語関連性学習コンポーネントが、前記記憶手段内の前記書き換えられたコーパスにアクセスし、前記仮定した複合語を与えられて、前記単語関連性スコアを再計算するステップと、
    前記プロセッサによって実行される前記単語関連性学習コンポーネントが、再計算された前記単語関連性スコアに基づいて前記単語間の対応関係を計算するステップと
    を備えたことを特徴とする方法。
  2. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、前記単語間の対応関係を計算する前記ステップは、
    前記センテンスのペアのすべての単語の中で、単語のペア、複合語のペア、および複合語/単語のペアを含むペア群が、前記プロセッサによって計算された前記単語関連性スコアに関連して互いに一意的に最も強い関連性を持つ場合にのみ前記ペアの同時出現があるとみなし、前記センテンスのペア内の単語関連性スコアを再計算して最終的な単語関連性スコアを求めるステップ
    を含むことを特徴とする請求項1に記載の方法。
  3. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、前記単語間の対応関係を計算する前記ステップは、
    前記最終的な単語関連性スコアに基づいてペアをランク付けするステップ
    をさらに含むことを特徴とする請求項2に記載の方法。
  4. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、前記単語間の対応関係を計算する前記ステップは、
    対応する前記最終的な単語関連性スコアがしきい値レベルを超えている場合に、互いの翻訳としてペアを選択するステップ
    をさらに含むことを特徴とする請求項3に記載の方法。
  5. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、仮定した複合語を識別する前記ステップは、
    第1の言語の第1のセンテンスと第2の言語の第2のセンテンスとを持つ前記記憶手段内のセンテンスペアを選択するステップと、
    前記第1のセンテンス内の単語と前記第2のセンテンス内の単語との1対1対応関係を示さない前記単語関連性スコアに基づいて、仮定した複合語を識別するステップと
    を含むことを特徴とする請求項1に記載の方法。
  6. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、1対1対応関係を示さない前記単語関連性スコアに基づいて、仮定した複合語を識別する前記ステップは、
    前記第1のセンテンス内の単語ごとに、前記第2のセンテンス内で最も関連性の強い単語を識別するステップと、
    前記第2のセンテンス内の単語ごとに、前記第1のセンテンス内で最も関連性の強い単語を識別するステップと
    を含むことを特徴とする請求項5に記載の方法。
  7. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、1対1対応関係を示さない前記単語関連性スコアに基づいて、仮定した複合語を識別する前記ステップは、
    第1と第2のセンテンス内の識別された最も関連性の強い単語に基づき、第1と第2のセンテンス内の単語の最大接続集合を識別するステップ
    をさらに含むことを特徴とする請求項6に記載の方法。
  8. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、仮定した複合語を識別する前記ステップは、
    第1および第2のセンテンスのそれぞれで、各複数単語最大接続集合内の単語を、仮定した複合語として識別するステップ
    をさらに含むことを特徴とする請求項7に記載の方法。
  9. 前記プロセッサが、前記コーパスを構文解析して個々の単語を取得するステップ
    をさらに備えたことを特徴とする請求項1に記載の方法。
  10. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、単語関連性スコアを計算した後、前記単語関連性スコアに基づきさらなる処理の対象にならないように単語ペアを切り詰めるステップ
    をさらに備えたことを特徴とする請求項1に記載の方法。
  11. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、単語ペアを切り詰める前記ステップは、
    前記単語関連性スコアが所定のしきい値スコアを下回る場合に、さらに処理されることのないように単語ペアを除くステップ
    を含むことを特徴とする請求項10に記載の方法。
  12. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、単語関連性スコアを計算する前記ステップは、
    前記2カ国語のセンテンスのそれぞれの単語の表層形式に基づいて、前記単語関連性スコアを計算するステップ
    を含むことを特徴とする請求項1に記載の方法。
  13. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、単語関連性スコアを計算する前記ステップの前に、前記プロセッサが、前記記憶手段内の、前記2カ国語のセンテンスのそれぞれの単語を題句に変換するステップ
    を備えたことを特徴とする請求項1に記載の方法。
  14. 記憶手段、該記憶手段に結合されたプロセッサ、及び前記記憶手段内に格納され前記プロセッサ上で実行可能なプログラムを含むコンピュータが実行する、機械翻訳システムをトレーニングする方法であって、前記プロセッサが前記記憶手段から前記プログラムを読み出して実行するときに、前記方法は、
    前記記憶手段内に、2カ国語のセンテンスのコーパスを格納しており、
    前記プロセッサによって実行される単語関連性学習コンポーネントが、前記記憶手段内の前記コーパスにアクセスし、前記センテンス内の単語の同時出現に基づいて、前記コーパス内の単語ペアについて単語間の関連性を示す単語関連性スコアを計算するステップと、
    前記プロセッサによって実行される前記単語関連性学習コンポーネントが、前記センテンス内の単語間の1対1対応関係を示さない前記単語関連性スコアに基づいて、仮定した複合語を識別するステップと、
    前記プロセッサによって実行される前記単語関連性学習コンポーネントが、前記単語関連性スコアと前記仮定した複合語とに基づいて、学習した複数単語翻訳ペアを前記記憶手段に記憶するために出力するステップと
    を備えたことを特徴とする方法。
  15. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、仮定した複合語を識別する前記ステップは、
    第1の言語の第1のセンテンスと第2の言語の第2のセンテンスとを持つセンテンスペアを選択するステップと、
    前記第1のセンテンス内の単語と前記第2のセンテンス内の単語との1対1対応関係を示さない前記単語関連性スコアに基づいて、仮定した複合語を識別するステップと
    を含むことを特徴とする請求項14に記載の方法。
  16. 前記プロセッサによって実行される前記単語関連性学習コンポーネントが、1対1対応関係を示さない前記単語関連性スコアに基づいて、仮定した複合語を識別する前記ステップは、
    前記第1のセンテンス内の単語ごとに、前記第2のセンテンス内で最も関連性の強い単語を識別するステップと、
    前記第2のセンテンス内の単語ごとに、前記第1のセンテンス内で最も関連性の強い単語を識別するステップと
    を含むことを特徴とする請求項15に記載の方法。
JP2002180457A 2001-06-20 2002-06-20 単語間の翻訳関係を計算する方法 Expired - Fee Related JP4491187B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US29951001P 2001-06-20 2001-06-20
US60/299,510 2001-06-20

Publications (3)

Publication Number Publication Date
JP2003141115A JP2003141115A (ja) 2003-05-16
JP2003141115A5 JP2003141115A5 (ja) 2005-10-20
JP4491187B2 true JP4491187B2 (ja) 2010-06-30

Family

ID=23155117

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002180457A Expired - Fee Related JP4491187B2 (ja) 2001-06-20 2002-06-20 単語間の翻訳関係を計算する方法

Country Status (4)

Country Link
US (2) US7191115B2 (ja)
EP (1) EP1308851B1 (ja)
JP (1) JP4491187B2 (ja)
ES (1) ES2604752T3 (ja)

Families Citing this family (176)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2336899A3 (en) 1999-03-19 2014-11-26 Trados GmbH Workflow management system
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7016829B2 (en) * 2001-05-04 2006-03-21 Microsoft Corporation Method and apparatus for unsupervised training of natural language processing units
WO2002097663A1 (en) * 2001-05-31 2002-12-05 University Of Southern California Integer programming decoder for machine translation
US7191115B2 (en) 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
WO2003005166A2 (en) 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
EP1306775A1 (en) * 2001-10-29 2003-05-02 BRITISH TELECOMMUNICATIONS public limited company Machine translation
AU2003269808A1 (en) 2002-03-26 2004-01-06 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
EP1349079A1 (en) * 2002-03-28 2003-10-01 BRITISH TELECOMMUNICATIONS public limited company Machine translation
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words
US7319949B2 (en) * 2003-05-27 2008-01-15 Microsoft Corporation Unilingual translator
US7711545B2 (en) * 2003-07-02 2010-05-04 Language Weaver, Inc. Empirical methods for splitting compound words with application to machine translation
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
WO2005036303A2 (en) * 2003-09-11 2005-04-21 Eli Abir Knowledge system method and apparatus
CN1894688A (zh) * 2003-12-15 2007-01-10 有限会社言语技术研究所 对译判断装置、方法及程序
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US7698125B2 (en) * 2004-03-15 2010-04-13 Language Weaver, Inc. Training tree transducers for probabilistic operations
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US8666725B2 (en) 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
JP4424057B2 (ja) * 2004-05-10 2010-03-03 富士ゼロックス株式会社 学習装置およびプログラム
US8477331B2 (en) * 2004-05-27 2013-07-02 Property Publications Pte Ltd. Apparatus and method for creating an electronic version of printed matter
WO2006042321A2 (en) * 2004-10-12 2006-04-20 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
CN100454303C (zh) * 2005-01-07 2009-01-21 松下电器产业株式会社 联想辞典制作装置
US7478090B2 (en) * 2005-01-14 2009-01-13 Saffron Technology, Inc. Methods, systems and computer program products for analogy detection among entities using reciprocal similarity measures
US20060282256A1 (en) * 2005-06-13 2006-12-14 Werner Anna F Translation method utilizing core ancient roots
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US7974833B2 (en) 2005-06-21 2011-07-05 Language Weaver, Inc. Weighted system of expressing language information using a compact notation
US7680647B2 (en) * 2005-06-21 2010-03-16 Microsoft Corporation Association-based bilingual word alignment
US7389222B1 (en) 2005-08-02 2008-06-17 Language Weaver, Inc. Task parallelization in a text-to-text system
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
KR100739726B1 (ko) * 2005-08-30 2007-07-13 삼성전자주식회사 문자열 매칭 방법 및 시스템과 그 방법을 기록한 컴퓨터판독 가능한 기록매체
US7624020B2 (en) * 2005-09-09 2009-11-24 Language Weaver, Inc. Adapter for allowing both online and offline training of a text to text system
US7957953B2 (en) * 2005-10-03 2011-06-07 Microsoft Corporation Weighted linear bilingual word alignment model
US20070083357A1 (en) * 2005-10-03 2007-04-12 Moore Robert C Weighted linear model
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
US8024653B2 (en) * 2005-11-14 2011-09-20 Make Sence, Inc. Techniques for creating computer generated notes
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
US7536295B2 (en) 2005-12-22 2009-05-19 Xerox Corporation Machine translation using non-contiguous fragments of text
JP4961755B2 (ja) * 2006-01-23 2012-06-27 富士ゼロックス株式会社 単語アライメント装置、単語アライメント方法、単語アライメントプログラム
BRPI0706404B1 (pt) 2006-02-17 2019-08-27 Google Inc acesso escalável, de codificação e adaptável de modelos distribuídos
CN101030197A (zh) * 2006-02-28 2007-09-05 株式会社东芝 双语词对齐方法和装置、训练双语词对齐模型的方法和装置
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US7542893B2 (en) * 2006-05-10 2009-06-02 Xerox Corporation Machine translation using elastic chunks
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US8521506B2 (en) 2006-09-21 2013-08-27 Sdl Plc Computer-implemented method, computer software and apparatus for use in a translation system
JP4481972B2 (ja) * 2006-09-28 2010-06-16 株式会社東芝 音声翻訳装置、音声翻訳方法及び音声翻訳プログラム
US9047275B2 (en) 2006-10-10 2015-06-02 Abbyy Infopoisk Llc Methods and systems for alignment of parallel text corpora
US9645993B2 (en) 2006-10-10 2017-05-09 Abbyy Infopoisk Llc Method and system for semantic searching
US8214199B2 (en) * 2006-10-10 2012-07-03 Abbyy Software, Ltd. Systems for translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US8548795B2 (en) * 2006-10-10 2013-10-01 Abbyy Software Ltd. Method for translating documents from one language into another using a database of translations, a terminology dictionary, a translation dictionary, and a machine translation system
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US9984071B2 (en) 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
US20080086298A1 (en) * 2006-10-10 2008-04-10 Anisimovich Konstantin Method and system for translating sentences between langauges
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8433556B2 (en) 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US8812296B2 (en) 2007-06-27 2014-08-19 Abbyy Infopoisk Llc Method and system for natural language dictionary generation
US8260619B1 (en) 2008-08-22 2012-09-04 Convergys Cmg Utah, Inc. Method and system for creating natural language understanding grammars
US8548791B2 (en) * 2007-08-29 2013-10-01 Microsoft Corporation Validation of the consistency of automatic terminology translation
JP5342760B2 (ja) * 2007-09-03 2013-11-13 株式会社東芝 訳語学習のためのデータを作成する装置、方法、およびプログラム
JP5008144B2 (ja) * 2008-02-13 2012-08-22 独立行政法人情報通信研究機構 対訳情報生成装置、対訳情報生成方法、及びプログラム
US8589541B2 (en) 2009-01-28 2013-11-19 Headwater Partners I Llc Device-assisted services for protecting network capacity
US8548428B2 (en) 2009-01-28 2013-10-01 Headwater Partners I Llc Device group partitions and settlement platform
US8839387B2 (en) 2009-01-28 2014-09-16 Headwater Partners I Llc Roaming services network and overlay networks
US8626115B2 (en) 2009-01-28 2014-01-07 Headwater Partners I Llc Wireless network service interfaces
US8275830B2 (en) 2009-01-28 2012-09-25 Headwater Partners I Llc Device assisted CDR creation, aggregation, mediation and billing
US8402111B2 (en) 2009-01-28 2013-03-19 Headwater Partners I, Llc Device assisted services install
US8391834B2 (en) 2009-01-28 2013-03-05 Headwater Partners I Llc Security techniques for device assisted services
US8406748B2 (en) 2009-01-28 2013-03-26 Headwater Partners I Llc Adaptive ambient services
US8832777B2 (en) 2009-03-02 2014-09-09 Headwater Partners I Llc Adapting network policies based on device service processor configuration
US8635335B2 (en) 2009-01-28 2014-01-21 Headwater Partners I Llc System and method for wireless network offloading
US8346225B2 (en) 2009-01-28 2013-01-01 Headwater Partners I, Llc Quality of service for device assisted services
US8340634B2 (en) 2009-01-28 2012-12-25 Headwater Partners I, Llc Enhanced roaming services and converged carrier networks with device assisted services and a proxy
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
US8560298B2 (en) * 2008-10-21 2013-10-15 Microsoft Corporation Named entity transliteration using comparable CORPRA
RU2399959C2 (ru) * 2008-10-29 2010-09-20 Закрытое акционерное общество "Авикомп Сервисез" Способ автоматизированной обработки текста на естественном языке путем его семантической индексации, способ автоматизированной обработки коллекции текстов на естественном языке путем их семантической индексации и машиночитаемые носители
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US8706644B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Mining phrases for association with a user
US8768852B2 (en) * 2009-01-13 2014-07-01 Amazon Technologies, Inc. Determining phrases related to other phrases
US8706643B1 (en) 2009-01-13 2014-04-22 Amazon Technologies, Inc. Generating and suggesting phrases
US9569770B1 (en) 2009-01-13 2017-02-14 Amazon Technologies, Inc. Generating constructed phrases
US9980146B2 (en) 2009-01-28 2018-05-22 Headwater Research Llc Communications device with secure data path processing agents
US9572019B2 (en) 2009-01-28 2017-02-14 Headwater Partners LLC Service selection set published to device agent with on-device service selection
US9755842B2 (en) 2009-01-28 2017-09-05 Headwater Research Llc Managing service user discovery and service launch object placement on a device
US11218854B2 (en) 2009-01-28 2022-01-04 Headwater Research Llc Service plan design, user interfaces, application programming interfaces, and device management
US9609510B2 (en) 2009-01-28 2017-03-28 Headwater Research Llc Automated credential porting for mobile devices
US9647918B2 (en) 2009-01-28 2017-05-09 Headwater Research Llc Mobile device and method attributing media services network usage to requesting application
US10248996B2 (en) 2009-01-28 2019-04-02 Headwater Research Llc Method for operating a wireless end-user device mobile payment agent
US8793758B2 (en) 2009-01-28 2014-07-29 Headwater Partners I Llc Security, fraud detection, and fraud mitigation in device-assisted services systems
US10798252B2 (en) 2009-01-28 2020-10-06 Headwater Research Llc System and method for providing user notifications
US9954975B2 (en) 2009-01-28 2018-04-24 Headwater Research Llc Enhanced curfew and protection associated with a device group
US10779177B2 (en) 2009-01-28 2020-09-15 Headwater Research Llc Device group partitions and settlement platform
US10484858B2 (en) 2009-01-28 2019-11-19 Headwater Research Llc Enhanced roaming services and converged carrier networks with device assisted services and a proxy
US9571559B2 (en) 2009-01-28 2017-02-14 Headwater Partners I Llc Enhanced curfew and protection associated with a device group
US10237757B2 (en) 2009-01-28 2019-03-19 Headwater Research Llc System and method for wireless network offloading
US10200541B2 (en) 2009-01-28 2019-02-05 Headwater Research Llc Wireless end-user device with divided user space/kernel space traffic policy system
US9955332B2 (en) 2009-01-28 2018-04-24 Headwater Research Llc Method for child wireless device activation to subscriber account of a master wireless device
US10057775B2 (en) 2009-01-28 2018-08-21 Headwater Research Llc Virtualized policy and charging system
US9557889B2 (en) 2009-01-28 2017-01-31 Headwater Partners I Llc Service plan design, user interfaces, application programming interfaces, and device management
US10064055B2 (en) 2009-01-28 2018-08-28 Headwater Research Llc Security, fraud detection, and fraud mitigation in device-assisted services systems
US9578182B2 (en) 2009-01-28 2017-02-21 Headwater Partners I Llc Mobile device and service management
US10783581B2 (en) 2009-01-28 2020-09-22 Headwater Research Llc Wireless end-user device providing ambient or sponsored services
US9351193B2 (en) 2009-01-28 2016-05-24 Headwater Partners I Llc Intermediate networking devices
US10492102B2 (en) 2009-01-28 2019-11-26 Headwater Research Llc Intermediate networking devices
US9858559B2 (en) 2009-01-28 2018-01-02 Headwater Research Llc Network service plan design
US10715342B2 (en) 2009-01-28 2020-07-14 Headwater Research Llc Managing service user discovery and service launch object placement on a device
US11973804B2 (en) 2009-01-28 2024-04-30 Headwater Research Llc Network service plan design
US9253663B2 (en) 2009-01-28 2016-02-02 Headwater Partners I Llc Controlling mobile device communications on a roaming network based on device state
US10264138B2 (en) 2009-01-28 2019-04-16 Headwater Research Llc Mobile device and service management
US10841839B2 (en) 2009-01-28 2020-11-17 Headwater Research Llc Security, fraud detection, and fraud mitigation in device-assisted services systems
US9392462B2 (en) 2009-01-28 2016-07-12 Headwater Partners I Llc Mobile end-user device with agent limiting wireless data communication for specified background applications based on a stored policy
US9565707B2 (en) 2009-01-28 2017-02-07 Headwater Partners I Llc Wireless end-user device with wireless data attribution to multiple personas
US8745191B2 (en) 2009-01-28 2014-06-03 Headwater Partners I Llc System and method for providing user notifications
US9270559B2 (en) 2009-01-28 2016-02-23 Headwater Partners I Llc Service policy implementation for an end-user device having a control application or a proxy agent for routing an application traffic flow
US9706061B2 (en) 2009-01-28 2017-07-11 Headwater Partners I Llc Service design center for device assisted services
US10326800B2 (en) 2009-01-28 2019-06-18 Headwater Research Llc Wireless network service interfaces
US9262403B2 (en) 2009-03-02 2016-02-16 Sdl Plc Dynamic generation of auto-suggest dictionary for natural language translation
GB2468278A (en) * 2009-03-02 2010-09-08 Sdl Plc Computer assisted natural language translation outputs selectable target text associated in bilingual corpus with input target text from partial translation
US8108391B1 (en) * 2009-03-12 2012-01-31 Google Inc. Identifying non-compositional compounds
US8185373B1 (en) * 2009-05-05 2012-05-22 The United States Of America As Represented By The Director, National Security Agency, The Method of assessing language translation and interpretation
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US9298700B1 (en) * 2009-07-28 2016-03-29 Amazon Technologies, Inc. Determining similar phrases
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
CN101996166B (zh) * 2009-08-14 2015-08-05 张龙哺 双语句对模式化记录方法以及翻译方法和翻译系统
US10007712B1 (en) 2009-08-20 2018-06-26 Amazon Technologies, Inc. Enforcing user-specified rules
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US8799658B1 (en) 2010-03-02 2014-08-05 Amazon Technologies, Inc. Sharing media items with pass phrases
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
TWI434187B (zh) * 2010-11-03 2014-04-11 Inst Information Industry 文字轉換方法與系統
CN102486770B (zh) * 2010-12-02 2014-09-17 财团法人资讯工业策进会 文字转换方法与系统
US9128929B2 (en) 2011-01-14 2015-09-08 Sdl Language Technologies Systems and methods for automatically estimating a translation time including preparation time in addition to the translation itself
US8655640B2 (en) * 2011-03-02 2014-02-18 Raytheon Bbn Technologies Corp. Automatic word alignment
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
EP2535822A3 (en) * 2011-06-13 2013-12-25 The Provost, Fellows, Foundation Scholars, & the other members of Board, of the College of the Holy & Undiv. Trinity of Queen Elizabeth near Dublin Data processing system and method for assessing quality of a translation
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
JP2014078132A (ja) * 2012-10-10 2014-05-01 Toshiba Corp 機械翻訳装置、方法およびプログラム
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US20140278357A1 (en) * 2013-03-14 2014-09-18 Wordnik, Inc. Word generation and scoring using sub-word segments and characteristic of interest
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
EP3113034A4 (en) * 2014-02-28 2017-07-12 Rakuten, Inc. Information processing system, information processing method and information processing program
JP5850512B2 (ja) * 2014-03-07 2016-02-03 国立研究開発法人情報通信研究機構 単語アライメントスコア算出装置、単語アライメント装置、及びコンピュータプログラム
CN104239292B (zh) * 2014-08-18 2017-07-28 武汉传神信息技术有限公司 一种获取专业词汇译文的方法
CN104239291B (zh) * 2014-08-18 2017-06-06 网来云商环球信息技术(武汉)有限公司 一种准确翻译国际贸易合同的方法
RU2596600C2 (ru) 2014-09-02 2016-09-10 Общество с ограниченной ответственностью "Аби Девелопмент" Способы и системы обработки изображений математических выражений
CN104408078B (zh) * 2014-11-07 2019-02-12 北京第二外国语学院 一种基于关键词的中英双语平行语料库构建方法
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
CN107193807B (zh) * 2017-05-12 2021-05-28 北京百度网讯科技有限公司 基于人工智能的语言转换处理方法、装置及终端
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
JP2019082860A (ja) * 2017-10-30 2019-05-30 富士通株式会社 生成プログラム、生成方法及び生成装置
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
WO2020056199A1 (en) * 2018-09-14 2020-03-19 Jpmorgan Chase Bank, N.A. Systems and methods for automated document graphing
US11449676B2 (en) * 2018-09-14 2022-09-20 Jpmorgan Chase Bank, N.A. Systems and methods for automated document graphing
JP7147439B2 (ja) * 2018-09-28 2022-10-05 株式会社リコー 言語処理方法、言語処理プログラム及び言語処理装置
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
CN110781689B (zh) * 2019-10-25 2021-08-06 北京小米智能科技有限公司 信息处理方法、装置及存储介质
CN112735392B (zh) * 2020-12-31 2024-04-16 中国科学技术大学 语音处理方法、装置、设备及存储介质
US11966711B2 (en) * 2021-05-18 2024-04-23 International Business Machines Corporation Translation verification and correction

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2177525B (en) * 1985-05-14 1989-08-16 Sharp Kk Translation system
US4914590A (en) * 1988-05-18 1990-04-03 Emhart Industries, Inc. Natural language understanding system
NL8900587A (nl) * 1989-03-10 1990-10-01 Bso Buro Voor Systeemontwikkel Werkwijze voor het bepalen van de semantische verwantheid van lexicale componenten in een tekst.
US5418717A (en) * 1990-08-27 1995-05-23 Su; Keh-Yih Multiple score language processing system
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5267156A (en) * 1991-12-05 1993-11-30 International Business Machines Corporation Method for constructing a knowledge base, knowledge base system, machine translation method and system therefor
US5541836A (en) * 1991-12-30 1996-07-30 At&T Corp. Word disambiguation apparatus and methods
US5366556A (en) * 1992-01-10 1994-11-22 Robert Prince Process and apparatus for production of diamond-like films
US6278967B1 (en) * 1992-08-31 2001-08-21 Logovista Corporation Automated system for generating natural language translations that are domain-specific, grammar rule-based, and/or based on part-of-speech analysis
GB2279164A (en) * 1993-06-18 1994-12-21 Canon Res Ct Europe Ltd Processing a bilingual database.
US5510981A (en) * 1993-10-28 1996-04-23 International Business Machines Corporation Language translation apparatus and method using context-based translation models
US5850561A (en) * 1994-09-23 1998-12-15 Lucent Technologies Inc. Glossary construction tool
JPH09128396A (ja) * 1995-11-06 1997-05-16 Hitachi Ltd 対訳辞書作成方法
DE69837979T2 (de) * 1997-06-27 2008-03-06 International Business Machines Corp. System zum Extrahieren einer mehrsprachigen Terminologie
US7020601B1 (en) * 1998-05-04 2006-03-28 Trados Incorporated Method and apparatus for processing source information based on source placeable elements
US6885985B2 (en) * 2000-12-18 2005-04-26 Xerox Corporation Terminology translation for unaligned comparable corpora using category based translation probabilities
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
US6990439B2 (en) * 2001-01-10 2006-01-24 Microsoft Corporation Method and apparatus for performing machine translation using a unified language model and translation model
US7734459B2 (en) * 2001-06-01 2010-06-08 Microsoft Corporation Automatic extraction of transfer mappings from bilingual corpora
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
US7191115B2 (en) 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
WO2003005166A2 (en) * 2001-07-03 2003-01-16 University Of Southern California A syntax-based statistical translation model
US6721967B2 (en) * 2002-07-22 2004-04-20 Earl J. Braxton Modular portable comfort station
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US7356457B2 (en) * 2003-02-28 2008-04-08 Microsoft Corporation Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words

Also Published As

Publication number Publication date
US7366654B2 (en) 2008-04-29
EP1308851A2 (en) 2003-05-07
EP1308851A3 (en) 2007-12-12
US20020198701A1 (en) 2002-12-26
EP1308851B1 (en) 2016-09-07
US20060116867A1 (en) 2006-06-01
US7191115B2 (en) 2007-03-13
JP2003141115A (ja) 2003-05-16
ES2604752T3 (es) 2017-03-09

Similar Documents

Publication Publication Date Title
JP4491187B2 (ja) 単語間の翻訳関係を計算する方法
US7050964B2 (en) Scaleable machine translation system
JP5538820B2 (ja) 2カ国語コーパスからの変換マッピングの自動抽出プログラム
KR101130444B1 (ko) 기계번역기법을 이용한 유사문장 식별 시스템
JP4694121B2 (ja) 句の間の翻訳関係を学習するための統計的な方法および装置
EP1899835B1 (en) Processing collocation mistakes in documents
US7243305B2 (en) Spelling and grammar checking system
US7158930B2 (en) Method and apparatus for expanding dictionaries during parsing
US20070011132A1 (en) Named entity translation
KR20060043682A (ko) 개선된 맞춤법 검사를 위한 시스템 및 방법
JP2005507524A (ja) 機械翻訳
KR20040102329A (ko) 기계 번역기를 훈련하기 위한 방법 및 시스템
JP2011118689A (ja) 検索方法及びシステム
JP3743678B2 (ja) 自動自然言語翻訳
Milić-Frayling Text processing and information retrieval
Jabbar et al. An Analytical Analysis of Text Stemming Methodologies in Information Retrieval and Natural Language Processing Systems
JPH09311858A (ja) 文章の照応関係解析装置
JP2006134349A (ja) 自動自然言語翻訳システム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050616

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050616

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060926

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061226

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20061226

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070326

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070410

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070709

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20070709

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070710

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20070828

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20070914

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100302

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100405

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4491187

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130409

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140409

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees