JP2005520251A

JP2005520251A - 名前付きエンティティの翻訳

Info

Publication number: JP2005520251A
Application number: JP2003577155A
Authority: JP
Inventors: イエイザーアルーオナイザン; ケビンナイト
Original assignee: University of Southern California USC
Current assignee: University of Southern California USC
Priority date: 2002-03-11
Filing date: 2003-03-11
Publication date: 2005-07-07
Also published as: US20080114583A1; WO2003079225A1; US7249013B2; CN1643511A; US7580830B2; EP1483687A1; US20030191626A1; CA2475857C; EP1483687A4; CA2475857A1; AU2003218097A1

Abstract

名前付きエンティティを原始言語から目的言語に翻訳する方法（１１０）。一般にこの方法の一実施態様は、発音ベース及びつづりベースの翻字モデルを使用して名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳を作成し（２１０）、その目的言語の一言語資源を使用頻度に関する情報についてサーチし（２２０）、次いで使用頻度に基づいて少なくとも一つのポテンシャル翻訳を含む出力を提供する（２３０）ステップを含んでいる。

Description

発明の詳細な説明

関連出願の相互参照
本願は、発明の名称が「名前付きエンティティの翻訳」であって２００２年３月１１日付けで出願された米国仮特許願第６０／３６３，４４３号の優先権の特典を主張するものである。

米国連邦政府が支援する研究に関する陳述
本願に記載されている発明は、米国国防総省国防高等研究計画庁（ＤＡＲＰＡ）の援助第Ｎ６６００１−００−１−８９１４号に基づいた研究でなされたものである。したがって米国政府は本発明に特定の権利を有するとともに契約者が所有権を保有することを選択した場合、公法９６−５１７（３５Ｕ．Ｓ．Ｃ．２０２）の条項に従うものである。

発明の背景
本願には、言語の機械翻訳例えば名前付きエンティティ（named entity）の翻訳に関するシステム及び技法が記載されている。

名前付きエンティティのフレーズは、人名、組織、場所、時相のフレーズ及び通貨の表現の形態で、毎日ニュースストーリーに紹介されている。名前付きエンティティを識別する各種の技法が利用できるようになっている。

発明の概要
本願の開示内容には、名前付きエンティティの原始言語から目的言語への翻訳に関するシステムと技法が含まれている。本発明の一側面によって名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳（potential translation）は、発音ベース及びつづりベースの翻字モデルを使って作成される。目的言語の一言語資源を使用頻度に関する情報を求めてサーチすることができ、そしてポテンシャル翻訳を少なくとも一つ含む出力をその使用頻度の情報に基づいて提供できる。

二言語資源を、発音ベース及びつづりベースの翻字モデルとニュースコーパスとを組み合わせたものとともに選択して使用し、二言語資源からの入力を最小限にして名前付きエンティティの翻訳を実行できる。使用文脈の情報及び／又はポテンシャル翻訳の識別されたサブフレーズを利用して、作成される翻訳文候補のリストを拡大できる。さらに１又は２以上の一言語の手掛かり（clue）を利用して、作成した翻訳の候補を再びランク付けするのを助けることができる。本願に記載されているシステムと技法によって、名前付きエンティティを効果的に翻訳することができ、そして二言語辞書には見つけることができない新しい名前付きエンティティのフレーズ及びドメイン特異的名前付きエンティティ全体を処理できる。

本発明の１又は２以上の実施態様の詳細を、添付図面を参照して以下に説明する。本発明の他の特徴と利点は以下の説明と図面及び請求項から明らかになるであろう。

詳細な説明
用語「名前付きエンティティ」、「名前付きエンティティのフレーズ」及び「フレーズ」は、本明細書で使用する場合、相互に交換して使用できる。名前付きエンティティは、エンティティを名前によって識別する１又は２以上の単語の群を意味する。例えば名前付きエンティティとしては人、組織、場所、日付け及び通貨の表現がある。さらに、用語「電子文書」及び「文書」はファイルに記憶された電子データ及びネットワークによって受け取った電子データの両者を含む一組の電子データを意味する。電子文書は必ずしもファイルと同じでない。文書は、他の文書を保持するファイルの一部分に、問題の文書専用の単一ファイルに又は一組の統合ファイルに記憶することができる。用語「テキスト」は文字データを意味し、これは標準化文字コード化方式、例えばUnicode、ＡＳＣＩＩ、Arabic（ＩＳＯ）、Turkish（ＩＳＯ）、Chinese Simplified（ＥＵＣ）、Korean（ＩＳＯ）などを使用してコード化することができる。

図１は名前付きエンティティの翻訳を利用するシステム１００を示す。システム１００としては、自然言語処理（ＮＬＰ）システム１２０、例えば統計的機械翻訳システム、Cross-Lingual Information Retrieval（ＣＬＩＲ）システム又はQuestion Answering（ＱＡ）システムがある。ＮＬＰシステム１２０は名前付きエンティティ翻訳システム１１０を内蔵することができる。あるいは、ＮＬＰシステム１２０は例えばネットワーク１３０を通じて名前付きエンティティ翻訳システム１１０と交信することができる。

名前付きエンティティ翻訳システム１１０は、ＮＬＰシステム１２０をサポートして名前付きエンティティを翻訳するツールであってもよい。機械翻訳システムは、システム１１０を、全翻訳文の質を改善するためにフレーズ翻訳を処理する要素として使用できる。ＣＬＩＲシステムは、システム１１０が提供した名前付きエンティティのフレーズの翻訳に基づいて該当文書を識別できる。ＱＡシステムは、多くの類事実の質問に対する応答は名前付きエンティティを含んでいるから（例えば「who」の質問に対する応答は通常、人／組織を含み、「where」の質問に対する応答は場所を含みそして「when」の質問に対する応答は時相の表現を含んでいる）、システム１１０から恩恵を受けることができる。

図２は代表的な名前付きエンティティ翻訳システム１５０を示す。原始言語中の名前付きエンティティがポテンシャル翻訳ジェネレータ１６０に提供される。

ジェネレータ１６０は、発音ベース翻字モデル１６２とつづりベース翻字モデル１６４を使用して、原始言語から目的言語へのポテンシャル翻訳を作成する。これを行う際に、一言語資源１７０（例えば通信ネットワークによって入手できる英語の文書）を使って、１又は２以上のポテンシャル翻訳のどれを出力として提供するか決定するのに役立てることができる。

さらに、二言語資源１８０を使って、１又は２以上のポテンシャル翻訳のどれを出力として提供するか決定するのに役立てることもできる。その二言語資源１８０は二言語辞書（例えばアラビア語−英語辞書）でもよい。下記の実施例を利用して本願に記載されている特定のシステムと技法で行われる一般的な翻訳方法を例示する。本願の開示内容にはアラビア語を原始言語として使い英語を目的言語として使うことが多いが、本願に開示されているシステムと技法は他の言語にも適用できる。

名前付きエンティティのフレーズのニューステキスト内での頻度は、それらフレーズが関連している事象の有意性を反映している。国際的に重要なニュースストーリーの名前付きエンティティを翻訳するとき、同じ事象が目的言語を含む多くの言語で報道されることが多い。一つの文書に、多数の未知の単語を含んでいることが多い名前付きエンティティの翻訳を提供する必要があるのと違って、人が原文書の翻訳文に似ているが必ずしもそうではない文書を見つけて翻訳文を抽出することが容易である場合がある。

この翻訳法を例示するため下記のアラビア語の抜粋文：

に現れる名前付きエンティティを検討する。この抜粋文を抜粋したアラビア語新聞の記事は、朝鮮戦争中に死亡した米国兵士の遺体の調査に関する米国と北朝鮮の当局間の協議についての記事である。このアラビア語文書をバイリンガルスピーカーが翻訳したとき、場所

及び

はそれぞれChozin Reserve、Onsan及びKojanjと発音された。

人は未知の又はなじみの無い名前を翻訳するとき、同じ主題を論ずる英語の文書をサーチしてその訳語を引き出すことができる。このように上記用語を翻訳するため、人は、次の用語：「soldirs remains」、「search」、「North Korea」及び「ＵＳ」を使ってWorld Wide Web（ｗｗｗ）をサーチできる。このサーチをサーチエンジン（例えば、http://www-google-com）を使って行ったところ、最高にランク付けされた文書は次のパラグラフを含んでいた。

これにより、サーチ用語に「Unsan」を加えることによってより正確な問合わせをつくることができた。

このサーチを行い次いで当初見つけた文書をサーチ結果から除外すると、最高にランク付けされた文書は下記の抜粋文を含んでいた。

こうしてこの人間による翻訳法は対象の名前に対する正しい訳語を提供する。この人間による翻訳法を出発点として用いることによって、各種の機械ベース名前付きエンティティ翻訳法を提供できる。

図３は、名前付きエンティティに対するポテンシャル翻訳の機械ベース作成法を示す。名前付きエンティティは、２００において、原始言語のテキスト入力から得られる。その名前付きエンティティは、識別されるか又は入力として受け入れられる。名前付きエンティティの識別は、伝統的な技法例えばDaniel M. Bikel、Richard Schwartz及びRalph M. Weischedelの論文「An Algorithm that Learns What's in ａ Name」、Machine Learning ３４、２１１−２３１（１９９９）に記載されているIdentiFinder名前付きエンティティ識別子を使用して実施できる。さらに、その名前付きエンティティのフレーズの境界とカテゴリの指定を得ることができる。

名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳は、２１０において、発音ベースの翻字モデルとつづりベースの翻字モデルを使って作成される。このポテンシャル翻訳の作成は、（１）第一確率モデルを使って、目的言語の単語及び言語の発音特性に基づいた単語に対する第一翻字スコアを作成し、（２）第二確率モデルを使って、目的言語から原始言語への文字配列のマッピングに基づいた前記単語の第二翻字スコアを作成し、次いで（３）上記第一翻字スコアと第二翻字スコアを結合して前記単語の第三翻字スコアを作成することによって実施できる。

翻字は、原始言語の単語を、目的言語におけるそれら単語の音声又はつづりの近似均等物と取り替える工程である。類似のアルファベットと音声体系を使用する言語間の翻字は、アラビア語から英語への翻字のようにそれらの音声体系と書式体系に大きな差がある言語間の翻字より容易である。

アラビア語の母音には、長母音と短母音の２種類がある。アラビア語の短母音が新聞のテキストに書かれることは稀であるが、これは発音と意味を非常にあいまいにする。また、アラビア語の音声と英語の音声に１対１の対応は無い。例えば英語の「Ｐ」と「Ｂ」はともにアラビア語の

にマップされ、アラビア語の

と

は英語の「Ｈ」にマップされるなどである。

アラビア語から英語に翻訳する際のこの問題に対する一方法は、発音ベースモデルを使用する方法である。Bonnie G. StallsとKevin Knightの論文「Translating names and technical terms in Arabic text」、Proceedings of the
COLING/ACL Workshop on Computational Approaches to Semitic Languages（１９９８）には、原始チャネルフレームワークに基づいたアラビア語−英語の逆翻字システムが提供されている。その翻字法は、英語の名前がアラビア語に翻字される方式の生成モデルに基づいている。この方法はいくつもの段階からなり、それらの段階は各々、有限の状態の機械として表現された確率モデルと定義できる。

第一に、英語の単語がそのユニグラム（unigram）確率Ｐ（ｗ）にしたがって作成される。次にその英語の単語が確率Ｐ（ｅ｜ｗ）で発音され、これは英語の発音辞書から直接集めることができる。最後に英語の音素の配列が、確率Ｐ（ａ｜ｅ）でアラビア語書式に変換される。このモデルに従って、翻字確率は下記式で支配される。

この発音ベースモデルは音声ベースモデルと呼称すこともある。

このモデルで提案される翻字は一般に正確であるが、典型的には、作成できる英語の単語は既知の発音を有する単語である。さらに、人間の翻訳者は、単語を発音する方法ではなくて単語をつづる方法に基づいて単語を翻字することが多い。例えば「Graham」は、アラビア語に

ではなく

と翻字される。この問題を処理するため、発音ベースモデルに加えてつづりベースモデルを使用できる。

スペル例に基づいた確率モデルは、英語の文字配列をアラビア語の文字配列に、確率Ｐ（ａ｜ｗ）で直接マップすることができ、このモデルは英語の発音の必要なしで、小さい英語／アラビア語の名前リストを用いて仕込まれ得る。このリストは、発音が必要無いため、多くの言語対に対して容易に得ることができる。さらに、モデルＰ（ｗ）は、拡張して単語のユニグラムモデルに加えて文字のトリグラムモデルを含めることができる。これによって、単語ユニグラムモデルでまだ定義されていない単語を作成できる。したがってこのモデルによる翻字スコアは下記式で支配される。

上記の音声ベースモデルとつづりベースモデルを結合させて単一の翻字モデルを作成することができる。この結合モデルでは、アラビア語単語ａを与えられた英語単語ｗの翻字スコアは、下記式で支配される音声ベースとつづりベースの翻字スコアの線形結合であってもよい。

上記第一と第二の確率モデルに加えて、他の技法を、ポテンシャル翻訳の作成中に使用できる。ポテンシャル翻訳の作成は二原語資源を使って行うことができる。ポテンシャル翻訳の作成は複数の作成段階で行われる。例えば、第一段階で、ポテンシャル翻訳の初期セット（候補とも呼称する）を作成することができ、次にこのセットを、サーチ技法及び上記翻字技法を含む翻字技法を使って拡大できる。

２２０において、目的言語の一言語資源をサーチして使用頻度に関する情報を見つける。例えば一言語資源としては目的言語のニュースストーリーのような複数の文書があり、それら文書は通信ネットワークで得ることができる。これらの文書をポテンシャル翻訳についてサーチして、どのポテンシャル翻訳がより正確らしい翻訳であるか識別できる。

２３０において、少なくとも一つのポテンシャル翻訳を含む出力が使用頻度の情報に基づいて提供される。例えば、ポテンシャル翻訳は関連する確率スコアを有し、これらの確率スコアは前記使用頻度の情報に基づいて調節できる。次にその調節された確率スコアは前記提供された出力に影響することがある。

図４は、二言語資源を使用することによる名前付きエンティティのポテンシャル翻訳の機械ベースの作成を示す。２５０において、特定の名前付きエンティティのカテゴリが得られる。次に２６０において、その名前付きエンティティのポテンシャル翻訳を、前記カテゴリに基づいて二言語資源を選択して使うことによって作成できる。異なるタイプの名前付きエンティティを、１又は２以上の特定のカテゴリに基づいて別様に翻訳できる。

数字及び時間の表現は一般に、限定されたセットの用語範囲の単語（例えば月、曜日などの名前）を使用しそして各種の翻訳法を使って翻訳できる。人の名前は第一カテゴリであるので、第二カテゴリとして処理できる場所や組織とは別様に処理される。

名前付きエンティティが第一カテゴリに入っているときは、二言語資源を使用する必要はない。人名はほとんどいつも人間の翻訳者により翻字される。したがって、典型的な人名の翻訳候補は、先に述べた発音ベース及びつづりベースの結合モデルを使用して作成できる。有限の状態の装置は、与えられた名前の可能性があるすべての翻字を含む格子を作成できる。次に、与えられた名前のｎ−最良翻字を引き出すことによって、翻訳候補のリストをつくることができる。このリスト中の各候補のスコアは、式：

で与えられるような翻字確率である。例えば名前

は、「Bell Clinton」、「Bill Clinton」、「Bill Klington」などと翻字される。

名前付きエンティティが第二カテゴリに入っているときは、二言語資源を使用できる。組織や場所の名前の単語は、一般に人間の翻訳者によって直接翻訳されるか（例えば

を「Reservoir」と訳す）又は翻字され（例えば

を「Chosin」と翻字する）、一方の方法が与えられた単語に対し他方の方法よりいつ優れているのか必ずしも明らかではない。与えられたフレーズｆの翻訳候補を作成するため、そのフレーズの中の単語は二言語辞書を使って翻訳することができ、さらに上記方法を使って翻字することもできる。

候補ジェネレータは、与えられたフレーズ内の各単語に対する辞書の見出し語とｎ−最良翻字を結合して、単語の翻訳／翻字の組み合わせのすべての可能性のある順列を受け入れる正規表現を作成することができる。単語の翻字と直接翻訳に加えて、英語のゼロ稔性単語（zero-fertility word）（すなわち名前付きエンティティのフレーズ内にアラビア語の相当語が無い単語例えば「of」や「the」）を考慮できる。次にこの正規表現を、目的言語の一言語資源例えば英語の大きなニュースコーパスなどにマッチさせることができる。

すべてのマッチはそれらの個々の単語の翻訳／翻字のスコアにしたがってスコアできる。与えられた候補のスコアｅは、P. F. Brown、 S. A. Della-Pietra、V. J. Della-Pietra and R. L. Mercer、“The mathematics of statistical machine
translation:Parameter estimation”、Computational Linguistics、１９（２）（１９９８）に記載されているモデル１確率の修正バージョンによって以下のように表すことができる。

上記式中、ｌはｅの長さであり、ｍはｆの長さであり、αは見つけられたｅのマッチの数に基づいた計数比であり、そしてａ_ｊはアラインメントａにしたがってｆ_ｊでアラインされた英語の単語のインデックスである。確率

は、翻字と翻訳のスコアの線形結合であり、その翻訳のスコアはｆ_ｊに対するすべての辞書の見出し語の一様確率である。

スコアされたマッチは翻訳候補のリストを形成する。例えば

の候補リストは「Bay of Pigs」と「Gulf of Pigs」を含んでいる。

２７０において、目的言語の一言語資源をサーチして使用頻度に関する情報を見つける。２８０において、作成されたポテンシャル翻訳の確率スコアを上記使用頻度の情報に基づいて調節できる。この調節とは、ウエブなどの一言語資源内に発見された使用頻度の情報に基づいて翻訳候補を再度スコアすることである。ウエブは、複数の言語の文書を含んでいるが、２７０において、サーチするため一言語資源として処理される。したがってウエブはこの点について一言語資源である。

ポテンシャル翻訳の再スコアリングは、異なるタイプの使用頻度の情報に基づいて行うことができる。その使用頻度の情報は一言語資源のポテンシャル翻訳に対する正規化されたフルフレーズヒットカウント（normalized full-phrase hit count）でよく、確率スコアの調節は、確率スコアにポテンシャル翻訳の正規化フルフレーズヒットカウントを掛け算することによって行うことができる。さらに図５について以下に説明するように、１又は２種以上の追加のタイプの再スコアリングを１又は２種以上の一言語資源に対して使用できる。

再スコアリングの後、２９０において、１又は２以上の翻訳候補を前記調節された確率スコアに基づいて選択する。例えば、名前付きエンティティの最良の利用可能な翻訳は、前記調節された確率スコアに基づいてポテンシャル翻訳から選択できる。あるいは、名前付きエンティティの適当な翻訳のリストは、前記調節された確率スコアと閾値に基づいてポテンシャル翻訳から選択できる。これら１又は２以上の選択された翻訳はＮＬＰシステムに対する出力として提供できる。

図５は代表的な名前付きエンティティの翻訳システムを示す。図５に示すように、その翻訳プロセスは二つの主要段階を含んでいる。原始原語の名前付きエンティティが与えられると翻訳候補のランク付けリストが、二言語資源と一言語資源を使用して作成される。次いでその候補のリストは異なる一言語の手掛かりを利用して再スコアできる。

候補ジェネレータ３００は上記技法を使用して名前付きエンティティの翻訳候補を作成する。候補ジェネレータ３００は、アラビア語の文書３３０中で識別されている名前付きエンティティを受け取る。場所又は組織として識別されている名前付きエンティティは第一モジュール３１０で処理され、そして人名として識別されている名前付きエンティティは第二モジュール３２０で処理される。モジュール３１０と３２０の両者は上記のように翻字器３０５を使用する。

さらにまた、第一モジュール３１０は、二言語辞書３４０を使って、単語の翻訳／翻字の組み合わせのすべての可能な順列を受け入れる正規表現を作成する。第一モジュール３１０は、英語のゼロ稔性単語（zero-fertility word）を正規表現に加えることもできる。次にこの正規表現を、リマッチャー（rematcher）３１５によって英語のニュースコーパスにマッチさせる。そのマッチは、それらの個々の単語の翻訳／翻字のスコアにしたがってスコアされる。

与えられた名前付きエンティティに対する翻訳候補のリストが候補ジェネレータによって出力される。これらの翻訳候補がさらに候補リランカー（re-ranker）３７０で処理された後、再度ランク付けされた翻訳候補の最終セットが出力される。このリランカー３７０は、ウエブ３６０又はある種の他の情報源をサーチして使用頻度に関する情報を見つける。次にリランカー３７０は、発見された使用頻度に関する情報に基づいて翻訳候補を再度スコアする。

多重タイプの使用頻度の情報及び対応する再スコアリングの技法を利用できる。翻訳候補は一般にスコアＳの下記式にしたがって再度ランク付けされる。

上記式中ＲＦ（ｃ）は使用される再スコアリング係数である。一モジュールの再ランク付けリストが次のモジュールへの入力でありそして候補リストの大きさを限定できる多重再ランキング法を組み合わせて逐次適用できる。例えばリランカー３７０は異なる再スコアリング係数を適用する三つの別個の再スコアリングモジュールを含んでいてもよく、そして２０のポテンシャル翻訳のリストをこれら三つの各モジュールによって順に再度ランク付けできる。

第一の可能な再スコアリング係数は正規化された直接のウエブのカウントである。

の例の場合、トップの二つの翻訳候補は、翻字スコアが１．１×１０^−９の「Bell Clinton」とスコアが６．７×１０^−１０の「Bill Clinton」である。これら二つの名前のウエブの頻度カウントはそれぞれ１４６及び８４０，８４４である。式６を使用すると、これらウエブのカウントはそれぞれ、１．９×１０^−３と６．６８×１０^−１０という修正されたスコアになり、正しい翻訳が最高にランク付けされるようになる。

名前の個々の単語ではなくてフルネームのカウントを考察すると、一般によい結果が得られる。この点を例示するため人名

を考察する。翻字モジュール３０５は、ファーストネームの可能性のある翻字として「Jon」と「John」を提案し、そしてラストネームとしてとりわけ「Keele」と「Kyl」を提案している。個々の単語の正規化カウントは、（「John」、０，９２６９）、（「Jon」、０，０６８８）、（「Keele」、０，００３２）及び（「Kyl」、０，００１１）である。これらの正規化カウントを使って、ユニグラム言語モデルと類似の方法でファーストネーム／ラストネームの組み合わせをスコアしランク付けすると、以下の名前／スコアの対：（「John Keele」、０，００３）、（「John Kyl」、０，００１）、（「Jon Keele」、０，０００２）及び（「Jon Kyl」、７．５×１０^−５）が得られる。しかし可能性があるフルネームの正規化フレーズのカウントは（「Jon Kyl」、０．８９７６）、（「Jhon Kyl」、０．０９３６）、（「Jhon Keele」、０．００８７）及び（「Jon Keele」）、０．０００１）であるが、これは、「Jon Kyl」が名前を挙げられることが多い米国の上院議員であるからより望ましいことである。

別の可能性がある再スコアリング係数はソース入力での相互参照（co-reference）に基づいており、この場合、確率スコアの調節は名前付きエンティティをテキスト入力中の共通タイプの他の名前付きエンティティと比較して行われ、そしてその名前付きエンティティが他の名前付きエンティティの中の一つのサブフレーズであれば確率スコアの調節は前記一つの他の名前付きエンティティに対応する正規化フルフレーズのヒットカウントに基づいて行われる。名前付きエンティティがニュース記事に始めて挙げられる時、一般にそのフレーズのフルフォーム（例えば人のフルネーム）が使用される。その名前がその後に引用されるときはその名前の短縮バージョン（例えば人のラストネーム）が使用されることが多い。

名前付きエンティティのフレーズの短縮バージョンは本来、そのフレーズのフルバージョンより不明確なので翻訳することがより困難である。また、長いフレーズは、短いフレーズよりウエブカウントが正確である傾向がある。例えば、フレーズ

は「the
House of Representative」と翻訳される。単語

はこのフレーズをその後に引用する場合に使用できる。

は

と同じ単語であるが定冠詞

がついていることに留意のこと。したがって翻訳機は、不明瞭で以下のような多くのものに解釈される

を翻訳するタスクを持っている。すなわち

（「the
Security Council」）を意味するときは「the Council」と翻訳し、

（「the
House of Representative」）を意味するときは「the House」と翻訳し、そして

（「national
Assembly」）を意味するときは「the Assembly」と翻訳する。

翻訳機械は、名前付きエンティティが「the House of Representative」を意味していると決定できるならば、その名前付きエンティティを「the House」と正確に翻訳できる。これは、短縮フレーズを、同じタイプの名前付きエンティティのフレーズの残りの部分と比較することで実施できる。短縮フレーズが一つだけの他のフレーズのサブフレーズであることが分かったならば、その短縮フレーズは同じ名前付きエンティティの別の意味を示すと推量できる。その場合、長いフレーズのカウントは短いフレーズの候補を再びランク付けするのに使用できる。

別の可能性のある再スコアリング係数は、使用頻度の情報と組み合わせた文脈の情報に基づいている。文脈情報はテキスト入力中で識別することができ（例えば候補のリランカー３７０は入力としてのアラビア語の文書３３０も使える）、そして一言語資源をサーチすることによって、ポテンシャル翻訳を得るため複数の文書をサーチしかつ使用頻度の情報を得るため文脈の情報をサーチできる。

いくつかの名前付きエンティティについては、ウエブカウントは、フレーズが特定の文脈内に現れるときのみカウントされる場合、候補のより正確な再ランク付けを行うことができる。例えば

に対する二つの最高の翻訳候補は「Donald Martin」と「Donald Marron」である。直接のウエブカウントはそれぞれ２９９２と２５０９であり、候補リストのランク付けを変えない。文脈の情報に基づいてウエブカウントをつくりだすためウエブをサーチするときは、ウエブサーチエンジンをブール演算子「ＡＮＤ」とともに使用できる。先に述べた例の場合、挙げられた人が「Paine Webber」の「ＣＥＯ」であるという事実はこのサーチに利用できる。その結果、「Donald Martin」と「Donald Marron」それぞれに対するカウントは０と３５７になる。最高の候補として正しい翻訳を得るのにこれで十分である。

各種の技法を使用して、最も正確なカウントを提供する文脈の情報を自動的に見つけることができる。これら技法のいくつかは、原始文書の表題などの文書全体の文脈情報を利用するか又は原始文書に挙げられているキー用語を選択する。これらキー用語を識別する一方法は、ＴＦ／ＩＤＦ（用語の頻度／逆文書（inverse document）の頻度）の尺度を使用する方法である。他の方法は、問題の名前付きエンティティ又はその名前付きエンティティに密接して挙げられた他の名前付きエンティティに先行及び／又は続くｎ個の単語のような、問題の名前付きエンティティに局在する文脈情報を利用する。

名前付きエンティティの翻訳システムは、上記技法に加えて各種の技法を使って、候補ジェネレータ３００などのポテンシャル翻訳ジェネレータが作成する候補リストを拡張できる。候補のリストを拡張すると、前記システムをより堅牢にかつ効率的にすることができる。ポテンシャル翻訳の初期リストが作成されたならば、このリストは、正しい翻訳を作成するのではなくて正しい翻訳をサーチすることによって拡張できる。初期の候補リストから推定することによって、追加の、時にはより良好な翻訳を発見できる。

図６は、サブフレーズ識別法を利用して候補リストを拡張することを含む、名前付きエンティティのポテンシャル翻訳の機械ベース作成法を示す。４００において、名前付きエンティティが原始原語のテキスト入力から得られる。４１０において、名前付きエンティティのポテンシャル翻訳が、言語の発音特性及び目的原語から原始原語への文字配列のマッピングを使用する確率モデルで作成される。そのポテンシャル翻訳は、上記のような対応する翻字スコアを有する目的言語中のフレーズである。

作成されたフレーズのサブフレーズが４２０において識別される。４３０において、目的言語の文書が前記サブフレーズを利用して発見される。これはウエブサーチエンジンを使用して実施できる。上記発見された文書内の、１又は２以上のサブフレーズを含む名前付きエンティティは４４０において識別される。例えば、IdentiFinder名前付きエンティティ識別器を使用して、各サブフレーズについて検索されたトップｎの文書のすべての名前付きエンティティを見つけることができる。４５０において、上記発見された文書内の識別された名前付きエンティティに対する翻字スコアが確率モデルを使って作成される。

このスコアリングは、原始言語の入力の原名前付きエンティティと同じカテゴリ（例えば人のカテゴリ）の検索された目的言語の文書の識別された名前付きエンティティに限定できる。上記の同じモデルをこのスコアリングに使用できる。次にこれらのスコアされた名前付きエンティティは、４６０において、ポテンシャル翻訳に付加される。このように、候補リストは初期候補リストに見つけられたサブフレーズに基づいて拡張される。次にこの拡張された候補リストは、先に述べた再スコアリング工程に移る。４７０において、目的言語の一言語資源を、使用頻度に関する情報についてサーチする。次に４８０において、少なくとも一つのポテンシャル翻訳を含む出力が使用頻度の情報に基づいて提供される。

人名の場合、この技法は、最終の再スコアリング工程中に実施されるフルネームに関するサーチングを増強するため、ポテンシャル翻訳を作成中ファーストネームとラストネームを別個にサーチすることに対応している。一例示として、名前

を考察する。翻訳モジュールは「Coffee Annan」、「Coffee Engen」、「Coffee Anton」、「Coffee Anyone」及び「Covey Annan」を提案するが、正しい翻訳「Kofi Annan」（現在の国連事務総長）を提案しない。ポテンシャル翻訳のリストは、ファーストネームとして「Coffee」もしくは「Covey」を有するか又はラストネームとして「Annan」、「Engen」、「Anton」もしくは「Anyone」を有する最も一般的な人名を見つけることによって拡張できる。

使用される一言語資源がワイルドカードを使うサーチングをサポートする場合、目的言語内の文書の発見はワイルドカードのサーチングを利用して実施できる。例えば、使用される一言語資源が英語の大きなニュースコーパスである場合、このようなサーチ能力は即座に利用できる。使用される一言語資源がワイルドカードのサーチングをサポートしない場合、これは例えば典型的なウエブサーチエンジンでは一般的なことであるが、トップｎのマッチング文書を、名前：「Coffee」、「Covey」、「Annan」、「Engen」、「Anton」及び「Anyone」各々について検索できる。前記サーチに使用したファーストネーム又はラストネームのいずれかを含む検索された文書中に見つかった人名はすべて次に翻訳候補のリストに加えることができる。正しい翻訳は検索された文書中に見つかった名前の中にあるであろう、そしてもしそうであれば拡張された候補リストに適用される再スコアリング工程中にトップに上昇するであろう。この例では、「Kofi Annan」が見つけられて候補リストに加えられ続いてトップにランク付けされる。

正しい翻訳又はそのサブフレーズのいずれも翻訳候補のリスト中に見つけることができない場合を処理するため、再スコアリング工程中に実施したサーチングに関連して先に述べたような文脈の情報を使ってサーチすることによって追加のポテンシャル翻訳を作成できる。これは、原始言語から翻訳されている文書に類似している目的言語の文書をサーチすることによって実施できる。このことは、同じ事件がおそらく目的言語を含む多くの言語で間違いなく報道される国際的に重要なニュースストーリーの名前付きエンティティを翻訳するとき特に有用である。

上記推定の手順は繰り返すことができるが、この場合は原文書の表題のような文脈情報を利用して目的言語の類似文書を見つけることができる。さらに、ＣＬＩＲシステムを使用して関連文書をより成功裡に見つけることができる。

図７は、文脈情報を使って候補リストを拡張することも含めて、名前付きエンティティのポテンシャル翻訳を機械ベースで作成する過程を示す。名前付きエンティティは、５００において、原始言語のテキスト入力から得られる。そのテキスト入力中の先に述べたような文脈情報は、５１０において識別される。文脈情報を含む目的言語の文書は、５２０において発見される。文書中の名前付きエンティティは、５３０において識別される。テキスト入力中の名前付きエンティティに関する、文書中の名前付きエンティティに対する翻字スコアは、５４０において、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使用する確率モデルを使って作成される。

スコアされた名前付きエンティティは、５５０においてポテンシャル翻訳に加えられる。５６０において、目的言語の一言語資源が、使用頻度に関する情報についてサーチされる。次に５７０において、少なくとも一つのポテンシャル翻訳を含む出力が、使用頻度の情報に基づいて提供される。

図３、４、６及び７に描かれている論理流れは図示されている特定の順序を必要としない。多種類のステップの順序が可能である。さらに、ステップは続けて順に実施する必要はなく、特定の実施態様では多重タスキングと並行処理が好ましいことがある。その外の実施態様は本願の請求項の範囲内に入っている。

名前付きエンティティの翻訳を使用するシステムを示す。代表的な名前付きエンティティの翻訳システムを示す。名前付きエンティティのポテンシャル翻訳を機械ベースで作成するプロセスを示す。二言語資源の使用を含む、名前付きエンティティのポテンシャル翻訳を機械ベースで作成するプロセス示す。代表的な名前付きエンティティの翻訳システムを示す。サブフレーズの識別を利用して候補リストを拡張することを含む、名前付きエンティティのポテンシャル翻訳を機械ベースで作成するプロセスを示す。文脈情報を利用して候補リストを拡張することを含む、名前付きエンティティのポテンシャル翻訳を機械ベースで作成するプロセスを示す。

Claims

原始言語のテキストの入力から名前付きエンティティを得て、
発音ベース及びつづりベースの翻字モデルを使用して名前付きエンティティの原始言語から目的言語のポテンシャル翻訳を作成し、
その目的言語の一言語資源を使用頻度に関する情報についてサーチし、次いで
その使用頻度の情報に基づいて少なくとも一つのポテンシャル翻訳を含む出力を提供する、
ステップを含んでなる方法。
名前付きエンティティのポテンシャル翻訳を作成するステップが、
第一確率モデルを利用して、目的言語の単語を作成し次にそれら単語の第一翻字スコアを言語の発音特性に基づいて作成し、
第二確率モデルを利用して、前記単語の第二翻字スコアを目的言語から原始言語への文字配列のマッピングに基づいて作成し、次いで
前記第一翻字スコアと第二翻字スコアを結合して、前記単語の第三翻字スコアを作成する、
ステップを含んでいる請求項１に記載の方法。
第一確率モデルを使用するステップが、
前記単語の少なくとも一部分をユニグラム確率Ｐ（ｗ）によって作成し、前記単語の対応する音素配列を発音確率Ｐ（ｅ｜ｗ）で作成し次いでその音素配列を変換確率Ｐ（ａ｜ｅ）で原始言語に変換するステップを含み、そして第一翻字スコアが式：

で支配されており、そして
第二確率モデルを使用するステップが、
前記単語の原始言語の文字を、文字配列マッピングを使用して確率Ｐ（ａ｜ｗ）で作成し、次に前記単語の少なくとも一部分を、文字のトリグラムモデルによって拡張確率Ｐ（ｗ）で作成するステップを含み、そして第二翻字スコアが式：

で支配されている、
請求項２に記載の方法。
第一翻字スコアと第二翻字スコアを結合させるステップが線形結合を計算するステップを含み、第三翻字スコアが式：

で支配されている請求項３に記載の方法。
前記名前付きエンティティを得るステップが、
名前付きエンティティのフレーズの境界を得て、次に
その名前付きエンティティのカテゴリを得る、
ステップを含んでいる請求項１に記載の方法。
名前付きエンティティのポテンシャル翻訳を作成するステップが、名前付きエンティティのカテゴリに基づいて二言語資源を選択して使用するステップを含んでいる請求項５に記載の方法。
前記二言語資源を選択して使用するステップが、前記カテゴリが組織又は場所の名前を含んでいる場合、名前付きエンティティの１又は２以上の単語を、二言語辞書を使って翻訳し、名前付きエンティティの１又は２以上の単語を発音ベース及びつづりベースの翻字モデルを使って翻字し、翻訳された１又は２以上の単語を翻字された１又は２以上の単語と結合して翻訳された１又は２以上の単語と翻字された１又は２以上の単語の利用可能な順列を定義する正規表現にし、次いでその正規表現を目的言語の一言語資源に対してマッチさせるステップを含んでいる請求項６に記載の方法。
翻訳された１又は２以上の単語を翻字された１又は２以上の単語と結合するステップが、翻訳された１又は２以上の単語を翻字された１又は２以上の単語のｎ−最良翻字と結合するステップを含んでいる請求項７に記載の方法。
正規表現を一言語資源に対してマッチさせるステップが、下記式：

（式中、ｆはポテンシャル翻訳からのフレーズであり、ｅは翻訳され及び翻字された単語から与えられた単語であり、ｌはｅの長さであり、ｍはｆの長さであり、αはｅに見つけられたマッチの数に基づいた倍率であり、ａ_ｊはアラインメントａによってｆ_ｊでアラインされた目的言語の単語のインデックスであり、そして確率

は翻字スコアと翻訳スコアの線形結合であり、その翻訳スコアがｆ_ｊに対するすべての辞書の見出しについての一様確率である）によってポテンシャル翻訳に対するスコアを作成するステップを含んでいる請求項７に記載の方法。
使用頻度の情報に基づいて出力を提供するステップが、使用頻度の情報に基づいてポテンシャル翻訳の確率スコアを調節するステップを含んでいる請求項１に記載の方法。
前記の出力を提供するステップが、さらに、調節された確率スコアに基づいてポテンシャル翻訳から名前付きエンティティの翻訳を選択するステップを含んでいる請求項１０に記載の方法。
前記の出力を提供するステップが、さらに、調節された確率スコアと閾値に基づいてポテンシャル翻訳から名前付きエンティティの適当な翻訳のリストを選択するステップを含んでいる請求項１０に記載の方法。
前記使用頻度の情報が一言語資源のポテンシャル翻訳に対する正規化フルフレーズヒットカウントを含み、そして確率スコアを調節するステップがその確率スコアに前記ポテンシャル翻訳に対する正規化フルフレーズヒットカウントを掛け算するステップを含んでいる請求項１０に記載の方法。
確率スコアを調節するステップが、
名前付きエンティティを、テキスト入力の共通タイプの他の名前付きエンティティと比較し、次いで
その名前付きエンティティが前記他の名前付きエンティティの中の一つのサブフレーズである場合、一つの他の名前付きエンティティに対応する正規化フルフレーズヒットカウントに基づいて確率スコアを調節する、
ステップを含んでいる請求項１０に記載の方法。
さらにテキスト入力の文脈情報を識別するステップを含み、そして一言語資源をサーチするステップが、文脈情報に加えてポテンシャル翻訳を求めて複数の文書をサーチして使用頻度の情報を得るステップを含んでいる請求項１０に記載の方法。
一言語資源をサーチするステップが、通信ネットワークによって利用可能の複数の文書をサーチするステップを含む請求項１０に記載の方法。
複数の文書が目的言語のニュースストーリーを含む請求項１６に記載の方法。
目的言語が英語である請求項１７に記載の方法。
原始言語がアラビア語である請求項１８に記載の方法。
さらにテキスト入力の文脈情報を識別するステップを含み、そして名前付きエンティティのポテンシャル翻訳を作成するステップが、
文脈情報を含む目的言語の文書を見つけ、
その文書の名前付きエンティティを識別し、
文書の名前付きエンティティに対する翻字スコアを、テキスト入力の名前付きエンティティについて作成し、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使う確率モデルを使用し、次いで
スコアされた名前付きエンティティを前記ポテンシャル翻訳に付加する、
ステップを含んでいる請求項１に記載の方法。
名前付きエンティティのポテンシャル翻訳を作成するステップが、
目的言語のフレーズ及び対応する翻字スコアを、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使用する確率モデルで作成し、そのポテンシャル翻訳がスコアされたフレーズを含み、
作成されたフレーズのサブフレーズを識別し、
目的言語の文書を、前記サブフレーズを使って見つけ、
その見つけられた文書の、１又は２以上のサブフレーズを含む名前付きエンティティを識別し、
前記見つけられた文書の識別された名前付きエンティティに対する翻字スコアを、確率モデルを使って作成し、次いで
そのスコアされた名前付きエンティティをポテンシャル翻訳に付加する、
ステップを含んでいる請求項１に記載の方法。
１又は２以上の機械が作動する場合、
発音ベース及びつづりベースの翻字モデルを使用して名前付きエンティティの原始言語から目的言語のポテンシャル翻訳を作成し、
その目的言語の一言語資源を使用頻度に関する情報についてサーチし、次いで
その使用頻度の情報に基づいて少なくとも一つのポテンシャル翻訳を含む出力を提供する、
ステップを含む作動を行わせる命令を示す情報を有する機械可読媒体を含む物品。
名前付きエンティティのポテンシャル翻訳を作成するステップが、
第一確率モデルを利用して、目的言語の単語を作成し次にそれら単語の第一翻字スコアを言語の発音特性に基づいて作成し、
第二確率モデルを利用して、前記単語の第二翻字スコアを目的言語から原始言語への文字配列のマッピングに基づいて作成し、次いで
前記第一翻字スコアと第二翻字スコアを結合して前記単語の第三翻字スコアを作成する、
ステップを含んでいる請求項２２に記載の物品。
第一確率モデルを使用するステップが、
前記単語の少なくとも一部分をユニグラム確率Ｐ（ｗ）によって作成し、前記単語に対応する音素配列を発音確率Ｐ（ｅ｜ｗ）で作成し次いでその音素配列を変換確率Ｐ（ａ｜ｅ）で原始言語に変換するステップを含み、そして第一翻字スコアが式：

で支配されており、そして
第二確率モデルを使用するステップが、
前記単語の原始言語の文字を、文字配列マッピングを使用して確率Ｐ（ａ｜ｗ）で作成し、次に前記単語の少なくとも一部分を、文字のトリグラムモデルによって拡張確率Ｐ（ｗ）で作成するステップを含み、そして第二翻字スコアが式：

で支配されている、
請求項２３に記載の物品。
第一翻字スコアと第二翻字スコアを結合させるステップが線形結合を計算するステップを含み、第三翻字スコアが式：

で支配されている請求項２４に記載の物品。
名前付きエンティティのポテンシャル翻訳を作成するステップが、名前付きエンティティのカテゴリに基づいて二言語資源を選択して使用するステップを含んでいる請求項２２に記載の物品。
前記二言語資源を選択して使用するステップが、前記カテゴリが組織又は場所の名前を含んでいる場合、名前付きエンティティの１又は２以上の単語を、二言語辞書を使って翻訳し、名前付きエンティティの１又は２以上の単語を発音ベース及びつづりベースの翻字モデルを使って翻字し、翻訳された１又は２以上の単語を翻字された１又は２以上の単語と結合して翻訳された１又は２以上の単語と翻字された１又は２以上の単語の利用可能な順列を定義する正規表現にし、次いでその正規表現を目的言語の一言語資源に対してマッチさせるステップを含んでいる請求項２６に記載の物品。
翻訳された１又は２以上の単語を翻字された１又は２以上の単語と結合するステップが、翻訳された１又は２以上の単語を翻字された１又は２以上の単語のｎ−最良翻字と結合するステップを含んでいる請求項２７に記載の物品。
正規表現を一言語資源に対してマッチさせるステップが、下記式：

（式中、ｆはポテンシャル翻訳からのフレーズであり、ｅは翻訳され及び翻字された単語から与えられた単語であり、ｌはｅの長さであり、ｍはｆの長さであり、αはｅに見つけられたマッチの数に基づいた倍率であり、ａ_ｊはアラインメントａによってｆ_ｊでアラインされた目的言語の単語のインデックスであり、そして確率

は翻字スコアと翻訳スコアの線形結合であり、その翻訳スコアがｆ_ｊに対するすべての辞書の見出しについての一様確率である）によってポテンシャル翻訳に対するスコアを作成するステップを含んでいる請求項２７に記載の物品。
使用頻度の情報に基づいて出力を提供するステップが、使用頻度の情報に基づいてポテンシャル翻訳の確率スコアを調節するステップを含んでいる請求項２２に記載の物品。
前記の出力を提供するステップが、さらに、調節された確率スコアに基づいてポテンシャル翻訳から名前付きエンティティの翻訳を選択するステップを含んでいる請求項３０に記載の物品。
前記の出力を提供するステップが、さらに、調節された確率スコアと閾値に基づいてポテンシャル翻訳から名前付きエンティティの適当な翻訳のリストを選択するステップを含んでいる請求項３０に記載の物品。
前記使用頻度の情報が一言語資源のポテンシャル翻訳に対する正規化フルフレーズヒットカウントを含み、そして確率スコアを調節するステップがその確率スコアに前記ポテンシャル翻訳に対する正規化フルフレーズヒットカウントを掛け算するステップを含む請求項３０に記載の物品。
確率スコアを調節するステップが、
名前付きエンティティを、名前付きエンティティを含む入力の共通タイプの他の名前付きエンティティと比較し、次いで
その名前付きエンティティが前記他の名前付きエンティティの中の一つのサブフレーズである場合、一つの他の名前付きエンティティに対応する正規化フルフレーズヒットカウントに基づいて確率スコアを調節する、
ステップを含んでいる請求項３０に記載の物品。
作動がさらに、名前付きエンティティを含む入力の文脈情報を識別するステップを含み、そして一言語資源をサーチするステップが、文脈情報に加えてポテンシャル翻訳を求めて複数の文書をサーチして使用頻度の情報を得るステップを含んでいる請求項２２に記載の物品。
一言語資源をサーチするステップが、通信ネットワークによって利用可能の複数の文書をサーチするステップを含む請求項２２に記載の物品。
複数の文書が目的言語のニュースストーリーを含む請求項３６に記載の物品。
目的言語が英語である請求項３７に記載の物品。
原始言語がアラビア語である請求項３８に記載の物品。
作動がさらに、テキスト入力の文脈情報を識別するステップを含み、そして名前付きエンティティのポテンシャル翻訳を作成するステップが、
文脈情報を含む目的言語の文書を見つけ、
その文書の名前付きエンティティを識別し、
文書の名前付きエンティティに対する翻字スコアを、名前付きエンティティについて作成し、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使う確率モデルを使用し、次いで
スコアされた名前付きエンティティを前記ポテンシャル翻訳に付加する、
ステップを含んでいる請求項２２に記載の物品。
名前付きエンティティのポテンシャル翻訳を作成するステップが、
目的言語のフレーズ及び対応する翻字スコアを、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使用する確率モデルで作成し、そのポテンシャル翻訳がスコアされたフレーズを含み、
作成されたフレーズのサブフレーズを識別し、
目的言語の文書を、前記サブフレーズを使って見つけ、
その見つけられた文書の、１又は２以上のサブフレーズを含む名前付きエンティティを識別し、
前記見つけられた文書の識別された名前付きエンティティに対する翻字スコアを、確率モデルを使って作成し、次いで
そのスコアされた名前付きエンティティをポテンシャル翻訳に付加する、
ステップを含んでいる請求項２２に記載の物品。
入力／出力（Ｉ／Ｏ）システム及びそのＩ／Ｏシステムに連結されたポテンシャル翻訳ジェネレータを含んでなり、そのポテンシャル翻訳ジェネレータが、名前付きエンティティに対する翻訳候補を作成するため使用する発音ベースとつづりベースの結合翻字モデルを組み入れているシステム。
Ｉ／Ｏシステムが一言語資源へのアクセスを提供するネットワークインターフェースを有し、そのシステムがさらに、前記ネットワークインターフェースを使って一言語資源中に見つけた使用頻度の情報に基づいて翻訳候補のスコアを調節するリランカーモジュールを含んでいる請求項４２に記載のシステム。
さらに二言語資源を有し、その二言語資源を、ポテンシャル翻訳ジェネレータが名前付きエンティティのカテゴリに基づいて選択して使用する請求項４３に記載のシステム。
ポテンシャル翻訳ジェネレータが、
人のエンティティを処理するモジュール、
二言語資源にアクセスする、場所と組織のエンティティを処理するモジュール、及び
ニュースコーパスにアクセスして、前記場所と組織のエンティティを処理するモジュールが作成する翻訳候補に対するスコアを作成するリマッチャーモジュール、
を備えている請求項４４に記載のシステム.
リランカーモジュールが、異なる再スコアリング係数を適用する複数の別個の再スコアリングモジュールを組み入れている請求項４３に記載のシステム。
リランカーモジュールが、名前付きエンティティに対応する文脈情報の少なくとも一部分に基づいて、翻訳候補のスコアを調節する請求項４３に記載のシステム。
ポテンシャル翻訳ジェネレータが、名前付きエンティティに対応する文脈情報の少なくとも一部分に基づいて翻訳候補を作成する請求項４２に記載のシステム。
ポテンシャル翻訳ジェネレータが、翻訳候補の初期セットに識別されたサブフレーズの少なくとも一部分に基づいて翻訳候補を作成する請求項４２に記載のシステム。
名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳をつづりベースの翻字を利用して作成する手段、及び
生成するポテンシャル翻訳の確率スコアを、一言語資源に見つけられた使用頻度の情報に基づいて調節する手段、
を備えているシステム。
前記の作成する手段が、二言語辞書とニュースコーパスを選択して使用する手段を備えている請求項５０に記載のシステム。
前記の調節する手段が、文脈の情報及びポテンシャル翻訳の識別されたサブフレーズに基づいてポテンシャル翻訳を再ランク付けする手段を備えている請求項５１に記載のシステム。