JP2005520251A - 名前付きエンティティの翻訳 - Google Patents

名前付きエンティティの翻訳 Download PDF

Info

Publication number
JP2005520251A
JP2005520251A JP2003577155A JP2003577155A JP2005520251A JP 2005520251 A JP2005520251 A JP 2005520251A JP 2003577155 A JP2003577155 A JP 2003577155A JP 2003577155 A JP2003577155 A JP 2003577155A JP 2005520251 A JP2005520251 A JP 2005520251A
Authority
JP
Japan
Prior art keywords
named entity
language
translation
score
transliteration
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003577155A
Other languages
English (en)
Inventor
イエイザー アルーオナイザン
ケビン ナイト
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Southern California USC
Original Assignee
University of Southern California USC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Southern California USC filed Critical University of Southern California USC
Publication of JP2005520251A publication Critical patent/JP2005520251A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)

Abstract

名前付きエンティティを原始言語から目的言語に翻訳する方法(110)。一般にこの方法の一実施態様は、発音ベース及びつづりベースの翻字モデルを使用して名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳を作成し(210)、その目的言語の一言語資源を使用頻度に関する情報についてサーチし(220)、次いで使用頻度に基づいて少なくとも一つのポテンシャル翻訳を含む出力を提供する(230)ステップを含んでいる。

Description

発明の詳細な説明
関連出願の相互参照
本願は、発明の名称が「名前付きエンティティの翻訳」であって2002年3月11日付けで出願された米国仮特許願第60/363,443号の優先権の特典を主張するものである。
米国連邦政府が支援する研究に関する陳述
本願に記載されている発明は、米国国防総省国防高等研究計画庁(DARPA)の援助第N66001−00−1−8914号に基づいた研究でなされたものである。したがって米国政府は本発明に特定の権利を有するとともに契約者が所有権を保有することを選択した場合、公法96−517(35 U.S.C.202)の条項に従うものである。
発明の背景
本願には、言語の機械翻訳例えば名前付きエンティティ(named entity)の翻訳に関するシステム及び技法が記載されている。
名前付きエンティティのフレーズは、人名、組織、場所、時相のフレーズ及び通貨の表現の形態で、毎日ニュースストーリーに紹介されている。名前付きエンティティを識別する各種の技法が利用できるようになっている。
発明の概要
本願の開示内容には、名前付きエンティティの原始言語から目的言語への翻訳に関するシステムと技法が含まれている。本発明の一側面によって名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳(potential translation)は、発音ベース及びつづりベースの翻字モデルを使って作成される。目的言語の一言語資源を使用頻度に関する情報を求めてサーチすることができ、そしてポテンシャル翻訳を少なくとも一つ含む出力をその使用頻度の情報に基づいて提供できる。
二言語資源を、発音ベース及びつづりベースの翻字モデルとニュースコーパスとを組み合わせたものとともに選択して使用し、二言語資源からの入力を最小限にして名前付きエンティティの翻訳を実行できる。使用文脈の情報及び/又はポテンシャル翻訳の識別されたサブフレーズを利用して、作成される翻訳文候補のリストを拡大できる。さらに1又は2以上の一言語の手掛かり(clue)を利用して、作成した翻訳の候補を再びランク付けするのを助けることができる。本願に記載されているシステムと技法によって、名前付きエンティティを効果的に翻訳することができ、そして二言語辞書には見つけることができない新しい名前付きエンティティのフレーズ及びドメイン特異的名前付きエンティティ全体を処理できる。
本発明の1又は2以上の実施態様の詳細を、添付図面を参照して以下に説明する。本発明の他の特徴と利点は以下の説明と図面及び請求項から明らかになるであろう。
詳細な説明
用語「名前付きエンティティ」、「名前付きエンティティのフレーズ」及び「フレーズ」は、本明細書で使用する場合、相互に交換して使用できる。名前付きエンティティは、エンティティを名前によって識別する1又は2以上の単語の群を意味する。例えば名前付きエンティティとしては人、組織、場所、日付け及び通貨の表現がある。さらに、用語「電子文書」及び「文書」はファイルに記憶された電子データ及びネットワークによって受け取った電子データの両者を含む一組の電子データを意味する。電子文書は必ずしもファイルと同じでない。文書は、他の文書を保持するファイルの一部分に、問題の文書専用の単一ファイルに又は一組の統合ファイルに記憶することができる。用語「テキスト」は文字データを意味し、これは標準化文字コード化方式、例えばUnicode、ASCII、Arabic(ISO)、Turkish(ISO)、Chinese Simplified(EUC)、Korean(ISO)などを使用してコード化することができる。
図1は名前付きエンティティの翻訳を利用するシステム100を示す。システム100としては、自然言語処理(NLP)システム120、例えば統計的機械翻訳システム、Cross-Lingual Information Retrieval(CLIR)システム又はQuestion Answering(QA)システムがある。NLPシステム120は名前付きエンティティ翻訳システム110を内蔵することができる。あるいは、NLPシステム120は例えばネットワーク130を通じて名前付きエンティティ翻訳システム110と交信することができる。
名前付きエンティティ翻訳システム110は、NLPシステム120をサポートして名前付きエンティティを翻訳するツールであってもよい。機械翻訳システムは、システム110を、全翻訳文の質を改善するためにフレーズ翻訳を処理する要素として使用できる。CLIRシステムは、システム110が提供した名前付きエンティティのフレーズの翻訳に基づいて該当文書を識別できる。QAシステムは、多くの類事実の質問に対する応答は名前付きエンティティを含んでいるから(例えば「who」の質問に対する応答は通常、人/組織を含み、「where」の質問に対する応答は場所を含みそして「when」の質問に対する応答は時相の表現を含んでいる)、システム110から恩恵を受けることができる。
図2は代表的な名前付きエンティティ翻訳システム150を示す。原始言語中の名前付きエンティティがポテンシャル翻訳ジェネレータ160に提供される。
ジェネレータ160は、発音ベース翻字モデル162とつづりベース翻字モデル164を使用して、原始言語から目的言語へのポテンシャル翻訳を作成する。これを行う際に、一言語資源170(例えば通信ネットワークによって入手できる英語の文書)を使って、1又は2以上のポテンシャル翻訳のどれを出力として提供するか決定するのに役立てることができる。
さらに、二言語資源180を使って、1又は2以上のポテンシャル翻訳のどれを出力として提供するか決定するのに役立てることもできる。その二言語資源180は二言語辞書(例えばアラビア語−英語辞書)でもよい。下記の実施例を利用して本願に記載されている特定のシステムと技法で行われる一般的な翻訳方法を例示する。本願の開示内容にはアラビア語を原始言語として使い英語を目的言語として使うことが多いが、本願に開示されているシステムと技法は他の言語にも適用できる。
名前付きエンティティのフレーズのニューステキスト内での頻度は、それらフレーズが関連している事象の有意性を反映している。国際的に重要なニュースストーリーの名前付きエンティティを翻訳するとき、同じ事象が目的言語を含む多くの言語で報道されることが多い。一つの文書に、多数の未知の単語を含んでいることが多い名前付きエンティティの翻訳を提供する必要があるのと違って、人が原文書の翻訳文に似ているが必ずしもそうではない文書を見つけて翻訳文を抽出することが容易である場合がある。
この翻訳法を例示するため下記のアラビア語の抜粋文:
Figure 2005520251
に現れる名前付きエンティティを検討する。この抜粋文を抜粋したアラビア語新聞の記事は、朝鮮戦争中に死亡した米国兵士の遺体の調査に関する米国と北朝鮮の当局間の協議についての記事である。このアラビア語文書をバイリンガルスピーカーが翻訳したとき、場所
Figure 2005520251
及び
Figure 2005520251
はそれぞれChozin Reserve、Onsan及びKojanjと発音された。
人は未知の又はなじみの無い名前を翻訳するとき、同じ主題を論ずる英語の文書をサーチしてその訳語を引き出すことができる。このように上記用語を翻訳するため、人は、次の用語:「soldirs remains」、「search」、「North Korea」及び「US」を使ってWorld Wide Web(www)をサーチできる。このサーチをサーチエンジン(例えば、http://www-google-com)を使って行ったところ、最高にランク付けされた文書は次のパラグラフを含んでいた。
Figure 2005520251
これにより、サーチ用語に「Unsan」を加えることによってより正確な問合わせをつくることができた。
このサーチを行い次いで当初見つけた文書をサーチ結果から除外すると、最高にランク付けされた文書は下記の抜粋文を含んでいた。
Figure 2005520251
こうしてこの人間による翻訳法は対象の名前に対する正しい訳語を提供する。この人間による翻訳法を出発点として用いることによって、各種の機械ベース名前付きエンティティ翻訳法を提供できる。
図3は、名前付きエンティティに対するポテンシャル翻訳の機械ベース作成法を示す。名前付きエンティティは、200において、原始言語のテキスト入力から得られる。その名前付きエンティティは、識別されるか又は入力として受け入れられる。名前付きエンティティの識別は、伝統的な技法例えばDaniel M. Bikel、Richard Schwartz及びRalph M. Weischedelの論文「An Algorithm that Learns What's in a Name」、Machine Learning 34、211−231(1999)に記載されているIdentiFinder名前付きエンティティ識別子を使用して実施できる。さらに、その名前付きエンティティのフレーズの境界とカテゴリの指定を得ることができる。
名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳は、210において、発音ベースの翻字モデルとつづりベースの翻字モデルを使って作成される。このポテンシャル翻訳の作成は、(1)第一確率モデルを使って、目的言語の単語及び言語の発音特性に基づいた単語に対する第一翻字スコアを作成し、(2)第二確率モデルを使って、目的言語から原始言語への文字配列のマッピングに基づいた前記単語の第二翻字スコアを作成し、次いで(3)上記第一翻字スコアと第二翻字スコアを結合して前記単語の第三翻字スコアを作成することによって実施できる。
翻字は、原始言語の単語を、目的言語におけるそれら単語の音声又はつづりの近似均等物と取り替える工程である。類似のアルファベットと音声体系を使用する言語間の翻字は、アラビア語から英語への翻字のようにそれらの音声体系と書式体系に大きな差がある言語間の翻字より容易である。
アラビア語の母音には、長母音と短母音の2種類がある。アラビア語の短母音が新聞のテキストに書かれることは稀であるが、これは発音と意味を非常にあいまいにする。また、アラビア語の音声と英語の音声に1対1の対応は無い。例えば英語の「P」と「B」はともにアラビア語の
Figure 2005520251
にマップされ、アラビア語の
Figure 2005520251

Figure 2005520251
は英語の「H」にマップされるなどである。
アラビア語から英語に翻訳する際のこの問題に対する一方法は、発音ベースモデルを使用する方法である。Bonnie G. StallsとKevin Knightの論文「Translating names and technical terms in Arabic text」、Proceedings of the
COLING/ACL Workshop on Computational Approaches to Semitic Languages(1998)には、原始チャネルフレームワークに基づいたアラビア語−英語の逆翻字システムが提供されている。その翻字法は、英語の名前がアラビア語に翻字される方式の生成モデルに基づいている。この方法はいくつもの段階からなり、それらの段階は各々、有限の状態の機械として表現された確率モデルと定義できる。
第一に、英語の単語がそのユニグラム(unigram)確率P(w)にしたがって作成される。次にその英語の単語が確率P(e|w)で発音され、これは英語の発音辞書から直接集めることができる。最後に英語の音素の配列が、確率P(a|e)でアラビア語書式に変換される。このモデルに従って、翻字確率は下記式で支配される。
Figure 2005520251
この発音ベースモデルは音声ベースモデルと呼称すこともある。
このモデルで提案される翻字は一般に正確であるが、典型的には、作成できる英語の単語は既知の発音を有する単語である。さらに、人間の翻訳者は、単語を発音する方法ではなくて単語をつづる方法に基づいて単語を翻字することが多い。例えば「Graham」は、アラビア語に
Figure 2005520251
ではなく
Figure 2005520251
と翻字される。この問題を処理するため、発音ベースモデルに加えてつづりベースモデルを使用できる。
スペル例に基づいた確率モデルは、英語の文字配列をアラビア語の文字配列に、確率P(a|w)で直接マップすることができ、このモデルは英語の発音の必要なしで、小さい英語/アラビア語の名前リストを用いて仕込まれ得る。このリストは、発音が必要無いため、多くの言語対に対して容易に得ることができる。さらに、モデルP(w)は、拡張して単語のユニグラムモデルに加えて文字のトリグラムモデルを含めることができる。これによって、単語ユニグラムモデルでまだ定義されていない単語を作成できる。したがってこのモデルによる翻字スコアは下記式で支配される。
Figure 2005520251
上記の音声ベースモデルとつづりベースモデルを結合させて単一の翻字モデルを作成することができる。この結合モデルでは、アラビア語単語aを与えられた英語単語wの翻字スコアは、下記式で支配される音声ベースとつづりベースの翻字スコアの線形結合であってもよい。
Figure 2005520251
上記第一と第二の確率モデルに加えて、他の技法を、ポテンシャル翻訳の作成中に使用できる。ポテンシャル翻訳の作成は二原語資源を使って行うことができる。ポテンシャル翻訳の作成は複数の作成段階で行われる。例えば、第一段階で、ポテンシャル翻訳の初期セット(候補とも呼称する)を作成することができ、次にこのセットを、サーチ技法及び上記翻字技法を含む翻字技法を使って拡大できる。
220において、目的言語の一言語資源をサーチして使用頻度に関する情報を見つける。例えば一言語資源としては目的言語のニュースストーリーのような複数の文書があり、それら文書は通信ネットワークで得ることができる。これらの文書をポテンシャル翻訳についてサーチして、どのポテンシャル翻訳がより正確らしい翻訳であるか識別できる。
230において、少なくとも一つのポテンシャル翻訳を含む出力が使用頻度の情報に基づいて提供される。例えば、ポテンシャル翻訳は関連する確率スコアを有し、これらの確率スコアは前記使用頻度の情報に基づいて調節できる。次にその調節された確率スコアは前記提供された出力に影響することがある。
図4は、二言語資源を使用することによる名前付きエンティティのポテンシャル翻訳の機械ベースの作成を示す。250において、特定の名前付きエンティティのカテゴリが得られる。次に260において、その名前付きエンティティのポテンシャル翻訳を、前記カテゴリに基づいて二言語資源を選択して使うことによって作成できる。異なるタイプの名前付きエンティティを、1又は2以上の特定のカテゴリに基づいて別様に翻訳できる。
数字及び時間の表現は一般に、限定されたセットの用語範囲の単語(例えば月、曜日などの名前)を使用しそして各種の翻訳法を使って翻訳できる。人の名前は第一カテゴリであるので、第二カテゴリとして処理できる場所や組織とは別様に処理される。
名前付きエンティティが第一カテゴリに入っているときは、二言語資源を使用する必要はない。人名はほとんどいつも人間の翻訳者により翻字される。したがって、典型的な人名の翻訳候補は、先に述べた発音ベース及びつづりベースの結合モデルを使用して作成できる。有限の状態の装置は、与えられた名前の可能性があるすべての翻字を含む格子を作成できる。次に、与えられた名前のn−最良翻字を引き出すことによって、翻訳候補のリストをつくることができる。このリスト中の各候補のスコアは、式:
Figure 2005520251
で与えられるような翻字確率である。例えば名前
Figure 2005520251
は、「Bell Clinton」、「Bill Clinton」、「Bill Klington」などと翻字される。
名前付きエンティティが第二カテゴリに入っているときは、二言語資源を使用できる。組織や場所の名前の単語は、一般に人間の翻訳者によって直接翻訳されるか(例えば
Figure 2005520251
を「Reservoir」と訳す)又は翻字され(例えば
Figure 2005520251
を「Chosin」と翻字する)、一方の方法が与えられた単語に対し他方の方法よりいつ優れているのか必ずしも明らかではない。与えられたフレーズfの翻訳候補を作成するため、そのフレーズの中の単語は二言語辞書を使って翻訳することができ、さらに上記方法を使って翻字することもできる。
候補ジェネレータは、与えられたフレーズ内の各単語に対する辞書の見出し語とn−最良翻字を結合して、単語の翻訳/翻字の組み合わせのすべての可能性のある順列を受け入れる正規表現を作成することができる。単語の翻字と直接翻訳に加えて、英語のゼロ稔性単語(zero-fertility word)(すなわち名前付きエンティティのフレーズ内にアラビア語の相当語が無い単語例えば「of」や「the」)を考慮できる。次にこの正規表現を、目的言語の一言語資源例えば英語の大きなニュースコーパスなどにマッチさせることができる。
すべてのマッチはそれらの個々の単語の翻訳/翻字のスコアにしたがってスコアできる。与えられた候補のスコアeは、P. F. Brown、 S. A. Della-Pietra、V. J. Della-Pietra and R. L. Mercer、“The mathematics of statistical machine
translation:Parameter estimation”、Computational Linguistics、19(2)(1998)に記載されているモデル1確率の修正バージョンによって以下のように表すことができる。
Figure 2005520251
上記式中、lはeの長さであり、mはfの長さであり、αは見つけられたeのマッチの数に基づいた計数比であり、そしてaはアラインメントaにしたがってfでアラインされた英語の単語のインデックスである。確率
Figure 2005520251
は、翻字と翻訳のスコアの線形結合であり、その翻訳のスコアはfに対するすべての辞書の見出し語の一様確率である。
スコアされたマッチは翻訳候補のリストを形成する。例えば
Figure 2005520251
の候補リストは「Bay of Pigs」と「Gulf of Pigs」を含んでいる。
270において、目的言語の一言語資源をサーチして使用頻度に関する情報を見つける。280において、作成されたポテンシャル翻訳の確率スコアを上記使用頻度の情報に基づいて調節できる。この調節とは、ウエブなどの一言語資源内に発見された使用頻度の情報に基づいて翻訳候補を再度スコアすることである。ウエブは、複数の言語の文書を含んでいるが、270において、サーチするため一言語資源として処理される。したがってウエブはこの点について一言語資源である。
ポテンシャル翻訳の再スコアリングは、異なるタイプの使用頻度の情報に基づいて行うことができる。その使用頻度の情報は一言語資源のポテンシャル翻訳に対する正規化されたフルフレーズヒットカウント(normalized full-phrase hit count)でよく、確率スコアの調節は、確率スコアにポテンシャル翻訳の正規化フルフレーズヒットカウントを掛け算することによって行うことができる。さらに図5について以下に説明するように、1又は2種以上の追加のタイプの再スコアリングを1又は2種以上の一言語資源に対して使用できる。
再スコアリングの後、290において、1又は2以上の翻訳候補を前記調節された確率スコアに基づいて選択する。例えば、名前付きエンティティの最良の利用可能な翻訳は、前記調節された確率スコアに基づいてポテンシャル翻訳から選択できる。あるいは、名前付きエンティティの適当な翻訳のリストは、前記調節された確率スコアと閾値に基づいてポテンシャル翻訳から選択できる。これら1又は2以上の選択された翻訳はNLPシステムに対する出力として提供できる。
図5は代表的な名前付きエンティティの翻訳システムを示す。図5に示すように、その翻訳プロセスは二つの主要段階を含んでいる。原始原語の名前付きエンティティが与えられると翻訳候補のランク付けリストが、二言語資源と一言語資源を使用して作成される。次いでその候補のリストは異なる一言語の手掛かりを利用して再スコアできる。
候補ジェネレータ300は上記技法を使用して名前付きエンティティの翻訳候補を作成する。候補ジェネレータ300は、アラビア語の文書330中で識別されている名前付きエンティティを受け取る。場所又は組織として識別されている名前付きエンティティは第一モジュール310で処理され、そして人名として識別されている名前付きエンティティは第二モジュール320で処理される。モジュール310と320の両者は上記のように翻字器305を使用する。
さらにまた、第一モジュール310は、二言語辞書340を使って、単語の翻訳/翻字の組み合わせのすべての可能な順列を受け入れる正規表現を作成する。第一モジュール310は、英語のゼロ稔性単語(zero-fertility word)を正規表現に加えることもできる。次にこの正規表現を、リマッチャー(rematcher)315によって英語のニュースコーパスにマッチさせる。そのマッチは、それらの個々の単語の翻訳/翻字のスコアにしたがってスコアされる。
与えられた名前付きエンティティに対する翻訳候補のリストが候補ジェネレータによって出力される。これらの翻訳候補がさらに候補リランカー(re-ranker)370で処理された後、再度ランク付けされた翻訳候補の最終セットが出力される。このリランカー370は、ウエブ360又はある種の他の情報源をサーチして使用頻度に関する情報を見つける。次にリランカー370は、発見された使用頻度に関する情報に基づいて翻訳候補を再度スコアする。
多重タイプの使用頻度の情報及び対応する再スコアリングの技法を利用できる。翻訳候補は一般にスコアSの下記式にしたがって再度ランク付けされる。
Figure 2005520251
上記式中RF(c)は使用される再スコアリング係数である。一モジュールの再ランク付けリストが次のモジュールへの入力でありそして候補リストの大きさを限定できる多重再ランキング法を組み合わせて逐次適用できる。例えばリランカー370は異なる再スコアリング係数を適用する三つの別個の再スコアリングモジュールを含んでいてもよく、そして20のポテンシャル翻訳のリストをこれら三つの各モジュールによって順に再度ランク付けできる。
第一の可能な再スコアリング係数は正規化された直接のウエブのカウントである。
Figure 2005520251
の例の場合、トップの二つの翻訳候補は、翻字スコアが1.1×10−9の「Bell Clinton」とスコアが6.7×10−10の「Bill Clinton」である。これら二つの名前のウエブの頻度カウントはそれぞれ146及び840,844である。式6を使用すると、これらウエブのカウントはそれぞれ、1.9×10−3と6.68×10−10という修正されたスコアになり、正しい翻訳が最高にランク付けされるようになる。
名前の個々の単語ではなくてフルネームのカウントを考察すると、一般によい結果が得られる。この点を例示するため人名
Figure 2005520251
を考察する。翻字モジュール305は、ファーストネームの可能性のある翻字として「Jon」と「John」を提案し、そしてラストネームとしてとりわけ「Keele」と「Kyl」を提案している。個々の単語の正規化カウントは、(「John」、0,9269)、(「Jon」、0,0688)、(「Keele」、0,0032)及び(「Kyl」、0,0011)である。これらの正規化カウントを使って、ユニグラム言語モデルと類似の方法でファーストネーム/ラストネームの組み合わせをスコアしランク付けすると、以下の名前/スコアの対:(「John Keele」、0,003)、(「John Kyl」、0,001)、(「Jon Keele」、0,0002)及び(「Jon Kyl」、7.5×10−5)が得られる。しかし可能性があるフルネームの正規化フレーズのカウントは(「Jon Kyl」、0.8976)、(「Jhon Kyl」、0.0936)、(「Jhon Keele」、0.0087)及び(「Jon Keele」)、0.0001)であるが、これは、「Jon Kyl」が名前を挙げられることが多い米国の上院議員であるからより望ましいことである。
別の可能性がある再スコアリング係数はソース入力での相互参照(co-reference)に基づいており、この場合、確率スコアの調節は名前付きエンティティをテキスト入力中の共通タイプの他の名前付きエンティティと比較して行われ、そしてその名前付きエンティティが他の名前付きエンティティの中の一つのサブフレーズであれば確率スコアの調節は前記一つの他の名前付きエンティティに対応する正規化フルフレーズのヒットカウントに基づいて行われる。名前付きエンティティがニュース記事に始めて挙げられる時、一般にそのフレーズのフルフォーム(例えば人のフルネーム)が使用される。その名前がその後に引用されるときはその名前の短縮バージョン(例えば人のラストネーム)が使用されることが多い。
名前付きエンティティのフレーズの短縮バージョンは本来、そのフレーズのフルバージョンより不明確なので翻訳することがより困難である。また、長いフレーズは、短いフレーズよりウエブカウントが正確である傾向がある。例えば、フレーズ
Figure 2005520251
は「the
House of Representative」と翻訳される。単語
Figure 2005520251
はこのフレーズをその後に引用する場合に使用できる。
Figure 2005520251

Figure 2005520251
と同じ単語であるが定冠詞
Figure 2005520251
がついていることに留意のこと。したがって翻訳機は、不明瞭で以下のような多くのものに解釈される
Figure 2005520251
を翻訳するタスクを持っている。すなわち
Figure 2005520251
(「the
Security Council」)を意味するときは「the Council」と翻訳し、
Figure 2005520251
(「the
House of Representative」)を意味するときは「the House」と翻訳し、そして
Figure 2005520251
(「national
Assembly」)を意味するときは「the Assembly」と翻訳する。
翻訳機械は、名前付きエンティティが「the House of Representative」を意味していると決定できるならば、その名前付きエンティティを「the House」と正確に翻訳できる。これは、短縮フレーズを、同じタイプの名前付きエンティティのフレーズの残りの部分と比較することで実施できる。短縮フレーズが一つだけの他のフレーズのサブフレーズであることが分かったならば、その短縮フレーズは同じ名前付きエンティティの別の意味を示すと推量できる。その場合、長いフレーズのカウントは短いフレーズの候補を再びランク付けするのに使用できる。
別の可能性のある再スコアリング係数は、使用頻度の情報と組み合わせた文脈の情報に基づいている。文脈情報はテキスト入力中で識別することができ(例えば候補のリランカー370は入力としてのアラビア語の文書330も使える)、そして一言語資源をサーチすることによって、ポテンシャル翻訳を得るため複数の文書をサーチしかつ使用頻度の情報を得るため文脈の情報をサーチできる。
いくつかの名前付きエンティティについては、ウエブカウントは、フレーズが特定の文脈内に現れるときのみカウントされる場合、候補のより正確な再ランク付けを行うことができる。例えば
Figure 2005520251
に対する二つの最高の翻訳候補は「Donald Martin」と「Donald Marron」である。直接のウエブカウントはそれぞれ2992と2509であり、候補リストのランク付けを変えない。文脈の情報に基づいてウエブカウントをつくりだすためウエブをサーチするときは、ウエブサーチエンジンをブール演算子「AND」とともに使用できる。先に述べた例の場合、挙げられた人が「Paine Webber」の「CEO」であるという事実はこのサーチに利用できる。その結果、「Donald Martin」と「Donald Marron」それぞれに対するカウントは0と357になる。最高の候補として正しい翻訳を得るのにこれで十分である。
各種の技法を使用して、最も正確なカウントを提供する文脈の情報を自動的に見つけることができる。これら技法のいくつかは、原始文書の表題などの文書全体の文脈情報を利用するか又は原始文書に挙げられているキー用語を選択する。これらキー用語を識別する一方法は、TF/IDF(用語の頻度/逆文書(inverse document)の頻度)の尺度を使用する方法である。他の方法は、問題の名前付きエンティティ又はその名前付きエンティティに密接して挙げられた他の名前付きエンティティに先行及び/又は続くn個の単語のような、問題の名前付きエンティティに局在する文脈情報を利用する。
名前付きエンティティの翻訳システムは、上記技法に加えて各種の技法を使って、候補ジェネレータ300などのポテンシャル翻訳ジェネレータが作成する候補リストを拡張できる。候補のリストを拡張すると、前記システムをより堅牢にかつ効率的にすることができる。ポテンシャル翻訳の初期リストが作成されたならば、このリストは、正しい翻訳を作成するのではなくて正しい翻訳をサーチすることによって拡張できる。初期の候補リストから推定することによって、追加の、時にはより良好な翻訳を発見できる。
図6は、サブフレーズ識別法を利用して候補リストを拡張することを含む、名前付きエンティティのポテンシャル翻訳の機械ベース作成法を示す。400において、名前付きエンティティが原始原語のテキスト入力から得られる。410において、名前付きエンティティのポテンシャル翻訳が、言語の発音特性及び目的原語から原始原語への文字配列のマッピングを使用する確率モデルで作成される。そのポテンシャル翻訳は、上記のような対応する翻字スコアを有する目的言語中のフレーズである。
作成されたフレーズのサブフレーズが420において識別される。430において、目的言語の文書が前記サブフレーズを利用して発見される。これはウエブサーチエンジンを使用して実施できる。上記発見された文書内の、1又は2以上のサブフレーズを含む名前付きエンティティは440において識別される。例えば、IdentiFinder名前付きエンティティ識別器を使用して、各サブフレーズについて検索されたトップnの文書のすべての名前付きエンティティを見つけることができる。450において、上記発見された文書内の識別された名前付きエンティティに対する翻字スコアが確率モデルを使って作成される。
このスコアリングは、原始言語の入力の原名前付きエンティティと同じカテゴリ(例えば人のカテゴリ)の検索された目的言語の文書の識別された名前付きエンティティに限定できる。上記の同じモデルをこのスコアリングに使用できる。次にこれらのスコアされた名前付きエンティティは、460において、ポテンシャル翻訳に付加される。このように、候補リストは初期候補リストに見つけられたサブフレーズに基づいて拡張される。次にこの拡張された候補リストは、先に述べた再スコアリング工程に移る。470において、目的言語の一言語資源を、使用頻度に関する情報についてサーチする。次に480において、少なくとも一つのポテンシャル翻訳を含む出力が使用頻度の情報に基づいて提供される。
人名の場合、この技法は、最終の再スコアリング工程中に実施されるフルネームに関するサーチングを増強するため、ポテンシャル翻訳を作成中ファーストネームとラストネームを別個にサーチすることに対応している。一例示として、名前
Figure 2005520251
を考察する。翻訳モジュールは「Coffee Annan」、「Coffee Engen」、「Coffee Anton」、「Coffee Anyone」及び「Covey Annan」を提案するが、正しい翻訳「Kofi Annan」(現在の国連事務総長)を提案しない。ポテンシャル翻訳のリストは、ファーストネームとして「Coffee」もしくは「Covey」を有するか又はラストネームとして「Annan」、「Engen」、「Anton」もしくは「Anyone」を有する最も一般的な人名を見つけることによって拡張できる。
使用される一言語資源がワイルドカードを使うサーチングをサポートする場合、目的言語内の文書の発見はワイルドカードのサーチングを利用して実施できる。例えば、使用される一言語資源が英語の大きなニュースコーパスである場合、このようなサーチ能力は即座に利用できる。使用される一言語資源がワイルドカードのサーチングをサポートしない場合、これは例えば典型的なウエブサーチエンジンでは一般的なことであるが、トップnのマッチング文書を、名前:「Coffee」、「Covey」、「Annan」、「Engen」、「Anton」及び「Anyone」各々について検索できる。前記サーチに使用したファーストネーム又はラストネームのいずれかを含む検索された文書中に見つかった人名はすべて次に翻訳候補のリストに加えることができる。正しい翻訳は検索された文書中に見つかった名前の中にあるであろう、そしてもしそうであれば拡張された候補リストに適用される再スコアリング工程中にトップに上昇するであろう。この例では、「Kofi Annan」が見つけられて候補リストに加えられ続いてトップにランク付けされる。
正しい翻訳又はそのサブフレーズのいずれも翻訳候補のリスト中に見つけることができない場合を処理するため、再スコアリング工程中に実施したサーチングに関連して先に述べたような文脈の情報を使ってサーチすることによって追加のポテンシャル翻訳を作成できる。これは、原始言語から翻訳されている文書に類似している目的言語の文書をサーチすることによって実施できる。このことは、同じ事件がおそらく目的言語を含む多くの言語で間違いなく報道される国際的に重要なニュースストーリーの名前付きエンティティを翻訳するとき特に有用である。
上記推定の手順は繰り返すことができるが、この場合は原文書の表題のような文脈情報を利用して目的言語の類似文書を見つけることができる。さらに、CLIRシステムを使用して関連文書をより成功裡に見つけることができる。
図7は、文脈情報を使って候補リストを拡張することも含めて、名前付きエンティティのポテンシャル翻訳を機械ベースで作成する過程を示す。名前付きエンティティは、500において、原始言語のテキスト入力から得られる。そのテキスト入力中の先に述べたような文脈情報は、510において識別される。文脈情報を含む目的言語の文書は、520において発見される。文書中の名前付きエンティティは、530において識別される。テキスト入力中の名前付きエンティティに関する、文書中の名前付きエンティティに対する翻字スコアは、540において、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使用する確率モデルを使って作成される。
スコアされた名前付きエンティティは、550においてポテンシャル翻訳に加えられる。560において、目的言語の一言語資源が、使用頻度に関する情報についてサーチされる。次に570において、少なくとも一つのポテンシャル翻訳を含む出力が、使用頻度の情報に基づいて提供される。
図3、4、6及び7に描かれている論理流れは図示されている特定の順序を必要としない。多種類のステップの順序が可能である。さらに、ステップは続けて順に実施する必要はなく、特定の実施態様では多重タスキングと並行処理が好ましいことがある。その外の実施態様は本願の請求項の範囲内に入っている。
名前付きエンティティの翻訳を使用するシステムを示す。 代表的な名前付きエンティティの翻訳システムを示す。 名前付きエンティティのポテンシャル翻訳を機械ベースで作成するプロセスを示す。 二言語資源の使用を含む、名前付きエンティティのポテンシャル翻訳を機械ベースで作成するプロセス示す。 代表的な名前付きエンティティの翻訳システムを示す。 サブフレーズの識別を利用して候補リストを拡張することを含む、名前付きエンティティのポテンシャル翻訳を機械ベースで作成するプロセスを示す。 文脈情報を利用して候補リストを拡張することを含む、名前付きエンティティのポテンシャル翻訳を機械ベースで作成するプロセスを示す。

Claims (52)

  1. 原始言語のテキストの入力から名前付きエンティティを得て、
    発音ベース及びつづりベースの翻字モデルを使用して名前付きエンティティの原始言語から目的言語のポテンシャル翻訳を作成し、
    その目的言語の一言語資源を使用頻度に関する情報についてサーチし、次いで
    その使用頻度の情報に基づいて少なくとも一つのポテンシャル翻訳を含む出力を提供する、
    ステップを含んでなる方法。
  2. 名前付きエンティティのポテンシャル翻訳を作成するステップが、
    第一確率モデルを利用して、目的言語の単語を作成し次にそれら単語の第一翻字スコアを言語の発音特性に基づいて作成し、
    第二確率モデルを利用して、前記単語の第二翻字スコアを目的言語から原始言語への文字配列のマッピングに基づいて作成し、次いで
    前記第一翻字スコアと第二翻字スコアを結合して、前記単語の第三翻字スコアを作成する、
    ステップを含んでいる請求項1に記載の方法。
  3. 第一確率モデルを使用するステップが、
    前記単語の少なくとも一部分をユニグラム確率P(w)によって作成し、前記単語の対応する音素配列を発音確率P(e|w)で作成し次いでその音素配列を変換確率P(a|e)で原始言語に変換するステップを含み、そして第一翻字スコアが式:
    Figure 2005520251
    で支配されており、そして
    第二確率モデルを使用するステップが、
    前記単語の原始言語の文字を、文字配列マッピングを使用して確率P(a|w)で作成し、次に前記単語の少なくとも一部分を、文字のトリグラムモデルによって拡張確率P(w)で作成するステップを含み、そして第二翻字スコアが式:
    Figure 2005520251
    で支配されている、
    請求項2に記載の方法。
  4. 第一翻字スコアと第二翻字スコアを結合させるステップが線形結合を計算するステップを含み、第三翻字スコアが式:
    Figure 2005520251
    で支配されている請求項3に記載の方法。
  5. 前記名前付きエンティティを得るステップが、
    名前付きエンティティのフレーズの境界を得て、次に
    その名前付きエンティティのカテゴリを得る、
    ステップを含んでいる請求項1に記載の方法。
  6. 名前付きエンティティのポテンシャル翻訳を作成するステップが、名前付きエンティティのカテゴリに基づいて二言語資源を選択して使用するステップを含んでいる請求項5に記載の方法。
  7. 前記二言語資源を選択して使用するステップが、前記カテゴリが組織又は場所の名前を含んでいる場合、名前付きエンティティの1又は2以上の単語を、二言語辞書を使って翻訳し、名前付きエンティティの1又は2以上の単語を発音ベース及びつづりベースの翻字モデルを使って翻字し、翻訳された1又は2以上の単語を翻字された1又は2以上の単語と結合して翻訳された1又は2以上の単語と翻字された1又は2以上の単語の利用可能な順列を定義する正規表現にし、次いでその正規表現を目的言語の一言語資源に対してマッチさせるステップを含んでいる請求項6に記載の方法。
  8. 翻訳された1又は2以上の単語を翻字された1又は2以上の単語と結合するステップが、翻訳された1又は2以上の単語を翻字された1又は2以上の単語のn−最良翻字と結合するステップを含んでいる請求項7に記載の方法。
  9. 正規表現を一言語資源に対してマッチさせるステップが、下記式:
    Figure 2005520251
    (式中、fはポテンシャル翻訳からのフレーズであり、eは翻訳され及び翻字された単語から与えられた単語であり、lはeの長さであり、mはfの長さであり、αはeに見つけられたマッチの数に基づいた倍率であり、aはアラインメントaによってfでアラインされた目的言語の単語のインデックスであり、そして確率
    Figure 2005520251
    は翻字スコアと翻訳スコアの線形結合であり、その翻訳スコアがfに対するすべての辞書の見出しについての一様確率である)によってポテンシャル翻訳に対するスコアを作成するステップを含んでいる請求項7に記載の方法。
  10. 使用頻度の情報に基づいて出力を提供するステップが、使用頻度の情報に基づいてポテンシャル翻訳の確率スコアを調節するステップを含んでいる請求項1に記載の方法。
  11. 前記の出力を提供するステップが、さらに、調節された確率スコアに基づいてポテンシャル翻訳から名前付きエンティティの翻訳を選択するステップを含んでいる請求項10に記載の方法。
  12. 前記の出力を提供するステップが、さらに、調節された確率スコアと閾値に基づいてポテンシャル翻訳から名前付きエンティティの適当な翻訳のリストを選択するステップを含んでいる請求項10に記載の方法。
  13. 前記使用頻度の情報が一言語資源のポテンシャル翻訳に対する正規化フルフレーズヒットカウントを含み、そして確率スコアを調節するステップがその確率スコアに前記ポテンシャル翻訳に対する正規化フルフレーズヒットカウントを掛け算するステップを含んでいる請求項10に記載の方法。
  14. 確率スコアを調節するステップが、
    名前付きエンティティを、テキスト入力の共通タイプの他の名前付きエンティティと比較し、次いで
    その名前付きエンティティが前記他の名前付きエンティティの中の一つのサブフレーズである場合、一つの他の名前付きエンティティに対応する正規化フルフレーズヒットカウントに基づいて確率スコアを調節する、
    ステップを含んでいる請求項10に記載の方法。
  15. さらにテキスト入力の文脈情報を識別するステップを含み、そして一言語資源をサーチするステップが、文脈情報に加えてポテンシャル翻訳を求めて複数の文書をサーチして使用頻度の情報を得るステップを含んでいる請求項10に記載の方法。
  16. 一言語資源をサーチするステップが、通信ネットワークによって利用可能の複数の文書をサーチするステップを含む請求項10に記載の方法。
  17. 複数の文書が目的言語のニュースストーリーを含む請求項16に記載の方法。
  18. 目的言語が英語である請求項17に記載の方法。
  19. 原始言語がアラビア語である請求項18に記載の方法。
  20. さらにテキスト入力の文脈情報を識別するステップを含み、そして名前付きエンティティのポテンシャル翻訳を作成するステップが、
    文脈情報を含む目的言語の文書を見つけ、
    その文書の名前付きエンティティを識別し、
    文書の名前付きエンティティに対する翻字スコアを、テキスト入力の名前付きエンティティについて作成し、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使う確率モデルを使用し、次いで
    スコアされた名前付きエンティティを前記ポテンシャル翻訳に付加する、
    ステップを含んでいる請求項1に記載の方法。
  21. 名前付きエンティティのポテンシャル翻訳を作成するステップが、
    目的言語のフレーズ及び対応する翻字スコアを、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使用する確率モデルで作成し、そのポテンシャル翻訳がスコアされたフレーズを含み、
    作成されたフレーズのサブフレーズを識別し、
    目的言語の文書を、前記サブフレーズを使って見つけ、
    その見つけられた文書の、1又は2以上のサブフレーズを含む名前付きエンティティを識別し、
    前記見つけられた文書の識別された名前付きエンティティに対する翻字スコアを、確率モデルを使って作成し、次いで
    そのスコアされた名前付きエンティティをポテンシャル翻訳に付加する、
    ステップを含んでいる請求項1に記載の方法。
  22. 1又は2以上の機械が作動する場合、
    発音ベース及びつづりベースの翻字モデルを使用して名前付きエンティティの原始言語から目的言語のポテンシャル翻訳を作成し、
    その目的言語の一言語資源を使用頻度に関する情報についてサーチし、次いで
    その使用頻度の情報に基づいて少なくとも一つのポテンシャル翻訳を含む出力を提供する、
    ステップを含む作動を行わせる命令を示す情報を有する機械可読媒体を含む物品。
  23. 名前付きエンティティのポテンシャル翻訳を作成するステップが、
    第一確率モデルを利用して、目的言語の単語を作成し次にそれら単語の第一翻字スコアを言語の発音特性に基づいて作成し、
    第二確率モデルを利用して、前記単語の第二翻字スコアを目的言語から原始言語への文字配列のマッピングに基づいて作成し、次いで
    前記第一翻字スコアと第二翻字スコアを結合して前記単語の第三翻字スコアを作成する、
    ステップを含んでいる請求項22に記載の物品。
  24. 第一確率モデルを使用するステップが、
    前記単語の少なくとも一部分をユニグラム確率P(w)によって作成し、前記単語に対応する音素配列を発音確率P(e|w)で作成し次いでその音素配列を変換確率P(a|e)で原始言語に変換するステップを含み、そして第一翻字スコアが式:
    Figure 2005520251
    で支配されており、そして
    第二確率モデルを使用するステップが、
    前記単語の原始言語の文字を、文字配列マッピングを使用して確率P(a|w)で作成し、次に前記単語の少なくとも一部分を、文字のトリグラムモデルによって拡張確率P(w)で作成するステップを含み、そして第二翻字スコアが式:
    Figure 2005520251
    で支配されている、
    請求項23に記載の物品。
  25. 第一翻字スコアと第二翻字スコアを結合させるステップが線形結合を計算するステップを含み、第三翻字スコアが式:
    Figure 2005520251
    で支配されている請求項24に記載の物品。
  26. 名前付きエンティティのポテンシャル翻訳を作成するステップが、名前付きエンティティのカテゴリに基づいて二言語資源を選択して使用するステップを含んでいる請求項22に記載の物品。
  27. 前記二言語資源を選択して使用するステップが、前記カテゴリが組織又は場所の名前を含んでいる場合、名前付きエンティティの1又は2以上の単語を、二言語辞書を使って翻訳し、名前付きエンティティの1又は2以上の単語を発音ベース及びつづりベースの翻字モデルを使って翻字し、翻訳された1又は2以上の単語を翻字された1又は2以上の単語と結合して翻訳された1又は2以上の単語と翻字された1又は2以上の単語の利用可能な順列を定義する正規表現にし、次いでその正規表現を目的言語の一言語資源に対してマッチさせるステップを含んでいる請求項26に記載の物品。
  28. 翻訳された1又は2以上の単語を翻字された1又は2以上の単語と結合するステップが、翻訳された1又は2以上の単語を翻字された1又は2以上の単語のn−最良翻字と結合するステップを含んでいる請求項27に記載の物品。
  29. 正規表現を一言語資源に対してマッチさせるステップが、下記式:
    Figure 2005520251
    (式中、fはポテンシャル翻訳からのフレーズであり、eは翻訳され及び翻字された単語から与えられた単語であり、lはeの長さであり、mはfの長さであり、αはeに見つけられたマッチの数に基づいた倍率であり、aはアラインメントaによってfでアラインされた目的言語の単語のインデックスであり、そして確率
    Figure 2005520251
    は翻字スコアと翻訳スコアの線形結合であり、その翻訳スコアがfに対するすべての辞書の見出しについての一様確率である)によってポテンシャル翻訳に対するスコアを作成するステップを含んでいる請求項27に記載の物品。
  30. 使用頻度の情報に基づいて出力を提供するステップが、使用頻度の情報に基づいてポテンシャル翻訳の確率スコアを調節するステップを含んでいる請求項22に記載の物品。
  31. 前記の出力を提供するステップが、さらに、調節された確率スコアに基づいてポテンシャル翻訳から名前付きエンティティの翻訳を選択するステップを含んでいる請求項30に記載の物品。
  32. 前記の出力を提供するステップが、さらに、調節された確率スコアと閾値に基づいてポテンシャル翻訳から名前付きエンティティの適当な翻訳のリストを選択するステップを含んでいる請求項30に記載の物品。
  33. 前記使用頻度の情報が一言語資源のポテンシャル翻訳に対する正規化フルフレーズヒットカウントを含み、そして確率スコアを調節するステップがその確率スコアに前記ポテンシャル翻訳に対する正規化フルフレーズヒットカウントを掛け算するステップを含む請求項30に記載の物品。
  34. 確率スコアを調節するステップが、
    名前付きエンティティを、名前付きエンティティを含む入力の共通タイプの他の名前付きエンティティと比較し、次いで
    その名前付きエンティティが前記他の名前付きエンティティの中の一つのサブフレーズである場合、一つの他の名前付きエンティティに対応する正規化フルフレーズヒットカウントに基づいて確率スコアを調節する、
    ステップを含んでいる請求項30に記載の物品。
  35. 作動がさらに、名前付きエンティティを含む入力の文脈情報を識別するステップを含み、そして一言語資源をサーチするステップが、文脈情報に加えてポテンシャル翻訳を求めて複数の文書をサーチして使用頻度の情報を得るステップを含んでいる請求項22に記載の物品。
  36. 一言語資源をサーチするステップが、通信ネットワークによって利用可能の複数の文書をサーチするステップを含む請求項22に記載の物品。
  37. 複数の文書が目的言語のニュースストーリーを含む請求項36に記載の物品。
  38. 目的言語が英語である請求項37に記載の物品。
  39. 原始言語がアラビア語である請求項38に記載の物品。
  40. 作動がさらに、テキスト入力の文脈情報を識別するステップを含み、そして名前付きエンティティのポテンシャル翻訳を作成するステップが、
    文脈情報を含む目的言語の文書を見つけ、
    その文書の名前付きエンティティを識別し、
    文書の名前付きエンティティに対する翻字スコアを、名前付きエンティティについて作成し、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使う確率モデルを使用し、次いで
    スコアされた名前付きエンティティを前記ポテンシャル翻訳に付加する、
    ステップを含んでいる請求項22に記載の物品。
  41. 名前付きエンティティのポテンシャル翻訳を作成するステップが、
    目的言語のフレーズ及び対応する翻字スコアを、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使用する確率モデルで作成し、そのポテンシャル翻訳がスコアされたフレーズを含み、
    作成されたフレーズのサブフレーズを識別し、
    目的言語の文書を、前記サブフレーズを使って見つけ、
    その見つけられた文書の、1又は2以上のサブフレーズを含む名前付きエンティティを識別し、
    前記見つけられた文書の識別された名前付きエンティティに対する翻字スコアを、確率モデルを使って作成し、次いで
    そのスコアされた名前付きエンティティをポテンシャル翻訳に付加する、
    ステップを含んでいる請求項22に記載の物品。
  42. 入力/出力(I/O)システム及びそのI/Oシステムに連結されたポテンシャル翻訳ジェネレータを含んでなり、そのポテンシャル翻訳ジェネレータが、名前付きエンティティに対する翻訳候補を作成するため使用する発音ベースとつづりベースの結合翻字モデルを組み入れているシステム。
  43. I/Oシステムが一言語資源へのアクセスを提供するネットワークインターフェースを有し、そのシステムがさらに、前記ネットワークインターフェースを使って一言語資源中に見つけた使用頻度の情報に基づいて翻訳候補のスコアを調節するリランカーモジュールを含んでいる請求項42に記載のシステム。
  44. さらに二言語資源を有し、その二言語資源を、ポテンシャル翻訳ジェネレータが名前付きエンティティのカテゴリに基づいて選択して使用する請求項43に記載のシステム。
  45. ポテンシャル翻訳ジェネレータが、
    人のエンティティを処理するモジュール、
    二言語資源にアクセスする、場所と組織のエンティティを処理するモジュール、及び
    ニュースコーパスにアクセスして、前記場所と組織のエンティティを処理するモジュールが作成する翻訳候補に対するスコアを作成するリマッチャーモジュール、
    を備えている請求項44に記載のシステム.
  46. リランカーモジュールが、異なる再スコアリング係数を適用する複数の別個の再スコアリングモジュールを組み入れている請求項43に記載のシステム。
  47. リランカーモジュールが、名前付きエンティティに対応する文脈情報の少なくとも一部分に基づいて、翻訳候補のスコアを調節する請求項43に記載のシステム。
  48. ポテンシャル翻訳ジェネレータが、名前付きエンティティに対応する文脈情報の少なくとも一部分に基づいて翻訳候補を作成する請求項42に記載のシステム。
  49. ポテンシャル翻訳ジェネレータが、翻訳候補の初期セットに識別されたサブフレーズの少なくとも一部分に基づいて翻訳候補を作成する請求項42に記載のシステム。
  50. 名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳をつづりベースの翻字を利用して作成する手段、及び
    生成するポテンシャル翻訳の確率スコアを、一言語資源に見つけられた使用頻度の情報に基づいて調節する手段、
    を備えているシステム。
  51. 前記の作成する手段が、二言語辞書とニュースコーパスを選択して使用する手段を備えている請求項50に記載のシステム。
  52. 前記の調節する手段が、文脈の情報及びポテンシャル翻訳の識別されたサブフレーズに基づいてポテンシャル翻訳を再ランク付けする手段を備えている請求項51に記載のシステム。
JP2003577155A 2002-03-11 2003-03-11 名前付きエンティティの翻訳 Pending JP2005520251A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US36344302P 2002-03-11 2002-03-11
PCT/US2003/007512 WO2003079225A1 (en) 2002-03-11 2003-03-11 Named entity translation

Publications (1)

Publication Number Publication Date
JP2005520251A true JP2005520251A (ja) 2005-07-07

Family

ID=28041769

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003577155A Pending JP2005520251A (ja) 2002-03-11 2003-03-11 名前付きエンティティの翻訳

Country Status (7)

Country Link
US (2) US7249013B2 (ja)
EP (1) EP1483687A4 (ja)
JP (1) JP2005520251A (ja)
CN (1) CN1643511A (ja)
AU (1) AU2003218097A1 (ja)
CA (1) CA2475857C (ja)
WO (1) WO2003079225A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014099106A (ja) * 2012-11-15 2014-05-29 Zenrin Datacom Co Ltd 情報処理装置、情報処理方法、及びプログラム

Families Citing this family (174)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8812300B2 (en) 1998-03-25 2014-08-19 International Business Machines Corporation Identifying related names
US6963871B1 (en) * 1998-03-25 2005-11-08 Language Analysis Systems, Inc. System and method for adaptive multi-cultural searching and matching of personal names
US8855998B2 (en) 1998-03-25 2014-10-07 International Business Machines Corporation Parsing culturally diverse names
US20060116865A1 (en) 1999-09-17 2006-06-01 Www.Uniscape.Com E-services translation utilizing machine translation and translation memory
US7904595B2 (en) 2001-01-18 2011-03-08 Sdl International America Incorporated Globalization management system and method therefor
US8214196B2 (en) 2001-07-03 2012-07-03 University Of Southern California Syntax-based statistical translation model
US20040093322A1 (en) * 2001-08-03 2004-05-13 Bertrand Peralta Method and system for information aggregation and filtering
US7620538B2 (en) 2002-03-26 2009-11-17 University Of Southern California Constructing a translation lexicon from comparable, non-parallel corpora
JP2004280574A (ja) * 2003-03-17 2004-10-07 Internatl Business Mach Corp <Ibm> 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体
US20040243531A1 (en) * 2003-04-28 2004-12-02 Dean Michael Anthony Methods and systems for representing, using and displaying time-varying information on the Semantic Web
US8548794B2 (en) 2003-07-02 2013-10-01 University Of Southern California Statistical noun phrase translation
WO2005029370A1 (en) * 2003-09-17 2005-03-31 Language Analysis Systems, Inc. Identifying related names
US8954420B1 (en) 2003-12-31 2015-02-10 Google Inc. Methods and systems for improving a search ranking using article information
US7983896B2 (en) 2004-03-05 2011-07-19 SDL Language Technology In-context exact (ICE) matching
US8296127B2 (en) 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US20070005586A1 (en) * 2004-03-30 2007-01-04 Shaefer Leonard A Jr Parsing culturally diverse names
US8386728B1 (en) 2004-03-31 2013-02-26 Google Inc. Methods and systems for prioritizing a crawl
US8346777B1 (en) 2004-03-31 2013-01-01 Google Inc. Systems and methods for selectively storing event data
US8161053B1 (en) 2004-03-31 2012-04-17 Google Inc. Methods and systems for eliminating duplicate events
US7333976B1 (en) * 2004-03-31 2008-02-19 Google Inc. Methods and systems for processing contact information
US20050234700A1 (en) * 2004-04-15 2005-10-20 International Business Machines Corporation Autonomic method, system and program product for translating content
US8666725B2 (en) * 2004-04-16 2014-03-04 University Of Southern California Selection and use of nonstatistical translation components in a statistical machine translation framework
US20060265703A1 (en) * 2005-04-21 2006-11-23 Holt John M Computer architecture and method of operation for multi-computer distributed processing with replicated memory
US7665063B1 (en) 2004-05-26 2010-02-16 Pegasystems, Inc. Integration of declarative rule-based processing with procedural programming
US7409332B2 (en) * 2004-07-14 2008-08-05 Microsoft Corporation Method and apparatus for initializing iterative training of translation probabilities
CN102175255B (zh) * 2004-07-23 2015-09-30 德卡尔塔公司 地图对象的自动优先化
US8600728B2 (en) 2004-10-12 2013-12-03 University Of Southern California Training for a text-to-text application which uses string to tree conversion for training and decoding
US9122655B2 (en) * 2004-11-15 2015-09-01 International Business Machines Corporation Pre-translation testing of bi-directional language display
US8229737B2 (en) * 2004-11-23 2012-07-24 International Business Machines Corporation Name classifier technique
US20070005597A1 (en) * 2004-11-23 2007-01-04 Williams Charles K Name classifier algorithm
US20060112091A1 (en) * 2004-11-24 2006-05-25 Harbinger Associates, Llc Method and system for obtaining collection of variants of search query subjects
US7428491B2 (en) * 2004-12-10 2008-09-23 Microsoft Corporation Method and system for obtaining personal aliases through voice recognition
US8335704B2 (en) 2005-01-28 2012-12-18 Pegasystems Inc. Methods and apparatus for work management and routing
US7653528B2 (en) * 2005-03-08 2010-01-26 Microsoft Corporation Resource authoring incorporating ontology
US7774195B2 (en) * 2005-03-08 2010-08-10 Microsoft Corporation Method and system for creating, storing, managing and consuming culture specific data
US8219907B2 (en) * 2005-03-08 2012-07-10 Microsoft Corporation Resource authoring with re-usability score and suggested re-usable data
US7698126B2 (en) * 2005-03-08 2010-04-13 Microsoft Corporation Localization matching component
US20060206797A1 (en) * 2005-03-08 2006-09-14 Microsoft Corporation Authorizing implementing application localization rules
US9471566B1 (en) * 2005-04-14 2016-10-18 Oracle America, Inc. Method and apparatus for converting phonetic language input to written language output
US20070011132A1 (en) * 2005-06-17 2007-01-11 Microsoft Corporation Named entity translation
US8886517B2 (en) 2005-06-17 2014-11-11 Language Weaver, Inc. Trust scoring for language translation systems
US8676563B2 (en) 2009-10-01 2014-03-18 Language Weaver, Inc. Providing human-generated and machine-generated trusted translations
US20070043553A1 (en) * 2005-08-16 2007-02-22 Microsoft Corporation Machine translation models incorporating filtered training data
KR100643801B1 (ko) * 2005-10-26 2006-11-10 엔에이치엔(주) 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법
US10319252B2 (en) 2005-11-09 2019-06-11 Sdl Inc. Language capability assessment and training apparatus and techniques
CA2669236C (en) 2005-11-16 2016-05-24 Evri Inc. Extending keyword searching to syntactically and semantically annotated data
US7707204B2 (en) * 2005-12-13 2010-04-27 Microsoft Corporation Factoid-based searching
EP2527990B1 (en) * 2006-02-17 2020-01-15 Google LLC Using distributed models for machine translation
US8924335B1 (en) 2006-03-30 2014-12-30 Pegasystems Inc. Rule-based user interface conformance methods
US8943080B2 (en) 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US8886518B1 (en) 2006-08-07 2014-11-11 Language Weaver, Inc. System and method for capitalizing machine translated text
US7689408B2 (en) * 2006-09-01 2010-03-30 Microsoft Corporation Identifying language of origin for words using estimates of normalized appearance frequency
US8433556B2 (en) * 2006-11-02 2013-04-30 University Of Southern California Semi-supervised training for statistical word alignment
US9122674B1 (en) 2006-12-15 2015-09-01 Language Weaver, Inc. Use of annotations in statistical machine translation
CN101206659B (zh) * 2006-12-15 2013-09-18 谷歌股份有限公司 自动搜索查询校正
US7937261B2 (en) * 2006-12-18 2011-05-03 Movo Technology Co. Ltd. Translation on demand
US20080167876A1 (en) * 2007-01-04 2008-07-10 International Business Machines Corporation Methods and computer program products for providing paraphrasing in a text-to-speech system
US8131536B2 (en) * 2007-01-12 2012-03-06 Raytheon Bbn Technologies Corp. Extraction-empowered machine translation
US8468149B1 (en) 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US7983897B2 (en) 2007-02-14 2011-07-19 Google Inc. Machine translation feedback
US8250525B2 (en) 2007-03-02 2012-08-21 Pegasystems Inc. Proactive performance management for multi-user enterprise software systems
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
CA2717462C (en) 2007-03-14 2016-09-27 Evri Inc. Query templates and labeled search tip system, methods, and techniques
US8615389B1 (en) 2007-03-16 2013-12-24 Language Weaver, Inc. Generation and exploitation of an approximate language model
US8831928B2 (en) 2007-04-04 2014-09-09 Language Weaver, Inc. Customizable machine translation service
EG25474A (en) * 2007-05-21 2012-01-11 Sherikat Link Letatweer Elbarmaguey At Sae Method for translitering and suggesting arabic replacement for a given user input
US20080300861A1 (en) * 2007-06-04 2008-12-04 Ossama Emam Word formation method and system
US8825466B1 (en) 2007-06-08 2014-09-02 Language Weaver, Inc. Modification of annotated bilingual segment pairs in syntax-based machine translation
US9002869B2 (en) 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
US8311828B2 (en) * 2007-08-28 2012-11-13 Nexidia Inc. Keyword spotting using a phoneme-sequence index
US8229732B2 (en) 2007-08-31 2012-07-24 Google Inc. Automatic correction of user input based on dictionary
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US8103506B1 (en) * 2007-09-20 2012-01-24 United Services Automobile Association Free text matching system and method
US7890539B2 (en) * 2007-10-10 2011-02-15 Raytheon Bbn Technologies Corp. Semantic matching using predicate-argument structure
US8594996B2 (en) * 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
CA2702937C (en) 2007-10-17 2014-10-07 Neil S. Roseman Nlp-based content recommender
WO2009078256A1 (ja) * 2007-12-18 2009-06-25 Nec Corporation 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム
US7836046B2 (en) * 2008-01-21 2010-11-16 Oracle Financial Services Software Limited Method and system for facilitating verification of an entity based on business requirements
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
KR20100037813A (ko) * 2008-10-02 2010-04-12 삼성전자주식회사 통계적 자동 번역 장치 및 방법
US8560298B2 (en) * 2008-10-21 2013-10-15 Microsoft Corporation Named entity transliteration using comparable CORPRA
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
US8843435B1 (en) 2009-03-12 2014-09-23 Pegasystems Inc. Techniques for dynamic data processing
US8468492B1 (en) 2009-03-30 2013-06-18 Pegasystems, Inc. System and method for creation and modification of software applications
US8185373B1 (en) * 2009-05-05 2012-05-22 The United States Of America As Represented By The Director, National Security Agency, The Method of assessing language translation and interpretation
US8990064B2 (en) 2009-07-28 2015-03-24 Language Weaver, Inc. Translating documents based on content
US8380486B2 (en) 2009-10-01 2013-02-19 Language Weaver, Inc. Providing machine-generated translations and corresponding trust levels
US9710556B2 (en) 2010-03-01 2017-07-18 Vcvc Iii Llc Content recommendation based on collections of entities
US20110218796A1 (en) * 2010-03-05 2011-09-08 Microsoft Corporation Transliteration using indicator and hybrid generative features
US10417646B2 (en) 2010-03-09 2019-09-17 Sdl Inc. Predicting the cost associated with translating textual content
US8645125B2 (en) 2010-03-30 2014-02-04 Evri, Inc. NLP-based systems and methods for providing quotations
US8930176B2 (en) 2010-04-01 2015-01-06 Microsoft Corporation Interactive multilingual word-alignment techniques
US9268878B2 (en) * 2010-06-22 2016-02-23 Microsoft Technology Licensing, Llc Entity category extraction for an entity that is the subject of pre-labeled data
US8527270B2 (en) * 2010-07-30 2013-09-03 Sri International Method and apparatus for conducting an interactive dialogue
US9576570B2 (en) 2010-07-30 2017-02-21 Sri International Method and apparatus for adding new vocabulary to interactive translation and dialogue systems
WO2012027672A1 (en) * 2010-08-26 2012-03-01 Google Inc. Conversion of input text strings
US9405848B2 (en) 2010-09-15 2016-08-02 Vcvc Iii Llc Recommending mobile device activities
US20140379680A1 (en) * 2010-09-21 2014-12-25 Qiliang Chen Generating search query suggestions
US8725739B2 (en) 2010-11-01 2014-05-13 Evri, Inc. Category-based content recommendation
US9547626B2 (en) 2011-01-29 2017-01-17 Sdl Plc Systems, methods, and media for managing ambient adaptability of web applications and web services
US10657540B2 (en) 2011-01-29 2020-05-19 Sdl Netherlands B.V. Systems, methods, and media for web content management
US8880487B1 (en) 2011-02-18 2014-11-04 Pegasystems Inc. Systems and methods for distributed rules processing
US10580015B2 (en) 2011-02-25 2020-03-03 Sdl Netherlands B.V. Systems, methods, and media for executing and optimizing online marketing initiatives
US10140320B2 (en) 2011-02-28 2018-11-27 Sdl Inc. Systems, methods, and media for generating analytical data
US11003838B2 (en) 2011-04-18 2021-05-11 Sdl Inc. Systems and methods for monitoring post translation editing
US8694303B2 (en) 2011-06-15 2014-04-08 Language Weaver, Inc. Systems and methods for tuning parameters in statistical machine translation
US8706723B2 (en) * 2011-06-22 2014-04-22 Jostle Corporation Name-search system and method
US9984054B2 (en) 2011-08-24 2018-05-29 Sdl Inc. Web interface including the review and manipulation of a web document and utilizing permission based control
US8886515B2 (en) 2011-10-19 2014-11-11 Language Weaver, Inc. Systems and methods for enhancing machine translation post edit review processes
US8224836B1 (en) * 2011-11-02 2012-07-17 Google Inc. Searching in multiple languages
US9195936B1 (en) 2011-12-30 2015-11-24 Pegasystems Inc. System and method for updating or modifying an application without manual coding
US8942973B2 (en) 2012-03-09 2015-01-27 Language Weaver, Inc. Content page URL translation
US9773270B2 (en) 2012-05-11 2017-09-26 Fredhopper B.V. Method and system for recommending products based on a ranking cocktail
US10261994B2 (en) 2012-05-25 2019-04-16 Sdl Inc. Method and system for automatic management of reputation of translators
US20130318075A1 (en) * 2012-05-25 2013-11-28 International Business Machines Corporation Dictionary refinement for information extraction
US8918308B2 (en) 2012-07-06 2014-12-23 International Business Machines Corporation Providing multi-lingual searching of mono-lingual content
US8843453B2 (en) * 2012-09-13 2014-09-23 Sap Portals Israel Ltd Validating documents using rules sets
US10452740B2 (en) 2012-09-14 2019-10-22 Sdl Netherlands B.V. External content libraries
US11308528B2 (en) 2012-09-14 2022-04-19 Sdl Netherlands B.V. Blueprinting of multimedia assets
US11386186B2 (en) 2012-09-14 2022-07-12 Sdl Netherlands B.V. External content library connector systems and methods
US9916306B2 (en) 2012-10-19 2018-03-13 Sdl Inc. Statistical linguistic analysis of source content
US9152622B2 (en) 2012-11-26 2015-10-06 Language Weaver, Inc. Personalized machine translation via online adaptation
US9229926B2 (en) * 2012-12-03 2016-01-05 International Business Machines Corporation Determining similarity of unfielded names using feature assignments
US9600473B2 (en) 2013-02-08 2017-03-21 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9298703B2 (en) 2013-02-08 2016-03-29 Machine Zone, Inc. Systems and methods for incentivizing user feedback for translation processing
US9031829B2 (en) 2013-02-08 2015-05-12 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US9231898B2 (en) 2013-02-08 2016-01-05 Machine Zone, Inc. Systems and methods for multi-user multi-lingual communications
US8996352B2 (en) 2013-02-08 2015-03-31 Machine Zone, Inc. Systems and methods for correcting translations in multi-user multi-lingual communications
US10650103B2 (en) 2013-02-08 2020-05-12 Mz Ip Holdings, Llc Systems and methods for incentivizing user feedback for translation processing
US9185083B1 (en) * 2013-05-23 2015-11-10 The Boeing Company Concealing data within encoded audio signals
US20160132491A1 (en) * 2013-06-17 2016-05-12 National Institute Of Information And Communications Technology Bilingual phrase learning apparatus, statistical machine translation apparatus, bilingual phrase learning method, and storage medium
US9213694B2 (en) 2013-10-10 2015-12-15 Language Weaver, Inc. Efficient online domain adaptation
US10672391B2 (en) * 2014-09-26 2020-06-02 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
US10469396B2 (en) 2014-10-10 2019-11-05 Pegasystems, Inc. Event processing with enhanced throughput
US10162811B2 (en) 2014-10-17 2018-12-25 Mz Ip Holdings, Llc Systems and methods for language detection
KR102244110B1 (ko) * 2015-02-17 2021-04-26 삼성전자주식회사 이종 언어간 동일성을 판단하는 전자 장치 및 방법
US10229674B2 (en) 2015-05-15 2019-03-12 Microsoft Technology Licensing, Llc Cross-language speech recognition and translation
US10545958B2 (en) 2015-05-18 2020-01-28 Microsoft Technology Licensing, Llc Language scaling platform for natural language processing systems
US10114817B2 (en) 2015-06-01 2018-10-30 Microsoft Technology Licensing, Llc Data mining multilingual and contextual cognates from user profiles
US9519643B1 (en) 2015-06-15 2016-12-13 Microsoft Technology Licensing, Llc Machine map label translation
RU2632137C2 (ru) 2015-06-30 2017-10-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит
US10614167B2 (en) 2015-10-30 2020-04-07 Sdl Plc Translation review workflow systems and methods
US9747281B2 (en) * 2015-12-07 2017-08-29 Linkedin Corporation Generating multi-language social network user profiles by translation
US10765956B2 (en) * 2016-01-07 2020-09-08 Machine Zone Inc. Named entity recognition on chat data
JP6620934B2 (ja) * 2016-01-29 2019-12-18 パナソニックIpマネジメント株式会社 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム
US10698599B2 (en) 2016-06-03 2020-06-30 Pegasystems, Inc. Connecting graphical shapes using gestures
US10698647B2 (en) 2016-07-11 2020-06-30 Pegasystems Inc. Selective sharing for collaborative application usage
US10346548B1 (en) * 2016-09-26 2019-07-09 Lilt, Inc. Apparatus and method for prefix-constrained decoding in a neural machine translation system
US10223356B1 (en) 2016-09-28 2019-03-05 Amazon Technologies, Inc. Abstraction of syntax in localization through pre-rendering
US10229113B1 (en) 2016-09-28 2019-03-12 Amazon Technologies, Inc. Leveraging content dimensions during the translation of human-readable languages
US10275459B1 (en) 2016-09-28 2019-04-30 Amazon Technologies, Inc. Source language content scoring for localizability
US10235362B1 (en) 2016-09-28 2019-03-19 Amazon Technologies, Inc. Continuous translation refinement with automated delivery of re-translated content
US10261995B1 (en) * 2016-09-28 2019-04-16 Amazon Technologies, Inc. Semantic and natural language processing for content categorization and routing
CN108073573A (zh) * 2016-11-16 2018-05-25 北京搜狗科技发展有限公司 一种机器翻译方法、装置和机器翻译系统训练方法、装置
CN108460026B (zh) * 2017-02-22 2021-02-12 华为技术有限公司 一种翻译方法及装置
US10467346B2 (en) * 2017-05-18 2019-11-05 Wipro Limited Method and system for generating named entities
CN107608955B (zh) * 2017-08-31 2021-02-09 张国喜 一种汉藏命名实体互译方法及装置
WO2019060353A1 (en) 2017-09-21 2019-03-28 Mz Ip Holdings, Llc SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES
US10635863B2 (en) 2017-10-30 2020-04-28 Sdl Inc. Fragment recall and adaptive automated translation
CN108009160A (zh) * 2017-11-30 2018-05-08 北京金山安全软件有限公司 含有命名实体的语料翻译方法、装置、电子设备及存储介质
US10817676B2 (en) 2017-12-27 2020-10-27 Sdl Inc. Intelligent routing services and systems
US10423727B1 (en) * 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
CN108255817B (zh) * 2018-01-19 2020-06-12 中国科学院软件研究所 基于web检索的实体翻译方法
CN110489761B (zh) * 2018-05-15 2021-02-02 科大讯飞股份有限公司 一种篇章级文本翻译方法及装置
US11048488B2 (en) 2018-08-14 2021-06-29 Pegasystems, Inc. Software code optimizer and method
US11216292B2 (en) 2018-08-27 2022-01-04 Google Llc Adapting client application of feature phone based on experiment parameters
US11256867B2 (en) 2018-10-09 2022-02-22 Sdl Inc. Systems and methods of machine learning for digital assets and message creation
US11062621B2 (en) * 2018-12-26 2021-07-13 Paypal, Inc. Determining phonetic similarity using machine learning
CN111428518B (zh) * 2019-01-09 2023-11-21 科大讯飞股份有限公司 一种低频词翻译方法及装置
JP7287062B2 (ja) * 2019-03-29 2023-06-06 富士通株式会社 翻訳方法、翻訳プログラム及び学習方法
US11625535B1 (en) * 2019-12-05 2023-04-11 American Express Travel Related Services Company, Inc. Computer-based systems having data structures configured to execute SIC4/SIC8 machine learning embedded classification of entities and methods of use thereof
CN111738024B (zh) * 2020-07-29 2023-10-27 腾讯科技(深圳)有限公司 实体名词标注方法和装置、计算设备和可读存储介质
US11567945B1 (en) 2020-08-27 2023-01-31 Pegasystems Inc. Customized digital content generation systems and methods

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5212730A (en) * 1991-07-01 1993-05-18 Texas Instruments Incorporated Voice recognition of proper names using text-derived recognition models
US5477451A (en) * 1991-07-25 1995-12-19 International Business Machines Corp. Method and system for natural language translation
US5432948A (en) * 1993-04-26 1995-07-11 Taligent, Inc. Object-oriented rule-based text input transliteration system
US5819265A (en) * 1996-07-12 1998-10-06 International Business Machines Corporation Processing names in a text
US6460015B1 (en) * 1998-12-15 2002-10-01 International Business Machines Corporation Method, system and computer program product for automatic character transliteration in a text string object
US6311152B1 (en) * 1999-04-08 2001-10-30 Kent Ridge Digital Labs System for chinese tokenization and named entity recognition
US7107215B2 (en) * 2001-04-16 2006-09-12 Sakhr Software Company Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study
US6810374B2 (en) * 2001-07-23 2004-10-26 Pilwon Kang Korean romanization system

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014099106A (ja) * 2012-11-15 2014-05-29 Zenrin Datacom Co Ltd 情報処理装置、情報処理方法、及びプログラム

Also Published As

Publication number Publication date
US20080114583A1 (en) 2008-05-15
WO2003079225A1 (en) 2003-09-25
US7249013B2 (en) 2007-07-24
CN1643511A (zh) 2005-07-20
US7580830B2 (en) 2009-08-25
EP1483687A1 (en) 2004-12-08
US20030191626A1 (en) 2003-10-09
CA2475857C (en) 2008-12-23
EP1483687A4 (en) 2008-08-06
CA2475857A1 (en) 2003-09-25
AU2003218097A1 (en) 2003-09-29

Similar Documents

Publication Publication Date Title
JP2005520251A (ja) 名前付きエンティティの翻訳
Virga et al. Transliteration of proper names in cross-lingual information retrieval
Al-Onaizan et al. Translating named entities using monolingual and bilingual resources
KR100453227B1 (ko) 번역 지원 시스템에서의 유사 문장 검색 방법
Meng et al. Mandarin–English information (MEI): investigating translingual speech retrieval
US7197457B2 (en) Method for statistical language modeling in speech recognition
JP2010519655A (ja) 名前照合システムの名前インデックス付け
Rosso et al. On the voice-activated question answering
Stepanov et al. Language style and domain adaptation for cross-language SLU porting
Wu et al. Learning to find English to Chinese transliterations on the web
Al-Onaizan et al. Named entity translation
Zhou et al. Combining probability models and web mining models: a framework for proper name transliteration
Argaw et al. Dictionary-based Amharic-French information retrieval
May et al. Surprise! What's in a Cebuano or Hindi Name?
Ababneh et al. Enhanced Arabic Information Retrieval by Using Arabic Slang
Mostafavi Kashani Automatic transliteration from Arabic to English and its impact on machine translation
JP2002269085A (ja) 機械翻訳装置及び方法
Angkawattanawit et al. Thai Q-Cor: integrating word approximation and soundex for Thai query correction
Kaur et al. Review of Machine Transliteration Systems
Semmar et al. Using a stemmer in a natural language processing system to treat Arabic for cross-language information retrieval
Bedecho et al. Wolaytta-English Cross-lingual Information Retrieval using Neural Machine Translation
Sainin et al. Corpus Analysis: A Case Study on Kadazandusun Newspaper Archive
Gupta A survey of recent keywords and topic extraction systems for Indian Languages
Purwarianti et al. Indonesian-Japanese transitive translation using English for CLIR
Narasimhulu et al. Enhanced Named Entity Transliteration Model Using Machine Learning Algorithm.

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060719

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061017

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061027

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070313