JP2005520251A - 名前付きエンティティの翻訳 - Google Patents
名前付きエンティティの翻訳 Download PDFInfo
- Publication number
- JP2005520251A JP2005520251A JP2003577155A JP2003577155A JP2005520251A JP 2005520251 A JP2005520251 A JP 2005520251A JP 2003577155 A JP2003577155 A JP 2003577155A JP 2003577155 A JP2003577155 A JP 2003577155A JP 2005520251 A JP2005520251 A JP 2005520251A
- Authority
- JP
- Japan
- Prior art keywords
- named entity
- language
- translation
- score
- transliteration
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
- G06F40/129—Handling non-Latin characters, e.g. kana-to-kanji conversion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
- G06F40/295—Named entity recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/44—Statistical methods, e.g. probability models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/45—Example-based machine translation; Alignment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/42—Data-driven translation
- G06F40/49—Data-driven translation using very large corpora, e.g. the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
名前付きエンティティを原始言語から目的言語に翻訳する方法(110)。一般にこの方法の一実施態様は、発音ベース及びつづりベースの翻字モデルを使用して名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳を作成し(210)、その目的言語の一言語資源を使用頻度に関する情報についてサーチし(220)、次いで使用頻度に基づいて少なくとも一つのポテンシャル翻訳を含む出力を提供する(230)ステップを含んでいる。
Description
関連出願の相互参照
本願は、発明の名称が「名前付きエンティティの翻訳」であって2002年3月11日付けで出願された米国仮特許願第60/363,443号の優先権の特典を主張するものである。
本願は、発明の名称が「名前付きエンティティの翻訳」であって2002年3月11日付けで出願された米国仮特許願第60/363,443号の優先権の特典を主張するものである。
米国連邦政府が支援する研究に関する陳述
本願に記載されている発明は、米国国防総省国防高等研究計画庁(DARPA)の援助第N66001−00−1−8914号に基づいた研究でなされたものである。したがって米国政府は本発明に特定の権利を有するとともに契約者が所有権を保有することを選択した場合、公法96−517(35 U.S.C.202)の条項に従うものである。
本願に記載されている発明は、米国国防総省国防高等研究計画庁(DARPA)の援助第N66001−00−1−8914号に基づいた研究でなされたものである。したがって米国政府は本発明に特定の権利を有するとともに契約者が所有権を保有することを選択した場合、公法96−517(35 U.S.C.202)の条項に従うものである。
発明の背景
本願には、言語の機械翻訳例えば名前付きエンティティ(named entity)の翻訳に関するシステム及び技法が記載されている。
本願には、言語の機械翻訳例えば名前付きエンティティ(named entity)の翻訳に関するシステム及び技法が記載されている。
名前付きエンティティのフレーズは、人名、組織、場所、時相のフレーズ及び通貨の表現の形態で、毎日ニュースストーリーに紹介されている。名前付きエンティティを識別する各種の技法が利用できるようになっている。
発明の概要
本願の開示内容には、名前付きエンティティの原始言語から目的言語への翻訳に関するシステムと技法が含まれている。本発明の一側面によって名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳(potential translation)は、発音ベース及びつづりベースの翻字モデルを使って作成される。目的言語の一言語資源を使用頻度に関する情報を求めてサーチすることができ、そしてポテンシャル翻訳を少なくとも一つ含む出力をその使用頻度の情報に基づいて提供できる。
本願の開示内容には、名前付きエンティティの原始言語から目的言語への翻訳に関するシステムと技法が含まれている。本発明の一側面によって名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳(potential translation)は、発音ベース及びつづりベースの翻字モデルを使って作成される。目的言語の一言語資源を使用頻度に関する情報を求めてサーチすることができ、そしてポテンシャル翻訳を少なくとも一つ含む出力をその使用頻度の情報に基づいて提供できる。
二言語資源を、発音ベース及びつづりベースの翻字モデルとニュースコーパスとを組み合わせたものとともに選択して使用し、二言語資源からの入力を最小限にして名前付きエンティティの翻訳を実行できる。使用文脈の情報及び/又はポテンシャル翻訳の識別されたサブフレーズを利用して、作成される翻訳文候補のリストを拡大できる。さらに1又は2以上の一言語の手掛かり(clue)を利用して、作成した翻訳の候補を再びランク付けするのを助けることができる。本願に記載されているシステムと技法によって、名前付きエンティティを効果的に翻訳することができ、そして二言語辞書には見つけることができない新しい名前付きエンティティのフレーズ及びドメイン特異的名前付きエンティティ全体を処理できる。
本発明の1又は2以上の実施態様の詳細を、添付図面を参照して以下に説明する。本発明の他の特徴と利点は以下の説明と図面及び請求項から明らかになるであろう。
詳細な説明
用語「名前付きエンティティ」、「名前付きエンティティのフレーズ」及び「フレーズ」は、本明細書で使用する場合、相互に交換して使用できる。名前付きエンティティは、エンティティを名前によって識別する1又は2以上の単語の群を意味する。例えば名前付きエンティティとしては人、組織、場所、日付け及び通貨の表現がある。さらに、用語「電子文書」及び「文書」はファイルに記憶された電子データ及びネットワークによって受け取った電子データの両者を含む一組の電子データを意味する。電子文書は必ずしもファイルと同じでない。文書は、他の文書を保持するファイルの一部分に、問題の文書専用の単一ファイルに又は一組の統合ファイルに記憶することができる。用語「テキスト」は文字データを意味し、これは標準化文字コード化方式、例えばUnicode、ASCII、Arabic(ISO)、Turkish(ISO)、Chinese Simplified(EUC)、Korean(ISO)などを使用してコード化することができる。
用語「名前付きエンティティ」、「名前付きエンティティのフレーズ」及び「フレーズ」は、本明細書で使用する場合、相互に交換して使用できる。名前付きエンティティは、エンティティを名前によって識別する1又は2以上の単語の群を意味する。例えば名前付きエンティティとしては人、組織、場所、日付け及び通貨の表現がある。さらに、用語「電子文書」及び「文書」はファイルに記憶された電子データ及びネットワークによって受け取った電子データの両者を含む一組の電子データを意味する。電子文書は必ずしもファイルと同じでない。文書は、他の文書を保持するファイルの一部分に、問題の文書専用の単一ファイルに又は一組の統合ファイルに記憶することができる。用語「テキスト」は文字データを意味し、これは標準化文字コード化方式、例えばUnicode、ASCII、Arabic(ISO)、Turkish(ISO)、Chinese Simplified(EUC)、Korean(ISO)などを使用してコード化することができる。
図1は名前付きエンティティの翻訳を利用するシステム100を示す。システム100としては、自然言語処理(NLP)システム120、例えば統計的機械翻訳システム、Cross-Lingual Information Retrieval(CLIR)システム又はQuestion Answering(QA)システムがある。NLPシステム120は名前付きエンティティ翻訳システム110を内蔵することができる。あるいは、NLPシステム120は例えばネットワーク130を通じて名前付きエンティティ翻訳システム110と交信することができる。
名前付きエンティティ翻訳システム110は、NLPシステム120をサポートして名前付きエンティティを翻訳するツールであってもよい。機械翻訳システムは、システム110を、全翻訳文の質を改善するためにフレーズ翻訳を処理する要素として使用できる。CLIRシステムは、システム110が提供した名前付きエンティティのフレーズの翻訳に基づいて該当文書を識別できる。QAシステムは、多くの類事実の質問に対する応答は名前付きエンティティを含んでいるから(例えば「who」の質問に対する応答は通常、人/組織を含み、「where」の質問に対する応答は場所を含みそして「when」の質問に対する応答は時相の表現を含んでいる)、システム110から恩恵を受けることができる。
図2は代表的な名前付きエンティティ翻訳システム150を示す。原始言語中の名前付きエンティティがポテンシャル翻訳ジェネレータ160に提供される。
ジェネレータ160は、発音ベース翻字モデル162とつづりベース翻字モデル164を使用して、原始言語から目的言語へのポテンシャル翻訳を作成する。これを行う際に、一言語資源170(例えば通信ネットワークによって入手できる英語の文書)を使って、1又は2以上のポテンシャル翻訳のどれを出力として提供するか決定するのに役立てることができる。
さらに、二言語資源180を使って、1又は2以上のポテンシャル翻訳のどれを出力として提供するか決定するのに役立てることもできる。その二言語資源180は二言語辞書(例えばアラビア語−英語辞書)でもよい。下記の実施例を利用して本願に記載されている特定のシステムと技法で行われる一般的な翻訳方法を例示する。本願の開示内容にはアラビア語を原始言語として使い英語を目的言語として使うことが多いが、本願に開示されているシステムと技法は他の言語にも適用できる。
名前付きエンティティのフレーズのニューステキスト内での頻度は、それらフレーズが関連している事象の有意性を反映している。国際的に重要なニュースストーリーの名前付きエンティティを翻訳するとき、同じ事象が目的言語を含む多くの言語で報道されることが多い。一つの文書に、多数の未知の単語を含んでいることが多い名前付きエンティティの翻訳を提供する必要があるのと違って、人が原文書の翻訳文に似ているが必ずしもそうではない文書を見つけて翻訳文を抽出することが容易である場合がある。
この翻訳法を例示するため下記のアラビア語の抜粋文:
に現れる名前付きエンティティを検討する。この抜粋文を抜粋したアラビア語新聞の記事は、朝鮮戦争中に死亡した米国兵士の遺体の調査に関する米国と北朝鮮の当局間の協議についての記事である。このアラビア語文書をバイリンガルスピーカーが翻訳したとき、場所
及び
はそれぞれChozin Reserve、Onsan及びKojanjと発音された。
人は未知の又はなじみの無い名前を翻訳するとき、同じ主題を論ずる英語の文書をサーチしてその訳語を引き出すことができる。このように上記用語を翻訳するため、人は、次の用語:「soldirs remains」、「search」、「North Korea」及び「US」を使ってWorld Wide Web(www)をサーチできる。このサーチをサーチエンジン(例えば、http://www-google-com)を使って行ったところ、最高にランク付けされた文書は次のパラグラフを含んでいた。
これにより、サーチ用語に「Unsan」を加えることによってより正確な問合わせをつくることができた。
このサーチを行い次いで当初見つけた文書をサーチ結果から除外すると、最高にランク付けされた文書は下記の抜粋文を含んでいた。
こうしてこの人間による翻訳法は対象の名前に対する正しい訳語を提供する。この人間による翻訳法を出発点として用いることによって、各種の機械ベース名前付きエンティティ翻訳法を提供できる。
図3は、名前付きエンティティに対するポテンシャル翻訳の機械ベース作成法を示す。名前付きエンティティは、200において、原始言語のテキスト入力から得られる。その名前付きエンティティは、識別されるか又は入力として受け入れられる。名前付きエンティティの識別は、伝統的な技法例えばDaniel M. Bikel、Richard Schwartz及びRalph M. Weischedelの論文「An Algorithm that Learns What's in a Name」、Machine Learning 34、211−231(1999)に記載されているIdentiFinder名前付きエンティティ識別子を使用して実施できる。さらに、その名前付きエンティティのフレーズの境界とカテゴリの指定を得ることができる。
名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳は、210において、発音ベースの翻字モデルとつづりベースの翻字モデルを使って作成される。このポテンシャル翻訳の作成は、(1)第一確率モデルを使って、目的言語の単語及び言語の発音特性に基づいた単語に対する第一翻字スコアを作成し、(2)第二確率モデルを使って、目的言語から原始言語への文字配列のマッピングに基づいた前記単語の第二翻字スコアを作成し、次いで(3)上記第一翻字スコアと第二翻字スコアを結合して前記単語の第三翻字スコアを作成することによって実施できる。
翻字は、原始言語の単語を、目的言語におけるそれら単語の音声又はつづりの近似均等物と取り替える工程である。類似のアルファベットと音声体系を使用する言語間の翻字は、アラビア語から英語への翻字のようにそれらの音声体系と書式体系に大きな差がある言語間の翻字より容易である。
アラビア語の母音には、長母音と短母音の2種類がある。アラビア語の短母音が新聞のテキストに書かれることは稀であるが、これは発音と意味を非常にあいまいにする。また、アラビア語の音声と英語の音声に1対1の対応は無い。例えば英語の「P」と「B」はともにアラビア語の
にマップされ、アラビア語の
と
は英語の「H」にマップされるなどである。
アラビア語から英語に翻訳する際のこの問題に対する一方法は、発音ベースモデルを使用する方法である。Bonnie G. StallsとKevin Knightの論文「Translating names and technical terms in Arabic text」、Proceedings of the
COLING/ACL Workshop on Computational Approaches to Semitic Languages(1998)には、原始チャネルフレームワークに基づいたアラビア語−英語の逆翻字システムが提供されている。その翻字法は、英語の名前がアラビア語に翻字される方式の生成モデルに基づいている。この方法はいくつもの段階からなり、それらの段階は各々、有限の状態の機械として表現された確率モデルと定義できる。
COLING/ACL Workshop on Computational Approaches to Semitic Languages(1998)には、原始チャネルフレームワークに基づいたアラビア語−英語の逆翻字システムが提供されている。その翻字法は、英語の名前がアラビア語に翻字される方式の生成モデルに基づいている。この方法はいくつもの段階からなり、それらの段階は各々、有限の状態の機械として表現された確率モデルと定義できる。
第一に、英語の単語がそのユニグラム(unigram)確率P(w)にしたがって作成される。次にその英語の単語が確率P(e|w)で発音され、これは英語の発音辞書から直接集めることができる。最後に英語の音素の配列が、確率P(a|e)でアラビア語書式に変換される。このモデルに従って、翻字確率は下記式で支配される。
この発音ベースモデルは音声ベースモデルと呼称すこともある。
このモデルで提案される翻字は一般に正確であるが、典型的には、作成できる英語の単語は既知の発音を有する単語である。さらに、人間の翻訳者は、単語を発音する方法ではなくて単語をつづる方法に基づいて単語を翻字することが多い。例えば「Graham」は、アラビア語に
ではなく
と翻字される。この問題を処理するため、発音ベースモデルに加えてつづりベースモデルを使用できる。
スペル例に基づいた確率モデルは、英語の文字配列をアラビア語の文字配列に、確率P(a|w)で直接マップすることができ、このモデルは英語の発音の必要なしで、小さい英語/アラビア語の名前リストを用いて仕込まれ得る。このリストは、発音が必要無いため、多くの言語対に対して容易に得ることができる。さらに、モデルP(w)は、拡張して単語のユニグラムモデルに加えて文字のトリグラムモデルを含めることができる。これによって、単語ユニグラムモデルでまだ定義されていない単語を作成できる。したがってこのモデルによる翻字スコアは下記式で支配される。
上記の音声ベースモデルとつづりベースモデルを結合させて単一の翻字モデルを作成することができる。この結合モデルでは、アラビア語単語aを与えられた英語単語wの翻字スコアは、下記式で支配される音声ベースとつづりベースの翻字スコアの線形結合であってもよい。
上記第一と第二の確率モデルに加えて、他の技法を、ポテンシャル翻訳の作成中に使用できる。ポテンシャル翻訳の作成は二原語資源を使って行うことができる。ポテンシャル翻訳の作成は複数の作成段階で行われる。例えば、第一段階で、ポテンシャル翻訳の初期セット(候補とも呼称する)を作成することができ、次にこのセットを、サーチ技法及び上記翻字技法を含む翻字技法を使って拡大できる。
220において、目的言語の一言語資源をサーチして使用頻度に関する情報を見つける。例えば一言語資源としては目的言語のニュースストーリーのような複数の文書があり、それら文書は通信ネットワークで得ることができる。これらの文書をポテンシャル翻訳についてサーチして、どのポテンシャル翻訳がより正確らしい翻訳であるか識別できる。
230において、少なくとも一つのポテンシャル翻訳を含む出力が使用頻度の情報に基づいて提供される。例えば、ポテンシャル翻訳は関連する確率スコアを有し、これらの確率スコアは前記使用頻度の情報に基づいて調節できる。次にその調節された確率スコアは前記提供された出力に影響することがある。
図4は、二言語資源を使用することによる名前付きエンティティのポテンシャル翻訳の機械ベースの作成を示す。250において、特定の名前付きエンティティのカテゴリが得られる。次に260において、その名前付きエンティティのポテンシャル翻訳を、前記カテゴリに基づいて二言語資源を選択して使うことによって作成できる。異なるタイプの名前付きエンティティを、1又は2以上の特定のカテゴリに基づいて別様に翻訳できる。
数字及び時間の表現は一般に、限定されたセットの用語範囲の単語(例えば月、曜日などの名前)を使用しそして各種の翻訳法を使って翻訳できる。人の名前は第一カテゴリであるので、第二カテゴリとして処理できる場所や組織とは別様に処理される。
名前付きエンティティが第一カテゴリに入っているときは、二言語資源を使用する必要はない。人名はほとんどいつも人間の翻訳者により翻字される。したがって、典型的な人名の翻訳候補は、先に述べた発音ベース及びつづりベースの結合モデルを使用して作成できる。有限の状態の装置は、与えられた名前の可能性があるすべての翻字を含む格子を作成できる。次に、与えられた名前のn−最良翻字を引き出すことによって、翻訳候補のリストをつくることができる。このリスト中の各候補のスコアは、式:
で与えられるような翻字確率である。例えば名前
は、「Bell Clinton」、「Bill Clinton」、「Bill Klington」などと翻字される。
名前付きエンティティが第二カテゴリに入っているときは、二言語資源を使用できる。組織や場所の名前の単語は、一般に人間の翻訳者によって直接翻訳されるか(例えば
を「Reservoir」と訳す)又は翻字され(例えば
を「Chosin」と翻字する)、一方の方法が与えられた単語に対し他方の方法よりいつ優れているのか必ずしも明らかではない。与えられたフレーズfの翻訳候補を作成するため、そのフレーズの中の単語は二言語辞書を使って翻訳することができ、さらに上記方法を使って翻字することもできる。
候補ジェネレータは、与えられたフレーズ内の各単語に対する辞書の見出し語とn−最良翻字を結合して、単語の翻訳/翻字の組み合わせのすべての可能性のある順列を受け入れる正規表現を作成することができる。単語の翻字と直接翻訳に加えて、英語のゼロ稔性単語(zero-fertility word)(すなわち名前付きエンティティのフレーズ内にアラビア語の相当語が無い単語例えば「of」や「the」)を考慮できる。次にこの正規表現を、目的言語の一言語資源例えば英語の大きなニュースコーパスなどにマッチさせることができる。
すべてのマッチはそれらの個々の単語の翻訳/翻字のスコアにしたがってスコアできる。与えられた候補のスコアeは、P. F. Brown、 S. A. Della-Pietra、V. J. Della-Pietra and R. L. Mercer、“The mathematics of statistical machine
translation:Parameter estimation”、Computational Linguistics、19(2)(1998)に記載されているモデル1確率の修正バージョンによって以下のように表すことができる。
上記式中、lはeの長さであり、mはfの長さであり、αは見つけられたeのマッチの数に基づいた計数比であり、そしてajはアラインメントaにしたがってfjでアラインされた英語の単語のインデックスである。確率
は、翻字と翻訳のスコアの線形結合であり、その翻訳のスコアはfjに対するすべての辞書の見出し語の一様確率である。
translation:Parameter estimation”、Computational Linguistics、19(2)(1998)に記載されているモデル1確率の修正バージョンによって以下のように表すことができる。
270において、目的言語の一言語資源をサーチして使用頻度に関する情報を見つける。280において、作成されたポテンシャル翻訳の確率スコアを上記使用頻度の情報に基づいて調節できる。この調節とは、ウエブなどの一言語資源内に発見された使用頻度の情報に基づいて翻訳候補を再度スコアすることである。ウエブは、複数の言語の文書を含んでいるが、270において、サーチするため一言語資源として処理される。したがってウエブはこの点について一言語資源である。
ポテンシャル翻訳の再スコアリングは、異なるタイプの使用頻度の情報に基づいて行うことができる。その使用頻度の情報は一言語資源のポテンシャル翻訳に対する正規化されたフルフレーズヒットカウント(normalized full-phrase hit count)でよく、確率スコアの調節は、確率スコアにポテンシャル翻訳の正規化フルフレーズヒットカウントを掛け算することによって行うことができる。さらに図5について以下に説明するように、1又は2種以上の追加のタイプの再スコアリングを1又は2種以上の一言語資源に対して使用できる。
再スコアリングの後、290において、1又は2以上の翻訳候補を前記調節された確率スコアに基づいて選択する。例えば、名前付きエンティティの最良の利用可能な翻訳は、前記調節された確率スコアに基づいてポテンシャル翻訳から選択できる。あるいは、名前付きエンティティの適当な翻訳のリストは、前記調節された確率スコアと閾値に基づいてポテンシャル翻訳から選択できる。これら1又は2以上の選択された翻訳はNLPシステムに対する出力として提供できる。
図5は代表的な名前付きエンティティの翻訳システムを示す。図5に示すように、その翻訳プロセスは二つの主要段階を含んでいる。原始原語の名前付きエンティティが与えられると翻訳候補のランク付けリストが、二言語資源と一言語資源を使用して作成される。次いでその候補のリストは異なる一言語の手掛かりを利用して再スコアできる。
候補ジェネレータ300は上記技法を使用して名前付きエンティティの翻訳候補を作成する。候補ジェネレータ300は、アラビア語の文書330中で識別されている名前付きエンティティを受け取る。場所又は組織として識別されている名前付きエンティティは第一モジュール310で処理され、そして人名として識別されている名前付きエンティティは第二モジュール320で処理される。モジュール310と320の両者は上記のように翻字器305を使用する。
さらにまた、第一モジュール310は、二言語辞書340を使って、単語の翻訳/翻字の組み合わせのすべての可能な順列を受け入れる正規表現を作成する。第一モジュール310は、英語のゼロ稔性単語(zero-fertility word)を正規表現に加えることもできる。次にこの正規表現を、リマッチャー(rematcher)315によって英語のニュースコーパスにマッチさせる。そのマッチは、それらの個々の単語の翻訳/翻字のスコアにしたがってスコアされる。
与えられた名前付きエンティティに対する翻訳候補のリストが候補ジェネレータによって出力される。これらの翻訳候補がさらに候補リランカー(re-ranker)370で処理された後、再度ランク付けされた翻訳候補の最終セットが出力される。このリランカー370は、ウエブ360又はある種の他の情報源をサーチして使用頻度に関する情報を見つける。次にリランカー370は、発見された使用頻度に関する情報に基づいて翻訳候補を再度スコアする。
多重タイプの使用頻度の情報及び対応する再スコアリングの技法を利用できる。翻訳候補は一般にスコアSの下記式にしたがって再度ランク付けされる。
上記式中RF(c)は使用される再スコアリング係数である。一モジュールの再ランク付けリストが次のモジュールへの入力でありそして候補リストの大きさを限定できる多重再ランキング法を組み合わせて逐次適用できる。例えばリランカー370は異なる再スコアリング係数を適用する三つの別個の再スコアリングモジュールを含んでいてもよく、そして20のポテンシャル翻訳のリストをこれら三つの各モジュールによって順に再度ランク付けできる。
第一の可能な再スコアリング係数は正規化された直接のウエブのカウントである。
の例の場合、トップの二つの翻訳候補は、翻字スコアが1.1×10−9の「Bell Clinton」とスコアが6.7×10−10の「Bill Clinton」である。これら二つの名前のウエブの頻度カウントはそれぞれ146及び840,844である。式6を使用すると、これらウエブのカウントはそれぞれ、1.9×10−3と6.68×10−10という修正されたスコアになり、正しい翻訳が最高にランク付けされるようになる。
名前の個々の単語ではなくてフルネームのカウントを考察すると、一般によい結果が得られる。この点を例示するため人名
を考察する。翻字モジュール305は、ファーストネームの可能性のある翻字として「Jon」と「John」を提案し、そしてラストネームとしてとりわけ「Keele」と「Kyl」を提案している。個々の単語の正規化カウントは、(「John」、0,9269)、(「Jon」、0,0688)、(「Keele」、0,0032)及び(「Kyl」、0,0011)である。これらの正規化カウントを使って、ユニグラム言語モデルと類似の方法でファーストネーム/ラストネームの組み合わせをスコアしランク付けすると、以下の名前/スコアの対:(「John Keele」、0,003)、(「John Kyl」、0,001)、(「Jon Keele」、0,0002)及び(「Jon Kyl」、7.5×10−5)が得られる。しかし可能性があるフルネームの正規化フレーズのカウントは(「Jon Kyl」、0.8976)、(「Jhon Kyl」、0.0936)、(「Jhon Keele」、0.0087)及び(「Jon Keele」)、0.0001)であるが、これは、「Jon Kyl」が名前を挙げられることが多い米国の上院議員であるからより望ましいことである。
別の可能性がある再スコアリング係数はソース入力での相互参照(co-reference)に基づいており、この場合、確率スコアの調節は名前付きエンティティをテキスト入力中の共通タイプの他の名前付きエンティティと比較して行われ、そしてその名前付きエンティティが他の名前付きエンティティの中の一つのサブフレーズであれば確率スコアの調節は前記一つの他の名前付きエンティティに対応する正規化フルフレーズのヒットカウントに基づいて行われる。名前付きエンティティがニュース記事に始めて挙げられる時、一般にそのフレーズのフルフォーム(例えば人のフルネーム)が使用される。その名前がその後に引用されるときはその名前の短縮バージョン(例えば人のラストネーム)が使用されることが多い。
名前付きエンティティのフレーズの短縮バージョンは本来、そのフレーズのフルバージョンより不明確なので翻訳することがより困難である。また、長いフレーズは、短いフレーズよりウエブカウントが正確である傾向がある。例えば、フレーズ
は「the
House of Representative」と翻訳される。単語
はこのフレーズをその後に引用する場合に使用できる。
は
と同じ単語であるが定冠詞
がついていることに留意のこと。したがって翻訳機は、不明瞭で以下のような多くのものに解釈される
を翻訳するタスクを持っている。すなわち
(「the
Security Council」)を意味するときは「the Council」と翻訳し、
(「the
House of Representative」)を意味するときは「the House」と翻訳し、そして
(「national
Assembly」)を意味するときは「the Assembly」と翻訳する。
House of Representative」と翻訳される。単語
Security Council」)を意味するときは「the Council」と翻訳し、
House of Representative」)を意味するときは「the House」と翻訳し、そして
Assembly」)を意味するときは「the Assembly」と翻訳する。
翻訳機械は、名前付きエンティティが「the House of Representative」を意味していると決定できるならば、その名前付きエンティティを「the House」と正確に翻訳できる。これは、短縮フレーズを、同じタイプの名前付きエンティティのフレーズの残りの部分と比較することで実施できる。短縮フレーズが一つだけの他のフレーズのサブフレーズであることが分かったならば、その短縮フレーズは同じ名前付きエンティティの別の意味を示すと推量できる。その場合、長いフレーズのカウントは短いフレーズの候補を再びランク付けするのに使用できる。
別の可能性のある再スコアリング係数は、使用頻度の情報と組み合わせた文脈の情報に基づいている。文脈情報はテキスト入力中で識別することができ(例えば候補のリランカー370は入力としてのアラビア語の文書330も使える)、そして一言語資源をサーチすることによって、ポテンシャル翻訳を得るため複数の文書をサーチしかつ使用頻度の情報を得るため文脈の情報をサーチできる。
いくつかの名前付きエンティティについては、ウエブカウントは、フレーズが特定の文脈内に現れるときのみカウントされる場合、候補のより正確な再ランク付けを行うことができる。例えば
に対する二つの最高の翻訳候補は「Donald Martin」と「Donald Marron」である。直接のウエブカウントはそれぞれ2992と2509であり、候補リストのランク付けを変えない。文脈の情報に基づいてウエブカウントをつくりだすためウエブをサーチするときは、ウエブサーチエンジンをブール演算子「AND」とともに使用できる。先に述べた例の場合、挙げられた人が「Paine Webber」の「CEO」であるという事実はこのサーチに利用できる。その結果、「Donald Martin」と「Donald Marron」それぞれに対するカウントは0と357になる。最高の候補として正しい翻訳を得るのにこれで十分である。
各種の技法を使用して、最も正確なカウントを提供する文脈の情報を自動的に見つけることができる。これら技法のいくつかは、原始文書の表題などの文書全体の文脈情報を利用するか又は原始文書に挙げられているキー用語を選択する。これらキー用語を識別する一方法は、TF/IDF(用語の頻度/逆文書(inverse document)の頻度)の尺度を使用する方法である。他の方法は、問題の名前付きエンティティ又はその名前付きエンティティに密接して挙げられた他の名前付きエンティティに先行及び/又は続くn個の単語のような、問題の名前付きエンティティに局在する文脈情報を利用する。
名前付きエンティティの翻訳システムは、上記技法に加えて各種の技法を使って、候補ジェネレータ300などのポテンシャル翻訳ジェネレータが作成する候補リストを拡張できる。候補のリストを拡張すると、前記システムをより堅牢にかつ効率的にすることができる。ポテンシャル翻訳の初期リストが作成されたならば、このリストは、正しい翻訳を作成するのではなくて正しい翻訳をサーチすることによって拡張できる。初期の候補リストから推定することによって、追加の、時にはより良好な翻訳を発見できる。
図6は、サブフレーズ識別法を利用して候補リストを拡張することを含む、名前付きエンティティのポテンシャル翻訳の機械ベース作成法を示す。400において、名前付きエンティティが原始原語のテキスト入力から得られる。410において、名前付きエンティティのポテンシャル翻訳が、言語の発音特性及び目的原語から原始原語への文字配列のマッピングを使用する確率モデルで作成される。そのポテンシャル翻訳は、上記のような対応する翻字スコアを有する目的言語中のフレーズである。
作成されたフレーズのサブフレーズが420において識別される。430において、目的言語の文書が前記サブフレーズを利用して発見される。これはウエブサーチエンジンを使用して実施できる。上記発見された文書内の、1又は2以上のサブフレーズを含む名前付きエンティティは440において識別される。例えば、IdentiFinder名前付きエンティティ識別器を使用して、各サブフレーズについて検索されたトップnの文書のすべての名前付きエンティティを見つけることができる。450において、上記発見された文書内の識別された名前付きエンティティに対する翻字スコアが確率モデルを使って作成される。
このスコアリングは、原始言語の入力の原名前付きエンティティと同じカテゴリ(例えば人のカテゴリ)の検索された目的言語の文書の識別された名前付きエンティティに限定できる。上記の同じモデルをこのスコアリングに使用できる。次にこれらのスコアされた名前付きエンティティは、460において、ポテンシャル翻訳に付加される。このように、候補リストは初期候補リストに見つけられたサブフレーズに基づいて拡張される。次にこの拡張された候補リストは、先に述べた再スコアリング工程に移る。470において、目的言語の一言語資源を、使用頻度に関する情報についてサーチする。次に480において、少なくとも一つのポテンシャル翻訳を含む出力が使用頻度の情報に基づいて提供される。
人名の場合、この技法は、最終の再スコアリング工程中に実施されるフルネームに関するサーチングを増強するため、ポテンシャル翻訳を作成中ファーストネームとラストネームを別個にサーチすることに対応している。一例示として、名前
を考察する。翻訳モジュールは「Coffee Annan」、「Coffee Engen」、「Coffee Anton」、「Coffee Anyone」及び「Covey Annan」を提案するが、正しい翻訳「Kofi Annan」(現在の国連事務総長)を提案しない。ポテンシャル翻訳のリストは、ファーストネームとして「Coffee」もしくは「Covey」を有するか又はラストネームとして「Annan」、「Engen」、「Anton」もしくは「Anyone」を有する最も一般的な人名を見つけることによって拡張できる。
使用される一言語資源がワイルドカードを使うサーチングをサポートする場合、目的言語内の文書の発見はワイルドカードのサーチングを利用して実施できる。例えば、使用される一言語資源が英語の大きなニュースコーパスである場合、このようなサーチ能力は即座に利用できる。使用される一言語資源がワイルドカードのサーチングをサポートしない場合、これは例えば典型的なウエブサーチエンジンでは一般的なことであるが、トップnのマッチング文書を、名前:「Coffee」、「Covey」、「Annan」、「Engen」、「Anton」及び「Anyone」各々について検索できる。前記サーチに使用したファーストネーム又はラストネームのいずれかを含む検索された文書中に見つかった人名はすべて次に翻訳候補のリストに加えることができる。正しい翻訳は検索された文書中に見つかった名前の中にあるであろう、そしてもしそうであれば拡張された候補リストに適用される再スコアリング工程中にトップに上昇するであろう。この例では、「Kofi Annan」が見つけられて候補リストに加えられ続いてトップにランク付けされる。
正しい翻訳又はそのサブフレーズのいずれも翻訳候補のリスト中に見つけることができない場合を処理するため、再スコアリング工程中に実施したサーチングに関連して先に述べたような文脈の情報を使ってサーチすることによって追加のポテンシャル翻訳を作成できる。これは、原始言語から翻訳されている文書に類似している目的言語の文書をサーチすることによって実施できる。このことは、同じ事件がおそらく目的言語を含む多くの言語で間違いなく報道される国際的に重要なニュースストーリーの名前付きエンティティを翻訳するとき特に有用である。
上記推定の手順は繰り返すことができるが、この場合は原文書の表題のような文脈情報を利用して目的言語の類似文書を見つけることができる。さらに、CLIRシステムを使用して関連文書をより成功裡に見つけることができる。
図7は、文脈情報を使って候補リストを拡張することも含めて、名前付きエンティティのポテンシャル翻訳を機械ベースで作成する過程を示す。名前付きエンティティは、500において、原始言語のテキスト入力から得られる。そのテキスト入力中の先に述べたような文脈情報は、510において識別される。文脈情報を含む目的言語の文書は、520において発見される。文書中の名前付きエンティティは、530において識別される。テキスト入力中の名前付きエンティティに関する、文書中の名前付きエンティティに対する翻字スコアは、540において、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使用する確率モデルを使って作成される。
スコアされた名前付きエンティティは、550においてポテンシャル翻訳に加えられる。560において、目的言語の一言語資源が、使用頻度に関する情報についてサーチされる。次に570において、少なくとも一つのポテンシャル翻訳を含む出力が、使用頻度の情報に基づいて提供される。
図3、4、6及び7に描かれている論理流れは図示されている特定の順序を必要としない。多種類のステップの順序が可能である。さらに、ステップは続けて順に実施する必要はなく、特定の実施態様では多重タスキングと並行処理が好ましいことがある。その外の実施態様は本願の請求項の範囲内に入っている。
Claims (52)
- 原始言語のテキストの入力から名前付きエンティティを得て、
発音ベース及びつづりベースの翻字モデルを使用して名前付きエンティティの原始言語から目的言語のポテンシャル翻訳を作成し、
その目的言語の一言語資源を使用頻度に関する情報についてサーチし、次いで
その使用頻度の情報に基づいて少なくとも一つのポテンシャル翻訳を含む出力を提供する、
ステップを含んでなる方法。 - 名前付きエンティティのポテンシャル翻訳を作成するステップが、
第一確率モデルを利用して、目的言語の単語を作成し次にそれら単語の第一翻字スコアを言語の発音特性に基づいて作成し、
第二確率モデルを利用して、前記単語の第二翻字スコアを目的言語から原始言語への文字配列のマッピングに基づいて作成し、次いで
前記第一翻字スコアと第二翻字スコアを結合して、前記単語の第三翻字スコアを作成する、
ステップを含んでいる請求項1に記載の方法。 - 前記名前付きエンティティを得るステップが、
名前付きエンティティのフレーズの境界を得て、次に
その名前付きエンティティのカテゴリを得る、
ステップを含んでいる請求項1に記載の方法。 - 名前付きエンティティのポテンシャル翻訳を作成するステップが、名前付きエンティティのカテゴリに基づいて二言語資源を選択して使用するステップを含んでいる請求項5に記載の方法。
- 前記二言語資源を選択して使用するステップが、前記カテゴリが組織又は場所の名前を含んでいる場合、名前付きエンティティの1又は2以上の単語を、二言語辞書を使って翻訳し、名前付きエンティティの1又は2以上の単語を発音ベース及びつづりベースの翻字モデルを使って翻字し、翻訳された1又は2以上の単語を翻字された1又は2以上の単語と結合して翻訳された1又は2以上の単語と翻字された1又は2以上の単語の利用可能な順列を定義する正規表現にし、次いでその正規表現を目的言語の一言語資源に対してマッチさせるステップを含んでいる請求項6に記載の方法。
- 翻訳された1又は2以上の単語を翻字された1又は2以上の単語と結合するステップが、翻訳された1又は2以上の単語を翻字された1又は2以上の単語のn−最良翻字と結合するステップを含んでいる請求項7に記載の方法。
- 使用頻度の情報に基づいて出力を提供するステップが、使用頻度の情報に基づいてポテンシャル翻訳の確率スコアを調節するステップを含んでいる請求項1に記載の方法。
- 前記の出力を提供するステップが、さらに、調節された確率スコアに基づいてポテンシャル翻訳から名前付きエンティティの翻訳を選択するステップを含んでいる請求項10に記載の方法。
- 前記の出力を提供するステップが、さらに、調節された確率スコアと閾値に基づいてポテンシャル翻訳から名前付きエンティティの適当な翻訳のリストを選択するステップを含んでいる請求項10に記載の方法。
- 前記使用頻度の情報が一言語資源のポテンシャル翻訳に対する正規化フルフレーズヒットカウントを含み、そして確率スコアを調節するステップがその確率スコアに前記ポテンシャル翻訳に対する正規化フルフレーズヒットカウントを掛け算するステップを含んでいる請求項10に記載の方法。
- 確率スコアを調節するステップが、
名前付きエンティティを、テキスト入力の共通タイプの他の名前付きエンティティと比較し、次いで
その名前付きエンティティが前記他の名前付きエンティティの中の一つのサブフレーズである場合、一つの他の名前付きエンティティに対応する正規化フルフレーズヒットカウントに基づいて確率スコアを調節する、
ステップを含んでいる請求項10に記載の方法。 - さらにテキスト入力の文脈情報を識別するステップを含み、そして一言語資源をサーチするステップが、文脈情報に加えてポテンシャル翻訳を求めて複数の文書をサーチして使用頻度の情報を得るステップを含んでいる請求項10に記載の方法。
- 一言語資源をサーチするステップが、通信ネットワークによって利用可能の複数の文書をサーチするステップを含む請求項10に記載の方法。
- 複数の文書が目的言語のニュースストーリーを含む請求項16に記載の方法。
- 目的言語が英語である請求項17に記載の方法。
- 原始言語がアラビア語である請求項18に記載の方法。
- さらにテキスト入力の文脈情報を識別するステップを含み、そして名前付きエンティティのポテンシャル翻訳を作成するステップが、
文脈情報を含む目的言語の文書を見つけ、
その文書の名前付きエンティティを識別し、
文書の名前付きエンティティに対する翻字スコアを、テキスト入力の名前付きエンティティについて作成し、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使う確率モデルを使用し、次いで
スコアされた名前付きエンティティを前記ポテンシャル翻訳に付加する、
ステップを含んでいる請求項1に記載の方法。 - 名前付きエンティティのポテンシャル翻訳を作成するステップが、
目的言語のフレーズ及び対応する翻字スコアを、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使用する確率モデルで作成し、そのポテンシャル翻訳がスコアされたフレーズを含み、
作成されたフレーズのサブフレーズを識別し、
目的言語の文書を、前記サブフレーズを使って見つけ、
その見つけられた文書の、1又は2以上のサブフレーズを含む名前付きエンティティを識別し、
前記見つけられた文書の識別された名前付きエンティティに対する翻字スコアを、確率モデルを使って作成し、次いで
そのスコアされた名前付きエンティティをポテンシャル翻訳に付加する、
ステップを含んでいる請求項1に記載の方法。 - 1又は2以上の機械が作動する場合、
発音ベース及びつづりベースの翻字モデルを使用して名前付きエンティティの原始言語から目的言語のポテンシャル翻訳を作成し、
その目的言語の一言語資源を使用頻度に関する情報についてサーチし、次いで
その使用頻度の情報に基づいて少なくとも一つのポテンシャル翻訳を含む出力を提供する、
ステップを含む作動を行わせる命令を示す情報を有する機械可読媒体を含む物品。 - 名前付きエンティティのポテンシャル翻訳を作成するステップが、
第一確率モデルを利用して、目的言語の単語を作成し次にそれら単語の第一翻字スコアを言語の発音特性に基づいて作成し、
第二確率モデルを利用して、前記単語の第二翻字スコアを目的言語から原始言語への文字配列のマッピングに基づいて作成し、次いで
前記第一翻字スコアと第二翻字スコアを結合して前記単語の第三翻字スコアを作成する、
ステップを含んでいる請求項22に記載の物品。 - 名前付きエンティティのポテンシャル翻訳を作成するステップが、名前付きエンティティのカテゴリに基づいて二言語資源を選択して使用するステップを含んでいる請求項22に記載の物品。
- 前記二言語資源を選択して使用するステップが、前記カテゴリが組織又は場所の名前を含んでいる場合、名前付きエンティティの1又は2以上の単語を、二言語辞書を使って翻訳し、名前付きエンティティの1又は2以上の単語を発音ベース及びつづりベースの翻字モデルを使って翻字し、翻訳された1又は2以上の単語を翻字された1又は2以上の単語と結合して翻訳された1又は2以上の単語と翻字された1又は2以上の単語の利用可能な順列を定義する正規表現にし、次いでその正規表現を目的言語の一言語資源に対してマッチさせるステップを含んでいる請求項26に記載の物品。
- 翻訳された1又は2以上の単語を翻字された1又は2以上の単語と結合するステップが、翻訳された1又は2以上の単語を翻字された1又は2以上の単語のn−最良翻字と結合するステップを含んでいる請求項27に記載の物品。
- 使用頻度の情報に基づいて出力を提供するステップが、使用頻度の情報に基づいてポテンシャル翻訳の確率スコアを調節するステップを含んでいる請求項22に記載の物品。
- 前記の出力を提供するステップが、さらに、調節された確率スコアに基づいてポテンシャル翻訳から名前付きエンティティの翻訳を選択するステップを含んでいる請求項30に記載の物品。
- 前記の出力を提供するステップが、さらに、調節された確率スコアと閾値に基づいてポテンシャル翻訳から名前付きエンティティの適当な翻訳のリストを選択するステップを含んでいる請求項30に記載の物品。
- 前記使用頻度の情報が一言語資源のポテンシャル翻訳に対する正規化フルフレーズヒットカウントを含み、そして確率スコアを調節するステップがその確率スコアに前記ポテンシャル翻訳に対する正規化フルフレーズヒットカウントを掛け算するステップを含む請求項30に記載の物品。
- 確率スコアを調節するステップが、
名前付きエンティティを、名前付きエンティティを含む入力の共通タイプの他の名前付きエンティティと比較し、次いで
その名前付きエンティティが前記他の名前付きエンティティの中の一つのサブフレーズである場合、一つの他の名前付きエンティティに対応する正規化フルフレーズヒットカウントに基づいて確率スコアを調節する、
ステップを含んでいる請求項30に記載の物品。 - 作動がさらに、名前付きエンティティを含む入力の文脈情報を識別するステップを含み、そして一言語資源をサーチするステップが、文脈情報に加えてポテンシャル翻訳を求めて複数の文書をサーチして使用頻度の情報を得るステップを含んでいる請求項22に記載の物品。
- 一言語資源をサーチするステップが、通信ネットワークによって利用可能の複数の文書をサーチするステップを含む請求項22に記載の物品。
- 複数の文書が目的言語のニュースストーリーを含む請求項36に記載の物品。
- 目的言語が英語である請求項37に記載の物品。
- 原始言語がアラビア語である請求項38に記載の物品。
- 作動がさらに、テキスト入力の文脈情報を識別するステップを含み、そして名前付きエンティティのポテンシャル翻訳を作成するステップが、
文脈情報を含む目的言語の文書を見つけ、
その文書の名前付きエンティティを識別し、
文書の名前付きエンティティに対する翻字スコアを、名前付きエンティティについて作成し、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使う確率モデルを使用し、次いで
スコアされた名前付きエンティティを前記ポテンシャル翻訳に付加する、
ステップを含んでいる請求項22に記載の物品。 - 名前付きエンティティのポテンシャル翻訳を作成するステップが、
目的言語のフレーズ及び対応する翻字スコアを、言語の発音特性及び目的言語から原始言語への文字配列のマッピングを使用する確率モデルで作成し、そのポテンシャル翻訳がスコアされたフレーズを含み、
作成されたフレーズのサブフレーズを識別し、
目的言語の文書を、前記サブフレーズを使って見つけ、
その見つけられた文書の、1又は2以上のサブフレーズを含む名前付きエンティティを識別し、
前記見つけられた文書の識別された名前付きエンティティに対する翻字スコアを、確率モデルを使って作成し、次いで
そのスコアされた名前付きエンティティをポテンシャル翻訳に付加する、
ステップを含んでいる請求項22に記載の物品。 - 入力/出力(I/O)システム及びそのI/Oシステムに連結されたポテンシャル翻訳ジェネレータを含んでなり、そのポテンシャル翻訳ジェネレータが、名前付きエンティティに対する翻訳候補を作成するため使用する発音ベースとつづりベースの結合翻字モデルを組み入れているシステム。
- I/Oシステムが一言語資源へのアクセスを提供するネットワークインターフェースを有し、そのシステムがさらに、前記ネットワークインターフェースを使って一言語資源中に見つけた使用頻度の情報に基づいて翻訳候補のスコアを調節するリランカーモジュールを含んでいる請求項42に記載のシステム。
- さらに二言語資源を有し、その二言語資源を、ポテンシャル翻訳ジェネレータが名前付きエンティティのカテゴリに基づいて選択して使用する請求項43に記載のシステム。
- ポテンシャル翻訳ジェネレータが、
人のエンティティを処理するモジュール、
二言語資源にアクセスする、場所と組織のエンティティを処理するモジュール、及び
ニュースコーパスにアクセスして、前記場所と組織のエンティティを処理するモジュールが作成する翻訳候補に対するスコアを作成するリマッチャーモジュール、
を備えている請求項44に記載のシステム. - リランカーモジュールが、異なる再スコアリング係数を適用する複数の別個の再スコアリングモジュールを組み入れている請求項43に記載のシステム。
- リランカーモジュールが、名前付きエンティティに対応する文脈情報の少なくとも一部分に基づいて、翻訳候補のスコアを調節する請求項43に記載のシステム。
- ポテンシャル翻訳ジェネレータが、名前付きエンティティに対応する文脈情報の少なくとも一部分に基づいて翻訳候補を作成する請求項42に記載のシステム。
- ポテンシャル翻訳ジェネレータが、翻訳候補の初期セットに識別されたサブフレーズの少なくとも一部分に基づいて翻訳候補を作成する請求項42に記載のシステム。
- 名前付きエンティティの原始言語から目的言語へのポテンシャル翻訳をつづりベースの翻字を利用して作成する手段、及び
生成するポテンシャル翻訳の確率スコアを、一言語資源に見つけられた使用頻度の情報に基づいて調節する手段、
を備えているシステム。 - 前記の作成する手段が、二言語辞書とニュースコーパスを選択して使用する手段を備えている請求項50に記載のシステム。
- 前記の調節する手段が、文脈の情報及びポテンシャル翻訳の識別されたサブフレーズに基づいてポテンシャル翻訳を再ランク付けする手段を備えている請求項51に記載のシステム。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US36344302P | 2002-03-11 | 2002-03-11 | |
PCT/US2003/007512 WO2003079225A1 (en) | 2002-03-11 | 2003-03-11 | Named entity translation |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2005520251A true JP2005520251A (ja) | 2005-07-07 |
Family
ID=28041769
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2003577155A Pending JP2005520251A (ja) | 2002-03-11 | 2003-03-11 | 名前付きエンティティの翻訳 |
Country Status (7)
Country | Link |
---|---|
US (2) | US7249013B2 (ja) |
EP (1) | EP1483687A4 (ja) |
JP (1) | JP2005520251A (ja) |
CN (1) | CN1643511A (ja) |
AU (1) | AU2003218097A1 (ja) |
CA (1) | CA2475857C (ja) |
WO (1) | WO2003079225A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014099106A (ja) * | 2012-11-15 | 2014-05-29 | Zenrin Datacom Co Ltd | 情報処理装置、情報処理方法、及びプログラム |
Families Citing this family (174)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812300B2 (en) | 1998-03-25 | 2014-08-19 | International Business Machines Corporation | Identifying related names |
US6963871B1 (en) * | 1998-03-25 | 2005-11-08 | Language Analysis Systems, Inc. | System and method for adaptive multi-cultural searching and matching of personal names |
US8855998B2 (en) | 1998-03-25 | 2014-10-07 | International Business Machines Corporation | Parsing culturally diverse names |
US20060116865A1 (en) | 1999-09-17 | 2006-06-01 | Www.Uniscape.Com | E-services translation utilizing machine translation and translation memory |
US7904595B2 (en) | 2001-01-18 | 2011-03-08 | Sdl International America Incorporated | Globalization management system and method therefor |
US8214196B2 (en) | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
US20040093322A1 (en) * | 2001-08-03 | 2004-05-13 | Bertrand Peralta | Method and system for information aggregation and filtering |
US7620538B2 (en) | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
JP2004280574A (ja) * | 2003-03-17 | 2004-10-07 | Internatl Business Mach Corp <Ibm> | 翻訳システム、辞書更新サーバ、翻訳方法、及び、これらのプログラムと記録媒体 |
US20040243531A1 (en) * | 2003-04-28 | 2004-12-02 | Dean Michael Anthony | Methods and systems for representing, using and displaying time-varying information on the Semantic Web |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
WO2005029370A1 (en) * | 2003-09-17 | 2005-03-31 | Language Analysis Systems, Inc. | Identifying related names |
US8954420B1 (en) | 2003-12-31 | 2015-02-10 | Google Inc. | Methods and systems for improving a search ranking using article information |
US7983896B2 (en) | 2004-03-05 | 2011-07-19 | SDL Language Technology | In-context exact (ICE) matching |
US8296127B2 (en) | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US20050216253A1 (en) * | 2004-03-25 | 2005-09-29 | Microsoft Corporation | System and method for reverse transliteration using statistical alignment |
US20070005586A1 (en) * | 2004-03-30 | 2007-01-04 | Shaefer Leonard A Jr | Parsing culturally diverse names |
US8386728B1 (en) | 2004-03-31 | 2013-02-26 | Google Inc. | Methods and systems for prioritizing a crawl |
US8346777B1 (en) | 2004-03-31 | 2013-01-01 | Google Inc. | Systems and methods for selectively storing event data |
US8161053B1 (en) | 2004-03-31 | 2012-04-17 | Google Inc. | Methods and systems for eliminating duplicate events |
US7333976B1 (en) * | 2004-03-31 | 2008-02-19 | Google Inc. | Methods and systems for processing contact information |
US20050234700A1 (en) * | 2004-04-15 | 2005-10-20 | International Business Machines Corporation | Autonomic method, system and program product for translating content |
US8666725B2 (en) * | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
US20060265703A1 (en) * | 2005-04-21 | 2006-11-23 | Holt John M | Computer architecture and method of operation for multi-computer distributed processing with replicated memory |
US7665063B1 (en) | 2004-05-26 | 2010-02-16 | Pegasystems, Inc. | Integration of declarative rule-based processing with procedural programming |
US7409332B2 (en) * | 2004-07-14 | 2008-08-05 | Microsoft Corporation | Method and apparatus for initializing iterative training of translation probabilities |
CN102175255B (zh) * | 2004-07-23 | 2015-09-30 | 德卡尔塔公司 | 地图对象的自动优先化 |
US8600728B2 (en) | 2004-10-12 | 2013-12-03 | University Of Southern California | Training for a text-to-text application which uses string to tree conversion for training and decoding |
US9122655B2 (en) * | 2004-11-15 | 2015-09-01 | International Business Machines Corporation | Pre-translation testing of bi-directional language display |
US8229737B2 (en) * | 2004-11-23 | 2012-07-24 | International Business Machines Corporation | Name classifier technique |
US20070005597A1 (en) * | 2004-11-23 | 2007-01-04 | Williams Charles K | Name classifier algorithm |
US20060112091A1 (en) * | 2004-11-24 | 2006-05-25 | Harbinger Associates, Llc | Method and system for obtaining collection of variants of search query subjects |
US7428491B2 (en) * | 2004-12-10 | 2008-09-23 | Microsoft Corporation | Method and system for obtaining personal aliases through voice recognition |
US8335704B2 (en) | 2005-01-28 | 2012-12-18 | Pegasystems Inc. | Methods and apparatus for work management and routing |
US7653528B2 (en) * | 2005-03-08 | 2010-01-26 | Microsoft Corporation | Resource authoring incorporating ontology |
US7774195B2 (en) * | 2005-03-08 | 2010-08-10 | Microsoft Corporation | Method and system for creating, storing, managing and consuming culture specific data |
US8219907B2 (en) * | 2005-03-08 | 2012-07-10 | Microsoft Corporation | Resource authoring with re-usability score and suggested re-usable data |
US7698126B2 (en) * | 2005-03-08 | 2010-04-13 | Microsoft Corporation | Localization matching component |
US20060206797A1 (en) * | 2005-03-08 | 2006-09-14 | Microsoft Corporation | Authorizing implementing application localization rules |
US9471566B1 (en) * | 2005-04-14 | 2016-10-18 | Oracle America, Inc. | Method and apparatus for converting phonetic language input to written language output |
US20070011132A1 (en) * | 2005-06-17 | 2007-01-11 | Microsoft Corporation | Named entity translation |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US20070043553A1 (en) * | 2005-08-16 | 2007-02-22 | Microsoft Corporation | Machine translation models incorporating filtered training data |
KR100643801B1 (ko) * | 2005-10-26 | 2006-11-10 | 엔에이치엔(주) | 복수의 언어를 연동하는 자동완성 추천어 제공 시스템 및방법 |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
CA2669236C (en) | 2005-11-16 | 2016-05-24 | Evri Inc. | Extending keyword searching to syntactically and semantically annotated data |
US7707204B2 (en) * | 2005-12-13 | 2010-04-27 | Microsoft Corporation | Factoid-based searching |
EP2527990B1 (en) * | 2006-02-17 | 2020-01-15 | Google LLC | Using distributed models for machine translation |
US8924335B1 (en) | 2006-03-30 | 2014-12-30 | Pegasystems Inc. | Rule-based user interface conformance methods |
US8943080B2 (en) | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US7689408B2 (en) * | 2006-09-01 | 2010-03-30 | Microsoft Corporation | Identifying language of origin for words using estimates of normalized appearance frequency |
US8433556B2 (en) * | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
CN101206659B (zh) * | 2006-12-15 | 2013-09-18 | 谷歌股份有限公司 | 自动搜索查询校正 |
US7937261B2 (en) * | 2006-12-18 | 2011-05-03 | Movo Technology Co. Ltd. | Translation on demand |
US20080167876A1 (en) * | 2007-01-04 | 2008-07-10 | International Business Machines Corporation | Methods and computer program products for providing paraphrasing in a text-to-speech system |
US8131536B2 (en) * | 2007-01-12 | 2012-03-06 | Raytheon Bbn Technologies Corp. | Extraction-empowered machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US7983897B2 (en) | 2007-02-14 | 2011-07-19 | Google Inc. | Machine translation feedback |
US8250525B2 (en) | 2007-03-02 | 2012-08-21 | Pegasystems Inc. | Proactive performance management for multi-user enterprise software systems |
US20080221866A1 (en) * | 2007-03-06 | 2008-09-11 | Lalitesh Katragadda | Machine Learning For Transliteration |
CA2717462C (en) | 2007-03-14 | 2016-09-27 | Evri Inc. | Query templates and labeled search tip system, methods, and techniques |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
EG25474A (en) * | 2007-05-21 | 2012-01-11 | Sherikat Link Letatweer Elbarmaguey At Sae | Method for translitering and suggesting arabic replacement for a given user input |
US20080300861A1 (en) * | 2007-06-04 | 2008-12-04 | Ossama Emam | Word formation method and system |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US9002869B2 (en) | 2007-06-22 | 2015-04-07 | Google Inc. | Machine translation for query expansion |
US8311828B2 (en) * | 2007-08-28 | 2012-11-13 | Nexidia Inc. | Keyword spotting using a phoneme-sequence index |
US8229732B2 (en) | 2007-08-31 | 2012-07-24 | Google Inc. | Automatic correction of user input based on dictionary |
US7983903B2 (en) * | 2007-09-07 | 2011-07-19 | Microsoft Corporation | Mining bilingual dictionaries from monolingual web pages |
US8103506B1 (en) * | 2007-09-20 | 2012-01-24 | United Services Automobile Association | Free text matching system and method |
US7890539B2 (en) * | 2007-10-10 | 2011-02-15 | Raytheon Bbn Technologies Corp. | Semantic matching using predicate-argument structure |
US8594996B2 (en) * | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
CA2702937C (en) | 2007-10-17 | 2014-10-07 | Neil S. Roseman | Nlp-based content recommender |
WO2009078256A1 (ja) * | 2007-12-18 | 2009-06-25 | Nec Corporation | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム |
US7836046B2 (en) * | 2008-01-21 | 2010-11-16 | Oracle Financial Services Software Limited | Method and system for facilitating verification of an entity based on business requirements |
US20100082324A1 (en) * | 2008-09-30 | 2010-04-01 | Microsoft Corporation | Replacing terms in machine translation |
KR20100037813A (ko) * | 2008-10-02 | 2010-04-12 | 삼성전자주식회사 | 통계적 자동 번역 장치 및 방법 |
US8560298B2 (en) * | 2008-10-21 | 2013-10-15 | Microsoft Corporation | Named entity transliteration using comparable CORPRA |
US8332205B2 (en) * | 2009-01-09 | 2012-12-11 | Microsoft Corporation | Mining transliterations for out-of-vocabulary query terms |
US8843435B1 (en) | 2009-03-12 | 2014-09-23 | Pegasystems Inc. | Techniques for dynamic data processing |
US8468492B1 (en) | 2009-03-30 | 2013-06-18 | Pegasystems, Inc. | System and method for creation and modification of software applications |
US8185373B1 (en) * | 2009-05-05 | 2012-05-22 | The United States Of America As Represented By The Director, National Security Agency, The | Method of assessing language translation and interpretation |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
US9710556B2 (en) | 2010-03-01 | 2017-07-18 | Vcvc Iii Llc | Content recommendation based on collections of entities |
US20110218796A1 (en) * | 2010-03-05 | 2011-09-08 | Microsoft Corporation | Transliteration using indicator and hybrid generative features |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US8645125B2 (en) | 2010-03-30 | 2014-02-04 | Evri, Inc. | NLP-based systems and methods for providing quotations |
US8930176B2 (en) | 2010-04-01 | 2015-01-06 | Microsoft Corporation | Interactive multilingual word-alignment techniques |
US9268878B2 (en) * | 2010-06-22 | 2016-02-23 | Microsoft Technology Licensing, Llc | Entity category extraction for an entity that is the subject of pre-labeled data |
US8527270B2 (en) * | 2010-07-30 | 2013-09-03 | Sri International | Method and apparatus for conducting an interactive dialogue |
US9576570B2 (en) | 2010-07-30 | 2017-02-21 | Sri International | Method and apparatus for adding new vocabulary to interactive translation and dialogue systems |
WO2012027672A1 (en) * | 2010-08-26 | 2012-03-01 | Google Inc. | Conversion of input text strings |
US9405848B2 (en) | 2010-09-15 | 2016-08-02 | Vcvc Iii Llc | Recommending mobile device activities |
US20140379680A1 (en) * | 2010-09-21 | 2014-12-25 | Qiliang Chen | Generating search query suggestions |
US8725739B2 (en) | 2010-11-01 | 2014-05-13 | Evri, Inc. | Category-based content recommendation |
US9547626B2 (en) | 2011-01-29 | 2017-01-17 | Sdl Plc | Systems, methods, and media for managing ambient adaptability of web applications and web services |
US10657540B2 (en) | 2011-01-29 | 2020-05-19 | Sdl Netherlands B.V. | Systems, methods, and media for web content management |
US8880487B1 (en) | 2011-02-18 | 2014-11-04 | Pegasystems Inc. | Systems and methods for distributed rules processing |
US10580015B2 (en) | 2011-02-25 | 2020-03-03 | Sdl Netherlands B.V. | Systems, methods, and media for executing and optimizing online marketing initiatives |
US10140320B2 (en) | 2011-02-28 | 2018-11-27 | Sdl Inc. | Systems, methods, and media for generating analytical data |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
US8706723B2 (en) * | 2011-06-22 | 2014-04-22 | Jostle Corporation | Name-search system and method |
US9984054B2 (en) | 2011-08-24 | 2018-05-29 | Sdl Inc. | Web interface including the review and manipulation of a web document and utilizing permission based control |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8224836B1 (en) * | 2011-11-02 | 2012-07-17 | Google Inc. | Searching in multiple languages |
US9195936B1 (en) | 2011-12-30 | 2015-11-24 | Pegasystems Inc. | System and method for updating or modifying an application without manual coding |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US9773270B2 (en) | 2012-05-11 | 2017-09-26 | Fredhopper B.V. | Method and system for recommending products based on a ranking cocktail |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US20130318075A1 (en) * | 2012-05-25 | 2013-11-28 | International Business Machines Corporation | Dictionary refinement for information extraction |
US8918308B2 (en) | 2012-07-06 | 2014-12-23 | International Business Machines Corporation | Providing multi-lingual searching of mono-lingual content |
US8843453B2 (en) * | 2012-09-13 | 2014-09-23 | Sap Portals Israel Ltd | Validating documents using rules sets |
US10452740B2 (en) | 2012-09-14 | 2019-10-22 | Sdl Netherlands B.V. | External content libraries |
US11308528B2 (en) | 2012-09-14 | 2022-04-19 | Sdl Netherlands B.V. | Blueprinting of multimedia assets |
US11386186B2 (en) | 2012-09-14 | 2022-07-12 | Sdl Netherlands B.V. | External content library connector systems and methods |
US9916306B2 (en) | 2012-10-19 | 2018-03-13 | Sdl Inc. | Statistical linguistic analysis of source content |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US9229926B2 (en) * | 2012-12-03 | 2016-01-05 | International Business Machines Corporation | Determining similarity of unfielded names using feature assignments |
US9600473B2 (en) | 2013-02-08 | 2017-03-21 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9298703B2 (en) | 2013-02-08 | 2016-03-29 | Machine Zone, Inc. | Systems and methods for incentivizing user feedback for translation processing |
US9031829B2 (en) | 2013-02-08 | 2015-05-12 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US9231898B2 (en) | 2013-02-08 | 2016-01-05 | Machine Zone, Inc. | Systems and methods for multi-user multi-lingual communications |
US8996352B2 (en) | 2013-02-08 | 2015-03-31 | Machine Zone, Inc. | Systems and methods for correcting translations in multi-user multi-lingual communications |
US10650103B2 (en) | 2013-02-08 | 2020-05-12 | Mz Ip Holdings, Llc | Systems and methods for incentivizing user feedback for translation processing |
US9185083B1 (en) * | 2013-05-23 | 2015-11-10 | The Boeing Company | Concealing data within encoded audio signals |
US20160132491A1 (en) * | 2013-06-17 | 2016-05-12 | National Institute Of Information And Communications Technology | Bilingual phrase learning apparatus, statistical machine translation apparatus, bilingual phrase learning method, and storage medium |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
US10672391B2 (en) * | 2014-09-26 | 2020-06-02 | Nuance Communications, Inc. | Improving automatic speech recognition of multilingual named entities |
US10469396B2 (en) | 2014-10-10 | 2019-11-05 | Pegasystems, Inc. | Event processing with enhanced throughput |
US10162811B2 (en) | 2014-10-17 | 2018-12-25 | Mz Ip Holdings, Llc | Systems and methods for language detection |
KR102244110B1 (ko) * | 2015-02-17 | 2021-04-26 | 삼성전자주식회사 | 이종 언어간 동일성을 판단하는 전자 장치 및 방법 |
US10229674B2 (en) | 2015-05-15 | 2019-03-12 | Microsoft Technology Licensing, Llc | Cross-language speech recognition and translation |
US10545958B2 (en) | 2015-05-18 | 2020-01-28 | Microsoft Technology Licensing, Llc | Language scaling platform for natural language processing systems |
US10114817B2 (en) | 2015-06-01 | 2018-10-30 | Microsoft Technology Licensing, Llc | Data mining multilingual and contextual cognates from user profiles |
US9519643B1 (en) | 2015-06-15 | 2016-12-13 | Microsoft Technology Licensing, Llc | Machine map label translation |
RU2632137C2 (ru) | 2015-06-30 | 2017-10-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и сервер транскрипции лексической единицы из первого алфавита во второй алфавит |
US10614167B2 (en) | 2015-10-30 | 2020-04-07 | Sdl Plc | Translation review workflow systems and methods |
US9747281B2 (en) * | 2015-12-07 | 2017-08-29 | Linkedin Corporation | Generating multi-language social network user profiles by translation |
US10765956B2 (en) * | 2016-01-07 | 2020-09-08 | Machine Zone Inc. | Named entity recognition on chat data |
JP6620934B2 (ja) * | 2016-01-29 | 2019-12-18 | パナソニックIpマネジメント株式会社 | 翻訳支援方法、翻訳支援装置、翻訳装置及び翻訳支援プログラム |
US10698599B2 (en) | 2016-06-03 | 2020-06-30 | Pegasystems, Inc. | Connecting graphical shapes using gestures |
US10698647B2 (en) | 2016-07-11 | 2020-06-30 | Pegasystems Inc. | Selective sharing for collaborative application usage |
US10346548B1 (en) * | 2016-09-26 | 2019-07-09 | Lilt, Inc. | Apparatus and method for prefix-constrained decoding in a neural machine translation system |
US10223356B1 (en) | 2016-09-28 | 2019-03-05 | Amazon Technologies, Inc. | Abstraction of syntax in localization through pre-rendering |
US10229113B1 (en) | 2016-09-28 | 2019-03-12 | Amazon Technologies, Inc. | Leveraging content dimensions during the translation of human-readable languages |
US10275459B1 (en) | 2016-09-28 | 2019-04-30 | Amazon Technologies, Inc. | Source language content scoring for localizability |
US10235362B1 (en) | 2016-09-28 | 2019-03-19 | Amazon Technologies, Inc. | Continuous translation refinement with automated delivery of re-translated content |
US10261995B1 (en) * | 2016-09-28 | 2019-04-16 | Amazon Technologies, Inc. | Semantic and natural language processing for content categorization and routing |
CN108073573A (zh) * | 2016-11-16 | 2018-05-25 | 北京搜狗科技发展有限公司 | 一种机器翻译方法、装置和机器翻译系统训练方法、装置 |
CN108460026B (zh) * | 2017-02-22 | 2021-02-12 | 华为技术有限公司 | 一种翻译方法及装置 |
US10467346B2 (en) * | 2017-05-18 | 2019-11-05 | Wipro Limited | Method and system for generating named entities |
CN107608955B (zh) * | 2017-08-31 | 2021-02-09 | 张国喜 | 一种汉藏命名实体互译方法及装置 |
WO2019060353A1 (en) | 2017-09-21 | 2019-03-28 | Mz Ip Holdings, Llc | SYSTEM AND METHOD FOR TRANSLATION OF KEYBOARD MESSAGES |
US10635863B2 (en) | 2017-10-30 | 2020-04-28 | Sdl Inc. | Fragment recall and adaptive automated translation |
CN108009160A (zh) * | 2017-11-30 | 2018-05-08 | 北京金山安全软件有限公司 | 含有命名实体的语料翻译方法、装置、电子设备及存储介质 |
US10817676B2 (en) | 2017-12-27 | 2020-10-27 | Sdl Inc. | Intelligent routing services and systems |
US10423727B1 (en) * | 2018-01-11 | 2019-09-24 | Wells Fargo Bank, N.A. | Systems and methods for processing nuances in natural language |
CN108255817B (zh) * | 2018-01-19 | 2020-06-12 | 中国科学院软件研究所 | 基于web检索的实体翻译方法 |
CN110489761B (zh) * | 2018-05-15 | 2021-02-02 | 科大讯飞股份有限公司 | 一种篇章级文本翻译方法及装置 |
US11048488B2 (en) | 2018-08-14 | 2021-06-29 | Pegasystems, Inc. | Software code optimizer and method |
US11216292B2 (en) | 2018-08-27 | 2022-01-04 | Google Llc | Adapting client application of feature phone based on experiment parameters |
US11256867B2 (en) | 2018-10-09 | 2022-02-22 | Sdl Inc. | Systems and methods of machine learning for digital assets and message creation |
US11062621B2 (en) * | 2018-12-26 | 2021-07-13 | Paypal, Inc. | Determining phonetic similarity using machine learning |
CN111428518B (zh) * | 2019-01-09 | 2023-11-21 | 科大讯飞股份有限公司 | 一种低频词翻译方法及装置 |
JP7287062B2 (ja) * | 2019-03-29 | 2023-06-06 | 富士通株式会社 | 翻訳方法、翻訳プログラム及び学習方法 |
US11625535B1 (en) * | 2019-12-05 | 2023-04-11 | American Express Travel Related Services Company, Inc. | Computer-based systems having data structures configured to execute SIC4/SIC8 machine learning embedded classification of entities and methods of use thereof |
CN111738024B (zh) * | 2020-07-29 | 2023-10-27 | 腾讯科技(深圳)有限公司 | 实体名词标注方法和装置、计算设备和可读存储介质 |
US11567945B1 (en) | 2020-08-27 | 2023-01-31 | Pegasystems Inc. | Customized digital content generation systems and methods |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5212730A (en) * | 1991-07-01 | 1993-05-18 | Texas Instruments Incorporated | Voice recognition of proper names using text-derived recognition models |
US5477451A (en) * | 1991-07-25 | 1995-12-19 | International Business Machines Corp. | Method and system for natural language translation |
US5432948A (en) * | 1993-04-26 | 1995-07-11 | Taligent, Inc. | Object-oriented rule-based text input transliteration system |
US5819265A (en) * | 1996-07-12 | 1998-10-06 | International Business Machines Corporation | Processing names in a text |
US6460015B1 (en) * | 1998-12-15 | 2002-10-01 | International Business Machines Corporation | Method, system and computer program product for automatic character transliteration in a text string object |
US6311152B1 (en) * | 1999-04-08 | 2001-10-30 | Kent Ridge Digital Labs | System for chinese tokenization and named entity recognition |
US7107215B2 (en) * | 2001-04-16 | 2006-09-12 | Sakhr Software Company | Determining a compact model to transcribe the arabic language acoustically in a well defined basic phonetic study |
US6810374B2 (en) * | 2001-07-23 | 2004-10-26 | Pilwon Kang | Korean romanization system |
-
2003
- 2003-03-11 CA CA002475857A patent/CA2475857C/en not_active Expired - Lifetime
- 2003-03-11 CN CNA038057492A patent/CN1643511A/zh active Pending
- 2003-03-11 EP EP03714080A patent/EP1483687A4/en not_active Withdrawn
- 2003-03-11 JP JP2003577155A patent/JP2005520251A/ja active Pending
- 2003-03-11 AU AU2003218097A patent/AU2003218097A1/en not_active Abandoned
- 2003-03-11 US US10/387,032 patent/US7249013B2/en active Active
- 2003-03-11 WO PCT/US2003/007512 patent/WO2003079225A1/en active Application Filing
-
2007
- 2007-06-07 US US11/811,384 patent/US7580830B2/en not_active Expired - Lifetime
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2014099106A (ja) * | 2012-11-15 | 2014-05-29 | Zenrin Datacom Co Ltd | 情報処理装置、情報処理方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
US20080114583A1 (en) | 2008-05-15 |
WO2003079225A1 (en) | 2003-09-25 |
US7249013B2 (en) | 2007-07-24 |
CN1643511A (zh) | 2005-07-20 |
US7580830B2 (en) | 2009-08-25 |
EP1483687A1 (en) | 2004-12-08 |
US20030191626A1 (en) | 2003-10-09 |
CA2475857C (en) | 2008-12-23 |
EP1483687A4 (en) | 2008-08-06 |
CA2475857A1 (en) | 2003-09-25 |
AU2003218097A1 (en) | 2003-09-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2005520251A (ja) | 名前付きエンティティの翻訳 | |
Virga et al. | Transliteration of proper names in cross-lingual information retrieval | |
Al-Onaizan et al. | Translating named entities using monolingual and bilingual resources | |
KR100453227B1 (ko) | 번역 지원 시스템에서의 유사 문장 검색 방법 | |
Meng et al. | Mandarin–English information (MEI): investigating translingual speech retrieval | |
US7197457B2 (en) | Method for statistical language modeling in speech recognition | |
JP2010519655A (ja) | 名前照合システムの名前インデックス付け | |
Rosso et al. | On the voice-activated question answering | |
Stepanov et al. | Language style and domain adaptation for cross-language SLU porting | |
Wu et al. | Learning to find English to Chinese transliterations on the web | |
Al-Onaizan et al. | Named entity translation | |
Zhou et al. | Combining probability models and web mining models: a framework for proper name transliteration | |
Argaw et al. | Dictionary-based Amharic-French information retrieval | |
May et al. | Surprise! What's in a Cebuano or Hindi Name? | |
Ababneh et al. | Enhanced Arabic Information Retrieval by Using Arabic Slang | |
Mostafavi Kashani | Automatic transliteration from Arabic to English and its impact on machine translation | |
JP2002269085A (ja) | 機械翻訳装置及び方法 | |
Angkawattanawit et al. | Thai Q-Cor: integrating word approximation and soundex for Thai query correction | |
Kaur et al. | Review of Machine Transliteration Systems | |
Semmar et al. | Using a stemmer in a natural language processing system to treat Arabic for cross-language information retrieval | |
Bedecho et al. | Wolaytta-English Cross-lingual Information Retrieval using Neural Machine Translation | |
Sainin et al. | Corpus Analysis: A Case Study on Kadazandusun Newspaper Archive | |
Gupta | A survey of recent keywords and topic extraction systems for Indian Languages | |
Purwarianti et al. | Indonesian-Japanese transitive translation using English for CLIR | |
Narasimhulu et al. | Enhanced Named Entity Transliteration Model Using Machine Learning Algorithm. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20060719 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20061017 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20061027 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20070313 |