JP5497048B2 - コンパラブルコーパスを使用する固有表現の翻字 - Google Patents

コンパラブルコーパスを使用する固有表現の翻字 Download PDF

Info

Publication number
JP5497048B2
JP5497048B2 JP2011533276A JP2011533276A JP5497048B2 JP 5497048 B2 JP5497048 B2 JP 5497048B2 JP 2011533276 A JP2011533276 A JP 2011533276A JP 2011533276 A JP2011533276 A JP 2011533276A JP 5497048 B2 JP5497048 B2 JP 5497048B2
Authority
JP
Japan
Prior art keywords
document
additional
language
words
cross
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011533276A
Other languages
English (en)
Other versions
JP2012506596A (ja
JP2012506596A5 (ja
Inventor
ウドゥパ ユー ラガベンドラ
クリシュナン サラバナン
クマラン アルムガン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2012506596A publication Critical patent/JP2012506596A/ja
Publication of JP2012506596A5 publication Critical patent/JP2012506596A5/ja
Application granted granted Critical
Publication of JP5497048B2 publication Critical patent/JP5497048B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/45Example-based machine translation; Alignment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • G06F40/129Handling non-Latin characters, e.g. kana-to-kanji conversion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、コンパラブルコーパスを使用する固有表現の翻字に関する。
この背景は、本特許出願の基本的な事実関係を提供するものであり、解決すべき具体的な問題を説明するものではない。
固有表現は、言語横断情報検索(CLIR)における質問語の重要な部分を形成し、言語横断情報検索システムの性能に大きな影響を及ぼす。機械翻訳(MT)では、未知語の多くが固有表現である。しかし、対訳辞書では十分な範囲の固有表現に乏しく、機械翻訳システムは、しばしば間違った翻字を生成する。
この概要は、発明を実施するための形態において以下でさらに説明する選ばれた概念を、簡略化した形態で紹介するために提供される。この概要は、特許請求される主題の重要な特徴または本質的な特徴を特定するものではなく、特許請求される主題の範囲を限定するために使用するものでもない。
多言語の固有表現の翻字を探索するための方法およびシステムが開示されている。第1の言語の文書を検査し、そして第2の言語の追加文書を検査する。追加文書が、第1の言語の文書に十分類似しているかどうか判定することができる。追加文書が第1の言語の文書に十分類似していると判定される場合には、この文書内の固有表現を選択することができる。この方法では、固有表現を追加文書内の単語と比較し、この固有表現と単語が十分類似しているかどうか判定することにより、類似している固有表現を検索することができる。固有表現に類似している単語が検出されると、この固有表現および類似している固有表現を、固有表現の翻字として記憶することができる。
携帯用コンピューティング装置の図である。 多言語の固有表現の翻字を探索する方法を示す図である。 コンパラブルコーパスを示す図である。
以下の説明では、数多くの様々な実施形態の詳細な説明を行っているが、この説明の法的な範囲は、この特許の最後で述べる特許請求の範囲の説明によって規定されるものと理解すべきである。実現可能な実施形態をすべて説明することは、不可能ではないとしても実際的ではないので、詳細な説明は例示的なものに過ぎないと解釈すべきであり、必ずしもあらゆる実現可能な実施形態を説明するものではない。現行技術、またはこの発明の出願日以降に開発される技術のいずれかを使用して、数多くの代替実施形態を実施することもできるが、こうした技術もやはり、特許請求の範囲に記載の範囲の中にある。
「本明細書では、用語「_」は...を意味するものとしてここに定義する」といった文、または同様の文を使用して、この特許において用語が明示的に定義されない場合には、明示的にせよ暗示的にせよ、そのありのままの意味または通常の意味を超えて、その用語の意味を限定する意図はなく、こうした用語は、(特許請求の範囲の言葉以外の)この発明の任意のセクションでなされる任意の記述に基づいて範囲を限定的されるものと解釈すべきではないことも理解されたい。この特許の最後にある特許請求の範囲に記載された任意の用語が、この特許において単一の意味と合致するように参照される限りにおいて、それは、読み手を混乱させないよう明確にするためになされるものであり、こうした特許請求の範囲の用語が、暗にまたは他の方法で、その単一の意味に限定されるものではない。最後に、請求項の要素が、任意の構造を列挙することなく、用語「手段」と機能を列挙することによって定義されない限り、任意の請求項の要素の範囲は、米国特許法第112条第6項の適用に基づいて解釈されるものではない。
図1に、本明細書で説明するユーザ・インターフェースを表示し提供するように動作することのできる、適切なコンピューティング・システム環境100の一例を示す。コンピューティング・システム環境100は、適切なコンピューティング環境のほんの一例に過ぎず、特許請求の範囲に記載の方法および装置の、使用法または機能の範囲に関して、何ら制限を示唆するものではないことに留意されたい。コンピューティング環境100は、例示的な動作環境100に示した構成要素のうちの任意の1つの構成要素もしくはそれらの組合せに関して、いかなる依存性または要求をも、有すると解釈すべきではない。
図1を参照すると、特許請求された方法および装置の各ブロックを実施するための例示的なシステムは、コンピュータ110の形態の汎用コンピューティング装置を備える。コンピュータ110の構成部品には、それだけには限らないが、処理ユニット120、システム・メモリ130、および、システム・メモリを含む様々なシステム構成部品を処理ユニット120に結合するシステム・バス121が含まれ得る。
コンピュータ110は、モデム172または他のネットワーク・インターフェース170を用いて、ローカル・エリア・ネットワーク(LAN)171および/またはワイド・エリア・ネットワーク(WAN)173を介して、リモート・コンピュータ180など、1つまたは複数のリモート・コンピュータとの論理的な接続を使用して、ネットワーク環境で動作することができる。
コンピュータ110は、通常、コンピュータ110がアクセスすることのできる任意の使用可能な媒体でよい様々なコンピュータ読取り可能な媒体を備え、揮発性および不揮発性の媒体、取外し可能および取外し不可能な媒体の両方を含む。システム・メモリ130には、読取り専用メモリ(ROM)131およびランダム・アクセス・メモリ(RAM)132など、揮発性および/または不揮発性のメモリの形態のコンピュータ記憶媒体が含まれる。ROMには、基本入出力システム(BIOS)133が含まれ得る。RAM132は、通常、オペレーティング・システム134、アプリケーション・プログラム135、他のプログラム・モジュール136、およびプログラム・データ137を含む、データおよび/またはプログラム・モジュールを含む。コンピュータ110にはまた、ハード・ディスク・ドライブ141、磁気ディスク152との間で読み書きする磁気ディスク・ドライブ151、光ディスク156との間で読み書きする光ディスク・ドライブ155など、他の取外し可能/取外し不可能な、揮発性/不揮発性コンピュータ記憶媒体が含まれ得る。ハード・ディスク・ドライブ141、151、および155は、インターフェース140、150を介して、システム・バス121とインターフェースすることができる。
ユーザは、キーボード162や、マウス、トラックボールまたはタッチ・パッドと普通呼ばれているポインティング装置161などの入力装置を用いて、コンピュータ20にコマンドおよび情報を入力することができる。他の入力装置(図示せず)は、マイクロホン、ジョイスティック、ゲーム・パッド、衛星用パラボラ・アンテナ、スキャナまたは同様のものを含んでもよい。上記その他の入力装置は、システム・バスに結合されたユーザ入力インターフェース160を介して、処理ユニット120にしばしば接続されているが、パラレル・ポート、ゲーム・ポート、またはユニバーサル・シリアル・バス(USB)など、他のインターフェースおよびバス構造によって接続されてもよい。ビデオ・インターフェース190などのインターフェースを介して、モニタ191または他のタイプの表示装置もシステム・バス121に接続してもよい。モニタに加えて、コンピュータにはまた、出力周辺インターフェース190を介して接続してもよいスピーカ197やプリンタ196など、他の周辺出力装置が含まれ得る。
図2は、多言語の固有表現の翻字のために文書を探索する方法を示すことができる。固有表現(NE)は、情報検索(IR)システムにおける質問語の重要な部分を形成し、その性能に大きな影響を及ぼすことがある。これら固有表現は、言語横断情報検索(CLIR)において、さらに重要になることがある。さらに、未知語の多くが実際には固有表現なので、固有表現は、機械翻訳(MT)システムの性能においても重要な役割を演じる。固有表現は、言語横断情報検索システムがうまく働くかどうかにとって重要であり、機械翻訳の性能に著しい影響を及ぼすが、対訳辞書は、固有表現を十分に網羅していないので、それが手作りであれ統計に基づくものであれ、限られたサポートしか提供しない。ニュース記事およびインターネットにより、毎日、新規の固有表現が言語の語彙に取り入れられる。機械翻字の代替手法では、スペルミスまたは間違った翻字がしばしば生じるが、それらは、言語横断情報検索において雑音として働き、MTにおける翻訳品質を劣化させる。
最近では、多言語で同時にニュース記事が利用可能になることにより、こうしたニュースのコーパスから、固有表現の翻字、特に固有表現の翻字の相当語句(NETE)を探索することへの見込みのある選択肢に関心が集まってきた。形式的には、ニュースのコンパラブルコーパスとは、適度に長い期間にわたる、一対の言語の時間通りに並んだニュース記事である。世界中の多くの報道機関が、毎日、こうしたニュース・コンテンツを多言語で作成する。ニュースのコンパラブルコーパスから探索された固有表現の翻字の相当語句は、対訳辞書および機械翻字システムを効果的に補完するのに、CLIRおよびMTを含む多くのタスクにおいて貴重なものになり得る。
ニュース記事は、通常、固有表現310を多く含み、したがって、ニュースのコンパラブルコーパスには、固有表現の翻字の相当語句が豊富に存在する。多くの世界中の言語でのニュース・コーパスの膨大な量と永久の可用性により、こうしたコーパスから固有表現310の相当語句を探索する効果的な方式を考え出すことができる場合には、固有表現310の相当語句を探索するための、膨大で貴重で尽きることのないデータ・ソースが示される。この可能性が、説明する方法およびシステムの推進要因の1つである。
大規模なコンパラブルコーパスから固有表現の翻字の相当語句を効果的に探索するには、いくつかの課題がある。第1に、固有表現の識別および検証には、多くの言語で利用可能でない言語ツールおよび言語学的資源が必要となることがある。第2に、コンパラブルコーパスにおける固有表現の大部分が散在しており、コーパス内の固有表現の署名の頻度にはほとんど依存する必要がない。第3に、探索する方法は、より大きいコーパスを探索するときに効果的に計算できるように、候補の生成を制限しなければならない。さらに、候補を制限は、誤判定による精度の劣化が減少することになる。最後に、各言語にわたって探索を効果的にするために、言語特有の知識をほとんど使用しないことが重要である。
本出願は、大規模なコンパラブルコーパスから、固有表現の翻字の相当語句を効果的に探索するための、MINTと呼ばれる新規な方法を紹介し、上記に掲載されたあらゆる課題に取り組む。MINTは、ただ1つの言語について固有表現認識装置(NER)の可用性を想定しており、したがって、固有表現認識装置が利用可能である言語とペアを組むときに、リソースが乏しい言語からでさえ固有表現の翻字の相当語句を探索するのに適用可能である。それに応じて、本出願では以下のことを行う。
類似しているコンテンツを有するニュース記事が先験的に知られている場合、これらのニュース記事を、効果的かつ徹底的に探索することができると認識する。
標準のコンパラブルコーパスの場合など、類似している記事が先験的に知られていない場合も、MINTが、上記洞察および言語横断情報検索技法を使用して、最新技術よりもはるかに良好に探索できることを実験的に証明する。
様々な特性を有する多くのコーパスにわたって、その有効性を証明する。
最後に、本出願は、3つの異なる言語ファミリー(すなわち、スラブ語、インドヨーロッパ語およびドラビダ語)からの互いに異なる言語セット(すなわち、ロシア語、ヒンディー語、カンナダ語およびタミル語)間でのいくつかのコンパラブルコーパス上でその性能を説明することにより、この方法が言語に依存しないことを証明する。
MINT法は、ニュースが、人々、場所、組織、および他の固有表現を含む出来事に関するものなので、類似しているコンテンツを有する多言語のニュース記事が、非常にオーバラップする固有表現のセットを含んでいるはずである、という重要な考えに基づく。同じニュースの出来事を報告する多言語のニュース記事は、それぞれの言語の固有表現に言及するはずであり、したがって、固有表現の翻字の相当語句を豊富に生成することが予想される。図3には、BBCによって公開された、ヒンディー語および英語での一対の類似している記事における固有表現の翻字の相当語句を示してある。1つのソースによって公開された、英語とタミル語での200対の類似しているニュース記事を分析すると、英語側の単一語の固有表現310のうちの87%において、タミル語側で少なくとも1つの相当語句が存在したことが分かっている。MINT法は、この経験に裏打ちされた考えを用いて、こうしたコーパスから固有表現の翻字の相当語句を探索する。
MINTは2つの段階を有することができる。第1の段階で、各文書を比較して、ソース側のあらゆる文書について、類似しているコンテンツを有するターゲット側の文書のセットを識別する。類似している文書が識別されると、それらの文書を入力として第2の段階に与え、そこで、それらの文書から固有表現の翻字の相当語句を探索する。
再び図2を参照すると、ブロック200で、第1の言語の文書300(図3)を検査することができる。理想的には、この文書は、対象となるいくつかの固有表現の翻字の相当語句を含むものとする。この文書は、問題となる固有表現の翻字の相当語句を含むときに選択してもよく、または、特定の日向けに書かれたニュース記事を用いた逐次探索でもよい。もちろん、第1の言語の文書を選択する他の方法も可能であり、またそのように意図されている。
ブロック210で、第2の言語の追加文書305を検査することができる。理想的には、追加文書305も、固有表現の翻字の相当語句を有するように選択することができる。たとえば、第1の言語の文書がスポーツ記事である場合、第2の言語の追加文書として学術論文を検査することは、ほとんど意味がない。文書300と追加文書305の間で、類似している固有表現の翻字の相当語句が存在する確率が低いからである。
ブロック220で、追加文書305が文書300に類似しているかどうか判定することができる。この判定は、様々な方式で行うことができる。実施形態によっては、言語横断の文書類似度モデルを使用して、言語横断の類似度スコアを計算する。言語横断の文書類似度モデルにより、ソース言語とターゲット言語の一対の文書間における類似度を測定することができる。文書の確率分布と追加文書の確率分布との間の負のKullback−Leibler(KL)ダイバージェンスを、類似度測定値として使用してもよい。
確率論および情報理論では、Kullback−Leiblerダイバージェンス(また、情報ダイバージェンス、情報利得(information gain)、または相対エントロピー)は、2つの確率分布PとQの間の差の非可換尺度である。KLは、Pに基づく符号を使用するとき、およびQに基づく符号を使用するとき、Pからのサンプルを符号化するのに必要となるビットの数の予想される差を測定する。通常Pは、データの「真」の分布、観測値、または精密に計算された理論分布を表す。測定値Qは通常、Pの理論、モデル、記述、または近似を表す。
本出願では、ソース言語およびターゲット言語の語彙を示すVs、Vtを有する、それぞれソース言語およびターゲット言語の2つの文書DS300、DT305が与えられている場合、これら2つの文書300と305の間の類似度は、KL(Ds‖Dt)で与えられ得る。
ここで、p(w|D)は、単語wが文書D内に存在する確率である。所与のソース言語の文書300に類似しているターゲットの文書305を見つけることが関心であるので、分子は、ターゲット言語の文書と無関係であるときには無視してもよい。最後に、以下のようにp(wt|Ds)を展開する。
言語横断の類似度スコアは、以下のように指定することができる。
擬似コードでは、文書300、305の比較を、以下のように進めることができる。
擬似コードから分かるように、複数の追加文書305を文書300と比較することができる。実施形態によっては、追加文書305は事前選別して、固有表現310に類似している単語315を有する可能性のある追加文書305のみを検査することを確実にする。例として、Michael Phelpsに着目した文書300は、おそらくスポーツに関連したものになる。この知識を使用して、検査される追加文書305のタイプを減らしてもよい。各追加文書/文書のペア320(元のソース文書300および個別の各追加文書305)に対して類似度スコアを計算することができ、最も高い類似度を有するペア320を、さらに分析すべき文書/追加文書のペア320として使用することができる。
ブロック230で、追加文書305が文書300に十分類似している場合、文書内の固有表現310を選択することができる。たとえば、水泳選手Michael Phelpsは、アメリカ人の名前であり、多くのスポーツ記事で認識が容易である可能性がある。しかし、Michael Phelpsは、他の言語では作成が難しいことがある。したがって、Michael Phelpsは、この方法が探索しようとし得る固有表現310の一例であってよい。
複数の追加文書305が、文書300と比較された場合、最も高いと判定された類似度を有する文書300/追加文書305のペア320を、さらに分析すべき選択されたペア320として選ぶことができる。いずれのペア320も十分な類似度スコアに達しない場合、追加文書305を戻さなくてもよく、この方法は、終了してもよく、また新規の文書に関して再び開始してもよい。
ブロック240で、固有表現310に類似している単語315を得るために、固有表現310を追加文書305内の単語315と比較することができる。想定できるように、単語は、句でも、文章の断片でも、実体名でもよい。この方法は、コレクションAs,t内の記事(Ds,Dt)の各ペア上で働くことができ、固有表現の翻字の相当語句のセットPs,tを生成する。Ps,t内の各ペア(εS,eT)は、言語Sの固有表現εS310および言語TのトークンeT315から構成され、これらは互いの翻字の相当語句である。さらに、翻字の類似度モデルMTによって測定される、εS310とeT315の間の翻字の類似度は、少なくともβ≧0とすることができる。
擬似コードでは、この方法の一実施形態を以下のように進めることができる。
翻字の類似度モデルは、ソースの固有表現310とターゲット言語の単語315の間の翻字の同等性の度合いを測定する。以下のように、翻字の類似度モデルMTとして、ロジスティック関数を利用してもよい。
ここで、φ(εS,eT)は、ペア(εS,eT)についての特徴ベクトルであり、wは、重みベクトルである。翻字の類似度は、[0..1]の範囲の値をとるとし得る。このモデルで利用されている特徴は、ある種の文字配列の出現、εSとeTのサブストリングの結合、文字の配列の単調性、および2つのストリング内の文字数の差など、(εS,eT)において観察される関心を引く言語横断の関連性を取り込んでもよい。重みベクトルwは、既知の翻字の相当語句のトレーニング・コーパスにわたって、識別しながら学習される。もちろん、固有表現310と単語315の類似度を判定する他の方式が可能でもよく、また企図されている。
実施形態によっては、追加文書305内のすべての単語315を、文書300の固有表現310と比較する。他の実施形態では、追加文書305を詳しく調べて、多くの用語を分析から排除する。たとえば、「the」、「a」、「an」など英語の冠詞は、固有表現310の一部である可能性は非常に低いので、これらの単語は分析しなくてもよい。さらに、固有表現310内に動詞が存在する可能性は低いので、動詞は分析しなくてもよい。さらに他の例として、形容詞が固有表現310の一部である可能性は低いので、形容詞も分析しなくてもよい。追加文書305内の単語315をさらにふるい分けることが可能であり、また企図されている。その結果、固有表現310と比較される、追加文書305内の単語315の数は、極めて少ない可能性があり、まさに対象とすべきである。
ブロック250で、固有表現310に類似している単語315が検出される場合、固有表現310および類似している単語315を、固有表現の翻字として格納することができる。複数の単語315が固有表現と比較された場合、最も高いと判定された類似度を有する単語315/固有表現310のペアを、固有表現の翻字として選択することができる。いずれのペアも十分な類似度スコアに達しない場合、いずれの単語315も、固有表現310の翻字として戻さないとし得る。
次いで、この翻字を様々な目的に使用してもよい。一実施形態では、翻訳ソフトウェアがこの翻字を使用して、翻訳を改善してもよい。他の実施形態では、この翻字を探索ソフトウェアで使用して、複数の言語の関連する結果を探索する助けとし得る。もちろん、他の使用法も可能であり、またそのように意図されている。
前述の説明では、数多くの様々な実施形態の詳細な説明を行っているが、この特許の範囲は、この特許の最後で述べる特許請求の範囲の説明によって規定されるものと理解すべきである。あらゆる実現可能な実施形態を説明することは、不可能ではないとしても、実際的ではないはずなので、詳細な説明は例示的なものに過ぎないと解釈すべきであり、あらゆる実現可能な実施形態を説明するものではない。現行技術、またはこの発明の出願日以降に開発される技術のいずれかを使用して、数多くの代替実施形態を実施することもできるが、こうした技術もやはり、特許請求の範囲に記載の範囲内に収まるものとする。
このように、この特許請求の範囲に記載の精神および範囲から逸脱することなく、本明細書において説明し図示した技法および構造物において、多くの修正形態および変形形態を実施してもよい。したがって、本明細書において記載された方法および装置は、例示的なものに過ぎず、特許請求の範囲に記載の範囲を限定するものではないことを理解されたい。

Claims (20)

  1. コンピュータが、多言語の固有表現の翻字を探索する方法であって、
    第1の言語の文書を検査するステップと、
    第2の言語の追加文書を検査するステップと、
    前記追加文書が、前記文書に十分類似しているかどうか判定するステップであって、
    前記第1の言語の前記文書内の単語に基づいて、前記文書の第1の確率分布を計算するステップと、
    前記第2の言語の前記追加文書内の単語に基づいて、前記追加文書の第2の確率分布を計算するステップと、
    前記第1の確率分布と前記第2の確率分布に基づいて、言語横断の類似度スコアを計算するステップと、
    前記文書内の固有表現を選択するステップと、
    前記文書内の固有表現を前記追加文書内の単語と比較することを含む、十分類似している固有表現を探索するステップと、
    前記文書内の固有表現、および当該文書内の固有表現に類似している前記追加文書内の単語を、固有表現の翻字として記憶するステップと
    を含む、ステップと
    を含むことを特徴とする方法。
  2. 前記言語横断の類似度スコアを、Kullback−Leiblerダイバージェンスを使用して計算することを特徴とする請求項1に記載の方法。
  3. 前記言語横断の類似度スコアを、複数の文書と追加文書のペアに対して計算することを特徴とする請求項1に記載の方法。
  4. 最も高い類似度スコアを有する前記文書と追加文書のペアを選択するステップをさらに含むことを特徴とする請求項3に記載の方法。
  5. 類似している固有表現を探索するステップが、前記追加文書内の単語および前記文書内の固有表現に対して言語横断の類似度スコアを計算するステップを含むことを特徴とする請求項1に記載の方法。
  6. 前記追加文書内の単語および前記文書内の固有表現に対する前記言語横断の類似度スコアが、前記文書内の固有表現と前記追加文書内の単語の間の翻字の同等性の度合いを測定することを特徴とする請求項5に記載の方法。
  7. 前記言語横断の類似度スコアが、複数の固有表現のペアに対して計算され、固有表現のペアが、前記文書内の固有表現および前記追加文書内の単語を含むことを特徴とする請求項6に記載の方法。
  8. 前記追加文書内の単語が、前記追加文書内の単語のグループから順次選択され、前記グループが、前記追加文書内の前置詞、動詞および形容詞を含まないことを特徴とする請求項7に記載の方法。
  9. 最大の前記言語横断のスコアを有する前記固有表現のペアが、互いの翻字として選択されることを特徴とする請求項8に記載の方法。
  10. コンピュータに、多言語の固有表現の翻字を探索するための方法を実行させるためのプログラムを記録したコンピュータ可読記憶媒体であって、前記方法が、
    第1の言語の文書を検査するステップと、
    第2の言語の追加文書を検査するステップと、
    前記文書および前記追加文書の間の言語横断の類似度スコアを計算するステップと、
    前記言語横断の類似度スコアを閾値と比較するステップと、
    前記比較に基づいて、前記文書内の固有表現を選択するステップと、
    前記追加文書内において、前記文書内の固有表現に十分に類似している固有表現を探索するステップであって、
    前記追加文書内の単語を選択するステップと、
    前記文書内の固有表現についての特徴ベクトルおよび前記追加文書内の単語についての特徴ベクトルに基づいて、前記文書内の固有表現および前記追加文書内の単語の間の翻字の同等性を計算するステップと
    を含む、ステップと、
    前記文書内の固有表現、および当該文書内の固有表現に類似している前記追加文書内の単語を、固有表現の翻字として記憶するステップと
    を含むことを特徴とするコンピュータ可読記憶媒体。
  11. 前記言語横断の類似度スコアを、Kullback−Leiblerダイバージェンスを使用して計算することを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
  12. 前記言語横断の類似度スコアを複数の文書と追加文書のペアに対して計算して、最も高い類似度スコアを有する前記文書と追加文書のペアを選択することを特徴とする請求項11に記載のコンピュータ可読記憶媒体。
  13. 前記言語横断の類似度スコアが、複数の固有表現のペアに対して計算され、固有表現のペアが、前記文書内の固有表現および前記追加文書内の単語を含むことを特徴とする請求項10に記載のコンピュータ可読記憶媒体。
  14. 前記追加文書内の単語が、前記追加文書内の単語のグループから順次選択され、前記グループが、前記追加文書内の前置詞、動詞および形容詞を含まないことを特徴とする請求項13に記載のコンピュータ可読記憶媒体。
  15. 最大の前記言語横断のスコアを有する前記固有表現のペアが、互いの翻字として選択されることを特徴とする請求項14に記載のコンピュータ可読記憶媒体。
  16. プロセッサと、前記プロセッサに、多言語の固有表現の翻字を探索するための方法を実行させるためのプログラムを記録したメモリとを備えるコンピュータ・システムであって、前記方法が、
    第1の言語の文書を検査するステップと、
    第2の言語の追加文書を検査するステップと、
    前記第1の言語の前記文書内の単語に基づいて、前記文書の確率分布を計算するステップと、
    前記第2の言語の前記追加文書内の単語に基づいて、前記追加文書の確率分布を計算するステップと、
    前記文書の確率分布および前記追加文書の確率分布の間の言語横断の類似度スコアを、Kullback−Leiblerダイバージェンスを使用して計算すること、および前記言語横断の類似度スコアを閾値と比較することにより、前記追加文書が、前記文書に十分類似しているかどうか判定するステップと、
    前記追加文書が、前記文書に十分類似していると判定される場合に、
    前記文書内の固有表現を選択するステップと、
    前記文書内の固有表現を前記追加文書内の単語と比較することを含む、十分に類似している固有表現を探索するステップと、
    前記文書内の固有表現に十分類似している単語が検出される場合に、前記文書内の固有表現および前記類似している単語を、固有表現の翻字として記憶するステップと
    を含むことを特徴とするコンピュータ・システム。
  17. 前記言語横断の類似度スコアが、複数の文書と追加文書のペアに対して計算され、
    前記方法は、最も高い類似度スコアを有する前記文書と追加文書のペアを選択するステップをさらに含むことを特徴とする請求項16に記載のコンピュータ・システム。
  18. 十分類似している固有表現を探索するステップが、前記追加文書内の単語および前記文書内の固有表現に対して言語横断の類似度スコアを計算することを含み、
    前記言語横断の類似度スコアが、前記文書内の固有表現と前記追加文書内の単語の間の翻字の同等性の度合いを測定し、
    前記追加文書内の単語が、前記追加文書内の単語のグループから順次選択され、前記グループが、前記追加文書内の前置詞、動詞および形容詞を含まず、
    前記言語横断の類似度スコアが、複数の固有表現のペアに対して計算され、固有表現のペアが、前記文書内の固有表現および前記追加文書内の単語を含むことを特徴とする請求項16に記載のコンピュータ・システム。
  19. 前記第1の確率分布を計算するステップは、前記第1の言語の単語が前記文書内に存在する確率を判定するステップを含むことを特徴とする請求項1に記載の方法。
  20. 前記第2の確率分布を計算するステップは、前記第2の言語の単語が前記追加文書内に存在する確率を判定するステップを含むことを特徴とする請求項19に記載の方法。
JP2011533276A 2008-10-21 2009-10-20 コンパラブルコーパスを使用する固有表現の翻字 Active JP5497048B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/255,372 US8560298B2 (en) 2008-10-21 2008-10-21 Named entity transliteration using comparable CORPRA
US12/255,372 2008-10-21
PCT/US2009/061352 WO2010048204A2 (en) 2008-10-21 2009-10-20 Named entity transliteration using corporate corpora

Publications (3)

Publication Number Publication Date
JP2012506596A JP2012506596A (ja) 2012-03-15
JP2012506596A5 JP2012506596A5 (ja) 2012-11-15
JP5497048B2 true JP5497048B2 (ja) 2014-05-21

Family

ID=42118347

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011533276A Active JP5497048B2 (ja) 2008-10-21 2009-10-20 コンパラブルコーパスを使用する固有表現の翻字

Country Status (5)

Country Link
US (1) US8560298B2 (ja)
EP (1) EP2359264A4 (ja)
JP (1) JP5497048B2 (ja)
CN (1) CN102187335A (ja)
WO (1) WO2010048204A2 (ja)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8332205B2 (en) * 2009-01-09 2012-12-11 Microsoft Corporation Mining transliterations for out-of-vocabulary query terms
CN102682763B (zh) * 2011-03-10 2014-07-16 北京三星通信技术研究有限公司 修正语音输入文本中命名实体词汇的方法、装置及终端
US20140039879A1 (en) * 2011-04-27 2014-02-06 Vadim BERMAN Generic system for linguistic analysis and transformation
US9176936B2 (en) * 2012-09-28 2015-11-03 International Business Machines Corporation Transliteration pair matching
US9146919B2 (en) 2013-01-16 2015-09-29 Google Inc. Bootstrapping named entity canonicalizers from English using alignment models
WO2016048350A1 (en) * 2014-09-26 2016-03-31 Nuance Communications, Inc. Improving automatic speech recognition of multilingual named entities
CN107193809A (zh) * 2017-05-18 2017-09-22 广东小天才科技有限公司 一种教材脚本生成方法及装置、用户设备
US10467346B2 (en) * 2017-05-18 2019-11-05 Wipro Limited Method and system for generating named entities
US11417322B2 (en) * 2018-12-12 2022-08-16 Google Llc Transliteration for speech recognition training and scoring
US11062621B2 (en) * 2018-12-26 2021-07-13 Paypal, Inc. Determining phonetic similarity using machine learning
JP7419961B2 (ja) 2020-05-12 2024-01-23 富士通株式会社 文書抽出プログラム、文書抽出装置、及び文書抽出方法
US20230127193A1 (en) 2021-10-27 2023-04-27 Bank Of America Corporation System and Method for Recursive Transliteration of Machine Interpretable Languages
US11977852B2 (en) 2022-01-12 2024-05-07 Bank Of America Corporation Anaphoric reference resolution using natural language processing and machine learning

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6104989A (en) * 1998-07-29 2000-08-15 International Business Machines Corporation Real time detection of topical changes and topic identification via likelihood based methods
JP3317341B2 (ja) * 1998-11-19 2002-08-26 日本電気株式会社 類似度計算方法及び装置、類似文書検索方法及び装置
JP3055545B1 (ja) * 1999-01-19 2000-06-26 富士ゼロックス株式会社 関連文検索装置
US20030191625A1 (en) * 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
JP3643516B2 (ja) * 2000-03-23 2005-04-27 日本電信電話株式会社 文書評価方法及び装置及び文書評価プログラムを格納した記録媒体
US7191115B2 (en) * 2001-06-20 2007-03-13 Microsoft Corporation Statistical method and apparatus for learning translation relationships among words
JP2003141109A (ja) * 2001-11-07 2003-05-16 Fuji Xerox Co Ltd 多言語文書処理装置および方法
JP3918531B2 (ja) * 2001-11-29 2007-05-23 株式会社日立製作所 類似文書検索方法およびシステム
EP1485825A4 (en) * 2002-02-04 2008-03-19 Cataphora Inc DETAILED EXPLORATION TECHNIQUE OF SOCIOLOGICAL DATA AND CORRESPONDING APPARATUS
CA2475857C (en) * 2002-03-11 2008-12-23 University Of Southern California Named entity translation
US7212963B2 (en) * 2002-06-11 2007-05-01 Fuji Xerox Co., Ltd. System for distinguishing names in Asian writing systems
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7475010B2 (en) * 2003-09-03 2009-01-06 Lingospot, Inc. Adaptive and scalable method for resolving natural language ambiguities
GB0322600D0 (en) * 2003-09-26 2003-10-29 Univ Ulster Thematic retrieval in heterogeneous data repositories
US7478033B2 (en) * 2004-03-16 2009-01-13 Google Inc. Systems and methods for translating Chinese pinyin to Chinese characters
EP1779263A1 (de) * 2004-08-13 2007-05-02 Swiss Reinsurance Company Sprach- und textanalysevorrichtung und entsprechendes verfahren
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
JP4622589B2 (ja) * 2005-03-08 2011-02-02 ソニー株式会社 情報処理装置および方法、プログラム、並びに記録媒体
US20070011132A1 (en) * 2005-06-17 2007-01-11 Microsoft Corporation Named entity translation
US20070022134A1 (en) * 2005-07-22 2007-01-25 Microsoft Corporation Cross-language related keyword suggestion
US7672833B2 (en) * 2005-09-22 2010-03-02 Fair Isaac Corporation Method and apparatus for automatic entity disambiguation
US8249855B2 (en) * 2006-08-07 2012-08-21 Microsoft Corporation Identifying parallel bilingual data over a network
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US8706474B2 (en) * 2008-02-23 2014-04-22 Fair Isaac Corporation Translation of entity names based on source document publication date, and frequency and co-occurrence of the entity names
US8275608B2 (en) * 2008-07-03 2012-09-25 Xerox Corporation Clique based clustering for named entity recognition system

Also Published As

Publication number Publication date
EP2359264A2 (en) 2011-08-24
WO2010048204A2 (en) 2010-04-29
JP2012506596A (ja) 2012-03-15
CN102187335A (zh) 2011-09-14
US8560298B2 (en) 2013-10-15
EP2359264A4 (en) 2013-07-10
US20100106484A1 (en) 2010-04-29
WO2010048204A3 (en) 2010-08-12

Similar Documents

Publication Publication Date Title
JP5497048B2 (ja) コンパラブルコーパスを使用する固有表現の翻字
Haddow et al. Survey of low-resource machine translation
Morris et al. Textattack: A framework for adversarial attacks, data augmentation, and adversarial training in nlp
KR101004515B1 (ko) 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체
US8543563B1 (en) Domain adaptation for query translation
JP4945086B2 (ja) 論理形式のための統計的言語モデル
Hill et al. AMAP: automatically mining abbreviation expansions in programs to enhance software maintenance tools
Abdul Rauf et al. Parallel sentence generation from comparable corpora for improved SMT
US20070011132A1 (en) Named entity translation
JP2005267638A (ja) 改善されたスペルチェックのためのシステムおよび方法
Kaufmann JMaxAlign: A maximum entropy parallel sentence alignment tool
Azmi et al. Real-word errors in Arabic texts: A better algorithm for detection and correction
JP2011118689A (ja) 検索方法及びシステム
El Kahki et al. Improved transliteration mining using graph reinforcement
Zhao et al. A bootstrapping based refinement framework for mining opinion words and targets
Azarbonyad et al. A learning to rank approach for cross-language information retrieval exploiting multiple translation resources
Gaikwad et al. Adaptive glove and fasttext model for hindi word embeddings
Magdy et al. An efficient method for using machine translation technologies in cross-language patent search
Hkiri et al. Arabic-English text translation leveraging hybrid NER
Peng et al. An empirical study of Chinese name matching and applications
Lazarinis et al. Current research issues and trends in non-English Web searching
Pouliquen et al. Automatic construction of multilingual name dictionaries
US20120185496A1 (en) Method of and a system for retrieving information
KR20210146832A (ko) 토픽 키워드의 추출 장치 및 방법
Mei et al. Post-processing OCR text using web-scale corpora

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120928

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120928

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130712

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130924

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20131008

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140204

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140305

R150 Certificate of patent or registration of utility model

Ref document number: 5497048

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250