JP2012527701A - 構造化されていないリソースからの句対のマイニング - Google Patents

構造化されていないリソースからの句対のマイニング Download PDF

Info

Publication number
JP2012527701A
JP2012527701A JP2012511920A JP2012511920A JP2012527701A JP 2012527701 A JP2012527701 A JP 2012527701A JP 2012511920 A JP2012511920 A JP 2012511920A JP 2012511920 A JP2012511920 A JP 2012511920A JP 2012527701 A JP2012527701 A JP 2012527701A
Authority
JP
Japan
Prior art keywords
result
translation model
training
items
resource
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012511920A
Other languages
English (en)
Other versions
JP5479581B2 (ja
JP2012527701A5 (ja
Inventor
ビー.ドーラン ウィリアム
ジェイ.ブロケット クリストファー
ジェイ.カスティーリョ ジュリオ
エイチ.ヴァンダーヴェンデ ルクレティア
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2012527701A publication Critical patent/JP2012527701A/ja
Publication of JP2012527701A5 publication Critical patent/JP2012527701A5/ja
Application granted granted Critical
Publication of JP5479581B2 publication Critical patent/JP5479581B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/49Data-driven translation using very large corpora, e.g. the web

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

マイニングシステムは、クエリを適用して、構造化されていないリソースから結果項目を取り出す。この構造化されていないリソースは、ネットワークアクセス可能なリソース項目のリポジトリに対応し得る。取り出された結果項目は、リソース項目に関連するテキスト区分(例えば、文の断片)に対応し得る。このマイニングシステムは、それらの結果項目をフィルタリングして、結果項目のそれぞれの対を確立することによって、構造化されたトレーニングセットを作成する。トレーニングシステムは、そのトレーニングセットを使用して、統計的翻訳モデルを作成することが可能である。この翻訳モデルは、単一言語内の意味的に関係する句同士の間で翻訳するために、単一言語コンテキストで使用可能である。この翻訳モデルは、2つのそれぞれの言語で表現された句同士の間で翻訳するために二言語コンテキストで使用されることも可能である。この翻訳モデルの様々な応用例も説明される。

Description

本発明は、構造化されていないリソースからの句対のマイニングに関する。
近年、統計的機械翻訳技術に相当な関心が寄せられている。この技術は、まずトレーニングセットを確立することによって動作する。伝統的には、このトレーニングセットは、第1の言語のテキスト本体および対応する第2の言語のテキスト本体など、テキストの並列コーパスを提供する。トレーニングモジュールは、テキストの第1の本体がテキストの第2の本体にマップする可能性が高い様式を決定するために統計技術を使用する。この解析は、結果として、翻訳モデルを生成する。復号化段階において、第1の言語のテキストのインスタンスを対応する第2の言語のインスタンスにマップするために翻訳モデルを使用することが可能である。
統計的翻訳モデルの有効性は、多くの場合、翻訳モデルを作成するために使用されるトレーニングセットの頑強さに依存する。しかし、高い品質のトレーニングセットを提供することは困難な課題である。1つには、これは、トレーニングモジュールは一般に、大量のトレーニングデータを必要とするが、かかる情報を供給するための事前に確立された並列コーパスタイプのリソースは不足しているためである。伝統的な事例では、トレーニングセットは、例えば、人間の翻訳者を使用することによって、並列テキストを手動で生成することによって取得可能である。しかし、これらのテキストの手動生成は、非常に時間のかかる任務である。
より自動化された形で並列テキストを識別するためのいくつかの技術が存在する。例えば、ウェブサイトが、情報のそれぞれのバージョンが別個のネットワークアドレス(例えば、別個のURL)に関連している同じ情報を複数の異なる言語で伝える事例を検討する。一技術では、取出しモジュールは、例えば、URL内の特徴情報に基づいて、これらの並列文書の識別を試みる際に探索索引を調査することが可能である。しかし、この技術は、比較的に制限された数の並列テキストにアクセス可能である。さらに、この手法は推定に依存する場合があり、これは多くの事例に当てはまらない可能性がある。
上の例は、2つの異なる自然言語間でテキストを変換するモデルとの関連で構成される。単一言語モデルも提案されている。かかるモデルは、入力テキストを書き換えて、入力テキストと同じ言語で出力テキストを作成することを試みる。一応用例では、例えば、このタイプのモデルは、例えば、探索クエリを表現するための追加の様式を識別することによって、ユーザの探索クエリを修正するために使用可能である。
単一言語モデルは、上記と同じ欠点を受ける。実際に、同じ言語内に事前に存在する並列コーパスを見出すことは特に困難な場合がある。すなわち、二言語コンテキストで、異なる言語で並列テキストを生成して、異なる読み手の母語に対処する必要があらかじめ存在する。同じ言語でテキストの並列バージョンを生成する、よりいっそう制限された必要が存在する。
それでもなお、かかる単一言語情報は少数存在する。例えば、従来のシソーラスは、類似の意味を有する同じ言語の語に関する情報を提供する。もう1つの例では、一部の書籍は異なる翻訳者によって同じ言語に翻訳されている。これらの異なる翻訳は、並列単一言語コーパスとして役立つ場合がある。しかし、このタイプの並列情報は、より一般的な状況で効果的に使用されるにはあまりにも専門化され過ぎている可能性がある。さらに、述べたように、このタイプの情報は比較的少数だけ存在する。
同じ主題に関する単一言語文書の本体を自動的に識別し、次いで、並列文の存在に関して、それらの文書をマイニングすることも試みられている。しかし、場合によっては、これらの手法は、その有効性および一般性を制限する可能性がある、コンテキスト特定の推定に依存している。これらの困難に加えて、テキストは非常に多くの様式で書き換えられることが可能であり、したがって、単一言語コンテキストで並列性を識別することは、二言語コンテキストで関係するテキストを識別するよりも潜在的により複雑な任務である。
構造化されていないリソースから構造化されたトレーニングセットを選び取るマイニングシステムが本明細書で説明される。すなわち、構造化されていないリソースは、反復コンテンツ内および交番タイプのコンテンツ内で潜在的に豊富な可能性がある。反復コンテンツは、構造化されていないリソースがテキストの同じインスタンスの多くの反復を含むことを意味する。交番タイプのコンテンツは、構造化されていないリソースが、形態は異なるが、類似の意味内容を表現するテキストの多くのインスタンスを含むことを意味する。このマイニングシステムは、構造化されていないリソースのこれらの特性を露出および抽出し、そのプロセスを通じて、翻訳モデルをトレーニングする際に使用するために、未加工の構造化されていないコンテンツを構造化されたコンテンツに変換する。一事例では、この構造化されていないリソースは、ネットワークアクセス可能なリソース項目(例えば、インターネットアクセス可能なリソース項目)のリポジトリに対応する。
1つの例示的な実施形態によれば、マイニングシステムは、クエリを取出しモジュールに提出することによって動作する。この取出しモジュールは、それらのクエリを使用して、構造化されていないリソース内で探索を実行し、その時点で、この取出しモジュールは結果項目を提供する。これらの結果項目は、構造化されていないリソース内で提供された関連するリソース項目を要約するテキスト区分に対応し得る。このマイニングシステムは、それらの結果項目をフィルタリングして、結果項目のそれぞれの対を識別することによって、構造化されたトレーニングセットを作成する。トレーニングシステムは、トレーニングセットを使用して、統計的翻訳モデルを作成することが可能である。
1つの例示的な態様によれば、このマイニングシステムは、同じ主題に対処するリソース項目のグループを事前に識別せずに、クエリの提出だけに基づいて、結果項目を識別することが可能である。すなわち、このマイニングシステムは、概して、リソース項目(例えば、文書)の主題に関するアグノスティック(agnostic)手法をとることが可能であり、このマイニングシステムは、構造化されていないリソース内の構造をサブドキュメント(sub−document)断片レベルで露出する。
もう1つの例示的な態様によれば、このトレーニングセットは、文の断片に対応する項目を含むことが可能である。すなわち、(このトレーニングシステムは完全文を含むトレーニングセットを成功裏に処理することも可能であるが)このトレーニングシステムは、文レベルの並列性の識別および利用に依存しない。
もう1つの例示的な態様によれば、この翻訳モデルは、単一言語内で入力句を出力句に変換するために、単一言語コンテキストで使用することが可能であり、この場合、入力句および出力句は、類似の意味内容を有するが、異なる形態の表現を有する。すなわち、入力句のパラフレーズされた(paraphrased)バージョンを提供するためにこの翻訳モデルを使用することが可能である。第1の言語の入力句を第2の言語の出力句に翻訳するために、この翻訳モデルを二言語コンテキストで使用することも可能である。
もう1つの例示的な態様によれば、翻訳モデルの様々な応用例が説明される。
上記の手法は、様々なタイプのシステム、構成要素、方法、コンピュータ可読媒体、データ構造、製品などの形で表すことが可能である。
この課題を解決するための手段は、精選された概念を簡素化された形態で紹介するために提供され、これらの概念は下で発明を実施するための形態においてさらに説明される。この課題を解決するための手段は、特許請求される主題の主な特徴または必須の特徴を識別することが意図されず、特許請求される主題の範囲を限定するために使用されることも意図されない。
統計的機械翻訳モデルを作成および適用するための1つの例示的なシステムを示す図である。 ネットワーク関連環境内の図1のシステムの一実施形態を示す図である。 1つの結果セット内の一連の結果項目の一例を示す図である。図1のシステムは、クエリを取出しモジュールに提出することに応答して、その結果セットを戻す。 図1のシステムが結果セット内の結果項目の対をどのように確立できるかを明示する一例を示す。 図1のシステムが、異なる結果セットに関して実行された解析に基づいて、トレーニングセットをどのように作成できるかを明示する一例を示す図である。 図1のシステムの動作の概要を提示する1つの例示的な手順を示す図である。 図6の手順内でトレーニングセットを確立するための1つの例示的な手順を示す図である。 図1のシステムを使用して作成された翻訳モデルを適用するための1つの例示的な手順を示す図である。 前述の図面に示される特徴の任意の態様を実施するために使用可能な例示的な処理機能性を示す図である。
類似の構成要素および特徴を参照するために、本開示および図面の全体にわたって同じ番号が使用される。100の連番は、図1において当初見出される特徴を指し、200の連番は、図2において当初見出される特徴を指し、300の連番は、図3において当初見出される特徴を指す、等々である。
本開示は、統計的翻訳モデルを確立するために使用可能なトレーニングセットを生成するための機能性を記載する。本開示は、統計的翻訳モデルを生成および適用するための機能性も記載する。
本開示は以下のように組織される。セクションAは、上で要約された機能を実行するための1つの例示的なシステムを説明する。セクションBは、セクションAのシステムの動作を説明する例示的な方法を説明する。セクションCは、セクションAおよびBで説明される特徴の任意の態様を実施するために使用可能な例示的な処理機能性を説明する。
予備事項として、図面うちのいくつかは、機能性、モジュール、特徴、要素など、様々に称される、1つまたは複数の構造的な構成要素との関連で概念を説明する。図面に示される様々な構成要素は、例えば、ソフトウェア、ハードウェア(例えば、ディスクリート論理構成要素など)、ファームウェアなど、またはこれらの実施形態の任意の組合せによって、いかなるようにも実施可能である。1つの事例では、図面の様々な構成要素を別個のユニットに例示的に分離することは、実際の実施形態において、対応する別個の構成要素を使用することを反映する場合がある。代わりに、または加えて、図に例示される任意の単一の構成要素は、複数の実際の構成要素によって実施可能である。代わりに、または加えて、図面の任意の2つ以上の別個の構成要素の描写は、単一の実際の構成要素によって実行される異なる機能を反映する場合もある。次に説明される図9は、図面に示される機能の1つの例示的な実施形態に関して追加の詳細を提供する。
その他の特徴は、流れ図の形態でこれらの概念を説明する。この形態では、ある順序で実行される別個のブロックを構成するとして、いくつかの動作が説明される。かかる実施形態は、例示的であり、限定的ではない。本明細書で説明されるいくつかのブロックは、一緒にグループ化されて、単一の動作の形で実行されることが可能であり、いくつかのブロックは、分裂されて複数の構成要素ブロックにされることが可能であり、いくつかのブロックは、(ブロックを実行する並列様式を含めて)本明細書で例示される順序とは異なる順序で実行されることも可能である。流れ図に示されるブロックは、ソフトウェア、ハードウェア(例えば、ディスクリート論理構成要素など)、ファームウェア、手動処理など、またはこれらの実施形態の任意の組合せによって実施可能である。
専門用語に関して、「するように構成された」という句は、識別される動作を実行するために任意の種類の機能性を構築することが可能な任意の様式を包括する。この機能性は、例えば、ソフトウェア、ハードウェア(例えば、ディスクリート論理構成要素など)、ファームウェアなど、および/またはそれらの任意の組合せを使用して、動作を実行するように構成可能である。
「論理」という用語は、任務を実行するための任意の機能性を包括する。例えば、流れ図に例示されるそれぞれの動作は、その動作を実行するための論理に対応する。動作は、例えば、ソフトウェア、ハードウェア(例えば、ディスクリート論理構成要素など)、ファームウェアなど、および/またはそれらの任意の組合せを使用して実行可能である。
A.例示的なシステム
図1は、翻訳モデル102を生成および適用するための1つの例示的なシステム100を示す。翻訳モデル102は、入力句を出力句にマップするための統計的機械翻訳(SMT)モデルに対応し、この場合、「句」はここでは任意の1つまたは複数のテキストストリングを指す。翻訳モデル102は、規則ベースの手法ではなく、統計技術を使用してこの動作を実行する。しかし、もう1つの実施形態では、翻訳モデル102は、規則ベースの手法の1つまたは複数の特徴を組み込むことによって、その統計解析を補完することが可能である。
一事例では、翻訳モデル102は、単一言語コンテキストで動作する。この場合、翻訳モデル102は、入力句と同じ言語で表現された出力句を生成する。すなわち、出力句は、入力句のパラフレーズされたバージョンと見なすことができる。もう1つの事例では、翻訳モデル102は、二言語(または、多言語)コンテキストで動作する。この場合、翻訳モデル102は、入力句と比べて異なる言語で出力句を生成する。さらに別の事例では、翻訳モデル102は、翻字コンテキストで動作する。この場合、この翻訳モデルは、入力句と同じ言語で出力句を生成するが、出力句は入力句と比べて異なる書式で表現される。翻訳モデル102は、さらに他の翻訳シナリオにも適用可能である。すべてのかかるコンテキストで、「翻訳」という用語は、テキスト情報の1つの状態から別の状態への任意のタイプの変換を指し、広く解釈されるべきである。
システム100は、3つの主な構成要素、すなわち、マイニングシステム104と、トレーニングシステム106と、アプリケーションモジュール108とを含む。概要として、マイニングシステム104は、翻訳モデル102をトレーニングする際に使用するためのトレーニングセットを作成する。トレーニングシステム106は、反復手法を適用して、そのトレーニングセットに基づいて翻訳モデル102を導出する。アプリケーションモジュール108は、翻訳モデル102を適用して、特定の使用関連のシナリオにおいて、入力句を出力句にマップする。
一事例では、単一のシステムは、単一のエンティティまたは複数のエンティティの任意の組合せによって管理されるように、図1に示される構成要素のすべてを実施することが可能である。もう1つの事例では、任意の2つ以上の別個のシステムは、この場合も、単一のエンティティまたは複数のエンティティの任意の組合せによって管理されるように、図1に示される任意の2つ以上の構成要素を実施することが可能である。いずれの事例においても、図1に示される構成要素は、単一のサイトに配置可能であり、または複数のそれぞれのサイトに分散されてもよい。以下の説明は、図1に示される構成要素に関して追加の詳細を提供する。
マイニングシステム104から始めると、この構成要素は、構造化されていないリソース110から結果項目を取り出すことによって動作する。構造化されていないリソース110は、リソース項目の任意の局在化されたソースまたは分散されたソースを表す。これらのリソース項目は、今度は、テキスト情報の任意のユニットに対応し得る。例えば、構造化されていないリソース110は、インターネットなど、広域ネットワークによって提供されたリソース項目の分散されたリポジトリを表すことができる。この場合、これらのリソース項目は、ネットワークアクセス可能なページおよび/または任意のタイプの関連文書に対応し得る。
構造化されていないリソース110は並列コーパスの様式のように先験的に構成されないため、構造化されていないと見なされる。すなわち、構造化されていないリソース110は、任意の包括的なスキームに従って、そのリソース項目を互いに関連付けない。それでもなお、構造化されていないリソース110は、反復コンテンツ内および交番タイプのコンテンツ内で潜在的に豊富な可能性がある。反復コンテンツは、構造化されていないリソース110がテキストの同じインスタンスの多くの反復を含むことを意味する。交番タイプのコンテンツは、構造化されていないリソース110が、形式の点で異なるが、類似の意味内容を表現するテキストの多くのインスタンスを含むことを意味する。これは、トレーニングセットを構築する際に使用するためにマイニング可能な構造化されていないリソース110の基礎となる特徴が存在することを意味する。
マイニングシステム104の1つの目的は、構造化されていないリソース110の上述の特性を露出し、そのプロセスを介して、翻訳モデル102をトレーニングする際に使用するために、未加工の構造化されていないコンテンツを構造化されたコンテンツに変換することである。マイニングシステム104は、1つには、取出しモジュール116と共に、クエリ準備モジュール112とインターフェースモジュール114とを使用して、この目的を達成する。クエリ準備モジュール112は、クエリのグループを公式化する。それぞれのクエリは、ターゲット主題に関する1つまたは複数のクエリ用語を含むことが可能である。インターフェースモジュール114は、それらのクエリを取出しモジュール116に提出する。取出しモジュール116は、クエリを使用して、構造化されていないリソース110内で探索を実行する。この探索に応答して、取出しモジュール116は、異なるそれぞれのクエリに関して複数の結果セットを戻す。それぞれの結果セットは、今度は、1つまたは複数の結果項目を含む。これらの結果項目は、構造化されていないリソース110内のそれぞれのリソース項目を識別する。
一事例では、マイニングシステム104および取出しモジュール116は、同じエンティティまたは異なるそれぞれのエンティティによって管理された同じシステムによって実施される。もう1つの事例では、マイニングシステム104および取出しモジュール116は、この場合も、同じエンティティまたは異なるそれぞれのエンティティによって管理された、2つのそれぞれのシステムによって実施される。例えば、一実施形態では、取出しモジュール116は、限定されないが、ワシントン州、レドモンドのMicrosoft Corporationによって提供されるLive Searchエンジンなどの探索エンジンを表す。ユーザは、その探索エンジンによって提供されたインターフェース(例えば、APIなど)など、任意の機構を介して探索エンジンにアクセスすることができる。この探索エンジンは、任意の探索方策およびランキング方策を使用して、提出されたクエリに応答して、結果セットを識別および公式化することが可能である。
一事例では、結果セット内の結果項目は、それぞれのテキスト区分に対応する。異なる探索エンジンは、クエリの提出に応答して、テキスト区分を公式化する際に異なる方策を使用することが可能である。多くの例において、これらのテキスト区分は、提出されたクエリに関するリソース項目の関連性を伝えるリソース項目の代表的な部分(例えば、抜粋)を提供する。説明のために、これらのテキスト区分は、その関連する完全なリソース項目の短い摘要または要約と見なすことができる。より詳細には、一事例では、これらのテキスト区分は、基礎となる完全なリソース項目から取り出された1つまたは複数の文に対応し得る。1つのシナリオでは、インターフェースモジュール114および取出しモジュール116は、文の断片を含むリソース項目を公式化することが可能である。もう1つのシナリオでは、インターフェースモジュール114および取出しモジュール116は、完全な文(または、完全な段落など、テキストのより大きな単位)を含むリソース項目を公式化することが可能である。インターフェースモジュール114は、ストア118内にそれらの結果セットを格納する。
トレーニングセット準備モジュール120(簡潔にするために「準備モジュール」)は、トレーニングセットを作成するために、それらの結果セット内の未加工データを処理する。この動作は、2つの構成要素動作、すなわち、別個にまたは一緒に実行可能なフィルタリングとマッチングとを含む。フィルタリング動作に関して、準備モジュール120は、1つまたは複数の制約要件に基づいて、結果項目の元のセットをフィルタリングする。この処理の目的は、ペアワイズの(pairwise)マッチングに適した候補である結果項目のサブセットを識別し、それによって、それらの結果セットから「ノイズ」を除去することである。このフィルタリング動作は、フィルタリングされた結果セットを作成する。マッチング動作に関して、準備モジュール120は、フィルタリングされた結果セットに関してペアワイズのマッチングを実行する。このペアワイズのマッチングは、結果セット内の結果項目の対を識別する。準備モジュール120は、上で説明された動作によって作成されたトレーニングセットをストア122内に格納する。準備モジュール120の動作に関する追加の詳細は、この説明の後の時点で提供される。
トレーニングシステム106は、翻訳モデル102をトレーニングするために、ストア122内のトレーニングセットを使用する。このために、トレーニングシステム106は、句タイプのSMT機能性など、任意のタイプの統計的機械翻訳(SMT)機能性124を含むことが可能である。SMT機能性124は、トレーニングセット内のパターンを識別するための統計技術を使用することによって動作する。SMT機能性124は、これらのパターンを使用して、トレーニングセット内の句の相関関係を識別する。
より詳細には、SMT機能性124は、反復様式でそのトレーニング動作を実行する。それぞれの段階で、SMT機能性124は、SMT機能性124がトレーニングセット内の句のペアワイズのアラインメントに関する一時的な仮定に達することを可能にする統計解析を実行する。SMT機能性124は、これらの一時的な仮定を使用して、その統計解析を繰り返し、SMT機能性124が更新された一時的な仮定に達することを可能にする。SMT機能性124は、終了条件が満たされたと見なされるまで、この反復動作を繰り返す。ストア126は、SMT機能性124によって実行された処理の間に(例えば、翻訳表などの形態で)暫定的なアラインメント情報の作業セットを維持することが可能である。その処理の終了時に、SMT機能性124は、翻訳モデル102を画定する統計パラメータを作成する。SMT機能性124に関する追加の詳細は、この説明の後の時点で説明される。
アプリケーションモジュール108は、翻訳モデル102を使用して、入力句を意味的に関係する出力句に変換する。上記のように、入力句および出力句は、同じ言語で表現されてよく、または異なるそれぞれの言語で表現されてもよい。アプリケーションモジュール108は、様々なアプリケーションシナリオとの関連でこの変換を実行することが可能である。アプリケーションモジュール108およびこれらのアプリケーションシナリオに関する追加の詳細は、この説明の後の時点で提供される。
図2は、図1のシステム100の1つの代表的な実施形態を示す。この場合、マイニングシステム104およびトレーニングシステム106を実施するためにコンピューティング機能性202を使用することが可能である。コンピューティング機能性202は、単一のエンティティもしくは複数のエンティティの組合せによって維持されるように、単一のサイトに維持された、または複数のサイトの全域に分散された任意の処理機能性を表すことが可能である。1つの代表的な事例では、コンピューティング機能性202は、パーソナルデスクトップコンピューティングデバイス、サーバタイプのコンピューティングデバイスなど、任意のタイプのコンピュータデバイスに対応する。
一事例では、構造化されていないリソース110は、ネットワーク環境204によって提供されたリソース項目の分散されたリポジトリによって実施可能である。ネットワーク環境204は、任意のタイプのローカルエリアネットワークまたは広域ネットワークに対応し得る。例えば、限定なしに、ネットワーク環境204は、インターネットに対応し得る。かかる環境は、例えば、ネットワークアクセス可能なページおよびリンクされたコンテンツ項目に対応する、潜在的に膨大な数のリソース項目に対するアクセスを提供する。取出しモジュール116は、従来の様式で、例えば、ネットワーククローリング機能性などを使用して、ネットワーク環境204内で利用可能なリソース項目の索引を維持することが可能である。
図3は、クエリ304の提出に応答して、取出しモジュール116によって戻されることが可能な仮説結果セット302の一部の一例を示す。この例は、図1のマイニングシステム104の概念的な基礎のうちのいくつかを説明する手段として役立つ。
クエリ304「shingles zoster(帯状疱疹)」は、よく知られている疾病に関する。このクエリは、大量の無関係な情報を排除することに十分注目しながら、ターゲット主題を正確に示すために選択されている。この例では、「shingles」は、疾病の一般的な名称を指し、一方、「zoster」は、(例えば、herpes zoster(帯状ヘルペス)の場合など)疾病のより正式な名称を指す。クエリ用語のこの組合せは、したがって、「shingles(帯状疱疹)」という用語の無関係な意味および意図されない意味に関する結果項目の取り出しを削減することができる。
結果セット302は、R1〜RNとラベル付けされた一連の結果項目を含み、図3は、これらの結果項目の小さな例を示す。それぞれの結果項目は、対応するリソース項目から抽出されたテキスト区分を含む。この事例では、これらのテキスト区分は、文の断片を含む。しかし、インターフェースモジュール114および取出しモジュール116は、完全文(または、完全な段落など)を含むリソース項目を提供するように構成されることも可能である。
帯状疱疹の疾病は顕著な特性を有する。例えば、帯状疱疹は、水疱瘡を引き起こすのと同じウィルス(帯状ヘルペス)の再活性化によって引き起こされる疾病である。再度活気づくと、このウィルスは身体の神経に沿って移動し、小さな水ぶくれの群れを特徴とする、見た目が赤く、痛みを伴う発疹をもたらす。この疾病は、免疫システムが低下した場合に発生することが多く、したがって、身体外傷、他の疾病、ストレスなどによってトリガされる場合がある。この疾病は、お年寄りを悩ますことが多い、等々である。
異なる結果項目は、この疾病の顕著な特徴に注目するコンテンツを含むことが予想できる。結果として、これらの結果項目は、ある種の示唆に富む句を繰り返すことが予想できる。例えば、インスタンス306によって表示されるように、結果項目のうちのいくつかは、様々に表現されるように、痛みを伴う発疹の発生を述べている。インスタンス308によって表示されるように、結果項目のうちのいくつかは、この疾病は、様々に表現されるように、弱まった免疫システムに関連することを述べている。インスタンス310によって表示されるように、結果項目のうちのいくつかは、この疾病は、結果として、様々に表現されるように、ウィルスが体内の神経に沿って進むことを述べている、等々である。これらの例は、単なる例である。その他の結果項目は、概して、ターゲット主題に無関係な可能性がある。例えば、結果項目312は、建材との関連で「Shingles(屋根板)」という用語を使用し、したがって、この主題に関係がない。しかし、この無関係な結果項目312すら、他の結果項目と共有される句を含む場合がある。
結果セット302内で明らかにされるパターンから、様々な洞察を得ることができる。これらの洞察のうちのいくつかは、ターゲット主題、すなわち、帯状疱疹の疾病に辛うじて関係する。例えば、マイニングシステム104は、結果セット302を使用して、「shingles」と「herpes zoster」が同義語であると推定できる。その他の洞察は、一般に、医療分野に関する。例えば、マイニングシステム104は、「痛みを伴う発疹」という句は、「痛みのある発疹」という句に有意義に置換可能であると推定することができる。さらに、マイニングシステム104は、免疫システム(および、潜在的に、その他の主題)を説明する場合、「損なわれた」という句は、「弱まった」または「低下した」に有意義に置換可能であると推定することができる。その他の洞察は、全世界的な範囲または領域独立範囲を有し得る。例えば、マイニングシステム104は、「に沿って移動する」という句が、「を移動する」または「を進む」に有意義に置換可能であり、「お年寄り」という句は、「年配者」、もしくは「老人」、または「高齢者」に置換可能であるなどを推定することができる。これらの等価は、結果セット302内で医療のコンテキストで示されるが、これらは他のコンテキストにも適用可能である。例えば、人は、職場までの移動を、道路「を移動する」または道路「を進む」と説明することができる。
図3は、それによってトレーニングシステム106が句同士の間で、有意義な類似点を識別することができる一機構を例示するためにも有用である。例えば、結果項目は、「発疹」、「お年寄り」、「神経」、「免疫システム」など、同じ語の多くを繰り返す。これらの頻繁に出現する語は、意味的に関係する句の存在に関するテキスト区分を調査するためのアンカーポイントとして役立つ場合がある。例えば、一般に発生する「免疫システム」という句に関連するアンカーポイントに注目することによって、トレーニングシステム106は、「損なわれた」、「弱まった」、および「低下した」は意味的に交換可能な語に対応し得るという結論を導出することができる。トレーニングシステム106は、個別の形でこの調査に取りかかることが可能である。すなわち、トレーニングシステム106は、句のアラインメントに関して一時的な仮定を導出することが可能である。それらの仮定に基づいて、トレーニングシステム106は、その調査を繰り返して、新しい一時的な仮定を導出することが可能である。任意の時点で、これらの一時的な仮定は、トレーニングシステム106が、結果項目の関連性に対する追加の洞察を導出することを可能にでき、代わりに、これらの仮定は、後退を表し、さらなる解析を分かりにくくする可能性もある(その場合、これらの仮定は改正可能である)。このプロセスを通じて、トレーニングシステム106は、結果セット内の句の関連性に関する仮定の安定したセットに達することを試みる。
より一般には、この例は、マイニングシステム104が、同じ主題に対処するリソース項目のグループ(例えば、基礎となる文書)を事前に識別せずに、クエリの提出だけに基づいて結果項目を識別できることも例示する。すなわち、マイニングシステム104は、全体としてリソース項目の主題に関してアグノスティック手法をとることが可能である。図3の例では、リソース項目の大部分は、実際に、同じ主題(疾病のshingles)に関する可能性が高い。しかし、(1)この類似性は、文書のメタレベル解析ではなく、クエリだけに基づいて露出され、(2)これらのリソース項目が同じ主題に関係するという要件は存在しない。
図4に進むと、この図は、結果セット(RA)内の結果項目(RA1〜RAN)の初期のペアリング(pairing)を確立するために(図1の)準備モジュール120を使用することが可能な様式を示す。この場合、準備モジュール120は、(結果項目の自己同一的なペアリングを除いて)結果セット内のそれぞれの結果項目と他のすべての結果項目との間のリンクを確立することが可能である。例えば、第1の対は、結果項目RAIを結果項目RA2に接続する。第2の対は、結果項目RAIを結果項目RA3に接続する、等々である。実際には、準備モジュール120は、1つまたは複数のフィルタリング要件に基づいて、結果項目同士の間の関連性を制約することができる。セクションBは、準備モジュール120が結果項目のペアワイズのマッチングを制約できる様式に関して追加の情報を提供することになる。
繰り返すと、上記の様式でペアリングされた結果項目は、文の断片を含めて、それらのそれぞれのリソース項目の任意の部分に対応し得る。これは、マイニングシステム104は、並列文を識別する明示的な任務なしに、トレーニングセットを確立できることを意味する。すなわち、トレーニングシステム106は、文レベルの並列性の活用に依存しない。しかし、トレーニングシステム106は、結果項目が完全文(または、テキストのより大きな単位)を含むトレーニングセットを成功裏に処理することも可能である。
図5は、異なる結果のセットからのペアワイズのマッピングを組み合わせて、ストア122内にトレーニングセットを形成する様式を例示する。すなわち、クエリQAは結果セットRAをもたらし、結果セットRAは、今度は、ペアワイズにマッチングされた結果セットTSAをもたらす。クエリQBは結果セットRBをもたらし、結果セットRBは、今度は、ペアワイズにマッチングされた結果セットTSBをもたらす、等々である。準備モジュール120は、これらの異なるペアワイズにマッチングされた結果セットを組み合わせて、連結させて、トレーニングセットを作成する。全体として、このトレーニングセットは、さらなる調査のために、結果項目同士の間の暫定的なアラインメントの初期セットを確立する。トレーニングシステム106は、反復様式でトレーニングセットに関して動作して、真に関係するテキスト区分を明らかにするアラインメントのサブセットを識別する。最終的に、トレーニングシステム106は、それらのアラインメント内に示された意味的に関係する句を識別することを追求する。
このセクションの最後の要点として、図1では、システム100の異なる構成要素同士の間に破線が引かれている点に留意されたい。これは、任意の構成要素によって下された結論は、他の構成要素の動作を修正するために使用可能であることを図で表す。例えば、SMT機能性124は、準備モジュール120が結果セットのその初期のフィルタリングおよびペアリングを実行する様式に関係するある種の結論を下すことが可能である。準備モジュール120は、このフィードバックを受信して、それに応答して、そのフィルタリング行動またはマッチング行動を修正することが可能である。もう1つの事例では、SMT機能性124または準備モジュール120は、例えば、反復コンテンツ内および交番タイプのコンテンツ内で豊富な結果セットを抽出するためのクエリ公式化方策の能力に関係するなど、ある種のクエリ公式化方策の有効性に関する結論を下すことが可能である。クエリ準備モジュール112は、このフィードバックを受信して、それに応答して、その行動を修正することが可能である。より詳細には、一事例では、SMT機能性124または準備モジュール120は、別の一連のクエリ内に含むために有用であり得る主要用語または主要句を発見して、解析のための追加の結果セットをもたらすことが可能である。フィードバックに関するさらに他の機会がシステム100内に存在し得る。
B.例示的なプロセス
図6〜8は、図1のシステム100の動作の一様式を説明する手順(600,700、800)を示す。システム100の動作の基礎となる原理は、セクションAですでに紹介されているため、このセクションでは、いくつかの動作は要約の形で対処される。
図6から始めると、この図は、マイニングシステム104およびトレーニングシステム106の動作の概要を表す手順600を示す。より詳細には、動作の第1の段階は、マイニングシステム104によって実行されるマイニング動作602を説明し、一方、動作の第2の段階は、トレーニングシステム106によって実行されるトレーニング動作604を説明する。
ブロック606において、マイニングシステム104は、クエリのセットを構築することによってプロセス600を開始する。マイニングシステム104は、異なる方策を使用して、この任務を実行することが可能である。一事例では、マイニングシステム104は、例えば、クエリログなどから取得されるような、ユーザによって探索エンジンにこれまで提出された実際のクエリのセットを抽出することが可能である。もう1つの事例では、マイニングシステム104は、任意の参照ソースまたは参照ソースの組合せに基づいて、「人工」クエリを構築することが可能である。例えば、マイニングシステム104は、Wikipediaなどの百科事典的参照ソースの分類索引から、またはシソーラスなどから、クエリ用語を抽出することが可能である。単なる一例を挙げると、マイニングシステム104は、参照ソースを使用して、異なる病名を含むクエリの収集物を生成することが可能である。マイニングシステム104は、1つまたは複数のその他の用語を用いて、それらの病名を補完して、戻された結果セットに注目することを助けることが可能である。例えば、マイニングシステム104は、「shinglesおよびzoster」におけるように、その正式な医療同等物を用いてそれぞれの一般的な病名を結合させることが可能である。または、マイニングシステム104は、「shinglesおよびprevention(予防)」など、その病名に若干関係しない別のクエリ用語を用いてそれぞれの病名を結合させることが可能である、等々である。
より広く考えると、ブロック606におけるクエリ選択は、異なる包括的な目的によって支配される場合がある。一事例では、マイニングシステム104は、特定の領域に注目するクエリの準備を試みることが可能である。この方策は、その特定の領域に向けて多少重み付けられた句を表面化させる際に有効な場合がある。もう1つの事例では、マイニングシステム104は、より広い範囲の領域を詳細に調べるクエリの準備を試みることが可能である。この方策は、本質的により領域独立である句を表面化させる際に有効な場合がある。いずれの場合も、マイニングシステム104は、上で説明されたように、反復コンテンツ内および交番タイプのコンテンツ内の両方において豊富な結果項目を取得することを追求する。さらに、これらのクエリ自体は、依然として、リソース項目同士の間の類似の主題の任意のタイプの先験的解析ではなく、構造化されていないリソースから並列性を抽出するための主な手段である。
最終的に、マイニングシステム104は、そのクエリの選択の有効性を明らかにするフィードバックを受信することが可能である。このフィードバックに基づいて、マイニングシステム104は、マイニングシステム104がどのようにクエリを構築するかを支配する規則を修正することが可能である。加えて、このフィードバックは、クエリを公式化するために使用可能な特定のキーワードまたは主要句を識別することが可能である。
ブロック608において、マイニングシステム104は、それらのクエリを取出しモジュール116に提出する。取出しモジュール116は、今度は、これらのクエリを使用して、構造化されていないリソース110内の探索動作を実行する。
ブロック610において、マイニングシステム104は、取出しモジュール116から結果セットを受信し戻す。これらの結果セットは、結果項目のそれぞれのグループを含む。それぞれの結果項目は、構造化されていないリソース110内の対応するリソース項目から抽出されたテキスト区分に対応し得る。
ブロック612において、マイニングシステム104は、トレーニングセットを作成するために、それらの結果セットの初期の処理を実行する。上述のように、この動作は、2つの構成要素を含むことが可能である。フィルタリング構成要素において、マイニングシステム104は、それらの結果セットを制約して、意味的に関係する句を識別する際に有用な可能性が低い情報を除去するかまたは無視する。マッチング構成要素において、マイニングシステム104は、例えば、セット単位ベースで、結果項目の対を識別する。図4は、1つの例示的な結果セットとの関連でこの動作を図で示す。図7は、ブロック612において実行される動作に関する追加の詳細を提供する。
ブロック614において、トレーニングシステム106は、トレーニングセットに関して動作するために統計的技術を使用して、翻訳モデル102を導出する。任意のタイプの句指向の手法など、任意の統計的機械翻訳手法を使用して、この動作を実行することが可能である。一般に、翻訳モデル102は、出力句yが所与の入力句xを表す確率を画定するP(y|x)として表現可能である。ベイズ規則を使用すると、これはP(y|x)=P(x|y)P(y)/P(x)として表現可能である。トレーニングシステム106は、P(x|y)P(y)を最大化する傾向にある入力句xから学習マッピングするために、トレーニングセットの調査に基づいて、この表現によって画定された確率を明らかにするために動作する。上述のように、この調査は本質的に反復的である。動作のそれぞれの段階で、トレーニングシステム106は、トレーニングセット内の句(および、全体としてテキスト区分)のアラインメントに関する一時的な結論を下すことが可能である。句指向のSMT手法において、これらの一時的な結論は、翻訳表などを使用して表現可能である。
ブロック616において、トレーニングシステム616は、満足のいくアラインメント結果が達成されていることを表示する終了条件に達しているかどうかを決定する。この決定を行うために、よく知られているバイリンガルエバリュエーションアンダースタディ(Bilingual Evaluation Understudy)(BLEU)スコアなど、任意の測定基準を使用することが可能である。
ブロック618において、満足のいく結果に達していない場合、トレーニングシステム106は、トレーニングの際に使用されるその仮定のうちのいずれかを修正する。これは、結果項目内の句が互いにどのように関係するか(および、テキスト区分が全体として互いにどのように関係するか)に関して一般的な作業仮説を修正する効果を有する。
終了条件が満たされている場合、トレーニングシステム106は、そのトレーニングセット内の意味的に関係する句同士の間に識別されたマッピングを有することになる。これらのマッピングを画定するパラメータは、翻訳モデル102を確立する。かかる翻訳モデル102の使用に内在する推定は、テキストの新たに遭遇されたインスタンスはそのトレーニングセット内で発見されたパターンに類似することになるというものである。
図6の手順は、異なる様式において異なってよい。例えば、代替の実施形態では、ブロック614におけるトレーニング動作は、統計解析および規則ベースの解析の組合せを使用して、翻訳モデル102を導出することが可能である。もう1つの修正では、ブロック614内のトレーニング動作は、そのトレーニング任務を複数の副次的任務に分けて、実質的に、複数の翻訳モデルを作成することが可能である。このトレーニング動作は、次いで、それらの複数の翻訳モデルを単一の翻訳モデル102に結合することが可能である。もう1つの修正では、シソーラスから取得された情報など、参照ソースを使用して、ブロック614内のトレーニング動作を開始することまたは「準備すること」が可能である。さらに他の修正が可能である。
図7は、図6のブロック612においてマイニングシステム104によって実行されたフィルタリング処理およびマッチング処理に関する追加の詳細を提供する手順700を示す。
ブロック702において、マイニングシステム104は、1つまたは複数の要件に基づいて、元の結果セットをフィルタリングする。この動作は、ペアワイズのマッチングに最も適した候補と見なされる結果項目のサブセットを識別する効果を有する。この動作は、(例えば、低い関連性を有すると評価された結果項目を除去または無視することによって)トレーニングセットの複雑さ、およびトレーニングセット内のノイズ量を低減するのに役立つ。
一事例では、マイニングシステム104は、結果項目に関連するランキングスコアに基づいて、ペアワイズのマッチングに適した候補として、それらの結果項目を識別することが可能である。反対に述べると、マイニングシステム104は、所定の関連性しきい値未満のランキングスコアを有する結果項目を除去することが可能である。
代わりに、または加えて、マイニングシステム104は、(例えば、それらの結果セット内に出現する語の共通性に基づいて)それらの結果セット内で見出された典型的なテキスト特徴を表現するそれぞれの結果セットに関して語彙的な署名を生成することが可能である。マイニングシステム104は、次いで、それぞれの結果項目をその結果セットに関連する語彙的な署名と比較することが可能である。マイニングシステム104は、この比較に基づいて、ペアワイズのマッチングに適した候補として結果項目を識別することが可能である。反対に述べると、マイニングシステム104は、所定の量だけそれらの語彙的な署名とは異なる結果項目を除去することが可能である。それほど正式でない述べ方をすると、マイニングシステム104は、それらのそれぞれの結果セット内で「突出している」結果項目を除去することが可能である。
代わりに、または加えて、マイニングシステム104は、それぞれの結果項目が結果セット内のそれぞれの他の結果項目とどれだけ類似するかを識別する類似性スコアを生成することが可能である。マイニングシステム104は、この決定を行うために、これに限定されないが、コサイン類似性測定基準(cosine similarity metric)など、任意の類似性測定基準に依存することも可能である。マイニングシステム104は、それらの類似性スコアに基づいて、ペアワイズのマッチングに適した候補として結果項目を識別することが可能である。反対に述べると、マイニングシステム104は、類似性スコアによって明らかにされた、所定の量を超える量だけ互いと異なるため、マッチングに関する良好な候補ではない結果項目の対を識別することが可能である。
代わりに、または加えて、マイニングシステム104は、例えば、k最近傍クラスタリング技術または任意のその他のクラスタリング技術を使用して、類似の結果項目のグループを決定するために、結果セット内の結果項目に関してクラスタ解析を実行することが可能である。マイニングシステム104は、次いで、異なるクラスタ全域の候補としてではなく、ペアワイズのマッチングに適した候補として、それぞれのクラスタ内の結果項目を識別することができる。
マイニングシステム104は、さらに他の動作を実行して、構造化されていないリソース110から収集された結果項目をフィルタリングまたは「処分する」ことが可能である。ブロック702は、結果として、フィルタリングされた結果セットの生成をもたらす。
ブロック704において、マイニングシステム104は、フィルタリングされた結果セット内の対を識別する。既に説明されたように、図4は、例示的な結果セットとの関連でこの動作をどのように実行できるかを示す。
ブロック706において、マイニングシステム104は、(個々の結果セットに関連する)ブロック704の結果を組み合わせて、トレーニングセットを提供することが可能である。既に説明されたように、図5は、この動作をどのように実行できるかを示す。
ブロック704は、説明を容易にするために、ブロック702とは別として示されるが、ブロック702および704は、統合された動作として実行可能である。さらに、ブロック702および704のフィルタリング動作ならびにマッチング動作は、動作の複数の段階にわたって分散可能である。例えば、マイニングシステム104は、ブロック706に続き、それらの結果項目にさらなるフィルタリングを実行できる。さらに、トレーニングシステム106は、(図6のブロック614〜618によって表されるように)その反復処理の過程で、それらの結果項目にさらなるフィルタリングを実行できる。
別の変形形態として、ブロック704は、個々の結果セット内の結果項目の対を確立する関連で説明された。しかし、もう1つのモードでは、マイニングシステム104は、異なる結果セットの全体で候補の対を確立することが可能である。
図8は、翻訳モデル102の例示的な応用を説明する手順800を示す。
ブロック802において、アプリケーションモジュール108は入力句を受信する。
ブロック804において、アプリケーションモジュール108は、翻訳モデル102を使用して、入力句を出力句に変換する。
ブロック806において、アプリケーションモジュール108は、その出力句に基づいて出力結果を生成する。異なるアプリケーションモジュールは、異なるそれぞれの利益を達成するために、異なるそれぞれの出力結果を提供することができる。
1つのシナリオでは、アプリケーションモジュール108は、翻訳モデル102を使用して、クエリ修正動作を実行することが可能である。この場合、アプリケーションモジュール108は、探索クエリとしてこの入力句を扱う。アプリケーションモジュール108は、この出力句を使用して、探索クエリを置換または補完することが可能である。例えば、この入力句が「shingles」である場合、アプリケーションモジュール108は、その出力句「zoster」を使用して、「shinglesおよびzoster」の補完されたクエリを生成することが可能である。アプリケーションモジュール108は、次いで、拡張されたクエリを探索エンジンに提示できる。
もう1つのシナリオでは、アプリケーションモジュール108は、翻訳モデル102を使用して、索引付け分類決定を行うことが可能である。この場合、アプリケーションモジュール108は、いずれかのテキストコンテンツを分類されることになる文書から抽出して、入力句としてそのテキストコンテンツを扱うことができる。アプリケーションモジュール108は、その出力句を使用して、その文書の主題に関する追加の洞察を集めることが可能であり、今度は、その文書の適切な分類を実現するために、その追加の洞察を使用することが可能である。
もう1つのシナリオでは、アプリケーションモジュール108は、翻訳モデル102を使用して、任意のタイプのテキスト改正動作を実行できる。この場合、アプリケーションモジュール108は、テキスト改正に関する候補としてその入力句を扱うことができる。アプリケーションモジュール108は、その出力句を使用して、その入力句が改正され得る様式を示唆することが可能である。例えば、その入力句が、「痛みのある発疹」という、どちらかといえば冗長なテキストに対応すると仮定する。アプリケーションモジュール108は、この入力句をより簡潔な「痛みを伴う発疹」に置換することが可能であることを示唆できる。この示唆を行う際に、アプリケーションモジュール108は、(その出力句が文法的誤りおよび/または綴り誤りを含まないと仮定して)元の句のいかなる文法的誤りおよび/または綴り誤りも修正することが可能である。一事例では、アプリケーションモジュール108は、ユーザが異なる改正の妥当性を評価することを可能にする何らかのタイプの情報に加えて、ユーザが入力句をどのように改正できるかに関する複数の選択肢をユーザに提供することが可能である。例えば、アプリケーションモジュール108は、(代表的な例を単に挙げると)あなたの考えを表現するこの方法は著者の80%によって使用されていると表示することによって、特定の改正に注釈をつけることができる。代わりに、アプリケーションモジュール108は、1つまたは複数の要件に基づいて、自動的に改正を行うことが可能である。
もう1つのテキスト改正事例では、アプリケーションモジュール108は、翻訳モデル102を使用して、テキスト切断動作を実行できる。例えば、アプリケーションモジュール108は、移動体電話デバイスなど、小型スクリーン表示デバイス上に提示するために元のテキストを受信することが可能である。アプリケーションモジュール108は、翻訳モデル102を使用して、入力句として扱われるテキストをそのテキストの省略バージョンに変換することが可能である。もう1つの事例では、アプリケーションモジュール108は、この手法を使用して、元の句がTwitterのような通信機構など、そのメッセージにサイズ制約を課す任意のメッセージ送信機構と互換性を持つように、その元の句を短縮することが可能である。
もう1つのテキスト改正事例では、アプリケーションモジュール108は、翻訳モデル102を使用して、文書または句を要約することが可能である。例えば、アプリケーションモジュール108は、この手法を使用して、元の要約の長さを削減することが可能である。もう1つの事例では、アプリケーションモジュール108は、この手法を使用して、テキストのより長い節に基づいてタイトルを提案することが可能である。代わりに、アプリケーションモジュール108は、翻訳モデル102を使用して、文書または句を拡張することが可能である。
もう1つのシナリオでは、アプリケーションモジュール108は、翻訳モデル102を使用して、広告情報の拡張を実行できる。この場合、例えば、広告主は、広告コンテンツ(例えば、ウェブページまたはその他のネットワークアクセス可能なコンテンツ)に関連する初期のトリガキーワードを選択した可能性がある。エンドユーザがこれらのトリガキーワードを入力した場合、またはユーザが、それとも、これらのトリガキーワードに関連するコンテンツを消費している場合、広告機構は、そのユーザをそれらのトリガキーワードに関連する広告コンテンツに向けることができる。この場合、アプリケーションモジュール108は、翻訳モデル102を使用して拡張されることになる入力句として、トリガキーワードの初期のセットを考慮することが可能である。代わりに、または加えて、アプリケーションモジュール108は、広告コンテンツ自体を入力句として扱うこともできる。アプリケーションモジュール108は、次いで、翻訳モデル102を使用して、広告コンテンツに関係するテキストを示唆することが可能である。広告主は、その示唆されたテキストに基づいて、1つまたは複数のトリガキーワードを提供することが可能である。
上述のアプリケーションは、代表的なものであり、包括的ではない。その他のアプリケーションが可能である。
上の説明では、出力句は入力句と同じ言語で表現されるという仮定が立てられた。この場合、出力句は、入力句のパラフレーズと見なすことができる。もう1つの事例では、マイニングシステム104およびトレーニングシステム106は、第1の言語の句を別の言語(または複数の他の言語)の対応する別の言語の句に変換する翻訳モデル102を作成するために使用可能である。
二言語コンテキストまたは多言語コンテキストで動作するために、マイニングシステム104は、二言語情報または多言語情報に関する上述の同じ基本的な動作を実行できる。一事例では、マイニングシステム104は、ネットワーク環境内で並列クエリを提出することによって、二言語の結果セットを確立することが可能である。すなわち、マイニングシステム104は、第1の言語で表現されたクエリのあるセットと、第2の言語で表現されたクエリの別のセットとを提出することが可能である。例えば、マイニングシステム104は、「rash zoster」という句を提出して、英語の結果セットを生成し、「zoster erupcion de piel」という句を提出して、英語の結果セットのスペイン語の同等物を生成することが可能である。マイニングシステム104は、次いで、英語の結果項目をスペイン語の結果項目にリンクする対を確立することが可能である。このマッチング動作の目的は、トレーニングシステム106が英語およびスペイン語の意味的に関係する句の間のリンクを識別することを可能にするトレーニングセットを提供することである。
もう1つの事例では、マイニングシステム104は、「shingles rash erupcion de piel」というクエリの場合など、英語およびスペイン語の主要用語の両方を組み合わせるクエリを提出することが可能である。この手法では、取出しモジュール116は、英語で表現された結果項目とスペイン語で表現された結果項目とを組み合わせる結果セットを提供することが予測できる。マイニングシステム104は、次いで、それらの結果項目が英語で表現されているかまたはスペイン語で表現されているかを区別せずに、この混合された結果セット内の異なる結果項目間のリンクを確立することが可能である。トレーニングシステム106は、混合されたトレーニングセット内の基礎となるパターンに基づいて、単一の翻訳モデル102を生成することが可能である。使用の際、翻訳モデル102は、単一言語モードで適用可能であり、この場合、翻訳モデル102は、入力句と同じ言語で出力句を生成するように制約される。または、翻訳モデル102は、二言語モードで動作することも可能であり、その場合、翻訳モデル102は、入力句と比べて異なる言語で出力句を生成するように制約される。または、翻訳モデル102は、制約されないモードで動作することが可能であり、その場合、翻訳モデル102は、結果を両方の言語で提案する。
C.代表的な処理機能性
図9は、上述の機能の任意の態様を実施するために使用可能な例示的な電気データ処理機能性900を記載する。図1および2を参照すると、例えば、システム100またはコンピューティング機能性202の任意の態様などを実施するために、図9に示される処理機能性900のタイプを使用することが可能である。一事例では、処理機能性900は、1つまたは複数の処理デバイスを含む、任意のタイプのコンピューティングデバイスに対応し得る。
処理機能性900は、RAM902およびROM904などの揮発性メモリならびに不揮発性メモリと同様に、1つまたは複数の処理デバイス906を含むことが可能である。処理機能性900はまた、ハードディスクモジュール、光ディスクモジュールなど、様々な媒体デバイス908をオプションで含む。処理機能性900は、(1つまたは複数の)処理デバイス906がメモリ(例えば、RAM902、ROM904、またはその他の場所)によって維持された命令を実行する場合、上で識別された様々な動作を実行できる。より一般的には、命令およびその他の情報は、静的メモリ記憶デバイス、磁気記憶デバイス、光記憶デバイスなどを含むが、これらに限定されない、任意のコンピュータ可読媒体910上に格納可能である。コンピュータ可読媒体という用語は、複数の記憶デバイスも包括する。コンピュータ可読媒体という用語は、例えば、有線伝送、ケーブル伝送、無線伝送など、第1の位置から第2の位置まで送信される信号も包括する。
処理機能性900は、(入力モジュール914を経由して)ユーザから様々な入力を受信して、(出力モジュールを経由して)ユーザに様々な出力を提供するための入出力モジュール912も含む。1つの特定の出力機構は、提示モジュール916および関連するグラフィカルユーザインターフェイス(GUI)918を含むことが可能である。処理機能性900は、1つまたは複数の通信導管922を経由して他のデバイスとデータを交換するための1つまたは複数のネットワークインターフェース920を含むことも可能である。1つまたは複数の通信バス924は、上述の構成要素を通信可能に一緒に結合する。
本主題は、構造的特徴および/または方法論的動作に特定の言語で説明されているが、添付の特許請求の範囲内で画定される本主題は、上述の特定の特徴または動作に限定されるとは限らない点を理解されたい。むしろ、上述の特定の特徴および動作は、特許請求の範囲を実施する例示的な形態として開示される。

Claims (15)

  1. 電気データ処理機能性を使用して、統計的翻訳モデルをトレーニングする際に使用するためのトレーニングセットを作成するための方法(600)であって、
    クエリを構築するステップ(606)と、
    前記クエリを電気データ取出しモジュールに提示するステップ(608)であって、前記取出しモジュールは、前記クエリに基づいて、構造化されていないリソース内で探索動作を実行するように構成された、提示するステップ(608)と、
    前記取出しモジュールから結果セットを受信するステップ(610)であって、前記結果セットは、前記探索動作の結果として、前記取出しモジュールによって識別された結果項目を提供する、受信するステップ(610)と、
    構造化されたトレーニングセットを作成するために、前記結果セットに処理を実行するステップ(612)であって、前記トレーニングセットは、前記結果セット内の前記結果項目の対を識別する、処理を実行するステップ(612)とを備え、
    前記トレーニングセットは、それによって電気トレーニングシステムが前記統計的翻訳モデルを学習できる基礎を提供することを特徴とする方法。
  2. 前記取出しモジュールは探索エンジンであり、前記構造化されていないリソースは、ネットワーク環境を経由してアクセス可能な収集リソース項目であることを特徴とする請求項1に記載の方法。
  3. 前記ネットワーク環境は広域ネットワークであることを特徴とする請求項2に記載の方法。
  4. 前記処理を実行するステップは、少なくとも1つの要件に基づいて、前記結果セット内の前記結果項目を制約するステップを含むことを特徴とする請求項1に記載の方法。
  5. 前記制約するステップは、結果項目に関連するランキングスコアに基づいて、ペアワイズのマッチングに関する候補として前記結果項目を識別するステップを含むことを特徴とする請求項4に記載の方法。
  6. 前記制約するステップは、結果項目と前記結果セットに関連するそれぞれの語彙的な署名との間の合意に基づいて、ペアワイズのマッチングに関する候補として前記結果項目を識別するステップを含むことを特徴とする請求項4に記載の方法。
  7. 前記制約するステップは、結果項目のそれぞれの対に関連する類似性スコアに基づいて、ペアワイズのマッチングに関する候補として結果項目を識別するステップを含むことを特徴とする請求項4に記載の方法。
  8. 前記制約するステップは、結果項目と前記結果項目の識別されたクラスタとの間の関連性に基づいて、ペアワイズでマッチングに関する候補を識別するステップを含むことを特徴とする請求項4に記載の方法。
  9. 前記処理を実行するステップは、それぞれの結果セットに関して、前記結果セット内の結果項目の対を識別するステップを備えることを特徴とする請求項1に記載の方法。
  10. 前記結果セット内の前記結果項目は、単一言語テキストコンテンツに対応することを特徴とする請求項1に記載の方法。
  11. 前記結果セット内の前記結果項目は、二言語テキストコンテンツに対応することを特徴とする請求項1に記載の方法。
  12. 前記結果項目は、前記取出しモジュールによって前記構造化されていないリソースから取り出されたテキスト区分を備え、前記テキスト区分は、前記構造化されていないリソース内のそれぞれのリソース項目の抜粋に対応することを特徴とする請求項1に記載の方法。
  13. 前記トレーニングセットに基づいて前記統計的翻訳モデルを生成するステップと、前記統計的翻訳モデルを適用するステップとをさらに備え、前記適用するステップは、
    前記統計的翻訳モデルを使用して、探索クエリを拡張するステップ、
    前記統計的翻訳モデルを使用して、文書索引付け決定を円滑にするステップ、
    前記統計的翻訳モデルを使用して、テキストコンテンツを改正するステップ、または
    前記統計的翻訳モデルを使用して、広告情報を拡張するステップのうちの1つを備えることを特徴とする請求項1に記載の方法。
  14. 統計的翻訳モデル(102)をトレーニングする際に使用するためのトレーニングセットを作成するための電気マイニングシステム(104)であって、
    クエリを構築するように構成されたクエリ提示モジュール(112)と、
    前記取出しモジュール(116)は、前記クエリに基づいて、構造化されていないリソース(110)内で探索動作を実行するように構成された取出しモジュール(116)に前記クエリを提示し、
    前記探索動作の結果として前記取出しモジュール(116)によって識別された結果項目を提供する結果セットを受信するように構成されたインターフェースモジュール(114)と、
    構造化されたトレーニングセットを作成するために、前記結果セットに関する処理を実行するように構成された、トレーニングセット準備モジュール(120)であって、前記トレーニングセットは前記結果セット内の結果項目の対を識別する、トレーニングセット準備モジュール(120)とを備え、
    前記トレーニングセットは、それによって電気トレーニングシステム(106)が前記統計的翻訳モデル(102)を学習できる基礎を提供し、
    前記結果セット内の前記結果項目は、前記取出しモジュール(116)によって前記構造化されていないリソースから取り出されたテキスト区分を備え、前記テキスト区分が、前記構造化されていないリソース内のそれぞれのリソース項目の少なくとも文の断片に対応し、前記リソース項目は、互いに対して事前に識別された関係を有さないことを特徴とする電気マイニングシステム(104)。
  15. 前記結果セット内の前記結果項目は、単一言語テキストコンテンツに対応し、前記トレーニングシステムによって作成された前記統計的翻訳モデルは、単一言語内の意味的に関係する句同士の間でマップするために使用されていることを特徴とする請求項14に記載のマイニングシステム。
JP2012511920A 2009-05-22 2010-05-14 構造化されていないリソースからの句対のマイニング Expired - Fee Related JP5479581B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US12/470,492 US20100299132A1 (en) 2009-05-22 2009-05-22 Mining phrase pairs from an unstructured resource
US12/470,492 2009-05-22
PCT/US2010/035033 WO2010135204A2 (en) 2009-05-22 2010-05-14 Mining phrase pairs from an unstructured resource

Publications (3)

Publication Number Publication Date
JP2012527701A true JP2012527701A (ja) 2012-11-08
JP2012527701A5 JP2012527701A5 (ja) 2013-06-27
JP5479581B2 JP5479581B2 (ja) 2014-04-23

Family

ID=43125158

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012511920A Expired - Fee Related JP5479581B2 (ja) 2009-05-22 2010-05-14 構造化されていないリソースからの句対のマイニング

Country Status (8)

Country Link
US (1) US20100299132A1 (ja)
EP (1) EP2433230A4 (ja)
JP (1) JP5479581B2 (ja)
KR (1) KR101683324B1 (ja)
CN (1) CN102439596B (ja)
BR (1) BRPI1011214A2 (ja)
CA (1) CA2758632C (ja)
WO (1) WO2010135204A2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021515322A (ja) * 2018-05-10 2021-06-17 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110015921A1 (en) * 2009-07-17 2011-01-20 Minerva Advisory Services, Llc System and method for using lingual hierarchy, connotation and weight of authority
US9792638B2 (en) 2010-03-29 2017-10-17 Ebay Inc. Using silhouette images to reduce product selection error in an e-commerce environment
US8861844B2 (en) 2010-03-29 2014-10-14 Ebay Inc. Pre-computing digests for image similarity searching of image-based listings in a network-based publication system
US8412594B2 (en) 2010-08-28 2013-04-02 Ebay Inc. Multilevel silhouettes in an online shopping environment
US9064004B2 (en) * 2011-03-04 2015-06-23 Microsoft Technology Licensing, Llc Extensible surface for consuming information extraction services
CN102789461A (zh) * 2011-05-19 2012-11-21 富士通株式会社 多语词典构建装置和多语词典构建方法
US8909516B2 (en) * 2011-10-27 2014-12-09 Microsoft Corporation Functionality for normalizing linguistic items
US8914371B2 (en) 2011-12-13 2014-12-16 International Business Machines Corporation Event mining in social networks
KR101359718B1 (ko) * 2012-05-17 2014-02-13 포항공과대학교 산학협력단 대화 관리 시스템 및 방법
CN102779186B (zh) * 2012-06-29 2014-12-24 浙江大学 一种非结构化数据管理的全过程建模方法
US9183197B2 (en) 2012-12-14 2015-11-10 Microsoft Technology Licensing, Llc Language processing resources for automated mobile language translation
US20140324879A1 (en) * 2013-04-27 2014-10-30 DataFission Corporation Content based search engine for processing unstructured digital data
US20140350931A1 (en) * 2013-05-24 2014-11-27 Microsoft Corporation Language model trained using predicted queries from statistical machine translation
US9912775B2 (en) * 2013-12-19 2018-03-06 Intel Corporation Method and apparatus for communicating between companion devices
US9881006B2 (en) * 2014-02-28 2018-01-30 Paypal, Inc. Methods for automatic generation of parallel corpora
US9740687B2 (en) 2014-06-11 2017-08-22 Facebook, Inc. Classifying languages for objects and entities
US20160012124A1 (en) * 2014-07-10 2016-01-14 Jean-David Ruvini Methods for automatic query translation
CN104462229A (zh) * 2014-11-13 2015-03-25 苏州大学 一种事件分类方法及装置
US9864744B2 (en) * 2014-12-03 2018-01-09 Facebook, Inc. Mining multi-lingual data
US9830404B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Analyzing language dependency structures
US10067936B2 (en) 2014-12-30 2018-09-04 Facebook, Inc. Machine translation output reranking
US9830386B2 (en) 2014-12-30 2017-11-28 Facebook, Inc. Determining trending topics in social media
US9477652B2 (en) 2015-02-13 2016-10-25 Facebook, Inc. Machine learning dialect identification
US20160350289A1 (en) * 2015-06-01 2016-12-01 Linkedln Corporation Mining parallel data from user profiles
US20170024701A1 (en) * 2015-07-23 2017-01-26 Linkedin Corporation Providing recommendations based on job change indications
US9734142B2 (en) 2015-09-22 2017-08-15 Facebook, Inc. Universal translation
US9990361B2 (en) * 2015-10-08 2018-06-05 Facebook, Inc. Language independent representations
US10586168B2 (en) 2015-10-08 2020-03-10 Facebook, Inc. Deep translations
US9747281B2 (en) 2015-12-07 2017-08-29 Linkedin Corporation Generating multi-language social network user profiles by translation
US10133738B2 (en) 2015-12-14 2018-11-20 Facebook, Inc. Translation confidence scores
US9734143B2 (en) 2015-12-17 2017-08-15 Facebook, Inc. Multi-media context language processing
US10002125B2 (en) 2015-12-28 2018-06-19 Facebook, Inc. Language model personalization
US9805029B2 (en) 2015-12-28 2017-10-31 Facebook, Inc. Predicting future translations
US9747283B2 (en) 2015-12-28 2017-08-29 Facebook, Inc. Predicting future translations
US10902215B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
US10902221B1 (en) 2016-06-30 2021-01-26 Facebook, Inc. Social hash for language models
CN106960041A (zh) * 2017-03-28 2017-07-18 山西同方知网数字出版技术有限公司 一种基于非平衡数据的知识结构化方法
US10380249B2 (en) 2017-10-02 2019-08-13 Facebook, Inc. Predicting future trending topics
KR102100951B1 (ko) * 2017-11-16 2020-04-14 주식회사 마인즈랩 기계 독해를 위한 질의응답 데이터 생성 시스템
CN110110078B (zh) * 2018-01-11 2024-04-30 北京搜狗科技发展有限公司 数据处理方法和装置、用于数据处理的装置
CN109033303B (zh) * 2018-07-17 2021-07-02 东南大学 一种基于约简锚点的大规模知识图谱融合方法
US20210406595A1 (en) * 2018-12-12 2021-12-30 Microsoft Technology Licensing, Llc Automatically generating training data sets for object recognition
US11664010B2 (en) 2020-11-03 2023-05-30 Florida Power & Light Company Natural language domain corpus data set creation based on enhanced root utterances
CN113010643B (zh) * 2021-03-22 2023-07-21 平安科技(深圳)有限公司 佛学领域词汇的处理方法、装置、设备及存储介质
US11656881B2 (en) 2021-10-21 2023-05-23 Abbyy Development Inc. Detecting repetitive patterns of user interface actions

Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JP2001043236A (ja) * 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2002245070A (ja) * 2001-02-20 2002-08-30 Hitachi Ltd データ表示方法及び装置並びにその処理プログラムを記憶した媒体
US20020198701A1 (en) * 2001-06-20 2002-12-26 Moore Robert C. Statistical method and apparatus for learning translation relationships among words
US20030204400A1 (en) * 2002-03-26 2003-10-30 Daniel Marcu Constructing a translation lexicon from comparable, non-parallel corpora
US20040102957A1 (en) * 2002-11-22 2004-05-27 Levin Robert E. System and method for speech translation using remote devices
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
JP2004252495A (ja) * 2002-09-19 2004-09-09 Advanced Telecommunication Research Institute International 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム
US20050102614A1 (en) * 2003-11-12 2005-05-12 Microsoft Corporation System for identifying paraphrases using machine translation
JP2005285129A (ja) * 2004-03-30 2005-10-13 Microsoft Corp 論理形式のための統計的言語モデル
JP2006285982A (ja) * 2005-03-31 2006-10-19 Microsoft Corp 検索エンジンの関連性を改良するデータマイニング技術
US20070067281A1 (en) * 2005-09-16 2007-03-22 Irina Matveeva Generalized latent semantic analysis

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO1997008604A2 (en) * 1995-08-16 1997-03-06 Syracuse University Multilingual document retrieval system and method using semantic vector matching
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
US6243669B1 (en) * 1999-01-29 2001-06-05 Sony Corporation Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation
US6266642B1 (en) * 1999-01-29 2001-07-24 Sony Corporation Method and portable apparatus for performing spoken language translation
US6442524B1 (en) * 1999-01-29 2002-08-27 Sony Corporation Analyzing inflectional morphology in a spoken language translation system
US6924828B1 (en) * 1999-04-27 2005-08-02 Surfnotes Method and apparatus for improved information representation
US6757646B2 (en) * 2000-03-22 2004-06-29 Insightful Corporation Extended functionality for an inverse inference engine based web search
US20070027672A1 (en) * 2000-07-31 2007-02-01 Michel Decary Computer method and apparatus for extracting data from web pages
US7478047B2 (en) * 2000-11-03 2009-01-13 Zoesis, Inc. Interactive character system
US7711547B2 (en) * 2001-03-16 2010-05-04 Meaningful Machines, L.L.C. Word association method and apparatus
CN1535433A (zh) * 2001-07-04 2004-10-06 库吉萨姆媒介公司 基于分类的可扩展交互式文档检索系统
AU2003267953A1 (en) * 2002-03-26 2003-12-22 University Of Southern California Statistical machine translation using a large monlingual corpus
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7194455B2 (en) * 2002-09-19 2007-03-20 Microsoft Corporation Method and system for retrieving confirming sentences
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
CN1290036C (zh) * 2002-12-30 2006-12-13 国际商业机器公司 根据机器可读词典建立概念知识的计算机系统及方法
US7346487B2 (en) * 2003-07-23 2008-03-18 Microsoft Corporation Method and apparatus for identifying translations
US7584092B2 (en) * 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7698125B2 (en) * 2004-03-15 2010-04-13 Language Weaver, Inc. Training tree transducers for probabilistic operations
US8296127B2 (en) * 2004-03-23 2012-10-23 University Of Southern California Discovery of parallel text portions in comparable collections of corpora and training using comparable texts
US20050216253A1 (en) * 2004-03-25 2005-09-29 Microsoft Corporation System and method for reverse transliteration using statistical alignment
US7620539B2 (en) * 2004-07-12 2009-11-17 Xerox Corporation Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing
US7505894B2 (en) * 2004-11-04 2009-03-17 Microsoft Corporation Order model for dependency structure
US7552046B2 (en) * 2004-11-15 2009-06-23 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7813918B2 (en) * 2005-08-03 2010-10-12 Language Weaver, Inc. Identifying documents which form translated pairs, within a document collection
US20070043553A1 (en) * 2005-08-16 2007-02-22 Microsoft Corporation Machine translation models incorporating filtered training data
US7937265B1 (en) * 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US8943080B2 (en) * 2006-04-07 2015-01-27 University Of Southern California Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections
US9020804B2 (en) * 2006-05-10 2015-04-28 Xerox Corporation Method for aligning sentences at the word level enforcing selective contiguity constraints
US7949514B2 (en) * 2007-04-20 2011-05-24 Xerox Corporation Method for building parallel corpora
US10460327B2 (en) * 2006-07-28 2019-10-29 Palo Alto Research Center Incorporated Systems and methods for persistent context-aware guides
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
GB2444084A (en) * 2006-11-23 2008-05-28 Sharp Kk Selecting examples in an example based machine translation system
CN101563682A (zh) * 2006-12-22 2009-10-21 日本电气株式会社 语句改述方法、程序以及系统
US8244521B2 (en) * 2007-01-11 2012-08-14 Microsoft Corporation Paraphrasing the web by search-based data collection
US8332207B2 (en) * 2007-03-26 2012-12-11 Google Inc. Large language models in machine translation
US9002869B2 (en) * 2007-06-22 2015-04-07 Google Inc. Machine translation for query expansion
US7983903B2 (en) * 2007-09-07 2011-07-19 Microsoft Corporation Mining bilingual dictionaries from monolingual web pages
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
US8209164B2 (en) * 2007-11-21 2012-06-26 University Of Washington Use of lexical translations for facilitating searches
US20090182547A1 (en) * 2008-01-16 2009-07-16 Microsoft Corporation Adaptive Web Mining of Bilingual Lexicon for Query Translation
US8326630B2 (en) * 2008-08-18 2012-12-04 Microsoft Corporation Context based online advertising
US8306806B2 (en) * 2008-12-02 2012-11-06 Microsoft Corporation Adaptive web mining of bilingual lexicon
US8352321B2 (en) * 2008-12-12 2013-01-08 Microsoft Corporation In-text embedded advertising

Patent Citations (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1074210A (ja) * 1996-07-05 1998-03-17 Hitachi Ltd 文献検索支援方法及び装置およびこれを用いた文献検索サービス
JP2001043236A (ja) * 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2002245070A (ja) * 2001-02-20 2002-08-30 Hitachi Ltd データ表示方法及び装置並びにその処理プログラムを記憶した媒体
US20020198701A1 (en) * 2001-06-20 2002-12-26 Moore Robert C. Statistical method and apparatus for learning translation relationships among words
US20030204400A1 (en) * 2002-03-26 2003-10-30 Daniel Marcu Constructing a translation lexicon from comparable, non-parallel corpora
JP2004252495A (ja) * 2002-09-19 2004-09-09 Advanced Telecommunication Research Institute International 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム
US20040102957A1 (en) * 2002-11-22 2004-05-27 Levin Robert E. System and method for speech translation using remote devices
JP2004206517A (ja) * 2002-12-26 2004-07-22 Nifty Corp ホットキーワード提示方法及びホットサイト提示方法
US20050102614A1 (en) * 2003-11-12 2005-05-12 Microsoft Corporation System for identifying paraphrases using machine translation
JP2005285129A (ja) * 2004-03-30 2005-10-13 Microsoft Corp 論理形式のための統計的言語モデル
JP2006285982A (ja) * 2005-03-31 2006-10-19 Microsoft Corp 検索エンジンの関連性を改良するデータマイニング技術
US20070067281A1 (en) * 2005-09-16 2007-03-22 Irina Matveeva Generalized latent semantic analysis

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CSNG200800018010; 永田 昌明、外2名: '機械翻訳最新事情' 情報処理 第49巻,第1号, 20080115, p.89-95, 社団法人情報処理学会 *
JPN6014000552; 永田 昌明、外2名: '機械翻訳最新事情' 情報処理 第49巻,第1号, 20080115, p.89-95, 社団法人情報処理学会 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021515322A (ja) * 2018-05-10 2021-06-17 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム
JP7179273B2 (ja) 2018-05-10 2022-11-29 ▲騰▼▲訊▼科技(深▲セン▼)有限公司 翻訳モデルのトレーニング方法、語句翻訳の方法、機器、記憶媒体及びコンピュータプログラム
US11900069B2 (en) 2018-05-10 2024-02-13 Tencent Technology (Shenzhen) Company Limited Translation model training method, sentence translation method, device, and storage medium

Also Published As

Publication number Publication date
CN102439596B (zh) 2015-07-22
EP2433230A2 (en) 2012-03-28
EP2433230A4 (en) 2017-11-15
KR101683324B1 (ko) 2016-12-06
US20100299132A1 (en) 2010-11-25
JP5479581B2 (ja) 2014-04-23
KR20120026063A (ko) 2012-03-16
CA2758632A1 (en) 2010-11-25
CA2758632C (en) 2016-08-30
BRPI1011214A2 (pt) 2016-03-15
WO2010135204A2 (en) 2010-11-25
CN102439596A (zh) 2012-05-02
WO2010135204A3 (en) 2011-02-17

Similar Documents

Publication Publication Date Title
JP5479581B2 (ja) 構造化されていないリソースからの句対のマイニング
Resnik et al. The web as a parallel corpus
US11080295B2 (en) Collecting, organizing, and searching knowledge about a dataset
US9727637B2 (en) Retrieving text from a corpus of documents in an information handling system
US20160189029A1 (en) Displaying Quality of Question Being Asked a Question Answering System
US10810215B2 (en) Supporting evidence retrieval for complex answers
US9542496B2 (en) Effective ingesting data used for answering questions in a question and answer (QA) system
US20150178623A1 (en) Automatically Generating Test/Training Questions and Answers Through Pattern Based Analysis and Natural Language Processing Techniques on the Given Corpus for Quick Domain Adaptation
US9678941B2 (en) Domain-specific computational lexicon formation
US9684714B2 (en) Using paraphrase metrics for answering questions
Bernardini et al. Old needs, new solutions: comparable corpora for language professionals
Salunkhe et al. Hybrid machine translation for English to Marathi: A research evaluation in Machine Translation:(Hybrid translator)
Rigouts Terryn et al. HAMLET: hybrid adaptable machine learning approach to extract terminology
CN103729343A (zh) 基于百科链接共现的语义消岐方法
CN114141384A (zh) 用于检索医学数据的方法、设备和介质
Hui et al. Application of literature-based discovery in nonmedical disciplines: a survey
Sridhar et al. A Scalable Approach to Building a Parallel Corpus from the Web.
Raja et al. Exploring Edit Distance for Normalising Out-of-Vocabulary Malay Words on Social Media
US20200257990A1 (en) Plug-And-Ingest Framework for Question Answering Systems
CN111742321A (zh) 用于独立于领域的术语链接的系统和方法
Blancafort et al. TTC Web platform: from corpus compilation to bilingual terminologies for MT and CAT tools
Neale et al. First steps in using word senses as contextual features in maxent models for machine translation
Nair et al. Language dependent features for unl-malayalam deconversion
Sheng et al. Coherence and Salience-Based Multi-Document Relationship Mining
Abidin et al. Text Stemming and Lemmatization of Regional Languages in Indonesia: A Systematic Literature Review

Legal Events

Date Code Title Description
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130507

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20130507

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20130712

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20130719

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20131224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140114

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140212

R150 Certificate of patent or registration of utility model

Ref document number: 5479581

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees