JP2005149494A - 機械翻訳技術を使用してパラフレーズを特定するためのシステム - Google Patents

機械翻訳技術を使用してパラフレーズを特定するためのシステム Download PDF

Info

Publication number
JP2005149494A
JP2005149494A JP2004316990A JP2004316990A JP2005149494A JP 2005149494 A JP2005149494 A JP 2005149494A JP 2004316990 A JP2004316990 A JP 2004316990A JP 2004316990 A JP2004316990 A JP 2004316990A JP 2005149494 A JP2005149494 A JP 2005149494A
Authority
JP
Japan
Prior art keywords
text
paraphrase
alignment
processing system
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2004316990A
Other languages
English (en)
Inventor
Christopher B Quirk
ビー.クワーク クリストファー
Christopher J Brockett
ジェイ.ブロケット クリストファー
B Doran William
ビー.ドラン ウィリアム
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005149494A publication Critical patent/JP2005149494A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/42Data-driven translation
    • G06F40/44Statistical methods, e.g. probability models
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Probability & Statistics with Applications (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 機械翻訳技術を使用してパラフレーズを特定するためのシステムを提供する
【解決手段】 本発明は、共通のイベントについて書かれた、異なる記事のクラスタから、テキストセグメントのセットを獲得する。テキストセグメントのセットは、次に、テキスト整列技術の適用を受けて、テキストの中のテキストセグメントからパラフレーズが特定される。また、本発明を使用して、パラフレーズを生成することもできる。
【選択図】 図2

Description

本発明は、テキスト内のパラフレーズを特定することを扱う。より具体的には、本発明は、機械翻訳技術を使用してパラフレーズを特定し、生成することを扱う。
パラフレーズの認識および生成は、自然言語処理システムの多くのアプリケーションの重要な一面である。2つのテキストの意味が等価であることを明らかにできることにより、システムは、はるかにインテリジェントに動作することができるようになる。この領域における研究の基本的な目標は、語彙、語順、読み取りレベル、および簡潔さの度合いなどの特徴を操作する一方で、テキストの意味的内容を保ちながらテキストを言い換えることができるプログラムをもたらすことである。
パラフレーズの特定および生成を活用することができる1つの例示的なアプリケーションには、質疑応答システムが含まれる。例えば、エンティティ「John Doe(何某)」が有名な人である場合で、「When did John Doe quit his job?(何某は、いつ仕事をやめましたか)」という質問を考慮されたい。世界規模のコンピュータネットワーク(または世界規模のコンピュータネットワーク上で記事を発表する報道システム)などの大きいデータコーパスが、この質問に回答するテキストを既に含んでいる可能性が非常に高い。実際、そのようなコーパスは、この質問に答え、この質問と全く同一の言い回しになっているテキストを既に含んでいる可能性がある。したがって、従来の探索エンジンは、この質問に合致するテキストを難なく見つけ出して、適切な結果を戻す可能性がある。
D. Lin and P. Pantel, "DIRT-DISCOVERY OF INFERENCE RULES FROM TEXT", Proceedings of ACMSIGKDD Conference on Knowledge Discovery and Data Mining, pages 323-328 (2001) Y. Shinyama, S. Sekine, K. Sudo and R. Grisham, "AUTOMATIC PARAPHRASE ACQUISITION FROM NEWS ARTICLES", Proceedings of Human Language Technology Conference, San Diego, CA (HLT 2002) Barzilay R. and L. Lee, "LEARNING TO PARAPHRASE: AN UNSUPERVISED APPROACH USING MULTIPLE-SEQUENCE ALIGNMENT", Proceedings of HLT/NAACL: (2003), Edmonton, Canada Barzilay and McKeown, "Extracting Paraphrases From a Parallel Corpus", Proceedings of ACL/EACL (2001) B. Pang, K. Knight, and D. Marcu, "SYNTAX BASED ALIGNMENT OF MULTIPLE TRANSLATION: EXTRACTING PARAPHRASES AND GENERATING NEW SENTENCES", Proceedings of NAACL-HLT, 2003 HTTP://www.ai.mit.edu/people/jimmylin/papers/ibrahim02.pdfに置かれたIbrahim, Ali, "EXTRACTING PARAPHRASES FROM ALIGNED CORPORA", Master Thesis, MIT (2002) Gale, William, A. and Church, Kenneth W., "A PROGRAM FOR ALIGNING SENTENCES IN BILINGUAL CORPORA", Proceedings of the Associations for Computational Linguistics, Pages 177-184 (1991) P.F. Brown et al., "The Mathematics of Statistical Machine Translation: Parameter Estimation", Computational Linguistics, 19:263-312, (June 1993) Y. Wang and A. Waibel, "Decoding Algorithm in Statistical Machine Translation", Proceedings of 35th Annual Meeting of the Association of Computational Linguistics (1997)
しかし、上述の問題は、イントラネット上で見られるデータコーパスなどのより小さいデータコーパスを探索する場合、はるかに難しくなる。その場合、その小さいデータコーパスが、質問に回答するテキストを含んでいることが可能であっても、回答は、質問とは異なる言い回しになっている可能性がある。例えば、以下の文はすべて、前述の質問に回答するが、質問とは異なる言い回しになっている。
John Doe resigned yesterday.(何某は、昨日、辞職しました。)
John Doe left his position yesterday.(何某は、昨日、職を離れました。)
John Doe left his government post yesterday.(何某は、昨日、政府のポストを離れました。)
John Doe stepped down yesterday.(何某は、昨日、辞任しました。)
Yesterday,John Doe decided to explore new career challenges.(昨日、何某は、新たな職の機会を探ることを決めました)
上記の回答は、質問とは異なる言い回しになっているので、従来の探索エンジンは、探索しているコーパスの中のこれらのテキストの回答だけを与えられて、良好な結果を戻すことにおいて困難に直面する可能性が高い。
パラフレーズの認識および生成の問題に対処するための従来のシステムには、限られた文脈でこの問題に対処しようと試みる大規模な手作業でコーディングされた作業が含まれる。例えば、大規模な手作業でコーディングされたシステムは、同一の事柄の多種多様な言い表し方と、コマンド−制御システムに受け入れられる形態の間でマッピングを行おうと試みる。もちろん、これは、ユーザが何事かを言い表す可能性があるすべての異なる仕方をコードの作成者が思い付くことはできないため、極めて困難である。したがって、研究者たちの間で重点は、手作業からパラフレーズの特定および生成の自動的方法に移っている。
テキストのパラフレーズ関係を自動的に特定することを目的とするシステムに関する最新の研究には、非特許文献1が含まれる。非特許文献1の論文は、ニューズワイヤ(newswire)データの解析されたコーパスの中で同一の「アンカーポイント(anchor points)」(すなわち、同一の語、または類似する語)をリンクする依存関係パスの分布特性を考査する。ニュースデータの特殊な諸特性のいずれも活用されていない。というのは、解析されるコーパスが、単に一言語データの大規模なソースと見なされているからである。基本的な着想は、同一の語、または類似する語をリンクする高頻度の依存関係グラフパス自体の意味が、類似している可能性が高いということである。ギガバイトの新聞データを調べた際、システムは、以下のようなパターンを特定した。すなわち、
XがYによって解決される。
XがYを解決する。
Xが、Yの解を見つけ出す。
XがYを解決しようと試みる。
非特許文献1のシステムは、「X動詞Y」のような非常に限られた種類の「3単位(triple)」関係に限られている。
パラフレーズ特定を扱う別の論文が、非特許文献2である。非特許文献2の論文では、同一のイベントを記述する、異なる新聞からの記事が、しばしば、パラフレーズ関係の典型を示すという所見が述べられている。この論文は、名前付きエンティティ(人々、場所、日付、およびアドレスなどの)が、同一のトピック、または同一日に関する異なる新聞記事にわたって不変のままであるという前提に依拠する技術を説明している。記事は、既存の情報検索システムを使用して、例えば、「殺人」または「人事(personnel)」のグループまたはクラスタにクラスタ化される。名前付きエンティティには、統計タガー(tagger)を使用して注釈が付けられ、次に、データは、一言語の構文解析を受けて、構文依存関係ツリーが作成される。各クラスタ内で、文は、その文が含む名前付きエンティティに基づいてクラスタ化される。例えば、以下の文は、同一の4つの名前付きエンティティを共有しているためにクラスタ化される。
Vice President Osamu Kuroda of Nihon Yamamuri Glass Corp.was promoted President.(ニホンヤマムリグラス社の副社長クロダオサムは、社長に昇格した。)
Nihon Yamamuri Glass Corp.decided the promotion of Vise President Osamu Kuroda to President on Monday.(ニホンヤマムリグラス社は、月曜日に、副社長クロダオサムの社長への昇格を決めた。)
名前付きエンティティの重なり合いのため、上記の文は、パラフレーズ関係でリンクされているものと想定される。次に、非特許文献2は、情報抽出の分野からの既存の機械を使用して、上記の文をリンクするパターンを特定しようと試みる。
また、非特許文献2は、非常に単純な句レベルのパターンを学習することも試みるが、その技術は、名前付きエンティティアンカーポイントへの依拠によって制限されている。それらの容易に特定されるアンカーなにしは、非特許文献2は、ペアの文から何も学習することができない。非特許文献2が学習する関係はすべて、特定の領域内における特定のタイプのエンティティと何らかのタイプのイベントの間の関係を中心とする。結果は、特に、トレーニング文が非常にわずかな名前付きエンティティしか含まない場合、かなり劣悪である。
別の論文もパラフレーズを扱っている。非特許文献3では、トピック検出ソフトウェアを使用して、単一のソースからの、数年分のデータからの主題が類似した新聞記事をクラスタ化する。より具体的には、非特許文献3は、テロ事件を記述する記事を特定しようと試みる。非特許文献3は、次に、基本的な全体的形態を共有する、または複数のキーワードを共有する文を見つけ出すため、それらの記事からの文をクラスタ化する。それらのクラスタは、ある代替の要素を可能にする文のテンプレートモデルを構築するための基礎として使用される。要するに、非特許文献3は、数年を隔てて生じた可能性があるイベントであっても、異なるイベントの類似した記述を見つけ出すことに重点を置いている。形態で文をグループ化することにこのように重点を置くことは、この技術が、より興味深いパラフレーズのいくつかを見つけ出さないことを意味する。
また、非特許文献3は、2つの文を類似しているとして分類するために、語順の強い類似性を要求する。例えば、非特許文献3は、イベント記述の能動/受動の変種さえ、関連しているとして分類しない可能性がある。非特許文献3によって学習されるテンプレートパラフレーズ関係は、全体的に固定された語順を共有する文のセットから導出される。システムによって学習されるパラフレーズは、より大きい固定された構造内の柔軟性の区域に相当する。また、非特許文献3は、生成スキームを提案している点で、文献の中で唯一であるように思われることにも留意されたい。本セクションで説明したその他の研究は、パラフレーズを認識することだけを目的としている。
別の論文非特許文献4は、単一のソースドキュメントの複数の翻訳に依拠する。しかし、非特許文献4は、自らの研究を機械翻訳技術から明確に区別している。非特許文献4は、関連する文における語の間に完全な一致がなければ、「クリーンな並列コーパスに基づいてMTコミュニティで開発された方法」を使用することが妨げられると述べている。このため、非特許文献4は、一言語パラフレーズを学習する作業に標準の機械翻訳技術を適用することが可能であるという考えを拒否している。
別の従来技術のシステムも、パラフレーズを扱っている。そのシステムは、単一のソースの複数の翻訳に依拠して、パラフレーズ関係の有限状態表現を構築する。非特許文献5である。
さらに別の先行する参考文献も、パラフレーズ認識を扱っている。非特許文献6である。非特許文献6は、文が、「整列される」、つまり「整列」の対象となり、パラフレーズが特定されることを示している。しかし、非特許文献6で使用される「整列」という用語は、語または句の整列ではなく、文の整列を意味しており、機械翻訳システムにおいて実行される従来の語および句の整列のことを指していない。代わりに、非特許文献6で説明されている整列は、1つの言語における文を別の言語における対応する翻訳と整列させようと試みる下記の論文に基づく。すなわち、
非特許文献7である。非特許文献6は、このアルゴリズムを使用して、例えば、ジュールベルヌの小説の複数の英語翻訳の中の文を整列させる。しかし、文の構造は、翻訳ごとに劇的に異なる可能性がある。ある翻訳者が単一の長い文として表す内容を、別の翻訳者は、2つのより短い文にマップする可能性がある。これは、単一の小説の異なる翻訳における文の全体の数が一致せず、等価の文を特定するのに何らかの種類の自動化された文整列手続きが必要とされることを意味する。これらの整列された一言語文からパラフレーズを抽出するために非特許文献6が使用する全体的な技術は、非特許文献4に記載された複数翻訳概念に、非特許文献1で説明されるDIRTフレームワークの変種を加えた物から導出される。
本発明は、一般的なイベントについて書かれた複数の異なる記事(記事のクラスタ)からテキストセグメントのセットを獲得する。次に、そのセットの中のテキストセグメントが、語/句整列技術の適用を受けて、パラフレーズが特定される。デコーダを使用して、テキストセグメントペアからパラフレーズを生成することができる。
一実施形態では、テキストセグメントのセットのソースは、互いに極めて近接した期間内に同一のイベントについて書かれた、異なる記事である。テキストセグメントは、例えば、それらの記事から抽出された特定の文であることが可能である。例えば、ほぼ同時に同一のイベントについて書かれたニュース記事の最初の2つの文は、しばしば、非常に似通った情報を含むことが分かっている。したがって、一実施形態では、ほぼ同時に同一のイベントについて書かれた複数の異なる記事の最初の2つの文を一緒にクラスタ化して、文セットのソースとして使用する。もちろん、様々な異なるイベントに関して比較的多数の記事が書かれており、各クラスタが同一のイベントについて書かれた記事のグループを含む、記事の複数のクラスタを形成することもできる。
一実施形態では、次に、記事のクラスタから導出されたテキストセグメントの所与のセットの中のテキストセグメントを、そのセットの中の他のテキストセグメントに対してペアにし、ペアにされたテキストセグメントを入力として与えられて、語/句整列(または機械翻訳)技術を使用してパラフレーズを特定する。語/句整列システムは、通常、異なる言語におけるテキストセグメントを対象にするが、本発明の一実施形態によれば、整列システムは、共通言語におけるテキスト文を対象にする。テキストセグメントは、単に同一の事柄の異なる言い表し方と見なされる。
一実施形態では、テキストセグメントセットは、ヒューリスティックな、またはその他のフィルタリング技術を使用してフィルタ処理することができる。さらに別の実施形態では、語/句整列システムにおいてパラフレーズを特定するために生成されるモデルが、後のトレーニングデータにおいてパラフレーズを特定するのにも使用される。
本発明の別の実施形態によれば、整列システムによって出力されたパラフレーズおよびモデルを所与として、復号化アルゴリズムを使用してパラフレーズが生成される。
本発明は、語/句整列技術を使用して、パラフレーズ関係を特定し、場合により、生成することを扱う。しかし、本発明をさらに詳細に説明するのに先立って、本発明を使用することができる1つの例示的な環境を説明する。
図1は、本発明を実施することができる適切なコンピューティングシステム環境100の例を示している。コンピューティングシステム環境100は、適切なコンピューティング環境の一例に過ぎず、本発明の用途または機能性の範囲について何ら限定を示唆するものではない。また、コンピューティング環境100が、例示的な動作環境100に例示したコンポーネント群のいずれの1つ、または組み合わせに関連する依存関係または要件も有すると解釈してはならない。
本発明は、他の多数の汎用または専用のコンピューティングシステム環境またはコンピューティングシステム構成で機能する。本発明で使用するのに適する可能性がある周知のコンピューティングシステム、コンピューティング環境、および/またはコンピューティング構成の例には、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドデバイスまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記のシステムまたはデバイスのいずれかを含む分散コンピューティング環境などが含まれるが、以上には限定されない。
本発明は、コンピュータによって実行される、プログラムモジュールなどの、コンピュータ実行可能命令の一般的な文脈において説明することができる。一般に、プログラムモジュールには、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などが含まれる。本発明は、通信ネットワークを介してリンクされたリモート処理デバイスによってタスクが実行される分散コンピューティング環境において実施することもできる。分散コンピューティング環境では、プログラムモジュール群は、メモリ記憶装置を含むローカルコンピュータ記憶メディアとリモートコンピュータ記憶メディアの両方の中に配置することができる。
図1を参照すると、本発明を実施するための例示的なシステムが、コンピュータ110の形態で汎用コンピューティングデバイスを含んでいる。コンピュータ110のコンポーネント群には、処理装置120、システムメモリ130、ならびにシステムメモリから処理装置120までを含む様々なシステムコンポーネントを結合するシステムバス121が含まれることが可能であるが、以上には限定されない。システムバス121は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、およびローカルバスを含め、いくつかのタイプのバス構造のいずれであってもよい。例として、限定としてではなく、そのようなアーキテクチャには、業界標準アーキテクチャ(Industry Standard Architecture)(ISA)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture)(MCA)バス、エンハンストISA(Enhanced ISA)(EISA)バス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association)(VESA)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnect)(PCI)バスが含まれる。
コンピュータ110は、通常、様々なコンピュータ可読メディアを含む。コンピュータ可読メディアは、コンピュータ110がアクセスすることができる任意の利用可能なメディアであることが可能であり、揮発性メディアと不揮発性メディア、リムーバブルメディアと固定メディアがともに含まれる。例として、限定としてではなく、コンピュータ可読メディアは、コンピュータ記憶メディアおよび通信メディアを含むことが可能である。コンピュータ記憶メディアには、コンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータなどの情報を格納するために任意の方法または技術で実装された揮発性メディアと不揮発性メディア、リムーバブルメディアと固定メディアがともに含まれる。コンピュータ記憶メディアには、RAM、ROM、EEPROM,フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多用途ディスク(DVD)またはその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたはその他の磁気記憶装置、あるいは所望の情報を格納するのに使用することができ、コンピュータ100がアクセスすることができる他の任意のメディアが含まれるが、以上には限定されない。通信メディアは、通常、搬送波WAVなどの変調されたデータ信号、またはその他のトランスポート機構でコンピュータ可読命令、データ構造、プログラムモジュール、またはその他のデータを実体化し、あらゆる情報配信メディアが含まれる。「変調されたデータ信号」という用語は、信号内に情報をエンコードするような形で特性の1つまたは複数が設定されている、または変更されている信号を意味する。例として、限定としてではなく、通信メディアには、有線ネットワークまたは直接有線接続などの有線メディア、ならびに音響メディア、FRメディア、赤外線メディア、およびその他の無線メディアなどの無線メディアが含まれる。また、上記のメディアのいずれかの組み合わせも、コンピュータ可読メディアの範囲に含められなければならない。
システムメモリ130は、読み取り専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性メモリおよび/または不揮発性メモリの形態でコンピュータ記憶メディアを含む。始動中などにコンピュータ110内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入出力システム133(BIOS)が、通常、ROM131の中に格納される。RAM132は、通常、処理装置120が即時にアクセスすることができ、かつ/または処理装置120が現在、処理しているデータおよび/またはプログラムモジュール群を含む。例として、限定としてではなく、図1は、オペレーティングシステム134、アプリケーションプログラム群135、その他のプログラムモジュール群136、およびプログラムデータ137を示している。
コンピュータ110は、その他のリムーバブルな/固定の、揮発性/不揮発性のコンピュータ記憶メディアも含むことが可能である。単に例として、図1は、固定不揮発性磁気メディアに対して読み取りまたは書き込みを行うハードディスクドライブ141、リムーバブル不揮発性磁気ディスク152に対して読み取りまたは書き込みを行う磁気ディスクドライブ151、およびCD−ROMまたはその他の光メディアなどのリムーバブル不揮発性光ディスク156に対して読み取りまたは書き込みを行う光ディスクドライブ155を示している。例示的な動作環境において使用することができるその他のリムーバブルな/固定の、揮発性/不揮発性コンピュータ記憶メディアには、磁気テープカセット、フラッシュメモリカード、デジタルバーサタイルディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどが含まれるが、以上には限定されない。ハードディスクドライブ141は、通常、インタフェース140のような固定メモリのインタフェースを介してシステムバス121に結合され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インタフェース150のようなリムーバブルメモリインタフェースでシステムバス121に結合される。
以上に説明し、図1に示したドライブ群、および関連するコンピュータ記憶メディアにより、コンピュータ可読命令、データ構造、プログラムモジュール、およびその他のデータのストレージがコンピュータ110に提供される。図1で、例えば、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム群145、その他のプログラムモジュール群146、およびプログラムデータ147を格納していることが示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム群135、その他のプログラムモジュール群136、およびプログラムデータ137と同一であることも、異なることも可能であることに留意されたい。オペレーティングシステム144、アプリケーションプログラム群145、その他のプログラムモジュール群146、およびプログラムデータ147に、ここでは、少なくともそれらが異なるコピーであることを示すために異なる符号を付けている。
ユーザは、キーボード162、マイクロフォン163、ならびにマウス、トラックボール、またはタッチパッドのようなポインティングデバイス161などの入力デバイス群を介して、コマンドおよび情報をコンピュータ110に入力することができる。その他の入力デバイス群(図示せず)には、ジョイスティック、ゲームパッド、サテライトディッシュ、スキャナなどが含まれることが可能である。これらの、およびその他の入力デバイス群は、しばしば、システムバスに結合されたユーザ入力インタフェース160を介して処理装置120に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインタフェースおよびバス構造で接続してもよい。また、モニタ191、またはその他のタイプのディスプレイデバイスも、ビデオインタフェース190のようなインタフェースを介してシステムバス121に接続される。モニタに加え、コンピュータは、出力周辺インタフェース195を介して接続することができるスピーカ197やプリンタ196などの他の周辺出力デバイス群も含むことが可能である。
コンピュータ110は、リモートコンピュータ180のような1つまたは複数のリモートコンピュータに対する論理接続を使用するネットワーク化された環境において動作することもできる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、または他の一般的なネットワークノードであることが可能であり、通常、コンピュータ110に関連して前述した要素の多く、またはすべてを含む。図1に示した論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、その他のネットワークも含むことが可能である。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータネットワーク、イントラネット、およびインターネットで一般的である。
LANネットワーキング環境で使用される場合、コンピュータ110は、ネットワークインタフェースまたはネットワークアダプタ170を介してLAN171に接続される。WANネットワーキング環境で使用される場合、コンピュータ110は、通常、インターネットなどのWAN173を介して通信を確立するためのモデム172、またはその他の手段を含む。内部にあることも、外部にあることも可能なモデム172は、ユーザ入力インタフェース160、またはその他の適切な機構を介してシステムバス121に接続することができる。ネットワーク化された環境では、コンピュータ110に関連して示したプログラムモジュール群、またはプログラムモジュール群の諸部分は、リモートメモリ記憶装置の中に格納することができる。例として、限定としてではなく、図1は、リモートアプリケーションプログラム群185が、リモートコンピュータ180上に常駐していることを示している。図示したネットワーク接続は、例示であり、コンピュータ間で通信リンクを確立するその他の手段も使用できることが認められよう。
本発明は、図1に関連して説明したコンピュータシステム上で実行できることに留意されたい。しかし、本発明は、サーバ上、メッセージ処理に専用のコンピュータ上、あるいは本発明の異なる部分が、分散コンピューティングシステムの異なる部分の上で実行される分散システム上でも実施することができる。
図2は、パラフレーズ処理システム200の一実施形態のブロック図である。システム200は、ドキュメントデータベース202に対するアクセスを有し、ドキュメントクラスタ化システム204、テキストセグメント選択システム206、語/句整列システム210、識別システム入力テキスト211、および生成システム入力テキスト212を含む。図3は、図2に示したシステム200の動作を示す流れ図である。
ドキュメントデータベース202は、例として、様々な異なる報道機関によって書かれた様々な異なるニュース記事を含む。記事のそれぞれは、例として、記事がいつ頃に作成されたかを示すタイムスタンプを含む。また、異なる報道機関からの複数の記事は、例として、多種多様な異なるイベントについて書かれている。
本発明は、ニュース記事に関連して説明するが、もちろん、一般的なプロセスを説明する技術論文、一般的な医療手続きを説明する様々な医学論文などのその他のソースドキュメントも使用することができる。
ドキュメントクラスタ化システム204は、図3のブロック214で示すとおり、ドキュメントデータベース202にアクセスする。図2で単一のデータベース202を示しているが、代わりに、複数のデータベースにアクセスすることも可能であることにも留意されたい。
クラスタ化システム204は、同一のイベントについて書かれたドキュメントデータベース202の中の記事を特定する。一実施形態では、記事は、ほぼ同時に(必要に応じて、互いに所定の時間閾値内、例えば、1ヶ月内、1週間内、一日内、数時間内などに)書かれていることも特定される。同一のイベントについて(かつ、場合により、ほぼ同時に)書かれていることが特定された記事は、ドキュメントクラスタ218を形成する。このことを図3にブロック216で示している。
関連するソース記事がクラスタ218として特定されると、それらの記事の中の所望のテキストセグメント(文、句、見出し、段落など)が抽出される。例えば、ニュース記事における報道関係者の慣習により、記事の最初の1つ、2つの文が、記事の残りの部分の要約を表すべきことが忠告されている。したがって、本発明の一実施形態によれば、記事(例として、異なる報道機関によって書かれている)が、クラスタ218にクラスタ化され、テキストセグメント選択システム206に提供されて、各クラスタ218内で各記事の最初の2つの文が抽出される。この説明は、文に関連して進めているが、これは単に例示であり、その他のテキストセグメントも同じく容易に使用できることに留意されたい。記事の各クラスタ218からの文は、クラスタ化された記事に対応する文セット222として出力される。文セット222は、テキストセグメント選択システム206によって語/句整列システム210に出力される。このことを図3にブロック220で示している。
文が使用される特定の例では、このやり方で収集される文の多くは、文体上の理由で異なる報道機関における編集者によってわずかに書き換えられた何らかの単一の元のソース文のバージョンであるように見える。しばしば、文のそれらのセットは、文中に現れる節の順序などの、少しの形でしか異なってないことが観察されている。
テキストセグメント選択システム206は、各クラスタに関する文のセット222を生成する。語/句整列システム210は、セットの中の文の全包括的な検査に基づいて語または句の間のマッピングを抽出することにより、文の大きいセットを操作することができることに留意されたい。しかし、この説明は、単に1つの例示的な実施形態として、文のペアを生成し、そのペアに対して整列を実行することに関して進める。このため、一実施形態では、特定された文セットは、文のペアに形成される。したがって、テキストセグメント選択システム206は、セットの中の各文をそのセットの中の他のすべての文に対してペアにして、各セットに関する文ペアを生成する。文ペアは、一実施形態では、オプションのフィルタリングステップの対象となり、別の実施形態では、語/句整列システム210に直接に出力される。フィルタリングをこの実施形態に関連して説明するが、フィルタリングに関連するステップは、オプションであることに留意されたい。
1つの例示的な実施形態では、テキストセグメント選択システム206は、共有される重要な内容語(key content words)に基づいて文ペアをフィルタ処理する。例えば、1つの例示的な実施形態では、システム206は、文ペアをフィルタ処理し、それぞれ少なくとも4文字の少なくとも3つの語を共有していない文ペアを除去する。もちろん、フィルタリングは、オプションであり、使用される場合、実装されるフィルタリングアルゴリズムは、多種多様であることが可能である。過去の結果に対するフィルタリング(これは、語/句整列システム210の出力のテキストセグメント選択システム206へのフィードバックループを要する)、異なる数の内容語に対するフィルタリング、その他の意味情報または構文情報に対するフィルタリングなどの、様々な異なるフィルタリング技術のいずれを使用することもできる。いずれにしても、文のセットをペアにして、フィルタ処理し、語/句整列システム210に提供することができる。
1つの例示的な実施形態では、語/句整列システム210は、セット222の中の文の間における語彙の対応を学習しようとして、統計的機械翻訳文献からの従来の語/句整列アルゴリズムを実装する。例えば、以下の2つの文が、文ペアとして機械翻訳システム210に入力されるものと想定されたい。
Storms and tornadoes killed at least 14 people as they ripped through the central U.S.States of Kansas and Missouri.
A swarm of tornadoes crashed through the Midwest,killing at least 19 people in Kansas and Missouri.
これらの文は、いくつかの相違にも関わらず、共通の記事の(editorial)ソースを有する可能性がある。いずれにしても、これらの文は、例として、ほぼ同時に、同一のイベントについて2つの異なる報道機関によって書かれている。これらの文の相違には、「crashed through」に対応する「ripped through」、節の順序の相違、「Midwest」に対応する「central U.S.States」、「killed」という語と「killing」という語の間における形態の相違、ならびに報告されている犠牲者の数の相違が含まれる。
図4は、語および句が、従来の整列システム210に従って整列された後の、文における語と複数語の句(multiple word phrases)の間の対応を示している。対応のほとんどに関して、統計的整列アルゴリズムが、語と語を結ぶ線で示される、異なるが、並列の情報の間にリンクを確立している。例えば、「storms and tornadoes」という名詞句と「a swarm of tornadoes」という名詞句は、直接には比較できない。したがって、より多くのデータが獲得されるにつれ、「storms」と「swarm」の間のリンク、「storms」と「a」の間のリンクが消えていく。節の順序の相違は、2つの文の間におけるリンク群の交差パターンで見ることができる。
1つの例示的な実施形態では、語/句整列システム210は、非特許文献8に記載される技術を使用して実装される。もちろん、他の機械翻訳技術または語/句整列技術を、語と入力テキストの間の関連を特定するために使用することもできる。整列システム210を使用して、整列モデルを構築し、文セットに対して統計的な語および/または句の整列を実行することを、図3にブロック230で示している。
次に、語/句整列システム210は、整列された語および句232を、システム210が入力データに基づいて生成した整列モデル234とともに出力する。基本的に、前述した整列システムでは、語の対応を特定するようにモデルがトレーニングされる。整列技術はまず、図4で例示するとおり、テキストセグメントにおける語の間で語の整列を見つける。次に、システムは、整列のそれぞれに確率を割り当て、後のトレーニングデータに基づいてその確率を最適化して、より正確なモデルを生成する。整列モデル234、ならびに整列された語および句232を出力することを、図3にブロック236で示している。
整列モデル234は、例として、語整列に割り当てられた翻訳確率、文の中で語または句が移動する確率を示す移動確率、単一の語が、別のテキストセグメントにおける2つの異なる語に対応することが可能な尤度または確率を示す多産性(fertility)確率などの、従来の翻訳モデルパラメータが含まれる。
ブロック237、238、および239は、自己のトレーニングを行うためにシステムをブートストラップ(bootstrap)する際に使用されるオプションの処理ステップである。これらのステップは、図2Aに関連して以下により詳細に説明する。
ブートストラップが使用されない実施形態では、システム211が、システム210の出力を受け取り、互いのパラフレーズである語、句、または文を特定する。特定されたパラフレーズ213が、システム211によって出力される。このことを図3にブロック242で示している。
また、整列された句およびモデルを提供して、システム入力テキスト212を生成することもできる。システム212は、例として、語および/または句を入力として受け取り、その入力に対するパラフレーズ238を生成する従来のデコーダである。このため、システム212は、整列システム210によって生成された整列された語および句232、ならびに整列モデル234を使用して、入力テキストのパラフレーズを生成するように使用することができる。整列された語および句、および整列モデルに基づいて入力テキストに対するパラフレーズを生成することを、図3にブロック240で示している。1つの例示的な生成システムが、非特許文献9に記載されている。
図2Aは、識別システム211が、トレーニングをブートストラップするのにも使用されること以外は、図2と同様である。これは、図3にブロック237〜239でさらに示している。例えば、語/句整列システム210が、図2および3に関連して前述したとおり、整列モデル234、ならびに整列された語および句232を出力しているものと想定されたい。しかし、ここで、システムをさらにトレーニングする際に使用するための補足の文セット300(この場合も、文は、単に例として使用しており、その他のテキストセグメントも同様に使用することができる)を特定するために、各ドキュメントクラスタ218のテキスト全体が、識別システム211に供給される。識別システム211は、整列モデル234、ならびに整列された語および句232を使用して、クラスタ化されたドキュメント218の中のテキストを処理して、クラスタのそれぞれから文セット300を再選択することができる。このことをブロック237で示している。再選択された文セット300は、次に、語/句整列システム210に提供され、システム210は、再選択された文セット300に基づき、整列モデル234、整列された語および句232、ならびに関連する確率メトリクス(metrics)を生成するか、または再計算する。再選択された文に対して、語および句の整列を実行すること、および整列モデル、ならびに整列された語および句を生成することを、図3にブロック238および239で示している。
次に、再計算された整列モデル234、および新規の整列された語および句232が、識別システム211に再び入力され、システム211によって、ドキュメントクラスタ218の中のテキストを再び処理するのに使用されて、新規の文セットが特定されることが可能である。新規の文セットは、語/句整列システム210に再びフィードバックすることができ、プロセスを続けて、システムのトレーニングをさらに精密にすることができる。
本システムを使用して処理されたパラフレーズの多種多様な用途(application)が存在する。例えば、パラフレーズ処理システムの可能な適用例には、「背景技術」で述べた質疑応答システムと、より一般的な情報検索システムがともに含まれる。そのようなシステムは、クエリに基づいてドキュメントセットを戻す際、パラフレーズスコアを生成して、2つのテキストセグメントの類似度を算出することができる。同様に、そのようなシステムは、よりよく合致する結果を見出すため、またはリコール(recall)を向上させるため、パラフレーズ生成機能を使用して、クエリ拡張を実行する(単一の元のクエリの複数の形態を生成する)ことができる。
パラフレーズの認識および生成のさらに別の用途には、複数のドキュメントの要約が含まれる。パラフレーズ認識を利用することにより、自動ドキュメント要約システムが、異なるドキュメントの中で類似した一節を見出し、要約を生成するためにドキュメントセットの中の最も際立った情報を決定することができる。
パラフレーズの認識および生成の別の用途は、ダイアログシステムである。そのようなシステムは、入力をまねるが、全く同一の入力をオウム返しすることを回避するように異なる言い回しにされた応答を生成することができる。これにより、ダイアログシステムが、より自然に、またはより会話調に聞こえるようになる。
また、パラフレーズの認識および生成は、ワードプロセッシングシステムにおいても使用することができる。ワードプロセッシングシステムを使用して、文体の書き換えを自動的に生成し、その書き換えをユーザに提案することができる。これは、例えば、ユーザがドキュメントを書いており、ある句を、場合によっては単一の段落内でさえ、多数回、繰り返している場合に、役立つ可能性がある。同様に、ワードプロセッシングシステムは、ドキュメント全体に散在する、繰り返される(ただし、異なる言い回しで)情報にフラグを立てる機能も含むことが可能である。同様に、そのようなシステムは、散文の断片をパラフレーズとして書き換える機能も含むことが可能である。
また、本発明は、コマンド−制御システムにおいても使用することができる。人々は、従来、多種多様な用語を使用して物事を求める。パラフレーズを特定することにより、そのようなシステムが、入力が様々な言い回しになっている場合でも、適切なコマンドアクションおよび制御アクションを実施することができるようになる。
このため、本発明の一実施形態によれば、共通のイベントを記述するテキストソース群が、クラスタ化される。そのテキストソース群の中の事前定義されたテキストセグメントが、抽出されてテキストセグメントのセットにされる。各セットの中のテキストセグメントが、整列システムに提供されて、パラフレーズが特定される。このため、本発明は、複数のクラスタにわたってパラフレーズを特定する。特定されるパラフレーズ関係は、多くの異なるクラスタにおけるテキストセグメントペアを使用して見出すことができる。さらに、一実施形態では、次に、見出されたパラフレーズを使用して、後のトレーニングプロセス中に、より多くのパラフレーズ関係を見つけ出す。これは、従来のパラフレーズ認識システムと比べて非常に有利である。
本発明は、特定の実施形態に関連して説明してきたが、本発明の趣旨および範囲を逸脱することなく、形態および詳細の変更を行うことができることが、当業者には認識されよう。
本発明を使用することができる環境の一実施形態を示すブロック図である。 本発明の一実施形態によるパラフレーズ認識−生成システムを示すブロック図である。 パラフレーズ認識コンポーネントを使用して、トレーニングにおいて使用するためのテキストセグメントのパラフレーズされたセットを選択することを示す図である。 図2に示したシステムの動作を示す流れ図である。 本発明の一実施形態による2つのペアにされた文の間の1つの例示的な整列を示す図である。
符号の説明
120 処理装置
130 システムメモリ
134 オペレーティングシステム
135 アプリケーションプログラム群
136 他のプログラムモジュール群
137 プログラムデータ
140 固定不揮発性メモリのインタフェース
144 オペレーティングシステム
145 アプリケーションプログラム群
146 他のプログラムモジュール群
147 プログラムデータ
150 リムーバブル不揮発性メモリインタフェース
160 ユーザ入力インタフェース
161 ポインティングデバイス
162 キーボード
163 マイク
170 ネットワークインタフェース
171 ローカルエリアネットワーク
172 モデム
173 ワイドエリアネットワーク
180 リモートコンピュータ
185 リモートアプリケーションプログラム群
190 ビデオインタフェース
191 モニタ
195 出力周辺インタフェース
196 プリンタ
197 スピーカ

Claims (30)

  1. パラフレーズ処理システムをトレーニングする方法であって、
    関連するテキストのクラスタを受け取るステップと、
    前記クラスタからテキストセグメントのセットを選択するステップと、
    テキスト整列を使用して、前記セットの中の前記テキストセグメントにおけるテキスト間のパラフレーズ関係を特定するステップとを備えることを特徴とする方法。
  2. テキスト整列を使用するステップは、
    統計的テキスト整列を使用して、前記セットの中の前記テキストセグメントにおける語を整列させるステップと、
    前記整列された語に基づいて前記パラフレーズ関係を特定するステップとを含むことを特徴とする請求項1に記載の方法。
  3. テキスト整列を使用するステップは、
    統計的テキスト整列を使用して、前記セットの中の前記テキストセグメントにおける複数語の句を整列させるステップと、
    前記整列された複数語の句に基づいて前記パラフレーズ関係を特定するステップとを含むことを特徴とする請求項2に記載の方法。
  4. テキスト整列を使用するステップは、
    ヒューリスティックな語整列を使用して、前記セットの中の前記テキストセグメントにおける語を整列させるステップと、
    前記整列された語に基づいて前記パラフレーズ関係を特定するステップとを含むことを特徴とする請求項1に記載の方法。
  5. テキスト整列を使用するステップは、
    ヒューリスティックなテキスト整列を使用して、前記セットの中の前記テキストセグメントにおける複数語の句を整列させるステップと、
    前記整列された複数語の句に基づいて前記パラフレーズ関係を特定するステップとを含むことを特徴とする請求項4に記載の方法。
  6. 特定された前記パラフレーズ関係に基づいて整列モデルを計算することをさらに備えることを特徴とする請求項1に記載の方法。
  7. 入力テキストを受け取るステップと、
    前記整列モデルに基づいて前記入力テキストのパラフレーズを生成するステップとをさらに備えることを特徴とする請求項6に記載の方法。
  8. テキストセグメントのセットを選択するステップは、
    前記セットのためのテキストセグメント群を、前記テキストセグメント群において共有される語の数に基づいて選択するステップを含むことを特徴とする請求項1に記載の方法。
  9. クラスタを受け取るステップに先立って、関連するテキストの前記クラスタを特定するステップをさらに備えることを特徴とする請求項1に記載の方法。
  10. クラスタを特定するステップは、
    複数のドキュメントにアクセスするステップと、
    共通の主題について異なる作成者によって書かれたドキュメントを関連するドキュメントのクラスタとして特定するステップとを含むことを特徴とする請求項9に記載の方法。
  11. テキストセグメントセットを選択するステップは、
    各クラスタの中の前記関連するドキュメントの所望のテキストセグメントをグループ化して、関連するテキストセグメントのセットにするステップを含むことを特徴とする請求項10に記載の方法。
  12. ドキュメントを特定するステップは、
    互いに所定の期間内に書かれたドキュメント群を特定するステップを含むことを特徴とする請求項11に記載の方法。
  13. 複数のドキュメントにアクセスするステップは、
    共通のイベントについて書かれた複数の異なるニュース記事にアクセスするステップを含むことを特徴とする請求項11に記載の方法。
  14. 複数の異なるニュース記事にアクセスするステップは、
    異なる報道機関によって書かれた複数のニュース記事にアクセスするステップを含むことを特徴とする請求項13に記載の方法。
  15. 所望のテキストセグメントをグループ化するステップは、
    各クラスタにおける各ニュース記事の第1の所定の数の文をグループ化して、関連するテキストセグメントの前記セットにするステップを含むことを特徴とする請求項14に記載の方法。
  16. テキストセグメントのセットを選択するステップは、
    関連するテキストセグメントの所与のセットの中の各文を前記所与のセットの中の他のそれぞれの文とペアにするステップを含むことを特徴とする請求項15に記載の方法。
  17. テキストセグメントのセットを受け取り、テキストセグメントの前記セットの中の語の間におけるパラフレーズ関係を、前記語の整列に基づいて特定するように構成されたテキスト整列コンポーネントを備えることを特徴とするパラフレーズ処理システム。
  18. 前記テキスト整列コンポーネントは、前記語の統計的整列またはヒューリスティックな整列に基づいて整列モデルを生成するように構成されることを特徴とする請求項17に記載のパラフレーズ処理システム。
  19. 前記テキスト整列コンポーネントは、テキストセグメントの前記セットの中の複数語の句の整列に基づいてパラフレーズ関係を特定するように構成されることを特徴とする請求項18に記載のパラフレーズ処理システム。
  20. 複数のドキュメントにアクセスし、前記ドキュメントを前記ドキュメントの主題に基づいてクラスタ化するように構成されたクラスタ化コンポーネントをさらに備えることを特徴とする請求項17に記載のパラフレーズ処理システム。
  21. 前記クラスタ化コンポーネントは、同一の主題について書かれたドキュメント群をクラスタ化するように構成されることを特徴とする請求項20に記載のパラフレーズ処理システム。
  22. 前記クラスタ化コンポーネントは、クラスタ化されたドキュメントから所定のテキストセグメントを抽出して、テキストセグメントの前記セットを形成するように構成されることを特徴とする請求項20に記載のパラフレーズ処理システム。
  23. テキストセグメントの前記セットに基づいてテキストセグメントの複数のペアを特定するように構成されたペアリングコンポーネントをさらに備えることを特徴とする請求項22に記載のパラフレーズ処理システム。
  24. 前記ペアリングコンポーネントは、テキストセグメントの所与のセットの中の各テキストセグメントを、テキストセグメントの前記所与のセットの中の他のそれぞれのテキストセグメントとペアにすることにより、テキストセグメントの前記複数のペアを特定するように構成されることを特徴とする請求項23に記載のパラフレーズ処理システム。
  25. 前記複数のドキュメントを格納するデータストアをさらに備えることを特徴とする請求項20に記載のパラフレーズ処理システム。
  26. 前記データストアは、共通のイベントについて異なる報道機関によって書かれた複数の異なるニュース記事を格納することを特徴とする請求項25に記載のパラフレーズ処理システム。
  27. 前記クラスタ化コンポーネントは、前記ニュース記事が書かれた時点に基づいて前記ニュース記事をクラスタ化するように構成されることを特徴とする請求項26に記載のパラフレーズ処理システム。
  28. 前記データストアは、1つまたは複数のデータストア内に実装されることを特徴とする請求項27に記載のパラフレーズ処理システム。
  29. テキスト入力を受け取り、前記パラフレーズ関係に基づいて前記テキスト入力のパラフレーズを生成するパラフレーズジェネレータをさらに備えることを特徴とする請求項17に記載のパラフレーズ処理システム。
  30. テキスト入力を受け取り、前記テキスト入力のパラフレーズを生成することを、複数のテキストセグメントを受け取り、前記テキストセグメントにおける語の間のパラフレーズ関係を、前記語の整列に基づいて特定するように構成されたテキスト整列コンポーネントから受け取られたパラフレーズ関係に基づいて行うパラフレーズジェネレータを備えることを特徴とするパラフレーズ処理システム。
JP2004316990A 2003-11-12 2004-10-29 機械翻訳技術を使用してパラフレーズを特定するためのシステム Pending JP2005149494A (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/706,102 US7412385B2 (en) 2003-11-12 2003-11-12 System for identifying paraphrases using machine translation

Publications (1)

Publication Number Publication Date
JP2005149494A true JP2005149494A (ja) 2005-06-09

Family

ID=34435622

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004316990A Pending JP2005149494A (ja) 2003-11-12 2004-10-29 機械翻訳技術を使用してパラフレーズを特定するためのシステム

Country Status (10)

Country Link
US (2) US7412385B2 (ja)
EP (1) EP1531402A3 (ja)
JP (1) JP2005149494A (ja)
KR (1) KR101130444B1 (ja)
CN (1) CN100371927C (ja)
AU (1) AU2004218705B2 (ja)
BR (1) BRPI0404348A (ja)
CA (1) CA2484410C (ja)
MX (1) MXPA04010820A (ja)
RU (1) RU2368946C2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016053871A (ja) * 2014-09-04 2016-04-14 日本電信電話株式会社 データ生成装置、データ生成方法、及びプログラム

Families Citing this family (260)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
US7660740B2 (en) * 2000-10-16 2010-02-09 Ebay Inc. Method and system for listing items globally and regionally, and customized listing according to currency or shipping area
US7752266B2 (en) * 2001-10-11 2010-07-06 Ebay Inc. System and method to facilitate translation of communications between entities over a network
ITFI20010199A1 (it) 2001-10-22 2003-04-22 Riccardo Vieri Sistema e metodo per trasformare in voce comunicazioni testuali ed inviarle con una connessione internet a qualsiasi apparato telefonico
US8719041B2 (en) 2002-06-10 2014-05-06 Ebay Inc. Method and system for customizing a network-based transaction facility seller application
US7941348B2 (en) 2002-06-10 2011-05-10 Ebay Inc. Method and system for scheduling transaction listings at a network-based transaction facility
US8078505B2 (en) 2002-06-10 2011-12-13 Ebay Inc. Method and system for automatically updating a seller application utilized in a network-based transaction facility
US8428934B2 (en) * 2010-01-25 2013-04-23 Holovisions LLC Prose style morphing
US7742985B1 (en) 2003-06-26 2010-06-22 Paypal Inc. Multicurrency exchanges between participants of a network-based transaction facility
US7412385B2 (en) * 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7584092B2 (en) * 2004-11-15 2009-09-01 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US9189568B2 (en) 2004-04-23 2015-11-17 Ebay Inc. Method and system to display and search in a language independent manner
US7546235B2 (en) * 2004-11-15 2009-06-09 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7552046B2 (en) * 2004-11-15 2009-06-23 Microsoft Corporation Unsupervised learning of paraphrase/translation alternations and selective application thereof
JP4645242B2 (ja) * 2005-03-14 2011-03-09 富士ゼロックス株式会社 質問応答システム、およびデータ検索方法、並びにコンピュータ・プログラム
US8719244B1 (en) 2005-03-23 2014-05-06 Google Inc. Methods and systems for retrieval of information items and associated sentence fragments
US7937396B1 (en) * 2005-03-23 2011-05-03 Google Inc. Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7937265B1 (en) 2005-09-27 2011-05-03 Google Inc. Paraphrase acquisition
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques
US7739254B1 (en) * 2005-09-30 2010-06-15 Google Inc. Labeling events in historic news
US20080040339A1 (en) * 2006-08-07 2008-02-14 Microsoft Corporation Learning question paraphrases from log data
US8639782B2 (en) 2006-08-23 2014-01-28 Ebay, Inc. Method and system for sharing metadata between interfaces
US8626486B2 (en) * 2006-09-05 2014-01-07 Google Inc. Automatic spelling correction for machine translation
US8423908B2 (en) * 2006-09-08 2013-04-16 Research In Motion Limited Method for identifying language of text in a handheld electronic device and a handheld electronic device incorporating the same
US9318108B2 (en) * 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8019590B1 (en) * 2006-09-11 2011-09-13 WordRake Holdings, LLC Computer processes for analyzing and improving document readability
JP5082374B2 (ja) * 2006-10-19 2012-11-28 富士通株式会社 フレーズアラインメントプログラム、翻訳プログラム、フレーズアラインメント装置およびフレーズアラインメント方法
US8078451B2 (en) * 2006-10-27 2011-12-13 Microsoft Corporation Interface and methods for collecting aligned editorial corrections into a database
KR100911372B1 (ko) * 2006-12-05 2009-08-10 한국전자통신연구원 통계적 기계번역 시스템에서 단어 및 구문들간의 번역관계를 자율적으로 학습하기 위한 장치 및 그 방법
WO2008078670A1 (ja) * 2006-12-22 2008-07-03 Nec Corporation 文言い換え方法、プログラムおよびシステム
CA2675208A1 (en) * 2007-01-10 2008-07-17 National Research Council Of Canada Means and method for automatic post-editing of translations
US20080221866A1 (en) * 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
CN104866469B (zh) * 2007-04-11 2018-10-02 谷歌有限责任公司 具有第二语言模式的输入法编辑器
US20080294398A1 (en) * 2007-05-25 2008-11-27 Justsystems Evans Research, Inc. Method and apparatus for the automated construction of models of activities from textual descriptions of the activities
CN105045777A (zh) * 2007-08-01 2015-11-11 金格软件有限公司 使用互联网语料库的自动的上下文相关的语言校正和增强
US9053089B2 (en) 2007-10-02 2015-06-09 Apple Inc. Part-of-speech tagging using latent analogy
US8725490B2 (en) * 2007-10-18 2014-05-13 Yahoo! Inc. Virtual universal translator for a mobile device with a camera
US9594748B2 (en) * 2007-10-25 2017-03-14 Disney Enterprises, Inc. System and method for localization of assets using dictionary file build
US20090119090A1 (en) * 2007-11-01 2009-05-07 Microsoft Corporation Principled Approach to Paraphrasing
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8612469B2 (en) 2008-02-21 2013-12-17 Globalenglish Corporation Network-accessible collaborative annotation tool
US20090217196A1 (en) 2008-02-21 2009-08-27 Globalenglish Corporation Web-Based Tool for Collaborative, Social Learning
US8065143B2 (en) 2008-02-22 2011-11-22 Apple Inc. Providing text input using speech data and non-speech data
US20090228427A1 (en) * 2008-03-06 2009-09-10 Microsoft Corporation Managing document work sets
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8504354B2 (en) * 2008-06-02 2013-08-06 Microsoft Corporation Parallel fragment extraction from noisy parallel corpora
US8464150B2 (en) 2008-06-07 2013-06-11 Apple Inc. Automatic language identification for dynamic text processing
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
US8768702B2 (en) 2008-09-05 2014-07-01 Apple Inc. Multi-tiered voice feedback in an electronic device
US8898568B2 (en) 2008-09-09 2014-11-25 Apple Inc. Audio user interface
US8712776B2 (en) 2008-09-29 2014-04-29 Apple Inc. Systems and methods for selective text to speech synthesis
US20100082324A1 (en) * 2008-09-30 2010-04-01 Microsoft Corporation Replacing terms in machine translation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US8494835B2 (en) * 2008-12-02 2013-07-23 Electronics And Telecommunications Research Institute Post-editing apparatus and method for correcting translation errors
US9959870B2 (en) 2008-12-11 2018-05-01 Apple Inc. Speech recognition involving a mobile device
US8862252B2 (en) * 2009-01-30 2014-10-14 Apple Inc. Audio user interface for displayless electronic device
US8527500B2 (en) * 2009-02-27 2013-09-03 Red Hat, Inc. Preprocessing text to enhance statistical features
US8396850B2 (en) * 2009-02-27 2013-03-12 Red Hat, Inc. Discriminating search results by phrase analysis
US8380507B2 (en) 2009-03-09 2013-02-19 Apple Inc. Systems and methods for determining the language to use for speech generated by a text to speech engine
US20100299132A1 (en) * 2009-05-22 2010-11-25 Microsoft Corporation Mining phrase pairs from an unstructured resource
US10891659B2 (en) 2009-05-29 2021-01-12 Red Hat, Inc. Placing resources in displayed web pages via context modeling
US10255566B2 (en) 2011-06-03 2019-04-09 Apple Inc. Generating and processing task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10540976B2 (en) 2009-06-05 2020-01-21 Apple Inc. Contextual voice commands
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US8285706B2 (en) * 2009-06-10 2012-10-09 Microsoft Corporation Using a human computation game to improve search engine performance
US20100332217A1 (en) * 2009-06-29 2010-12-30 Shalom Wintner Method for text improvement via linguistic abstractions
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8682649B2 (en) 2009-11-12 2014-03-25 Apple Inc. Sentiment prediction from textual data
US8381107B2 (en) 2010-01-13 2013-02-19 Apple Inc. Adaptive audio feedback system and method
US8311838B2 (en) 2010-01-13 2012-11-13 Apple Inc. Devices and methods for identifying a prompt corresponding to a voice input in a sequence of prompts
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US8386239B2 (en) * 2010-01-25 2013-02-26 Holovisions LLC Multi-stage text morphing
US20110184723A1 (en) * 2010-01-25 2011-07-28 Microsoft Corporation Phonetic suggestion engine
US8566078B2 (en) * 2010-01-29 2013-10-22 International Business Machines Corporation Game based method for translation data acquisition and evaluation
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
US8478699B1 (en) * 2010-04-30 2013-07-02 Google Inc. Multiple correlation measures for measuring query similarity
US8554542B2 (en) * 2010-05-05 2013-10-08 Xerox Corporation Textual entailment method for linking text of an abstract to text in the main body of a document
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US8484016B2 (en) 2010-05-28 2013-07-09 Microsoft Corporation Locating paraphrases through utilization of a multipartite graph
US20120330643A1 (en) * 2010-06-04 2012-12-27 John Frei System and method for translation
US8713021B2 (en) 2010-07-07 2014-04-29 Apple Inc. Unsupervised document clustering using latent semantic density analysis
US8719006B2 (en) 2010-08-27 2014-05-06 Apple Inc. Combined statistical and rule-based part-of-speech tagging for text-to-speech synthesis
US8719014B2 (en) 2010-09-27 2014-05-06 Apple Inc. Electronic device with text error correction based on voice recognition data
US20120109623A1 (en) * 2010-11-01 2012-05-03 Microsoft Corporation Stimulus Description Collections
US8903719B1 (en) * 2010-11-17 2014-12-02 Sprint Communications Company L.P. Providing context-sensitive writing assistance
US20120143593A1 (en) * 2010-12-07 2012-06-07 Microsoft Corporation Fuzzy matching and scoring based on direct alignment
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
US10515147B2 (en) 2010-12-22 2019-12-24 Apple Inc. Using statistical language models for contextual lookup
US8838433B2 (en) * 2011-02-08 2014-09-16 Microsoft Corporation Selection of domain-adapted translation subcorpora
US8781836B2 (en) 2011-02-22 2014-07-15 Apple Inc. Hearing assistance system for providing consistent human speech
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US9098488B2 (en) 2011-04-03 2015-08-04 Microsoft Technology Licensing, Llc Translation of multilingual embedded phrases
US8972240B2 (en) * 2011-05-19 2015-03-03 Microsoft Corporation User-modifiable word lattice display for editing documents and search queries
US10672399B2 (en) 2011-06-03 2020-06-02 Apple Inc. Switching between text data and audio data based on a mapping
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
US8812294B2 (en) 2011-06-21 2014-08-19 Apple Inc. Translating phrases from one language into another using an order-based set of declarative rules
US8706472B2 (en) 2011-08-11 2014-04-22 Apple Inc. Method for disambiguating multiple readings in language conversion
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US8762156B2 (en) 2011-09-28 2014-06-24 Apple Inc. Speech recognition repair using contextual information
CN103092829B (zh) * 2011-10-27 2015-11-25 北京百度网讯科技有限公司 一种复述资源获取方法及系统
KR20130047471A (ko) * 2011-10-31 2013-05-08 한국전자통신연구원 자동번역 시스템의 패러프레이징 데이터 구축방법
US9348479B2 (en) 2011-12-08 2016-05-24 Microsoft Technology Licensing, Llc Sentiment aware user interface customization
US9378290B2 (en) 2011-12-20 2016-06-28 Microsoft Technology Licensing, Llc Scenario-adaptive input method editor
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9754585B2 (en) 2012-04-03 2017-09-05 Microsoft Technology Licensing, Llc Crowdsourced, grounded language for intent modeling in conversational interfaces
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US8775442B2 (en) 2012-05-15 2014-07-08 Apple Inc. Semantic search using a single-source semantic model
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
WO2013185109A2 (en) 2012-06-08 2013-12-12 Apple Inc. Systems and methods for recognizing textual identifiers within a plurality of words
CN110488991A (zh) 2012-06-25 2019-11-22 微软技术许可有限责任公司 输入法编辑器应用平台
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8959109B2 (en) 2012-08-06 2015-02-17 Microsoft Corporation Business intelligent in-document suggestions
KR101911999B1 (ko) 2012-08-30 2018-10-25 마이크로소프트 테크놀로지 라이센싱, 엘엘씨 피처 기반 후보 선택 기법
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
US8935167B2 (en) 2012-09-25 2015-01-13 Apple Inc. Exemplar-based latent perceptual modeling for automatic speech recognition
US9116880B2 (en) 2012-11-30 2015-08-25 Microsoft Technology Licensing, Llc Generating stimuli for use in soliciting grounded linguistic information
US9146919B2 (en) 2013-01-16 2015-09-29 Google Inc. Bootstrapping named entity canonicalizers from English using alignment models
KR20150104615A (ko) 2013-02-07 2015-09-15 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10223349B2 (en) 2013-02-20 2019-03-05 Microsoft Technology Licensing Llc Inducing and applying a subject-targeted context free grammar
US9977779B2 (en) 2013-03-14 2018-05-22 Apple Inc. Automatic supplementation of word correction dictionaries
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
US10642574B2 (en) 2013-03-14 2020-05-05 Apple Inc. Device, method, and graphical user interface for outputting captions
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10572476B2 (en) 2013-03-14 2020-02-25 Apple Inc. Refining a search based on schedule items
US9733821B2 (en) 2013-03-14 2017-08-15 Apple Inc. Voice control to diagnose inadvertent activation of accessibility features
CN105027197B (zh) 2013-03-15 2018-12-14 苹果公司 训练至少部分语音命令系统
KR102057795B1 (ko) 2013-03-15 2019-12-19 애플 인크. 콘텍스트-민감성 방해 처리
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
CN105190607B (zh) 2013-03-15 2018-11-30 苹果公司 通过智能数字助理的用户培训
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
CN105264524B (zh) 2013-06-09 2019-08-02 苹果公司 用于实现跨数字助理的两个或更多个实例的会话持续性的设备、方法、和图形用户界面
KR101809808B1 (ko) 2013-06-13 2017-12-15 애플 인크. 음성 명령에 의해 개시되는 긴급 전화를 걸기 위한 시스템 및 방법
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US10656957B2 (en) 2013-08-09 2020-05-19 Microsoft Technology Licensing, Llc Input method editor providing language assistance
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9779087B2 (en) * 2013-12-13 2017-10-03 Google Inc. Cross-lingual discriminative learning of sequence models with posterior regularization
WO2015162737A1 (ja) * 2014-04-23 2015-10-29 株式会社東芝 音訳作業支援装置、音訳作業支援方法及びプログラム
KR101615621B1 (ko) * 2014-04-23 2016-04-27 한국과학기술원 동일 지시어 해소 시스템 및 방법
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
EP3149728B1 (en) 2014-05-30 2019-01-16 Apple Inc. Multi-command single utterance input method
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
CN113761848A (zh) 2014-07-25 2021-12-07 北京三星通信技术研究有限公司 文本编辑方法和装置
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
RU2639684C2 (ru) * 2014-08-29 2017-12-21 Общество С Ограниченной Ответственностью "Яндекс" Способ обработки текстов (варианты) и постоянный машиночитаемый носитель (варианты)
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
JP6466138B2 (ja) * 2014-11-04 2019-02-06 株式会社東芝 外国語文作成支援装置、方法及びプログラム
TWI582615B (zh) * 2014-11-26 2017-05-11 納寶股份有限公司 用於提供譯文編輯器的設備和方法
JP6250013B2 (ja) 2014-11-26 2017-12-20 ネイバー コーポレーションNAVER Corporation コンテンツ参加翻訳装置、及びそれを利用したコンテンツ参加翻訳方法
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US20180011920A1 (en) * 2015-01-29 2018-01-11 Hewlett-Packard Development Company, L.P. Segmentation based on clustering engines applied to summaries
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
RU2610241C2 (ru) * 2015-03-19 2017-02-08 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Способ и система синтеза текста на основе извлеченной информации в виде rdf-графа с использованием шаблонов
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
CN106156010B (zh) * 2015-04-20 2019-10-11 阿里巴巴集团控股有限公司 翻译训练方法、装置、系统、以及在线翻译方法及装置
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
CN105488025B (zh) 2015-11-24 2019-02-12 小米科技有限责任公司 模板构建方法和装置、信息识别方法和装置
EP3380950A1 (en) * 2015-11-25 2018-10-03 Koninklijke Philips N.V. Reader-driven paraphrasing of electronic clinical free text
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN105653620B (zh) * 2015-12-25 2020-05-22 上海智臻智能网络科技股份有限公司 智能问答系统的日志分析方法及装置
US11727198B2 (en) 2016-02-01 2023-08-15 Microsoft Technology Licensing, Llc Enterprise writing assistance
JP6671027B2 (ja) * 2016-02-01 2020-03-25 パナソニックIpマネジメント株式会社 換言文生成方法、該装置および該プログラム
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179309B1 (en) 2016-06-09 2018-04-23 Apple Inc Intelligent automated assistant in a home environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
CN107861937B (zh) * 2016-09-21 2023-02-03 松下知识产权经营株式会社 对译语料库的更新方法、更新装置以及记录介质
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
KR102589638B1 (ko) 2016-10-31 2023-10-16 삼성전자주식회사 문장 생성 장치 및 방법
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
KR101851785B1 (ko) * 2017-03-20 2018-06-07 주식회사 마인드셋 챗봇의 트레이닝 세트 생성 장치 및 방법
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
US10275452B2 (en) 2017-05-12 2019-04-30 International Business Machines Corporation Automatic, unsupervised paraphrase detection
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10423665B2 (en) * 2017-08-02 2019-09-24 Oath Inc. Method and system for generating a conversational agent by automatic paraphrase generation based on machine translation
US11321522B1 (en) * 2017-08-04 2022-05-03 Grammarly, Inc. Artificial intelligence communication assistance for composition utilizing communication profiles
CN107766337A (zh) * 2017-09-25 2018-03-06 沈阳航空航天大学 基于深度语义关联的译文预测方法
US10606943B2 (en) 2017-10-09 2020-03-31 International Business Machines Corporation Fault injection in human-readable information
US20190163756A1 (en) * 2017-11-29 2019-05-30 International Business Machines Corporation Hierarchical question answering system
US10558762B2 (en) 2018-02-24 2020-02-11 International Business Machines Corporation System and method for adaptive quality estimation for machine translation post-editing
KR102637340B1 (ko) 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치
RU2699396C1 (ru) * 2018-11-19 2019-09-05 Общество С Ограниченной Ответственностью "Инвек" Нейронная сеть для интерпретирования предложений на естественном языке
US11151452B2 (en) * 2018-12-07 2021-10-19 Capital One Services, Llc Systems and methods for legal document generation
US11126794B2 (en) * 2019-04-11 2021-09-21 Microsoft Technology Licensing, Llc Targeted rewrites
WO2020229889A1 (en) 2019-05-10 2020-11-19 Yseop Sa Natural language text generation using semantic objects
US10817576B1 (en) * 2019-08-07 2020-10-27 SparkBeyond Ltd. Systems and methods for searching an unstructured dataset with a query
KR102240910B1 (ko) 2019-09-30 2021-04-14 광운대학교 산학협력단 머신 러닝 기반 한국 고객 서비스 어시스턴트 보조 시스템
US11501088B1 (en) 2020-03-11 2022-11-15 Yseop Sa Techniques for generating natural language text customized to linguistic preferences of a user
US11210473B1 (en) * 2020-03-12 2021-12-28 Yseop Sa Domain knowledge learning techniques for natural language generation
US11983486B1 (en) 2020-12-09 2024-05-14 Yseop Sa Machine learning techniques for updating documents generated by a natural language generation (NLG) engine
KR102370729B1 (ko) 2021-06-03 2022-03-07 최연 문장 작성 시스템
US20230019081A1 (en) * 2021-07-16 2023-01-19 Microsoft Technology Licensing, Llc Modular self-supervision for document-level relation extraction

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4319711A (en) * 1977-10-11 1982-03-16 Robertshaw Controls Company Wall thermostat and the like
US4277784A (en) * 1979-07-13 1981-07-07 Commodore Electronics Limited Switch scanning means for use with integrated circuits
US4337822A (en) * 1979-08-16 1982-07-06 Hyltin Tom M Digital thermostat
US4264034A (en) * 1979-08-16 1981-04-28 Hyltin Tom M Digital thermostat
US4460125A (en) * 1981-05-14 1984-07-17 Robertshaw Controls Company Wall thermostat and the like
SE466029B (sv) * 1989-03-06 1991-12-02 Ibm Svenska Ab Anordning och foerfarande foer analys av naturligt spraak i ett datorbaserat informationsbehandlingssystem
US5103078A (en) * 1990-02-01 1992-04-07 Boykin T Brooks Programmable hot water heater control method
US5107918A (en) * 1991-03-01 1992-04-28 Lennox Industries Inc. Electronic thermostat
US5495413A (en) * 1992-09-25 1996-02-27 Sharp Kabushiki Kaisha Translation machine having a function of deriving two or more syntaxes from one original sentence and giving precedence to a selected one of the syntaxes
US6139201A (en) * 1994-12-22 2000-10-31 Caterpillar Inc. Integrated authoring and translation system
US5870700A (en) * 1996-04-01 1999-02-09 Dts Software, Inc. Brazilian Portuguese grammar checker
US5999896A (en) * 1996-06-25 1999-12-07 Microsoft Corporation Method and system for identifying and resolving commonly confused words in a natural language parser
US6076051A (en) * 1997-03-07 2000-06-13 Microsoft Corporation Information retrieval utilizing semantic representation of text
EP0932897B1 (en) * 1997-06-26 2003-10-08 Koninklijke Philips Electronics N.V. A machine-organized method and a device for translating a word-organized source text into a word-organized target text
US6098033A (en) * 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
US5960080A (en) * 1997-11-07 1999-09-28 Justsystem Pittsburgh Research Center Method for transforming message containing sensitive information
US6424983B1 (en) * 1998-05-26 2002-07-23 Global Information Research And Technologies, Llc Spelling and grammar checking system
US6035269A (en) * 1998-06-23 2000-03-07 Microsoft Corporation Method for detecting stylistic errors and generating replacement strings in a document containing Japanese text
US6188976B1 (en) * 1998-10-23 2001-02-13 International Business Machines Corporation Apparatus and method for building domain-specific language models
US6848080B1 (en) * 1999-11-05 2005-01-25 Microsoft Corporation Language input architecture for converting one text form to another text form with tolerance to spelling, typographical, and conversion errors
US6315211B1 (en) * 1999-12-03 2001-11-13 Emerson Electric Co. Hardwired or battery powered digital thermostat
WO2001082111A2 (en) * 2000-04-24 2001-11-01 Microsoft Corporation Computer-aided reading system and method with cross-language reading wizard
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6961692B1 (en) * 2000-08-01 2005-11-01 Fuji Xerox Co, Ltd. System and method for writing analysis using the linguistic discourse model
US7043420B2 (en) * 2000-12-11 2006-05-09 International Business Machines Corporation Trainable dynamic phrase reordering for natural language generation in conversational systems
US7054803B2 (en) * 2000-12-19 2006-05-30 Xerox Corporation Extracting sentence translations from translated documents
JP2002245037A (ja) * 2001-02-16 2002-08-30 Atr Onsei Gengo Tsushin Kenkyusho:Kk 句アラインメント方法
JP3764058B2 (ja) * 2001-03-01 2006-04-05 株式会社東芝 翻訳装置、翻訳方法及び翻訳プログラム
US7146308B2 (en) * 2001-04-05 2006-12-05 Dekang Lin Discovery of inference rules from text
CA2446262A1 (en) * 2001-05-04 2002-11-14 Paracel, Inc. Method and apparatus for high-speed approximate sub-string searches
US20030055625A1 (en) * 2001-05-31 2003-03-20 Tatiana Korelsky Linguistic assistant for domain analysis methodology
US7050964B2 (en) * 2001-06-01 2006-05-23 Microsoft Corporation Scaleable machine translation system
CN1391180A (zh) * 2001-06-11 2003-01-15 国际商业机器公司 外语写作辅助方法和辅助工具
JP2003263433A (ja) * 2002-03-07 2003-09-19 Advanced Telecommunication Research Institute International 統計的機械翻訳機における翻訳モデルの生成方法
US7031911B2 (en) * 2002-06-28 2006-04-18 Microsoft Corporation System and method for automatic detection of collocation mistakes in documents
US7076422B2 (en) * 2003-03-13 2006-07-11 Microsoft Corporation Modelling and processing filled pauses and noises in speech recognition
US7412385B2 (en) 2003-11-12 2008-08-12 Microsoft Corporation System for identifying paraphrases using machine translation
US7496621B2 (en) * 2004-07-14 2009-02-24 International Business Machines Corporation Method, program, and apparatus for natural language generation
US7908132B2 (en) * 2005-09-29 2011-03-15 Microsoft Corporation Writing assistance using machine translation techniques

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016053871A (ja) * 2014-09-04 2016-04-14 日本電信電話株式会社 データ生成装置、データ生成方法、及びプログラム

Also Published As

Publication number Publication date
BRPI0404348A (pt) 2005-07-12
EP1531402A3 (en) 2006-05-31
KR101130444B1 (ko) 2012-07-02
US7412385B2 (en) 2008-08-12
CA2484410C (en) 2013-12-03
KR20050045822A (ko) 2005-05-17
CN1617134A (zh) 2005-05-18
RU2368946C2 (ru) 2009-09-27
US20060053001A1 (en) 2006-03-09
US7752034B2 (en) 2010-07-06
AU2004218705B2 (en) 2010-03-11
AU2004218705A1 (en) 2005-05-26
MXPA04010820A (es) 2007-11-14
EP1531402A2 (en) 2005-05-18
CN100371927C (zh) 2008-02-27
US20050102614A1 (en) 2005-05-12
RU2004129675A (ru) 2006-03-20
CA2484410A1 (en) 2005-05-12

Similar Documents

Publication Publication Date Title
US7412385B2 (en) System for identifying paraphrases using machine translation
US7546235B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7552046B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7584092B2 (en) Unsupervised learning of paraphrase/translation alternations and selective application thereof
US7672831B2 (en) System and method for cross-language knowledge searching
US20050216253A1 (en) System and method for reverse transliteration using statistical alignment
CN111382571B (zh) 一种信息抽取方法、系统、服务器和存储介质
Kuo et al. Learning transliteration lexicons from the web
Saggion et al. Simplifying words in context. Experiments with two lexical resources in Spanish
Sharoff et al. Using comparable corpora to solve problems difficult for human translators
Nguyen et al. A novel approach for automatic extraction of semantic data about football transfer in sport news
Frunza Automatic identification of cognates, false friends, and partial cognates
Safeena et al. Quranic computation: A review of research and application
Islam Towards achieving a delicate blending between rule-based translator and neural machine translator for Bengali to English translation
Niklaus Text Simplification for Information Extraction
Kuo et al. Active learning for constructing transliteration lexicons from the Web
Chang et al. International Journal of Computational Linguistics & Chinese Language Processing, Volume 25, Number 1, June 2020
Umamaheswari et al. Learning event patterns from news text using bootstrapping
Obasa et al. A survey of challenges and resolutions of mining question-answer pairs from internet forum
De Troij Natiolectal variation in Dutch grammar. A data-driven approach
Johansson Depending on VR: Rule-based Text Simplification Based on Dependency Relations
JP2004252495A (ja) 統計的機械翻訳装置をトレーニングするためのトレーニングデータを生成する方法および装置、換言装置、ならびに換言装置をトレーニングする方法及びそのためのデータ処理システムおよびコンピュータプログラム
Kumar Numerical computations of hydrodynamic forces and motions of TLP using 3D source distribution technique
Gola An analysis of translation divergence patterns using PanLex translation pairs
Osesina A data-intensive approach to named entity recognition using domain and language independent methods

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071015

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20071030

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080130

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20080215

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20080516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20080516

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080616

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20080701

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20080905

RD13 Notification of appointment of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7433

Effective date: 20100526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20100526