JP2005276183A

JP2005276183A - グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム

Info

Publication number: JP2005276183A
Application number: JP2005048560A
Authority: JP
Inventors: Arul A Menezes; エー．メネゼスアルール; Lucretia H Vanderwende; エイチ．バンダーウェンデルクレチア; Michele L Banko; エル．バンコミケーレ
Original assignee: Microsoft Corp
Current assignee: Microsoft Corp
Priority date: 2004-03-02
Filing date: 2005-02-24
Publication date: 2005-10-06
Anticipated expiration: 2025-02-24
Also published as: US7430504B2; US20050220351A1; KR20060043342A; JP4647336B2; EP1571565A2; EP1571565A3; KR101201093B1

Abstract

【課題】本発明によりテキストのコーパス内の注目する単語、テキスト断片、または概念を識別するための方法およびシステムを提供すること。
【解決手段】テキストのコーパスを包括するグラフを構築する。グラフは、節点とリンクを含み、節点は単語または概念を表し、節点間のリンクは有向関係名を表す。そこで、グラフ内の節点ごとにスコアを計算する。スコアは、グラフのより大きなサブグラフ（タプル）についても計算できる。スコアは、グラフの所望のサブグラフ部分を識別するために使用され、このサブグラフ部分はグラフ断片と呼ばれる。
【選択図】図２

Description

本発明は、テキストを識別し、検索することに関する。より具体的には、本発明は、テキスト資料を包括するグラフを生成し、そのグラフの一部にスコアを付けることにより、テキスト資料の大規模なコーパスから注目するテキスト部分（またはテキスト断片）を識別し、検索することに関する。

大規模なテキストコーパス内の注目するテキストを識別する機能を活用するアプリケーションは広範にわたる。例えば、ドキュメントクラスタ化（ｄｏｃｕｍｅｎｔｃｌｕｓｔｅｒｉｎｇ）およびドキュメント要約作成（ｄｏｃｕｍｅｎｔｓｕｍｍａｒｉｚａｔｉｏｎ）では、両方とも、ドキュメントに関連する概念を識別しようと試みる。ドキュメントを複数のクラスタに分けるために、またはドキュメントを要約するためにそれらの概念が使用される。実際には、後処理（情報検索など）で使用するために、自動的にドキュメントのクラスタ化およびドキュメントのクラスタ全体の要約作成の両方の試みがいくつか行われている。

従来のシステムでは、概念またはドキュメントの主題にどのように関係しているかに基づいて文を順序付けようとしていた。その後、文を圧縮し、ときには少し書き換えて、要約を得る。

以前には、様々な多数の方法により、文の順序付けが試みられていた。一部の従来システムでは、動詞特異性に基づいて文を順序付けることを試みる。他のアプローチでは、ドキュメント内の文位置および文中で識別されたエンティティの頻度に基づく発見的手法を使用して文を順序付けようとしている。

このような従来システムは、すべて、何らかの欠点を有する。例えば、このような従来システムはすべて、ほとんどは抽出的である。システムは、要約対象のドキュメントから単語および文断片を単に抽出するだけである。それらの単語と語順は変わらない。その代わりに、複数の単語または文断片は、オリジナルのドキュメントで書かれているように、ドキュメントの要約としてオリジナルのドキュメント内に現れるオリジナルの順序で、単に与えられるだけである。もちろん、人間がそのようなテキスト断片の意味を解読することは困難な場合がある。

さらに、ほとんど従来のアプローチでは、用語頻度に基づいてテキスト内の各単語に対するスコアを計算することにより、注目する複数の単語またはテキストを識別した。このようなスコアを計算するために従来システムで主に使用される手法は、用語頻度＊逆ドキュメント頻度（ｔｆ＊ｉｄｆ）関数であり、これは、当技術分野でよく知られており、文書化されている。いくつかの従来システムでは、ｔｆ＊ｉｄｆ関数の少し変更した関数を使用しているが、ｔｆ＊ｉｄｆクラスの関数を使用するアルゴリズムはすべて、単語ベースである。

他の技術分野では、Ｗｅｂページの順位付けのためグラフが作成されている。Ｗｅｂページをグラフ内の節点として使用し、グラフ内のリンクとしてＷｅｂページにリンクするハブおよびオーソリティアルゴリズムを使用して、これらのグラフが順位付けされる。このようなグラフ理論がグラフテキストに応用されたことはない。

米国特許第５，９６６，６８６号明細書 Authoritative sources in a hyperlinked environment. Proc. 9th ACM-SIAM Symposium on Discrete Algorithms, 1998 Journal of the ACM 46 (1999) IBM Research Report RJ 10076, May 1997 Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine」Ashman and Thistlewaite [2], pages 107--117, Brisbane, Australia Aikawa, T., M. Melero, L. Schwartz, and A. Wu. (2001). Multilingual Sentence Generation, In Proceedings of 8th European Workshop on Natural Language Generation, Toulouse Aikawa, T., M. Melero, L. Schwartz, and A. Wu. (2001). Sentence Generation for Multilingual Machine Translation, In Proceedings of the MT Summit VIII, Santiago de Compostela, Spain Gamon, M., E. Ringger, and S. Corston-Oliver. 2002. Amalgam:A machine-learned generation module. Microsoft Research Technical Report: MSR-TR-2002-57

本発明は、上述の点に鑑みてテキストのコーパス内の注目する単語、テキスト断片、または概念を識別するための方法およびシステムを提供することを目的とする。

テキストのコーパスを包括するグラフを構築する。グラフは、節点とリンクを含み、節点は単語または概念を表し、節点間のリンクは有向関係名を表す。そこで、グラフ内の節点ごとにスコアを計算する。スコアは、グラフのより大きなサブグラフ（タプルなど）についても計算できる。スコアは、グラフの所望のサブグラフ部分を識別するために使用され、このサブグラフ部分はグラフ断片と呼ばれる。

一実施形態では、識別されたグラフ断片からテキスト出力が生成される。これらのクラス断片がテキスト生成コンポーネントに供給され、そのコンポーネントは、そこに供給されるグラフ断片を示すテキスト出力を生成する。

本発明は、テキストのより大きなコーパス内の注目する単語、テキスト断片、または概念を識別することに関する。本発明を詳しく説明する前に、本発明を使用できる一環境例について説明する。

図１は、本発明を実装できる好適なコンピューティングシステム環境１００の一実施例の図である。コンピューティングシステム環境１００は、適当なコンピューティング環境の一例にすぎず、本発明の用途または機能性の範囲に関する制限を示唆する意図はない。コンピューティング環境１００には、動作環境例１００に例示されている１つのコンポーネントまたはその組合せに関係する何らかの依存関係または要求条件がその環境にあると解釈すべきでない。

本発明は、他の数多くの汎用または専用コンピューティングシステム環境または構成で動作する。本発明とともに使用するのに適していると思われるよく知られているコンピューティングシステム、環境、および／または構成の例として、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがある。

本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的背景状況において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。また、本発明は、通信ネットワークを通じてリンクされているリモート処理デバイスによりタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールをメモリ記憶デバイスなどのローカルとリモートの両方のコンピュータ記憶媒体に配置できる。

図１を参照すると、本発明を実装するシステムの実施例は、汎用コンピューティングデバイスをコンピュータ１１０の形で備えている。コンピュータ１１０が備えるコンポーネントとしては、処理ユニット１２０、システムメモリ１３０、およびシステムメモリを備える様々なシステムコンポーネントを処理ユニット１２０に結合するシステムバス１２１などがある。システムバス１２１には、メモリバスまたはメモリコントローラ、周辺機器バス、および様々なバスアーキテクチャを使用するローカルバスを含む数種類のバス構造があり得る。例えば、このようなアーキテクチャとしては、ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ（ＩＳＡ）バス、ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ（ＭＣＡ）バス、ＥｎｈａｎｃｅｄＩＳＡ（ＥＩＳＡ）バス、ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ（ＶＥＳＡ）ローカルバス、およびＭｅｚｚａｎｉｎｅバスとも呼ばれるＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔ（ＰＣＩ）バスがある。

コンピュータ１１０は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ１１０によってアクセスされることができる媒体であればどのような媒体でも使用可能であり、揮発性および不揮発性媒体、取り外し可能および取り外し不可能媒体を含む。例えば、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造体、プログラムモジュール、またはその他のデータなどの情報を格納する方法または技術で実装される揮発性および不揮発性、取り外し可能および取り外し不可能媒体を含む。コンピュータ記憶媒体としては、制限はされないが、ＲＡＭ、ＲＯＭ、ＥＥＰＲＯＭ、フラッシュメモリまたはその他のメモリ技術、ＣＤ−ＲＯＭ、デジタル多目的ディスク（ＤＶＤ）またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、または所望の情報を格納するために使用することができ、しかもコンピュータ１００によりアクセスできるその他の媒体がある。通信媒体は、通常、コンピュータ可読命令、データ構造体、プログラムモジュール、または搬送波もしくはその他のトランスポートメカニズムなどの変調データ信号によるその他のデータを具現し、任意の情報配信媒体を含む。「変調データ信号」という用語は、信号内の情報を符号化する方法によりその特性のうち１つまたは複数が設定または変更された信号を意味する。例えば、制限はされないが、通信媒体としては、有線ネットワークまたは直接配線接続などの有線媒体、ならびに、音響、ＦＲ、赤外線、およびその他の無線媒体などの無線媒体がある。上記のいずれの組合せもコンピュータ可読媒体の範囲に収まらなければならない。

システムメモリ１３０は、読み取り専用メモリ（ＲＯＭ）１３１およびランダムアクセスメモリ（ＲＡＭ）１３２などの揮発性および／または不揮発性メモリの形態のコンピュータ記憶媒体を備える。起動時などにコンピュータ１１０内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム１３３（ＢＩＯＳ）は、通常、ＲＯＭ１３１に格納される。通常、ＲＡＭ１３２は、処理ユニット１２０に直接アクセス可能な、および／または処理ユニット１２０によって現在操作されているデータおよび／またはプログラムモジュールを格納する。例えば、制限はされないが、図１は、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７を例示している。

コンピュータ１１０はさらに、その他の取り外し可能／取り外し不可能な揮発性／不揮発性コンピュータ記憶媒体を備えることもできる。例えば、図１は、取り外し不可能な不揮発性磁気媒体の読み書きを行うハードディスクドライブ１４１、取り外し可能な不揮発性磁気ディスク１５２の読み書きを行う磁気ディスクドライブ１５１、およびＣＤ−ＲＯＭまたはその他の光媒体などの取り外し可能な不揮発性光ディスク１５６の読み書きを行う光ディスクドライブ１５５を例示している。動作環境の実施例で使用できる他の取り外し可能／取り外し不可能な揮発性／不揮発性コンピュータ記憶媒体としては、制限はされないが、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、ソリッドステートＲＡＭ、ソリッドステートＲＯＭなどがある。ハードディスクドライブ１４１は、通常、インターフェース１４０などの取り外し不可能なメモリインターフェースを介してシステムバス１２１に接続され、磁気ディスクドライブ１５１および光ディスクドライブ１５５は、通常、インターフェース１５０などの取り外し可能なメモリインターフェースによりシステムバス１２１に接続される。

図１に例示されている上記のドライブおよび関連コンピュータ記憶媒体は、コンピュータ１１０用のコンピュータ可読命令、データ構造体、プログラムモジュール、およびその他のデータを格納する機能を備える。例えば、図１では、ハードディスクドライブ１４１は、オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７を格納するとして例示されている。これらのコンポーネントは、オペレーティングシステム１３４、アプリケーションプログラム１３５、その他のプログラムモジュール１３６、およびプログラムデータ１３７と同じである場合もあれば異なる場合もあることに注意されたい。オペレーティングシステム１４４、アプリケーションプログラム１４５、その他のプログラムモジュール１４６、およびプログラムデータ１４７に対しては、ここで、異なる番号を割り当てて、最低でも、それが異なるコピーであることを示している。

ユーザは、キーボード１６２、マイク１６３などの入力デバイス、およびマウス、トラックボール、またはタッチパッドなどのポインティングデバイス１６１を介してコンピュータ１１０にコマンドおよび情報を入力できる。他の入力デバイス（図に示されていない）としては、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどがある。これらの入力デバイスやその他の入力デバイスは、システムバスに結合されているユーザ入力インターフェース１６０を介して処理ユニット１２０に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス（ＵＳＢ）などの他のインターフェースおよびバス構造により接続することもできる。モニタ１９１またはその他の種類の表示デバイスも、ビデオインターフェース１９０などのインターフェースを介してシステムバス１２１に接続される。モニタの他に、コンピュータはさらにスピーカ１９７およびプリンタ１９６などの他の周辺出力デバイスも備えることができ、これらは出力周辺インターフェース１９０を介して接続することができる。

コンピュータ１１０は、リモートコンピュータ１８０などの１つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク接続環境で動作することができる。リモートコンピュータ１８０は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークＰＣ、ピアデバイス、またはその他の共通ネットワークノードとすることができ、通常は、コンピュータ１１０に関して説明されている要素の多くまたはすべてを含む。図１に示されている論理接続は、ローカルエリアネットワーク（ＬＡＮ）１７１およびワイドエリアネットワーク（ＷＡＮ）１７３を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体にわたるコンピュータネットワーク、イントラネット、およびインターネットでは一般的である。

ＬＡＮネットワーキング環境で使用される場合、ネットワークインターフェースまたはアダプタ１７１を介してＬＡＮ１７０にコンピュータ１１０が接続される。ＷＡＮネットワーキング環境で使用される場合、コンピュータ１１０は、通常、モデム１７２またはインターネットなどのＷＡＮ１７３上で通信を確立するためのその他の手段を備える。モデム１７２は、内蔵でも外付けでもよいが、ユーザ入力インターフェース１６０、またはその他の適切なメカニズムを介してシステムバス１２１に接続できる。ネットワーク接続環境では、コンピュータ１１０またはその一部に関して示されているプログラムモジュールは、リモートメモリ記憶デバイスに格納することができる。例えば、制限はされないが、図１には、リモートアプリケーションプログラム１８５がリモートコンピュータ１８０上に常駐するように例示されている。図に示されているネットワーク接続は実施例であり、コンピュータ間の通信リンクを確立するのに他の手段が使用可能であることは理解されるであろう。

図２は、本発明の一実施形態によるテキスト処理システム２００のブロック図である。広範にわたるテキスト操作アプリケーションにおいて、テキスト処理システム２００を使用することができる。例えば、後述のように、ドキュメントクラスタ化、ドキュメント要約作成、ドキュメントクラスタの要約作成、質問回答、情報検索などに使用できる。簡単のため、本発明については、クラスタ要約作成に関して説明する。ただし、本発明はそのように限定されない。システム２００は、グラフビルダ２０２、スコアリングコンポーネント２０４、オプションのディスコースプランニングシステム（ｄｉｓｃｏｕｒｓｅｐｌａｎｎｉｎｇｓｙｓｔｅｍ）２０５、サブグラフ抽出コンポーネント２０６、および生成コンポーネント２０８を備える。図３は、図２に示されているシステム２００のオペレーションを例示する流れ図である。

動作中、グラフビルダ２０２は、まず、入力テキスト２１０を受け取る。これは、図３でブロック２１２で示されている。例えば、入力テキスト２１０は、１つまたは複数のドキュメントからなるテキストコーパスとすることができる。システム２００を使用してドキュメントクラスタの要約を作成する場合、入力テキスト２１０は、知られているクラスタリングシステムを使用してすでにクラスタ化されているドキュメントの集まりである。

いずれの場合も、グラフビルダ２０２は、入力テキスト２１０を受け取って、入力テキスト２１０全体を包括するグラフ２１４を構築する。これは、入力テキスト２１０内の個別の文に対し最初にグラフを構築することにより行われることが例示されている。その後、個々のグラフ同士を１つに連結してグラフ２１４全体を形成する。これを行う際に、個々のグラフは、個々のグラフ内の単語または概念が、個々のグラフ内に出現する回数に関係なく、グラフ２１４全体の中の単一の節点に対応するという点である程度折り畳まれている。図３のブロック２１６により、グラフ全体２１４の生成が示されている。例示されている一実施形態では、グラフ２１４は節点およびリンクを含む。節点は、入力テキスト２１０内の単語、イベント、エンティティ、または概念を表し、節点間のリンクは、有向関係名を表す。一実施形態では、単語のある集まりをグラフ２１４から除外することができる。このような単語は、一般に、停止単語と呼ばれる。

例示されている一実施形態では、入力テキスト２１０の抽象解析を実行する自然言語処理システムによりグラフビルダ２０２が実行される。抽象解析では、表層語順を正規化し、機能単語（「ｂｅ」、「ｈａｖｅ」、「ｗｉｔｈ」など）を使用して関係名を割り当てる。グラフビルダ２０２を備える自然言語処理システムは、さらに、代名詞および語彙名詞句同一指示を両方とも解決する照応解決を実行することもできる。入力テキスト２１０の抽象解析などの一実施形態は、論理形と呼ばれ、抽象解析（論理形）を生成するための好適な一システムが１９９９年１０月１２日付、「METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES」という名称の特許文献１に開示されている。論理形は、各文について入力テキストを包括する有向非巡回グラフである。各文に対応するグラフは、互いに連結して、入力テキスト２１０全体を包括するより大きなグラフ２１４を形成することが例示されている。

もちろん、グラフビルダ２０２は、他の適当なシステムでもよい。例えば、入力テキスト２１０内の各入力文の構文解析を出力し、構文解析を与えられた依存関係木を出力するようにグラフビルダ２０２を構成することができる。こうして、グラフは依存関係木から構成されることが例示されている。代わりに、グラフビルダ２０２では、隣接した単語または連語のペアをグラフ内の節点として定義し、それらの節点の品詞が与えられた場合にリンクの方向が任意に割り当てられるか、または計算される節点間のリンクを仮定することにより入力テキスト２１０のグラフ２１４を構成することができる。これは、発見的手法または機械学習法のいずれかを使用して実行できる。

いずれの場合も、グラフビルダ２０２が入力テキスト２１０からグラフ２１４を生成すると、スコアリングコンポーネント２０４によりグラフ２１４の節点またはサブグラフコンポーネントのスコアが付けられる。これは、図３でブロック２１８により示されている。例示されている一実施形態では、グラフ２１４の複数の節点のスコアを付けるために公的に利用可能なグラフ順位付けアルゴリズムが使用される。そのような公的に利用可能なグラフ順位付けアルゴリズムの一実施例は、ハブおよびオーソリティアルゴリズムと呼ばれるＪｏｈｎＫｌｅｉｎｂｅｒｇによるアルゴリズム（非特許文献１を参照。非特許文献２の拡張版である。なお、非特許文献３にも記載されている）であり、例えば、非特許文献４で開示されているようにＷｅｂページの順位付けに使用されている。簡単にいうと、このようなアルゴリズムでは、順位付けを出力するためにグラフ内のリンクの方向を考慮するということである。グラフ内のそれぞれの節点は、それにリンクする節点の数、およびその与えられた節点のリンク先の節点の数に応じた重みを受け取る。このアルゴリズムの出力は、グラフ内の各節点のスコアである。例えば、情報検索、質問回答、クラスタ化、要約作成などのテキスト操作アプリケーションでは、用語頻度を使用して計算されたスコアの代わりに節点に対するスコアを使用することができる。

節点のスコアが計算された後、グラフ２１４内のタプルに対するスコアを計算できる。タプルは、ｎｏｄｅＢ→ｒｅｌａｔｉｏｎ→ｎｏｄｅＡの形式のグラフ２１４のサブグラフコンポーネントを含み、節点Ａはタプル内の目標節点と呼ばれ、節点Ｂはタプル内の初期節点と呼ばれる。例示されている一実施形態では、各タプルに対するスコアは、節点Ａにリンクしている節点に対するすべてのスコア、節点Ｂのスコア、およびテキストコーパス２１０内の与えられたタプルの頻度数の関数である。タプルの照合を必要とする実質的にどのようなアプリケーションにおいても、各タプルに対するスコアを使用できる。しかし、簡単のため、ここではドキュメント要約作成のみについて説明する。

本発明の一実施形態によれば、タプルスコアの具体的計算では、目標節点に関してタプルに重み付けするだけである。例えば、タプルｎｏｄｅＢ→ｒｅｌａｔｉｏｎ→ｎｏｄｅＡでは、タプルの重みは、節点Ａを指している他のすべての節点に関して計算されるのであり、他のタプルまたは他の節点に関して計算されるのではない。これを実行するために使用される具体的公式の一実施例を以下に示す。

式１
TupleScore (nodeB→relation→nodeA) = NodeScore(B) * Count (nodeB→relation→nodeA) / Sum (nodeX→R→nodeA|NodeScore(X) * Count (nodeX→R→nodeA) となるようなすべての節点Ｘおよび関係Ｒ）。

ただし、ＴｕｐｌｅＳｃｏｒｅ（）は与えられたタプルのスコアを示し、
ＮｏｄｅＳｃｏｒｅ（）は与えられた節点のスコアを示し、
Ｃｏｕｎｔ（）は入力テキスト内の識別されたタプルの頻度である。

もちろん、他のスコアリングメカニズムおよび式を使用することもできる。

スコアリングコンポーネント２０４およびグラフ２１４により生成されたスコアは両方とも、サブグラフ抽出コンポーネント２０６に供給される。サブグラフ抽出コンポーネント２０６は、グラフ２１４に対応する高スコアの節点およびタプルを使用して、入力テキスト２１０から生成された重要なサブグラフを識別する。その後、ＮｏｄｅＳｃｏｒｅｓおよびＴｕｐｌｅＳｃｏｒｅｓに基づいてサブグラフが抽出される。また、対応するスコアに基づいてサブグラフ抽出コンポーネント２０６により、サブグラフを順位付けることもできる。図３では、ブロック２２０および２２２により、高スコアの節点およびサブグラフに対応するグラフ断片の抽出、およびスコアに基づくグラフ断片の順位付けが示されている。図２では、ブロック２２４により、コンポーネント２０６により与えられる順位付けられたグラフ断片が示されている。

グラフ断片は、様々な方法により抽出できる。例えば、入力テキスト２１０内の個々の文から生成され、グラフ全体２１４内の高スコアの節点およびタプルを生成した、個々のグラフ（または論理形）から抽出することができる。それとは別に、グラフ全体２１４から直接抽出することもできる。

例示されている一実施形態では、サブグラフ抽出コンポーネント２０６は、入力テキスト２１０から生成された論理形と高スコアの節点およびタプルとを照合することにより重要なサブグラフを識別する。「高スコアの」という用語を使用することにより、しきい値を経験的に決定できること、およびそのしきい値条件を満たすスコアを持つ節点およびタプルが高いスコアを持つとして識別されることを意味している。さらに、それぞれのサブグラフについて、そのサブグラフにリンクされている高スコアの追加節点を抽出するために調査することができる。このプロセスは、サブグラフのリンク先にできるすべての高スコア節点について、高スコアタプルをアンカーとして使用して、反復されることが例示されている。

さらに、論理形の節点は、他の節点に関連付けることもできる。これは、例えば、代名詞化を通じて、または同じエンティティまたはイベントを参照することに基づいて、発生しうる。例えば、「ＧｅｎｅｒａｌＡｕｇｕｓｔｏＰｉｎｏｃｈｅｔ」および「Ｐｉｎｏｃｈｅｔ」という用語は、同じエンティティを参照することに基づいて関連付けられている。例示されている一実施形態では、これらの関連付けられた節点は、照合プロセスで使用することもできる。

さらに、例示されている一実施形態では、具体的節点タイプを与えられたいくつかの関係およびその値を一致するサブグラフの一部として抽出できる。例えば、あるイベントに対応する節点タイプについて、そのイベントの中核項（ｎｕｃｌｅａｒａｒｇｕｍｅｎｔｓ）（存在する場合は、主語および／または目的語リンクなど）も一致するサブグラフとして保持できる。これにより、特に、サブグラフを識別する目標は、そのサブグラフを生成コンポーネントに受け渡すことである実施形態において、サブグラフの一貫性が改善される。

上述のように照合されたサブグラフ全体をグラフ断片と呼ぶ。例示されている一実施形態では、切断しきい値を使用して、照合に使用される最小スコアを決定し、さらに処理するためその最小値より大きいスコアを持つグラフ断片が保持される。

例示されている一実施形態では、節点およびタプルのスコアに応じてグラフ断片２２４が順序付けられ、グラフ断片２２４の自然言語出力を形成する生成コンポーネント２０８に供給される。

それとは別に、一実施形態では、オプションのディスコースプランニングシステム２０５も用意される。プランニングシステム２０５は、グラフ断片２２４を受け取り、グラフ断片に対する節点およびタプルのスコアを考慮するだけでなく、類似の節点の配置、および２つの節点（品詞を通じて関連する）の出現順序、およびイベント時系列、話題および焦点などをも考慮して、グラフ断片の最適な順序付けを出力する。例えば、３つの文（Ｓ１、Ｓ２、およびＳ３）が生成されると仮定し、スコアのみが考慮されたとすれば、文の順序はＳ１Ｓ２Ｓ３となるであろう。しかし、文Ｓ１およびＳ３が両方とも、同じエンティティに言及している場合、プランニングシステム２０５は、Ｓ１Ｓ３Ｓ２を出力し、さらにＳ３の中のエンティティを代名詞で置き換えることができるか、または文Ｓ１およびＳ３を連結して１つの長い文を作ることができる。共通の節点を伴う文をグループ化すると、生成される要約の可読性が向上する。

同様に、２つの文Ｓ１およびＳ２は両方とも、例えば、単語「ａｒｒｅｓｔ」に言及しているが、Ｓ１では名詞として、Ｓ２では動詞として使用されていると仮定する。プランニングシステム２０５は、文の順序をＳ２Ｓ１に変更する。これにより、例えば、「Ｘｇｏｔａｒｒｅｓｔｅｄｙｅｓｔｅｒｄａｙ．．．」と言及し、次に「ｔｈｅａｒｒｅｓｔ．．．」と言及する要約が出力され、これによってもまた、生成される要約の可読性が向上する。

いずれの場合も、プランニングシステム２０５は、追加考慮事項に基づき、グラフ断片２２４の順序を変更し、それらの断片を順序変更されたグラフ断片２２５として生成コンポーネント２０８に供給する。図３ではブロック２２４によりディスコースプランニングシステム２０５によりグラフ断片の順序を変更するオプションのステップが示されている。

生成コンポーネント２０８に、グラフ断片の集まりが供給される。次に、生成コンポーネント２０８は、受け取ったグラフ断片に基づいて出力テキスト２２６を生成することができる。これは、図３ではブロック２２８により示されている。

生成コンポーネント２０８は、とにかく、それが受け取るタイプのグラフ断片と整合していなければならない。コンポーネント２０８はルールベースのコンポーネントであってよい（例えば、非特許文献５および非特許文献６を参照）。また、機械学習できるコンポーネントであってもよい（例えば、非特許文献７参照）。

この時点で、例があると役立つ。入力テキスト２１０は以下の英語で書かれた文のグループを含むと仮定する。

「Pinochet was reported to have left London Bridge Hospital on Wednesday.
President Eduardo Frei Ruiz_Tagle said that Pinochet, now an unelected senator for life, carried a diplomatic passport giving him legal immunity.
The arrest of Gen. Augusto Pinochet shows the growing significance of international human_rights law.
Former Chilean dictator Gen. Augusto Pinochet has been arrested by British police, despite protests from Chile that he is entitled to diplomatic immunity.」

それぞれの個々の文に対する個々のグラフ（論理形）は以下のように表される。
「Pinochet was reported to have left London Bridge Hospital on Wednesday.」

「President Eduardo Frei Ruiz_Tagle said that Pinochet, now an unelected senator for life, carried a diplomatic passport giving him legal immunity.」

「The arrest of Gen. Augusto Pinochet shows the growing significance of international human_rights law.」

「Former Chilean dictator Gen. Augusto Pinochet has been arrested by British police, detspite protests from Chile that he is entitled to diplomatic immunity.」

図４は、「Ｐｉｎｏｃｈｅｔ」に対する節点を中心とするグラフ３００を例示しており、これは入力された複数の文に対する論理形からの節点を連結する。グラフ３００は、さらに、事実上以下のように表される。

Ｐｉｎｏｃｈｅｔにリンクするグラフ３００内の節点は以下のようになることはわかるであろう。

照応解決を使用して「ｈｅ」を「Ｐｉｎｏｃｈｅｔ」に解決することに留意されたい。

Ａｐｐｏｓｔｎ関係は「アンパック」され、２つの（またはＡｐｐｏｓｔｎがいくつあってもその数だけの）リンクが得られることに留意されたい。したがって、この論理形から、リンク「ａｒｒｅｓｔ−Ｔｏｂｊ−ｄｉｃｔａｔｏｒ」に加えて、リンク「ａｒｒｅｓｔ−Ｔｏｂｊ−Ｇｅｎ．＿Ａｕｇｕｓｔｏ＿Ｐｉｎｏｃｈｅｔ」も識別される。

Ｐｉｎｏｃｈｅｔのリンク先の節点は以下のようになることもわかるであろう。

この最後の論理形は、注目している節点がＧｅｎ．＿Ａｕｇｕｓｔｏ＿Ｐｉｎｏｃｈｅｔであれば、節点「Ｐｉｎｏｃｈｅｔ」も含まれるという点で、上述の「類似単語」概念を示していることに留意されたい。これは、以下のようにＬＡＳＴＮＡＭＥ関係に基づいている。

以下の節点スコアは、このクラスタに対するグラフ全体の一部だけの実施例を示しており、したがってスコアは正確な値ではなく参考値である。

以下は、タプルのスコア例である。スコアは左節点に関するスコアであり、したがって「ａｒｒｅｓｔ＿＿Ｐｏｓｓｒ＿＿Ｐｉｎｏｃｈｅｔ」は「ａｒｒｅｓｔ＿＿Ｔｓｕｂ＿＿ｐｏｌｉｃｅ」よりも高いスコアを持つが、「ａｒｒｅｓｔ＿＿Ｔｓｕｂ＿＿ｐｏｌｉｃｅ」のスコアが「ｃａｒｒｙ＿＿Ｔｏｂｊ＿＿ｐａｓｓｐｏｒｔ」よりも高い／低いかについて重みからは何も推論できないことに留意されたい。

スコアによりこれらの断片が順位付けされる。この実施例では、Ｖｅｒｂ品詞を根とする選択された断片は、順序として、Ｎｏｕｎ品詞を根とする選択された断片よりも前に来る。

さらに、ＴｉｍｅとＴｏｂｊは、「Ｌｏｎｄｏｎ＿Ｂｒｉｄｇｅ＿Ｈｏｓｐｉｔａｌ」自体が低スコアのタプルであっても、両方とも「ｌｅａｖｅ」への中核項であるため、グラフ断片の一部として選択されることに留意されたい。

「ｓｉｇｎｉｆｉｃａｎｔ」は中核項なので選択されていることに留意されたい。「ｓｉｇｎｉｆｉｃａｎｃｅ」はＮｏｕｎであるが、イベント特性を持つため、名詞に対する項（Ａｔｔｒｉｂｅおよび「ｏｆ」）も選択する。

これは、「ａｒｒｅｓｔＴｏｂｊＰｉｎｏｃｈｅｔ」に対するタプルスコアであるが、同一指示を通じて識別されているように「ｄｉｃｔａｔｏｒ」および「Ｐｉｎｏｃｈｅｔ」は同じエンティティであることに留意されたい。

これは、高スコアイベントが使用されたか、または重み限界値に達した場合にグラフ内の節点を拡大するために使用可能な名詞句の一例であることに留意されたい。

以下は、オプションのプランニングシステム２０５が使用された場合に類似／または同じ節点の順序を変更し、グループ化して１つにまとめるいくつかの実施例である。以下は、グラフ断片１および４は両方とも「Ｐｉｎｏｃｈｅｔ」に対する節点を共有するので、それらを結合することを示している。

以下は、グラフ断片２および３の順序を変更して、異なる品詞を先にＶｅｒｂ次にＮｏｕｎとして持つ同じ節点の好ましい順序付けを反映することを示している。

以下は、生成出力２２６を例示している。この実施例では、生成時に、生成に対する指示表現が選択される。通常、それは、中核項位置にあれば、まず最も限定的な指示表現（Ｇｅｎ．ＡｕｇｕｓｔｏＰｉｎｏｃｈｅｔ）、次に短い形式（Ｐｉｎｏｃｈｅｔ）、そして代名詞と続く。したがって、生成出力２２６の一実施形態は以下のようになる。

「Gen.Augusto Pinochet, an unelected senator, left London Bridge Hospital on Wednesday.
Pinochet has been arrested in London by the police.
His arrest shows the growing significance of international human_rights.」

したがって、本発明は、従来技術に比べて際だって利点を有することがわかるであろう。本発明では、入力テキストから生成されたグラフに基づいてイベントを順位付ける。これは、要約に何を含めるかについて決定する際に単語頻度ベースのアプローチに比べて、正確であることが判明している。本発明の他の態様では、順位付けされたグラフ断片が与えられた要約を生成する。これは、マルチドキュメント要約の文抽出または圧縮よりも一貫性および可読性に優れる。

もちろん、本発明は、他の広範にわたるアプリケーションでも使用できることは理解されるであろう。例えば、入力テキストに対しグラフを生成し、その後、グラフのコンポーネントに対するスコアを計算することにより入力テキスト内の単語またはテキスト断片またはイベントを識別することは、多くの状況において有用である。例えば、情報検索、インデックス作成、ドキュメントクラスタ化、質問回答など２つのテキスト入力の関係を識別しようとする場合に、使用することができる。これらの場合、第１の入力の単語またはタプルのスコアを第２の入力の単語またはタプルのスコアと対比して、それら２つの入力間の関係を決定する。情報検索では、第１の入力はクエリであり、第２の入力はクエリとの比較対象のインデックスまたはドキュメントである。質問回答では、第１の入力は質問であり、第２の入力はその質問に回答するかどうかを決定するために調査されるテキストである。ドキュメントクラスタ化では、２つの入力は、ドキュメントまたはその要約、またはクラスタの要約である。同様に、入力テキストのインデックス作成に使用されるドキュメント内の用語およびそれらの用語について計算される重みを決定する際に、入力テキストを包括するグラフに対し生成されたスコアを使用できる。

もちろん、本発明は、入力テキストに対応する出力テキストを生成するために説明されている通りに使用することもできる。テキストは、単一ドキュメントの要約、クラスタの要約などであってもよい。したがって、本発明は、主にドキュメント要約作成に関して説明されているが、本発明は、広範に応用することができ、要約作成に限定されるわけではない。

本発明は、特定の実施形態を参照しつつ説明されているが、当業者であれば、本発明の精神および範囲を逸脱することなく、形態および詳細に変更を加えることができることを理解するであろう。

本発明を使用することができる例示されている一環境のブロック図である。本発明によるシステムの一実施形態のブロック図である。図２に示されているシステムのオペレーションの一実施形態を例示する流れ図である。入力テキスト例について生成されたグラフ例の図である。

Claims

テキスト入力により表される注目する特性を識別する方法であって、
前記テキスト入力に対応するグラフを構築することと、
前記グラフのサブグラフコンポーネントのスコアを付けることと、
前記スコアに基づき注目するグラフ断片を識別することと、
前記識別されたグラフ断片に基づいてテキスト操作を実行すること
とを含むことを特徴とする方法。
前記グラフを構築することは、リンクによりリンクされている節点を持つ前記グラフを構築することを含むことを特徴とする請求項１に記載の方法。
前記複数の節点は、テキスト入力内の複数の単語または前記テキスト入力により表される複数の概念に対応することを特徴とする請求項２に記載の方法。
前記グラフを構築することは、さらに、前記リンクを有向意味関係名として生成することを含むことを特徴とする請求項３に記載の方法。
前記グラフを構築することは、さらに、前記テキスト入力に対する一組の抽象解析結果を生成することを含むことを特徴とする請求項４に記載の方法。
前記一組の抽象解析結果を生成することは、
前記テキスト入力に基づき一組の有向無閉路グラフを生成することと、
前記一組の有向無閉路グラフを互いに連結することとを含むことを特徴とする請求項５に記載の方法。
前記グラフを構築することは、
前記テキスト入力内のテキスト部分の構文解析結果を生成することと、
前記構文解析結果から依存関係構造を生成することと、
前記構文解析結果から前記グラフを生成することとを含むことを特徴とする請求項２に記載の方法。
前記グラフを構築することは、
前記節点を隣接単語または連語として識別することと、
前記節点間の前記リンクを識別することとを含むことを特徴とする請求項２に記載の方法。
前記リンクを識別することは、
前記リンクの方向を任意に割り当てることを含むことを特徴とする請求項８に記載の方法。
前記リンクを識別することは、発見的手法を使用して、前記リンクを識別し、前記複数の節点に関連付けられている与えられた品詞に基づいて前記リンクの方向を割り当てることを含むことを特徴とする請求項８に記載の方法。
前記リンクを識別することは、機械学習法を使用して、前記リンクを識別し、前記複数の節点に関連付けられている与えられた品詞に基づいて前記リンクの方向を割り当てることを含むことを特徴とする請求項８に記載の方法。
前記グラフのサブグラフコンポーネントのスコアを付けることは、
前記グラフ内の各節点にスコアを割り当てることを含むことを特徴とする記載２に記載の方法。
節点の対および節点の前記対の間のリンクは、タプルを含み、前記のグラフのサブグラフコンポーネントのスコアを付けることは、
前記グラフ内の各タプルにスコアを割り当てることを含むことを特徴とする記載１２に記載の方法。
前記グラフ内のそれぞれのタプルにスコアを割り当てることは、
前記タプル内の初期節点のスコア、目標節点にリンクしている複数の節点の複数のスコア、および前記テキスト入力内の前記タプルの頻度に基づいて前記グラフ内のそれぞれのタプルにスコアを割り当てることを含むことを特徴とする請求項１３に記載の方法。
前記注目するグラフ断片を識別することは、
前記グラフのサブグラフコンポーネントと、十分なスコアを持つ節点およびタプルとを照合することを含むことを特徴とする請求項１３に記載の方法。
前記注目するグラフ断片を識別することは、
前記照合されたサブグラフコンポーネントにリンクされる、十分なスコアを持つ、節点を識別することを含むことを特徴とする請求項１５に記載の方法。
前記グラフ断片を識別することは、
照合されたサブグラフコンポーネント内の節点との所定の関係を持つ前記照合されたサブグラフコンポーネントの外部にある節点を識別することを含むことを特徴とする請求項１６に記載の方法。
前記グラフ断片を識別することは、
所定の特定の節点タイプが与えられた場合に、いくつかの関係を識別することを含むことを特徴とする請求項１７に記載の方法。
前記照合されたサブグラフコンポーネントおよび識別された節点および関係はすべて、前記グラフ断片を含むことを特徴とする請求項１８に記載の方法。
前記テキスト操作を実行することは、
前記テキスト入力の与えられた部分についてグラフ断片として識別された前記一組のサブグラフコンポーネントを抽出することを含むことを特徴とする請求項１９に記載の方法。
前記グラフを構築することは、
前記テキスト入力内の文ごとに別々のグラフを生成することと、
前記別々のグラフ同士を連結して１つのグラフ全体を形成することとを含むことを特徴とする請求項２０に記載の方法。
前記抽出することは、
前記グラフ全体から、十分なスコアを持つサブグラフ部分を抽出することを含むことを特徴とする請求項２１に記載の方法。
前記グラフ全体の高スコアサブグラフ部分は、スコアしきい値条件を満たすスコアを持つ前記グラフ全体のサブグラフ部分を含み、サブグラフ部分を抽出することは、
前記グラフ全体の前記高スコアサブグラフ部分を生成した前記別々のグラフの複数の部分を抽出することを含むことを特徴とする請求２１に記載の方法。
前記テキスト操作を実行することは、要約作成、情報検索、質問回答、ドキュメントクラスタ化、およびインデックス作成のうちの１つを含むことを特徴とする請求項１に記載の方法。
前記テキスト操作を実行することは、前記抽出されたグラフ断片に基づきテキスト出力を生成することを含むことを特徴とする請求項１に記載の方法。
さらに、
前記グラフ断片に対応するスコアに基づき前記グラフ断片を順序付けることを含むことを特徴とする請求項１に記載の方法。
前記順序付けることは、さらに、
前記スコアに加えて複数のファクタに基づき前記グラフ断片を順序付けることを含むことを特徴とする請求項２６に記載の方法。
前記ファクタは、節点の配置および品詞を通じて関連する２つの節点が出現する順序のうちの１つ、テキスト入力から決定されるイベント時系列、およびテキスト入力について決定される話題を含むことを特徴とする請求項２７に記載の方法。
注目する特性が単語、テキスト断片、概念、イベント、エンティティ、および話題のうちの１つを含むことを特徴とする請求項１に記載の方法。