JP2005276183A - グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム - Google Patents

グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム Download PDF

Info

Publication number
JP2005276183A
JP2005276183A JP2005048560A JP2005048560A JP2005276183A JP 2005276183 A JP2005276183 A JP 2005276183A JP 2005048560 A JP2005048560 A JP 2005048560A JP 2005048560 A JP2005048560 A JP 2005048560A JP 2005276183 A JP2005276183 A JP 2005276183A
Authority
JP
Japan
Prior art keywords
graph
score
nodes
text
identifying
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005048560A
Other languages
English (en)
Other versions
JP4647336B2 (ja
Inventor
Arul A Menezes
エー.メネゼス アルール
Lucretia H Vanderwende
エイチ.バンダーウェンデ ルクレチア
Michele L Banko
エル.バンコ ミケーレ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2005276183A publication Critical patent/JP2005276183A/ja
Application granted granted Critical
Publication of JP4647336B2 publication Critical patent/JP4647336B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Abstract

【課題】 本発明によりテキストのコーパス内の注目する単語、テキスト断片、または概念を識別するための方法およびシステムを提供すること。
【解決手段】 テキストのコーパスを包括するグラフを構築する。グラフは、節点とリンクを含み、節点は単語または概念を表し、節点間のリンクは有向関係名を表す。そこで、グラフ内の節点ごとにスコアを計算する。スコアは、グラフのより大きなサブグラフ(タプル)についても計算できる。スコアは、グラフの所望のサブグラフ部分を識別するために使用され、このサブグラフ部分はグラフ断片と呼ばれる。
【選択図】 図2

Description

本発明は、テキストを識別し、検索することに関する。より具体的には、本発明は、テキスト資料を包括するグラフを生成し、そのグラフの一部にスコアを付けることにより、テキスト資料の大規模なコーパスから注目するテキスト部分(またはテキスト断片)を識別し、検索することに関する。
大規模なテキストコーパス内の注目するテキストを識別する機能を活用するアプリケーションは広範にわたる。例えば、ドキュメントクラスタ化(document clustering)およびドキュメント要約作成(document summarization)では、両方とも、ドキュメントに関連する概念を識別しようと試みる。ドキュメントを複数のクラスタに分けるために、またはドキュメントを要約するためにそれらの概念が使用される。実際には、後処理(情報検索など)で使用するために、自動的にドキュメントのクラスタ化およびドキュメントのクラスタ全体の要約作成の両方の試みがいくつか行われている。
従来のシステムでは、概念またはドキュメントの主題にどのように関係しているかに基づいて文を順序付けようとしていた。その後、文を圧縮し、ときには少し書き換えて、要約を得る。
以前には、様々な多数の方法により、文の順序付けが試みられていた。一部の従来システムでは、動詞特異性に基づいて文を順序付けることを試みる。他のアプローチでは、ドキュメント内の文位置および文中で識別されたエンティティの頻度に基づく発見的手法を使用して文を順序付けようとしている。
このような従来システムは、すべて、何らかの欠点を有する。例えば、このような従来システムはすべて、ほとんどは抽出的である。システムは、要約対象のドキュメントから単語および文断片を単に抽出するだけである。それらの単語と語順は変わらない。その代わりに、複数の単語または文断片は、オリジナルのドキュメントで書かれているように、ドキュメントの要約としてオリジナルのドキュメント内に現れるオリジナルの順序で、単に与えられるだけである。もちろん、人間がそのようなテキスト断片の意味を解読することは困難な場合がある。
さらに、ほとんど従来のアプローチでは、用語頻度に基づいてテキスト内の各単語に対するスコアを計算することにより、注目する複数の単語またはテキストを識別した。このようなスコアを計算するために従来システムで主に使用される手法は、用語頻度*逆ドキュメント頻度(tf*idf)関数であり、これは、当技術分野でよく知られており、文書化されている。いくつかの従来システムでは、tf*idf関数の少し変更した関数を使用しているが、tf*idfクラスの関数を使用するアルゴリズムはすべて、単語ベースである。
他の技術分野では、Webページの順位付けのためグラフが作成されている。Webページをグラフ内の節点として使用し、グラフ内のリンクとしてWebページにリンクするハブおよびオーソリティアルゴリズムを使用して、これらのグラフが順位付けされる。このようなグラフ理論がグラフテキストに応用されたことはない。
米国特許第5,966,686号明細書 Authoritative sources in a hyperlinked environment. Proc. 9th ACM-SIAM Symposium on Discrete Algorithms, 1998 Journal of the ACM 46 (1999) IBM Research Report RJ 10076, May 1997 Sergey Brin and Lawrence Page. The anatomy of a large-scale hypertextual Web search engine」Ashman and Thistlewaite [2], pages 107--117, Brisbane, Australia Aikawa, T., M. Melero, L. Schwartz, and A. Wu. (2001). Multilingual Sentence Generation, In Proceedings of 8th European Workshop on Natural Language Generation, Toulouse Aikawa, T., M. Melero, L. Schwartz, and A. Wu. (2001). Sentence Generation for Multilingual Machine Translation, In Proceedings of the MT Summit VIII, Santiago de Compostela, Spain Gamon, M., E. Ringger, and S. Corston-Oliver. 2002. Amalgam:A machine-learned generation module. Microsoft Research Technical Report: MSR-TR-2002-57
本発明は、上述の点に鑑みてテキストのコーパス内の注目する単語、テキスト断片、または概念を識別するための方法およびシステムを提供することを目的とする。
テキストのコーパスを包括するグラフを構築する。グラフは、節点とリンクを含み、節点は単語または概念を表し、節点間のリンクは有向関係名を表す。そこで、グラフ内の節点ごとにスコアを計算する。スコアは、グラフのより大きなサブグラフ(タプルなど)についても計算できる。スコアは、グラフの所望のサブグラフ部分を識別するために使用され、このサブグラフ部分はグラフ断片と呼ばれる。
一実施形態では、識別されたグラフ断片からテキスト出力が生成される。これらのクラス断片がテキスト生成コンポーネントに供給され、そのコンポーネントは、そこに供給されるグラフ断片を示すテキスト出力を生成する。
本発明は、テキストのより大きなコーパス内の注目する単語、テキスト断片、または概念を識別することに関する。本発明を詳しく説明する前に、本発明を使用できる一環境例について説明する。
図1は、本発明を実装できる好適なコンピューティングシステム環境100の一実施例の図である。コンピューティングシステム環境100は、適当なコンピューティング環境の一例にすぎず、本発明の用途または機能性の範囲に関する制限を示唆する意図はない。コンピューティング環境100には、動作環境例100に例示されている1つのコンポーネントまたはその組合せに関係する何らかの依存関係または要求条件がその環境にあると解釈すべきでない。
本発明は、他の数多くの汎用または専用コンピューティングシステム環境または構成で動作する。本発明とともに使用するのに適していると思われるよく知られているコンピューティングシステム、環境、および/または構成の例として、パーソナルコンピュータ、サーバコンピュータ、ハンドヘルドまたはラップトップデバイス、マルチプロセッサシステム、マイクロプロセッサベースのシステム、セットトップボックス、プログラム可能な家電製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、上記システムまたはデバイスを含む分散コンピューティング環境などがある。
本発明は、コンピュータによって実行される、プログラムモジュールなどのコンピュータ実行可能命令の一般的背景状況において説明することができる。一般に、プログラムモジュールは、特定のタスクを実行する、または特定の抽象データ型を実装するルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含む。また、本発明は、通信ネットワークを通じてリンクされているリモート処理デバイスによりタスクが実行される分散コンピューティング環境で実施することもできる。分散コンピューティング環境では、プログラムモジュールをメモリ記憶デバイスなどのローカルとリモートの両方のコンピュータ記憶媒体に配置できる。
図1を参照すると、本発明を実装するシステムの実施例は、汎用コンピューティングデバイスをコンピュータ110の形で備えている。コンピュータ110が備えるコンポーネントとしては、処理ユニット120、システムメモリ130、およびシステムメモリを備える様々なシステムコンポーネントを処理ユニット120に結合するシステムバス121などがある。システムバス121には、メモリバスまたはメモリコントローラ、周辺機器バス、および様々なバスアーキテクチャを使用するローカルバスを含む数種類のバス構造があり得る。例えば、このようなアーキテクチャとしては、Industry Standard Architecture(ISA)バス、Micro Channel Architecture(MCA)バス、Enhanced ISA(EISA)バス、Video Electronics Standards Association(VESA)ローカルバス、およびMezzanineバスとも呼ばれるPeripheral Component Interconnect(PCI)バスがある。
コンピュータ110は通常、様々なコンピュータ可読媒体を含む。コンピュータ可読媒体は、コンピュータ110によってアクセスされることができる媒体であればどのような媒体でも使用可能であり、揮発性および不揮発性媒体、取り外し可能および取り外し不可能媒体を含む。例えば、コンピュータ可読媒体は、コンピュータ記憶媒体および通信媒体を含むことができる。コンピュータ記憶媒体は、コンピュータ可読命令、データ構造体、プログラムモジュール、またはその他のデータなどの情報を格納する方法または技術で実装される揮発性および不揮発性、取り外し可能および取り外し不可能媒体を含む。コンピュータ記憶媒体としては、制限はされないが、RAM、ROM、EEPROM、フラッシュメモリまたはその他のメモリ技術、CD−ROM、デジタル多目的ディスク(DVD)またはその他の光ディスク記憶装置、磁気カセット、磁気テープ、磁気ディスク記憶装置またはその他の磁気記憶デバイス、または所望の情報を格納するために使用することができ、しかもコンピュータ100によりアクセスできるその他の媒体がある。通信媒体は、通常、コンピュータ可読命令、データ構造体、プログラムモジュール、または搬送波もしくはその他のトランスポートメカニズムなどの変調データ信号によるその他のデータを具現し、任意の情報配信媒体を含む。「変調データ信号」という用語は、信号内の情報を符号化する方法によりその特性のうち1つまたは複数が設定または変更された信号を意味する。例えば、制限はされないが、通信媒体としては、有線ネットワークまたは直接配線接続などの有線媒体、ならびに、音響、FR、赤外線、およびその他の無線媒体などの無線媒体がある。上記のいずれの組合せもコンピュータ可読媒体の範囲に収まらなければならない。
システムメモリ130は、読み取り専用メモリ(ROM)131およびランダムアクセスメモリ(RAM)132などの揮発性および/または不揮発性メモリの形態のコンピュータ記憶媒体を備える。起動時などにコンピュータ110内の要素間の情報伝送を助ける基本ルーチンを含む基本入出力システム133(BIOS)は、通常、ROM 131に格納される。通常、RAM 132は、処理ユニット120に直接アクセス可能な、および/または処理ユニット120によって現在操作されているデータおよび/またはプログラムモジュールを格納する。例えば、制限はされないが、図1は、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137を例示している。
コンピュータ110はさらに、その他の取り外し可能/取り外し不可能な揮発性/不揮発性コンピュータ記憶媒体を備えることもできる。例えば、図1は、取り外し不可能な不揮発性磁気媒体の読み書きを行うハードディスクドライブ141、取り外し可能な不揮発性磁気ディスク152の読み書きを行う磁気ディスクドライブ151、およびCD−ROMまたはその他の光媒体などの取り外し可能な不揮発性光ディスク156の読み書きを行う光ディスクドライブ155を例示している。動作環境の実施例で使用できる他の取り外し可能/取り外し不可能な揮発性/不揮発性コンピュータ記憶媒体としては、制限はされないが、磁気テープカセット、フラッシュメモリカード、デジタル多目的ディスク、デジタルビデオテープ、ソリッドステートRAM、ソリッドステートROMなどがある。ハードディスクドライブ141は、通常、インターフェース140などの取り外し不可能なメモリインターフェースを介してシステムバス121に接続され、磁気ディスクドライブ151および光ディスクドライブ155は、通常、インターフェース150などの取り外し可能なメモリインターフェースによりシステムバス121に接続される。
図1に例示されている上記のドライブおよび関連コンピュータ記憶媒体は、コンピュータ110用のコンピュータ可読命令、データ構造体、プログラムモジュール、およびその他のデータを格納する機能を備える。例えば、図1では、ハードディスクドライブ141は、オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147を格納するとして例示されている。これらのコンポーネントは、オペレーティングシステム134、アプリケーションプログラム135、その他のプログラムモジュール136、およびプログラムデータ137と同じである場合もあれば異なる場合もあることに注意されたい。オペレーティングシステム144、アプリケーションプログラム145、その他のプログラムモジュール146、およびプログラムデータ147に対しては、ここで、異なる番号を割り当てて、最低でも、それが異なるコピーであることを示している。
ユーザは、キーボード162、マイク163などの入力デバイス、およびマウス、トラックボール、またはタッチパッドなどのポインティングデバイス161を介してコンピュータ110にコマンドおよび情報を入力できる。他の入力デバイス(図に示されていない)としては、ジョイスティック、ゲームパッド、衛星放送受信アンテナ、スキャナなどがある。これらの入力デバイスやその他の入力デバイスは、システムバスに結合されているユーザ入力インターフェース160を介して処理ユニット120に接続されることが多いが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(USB)などの他のインターフェースおよびバス構造により接続することもできる。モニタ191またはその他の種類の表示デバイスも、ビデオインターフェース190などのインターフェースを介してシステムバス121に接続される。モニタの他に、コンピュータはさらにスピーカ197およびプリンタ196などの他の周辺出力デバイスも備えることができ、これらは出力周辺インターフェース190を介して接続することができる。
コンピュータ110は、リモートコンピュータ180などの1つまたは複数のリモートコンピュータへの論理接続を使用してネットワーク接続環境で動作することができる。リモートコンピュータ180は、パーソナルコンピュータ、ハンドヘルドデバイス、サーバ、ルータ、ネットワークPC、ピアデバイス、またはその他の共通ネットワークノードとすることができ、通常は、コンピュータ110に関して説明されている要素の多くまたはすべてを含む。図1に示されている論理接続は、ローカルエリアネットワーク(LAN)171およびワイドエリアネットワーク(WAN)173を含むが、他のネットワークを含むこともできる。このようなネットワーキング環境は、オフィス、企業全体にわたるコンピュータネットワーク、イントラネット、およびインターネットでは一般的である。
LANネットワーキング環境で使用される場合、ネットワークインターフェースまたはアダプタ171を介してLAN 170にコンピュータ110が接続される。WANネットワーキング環境で使用される場合、コンピュータ110は、通常、モデム172またはインターネットなどのWAN 173上で通信を確立するためのその他の手段を備える。モデム172は、内蔵でも外付けでもよいが、ユーザ入力インターフェース160、またはその他の適切なメカニズムを介してシステムバス121に接続できる。ネットワーク接続環境では、コンピュータ110またはその一部に関して示されているプログラムモジュールは、リモートメモリ記憶デバイスに格納することができる。例えば、制限はされないが、図1には、リモートアプリケーションプログラム185がリモートコンピュータ180上に常駐するように例示されている。図に示されているネットワーク接続は実施例であり、コンピュータ間の通信リンクを確立するのに他の手段が使用可能であることは理解されるであろう。
図2は、本発明の一実施形態によるテキスト処理システム200のブロック図である。広範にわたるテキスト操作アプリケーションにおいて、テキスト処理システム200を使用することができる。例えば、後述のように、ドキュメントクラスタ化、ドキュメント要約作成、ドキュメントクラスタの要約作成、質問回答、情報検索などに使用できる。簡単のため、本発明については、クラスタ要約作成に関して説明する。ただし、本発明はそのように限定されない。システム200は、グラフビルダ202、スコアリングコンポーネント204、オプションのディスコースプランニングシステム(discourse planning system)205、サブグラフ抽出コンポーネント206、および生成コンポーネント208を備える。図3は、図2に示されているシステム200のオペレーションを例示する流れ図である。
動作中、グラフビルダ202は、まず、入力テキスト210を受け取る。これは、図3でブロック212で示されている。例えば、入力テキスト210は、1つまたは複数のドキュメントからなるテキストコーパスとすることができる。システム200を使用してドキュメントクラスタの要約を作成する場合、入力テキスト210は、知られているクラスタリングシステムを使用してすでにクラスタ化されているドキュメントの集まりである。
いずれの場合も、グラフビルダ202は、入力テキスト210を受け取って、入力テキスト210全体を包括するグラフ214を構築する。これは、入力テキスト210内の個別の文に対し最初にグラフを構築することにより行われることが例示されている。その後、個々のグラフ同士を1つに連結してグラフ214全体を形成する。これを行う際に、個々のグラフは、個々のグラフ内の単語または概念が、個々のグラフ内に出現する回数に関係なく、グラフ214全体の中の単一の節点に対応するという点である程度折り畳まれている。図3のブロック216により、グラフ全体214の生成が示されている。例示されている一実施形態では、グラフ214は節点およびリンクを含む。節点は、入力テキスト210内の単語、イベント、エンティティ、または概念を表し、節点間のリンクは、有向関係名を表す。一実施形態では、単語のある集まりをグラフ214から除外することができる。このような単語は、一般に、停止単語と呼ばれる。
例示されている一実施形態では、入力テキスト210の抽象解析を実行する自然言語処理システムによりグラフビルダ202が実行される。抽象解析では、表層語順を正規化し、機能単語(「be」、「have」、「with」など)を使用して関係名を割り当てる。グラフビルダ202を備える自然言語処理システムは、さらに、代名詞および語彙名詞句同一指示を両方とも解決する照応解決を実行することもできる。入力テキスト210の抽象解析などの一実施形態は、論理形と呼ばれ、抽象解析(論理形)を生成するための好適な一システムが1999年10月12日付、「METHOD AND SYSTEM FOR COMPUTING SEMANTIC LOGICAL FORMS FROM SYNTAX TREES」という名称の特許文献1に開示されている。論理形は、各文について入力テキストを包括する有向非巡回グラフである。各文に対応するグラフは、互いに連結して、入力テキスト210全体を包括するより大きなグラフ214を形成することが例示されている。
もちろん、グラフビルダ202は、他の適当なシステムでもよい。例えば、入力テキスト210内の各入力文の構文解析を出力し、構文解析を与えられた依存関係木を出力するようにグラフビルダ202を構成することができる。こうして、グラフは依存関係木から構成されることが例示されている。代わりに、グラフビルダ202では、隣接した単語または連語のペアをグラフ内の節点として定義し、それらの節点の品詞が与えられた場合にリンクの方向が任意に割り当てられるか、または計算される節点間のリンクを仮定することにより入力テキスト210のグラフ214を構成することができる。これは、発見的手法または機械学習法のいずれかを使用して実行できる。
いずれの場合も、グラフビルダ202が入力テキスト210からグラフ214を生成すると、スコアリングコンポーネント204によりグラフ214の節点またはサブグラフコンポーネントのスコアが付けられる。これは、図3でブロック218により示されている。例示されている一実施形態では、グラフ214の複数の節点のスコアを付けるために公的に利用可能なグラフ順位付けアルゴリズムが使用される。そのような公的に利用可能なグラフ順位付けアルゴリズムの一実施例は、ハブおよびオーソリティアルゴリズムと呼ばれるJohn Kleinbergによるアルゴリズム(非特許文献1を参照。非特許文献2の拡張版である。なお、非特許文献3にも記載されている)であり、例えば、非特許文献4で開示されているようにWebページの順位付けに使用されている。簡単にいうと、このようなアルゴリズムでは、順位付けを出力するためにグラフ内のリンクの方向を考慮するということである。グラフ内のそれぞれの節点は、それにリンクする節点の数、およびその与えられた節点のリンク先の節点の数に応じた重みを受け取る。このアルゴリズムの出力は、グラフ内の各節点のスコアである。例えば、情報検索、質問回答、クラスタ化、要約作成などのテキスト操作アプリケーションでは、用語頻度を使用して計算されたスコアの代わりに節点に対するスコアを使用することができる。
節点のスコアが計算された後、グラフ214内のタプルに対するスコアを計算できる。タプルは、nodeB→relation→nodeAの形式のグラフ214のサブグラフコンポーネントを含み、節点Aはタプル内の目標節点と呼ばれ、節点Bはタプル内の初期節点と呼ばれる。例示されている一実施形態では、各タプルに対するスコアは、節点Aにリンクしている節点に対するすべてのスコア、節点Bのスコア、およびテキストコーパス210内の与えられたタプルの頻度数の関数である。タプルの照合を必要とする実質的にどのようなアプリケーションにおいても、各タプルに対するスコアを使用できる。しかし、簡単のため、ここではドキュメント要約作成のみについて説明する。
本発明の一実施形態によれば、タプルスコアの具体的計算では、目標節点に関してタプルに重み付けするだけである。例えば、タプルnodeB→relation→nodeAでは、タプルの重みは、節点Aを指している他のすべての節点に関して計算されるのであり、他のタプルまたは他の節点に関して計算されるのではない。これを実行するために使用される具体的公式の一実施例を以下に示す。
式1
TupleScore (nodeB→relation→nodeA) = NodeScore(B) * Count (nodeB→relation→nodeA) / Sum (nodeX→R→nodeA|NodeScore(X) * Count (nodeX→R→nodeA) となるようなすべての節点Xおよび関係R)。
ただし、TupleScore()は与えられたタプルのスコアを示し、
NodeScore()は与えられた節点のスコアを示し、
Count()は入力テキスト内の識別されたタプルの頻度である。
もちろん、他のスコアリングメカニズムおよび式を使用することもできる。
スコアリングコンポーネント204およびグラフ214により生成されたスコアは両方とも、サブグラフ抽出コンポーネント206に供給される。サブグラフ抽出コンポーネント206は、グラフ214に対応する高スコアの節点およびタプルを使用して、入力テキスト210から生成された重要なサブグラフを識別する。その後、NodeScoresおよびTupleScoresに基づいてサブグラフが抽出される。また、対応するスコアに基づいてサブグラフ抽出コンポーネント206により、サブグラフを順位付けることもできる。図3では、ブロック220および222により、高スコアの節点およびサブグラフに対応するグラフ断片の抽出、およびスコアに基づくグラフ断片の順位付けが示されている。図2では、ブロック224により、コンポーネント206により与えられる順位付けられたグラフ断片が示されている。
グラフ断片は、様々な方法により抽出できる。例えば、入力テキスト210内の個々の文から生成され、グラフ全体214内の高スコアの節点およびタプルを生成した、個々のグラフ(または論理形)から抽出することができる。それとは別に、グラフ全体214から直接抽出することもできる。
例示されている一実施形態では、サブグラフ抽出コンポーネント206は、入力テキスト210から生成された論理形と高スコアの節点およびタプルとを照合することにより重要なサブグラフを識別する。「高スコアの」という用語を使用することにより、しきい値を経験的に決定できること、およびそのしきい値条件を満たすスコアを持つ節点およびタプルが高いスコアを持つとして識別されることを意味している。さらに、それぞれのサブグラフについて、そのサブグラフにリンクされている高スコアの追加節点を抽出するために調査することができる。このプロセスは、サブグラフのリンク先にできるすべての高スコア節点について、高スコアタプルをアンカーとして使用して、反復されることが例示されている。
さらに、論理形の節点は、他の節点に関連付けることもできる。これは、例えば、代名詞化を通じて、または同じエンティティまたはイベントを参照することに基づいて、発生しうる。例えば、「General Augusto Pinochet」および「Pinochet」という用語は、同じエンティティを参照することに基づいて関連付けられている。例示されている一実施形態では、これらの関連付けられた節点は、照合プロセスで使用することもできる。
さらに、例示されている一実施形態では、具体的節点タイプを与えられたいくつかの関係およびその値を一致するサブグラフの一部として抽出できる。例えば、あるイベントに対応する節点タイプについて、そのイベントの中核項(nuclear arguments)(存在する場合は、主語および/または目的語リンクなど)も一致するサブグラフとして保持できる。これにより、特に、サブグラフを識別する目標は、そのサブグラフを生成コンポーネントに受け渡すことである実施形態において、サブグラフの一貫性が改善される。
上述のように照合されたサブグラフ全体をグラフ断片と呼ぶ。例示されている一実施形態では、切断しきい値を使用して、照合に使用される最小スコアを決定し、さらに処理するためその最小値より大きいスコアを持つグラフ断片が保持される。
例示されている一実施形態では、節点およびタプルのスコアに応じてグラフ断片224が順序付けられ、グラフ断片224の自然言語出力を形成する生成コンポーネント208に供給される。
それとは別に、一実施形態では、オプションのディスコースプランニングシステム205も用意される。プランニングシステム205は、グラフ断片224を受け取り、グラフ断片に対する節点およびタプルのスコアを考慮するだけでなく、類似の節点の配置、および2つの節点(品詞を通じて関連する)の出現順序、およびイベント時系列、話題および焦点などをも考慮して、グラフ断片の最適な順序付けを出力する。例えば、3つの文(S1、S2、およびS3)が生成されると仮定し、スコアのみが考慮されたとすれば、文の順序はS1 S2 S3となるであろう。しかし、文S1およびS3が両方とも、同じエンティティに言及している場合、プランニングシステム205は、S1 S3 S2を出力し、さらにS3の中のエンティティを代名詞で置き換えることができるか、または文S1およびS3を連結して1つの長い文を作ることができる。共通の節点を伴う文をグループ化すると、生成される要約の可読性が向上する。
同様に、2つの文S1およびS2は両方とも、例えば、単語「arrest」に言及しているが、S1では名詞として、S2では動詞として使用されていると仮定する。プランニングシステム205は、文の順序をS2 S1に変更する。これにより、例えば、「X got arrested yesterday...」と言及し、次に「the arrest...」と言及する要約が出力され、これによってもまた、生成される要約の可読性が向上する。
いずれの場合も、プランニングシステム205は、追加考慮事項に基づき、グラフ断片224の順序を変更し、それらの断片を順序変更されたグラフ断片225として生成コンポーネント208に供給する。図3ではブロック224によりディスコースプランニングシステム205によりグラフ断片の順序を変更するオプションのステップが示されている。
生成コンポーネント208に、グラフ断片の集まりが供給される。次に、生成コンポーネント208は、受け取ったグラフ断片に基づいて出力テキスト226を生成することができる。これは、図3ではブロック228により示されている。
生成コンポーネント208は、とにかく、それが受け取るタイプのグラフ断片と整合していなければならない。コンポーネント208はルールベースのコンポーネントであってよい(例えば、非特許文献5および非特許文献6を参照)。また、機械学習できるコンポーネントであってもよい(例えば、非特許文献7参照)。
この時点で、例があると役立つ。入力テキスト210は以下の英語で書かれた文のグループを含むと仮定する。
「Pinochet was reported to have left London Bridge Hospital on Wednesday.
President Eduardo Frei Ruiz_Tagle said that Pinochet, now an unelected senator for life, carried a diplomatic passport giving him legal immunity.
The arrest of Gen. Augusto Pinochet shows the growing significance of international human_rights law.
Former Chilean dictator Gen. Augusto Pinochet has been arrested by British police, despite protests from Chile that he is entitled to diplomatic immunity.」
それぞれの個々の文に対する個々のグラフ(論理形)は以下のように表される。
「Pinochet was reported to have left London Bridge Hospital on Wednesday.」
Figure 2005276183
「President Eduardo Frei Ruiz_Tagle said that Pinochet, now an unelected senator for life, carried a diplomatic passport giving him legal immunity.」
Figure 2005276183
「The arrest of Gen. Augusto Pinochet shows the growing significance of international human_rights law.」
Figure 2005276183
「Former Chilean dictator Gen. Augusto Pinochet has been arrested by British police, detspite protests from Chile that he is entitled to diplomatic immunity.」
Figure 2005276183
図4は、「Pinochet」に対する節点を中心とするグラフ300を例示しており、これは入力された複数の文に対する論理形からの節点を連結する。グラフ300は、さらに、事実上以下のように表される。
Figure 2005276183
Pinochetにリンクするグラフ300内の節点は以下のようになることはわかるであろう。
Figure 2005276183
照応解決を使用して「he」を「Pinochet」に解決することに留意されたい。
Figure 2005276183
Appostn関係は「アンパック」され、2つの(またはAppostnがいくつあってもその数だけの)リンクが得られることに留意されたい。したがって、この論理形から、リンク「arrest−Tobj−dictator」に加えて、リンク「arrest−Tobj−Gen._Augusto_Pinochet」も識別される。
Figure 2005276183
Pinochetのリンク先の節点は以下のようになることもわかるであろう。
Figure 2005276183
この最後の論理形は、注目している節点がGen._Augusto_Pinochetであれば、節点「Pinochet」も含まれるという点で、上述の「類似単語」概念を示していることに留意されたい。これは、以下のようにLASTNAME関係に基づいている。
Figure 2005276183
以下の節点スコアは、このクラスタに対するグラフ全体の一部だけの実施例を示しており、したがってスコアは正確な値ではなく参考値である。
Figure 2005276183
以下は、タプルのスコア例である。スコアは左節点に関するスコアであり、したがって「arrest__Possr__Pinochet」は「arrest__Tsub__police」よりも高いスコアを持つが、「arrest__Tsub__police」のスコアが「carry__Tobj__passport」よりも高い/低いかについて重みからは何も推論できないことに留意されたい。
Figure 2005276183
スコアによりこれらの断片が順位付けされる。この実施例では、Verb品詞を根とする選択された断片は、順序として、Noun品詞を根とする選択された断片よりも前に来る。
さらに、TimeとTobjは、「London_Bridge_Hospital」自体が低スコアのタプルであっても、両方とも「leave」への中核項であるため、グラフ断片の一部として選択されることに留意されたい。
Figure 2005276183
「significant」は中核項なので選択されていることに留意されたい。「significance」はNounであるが、イベント特性を持つため、名詞に対する項(Attribeおよび「of」)も選択する。
Figure 2005276183
これは、「arrest Tobj Pinochet」に対するタプルスコアであるが、同一指示を通じて識別されているように「dictator」および「Pinochet」は同じエンティティであることに留意されたい。
Figure 2005276183
これは、高スコアイベントが使用されたか、または重み限界値に達した場合にグラフ内の節点を拡大するために使用可能な名詞句の一例であることに留意されたい。
Figure 2005276183
以下は、オプションのプランニングシステム205が使用された場合に類似/または同じ節点の順序を変更し、グループ化して1つにまとめるいくつかの実施例である。以下は、グラフ断片1および4は両方とも「Pinochet」に対する節点を共有するので、それらを結合することを示している。
Figure 2005276183
以下は、グラフ断片2および3の順序を変更して、異なる品詞を先にVerb次にNounとして持つ同じ節点の好ましい順序付けを反映することを示している。
Figure 2005276183
以下は、生成出力226を例示している。この実施例では、生成時に、生成に対する指示表現が選択される。通常、それは、中核項位置にあれば、まず最も限定的な指示表現(Gen.Augusto Pinochet)、次に短い形式(Pinochet)、そして代名詞と続く。したがって、生成出力226の一実施形態は以下のようになる。
「Gen.Augusto Pinochet, an unelected senator, left London Bridge Hospital on Wednesday.
Pinochet has been arrested in London by the police.
His arrest shows the growing significance of international human_rights.」
したがって、本発明は、従来技術に比べて際だって利点を有することがわかるであろう。本発明では、入力テキストから生成されたグラフに基づいてイベントを順位付ける。これは、要約に何を含めるかについて決定する際に単語頻度ベースのアプローチに比べて、正確であることが判明している。本発明の他の態様では、順位付けされたグラフ断片が与えられた要約を生成する。これは、マルチドキュメント要約の文抽出または圧縮よりも一貫性および可読性に優れる。
もちろん、本発明は、他の広範にわたるアプリケーションでも使用できることは理解されるであろう。例えば、入力テキストに対しグラフを生成し、その後、グラフのコンポーネントに対するスコアを計算することにより入力テキスト内の単語またはテキスト断片またはイベントを識別することは、多くの状況において有用である。例えば、情報検索、インデックス作成、ドキュメントクラスタ化、質問回答など2つのテキスト入力の関係を識別しようとする場合に、使用することができる。これらの場合、第1の入力の単語またはタプルのスコアを第2の入力の単語またはタプルのスコアと対比して、それら2つの入力間の関係を決定する。情報検索では、第1の入力はクエリであり、第2の入力はクエリとの比較対象のインデックスまたはドキュメントである。質問回答では、第1の入力は質問であり、第2の入力はその質問に回答するかどうかを決定するために調査されるテキストである。ドキュメントクラスタ化では、2つの入力は、ドキュメントまたはその要約、またはクラスタの要約である。同様に、入力テキストのインデックス作成に使用されるドキュメント内の用語およびそれらの用語について計算される重みを決定する際に、入力テキストを包括するグラフに対し生成されたスコアを使用できる。
もちろん、本発明は、入力テキストに対応する出力テキストを生成するために説明されている通りに使用することもできる。テキストは、単一ドキュメントの要約、クラスタの要約などであってもよい。したがって、本発明は、主にドキュメント要約作成に関して説明されているが、本発明は、広範に応用することができ、要約作成に限定されるわけではない。
本発明は、特定の実施形態を参照しつつ説明されているが、当業者であれば、本発明の精神および範囲を逸脱することなく、形態および詳細に変更を加えることができることを理解するであろう。
本発明を使用することができる例示されている一環境のブロック図である。 本発明によるシステムの一実施形態のブロック図である。 図2に示されているシステムのオペレーションの一実施形態を例示する流れ図である。 入力テキスト例について生成されたグラフ例の図である。

Claims (29)

  1. テキスト入力により表される注目する特性を識別する方法であって、
    前記テキスト入力に対応するグラフを構築することと、
    前記グラフのサブグラフコンポーネントのスコアを付けることと、
    前記スコアに基づき注目するグラフ断片を識別することと、
    前記識別されたグラフ断片に基づいてテキスト操作を実行すること
    とを含むことを特徴とする方法。
  2. 前記グラフを構築することは、リンクによりリンクされている節点を持つ前記グラフを構築することを含むことを特徴とする請求項1に記載の方法。
  3. 前記複数の節点は、テキスト入力内の複数の単語または前記テキスト入力により表される複数の概念に対応することを特徴とする請求項2に記載の方法。
  4. 前記グラフを構築することは、さらに、前記リンクを有向意味関係名として生成することを含むことを特徴とする請求項3に記載の方法。
  5. 前記グラフを構築することは、さらに、前記テキスト入力に対する一組の抽象解析結果を生成することを含むことを特徴とする請求項4に記載の方法。
  6. 前記一組の抽象解析結果を生成することは、
    前記テキスト入力に基づき一組の有向無閉路グラフを生成することと、
    前記一組の有向無閉路グラフを互いに連結することとを含むことを特徴とする請求項5に記載の方法。
  7. 前記グラフを構築することは、
    前記テキスト入力内のテキスト部分の構文解析結果を生成することと、
    前記構文解析結果から依存関係構造を生成することと、
    前記構文解析結果から前記グラフを生成することとを含むことを特徴とする請求項2に記載の方法。
  8. 前記グラフを構築することは、
    前記節点を隣接単語または連語として識別することと、
    前記節点間の前記リンクを識別することとを含むことを特徴とする請求項2に記載の方法。
  9. 前記リンクを識別することは、
    前記リンクの方向を任意に割り当てることを含むことを特徴とする請求項8に記載の方法。
  10. 前記リンクを識別することは、発見的手法を使用して、前記リンクを識別し、前記複数の節点に関連付けられている与えられた品詞に基づいて前記リンクの方向を割り当てることを含むことを特徴とする請求項8に記載の方法。
  11. 前記リンクを識別することは、機械学習法を使用して、前記リンクを識別し、前記複数の節点に関連付けられている与えられた品詞に基づいて前記リンクの方向を割り当てることを含むことを特徴とする請求項8に記載の方法。
  12. 前記グラフのサブグラフコンポーネントのスコアを付けることは、
    前記グラフ内の各節点にスコアを割り当てることを含むことを特徴とする記載2に記載の方法。
  13. 節点の対および節点の前記対の間のリンクは、タプルを含み、前記のグラフのサブグラフコンポーネントのスコアを付けることは、
    前記グラフ内の各タプルにスコアを割り当てることを含むことを特徴とする記載12に記載の方法。
  14. 前記グラフ内のそれぞれのタプルにスコアを割り当てることは、
    前記タプル内の初期節点のスコア、目標節点にリンクしている複数の節点の複数のスコア、および前記テキスト入力内の前記タプルの頻度に基づいて前記グラフ内のそれぞれのタプルにスコアを割り当てることを含むことを特徴とする請求項13に記載の方法。
  15. 前記注目するグラフ断片を識別することは、
    前記グラフのサブグラフコンポーネントと、十分なスコアを持つ節点およびタプルとを照合することを含むことを特徴とする請求項13に記載の方法。
  16. 前記注目するグラフ断片を識別することは、
    前記照合されたサブグラフコンポーネントにリンクされる、十分なスコアを持つ、節点を識別することを含むことを特徴とする請求項15に記載の方法。
  17. 前記グラフ断片を識別することは、
    照合されたサブグラフコンポーネント内の節点との所定の関係を持つ前記照合されたサブグラフコンポーネントの外部にある節点を識別することを含むことを特徴とする請求項16に記載の方法。
  18. 前記グラフ断片を識別することは、
    所定の特定の節点タイプが与えられた場合に、いくつかの関係を識別することを含むことを特徴とする請求項17に記載の方法。
  19. 前記照合されたサブグラフコンポーネントおよび識別された節点および関係はすべて、前記グラフ断片を含むことを特徴とする請求項18に記載の方法。
  20. 前記テキスト操作を実行することは、
    前記テキスト入力の与えられた部分についてグラフ断片として識別された前記一組のサブグラフコンポーネントを抽出することを含むことを特徴とする請求項19に記載の方法。
  21. 前記グラフを構築することは、
    前記テキスト入力内の文ごとに別々のグラフを生成することと、
    前記別々のグラフ同士を連結して1つのグラフ全体を形成することとを含むことを特徴とする請求項20に記載の方法。
  22. 前記抽出することは、
    前記グラフ全体から、十分なスコアを持つサブグラフ部分を抽出することを含むことを特徴とする請求項21に記載の方法。
  23. 前記グラフ全体の高スコアサブグラフ部分は、スコアしきい値条件を満たすスコアを持つ前記グラフ全体のサブグラフ部分を含み、サブグラフ部分を抽出することは、
    前記グラフ全体の前記高スコアサブグラフ部分を生成した前記別々のグラフの複数の部分を抽出することを含むことを特徴とする請求21に記載の方法。
  24. 前記テキスト操作を実行することは、要約作成、情報検索、質問回答、ドキュメントクラスタ化、およびインデックス作成のうちの1つを含むことを特徴とする請求項1に記載の方法。
  25. 前記テキスト操作を実行することは、前記抽出されたグラフ断片に基づきテキスト出力を生成することを含むことを特徴とする請求項1に記載の方法。
  26. さらに、
    前記グラフ断片に対応するスコアに基づき前記グラフ断片を順序付けることを含むことを特徴とする請求項1に記載の方法。
  27. 前記順序付けることは、さらに、
    前記スコアに加えて複数のファクタに基づき前記グラフ断片を順序付けることを含むことを特徴とする請求項26に記載の方法。
  28. 前記ファクタは、節点の配置および品詞を通じて関連する2つの節点が出現する順序のうちの1つ、テキスト入力から決定されるイベント時系列、およびテキスト入力について決定される話題を含むことを特徴とする請求項27に記載の方法。
  29. 注目する特性が単語、テキスト断片、概念、イベント、エンティティ、および話題のうちの1つを含むことを特徴とする請求項1に記載の方法。
JP2005048560A 2004-03-02 2005-02-24 グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム Expired - Fee Related JP4647336B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US54977504P 2004-03-02 2004-03-02
US10/825,642 US7430504B2 (en) 2004-03-02 2004-04-15 Method and system for ranking words and concepts in a text using graph-based ranking

Publications (2)

Publication Number Publication Date
JP2005276183A true JP2005276183A (ja) 2005-10-06
JP4647336B2 JP4647336B2 (ja) 2011-03-09

Family

ID=34753155

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005048560A Expired - Fee Related JP4647336B2 (ja) 2004-03-02 2005-02-24 グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム

Country Status (4)

Country Link
US (1) US7430504B2 (ja)
EP (1) EP1571565A3 (ja)
JP (1) JP4647336B2 (ja)
KR (1) KR101201093B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018067199A (ja) * 2016-10-20 2018-04-26 日本電信電話株式会社 要約生成装置、テキスト変換装置、方法、及びプログラム

Families Citing this family (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7890533B2 (en) * 2006-05-17 2011-02-15 Noblis, Inc. Method and system for information extraction and modeling
US9984071B2 (en) * 2006-10-10 2018-05-29 Abbyy Production Llc Language ambiguity detection of text
WO2008055034A2 (en) 2006-10-30 2008-05-08 Noblis, Inc. Method and system for personal information extraction and modeling with fully generalized extraction contexts
US7797311B2 (en) * 2007-03-19 2010-09-14 Microsoft Corporation Organizing scenario-related information and controlling access thereto
US20080235170A1 (en) * 2007-03-19 2008-09-25 Microsoft Corporation Using scenario-related metadata to direct advertising
US7818341B2 (en) * 2007-03-19 2010-10-19 Microsoft Corporation Using scenario-related information to customize user experiences
US8078604B2 (en) 2007-03-19 2011-12-13 Microsoft Corporation Identifying executable scenarios in response to search queries
US8209214B2 (en) 2007-06-26 2012-06-26 Richrelevance, Inc. System and method for providing targeted content
WO2009038788A1 (en) 2007-09-21 2009-03-26 Noblis, Inc. Method and system for active learning screening process with dynamic information modeling
TWI403911B (zh) * 2008-11-28 2013-08-01 Inst Information Industry 中文辭典建置裝置和方法,以及儲存媒體
US9171077B2 (en) * 2009-02-27 2015-10-27 International Business Machines Corporation Scaling dynamic authority-based search using materialized subgraphs
US8321848B2 (en) * 2009-04-16 2012-11-27 The Mathworks, Inc. Method and system for syntax error repair in programming languages
EP2282288A1 (en) * 2009-07-28 2011-02-09 Amadeus S.A.S. Display of travel routes
US8954893B2 (en) * 2009-11-06 2015-02-10 Hewlett-Packard Development Company, L.P. Visually representing a hierarchy of category nodes
MY164115A (en) * 2010-01-15 2017-11-30 Mimos Berhad A semantic interpreter system and methods thereof
US20110264997A1 (en) * 2010-04-21 2011-10-27 Microsoft Corporation Scalable Incremental Semantic Entity and Relatedness Extraction from Unstructured Text
US8788260B2 (en) * 2010-05-11 2014-07-22 Microsoft Corporation Generating snippets based on content features
US8434001B2 (en) 2010-06-03 2013-04-30 Rhonda Enterprises, Llc Systems and methods for presenting a content summary of a media item to a user based on a position within the media item
WO2012006509A1 (en) * 2010-07-09 2012-01-12 Google Inc. Table search using recovered semantic information
US9326116B2 (en) 2010-08-24 2016-04-26 Rhonda Enterprises, Llc Systems and methods for suggesting a pause position within electronic text
US8977538B2 (en) 2010-09-13 2015-03-10 Richard Salisbury Constructing and analyzing a word graph
US9002701B2 (en) 2010-09-29 2015-04-07 Rhonda Enterprises, Llc Method, system, and computer readable medium for graphically displaying related text in an electronic document
US8682932B2 (en) 2012-02-16 2014-03-25 Oracle International Corporation Mechanisms for searching enterprise data graphs
US8484208B1 (en) 2012-02-16 2013-07-09 Oracle International Corporation Displaying results of keyword search over enterprise data
US8700673B2 (en) * 2012-02-16 2014-04-15 Oracle International Corporation Mechanisms for metadata search in enterprise applications
US9727556B2 (en) 2012-10-26 2017-08-08 Entit Software Llc Summarization of a document
US20140278357A1 (en) * 2013-03-14 2014-09-18 Wordnik, Inc. Word generation and scoring using sub-word segments and characteristic of interest
US9495357B1 (en) * 2013-05-02 2016-11-15 Athena Ann Smyros Text extraction
IN2014MU00789A (ja) 2014-03-07 2015-09-25 Tata Consultancy Services Ltd
US20150269693A1 (en) * 2014-03-21 2015-09-24 Arturo Geigel Method and System of querying patent information based on image interface
WO2015148410A1 (en) * 2014-03-23 2015-10-01 Arturo Geigel Image interface for extracting patent features
KR101794137B1 (ko) * 2014-11-06 2017-11-06 아주대학교산학협력단 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
US9892362B2 (en) 2014-11-18 2018-02-13 International Business Machines Corporation Intelligence gathering and analysis using a question answering system
US11204929B2 (en) 2014-11-18 2021-12-21 International Business Machines Corporation Evidence aggregation across heterogeneous links for intelligence gathering using a question answering system
US11244113B2 (en) 2014-11-19 2022-02-08 International Business Machines Corporation Evaluating evidential links based on corroboration for intelligence analysis
US10318870B2 (en) 2014-11-19 2019-06-11 International Business Machines Corporation Grading sources and managing evidence for intelligence analysis
US9727642B2 (en) 2014-11-21 2017-08-08 International Business Machines Corporation Question pruning for evaluating a hypothetical ontological link
US11836211B2 (en) 2014-11-21 2023-12-05 International Business Machines Corporation Generating additional lines of questioning based on evaluation of a hypothetical link between concept entities in evidential data
US10127302B2 (en) * 2015-11-16 2018-11-13 Pearson Education, Inc. Data redundancy maximization tool
WO2017094967A1 (ko) * 2015-12-03 2017-06-08 한국과학기술원 자연 언어 처리 스키마 및 그 지식 데이터베이스 구축 방법 및 시스템
US10331659B2 (en) 2016-09-06 2019-06-25 International Business Machines Corporation Automatic detection and cleansing of erroneous concepts in an aggregated knowledge base
US10606893B2 (en) 2016-09-15 2020-03-31 International Business Machines Corporation Expanding knowledge graphs based on candidate missing edges to optimize hypothesis set adjudication
US10402473B2 (en) * 2016-10-16 2019-09-03 Richard Salisbury Comparing, and generating revision markings with respect to, an arbitrary number of text segments
CN107977368B (zh) * 2016-10-21 2021-12-10 京东方科技集团股份有限公司 信息提取方法及系统
WO2018174816A1 (en) * 2017-03-24 2018-09-27 Agency For Science, Technology And Research Method and apparatus for semantic coherence analysis of texts
KR102206742B1 (ko) * 2018-12-06 2021-01-25 한국과학기술원 자연언어 텍스트의 어휘 지식 그래프 표현 방법 및 장치
US11531908B2 (en) * 2019-03-12 2022-12-20 Ebay Inc. Enhancement of machine learning-based anomaly detection using knowledge graphs
US11640504B2 (en) 2019-05-17 2023-05-02 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR102201390B1 (ko) * 2019-09-18 2021-01-08 주식회사 카카오브레인 이미지 검색 방법 및 장치
US11157537B2 (en) * 2020-03-26 2021-10-26 Wipro Limited Method and system for summarizing content based on user preferences
US20230055769A1 (en) * 2021-08-23 2023-02-23 International Business Machines Corporation Specificity ranking of text elements and applications thereof
US11803401B1 (en) 2022-01-21 2023-10-31 Elemental Cognition Inc. Interactive research assistant—user interface/user experience (UI/UX)
US11809827B2 (en) 2022-01-21 2023-11-07 Elemental Cognition Inc. Interactive research assistant—life science
US11928488B2 (en) 2022-01-21 2024-03-12 Elemental Cognition Inc. Interactive research assistant—multilink
US20230297398A1 (en) * 2022-01-21 2023-09-21 Elemental Cognition Inc. Interactive research assistant

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JP2001084248A (ja) * 1999-09-14 2001-03-30 Fuji Xerox Co Ltd 文書要約装置、文書要約方法及び記録媒体
WO2001088747A2 (en) * 2000-05-17 2001-11-22 Microsoft Corporation System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6098033A (en) * 1997-07-31 2000-08-01 Microsoft Corporation Determining similarity between words
US6236959B1 (en) * 1998-06-23 2001-05-22 Microsoft Corporation System and method for parsing a natural language input span using a candidate list to generate alternative nodes
US6721697B1 (en) * 1999-10-18 2004-04-13 Sony Corporation Method and system for reducing lexical ambiguity
WO2002063493A1 (en) * 2001-02-08 2002-08-15 2028, Inc. Methods and systems for automated semantic knowledge leveraging graph theoretic analysis and the inherent structure of communication
US7146308B2 (en) * 2001-04-05 2006-12-05 Dekang Lin Discovery of inference rules from text

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
JP2001084248A (ja) * 1999-09-14 2001-03-30 Fuji Xerox Co Ltd 文書要約装置、文書要約方法及び記録媒体
WO2001088747A2 (en) * 2000-05-17 2001-11-22 Microsoft Corporation System and method for matching a textual input to a lexical knowledge base and for utilizing results of that match

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018067199A (ja) * 2016-10-20 2018-04-26 日本電信電話株式会社 要約生成装置、テキスト変換装置、方法、及びプログラム

Also Published As

Publication number Publication date
US7430504B2 (en) 2008-09-30
US20050220351A1 (en) 2005-10-06
KR20060043342A (ko) 2006-05-15
JP4647336B2 (ja) 2011-03-09
EP1571565A2 (en) 2005-09-07
EP1571565A3 (en) 2006-08-02
KR101201093B1 (ko) 2012-11-13

Similar Documents

Publication Publication Date Title
JP4647336B2 (ja) グラフベースの順位付けを使用してテキスト内の単語および概念に順位付けする方法およびシステム
JP3755134B2 (ja) コンピュータベースの適合テキスト検索システムおよび方法
JP4706227B2 (ja) ハイブリッドテキスト要約を決定する方法、システム、及び、制御プログラム、談話構文解析方法、システム、及び、該システムにおける方法、談話構成要素にテキストを分割する方法及びシステム、談話の構造表現を決定する方法及びシステム、ハイブリッドテキスト要約システム
US8781817B2 (en) Phrase based document clustering with automatic phrase extraction
Biemann et al. Scalable construction of high-quality web corpora
JP2005122743A5 (ja)
JP2007087401A (ja) インデクシングシステム、インデクシング方法、質問テンプレート生成システム、質問テンプレート生成方法、及びプログラム
WO2009063925A1 (ja) 文書管理・検索システムおよび文書の管理・検索方法
US8244521B2 (en) Paraphrasing the web by search-based data collection
TW201027375A (en) Search system, search method and program
JP2005174336A (ja) 情報抽出のための一般化文字列パターンの学習および使用
Liu et al. Information retrieval and Web search
Roy et al. Discovering and understanding word level user intent in web search queries
Benitez et al. Semantic knowledge construction from annotated image collections
US20120124060A1 (en) Method and system of identifying adjacency data, method and system of generating a dataset for mapping adjacency data, and an adjacency data set
Campbell et al. Copy detection systems for digital documents
Sravanthi et al. Slidesgen: Automatic generation of presentation slides for a technical paper using summarization
JP2007334388A (ja) クラスタリング方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
US7171403B2 (en) Systems and methods for efficient conjunction of Boolean variables
US20170220557A1 (en) Method, device, and computer program for providing a definition or a translation of a word belonging to a sentence as a function of neighbouring words and of databases
JP2005202924A (ja) 対訳判断装置、方法及びプログラム
JP4155970B2 (ja) 情報処理装置、同義語データベース生成方法、同義語データベース生成プログラム
Londhe et al. Time-independent and language-independent extraction of multiword expressions from Twitter
Ahonen-Myka et al. Data mining meets collocations discovery
CN100589100C (zh) 用基于图表的分级来分级文本中单词和概念的方法和系统

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080207

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100806

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101203

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131217

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 4647336

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees