JP5995409B2 - コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル - Google Patents

コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル Download PDF

Info

Publication number
JP5995409B2
JP5995409B2 JP2011096300A JP2011096300A JP5995409B2 JP 5995409 B2 JP5995409 B2 JP 5995409B2 JP 2011096300 A JP2011096300 A JP 2011096300A JP 2011096300 A JP2011096300 A JP 2011096300A JP 5995409 B2 JP5995409 B2 JP 5995409B2
Authority
JP
Japan
Prior art keywords
document
words
edge
data structure
graph
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011096300A
Other languages
English (en)
Other versions
JP2011258184A (ja
Inventor
チャルー・シー・アガーウォール
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2011258184A publication Critical patent/JP2011258184A/ja
Application granted granted Critical
Publication of JP5995409B2 publication Critical patent/JP5995409B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation
    • G06F40/154Tree transformation for tree-structured or markup documents, e.g. XSLT, XSL-FO or stylesheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/137Hierarchical processing, e.g. outlines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/14Tree-structured documents
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/177Editing, e.g. inserting or deleting of tables; using ruled lines
    • G06F40/18Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Description

本発明は、テキスト文書表現及びコンピュータ解析に関する。
テキスト文書から質の高い情報を得るための取り組みには、クラスタ化、分類、索引付け及び類似性検索等の種々のテキスト・マイニング及び管理アルゴリズムがある。これらのアプリケーションの大部分は、テキスト表現及び解析のためのベクトル空間モデルを用いる。ベクトル空間モデルは、テキスト文書を、例えば索引語のような識別子のベクトルとして表現するための代数的モデルである。
ベクトル空間モデルは、マイニング目的には効果的で効率的な表現であるが、文書内の単語の順序付けについての情報を保存しない。
本発明の例示的な実施形態によれば、テキスト文書を表現するためのグラフィカル・モデルが提供される。グラフィカル・モデルは、別個の単語の間の距離によって文書を表現する距離グラフから構築される。本発明の距離グラフ表現は、文書内の単語の位置情報を保持して基礎的データの文章構造に関するリッチ表現を提供し、マイニング目的に対して効果的である。この表現は、単語間の距離を表現する能力が高いため、ベクトル空間表現より効果的である。
本発明の例示的な実施形態は、グラフィカル・モデルによってテキスト文書を表現するための方法及びコンピュータ・プログラムを提供する。この方法においては、複数の順序付けられた単語を含む文書を受け取って、文書に関するグラフ・データ構造体を生成することができる。グラフ・データ構造体は、複数のノード及びエッジを含むことができ、各ノードは、文書内の別個の単語を表現し、各エッジは、2つのノードが、互いに所定の距離内に現れる回数を識別する。グラフ・データ構造体は、情報レポジトリ内に格納することができる。
本発明の例示的な実施形態による、テキスト断片の距離グラフ表現を示す。 本発明の例示的な実施形態による、距離グラフ及び距離グラフのデータ構造体を示す。 本発明の例示的な実施形態による、テキスト断片の無向距離グラフ表現を示す。 本発明の例示的な実施形態を実施するための装置を示す。 本発明の例示的な実施形態による、距離グラフを構築するプロセスを示す。 本発明の例示的な実施形態による、距離グラフをマイニング目的のためのテキスト表現に変換するプロセスを示す。
本開示において、本発明の例示的な実施形態による、テキスト文書を表現するためのグラフィカル・モデルが提示される。以下に、本発明の例示的な実施形態により文書内の別個の単語の間の距離によって文書を表現する距離グラフを定義する。本発明のグラフィカル・モデルは、グラフ理論の分野からの概念を、非類似分野であるテキスト文書表現の分野に適用することによって得られる。また、この構造的表現を用いる幾つかのマイニング及び管理アプリケーションを探求する。
本発明の距離グラフ表現は、効果的な処理を可能にし、文書内のテキストの高品質の表現をもたらすことが示される。例えば、距離グラフ表現は、文書内の基礎的データの挙動についてのリッチな情報を保持することができる。この構造的情報のリッチなレベルは、より損失の多いベクトル空間表現では不可能なアプリケーションを可能にし、既存のアプリケーションを用いて、より高品質の結果を与える。テキスト文書の基礎的表現を、本発明の距離グラフのエッジのベクトル空間表現に変換するだけで、クラスタ化等の多くの既存のテキスト・アプリケーションを、本発明の構造化データのベクトル空間表現と共に直接用いることが可能なことも示される。
ここで、本発明の例示的な実施形態による距離グラフ表現の概要を説明する。
距離グラフは、点の間の距離が1つであるときはいつでも、エッジによって2つの点を繋ぐことによって、ユークリッド平面内の点の集合から形成されたグラフである。距離グラフの構造的表現は、それらを処理のための効果的な表現にする。距離グラフは、保持される距離情報のレベルに応じた種々の次数のものであると定義することができる。具体的には、次数kの距離グラフは、基礎的文書内において最大でkの距離にある単語の対についての情報を保持する。距離グラフは、文書コーパス内の各語に対するノードと、一対のノード間の距離が一定の数よりも少ない場合に一対のノード間に存在するエッジとを定める構造体として定義する。
コーパスCから引き出された文書Dに対するk次の距離グラフは、
グラフG(C,D,k)=(N(C),A(D,k))
として定義され、ここで、N(C)は、コーパスCに特有に定められたノードの組であり、A(D,k)は、文書内のエッジの組である。これらの組は、以下のように定められる。
組N(C)は、文書コーパスC全体における各別個の単語に対して1つのノードを含有する。「ノードi」及び「単語i」という用語を互換的に用いて、コーパス内の対応する単語の索引を表現する。コーパスCは、多数の文書を含有することができ、対応する単語(ノード)の索引は、C内の異なる文書の表現にわたって不変であることに留意されたい。ノードの組はN(C)で示され、コーパスCの関数である。
組A(D,k)は、単語iが最大でkの位置だけ単語jの前に存在する場合にノードiからノードjに向かう有向性エッジを含有する。例えば、連続する単語については、kの値は1である。エッジの頻度は、文書内で単語iが最大でkの位置だけ単語jの前に存在する回数である。
大部分のテキスト集合は、前置詞、冠詞及び接続詞等の多くの頻繁に現れる単語を含有する。これらは、ストップワードとして知られる。距離グラフ表現に対して、これらの単語は、距離グラフ構築の前にテキストから除去されるものと仮定する。言い換えれば、ストップワードは、グラフに関する距離を計算するときに数えず、ノードの組N(C)には含めない。これにより、距離グラフ表現におけるエッジの数は大きく減少する。これはまた、処理中のより良い効率性につながる。
本発明の例示的な実施形態による、周知の童謡「メリーさんの羊」に対する距離グラフ表現を図1に示す。図1に示すように、テキスト断片110が与えられている。テキスト断片110は、テキスト文書の一部分である。テキスト文書は、ニュース記事、ウェブページ、ソーシャル・ネットワークのコンテンツ、ブログ、刊行文書、又はその他のデジタル・テキスト集合の形態等の任意のデジタル・テキスト集合の1つとすることができる。テキスト文書は、固有の語順を有する。言い換えれば、テキスト文書内の文章は、構文的配置における単語を含む。この配置は、マイニング目的のために有用な情報である。
図1において、ストップワードは除去され(120)、距離グラフは、残りの単語130に対して構築される。図1の行A−Cは、余分なものを取り除いたテキスト表現130から構築された距離グラフを表わす。行Aはゼロ次の有向距離グラフを示し、行Bは一次の有向距離グラフを示し、行Cは二次の有向距離グラフを示す。有向距離グラフは、エッジ間に方向がある、ノードとエッジとを含むグラフである。
本発明の例示的な実施形態による距離グラフ201及びそのデータ構造体202を図2に示す。メモリ内に格納することができる距離グラフ201の内部表現であるデータ構造体202は、距離グラフ201のノード1、2、3、4、5に対応するリスト、及び距離グラフ201のエッジ(1,2)、(1,3)、(2,3)、(2,4)、(3,5)、(4,5)に対応するリストを含有する。データ構造体202はまた、エッジ・リストと一対一に対応するエッジ重みリスト1、2、3、5、8、9を含有する。エッジ重みリストは、距離グラフ201におけるエッジの頻度を含有する。エッジの頻度は、エッジの各側のノードが、互いに所定の距離内に何回出現するかに対応する。これは、以下の図1の更なる論考のなかで明らかになるであろう。データ構造体202は、本開示において説明される処理を実行するのに十分である。
図1に戻ると、行Aにおける距離グラフはゼロ次の距離グラフであるため、自己ループ140a−140fのみを含有する。自己ループは、単語がそれ自体からゼロの距離内に現れる回数である。例えば、自己ループ140aにおいて数字2は、「MARY」が、余分なものを取り除いた表現130において、それ自体からゼロ(単語)の距離内に2回現れたことを表示し、自己ループ140bにおいて数字4は、「LITTLE」が、余分なものを取り除いた表現130において、それ自体からゼロ(単語)の距離内に4回現れたことを表示する、などである。行Bにおける自己ループは、行Aにおける自己ループと同じである。行Cにおける自己ループは、自己ループ150b及び150cを除いて、行A及び行Bにおいて示された自己ループと同じである。これらは、「LITTLE」及び「LAMB」という単語が、それらから2(単語)の距離内に6回現れるので、数字6が記される。
図1に示すように、エッジの数は、距離グラフが連続的に高次になるにつれて増加する。行Aにおけるゼロ次のグラフはエッジを含有しない。行Bにおける一次のグラフは、エッジ160a−160fを含有し、行Cにおける二次のグラフは、エッジ170a−170jを含有する。行Bにおけるエッジ160a−160fは、ある単語が別の単語から1の距離内に何回見出されるか(例えば、頻度)を表わす。例えば、行Bに示されるように、「MARY」と「LITTLE」との間のエッジは、「MARY」が、「LITTLE」という単語から1(単語)の距離内に2回見出されるので2と示される。さらに、行Bにおけるエッジ160fは、「LAMB」という単語が「LITTLE」という単語の間に2回挟まれるので2と示される。
行Cにおけるエッジ170a−170jは、ある単語が別の単語から2の距離内に何回見出されるかを表わす。例えば、「LITTLE」は、「LAMB」の後に最大で2の距離内に2回現れる。従って、エッジ170aは2とラベル付けされる。同様に、「LAMB」は「MARY」の後に最大で2の距離内に2回現れる。従って、エッジ170bも同様に2とラベル付けされる。
図1に示すように、行Cの二次の距離グラフにおける自己ループの値は、行A及び行Bのそれぞれゼロ次及び一次の距離グラフよりも大きい。これは、「LITTLE」及び「LAMB」のような繰り返しの単語が互いに交互の位置に現れるからである。かかる繰り返しは、行A及び行Bのそれぞれゼロ次及び一次の距離グラフの自己ループの値を変化させないが、行Cの二次の距離グラフに影響し、従って自己ループ150b及び150cに影響する。
図1の各ノードは、元の距離グラフにおける実際のテキスト単語に対応するラベルを有する。これらのラベルは、距離グラフを互いに異なる文書に関連付けるのに有用である場合がある。
確かめられるように、高次の距離グラフは低次の距離グラフよりもリッチであるが、これは5又は10よりも高次の場合には必ずしも当てはまらない。例えば、文書内の別個の単語の数よりも大きい次数を有する距離グラフは、完全なクリークとなる。明らかに、これは、必ずしも有用な情報をエンコードするわけではない。他方、ゼロ次の距離グラフも、あまり有用な情報をエンコードしない。異なる次数の距離グラフの相対的挙動を調査すると、低次の距離グラフの方がより有効であることが分かる。
データベースの視点からみると、距離グラフは、単語識別子に対応するノード上の属性ラベルと、エッジの頻度に対応するエッジ上のラベルとを有するXMLで表現することができる。かかる表現は、かかる半構造化データに対するデータ管理及びマイニング技術が既に存在する点で有用である。従って、この表現は、これらのアプリケーション(例えば、クラスタ化、分類及び類似性検索)に直接用いることができる。後で、クラスタ化、分類及び頻出パターン・マイニング等の幾つかの共通テキスト・アプリケーションを、どのように本発明の距離グラフ表現と共に用いることができるかを説明する。
前述のように、図1の行A−Cの距離グラフは有向グラフであり、各々がグラフ内の単語の順序付けを明らかにしている。しかしながら、幾つかのアプリケーションにおいては、ビットの順序付けを緩和して、距離グラフ表現において、いくらかの柔軟性をもたせることが有用な場合がある。このためには、無向グラフを用いることができる。無向グラフは、マイニング・アプリケーションに対して有向グラフと比較して)より簡単に取り扱えるので、用いることができる様々な多数のアプリケーションを可能にする。有向グラフと無向グラフとの間の主な相違は、無向グラフのエッジが無向であるということである。
図3は、本発明の例示的な実施形態による、テキスト断片の無向距離グラフ表現を示す。より具体的には、図3の無向距離グラフ301は、図1の行Cにおける二次の距離グラフに対応する。無向距離グラフ301は、有向エッジ(図1の矢印を有するエッジ170a−170jの全て)を同じ頻度の無向エッジ370a−370i(矢印を有しない)と置き換えることによって、図1の行Cにおける二次の有向距離グラフから得られることは明らかである。両方向にエッジが存在する場合、双方向エッジの頻度を加算することによって、対応する無向エッジの頻度を得ることができる。例えば、図3の無向エッジ370dの頻度は、図1の有向エッジ170c及び170dの頻度の和である。図から分かるように、無向表現は、順序付けに関するいくらかの情報を失うが、距離についての情報は保持する。無向距離グラフ表現は、異なる言語が、所与のテキスト断片に対して同じ単語翻訳を表すが、順序付けが異なる場合に用いることができる。
ここで、本発明の例示的な実施形態を、図4の装置401を参照しながら説明する。装置401は、コンピュータとすることができ、メモリ402、ディスク403、及び中央処理ユニット(CPU)404のようなプロセッサを含む。
本明細書で用いられる「プロセッサ」という用語は、例えば、CPU及び/又は他の形態の処理回路を含むもの等の任意の処理デバイスを含むことを意図するものと理解されたい。さらに、「プロセッサ」という用語は、2つ以上の個別のプロセッサを指すことができる。「メモリ」という用語は、例えば、RAM、ROM、固定メモリ・デバイス(例えば、ハード・ドライブ)、取り外し可能メモリ・デバイス(例えば、ディスケット)、フラッシュ・メモリ等の、プロセッサ又はCPUと関連付けられたメモリを含むことを意図したものである。また、本明細書で用いられる「入力及び/又は出力インターフェース」という語句は、例えば、データを処理ユニットに入力するための1つ又は複数の装置(例えば、マウス)と、その処理ユニットに関連した結果を提供するための1つ又は複数の装置(例えば、プリンタ)とを含むことを意図したものである。
図4に示すように、装置401が入力インターフェースを通じて入力テキスト・データを受け取ると、それをディスク403上に格納することができる。入力テキスト・データは、処理の目的で用いられる任意の文書集合からのものとすることができる。入力テキスト・データはCPU404内で処理され、例えば、図1乃至図3を参照しながら上で説明した様式で、入力テキスト・データの距離グラフ表現が生成される。距離グラフ生成中の中間の計算結果は、メモリ402内に格納することができる。距離グラフ表現は、装置401の出力インターフェースを通して、情報レポジトリ405へ出力される。情報レポジトリ405は、文書の種々異なる表現が格納されるディスク記憶装置の形態にすることができる。距離グラフ表現は、将来の処理のために、任意の種類のデータベースに格納することができる。
グラフのテキスト解析を実行するために、装置401又は別のコンピューティング装置によって、情報レポジトリ405内の距離グラフ表現にアクセスすることができる。次に、距離グラフ表現を解析して、特定のアプリケーションに対する解析結果を決定することができる。例えば、特定の文章断片が情報レポジトリ405内のいずれかの文書内に現れるかどうかを判断するために、最初に、クエリ断片に対する距離グラフ表現を構築し、次に、情報レポジトリ405を検索して、クエリ・グラフが情報レポジトリ405内の距離グラフ表現のいずれかに存在するかどうかを判断する。幾つかの実施形態においては、ユーザから入力される検索要求のようなテキスト解析を実行する要求410を装置401に入力することができる。幾つかの実施形態においては、要求に対する応答420が装置401から出力される。
図5は、本発明の例示的な実施形態による、距離グラフ表現を生成するプロセスを示す。距離グラフ生成のプロセスは、(i)ノード、(ii)エッジ、及び(iii)エッジ間の頻度の3種類のエンティティの決定を含む。距離グラフは、単語リスト内の別個の単語各々に対して1つのノードを含む。501において、図1に示した単語のような順序付けられた単語のコーパスを含む文書が受け取られる。次いで、グラフ・データ構造体が該文書に対して生成されるが、このグラフ・データ構造体はノード及びエッジを含み、各ノードは文書内の別個の単語を表現し、各エッジは2つのノードが互いに所定の距離内に現れる回数を識別する。幾つかの実施形態においては、所定の距離は、グラフ・データ構造体の次数の値に基づき、幾つかの実施形態においては、エッジは、有向エッジ又は無向エッジである。従って、第1のステップは、コーパス内の全ての別個の単語を決定することである。これらの別個の単語は、ステップ510においてノードとして表現される。ステップ520において、単語間の距離に基づいて、ノード間のエッジが生成される。k次の距離グラフに対して、間の距離が最大でkである単語の全ての対の間にエッジが生成される。ステップ520は、有向グラフ又は無向グラフのいずれを必要とするか応じて、異なるように実施できることに留意されたい。ステップ530において、これらのエッジの頻度が決定される。これらのエッジの頻度は、エッジが、距離グラフ表現において最大でkの距離に現れ得る回数によって決定される。このプロセスの結果は、図1及び図3に示した距離グラフの1つとすることができる。
次いで、540において、グラフ・データ構造体を、図4の405のような情報レポジトリに格納する。550においては、文書内の単語に関する検索のような文書についてのテキスト解析を実行する要求(例えば、図4の410)がある。560において、グラフ・データ構造体についてテキスト解析を実行し、要求に応答する結果(例えば、図4の420)を提供する。幾つかの実施形態において、文書を受け取った後で、且つグラフ・データ構造体を生成する前に、本方法は、文書からストップワードを取り除くことをさらに含み、グラフ・データ構造体は、余分なものを取り除いた文書から生成される。
図6は、本発明の例示的な実施形態による距離グラフ表現をマイニング目的のために用いるプロセスを示す。最初に601において、複数の単語を含有する文書を受け取られ、605において、上述のように距離グラフが生成される。本発明の距離グラフ表現をマイニング・アルゴリズムとともに用いるためには、図6に示すように、まず、距離グラフをベクトル空間表現に変換する(610)。これを視覚化するために、図1の行Bにおける一次の距離グラフを考えることとする。この場合、各エッジに対して新しい疑似単語を生成し、エッジに重みを割り当てる。疑似単語は、エッジの始点及び終点における単語の連結であり、重みは、エッジの頻度である。例えば、「MARY」から「LITTLE」へのエッジは重み2を有するが、「LITTLE」から「LAMB」へのエッジは重み4を有する。従って、重み2を有する新しい単語「MARY−LITTLE」、及び重み4を有する新しい単語「LITTLE−LAMB」が生成される。結果として生じるベクトル空間表現は、対応する重み頻度を有する新しい単語のリストである。
ステップ620において、テキスト管理及びマイニング・アルゴリズムを、修正されたベクトル空間表現に直接適用することができる。かかるアプリケーションの一例は、類似性検索アプリケーションである。このアプリケーションにおいて、本発明の修正されたベクトル空間表現を用いて、2つのグラフの間で共通のエッジの数を調べることにより、2つの文書の類似性を計算することができる。かかる手法は、単に標準的ベクトル空間表現に基づいた標準的類似性検索よりも、優れた結果をもたらす。630において、例えば要求に応答してマイニングの結果が出力される。
当業者であれば認識するように、本発明の態様は、システム、方法又はコンピュータ・プログラムとして具体化することができる。従って、本発明の態様は、完全にハードウェアの実施形態、完全にソフトウェアの実施形態(ファームウェア、常駐ソフトウェア、マイクロコード等を含む)、又は、本明細書において全て一般的に「回路」、「モジュール」又は「システム」と呼ぶことができる、ソフトウェアの態様とハードウェアの態様とを組み合わせた実施形態をとることができる。さらに、本発明の態様は、具体化されたコンピュータ可読プログラム・コードを有する1つ又は複数のコンピュータ可読媒体内に具体化されたコンピュータ・プログラムの形態をとることができる。
1つ又は複数のコンピュータ可読媒体の任意の組み合わせを利用することができる。コンピュータ可読媒体は、コンピュータ可読信号媒体又はコンピュータ可読記憶媒体とすることができる。コンピュータ可読記憶媒体は、例えば、電子的、磁気的、光学的、電磁的、赤外線、又は半導体システム、装置若しくはデバイス、又は、それらの任意の適切な組み合わせとすることができるが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例(非網羅的なリスト)は、1つ又は複数のワイヤを有する電気的接続、ポータブル・コンピュータ・ディスケット、ハード・ディスク、RAM、ROM、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、光ファイバ、ポータブル・コンパクト・ディスク型読み出し専用メモリ(CD−ROM)、光学式記憶デバイス、磁気記憶デバイス、又はそれらの任意の適切な組み合わせを含むことになる。本文書の文脈において、コンピュータ可読記憶媒体は、命令実行システム、装置又はデバイスにより、又はこれらに関連して用いるためのプログラムを含有又は格納することができる、任意の有形媒体とすることができる。
コンピュータ可読信号媒体は、例えば、ベースバンド内に又は搬送波の一部として、具体化されたコンピュータ可読プログラム・コードを含む伝搬データ信号を含むことができる。かかる伝搬信号は、電磁的、光学的又はそれらの任意の適切な組み合わせを含むが、これらに限定されない種々の形態のいずれかをとることができる。コンピュータ可読信号媒体は、コンピュータ可読記憶媒体ではなく、且つ、命令実行システム、装置又はデバイスにより又はこれらに関連して用いるためのプログラムを通信、伝搬又は伝送することができる、任意のコンピュータ可読媒体とすることができる。
コンピュータ可読媒体上に具体化されたプログラム・コードは、無線、有線、光ファイバ・ケーブル、RF等、又はそれらの任意の適切な組み合わせを含むがこれらに限定されない、任意の適切な媒体を用いて伝達することができる。
本発明の態様に関する動作を遂行するためのコンピュータ・プログラム・コードは、Java、Smalltalk、C++等のオブジェクト指向プログラミング言語、及び、「C」プログラミング言語又は類似のプログラミング言語等の従来の手続き型プログラミング言語を含む、1つ又は複数のプログラミング言語の任意の組み合わせで記述することができる。プログラム・コードは、全体をユーザのコンピュータ上で実行するか、一部をユーザのコンピュータ上で実行するか、独立したソフトウェア・パッケージとして実行するか、一部をユーザのコンピュータ上で実行し一部を遠隔コンピュータ上で実行するか、又は、全体を遠隔コンピュータ又はサーバ上で実行することができる。後者のシナリオにおいては、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)又はワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通してユーザのコンピュータに接続することができ、又は、外部コンピュータに(例えば、インターネット・サービス・プロバイダを用いるインターネットを通して)接続することもできる。
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラムのフローチャート及び/又はブロック図を参照して説明される。フローチャート及び/又はブロック図の各ブロック、及びフローチャート及び/又はブロック図内のブロックの組み合わせは、コンピュータ・プログラム命令によって実施できることが理解されるであろう。これらのコンピュータ・プログラム命令は、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて、マシンを生成することができ、それによりコンピュータ又は他のプログラム可能データ処理装置のプロセッサを介して実行する命令が、フローチャート及び/又はブロック図のブロック又は複数のブロック内で指定された機能/動作を実施するための手段を生成する。
これらのコンピュータ・プログラム命令はまた、コンピュータ、他のプログラム可能データ処理装置又は他のデバイスに対して特定の様式で機能するよう命令することができるコンピュータ可読媒体内に格納することができ、それによりコンピュータ可読媒体内に格納された命令が、フローチャート及び/又はブロック図のブロック又は複数のブロック内で指定された機能/動作を実行する命令を組み込んだ物品又は製造物を生成する。
コンピュータ・プログラム命令はまた、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイスにロードして、コンピュータ、他のプログラム可能装置又は他のデバイス上で一連の動作ステップを実行させ、コンピュータ実施プロセスを生成することができ、それによりコンピュータ又は他のプログラム可能装置上で実行する命令が、フローチャート及び/又はブロック図のブロック又は複数のブロック内で指定された機能/動作を実施するためのプロセスをもたらす。
図中のフローチャート及びブロック図は、本発明の種々の実施形態によるシステム、方法及びコンピュータ・プログラムの可能な実施のアーキテクチャ、機能性及び動作を示す。この点に関して、フローチャート又はブロック図の各ブロックは、指定された論理機能を実施するための1つ又は複数の実行可能命令を含むモジュール、セグメント、又はコードの一部分を表すことができる。幾つかの代替的な実施においては、ブロック内に記された機能は、図中に記された順序以外の順序で行われる場合があることにも留意されたい。例えば、連続して示された2つのブロックは、関係する機能に応じて、実際には、実質的に同時に実行されることもあり、又は、ブロックは、逆の順序で実行される場合もある。ブロック図及び/又はフローチャートの各ブロック、及びブロック図及び/又はフローチャートのブロックの組み合わせは、指定された機能又は動作を行う専用ハードウェアをベースとするシステム、若しくは専用ハードウェアとコンピュータ命令との組み合わせによって実施できることにも留意されたい。
本明細書において用いられる用語は、特定の実施形態を説明する目的のためのものにすぎず、本発明を限定することを意図するものではない。本明細書において用いられる場合、文脈から明らかにそうでないことが示されていない限り、単数で示されたものは、複数でも良いことが意図されている。「含む」及び/又は「含んでいる」という用語は、本発明において用いられる場合、言明された特徴、整数、ステップ、動作、要素、及び/又は構成要素の存在を特定するものではあるが、1つ又は複数の他の特徴、整数、ステップ、動作、構成要素、及び/又はそれらの群の存在又は追加を排除するものではないこともさらに理解されるであろう。
以下の特許請求の範囲における全ての「手段又はステップと機能との組合せ」要素の対応する構造、材料、行為及び均等物は、その機能を、明確に特許請求されているように他の特許請求された要素と組み合わせて実行するための、いかなる構造、材料又は行為をも含むことが意図される。本発明の説明は、例示及び説明の目的で提示されたものであるが、網羅的であることを意図するものではなく、本発明を開示された形態に限定することを意図するものでもない。本発明の範囲及び思想から逸脱することのない多くの変更及び変形が、当業者には明らかである。実施形態は、本発明の原理及び実際の用途を最も良く説明するため、及び、当業者が本発明を種々の変更を有する種々の実施形態について企図される特定の使用に好適なものとして理解することを可能にするために、選択及び記載された。
110:テキスト断片
130:残りの単語(余分なものを取り除いたテキスト表現)
140a−140f、150b、150c:自己ループ
160a−160f、170a−170j:有向エッジ
201:距離グラフ
202:データ構造体
301:無向距離グラフ
370a−370i:無向エッジ
401:装置(コンピュータ)
402:メモリ
403:ディスク
404:中央処理ユニット(CPU)
405:情報レポジトリ
410:要求
420:応答

Claims (8)

  1. コンピュータが実行する方法であって、
    複数の順序付けられた単語を含む文書を受けるステップと、
    前記文書を受け取った後で、且つグラフ・データ構造体を生成する前に、前記文書からストップワードを取り除くステップと、
    前記文書に関して、各ノードが文書内の別個の単語を表現し、2つのノードが互いに隣接するか、または所定の単語数の内に現れる回数を関連づけた各エッジを含むグラフ・データ構造体を生成するステップと、
    前記グラフ・データ構造体を情報レポジトリ内に格納するステップと、
    前記文書についてのテキスト解析を実行する要求として検索要求を受けるステップと、
    前記検索要求で要求された文章断片に対するグラフ・データ構造体を生成し、前記情報レポジトリ内を検索して、該文章断片のグラフ・データ構造体が該情報レポジトリ内のグラフ・データ構造体のいずれかに存在するかを判断することにより、前記グラフ・データ構造体についてテキスト解析を実行し、前記要求に応答する結果を提供するステップと、
    を含む、方法。
  2. 前記所定の単語数は、前記グラフ・データ構造体の次数値を与える、請求項1に記載の方法。
  3. 前記エッジは、有向エッジ又は無向エッジである、請求項1に記載の方法。
  4. 前記グラフ・データ構造体は、余分なものを取り除いた文書から生成される、請求項1に記載の方法。
  5. プロセッサとメモリとを含むコンピュータが実行する方法であって、
    前記プロセッサが複数の単語を含む文書を受け取るステップと、
    前記プロセッサが前記メモリを使用して、前記文書からストップワードを除去するステップと、
    前記プロセッサが前記メモリを使用して、前記ストップワードを除去した文書に関して、各ノードが前記文書内の別個の単語を表現し、2つのノードが互いに隣接するか、または所定の単語数の内に現れる回数を関連づけた各エッジを含むグラフ・データ構造体を生成するステップと、
    前記プロセッサが前記メモリを使用して、前記2つのノードが互いに前記所定の単語数の内に現れる回数に等しい各エッジの頻度を有する擬似単語を、前記グラフ・データ構造体内の各エッジ割り当てることによって、前記文書のベクトル空間表現を構築するステップと、
    前記プロセッサが前記ベクトル空間表現を出力するステップと、
    を含む、方法。
  6. 前記プロセッサが前記メモリを使用して、前記文書についてのテキスト解析を実行する要求として2つの文書の類似性を計算する要求を受け取るステップと、前記擬似単語に基づき、前記2つの文書に対して生成されたグラフ・データ構造体間の共通のエッジの数を調べることにより、前記ベクトル空間表現についてテキスト解析を実行して、前記要求に応答する結果を取得するステップをさらに含む、請求項に記載の方法。
  7. 請求項1乃至のいずれかに記載の方法に含まれる各ステップをコンピュータに実行させるためのコンピュータ・プログラム。
  8. テキスト文書を解析するための装置であって、
    複数の単語を含む文書を受け取る手段と、
    前記文書からストップワードを除去する手段と、
    前記ストップワードを除去した文書に関して、各ノードが前記文書内の別個の単語を表現し、2つのノードが互いに隣接するか、または所定の単語数の内に現れる回数を関連づけた各エッジを含むグラフ・データ構造体を生成する手段と、
    前記2つのノードが互いに前記所定の単語数の内に現れる回数に等しい各エッジの頻度を有する擬似単語を、前記グラフ・データ構造体内の各エッジ割り当てることによって、前記文書のベクトル空間表現を構築する手段と、
    前記ベクトル空間表現を出力する手段と、
    を備える、装置。
JP2011096300A 2010-06-08 2011-04-22 コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル Active JP5995409B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US12/796266 2010-06-08
US12/796,266 US8375061B2 (en) 2010-06-08 2010-06-08 Graphical models for representing text documents for computer analysis

Publications (2)

Publication Number Publication Date
JP2011258184A JP2011258184A (ja) 2011-12-22
JP5995409B2 true JP5995409B2 (ja) 2016-09-21

Family

ID=45065290

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011096300A Active JP5995409B2 (ja) 2010-06-08 2011-04-22 コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル

Country Status (3)

Country Link
US (1) US8375061B2 (ja)
JP (1) JP5995409B2 (ja)
KR (1) KR101790793B1 (ja)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8775441B2 (en) 2008-01-16 2014-07-08 Ab Initio Technology Llc Managing an archive for approximate string matching
CA2738961A1 (en) 2008-10-23 2010-04-29 Ab Initio Technology Llc Fuzzy data operations
AU2012340429B2 (en) 2011-11-15 2016-12-01 Ab Initio Technology Llc Data clustering based on candidate queries
US8819078B2 (en) * 2012-07-13 2014-08-26 Hewlett-Packard Development Company, L. P. Event processing for graph-structured data
US8954441B1 (en) * 2014-01-02 2015-02-10 Linkedin Corporation Graph-based system and method of information storage and retrieval
US9251139B2 (en) * 2014-04-08 2016-02-02 TitleFlow LLC Natural language processing for extracting conveyance graphs
CN105701083A (zh) 2014-11-28 2016-06-22 国际商业机器公司 文本表示方法和装置
US9483474B2 (en) * 2015-02-05 2016-11-01 Microsoft Technology Licensing, Llc Document retrieval/identification using topics
KR101697875B1 (ko) 2015-10-30 2017-01-18 아주대학교산학협력단 그래프 모델에 기반하는 문서 분석 방법 및 그 시스템
US10013450B2 (en) 2015-12-03 2018-07-03 International Business Machines Corporation Using knowledge graphs to identify potential inconsistencies in works of authorship
US10013404B2 (en) * 2015-12-03 2018-07-03 International Business Machines Corporation Targeted story summarization using natural language processing
US10248738B2 (en) 2015-12-03 2019-04-02 International Business Machines Corporation Structuring narrative blocks in a logical sequence
KR101723770B1 (ko) 2016-02-19 2017-04-06 아주대학교산학협력단 플레이어 매칭 기법에 기반하는 문제 추천 방법 및 그 시스템
US9645999B1 (en) * 2016-08-02 2017-05-09 Quid, Inc. Adjustment of document relationship graphs
US10437810B2 (en) 2016-09-30 2019-10-08 Microsoft Technology Licensing, Llc Systems and methods for maintaining cardinality schema to prevent corruption in databases indifferent to cardinality
JP6622236B2 (ja) * 2017-03-06 2019-12-18 株式会社日立製作所 発想支援装置及び発想支援方法
US10621234B2 (en) 2018-04-06 2020-04-14 Runecast Solutions Limited Method for discovering a group of interdependent computing objects within undirected graph structure in a computing environment corresponding to a set of known conditions
US11429897B1 (en) 2019-04-26 2022-08-30 Bank Of America Corporation Identifying relationships between sentences using machine learning
US11783005B2 (en) 2019-04-26 2023-10-10 Bank Of America Corporation Classifying and mapping sentences using machine learning
US11449559B2 (en) 2019-08-27 2022-09-20 Bank Of America Corporation Identifying similar sentences for machine learning
US11556711B2 (en) 2019-08-27 2023-01-17 Bank Of America Corporation Analyzing documents using machine learning
US11423231B2 (en) 2019-08-27 2022-08-23 Bank Of America Corporation Removing outliers from training data for machine learning
US11526804B2 (en) 2019-08-27 2022-12-13 Bank Of America Corporation Machine learning model training for reviewing documents
CN112000788B (zh) * 2020-08-19 2024-02-09 腾讯云计算(长沙)有限责任公司 一种数据处理方法、装置以及计算机可读存储介质
CN113312498B (zh) * 2021-06-09 2022-06-17 上海交通大学 用无向图嵌入知识图谱的文本信息抽取方法
CN114219876B (zh) * 2022-02-18 2022-06-24 阿里巴巴达摩院(杭州)科技有限公司 文本合并方法、装置、设备及存储介质

Family Cites Families (78)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US5740421A (en) * 1995-04-03 1998-04-14 Dtl Data Technologies Ltd. Associative search method for heterogeneous databases with an integration mechanism configured to combine schema-free data models such as a hyperbase
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
US5963940A (en) * 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US5737734A (en) * 1995-09-15 1998-04-07 Infonautics Corporation Query word relevance adjustment in a search of an information retrieval system
US5640553A (en) * 1995-09-15 1997-06-17 Infonautics Corporation Relevance normalization for documents retrieved from an information retrieval system in response to a query
US5742816A (en) * 1995-09-15 1998-04-21 Infonautics Corporation Method and apparatus for identifying textual documents and multi-mediafiles corresponding to a search topic
US5717914A (en) * 1995-09-15 1998-02-10 Infonautics Corporation Method for categorizing documents into subjects using relevance normalization for documents retrieved from an information retrieval system in response to a query
US5822731A (en) * 1995-09-15 1998-10-13 Infonautics Corporation Adjusting a hidden Markov model tagger for sentence fragments
US5675788A (en) * 1995-09-15 1997-10-07 Infonautics Corp. Method and apparatus for generating a composite document on a selected topic from a plurality of information sources
US5659742A (en) * 1995-09-15 1997-08-19 Infonautics Corporation Method for storing multi-media information in an information retrieval system
US5721902A (en) * 1995-09-15 1998-02-24 Infonautics Corporation Restricted expansion of query terms using part of speech tagging
US5873076A (en) * 1995-09-15 1999-02-16 Infonautics Corporation Architecture for processing search queries, retrieving documents identified thereby, and method for using same
US6128613A (en) * 1997-06-26 2000-10-03 The Chinese University Of Hong Kong Method and apparatus for establishing topic word classes based on an entropy cost function to retrieve documents represented by the topic words
US6070134A (en) * 1997-07-31 2000-05-30 Microsoft Corporation Identifying salient semantic relation paths between two words
US6360227B1 (en) * 1999-01-29 2002-03-19 International Business Machines Corporation System and method for generating taxonomies with applications to content-based recommendations
US6901402B1 (en) * 1999-06-18 2005-05-31 Microsoft Corporation System for improving the performance of information retrieval-type tasks by identifying the relations of constituents
US6549896B1 (en) * 2000-04-07 2003-04-15 Nec Usa, Inc. System and method employing random walks for mining web page associations and usage to optimize user-oriented web page refresh and pre-fetch scheduling
US20030033582A1 (en) * 2001-05-09 2003-02-13 Wavemarket, Inc. Representations for estimating distance
US6978274B1 (en) * 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
ATE466345T1 (de) * 2002-01-16 2010-05-15 Elucidon Group Ltd Abruf von informationsdaten, wobei daten in bedingungen, dokumenten und dokument-corpora organisiert sind
JP4085156B2 (ja) 2002-03-18 2008-05-14 独立行政法人情報通信研究機構 テキスト生成方法及びテキスト生成装置
US6877001B2 (en) * 2002-04-25 2005-04-05 Mitsubishi Electric Research Laboratories, Inc. Method and system for retrieving documents with spoken queries
US7353165B2 (en) * 2002-06-28 2008-04-01 Microsoft Corporation Example based machine translation system
JP2004110161A (ja) 2002-09-13 2004-04-08 Fuji Xerox Co Ltd テキスト文比較装置
US7007069B2 (en) * 2002-12-16 2006-02-28 Palo Alto Research Center Inc. Method and apparatus for clustering hierarchically related information
US7197497B2 (en) * 2003-04-25 2007-03-27 Overture Services, Inc. Method and apparatus for machine learning a document relevance function
US7081839B2 (en) * 2003-09-11 2006-07-25 Lucent Technologies Inc. Method and apparatus for compressing an input string to provide an equivalent decompressed output string
US7346629B2 (en) * 2003-10-09 2008-03-18 Yahoo! Inc. Systems and methods for search processing using superunits
JP2005122515A (ja) * 2003-10-17 2005-05-12 Sony Corp 電子機器装置、テキスト間の類似度計算方法、およびプログラム
US7809548B2 (en) * 2004-06-14 2010-10-05 University Of North Texas Graph-based ranking algorithms for text processing
GB2415518A (en) * 2004-06-24 2005-12-28 Sharp Kk Method and apparatus for translation based on a repository of existing translations
US20060031219A1 (en) * 2004-07-22 2006-02-09 Leon Chernyak Method and apparatus for informational processing based on creation of term-proximity graphs and their embeddings into informational units
US7836076B2 (en) * 2004-08-20 2010-11-16 Hewlett-Packard Development Company, L.P. Distributing content indices
US20060074900A1 (en) * 2004-09-30 2006-04-06 Nanavati Amit A Selecting keywords representative of a document
US7551780B2 (en) * 2005-08-23 2009-06-23 Ricoh Co., Ltd. System and method for using individualized mixed document
US7457808B2 (en) * 2004-12-17 2008-11-25 Xerox Corporation Method and apparatus for explaining categorization decisions
US20060200461A1 (en) * 2005-03-01 2006-09-07 Lucas Marshall D Process for identifying weighted contextural relationships between unrelated documents
US20060235899A1 (en) * 2005-03-25 2006-10-19 Frontline Systems, Inc. Method of migrating legacy database systems
US7447683B2 (en) * 2005-03-31 2008-11-04 Jiles, Inc. Natural language based search engine and methods of use therefor
US9129038B2 (en) * 2005-07-05 2015-09-08 Andrew Begel Discovering and exploiting relationships in software repositories
US7599917B2 (en) * 2005-08-15 2009-10-06 Microsoft Corporation Ranking search results using biased click distance
US7672511B2 (en) * 2005-08-30 2010-03-02 Siemens Medical Solutions Usa, Inc. System and method for lattice-preserving multigrid method for image segmentation and filtering
US7499919B2 (en) * 2005-09-21 2009-03-03 Microsoft Corporation Ranking functions using document usage statistics
CN101305366B (zh) * 2005-11-29 2013-02-06 国际商业机器公司 从非结构化文本提取和显现图表结构化关系的方法和系统
US7627559B2 (en) * 2005-12-15 2009-12-01 Microsoft Corporation Context-based key phrase discovery and similarity measurement utilizing search engine query logs
US8438486B2 (en) 2006-02-09 2013-05-07 Microsoft Corporation Automatically converting text to business graphics
US7461073B2 (en) * 2006-02-14 2008-12-02 Microsoft Corporation Co-clustering objects of heterogeneous types
US20070214137A1 (en) * 2006-03-07 2007-09-13 Gloor Peter A Process for analyzing actors and their discussion topics through semantic social network analysis
US7752243B2 (en) * 2006-06-06 2010-07-06 University Of Regina Method and apparatus for construction and use of concept knowledge base
US7624104B2 (en) * 2006-06-22 2009-11-24 Yahoo! Inc. User-sensitive pagerank
US20080004956A1 (en) 2006-06-28 2008-01-03 Andrew Ian Atherton System and method for generating graphical advertisements based on text offers
US7954059B2 (en) 2006-07-24 2011-05-31 National Instruments Corporation Automatic conversion of text-based code having function overloading and dynamic types into a graphical program for compiled execution
US8401841B2 (en) * 2006-08-31 2013-03-19 Orcatec Llc Retrieval of documents using language models
US8166029B2 (en) * 2006-09-07 2012-04-24 Yahoo! Inc. System and method for identifying media content items and related media content items
US7899822B2 (en) * 2006-09-08 2011-03-01 International Business Machines Corporation Automatically linking documents with relevant structured information
KR20090050086A (ko) * 2006-09-11 2009-05-19 인터내셔널 비지네스 머신즈 코포레이션 내비게이션 동안의 사용자 지원 방법, 웹 애플리케이션 서버 컴퓨터 시스템, 컴퓨터 판독가능 저장 매체
US7917492B2 (en) * 2007-09-21 2011-03-29 Limelight Networks, Inc. Method and subsystem for information acquisition and aggregation to facilitate ontology and language-model generation within a content-search-service system
US8359190B2 (en) * 2006-10-27 2013-01-22 Hewlett-Packard Development Company, L.P. Identifying semantic positions of portions of a text
EP2100228A1 (en) * 2007-01-05 2009-09-16 Microsoft Corporation Directed graph embedding
US7966291B1 (en) * 2007-06-26 2011-06-21 Google Inc. Fact-based object merging
US20090024385A1 (en) * 2007-07-16 2009-01-22 Semgine, Gmbh Semantic parser
US20090031224A1 (en) 2007-07-25 2009-01-29 International Business Machines Corporation Method, system, and computer program product for visually associating a static graphic image and html text on a web page
JP2009048351A (ja) * 2007-08-17 2009-03-05 Nippon Telegr & Teleph Corp <Ntt> 情報検索装置、情報検索方法および情報検索プログラム
JP5141152B2 (ja) * 2007-09-20 2013-02-13 富士通株式会社 テキスト解析プログラム、テキスト解析方法、およびテキスト解析装置
US20090144262A1 (en) * 2007-12-04 2009-06-04 Microsoft Corporation Search query transformation using direct manipulation
JP5038939B2 (ja) * 2008-03-03 2012-10-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報検索システム、方法及びプログラム
US8290975B2 (en) * 2008-03-12 2012-10-16 Microsoft Corporation Graph-based keyword expansion
US20090254799A1 (en) 2008-04-04 2009-10-08 Michael Unger System for creating graphical display from text
JP5226401B2 (ja) * 2008-06-25 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 文書データの検索を支援する装置及び方法
JP5224953B2 (ja) * 2008-07-17 2013-07-03 インターナショナル・ビジネス・マシーンズ・コーポレーション 情報処理装置、情報処理方法およびプログラム
JP2010113412A (ja) * 2008-11-04 2010-05-20 Omron Corp 文書情報加工方法、文書情報加工装置、文書情報加工プログラムおよび記録媒体
US8095546B1 (en) * 2009-01-09 2012-01-10 Google Inc. Book content item search
US20100287148A1 (en) * 2009-05-08 2010-11-11 Cpa Global Patent Research Limited Method, System, and Apparatus for Targeted Searching of Multi-Sectional Documents within an Electronic Document Collection
US8935260B2 (en) * 2009-05-12 2015-01-13 Hewlett-Packard Development Company, L.P. Document key phrase extraction method
US8271414B2 (en) * 2009-07-24 2012-09-18 International Business Machines Corporation Network characterization, feature extraction and application to classification
US9026427B2 (en) * 2009-10-30 2015-05-05 Blackberry Limited Method and apparatus for pruning side information including directed edges not possessing shortest expanded length for grammar-based compression
US20110131244A1 (en) * 2009-11-29 2011-06-02 Microsoft Corporation Extraction of certain types of entities

Also Published As

Publication number Publication date
KR20110134314A (ko) 2011-12-14
JP2011258184A (ja) 2011-12-22
KR101790793B1 (ko) 2017-10-26
US8375061B2 (en) 2013-02-12
US20110302168A1 (en) 2011-12-08

Similar Documents

Publication Publication Date Title
JP5995409B2 (ja) コンピュータ解析のためにテキスト文書を表現するためのグラフィカル・モデル
US11763175B2 (en) Systems and methods for semantic inference and reasoning
US10963794B2 (en) Concept analysis operations utilizing accelerators
US10310812B2 (en) Matrix ordering for cache efficiency in performing large sparse matrix operations
US11423082B2 (en) Methods and apparatus for subgraph matching in big data analysis
JP6605573B2 (ja) 並列ディシジョン・ツリー・プロセッサー・アーキテクチャ
US8559731B2 (en) Personalized tag ranking
US20160259826A1 (en) Parallelized Hybrid Sparse Matrix Representations for Performing Personalized Content Ranking
US10713429B2 (en) Joining web data with spreadsheet data using examples
US20190303266A1 (en) String transformation based trace classification and analysis
US10915537B2 (en) System and a method for associating contextual structured data with unstructured documents on map-reduce
Kethavarapu et al. Concept based dynamic ontology creation for job recommendation system
US8392393B2 (en) Graph searching
KR101267038B1 (ko) 벡터 공간 모델을 이용한 rdf 트리플 선택 방법, 장치, 및 그 방법을 실행하기 위한 프로그램 기록매체
US20160350384A1 (en) Mining Relevant Approximate Subgraphs from Multigraphs
Kumar et al. Efficient structuring of data in big data
Shahzad et al. Generating process model collection with diverse label and structural features
WO2014169481A1 (en) Coarse semantic data set enhancement for a reasoning task
JP6005583B2 (ja) 検索装置、検索方法および検索プログラム
JP2011248740A (ja) データ出力装置、データ出力方法およびデータ出力プログラム
Ba et al. ServOMap and ServOMap-lt Results for OAEI 2012
JP6040141B2 (ja) キーワード付与装置、キーワード付与方法及びプログラム
CN116226686B (zh) 一种表格相似性分析方法、装置、设备和存储介质
Ong et al. Comparative Study of Leveraging Big Data Processing Techniques for Sentiment Analysis
Adachi et al. A Query Anonymization Approach using Ontology Mappings.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140110

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20140514

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20140603

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20140603

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20140604

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20140821

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20150303

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150612

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20150619

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20150821

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160426

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20160802

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160823

R150 Certificate of patent or registration of utility model

Ref document number: 5995409

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150