JP5128101B2 - 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム - Google Patents

大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム Download PDF

Info

Publication number
JP5128101B2
JP5128101B2 JP2006269937A JP2006269937A JP5128101B2 JP 5128101 B2 JP5128101 B2 JP 5128101B2 JP 2006269937 A JP2006269937 A JP 2006269937A JP 2006269937 A JP2006269937 A JP 2006269937A JP 5128101 B2 JP5128101 B2 JP 5128101B2
Authority
JP
Japan
Prior art keywords
entities
indexing
entity
group
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2006269937A
Other languages
English (en)
Other versions
JP2007102786A (ja
Inventor
イェルク、マイアー
ダニエル、ノリン、メレディス
ナダブ、エイロン
ジャン、ヘンドリック、ピーパー
アンドリュー、エス、トムキンズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2007102786A publication Critical patent/JP2007102786A/ja
Application granted granted Critical
Publication of JP5128101B2 publication Critical patent/JP5128101B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology

Description

本発明の実施例は、一般に、情報検索システムに関し、より詳細には、フルテキスト逆リスト情報検索システムにおけるデータ探索用技術に関する。
タキソノミーとは、事象の分類である。例えば、ほとんどのオペレーティング・システムで公知のディレクトリー構造は、個々のファイルをグループに整理する方法である。フルテキスト・インデックスにおいて、インデックス付けは、多くのドキュメントが同一の表象(トークン)(例えば、言葉または文字)を共有する事を利用する。トークンはドキュメントの特有のセットで数回生じることがあるが、逆リストインデックスは一般に、個々の固有のトークンを一度だけ記憶する。したがって、逆リストインデックスは、一般に、ドキュメントのセットを圧縮する形態と見なすことができる。通常、圧縮比は、インデックスの範囲に依存する。一般に、基本逆インデックスは、タームがドキュメント内に生じたかどうかを単に記録するが、それが発生する回数または場所は記録しない。完全逆インデックスは通常、ドキュメント毎のトークン毎の発生を記録する。基本逆インデックスが記憶装置の点からよりコンパクトである一方、それは、一般に、トークンのシーケンスの探索、またはトークンのあるウィンドウ内のトークンの存在をサポートすることができない。しかし、完全逆インデックスは、一般に、そのような高性能な探索を可能にする。基本逆インデックスと完全逆インデックスの間で、タームについて逆リスト内に記憶されることが可能な様々なレベルの情報がある。
逆リストに関して、インデックスの最もよく知られた形態の1つは、本のインデックスである。ほとんどすべての本は、本の最後に、一般にはアルファベット順で、言葉または言葉の配列(例えば、セクションおよび章ヘッダー)とそれが扱われているページ番号のリストがついている。インデックスを使用すると、ある言葉を含むページを見つけるために、1ページずつ細かく調べなくてもすむ。同様に、ウェブ・サーチエンジンなどの情報検索アプリケーションにおける逆リストインデックスは、それを正確に行う。抽象的に、ウェブは、本として類推されることができ、個々のウェブ・ドキュメントは、本のページに相当する。インデックスが付けられるドキュメントをすべて細かく調べ、それらをトークンに分割することにより逆リストインデックスが構築される。構文解析またはトークン化と呼ばれるこのプロセスは、英語テキストドキュメント、漢字、4バイトの数などで、言葉になり得るトークンを生成する。
フルテキスト・インデックスに対するクエリは、すべてのクエリ・タームの逆リストの交点/結合(クエリ・オペレータ、例えば、OR、ANDに依存する)と同じである。クエリ結果は、したがって、逆リストそれ自体である。クエリの各タームについて、一般に、逆リストにアクセスしなければならない。データマイニングプロセスは、データの大きなコーパスから、パターン、関係などの情報を抽出することを含む。データマイナー(いわゆる注釈者)は通常、コーパス、ふつう、ドキュメントごとに作動し、コーパスにメタデータを加える。エンティティは、人が多くの名前または説明で言及するものとして理解されることができる。エンティティは、人、機関、組織、ビルまたは国とすることができる。これらはすべて、異なる名前または愛称、またはそれらの名前の変化する短文の形式と共に、異なる言語で同じものについて記載することができるという概念を共通に有する。したがってエンティティも、一般に検索クエリとして表すことができる。
上記の概念は、ユーザが、言葉のバッグまたは敷設されたエンティティを探索することを可能にする。しかし、しばしば、これは十分でない。コンピュータ・ユーザは、一般的には、事象を組織しグループ化する傾向がある。例としては、グループの電子メールアドレスをグループ化する関連ファイルまたはメールリストをグループ化するためにディレクトリーを使用するファイル・システムがある。基本概念は、単一の別名(つまり、ディレクトリー名またはメールリストの名前)の参照により、一群の事象においてオペレーションを行なえるということである。
探索アプリケーションでは、同様の機能性が望ましい。特定タームのグループを含むドキュメントを探索する代わりに、別名を使用して、グループにインデックスを付けて探索することが一般に効率的である。例えば、ドキュメント中の政治家の名前の発生は、すべて、単一のターム「政治家」を使用してグループ化されてもよい。そのように、政治家をすべて個々に記載する必要なしに、ドキュメントのコーパスを効率的に探索することができる。事象のグループを探索する場合、一般にグループと一致するドキュメントを見つけることだけが有用ではなく、どのエンティティがグループ名の発生に「隠されている」かを知ることは有用もある。
この問題の第1の従来の解決法は、グループの各政治家について個々にクエリを行うことにより「政治家」などのグループについてクエリを行うことである。しかし、これは、グループが、何千、何百万、また時には、何億ものエントリー(例えば、すべての人の名前のグループ)を含みうるので、一般には受け入れられず、そのような場合での処理時間は、ほんの一瞬から数日までかかることがある。
第2の従来の解決法は、グループに対応する新しいトークンを生成することである。しかし、この解決法は、一般に、重要な機能性を提供しない。ユーザは結果におけるドキュメントが政治家をまとめて参照することを知っているが、どの政治家かは分からない。ある分析アプリケーションについて、このアプローチも受け入れられない。関係型データベースは、関係データを記憶するためによくできたツールである。グループ中のエンティティの封じ込めは、同様に関係である。しかし、関係型データベースは、大規模なテキストインデックスを構築するのに一般にふさわしくない。従って、どのエンティティがグループ名の発生に「隠されている」かを発見するために、グループに属するエンティティを含むドキュメントを見つけることができる新規なインデックス付けの技術に対する必要性がある。
以上を考慮して、本発明の実施例は、ディレクトリー構造的に配置された1又は複数の語(以下、「ターム」ともいう)を含む複数のエンティティに索引付けする(以下、「インデックスを付ける」ともいう)方法を提供し、他の実施例においては、コンピュータによって読み取り可能であり複数のエンティティにインデックスを付ける方法を行なうために、コンピュータによって実施可能な指示のプログラムを明確に具体化するプログラム記憶装置を提供する。前記方法は、索引付け構造(以下、「インデックス構造」ともいう)前記1又は複数の語を受け取るステップと、前記の位置と当該に関連付けられたデータを記録するためのポスティングリストを前記複数のエンティティのそれぞれにおいて構築するステップと、前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するためのポスティングリストを前記グループのそれぞれにおいて構築するステップと、前記エンティティが属する前記グループの名前に索引付けするステップとを含む。ポスティングリストの構築は、前記エンティティごとに構築された前記ポスティングリスト中に、前記エンティティの位置と当該エンティティに関連付けられたデータを記憶するステップを含むことが好ましい。また、前記方法は、逆リストインデックスを使用して、データをインデックスタームの各発生に関連付けるステップと、逆リストインデックスを探索して、1セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すステップとをさらに含む。さらに、前記方法は、インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップを含んでいてもよい。
本発明の他の態様は、前記複数のエンティティにインデックスを付けるシステムを提供する。前記システムは、1又は複数の語を受け取るようになされたインデックス構造と、の位置と当該に関連付けられたデータを記録するための、エンティティごとに構築された複数のポスティングリストと、前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するための、グループごとに構築されたポスティングリストとを含み、前記インデックス構造は、グループの名前、および各位置でそれぞれのエンティティの名前を含む各データフィールドを有するグループ内のすべてのエンティティの位置を含む、そのそれぞれのポスティングリストを有する。ポスティングリストは、タームの位置と当該タームに関連付けられたデータを記憶するためになされていることが好ましい。前記システムは、データをインデックスタームの各発生に関連させるようになされた逆リストインデックス構造をさらに有しても良い。さらに、システムは、逆リストインデックス構造を探索して、1セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すようになされたクエリ・メカニズムを有していてもよい。また、前記システムは、インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するようにインデクサを有していてもよい。
本発明のこれらおよび他の実施例の態様は、以下の記載および添付の図面と共に検討される場合に一層よく評価され理解される。しかし、以下の記載が、本発明の好ましい実施例およびその多数の特定の詳細を示すとともに、限定ではなく例示のために与されることが理解されるべきである。本発明の精神から逸脱することなく多くの変更および変形が本発明の実施例の範囲内で行なわれてもよく、本発明の実施例は、そのような変形をすべて含む。
本発明の実施例は、以下の詳細な説明において、図面を参照することにより一層理解される。
本発明の実施例およびその様々な特徴および有利な詳細は、添付の図面で例示され、以下の記載で詳述される、制限しない実施例を参照してより十分に説明される。図面で例示される特徴は、必ずしも寸法どおりでないことに留意すべきである。公知の要素および処理技術についての記載は、不必要に本発明の実施例を不明瞭にしないように省略されている。本明細書で使用される実施例は、単に、本発明の実施例を実施する方法の理解を促し、当業者が本発明の実施例を実施することさらに可能とするように意図される。従って、例は、本発明の実施例の範囲の限定として解釈されるべきではない。
上記のように、どのエンティティがグループ名の発生に「隠されている」のかを発見するためにグループに属するエンティティを含むドキュメントを見つけることができる、新規なインデックス付けの技術に対する必要性がある。本発明の実施例は、大規模なフルテキスト・インデックス中のタキソノミーにインデックスを付けて探索することをサポートする方法、装置およびシステムを提供することにより、これを達成する。より明確には、本発明の実施例は、インデックスが、集合のメンバーを参照するドキュメントへのシーケンシャル・アクセスを可能とするデータ構造を提供し、ここで、このデータ構造は、どの特別のメンバーが参照されたかを決定するために情報で増大される複数のメンバーを有する集合にインデックスを付けるための技術を提供する。以下、図面、特に図1〜図4を参照し、本発明の好ましい実施例を示す。
以下、図1は、前記複数のエンティティにインデックスを付ける方法のフロー図を示す。前記方法は、インデックス構造でタームを受け取るステップ(101)と、タームの位置と当該タームに関連付けられたデータを記録するための、エンティティごとにポスティングリストを構築するステップ(103)と、前記エンティティの名前を含むグループのデータを有する前記タームの前記位置で、前記エンティティを含む前記グループの名前にインデックスを付けるステップ(105)とを有する。ポスティングリストの構築(103)はタームについてポスティングリスト中のエントリーでタームの位置と当該タームに関連付けられたデータを記憶するステップを有することが好ましい。また、前記方法は、さらに、逆リストインデックスを使用して、データをインデックスタームの各発生に関連付けるステップと、逆リストインデックスを探索して、1セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すステップとを有してもよい。加えて、前記方法は、さらに、インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップを有していてもよい。
一般に、本発明の実施例は、タキソノミーのロールアップを可能とするインデックス構築プロセスを提供する。つまり、ドキュメント中のある位置で特定のエンティティにインデックスを付ける場合、このエンティティを直接または間接的に(サブグループを介して)含むグループはすべて、インデックスタームとしてグループの名前を使用して、同様にインデックスを付けられる。次に、本発明の実施例は、インデックスタームの各発生を有するデータの関連性を可能とする逆リストインデックス・フォーマットを示す。その後、さらに以下に記載するように、本発明の実施例は、逆リストを探索して、1セットのドキュメントヒットにわたって統計的集約演算を可能とし、個々のエンティティがそのページに存在した情報をユーザに提供する方法を提供する。
エンティティは、タキソノミーで定義される。つまり、エンティティは、テキストのどのシーケンスがそのようなエンティティの発生を表しているかについての記載である。単純なタキソノミーが図1で説明されている。個々のエンティティは、グループ化することができ、グループは、ファイル・システムでのディレクトリーの概念と類似してさらにグループ化することができる。拡張可能なマークアップ言語(XML)などのツリー状のドキュメント構造によりタキソノミーの説明が可能となる。エンティティの発生にインデックスを付ける場合、タームは、エンティティ(別名)を表わし、さらに、グループのすべての別名はエンティティを含み、グループの別名の発生は、それぞれ、実際のエンティティの名前に関連する。ドキュメントの探索には、言葉、エンティティの別名、またはエンティティのグループの別名の任意の組み合わせを使用することができる。さらに、検索結果は、グループの別名の発生情報を有するエンティティの名前を戻すことにより、グループの別名の関連するデータを使用して注釈を付けることができる。これは、基礎的なインデックスの機能である。本発明の実施例は、グループタームの関連するデータを使用して、ドキュメントヒットのグループに関する統計情報を提供するアプリケーションをサポートする。グループの別名を有するデータを戻す能力を使用して、情報を集約演算することができるとともに、1セットのドキュメントヒットに基づいて統計を集めることができる。例えば、任意の人を含むドキュメントを捜すと(人についてグループの別名を使用して)、ドキュメントで(「人」の発生のデータフィールドから)個々の人のすべてを戻すことを選択することができる。次いで、アプリケーションは、このデータを使用して集約演算し、nの最も頻出する個人を表示することができる。
更に、本発明の実施例は、基本的にタームの集合を探索するためのグループの別名を使用する能力を提供し、クエリ構築を単純化し、クエリ長さおよびクエリ内のタームの数を低減する。グループの別名の使用を可能とすることにより、ユーザが、グループ中のすべてのエントリーを探索するために、グループ内のエントリーをすべて知っていなくてもすむ。一般に、クエリ中の個々のタームは、ターム索引、潜在的に、ディスクシークをそれぞれ要求する。この状況で、多数のターム(例えば、言葉)でクエリを行う場合、「ターム索引」は、タームがインデックスに存在するかどうか、つまり、インデックスを付けられたドキュメントは、与えられたタームを少なくとも一度含むかどうかを見つけ出すプロセスである。用語「ディスクシーク」は、ハードディスクなどの補助記憶装置上で行なわれる任意のオペレーションを意味する。この状況で、タームおよびその逆リストがこれまで見出されておらず、ディスクからロードされる必要がある場合、ディスクシークは必要である。ディスクシークの低減は、CPU、内部記憶(RAM)およびハードディスクなどの外部メモリの速度差が、桁違いであるので、大きなコーパスによって探索を行う際に主要目的の1つである。ターム索引およびディスクシークの数の低減によって、入力/出力(I/O)オペレーションはより逐次的となり、ランタイム性能に明確な効果を有する。
本発明の実施例によれば、増大する集合が自動的に扱われるので、クエリの再使用は単純化される。言いかえれば、タキソノミーへのアップデート、つまり、人のグループに新しい人を加えることは、次のインデックス構築でピックアップされる。メンバーがグループに加えられるなら、それは、グループの一部として自動的にインデックス化され、インデックスアップデートでピックアップされる。よって、グループの別名を使用するクエリは、グループの帰属関係が変化する場合に、変更される必要がない。さらに、本発明の実施例によれば、各ポスティングでデータを記憶することにより、クエリによって戻された結果のセットにおいて、インデックスのみのデータ分析が可能となる。人がページに存在すること、およびその場所(ワードまたはバイト・オフセット)を知っているだけであるなら、実際の名前に到達するために、クエリを満たすドキュメントをすべてロードし、ページから情報を抽出しなければならない。データをインデックスによって利用可能にすることは、ランタイム性能に有利である。本発明の実施例を使用して構築したインデックスにより、タキソノミーでの任意のエンティティの発生はすべて、単に1つのポスティングリストにアクセスするクエリと一致するドキュメントのうちのいずれかについて戻すことができる。グループについての逆リストがその子どものすべての発生を含んでいるので、これを成し遂げることができる。これは、インデックスのみのデータ検索を可能にし、それは、従来の解決法で、ドキュメントのメタデータを含む外部データ記憶を通常要求する。先に述べたように、ドキュメントを検索し、それらを解析し、データを抽出する従来の解決法は、ランタイムの点から禁忌的である。本発明の実施例によって与えられた利益は、ネットワークまたはディスク往復が低減されることである。
一般に、本発明の実施例は、以下のように機能する。最初に、インデックス構築プロセスが生じる。ここで、インデックス・プロセスは、ターム(言葉、エンティティの別名など)を検索する。インデックスは、ハードドライブなどの補助記憶媒体上に記憶された1セットのファイルとして具体化されることが好ましい。タームの発生はそれぞれ、それに関連するデータを有することができる。ポスティングリストは、個々の固有なタームについて構築される。ポスティングのフォーマットは、〔位置|データ〕である。タキソノミーのタームについて、構築プロセスは、以下を行う。(1)エンティティリーフが生じたドキュメントで、位置xを使用して、エンティティリーフを挿入する。(2)そのエンティティ(直接または間接的に)を含む各グループについて、本発明の実施例は、同じ位置xでグループの名前にインデックスを付けて、名前をデータフィールドのエンティティの別名にセットする。例えば、2つのエンティティ、ジョン・ケリーおよびジョージ・ブッシュがあり、それらは、人のグループに含まれる米国政治家のグループにあるとする。エンティティのジョン・ケリーが位置xであるドキュメントに生じ、あるドキュメントにエンティティのジョージ・ブッシュが位置yで生じるとする。インデックス構築プロセスは、表1で示されるように、3つの別名(エンティティ用の1つおよびグループ名用の2つ)について3つのポスティングリストを生成する。
Figure 0005128101
プロセスの次のステップは、クエリ・プロセスを有する。本明細書で、上述されるような方法を使用して構築されたインデックスは、次いで、任意のグループ・メンバーの発生を含むドキュメントを探索するために使用されることができる。タームを調べ、そのようなタームの逆リストにアクセスする、インデックスを使用するサーチエンジンによって探索が促進される。ポスティングリストのすべての発生によってクエリ・エンジンが進む。インデックスは、すべてのタームおよびそれぞれのポスティングリストを含む1セットのファイルを含み、サーチエンジンは、タームが存在するかどうか、次いでインデックス・ファイルで情報を使用して、そのタームについて逆リスト(ポスティング)を見つけるかどうか判断する。ポスティングリストは、任意のオペレーティング・システムで使用されるように、従来のファイル・アクセス方法を使用してディスクからロードされる。タキソノミー内のエンティティについてのポスティングリストは、通常のインデックスタームとして扱われ、ページの言葉などの規則的なインデックスタームと結合することができる。次に、クエリ・タームのデータフィールドの抽出が生じる。本明細書で、1セットのタームを含むドキュメントを捜すクエリを処理する場合、インデクサは、それが見つける各ドキュメントを有するタームの発生情報をすべて戻す。各クエリ・タームのポスティングによって進むことができるサーチエンジンは、関連するデータと同様にドキュメント内の位置である、各ポスティングからの情報を戻す。これは、ドキュメント内に移動するすべての発生のデータフィールドのすべてを抽出することにより成し遂げられる。
図3は、本発明の実施例による系統図を示す。前記複数のエンティティにインデックスを付けるシステム200は、タームを受け取るようになされたインデックス構造201、タームの位置と当該タームに関連付けられたデータに関して、エンティティごとに構築された複数のポスティングリスト203を含み、インデックス構造201は、グループの名前および、グループ内のすべてのエンティティの位置および各位置でそれぞれのエンティティ名を含む各データフィールドを有するそのポスティングリスト203を有する。ポスティングリスト203は、エントリーについてポスティングリスト203のエントリーで、タームの位置と当該タームに関連付けられたデータを記憶するようになされているのが好ましい。システム200は、さらに、データをインデックスタームの各発生に関連させるようになされた逆リストインデックス構造205を有していてもよい。さらに、システム200は、逆リストインデックス構造205を探索して、1セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在するかを示すようになされたクエリ・メカニズム207を有する。また、システム200は、さらに、インデクサ209によって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するようになされたインデクサ209を含む。
本発明の実施例は、完全にハードウェアの実施例、完全にソフトウェア実施例、またはハードウェアおよびソフトウェア要素の両方を含む実施例の形式をとることができる。好ましい実施例では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むソフトウェアで実施され、これらに限定されない。
さらに、本発明の実施例は、コンピュータまたは任意の指示実施システムにより、またはそれらと接続して使用するための、プログラム・コードを提供するコンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータ・プログラムの形態をとることができる。この記載の目的上、コンピュータ使用可能またはコンピュータ読み取り可能な媒体は、指示実施システム、装置またはデバイスにり、またはそれらと接続して使用するための、プログラムを有し、記憶し、通信し、伝搬し、または転送することができる任意の装置とすることができる。
媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム(または、装置またはデバイス)または伝搬媒体とすることができる。コンピュータ読み取り可能な媒体としては、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータ・ディスケット、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、固体磁気ディスクおよび光ディスクが挙げられる。光ディスクの最新の例としては、コンパクトディスク読み出し専用メモリ(CD−ROM)、コンパクトディスク読み取り/書き込みメモリ(CD−R/W)およびDVDが挙げられる。
プログラム・コードを記憶および実施、もしくは記憶または実施するためにふさわしいデータ処理システムは、システムバスによって、メモリエレメントに直接あるいは間接的に接続された少なくとも1つのプロセッサを含む。コードが実施の間に大容量記憶装置から検索されるはずの回数を低減するために、メモリエレメントは少なくともいくつかのプログラム・コードの一時的記憶を提供するプログラム・コード、大容量記憶装置およびキャッシュメモリの実行中に使用されるローカルメモリを有する。
入力/出力(I/O)装置(キーボード、ディスプレイ、ポインティングデバイスなどが挙げられ、これらに限定されない)は、システムに直接または介在するI/Oコントローラを介して接続することができる。ネットワーク・アダプタもシステムに接続されて、介在する個人またはパブリック・ネットワークを介して、他のデータ処理システム、または遠隔プリンタ、または記憶装置にデータ処理システムを接続することを可能としてもよい。モデム、ケーブル・モデムおよびイーサネット(登録商標)カードは、現在利用可能なタイプのネットワーク・アダプタの一部である。
本発明の実施例を実施するための代表的なハードウェア環境が図4に記載されている。この概略図は、本発明の実施例による情報処理/コンピュータシステムのハードウェア構成を説明する。システムは、少なくとも1つのプロセッサまたは中央処理装置(CPU)10を含む。CPU10は、システムバス12を介して、ランダム・アクセス・メモリ(RAM)14、読み出し専用メモリ(ROM)16および入力/出力(I/O)アダプタ18などの様々な装置に相互接続されている。I/Oアダプタ18は、ディスク・ユニット11およびテープ・ドライブ13などの周辺機器、またはシステムによって読み取り可能な他のプログラム記憶装置に接続することができる。システムは、プログラム記憶装置において独創的な指示を読み、これらの指示に従って、本発明の実施例の方法論を実施することができる。システムは、さらに、ユーザ入力を集めるために、バス12にキーボード15、マウス17、スピーカー24、マイクロホン22またはタッチ・スクリーン装置(図示せず)などの他のユーザ・インタフェース装置、もしくはそれらの組み合わせを接続するユーザ・インタフェース・アダプタ19を含む。さらに、通信アダプタ20は、データ処理ネットワーク25にバス12を接続し、例えば、ディスプレイ・アダプタ21は、モニタ、プリンタまたは発信機などの出力装置として具体化されうるディスプレイ装置23にバス12を接続する。
特定の実施例についての上記の記載は、より完全に本発明の性質を明らかにする。他者が、現在の知識を適用することによって、類概念から逸脱することなく、そのような特定の実施例などの様々な適用のために容易に修正適応することができ、したがって、そのような適応および修正は、開示された実施例の均等の意味および範囲内で理解されるように意図される。本明細書で使用された語法または専門用語は、限定ではなく説明のためにあることが理解される。したがって、本発明の実施例が、好ましい実施例について記載されているが、当業者は、添付の請求項の精神および範囲内での修正で本発明の実施例を実施することができることを認識するであろう。
本発明の実施例の好ましい方法を説明するフロー図である。 タキソノミー・シーケンスの概略を説明する図である。 本発明の実施例による系統図である。 本発明の実施例によるコンピュータ・アーキテクチャ図である。

Claims (11)

  1. 数のエンティティに索引付けする方法であって、前記複数のエンティティのそれぞれはディレクトリー構造的に配置された1又は複数の語を含み、前記複数のエンティティはグループ化されることができ、コンピュータが、
    前記1又は複数の語を受け取るようになされた索引付け構造で前記1又は複数の語を受け取るステップと、
    前記の位置と当該に関連付けられたデータを記録するためのポスティングリストを前記複数のエンティティのそれぞれにおいて構築するステップと、
    前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するためのポスティングリストを前記グループのそれぞれにおいて構築するステップと、
    記エンティティが属する前記グループの名前に索引付けするステップと
    を実行することを含む、前記方法。
  2. 前記コンピュータが、
    前記エンティティごとに構築された前記ポスティングリスト中に、前記エンティティの位置と当該エンティティに関連付けられたデータを記憶するステップをさらに実行することを含む、請求項1に記載の方法。
  3. 前記コンピュータが、逆リスト索引付けを使用して、データを索引付けタームの各発生に関連付けるステップを実行することをさらに含む、請求項1に記載の方法。
  4. 前記コンピュータが、前記逆リスト索引付けを検索して、1セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すステップを実行することをさらに含む、請求項3に記載の方法。
  5. 前記コンピュータが、インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップを実行することをさらに含む、請求項1に記載の方法。
  6. 複数のエンティティに索引付けするシステムであって、前記複数のエンティティのそれぞれはディレクトリー構造的に配置された1又は複数の語を含み、前記複数のエンティティはグループ化されることができ、
    前記1又は複数の語を受け取るようになされた索引付け構造と、
    前記の位置と当該に関連付けられたデータを記録するための複数のポスティングリストであって、前記複数のエンティティのそれぞれにおいて構築される前記ポスティングリストと、
    前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するためのポスティングリストであって、前記グループのそれぞれにおいて構築される前記ポスティングリストと、
    を含み、
    記エンティティが属する前記グループの名前に索引付がされている、前記システム。
  7. 記エンティティごとに構築された前記ポスティングリスト中に、前記エンティティの位置と当該エンティティに関連付けられたデータを記憶するようになされている、請求項6に記載のシステム。
  8. データを索引付けタームの各発生に関連付けるようになされた逆リスト索引付け構造をさらに含む、請求項6のシステム。
  9. 前記逆リスト索引付けを検索して、1セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すクエリ・メカニズムをさらに含む、請求項8に記載のシステム。
  10. インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップをさらに含む、請求項6に記載のシステム。
  11. 複数のエンティティに索引付けするためのコンピュータ・プログラムであって、前記複数のエンティティのそれぞれはディレクトリー構造的に配置された1又は複数の語を含み、前記複数のエンティティはグループ化されることができ、コンピュータに、請求項1〜5のいずれか一項に記載の方法の各ステップを実行させる前記コンピュータ・プログラム。
JP2006269937A 2005-09-30 2006-09-29 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム Active JP5128101B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US11/241687 2005-09-30
US11/241,687 US8600997B2 (en) 2005-09-30 2005-09-30 Method and framework to support indexing and searching taxonomies in large scale full text indexes

Publications (2)

Publication Number Publication Date
JP2007102786A JP2007102786A (ja) 2007-04-19
JP5128101B2 true JP5128101B2 (ja) 2013-01-23

Family

ID=37903089

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006269937A Active JP5128101B2 (ja) 2005-09-30 2006-09-29 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム

Country Status (3)

Country Link
US (1) US8600997B2 (ja)
JP (1) JP5128101B2 (ja)
CN (1) CN100423005C (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8705742B2 (en) 2006-12-26 2014-04-22 Fujitsu Limited Data compression apparatus and data decompression apparatus
KR101757124B1 (ko) 2016-09-01 2017-07-26 인하대학교 산학협력단 시공간 키워드 질의를 위한 셀 기반 역리스트 인덱싱 기법

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080072134A1 (en) * 2006-09-19 2008-03-20 Sreeram Viswanath Balakrishnan Annotating token sequences within documents
US7974976B2 (en) * 2006-11-09 2011-07-05 Yahoo! Inc. Deriving user intent from a user query
US8108390B2 (en) * 2006-12-21 2012-01-31 Yahoo! Inc. System for targeting data to sites referenced on a page
US7720837B2 (en) * 2007-03-15 2010-05-18 International Business Machines Corporation System and method for multi-dimensional aggregation over large text corpora
US20080270228A1 (en) * 2007-04-24 2008-10-30 Yahoo! Inc. System for displaying advertisements associated with search results
US9396261B2 (en) * 2007-04-25 2016-07-19 Yahoo! Inc. System for serving data that matches content related to a search results page
US8099401B1 (en) 2007-07-18 2012-01-17 Emc Corporation Efficiently indexing and searching similar data
US8782061B2 (en) * 2008-06-24 2014-07-15 Microsoft Corporation Scalable lookup-driven entity extraction from indexed document collections
JP2011065546A (ja) * 2009-09-18 2011-03-31 Hitachi Solutions Ltd ファイル検索システム及びプログラム
EA026653B1 (ru) 2010-03-25 2017-05-31 Дзе Юниверсити Оф Манчестер Способ охлаждения
CN102262632B (zh) * 2010-05-28 2014-03-19 国际商业机器公司 进行文本处理的方法和系统
US10089390B2 (en) 2010-09-24 2018-10-02 International Business Machines Corporation System and method to extract models from semi-structured documents
WO2012049883A1 (ja) * 2010-10-15 2012-04-19 日本電気株式会社 データ構造、インデックス作成装置、データ検索装置、インデックス作成方法、データ検索方法およびコンピュータ読み取り可能な記録媒体
CN102780652B (zh) * 2012-07-23 2018-04-20 上海量明科技发展有限公司 即时通信中对信息进行归类采集的方法及系统
US9576007B1 (en) * 2012-12-21 2017-02-21 Google Inc. Index and query serving for low latency search of large graphs
US20150379016A1 (en) * 2013-03-07 2015-12-31 Brian Charles ERIKSSON Top-k search using randomly obtained pairwise comparisons
WO2015104061A1 (en) * 2014-01-13 2015-07-16 Huawei Technologies Co., Ltd. Method and apparatus for generating a plurality of indexed data fields
CN106156294B (zh) * 2016-06-29 2019-11-08 中电福富信息科技有限公司 一种快速查找关联数据的方法
US11921767B1 (en) * 2018-09-14 2024-03-05 Palantir Technologies Inc. Efficient access marking approach for efficient retrieval of document access data

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4606002A (en) 1983-05-02 1986-08-12 Wang Laboratories, Inc. B-tree structured data base using sparse array bit maps to store inverted lists
JPH07249045A (ja) 1994-03-08 1995-09-26 Oki Electric Ind Co Ltd 情報検索方法および情報検索装置
JPH08115340A (ja) 1994-10-19 1996-05-07 Fuji Xerox Co Ltd 文書検索装置およびそれに用いるインデックスファイルの作成装置
JP2929963B2 (ja) 1995-03-15 1999-08-03 松下電器産業株式会社 文書検索装置および単語索引作成方法および文書検索方法
US5701469A (en) * 1995-06-07 1997-12-23 Microsoft Corporation Method and system for generating accurate search results using a content-index
US5778378A (en) 1996-04-30 1998-07-07 International Business Machines Corporation Object oriented information retrieval framework mechanism
US5832500A (en) * 1996-08-09 1998-11-03 Digital Equipment Corporation Method for searching an index
US5893094A (en) 1997-07-25 1999-04-06 Claritech Corporation Method and apparatus using run length encoding to evaluate a database
US5848410A (en) 1997-10-08 1998-12-08 Hewlett Packard Company System and method for selective and continuous index generation
KR100285265B1 (ko) * 1998-02-25 2001-04-02 윤덕용 데이터 베이스 관리 시스템과 정보 검색의 밀결합을 위하여 서브 인덱스와 대용량 객체를 이용한 역 인덱스 저장 구조
US6732087B1 (en) 1999-10-01 2004-05-04 Trialsmith, Inc. Information storage, retrieval and delivery system and method operable with a computer network
US6192374B1 (en) 1998-10-10 2001-02-20 Lawrence Technologies, Llc Efficient implementations of constructs such as feature tables
JP2001043236A (ja) 1999-07-30 2001-02-16 Matsushita Electric Ind Co Ltd 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP4080878B2 (ja) * 2000-12-29 2008-04-23 インターナショナル・ビジネス・マシーンズ・コーポレーション 有損失インデックス圧縮装置
US6643639B2 (en) 2001-02-07 2003-11-04 International Business Machines Corporation Customer self service subsystem for adaptive indexing of resource solutions and resource lookup
US7243092B2 (en) * 2001-12-28 2007-07-10 Sap Ag Taxonomy generation for electronic documents
US6947924B2 (en) 2002-01-07 2005-09-20 International Business Machines Corporation Group based search engine generating search results ranking based on at least one nomination previously made by member of the user group where nomination system is independent from visitation system
KR20040039691A (ko) * 2002-11-04 2004-05-12 엘지전자 주식회사 정보 검색 시스템의 인덱싱 방법
CN1292371C (zh) * 2003-04-11 2006-12-27 国际商业机器公司 倒排索引存储方法、倒排索引机制以及在线更新的方法
US7149748B1 (en) * 2003-05-06 2006-12-12 Sap Ag Expanded inverted index
US20040243560A1 (en) * 2003-05-30 2004-12-02 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including an annotation inverted file system facilitating indexing and searching
US7630963B2 (en) 2003-06-30 2009-12-08 Microsoft Corporation Fast ranked full-text searching
US20050055364A1 (en) * 2003-08-01 2005-03-10 Ophir Frieder Hardware assisted pruned inverted index component
US7337165B2 (en) * 2003-12-29 2008-02-26 International Business Machines Corporation Method and system for processing a text search query in a collection of documents
US7370037B2 (en) * 2003-12-29 2008-05-06 International Business Machines Corporation Methods for processing a text search query in a collection of documents
US7266548B2 (en) * 2004-06-30 2007-09-04 Microsoft Corporation Automated taxonomy generation

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8705742B2 (en) 2006-12-26 2014-04-22 Fujitsu Limited Data compression apparatus and data decompression apparatus
KR101757124B1 (ko) 2016-09-01 2017-07-26 인하대학교 산학협력단 시공간 키워드 질의를 위한 셀 기반 역리스트 인덱싱 기법

Also Published As

Publication number Publication date
CN1940930A (zh) 2007-04-04
JP2007102786A (ja) 2007-04-19
CN100423005C (zh) 2008-10-01
US20070078880A1 (en) 2007-04-05
US8600997B2 (en) 2013-12-03

Similar Documents

Publication Publication Date Title
JP5128101B2 (ja) 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム
Dong et al. Indexing dataspaces
US7899843B2 (en) Expanding the scope of an annotation to an entity level
US7788253B2 (en) Global anchor text processing
US8280878B2 (en) Method and apparatus for real time text analysis and text navigation
US7720837B2 (en) System and method for multi-dimensional aggregation over large text corpora
US8266150B1 (en) Scalable document signature search engine
EP1716511A1 (en) Intelligent search and retrieval system and method
US20030088715A1 (en) System for keyword based searching over relational databases
US20080147642A1 (en) System for discovering data artifacts in an on-line data object
JP2006048684A (ja) 情報検索システムにおけるフレーズに基づく検索方法
US9043330B2 (en) Normalized search
Can et al. Efficiency and effectiveness of query processing in cluster-based retrieval
CN111400323A (zh) 数据检索方法、系统、设备及存储介质
US8001138B2 (en) Word relationship driven search
US20060248037A1 (en) Annotation of inverted list text indexes using search queries
KR20110133909A (ko) 모든 자연어 표현의 각각의 의미마다 별도의 용어를 동적으로 생성하는 방법 및 이를 기반으로 하는 사전 관리기,문서작성기, 용어 주석기, 검색 시스템 및 문서정보체계 구축장치
JP2011133928A (ja) 記憶装置に記憶してある文書ファイルを検索する検索装置、検索システム、検索方法及びコンピュータプログラム
Krishnan et al. Generation of synthetic query auto completion logs
Voit et al. TagTree: Storing and re-finding files using tags
KR100493399B1 (ko) 정보검색 관리시스템 및 그 방법
Aleman-Meza Searching and ranking documents based on semantic relationships
JP3202341B2 (ja) データベースシステム
Zabback et al. Office documents on a database kernel—filing, retrieval, and archiving
Kathuria et al. Context indexing in search engine using binary search tree

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090629

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110421

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110426

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110523

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110523

RD12 Notification of acceptance of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7432

Effective date: 20110523

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20110526

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120224

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120411

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20120411

TRDD Decision of grant or rejection written
A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20121012

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20121012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121012

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121031

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 5128101

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151109

Year of fee payment: 3