JP5128101B2

JP5128101B2 - 大規模フルテキスト・インデックスでタキソノミーにインデックスを付け、探索することをサポートする方法、装置およびシステム

Info

Publication number: JP5128101B2
Application number: JP2006269937A
Authority: JP
Inventors: イェルク、マイアー; ダニエル、ノリン、メレディス; ナダブ、エイロン; ジャン、ヘンドリック、ピーパー; アンドリュー、エス、トムキンズ
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2005-09-30
Filing date: 2006-09-29
Publication date: 2013-01-23
Anticipated expiration: 2026-09-29
Also published as: CN1940930A; JP2007102786A; CN100423005C; US20070078880A1; US8600997B2

Description

本発明の実施例は、一般に、情報検索システムに関し、より詳細には、フルテキスト逆リスト情報検索システムにおけるデータ探索用技術に関する。

タキソノミーとは、事象の分類である。例えば、ほとんどのオペレーティング・システムで公知のディレクトリー構造は、個々のファイルをグループに整理する方法である。フルテキスト・インデックスにおいて、インデックス付けは、多くのドキュメントが同一の表象（トークン）（例えば、言葉または文字）を共有する事を利用する。トークンはドキュメントの特有のセットで数回生じることがあるが、逆リストインデックスは一般に、個々の固有のトークンを一度だけ記憶する。したがって、逆リストインデックスは、一般に、ドキュメントのセットを圧縮する形態と見なすことができる。通常、圧縮比は、インデックスの範囲に依存する。一般に、基本逆インデックスは、タームがドキュメント内に生じたかどうかを単に記録するが、それが発生する回数または場所は記録しない。完全逆インデックスは通常、ドキュメント毎のトークン毎の発生を記録する。基本逆インデックスが記憶装置の点からよりコンパクトである一方、それは、一般に、トークンのシーケンスの探索、またはトークンのあるウィンドウ内のトークンの存在をサポートすることができない。しかし、完全逆インデックスは、一般に、そのような高性能な探索を可能にする。基本逆インデックスと完全逆インデックスの間で、タームについて逆リスト内に記憶されることが可能な様々なレベルの情報がある。

逆リストに関して、インデックスの最もよく知られた形態の１つは、本のインデックスである。ほとんどすべての本は、本の最後に、一般にはアルファベット順で、言葉または言葉の配列（例えば、セクションおよび章ヘッダー）とそれが扱われているページ番号のリストがついている。インデックスを使用すると、ある言葉を含むページを見つけるために、１ページずつ細かく調べなくてもすむ。同様に、ウェブ・サーチエンジンなどの情報検索アプリケーションにおける逆リストインデックスは、それを正確に行う。抽象的に、ウェブは、本として類推されることができ、個々のウェブ・ドキュメントは、本のページに相当する。インデックスが付けられるドキュメントをすべて細かく調べ、それらをトークンに分割することにより逆リストインデックスが構築される。構文解析またはトークン化と呼ばれるこのプロセスは、英語テキストドキュメント、漢字、４バイトの数などで、言葉になり得るトークンを生成する。

フルテキスト・インデックスに対するクエリは、すべてのクエリ・タームの逆リストの交点／結合（クエリ・オペレータ、例えば、ＯＲ、ＡＮＤに依存する）と同じである。クエリ結果は、したがって、逆リストそれ自体である。クエリの各タームについて、一般に、逆リストにアクセスしなければならない。データマイニングプロセスは、データの大きなコーパスから、パターン、関係などの情報を抽出することを含む。データマイナー（いわゆる注釈者）は通常、コーパス、ふつう、ドキュメントごとに作動し、コーパスにメタデータを加える。エンティティは、人が多くの名前または説明で言及するものとして理解されることができる。エンティティは、人、機関、組織、ビルまたは国とすることができる。これらはすべて、異なる名前または愛称、またはそれらの名前の変化する短文の形式と共に、異なる言語で同じものについて記載することができるという概念を共通に有する。したがってエンティティも、一般に検索クエリとして表すことができる。

上記の概念は、ユーザが、言葉のバッグまたは敷設されたエンティティを探索することを可能にする。しかし、しばしば、これは十分でない。コンピュータ・ユーザは、一般的には、事象を組織しグループ化する傾向がある。例としては、グループの電子メールアドレスをグループ化する関連ファイルまたはメールリストをグループ化するためにディレクトリーを使用するファイル・システムがある。基本概念は、単一の別名（つまり、ディレクトリー名またはメールリストの名前）の参照により、一群の事象においてオペレーションを行なえるということである。

探索アプリケーションでは、同様の機能性が望ましい。特定タームのグループを含むドキュメントを探索する代わりに、別名を使用して、グループにインデックスを付けて探索することが一般に効率的である。例えば、ドキュメント中の政治家の名前の発生は、すべて、単一のターム「政治家」を使用してグループ化されてもよい。そのように、政治家をすべて個々に記載する必要なしに、ドキュメントのコーパスを効率的に探索することができる。事象のグループを探索する場合、一般にグループと一致するドキュメントを見つけることだけが有用ではなく、どのエンティティがグループ名の発生に「隠されている」かを知ることは有用もある。

この問題の第１の従来の解決法は、グループの各政治家について個々にクエリを行うことにより「政治家」などのグループについてクエリを行うことである。しかし、これは、グループが、何千、何百万、また時には、何億ものエントリー（例えば、すべての人の名前のグループ）を含みうるので、一般には受け入れられず、そのような場合での処理時間は、ほんの一瞬から数日までかかることがある。

第２の従来の解決法は、グループに対応する新しいトークンを生成することである。しかし、この解決法は、一般に、重要な機能性を提供しない。ユーザは結果におけるドキュメントが政治家をまとめて参照することを知っているが、どの政治家かは分からない。ある分析アプリケーションについて、このアプローチも受け入れられない。関係型データベースは、関係データを記憶するためによくできたツールである。グループ中のエンティティの封じ込めは、同様に関係である。しかし、関係型データベースは、大規模なテキストインデックスを構築するのに一般にふさわしくない。従って、どのエンティティがグループ名の発生に「隠されている」かを発見するために、グループに属するエンティティを含むドキュメントを見つけることができる新規なインデックス付けの技術に対する必要性がある。

以上を考慮して、本発明の実施例は、ディレクトリー構造的に配置された１又は複数の語（以下、「ターム」ともいう）を含む複数のエンティティに索引付けする（以下、「インデックスを付ける」ともいう）方法を提供し、他の実施例においては、コンピュータによって読み取り可能であり、複数のエンティティにインデックスを付ける方法を行なうために、コンピュータによって実施可能な指示のプログラムを明確に具体化するプログラム記憶装置を提供する。前記方法は、索引付け構造（以下、「インデックス構造」ともいう）で前記１又は複数の語を受け取るステップと、前記語の位置と当該語に関連付けられたデータを記録するためのポスティングリストを前記複数のエンティティのそれぞれにおいて構築するステップと、前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するためのポスティングリストを前記グループのそれぞれにおいて構築するステップと、前記エンティティが属する前記グループの名前に索引付けするステップとを含む。ポスティングリストの構築は、前記エンティティごとに構築された前記ポスティングリスト中に、前記エンティティの位置と当該エンティティに関連付けられたデータを記憶するステップを含むことが好ましい。また、前記方法は、逆リストインデックスを使用して、データをインデックスタームの各発生に関連付けるステップと、逆リストインデックスを探索して、１セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すステップとをさらに含む。さらに、前記方法は、インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップを含んでいてもよい。

本発明の他の態様は、前記複数のエンティティにインデックスを付けるシステムを提供する。前記システムは、１又は複数の語を受け取るようになされたインデックス構造と、語の位置と当該語に関連付けられたデータを記録するための、エンティティごとに構築された複数のポスティングリストと、前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するための、グループごとに構築されたポスティングリストとを含み、前記インデックス構造は、グループの名前、および各位置でそれぞれのエンティティの名前を含む各データフィールドを有するグループ内のすべてのエンティティの位置を含む、そのそれぞれのポスティングリストを有する。ポスティングリストは、タームの位置と当該タームに関連付けられたデータを記憶するためになされていることが好ましい。前記システムは、データをインデックスタームの各発生に関連させるようになされた逆リストインデックス構造をさらに有しても良い。さらに、システムは、逆リストインデックス構造を探索して、１セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すようになされたクエリ・メカニズムを有していてもよい。また、前記システムは、インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するようにインデクサを有していてもよい。

本発明のこれらおよび他の実施例の態様は、以下の記載および添付の図面と共に検討される場合に一層よく評価され理解される。しかし、以下の記載が、本発明の好ましい実施例およびその多数の特定の詳細を示すとともに、限定ではなく例示のために与されることが理解されるべきである。本発明の精神から逸脱することなく多くの変更および変形が本発明の実施例の範囲内で行なわれてもよく、本発明の実施例は、そのような変形をすべて含む。

本発明の実施例は、以下の詳細な説明において、図面を参照することにより一層理解される。

本発明の実施例およびその様々な特徴および有利な詳細は、添付の図面で例示され、以下の記載で詳述される、制限しない実施例を参照してより十分に説明される。図面で例示される特徴は、必ずしも寸法どおりでないことに留意すべきである。公知の要素および処理技術についての記載は、不必要に本発明の実施例を不明瞭にしないように省略されている。本明細書で使用される実施例は、単に、本発明の実施例を実施する方法の理解を促し、当業者が本発明の実施例を実施することさらに可能とするように意図される。従って、例は、本発明の実施例の範囲の限定として解釈されるべきではない。

上記のように、どのエンティティがグループ名の発生に「隠されている」のかを発見するためにグループに属するエンティティを含むドキュメントを見つけることができる、新規なインデックス付けの技術に対する必要性がある。本発明の実施例は、大規模なフルテキスト・インデックス中のタキソノミーにインデックスを付けて探索することをサポートする方法、装置およびシステムを提供することにより、これを達成する。より明確には、本発明の実施例は、インデックスが、集合のメンバーを参照するドキュメントへのシーケンシャル・アクセスを可能とするデータ構造を提供し、ここで、このデータ構造は、どの特別のメンバーが参照されたかを決定するために情報で増大される複数のメンバーを有する集合にインデックスを付けるための技術を提供する。以下、図面、特に図１〜図４を参照し、本発明の好ましい実施例を示す。

以下、図１は、前記複数のエンティティにインデックスを付ける方法のフロー図を示す。前記方法は、インデックス構造でタームを受け取るステップ（１０１）と、タームの位置と当該タームに関連付けられたデータを記録するための、エンティティごとにポスティングリストを構築するステップ（１０３）と、前記エンティティの名前を含むグループのデータを有する前記タームの前記位置で、前記エンティティを含む前記グループの名前にインデックスを付けるステップ（１０５）とを有する。ポスティングリストの構築（１０３）は、タームについてポスティングリスト中のエントリーでタームの位置と当該タームに関連付けられたデータを記憶するステップを有することが好ましい。また、前記方法は、さらに、逆リストインデックスを使用して、データをインデックスタームの各発生に関連付けるステップと、逆リストインデックスを探索して、１セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すステップとを有してもよい。加えて、前記方法は、さらに、インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップを有していてもよい。

一般に、本発明の実施例は、タキソノミーのロールアップを可能とするインデックス構築プロセスを提供する。つまり、ドキュメント中のある位置で特定のエンティティにインデックスを付ける場合、このエンティティを直接または間接的に（サブグループを介して）含むグループはすべて、インデックスタームとしてグループの名前を使用して、同様にインデックスを付けられる。次に、本発明の実施例は、インデックスタームの各発生を有するデータの関連性を可能とする逆リストインデックス・フォーマットを示す。その後、さらに以下に記載するように、本発明の実施例は、逆リストを探索して、１セットのドキュメントヒットにわたって統計的集約演算を可能とし、個々のエンティティがそのページに存在した情報をユーザに提供する方法を提供する。

エンティティは、タキソノミーで定義される。つまり、エンティティは、テキストのどのシーケンスがそのようなエンティティの発生を表しているかについての記載である。単純なタキソノミーが図１で説明されている。個々のエンティティは、グループ化することができ、グループは、ファイル・システムでのディレクトリーの概念と類似してさらにグループ化することができる。拡張可能なマークアップ言語（ＸＭＬ）などのツリー状のドキュメント構造によりタキソノミーの説明が可能となる。エンティティの発生にインデックスを付ける場合、タームは、エンティティ（別名）を表わし、さらに、グループのすべての別名はエンティティを含み、グループの別名の発生は、それぞれ、実際のエンティティの名前に関連する。ドキュメントの探索には、言葉、エンティティの別名、またはエンティティのグループの別名の任意の組み合わせを使用することができる。さらに、検索結果は、グループの別名の発生情報を有するエンティティの名前を戻すことにより、グループの別名の関連するデータを使用して注釈を付けることができる。これは、基礎的なインデックスの機能である。本発明の実施例は、グループタームの関連するデータを使用して、ドキュメントヒットのグループに関する統計情報を提供するアプリケーションをサポートする。グループの別名を有するデータを戻す能力を使用して、情報を集約演算することができるとともに、１セットのドキュメントヒットに基づいて統計を集めることができる。例えば、任意の人を含むドキュメントを捜すと（人についてグループの別名を使用して）、ドキュメントで（「人」の発生のデータフィールドから）個々の人のすべてを戻すことを選択することができる。次いで、アプリケーションは、このデータを使用して集約演算し、ｎの最も頻出する個人を表示することができる。

更に、本発明の実施例は、基本的にタームの集合を探索するためのグループの別名を使用する能力を提供し、クエリ構築を単純化し、クエリ長さおよびクエリ内のタームの数を低減する。グループの別名の使用を可能とすることにより、ユーザが、グループ中のすべてのエントリーを探索するために、グループ内のエントリーをすべて知っていなくてもすむ。一般に、クエリ中の個々のタームは、ターム索引、潜在的に、ディスクシークをそれぞれ要求する。この状況で、多数のターム（例えば、言葉）でクエリを行う場合、「ターム索引」は、タームがインデックスに存在するかどうか、つまり、インデックスを付けられたドキュメントは、与えられたタームを少なくとも一度含むかどうかを見つけ出すプロセスである。用語「ディスクシーク」は、ハードディスクなどの補助記憶装置上で行なわれる任意のオペレーションを意味する。この状況で、タームおよびその逆リストがこれまで見出されておらず、ディスクからロードされる必要がある場合、ディスクシークは必要である。ディスクシークの低減は、ＣＰＵ、内部記憶（ＲＡＭ）およびハードディスクなどの外部メモリの速度差が、桁違いであるので、大きなコーパスによって探索を行う際に主要目的の１つである。ターム索引およびディスクシークの数の低減によって、入力／出力（Ｉ／Ｏ）オペレーションはより逐次的となり、ランタイム性能に明確な効果を有する。

本発明の実施例によれば、増大する集合が自動的に扱われるので、クエリの再使用は単純化される。言いかえれば、タキソノミーへのアップデート、つまり、人のグループに新しい人を加えることは、次のインデックス構築でピックアップされる。メンバーがグループに加えられるなら、それは、グループの一部として自動的にインデックス化され、インデックスアップデートでピックアップされる。よって、グループの別名を使用するクエリは、グループの帰属関係が変化する場合に、変更される必要がない。さらに、本発明の実施例によれば、各ポスティングでデータを記憶することにより、クエリによって戻された結果のセットにおいて、インデックスのみのデータ分析が可能となる。人がページに存在すること、およびその場所（ワードまたはバイト・オフセット）を知っているだけであるなら、実際の名前に到達するために、クエリを満たすドキュメントをすべてロードし、ページから情報を抽出しなければならない。データをインデックスによって利用可能にすることは、ランタイム性能に有利である。本発明の実施例を使用して構築したインデックスにより、タキソノミーでの任意のエンティティの発生はすべて、単に１つのポスティングリストにアクセスするクエリと一致するドキュメントのうちのいずれかについて戻すことができる。グループについての逆リストがその子どものすべての発生を含んでいるので、これを成し遂げることができる。これは、インデックスのみのデータ検索を可能にし、それは、従来の解決法で、ドキュメントのメタデータを含む外部データ記憶を通常要求する。先に述べたように、ドキュメントを検索し、それらを解析し、データを抽出する従来の解決法は、ランタイムの点から禁忌的である。本発明の実施例によって与えられた利益は、ネットワークまたはディスク往復が低減されることである。

一般に、本発明の実施例は、以下のように機能する。最初に、インデックス構築プロセスが生じる。ここで、インデックス・プロセスは、ターム（言葉、エンティティの別名など）を検索する。インデックスは、ハードドライブなどの補助記憶媒体上に記憶された１セットのファイルとして具体化されることが好ましい。タームの発生はそれぞれ、それに関連するデータを有することができる。ポスティングリストは、個々の固有なタームについて構築される。ポスティングのフォーマットは、〔位置｜データ〕である。タキソノミーのタームについて、構築プロセスは、以下を行う。（１）エンティティリーフが生じたドキュメントで、位置ｘを使用して、エンティティリーフを挿入する。（２）そのエンティティ（直接または間接的に）を含む各グループについて、本発明の実施例は、同じ位置ｘでグループの名前にインデックスを付けて、名前をデータフィールドのエンティティの別名にセットする。例えば、２つのエンティティ、ジョン・ケリーおよびジョージ・ブッシュがあり、それらは、人のグループに含まれる米国政治家のグループにあるとする。エンティティのジョン・ケリーが位置ｘであるドキュメントに生じ、あるドキュメントにエンティティのジョージ・ブッシュが位置ｙで生じるとする。インデックス構築プロセスは、表１で示されるように、３つの別名（エンティティ用の１つおよびグループ名用の２つ）について３つのポスティングリストを生成する。

プロセスの次のステップは、クエリ・プロセスを有する。本明細書で、上述されるような方法を使用して構築されたインデックスは、次いで、任意のグループ・メンバーの発生を含むドキュメントを探索するために使用されることができる。タームを調べ、そのようなタームの逆リストにアクセスする、インデックスを使用するサーチエンジンによって探索が促進される。ポスティングリストのすべての発生によってクエリ・エンジンが進む。インデックスは、すべてのタームおよびそれぞれのポスティングリストを含む１セットのファイルを含み、サーチエンジンは、タームが存在するかどうか、次いでインデックス・ファイルで情報を使用して、そのタームについて逆リスト（ポスティング）を見つけるかどうか判断する。ポスティングリストは、任意のオペレーティング・システムで使用されるように、従来のファイル・アクセス方法を使用してディスクからロードされる。タキソノミー内のエンティティについてのポスティングリストは、通常のインデックスタームとして扱われ、ページの言葉などの規則的なインデックスタームと結合することができる。次に、クエリ・タームのデータフィールドの抽出が生じる。本明細書で、１セットのタームを含むドキュメントを捜すクエリを処理する場合、インデクサは、それが見つける各ドキュメントを有するタームの発生情報をすべて戻す。各クエリ・タームのポスティングによって進むことができるサーチエンジンは、関連するデータと同様にドキュメント内の位置である、各ポスティングからの情報を戻す。これは、ドキュメント内に移動するすべての発生のデータフィールドのすべてを抽出することにより成し遂げられる。

図３は、本発明の実施例による系統図を示す。前記複数のエンティティにインデックスを付けるシステム２００は、タームを受け取るようになされたインデックス構造２０１、タームの位置と当該タームに関連付けられたデータに関して、エンティティごとに構築された複数のポスティングリスト２０３を含み、インデックス構造２０１は、グループの名前および、グループ内のすべてのエンティティの位置および各位置でそれぞれのエンティティ名を含む各データフィールドを有するそのポスティングリスト２０３を有する。ポスティングリスト２０３は、エントリーについてポスティングリスト２０３のエントリーで、タームの位置と当該タームに関連付けられたデータを記憶するようになされているのが好ましい。システム２００は、さらに、データをインデックスタームの各発生に関連させるようになされた逆リストインデックス構造２０５を有していてもよい。さらに、システム２００は、逆リストインデックス構造２０５を探索して、１セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在するかを示すようになされたクエリ・メカニズム２０７を有する。また、システム２００は、さらに、インデクサ２０９によって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するようになされたインデクサ２０９を含む。

本発明の実施例は、完全にハードウェアの実施例、完全にソフトウェア実施例、またはハードウェアおよびソフトウェア要素の両方を含む実施例の形式をとることができる。好ましい実施例では、本発明は、ファームウェア、常駐ソフトウェア、マイクロコードなどを含むソフトウェアで実施され、これらに限定されない。

さらに、本発明の実施例は、コンピュータまたは任意の指示実施システムにより、またはそれらと接続して使用するための、プログラム・コードを提供するコンピュータ使用可能またはコンピュータ読み取り可能媒体からアクセス可能なコンピュータ・プログラムの形態をとることができる。この記載の目的上、コンピュータ使用可能またはコンピュータ読み取り可能な媒体は、指示実施システム、装置またはデバイスにあり、またはそれらと接続して使用するための、プログラムを有し、記憶し、通信し、伝搬し、または転送することができる任意の装置とすることができる。

媒体は、電子、磁気、光学、電磁気、赤外線、または半導体システム（または、装置またはデバイス）または伝搬媒体とすることができる。コンピュータ読み取り可能な媒体としては、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータ・ディスケット、ランダム・アクセス・メモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、固体磁気ディスクおよび光ディスクが挙げられる。光ディスクの最新の例としては、コンパクトディスク読み出し専用メモリ（ＣＤ−ＲＯＭ）、コンパクトディスク読み取り／書き込みメモリ（ＣＤ−Ｒ／Ｗ）およびＤＶＤが挙げられる。

プログラム・コードを記憶および実施、もしくは記憶または実施するためにふさわしいデータ処理システムは、システムバスによって、メモリエレメントに直接あるいは間接的に接続された少なくとも１つのプロセッサを含む。コードが実施の間に大容量記憶装置から検索されるはずの回数を低減するために、メモリエレメントは少なくともいくつかのプログラム・コードの一時的記憶を提供するプログラム・コード、大容量記憶装置およびキャッシュメモリの実行中に使用されるローカルメモリを有する。

入力／出力（Ｉ／Ｏ）装置（キーボード、ディスプレイ、ポインティングデバイスなどが挙げられ、これらに限定されない）は、システムに直接または介在するＩ／Ｏコントローラを介して接続することができる。ネットワーク・アダプタもシステムに接続されて、介在する個人またはパブリック・ネットワークを介して、他のデータ処理システム、または遠隔プリンタ、または記憶装置にデータ処理システムを接続することを可能としてもよい。モデム、ケーブル・モデムおよびイーサネット（登録商標）カードは、現在利用可能なタイプのネットワーク・アダプタの一部である。

本発明の実施例を実施するための代表的なハードウェア環境が図４に記載されている。この概略図は、本発明の実施例による情報処理／コンピュータシステムのハードウェア構成を説明する。システムは、少なくとも１つのプロセッサまたは中央処理装置（ＣＰＵ）１０を含む。ＣＰＵ１０は、システムバス１２を介して、ランダム・アクセス・メモリ（ＲＡＭ）１４、読み出し専用メモリ（ＲＯＭ）１６および入力／出力（Ｉ／Ｏ）アダプタ１８などの様々な装置に相互接続されている。Ｉ／Ｏアダプタ１８は、ディスク・ユニット１１およびテープ・ドライブ１３などの周辺機器、またはシステムによって読み取り可能な他のプログラム記憶装置に接続することができる。システムは、プログラム記憶装置において独創的な指示を読み、これらの指示に従って、本発明の実施例の方法論を実施することができる。システムは、さらに、ユーザ入力を集めるために、バス１２にキーボード１５、マウス１７、スピーカー２４、マイクロホン２２またはタッチ・スクリーン装置（図示せず）などの他のユーザ・インタフェース装置、もしくはそれらの組み合わせを接続するユーザ・インタフェース・アダプタ１９を含む。さらに、通信アダプタ２０は、データ処理ネットワーク２５にバス１２を接続し、例えば、ディスプレイ・アダプタ２１は、モニタ、プリンタまたは発信機などの出力装置として具体化されうるディスプレイ装置２３にバス１２を接続する。

特定の実施例についての上記の記載は、より完全に本発明の性質を明らかにする。他者が、現在の知識を適用することによって、類概念から逸脱することなく、そのような特定の実施例などの様々な適用のために容易に修正適応することができ、したがって、そのような適応および修正は、開示された実施例の均等の意味および範囲内で理解されるように意図される。本明細書で使用された語法または専門用語は、限定ではなく説明のためにあることが理解される。したがって、本発明の実施例が、好ましい実施例について記載されているが、当業者は、添付の請求項の精神および範囲内での修正で本発明の実施例を実施することができることを認識するであろう。

本発明の実施例の好ましい方法を説明するフロー図である。タキソノミー・シーケンスの概略を説明する図である。本発明の実施例による系統図である。本発明の実施例によるコンピュータ・アーキテクチャ図である。

Claims

複数のエンティティに索引付けする方法であって、前記複数のエンティティのそれぞれはディレクトリー構造的に配置された１又は複数の語を含み、前記複数のエンティティはグループ化されることができ、コンピュータが、
前記１又は複数の語を受け取るようになされた索引付け構造で前記１又は複数の語を受け取るステップと、
前記語の位置と当該語に関連付けられたデータを記録するためのポスティングリストを前記複数のエンティティのそれぞれにおいて構築するステップと、
前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するためのポスティングリストを前記グループのそれぞれにおいて構築するステップと、
前記エンティティが属する前記グループの名前に索引付けするステップと
を実行することを含む、前記方法。
前記コンピュータが、
前記エンティティごとに構築された前記ポスティングリスト中に、前記エンティティの位置と当該エンティティに関連付けられたデータを記憶するステップをさらに実行することを含む、請求項１に記載の方法。
前記コンピュータが、逆リスト索引付けを使用して、データを索引付けタームの各発生に関連付けるステップを実行することをさらに含む、請求項１に記載の方法。
前記コンピュータが、前記逆リスト索引付けを検索して、１セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すステップを実行することをさらに含む、請求項３に記載の方法。
前記コンピュータが、インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップを実行することをさらに含む、請求項１に記載の方法。
複数のエンティティに索引付けするシステムであって、前記複数のエンティティのそれぞれはディレクトリー構造的に配置された１又は複数の語を含み、前記複数のエンティティはグループ化されることができ、
前記１又は複数の語を受け取るようになされた索引付け構造と、
前記語の位置と当該語に関連付けられたデータを記録するための複数のポスティングリストであって、前記複数のエンティティのそれぞれにおいて構築される前記ポスティングリストと、
前記語を含むエンティティが属するグループの位置と当該グループに関連付けられたデータを記録するためのポスティングリストであって、前記グループのそれぞれにおいて構築される前記ポスティングリストと、
を含み、
前記エンティティが属する前記グループの名前に索引付がされている、前記システム。
前記エンティティごとに構築された前記ポスティングリスト中に、前記エンティティの位置と当該エンティティに関連付けられたデータを記憶するようになされている、請求項６に記載のシステム。
データを索引付けタームの各発生に関連付けるようになされた逆リスト索引付け構造をさらに含む、請求項６のシステム。
前記逆リスト索引付けを検索して、１セットのドキュメントヒットにわたって個々のエンティティがドキュメントセットに存在することを示すクエリ・メカニズムをさらに含む、請求項８に記載のシステム。
インデクサによって発見された各ドキュメントでタームのすべての発生のデータフィールドを抽出するステップをさらに含む、請求項６に記載のシステム。
複数のエンティティに索引付けするためのコンピュータ・プログラムであって、前記複数のエンティティのそれぞれはディレクトリー構造的に配置された１又は複数の語を含み、前記複数のエンティティはグループ化されることができ、コンピュータに、請求項１〜５のいずれか一項に記載の方法の各ステップを実行させる前記コンピュータ・プログラム。