JP2000503144A

JP2000503144A - 多数の及び／又は複雑な問合せを用いたデータセットの内容の評価

Info

Publication number: JP2000503144A
Application number: JP9524607A
Authority: JP
Inventors: フィリップシーネルソン
Original assignee: ヴェリティーインコーポレイテッド
Priority date: 1996-01-02
Filing date: 1996-12-31
Publication date: 2000-03-14
Also published as: KR100565871B1; EP0976061A1; WO1997024686A1; AU2083997A; EA001738B1; AP9801282A0; EA199800623A1; IL125188A0; US5778364A; NZ326982A; KR19990076970A; OA10805A; AP934A; AU708217B2

Abstract

(57)【要約】本発明は、データセットの内容を評価して、そのデータセットが１つ以上の問合せを満足するかどうか決定できるようにする。本発明は、問合せの数が多く及び／又は問合せが複雑なときでも、従来可能であった以上に相当に迅速に多数のデータセットを評価することができる。問合せは、１つ以上の特定の問合せから構成された問合せ項の実行プランを使用し、各問合せの各問い合わせ項を１つ以上の証拠記述子及び１つ以上の合成演算子へと変換し、そして合成演算子の各々を少なくとも１つの証拠記述子又は他の合成演算子へと作動的に関連付けることにより評価され、各問合せは、互いに作動的に関連された１つ以上の証拠記述子及び１つ以上の合成演算子により定義される。好ましくは、実行プランにおいて証拠記述子も合成演算子も複製されない。本発明は、テキスト文書及びデータベースのような種々の形式のデータセットを評価するのに使用できる。更に、本発明は、２段階で問合せに対するデータセットの迅速な評価を達成するように最適化することができる。第１に、データセットにより満足できる１つ以上の候補問合せが各問い合わせのおおよその評価により満足される。第２に、候補問合せの各々が完全に評価されて、その候補問合せがデータセットにより満足されるかどうか決定される。

Description

【発明の詳細な説明】多数の及び／又は複雑な問合せを用いたデータセットの内容の評価発明の背景１．発明の分野本発明は、データのセットが１つ以上の制約のセットを満足するかどうか決定するためのデータセットの内容の評価に係る。より詳細には、本発明は、多数の複雑な制約セットを用いた多数のデータセットの評価に係る。２．関連技術の説明データセットが１つ以上の制約を満足するかどうか決定するためにデータセットを評価することが望まれる場合が多数ある。例えば、多数のテキスト文書のいずれが特定の題目に関する情報を含むかを決定する要望がある。或いは、データベース内の特定の情報が関心のある仕方で変化したかどうかを知ることも所望される。データセットのこのような評価を求める多数のエンティティが頻繁に存在し、各エンティティは、互いに他のエンティティとは異なる制約のセットに対してこのような評価を求め、従って、非常に多数の制約セットに対してデータセットを評価しなければならない。更に、制約のセットは、かなり複雑である。加えて、評価されねばならない非常に多数のデータセットが存在する。これまで、このような状態においては、各データセットは、互いに他の制約セットに係わりなく各制約セットに対して評価されている。しかしながら、制約セットの数が多くなると、制約のセットが複雑になるか、又は評価されるべきデータセットの数が多くなるか、或いは特に２つ以上のこれら環境が存在するときには、この解決策は、望ましくないほどの長い時間を要することになる。更に、通常、データセットは、制約のセットにより指示される完全な厳格さで各制約セットに対して完全に評価される。上記のように、制約のセットは、制約の数が多くなるか、又は特定の制約の評価が単純でなくなるために、かなり複雑になり、従って、制約のセットのこのような完全に厳格な評価は困難であり及び／又は時間浪費となる。制約セットの数及び／又は評価されるべきデータセットの数が多いときには問題が一層悪化する。データセットが制約のセットを満足するかどうか決定するために、上記問題を克服するようにデータセットを迅速に評価できることも望まれる。特に、データセットのどれ（もしあれば）が、多数のおそらく複雑な制約のセットを満足するかを決定するために、多数のデータセットを迅速に評価できることも望まれる。更に、多数のデータセットを制約のセットに対してリアルタイムで評価できるようにするに充分なほど評価が迅速であることも望まれる。発明の要旨一般に、本発明は、データセットが１つ以上の制約（問合せ項）のセット（問合せ）を満足するかどうか決定するためにデータセットの内容を評価できるようにする。本発明の重要な特徴は、問合せの数が多く及び／又は問合せが複雑なときでも、多数のデータセットを従来可能であった以上に相当に迅速に評価できることである。本発明の１つの特徴において、データセットのどれ（もしあれば）が１つ以上の問合せを満足するか決定するために、多数の問合せが１つ以上のデータセットの評価に使用するための実行プランへと結合される。実行プランの各問合せは、実行プランの他の問合せに作動的に関連付けされる。問合せと問合せの間の関係は、従来の場合よりも更に最適な仕方でデータセットを問合せに対して評価できるようにする。例えば、実行プランは、別の問合せにも現れる１つの問合せの問合せ項をその問合せと共用できるようにし、従って、問合せ項の単一評価の結果を、その問合せ項を含むいかなる問合せの評価にも使用できるようにする。このような共用がない状態では、問合せ項は、その問合せ項が一部分であるところの各問合せに対して個別に評価しなければならない。明らかなように、このような共用は、特に、問合せの数又は問合せにおける問合せ項の数が多いときに多数の問合せを評価するのに必要な時間を短縮することができる。又、問合せと問合せの関係は、問合せを実行プランに容易に追加したり削除したりできるように利用でき、従って、既存の実行プランが破壊されることはなく、これにより、既存の実行プランに対しデータセットの評価を中断せずに実行プランを変更することができる。例えば、実行プランに追加されるか又は削除されるべき問合せは、実行プランの他の問合せと比較され、その追加又は削除されるべき問合せの問合せ項のどれ（もしあれば）が実行プランにおいて他の問合せの問合せ項と異なるかを決定することができる。次いで、類似性及び相違を使用して、追加又は削除されている問合せにとって独特の問合せ項のみを追加又は削除することができる。本発明の別の特徴においては、実行プランの問合せの各問合せ項は、合成演算子に関係付けすることのできる１つ以上の証拠(evidence)記述子を含む。各証拠記述子は、データセットの内容の一部分を表す証拠の断片を記述する。実行プランは、証拠の各断片を１つ以上の証拠記述子と比較し、そして証拠の断片により満足される各証拠記述子を識別することにより、評価される。満足された証拠記述子又は満足された別の問合せ項を含む各問合せ項は、その問合せ項が満足されるかどうか決定するために評価される。全ての問合せ項が満足されたところの各問合せは、データセットにより満足された問合せとして識別される。問合せの評価は、各証拠記述子の形式及び証拠の各断片を識別し、そして１つの証拠記述子の形式と同じ形式のものである証拠の断片のみを評価することにより、更に最適化することができる。又、問合せ評価は、証拠の各断片を、証拠の断片と同じ形式のものである証拠記述子のみと比較することにより、更に最適化することができる。加えて、証拠の断片と証拠記述子との比較は、証拠及び証拠記述子の形式に基づいて最適化することができる。本発明の別の特徴においては、データセットが実行プランに対して２つの段階で評価される。第１に、データセットにより満足される１つ以上の候補問合せが識別される。候補問合せの識別は、各問合せの完全な厳密な評価に参加せずに行うことができ、これにより、識別をかなり迅速に行うことができる。例えば、候補問合せは、先ず、各問合せ項を近似し、次いで、その近似された問合せ項に対してデータセットを評価することにより、識別できる。その近似された全ての問合せ項がデータセットにより満足されるところの各問合せが、候補問合せとして識別される。候補問合せが識別されると、第２段階において、その候補問合せの各々が評価され、候補問合せがデータセットにより満足されるかどうか決定される。この段階において、各候補問合せは、その問合せの（非近似）問合せ項の要件に基づいて厳格に評価される。通常は、候補問合せの数は、全問合せ数よりも遙に少ないので、この第２段階も非常に迅速に実行することができる。全体的には、本発明の２段階解決策は、従来の他の解決策（各問合せに対するデータセットの完全な厳格な評価のような）よりも遥かに短い実行時間しか必要としない。本発明は、種々の形式のデータセットを評価するのに使用できる。例えば、本発明は、任意の数のテキスト文書の各々を評価するのに使用して、１つ以上のテキスト文書が、テキストの文書の内容に関する任意の数のユーザ特有の問合せのいずれかを満足するかどうか決定することができる。別の例として、本発明は、データベースの任意の数のフィールドの各々を評価するのに使用して、１つ以上のフィールドがそれらフィールドの内容に関する任意の数のユーザ特有の問合せのいずれかを満足するかどうか決定することもできる。図面の簡単な説明図１は、データセットが１つ以上の問合せを満足するかどうか決定するためにデータセットの内容を評価するための本発明によるシステムを示すブロック図である。図２は、本発明による実行プランを示す概略図である。図３Ａ及び３Ｂは、データセットが１つ以上の問合せを満足するかどうか決定するためにデータセットの内容を評価するための本発明による方法を示すフローチャートである。図４Ａないし４Ｅは、図２の実行プランの概略図であって、図３Ａ及び３Ｂの方法の動作の特徴を示す図であり、図４Ａは、実行プランの近似後の実行プランを示し、図４Ｂは、実行プランにおける証拠記述子のアクチベーションを示し、図４Ｃは、実行プランにおける問合せ項のアクチベーションを示し、図４Ｄは、問合せの全ての問合せ項のアクチベーションから生じる実行プランにおける問合せのアクチベーションを示し、そして図４Ｅは、データセットの評価が完了した後にアクチベートされる候補問合せを示す図である。好ましい実施形態の詳細な説明本発明は、データセットの内容を評価して、データセットが１つ以上の制約のセットを満足するかどうか決定できるようにする。（以下、１つ以上の制約のセットを「問合せ」と称し、そして各々の制約を「問合せ項」と称する。）本発明は、従来の評価方法の場合よりも著しく迅速にこのような評価を行えるようにする。特定の効果の中で、本発明は、問合せの数が多く及び／又は問合せが複雑である（即ち、多数の問合せ項を含み及び／又は評価するのに複雑な問合せ項を含む）場合にデータセットを迅速に評価することができる。いかなる数のデータセットを評価することもでき、本発明の効果は、評価されるべきデータセットの数が増加するにつれて大きくなる。本発明は、従来の場合よりも非常に迅速に評価を完了できるようにする新規な実行プランを使用する。（以下に詳細に述べるように、「実行プラン」とは、各問合せが少なくとも１つの他の問合せに作動的に関連するような多数の問合せである。）実行プランは、多数の問合せを単一のオブジェクトとして表し、これにより、問合せに対するデータセットの評価に効率が与えられる。更に、実行プランは、計算リソースを多数の問合せにより共用できるようにし、従って、不要な冗長性が排除される。例えば、実行プランは、多数の問合せが、多数の問合せの各々の一部分として現れる単一の問合せ項を共用できるようにし、従って、２つ以上の問合せに現れる問合せ項の冗長な評価を減少すると共に、問合せの実行プランを評価できる速度を高めることができる。又、実行プランの問合せは、既存の実行プランが破壊されないように、問合せを実行プランに容易に追加又は削除できる仕方で関連付けることができる。問合せ項の上記共用は、この点について特に有用である。問合せ間の関係の結果として、標準的なマルチ処理技術を使用する状態で、実行プランは、既存の実行プランに対するデータセットの評価を中断せずに変更することができる。又、冗長な問合せ項の減少は、実行プランの問合せを非常にコンパクトな仕方で表すことができるようにする。更に、実行プランは、計算リソース（例えば、メモリ管理、テーブル及びインデックスの使用）を多数の問合せによって共用できるようにし、従って、不要な冗長性が排除される。実行プランの問合せの各問合せ項は、１つ以上の証拠記述子を含む。（実行プランは、以下に詳細に述べる結合演算子を含むことができ、そして一般的にそれを含む。）各証拠記述子は、データセットの内容の一部分を表す証拠の断片を記述する。実行プランの証拠の断片は、１つ以上の証拠記述子と比較され、証拠の断片により満足される各証拠記述子を識別できるようにする。満足された証拠識別子を含む各問合せ項は、その問合せ項が満足されるかどうかを決定するために評価される。満足された問合せ項を含む他の問合せ項も評価される。全ての問合せ項が満足された各問合せは、データセットにより満足された問合せとして識別される。問合せの評価は、多数の方法で更に最適化することができる。例えば、各証拠記述子の形式及び証拠の各断片を識別することができ、そして１つの証拠記述子の形式と同じ形式のデータセットからの証拠の断片のみが評価される。更に、評価される証拠の各断片は、証拠の断片と同じ形式の証拠記述子のみと比較することができる。更に、証拠の断片と証拠記述子との比較は、証拠の形式及び証拠記述子に基づいて最適化することができる。本発明は、２段階プロセスを使用して、データセットのより迅速な評価を達成することができる。第１に、データセットにより満足される１つ以上の候補問合せが識別される。候補問合せは、実行プランの問合せ項を近似しそしてその近似された問合せ項に対してデータセットを評価することによって識別され、全ての近似された問合せ項が満足されるところの各問合せが候補問合せとなる。以下の説明から容易に明らかとなるように、これは、各問合せ項の完全な厳格な評価に係わることなく、候補問合せの識別を達成できるようにし、これにより、候補問合せの識別を非常に迅速に行うことができる。第２に、候補問合せが識別されると、データセットが候補問合せの各々に対して評価されて、候補問合せのいずれかがデータセットにより満足されるかどうか決定される。この段階において、問合せ項の候補問合せの全てが、その候補問合せの非近似問合せ項によって指示されるように、完全に且つ厳格に評価される。本発明の多数の用途に対し、候補問合せの数は全問合せ数よりも相当に少ないので、この第２段階も、非常に迅速に実行することができる。実際には、本発明を使用できる多数の用途に対し（特に、問合せ数が多く及び／又は問合せが複雑である用途に対し）、本発明の２段階解決策は、従来の他の解決策（例えば、各問合せに対してデータセットを完全に厳格に評価する）よりも遙かに短い実行時間しか必要としない。図１は、データセットの内容を評価して、データセットが１つ以上の問合せを満足するかどうかを決定するための本発明によるシステム１００を示すブロック図である。システム１００は、証拠形成装置１０１と、結果マネージャー１０２と、問合せプロセッサ１０３と、プロファイルマネージャー１０４と、プロファイル記憶装置１０５と、結果記憶装置１０６と、評価記憶装置１０７とを備えている。明らかなように、証拠形成装置１０１と、結果マネージャー１０２と、問合せプロセッサ１０３と、プロファイルマネージャー１０４の機能（以下に詳細に述べる）は、適当にプログラムされたデジタルコンピュータにおいて実施することができる。プロファイル記憶装置１０５と、結果記憶装置１０６と、評価記憶装置１０７の各々は、例えば、ランダムアクセスメモリ（ＲＡＭ）のような揮発性メモリ及びハードディスク記憶装置のような不揮発性メモリのいずれか又は両方で実施することができる。評価されるべきデータセットは、最初に、証拠形成装置１０１に入力される。データセットは、ニュースワイヤフィード又はデータベースのような何らかのソースから到来し得る。証拠形成装置１０１は、そのデータをパーズしそして処理して、問合せプロセッサ１０３により認識できる証拠の断片を形成する。データセットからの証拠の形成は、評価されるべきデータセットの性質に基づいて種々の仕方で実行することができる。使用する技術は、簡単なワード認識プログラム（例えば、文書中に空白スペースが連続的に発生する間にあるものを「ワード」として識別する）から、データセットの内容の非常に複雑な分析までの範囲に及ぶ。データセット（例えば、テキスト文書又はデータベース）から証拠を形成する特定の技術は、当業者に良く知られている。一般に、証拠の各断片は、ｉ）証拠の形式と、ii）証拠データと、iii）データセット内の証拠の位置とを含む。本発明は、いずれかの形式の証拠を含むデータセットと共に使用することができる。テキストデータセットを評価するときに本発明に使用することのできる証拠形式（以下に詳細に述べる）の例示的リストは次の通りである。ＮｅｗＤａｔａＳｅｔ、Ｗｏｒｄ、ＷｏｒｄＩｎｆｏ、Ｎｕｍ４ｂｅｒ、Ｄａｔｅ、Ｎａｍｅ、Ｐａｒａｇｒａｐｈ、Ｓｅｎｔｅｎｃｅ、Ｐｕｎｃｔ、ＮｅｗＬｉｎｅ、Ｗｈｉｔｅ、Ｍａｒｋｕｐ、Ｆｉｅｌｄ、ＺｏｎｅＢｅｇｉｎ、ＺｏｎｅＥｎｄ、Ａｔｔｒｉｂｕｔｅ、及びＨｉｇｈｌｉｇｈｔ。他の形式のデータセットについては、証拠は、データセットのその形式の特徴である他の形式のものでもよい。例えば、評価されているデータセットが電子メールメッセージである場合には、証拠形式は、メッセージの送信者、又はメッセージが送られた日付を含む。或いは、評価されているデータセットがデータベースである場合には、証拠形式は、１組の数値の合計又は平均を含むことができる。証拠データは、証拠の形成の一部分として抽出されるデータセットからの実際のデータを表す。証拠データは、例えば、文書からのワード、電子メールメッセージが送られた日付、文書からのセンテンス、データベースにおけるフィールドの値、又は文書からのワードのスピーチの部分の識別を含む。データセット内の証拠の位置は、例えば、データセット内の基準位置に対する証拠の位置のような適当な仕方で特定することができる。例えば、テキスト文書において、証拠の位置は、証拠の前に文書中に生じるワードの数を識別することにより特定できる。証拠の位置は、接近結合演算子（以下に述べる）を含む問合せ項のようなある形式の問合せ項を評価するのに重要である。上記の多数の例示的証拠形式が識別されている。ＮｅｗＤａｔａＳｅｔ証拠形式は、データセット（例えば、文書）の開始を識別する。Ｗｏｒｄ証拠形式は、テキストワードを識別する。ＷｏｒｄＩｎｆｏの証拠形式は、ベース形態（ステム）や、スピーチの部分及び使用のようなワード（１つ又は複数）の特定の特徴を識別する。Ｎｕｍｂｅｒの証拠形式は、数字がいかに表現されるかに係わりなく数字を識別する（例えば、「千」、「１０³」、「１０００」；これらは全て１０００として識別される）。Ｄａｔｅの証拠形式は、日付がいかに表現されるかに係わりなく日付を識別する（例えば、「１９９５年、１月１日」、「本日」及び「昨晩」；これらは全て、年、月、日及び時刻を特定する数値表示で識別される）。Ｎａｍｅの証拠形式は、個人名、会社名又は製品名を特定するワード又はフレーズを識別する。Ｐａｒａｇｒａｐｈの証拠形式は、パラグラフの終りを識別する。Ｓｅｎｔｅｎｃｅの証拠形式は、センテンスの終りを識別する。Ｐｕｎｃｔの証拠形式は、句読点を識別する。ＮｅｗＬｉｎｅの証拠形式は、テキスト文書における新たな行の始めを識別する（例えば、キャリッジリターン又はラインフィード）。Ｗｈｉｔｅの証拠形式は、テキスト文書中の空白スペースを識別する。Ｍａｒｋｕｐの証拠形式は、インラインフォーマットマークアップ（例えば、ボールド又はイタリック）を識別する。Ｆｉｅｌｄの証拠形式は、文書の名前付き属性（例えば、出版社又は文書或いはｅ−メールメッセージの送信者）を識別する。ＺｏｎｅＢｅｇｉｎ及びＺｏｎｅＥｎｄの証拠形式は、文書内の名前付きのサブ領域（ゾーン）（例えば、脚注）の始めと終りを各々識別する。Ａｔｔｒｉｂｕｔｅの証拠形式は、ゾーンの属性（例えば、脚注が文書内の第１、第２、等の脚注であるか）を識別する。Ｈｉｇｈｌｉｇｈｔの証拠形式は、データセットの重要な区分を識別する。図１に戻ると、１つ以上のユーザが情報をプロファイルマネージャー１０４に入力する。プロファイルマネージャーは、この情報を、後で使用するために、例えば、ユーザによる問合せの検索及び編集のために、プロファイル記憶装置１０５に記憶させることができる。又、プロファイルマネージャー１０４は、この情報を問合せプロセッサ１０３にも送信し、該プロセッサは、次いで、この情報を用いて適当な問合せを構成する。本発明によれば、問合せプロセッサ１０３は、各問合せが別の問合せに作動的に関連された多数の問合せを表す統合された実行プランへと問合せを合体することができる。重要なことに、実行プランの形成により、計算リソースを多数の問合せで共用することができ、従って、不必要な冗長性が排除される。例えば、実行プランは、単一のオブジェクトとしてメモリに記憶することができる。換言すれば、各問合せは、メモリにおける１つ以上の他の問合せの位置が分かるようにしてメモリに記憶され（例えば、別の問合せが記憶される他のメモリ位置を指すポインタを用いて）、従って、実行プランのいかなる部分も容易にアクセスできるし、又は実行プランの幾つか又は全部をメモリにおいてある位置から別の位置へ容易に移動することができる。更に、以下の説明から容易に明らかなように、問合せを単一の実行プランへと結合すると、データセットからの証拠を問合せの一部分である証拠記述子に一致させるのに使用されるテーブル及びインデックスを統合することができ、従って、冗長なテーブル及びインデックスが減少され又は排除される。更に、以下に述べるように、２つ以上の問合せの部分として現れる問合せ項を共用することができ、これにより、実行プランの冗長な問合せ項が減少又は排除される。多数の問合せを実行プランへと結合することは、本発明の使用が意図される多数の用途について特に有用である。というのは、使用される問合せは、ほとんど又は全く変化なく長時間にわたって使用できるからであり、従って、実行プランによるリソースの共用に関連した上記利点が強調される。本発明のこの特徴（問合せを実行プランへと合成する）は、１つ以上のデータセットを多数の問合せに対して評価する従来の方法との明確な対比を表す。従来の解決策は、データセットを単一オブジェクト又はデータベースへと合成するものであった。問合せは、互いに独立して存在する。各問合せは、他の問合せの評価とは独立してデータベースに対して評価される。従って、問合せの記憶又は評価に対してリソースの共用はない。上記のように、この解決策は、不所望に長い時間を必要とする。これに対して、本発明による実行プランにより可能にされるリソースの共用は、多数の問合せに対するデータセットの迅速な評価を容易にする。問合せプロセッサ１０３による実行プランに対するデータセットの評価中に、実行プランの幾つか又は全部が、問合せプロセッサ１０３により使用するために評価記憶装置１０７に記憶される。多くの場合に、全実行プランがかなり大きいので、通常は、全実行プランが、ハードディスクのような大記憶容量のメモリに記憶される。（実行プランによりイネーブルされるユニフィールドメモリマネージメントは、実行プランの幾つか又は全部をハードディスクからバックアップしそしてハードディスクへ復帰するのに有用である。）問合せプロセッサ１０３が特定の時間に証拠を評価するところの実行プランの部分は、ハードディスクからＲＡＭのような迅速にアクセスできるメモリへと転送することができ、従って、実行プランのこれら部分を更に迅速にアクセスすることができる。本発明の実行プランによりイネーブルされるユニフィールドメモリマネージメントは、ハードディスクとＲＡＭとの間にこの対話をイネーブルするのに特に有用である。特定の実施形態では、本発明による実行プランは、ルート、ノード及びリーフのネットワークとして表される。実行プランの各ルートは特定の問合せを表す。各問合せは１つ以上の問合せ項を含む。各問合せ項は、１つ以上の表現を含み、即ち問合せ項が２つ以上の表現を含む場合には、それらの表現が１つ以上の合成演算子によって関係付けされる。実行プランの各ノードは、合成演算子を表す。各表現は、問合せ項であるか又は証拠記述子である。各リーフは、証拠記述子の１つを表す。各証拠記述子は、証拠演算子及び証拠パターンを使用して、証拠の断片又は証拠の断片（１つ又は複数）の特性を記述する。本発明のこの実施形態による問合せのネットワークの特定の例を図２について以下に述べる。本発明による実行プランは、問合せのネットワーク以外のものとして表すことができる。実行プランは、例えば、実行プランの問合せの問合せ項及び証拠記述子に対応するカスタマイズされた命令の最適なシーケンスのように種々の方法で表すことができる。命令は、ハードウェアのカスタマイズされたソフトウェアにより迅速に処理できるように確立される。例えば、ＭＡＸ演算子を用いて、３つの証拠記述子Ｘ、Ｙ及びＺの最大値を決定する問合せは、次のような一連の組立命令、即ちＰＵＳＨＸ、ＰＵＳＨＹ、ＰＵＳＨＺ、ＭＡＸ３で表すことができる。図１に戻ると、ユーザにより特定された問合せは、問合せプロセッサ１０３へ与えられる。ユーザにより与えられる各新たな問合せは、問合せプロセッサ１０３により問合せ項へとパーズされる。各問い合わせ項は、更に、問合せプロセッサ１０３により合成演算子及び１つ以上の証拠記述子へとパーズされる。問合せプロセッサ１０３によるユーザ特有の問合せのパージングは、当業者に良く知られた技術を用いて行うことができる。問合せプロセッサ１０３により形成される証拠記述子は、評価されるべきデータセットの証拠（証拠形成装置１０１により形成される）に適合しなければならないことに注意するのが重要である。問合せの合成演算子及び証拠記述子は、問合せの内容が正確に表されるように問合せプロセッサ１０３により互いに関連付けされる。一般的に、単一の問合せは、１つ以上の問合せ項及び証拠記述子の小さな実行プランとして表すことができる。問合せが実行プランに追加される前に、問合せの問合せ項及び証拠記述子の各々は、実行プランの既存の問合せ項及び証拠記述子と比較される。これは、以下に述べるマッチング方法及び問合せ評価方法を用いて達成することができる。新たな問合せの問合せ項又は証拠記述子が実行プランの既存の問合せ項又は証拠記述子と同じである場合には、この問合せ項又は証拠記述子は、実行プランにおいて再現される必要はない。問合せの新たな問合せ項及び証拠記述子のみが実行プランに追加される。新たな問合せ項及び／又は証拠記述子は、新たな問合せの冗長な問合せ項及び証拠記述子に対してそれらが有していたものと同じ関係を実行プランの既存の問合せ項及び証拠記述子に対して有するように実行プランに追加される。従って、新たな問合せは、既存の問合せを妨げることなく実行プランに追加することができ（標準的なマルチ処理技術を使用して）、従って、いかなるときでも、データセットは、古い又は更新された実行プランのいずれかと比較され、これにより、実行プランが変更される間に実行プランに対するデータセットの評価を継続することができる。同様に、問合せが実行プランから削除されるときには、その問合せの問合せ項及び証拠記述子の各々が、実行プランの他の問合せの問合せ項及び証拠記述子と比較される。削除されるべき問合せの問合せ項又は証拠記述子が実行プランの別の問合せの問合せ項又は証拠記述子と同じである場合には、この問合せ項又は証拠記述子を実行プランから削除することができない。削除されるべき問合せの独特の問合せ項及び証拠記述子のみを実行プランから削除することができる。従って、問合せは、実行プランの他の問合せを妨げることなく実行プランから削除することができる（この場合も、標準的なマルチ処理技術を使用して）。実行プランの構造の一部分として、問合せプロセッサ１０３は、特定の問合せ項又は証拠記述子が２つ以上の問合せにおいて現れるときに実行プランから冗長な問合せ項及び証拠記述子を排除することができる。このような冗長な問合せ項及び証拠記述子は、上記のように識別できる。本発明によれば、各問合せ項及び証拠記述子は、多数の問合せの一部分でよい。更に、特定の問合せ項又は証拠記述子が実行プランに１回現れることしか必要とされない。本発明のこの特徴は、多数の複雑な問合せをコンパクトに且つ効率的に表せるようにする。というのは、問合せ項及び証拠記述子は、問合せ間に共用できるからである。本発明の実行プランは、既知のリンクリスト技術を用いる固定サイズデータ構造体を使用して好都合に表すことができる。特定の実施形態においては、実行プランの問合せ、合成演算子及び証拠記述子の各々は、２つの固定サイズフィールドを含む固定サイズデータ構造体により表すことができる。一方のフィールドは「親リンク」の認識を特定し、そして他方のフィールドは「子リンク」の認識を特定する。各認識は、例えば、識別されるリンクのメモリアドレスとして特定することができる。問合せ、合成演算子及び証拠演算子の各々は、「リンク」と称するデータ構造体を用いて他の問合せ、合成演算子及び証拠記述子に関連付けされる。リンクの各々は、４つの固定サイズフィールドを含む固定サイズデータ構造体である。第１フィールドは「親」ノードの認識を特定し、第２フィールドは「次の親リンク」の認識を特定し、第３フィールドは「次の子リンク」の認識を特定し、そして第４フィールドは「子ノード」の認識を特定する。各認識は、例えば、識別されたリンク又はノードのメモリアドレスとして特定することができる。固定サイズデータ構造体を使用して実行プランを形成することは、本発明による実行プランの上記効果の達成を容易にする。固定サイズデータ構造体を使用することは、実行プランの一部分を充分に定められた仕方で論理的にアドレスできるようにし、従って、他の既存の不変の問合せ項のデータ構造体に対してメモリを再割り当てする必要なく、新たな問合せ項を表すデータ構造体を追加又は削除することができる。対照的に、問合せ項が可変長さのデータ構造体で表される場合には、例えば、問合せ項を削除すると、１つ以上の不変の問合せ項のデータ構造体に対してメモリが再割り当てされ、従って、実行プランに対して設定されたデータの進行中評価が破壊される。更に、本発明によるデータ構造体は、単に、メモリ内の他の位置に対するポインタであるから、冗長な問合せ項を追加せずに新たな問合せを追加することが容易に達成できる。新たな問合せの新たな問合せ項は、適当な既存の問合せ項のメモリ位置を単に指すように構成される。逆に、このようなポインタを使用すると、実行プランにおける単一の問合せ項を多数の問合せの一部分とすることができる。更に、このように実行プランを構成することにより、実行プランの関連部分をメモリの隣接区分においてアドレスすることができる。その結果、実行プランが、ハードディスクからＲＡＭへ実行プランの一部分をスワップするに必要な充分な大きさである場合に、実行プランの関連部分（互いに時間的に接近してアクセスされ勝ちな）を、メモリの１つの隣接領域として容易にスワップすることができる。図２は、例えば、１つ以上のテキスト文書の評価に使用される本発明による実行プラン２００を示す概略図である。この実行プラン２００は、４つの問合せの１つを各々表す４つのルート（根）２０１、２０２、２０３及び２０４を含む。又、実行プラン２００は、１つ以上の問合せの一部分である合成演算子を各々表す５つのノード２１１、２１２、２１３、２１４及び２１５も含む。又、実行プラン２００は、証拠記述子を各々表す６つのリーフ（葉）２２１、２２２、２２３、２２４、２２５及び２２６も含む。一般に、本発明による実行プランは、多数のルート、多数のノード及び多数のリーフの組合せを含むことができる。図２に示した実行プラン２００は、比較的単純である。多数の用途に対して、本発明による実行プランは、数千の問合せ（例えば、１０，０００）を含むことができ、従って、実行プランは、数千のノード（例えば、１００，０００）及び数千のリーフ（例えば、１，０００，０００）をもつことになる。更に、実行プラン２００は、図２では二次元で表すことができるが、各ノードが多数の他のノード及びリーフに接続でき、そして各リーフが多数のノードに接続できるような非常に複雑な実行プランは、表示のために多数の次元を必要とする。実行プラン２００は、４つの形式の証拠演算子（＝、ＳＴＥＭ、ＷＯＲＤ及びＷＩＬＤＣＡＲＤ）と、５つの形式の合成演算子（ＡＮＤ、ＮＥＡＲ、ＡＣＣＲＵＥ、ＯＲ及びＩＮ）とを含む。更に一般的には、本発明による実行プランは、非常に多数の証拠及び合成演算子のいずれを含むこともできる。本発明に使用できる例示のための１組の演算子を以下に説明する。これらの演算子の更に詳細な説明は、カリフォルニア州マウンテンビューのベリティ社により製造される市販のＴｏｐｉｃ（登録商標）ツール製品に付随するユーザーズマニュアルになされている。このユーザーズマニュアルの当該部分（特に第１２章）を参考としてここに取り上げる。示されたように、本発明による問合せを構成するのに使用できる演算子は、次の２つの広い分類に入る。即ち、１）証拠を記述するのに使用できる証拠演算子及び２）問合せ項を合成するのに使用できる合成演算子。証拠演算子は、例えばフィールドをベースとする演算子、ワードをベースとする演算子、拡張演算子、及び日付をベースとする演算子を含むことができる。合成演算子は、例えば、接近演算子及び数学的演算子を含むことができる。フィールドをベースとする証拠演算子は、フィールド内に現れ得る特定の証拠を定義するために証拠パターンを変更する。ここでは、「フィールド」は、発行の著者、題名又は日付のようなデータセットの属性である。フィールドをベースとする証拠演算子は、例えば、次の演算子、即ち＜、＞、＝、≧、≦、ＳＴＡＲＴ、ＥＮＤＳ、ＳＵＢＳＴＲＩＮＧ、ＷＩＬＤＣＡＲＤ（フィールドベース）及びＣＯＮＴＡＩＮＳを含むことができる。＜、＞、＝、≧及び≦の各演算子は、数字又はアルファニューメリックのストリングとして表される証拠パターンとの比較（特定の演算子により指示される）に基づいて証拠を定義する。ＳＴＡＲＴ及びＥＮＤ演算子は、特定のフィールドが、各々、アルファニューメリックストリングとして表される証拠パターンで開始又は終了することを特定する。ＳＵＢＳＴＲＩＮＧ演算子は、特定のフィールドが、アルファニューメリックストリングとして表される証拠パターンをフィールド内のどこかに含むことを特定する。ＷＩＬＤＣＡＲＤ（フィールドベースの）演算子は、特定のフィールドが、フィールド内のどこかに、ある制約を受けて、アルファニューメリックストリングとして表される証拠パターンを含むことを特定する。ＣＯＮＴＡＩＮＳ演算子は、ＳＵＢＳＴＲＩＮＧ及びＷＩＬＤＣＡＲＤ演算子の混合であり、特定のフィールドが、句読点に関連せずに、アルファニューメリックストリングとして表される証拠パターンを含むことを特定する。ワードをベースとする証拠演算子は、データセットと共にどこかに現れ得る特定の証拠を定義するために証拠パターンを変更する。ワードをベースとする証拠演算子は、例えば、次の演算子、即ちＷＯＲＤ、ＳＴＥＭ、ＳＯＵＮＤＥＸ、ＷＩＬＤＣＡＲＤ及びＴＹＰＯを含むことができる。ＷＯＲＤ演算子は、アルファニューメリックストリングとして表される証拠パターンに厳密に一致する証拠を特定する。ＳＴＥＭ演算子は、アルファニューメリックストリングとして表される証拠パターンと同じ言語学的形態を有する証拠を特定する。ＳＯＵＮＤＥＸ演算子は、アルファニューメリックストリングとして表される証拠パターンと発音的に同様の証拠を特定する（このような決定をなすための多数の標準的な方法のいずれかを用いて）。ＷＩＬＤＣＡＲＤ演算子は、証拠内のどこかに、ある制約を受けて、アルファニューメリックストリングとして表される証拠パターンを含む証拠を特定する。ＴＹＰＯ演算子は、アルファニューメリックストリングとして表される証拠パターンとスペリングが同様の証拠を特定する（２つのワード間の文字の相違をカウントする方法を用いて）。拡張の証拠演算子は、オープンエンド式に特定の証拠を定義するように証拠パターンを変更する。拡張の証拠演算子は、例えば、次の演算子、即ちＴＨＥＳＡＵＲＳ及びＳＵＧＧＥＳＴを含むことができる。ＴＨＥＳＡＵＲＳ演算子は、テキストワードとして表される証拠パターンの全ての辞書導出同義語を含む証拠を特定する。ＳＵＧＧＥＳＴ演算子は、テキストワードとして表される証拠パターンの全ての統計学的関連ワードを含む証拠を特定する（例えば、ワード「levera ged」は、証拠パターンが「buyout」であるときにＳＵＧＧＥＳＴ演算子を満足する。日付をベースとする証拠演算子は、その証拠が一部分であるところのデータセットが形成された時間に基づき特定の証拠を定義するために証拠パターンを変更する。日付をベースとする証拠演算子は、例えば、次の演算子、即ちＲＥＣＥＮＴ及びＲＡＮＧＥを含むことができる。ＲＥＣＥＮＴ演算子は、現在時間から特定の時間周期内に形成された証拠を定義する。ＲＡＮＧＥ演算子は、特定の時間範囲内に形成された証拠を定義する。接近合成演算子は、データセット内における問合せ項の互いの位置を評価させる。接近合成演算子は、例えば、次の演算子、即ちＮＥＡＲ、ＷＩＴＨＩＮ、ＰＡＲＡＧＲＡＰＨ、ＳＥＮＴＥＮＣＥ、ＡＤＪＡＣＥＮＴ、ＰＨＲＡＳＥ、ＩＮ及びＩＮ／ＷＨＥＮを含むことができる。ＮＥＡＲ演算子は、データセット内の２つの問合せ項の接近度を評価し、そしてその接近度を表す得点を報告する。ＷＩＴＨＩＮ演算子は、２つの問合せ項が互いに特定の接近度内にあるかどうかを評価する。ＰＡＲＡＧＲＡＰＨ演算子は、２つの問合せ項が定義されたパラグラフ内にあるかどうか評価する。ＳＥＮＴＥＮＣＥ演算子は、２つの問合せ項が定義されたセンテンス内にあるかどうか評価する。ＡＤＪＡＣＥＮＴ演算子は、２つの問合せ項がデータセット内で互いに隣接するかどうか評価する。ＰＨＲＡＳＥ演算子は、２つの問合せ項がデータセット内で互いに指定の順序で隣接するかどうか評価する。ＩＮ演算子は、２つの問合せ項がデータセット内の定義されたゾーン内にあるかどうか評価する。ＩＮ／ＷＨＥＮ演算子は、データセット内の定義されたゾーンがある特定の属性を有するときに２つの問合せ項がそのゾーン内にあるかどうか評価する。数学的合成演算子は、問合せ項の合成を評価する。数学的合成演算子は、例えば、次の演算子、即ちＡＮＤ、ＯＲ、ＡＣＣＲＵＥ、ＡＶＥＲＡＧＥ、ＳＵＭ、ＰＲＯＤＵＣＴ、ＮＯＴ及びＣＯＭＰＬＥＭＥＮＴを含むことができる。ＡＮＤ演算子は、問合せ項の「最悪」の値を確かめるために、１組の問合せ項を評価する。ＯＲ演算子は、問合せ項の「最良」の値を確かめるために、１組の問合せ項を評価する。ＡＣＣＲＵＥ演算子は、特定の値を有する問合せ項の数をカウントする。ＡＶＥＲＡＧＥ演算子は、１組の問合せ項の平均値を計算する。ＳＵＭ演算子は、１組の問合せ項の和を計算する。ＰＲＯＤＵＣＴ演算子は、１組の問合せ項の積を計算する。ＮＯＴ演算子は、証拠記述子がデータセット内に現れないかどうか確かめる。ＣＯＭＰＬＥＭＥＮＴ演算子は、証拠記述子の逆数がデータセット内に完全に現れるかどうか確かめる。更に、問合せ項は、変更子を含むこともできる。これら変更子は、その名前が示す通り、上記演算子の１つ以上を変更するのに使用できる。本発明に使用できる変更子は、例えば、ＭＡＮＹ、ＣＡＳＥ及びＯＲＤＥＲを含む。ＭＡＮＹ変更子は、証拠記述子又は問合せ項を満足するのに必要とされるように、変更される演算子に適するように、証拠記述子又は問合せ項の値の発生の増加レベルを特定する。ＭＡＮＹ変更子は、ワードベースの証拠演算子及び接近合成演算子を変更するのに使用できる。ＣＡＳＥ変更子は、証拠のケース（大文字又は小文字）が証拠記述子のものと一致しなければならないことを特定する。このＣＡＳＥ変更子は、フィールドベースの証拠演算子及びワードベースの証拠演算子を変更するのに使用できる。ＯＲＤＥＲ変更子は、問合せ項がデータセット内で特定の順序になければならないことを特定する。ＯＲＤＥＲ変更子は、接近合成演算子を変更するのに使用できる。本発明による実行プランと共に使用できる証拠記述子の形式は、一般に、評価されるべきデータセットから形成できる証拠の形式に対応する。図２の実行プラン２００は、Ｗｏｒｄ、Ｆｉｅｌｄ及びＺｏｎｅ証拠記述子を含む。より一般的には、本発明による実行プランは、多数の形式の証拠記述子のいずれを含むこともできる。使用できる証拠記述子の幾つかの例を、証拠形成装置１０１（図１）で形成できる証拠の形式に関して上記で説明した。図２に戻ると、ルート２０１は問合せ１を表す。問合せ１は、Joe Smithにより著作されそしてステム「bank」（"banking","banker"及び"banks"のような）を有するワードを含むテキスト文書（即ち、データセット）により満足される。リーフ２２１は、文書がJoe Smithにより著作されることを必要とする証拠記述子を表す。リーフ２２１の証拠記述子は、フィールド証拠演算子「＝」及び証拠パターン「Joe Smith」を使用し、テキスト文書のフィールド「Author」に現れねばならない特定形式の証拠を定義する。リーフ２２は、基本形態が「bank」であるワードを文書が含むことを必要とする証拠記述子を表す。リーフ２２の証拠記述子は、ワード証拠演算子ＳＴＥＭ及び証拠パターン「bank」を使用し、テキスト文書のどこかに現れねばならない特定形式の証拠を定義する。ノード２１１は、リーフ２２１及び２２２の証拠記述子を数学的合成演算子ＡＮＤに接続し、完全な問合せ１を形成する。ルート２０２は、問合せ２を表す。問合せ２は、問合せ１を満足するテキスト文書であって、テキスト文書のワード「stock」の発生頻度に問合せ１を関連させる至近度制約を満足するテキスト文書によって満足される。リーフ２２３は、ワード「stock」が文書に発生することを必要とする証拠記述子を表す。リーフ２２３の証拠記述子は、ワード証拠演算子ＷＯＲＤ、証拠パターン「stock」、及び変更子ＭＡＮＹを使用して、文書におけるワード「stock」の特定の所定の発生頻度により満足される特定形式の証拠を定義する。ノード２１２は、ノード２１１（ひいては、問合せ１）を接近度合成演算子ＮＥＡＲと共にリーフ２２３の証拠記述子に接続して、完全な問合せ２を形成する。ルート２０３は、問合せ３を表す。問合せ３は、テキスト文書中に「tech」で始まるワード、ワード「hitech」又はワード「stock」の充分な発生を含むテキスト文書により満足される。リーフ２２４は、「tech」で始まるワードが文書中に生じることを必要とする証拠記述子を表す。リーフ２２４の証拠記述子は、ワード証拠演算子ＷＩＬＤＣＡＲＤ及び証拠パターン「tech」を使用して、テキスト文書中のどこかに現れねばならない特定形式の証拠を定義する。リーフ２２５は、文書中にワード「hitech」が生じることを必要とする証拠記述子を表す。リーフ２２５の証拠記述子は、ワード証拠演算子ＷＯＲＤ及び証拠パターン「hite ch」を使用して、テキスト文書中のどこかに現れねばならない特定形式の証拠を定義する。ノード２１４は、リーフ２２４及び２２５の証拠記述子を数学的合成演算子ＯＲに接続して、「tech」で始まるワード又はワード「hitech」の発生により満足される問合せ項を形成する。ノード２１３は、ノード２１４（ひいてはそれに対応する問合せ項）を数学的合成演算子ＡＣＣＲＵＥと共にリーフ２２３の証拠記述子に接続して、完全な問合せ３を形成する。ルート２０４は問合せ４を表す。問合せ４は、文書の脚注においてノード２１４により定義された問合せ項により求められる証拠を含むテキスト文書により満足される。リーフ２２６は、テキスト文書が脚注ゾーンを含むことを必要とする証拠記述子を表す。リーフ２２６の証拠記述子は、フィールド証拠演算子「＝」及び証拠パターン「footnote」を使用して、テキスト文書に現れねばならない特定形式のゾーンを定義する。ノード２１５は、ノード２１４（ひいては、そのノードにより定義された問合せ項）を接近度合成演算子ＩＮと共にリーフ２２６の証拠演算子に接続し、完全な問合せ４を形成する。図１に戻ると、証拠は、問合せプロセッサ１０３に入力される。問合せプロセッサ１０３は、問合せプロセッサ１０３により形成された実行プランの問合せに対して証拠の各断片を評価する。データセットからの証拠の断片は、証拠記述子と比較される。証拠の断片が証拠記述子に一致するときは、その対応する証拠記述子に一致する証拠の断片の識別が記録される。特定の証拠記述子に一致する証拠を識別する情報は、問合せ項の将来の評価に必要となる。証拠記述子が一致すると、その一致した証拠記述子を含む各問合せ項も評価される。満足された問合せ項が識別される。問合せ項が満足されたときには、満足された問合せ項を含む付加的な問合せ項も評価される。問合せの全ての問合せ項及び／又は証拠記述子が満足されると、その問合せは、データセットにより満足されるものと識別される。満足された問合せ項及び証拠記述子の評価、識別、そして問合せ項の更なる評価は、上記のように、データセットの全ての証拠が処理されるか、又は（本発明を使用する通常の場合にはあり得ないが）全ての問合せが満足として識別されるまで、続けられる。通常、データセットの全ての証拠が評価されるが、これは必ずしも必要ではない。というのは、多くの場合に、データセットが実行プランの問合せのいずれかを満足するかどうかを決定するのにデータセットの全部より少ない証拠の評価で充分だからである。上記のように、証拠の断片及び証拠記述子は、どちらも、形式に基づいて分類することができる。本発明の１つの実施形態では、実行プランの一部分である証拠記述子の形式に関する情報が証拠形成装置１０１に入力される。証拠形成装置１０１は、実行プランに現れる証拠記述子の形式に対応する形式の証拠のみをデータセットから形成することができる。データセットからの証拠の各断片は、実行プランの全ての証拠記述子と比較することができる。しかしながら、本発明の別の実施形態では、証拠の各断片が、同じ形式の証拠記述子のみと比較される。証拠の断片は、全ての証拠記述子ではなく、全ての証拠記述子のサブセットと比較するだけでよいので、この実施形態は、実行プランに対するデータセットの評価を更に迅速にする。更に、証拠及び証拠記述子の異なる分類に対して異なるマッチング技術を使用することができ、選択される技術は、その分類に使用するのに特に好都合なものである。例えば、ワイルドカード証拠と証拠記述子との間の一致を決定するのに有限の状態マシンを使用することができる。フィールド証拠と証拠記述子との間の一致を決定するのに２進サーチ方法を使用することができる。ワード証拠と証拠記述子との間の一致を決定するのにハッシュツリーを使用することができる。証拠及び証拠記述子の各分類ごとに最適なマッチング技術を使用すると、実行プランに対して本発明でデータセットを評価できる速度が更に高められる。上記のように、本発明による実行プランは、多数の異なる形式の証拠演算子、合成演算子及び変更子を含むことができる。これら演算子及び／又は変更子の幾つか（複雑な演算子）、例えば、ＮＥＡＲ演算子又はＭＡＮＹ変更子を含む問合せ項の評価は、かなり複雑でありそして時間浪費である。これは、演算子の評価プロセスが複雑であり、及び／又は演算子を含む問合せ項が満足されるかどうかを決定するのにデータセットの証拠の大部分の評価を演算子が必要とするからである。他の演算子（単純な演算子）を含む問合せ項の評価は、ＡＮＤ及びＯＲ演算子を使用する場合のように比較的単純である。以下に述べるように、本発明の実施形態による方法は、複雑な演算子と単純な演算子を評価できるところの容易さの相違を利用して、大きな１組の複雑な問合せに対するデータセットの２段階評価を、これまで可能である以上の大巾に迅速化できるようにする。図３Ａ及び３Ｂは、データセットの内容を評価して、データセットが１つ以上の問合せを満足するかどうか決定するための本発明による方法３００を示すフローチャートである。図４Ａないし４Ｅは、上記の実行プラン２００（図２）の概略図で、方法３００の作用の特徴を示す。図１のシステム１００において、方法３００は、問合せプロセッサ１０３により実行される。上記のように、本発明は実行プランに対してデータセットを２つの段階で評価する。データセットにより満足される候補問合せの識別は、方法３００において、ステップ３０１ないし３１１で実行される。候補問合せの各々に対してデータセットを評価して、データセットが候補問合せのいずれかを満足するかどうか決定することが、方法３００においてステップ３１２で行われる。一般的に述べると、本発明の評価方法の第１段階は、複雑な演算子を含む問合せ項を簡単化し、全ての問合せに対するデータセットの迅速なおおよその評価を行えるようにすることを含む。このおおよその評価は、問合せが近似された（即ち、問合せを満足するための制約が緩和された）ときでもデータセットにより満足できない全ての問合せを更なる考慮から排除することにより候補問合せ（即ちデータセットにより満足させることのできる問合せ）を識別する。近似された問合せ項に対してデータセットを評価することのできる高い速度は、たとえ実際に問合せ（即ち、非近似問合せ）が満足されなくても、ある近似された問合せがデータセットにより満足されると思われる強い見込みにより反作用される。しかしながら、候補問合せを更に評価する必要性に付随する悪影響が、速度の上昇による相殺以上のものとなる。その結果、本発明の２段階解決策は、問合せを処理する能力を従来の場合より更に迅速なものにする。本発明の特定の実施形態においては、近似ステップ３０１は、実行プランの全ての演算子をブール化することにより達成される。ここで、「ブール化」とは、実行プランの各演算子を、ブールのＡＮＤ又はブールのＯＲのいずれかのブール演算子へと再定義することを指す。例えば、問合せ項の表現の各々が同じパラグラフに現れる場合に満足される演算子ＰＡＲＡＧＲＡＰＨは、ブール化されたときに、ブールのＡＮＤ演算子と置き換えられ、各表現が同じデータセットに現れることしか必要としない。図４Ａは、実行プラン２００の合成演算子のブール近似の後の実行プラン２００を示す。テーブルＢは、本発明に使用できる幾つかの合成演算子のブール近似を示す。実行プランのブール化に使用されるブールのＡＮＤ及びＯＲは、ブール化の前の実行プランの一部分であるＡＮＤ及びＯＲ演算子よりも更に制限を受けることに注意されたい。ブールのＡＮＤ及びＯＲは、単に、ブールのＡＮＤ又はＯＲを含む問合せ項の一部分である証拠記述子又は問合せ項を満足することのできる証拠の発生（ブール演算子に対して適当な）によりトリガーされる。非近似の実行プランに使用されるＡＮＤ及びＯＲ演算子は、問合せ項の有無に対するテストほど単純でなく、問合せ項又は問合せ項の一部分である証拠記述子の数学的な評価を含む。ブール化は、各問合せ項の評価をブール表現の単純な分析とすることができ、これは、問合せ項に対応するノードのトリガー動作を生じる。ノードは、それがアクチベートされた（ノードに対応する問合せ項が満足された）とき、又はノードがデアクチベートされた（ノードに対応する問合せ項が満足状態から除外された）ときにトリガーされる。又、証拠演算子を近似することもできる。例えば、証拠パターンにスペリングが類似している証拠を特定するＴＹＰＯ演算子は、２つのワードの共通である文字の数又は割合を計算する演算子により近似することができる。或いは、数字の平方根（これは比較的複雑な計算である）を計算する演算子のような数学演算子を、平方根の計算を近似する一連の他の簡単な数学的演算で近似することもできる。或いは、比較的複雑な評価を必要とする事象（例えば、合併及び取得）をサーチする演算子を、簡単な評価しか必要としない簡単な演算子（例えば、同じ文書における２つの会社名の発生）で近似することもできる。問合せ項の演算子が近似されると、データセットの評価が始まる。ステップ３０２において、証拠の断片がデータセットから選択される。方法３００は、証拠の断片を実行プランの１つ以上の証拠記述子と比較させる。それ故、証拠の断片が選択された後に、証拠記述子がステップ３０３に示すように選択される。ステップ３０４において、証拠の断片が証拠記述子と比較される。証拠の断片が証拠記述子に一致しない場合には、次いで、ステップ３１０において、証拠の断片と比較されておらず、比較されるべきである別の証拠記述子が実行プランにあるかどうかの判断がなされる。もしそうであれば、証拠記述子が選択され（ステップ３０３）そして比較される（ステップ３０４）。さもなくば、ステップ３１１において、実行プランにおける１つ以上の証拠記述子と比較されるべき証拠の別の断片がデータセットにあるかどうかの判断がなされる。もしあれば、証拠の別の断片がデータセットから選択される（ステップ３０２）。もしなければ、ステップ３１２において、以下に詳細に述べるように、問合せの問合せ項のいずれかの演算子の近似を伴わずに、候補問合せとして識別された各問合せが評価される。ステップ３０４において、証拠の断片が証拠記述子に一致しない場合には、ステップ３０５において、対応する証拠記述子に一致した証拠の断片の識別が記録される。この情報は、各候補問合せのその後の評価に有用である。ステップ３０６において、一致した証拠記述子により表されるリーフが既にトリガーされたかどうか（即ち、現在評価されているデータセットの証拠の以前の断片により一致されたものとして識別される）の判断がなされる。もしそうであれば、方法３００は、証拠の現在断片とまだ比較されておらず、比較されるべきである別の証拠記述子が実行プランにあるかどうかの判断（ステップ３１０）を行うことにより続けられる。もしそうでなければ、ステップ３０７において、リーフがトリガーされる。図４Ｂは、例えば、評価されている文書におけるワード「technology」の発生により実行プラン２００においてリーフ２２４をアクチベートすることを示している。（アクチベーションは、図４Ｂないし４Ｅでは、リーフ又はノードを取り巻く斜線陰影付け領域で示されている。）ステップ３０８において、新たなリーフがトリガーされた後に、実行プランにおいてトリガーされたリーフ又はノードに接続される各非トリガーノードに関連した問合せ項が評価され、非トリガーノードのトリガー状態が決定される。この評価は、ノードのアクチベーション又はデアクチベーションを生じる（ノードがトリガーされた場合）か、又はそのいずれも生じない（ノードがトリガーされない場合）。ノードがトリガーされた場合には、実行プランにおいて新たにトリガーされたノードに接続される各非トリガーノードに関連した問合せ項が評価されて、非トリガーノードのトリガー状態が決定される。非トリガーノードの問合せ項を評価するプロセスは、トリガーされたノードに接続された各ノードに関連した問合せ項が評価されるまで続けられる。図４Ｃは、リーフ２２４のアクチベーションから生じる実行プラン２００のノード２１４のアクチベーションを示す。ノード２１４は、ノード２１４の演算子を使用して形成された問合せ項がブールのＯＲ演算子により近似されているので、直ちにアクチベートされる。ステップ３０９において、全ての関連ノード及びリーフがアクチベートされるところの各ルートがそれ自体アクチベートされ、そしてそれに対応する問合せが候補問合せとして識別される。図４Ｄは、実行プラン２００におけるルート２０３のアクチベーションを示し、これは、ルート２０３により表された問合せの全てのノード（ノード２１３及び２１４）のアクチベーションにより生じる。ルート２０３は、問合せの一部分である全てのノードがブールのＯＲ演算子により近似されるので、直ちにアクチベートされる。次いで、もし適当であれば、証拠の断片が他の証拠記述子と比較され（ステップ３１０）、そして証拠の残りの断片も証拠記述子と比較される（ステップ３１１）。証拠の各断片が新たな証拠記述子と比較されそして証拠の更なる断片がチェックされるときに、実行プランの付加的なリーフ及びノードがトリガーされ、このトリガー動作は実行プランにわたってカスケード状となる。本発明の重要な特徴は、リーフ又はノードがトリガーされると、そのリーフ又はノードを考えられるトリガー動作に対してもはや評価する必要がなく、従って、相当迅速に実行プランに対してデータセットを評価することができる。図４Ｅは、次の文書の近似評価が完了した後の実行プラン２００を示す。次の文書も脚注ゾーンを含むので、リーフ２２６がアクチベートされている。又、リーフ２２６及びノード２１４の両方がアクチベートされるので、ノード２１５もアクチベートされる。ノード２１５は、リーフ２２６がアクチベートされるまでアクチベートできないことに注意されたい。というのは、ノード２１５がブールのＡＮＤ演算子により近似されるからである。又、ノード２１５のアクチベーションは、ルート２０４のアクチベーションも生じる。データセットの証拠の全ての断片が実行プランの証拠記述子に対してチェックされた後に、通常は、候補問合せとして識別される問合せが１つ以上存在する。もちろん、候補問合せとして全く問合せが識別されないことも考えられ、この場合には、方法３００が終了し、データセットは、実行プランのいずれの問合せも満足しないものとして識別される。しかしながら、データセットにより満足される多数の近似問合せが存在することは良くある。図４Ｅにおいて、ルート２０３及び２０４により表される問合せは、候補問合せとして識別されている。ステップ３１２において、各候補問合せは、厳格に且つ完全に評価され、即ち問合せのいずれの問合せ項も近似せずに評価される。図４Ｅに示す実行プラン２００において、例えば、ルート２０４の候補問合せは、テキスト文書の脚注ゾーンにワード「technology」が現れた場合に満足される。多くの状態において、数千の問合せを有する実行プランは、候補問合せとして識別された問合せを何十という程度しかもたないことになる。上記のように、近似された問合せの評価は、一般に、近似されない問合せの評価よりも著しく迅速に達成できるので、候補問合せの識別及び評価は、問合せ項を近似せずに各問合せの評価を行える場合よりも著しく迅速に行うことができる。更に、上記の証拠記述子及び問合せ項の共用は、近似評価及び完全評価の両方を、そうでない場合に可能であるよりも迅速に行うことができるようにする。データセットの証拠が評価された後に、データセットが１つ以上の問合せを満足することを問合せプロセッサ１０３が決定した場合には、その問合せ又は問合せのセット及びデータセットを識別する情報が結果マネージャー１０２へ転送される。結果マネージャー１０２は、識別情報を表示することもできるし、或いは識別情報を使用して適当なデータセットを表示することもできる。表示は、ここでは、情報をユーザ（１人又は複数）へ搬送する適当な手段、例えば、ビデオディスプレイ装置の表示、ペーパの印刷、又はファクシミリ送信を包含する。それに加えて又はそれとは別に、結果マネージャー１０２は、識別情報及びデータセットを結果記憶装置１０６に記憶させることができる。記憶された識別情報は、適当な仕方で構成することができる。例えば、各問合せを満足するデータセットのリストを記憶することができる。（データセットが例えばテキスト文書である場合には、リストは、当該テキスト文書のファイル名を含むことができる。）それに加えて又はそれとは別に、各データセットを満足する問合せのリストを記憶することができる。本発明によれば、多数のデータセットを同時に評価することができる。これは各データセットの評価に使用するために実行プランの独特のバージョンを記憶するか、又はスレッディングのような従来のマルチ処理技術を用いて多数のデータストリーム間に実行プランを共用することにより行われる。本発明は、多数の様々な形式のデータセットの評価に広く適用されることが明らかであろう。例えば、本発明は、任意の数のテキスト文書の各々を評価して、１つ以上のテキスト文書がテキスト文書の内容に関して任意の数のユーザ特有の問合せのいずれかを満足するかどうか決定するのに使用できる。特定例として、本発明は、多数のユーザの各々に対し、ニュースワイヤサービスにより送信されるニュースストーリーをリアルタイムで監視するのに使用できる。このような監視の一部分として、本発明は、例えば、各ニュースストーリーを評価して、ニュースストーリーが合併や取得のような話題に関連した情報を含むかどうか決定するのに使用できる。更に、本発明は、例えば、ニュースストーリーに含まれた情報が、連邦準備会(Federal Reserve)による利率変更の通知の後の特定の何週間といった特定の当該期間に関係しているかどうか決定するのに使用できる。想像がつくように、これらの制約を記述する問合せの形式は、通常は、かなり複雑である。というのは、制約が満足されるかどうかを評価するのに使用できるニュースストーリーの情報の表現が様々な形態をとり得るからである。従って、この特定例は、問合せがしばしば複雑である状態での本発明の適用を示す。（このような問合せの数は、例えば、到来するニュースストーリーを監視しようとするユーザが多数いる場合には、かなり大きなものとなる。）上記のように、本発明は、非常に多数のデータセット（ここでは、テキスト文書）を従来の評価方法よりも著しく迅速に評価することができる。例えば、９０ＭＨｚインテル・ペンティウムプロセッサを含むコンピュータシステムを使用すると、本発明は、１秒当たり約２ないし３の通常のニュースワイヤストーリーを評価して、ニュースワイヤストーリーのどれ（もしあれば）が１００，０００以上の複雑な（即ち２０ないし４０の問合せ項を含む）問合せのいずれを満足するか決定することができる。別の例として、本発明は、データベースの任意の数のフィールドの各々を評価して、１つ以上のフィールドがフィールドの内容に関して任意の数のユーザ特有の問合せのいずれかを満足するかどうか決定するのに使用できる。例えば、本発明は、航空機座席予約データベースを監視するのに使用できる。このような監視の一部分として、本発明は、特定の期間中に特定の行先へのフライト（１つ又は複数）に関連したフィールドを監視し、既に完全に予約されたこのようなフライトを利用できるかどうか決定するのに使用できる。想像がつくことであるが、このような監視のための問合せは、通常は、簡単である。しかしながら、このような情報を監視している旅行代理店が多数あり、従って、問合せの数がかなり多くなる。従って、この特定例は、問合せは簡単であるが問合せ数が非常に多い状態における本発明の適用を示す。データベースを監視する本発明の更に別の使用例として、本発明は、組織のカスタマーサービス代表者になされたコールに関するデータを含むコール追跡データベースを監視するのに使用できる。各コールの内容、及びコールのグループに対する累積統計情報を表すデータベースから証拠を形成することができる。このような監視の一部分として、本発明は、「オープンコール」（即ち何らかの形態で処理されていないコール）の数に関連したフィールドを監視するために適当な問合せを特定し、各カスタマーサービス代表者が所定のスレッシュホールドをその数が越えるときを確認するのに使用できる。又、「クローズレート」（即ち、何らかの形態で処理されたコールの割合）を決定するためにデータベースのフィールドを監視するように適当な問合せを構成し、各カスタマーサービス代表者がスレッシュホールドよりもそのレートが下がったときを確認することもできる。又、特定の話題に関して受け取った苦情の累積数を監視して、その数が所定量を越えるときを確認するように適当な問合せを構成することもできる。又、コールがオープン状態に留まる時間の長さを監視するように適当な問合せを特定して、所定の時間長さより長くオープンしたコールを識別することができる。例えば、特定のワード処理プログラムに伴う重大な問題に関連したコールに対してオープン時間の長さを監視するこの最後の形式の問合せは、例えば、（ＰＲＯＤＵＣＴ＝”ＸＹＺｗｏｒｄｐｒｏｃｅｓｓｉｎｇｐｒｏｇｒａｍ”）ＡＮＤ（ＯＰＥＮ＞”１ｗｅｅｋ”）ＡＮＤ（ＡＣＣＲＵＥＭＡＮＹ”ｃｒａｓｈ”ＯＲ ”ｈａｌｔ”ＯＲ”ｆａｕｌｔ”ＯＲ”ｃｏｒｒｕｐｔ”）として表すことができる。又、本発明は、完全に数値情報のストリームより成るデータセットを監視するのにも使用できる。例えば、本発明は、株価、利率及び通貨交換レートのような常時更新される金融情報のデータストリームを監視するのに使用できる。データ流から抽出される証拠は、特定の時期の特定の株価、利率及び通貨交換レートである。例えば、裁定取引の機会を識別するためにこの情報に関する適当な問合せ（例えば、特定の証拠記述子の数学的組合せ）を構成することができる。更に、本発明は、フィルタとして使用することもできる。例えば、本発明は、データの流れ（例えば、インターネットやテレビジョンのようなソースからの音声、映像又はテキストデータ）を監視する内容ベースの「キッド・フィルタ」として使用することができ、従って、データが子供にアクセスされる前に不適切な資料を除去することができる。本発明の種々の実施形態について説明した。これらの説明は、単なる例示に過ぎず、何らこれに限定されるものではない。従って、請求の範囲から逸脱せずに本発明に種々の変更がなされ得ることが当業者に明らかであろう。

───────────────────────────────────────────────────── フロントページの続き (81)指定国ＥＰ(ＡＴ，ＢＥ，ＣＨ，ＤＥ，ＤＫ，ＥＳ，ＦＩ，ＦＲ，ＧＢ，ＧＲ，ＩＥ，ＩＴ，ＬＵ，ＭＣ，ＮＬ，ＰＴ，ＳＥ)，ＯＡ(ＢＦ，ＢＪ，ＣＦ，ＣＧ，ＣＩ，ＣＭ，ＧＡ，ＧＮ，ＭＬ，ＭＲ，ＮＥ，ＳＮ，ＴＤ，ＴＧ)，ＡＰ(ＫＥ，ＬＳ，ＭＷ，ＳＤ，ＳＺ，ＵＧ)，ＵＡ(ＡＭ，ＡＺ，ＢＹ，ＫＧ，ＫＺ，ＭＤ，ＲＵ，ＴＪ，ＴＭ)，ＡＬ，ＡＭ，ＡＴ，ＡＵ，ＡＺ，ＢＡ，ＢＢ，ＢＧ，ＢＲ，ＢＹ，ＣＡ，ＣＨ，ＣＮ，ＣＵ，ＣＺ，ＤＥ，ＤＫ，ＥＥ，ＥＳ，ＦＩ，ＧＢ，ＧＥ，ＨＵ，ＩＬ，ＩＳ，ＪＰ，ＫＥ，ＫＧ，ＫＰ，ＫＲ，ＫＺ，ＬＣ，ＬＫ，ＬＲ，ＬＳ，ＬＴ，ＬＵ，ＬＶ，ＭＤ，ＭＧ，ＭＫ，ＭＮ，ＭＷ，ＭＸ，ＮＯ，ＮＺ，ＰＬ，ＰＴ，ＲＯ，ＲＵ，ＳＤ，ＳＥ，ＳＧ，ＳＩ，ＳＫ，ＴＪ，ＴＭ，ＴＲ，ＴＴ，ＵＡ，ＵＧ，ＵＺ，ＶＮ【要約の続き】せのおおよその評価により満足される。第２に、候補問合せの各々が完全に評価されて、その候補問合せがデータセットにより満足されるかどうか決定される。

Claims

【特許請求の範囲】請求の範囲１．データセットを評価して、そのデータセットが複数の問合せの１つ以上を満足するかどうか決定する方法であって、データセットの内容は証拠の１つ以上の断片によって記述することができ、上記問合せは、各問合せが１つ以上の他の問合せに作動的に関連付けされるように問合せの実行プランに配列され、複数の問合せの各々は、１つ以上の問合せ項を含み、各問合せ項は、合成演算子に関連付けることのできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の１つ以上の断片の特性を記述し、上記方法は、証拠の各断片を１つ以上の証拠記述子と比較し、証拠の断片により満足される各証拠記述子を識別し、満足された証拠記述子含む各問合せ項又は満足された別の問合せ項をを評価して、その問合せ項が満足されるかどうか決定し、そして全ての問合せ項が満足された各問合せを、データセットにより満足された問合せとして識別する、という段階を備えたことを特徴とする方法。２．少なくとも１つの問合せ項は、作動的に関連付けされた問合せ項の各々の一部分である少なくとも１つの証拠記述子を共用することにより別の問合せ項に作動的に関連付けされる請求項１に記載の方法。３．上記比較段階は、更に、証拠記述子の各々の形式を識別し、証拠の各断片の形式を識別し、そして証拠の各断片を、証拠のその断片と同じ形式のものである各証拠記述子と比較する、という段階を含む請求項２に記載の方法。４．証拠の１つ以上の形式を定義し、証拠記述子の１つ以上の形式を識別し、そして証拠の１つ以上の形式を、証拠記述子の識別された１つ以上の形式に応答して変更する、という段階を更に備えた請求項２に記載の方法。５．上記比較段階は、更に、証拠記述子の各々の形式を識別し、証拠の各断片の形式を識別し、そして証拠の各断片を、証拠のその断片と同じ形式のものである各証拠記述子と比較する、という段階を含む請求項１に記載の方法。６．証拠の１つ以上の形式を定義し、証拠記述子の１つ以上の形式を識別し、そして証拠の１つ以上の形式を、証拠記述子の識別された１つ以上の形式に応答して変更する、という段階を更に備えた請求項５に記載の方法。７．証拠の１つ以上の形式を定義し、証拠記述子の１つ以上の形式を識別し、そして証拠の１つ以上の形式を、証拠記述子の識別された１つ以上の形式に応答して変更する、という段階を更に備えた請求項１に記載の方法。８．データセットを評価し、少なくとも１つの証拠記述子を各々含む複数の問合せから、上記データセットにより満足することのできる各候補問合せを識別できるようにする方法において、証拠記述子の各々の形式を識別し、データセットにおける証拠の各断片の形式を識別し、データセットにおける証拠の各断片を、その証拠の断片と同じ形式のものである証拠記述子の各々と比較し、そして証拠の断片により満足される証拠記述子の各々を識別し、満足された証拠記述子を含む問合せのみが候補問合せとなるようにする、という段階を備えたことを特徴とする方法。９．比較段階を含む段階は、比較されるエレメント及び証拠記述子の形式に依存する請求項８に記載の方法。 10．複数のデータセットが評価される請求項１に記載の方法。 11．複数のデータセットが順次に評価される請求項１に記載の方法。 12．各データセットに対して複数の問合せの複製を確立し、そして複数のデータセットの各々は、複数の問合せの１つを用いて同時に評価される請求項１に記載の方法。 13．上記データセットは、テキストデータである請求項１に記載の方法。 14．上記データセットは、データベースとして構成される請求項１に記載の方法。 15．データセットを評価して、そのデータセットが複数の問合せの１つ以上を満足するかどうか決定する方法において、データセットにより満足することのできる１つ以上の候補問合せを識別し、そして候補問合せの各々を評価し、もしあればどの候補問合せがデータセットにより満足されるかを決定する、という段階を備えたことを特徴とする方法。 16．複数の問合せは、各問合せが１つ以上の他の問合せに作動的に関連するように問合せの実行プランに配列される請求項11に記載の方法。 17．データセットの内容は、証拠の１つ以上の断片で記述することができ、複数の問合せの各々は、１つ以上の問合せ項を含み、各問合せ項は、合成演算子に関連付けることのできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片、又は証拠の１つ以上の断片の特性を記述し、そして少なくとも１つの問合せ項は、作動的に関連した問合せ項の各々の一部分である少なくとも１つの証拠記述子を共用することにより別の問合せ項に作動的に関連付けされる請求項11に記載の方法。 18．上記識別段階は、更に、１つ以上の問合せ項の近似を確立して、その近似された問合せ項の実行プランを形成し、近似された問合せ項の実行プランにおける問合せ項を評価して、その近似された問合せ項の実行プランにおいてもしあればどの問合せがデータセットにより満足されるかを決定し、そして問合せの全ての問合せ項が満足されるところの近似された問合せ項の実行プランにおける各問合せを候補問合せとして識別する、という段階を含む請求項17に記載の方法。 19．上記識別段階は、更に、各証拠記述子の形式を識別し、証拠の各断片の形式を識別し、証拠の各断片を、証拠のその断片と同じ形式のものである各証拠記述子と比較し、そして証拠の断片により満足される各証拠記述子を識別し、満足された証拠記述子を含む問合せのみが候補問合せとなるようにする、という段階を含む請求項17に記載の方法。 20．上記識別段階は、更に、１つ以上の問合せ項の近似を確立して、その近似された問合せ項の実行プランを形成し、近似された問合せ項の実行プランにおける問合せ項を評価して、その近似された問合せ項の実行プランにおいてもしあればどの問合せがデータセットにより満足されるかを決定し、そして問合せの全ての問合せ項が満足されるところの近似された問合せ項の実行プランにおける各問合せを候補問合せとして識別する、という段階を含む請求項19に記載の方法。 21．証拠の１つ以上の形式を定義し、証拠記述子の１つ以上の形式を識別し、そして証拠の１つ以上の形式を、証拠記述子の識別された１つ以上の形式に応答して変更する、という段階を更に備えた請求項20に記載の方法。 22．証拠の１つ以上の形式を定義し、証拠記述子の１つ以上の形式を識別し、そして証拠の１つ以上の形式を、証拠記述子の識別された１つ以上の形式に応答して変更する、という段階を更に備えた請求項17に記載の方法。 23．データセットの内容は、証拠の１つ以上の断片で記述することができ、複数の問合せの各々は、１つ以上の問合せ項を含み、各問合せ項は、合成演算子に関連付けることのできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片、又は証拠の１つ以上の断片の特性を記述し、そして上記識別段階は、更に、各証拠記述子の形式を識別し、証拠の各断片の形式を識別し、証拠の各断片を、証拠のその断片と同じ形式のものである各証拠記述子と比較し、そして証拠の断片により満足される各証拠記述子を識別し、満足された証拠記述子を含む問合せのみが候補問合せとなるようにする、という段階を含む請求項15に記載の方法。 24．上記識別段階は、更に、１つ以上の問合せ項の近似を確立して、その近似された問合せ項の実行プランを形成し、近似された問合せ項の実行プランにおける問合せ項を評価して、その近似された問合せ項の実行プランにおいてもしあればどの問合せがデータセットにより満足されるかを決定し、そして問合せの全ての問合せ項が満足されるところの近似された問合せ項の実行プランにおける各問合せを候補問合せとして識別する、という段階を含む請求項23に記載の方法。 25．上記識別段階は、更に、１つ以上の問合せ項の近似を確立して、その近似された問合せ項の実行プランを形成し、近似された問合せ項の実行プランにおける問合せ項を評価して、その近似された問合せ項の実行プランにおいてもしあればどの問合せがデータセットにより満足されるかを決定し、そして問合せの全ての問合せ項が満足されるところの近似された問合せ項の実行プランにおける各問合せを候補問合せとして識別する、という段階を含む請求項15に記載の方法。 26．証拠の１つ以上の形式を定義し、証拠記述子の１つ以上の形式を識別し、そして証拠の１つ以上の形式を、証拠記述子の識別された１つ以上の形式に応答して変更する、という段階を更に備えた請求項23に記載の方法。 27．上記複数の問合せは、証拠の断片が証拠記述子を満足するかどうか確認するために、データセットの内容の一部分を表す証拠の１つ以上の断片と比較され得る複数の証拠記述子を含み、上記方法は、更に、証拠の１つ以上の形式を定義し、証拠記述子の１つ以上の形式を識別し、そして証拠の１つ以上の形式を、証拠記述子の識別された１つ以上の形式に応答して変更する、という段階を更に備えた請求項15に記載の方法。 28．データセットを評価して、そのデータセットが１つ以上の問合せを満足するかどうか決定するのに使用する方法であって、上記１つ以上の問合せは、証拠の断片が証拠記述子を満足するかどうか確認するために、データセットの内容の一部分を表す証拠の１つ以上の断片と比較することのできる複数の証拠記述子を含み、上記方法は、証拠の１つ以上の形式を定義し、証拠記述子の１つ以上の形式を識別し、そして証拠の１つ以上の形式を、証拠記述子の識別された１つ以上の形式に応答して変更する、という段階を更に備えたことを特徴とする方法。 29．証拠の１つ以上の断片を形成する段階を更に備え、証拠の各断片は、変更された形式の１つである請求項28に記載の方法。 30．上記変更段階は、更に、１つの証拠記述子の形式として識別される形式を上記定義された形式に追加することを含む請求項28に記載の方法。 31．上記変更段階は、更に、１つの証拠記述子の形式として識別されない形式を上記定義された形式から削除することを含む請求項28に記載の方法。 32．データセットを評価して、そのデータセットが１つ以上の問合せを満足するかどうかを決定するのに使用するために問合せの実行プランを構成する方法において、複数の問合せを入力し、そして各問合せを別の問合せに作動的に関連付ける、という段階を備えたことを特徴とする方法。 33．作動的に関連付ける上記段階は、問合せに作動的に関連付けされる問合せを互いに識別することを含む請求項32に記載の方法。 34．各問合せを１つ以上の問合せ項へと変換する段階を更に備え、１つ以上の手前の問合せの後に入力される付加的な問合せに対して、作動的に関連付ける上記段階は、更に、付加的な問合せの入力問合せ項の各々を、実行プランの一部分として既に存在する問合せ項と比較して、もしあれば入力問合せ項のどれが既存の問合せ項と異なるかを決定し、その異なる入力問合せ項の各々ごとに、既存の問合せ項と同じ入力問合せ項に対する１つ以上の関係を識別し、そしてその異なる入力問合せ項を実行プランに追加して、その異なる入力問合せ項が実行プランの既存の問合せ項に対しその異なる問合せ項とそれに対応する入力問合せ項との関係と同じ関係をもつようにする、という段階を含む請求項32に記載の方法。 35．各問合せを１つ以上の問合せ項へと変換し、そして実行プランから問合せを除去するという段階を更に含み、この除去段階は、更に、除去されるべき問合せの問合せ項の各々を、実行プランの一部分として存在する他の問合せの問合せ項と比較して、除去されるべき問合せの問合せ項がもしあればどれが他の既存の問合せ項と異なるかを決定し、そしてその異なる問合せ項を実行プランから除去する、という段階を含む請求項32に記載の方法。 36．データセットの内容は、証拠の１つ以上の断片で記述することができ、そして上記方法は、更に、各問合せを１つ以上の問合せ項へと変換し、各問合せ項は、合成演算子に関連付けできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の１つ以上の断片の特性を記述し、そして作動的に関連付けされた問合せ項の各々の一部分である少なくとも１つの証拠記述子を共用することにより少なくとも１つの問合せ項を別の問合せ項に作動的に関連させる、という段階を含む請求項32に記載の方法。 37．１つ以上の手前の問合せの後に入力される付加的な問合せに対し、作動的に関連付けさせる上記段階は、更に、付加的な問合せの入力問合せ項の各々を、実行プランの一部分として既に存在する問合せ項と比較して、もしあれば入力問合せ項のどれが既存の問合せ項と異なるかを決定し、その異なる入力問合せ項の各々ごとに、既存の問合せ項と同じ入力問合せ項に対する１つ以上の関係を識別し、そしてその異なる入力問合せ項を実行プランに追加して、その異なる入力問合せ項が実行プランの既存の問合せ項に対しその異なる問合せ項とそれに対応する入力問合せ項との関係と同じ関係をもつようにする、という段階を含む請求項36に記載の方法。 38．少なくとも１つの証拠記述子又は合成演算子に対し、その証拠記述子又は合成演算子の対応する近似を定義する段階を更に備えた請求項37に記載の方法。 39．少なくとも１つの証拠記述子又は合成演算子に対し、その証拠記述子又は合成演算子の対応する近似を定義する段階を更に備えた請求項36に記載の方法。 40．少なくとも１つの問合せ項を別の問合せ項に作動的に関連付けする上記の段階は、作動的に関連付けされた問合せ項の一部分である少なくとも１つの合成演算子を共用することを含む請求項36に記載の方法。 41．データセットの内容は、証拠の１つ以上の断片で記述することができ、そして上記方法は、更に、各問合せを１つ以上の問合せ項へと変換し、各問合せ項は、合成演算子に関連付けできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の１つ以上の断片の特性を記述し、そして各同等の証拠記述子又は合成演算子を共用することにより、各問合せ項を、その同等の証拠記述子又は合成演算子を含む他の各々の問合せ項に作動的に関連させる、という段階を含む請求項32に記載の方法。 42．データセットを評価して、そのデータセットが１つ以上の問合せを満足するかどうか決定するのに使用するための問合せの実行プランを構成する方法であって、データセットの内容は、証拠の１つ以上の断片で記述することができ、上記方法は、複数の問合せを入力し、各問合せを１つ以上の問合せ項へと変換し、各問合せ項は、合成演算子に関連付けできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の１つ以上の断片の特性を記述し、そして少なくとも１つの証拠記述子又は合成演算子に対し、証拠記述子又は合成演算子の対応する近似を定義する、という段階を備えたことを特徴とする方法。 43．上記定義段階は、更に、各証拠記述子又は合成演算子に対し、証拠記述子又は合成演算子の対応する近似を定義することを含む請求項42に記載の方法。 44．データセットを評価して、そのデータセットが複数の問合せの１つ以上を満足するかどうか決定するのに使用するための実行プランにおいて、この実行プランの各問合せが実行プランの別の問合せに作動的に関連されたことを特徴とする実行プラン。 45．各問合せは、その問合せに作動的に関連された各々の他の問合せを識別する請求項44に記載の実行プラン。 46．データセットを評価して、そのデータセットが複数の問合せの１つ以上を満足するかどうか決定するのに使用するための実行プランにおいて、データセットの内容は、証拠の１つ以上の断片で記述することができ、各問合せは１つ以上の問合せ項を含み、各問合せ項は、合成演算子に関連付けすることのできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の１つ以上の断片の特徴を記述し、少なくとも１つの証拠記述子が２つ以上の問合せ項によって共用されることを特徴とする実行プラン。 47．上記実行プランは、２つ以上の問合せ項によって共用される少なくとも１つの合成演算子を含む請求項46に記載の実行プラン。 48．少なくとも１つの証拠記述子又は合成演算子に対して、証拠記述子又は合成演算子の対応する近似が定義される請求項46に記載の実行プラン。 49．データセットを評価して、そのデータセットが複数の問合せの１つ以上を満足するかどうか決定するのに使用するための実行プランにおいて、データセットの内容は、証拠の１つ以上の断片で記述することができ、各問合せは１つ以上の問合せ項を含み、各問合せ項は、合成演算子に関連付けすることのできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の１つ以上の断片の特徴を記述し、別の問合せ項の証拠記述子に等価な問合せ項の各証拠記述子がその問合せ項と共用され、そして別の問合せ項の合成演算子に等価な問合せ項の各合成演算子がその問合せ項と共用されることを特徴とする実行プラン。 50．データセットを評価して、そのデータセットが複数の問合せの１つ以上を満足するかどうか決定するのに使用するための実行プランにおいて、データセットの内容は、証拠の１つ以上の断片で記述することができ、各問合せは１つ以上の問合せ項を含み、各問合せ項は、合成演算子に作動的に関連付けすることのできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の１つ以上の断片の特徴を記述し、少なくとも１つの証拠記述子又は合成演算子に対して、証拠記述子又は合成演算子の対応する近似が定義されることを特徴とする実行プラン。 51．各証拠記述子又は合成演算子に対して、証拠記述子又は合成演算子の対応する近似が定義される請求項50に記載の実行プラン。 52．データセットを評価して、そのデータセットが複数の問合せの１つ以上を満足するかどうか決定するシステムであって、データセットの内容は証拠の１つ以上の断片によって記述することができ、上記問合せは、各問合せが１つ以上の他の問合せに作動的に関連付けされるように問合せの実行プランに配列され、複数の問合せの各々は、１つ以上の問合せ項を含み、各問合せ項は、合成演算子に関連付けることのできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の１つ以上の断片の特性を記述し、上記システムは、証拠の各断片を１つ以上の証拠記述子と比較する手段と、証拠の断片により満足される各証拠記述子を識別する手段と、満足された証拠記述子含む各問合せ項又は満足された別の問合せ項をを評価して、その問合せ項が満足されるかどうか決定する手段と、全ての問合せ項が満足された各問合せを、データセットにより満足された問合せとして識別する手段と、を備えたことを特徴とするシステム。 53．データセットを評価し、少なくとも１つの証拠記述子を各々含む複数の問合せから、上記データセットにより満足することのできる各候補問合せを識別できるようにするシステムにおいて、証拠記述子の各々の形式を識別する手段と、データセットにおける証拠の各断片の形式を識別する手段と、データセットにおける証拠の各断片を、その証拠の断片と同じ形式のものである証拠記述子の各々と比較する手段と、証拠の断片により満足される証拠記述子の各々を識別する手段とを備え、満足された証拠記述子を含む問合せのみが候補問合せとなるようにすることを特徴とするシステム。 54．データセットを評価して、そのデータセットが複数の問合せの１つ以上を満足するかどうか決定するシステムにおいて、データセットにより満足することのできる１つ以上の候補問合せを識別するための手段と、候補問合せの各々を評価し、もしあればどの候補問合せがデータセットにより満足されるかを決定するための手段と、を備えたことを特徴とするシステム。 55．データセットを評価して、そのデータセットが１つ以上の問合せを満足するかどうか決定するのに使用するシステムであって、上記１つ以上の問合せは、証拠の断片が証拠記述子を満足するかどうか確認するために、データセットの内容の一部分を表す証拠の１つ以上の断片と比較することのできる複数の証拠記述子を含み、上記システムは、証拠の１つ以上の形式を定義する手段と、証拠記述子の１つ以上の形式を識別する手段と、証拠の１つ以上の形式を、証拠記述子の識別された１つ以上の形式に応答して変更する手段と、を備えたことを特徴とするシステム。 56．データセットを評価して、そのデータセットが１つ以上の問合せを満足するかどうかを決定するのに使用するために問合せの実行プランを構成するシステムにおいて、複数の問合せを入力する手段と、各問合せを別の問合せに作動的に関連付ける手段と、を備えたことを特徴とするシステム。 57．データセットを評価して、そのデータセットが１つ以上の問合せを満足するかどうか決定するのに使用するための問合せの実行プランを構成するシステムであって、データセットの内容は、証拠の１つ以上の断片により記述することができ、上記システムは、複数の問合せを入力する手段と、各問合せを１つ以上の問合せ項へと変換する手段とを備え、各問合せ項は、合成演算子に関連付けできる１つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の１つ以上の断片の特性を記述し、そして少なくとも１つの証拠記述子又は合成演算子に対し、証拠記述子又は合成演算子の対応する近似を定義する手段を備えたことを特徴とするシステム。