JP2000503144A - 多数の及び/又は複雑な問合せを用いたデータセットの内容の評価 - Google Patents

多数の及び/又は複雑な問合せを用いたデータセットの内容の評価

Info

Publication number
JP2000503144A
JP2000503144A JP9524607A JP52460797A JP2000503144A JP 2000503144 A JP2000503144 A JP 2000503144A JP 9524607 A JP9524607 A JP 9524607A JP 52460797 A JP52460797 A JP 52460797A JP 2000503144 A JP2000503144 A JP 2000503144A
Authority
JP
Japan
Prior art keywords
evidence
query
descriptor
queries
dataset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP9524607A
Other languages
English (en)
Other versions
JP2000503144A5 (ja
Inventor
フィリップ シー ネルソン
Original Assignee
ヴェリティー インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ヴェリティー インコーポレイテッド filed Critical ヴェリティー インコーポレイテッド
Publication of JP2000503144A publication Critical patent/JP2000503144A/ja
Publication of JP2000503144A5 publication Critical patent/JP2000503144A5/ja
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2453Query optimisation
    • G06F16/24534Query rewriting; Transformation
    • G06F16/24542Plan optimisation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Operations Research (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 本発明は、データセットの内容を評価して、そのデータセットが1つ以上の問合せを満足するかどうか決定できるようにする。本発明は、問合せの数が多く及び/又は問合せが複雑なときでも、従来可能であった以上に相当に迅速に多数のデータセットを評価することができる。問合せは、1つ以上の特定の問合せから構成された問合せ項の実行プランを使用し、各問合せの各問い合わせ項を1つ以上の証拠記述子及び1つ以上の合成演算子へと変換し、そして合成演算子の各々を少なくとも1つの証拠記述子又は他の合成演算子へと作動的に関連付けることにより評価され、各問合せは、互いに作動的に関連された1つ以上の証拠記述子及び1つ以上の合成演算子により定義される。好ましくは、実行プランにおいて証拠記述子も合成演算子も複製されない。本発明は、テキスト文書及びデータベースのような種々の形式のデータセットを評価するのに使用できる。更に、本発明は、2段階で問合せに対するデータセットの迅速な評価を達成するように最適化することができる。第1に、データセットにより満足できる1つ以上の候補問合せが各問い合わせのおおよその評価により満足される。第2に、候補問合せの各々が完全に評価されて、その候補問合せがデータセットにより満足されるかどうか決定される。

Description

【発明の詳細な説明】 多数の及び/又は複雑な問合せを用いたデータセットの内容の評価発明の背景 1.発明の分野 本発明は、データのセットが1つ以上の制約のセットを満足するかどうか決定 するためのデータセットの内容の評価に係る。より詳細には、本発明は、多数の 複雑な制約セットを用いた多数のデータセットの評価に係る。 2.関連技術の説明 データセットが1つ以上の制約を満足するかどうか決定するためにデータセッ トを評価することが望まれる場合が多数ある。例えば、多数のテキスト文書のい ずれが特定の題目に関する情報を含むかを決定する要望がある。或いは、データ ベース内の特定の情報が関心のある仕方で変化したかどうかを知ることも所望さ れる。 データセットのこのような評価を求める多数のエンティティが頻繁に存在し、 各エンティティは、互いに他のエンティティとは異なる制約のセットに対してこ のような評価を求め、従って、非常に多数の制約セットに対してデータセットを 評価しなければならない。更に、制約のセットは、かなり複雑である。加えて、 評価されねばならない非常に多数のデータセットが存在する。 これまで、このような状態においては、各データセットは、互いに他の制約セ ットに係わりなく各制約セットに対して評価されている。しかしながら、制約セ ットの数が多くなると、制約のセットが複雑になるか、又は評価されるべきデー タセットの数が多くなるか、或いは特に2つ以上のこれら環境が存在するときに は、この解決策は、望ましくないほどの長い時間を要することになる。 更に、通常、データセットは、制約のセットにより指示される完全な厳格さで 各制約セットに対して完全に評価される。上記のように、制約のセットは、制約 の数が多くなるか、又は特定の制約の評価が単純でなくなるために、かなり複雑 になり、従って、制約のセットのこのような完全に厳格な評価は困難であり及び /又は時間浪費となる。制約セットの数及び/又は評価されるべきデータセット の数が多いときには問題が一層悪化する。 データセットが制約のセットを満足するかどうか決定するために、上記問題を 克服するようにデータセットを迅速に評価できることも望まれる。特に、データ セットのどれ(もしあれば)が、多数のおそらく複雑な制約のセットを満足する かを決定するために、多数のデータセットを迅速に評価できることも望まれる。 更に、多数のデータセットを制約のセットに対してリアルタイムで評価できるよ うにするに充分なほど評価が迅速であることも望まれる。発明の要旨 一般に、本発明は、データセットが1つ以上の制約(問合せ項)のセット(問 合せ)を満足するかどうか決定するためにデータセットの内容を評価できるよう にする。本発明の重要な特徴は、問合せの数が多く及び/又は問合せが複雑なと きでも、多数のデータセットを従来可能であった以上に相当に迅速に評価できる ことである。 本発明の1つの特徴において、データセットのどれ(もしあれば)が1つ以上 の問合せを満足するか決定するために、多数の問合せが1つ以上のデータセット の評価に使用するための実行プランへと結合される。実行プランの各問合せは、 実行プランの他の問合せに作動的に関連付けされる。問合せと問合せの間の関係 は、従来の場合よりも更に最適な仕方でデータセットを問合せに対して評価でき るようにする。例えば、実行プランは、別の問合せにも現れる1つの問合せの問 合せ項をその問合せと共用できるようにし、従って、問合せ項の単一評価の結果 を、その問合せ項を含むいかなる問合せの評価にも使用できるようにする。この ような共用がない状態では、問合せ項は、その問合せ項が一部分であるところの 各問合せに対して個別に評価しなければならない。明らかなように、このような 共用は、特に、問合せの数又は問合せにおける問合せ項の数が多いときに多数の 問合せを評価するのに必要な時間を短縮することができる。又、問合せと問合せ の関係は、問合せを実行プランに容易に追加したり削除したりできるように利用 でき、従って、既存の実行プランが破壊されることはなく、これにより、既存の 実行プランに対しデータセットの評価を中断せずに実行プランを変更することが できる。例えば、実行プランに追加されるか又は削除されるべき問合せは、実行 プランの他の問合せと比較され、その追加又は削除されるべき問合せの問合せ項 のどれ(もしあれば)が実行プランにおいて他の問合せの問合せ項と異なるかを 決定することができる。次いで、類似性及び相違を使用して、追加又は削除され ている問合せにとって独特の問合せ項のみを追加又は削除することができる。 本発明の別の特徴においては、実行プランの問合せの各問合せ項は、合成演算 子に関係付けすることのできる1つ以上の証拠(evidence)記述子を含む。各証拠 記述子は、データセットの内容の一部分を表す証拠の断片を記述する。実行プラ ンは、証拠の各断片を1つ以上の証拠記述子と比較し、そして証拠の断片により 満足される各証拠記述子を識別することにより、評価される。満足された証拠記 述子又は満足された別の問合せ項を含む各問合せ項は、その問合せ項が満足され るかどうか決定するために評価される。全ての問合せ項が満足されたところの各 問合せは、データセットにより満足された問合せとして識別される。問合せの評 価は、各証拠記述子の形式及び証拠の各断片を識別し、そして1つの証拠記述子 の形式と同じ形式のものである証拠の断片のみを評価することにより、更に最適 化することができる。又、問合せ評価は、証拠の各断片を、証拠の断片と同じ形 式のものである証拠記述子のみと比較することにより、更に最適化することがで きる。加えて、証拠の断片と証拠記述子との比較は、証拠及び証拠記述子の形式 に基づいて最適化することができる。 本発明の別の特徴においては、データセットが実行プランに対して2つの段階 で評価される。第1に、データセットにより満足される1つ以上の候補問合せが 識別される。候補問合せの識別は、各問合せの完全な厳密な評価に参加せずに行 うことができ、これにより、識別をかなり迅速に行うことができる。例えば、候 補問合せは、先ず、各問合せ項を近似し、次いで、その近似された問合せ項に対 してデータセットを評価することにより、識別できる。その近似された全ての問 合せ項がデータセットにより満足されるところの各問合せが、候補問合せとして 識別される。候補問合せが識別されると、第2段階において、その候補問合せの 各々が評価され、候補問合せがデータセットにより満足されるかどうか決定され る。この段階において、各候補問合せは、その問合せの(非近似)問合せ項の要 件に基づいて厳格に評価される。通常は、候補問合せの数は、全問合せ数よりも 遙に少ないので、この第2段階も非常に迅速に実行することができる。全体的に は、本発明の2段階解決策は、従来の他の解決策(各問合せに対するデータセッ トの完全な厳格な評価のような)よりも遥かに短い実行時間しか必要としない。 本発明は、種々の形式のデータセットを評価するのに使用できる。例えば、本 発明は、任意の数のテキスト文書の各々を評価するのに使用して、1つ以上のテ キスト文書が、テキストの文書の内容に関する任意の数のユーザ特有の問合せの いずれかを満足するかどうか決定することができる。別の例として、本発明は、 データベースの任意の数のフィールドの各々を評価するのに使用して、1つ以上 のフィールドがそれらフィールドの内容に関する任意の数のユーザ特有の問合せ のいずれかを満足するかどうか決定することもできる。図面の簡単な説明 図1は、データセットが1つ以上の問合せを満足するかどうか決定するために データセットの内容を評価するための本発明によるシステムを示すブロック図で ある。 図2は、本発明による実行プランを示す概略図である。 図3A及び3Bは、データセットが1つ以上の問合せを満足するかどうか決定 するためにデータセットの内容を評価するための本発明による方法を示すフロー チャートである。 図4Aないし4Eは、図2の実行プランの概略図であって、図3A及び3Bの 方法の動作の特徴を示す図であり、図4Aは、実行プランの近似後の実行プラン を示し、図4Bは、実行プランにおける証拠記述子のアクチベーションを示し、 図4Cは、実行プランにおける問合せ項のアクチベーションを示し、図4Dは、 問合せの全ての問合せ項のアクチベーションから生じる実行プランにおける問合 せのアクチベーションを示し、そして図4Eは、データセットの評価が完了した 後にアクチベートされる候補問合せを示す図である。好ましい実施形態の詳細な説明 本発明は、データセットの内容を評価して、データセットが1つ以上の制約の セットを満足するかどうか決定できるようにする。(以下、1つ以上の制約のセ ットを「問合せ」と称し、そして各々の制約を「問合せ項」と称する。)本発明 は、従来の評価方法の場合よりも著しく迅速にこのような評価を行えるようにす る。特定の効果の中で、本発明は、問合せの数が多く及び/又は問合せが複雑で ある(即ち、多数の問合せ項を含み及び/又は評価するのに複雑な問合せ項を含 む)場合にデータセットを迅速に評価することができる。いかなる数のデータセ ットを評価することもでき、本発明の効果は、評価されるべきデータセットの数 が増加するにつれて大きくなる。 本発明は、従来の場合よりも非常に迅速に評価を完了できるようにする新規な 実行プランを使用する。(以下に詳細に述べるように、「実行プラン」とは、各 問合せが少なくとも1つの他の問合せに作動的に関連するような多数の問合せで ある。)実行プランは、多数の問合せを単一のオブジェクトとして表し、これに より、問合せに対するデータセットの評価に効率が与えられる。更に、実行プラ ンは、計算リソースを多数の問合せにより共用できるようにし、従って、不要な 冗長性が排除される。例えば、実行プランは、多数の問合せが、多数の問合せの 各々の一部分として現れる単一の問合せ項を共用できるようにし、従って、2つ 以上の問合せに現れる問合せ項の冗長な評価を減少すると共に、問合せの実行プ ランを評価できる速度を高めることができる。又、実行プランの問合せは、既存 の実行プランが破壊されないように、問合せを実行プランに容易に追加又は削除 できる仕方で関連付けることができる。問合せ項の上記共用は、この点について 特に有用である。問合せ間の関係の結果として、標準的なマルチ処理技術を使用 する状態で、実行プランは、既存の実行プランに対するデータセットの評価を中 断せずに変更することができる。又、冗長な問合せ項の減少は、実行プランの問 合せを非常にコンパクトな仕方で表すことができるようにする。更に、実行プラ ンは、計算リソース(例えば、メモリ管理、テーブル及びインデックスの使用) を多数の問合せによって共用できるようにし、従って、不要な冗長性が排除され る。 実行プランの問合せの各問合せ項は、1つ以上の証拠記述子を含む。(実行プ ランは、以下に詳細に述べる結合演算子を含むことができ、そして一般的にそれ を含む。)各証拠記述子は、データセットの内容の一部分を表す証拠の断片を記 述する。実行プランの証拠の断片は、1つ以上の証拠記述子と比較され、証拠の 断片により満足される各証拠記述子を識別できるようにする。満足された証拠識 別子を含む各問合せ項は、その問合せ項が満足されるかどうかを決定するために 評価される。満足された問合せ項を含む他の問合せ項も評価される。全ての問合 せ項が満足された各問合せは、データセットにより満足された問合せとして識別 される。 問合せの評価は、多数の方法で更に最適化することができる。例えば、各証拠 記述子の形式及び証拠の各断片を識別することができ、そして1つの証拠記述子 の形式と同じ形式のデータセットからの証拠の断片のみが評価される。更に、評 価される証拠の各断片は、証拠の断片と同じ形式の証拠記述子のみと比較するこ とができる。更に、証拠の断片と証拠記述子との比較は、証拠の形式及び証拠記 述子に基づいて最適化することができる。 本発明は、2段階プロセスを使用して、データセットのより迅速な評価を達成 することができる。第1に、データセットにより満足される1つ以上の候補問合 せが識別される。候補問合せは、実行プランの問合せ項を近似しそしてその近似 された問合せ項に対してデータセットを評価することによって識別され、全ての 近似された問合せ項が満足されるところの各問合せが候補問合せとなる。以下の 説明から容易に明らかとなるように、これは、各問合せ項の完全な厳格な評価に 係わることなく、候補問合せの識別を達成できるようにし、これにより、候補問 合せの識別を非常に迅速に行うことができる。 第2に、候補問合せが識別されると、データセットが候補問合せの各々に対し て評価されて、候補問合せのいずれかがデータセットにより満足されるかどうか 決定される。この段階において、問合せ項の候補問合せの全てが、その候補問合 せの非近似問合せ項によって指示されるように、完全に且つ厳格に評価される。 本発明の多数の用途に対し、候補問合せの数は全問合せ数よりも相当に少ないの で、この第2段階も、非常に迅速に実行することができる。実際には、本発明を 使用できる多数の用途に対し(特に、問合せ数が多く及び/又は問合せが複雑で ある用途に対し)、本発明の2段階解決策は、従来の他の解決策(例えば、各問 合せに対してデータセットを完全に厳格に評価する)よりも遙かに短い実行時間 しか必要としない。 図1は、データセットの内容を評価して、データセットが1つ以上の問合せを 満足するかどうかを決定するための本発明によるシステム100を示すブロック 図である。システム100は、証拠形成装置101と、結果マネージャー102 と、問合せプロセッサ103と、プロファイルマネージャー104と、プロファ イル記憶装置105と、結果記憶装置106と、評価記憶装置107とを備えて いる。明らかなように、証拠形成装置101と、結果マネージャー102と、問 合せプロセッサ103と、プロファイルマネージャー104の機能(以下に詳細 に述べる)は、適当にプログラムされたデジタルコンピュータにおいて実施する ことができる。プロファイル記憶装置105と、結果記憶装置106と、評価記 憶装置107の各々は、例えば、ランダムアクセスメモリ(RAM)のような揮 発性メモリ及びハードディスク記憶装置のような不揮発性メモリのいずれか又は 両方で実施することができる。 評価されるべきデータセットは、最初に、証拠形成装置101に入力される。 データセットは、ニュースワイヤフィード又はデータベースのような何らかのソ ースから到来し得る。証拠形成装置101は、そのデータをパーズしそして処理 して、問合せプロセッサ103により認識できる証拠の断片を形成する。データ セットからの証拠の形成は、評価されるべきデータセットの性質に基づいて種々 の仕方で実行することができる。使用する技術は、簡単なワード認識プログラム (例えば、文書中に空白スペースが連続的に発生する間にあるものを「ワード」 として識別する)から、データセットの内容の非常に複雑な分析までの範囲に及 ぶ。データセット(例えば、テキスト文書又はデータベース)から証拠を形成す る特定の技術は、当業者に良く知られている。 一般に、証拠の各断片は、i)証拠の形式と、ii)証拠データと、iii)デー タセット内の証拠の位置とを含む。本発明は、いずれかの形式の証拠を含むデー タセットと共に使用することができる。テキストデータセットを評価するときに 本発明に使用することのできる証拠形式(以下に詳細に述べる)の例示的リスト は次の通りである。NewDataSet、Word、WordInfo、Nu m4ber、Date、Name、Paragraph、Sentence、P unct、NewLine、White、Markup、Field、Zone Begin、ZoneEnd、Attribute、及びHighlight。 他の 形式のデータセットについては、証拠は、データセットのその形式の特徴である 他の形式のものでもよい。例えば、評価されているデータセットが電子メールメ ッセージである場合には、証拠形式は、メッセージの送信者、又はメッセージが 送られた日付を含む。或いは、評価されているデータセットがデータベースであ る場合には、証拠形式は、1組の数値の合計又は平均を含むことができる。 証拠データは、証拠の形成の一部分として抽出されるデータセットからの実際 のデータを表す。証拠データは、例えば、文書からのワード、電子メールメッセ ージが送られた日付、文書からのセンテンス、データベースにおけるフィールド の値、又は文書からのワードのスピーチの部分の識別を含む。 データセット内の証拠の位置は、例えば、データセット内の基準位置に対する 証拠の位置のような適当な仕方で特定することができる。例えば、テキスト文書 において、証拠の位置は、証拠の前に文書中に生じるワードの数を識別すること により特定できる。証拠の位置は、接近結合演算子(以下に述べる)を含む問合 せ項のようなある形式の問合せ項を評価するのに重要である。 上記の多数の例示的証拠形式が識別されている。NewDataSet証拠形 式は、データセット(例えば、文書)の開始を識別する。Word証拠形式は、 テキストワードを識別する。WordInfoの証拠形式は、ベース形態(ステ ム)や、スピーチの部分及び使用のようなワード(1つ又は複数)の特定の特徴 を識別する。Numberの証拠形式は、数字がいかに表現されるかに係わりな く数字を識別する(例えば、「千」、「103」、「1000」;これらは全て 1000として識別される)。Dateの証拠形式は、日付がいかに表現される かに係わりなく日付を識別する(例えば、「1995年、1月1日」、「本日」 及び「昨晩」;これらは全て、年、月、日及び時刻を特定する数値表示で識別さ れる)。Nameの証拠形式は、個人名、会社名又は製品名を特定するワード又 はフレーズを識別する。Paragraphの証拠形式は、パラグラフの終りを 識別する。Sentenceの証拠形式は、センテンスの終りを識別する。Pu nctの証拠形式は、句読点を識別する。NewLineの証拠形式は、テキス ト文書における新たな行の始めを識別する(例えば、キャリッジリターン又はラ インフィード)。Whiteの証拠形式は、テキスト文書中の空白スペース を識別する。Markupの証拠形式は、インラインフォーマットマークアップ (例えば、ボールド又はイタリック)を識別する。Fieldの証拠形式は、文 書の名前付き属性(例えば、出版社又は文書或いはe−メールメッセージの送信 者)を識別する。ZoneBegin及びZoneEndの証拠形式は、文書内 の名前付きのサブ領域(ゾーン)(例えば、脚注)の始めと終りを各々識別する 。Attributeの証拠形式は、ゾーンの属性(例えば、脚注が文書内の第 1、第2、等の脚注であるか)を識別する。Highlightの証拠形式は、 データセットの重要な区分を識別する。 図1に戻ると、1つ以上のユーザが情報をプロファイルマネージャー104に 入力する。プロファイルマネージャーは、この情報を、後で使用するために、例 えば、ユーザによる問合せの検索及び編集のために、プロファイル記憶装置10 5に記憶させることができる。又、プロファイルマネージャー104は、この情 報を問合せプロセッサ103にも送信し、該プロセッサは、次いで、この情報を 用いて適当な問合せを構成する。本発明によれば、問合せプロセッサ103は、 各問合せが別の問合せに作動的に関連された多数の問合せを表す統合された実行 プランへと問合せを合体することができる。重要なことに、実行プランの形成に より、計算リソースを多数の問合せで共用することができ、従って、不必要な冗 長性が排除される。例えば、実行プランは、単一のオブジェクトとしてメモリに 記憶することができる。換言すれば、各問合せは、メモリにおける1つ以上の他 の問合せの位置が分かるようにしてメモリに記憶され(例えば、別の問合せが記 憶される他のメモリ位置を指すポインタを用いて)、従って、実行プランのいか なる部分も容易にアクセスできるし、又は実行プランの幾つか又は全部をメモリ においてある位置から別の位置へ容易に移動することができる。更に、以下の説 明から容易に明らかなように、問合せを単一の実行プランへと結合すると、デー タセットからの証拠を問合せの一部分である証拠記述子に一致させるのに使用さ れるテーブル及びインデックスを統合することができ、従って、冗長なテーブル 及びインデックスが減少され又は排除される。更に、以下に述べるように、2つ 以上の問合せの部分として現れる問合せ項を共用することができ、これにより、 実行プランの冗長な問合せ項が減少又は排除される。多数の問合せを実行プ ランへと結合することは、本発明の使用が意図される多数の用途について特に有 用である。というのは、使用される問合せは、ほとんど又は全く変化なく長時間 にわたって使用できるからであり、従って、実行プランによるリソースの共用に 関連した上記利点が強調される。 本発明のこの特徴(問合せを実行プランへと合成する)は、1つ以上のデータ セットを多数の問合せに対して評価する従来の方法との明確な対比を表す。従来 の解決策は、データセットを単一オブジェクト又はデータベースへと合成するも のであった。問合せは、互いに独立して存在する。各問合せは、他の問合せの評 価とは独立してデータベースに対して評価される。従って、問合せの記憶又は評 価に対してリソースの共用はない。上記のように、この解決策は、不所望に長い 時間を必要とする。これに対して、本発明による実行プランにより可能にされる リソースの共用は、多数の問合せに対するデータセットの迅速な評価を容易にす る。 問合せプロセッサ103による実行プランに対するデータセットの評価中に、 実行プランの幾つか又は全部が、問合せプロセッサ103により使用するために 評価記憶装置107に記憶される。多くの場合に、全実行プランがかなり大きい ので、通常は、全実行プランが、ハードディスクのような大記憶容量のメモリに 記憶される。(実行プランによりイネーブルされるユニフィールドメモリマネー ジメントは、実行プランの幾つか又は全部をハードディスクからバックアップし そしてハードディスクへ復帰するのに有用である。)問合せプロセッサ103が 特定の時間に証拠を評価するところの実行プランの部分は、ハードディスクから RAMのような迅速にアクセスできるメモリへと転送することができ、従って、 実行プランのこれら部分を更に迅速にアクセスすることができる。本発明の実行 プランによりイネーブルされるユニフィールドメモリマネージメントは、ハード ディスクとRAMとの間にこの対話をイネーブルするのに特に有用である。 特定の実施形態では、本発明による実行プランは、ルート、ノード及びリーフ のネットワークとして表される。実行プランの各ルートは特定の問合せを表す。 各問合せは1つ以上の問合せ項を含む。各問合せ項は、1つ以上の表現を含み、 即ち問合せ項が2つ以上の表現を含む場合には、それらの表現が1つ以上の合成 演算子によって関係付けされる。実行プランの各ノードは、合成演算子を表す。 各表現は、問合せ項であるか又は証拠記述子である。各リーフは、証拠記述子の 1つを表す。各証拠記述子は、証拠演算子及び証拠パターンを使用して、証拠の 断片又は証拠の断片(1つ又は複数)の特性を記述する。本発明のこの実施形態 による問合せのネットワークの特定の例を図2について以下に述べる。 本発明による実行プランは、問合せのネットワーク以外のものとして表すこと ができる。実行プランは、例えば、実行プランの問合せの問合せ項及び証拠記述 子に対応するカスタマイズされた命令の最適なシーケンスのように種々の方法で 表すことができる。命令は、ハードウェアのカスタマイズされたソフトウェアに より迅速に処理できるように確立される。例えば、MAX演算子を用いて、3つ の証拠記述子X、Y及びZの最大値を決定する問合せは、次のような一連の組立 命令、即ちPUSH X、PUSH Y、PUSH Z、MAX 3で表すこと ができる。 図1に戻ると、ユーザにより特定された問合せは、問合せプロセッサ103へ 与えられる。ユーザにより与えられる各新たな問合せは、問合せプロセッサ10 3により問合せ項へとパーズされる。各問い合わせ項は、更に、問合せプロセッ サ103により合成演算子及び1つ以上の証拠記述子へとパーズされる。問合せ プロセッサ103によるユーザ特有の問合せのパージングは、当業者に良く知ら れた技術を用いて行うことができる。問合せプロセッサ103により形成される 証拠記述子は、評価されるべきデータセットの証拠(証拠形成装置101により 形成される)に適合しなければならないことに注意するのが重要である。問合せ の合成演算子及び証拠記述子は、問合せの内容が正確に表されるように問合せプ ロセッサ103により互いに関連付けされる。一般的に、単一の問合せは、1つ 以上の問合せ項及び証拠記述子の小さな実行プランとして表すことができる。 問合せが実行プランに追加される前に、問合せの問合せ項及び証拠記述子の各 々は、実行プランの既存の問合せ項及び証拠記述子と比較される。これは、以下 に述べるマッチング方法及び問合せ評価方法を用いて達成することができる。新 たな問合せの問合せ項又は証拠記述子が実行プランの既存の問合せ項又は証拠記 述子と同じである場合には、この問合せ項又は証拠記述子は、実行プランにおい て再現される必要はない。問合せの新たな問合せ項及び証拠記述子のみが実行プ ランに追加される。新たな問合せ項及び/又は証拠記述子は、新たな問合せの冗 長な問合せ項及び証拠記述子に対してそれらが有していたものと同じ関係を実行 プランの既存の問合せ項及び証拠記述子に対して有するように実行プランに追加 される。従って、新たな問合せは、既存の問合せを妨げることなく実行プランに 追加することができ(標準的なマルチ処理技術を使用して)、従って、いかなる ときでも、データセットは、古い又は更新された実行プランのいずれかと比較さ れ、これにより、実行プランが変更される間に実行プランに対するデータセット の評価を継続することができる。 同様に、問合せが実行プランから削除されるときには、その問合せの問合せ項 及び証拠記述子の各々が、実行プランの他の問合せの問合せ項及び証拠記述子と 比較される。削除されるべき問合せの問合せ項又は証拠記述子が実行プランの別 の問合せの問合せ項又は証拠記述子と同じである場合には、この問合せ項又は証 拠記述子を実行プランから削除することができない。削除されるべき問合せの独 特の問合せ項及び証拠記述子のみを実行プランから削除することができる。従っ て、問合せは、実行プランの他の問合せを妨げることなく実行プランから削除す ることができる(この場合も、標準的なマルチ処理技術を使用して)。実行プラ ンの構造の一部分として、問合せプロセッサ103は、特定の問合せ項又は証拠 記述子が2つ以上の問合せにおいて現れるときに実行プランから冗長な問合せ項 及び証拠記述子を排除することができる。このような冗長な問合せ項及び証拠記 述子は、上記のように識別できる。本発明によれば、各問合せ項及び証拠記述子 は、多数の問合せの一部分でよい。更に、特定の問合せ項又は証拠記述子が実行 プランに1回現れることしか必要とされない。本発明のこの特徴は、多数の複雑 な問合せをコンパクトに且つ効率的に表せるようにする。というのは、問合せ項 及び証拠記述子は、問合せ間に共用できるからである。 本発明の実行プランは、既知のリンクリスト技術を用いる固定サイズデータ構 造体を使用して好都合に表すことができる。特定の実施形態においては、実行プ ランの問合せ、合成演算子及び証拠記述子の各々は、2つの固定サイズフィール ドを含む固定サイズデータ構造体により表すことができる。一方のフィールドは 「親リンク」の認識を特定し、そして他方のフィールドは「子リンク」の認識を 特定する。各認識は、例えば、識別されるリンクのメモリアドレスとして特定す ることができる。問合せ、合成演算子及び証拠演算子の各々は、「リンク」と称 するデータ構造体を用いて他の問合せ、合成演算子及び証拠記述子に関連付けさ れる。リンクの各々は、4つの固定サイズフィールドを含む固定サイズデータ構 造体である。第1フィールドは「親」ノードの認識を特定し、第2フィールドは 「次の親リンク」の認識を特定し、第3フィールドは「次の子リンク」の認識を 特定し、そして第4フィールドは「子ノード」の認識を特定する。各認識は、例 えば、識別されたリンク又はノードのメモリアドレスとして特定することができ る。 固定サイズデータ構造体を使用して実行プランを形成することは、本発明によ る実行プランの上記効果の達成を容易にする。固定サイズデータ構造体を使用す ることは、実行プランの一部分を充分に定められた仕方で論理的にアドレスでき るようにし、従って、他の既存の不変の問合せ項のデータ構造体に対してメモリ を再割り当てする必要なく、新たな問合せ項を表すデータ構造体を追加又は削除 することができる。対照的に、問合せ項が可変長さのデータ構造体で表される場 合には、例えば、問合せ項を削除すると、1つ以上の不変の問合せ項のデータ構 造体に対してメモリが再割り当てされ、従って、実行プランに対して設定された データの進行中評価が破壊される。更に、本発明によるデータ構造体は、単に、 メモリ内の他の位置に対するポインタであるから、冗長な問合せ項を追加せずに 新たな問合せを追加することが容易に達成できる。新たな問合せの新たな問合せ 項は、適当な既存の問合せ項のメモリ位置を単に指すように構成される。逆に、 このようなポインタを使用すると、実行プランにおける単一の問合せ項を多数の 問合せの一部分とすることができる。更に、このように実行プランを構成するこ とにより、実行プランの関連部分をメモリの隣接区分においてアドレスすること ができる。その結果、実行プランが、ハードディスクからRAMへ実行プランの 一部分をスワップするに必要な充分な大きさである場合に、実行プランの関連部 分(互いに時間的に接近してアクセスされ勝ちな)を、メモリの1つの隣接領域 として容易にスワップすることができる。 図2は、例えば、1つ以上のテキスト文書の評価に使用される本発明による実 行プラン200を示す概略図である。この実行プラン200は、4つの問合せの 1つを各々表す4つのルート(根)201、202、203及び204を含む。 又、実行プラン200は、1つ以上の問合せの一部分である合成演算子を各々表 す5つのノード211、212、213、214及び215も含む。又、実行プ ラン200は、証拠記述子を各々表す6つのリーフ(葉)221、222、22 3、224、225及び226も含む。一般に、本発明による実行プランは、多 数のルート、多数のノード及び多数のリーフの組合せを含むことができる。 図2に示した実行プラン200は、比較的単純である。多数の用途に対して、 本発明による実行プランは、数千の問合せ(例えば、10,000)を含むこと ができ、従って、実行プランは、数千のノード(例えば、100,000)及び 数千のリーフ(例えば、1,000,000)をもつことになる。更に、実行プ ラン200は、図2では二次元で表すことができるが、各ノードが多数の他のノ ード及びリーフに接続でき、そして各リーフが多数のノードに接続できるような 非常に複雑な実行プランは、表示のために多数の次元を必要とする。 実行プラン200は、4つの形式の証拠演算子(=、STEM、WORD及び WILDCARD)と、5つの形式の合成演算子(AND、NEAR、ACCR UE、OR及びIN)とを含む。更に一般的には、本発明による実行プランは、 非常に多数の証拠及び合成演算子のいずれを含むこともできる。本発明に使用で きる例示のための1組の演算子を以下に説明する。これらの演算子の更に詳細な 説明は、カリフォルニア州マウンテンビューのベリティ社により製造される市販 のTopic(登録商標)ツール製品に付随するユーザーズマニュアルになされ ている。このユーザーズマニュアルの当該部分(特に第12章)を参考としてこ こに取り上げる。 示されたように、本発明による問合せを構成するのに使用できる演算子は、次 の2つの広い分類に入る。即ち、1)証拠を記述するのに使用できる証拠演算子 及び2)問合せ項を合成するのに使用できる合成演算子。証拠演算子は、例えば フィールドをベースとする演算子、ワードをベースとする演算子、拡張演算子、 及び日付をベースとする演算子を含むことができる。合成演算子は、例えば、接 近演算子及び数学的演算子を含むことができる。 フィールドをベースとする証拠演算子は、フィールド内に現れ得る特定の証拠 を定義するために証拠パターンを変更する。ここでは、「フィールド」は、発行 の著者、題名又は日付のようなデータセットの属性である。フィールドをベース とする証拠演算子は、例えば、次の演算子、即ち<、>、=、≧、≦、STAR T、ENDS、SUBSTRING、WILDCARD(フィールドベース)及 びCONTAINSを含むことができる。<、>、=、≧及び≦の各演算子は、 数字又はアルファニューメリックのストリングとして表される証拠パターンとの 比較(特定の演算子により指示される)に基づいて証拠を定義する。START 及びEND演算子は、特定のフィールドが、各々、アルファニューメリックスト リングとして表される証拠パターンで開始又は終了することを特定する。SUB STRING演算子は、特定のフィールドが、アルファニューメリックストリン グとして表される証拠パターンをフィールド内のどこかに含むことを特定する。 WILDCARD(フィールドベースの)演算子は、特定のフィールドが、フィ ールド内のどこかに、ある制約を受けて、アルファニューメリックストリングと して表される証拠パターンを含むことを特定する。CONTAINS演算子は、 SUBSTRING及びWILDCARD演算子の混合であり、特定のフィール ドが、句読点に関連せずに、アルファニューメリックストリングとして表される 証拠パターンを含むことを特定する。 ワードをベースとする証拠演算子は、データセットと共にどこかに現れ得る特 定の証拠を定義するために証拠パターンを変更する。ワードをベースとする証拠 演算子は、例えば、次の演算子、即ちWORD、STEM、SOUNDEX、W ILDCARD及びTYPOを含むことができる。WORD演算子は、アルファ ニューメリックストリングとして表される証拠パターンに厳密に一致する証拠を 特定する。STEM演算子は、アルファニューメリックストリングとして表され る証拠パターンと同じ言語学的形態を有する証拠を特定する。SOUNDEX演 算子は、アルファニューメリックストリングとして表される証拠パターンと発音 的に同様の証拠を特定する(このような決定をなすための多数の標準的な方法の いずれかを用いて)。WILDCARD演算子は、証拠内のどこかに、ある制 約を受けて、アルファニューメリックストリングとして表される証拠パターンを 含む証拠を特定する。TYPO演算子は、アルファニューメリックストリングと して表される証拠パターンとスペリングが同様の証拠を特定する(2つのワード 間の文字の相違をカウントする方法を用いて)。 拡張の証拠演算子は、オープンエンド式に特定の証拠を定義するように証拠パ ターンを変更する。拡張の証拠演算子は、例えば、次の演算子、即ちTHESA URS及びSUGGESTを含むことができる。THESAURS演算子は、テ キストワードとして表される証拠パターンの全ての辞書導出同義語を含む証拠を 特定する。SUGGEST演算子は、テキストワードとして表される証拠パター ンの全ての統計学的関連ワードを含む証拠を特定する(例えば、ワード「levera ged」は、証拠パターンが「buyout」であるときにSUGGEST演算子を満足 する。 日付をベースとする証拠演算子は、その証拠が一部分であるところのデータセ ットが形成された時間に基づき特定の証拠を定義するために証拠パターンを変更 する。日付をベースとする証拠演算子は、例えば、次の演算子、即ちRECEN T及びRANGEを含むことができる。RECENT演算子は、現在時間から特 定の時間周期内に形成された証拠を定義する。RANGE演算子は、特定の時間 範囲内に形成された証拠を定義する。 接近合成演算子は、データセット内における問合せ項の互いの位置を評価させ る。接近合成演算子は、例えば、次の演算子、即ちNEAR、WITHIN、P ARAGRAPH、SENTENCE、ADJACENT、PHRASE、IN 及びIN/WHENを含むことができる。NEAR演算子は、データセット内の 2つの問合せ項の接近度を評価し、そしてその接近度を表す得点を報告する。W ITHIN演算子は、2つの問合せ項が互いに特定の接近度内にあるかどうかを 評価する。PARAGRAPH演算子は、2つの問合せ項が定義されたパラグラ フ内にあるかどうか評価する。SENTENCE演算子は、2つの問合せ項が定 義されたセンテンス内にあるかどうか評価する。ADJACENT演算子は、2 つの問合せ項がデータセット内で互いに隣接するかどうか評価する。PHRAS E演算子は、2つの問合せ項がデータセット内で互いに指定の順序で 隣接するかどうか評価する。IN演算子は、2つの問合せ項がデータセット内の 定義されたゾーン内にあるかどうか評価する。IN/WHEN演算子は、データ セット内の定義されたゾーンがある特定の属性を有するときに2つの問合せ項が そのゾーン内にあるかどうか評価する。 数学的合成演算子は、問合せ項の合成を評価する。数学的合成演算子は、例え ば、次の演算子、即ちAND、OR、ACCRUE、AVERAGE、SUM、 PRODUCT、NOT及びCOMPLEMENTを含むことができる。AND 演算子は、問合せ項の「最悪」の値を確かめるために、1組の問合せ項を評価す る。OR演算子は、問合せ項の「最良」の値を確かめるために、1組の問合せ項 を評価する。ACCRUE演算子は、特定の値を有する問合せ項の数をカウント する。AVERAGE演算子は、1組の問合せ項の平均値を計算する。SUM演 算子は、1組の問合せ項の和を計算する。PRODUCT演算子は、1組の問合 せ項の積を計算する。NOT演算子は、証拠記述子がデータセット内に現れない かどうか確かめる。COMPLEMENT演算子は、証拠記述子の逆数がデータ セット内に完全に現れるかどうか確かめる。 更に、問合せ項は、変更子を含むこともできる。これら変更子は、その名前が 示す通り、上記演算子の1つ以上を変更するのに使用できる。本発明に使用でき る変更子は、例えば、MANY、CASE及びORDERを含む。MANY変更 子は、証拠記述子又は問合せ項を満足するのに必要とされるように、変更される 演算子に適するように、証拠記述子又は問合せ項の値の発生の増加レベルを特定 する。MANY変更子は、ワードベースの証拠演算子及び接近合成演算子を変更 するのに使用できる。CASE変更子は、証拠のケース(大文字又は小文字)が 証拠記述子のものと一致しなければならないことを特定する。このCASE変更 子は、フィールドベースの証拠演算子及びワードベースの証拠演算子を変更する のに使用できる。ORDER変更子は、問合せ項がデータセット内で特定の順序 になければならないことを特定する。ORDER変更子は、接近合成演算子を変 更するのに使用できる。 本発明による実行プランと共に使用できる証拠記述子の形式は、一般に、評価 されるべきデータセットから形成できる証拠の形式に対応する。図2の実行プラ ン200は、Word、Field及びZone証拠記述子を含む。より一般的 には、本発明による実行プランは、多数の形式の証拠記述子のいずれを含むこと もできる。使用できる証拠記述子の幾つかの例を、証拠形成装置101(図1) で形成できる証拠の形式に関して上記で説明した。 図2に戻ると、ルート201は問合せ1を表す。問合せ1は、Joe Smithによ り著作されそしてステム「bank」("banking","banker"及び"banks"のような) を有するワードを含むテキスト文書(即ち、データセット)により満足される。 リーフ221は、文書がJoe Smithにより著作されることを必要とする証拠記述 子を表す。リーフ221の証拠記述子は、フィールド証拠演算子「=」及び証拠 パターン「Joe Smith」を使用し、テキスト文書のフィールド「Author」に現れ ねばならない特定形式の証拠を定義する。リーフ22は、基本形態が「bank」で あるワードを文書が含むことを必要とする証拠記述子を表す。リーフ22の証拠 記述子は、ワード証拠演算子STEM及び証拠パターン「bank」を使用し、テキ スト文書のどこかに現れねばならない特定形式の証拠を定義する。ノード211 は、リーフ221及び222の証拠記述子を数学的合成演算子ANDに接続し、 完全な問合せ1を形成する。 ルート202は、問合せ2を表す。問合せ2は、問合せ1を満足するテキスト 文書であって、テキスト文書のワード「stock」の発生頻度に問合せ1を関連さ せる至近度制約を満足するテキスト文書によって満足される。リーフ223は、 ワード「stock」が文書に発生することを必要とする証拠記述子を表す。リーフ 223の証拠記述子は、ワード証拠演算子WORD、証拠パターン「stock」、 及び変更子MANYを使用して、文書におけるワード「stock」の特定の所定の 発生頻度により満足される特定形式の証拠を定義する。ノード212は、ノード 211(ひいては、問合せ1)を接近度合成演算子NEARと共にリーフ223 の証拠記述子に接続して、完全な問合せ2を形成する。 ルート203は、問合せ3を表す。問合せ3は、テキスト文書中に「tech」で 始まるワード、ワード「hitech」又はワード「stock」の充分な発生を含むテキ スト文書により満足される。リーフ224は、「tech」で始まるワードが文書中 に生じることを必要とする証拠記述子を表す。リーフ224の証拠記述子は、ワ ード証拠演算子WILDCARD及び証拠パターン「tech」を使用して、テキス ト文書中のどこかに現れねばならない特定形式の証拠を定義する。リーフ225 は、文書中にワード「hitech」が生じることを必要とする証拠記述子を表す。リ ーフ225の証拠記述子は、ワード証拠演算子WORD及び証拠パターン「hite ch」を使用して、テキスト文書中のどこかに現れねばならない特定形式の証拠を 定義する。ノード214は、リーフ224及び225の証拠記述子を数学的合成 演算子ORに接続して、「tech」で始まるワード又はワード「hitech」の発生に より満足される問合せ項を形成する。ノード213は、ノード214(ひいては それに対応する問合せ項)を数学的合成演算子ACCRUEと共にリーフ223 の証拠記述子に接続して、完全な問合せ3を形成する。 ルート204は問合せ4を表す。問合せ4は、文書の脚注においてノード21 4により定義された問合せ項により求められる証拠を含むテキスト文書により満 足される。リーフ226は、テキスト文書が脚注ゾーンを含むことを必要とする 証拠記述子を表す。リーフ226の証拠記述子は、フィールド証拠演算子「=」 及び証拠パターン「footnote」を使用して、テキスト文書に現れねばならない特 定形式のゾーンを定義する。ノード215は、ノード214(ひいては、そのノ ードにより定義された問合せ項)を接近度合成演算子INと共にリーフ226の 証拠演算子に接続し、完全な問合せ4を形成する。 図1に戻ると、証拠は、問合せプロセッサ103に入力される。問合せプロセ ッサ103は、問合せプロセッサ103により形成された実行プランの問合せに 対して証拠の各断片を評価する。データセットからの証拠の断片は、証拠記述子 と比較される。証拠の断片が証拠記述子に一致するときは、その対応する証拠記 述子に一致する証拠の断片の識別が記録される。特定の証拠記述子に一致する証 拠を識別する情報は、問合せ項の将来の評価に必要となる。証拠記述子が一致す ると、その一致した証拠記述子を含む各問合せ項も評価される。満足された問合 せ項が識別される。問合せ項が満足されたときには、満足された問合せ項を含む 付加的な問合せ項も評価される。問合せの全ての問合せ項及び/又は証拠記述子 が満足されると、その問合せは、データセットにより満足されるものと識別され る。満足された問合せ項及び証拠記述子の評価、識別、そして問合せ項の更なる 評価は、上記のように、データセットの全ての証拠が処理されるか、又は(本発 明を使用する通常の場合にはあり得ないが)全ての問合せが満足として識別され るまで、続けられる。通常、データセットの全ての証拠が評価されるが、これは 必ずしも必要ではない。というのは、多くの場合に、データセットが実行プラン の問合せのいずれかを満足するかどうかを決定するのにデータセットの全部より 少ない証拠の評価で充分だからである。 上記のように、証拠の断片及び証拠記述子は、どちらも、形式に基づいて分類 することができる。本発明の1つの実施形態では、実行プランの一部分である証 拠記述子の形式に関する情報が証拠形成装置101に入力される。証拠形成装置 101は、実行プランに現れる証拠記述子の形式に対応する形式の証拠のみをデ ータセットから形成することができる。 データセットからの証拠の各断片は、実行プランの全ての証拠記述子と比較す ることができる。しかしながら、本発明の別の実施形態では、証拠の各断片が、 同じ形式の証拠記述子のみと比較される。証拠の断片は、全ての証拠記述子では なく、全ての証拠記述子のサブセットと比較するだけでよいので、この実施形態 は、実行プランに対するデータセットの評価を更に迅速にする。 更に、証拠及び証拠記述子の異なる分類に対して異なるマッチング技術を使用 することができ、選択される技術は、その分類に使用するのに特に好都合なもの である。例えば、ワイルドカード証拠と証拠記述子との間の一致を決定するのに 有限の状態マシンを使用することができる。フィールド証拠と証拠記述子との間 の一致を決定するのに2進サーチ方法を使用することができる。ワード証拠と証 拠記述子との間の一致を決定するのにハッシュツリーを使用することができる。 証拠及び証拠記述子の各分類ごとに最適なマッチング技術を使用すると、実行プ ランに対して本発明でデータセットを評価できる速度が更に高められる。 上記のように、本発明による実行プランは、多数の異なる形式の証拠演算子、 合成演算子及び変更子を含むことができる。これら演算子及び/又は変更子の幾 つか(複雑な演算子)、例えば、NEAR演算子又はMANY変更子を含む問合 せ項の評価は、かなり複雑でありそして時間浪費である。これは、演算子の評価 プロセスが複雑であり、及び/又は演算子を含む問合せ項が満足されるかどうか を決定するのにデータセットの証拠の大部分の評価を演算子が必要とするからで ある。他の演算子(単純な演算子)を含む問合せ項の評価は、AND及びOR演 算子を使用する場合のように比較的単純である。以下に述べるように、本発明の 実施形態による方法は、複雑な演算子と単純な演算子を評価できるところの容易 さの相違を利用して、大きな1組の複雑な問合せに対するデータセットの2段階 評価を、これまで可能である以上の大巾に迅速化できるようにする。 図3A及び3Bは、データセットの内容を評価して、データセットが1つ以上 の問合せを満足するかどうか決定するための本発明による方法300を示すフロ ーチャートである。図4Aないし4Eは、上記の実行プラン200(図2)の概 略図で、方法300の作用の特徴を示す。図1のシステム100において、方法 300は、問合せプロセッサ103により実行される。上記のように、本発明は 実行プランに対してデータセットを2つの段階で評価する。データセットにより 満足される候補問合せの識別は、方法300において、ステップ301ないし3 11で実行される。候補問合せの各々に対してデータセットを評価して、データ セットが候補問合せのいずれかを満足するかどうか決定することが、方法300 においてステップ312で行われる。 一般的に述べると、本発明の評価方法の第1段階は、複雑な演算子を含む問合 せ項を簡単化し、全ての問合せに対するデータセットの迅速なおおよその評価を 行えるようにすることを含む。このおおよその評価は、問合せが近似された(即 ち、問合せを満足するための制約が緩和された)ときでもデータセットにより満 足できない全ての問合せを更なる考慮から排除することにより候補問合せ(即ち データセットにより満足させることのできる問合せ)を識別する。近似された問 合せ項に対してデータセットを評価することのできる高い速度は、たとえ実際に 問合せ(即ち、非近似問合せ)が満足されなくても、ある近似された問合せがデ ータセットにより満足されると思われる強い見込みにより反作用される。しかし ながら、候補問合せを更に評価する必要性に付随する悪影響が、速度の上昇によ る相殺以上のものとなる。その結果、本発明の2段階解決策は、問合せを処理す る能力を従来の場合より更に迅速なものにする。 本発明の特定の実施形態においては、近似ステップ301は、実行プランの全 ての演算子をブール化することにより達成される。ここで、「ブール化」とは、 実行プランの各演算子を、ブールのAND又はブールのORのいずれかのブール 演算子へと再定義することを指す。例えば、問合せ項の表現の各々が同じパラグ ラフに現れる場合に満足される演算子PARAGRAPHは、ブール化されたと きに、ブールのAND演算子と置き換えられ、各表現が同じデータセットに現れ ることしか必要としない。図4Aは、実行プラン200の合成演算子のブール近 似の後の実行プラン200を示す。テーブルBは、本発明に使用できる幾つかの 合成演算子のブール近似を示す。 実行プランのブール化に使用されるブールのAND及びORは、ブール化の前 の実行プランの一部分であるAND及びOR演算子よりも更に制限を受けること に注意されたい。ブールのAND及びORは、単に、ブールのAND又はORを 含む問合せ項の一部分である証拠記述子又は問合せ項を満足することのできる証 拠の発生(ブール演算子に対して適当な)によりトリガーされる。非近似の実行 プランに使用されるAND及びOR演算子は、問合せ項の有無に対するテストほ ど単純でなく、問合せ項又は問合せ項の一部分である証拠記述子の数学的な評価 を含む。 ブール化は、各問合せ項の評価をブール表現の単純な分析とすることができ、 これは、問合せ項に対応するノードのトリガー動作を生じる。ノードは、それが アクチベートされた(ノードに対応する問合せ項が満足された)とき、又はノー ドがデアクチベートされた(ノードに対応する問合せ項が満足状態から除外され た)ときにトリガーされる。 又、証拠演算子を近似することもできる。例えば、証拠パターンにスペリング が類似している証拠を特定するTYPO演算子は、2つのワードの共通である文 字の数又は割合を計算する演算子により近似することができる。或いは、数字の 平方根(これは比較的複雑な計算である)を計算する演算子のような数学演算子 を、平方根の計算を近似する一連の他の簡単な数学的演算で近似することもでき る。或いは、比較的複雑な評価を必要とする事象(例えば、合併及び取得)をサ ーチする演算子を、簡単な評価しか必要としない簡単な演算子(例えば、同じ文 書における2つの会社名の発生)で近似することもできる。 問合せ項の演算子が近似されると、データセットの評価が始まる。ステップ3 02において、証拠の断片がデータセットから選択される。方法300は、証拠 の断片を実行プランの1つ以上の証拠記述子と比較させる。それ故、証拠の断片 が選択された後に、証拠記述子がステップ303に示すように選択される。ステ ップ304において、証拠の断片が証拠記述子と比較される。証拠の断片が証拠 記述子に一致しない場合には、次いで、ステップ310において、証拠の断片と 比較されておらず、比較されるべきである別の証拠記述子が実行プランにあるか どうかの判断がなされる。もしそうであれば、証拠記述子が選択され(ステップ 303)そして比較される(ステップ304)。さもなくば、ステップ311に おいて、実行プランにおける1つ以上の証拠記述子と比較されるべき証拠の別の 断片がデータセットにあるかどうかの判断がなされる。もしあれば、証拠の別の 断片がデータセットから選択される(ステップ302)。もしなければ、ステッ プ312において、以下に詳細に述べるように、問合せの問合せ項のいずれかの 演算子の近似を伴わずに、候補問合せとして識別された各問合せが評価される。 ステップ304において、証拠の断片が証拠記述子に一致しない場合には、ス テップ305において、対応する証拠記述子に一致した証拠の断片の識別が記録 される。この情報は、各候補問合せのその後の評価に有用である。 ステップ306において、一致した証拠記述子により表されるリーフが既にト リガーされたかどうか(即ち、現在評価されているデータセットの証拠の以前の 断片により一致されたものとして識別される)の判断がなされる。もしそうであ れば、方法300は、証拠の現在断片とまだ比較されておらず、比較されるべき である別の証拠記述子が実行プランにあるかどうかの判断(ステップ310)を 行うことにより続けられる。もしそうでなければ、ステップ307において、リ ーフがトリガーされる。図4Bは、例えば、評価されている文書におけるワード 「technology」の発生により実行プラン200においてリーフ224をアクチベ ートすることを示している。(アクチベーションは、図4Bないし4Eでは、リ ーフ又はノードを取り巻く斜線陰影付け領域で示されている。) ステップ308において、新たなリーフがトリガーされた後に、実行プランに おいてトリガーされたリーフ又はノードに接続される各非トリガーノードに関連 した問合せ項が評価され、非トリガーノードのトリガー状態が決定される。この 評価は、ノードのアクチベーション又はデアクチベーションを生じる(ノードが トリガーされた場合)か、又はそのいずれも生じない(ノードがトリガーされな い場合)。ノードがトリガーされた場合には、実行プランにおいて新たにトリガ ーされたノードに接続される各非トリガーノードに関連した問合せ項が評価され て、非トリガーノードのトリガー状態が決定される。非トリガーノードの問合せ 項を評価するプロセスは、トリガーされたノードに接続された各ノードに関連し た問合せ項が評価されるまで続けられる。図4Cは、リーフ224のアクチベー ションから生じる実行プラン200のノード214のアクチベーションを示す。 ノード214は、ノード214の演算子を使用して形成された問合せ項がブール のOR演算子により近似されているので、直ちにアクチベートされる。 ステップ309において、全ての関連ノード及びリーフがアクチベートされる ところの各ルートがそれ自体アクチベートされ、そしてそれに対応する問合せが 候補問合せとして識別される。図4Dは、実行プラン200におけるルート20 3のアクチベーションを示し、これは、ルート203により表された問合せの全 てのノード(ノード213及び214)のアクチベーションにより生じる。ルー ト203は、問合せの一部分である全てのノードがブールのOR演算子により近 似されるので、直ちにアクチベートされる。 次いで、もし適当であれば、証拠の断片が他の証拠記述子と比較され(ステッ プ310)、そして証拠の残りの断片も証拠記述子と比較される(ステップ31 1)。証拠の各断片が新たな証拠記述子と比較されそして証拠の更なる断片がチ ェックされるときに、実行プランの付加的なリーフ及びノードがトリガーされ、 このトリガー動作は実行プランにわたってカスケード状となる。本発明の重要な 特徴は、リーフ又はノードがトリガーされると、そのリーフ又はノードを考えら れるトリガー動作に対してもはや評価する必要がなく、従って、相当迅速に実行 プランに対してデータセットを評価することができる。 図4Eは、次の文書の近似評価が完了した後の実行プラン200を示す。次の 文書も脚注ゾーンを含むので、リーフ226がアクチベートされている。又、リ ーフ226及びノード214の両方がアクチベートされるので、ノード215も アクチベートされる。ノード215は、リーフ226がアクチベートされるまで アクチベートできないことに注意されたい。というのは、ノード215がブール のAND演算子により近似されるからである。又、ノード215のアクチベーシ ョンは、ルート204のアクチベーションも生じる。 データセットの証拠の全ての断片が実行プランの証拠記述子に対してチェック された後に、通常は、候補問合せとして識別される問合せが1つ以上存在する。 もちろん、候補問合せとして全く問合せが識別されないことも考えられ、この場 合には、方法300が終了し、データセットは、実行プランのいずれの問合せも 満足しないものとして識別される。しかしながら、データセットにより満足され る多数の近似問合せが存在することは良くある。図4Eにおいて、ルート203 及び204により表される問合せは、候補問合せとして識別されている。 ステップ312において、各候補問合せは、厳格に且つ完全に評価され、即ち 問合せのいずれの問合せ項も近似せずに評価される。図4Eに示す実行プラン2 00において、例えば、ルート204の候補問合せは、テキスト文書の脚注ゾー ンにワード「technology」が現れた場合に満足される。多くの状態において、数 千の問合せを有する実行プランは、候補問合せとして識別された問合せを何十と いう程度しかもたないことになる。上記のように、近似された問合せの評価は、 一般に、近似されない問合せの評価よりも著しく迅速に達成できるので、候補問 合せの識別及び評価は、問合せ項を近似せずに各問合せの評価を行える場合より も著しく迅速に行うことができる。更に、上記の証拠記述子及び問合せ項の共用 は、近似評価及び完全評価の両方を、そうでない場合に可能であるよりも迅速に 行うことができるようにする。 データセットの証拠が評価された後に、データセットが1つ以上の問合せを満 足することを問合せプロセッサ103が決定した場合には、その問合せ又は問合 せのセット及びデータセットを識別する情報が結果マネージャー102へ転送さ れる。結果マネージャー102は、識別情報を表示することもできるし、或いは 識別情報を使用して適当なデータセットを表示することもできる。表示は、ここ では、情報をユーザ(1人又は複数)へ搬送する適当な手段、例えば、ビデオデ ィスプレイ装置の表示、ペーパの印刷、又はファクシミリ送信を包含する。それ に加えて又はそれとは別に、結果マネージャー102は、識別情報及びデータセ ットを結果記憶装置106に記憶させることができる。 記憶された識別情報は、適当な仕方で構成することができる。例えば、各問合 せを満足するデータセットのリストを記憶することができる。(データセットが 例えばテキスト文書である場合には、リストは、当該テキスト文書のファイル名 を含むことができる。)それに加えて又はそれとは別に、各データセットを満足 する問合せのリストを記憶することができる。 本発明によれば、多数のデータセットを同時に評価することができる。これは 各データセットの評価に使用するために実行プランの独特のバージョンを記憶す るか、又はスレッディングのような従来のマルチ処理技術を用いて多数のデータ ストリーム間に実行プランを共用することにより行われる。 本発明は、多数の様々な形式のデータセットの評価に広く適用されることが明 らかであろう。例えば、本発明は、任意の数のテキスト文書の各々を評価して、 1つ以上のテキスト文書がテキスト文書の内容に関して任意の数のユーザ特有の 問合せのいずれかを満足するかどうか決定するのに使用できる。特定例として、 本発明は、多数のユーザの各々に対し、ニュースワイヤサービスにより送信され るニュースストーリーをリアルタイムで監視するのに使用できる。このような監 視の一部分として、本発明は、例えば、各ニュースストーリーを評価して、ニュ ースストーリーが合併や取得のような話題に関連した情報を含むかどうか決定す るのに使用できる。更に、本発明は、例えば、ニュースストーリーに含まれた情 報が、連邦準備会(Federal Reserve)による利率変更の通知の後の特定の何週間 といった特定の当該期間に関係しているかどうか決定するのに使用できる。想像 がつくように、これらの制約を記述する問合せの形式は、通常は、かなり複雑で ある。というのは、制約が満足されるかどうかを評価するのに使用できるニュー スストーリーの情報の表現が様々な形態をとり得るからである。従って、この特 定例は、問合せがしばしば複雑である状態での本発明の適用を示す。(このよう な問合せの数は、例えば、到来するニュースストーリーを監視しようとするユー ザが多数いる場合には、かなり大きなものとなる。)上記のように、本発明は、 非常に多数のデータセット(ここでは、テキスト文書)を従来の評価方法よりも 著しく迅速に評価することができる。例えば、90MHzインテル・ペンティウ ムプロセッサを含むコンピュータシステムを使用すると、本発明は、1秒当たり 約2ないし3の通常のニュースワイヤストーリーを評価して、ニュースワイヤス トーリーのどれ(もしあれば)が100,000以上の複雑な(即ち20ないし 40の問合せ項を含む)問合せのいずれを満足するか決定することができる。 別の例として、本発明は、データベースの任意の数のフィールドの各々を評価 して、1つ以上のフィールドがフィールドの内容に関して任意の数のユーザ特有 の問合せのいずれかを満足するかどうか決定するのに使用できる。例えば、本発 明は、航空機座席予約データベースを監視するのに使用できる。このような監視 の一部分として、本発明は、特定の期間中に特定の行先へのフライト(1つ又は 複数)に関連したフィールドを監視し、既に完全に予約されたこのようなフライ トを利用できるかどうか決定するのに使用できる。想像がつくことであるが、こ のような監視のための問合せは、通常は、簡単である。しかしながら、このよう な情報を監視している旅行代理店が多数あり、従って、問合せの数がかなり多く なる。従って、この特定例は、問合せは簡単であるが問合せ数が非常に多い状態 における本発明の適用を示す。 データベースを監視する本発明の更に別の使用例として、本発明は、組織のカ スタマーサービス代表者になされたコールに関するデータを含むコール追跡デー タベースを監視するのに使用できる。各コールの内容、及びコールのグループに 対する累積統計情報を表すデータベースから証拠を形成することができる。この ような監視の一部分として、本発明は、「オープンコール」(即ち何らかの形態 で処理されていないコール)の数に関連したフィールドを監視するために適当な 問合せを特定し、各カスタマーサービス代表者が所定のスレッシュホールドをそ の数が越えるときを確認するのに使用できる。又、「クローズレート」(即ち、 何らかの形態で処理されたコールの割合)を決定するためにデータベースのフィ ールドを監視するように適当な問合せを構成し、各カスタマーサービス代表者が スレッシュホールドよりもそのレートが下がったときを確認することもできる。 又、特定の話題に関して受け取った苦情の累積数を監視して、その数が所定量を 越えるときを確認するように適当な問合せを構成することもできる。又、コール がオープン状態に留まる時間の長さを監視するように適当な問合せを特定して、 所定の時間長さより長くオープンしたコールを識別することができる。例えば、 特定のワード処理プログラムに伴う重大な問題に関連したコールに対してオープ ン時間の長さを監視するこの最後の形式の問合せは、例えば、(PRODUCT =”XYZ wordprocessing program”)AND(OP EN>”1 week”)AND(ACCRUE MANY”crash”OR ”halt”OR”fault”OR”corrupt”)として表すことがで きる。 又、本発明は、完全に数値情報のストリームより成るデータセットを監視する のにも使用できる。例えば、本発明は、株価、利率及び通貨交換レートのような 常時更新される金融情報のデータストリームを監視するのに使用できる。データ 流から抽出される証拠は、特定の時期の特定の株価、利率及び通貨交換レートで ある。例えば、裁定取引の機会を識別するためにこの情報に関する適当な問合せ (例えば、特定の証拠記述子の数学的組合せ)を構成することができる。 更に、本発明は、フィルタとして使用することもできる。例えば、本発明は、 データの流れ(例えば、インターネットやテレビジョンのようなソースからの音 声、映像又はテキストデータ)を監視する内容ベースの「キッド・フィルタ」と して使用することができ、従って、データが子供にアクセスされる前に不適切な 資料を除去することができる。 本発明の種々の実施形態について説明した。これらの説明は、単なる例示に過 ぎず、何らこれに限定されるものではない。従って、請求の範囲から逸脱せずに 本発明に種々の変更がなされ得ることが当業者に明らかであろう。
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,DE, DK,ES,FI,FR,GB,GR,IE,IT,L U,MC,NL,PT,SE),OA(BF,BJ,CF ,CG,CI,CM,GA,GN,ML,MR,NE, SN,TD,TG),AP(KE,LS,MW,SD,S Z,UG),UA(AM,AZ,BY,KG,KZ,MD ,RU,TJ,TM),AL,AM,AT,AU,AZ ,BA,BB,BG,BR,BY,CA,CH,CN, CU,CZ,DE,DK,EE,ES,FI,GB,G E,HU,IL,IS,JP,KE,KG,KP,KR ,KZ,LC,LK,LR,LS,LT,LU,LV, MD,MG,MK,MN,MW,MX,NO,NZ,P L,PT,RO,RU,SD,SE,SG,SI,SK ,TJ,TM,TR,TT,UA,UG,UZ,VN 【要約の続き】 せのおおよその評価により満足される。第2に、候補問 合せの各々が完全に評価されて、その候補問合せがデー タセットにより満足されるかどうか決定される。

Claims (1)

  1. 【特許請求の範囲】請求の範囲 1.データセットを評価して、そのデータセットが複数の問合せの1つ以上を満 足するかどうか決定する方法であって、データセットの内容は証拠の1つ以上 の断片によって記述することができ、上記問合せは、各問合せが1つ以上の他 の問合せに作動的に関連付けされるように問合せの実行プランに配列され、複 数の問合せの各々は、1つ以上の問合せ項を含み、各問合せ項は、合成演算子 に関連付けることのできる1つ以上の証拠記述子を含み、各証拠記述子は、証 拠の断片又は証拠の1つ以上の断片の特性を記述し、上記方法は、 証拠の各断片を1つ以上の証拠記述子と比較し、 証拠の断片により満足される各証拠記述子を識別し、 満足された証拠記述子含む各問合せ項又は満足された別の問合せ項をを評価 して、その問合せ項が満足されるかどうか決定し、そして 全ての問合せ項が満足された各問合せを、データセットにより満足された問 合せとして識別する、 という段階を備えたことを特徴とする方法。 2.少なくとも1つの問合せ項は、作動的に関連付けされた問合せ項の各々の一 部分である少なくとも1つの証拠記述子を共用することにより別の問合せ項に 作動的に関連付けされる請求項1に記載の方法。 3.上記比較段階は、更に、 証拠記述子の各々の形式を識別し、 証拠の各断片の形式を識別し、そして 証拠の各断片を、証拠のその断片と同じ形式のものである各証拠記述子と比 較する、 という段階を含む請求項2に記載の方法。 4.証拠の1つ以上の形式を定義し、 証拠記述子の1つ以上の形式を識別し、そして 証拠の1つ以上の形式を、証拠記述子の識別された1つ以上の形式に応答し て変更する、 という段階を更に備えた請求項2に記載の方法。 5.上記比較段階は、更に、 証拠記述子の各々の形式を識別し、 証拠の各断片の形式を識別し、そして 証拠の各断片を、証拠のその断片と同じ形式のものである各証拠記述子と比 較する、 という段階を含む請求項1に記載の方法。 6.証拠の1つ以上の形式を定義し、 証拠記述子の1つ以上の形式を識別し、そして 証拠の1つ以上の形式を、証拠記述子の識別された1つ以上の形式に応答し て変更する、 という段階を更に備えた請求項5に記載の方法。 7.証拠の1つ以上の形式を定義し、 証拠記述子の1つ以上の形式を識別し、そして 証拠の1つ以上の形式を、証拠記述子の識別された1つ以上の形式に応答し て変更する、 という段階を更に備えた請求項1に記載の方法。 8.データセットを評価し、少なくとも1つの証拠記述子を各々含む複数の問合 せから、上記データセットにより満足することのできる各候補問合せを識別で きるようにする方法において、 証拠記述子の各々の形式を識別し、 データセットにおける証拠の各断片の形式を識別し、 データセットにおける証拠の各断片を、その証拠の断片と同じ形式のもので ある証拠記述子の各々と比較し、そして 証拠の断片により満足される証拠記述子の各々を識別し、満足された証拠記 述子を含む問合せのみが候補問合せとなるようにする、 という段階を備えたことを特徴とする方法。 9.比較段階を含む段階は、比較されるエレメント及び証拠記述子の形式に依存 する請求項8に記載の方法。 10.複数のデータセットが評価される請求項1に記載の方法。 11.複数のデータセットが順次に評価される請求項1に記載の方法。 12.各データセットに対して複数の問合せの複製を確立し、そして複数のデータ セットの各々は、複数の問合せの1つを用いて同時に評価される請求項1に記 載の方法。 13.上記データセットは、テキストデータである請求項1に記載の方法。 14.上記データセットは、データベースとして構成される請求項1に記載の方法 。 15.データセットを評価して、そのデータセットが複数の問合せの1つ以上を満 足するかどうか決定する方法において、 データセットにより満足することのできる1つ以上の候補問合せを識別し、 そして 候補問合せの各々を評価し、もしあればどの候補問合せがデータセットによ り満足されるかを決定する、 という段階を備えたことを特徴とする方法。 16.複数の問合せは、各問合せが1つ以上の他の問合せに作動的に関連するよう に問合せの実行プランに配列される請求項11に記載の方法。 17.データセットの内容は、証拠の1つ以上の断片で記述することができ、 複数の問合せの各々は、1つ以上の問合せ項を含み、各問合せ項は、合成演 算子に関連付けることのできる1つ以上の証拠記述子を含み、各証拠記述子は 、証拠の断片、又は証拠の1つ以上の断片の特性を記述し、そして 少なくとも1つの問合せ項は、作動的に関連した問合せ項の各々の一部分で ある少なくとも1つの証拠記述子を共用することにより別の問合せ項に作動的 に関連付けされる請求項11に記載の方法。 18.上記識別段階は、更に、 1つ以上の問合せ項の近似を確立して、その近似された問合せ項の実行プラ ンを形成し、 近似された問合せ項の実行プランにおける問合せ項を評価して、その近似さ れた問合せ項の実行プランにおいてもしあればどの問合せがデータセットによ り満足されるかを決定し、そして 問合せの全ての問合せ項が満足されるところの近似された問合せ項の実行プ ランにおける各問合せを候補問合せとして識別する、 という段階を含む請求項17に記載の方法。 19.上記識別段階は、更に、 各証拠記述子の形式を識別し、 証拠の各断片の形式を識別し、 証拠の各断片を、証拠のその断片と同じ形式のものである各証拠記述子と比 較し、そして 証拠の断片により満足される各証拠記述子を識別し、満足された証拠記述子 を含む問合せのみが候補問合せとなるようにする、 という段階を含む請求項17に記載の方法。 20.上記識別段階は、更に、 1つ以上の問合せ項の近似を確立して、その近似された問合せ項の実行プラ ンを形成し、 近似された問合せ項の実行プランにおける問合せ項を評価して、その近似さ れた問合せ項の実行プランにおいてもしあればどの問合せがデータセットによ り満足されるかを決定し、そして 問合せの全ての問合せ項が満足されるところの近似された問合せ項の実行プ ランにおける各問合せを候補問合せとして識別する、 という段階を含む請求項19に記載の方法。 21.証拠の1つ以上の形式を定義し、 証拠記述子の1つ以上の形式を識別し、そして 証拠の1つ以上の形式を、証拠記述子の識別された1つ以上の形式に応答し て変更する、 という段階を更に備えた請求項20に記載の方法。 22.証拠の1つ以上の形式を定義し、 証拠記述子の1つ以上の形式を識別し、そして 証拠の1つ以上の形式を、証拠記述子の識別された1つ以上の形式に応答し て変更する、 という段階を更に備えた請求項17に記載の方法。 23.データセットの内容は、証拠の1つ以上の断片で記述することができ、 複数の問合せの各々は、1つ以上の問合せ項を含み、各問合せ項は、合成演 算子に関連付けることのできる1つ以上の証拠記述子を含み、各証拠記述子は 、証拠の断片、又は証拠の1つ以上の断片の特性を記述し、そして 上記識別段階は、更に、 各証拠記述子の形式を識別し、 証拠の各断片の形式を識別し、 証拠の各断片を、証拠のその断片と同じ形式のものである各証拠記述子と比 較し、そして 証拠の断片により満足される各証拠記述子を識別し、満足された証拠記述子 を含む問合せのみが候補問合せとなるようにする、 という段階を含む請求項15に記載の方法。 24.上記識別段階は、更に、 1つ以上の問合せ項の近似を確立して、その近似された問合せ項の実行プラ ンを形成し、 近似された問合せ項の実行プランにおける問合せ項を評価して、その近似さ れた問合せ項の実行プランにおいてもしあればどの問合せがデータセットによ り満足されるかを決定し、そして 問合せの全ての問合せ項が満足されるところの近似された問合せ項の実行プ ランにおける各問合せを候補問合せとして識別する、 という段階を含む請求項23に記載の方法。 25.上記識別段階は、更に、 1つ以上の問合せ項の近似を確立して、その近似された問合せ項の実行プラ ンを形成し、 近似された問合せ項の実行プランにおける問合せ項を評価して、その近似さ れた問合せ項の実行プランにおいてもしあればどの問合せがデータセットによ り満足されるかを決定し、そして 問合せの全ての問合せ項が満足されるところの近似された問合せ項の実行プ ランにおける各問合せを候補問合せとして識別する、 という段階を含む請求項15に記載の方法。 26.証拠の1つ以上の形式を定義し、 証拠記述子の1つ以上の形式を識別し、そして 証拠の1つ以上の形式を、証拠記述子の識別された1つ以上の形式に応答し て変更する、 という段階を更に備えた請求項23に記載の方法。 27.上記複数の問合せは、証拠の断片が証拠記述子を満足するかどうか確認する ために、データセットの内容の一部分を表す証拠の1つ以上の断片と比較され 得る複数の証拠記述子を含み、上記方法は、更に、 証拠の1つ以上の形式を定義し、 証拠記述子の1つ以上の形式を識別し、そして 証拠の1つ以上の形式を、証拠記述子の識別された1つ以上の形式に応答し て変更する、 という段階を更に備えた請求項15に記載の方法。 28.データセットを評価して、そのデータセットが1つ以上の問合せを満足する かどうか決定するのに使用する方法であって、上記1つ以上の問合せは、証拠 の断片が証拠記述子を満足するかどうか確認するために、データセットの内容 の一部分を表す証拠の1つ以上の断片と比較することのできる複数の証拠記述 子を含み、上記方法は、 証拠の1つ以上の形式を定義し、 証拠記述子の1つ以上の形式を識別し、そして 証拠の1つ以上の形式を、証拠記述子の識別された1つ以上の形式に応答し て変更する、 という段階を更に備えたことを特徴とする方法。 29.証拠の1つ以上の断片を形成する段階を更に備え、証拠の各断片は、変更さ れた形式の1つである請求項28に記載の方法。 30.上記変更段階は、更に、1つの証拠記述子の形式として識別される形式を上 記定義された形式に追加することを含む請求項28に記載の方法。 31.上記変更段階は、更に、1つの証拠記述子の形式として識別されない形式を 上記定義された形式から削除することを含む請求項28に記載の方法。 32.データセットを評価して、そのデータセットが1つ以上の問合せを満足する かどうかを決定するのに使用するために問合せの実行プランを構成する方法に おいて、 複数の問合せを入力し、そして 各問合せを別の問合せに作動的に関連付ける、 という段階を備えたことを特徴とする方法。 33.作動的に関連付ける上記段階は、問合せに作動的に関連付けされる問合せを 互いに識別することを含む請求項32に記載の方法。 34.各問合せを1つ以上の問合せ項へと変換する段階を更に備え、1つ以上の手 前の問合せの後に入力される付加的な問合せに対して、作動的に関連付ける上 記段階は、更に、 付加的な問合せの入力問合せ項の各々を、実行プランの一部分として既に存 在する問合せ項と比較して、もしあれば入力問合せ項のどれが既存の問合せ項 と異なるかを決定し、 その異なる入力問合せ項の各々ごとに、既存の問合せ項と同じ入力問合せ項 に対する1つ以上の関係を識別し、そして その異なる入力問合せ項を実行プランに追加して、その異なる入力問合せ項 が実行プランの既存の問合せ項に対しその異なる問合せ項とそれに対応する入 力問合せ項との関係と同じ関係をもつようにする、 という段階を含む請求項32に記載の方法。 35.各問合せを1つ以上の問合せ項へと変換し、そして 実行プランから問合せを除去するという段階を更に含み、この除去段階は、 更に、 除去されるべき問合せの問合せ項の各々を、実行プランの一部分として存 在する他の問合せの問合せ項と比較して、除去されるべき問合せの問合せ項が もしあればどれが他の既存の問合せ項と異なるかを決定し、そして その異なる問合せ項を実行プランから除去する、 という段階を含む請求項32に記載の方法。 36.データセットの内容は、証拠の1つ以上の断片で記述することができ、そし て上記方法は、更に、 各問合せを1つ以上の問合せ項へと変換し、各問合せ項は、合成演算子に関 連付けできる1つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は 証拠の1つ以上の断片の特性を記述し、そして 作動的に関連付けされた問合せ項の各々の一部分である少なくとも1つの証 拠記述子を共用することにより少なくとも1つの問合せ項を別の問合せ項に作 動的に関連させる、 という段階を含む請求項32に記載の方法。 37.1つ以上の手前の問合せの後に入力される付加的な問合せに対し、作動的に 関連付けさせる上記段階は、更に、 付加的な問合せの入力問合せ項の各々を、実行プランの一部分として既に存 在する問合せ項と比較して、もしあれば入力問合せ項のどれが既存の問合せ項 と異なるかを決定し、 その異なる入力問合せ項の各々ごとに、既存の問合せ項と同じ入力問合せ項 に対する1つ以上の関係を識別し、そして その異なる入力問合せ項を実行プランに追加して、その異なる入力問合せ項 が実行プランの既存の問合せ項に対しその異なる問合せ項とそれに対応する入 力問合せ項との関係と同じ関係をもつようにする、 という段階を含む請求項36に記載の方法。 38.少なくとも1つの証拠記述子又は合成演算子に対し、その証拠記述子又は合 成演算子の対応する近似を定義する段階を更に備えた請求項37に記載の方法。 39.少なくとも1つの証拠記述子又は合成演算子に対し、その証拠記述子又は合 成演算子の対応する近似を定義する段階を更に備えた請求項36に記載の方法。 40.少なくとも1つの問合せ項を別の問合せ項に作動的に関連付けする上記の段 階は、作動的に関連付けされた問合せ項の一部分である少なくとも1つの合成 演算子を共用することを含む請求項36に記載の方法。 41.データセットの内容は、証拠の1つ以上の断片で記述することができ、そし て上記方法は、更に、 各問合せを1つ以上の問合せ項へと変換し、各問合せ項は、合成演算子に関 連付けできる1つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は 証拠の1つ以上の断片の特性を記述し、そして 各同等の証拠記述子又は合成演算子を共用することにより、各問合せ項を、 その同等の証拠記述子又は合成演算子を含む他の各々の問合せ項に作動的に関 連させる、 という段階を含む請求項32に記載の方法。 42.データセットを評価して、そのデータセットが1つ以上の問合せを満足する かどうか決定するのに使用するための問合せの実行プランを構成する方法であ って、データセットの内容は、証拠の1つ以上の断片で記述することができ、 上記方法は、 複数の問合せを入力し、 各問合せを1つ以上の問合せ項へと変換し、各問合せ項は、合成演算子に関 連付けできる1つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は 証拠の1つ以上の断片の特性を記述し、そして 少なくとも1つの証拠記述子又は合成演算子に対し、証拠記述子又は合成演 算子の対応する近似を定義する、 という段階を備えたことを特徴とする方法。 43.上記定義段階は、更に、各証拠記述子又は合成演算子に対し、証拠記述子又 は合成演算子の対応する近似を定義することを含む請求項42に記載の方法。 44.データセットを評価して、そのデータセットが複数の問合せの1つ以上を満 足するかどうか決定するのに使用するための実行プランにおいて、この実行プ ランの各問合せが実行プランの別の問合せに作動的に関連されたことを特徴と する実行プラン。 45.各問合せは、その問合せに作動的に関連された各々の他の問合せを識別する 請求項44に記載の実行プラン。 46.データセットを評価して、そのデータセットが複数の問合せの1つ以上を満 足するかどうか決定するのに使用するための実行プランにおいて、データセッ トの内容は、証拠の1つ以上の断片で記述することができ、各問合せは1つ以 上の問合せ項を含み、各問合せ項は、合成演算子に関連付けすることのできる 1つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の1つ以 上の断片の特徴を記述し、少なくとも1つの証拠記述子が2つ以上の問合せ項 によって共用されることを特徴とする実行プラン。 47.上記実行プランは、2つ以上の問合せ項によって共用される少なくとも1つ の合成演算子を含む請求項46に記載の実行プラン。 48.少なくとも1つの証拠記述子又は合成演算子に対して、証拠記述子又は合成 演算子の対応する近似が定義される請求項46に記載の実行プラン。 49.データセットを評価して、そのデータセットが複数の問合せの1つ以上を満 足するかどうか決定するのに使用するための実行プランにおいて、データセッ トの内容は、証拠の1つ以上の断片で記述することができ、各問合せは1つ以 上の問合せ項を含み、各問合せ項は、合成演算子に関連付けすることのできる 1つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠の1つ以 上の断片の特徴を記述し、別の問合せ項の証拠記述子に等価な問合せ項の各証 拠記述子がその問合せ項と共用され、そして別の問合せ項の合成演算子に等価 な問合せ項の各合成演算子がその問合せ項と共用されることを特徴とする実行 プラン。 50.データセットを評価して、そのデータセットが複数の問合せの1つ以上を満 足するかどうか決定するのに使用するための実行プランにおいて、データセッ トの内容は、証拠の1つ以上の断片で記述することができ、各問合せは1つ以 上の問合せ項を含み、各問合せ項は、合成演算子に作動的に関連付けすること のできる1つ以上の証拠記述子を含み、各証拠記述子は、証拠の断片又は証拠 の1つ以上の断片の特徴を記述し、少なくとも1つの証拠記述子又は合成演算 子に対して、証拠記述子又は合成演算子の対応する近似が定義されることを特 徴とする実行プラン。 51.各証拠記述子又は合成演算子に対して、証拠記述子又は合成演算子の対応す る近似が定義される請求項50に記載の実行プラン。 52.データセットを評価して、そのデータセットが複数の問合せの1つ以上を満 足するかどうか決定するシステムであって、データセットの内容は証拠の1つ 以上の断片によって記述することができ、上記問合せは、各問合せが1つ以上 の他の問合せに作動的に関連付けされるように問合せの実行プランに配列され 、複数の問合せの各々は、1つ以上の問合せ項を含み、各問合せ項は、合成演 算子に関連付けることのできる1つ以上の証拠記述子を含み、各証拠記述子は 、証拠の断片又は証拠の1つ以上の断片の特性を記述し、上記システムは、 証拠の各断片を1つ以上の証拠記述子と比較する手段と、 証拠の断片により満足される各証拠記述子を識別する手段と、 満足された証拠記述子含む各問合せ項又は満足された別の問合せ項をを評価 して、その問合せ項が満足されるかどうか決定する手段と、 全ての問合せ項が満足された各問合せを、データセットにより満足された問 合せとして識別する手段と、 を備えたことを特徴とするシステム。 53.データセットを評価し、少なくとも1つの証拠記述子を各々含む複数の問合 せから、上記データセットにより満足することのできる各候補問合せを識別で きるようにするシステムにおいて、 証拠記述子の各々の形式を識別する手段と、 データセットにおける証拠の各断片の形式を識別する手段と、 データセットにおける証拠の各断片を、その証拠の断片と同じ形式のもので ある証拠記述子の各々と比較する手段と、 証拠の断片により満足される証拠記述子の各々を識別する手段とを備え、満 足された証拠記述子を含む問合せのみが候補問合せとなるようにすることを特 徴とするシステム。 54.データセットを評価して、そのデータセットが複数の問合せの1つ以上を満 足するかどうか決定するシステムにおいて、 データセットにより満足することのできる1つ以上の候補問合せを識別する ための手段と、 候補問合せの各々を評価し、もしあればどの候補問合せがデータセットによ り満足されるかを決定するための手段と、 を備えたことを特徴とするシステム。 55.データセットを評価して、そのデータセットが1つ以上の問合せを満足する かどうか決定するのに使用するシステムであって、上記1つ以上の問合せは、 証拠の断片が証拠記述子を満足するかどうか確認するために、データセットの 内容の一部分を表す証拠の1つ以上の断片と比較することのできる複数の証拠 記述子を含み、上記システムは、 証拠の1つ以上の形式を定義する手段と、 証拠記述子の1つ以上の形式を識別する手段と、 証拠の1つ以上の形式を、証拠記述子の識別された1つ以上の形式に応答し て変更する手段と、 を備えたことを特徴とするシステム。 56.データセットを評価して、そのデータセットが1つ以上の問合せを満足する かどうかを決定するのに使用するために問合せの実行プランを構成するシステ ムにおいて、 複数の問合せを入力する手段と、 各問合せを別の問合せに作動的に関連付ける手段と、 を備えたことを特徴とするシステム。 57.データセットを評価して、そのデータセットが1つ以上の問合せを満足する かどうか決定するのに使用するための問合せの実行プランを構成するシステム であって、データセットの内容は、証拠の1つ以上の断片により記述すること ができ、上記システムは、 複数の問合せを入力する手段と、 各問合せを1つ以上の問合せ項へと変換する手段とを備え、各問合せ項は、 合成演算子に関連付けできる1つ以上の証拠記述子を含み、各証拠記述子は、 証拠の断片又は証拠の1つ以上の断片の特性を記述し、そして 少なくとも1つの証拠記述子又は合成演算子に対し、証拠記述子又は合成演 算子の対応する近似を定義する手段を備えたことを特徴とするシステム。
JP9524607A 1996-01-02 1996-12-31 多数の及び/又は複雑な問合せを用いたデータセットの内容の評価 Ceased JP2000503144A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US08/581,853 US5778364A (en) 1996-01-02 1996-01-02 Evaluation of content of a data set using multiple and/or complex queries
US08/581,853 1996-01-02
PCT/US1996/020858 WO1997024686A1 (en) 1996-01-02 1996-12-31 Evaluation of the content of a data set using multiple and/or complex queries

Publications (2)

Publication Number Publication Date
JP2000503144A true JP2000503144A (ja) 2000-03-14
JP2000503144A5 JP2000503144A5 (ja) 2004-10-28

Family

ID=24326837

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9524607A Ceased JP2000503144A (ja) 1996-01-02 1996-12-31 多数の及び/又は複雑な問合せを用いたデータセットの内容の評価

Country Status (11)

Country Link
US (1) US5778364A (ja)
EP (1) EP0976061A1 (ja)
JP (1) JP2000503144A (ja)
KR (1) KR100565871B1 (ja)
AP (1) AP934A (ja)
AU (1) AU708217B2 (ja)
EA (1) EA001738B1 (ja)
IL (1) IL125188A0 (ja)
NZ (1) NZ326982A (ja)
OA (1) OA10805A (ja)
WO (1) WO1997024686A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259425A (ja) * 2001-02-28 2002-09-13 Hitachi Ltd 統合データベースシステムにおける問合せ最適化方法
JP2014517382A (ja) * 2011-05-02 2014-07-17 アマデウス エス.エイ.エス 繰り返されるサーチリクエストを最適化する改良された予約システムのための方法及びシステム

Families Citing this family (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7349892B1 (en) 1996-05-10 2008-03-25 Aol Llc System and method for automatically organizing and classifying businesses on the World-Wide Web
US20030164856A1 (en) * 1996-06-28 2003-09-04 Randy Prager Desktop, stream-based, information management system
US6006227A (en) * 1996-06-28 1999-12-21 Yale University Document stream operating system
US5878410A (en) * 1996-09-13 1999-03-02 Microsoft Corporation File system sort order indexes
US6256627B1 (en) * 1997-07-08 2001-07-03 At&T Corp. System and method for maintaining a knowledge base and evidence set
EP1062603B9 (en) 1998-03-16 2004-07-28 Array Technology APS A database useful for configuring and/or optimizing a system and a method for generating the database
US6253202B1 (en) * 1998-09-18 2001-06-26 Tacit Knowledge Systems, Inc. Method, system and apparatus for authorizing access by a first user to a knowledge profile of a second user responsive to an access request from the first user
US6377949B1 (en) 1998-09-18 2002-04-23 Tacit Knowledge Systems, Inc. Method and apparatus for assigning a confidence level to a term within a user knowledge profile
US6154783A (en) 1998-09-18 2000-11-28 Tacit Knowledge Systems Method and apparatus for addressing an electronic document for transmission over a network
AU5910699A (en) * 1998-09-18 2000-04-10 Tacit Knowledge Systems Method of constructing and displaying an entity profile constructed utilizing input from entities other than the owner
WO2000017727A2 (en) 1998-09-18 2000-03-30 Tacit Knowledge Systems Method and apparatus for querying a user knowledge profile
US8380875B1 (en) 1998-09-18 2013-02-19 Oracle International Corporation Method and system for addressing a communication document for transmission over a network based on the content thereof
US6115709A (en) * 1998-09-18 2000-09-05 Tacit Knowledge Systems, Inc. Method and system for constructing a knowledge profile of a user having unrestricted and restricted access portions according to respective levels of confidence of content of the portions
US6347256B1 (en) 1998-11-02 2002-02-12 Printcafe System, Inc. Manufacturing process modeling techniques
US6321133B1 (en) 1998-12-04 2001-11-20 Impresse Corporation Method and apparatus for order promising
US6279009B1 (en) 1998-12-04 2001-08-21 Impresse Corporation Dynamic creation of workflows from deterministic models of real world processes
US6546364B1 (en) 1998-12-18 2003-04-08 Impresse Corporation Method and apparatus for creating adaptive workflows
US6493711B1 (en) 1999-05-05 2002-12-10 H5 Technologies, Inc. Wide-spectrum information search engine
US6711585B1 (en) * 1999-06-15 2004-03-23 Kanisa Inc. System and method for implementing a knowledge management system
US6289340B1 (en) 1999-08-03 2001-09-11 Ixmatch, Inc. Consultant matching system and method for selecting candidates from a candidate pool by adjusting skill values
US8051104B2 (en) 1999-09-22 2011-11-01 Google Inc. Editing a network of interconnected concepts
US7925610B2 (en) * 1999-09-22 2011-04-12 Google Inc. Determining a meaning of a knowledge item using document-based information
US8914361B2 (en) * 1999-09-22 2014-12-16 Google Inc. Methods and systems for determining a meaning of a document to match the document to content
WO2001067225A2 (en) * 2000-03-06 2001-09-13 Kanisa Inc. A system and method for providing an intelligent multi-step dialog with a user
US6721724B1 (en) * 2000-03-31 2004-04-13 Microsoft Corporation Validating multiple execution plans for database queries
US6668251B1 (en) 2000-11-01 2003-12-23 Tacit Knowledge Systems, Inc. Rendering discriminator members from an initial set of result data
US20040111386A1 (en) * 2001-01-08 2004-06-10 Goldberg Jonathan M. Knowledge neighborhoods
US6738764B2 (en) 2001-05-08 2004-05-18 Verity, Inc. Apparatus and method for adaptively ranking search results
JP2003157376A (ja) * 2001-11-21 2003-05-30 Ricoh Co Ltd ネットワークシステム、識別情報管理方法、サーバ装置、プログラム、および記録媒体
US20030154254A1 (en) * 2002-02-14 2003-08-14 Nikhil Awasthi Assisted messaging for corporate email systems
US9805373B1 (en) 2002-11-19 2017-10-31 Oracle International Corporation Expertise services platform
US7590693B1 (en) 2003-07-17 2009-09-15 Avaya Inc. Method and apparatus for restriction of message distribution for security
US7133861B2 (en) * 2003-12-04 2006-11-07 International Business Machines Corporation Query access plan rebuilds
US7689536B1 (en) 2003-12-18 2010-03-30 Google Inc. Methods and systems for detecting and extracting information
US20050283458A1 (en) * 2004-06-22 2005-12-22 Microsoft Corporation Automatic detection of frequently used query patterns in a query workload
US8051096B1 (en) 2004-09-30 2011-11-01 Google Inc. Methods and systems for augmenting a token lexicon
US7996208B2 (en) 2004-09-30 2011-08-09 Google Inc. Methods and systems for selecting a language for text segmentation
US7680648B2 (en) 2004-09-30 2010-03-16 Google Inc. Methods and systems for improving text segmentation
US8843536B1 (en) 2004-12-31 2014-09-23 Google Inc. Methods and systems for providing relevant advertisements or other content for inactive uniform resource locators using search queries
US7979457B1 (en) 2005-03-02 2011-07-12 Kayak Software Corporation Efficient search of supplier servers based on stored search results
US8271542B1 (en) 2006-01-03 2012-09-18 Robert V London Metadata producer
US7251646B1 (en) * 2006-02-13 2007-07-31 Microsoft Corporation Minimal difference query and view matching
US8126750B2 (en) * 2006-04-27 2012-02-28 Microsoft Corporation Consolidating data source queries for multidimensional scorecards
US9058307B2 (en) 2007-01-26 2015-06-16 Microsoft Technology Licensing, Llc Presentation generation using scorecard elements
US8495663B2 (en) 2007-02-02 2013-07-23 Microsoft Corporation Real time collaboration using embedded data visualizations
US20110113052A1 (en) * 2007-06-08 2011-05-12 Hoernkvist John Query result iteration for multiple queries
US7840585B2 (en) * 2007-06-12 2010-11-23 Microsoft Corporation DISCOSQL: distributed processing of structured queries
US20090006347A1 (en) * 2007-06-29 2009-01-01 Lucent Technologies Inc. Method and apparatus for conditional search operators
US8797178B2 (en) * 2008-03-10 2014-08-05 Microsoft Corporation Efficient stream sharing for multi-user sensor data collection
US8457948B2 (en) * 2010-05-13 2013-06-04 Expedia, Inc. Systems and methods for automated content generation
US9037568B1 (en) 2013-03-15 2015-05-19 Google Inc. Factual query pattern learning
US9424311B2 (en) 2014-03-20 2016-08-23 International Business Machines Corporation Query routing based on complexity class determination
US10108712B2 (en) 2014-11-19 2018-10-23 Ebay Inc. Systems and methods for generating search query rewrites
US9727607B2 (en) * 2014-11-19 2017-08-08 Ebay Inc. Systems and methods for representing search query rewrites
US9626430B2 (en) 2014-12-22 2017-04-18 Ebay Inc. Systems and methods for data mining and automated generation of search query rewrites
GB2572132A (en) 2018-02-08 2019-09-25 George Thompson Trevor Document analysis method and apparatus
US11790017B2 (en) * 2021-04-30 2023-10-17 CS Disco, Inc. Systems and methods for searching related documents and associated search operators

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3618027A (en) * 1970-03-27 1971-11-02 Research Corp Associative memory system with reduced redundancy of stored information
GB1491706A (en) * 1974-06-19 1977-11-16 Int Computers Ltd Information storage apparatus
JP2760794B2 (ja) * 1988-01-29 1998-06-04 株式会社日立製作所 データベース処理方法および装置
US5218536A (en) * 1988-05-25 1993-06-08 Franklin Electronic Publishers, Incorporated Electronic spelling machine having ordered candidate words
US5043872A (en) * 1988-07-15 1991-08-27 International Business Machines Corporation Access path optimization using degrees of clustering
US5335345A (en) * 1990-04-11 1994-08-02 Bell Communications Research, Inc. Dynamic query optimization using partial information
US5442778A (en) * 1991-11-12 1995-08-15 Xerox Corporation Scatter-gather: a cluster-based method and apparatus for browsing large document collections
JP2792293B2 (ja) * 1991-11-29 1998-09-03 日本電気株式会社 情報検索装置
JPH0652022A (ja) * 1992-06-01 1994-02-25 Hewlett Packard Co <Hp> データベースへのアクセス時の応答時間を最少化する方法
US5412807A (en) * 1992-08-20 1995-05-02 Microsoft Corporation System and method for text searching using an n-ary search tree
US5488722A (en) * 1993-05-28 1996-01-30 International Business Machines Corporation System and method for automating implementation and execution of constraint most likely to be violated in a database
DE19515020A1 (de) * 1994-07-01 1996-01-04 Hewlett Packard Co Verfahren und Vorrichtung zum Optimieren von Abfragen mit Gruppieren-nach-Operatoren
US5608904A (en) * 1995-02-13 1997-03-04 Hewlett-Packard Company Method and apparatus for processing and optimizing queries having joins between structured data and text data
US5649221A (en) * 1995-09-14 1997-07-15 Crawford; H. Vance Reverse electronic dictionary using synonyms to expand search capabilities

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002259425A (ja) * 2001-02-28 2002-09-13 Hitachi Ltd 統合データベースシステムにおける問合せ最適化方法
JP4543563B2 (ja) * 2001-02-28 2010-09-15 株式会社日立製作所 統合データベースシステムにおける問合せ最適化方法
JP2014517382A (ja) * 2011-05-02 2014-07-17 アマデウス エス.エイ.エス 繰り返されるサーチリクエストを最適化する改良された予約システムのための方法及びシステム

Also Published As

Publication number Publication date
KR100565871B1 (ko) 2006-10-24
EP0976061A1 (en) 2000-02-02
WO1997024686A1 (en) 1997-07-10
AU2083997A (en) 1997-07-28
EA001738B1 (ru) 2001-08-27
AP9801282A0 (en) 1998-09-30
EA199800623A1 (ru) 1999-02-25
IL125188A0 (en) 1999-03-12
US5778364A (en) 1998-07-07
NZ326982A (en) 2000-01-28
KR19990076970A (ko) 1999-10-25
OA10805A (en) 2001-07-05
AP934A (en) 2001-04-05
AU708217B2 (en) 1999-07-29

Similar Documents

Publication Publication Date Title
JP2000503144A (ja) 多数の及び/又は複雑な問合せを用いたデータセットの内容の評価
US6826576B2 (en) Very-large-scale automatic categorizer for web content
US9542393B2 (en) Method and system for indexing and searching timed media information based upon relevance intervals
JP4644420B2 (ja) ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置
US7007015B1 (en) Prioritized merging for full-text index on relational store
US7266553B1 (en) Content data indexing
US9424294B2 (en) Method for facet searching and search suggestions
CA2490451C (en) Dynamic content clustering
US8131724B2 (en) System for similar document detection
US20040148155A1 (en) System and method for generating a taxonomy from a plurality of documents
JP2000137738A (ja) 複数の細分度のインデックス付けとクエリ―処理を効果的に用いてクエリ―の拡張を支援する方法、及び装置
US7024405B2 (en) Method and apparatus for improved internet searching
JP2005525657A (ja) データベースシステムにおける式の管理
WO2009063925A1 (ja) 文書管理・検索システムおよび文書の管理・検索方法
EP2243093A1 (en) Method and system for discovery and modification of data clusters and synonyms
US20060053169A1 (en) System and method for management of data repositories
US8682913B1 (en) Corroborating facts extracted from multiple sources
Strzalkowski Natural language processing in large-scale text retrieval tasks
CN115964495A (zh) 一种新闻类事件脉络梳理方法及系统
CN114547309A (zh) 一种基于改进tfidf的文本特征选择方法
JP2002183175A (ja) テキストマイニング方法
CA2241873C (en) Evaluation of the content of a data set using multiple and/or complex queries
EA002016B1 (ru) Способ поиска хранимых на устройствах хранения данных электронных документов и их фрагментов
EP1258815B1 (en) A process for extracting keywords
Jakubowski Discovering synonyms with use of frequent itemsets and association rules

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060808

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20061108

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20061225

A313 Final decision of rejection without a dissenting response from the applicant

Free format text: JAPANESE INTERMEDIATE CODE: A313

Effective date: 20070323

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20070508