JP4425641B2 - 構造化ドキュメントの検索 - Google Patents

構造化ドキュメントの検索 Download PDF

Info

Publication number
JP4425641B2
JP4425641B2 JP2004001489A JP2004001489A JP4425641B2 JP 4425641 B2 JP4425641 B2 JP 4425641B2 JP 2004001489 A JP2004001489 A JP 2004001489A JP 2004001489 A JP2004001489 A JP 2004001489A JP 4425641 B2 JP4425641 B2 JP 4425641B2
Authority
JP
Japan
Prior art keywords
document
elements
term
search
computer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004001489A
Other languages
English (en)
Other versions
JP2004213675A (ja
Inventor
ジロン ウェン
ハン ツィ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft Corp
Original Assignee
Microsoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft Corp filed Critical Microsoft Corp
Publication of JP2004213675A publication Critical patent/JP2004213675A/ja
Application granted granted Critical
Publication of JP4425641B2 publication Critical patent/JP4425641B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61JCONTAINERS SPECIALLY ADAPTED FOR MEDICAL OR PHARMACEUTICAL PURPOSES; DEVICES OR METHODS SPECIALLY ADAPTED FOR BRINGING PHARMACEUTICAL PRODUCTS INTO PARTICULAR PHYSICAL OR ADMINISTERING FORMS; DEVICES FOR ADMINISTERING FOOD OR MEDICINES ORALLY; BABY COMFORTERS; DEVICES FOR RECEIVING SPITTLE
    • A61J3/00Devices or methods specially adapted for bringing pharmaceutical products into particular physical or administering forms
    • A61J3/07Devices or methods specially adapted for bringing pharmaceutical products into particular physical or administering forms into the form of capsules or similar small containers for oral use
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3341Query execution using boolean model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61JCONTAINERS SPECIALLY ADAPTED FOR MEDICAL OR PHARMACEUTICAL PURPOSES; DEVICES OR METHODS SPECIALLY ADAPTED FOR BRINGING PHARMACEUTICAL PRODUCTS INTO PARTICULAR PHYSICAL OR ADMINISTERING FORMS; DEVICES FOR ADMINISTERING FOOD OR MEDICINES ORALLY; BABY COMFORTERS; DEVICES FOR RECEIVING SPITTLE
    • A61J2200/00General characteristics or adaptations
    • A61J2200/40Heating or cooling means; Combinations thereof
    • A61J2200/42Heating means
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61JCONTAINERS SPECIALLY ADAPTED FOR MEDICAL OR PHARMACEUTICAL PURPOSES; DEVICES OR METHODS SPECIALLY ADAPTED FOR BRINGING PHARMACEUTICAL PRODUCTS INTO PARTICULAR PHYSICAL OR ADMINISTERING FORMS; DEVICES FOR ADMINISTERING FOOD OR MEDICINES ORALLY; BABY COMFORTERS; DEVICES FOR RECEIVING SPITTLE
    • A61J2200/00General characteristics or adaptations
    • A61J2200/70Device provided with specific sensor or indicating means
    • A61J2200/72Device provided with specific sensor or indicating means for temperature
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/956Hierarchical
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99937Sorting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)

Description

本発明は、ドキュメントの検索に関し、より詳細には、構造化ドキュメントの検索に関する。
コンピュータ、ネットワーク、インターネット等の使用が増大するに伴って、ドキュメントが、しばしば、ある用語に関して探索される。例えば、特定のトピックに関して探索を行う個人または学生が、その用語に関してネットワーク化されたコンピュータ上で、独立型コンピュータ上で、またはインターネットを介して特定の探索エンジンを使用して電子ドキュメント(以下、「ドキュメント」という。)を探索することが可能である。探索エンジンは、コンピュータベースのドキュメント検索技術を使用してその用語を含むドキュメントのリストを戻す。しばしば、クエリに関して検索されたドキュメントは、それぞれの特定のドキュメントがクエリの行われた用語にどれだけよくマッチしているかに従ってランク付けされる。ユーザは、しばしば、ドキュメント全体を考慮して、特定の探索用語がどこに存在するかを特定しなければならない。
しばしば、コンピュータ内部の記憶位置が、あるドキュメントを階層構造で記憶する。階層構造に依存するeXtensible Markup language(XML)などのある構造化コンピュータ言語は、データを構造的に編成して特定のセクションまたは特定の要素にするタグ、または類似のデバイスを使用する。検索された構造化ドキュメントでは、ユーザは、しばしば、ドキュメント内で用語に関する文脈を見付けるのに、各ドキュメント内でどこに特定の探索用語が存在しているかに気付いていない。このさらなるユーザによる時間と労力は、幅広いクエリの場合、相当なものである可能性がある。
多くのドキュメント検索システムは、ドキュメントがさらに細分されることが不可能であるような、クエリが行われて戻されることが可能な比較的小さいサイズの別々の検索単位として、ドキュメントを見なす。しばしば、検索されたドキュメントは、ユーザが意味のある仕方で解析するには大きすぎる。したがって、ユーザは、しばしば、デジタルライブラリコンピュータアプリケーションにおいて検索されたドキュメント全体を注意深く検討して、関係のある用語の位置、および/または関係のある用語の文脈を特定しなければならない。
節(passage)検索は、原則として、ドキュメント検索と同様であるが、ドキュメントから節を抜き出す追加の予備的段階が関与する。節検索の一態様は、ユーザにより簡潔な答えを戻す。これを達するのに、例えば、用語頻度逆ドキュメント頻度(term frequency inverse document frequency)(TFIDF)アルゴリズム、またはこのアルゴリズムの変種を使用してドキュメントを固定長部分または事前定義された部分に分解して、節レベルまたは段落レベルで索引を構築することができる。ただし、多くのドキュメント検索システムが依存するこの索引付け方法は、ドキュメント内の要素の間で意味関係を保持しない。さらに、この索引付け機構により、多くの個別の検索された要素が、意味のあるテキストをユーザに提示するのに相当なコンピュータ作業を必要とする形態でもたらされる可能性がある。
本開示は、構造化ドキュメントを検索するためのスケーリング可能な方法および関連するシステムに関する。
一態様では、プロセスおよび関連するシステムが、複数の構造化ドキュメントを含むデータベースの探索用語に関するクエリを行うことを含む。探索用語を含まない構造化ドキュメントは、初期探索中に探し出される(ferreted)か、または濾過されて除かれる。探索用語を含む構造化ドキュメントであるマッチする構造化ドキュメントは、各個別要素が探索用語にどれだけよくマッチするかに基づいて個別要素をランク付けすることによって評価される。このランク付け評価は、少なくともいくつかの個別要素にユーザがアクセスできるような形でユーザに示される。
別の態様では、プロセスには、探索用語に関する複数の要素を有するドキュメントのクエリを行うことが関与する。相異なる要素の関連性に、探索用語に基づいて重み付けが行われる。相異なる要素に、重み付けされた相異なる要素に応答してランク付けが行われる。さらに、ドキュメント内の複数の要素のパス構造が表示され、パス構造は、ドキュメント内の相異なる要素の関連性を示す。構造化ドキュメントの要素は、ドキュメントの構造に基づいてスケーリングされる。
図面すべてで、同様の特徴および同様の構成要素を同じ番号で示している。
ドキュメント検索システムは、探索エンジンに依拠して、ユーザによって提供された1つまたは複数の所与の探索用語または探索語に基づいて関係のあるドキュメントを探し出し、大概、表示する。ドキュメント検索システムは、インターネットの時代においてより多く使用されている(また、より困難な処理を行うことが要求されている)。構造化ドキュメント検索システム100の異なる実施形態、異なる実施形態が図1および2に示されており、構造化ドキュメントを検索するのに特に適している。Standard Generalized Markup Language(SGML)およびeXtensible Markup Language(XML)が、構造化ドキュメントを生成し、利用する最新のコンピュータ言語の例である。構造化ドキュメント検索システム100は、ドキュメント全体を検索するのではなく、ユーザのクエリからの索引用語に基づいてドキュメントの最も関係のある部分を検索する。SGMLおよびXMLは、ユーザによって定義されることが可能なタグを使用して、ドキュメント内でデータ内容を異なる仕方で分類することができる。タグは、ドキュメントの内容、ならびに外観を定義することができる。ツリー構造または階層構造に構成されたドキュメントを生成することができる任意のコンピュータ言語が、本明細書で説明する構造化ドキュメント検索プロセスを利用することができる。
構造化ドキュメントは、意味のある情報検索に特に適している。というのは、ドキュメントの構造(例えば、階層)により、各セクション内に記憶されているデータに関する情報が提供されることが可能だからである。本開示の一態様は、探索エンジンがどのように、探索に関係のあるドキュメントの部分(例えば、部分は、タグ、または何らかの他の類似の機構で区別されている)を探索し、検索することができるかを説明する。構造化ドキュメント検索システムは、適切な細分性を有する構造化ドキュメントを戻すことができる。ドキュメントの細分性は、ドキュメントをどれだけ細分することができるかを示すことができる。細分性は、別々の要素にドキュメントを分割する可能性の度合いを表わす。一般に、構造化ドキュメントは高い度合いの細分性を有し、構造化されていないドキュメントは、高い細分性を欠いているが、この原則には、例外が存在する。
本開示の別の態様は、複数の構造化ドキュメントにおける複数のパスのうち1つのパスを探索し、使用することが、どのように索引付けスキームを利用するかを説明する。構造化ドキュメント検索システムは、構造化ドキュメントの関係のある部分をそれ自体で、またはドキュメントのその他の部分に対する何らかの関連において表示することができる。
図1は、クライアント部分102、サーバ部分104、データベース部分106、およびネットワーク部分108を含む構造化ドキュメント検索システム100(ネットワークベースの)の一実施形態を示している。図1に示した構造化ドキュメント検索システム100の実施形態は、ネットワークベースである。クライアント部分102とサーバ部分104は、標準のネットワーク通信プロトコルを使用してネットワーク部分108を介してインターフェースし、両部分の間でデータを転送する。システムコールが、ネットワーク部分108を介して転送されてデータ転送プロセスを助ける。通常の動作中、サーバ部分104が、データベース部分106からのデータにアクセスする。構造化ドキュメント検索システム100は、ユーザ(クライアント部分102における)からのクエリに基づくある探索用語に関してベースとされるデータベース106の中に記憶されているドキュメントを探索する。
構造化ドキュメント検索システム100の図2の実施形態は、独立型コンピュータ202、およびデータベース部分106(データベース部分は、独立型コンピュータの一部分であることが可能である)を含む。独立型コンピュータ202は、図1に示した結合されたクライアント部分102、サーバ部分104、およびネットワーク部分108と同様の仕方で、データベース部分106(モニタ上で見られる)から構造化ドキュメントを検索することができる。このため、構造化ドキュメント検索システムによってアクセスされるデータベース部分106は、図2に示した独立型コンピュータ、または図1に示したネットワークシステムを伴って構成される。データベース部分106は、それぞれ図1および2で、ネットワークまたは独立型コンピュータとは別個の構成要素として示しているが、現実には、データベース部分は、ネットワークまたは独立型コンピュータと一体化することができる。構造化ドキュメント検索システム100に関連することが可能であるようなコンピュータ構造のさらなる詳細を以下に説明する。
異なる実施形態では、データベース部分106が、XML形式、HyperText Markup Language(HTML)形式、SGML形式、またはその他の構造化された形式で記憶されたデータを含む構造化ドキュメントを記憶する。HTMLは、インターネット上で現在、圧倒的に使用されているマークアップ言語である。HTMLドキュメントは、通常、独自の構造を有する。HTMLは、コンピュータディスプレイ上で表示される色、フォント等を定義するのに最も一般的に使用される。構造化ドキュメント検索システム100の多くの実施形態では、例えば、XMLやSGMLと比べて、構造化されたクエリでHTMLを使用することの方が困難である。というのは、HTMLは、従来、内容スタイルではなく、表示スタイルにより注意を払って適用されてきたからである。これと比べて、XMLおよびSGMLは、ユーザ定義型であり、データ内容を有するドキュメントに主に関係している。HTML、XML、またはSGMLを構造化ドキュメント検索システムの異なる実施形態に適用することができる。ただし、XMLおよびSGMLが特に適している。本発明の開示の意図する範囲に含まれるマークアップ言語の変種形態および変更形態が存在する。
構造化ドキュメント検索システム100は、ドキュメントを検索し、表示する際にドキュメントの内容および文脈に依存する。したがって、構造化ドキュメント検索システムは、構造化ドキュメントの内容(例えば、言語)をマッチさせる。構造化ドキュメントは、ドキュメントの検索された部分の文脈をユーザに示すこともする。適切なマッチを情報検索のために使用することができる。各構造部分を探索した後、各構造化された部分のどこでマッチが出現したかが特定される。
構造化ドキュメント検索システムがどのように構造化ドキュメントを検索するかを説明するため、構造化ドキュメントのある態様を説明する。図3は、構造化ドキュメント検索システム100によって探索されるような構造化ドキュメント300、およびそれに関連する要素の一実施形態の構成を示している。構造化ドキュメント300は、内容ドキュメント要素302と、少なくとも1つの内容セクション要素304と、少なくとも1つの内容段落要素306とを含む。大きなドキュメントは、図3に示したよりもはるかに多くの内容セクション要素304および内容段落要素を含む。各内容セクション要素304は、内容ドキュメント要素302、および/または別の内容セクション要素304に依存するように関連している。各内容段落要素306は、内容ドキュメント要素302および/または内容セクション要素304に依存するように関連している。依存関係の方向は、下向き矢印を有する線で示されている。言い換えれば、図3の線上の矢印は、親ノードから子ノードに向かっている。図3に示した内容段落要素306は、通常、リーフノード要素として構造化される。というのは、そのようなリーフノード要素は、その他の依存的要素を全く有さないからである。
ドキュメントの特定の部分(すなわち、テキスト、イメージ、テーブル等)が、内容ドキュメント要素302と見なされるか、内容セクション要素304と見なされるか、または内容段落要素306と見なされるかは、それぞれの特定の要素に関連するタグに依存する。XML、SGML、HTML、およびその他のマークアップ言語におけるタグの使用は周知であり、XMLとSGMLがともにユーザ定義型タグを利用することを述べておく以外、さらに詳述することはしない。このため、特定のドキュメント内の内容ドキュメント要素302、内容セクション要素304、および内容段落要素306の特定の用語法は、ユーザまたはプログラマによって規定されることが可能である。内容ドキュメント要素302、内容セクション要素304、および内容段落要素306は、本発明の意図する範囲内に留まりながら、異なる名前または用語で記述されることも可能であるものとする(図4に関連して説明する要素に関しても同様に当てはまる)。
図3は、構造化ドキュメントの内容構造300の一実施形態を示すブロック図である。これに対して、図4は、ドキュメント検索システムを使用して構造化ドキュメントの内容構造300から導出された階層式索引400の一実施形態を示すブロック図である。ドキュメントの内容構造300(図3に示すような)は、内容要素が1対1関係で階層式索引要素にマップされる階層式索引付け機構を使用して、階層式索引400(図4に示すような)に構造的にマップすることができる。階層式索引付け機構は、異なるレベルにおけるドキュメント要素を平等に扱い、ドキュメント要素のすべてに適切な索引用語を割り当てる。
ドキュメントの内容構造300を階層式索引400(図3および4にそれぞれ示す)にマップすることにより、ドキュメント索引要素312と、少なくとも1つのセクション索引314と、少なくとも1つの段落索引316とを含む構造がもたらされる。1対1マッピングを維持するため、各内容ドキュメント要素302が、階層式索引付け機構によってドキュメント索引要素312になるようにマップされる。各内容セクション要素304は、階層式索引付け機構によってセクション索引要素314になるようにマップされる。各内容段落要素306は、階層式索引付け機構によって段落索引要素316になるようにマップされる。各ドキュメント索引要素312、各セクション索引要素314、および各段落索引要素316は、用語を用語の記憶、転送、および索引付けを行うことができる。ドキュメント内の要素は(ドキュメント索引要素312、セクション索引要素314、および段落索引要素316が図4に示した階層式索引400を形成するか、または内容ドキュメント要素302、内容セクション要素304、および内容段落要素306が図3に示した内容構造300を形成して)、概念ツリーとして構成されているものと見なすことができる。概念ツリーにおいて、上位の要素は、その下のすべての概念を範囲に含むより広い概念を表わす。
通常のキーボードベースのクエリを使用することによってスケーリング可能な要素検索戦略を使用して、任意の細分性を有する関係のあるドキュメント要素を獲得することができる。構造化ドキュメント検索システム100は、階層式索引付け機構、およびアルゴリズムを含む。索引用語は、異なるレベルにおける要素の中の用語の頻度と分布に従って、XMLドキュメントのツリー構造全体にわたって伝播する。このため、図3に示した各ドキュメント索引要素312、セクション索引要素314、および段落索引要素316は、対応する用語が、図4に示したそれぞれの内容ドキュメント要素302、内容セクション要素304、および内容段落要素306の中で出現する頻度に依存して索引要素を記憶する。アルゴリズム(すなわち、スケーリング可能なドキュメント要素検索アルゴリズム)は、階層式索引付け機構に基づいて適切なドキュメント要素を選択する。スケーリング可能なドキュメント要素検索アルゴリズムは、ドキュメント索引要素312、セクション索引要素314、および段落索引要素316の中に含まれるこの索引構造に基づいて実現される。
図4に示した階層式索引400は、階層構造になっており(図3に示す内容構造300も同様である)、このため、親ノードと子ノードを含む。各親ノードは、その親ノードの子ノードよりも上位であり、その子ノードを含む。階層ツリー(およびその他のツリー)構造では、子ノードは、親ノードの属性を継承しなければならない。このため、親ノードは、子ノードの上位概念(super concept)でなければならない。例えば、例を用いると、図5bに示したドキュメント検索例、中国は、中国の歴史、中国の経済、中国の文化等の上位概念である。したがって、中国の歴史要素、中国の経済要素、および中国の文化要素はそれぞれ、中国要素の属性を継承しなければならない。
構造化ドキュメント検索システム100は、構造化ドキュメント検索におけるテキスト長正規化、およびしきい値設定に関して存在する可能性がある困難をある程度、克服する。ドキュメント全体が、しばしば、ユーザがある用語の文脈を効果的に解析する、または特定するには大きすぎる。ユーザ、特に長めのドキュメントを解析しているユーザが、ドキュメントの一部分だけを解析することが有益である可能性がある。さらに、ドキュメントの表示された部分とドキュメントのその他の部分の間の文脈(すなわち、関係)を示すことが重要である可能性がある。
XMLおよびSGML(HTMLも)は、階層式索引付け、および構造化ドキュメント検索に特に向けられた構成において構造化ドキュメントを提供するコンピュータ言語を代表している。通常のXMLドキュメントまたはSGMLドキュメントは、1組の論理要素(タイトル、セクション、サブセクション、段落などの)を含む。XMLドキュメントおよびSGMLドキュメントは、通常、階層関係に基づいて構造化されており、このため、階層式索引付け、および構造化ドキュメント検索システム100に極めてよく適用されることが可能である。XMLおよびSGMLにより、ユーザ定義型タグを使用してドキュメントの構造を明示的に表わす標準の効果的なやり方が提供される。
本開示の一態様では、ドキュメント検索は、ユーザがドキュメント内の任意のレベルの要素を検索することができるのでない限り、有効な情報検索を提供しない。クエリに応答して1組の極めて長いドキュメントが検索されることは、ドキュメント内の探索用語(または索引用語)の文脈を導出する何らかの機構がユーザに提供されているのでない限り、しばしば、ほとんどユーザの役に立たない。ドキュメント内の任意のレベルの要素を得ることにより、構造化ドキュメント検索システム100が、異なる長さ、および異なる構造を有するドキュメントのクエリを行うことに適合することが可能になる。これにより、検索システムは、ユーザによって決められたとおり、関係のある要素だけをユーザに戻すことができる。
構造化ドキュメント検索システム100の一態様は、より対象を絞った(directed)データを検索する検索技術(例えば、索引付け技術を使用する)を利用することである。構造化ドキュメント検索システム100は、任意の細分性を有することによって変更されたキーワードベースのクエリ(関係のあるドキュメント要素を検索するのにドキュメント検索で一般に使用されるような)を使用する。本開示の一態様は、2つの部分、すなわち、斬新な階層式索引付け機構と、図4に示した階層式索引400に基づいて適切なドキュメント要素を選択し、表示するアルゴリズムとを含む。
ある従来の手法は、索引用語をリーフ要素または固定長の節に割り当てることだけを行う。異なるレベルの要素には、同等の適切な索引用語が割り当てられる。構造化ドキュメント検索システム100は、階層式索引付け機構を使用して、余りにも広い意味、または余りにも狭い意味を有する用語を濾過して除きながら、各要素に関する固有の概念を正確に記述することができる索引用語を割り当てる。「中国」に関するサンプルドキュメントが、セクション「歴史」を含み、セクション「歴史」が、「唐王朝」、「明王朝」、および「清王朝」などのサブセクションも含むことを考慮されたい。セクション「歴史」に関する適切な索引用語を選択することは難しい。「中国」は、余りにも多くの結果をもたらす比較的広い用語であるように見える。これに比べて、「唐」、「明」、および「清」は、関係のあるドキュメントを逸する可能性がある狭い用語であるように見える。「歴史」および「王朝」などの用語が、良好な候補の用語であるように見える。
図5aおよび5bは、親セクション索引要素の子としてそれぞれ構成された1つのセクション索引要素314と2つの段落索引要素316を含む階層式索引400の一部分の中の索引用語を適切に濾過する一実施形態を示している。索引用語を濾過することにより、階層式索引400の親ノード、または親要素において存在するのと重複する索引用語が子ノード、または子要素において出現する回数が抑えられる。さらに、索引用語を濾過することにより、それぞれが階層式索引400における同じ親ノード、または親要素の子である複数の子ノード、または子要素において、索引用語の重複が制限される。図5aおよび5bにおけるセクション索引要素314および段落索引要素316の使用は恣意的であるが、親−子構成で構成された索引要素(索引用語を含むことが可能な)を示すように選択されている。段落(すなわち、子)索引要素316は、リーフノードであることも、そうでないことも可能である。
図5aで、1つの子索引要素316が、索引用語「中国」および「歴史」を含む一方で、別の子索引要素316は、索引用語「中国」および「経済」を含んでいる。親索引要素314は、全く索引用語を含んでいない。ドキュメント内の索引要素は、親索引要素314が、親索引要素314から下の子索引要素316のすべての概念に適用されるより広い概念を表わす概念ツリーとして構成されることが可能である。索引語を濾過してより少ない要素にすることができる概念ツリーとして階層式索引付け構造を構成することにより、探索エンジンのパフォーマンスが向上する。というのは、子索引要素316に共通の用語が、個々の子要素のすべての中で探索されなくてもよいからである。代わりに、用語は、親探索要素314の中で1回、探索されなければならない。
本明細書で説明する階層式索引付け機構は、ボトムアップ伝播方式に従って各要素に関する適切な索引用語を自動的に選択する。一実施形態では、構造化ドキュメント検索システム100の索引付け方法により、ある要素において出現する索引用語が、その要素のいずれの子要素においても出現しないことが確実である。この索引付け方法により、かなりの量の記憶スペースと検索時間が節約される。さらに、この階層式索引付け機構は、検索プロセスが、ドキュメントツリー全体にわたる索引用語の完全な分布に直接に起因して所望の要素を得ることができるため、結果が集約するという潜在的な問題を回避する。広汎なドキュメント探索および検索プロセスにおける時間のこの節約により、相当な時間の節約がもたらされる。
図6は、ドキュメント検索システム100に適用された階層式索引付け機構470の一実施形態を示している。階層式索引付け機構470は、472で開始して、ドキュメントにおける最低レベルの要素を選択する。例えば、段落索引要素316の1つが、図5aに示した階層式索引400において提供される。階層式索引付け機構は、474に進み、選択された要素に関するゼロの、または1つ以上の階層式索引用語を特定する。
階層式索引付け機構は、判定476に進み、ドキュメントにおいて考慮されるべきさらなる要素が存在するかどうかが判定される。472、474、および476は、索引用語に関して階層式索引400の中の各要素を考慮するループを形成していることに留意されたい。一実施形態では、ユーザは、動作中にコンピュータによって提供されるプロンプトによるか、またはユーザが探索することを所望する領域の予備的なユーザ制限選択により、階層式索引400のあるセクションが考慮されるのを制限することができる。
階層式索引付け機構470の472部分、474部分、および476部分を通るループを辿って、階層式索引付け機構は、478に進む。478で、階層式索引における各索引用語に関して、適切な用語が、階層式索引400における子要素から親要素に伝播する。子要素から親要素への用語のそのような適切な伝播は、図5aおよび5bに示し関連づけて説明した「濾波プロセス」と同一視することができる。
例えば、ユーザがクエリ「中国の歴史」をサブミットした場合、検索されるドキュメントのタイトルは「中国」であり、セクションは「歴史」である。見出し「中国」を通る最も適切なパスは、セクション「歴史」である。というのは、「歴史」セクションが、見出し「中国」に最も関連しているからである。このため、セクション「中国」と「歴史」が、クエリ「中国の歴史」からの索引パスを形成する。したがって、ユーザが中国の歴史のクエリを行うことは、このパスを戻す。
この方法の別の部分は、スケーリング可能なアルゴリズムを使用して、ユーザの情報ニーズを満たす適切なドキュメント要素を選択する。構造化ドキュメント検索システム100に適用される「スケーリング可能な」という用語は、アルゴリズムが、ユーザのクエリにおける概念の範囲に従って任意の細分性の関係のあるドキュメント要素を検索することができることを示す。図4に示した階層式索引400は、任意の細分性で直接にドキュメント要素を検索する有効なやり方を提供するので、検索アルゴリズムが、候補要素をクエリに従ってランク付けすることが重要である。図5aおよび5bに示した階層式索引400は3つの索引要素314および316を含んでいるが、図4の階層式索引は、11の索引要素を含んでいる。さらに、大きいドキュメントにおける索引要素の数は、非常に多い可能性がある。
一態様では、ドキュメント検索システム100は、スケーリング可能である。構造化ドキュメント検索システムのある実施形態は、ユーザが、ドキュメントを検索し、多種多様な構成および/または細分性でセクションドキュメントを表示することを可能にする。例えば、ユーザは、広い検索を行ってドキュメント全体にアクセスすることができる。このため、中国の例を使用すると、ユーザは、検索されるドキュメントの階層式索引400全体をもたらす「中国」索引用語にアクセスすることができる。さらに、ユーザは、中間検索プロセスを行い、「中国の歴史」に対応する図4に示したセクション索引要素314を検索することができる。最後に、ユーザは、清王朝に対応する図4の段落索引要素316またはセクション索引要素314を検索することにより、ドキュメントの非常に狭い部分にアクセスすることができる。
以下に説明するパスランク付けアルゴリズムにより、ドキュメントの意味ある形での検索および表示が可能になる。特定の索引を使用して構造情報を有するデータを検索することは、多くの分野(例えば、データベース、IR、およびXML)で用途を有する。構造化ドキュメント検索システム100は、ドキュメントの構造に直接にマップされる階層式索引400を含む。階層式索引付け機構は、ユーザのクエリ言語に全く制限を課さずに、どれが様々な細分性でドキュメント要素を検索するかを決める。例えば、構造化ドキュメント検索システム100は、極めて長いドキュメントにも、比較的短いドキュメントにも適用することができる。ドキュメントツリーにおける各要素、または各構成要素に関して、索引ツリーにおける対応する索引要素、または索引構成要素が存在する。クエリが入ってきた際、探索エンジンは、索引ツリーを使用して最も関連のある1つまたは複数の構成要素パス(つまり、ユーザの探索に最も関連のある)を探し出す。この構成要素パスは、1つまたは複数のセクション要素304を経由して(根底パスまたはドキュメント要素302から)、パスの根底と呼ばれる図3に示した関係のある個別の段落要素306に至る。構造化ドキュメント検索システムは、パスの根底をユーザに戻す。
各ドキュメントに関して、ドキュメントと同じ構造を有する階層式索引400が確立される。したがって、階層式索引400の構造は、元のドキュメントの内容構造300をミラーリングする。索引用語は、その索引用語がどれだけ一般的にドキュメントにおける概念を表わすかに応じてすべての要素に分散される。索引用語を要素に効果的に割り当てるため、索引用語は、要素をその他の要素と区別しながら、要素の概念を特徴付けなければならない。したがって、要素に関する索引用語を選択するのに、その要素における用語の頻度および分布が考慮されなければならない。また、索引用語の重みも、その要素におけるその他の用語と比較される。最上位にランク付けされた索引用語が、その要素に関する索引用語として選択される。ある用語が頻繁に出現し、要素のテキストにおいて均等に分布しており、しきい値を超えるランクも有している場合、その索引用語は、その要素に関する索引用語と考えられなければならない。
構造化ドキュメント検索システム100は、ある構造化ドキュメントの階層構造を利用する。階層式ドキュメント(構造化ドキュメントの1つのタイプを表わす)は、親要素と子要素の間の関連を含む。親要素における用語の分布は、その親要素の子要素における用語の出現を考慮することによって定量化可能である。一実施形態では、この分布定量化は、親要素の直接の子孫である子要素だけに適用される。というのは、各要素のトピックは、その要素の直接の子孫である要素によってサポートされなければならないからである。ある用語がセクションまたはドキュメントの子要素において均等に分布している場合、その用語は、そのセクションまたはドキュメントに関する良好な候補索引用語である。情報理論により、エントロピーは、情報内容(または情報の不確実性)を捕捉することに関する特殊概念として定義されている。エントロピーは、一実施形態では、要素における用語の分布を測定する有用な基準である。
図3に示した段落要素306は、この段落要素306のいずれも子要素を有していないので、「原子」要素として分類される。したがって、従来のTFIDF測定を適用して単独の段落要素における用語に重み付けすることができる。段落要素306に関する用語の重みは、以下のとおりとなる。
Figure 0004425641
重み(t,Pj)は、段落Pにおける用語tの重みを表わす。「tf(t,Pj)」は、その段落におけるtiの用語頻度である。Nは、コーパスにおけるドキュメントの数を表わし、nは、用語tを含むドキュメントの数を表わす。
原子要素ではない他のレベルにおける要素(例えば、セクション要素304およびドキュメント要素302)に関して、用語頻度と用語分布が結合されて用語に関する重みが提供される。したがって、任意の合成要素Eにおける用語tの重みは、以下のとおり定義することができる。
重み(t,E)=ln(1+tf(t,E)×I(t,E
I(t,E)は、要素Eにおける用語tのエントロピー測度であり、以下のとおり定義される。
Figure 0004425641
ただし、subは、Eの第k番の直接の子孫である要素を表わし、N(sub)は、そのような子孫要素の数である。
計算3において、用語
Figure 0004425641
が、索引付け機構において重要な役割をする。用語頻度は、異なる要素において、その要素のテキスト長の大きな変化に起因して大幅に異なる。エントロピー測定は、他のドキュメント検索方法または節検索方法が直面するのと同じ長さ正規化の問題に出会う可能性がある。エントロピー測定は、要素における用語のすべての出現が、その要素の各子要素において厳密に等しいと仮定した場合にエントロピーを生成することを可能にし、これは、その用語のエントロピーに関する理論最大値である。この理論最大値の割合が、用語の分布測度である。後の実験で、この計算により、異なるレベルの要素における様々な用語頻度の副次的効果がほとんどトレードオフされることが判明している。
用語の重みは、異なる要素における重みを比較するためにさらに正規化される。計算1および2によって得られた用語の重みが、同一の要素におけるすべての用語の最大の重みで割られる。したがって、すべての用語の重みは、0から1までの範囲内に入る。
前述したとおり、重みがあるしきい値を超える用語または要素は、より一般的な概念を表わす可能性があるので、より上位のレベルに伝播されなければならない。しきい値は、特定の要素における用語の重みの統計に従って動的に調整することができる。この動的なしきい値設定の異なる実施形態は、図13に示したコンピュータ環境のユーザまたは操作者が行うか、または本明細書で開示する概念に基づいて自動的に行われることが可能である。具体的には、用語は、その用語の重みが、平均値にその要素におけるすべての用語の重みの平均値に標準偏差を足した値を超えた場合だけに、要素に関する索引用語として選択される。言い換えれば、子要素における索引用語は、その用語の重みがしきい値制約を満たす場合に親要素まで伝播することが可能である。したがって、索引付け機構の一実施形態の概要を以下のとおり説明することができる。
1.各段落要素306に関して、計算1に従って用語の重みを計算する。
2.ボトムアップ方式に従う1つの上位レベルの任意の要素E(すなわち、セクション要素304またはドキュメント要素302)に関して、計算2を使用して用語の重みを計算する。重み(t,E)≧平均(E)+std_dev(E)である場合、用語tは、要素Eの索引用語として選択され、Eのすべての下位要素は、tを自らの索引用語リストから除去する。ここで、平均(E)は、要素Eにおけるすべての用語の重みの算術平均を表わし、std_dev(E)は、それらの重みの標準偏差を表わす。
3.根底要素、すなわち、ドキュメント要素302に到達するまで2を繰り返す。
この索引付けの解決策は、ドキュメントの内部構造を徹底的に利用する。すべての用語が同じレベルにおいて互いに比較され、正規化係数としての理論最大値が計算に算入されるので、異なる要素におけるテキストの様々な長さの効果は、最小限に抑えられる。さらに、平均値に標準偏差を足したしきい値により、特定の要素に関する索引用語を決めるための動的な局所最適値が提供される。さらに、要素の索引用語は、その要素のすべての下位要素において出現することが必ずしも必須とされない。したがって、タイトルの中のいくつかの語以外のより代表的な索引用語が検出される。
構造化ドキュメント検索プロセス400の一実施形態を図7aおよび7bに示している。構造化ドキュメント検索プロセスは、ドキュメント全体を検索する代わりに、ユーザに最も関連のあるドキュメントの構成要素を検索する。ツリー構造、または階層構造を有する任意のコンピュータ言語が、本明細書で説明する構造化ドキュメント検索プロセスを利用することができる。図1に示した構造化ドキュメント検索システム100の一実施形態では、各セクションおよび各段落が、個々に探索される。
構造化ドキュメント検索方法は、402で開始し、ユーザが、構造化ドキュメント検索システム100内の初期探索エンジンに索引語を使用してクエリをサブミットして、複数の構造化ドキュメントを探索する。初期探索エンジンは、元のクエリに応答して、探索用語の1つまたは複数を含まないドキュメント全体から、探索用語の1つまたは複数を含むドキュメント全体を濾過して除く。
構造化ドキュメント検索システムのある実施形態では、402でユーザによってサブミットされたクエリは、戻されたドキュメントが表示される前のユーザからの最終入力であることが可能である。方法は、404に進み、探索エンジンが、索引用語に関する構造化ドキュメントのすべてに対する探索を行う。404で使用される探索エンジンは、ドキュメント全体をまとめて探索するように、または索引用語に関して個々の要素のすべてを探索するように構成されることが可能である。ただし、404の間、所与の探索用語に関してすべてのドキュメントが完全に探索される。この初期探索は、多くが市販され、一般に使用されている多種多様な探索エンジンのいずれか1つによって行うことができる。このため、402および404は、ユーザによってクエリの中に含められた探索用語を含まないドキュメントを追い出すことにより、今日、使用されるほとんどの探索エンジンと同様に動作する。
構造化ドキュメント検索プロセス400は、判定406に進み、特定の構造化ドキュメントが索引用語を含むかどうかが判定される。判定406に対する答えが「いいえ」であった場合、構造化ドキュメント検索プロセス400は、408に進み、探索用語のいずれも含まないドキュメントが追い出される(すなわち、濾過されて除かれる)。408が適用されるドキュメントは、構造化ドキュメント検索プロセス400によってさらに考慮される必要がない(すなわち、構造化ドキュメント検索プロセス400が終了される)。というのは、それらのドキュメントは、探索で使用されている関係のある索引用語のいずれも含まず、したがって、ユーザの関心対象である可能性がないからである。
判定406に対する答えが「はい」であった場合、構造化ドキュメント検索プロセス400は410に進み、ユーザおよび/または構造化ドキュメント検索システム100が、さらに探索されるべき構造化ドキュメントを選択する。410はオプションであり、プロセス400は、代わりに412に直接に進むことができる。構造化ドキュメント検索システム100は、412に進み、マッピングを使用して構造化ドキュメントと同じ構造を有する階層式索引400を自動的に確立する。この階層式マッピングプロセスの例を図3および4に関連して説明する。402、404、406、408、および410でマッチングが行われたドキュメントのうちで、ドキュメントの要素が個々に評価される。マッチする探索用語を含むパスの終端要素が戻される。マッチした親の子である段落だけが探索される。
構造化ドキュメント検索プロセス400は、414に進み、構造化ドキュメントの各要素における索引用語に重み付けが行われる。この重み付けにより、ドキュメントにおける各要素の関連度が決まる。各要素を別々に考慮する414の重み付けは、各ドキュメントを全体として探索する404とは異なる。414に関するさらなる詳細は、後に説明する。構造化ドキュメント検索プロセス400は、XML構造における416に進み、最高レベルを探索して、マッチングを行った後、マッチした用語が存在すれば、その用語に関して次に下位のレベルを探索する。
構造化ドキュメント検索プロセス400は、418に進み、最も近いマッチを有するドキュメントが表示される。本開示の一実施形態では、構造化ドキュメント検索システム100は、要素、ならびに要素の文脈を表示する。例えば、以下に説明する図9に示すとおり、コンピュータ表示ウインドウの右側が、要素または要素群の関係のある部分を表示する。ユーザは、隣接する要素にアクセスする能力も有する。ウインドウの左側は、ウインドウの文脈を表示し、構造化ドキュメントの異なる要素を表わす構造が表示される。実施形態では、ドキュメントの異なる要素のランク付けも表示されることが可能である。各ドキュメントに関して、表示される複数のパスが存在することが可能である。このため、ユーザは、単独の探索用語の出現を探し出すのにドキュメント全体を探索する必要がなく、パスだけを探し出せばよい。
図8aおよび8bは、412および414が含まれないことを除けば、図7aおよび7bに示した実施形態と同様である構造化ドキュメント検索プロセス400の別の実施形態を示している。412および414の重み付けプロセス、および/または階層式索引付けプロセスは、別々に行うことができ、図8aおよび8bに示したパスランク付けプロセス中に結果を利用することができる。例えば、構造化ドキュメント検索プロセスの納入業者が、索引付けされ、かつ/または重み付けされた索引用語を含むバージョンを別個に供給することも可能である。重み付けプロセスおよび索引付けプロセスは、別々に考慮され、したがって、構造化ドキュメント検索プロセス400の一実施形態は、重み付けは行うが、索引付けは行わない、または索引付けは行うが、重み付けは行わないことが可能である。
次に、図3に示した構造化ドキュメントに関連して用語重み付けを説明する。用語には、構造化ドキュメント検索システム100によって重み付けが行われる。用語重み付けにより、特定の要素の関連度を定量化することができる機構が提供される。構造化ドキュメントにおける索引用語に重み付けを行った後、本明細書で説明するとおり、索引用語をランク付けすることもできる。
このセクションでは、階層式索引400に基づいてユーザに表示される適切なドキュメント要素を選択するスケーリング可能な検索アルゴリズムの実施形態を説明する。階層式索引400は、任意の細分性で直接にドキュメント要素を検索する有効な機構を提供するので、検索段階における主なタスクは、候補要素のオンライン探索およびランク付けである。構造化ドキュメント検索システム100のある実施形態は、それぞれの検索された要素をその要素の構造上の文脈とともに表示してユーザが便利な形で検索結果をブラウズすることを容易にするインターフェースを提示する。表示されたユーザインターフェースは、多くの実施形態では、ユーザによって入力された索引用語に基づいて各要素のランク(関連度)を表示するので、ユーザにとって重要な役割をする。
各ドキュメントに関して、構造化ドキュメント検索システム100は、パスランク付けアルゴリズムを使用して、クエリに対するすべての候補要素の関連度値を計算する。要素に関するパスは、ドキュメントツリーにおける根底(ドキュメント要素)とその要素の間のすべての要素(根底要素とその要素を含む)であると考えられる。1つの要素が別の要素の祖先である場合、その要素のパスは、後者の要素のパスのサブセットである。階層式索引付け機構の一実施形態によれば、要素は、その要素の子孫と索引用語を全く共有しない。このため、要素は、その要素のパスによって完全に記述される。したがって、要素ランク付けの問題が、パスランク付けの問題に変形されることが可能であり、つまり、目標は、クエリに対して高い関連度値を有する要素パスを見出すことである。
前述した中国のクエリを考慮すると、戻されたドキュメント「中国」に関して、ドキュメントレベルの索引用語には、「中国」、「中国の」が含まれる一方で、セクション「歴史」に関する索引用語は、「歴史」、「王朝」等であることが可能である。クエリ「中国の歴史」に対して、セクション「歴史」の要素パスは、すべてのクエリ用語を含み、他方、ドキュメント「中国」の要素パスは、1つのクエリ用語だけを含む。このため、セクション「歴史」が、クエリに対するより良好な答である。
要素のランクは、クエリに対する要素の関連度を判定する際に重要である。要素パスに関する用語の重みは、索引用語リストがその用語を含むパス上の要素におけるその用語の重みとして定義される。所与のクエリに応じたパスに関するランクは、以下のとおり定義される。
Figure 0004425641
Figure 0004425641
は、クエリ用語の重みを表わすクエリ用語tの逆ドキュメント頻度(IDF)値であり、Qは、クエリの中のクエリ用語の数を表わす。
入ってくるクエリを所与として、従来のドキュメント検索技術を使用して、まず探索空間を絞り込むために関係のあるドキュメントのリストを得ることができる。次に、ユーザが関係のあるドキュメントの1つを選択した際、システムが、そのドキュメントのすべての候補要素を探索した後、クエリに従ってその要素のパスにランク付けを行う。
要素にランク付けを行う全体的プロセスを以下に説明する。少なくとも1つのクエリ用語を含むすべての要素が探し出される。すべての候補要素に関するパスが獲得され、クエリ用語の重みが、要素に関してパスにそれぞれ割り当てられる。重み付けされたパスは、計算4に従ってランク付けされる。ランク付けされたパスのすべて、または選択されたいくつかに対応する要素が、上位から順に戻される(さらに、通常、表示される)。
構造化ドキュメント検索における積年の問題は、ユーザのクエリニーズを最もよく満たすことが可能な(例えば、関連のある)適切な要素をどのように戻すかである。構造化ドキュメント検索システム100は、すべての検索された要素のランクの平均を動的なしきい値として使用する。しきい値を超えるランクを有する要素が、結果として戻される。後の実験により、この動的なしきい値に基づいて正確な要素検索を達することができることが示されている。
すべての戻された要素は、図9に示すとおり、ドキュメントツリーにおける戻された要素の位置、ならびに周りの要素を示すことが可能な構造上の文脈とともに、構造化ドキュメント検索システム100によって表示される。
図9は、所与のクエリ「清王朝」を伴うスケーリング可能な検索システムのインターフェースのスナップショットを示している。このため、図9は、ドキュメント検索システムのインターフェースの一部分を提供することができる。相当な数の要素が、「中国」という名前のドキュメントに関して戻されている。戻された要素のなかには、セクションおよび段落が存在する。最上位の要素は、中国の歴史における清王朝を説明することを専門とするタイトル「満州清王朝」を有するセクションである。このセクションは、そのドキュメントのタイトルが「歴史」であるセクション下にある。左ブラウジング画面区画が、ドキュメントに対する各セクションまたは各段落の位置を示している。このため、各要素の文脈に関する情報が、左画面区画内で記述されている。これに対して、ユーザが項目「清王朝」をクリックした場合、ドキュメント全体がそのトピックを中心に扱っているので、ドキュメント全体にアクセスが行われる。テキスト要素の上位レベルが読み取られて、より一般的な概念記述が獲得される。アスタリスクの付いたタイトルは、その要素のランクが、動的なしきい値である平均ランクを超えていることを示す。
本開示のこのセクションは、構造化ドキュメント検索システム100に関して説明したドキュメント検索方法400のパフォーマンスを評価する。また、しきい値設定の効果も考慮される。実験は、本開示を執筆している現時点で40,000を超えるよく構成されたXMLドキュメントを含むEncarta(登録商標)Multimedia Encyclopediaコーパスに対して行われた。クエリセットは、構造化ドキュメント検索システム100の通常のユーザによって入力される可能性があるようなクエリと同様であるように見える表1にリストした10のクエリを含む。各クエリには、関係のあるドキュメントの一部分(すなわち、要素)だけをユーザに表示することで返答が行われるのが最良であり得る。
予備的な実験結果により、構造化ドキュメント検索システム100が、比較された方法よりも相当に良好なパフォーマンスを示すだけでなく、構造化ドキュメント検索および節検索における2つの積年の問題であるテキスト長正規化と要素選択しきい値の困難をある程度、克服することも示されている。
本ドキュメント検索システムの利点を例示するため、構造化ドキュメント検索システム100と比較されるTFIDF Paraを使用する節検索システムを実施する。TFIDF Paraシステムによる一実施形態では、段落だけが節として活用され、他方、他の構造上の情報は無視される。段落における用語の重みは、従来のTFIDF測定によって正規化なしに定義されることが可能であり、これにより、計算1と同様の結果がもたらされる。
Figure 0004425641
節検索または構造化ドキュメント検索に関する以前の研究は、ドキュメント全体を検索することに対する節レベルの証拠の影響に主に焦点を当てて評価を行った。これらの研究のいずれも、要素検索の有効性を評価することを専門とする特別なを行っていない。前述した構造化ドキュメント検索システム100の開発の一環として、スケーリング可能な検索方法がユーザのクエリに関して適切な細分性の要素を探し出す能力を試験するために一連の実験を行った。
軍事作戦の歴史を研究しているユーザが、「どのような軍用機がデザートストームで使用されたか」を調べ出すつもりであるものと想定する。最初の探索は、ともに関係のある内容の一部分を含む上位にランク付けされた結果として、2つの項目、「軍用機」および「湾岸戦争」をもたらす可能性がある。ユーザは、それぞれのドキュメント(しばしば、非常に長い)を走査して、戻されたドキュメント全体から関係のある内容を探さなければならない。
関連度判定は、人間の評価者によって行われる。各クエリに関して、ドキュメント内の関係のある要素が、評価者によって判定され、選択される。この場合に使用される測定は、ドキュメント検索で使用される測定と同様である。呼び戻し(recall)は、検索されている関係のある要素の部分であり、精度は、関係があると判定された検索された要素の部分とする。戻された要素は、比較的少数の関係のある要素を有するものと考えられなければならないので、様々な精度値が異なる呼び戻しレベルで計算されることはない。代わりに、全体的な呼び戻しレベルおよび精度レベルが計算され、計算5で記述した結合されたF値の大部分に寄与するように使用される。
Figure 0004425641
検索された要素のどの部分が答としてユーザに戻されるべきかを判定する際、0.1から0.9までの固定のしきい値と動的なしきい値がともに使用される。動的なしきい値は、すべての検索された要素(1つの選択されたドキュメントに関する)のランク値の平均(Avg)とそれらの値の標準偏差(Std_Dev)によって決まる。したがって、「Avg」および「Avg+Std_Dev」を実験における動的なしきい値として活用する。様々なしきい値を使用して以上2つの方法によって得られたF値を表2で比較し、示している。
Figure 0004425641
表2のF値は、従来の方法と比較した構造化ドキュメント検索プロセス400の向上を示している。F値は、1が完全なマッチを表し、0が全くマッチしないことを表わす0から1までの範囲のマッチングの測度である。表2は、様々なしきい値設定を有するスケーリング可能な検索システムが、段落レベルに直接にTFIDF測定を適用することに関わる別の検索方法よりも検索パフォーマンスの相当な向上を見せることを示している。
さらに、一般に、ユーザには、スケーリング可能な検索方法(評価者のフィードバックに応じた)によって提示されるより短い、より対象を絞った結果を扱う方が快適である。このさらなるユーザにとっての快適さは、主として、ユーザがドキュメント全体の編成、検索された要素の要素全体に対する文脈、および特定の要素の内容(または要素の一部分)を閲覧することができる構造化ドキュメント検索システム100の階層式文脈の構造的提示によるものである。
要素の逐語的な文脈(literal context)が、結果において保存される。というのは、以前の構造化されたドキュメントまたは節の検索方法は固定レベルの節だけを戻したが、スケーリング可能な検索方法は、クエリの指定に応じて段落、セクション、またはドキュメント全体であることが可能な様々な細分性で要素を戻すことができるからである。例えば、クエリ「清王朝」は、ドキュメント「中国」における「歴史」セクション下のタイトル「満州清王朝」を有するセクションによって最もよくサポートされることが可能である。このセクションには、数多くの段落が含まれる。構造化ドキュメント検索システムでは、このセクションは、クエリに対するこのドキュメントの最初の位置に提示される。しかし、TFIDF Paraシステムでは、段落レベルランクを有する別々の段落が順に並べられる。ユーザは、そのクエリに対する個別の証拠だけによって順序付けられたそれらの段落の間の相関または文脈を明らかにすることができない。したがって、階層式索引付けにスケーリング可能な検索を併せることにより、比較的高い検索パフォーマンスが達せられ、ドキュメントの元の構造上の情報が徹底的に活用されるので、ユーザフレンドリーな結果提示がさらに提供される。
しきい値設定は、構造化ドキュメント検索が望ましい要素を獲得するのに重要である。ある従来のドキュメント検索システムでは、しきい値は、0.2に固定される。構造化ドキュメント検索システム100に関する実験は、単一のしきい値を使用することで、すべてのクエリに関してシステムが常に最も良好なパフォーマンスを見せるようにすることができないことを示している。とうのは、クエリが行われるドキュメントの構造および長さは、非常に様々だからである。したがって、構造化ドキュメント検索システム100は、変化しない(すなわち、静的な)しきい値ではなく、動的なしきい値を利用する。
様々なしきい値が2つの方法の検索パフォーマンスにどのような影響を与えるかを考慮されたい。図10は、前述の実験において得られた固定しきい値の結果をグラフ600にプロットしている。グラフ600では、F値が、縦座標であるしきい値に対する横座標としてプロットされている。図10は、スケーリング可能な検索方法の曲線602(スケーリング可能な検索方法によって生成された)が、TFIDF Para方法によって得られたTFIDF曲線604よりもはるかに平坦であることを示している。TFIDF Paraのパフォーマンスは、TFIDF曲線604で示されるとおり、しきい値の変更とともに非常に大きく変化する。TFIDF曲線604においてTFIDF Paraによって得られる最高のF値は、0.55(しきい値0.4における)であり、これは、最低値0.28(図示していない、しきい値0.9における)よりも93%大きい。これに比べて、スケーリング可能な検索方法の曲線602のF値は最大(しきい値0.7)と最小(しきい値0.1)で、16%だけしか変化しない。これは、階層式索引付け機構とスケーリング可能な検索機構により、検索プロセスがしきい値設定の影響を受けにくくなることを示す。本明細書で説明する値およびパーセンテージは、例示的な性質のものであり、範囲を限定するものではない。
第2に、動的なしきい値の効果を考慮されたい。図11および12は、しきい値に対してプロットされたF値(動的なしきい値、しきい値なし、および固定しきい値で獲得された)を示している。図11で、TFIDF棒グラフ700に関する動的なしきい値の設定が、平均値702、平均に標準偏差を加えた値704、しきい値なしの値706、および最大値708を示している。図12で、スケーリング可能な検索の棒グラフ800に関する動的なしきい値の設定が、平均値802、平均に標準偏差を加えた値804、しきい値なしの値806、および最大値808を示している。TFIDFの棒グラフ700に関する動的なしきい値の設定、およびスケーリング可能な検索の棒グラフ800に関する動的なしきい値の設定がそれぞれ、TFIDF Para方法およびスケーリング可能な検索方法のパフォーマンスを示している。図11は、動的なしきい値を使用することで、段落検索方法が最良のパフォーマンスを実現するようにすることができないことを示している。しかし、図12に示すとおり、スケーリング可能な検索方法は、平均ランクの動的なしきい値を使用する場合、より高いパフォーマンスを実現することができる。これは、動的なしきい値が固定のしきい値の良好な代案であり、様々なドキュメントおよびクエリにより適応することが可能であることを証明している。
EncartaオンラインとEncarta CDバージョンはともに、スケーリング可能な構造化ドキュメント検索システム100を統合してスケーリング可能な検索機能を追加するように変更することができる。構造化ドキュメント(例えば、XML、SGML、HTMLのいくつかのアプリケーション等を使用する)を含むあらゆるデータベース製品に関して、この技術を使用して探索パフォーマンスおよび検索パフォーマンスを向上させることができる。
図13は、正しいソフトウェアおよびハードウェアを使用して、構造化ドキュメント検索システム100の一実施形態を提供することができるユーザインターフェースを含む適切なコンピュータ環境またはコンピュータ網500の例を示している。同様のリソースが、コンピュータ環境と本明細書で説明するプロセスを使用して、例えば、図5a、5b、6、7a、7b、8a、および8bに示したコンピュータ関連プロセスを行うことができる。
図13に示したコンピュータ環境500は、本明細書で説明する構造化ドキュメント検索システム100の技術を実施するのに使用することができる一般的なコンピュータ環境である。コンピュータ環境500は、コンピュータ環境の一例に過ぎず、コンピュータおよびネットワークアーキテクチャの使用または機能の範囲に関する限定を何ら示唆するものではない。また、コンピュータ環境500が、例示的なコンピュータ環境500で例示する構成要素のいずれか1つ、またはその組合せに関連する依存性または要件を有すると解釈すべきでもない。
コンピュータ環境500は、コンピュータ502の形態で汎用コンピューティングデバイスを含む。コンピュータ502は、例えば、独立型コンピュータ、ネットワーク化されたコンピュータ、メインフレームコンピュータ、PDA、電話機、マイクロコンピュータまたはマイクロプロセッサの1つまたは複数、あるいはメモリと併せてプロセッサを使用する任意の他のコンピュータデバイスであることが可能である。コンピュータ502の構成要素には、1つまたは複数のプロセッサまたは処理ユニット504(オプションとして、暗号プロセッサ、または暗号コプロセッサを含む)、システムメモリ506、ならびにプロセッサ504およびシステムメモリ506を含む様々なシステム構成要素を結合するシステムバス508が含まれることが可能であるが、以上には限定されない。
システムバス508は、様々なバスアーキテクチャのいずれかを使用するメモリバスまたはメモリコントローラ、周辺バス、アクセラレーテッドグラフィックスポート、およびプロセッサバスまたはローカルバスを含むいくつかのタイプのバス構造のいずれかの1つまたは複数を表わす。例として、そのようなアーキテクチャには、インダストリスタンダードアーキテクチャ(Industry Standard Architecture)(ISA)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture)(MCA)バス、エンハンストISA(Enhanced ISA)(EISA)バス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association)(VESA)ローカルバス、およびメザニン(Mezzanine)バスとしても知られるペリフェラルコンポーネントインターコネクツ(Peripheral Component Interconnects)(PCI)バスが含まれることが可能である。
コンピュータ502は、通常、様々なコンピュータ可読媒体を含む。そのような媒体は、コンピュータ502によってアクセス可能である任意の可用な媒体であることが可能であり、揮発性の媒体と不揮発性の媒体、取外し可能な媒体と取外し不可能な媒体がともに含まれる。
システムメモリ506は、読取り専用メモリ(ROM)512などの不揮発性メモリ、および/またはランダムアクセスメモリ(RAM)510などの揮発性メモリの形態でコンピュータ可読媒体を含む。始動中などにコンピュータ502内部の要素間で情報を転送するのを助ける基本ルーチンを含む基本入力/出力システム(BIOS)514が、ROM512の中に記憶されている。RAM510は、通常、処理ユニット504によって即時にアクセス可能であり、かつ/または現在、処理されているデータおよび/またはプログラムモジュールを含む。
コンピュータ502は、その他の取外し可能な/取外し不可能な、揮発性/不揮発性のコンピュータ記憶媒体も含むことが可能である。例として、図13は、取外し不可能な不揮発性磁気媒体(図示せず)に対して読取りおよび書込みを行うためのハードディスクドライブ515、取外し可能な不揮発性の磁気ディスク520(例えば、「フロッピー(登録商標)ディスク」)に対して読取りおよび書込みを行うための磁気ディスクドライブ518、およびCD−ROM、DVD−ROM,またはその他の光媒体などの取外し可能な不揮発性の光ディスク524に対して読取りおよび/または書込みを行うための光ディスクドライブ522を示している。ハードディスクドライブ515、磁気ディスクドライブ518、および光ディスクドライブ522はそれぞれ、1つまたは複数のデータ媒体インターフェース527でシステムバス508に接続される。代替として、ハードディスクドライブ515、磁気ディスクドライブ518、および光ディスクドライブ522は、1つまたは複数のインターフェース(図示せず)でシステムバス508に接続することもできる。
ディスクドライブおよび関連するコンピュータ可読媒体により、コンピュータ可読命令、制御ノードデータ構造、プログラムモジュール、およびその他のデータの不揮発性ストレージが、コンピュータ502に提供される。この例は、ハードディスクドライブ515内部のハードディスク、取外し可能な磁気ディスク520、および不揮発性の光ディスク524を示しているが、磁気カセットまたは他の磁気記憶デバイス、フラッシュメモリカード、CD−ROM、デジタルバーサタイルディスク(DVD)または他の光ストレージ、ランダムアクセスメモリ(RAM)、読取り専用メモリ、電気的に消去可能なプログラマブル読取り専用メモリ(EEPROM)などのコンピュータによってアクセス可能なデータを記憶することができる他のタイプのコンピュータ可読媒体も例示的なコンピュータ環境500を実施するのに利用できることを理解されたい。
例えば、OS526、1つまたは複数のアプリケーションプログラム528、他のプログラムモジュール530、およびプログラムデータ532を含め、任意の数のプログラムモジュールをハードディスクドライブ515内に含まれるハードディスク、磁気ディスク520、不揮発性の光ディスク524、ROM512、および/またはRAM510に記憶することができる。各OS526、1つまたは複数のアプリケーションプログラム528、他のプログラムモジュール530、およびプログラムデータ532(または以上の何らかの組合せ)が、分散ファイルシステムをサポートする常駐する構成要素のすべて、または一部を実施することが可能である。
ユーザは、キーボード534およびポインティングデバイス536(例えば、「マウス」)などの入力デバイスを介してコマンドおよび情報をコンピュータ502に入力することができる。他の入力デバイス538(特に図示せず)は、マイクロホン、ジョイスティック、ゲームパッド、サテライトディッシュ、シリアルポート、スキャナ、および/または同様の物を含むことが可能である。以上の入力デバイス、およびその他の入力デバイスは、システムバス508に結合された入力/出力インターフェース540を介して処理ユニット504に接続されるが、パラレルポート、ゲームポート、またはユニバーサルシリアルバス(universal serial bus)(USB)などの他のインターフェースおよびバス構造で接続することも可能である。
また、モニタ、フラットパネルディスプレイ、または他のタイプのコンピュータディスプレイ200も、ビデオアダプタ544などのインターフェースを介してシステムバス508に接続することができる。コンピュータディスプレイは、図9に示し、前述したとおり、構造化ドキュメント検索システム100からのそのような出力を表示することができる。コンピュータディスプレイ200に加えて、他の出力周辺デバイスは、入力/出力インターフェース540を介してコンピュータ502に接続することが可能なスピーカ(図示せず)やプリンタ546などの構成要素を含むことが可能である。
コンピュータ502は、遠隔コンピュータデバイス548などの1つまたは複数の遠隔コンピュータに対する論理接続を使用するネットワーク化された環境で動作することができる。例として、遠隔コンピュータデバイス548は、パーソナルコンピュータ、可搬コンピュータ、サーバ、ルータ、ネットワークコンピュータ、ピアデバイスまたは他の一般的なネットワークノード、ゲームコンソール等であることが可能である。遠隔コンピュータデバイス548は、コンピュータ502に関連して本明細書で前述した要素および特徴の多く、またはすべてを含むことが可能な可搬コンピュータとして例示されている。
コンピュータ502と遠隔コンピュータデバイス548の間の論理接続は、ローカルエリアネットワーク(LAN)550および一般的なワイドエリアネットワーク(WAN)552として描かれている。そのようなネットワーキング環境は、オフィス、企業全体のコンピュータ網、イントラネット、およびインターネットで一般的である。
LANネットワーキング環境で実施される場合、コンピュータ502は、ネットワークインターフェースまたはネットワークアダプタ554を介してローカルネットワーク550に接続される。WANネットワーキング環境で実施される場合、コンピュータ502は、通常、ワイドネットワーク552を介して通信を確立するためのモデム556またはその他の手段を含む。コンピュータ502の内部にあることも、外部にあることも可能なモデム556は、入力/出力インターフェース540、またはその他の適切な機構を介してシステムバス508に接続することができる。例示したネットワーク接続は、例示的なものであり、コンピュータ502と548の間で通信リンクを確立する他の手段も使用できることを理解されたい。
コンピュータ環境500で例示したようなネットワーク化された環境では、コンピュータ502に関連して描いたプログラムモジュール、またはプログラムモジュールの部分は、遠隔のメモリ記憶デバイスの中に記憶することができる。例として、遠隔アプリケーションプログラム558が、遠隔コンピュータ548のメモリデバイス上に常駐することが可能である。例示のため、アプリケーションプログラム、ならびにオペレーティングシステムなどの他の実行可能プログラム構成要素は、本明細書では、個別のブロックとして例示している。ただし、そのようなプログラムおよび構成要素は、様々な時点で、コンピュータ502の異なる記憶構成要素の中に存在し、コンピュータ502のデータプロセッサによって実行されるものと認識される。図示し、説明するネットワーク接続は、例示的であり、コンピュータ間で通信リンクを確立する他の手段も使用できることが認められよう。
様々なモジュールおよび技術を本明細書では、1つまたは複数のコンピュータまたは他のデバイスによって実行されるプログラムモジュールなどのコンピュータ実行可能命令の一般的な文脈で説明することができる。一般に、プログラムモジュールには、特定のタスクを行う、または特定の抽象データタイプを実装するルーチン、プログラム、制御オブジェクト650、構成要素、制御ノードデータ構造654等が含まれる。通常、プログラムモジュールの機能は、様々な実施形態において所望に応じて結合する、または分散させることができる。
以上のモジュールおよび技術の実施形態を何らかの形態のコンピュータ可読媒体に記憶する、またはその媒体を介して伝送することができる。コンピュータ可読媒体は、コンピュータがアクセスすることができる任意の可用な媒体であることが可能である。例として、限定としてではなく、コンピュータ可読媒体は、「コンピュータ記憶媒体」および「通信媒体」を含むことが可能である。
「コンピュータ記憶媒体」は、コンピュータ可読命令、制御ノードデータ構造、プログラムモジュール、またはその他のデータなどの情報を記憶するための任意のプロセスまたは技術で実装することができる揮発性の媒体および不揮発性の媒体、取外し可能な媒体および取外し不可能な媒体を含む。コンピュータ記憶媒体には、RAM、ROM、EEPROM、フラッシュメモリまたは他のメモリ技術、CD−ROM、デジタルバーサタイルディスク(DVD)または他の光ストレージ、磁気カセット、磁気テープ、磁気ディスクストレージまたは他の磁気記憶デバイス、あるいは所望の情報を記憶するのに使用することができ、コンピュータがアクセスすることができる任意の他の媒体が含まれるが、以上には限定されない。
「通信媒体」は、通常、搬送波または他のトランスポート機構などの変調されたデータ信号で、コンピュータ可読命令、制御ノードデータ構造、プログラムモジュール、またはその他のデータを実現する。また、通信媒体は、情報配信媒体も含む。「変調されたデータ信号」という用語は、情報を信号内で符号化するように特性の1つまたは複数が設定された、または変更された信号を意味する。例として、限定としてではなく、通信媒体には、有線網または直接配線接続などの有線媒体、音響媒体、RF媒体、赤外線媒体、およびその他の無線媒体などの無線媒体が含まれる。また、以上のいずれの媒体の組合せも、コンピュータ可読媒体の範囲内に含まれる。
前述した構造化ドキュメント検索システム100は、ドキュメント全体よりも小さい細分性で要素を検索する有効なやり方を提供する。構造化ドキュメント検索システム100の非常に重要な適用例は、任意の細分性の適切な要素でユーザのクエリのニーズを満たすことである。
本開示では、構造化ドキュメントに関する階層式索引付け機構、ならびに階層式索引付け機構に基づいて動作するスケーリング可能な構造化ドキュメント検索方法を説明している。索引用語は、特定のレベルの要素におけるその索引用語の統計情報を他のピア用語の値と比較することによって判定して、より一般的な概念を表わしている場合、ツリー構造におけるより上位のレベルの要素に伝播する。これにより、ドキュメントの同じ構造の中で、索引用語は、ツリー全体にわたって分布する。各要素は、その要素の概念を最もよく表わすことができる索引用語のリストを有する。このスケーリング可能な検索方法は、任意のレベルで最も満足のいく要素をユーザに提供することを専門とする。
実験結果は、図7a、7b、8a、および8bに示した構造化ドキュメント検索プロセスが、段落レベルだけにTFIDF測定を適用する方法よりも相当に高いパフォーマンスを示すことを明らかにしている。さらに、構造化ドキュメント検索システム100において提示される構造上の文脈を伴う結果は、ユーザにとってより満足ができ、快適である。また、実験結果は、この方法がしきい値設定の影響を受けなかったことも示している。したがって、動的なしきい値が、ドキュメントの長さが様々であるそのような構造化ドキュメント検索方法に対する良好な解決策である。
本システムおよび本方法は、構造上の特徴および/またはプロセスに特有の言葉で説明してきたが、特許請求の範囲で定義する本発明は、説明した特定の特徴またはプロセスに必ずしも限定されないことを理解されたい。むしろ、特定の特徴は、請求する発明を実施する好ましい形態として開示している。
構造化ドキュメント検索システムの一実施形態を示すブロック図である。 構造化ドキュメント検索システムの別の実施形態を示すブロック図である。 階層式索引を使用するファイルの構造の一実施形態を示すブロック図である。 図1または図2に示したような構造化ドキュメント検索システムを使用して図3の構造化ドキュメントから導出された階層式索引の一実施形態を示すブロック図である。 索引のいくつかに含まれる索引語を含む階層式索引の一部分を示すブロック図である。 2つの子ノードによって共有される共通の索引語を親ノードに転送した後の図5aに示した階層式索引の部分を示す図である。 階層式索引付けプロセスの一実施形態を示す流れ図である。 構造化ドキュメント検索プロセスの一実施形態を示す流れ図である。 構造化ドキュメント検索プロセスの一実施形態を示す流れ図である。 構造化ドキュメント検索プロセスの別の実施形態を示す流れ図である。 構造化ドキュメント検索プロセスの別の実施形態を示す流れ図である。 構造化ドキュメント検索プロセスからの出力を表示するコンピュータディスプレイの一実施形態を示す図である。 Para TFIDF法と比べたスケーリング可能なドキュメント検索プロセスに関するF値対しきい値をプロットしたグラフである。 TFIDF Para法に関する動的しきい値設定をプロットした棒グラフである。 構造化ドキュメント検索プロセスに関する動的しきい値設定をプロットした棒グラフである。 構造化ドキュメント検索プロセスに関して使用することができるようなコンピュータ環境の一実施形態を示すブロック図である。
符号の説明
100 構造化ドキュメント検索システム
102 クライアント
104 サーバ
106 データベース
108 ネットワーク

Claims (18)

  1. ユーザによって提供されたある探索用語に基づいて、データベースの中に記憶されている複数の構造化ドキュメントから、前記探索用語に関係のあるドキュメントを探索するコンピュータ実施方法であって、当該方法は、記憶装置に記憶されたコンピュータ実行可能命令を処理装置が実行することによって実施され、
    複数の構造化ドキュメントを含むデータベースの探索用語に関するクエリを行うステップと、
    前記探索用語を含まない構造化ドキュメントを探し出すステップと、
    前記探索用語を含む構造化ドキュメントであるマッチした構造化ドキュメントの要素を評価することを、
    それぞれの個々の要素が前記探索用語にどれだけよくマッチしているかに基づいて前記個々の要素にランク付けするステップであって、Nが、コーパスにおけるドキュメントの数を表わし、n が、クエリ用語t を含むドキュメントの数を表わす
    Figure 0004425641
    がクエリ用語の重みを表わすクエリ用語t の逆ドキュメント頻度(IDF)値であり、Qが、クエリの中のクエリ用語の数である、計算、
    Figure 0004425641
    を使用して前記個々の要素のパスにランク付けするステップを含む、ランク付けするステップにより行う、評価するステップと
    前記ユーザがアクセスすることができる前記個々の要素のランク付けを前記ユーザに示すステップと
    を含むことを特徴とする方法。
  2. 前記ユーザに示すステップは、前記マッチしたドキュメントの階層構造をユーザに表示するステップを含むことを特徴とする請求項1に記載の方法。
  3. 前記階層構造を前記表示するステップは、前記構造化ドキュメントの構造を表示する階層ツリーを提供するステップを含むことを特徴とする請求項2に記載の方法。
  4. 前記クエリの指定に応じて、段落、セクション、またはドキュメント全体とすることができる前記ドキュメントの細分性に基づいて前記個々のランク付けされた要素をスケーリングするステップをさらに含むことを特徴とする請求項1に記載の方法。
  5. 前記個々の数の前記ランク付けが、いくつかのグラフィック標識を使用して示されることを特徴とする請求項1に記載の方法。
  6. 前記いくつかのグラフィック標識は、いくつかのアスタリスクを含むことを特徴とする請求項5に記載の方法。
  7. 要素における用語の分布を測定するエントロピー測定を使用して個々の要素重み付けするステップをさらに含むことを特徴とする請求項1に記載の方法。
  8. 構造化ドキュメントを前記探し出すステップは、少なくとも1つのクエリ用語を含むすべての要素を特定するステップを含み、
    前記個々の要素に前記ランク付けするステップは、前記ランク付けされたパスに対応する要素を上位から順に戻ステップを含むことを特徴とする請求項1に記載の方法。
  9. 最も近いマッチを有する要素を表示するステップをさらに含むことを特徴とする請求項8に記載の方法。
  10. 前記要素に重み付けするステップであって、
    各段落要素に関して、重み(t,P)が段落Pにおける用語tの重みを表わし、「tf(t,P)」がその段落におけるtの用語頻度であり、Nが、コーパスにおけるドキュメントの数を表わし、nが、用語tを含むドキュメントの数を表わ、計算、
    Figure 0004425641
    に従って前記用語の重みを計算するステップと、
    上位レベルにおける任意のセクション要素Eに関して、ボトムアップ方式に従って、「I(t,E)」が要素Eにおける用語tのエントロピー測度であり、重み(t,E)≧平均(E)+std_dev(E)である場合、用語tが、要素Eの索引用語として選択され、Eのすべての下位要素が、自らの索引用語リストからtを除去し、ただし、(E)は、要素Eにおけるすべての用語の重みの算術平均を表わし、std_dev(E)は、それらの重みの標準偏差を表わす、計算、重み(t,E)=ln(1+tf(t,E))×I(t,E)を使用して用語の重みを計算するステップと、
    根底要素(すなわち、ドキュメント要素)に到達するまで、前記計算、重み(t,E)=ln(1+tf(t,E))×I(t,E)を使用して前記用語の重みを前記計算するステップを繰り返すステップと
    をさらに含むことを特徴とする請求項8に記載の方法。
  11. 処理装置によって実行された際、ユーザによって提供されたある探索用語に基づいて、データベースの中に記憶されている複数の構造化ドキュメントから、前記探索用語に関係のあるドキュメントを探索するコンピュータ実施方法を実施することができるコンピュータ実行可能命令を有するンピュータ可読記録媒体であって、前記方法は、
    複数の構造化ドキュメントを含むデータベースの探索用語に関するクエリを行うステップと、
    前記探索用語を含まない構造化ドキュメントを除去するステップと、
    前記探索用語を含む構造化ドキュメントであるマッチした構造化ドキュメントを評価することを、
    それぞれの個々の要素が前記探索用語にどれだけよくマッチしているかに基づいて前記個々の要素にランク付けするステップであって、Nが、コーパスにおけるドキュメントの数を表わし、n が、クエリ用語t を含むドキュメントの数を表わす
    Figure 0004425641
    がクエリ用語の重みを表わすクエリ用語t の逆ドキュメント頻度(IDF)値であり、Qが、クエリの中のクエリ用語の数である、計算、
    Figure 0004425641
    を使用して前記個々の要素のパスにランク付けするステップを含む、ランク付けするステップにより行う、評価するステップ
    前記ユーザがアクセスすることができる前記個々の要素のランク付けを前記ユーザに示すステップと
    を含むことを特徴とするコンピュータ可読記録媒体。
  12. 前記ユーザに示すステップは、前記マッチしたドキュメントの階層構造をユーザに表示するステップを含む請求項11に記載の方法を行うことを特徴とするコンピュータ可読記録媒体。
  13. 前記階層構造を前記表示するステップは、前記構造化ドキュメントの構造を表示する階層ツリーを提供するステップを含む請求項12に記載の方法を行うことを特徴とするコンピュータ可読記録媒体。
  14. 前記個々の要素の前記ランク付けが、数値によって示される請求項11に記載の方法を行うことを特徴とするコンピュータ可読記録媒体。
  15. 前記構造化ドキュメントの前記要素が、前記クエリの指定に応じて、段落、セクション、またはドキュメント全体とすることができる前記構造化ドキュメントの細分性に応じてスケーリングされる請求項11に記載の方法を行うことを特徴とするコンピュータ可読記録媒体。
  16. 前記ランク付けが、いくつかのアスタリスクを使用して示される請求項11に記載の方法を行うことを特徴とするコンピュータ可読記録媒体。
  17. 要素における用語の分布を測定するエントロピー測定を使用して個々の要素重み付けするステップを含む請求項11に記載の方法を行うことを特徴とするコンピュータ可読記録媒体。
  18. 前記構造化ドキュメントを除去するステップは、少なくとも1つのクエリ用語を含むすべての要素を特定するステップを含み、
    前記個々の要素に前記ランク付けするステップは、前記ランク付けされたパスに対応する要素を上位から順に戻ステップを含む請求項11に記載の方法を行うことを特徴とするコンピュータ可読記録媒体。
JP2004001489A 2003-01-06 2004-01-06 構造化ドキュメントの検索 Expired - Fee Related JP4425641B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US10/337,138 US7111000B2 (en) 2003-01-06 2003-01-06 Retrieval of structured documents

Publications (2)

Publication Number Publication Date
JP2004213675A JP2004213675A (ja) 2004-07-29
JP4425641B2 true JP4425641B2 (ja) 2010-03-03

Family

ID=32507431

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004001489A Expired - Fee Related JP4425641B2 (ja) 2003-01-06 2004-01-06 構造化ドキュメントの検索

Country Status (5)

Country Link
US (4) US7111000B2 (ja)
EP (1) EP1435581B1 (ja)
JP (1) JP4425641B2 (ja)
KR (1) KR101120760B1 (ja)
CN (1) CN100568229C (ja)

Families Citing this family (86)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
JP4049317B2 (ja) * 2003-05-14 2008-02-20 インターナショナル・ビジネス・マシーンズ・コーポレーション 検索支援装置およびプログラム
PL363397A1 (en) * 2003-11-12 2005-05-16 Advanced Digital Broadcast Ltd. System for data search and definition in tree formats and method for data search and definition in tree formats
US20050198059A1 (en) * 2004-03-04 2005-09-08 Peilin Chou Database and database management system
JP2005309727A (ja) * 2004-04-21 2005-11-04 Hitachi Ltd ファイルシステム
US7487145B1 (en) * 2004-06-22 2009-02-03 Google Inc. Method and system for autocompletion using ranked results
US7836044B2 (en) 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
JP4309818B2 (ja) * 2004-07-15 2009-08-05 株式会社東芝 構造化文書管理装置、検索装置、記憶方法、検索方法及びプログラム
US20060031760A1 (en) * 2004-08-05 2006-02-09 Microsoft Corporation Adaptive document layout server/client system and process
US20060047656A1 (en) * 2004-09-01 2006-03-02 Dehlinger Peter J Code, system, and method for retrieving text material from a library of documents
US20060085401A1 (en) * 2004-10-20 2006-04-20 Microsoft Corporation Analyzing operational and other data from search system or the like
US7499940B1 (en) 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US20060106769A1 (en) 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US8090736B1 (en) * 2004-12-30 2012-01-03 Google Inc. Enhancing search results using conceptual document relationships
US9189481B2 (en) * 2005-05-06 2015-11-17 John M. Nelson Database and index organization for enhanced document retrieval
US20060259475A1 (en) * 2005-05-10 2006-11-16 Dehlinger Peter J Database system and method for retrieving records from a record library
CN1318974C (zh) * 2005-08-05 2007-05-30 北京九州汇宝软件有限公司 数据库备份数据的压缩和查询方法
US8156097B2 (en) * 2005-11-14 2012-04-10 Microsoft Corporation Two stage search
US8010523B2 (en) 2005-12-30 2011-08-30 Google Inc. Dynamic search box for web browser
US7809711B2 (en) * 2006-06-02 2010-10-05 International Business Machines Corporation System and method for semantic analysis of intelligent device discovery
CN102929901B (zh) * 2006-06-26 2016-12-14 尼尔森(美国)有限公司 提高数据仓库性能的方法和装置
CN100573520C (zh) * 2006-08-29 2009-12-23 国际商业机器公司 为检索对多个文档进行预处理的方法和装置
US8401841B2 (en) * 2006-08-31 2013-03-19 Orcatec Llc Retrieval of documents using language models
KR20140104048A (ko) * 2006-10-18 2014-08-27 구글 인코포레이티드 신디케이션에 적합한 포괄적인 온라인 랭킹 시스템 및 방법
US7836085B2 (en) * 2007-02-05 2010-11-16 Google Inc. Searching structured geographical data
US7831587B2 (en) * 2007-05-10 2010-11-09 Xerox Corporation Event hierarchies and memory organization for structured data retrieval
US7822752B2 (en) * 2007-05-18 2010-10-26 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
US7853603B2 (en) * 2007-05-23 2010-12-14 Microsoft Corporation User-defined relevance ranking for search
US9256594B2 (en) 2007-06-06 2016-02-09 Michael S. Neustel Patent analyzing system
US8160306B1 (en) * 2007-06-06 2012-04-17 Neustel Michael S Patent analyzing system
US20090119281A1 (en) * 2007-11-03 2009-05-07 Andrew Chien-Chung Wang Granular knowledge based search engine
US8069179B2 (en) * 2008-04-24 2011-11-29 Microsoft Corporation Preference judgements for relevance
US8161036B2 (en) * 2008-06-27 2012-04-17 Microsoft Corporation Index optimization for ranking using a linear model
US8171031B2 (en) * 2008-06-27 2012-05-01 Microsoft Corporation Index optimization for ranking using a linear model
US8312032B2 (en) 2008-07-10 2012-11-13 Google Inc. Dictionary suggestions for partial user entries
US20100125566A1 (en) * 2008-11-18 2010-05-20 Patentcafe.Com, Inc. System and method for conducting a patent search
US10303722B2 (en) 2009-05-05 2019-05-28 Oracle America, Inc. System and method for content selection for web page indexing
US20100287152A1 (en) 2009-05-05 2010-11-11 Paul A. Lipari System, method and computer readable medium for web crawling
KR101122394B1 (ko) * 2009-05-08 2012-03-23 엔에이치엔(주) 엔트로피 점수를 이용한 검색결과 제공 방법 및 장치
CN102483752A (zh) 2009-06-03 2012-05-30 谷歌公司 用于部分输入的查询的自动完成
EP2665002A3 (en) 2009-06-19 2014-04-02 Blekko, Inc. A method of counting unique items in a database system
WO2011000165A1 (en) * 2009-07-03 2011-01-06 Hewlett-Packard Development Company,L.P. Apparatus and method for text extraction
US9507827B1 (en) * 2010-03-25 2016-11-29 Excalibur Ip, Llc Encoding and accessing position data
US8370330B2 (en) * 2010-05-28 2013-02-05 Apple Inc. Predicting content and context performance based on performance history of users
US20120084291A1 (en) * 2010-09-30 2012-04-05 Microsoft Corporation Applying search queries to content sets
US9424351B2 (en) 2010-11-22 2016-08-23 Microsoft Technology Licensing, Llc Hybrid-distribution model for search engine indexes
US8478704B2 (en) * 2010-11-22 2013-07-02 Microsoft Corporation Decomposable ranking for efficient precomputing that selects preliminary ranking features comprising static ranking features and dynamic atom-isolated components
US9195745B2 (en) 2010-11-22 2015-11-24 Microsoft Technology Licensing, Llc Dynamic query master agent for query execution
US9342582B2 (en) 2010-11-22 2016-05-17 Microsoft Technology Licensing, Llc Selection of atoms for search engine retrieval
US8713024B2 (en) 2010-11-22 2014-04-29 Microsoft Corporation Efficient forward ranking in a search engine
US9529908B2 (en) 2010-11-22 2016-12-27 Microsoft Technology Licensing, Llc Tiering of posting lists in search engine index
US8620907B2 (en) 2010-11-22 2013-12-31 Microsoft Corporation Matching funnel for large document index
US9098570B2 (en) * 2011-03-31 2015-08-04 Lexisnexis, A Division Of Reed Elsevier Inc. Systems and methods for paragraph-based document searching
US20120271844A1 (en) * 2011-04-20 2012-10-25 Microsoft Corporation Providng relevant information for a term in a user message
KR101454677B1 (ko) * 2011-10-31 2014-10-27 네이버 주식회사 엔트로피 점수를 이용한 검색결과 제공 방법 및 장치
US8965904B2 (en) * 2011-11-15 2015-02-24 Long Van Dinh Apparatus and method for information access, search, rank and retrieval
US20130297657A1 (en) * 2012-05-01 2013-11-07 Gajanan Chinchwadkar Apparatus and Method for Forming and Using a Tree Structured Database with Top-Down Trees and Bottom-Up Indices
JP6590481B2 (ja) * 2012-12-07 2019-10-16 キヤノン電子株式会社 ウイルス侵入経路特定装置、ウイルス侵入経路特定方法およびプログラム
US9916284B2 (en) * 2013-12-10 2018-03-13 International Business Machines Corporation Analyzing document content and generating an appendix
JP6461992B2 (ja) 2014-11-05 2019-01-30 キヤノン電子株式会社 特定装置、その制御方法、及びプログラム
US9875288B2 (en) 2014-12-01 2018-01-23 Sap Se Recursive filter algorithms on hierarchical data models described for the use by the attribute value derivation
US10776376B1 (en) * 2014-12-05 2020-09-15 Veritas Technologies Llc Systems and methods for displaying search results
CN104572620B (zh) * 2014-12-31 2018-11-23 百度在线网络技术(北京)有限公司 一种用于显示章节内容的方法和装置
US10242071B2 (en) 2015-06-23 2019-03-26 Microsoft Technology Licensing, Llc Preliminary ranker for scoring matching documents
US11281639B2 (en) * 2015-06-23 2022-03-22 Microsoft Technology Licensing, Llc Match fix-up to remove matching documents
US10229143B2 (en) 2015-06-23 2019-03-12 Microsoft Technology Licensing, Llc Storage and retrieval of data from a bit vector search index
US10467215B2 (en) 2015-06-23 2019-11-05 Microsoft Technology Licensing, Llc Matching documents using a bit vector search index
US10733164B2 (en) 2015-06-23 2020-08-04 Microsoft Technology Licensing, Llc Updating a bit vector search index
US10565198B2 (en) 2015-06-23 2020-02-18 Microsoft Technology Licensing, Llc Bit vector search index using shards
US11392568B2 (en) 2015-06-23 2022-07-19 Microsoft Technology Licensing, Llc Reducing matching documents for a search query
CN106815266B (zh) * 2015-12-01 2020-06-16 北京国双科技有限公司 裁判文书检索方法和装置
WO2017108550A1 (en) * 2015-12-24 2017-06-29 Koninklijke Philips N.V. Device for and method of determining a length of a relevant history
US20180165265A1 (en) * 2016-12-08 2018-06-14 International Business Machines Corporation Indicating property inheritance in object hierarchies
KR102594625B1 (ko) * 2017-03-19 2023-10-25 오펙-에슈콜롯 리서치 앤드 디벨롭먼트 엘티디 K-부정합 검색을 위한 필터를 생성하는 시스템 및 방법
CN108959573B (zh) * 2018-07-05 2022-07-15 京东方科技集团股份有限公司 基于桌面云的数据迁移方法、装置、电子设备以及存储介质
WO2020075062A1 (en) * 2018-10-08 2020-04-16 Arctic Alliance Europe Oy Method and system to perform text-based search among plurality of documents
US11061913B2 (en) * 2018-11-30 2021-07-13 International Business Machines Corporation Automated document filtration and priority scoring for document searching and access
US11074262B2 (en) * 2018-11-30 2021-07-27 International Business Machines Corporation Automated document filtration and prioritization for document searching and access
US11068490B2 (en) * 2019-01-04 2021-07-20 International Business Machines Corporation Automated document filtration with machine learning of annotations for document searching and access
US10977292B2 (en) 2019-01-15 2021-04-13 International Business Machines Corporation Processing documents in content repositories to generate personalized treatment guidelines
US11721441B2 (en) 2019-01-15 2023-08-08 Merative Us L.P. Determining drug effectiveness ranking for a patient using machine learning
US11537581B2 (en) * 2019-03-22 2022-12-27 Hewlett Packard Enterprise Development Lp Co-parent keys for document information trees
CN110990017B (zh) * 2019-09-11 2022-09-09 无锡江南计算技术研究所 一种基于可信树的特征存储与匹配方法
US11531818B2 (en) * 2019-11-15 2022-12-20 42 Maru Inc. Device and method for machine reading comprehension question and answer
US20210349888A1 (en) * 2020-05-11 2021-11-11 Dropbox, Inc. Personalized Spelling Correction
CN112307356A (zh) * 2020-10-30 2021-02-02 北京百度网讯科技有限公司 信息搜索方法、装置、电子设备及存储介质

Family Cites Families (55)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5020019A (en) * 1989-05-29 1991-05-28 Ricoh Company, Ltd. Document retrieval system
JPH03122770A (ja) * 1989-10-05 1991-05-24 Ricoh Co Ltd キーワード連想文書検索方法
US5404514A (en) * 1989-12-26 1995-04-04 Kageneck; Karl-Erbo G. Method of indexing and retrieval of electronically-stored documents
US5321833A (en) * 1990-08-29 1994-06-14 Gte Laboratories Incorporated Adaptive ranking system for information retrieval
JP2943447B2 (ja) * 1991-01-30 1999-08-30 三菱電機株式会社 テキスト情報抽出装置とテキスト類似照合装置とテキスト検索システムとテキスト情報抽出方法とテキスト類似照合方法、及び、質問解析装置
JPH05101107A (ja) * 1991-10-07 1993-04-23 Hitachi Ltd 適合率を用いた絞り込みデータ検索装置及び方法
GB9220404D0 (en) * 1992-08-20 1992-11-11 Nat Security Agency Method of identifying,retrieving and sorting documents
JP2770715B2 (ja) * 1993-08-25 1998-07-02 富士ゼロックス株式会社 構造化文書検索装置
EP0645757B1 (en) * 1993-09-23 2000-04-05 Xerox Corporation Semantic co-occurrence filtering for speech recognition and signal transcription applications
US5692176A (en) * 1993-11-22 1997-11-25 Reed Elsevier Inc. Associative text search and retrieval system
US5574840A (en) 1994-08-29 1996-11-12 Microsoft Corporation Method and system for selecting text utilizing a plurality of text using switchable minimum granularity of selection
JP2896634B2 (ja) 1995-03-02 1999-05-31 富士ゼロックス株式会社 全文登録語検索装置および全文登録語検索方法
US5826260A (en) * 1995-12-11 1998-10-20 International Business Machines Corporation Information retrieval system and method for displaying and ordering information based on query element contribution
US5752242A (en) * 1996-04-18 1998-05-12 Electronic Data Systems Corporation System and method for automated retrieval of information
JP3598742B2 (ja) * 1996-11-25 2004-12-08 富士ゼロックス株式会社 文書検索装置及び文書検索方法
US6098065A (en) * 1997-02-13 2000-08-01 Nortel Networks Corporation Associative search engine
US5873081A (en) * 1997-06-27 1999-02-16 Microsoft Corporation Document filtering via directed acyclic graphs
US5933822A (en) * 1997-07-22 1999-08-03 Microsoft Corporation Apparatus and methods for an information retrieval system that employs natural language processing of search results to improve overall precision
US6014639A (en) 1997-11-05 2000-01-11 International Business Machines Corporation Electronic catalog system for exploring a multitude of hierarchies, using attribute relevance and forwarding-checking
US5999664A (en) * 1997-11-14 1999-12-07 Xerox Corporation System for searching a corpus of document images by user specified document layout components
US6801916B2 (en) * 1998-04-01 2004-10-05 Cyberpulse, L.L.C. Method and system for generation of medical reports from data in a hierarchically-organized database
US6389425B1 (en) 1998-07-09 2002-05-14 International Business Machines Corporation Embedded storage mechanism for structured data types
JP2000029902A (ja) 1998-07-15 2000-01-28 Nec Corp 構造化文書分類装置およびこの構造化文書分類装置をコンピュータで実現するプログラムを記録した記録媒体、並びに、構造化文書検索システムおよびこの構造化文書検索システムをコンピュータで実現するプログラムを記録した記録媒体
US6446061B1 (en) * 1998-07-31 2002-09-03 International Business Machines Corporation Taxonomy generation for document collections
JP2000090098A (ja) 1998-09-09 2000-03-31 Hitachi Ltd データベース問い合わせ方法及びその実施装置並びにその処理プログラムを記録した媒体
US6363378B1 (en) * 1998-10-13 2002-03-26 Oracle Corporation Ranking of query feedback terms in an information retrieval system
JP2001160066A (ja) 1998-12-25 2001-06-12 Matsushita Electric Ind Co Ltd データ処理装置、データ処理方法および記録媒体、並びに該データ処理方法をコンピュータに実行させるためのプログラム
AU5587400A (en) * 1999-05-07 2000-11-21 Carlos Cardona System and method for database retrieval, indexing and statistical analysis
US7225182B2 (en) * 1999-05-28 2007-05-29 Overture Services, Inc. Recommending search terms using collaborative filtering and web spidering
US6380947B1 (en) * 1999-07-22 2002-04-30 At&T Corp. Method and apparatus for displaying and tree scrolling a hierarchical data structure
US20020052692A1 (en) 1999-09-15 2002-05-02 Eoin D. Fahy Computer systems and methods for hierarchical cluster analysis of large sets of biological data including highly dense gene array data
US7287214B1 (en) * 1999-12-10 2007-10-23 Books24X7.Com, Inc. System and method for providing a searchable library of electronic documents to a user
US6397211B1 (en) * 2000-01-03 2002-05-28 International Business Machines Corporation System and method for identifying useless documents
US7333983B2 (en) * 2000-02-03 2008-02-19 Hitachi, Ltd. Method of and an apparatus for retrieving and delivering documents and a recording media on which a program for retrieving and delivering documents are stored
EP1122651B1 (en) * 2000-02-03 2010-05-19 Hitachi, Ltd. Method and apparatus for retrieving and delivering documents, and recording media storing a program therefor
WO2002008948A2 (en) * 2000-07-24 2002-01-31 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
KR100426382B1 (ko) * 2000-08-23 2004-04-08 학교법인 김포대학 엔트로피 정보와 베이지안 에스오엠을 이용한 문서군집기반의 순위조정 방법
KR100434902B1 (ko) * 2000-08-28 2004-06-07 주식회사 에이전트엑스퍼트 지식 기반 맞춤 정보 제공 시스템 및 그 서비스 방법
US6804662B1 (en) * 2000-10-27 2004-10-12 Plumtree Software, Inc. Method and apparatus for query and analysis
US6693651B2 (en) * 2001-02-07 2004-02-17 International Business Machines Corporation Customer self service iconic interface for resource search results display and selection
US7225234B2 (en) * 2001-03-02 2007-05-29 Sedna Patent Services, Llc Method and system for selective advertisement display of a subset of search results
US20020123989A1 (en) * 2001-03-05 2002-09-05 Arik Kopelman Real time filter and a method for calculating the relevancy value of a document
KR100498574B1 (ko) * 2001-03-08 2005-07-01 주식회사 다이퀘스트 단락 단위의 실시간 응답 색인을 이용한 자연어 질의-응답검색시스템
JP3842577B2 (ja) 2001-03-30 2006-11-08 株式会社東芝 構造化文書検索方法および構造化文書検索装置およびプログラム
US20020198962A1 (en) * 2001-06-21 2002-12-26 Horn Frederic A. Method, system, and computer program product for distributing a stored URL and web document set
US20050108200A1 (en) * 2001-07-04 2005-05-19 Frank Meik Category based, extensible and interactive system for document retrieval
US7403938B2 (en) * 2001-09-24 2008-07-22 Iac Search & Media, Inc. Natural language query processing
US20030115191A1 (en) * 2001-12-17 2003-06-19 Max Copperman Efficient and cost-effective content provider for customer relationship management (CRM) or other applications
US7080059B1 (en) * 2002-05-13 2006-07-18 Quasm Corporation Search and presentation engine
CA2485546A1 (en) * 2002-05-14 2003-11-27 Verity, Inc. Apparatus and method for region sensitive dynamically configurable document relevance ranking
US7231395B2 (en) * 2002-05-24 2007-06-12 Overture Services, Inc. Method and apparatus for categorizing and presenting documents of a distributed database
US7139778B2 (en) * 2002-06-28 2006-11-21 Microsoft Corporation Linear programming approach to assigning benefit to database physical design structures
US20040037734A1 (en) * 2002-08-23 2004-02-26 Toomey Patrick J. Method for removal of mold from a structure
US7111000B2 (en) * 2003-01-06 2006-09-19 Microsoft Corporation Retrieval of structured documents
US20070260627A1 (en) * 2006-05-03 2007-11-08 Lucent Technologies Inc. Method and apparatus for selective content modification within a content complex

Also Published As

Publication number Publication date
US20060161532A1 (en) 2006-07-20
EP1435581A3 (en) 2005-09-28
US20090012956A1 (en) 2009-01-08
US8046370B2 (en) 2011-10-25
KR20040063822A (ko) 2004-07-14
KR101120760B1 (ko) 2012-06-12
US7111000B2 (en) 2006-09-19
CN1517914A (zh) 2004-08-04
EP1435581A2 (en) 2004-07-07
EP1435581B1 (en) 2013-04-10
CN100568229C (zh) 2009-12-09
US20040133557A1 (en) 2004-07-08
US7428538B2 (en) 2008-09-23
JP2004213675A (ja) 2004-07-29
US20060155690A1 (en) 2006-07-13

Similar Documents

Publication Publication Date Title
JP4425641B2 (ja) 構造化ドキュメントの検索
US7685112B2 (en) Method and apparatus for retrieving and indexing hidden pages
US8868539B2 (en) Search equalizer
JP5638031B2 (ja) 格付け方法、検索結果分類方法、格付けシステム及び検索結果分類システム
US7769771B2 (en) Searching a document using relevance feedback
US8099423B2 (en) Hierarchical metadata generator for retrieval systems
US7783644B1 (en) Query-independent entity importance in books
US7752243B2 (en) Method and apparatus for construction and use of concept knowledge base
US7788261B2 (en) Interactive web information retrieval using graphical word indicators
US20130268526A1 (en) Discovery engine
US8930822B2 (en) Method for human-centric information access and presentation
US20050081146A1 (en) Relation chart-creating program, relation chart-creating method, and relation chart-creating apparatus
JP2007188352A (ja) ページリランキング装置、ページリランキングプログラム
US20120158716A1 (en) Image object retrieval based on aggregation of visual annotations
Wolfram The symbiotic relationship between information retrieval and informetrics
US8775443B2 (en) Ranking of business objects for search engines
Hristidis et al. Ranked queries over sources with boolean query interfaces without ranking support
Hristidis et al. Relevance-based retrieval on hidden-web text databases without ranking support
Ntoulas et al. Downloading hidden web content
Veningston et al. Semantic association ranking schemes for information retrieval applications using term association graph representation
EP1807781A1 (en) Data processing system and method
Lin et al. Personalized optimal search in local query expansion
Wang Evaluation of web search engines

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20070109

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090807

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091109

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091204

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091209

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121218

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131218

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313113

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees