JP4861961B2

JP4861961B2 - 情報アクセスおよび検索におけるレレバンス重み付けナビゲーション

Info

Publication number: JP4861961B2
Application number: JP2007288256A
Authority: JP
Inventors: ハウクオルセンオイスタイン
Original assignee: マイクロソフトインターナショナルホールディングスビー．ブイ．
Priority date: 2006-11-07
Filing date: 2007-11-06
Publication date: 2012-01-25
Anticipated expiration: 2027-11-06
Also published as: JP2008135023A; EP1930816A1; NO325864B1; US7966305B2; NO20065133L; US20080189269A1

Description

本発明はスコープ（ｓｃｏｐｅ：範囲）および値（ｖａｌｕｅ）間の複数のアソシエーションまたはスコープと値−重み対（ｖａｌｕｅ−ｗｅｉｇｈｔｐａｉｒ）間の複数のアソシエーション（ａｓｓｏｃｉａｔｉｏｎｓ）を含む階層型指定スコープ（ｈｉｅｒａｒｃｈｉｃａｌｎａｍｅｄｓｃｏｐｅｓ）を含む文書（ｄｏｃｕｍｅｎｔｓ）の要約情報（ｓｕｍｍａｒｙｉｎｆｏｒｍａｔｉｏｎ）を計算する方法に関し、この方法は文書セット（文書集合）（ａｓｅｔｏｆｄｏｃｕｍｅｎｔｓ）にクエリーを適用し、一致する文書のリザルトセット（ａｒｅｓｕｌｔｓｅｔｏｆｍａｔｃｈｉｎｇｄｏｃｕｍｅｎｔｓ）および一致する文書のクエリー依存サブセクション（ｑｕｅｒｙ−ｄｅｐｅｎｄｅｎｔｓｕｂｓｅｃｔｉｏｎｓｏｆｔｈｅｍａｔｃｈｉｎｇｄｏｃｕｍｅｎｔｓ）を識別するステップを含んでいる。

本発明は本発明の方法をサポートし実現する検索エンジン（ｓｅａｒｃｈｅｎｇｉｎｅ）にも関連している。

本発明の方法は通信システム一般、すなわち、エクストラネット（ｅｘｔｒａｎｅｔｓ）およびイントラネット（ｉｎｔｒａｎｅｔｓ）の両方にわたって情報アクセスおよび検索（ｉｎｆｏｒｍａｔｉｏｎａｃｃｅｓｓ，ｓｅａｒｃｈ，ａｎｄｒｅｔｒｉｅｖａｌ）に応用する付加ツールまたは改良と見なすことができる。

情報検索（Ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌ）は従来エンドユーザがクエリー言語を使用するかあるいはグラフィカルユーザインターフェイスを介してブール演算子を使用してクエリーを生成することを伴う。クエリーの実行により一致する文書セットである検索結果（ｓｅａｒｃｈｒｅｓｕｌｔ）が提供される。このリザルトセット（ｒｅｓｕｌｔｓｅｔ）は一般的にその特定の文書がメンバーであるかメンバーではない従来のきちんとした集合又はセット（ｃｌａｓｓｉｃａｌｃｒｉｓｐｓｅｔ）である。

本発明全体を通して我々は任意の検索可能（ｓｅａｒｃｈａｂｌｅ）なオブジェクトに対して「文書」（ｄｏｃｕｍｅｎｔ）の用語を使用し、したがって、それはたとえばテキスト文書（ｔｅｘｔｕａｌｄｏｃｕｍｅｎｔ）、ＸＭＬ，ＨＴＭＬ，ＳＧＭＬ，またはオフィスフォーマットで表される文書、レコード、テーブル、ビュー、またはクエリー等のデータベースオブジェクト、またはマルチメディアオブジェクトを意味することができる。

クエリーＱはＤの或るサブセット（ｓｕｂｓｅｔ）、すなわちＰ、がクエリーＱに対する適切な結果であるという仮定の元で文書セット（ｄｏｃｕｍｅｎｔｓｅｔ）Ｄ（サーチスペース）に適用される。再現率（ｒｅｃａｌｌ）はリザルトセットＲに戻されたＰのフラクション（何分の１か：ｔｈｅｆｒａｃｔｉｏｎｏｆＰｒｅｔｕｒｎｅｄ）、すなわち、|Ｒ∩Ｐ|／|Ｐ|である。適合率（ｐｒｅｃｉｓｉｏｎ）は適切であるＲの何分の１かである、すなわち、|Ｒ∩Ｐ|／|Ｒ|。典型的な検索システム（ｓｅａｒｃｈｓｙｓｔｅｍ）は図１にグラフで示すような適合率および再現率のトレードオフを示す適合率−再現率曲線を有し、それは適合率が高まると再現率がどのように低下するかおよびその逆を示している。大きな適合率は低い再現率でしか達成されず、その逆も言える。検索システムはアクセス可能な適合率および再現率を提供するように調整される。

しかしながら、多くの文書が同じキーワードを共有する膨大なコンテンツ量の場合、リザルトセットは人間ユーザに効率的に提供するのに大きすぎるものとなる。最近、情報検索システム（ｉｎｆｏｒｍａｔｉｏｎｒｅｔｒｉｅｖａｌｓｙｓｔｅｍｓ）は、文書が任意のクエリー（たとえば、Ｇｏｏｇｌｅ（登録商標）からのページランク（ｐａｇｅｒａｎｋ））に対して有効である事前確率（ｐｒｉｏｒｉｐｒｏｂａｂｉｌｉｔｉｅｓ）を含むだけでなく、クエリーおよび文書間の一致品質（ｑｕａｌｉｔｙｏｆｍａｔｃｈ）の関数としてレレバンススコア（ｒｅｌｅｖａｎｃｅｓｃｏｒｅ：適合性得点）を計算する。検索結果はこのレレバンススコアに従ってランク付けして提示され、通常は１０−２０文書のハイパーリンクページ内に、最高レレバンススコアを有する文書の詳細を最初に示す。再現率および適合率の概念は前記したきちんとしたリザルトセットに対するほど明確（ｃｌｅａｒ−ｃｕｔ）ではないが、それでも適用される。再現率は検索結果内に好ましくは第１リザルトページ（ｆｉｒｓｔｒｅｓｕｌｔｐａｇｅ）の上部に含まれる適切な文書を得ることに関連する。適合率は第１リザルトページ上に不適切な文書が無いことを意味する。

ユーザは検索結果を解析し、リザルト文書（ｒｅｓｕｌｔｄｏｃｕｍｅｎｔｓ）を調べ、クエリーを再生成することにより情報検索システム（検索エンジン）とインタラクトする。ユーザはシステム内の文書の収集範囲を一般的に知らずクエリーを十分に特定的なものとはしないため（すなわち、適合率が低い）、検索結果はしばしば一般的すぎる（ｔｏｏｇｅｎｅｒａｌ）ものとなる。一般的なクエリー再生成はクエリー改良を行う、すなわち、適合率を改善するためにオリジナル検索リザルトセット（ｓｅａｒｃｈｒｅｓｕｌｔｓｅｔ）のサブセット（ｓｕｂｓｅｔ：一部分）を選出することである。

つい最近になって、情報検索システムはリザルトセットナビゲーションの概念を含んできている。刊行された従来技術の例として、たとえば、Ｅｎｄｅｃａｔｅｃｈｎｏｌｏｇｉｅｓ，Ｉｎｃ．に譲渡された米国特許第７，０３５，８６４号と７，０６２，４８３号、およびＦａｓｔＳｅａｒｃｈ＆ＴｒａｎｓｆｅｒＡＳＡに譲渡されたノルウェー国特許出願第２００５２２１５号を参照されたい。文書は多数の属性（たとえば、価格、重み、キーワード）と関連付けられ、各属性はゼロ、一つ、または一般的に多数の値を有する。属性値は頻度または値でソートされた頻度ヒストグラムとして提示される。ナビゲータは定められた属性に対する頻度ヒストグラムを提示するグラフィカルユーザインターフェイス・オブジェクトであり、ユーザはシングルクリックで属性値対をクエリー改良として選出するだけでなく、リザルトセットを解析することができる。改良は瞬時に実行され、新しいリザルトセットがその上の新しいナビゲータと共に提示される。たとえば、“ｓｋｉｉｎｇ”に対する検索は“Ｃｏｕｎｔｒｙ”文書属性（メタデータ）上の“Ｃｏｕｎｔｒｙ”ナビゲータを含むことができる。このナビゲータはノルウェーに関連付けられる“ｓｋｉｉｎｇ”に対するリザルトセット内にかなりの数の文書があることを示唆する値“Ｎｏｒｗａｙ”を含んでいる。ユーザがナビゲータ内の“Ｎｏｒｗａｙ”オプションを選出すると、システムはノルウェーに関連付けられた文書にさらに限定される“ｓｋｉｉｎｇ”リザルトセットのサブセットを提示する。

図２において、クエリー２０１は文書レベル・メタデータ２０３−２０５上のナビゲータと共にリザルトセット２０２を与える。例において、姓“Ｔｈｏｒｓｅｎ”および名“Ｔｏｒｓｔｅｉｎ”に対する検索（ｓｅｒｃｈ）２０１によりユーザはリザルトセット（２０４）の中から名を改良し国（２０３）の一部の検索を抑制することができる。各改良に対して、改良を適用する場合のリザルトセットのサイズが示される。

ナビゲーションはデータマイニングの多くの概念を含んでいる。従来のデータマイニングは静的データセット上である。ナビゲーションにより、データマイニングは動的パー・クエリー・リザルトセット（ｐｅｒ−ｑｕｅｒｙｒｅｓｕｌｔｓｅｔ）上で利用される。各文書属性はデータマイニング術語に関するディメンジョン／ファセットを表す。

正式に、クエリーＱが与えられると、文書セットＤを横切って値{ν}を有する属性ａ上のナビゲータＮは値νのＮ（Ｑ，ａ，ν）インスタンスを有する。文書ｄ内の属性ａに対する値のセットはｄ（ａ）である。
Ｎ（Ｑ，ａ，ν）＝｜｛ｄｉｎＤ：Ｑｍａｔｃｈｅｓｄ，ν ｉｎｄ（ａ）｝｜

属性値νと文書ヒットカウントＮ（Ｑ，ａ，ν）の両方が提示され、典型的には値または文書ヒットカウント上でソートされる。

ナビゲーションはクエリーの文脈のリザルト・セットアグリゲーション（ａｇｇｒｅｇａｔｉｏｎ：集約）の適用であり、ユーザが要約内の特定のオブジェクトを選出する時にクエリー内に内蔵されるクエリー変更子だけでなくリザルトセット要約（ｒｅｓｕｌｔｓｅｔｓｕｍｍａｒｙ）がユーザに提示される。プレゼンテーションは属性ディメンジョンに沿ったリザルトセットのビュー（ｖｉｅｗ）であり属性値の他に品質インジケータを含むことができ、品質は通常定められた属性値または属性値範囲に対する文書数である。

後述するアイデアは一般的ケースにおけるアグリゲーションおよび特定的なナビゲーションへの適用の両方を包含している。アグリゲーションは必ずしもそれをクエリー改良とリンクしないで提示することができ、あるいは提示すらされない統計的解析に対する基礎とすることができる。また、情報検索システムはクエリーの解析、リザルトセット、リザルトセットに関連付けられたナビゲータ／アグリゲーションに基づいてこのようなクエリー改良を自動的に選出するように選択することができる。

文書−グローバル属性（メタデータ）は文書または構造化データベース・レコード（ｓｔｒｕｃｔｕｒｅｄｄａｔａｂａｓｅｒｅｃｏｒｄｓ）内で明白であるか、あるいは情報抽出分野からの技術を使用して自動的に発見される文書の非構造化コンテンツ内の属性である。階層構造化コンテンツ（たとえば、ＸＭＬからの）内で、サブ文書要素は明白に属性と関連付けることができる。自動的に抽出された情報はグローバル・文書レベルおよび文脈（サブ文書）レベル（ｃｏｎｔｅｘｔｕａｌ（ｓｕｂ−ｄｏｃｕｍｅｎｔ）ｌｅｖｅｌ）、たとえば、文要素（ｓｅｎｔｅｎｃｅｅｌｅｍｅｎｔ）において関連付けることができる。サブ文書要素はコンテンツ（たとえば、ＨＴＭＬの文節）内で明白であるか、あるいは自動的に検出することができる（たとえば、文検出）。属性と要素の区別は可視コンテンツフロー（ｖｉｓｉｂｌｅｃｏｎｔｅｎｔｆｌｏｗ）に関するものであり、要素のコンテンツは見えるが属性はエレメント上の見えないメタデータである。たとえば、文要素のコンテンツは見えてエンティティ・サブ要素（たとえば、人名）を含むが、文要素上の感情属性はコンテンツフロー、たとえば、文を横切る句検索（ｐｈｒａｓｅｓｅａｒｃｈ）、と干渉してはならない。同様に、エンティティ要素はオリジナルコンテンツを含むが属性は検索および解析に使用されるコンテンツの正規化バージョンを含む。たとえば、テキスト“ｙｅｓｔｅｒｄａｙ”はコンテキストから引き出されるＩＳＯ８６０１標準に正規化された実際のデータ値を含む属性を有するデータエンティティ内に包まれる。

本出願人、すなわち、ＦａｓｔＳｅａｒｃｈ＆ＴｒａｎｓｆｅｒＡＳＡは最近サブ文書要素、たとえば、ノルウェー国特許出願第２００５２２１５号に開示されているように文節および文上に文脈（ｐａｒａｇｒａｐｈｓａｎｄｓｅｎｔｅｎｃｅｓ）ナビゲーション（ｃｏｎｔｅｘｔｕａｌｎａｖｉｇａｔｉｏｎ）を導入している。エンティティはたとえば文から抽出され文要素のサブ要素または文要素上の属性としてマークアップされる。検索システムにより、たとえば、特定の文をクエリーおよび文サブ要素／属性上のナビゲーションにより選出することができる。たとえば、クエリーは“ｐｅｒｓｏｎ_ｎａｍｅ”サブ要素内の“ＢｉｌｌＣｌｉｎｔｏｎ”を含む文を選択してこれらの文の“ｄａｔｅ”サブ要素上にナビゲータを提示することができる。このようなナビゲータは非構造化自然言語コンテンツから抽出されるエンティティ上の等価文書−レベル・ナビゲータよりも遥かに適切である。

図３は文書Ｘ０１、文節Ｘ０２、および文レベルＸ０３においてクエリー“ｓｏｃｃｅｒ”に関連付けられた人々のアグリゲーションであり、明らかに文書レベルにおけるよりも意味的により正確な文節および文コンテキストにおけるアグリゲーションを明確に示している。

時々ユーザは詳細クエリーの指定を要求し、リザルトセットは特定すぎる文書を有する（ｔｏｏｓｐｅｃｉｆｉｃｄｏｃｕｍｅｎｔｓ）（またはなにも有しない）（すなわち、再現率が低い）。ある検索システムによりユーザは、たとえば、代替の表層形式の一致（ｍａｔｃｈｉｎｇｏｆａｌｔｅｒｎａｔｉｖｅｓｕｒｆａｃｅｆｏｒｍｓ）、すなわち、動詞、名詞の単数／複数、等の異なる時制の一致を可能にするレマティゼーション（ｌｅｍｍａｔｉｚａｔｉｏｎ）またはステミング（ｓｔｅｍｍｉｎｇ）を可能とすることにより再現率を簡単に高めることができる。他の再現率向上策は類義性を可能とし、句検索から「全語」（ａｌｌｗｏｒｄｓ）検索へ行き、「全語」検索から「ｍ中ｎ」（ｎｏｆｍ）（または「任意」）検索へ行くことである。スペルチェックはどちらの方法でも有効に働いて再現率または適合率を改善する。

ハイボリューム・アプリケーションに対してスケーリングするために、検索ソリューションは１台のマシン上で実行している単一アプリケーションにリンクされた検索の全面を処理するソフトウェアライブラリから、しばしば数千の多数のマシンが外部クライアントから受信したクエリーを実行している分散検索エンジンソリューションまで開発されている。この開発により検索エンジンは個別の環境内で実行してアプリケーションにより外部制約を課されることなく最適方法で問題を分散することができる。

性能、スケーラビリティ、およびフォールトトレランスに対する基礎はスケーラブル文書を個別のマシン上で処理されるパーティションへ分割し、これらのパーティションを他のマシン上に複写することである。検索エンジン内で、クエリーは解析され次にパーティションのいくつかまたは全てに発送され、各パーティションからの結果がマージされ、最終リザルトセットは後処理された後で検索クライアントへ通される。性能およびフォールトトレランスはデータを新しいマシン上に複写することにより高められる。検索エンジンは新しいパーティションを付加することによりより多くのコンテンツに対してスケーリングする。

文書−レベル属性上の従来のナビゲーションにおいて、レレバンススコアの低い文書は最高レレバンススコアを有する文書に等しくカウントされる。レレバンススコアは一般的にリザルトセットリストに沿って指数関数的に減衰し、かつ文書はリザルトセット内にファジーメンバシップを有するため、ナビゲータは文書カウントの大部分が低レレバンスヒットからであるクエリー改良を含むことができる。

図４はサンプルコンテンツ収集上のサンプルクエリーに対するレレバンスプロファイルを示す。非正規化レレバンススコアはテールレベル（ｔａｉｌｌｅｖｅｌ）へ向かう指数関数降下プロファイルを有する。この特定のクエリーに対して、テールレベルはヒット数１００付近に達する。ヒット１００の先からの文書はリザルトセット内に含まれるが有効メンバシップは非常に低い。

特に、再現率改善検索機能がイネーブルされると検索適合率は降下するが、一般的に、検索エンジン内のレレバンス機構によりレザルトリスト（ｒｅｓｕｌｔｌｉｓｔ）の上部には非常に高品質の新しい文書しか含まれないことが保証される。しかしながら、リザルトセット内に含まれる新しい各文書はナビゲータ内に含まれるため、ナビゲータ内の適合率はさらに降下する。カレントナビゲータのコンテンツは適合率ではなく再現率へバイアスされているので、品質の測度として文書・ヒットカウントしか提供しないため潜在的にユーザを低クエリー改良へ誘引する。

特にモバイル装置において、クライアントの画面の物理的エリア（ｒｅａｌｅｓｔａｔｅ）は制限されているが、目に見えるエリア内に多すぎる情報が詰め込まれるためデスクトップであっても情報過負荷に苦しむ。思わしくない結果を与えるナビゲータクエリー改良によりユーザは情報過負荷および他の目的であればより良く使用できるであろう画面スペースの浪費による悪化を経験する。

パーティションを横切るナビゲータデータのアグリゲーションはネットワーク帯域幅を失わせる。パーティションはどの値が最終ナビゲータ内に現われるか知らないため、パーティションはナビゲータ内の各値に対して頻度カウントを戻さなければならない。リザルトセット内に大きな値のスペースを有するナビゲータに対して、ユーザへのトップＮクエリー改良を選出する前に、分散されたアグリゲーションに対するネットワーク帯域幅は高い検索スループットを得るための隘路となる。特に、ナビゲータ内に提示されない不適切な（低頻度）値を含むためネットワーク帯域幅が浪費される。

図５は分散アグリゲーションのプロセス略図を示す。コンテンツパーティションＸ０１はクエリーと一致するパーティション内の文書上で作動するプロセスＸ０２によりアグリゲート（ａｇｇｒｅｇａｔｅｄ）される。アグリゲートされた結果はネットワークＸ０３を介してグローバルアグリゲーションプロセスＸ０４へ通される。グローバルアグリゲーションプロセスは多数のアグリゲーションサブプロセスにわたって分散された階層型アグリゲーションを含むことができる。最後に、プロセスＸ０５はナビゲータを提示する。多くの一意的値を有するナビゲータはネットワークＸ０３上に十分な帯域幅を必要とする。

ナビゲーションデータのアグリゲーションは典型的に全リザルトセットを横切る。ＣＰＵだけでなくネットワーク帯域幅も前記したように節減するより高い性能に対して、それはトップＮランクヒット上で実施することができ、Ｎはコンフィギュレーションすなわちパー・クエリーパラメータ（いわゆるシャローアグリゲーション）である。一般的に、「超レレバンス（ｓｕｐｅｒ−ｒｅｌｅｖａｎｔ）」文書しか含まれないように（図４内のヒット１００の先からのテールレベル参照）Ｎはクエリーの広いセット（ｗｉｄｅｓｅｔｏｆｑｕｅｒｉｅｓ）の適切なスコアプロファイルに一致しない。Ｎに対する一般的な値を見つけたりクエリーだけから値を推定することはできない。たとえこのようなＮが見つかっても、適切な文書内に十分な範囲のレレバンススコアがあり全文書がレレバンススコアに無関係に同等にカウントされる。

しかしながら、前記したことから判るようにナビゲーションおよびナビゲーションツールにはいくつかの欠点があり、特に、検索結果の品質改善を保証し品質の不適切な測度を使用して引き出される問題に取り組むアプリケーションすなわちクエリーの改良に関して、明白な例は再現率が適合率よりも優先されるケースである。

したがって、本発明の第１の主要な目的はクエリー改良にナビゲーション方法が適用される時に検索結果の品質を改善することである。

本発明の第２の目的は、ナビゲーションが使用されるか否かにかかわらず、クエリーに応答して戻される事実（ｆａｃｔｓ）間の関係の信頼性を改善することである。

本発明のもう１つの目的は再現率が高くて適合率が低すぎるために生じて、たとえば、利用可能な画面ディスプレイ容量のオーバフローを生じ、それはディスプレイ容量が制約された装置、たとえば、モバイル装置を情報検索に使用する時に特に問題となる情報過負荷を回避することである。

本発明のさらなる目的は利用可能なネットワーク帯域幅の利用を最適化し、思わしくないアグリゲーションによる輻輳を回避することである。

本発明の最後の目的は本発明の方法をサポートし実現できる検索エンジンを提供することである。

前記した目的およびさらなる特徴および利点は本発明に従った方法により実現され、それは文書スコープ、それらの値、およびリザルトセットを横切る関連する重みの要約情報を計算し、値を要約値メトリック（ＳＶＭ：ＳｕｍｍａｒｙＶａｌｕｅｍｅｔｒｉｃ）により重み付けすることにより特徴づけられ、前記要約値メトリックは属性値の重み付けされた統計的および動的性質の結合であり、属性値の確率の測度を提供する。

前記した目的およびさらなる特徴および利点は、また、本発明に従った検索エンジンにより実現され、それは階層型スコープ（ｈｉｅｒａｒｃｈｉｃａｌｓｃｏｐｅｓ）への要約値メトリクス（ＳＶＭ）を指定する第１のモジュールであって、前記第１のモジュールはコンテンツＡＰＩまたはコンテンツ解析段階内に含まれる第１のモジュールと、コンテンツ内の明白なフォーマット構造認識からスコープを生成する第２のモジュールおよび、コンテンツの解析からスコープを生成する第３のモジュールであって、前記第２および第３のモジュールはコンテンツ解析段階内に含まれて前記生成されたスコープへ要約値メトリクスを割当てるようにされている前記第２および第３のモジュールと、スコープ、値およびＳＶＭをインデクシング（ｉｎｄｅｘｉｎｇ）する第４のモジュールであって、前記第４のモジュールはコア検索エンジンのインデックスサブシステム（ｉｎｄｅｘｉｎｇｓｕｂｓｙｓｔｅｍ）内に含まれる第４のモジュールとを含むことにより特徴づけられる。

本発明のさらなる特徴および利点は添付された従属請求項から明らかである。

本発明はその一般的概念および特徴の下記の検討およびそれらを実際の応用に関連付け添付図と共に読み出してその実施例を例示する検討からより良く理解される。本発明は文書レベルおよびサブ文書レベル（文脈ナビゲーション）で関連付けられた属性の要約化の両方に応用される。文書レベルアグリゲーションおよびナビゲーションはサブ文書レベルにおけるアグリゲーションおよびナビゲーションの特殊なケースである。以下において、文書レベル・ナビゲーションの特殊なケースについて最初に検討する。

リザルトセット内の各文書をカウントするのではなく、本発明は属性値に関連付けられたいくつかの静的および動的性質を重み付けし、これらを結合して要約値メトリクス（ＳＶＭ）とし、これらのＳＶＭをリザルトセットを横切ってアグリゲートする方法およびシステムを教示する。典型的に、ＳＶＭはその値を有する属性に対する確率または確信スコア（ｂｅｌｉｅｆｓｃｏｒｅ）である。

本発明において、重みという用語は入力値ｘの任意の変換ｆ（ｘ）に対して使用され、線型スケーリングは特殊なケースｆ（ｘ）＝ａ^＊ｘである。多数の入力（ｘ_１，ｘ_２，ｘ_３，．．．）に対して、変換ｆ（ｘ_１，ｘ_２，ｘ_３，．．．）は一般的に入力の非線形結合である。

個別の属性−値対（ａｔｔｒｉｂｕｔｅ−ｖａｌｕｅｐａｉｒｓ）に対するＳＶＭは、たとえば、確率を合計することによりリザルトセットを横切ってアグリゲートされる。任意のこのようなアグリゲーションの決定的な性質（ｃｒｕｃｉａｌｐｒｏｐｅｒｔｙ）は定められた属性に対して最もレレバントな値がアグリゲーション内を支配するように最高確率へ向かうバイアスがなければならないことである。

多くの情報検索システムにおいてレレバンススコアは正規化されない。レレバンススコアの主要な目的は、プレゼンテーション内のレレバンシーを示すだけでなく最もレレバントなヒットを提示する前に文書をランク付け（ソーティング）することである。図４のレレバンススコアに対して、アグリゲーションはテールレベルを推定しこのレベルよりも上の値を全体で一意値当り累積する。合計に対する割り合い又は比率（ｆｒａｃｔｉｏｎｗｉｔｈｒｅｇａｒｄｔｏｔｈｅｔｏｔａｌ）は、前に使用したカウントと同じであるが最もレレバントな文書へ向かうバイアスを有する、その属性−値対の有意性の測度である。

正式に、クエリーＱの文脈内の文書ｄに対する正規化されたレレバンススコアはｐ（ｄ）である。クエリーＱが文書と一致しなければ確率は０である。正規化されたレレバンススコアは属性ａ上のナビゲータ内の値νに対する文書の累積を評価する（ｗｅｉｇｈｔｈｅａｃｃｕｍｕｌａｔｉｏｎｏｆｄｏｃｕｍｅｎｔｓ）のに使用される。
Ｒ（ａ，ν）＝Σｐ（ｄ）ｉｆ ν ｉｎｄ（ａ）［ｓｕｍｏｖｅｒａｌｌｄｉｎＤ］

コンテンツが分割されて（ｐａｒｔｉｔｉｏｎｅｄ）部分リザルト（ｐａｒｔｉａｌｒｅｓｕｌｔ）を計算する各パーティション上に自律的検索システムがあれば、この部分リザルトは他のパーティションからの他の部分結果とマージされる（図５）。部分リザルトはアグリゲーションを含むが、特に、非線形性が含まれる場合は前記正規化およびアグリゲーションはグローバル同期化（ｇｌｏｂａｌｓｙｎｃｈｒｏｎｉｚａｔｉｏｎ）を必要とすることがある。この場合、パーティションが最初にリザルトセットとパーティションが最終アグリゲーションを計算する前に中央処理されるあるアグリゲーションパラメータとを計算するツーパスプロトコル（ｔｗｏ−ｐａｓｓｐｒｏｔｏｃｏｌ）を必要とすることがある。

テールレベル（ｔａｉｌｌｅｖｅｌ）よりも上のレレバンススコアを累積する特殊なケースでは、（値、レレバンススコア合計、カウントの）三つ組みが各一意的属性−値対に対して戻されるワンパスプロトコルで十分である。グローバルレレバンススコアテールレベルは部分リザルトセット（ｐａｒｔｉａｌｒｅｓｕｌｔｓｅｔｓ）をマージする時に推定される。属性アグリゲーションがマージされると、グローバルテールレベル倍したヒットカウント（ｇｌｏｂａｌｔａｉｌｌｅｖｅｌｔｉｍｅｓｔｈｅｈｉｔｃｏｕｎｔ）がレレバンススコア合計から減じられる。アグリゲーションを正規化するために、部分リザルトセットはそれを横切って属性当り（レレバンススコア合計、カウント）を含むこともできる。それによりグローバルテールレベルよりも上のグローバルレレバンススコアを計算して正規化に使用することができる。従来の正確なヒットカウントは依然としてプロトコル内で得られる。

正確なカウントを期すためには、非常に小さなカウントを有する属性値がグローバルにはトップランク値となることがあるため、全属性値をグローバルマージ内に含めなければならない。グローバルマージャーが特定の属性−値対の統計を要求するマルチパスプロトコルは幾分レーテンシを増加はさせるがアグリゲーション帯域幅を低減する。

アグリゲーション内の値はレレバンススコアに従ってランク付けされ、値は本質的にファジーである。正確なカウントとは対照的に、値は容易に検証することはできず、エラーの余地がある。エラー制約を満足させる必要があるアグリゲートされた値の数が正確なカウントに対するものよりも少なくなるように、アグリゲーションをあるエラー制約と関連付けることができる。特に、最大エラーｅが定められると、各パーティションはｅ／Ｎよりも少ないレレバンススコアを有する属性値をドロップすることができ、Ｎはパーティション数である。グローバルレレバンススコア上の属性アグリゲーションを切り捨てるために、グローバルレレバンススコアが第１のパス（たとえば、テール推定）で計算されグローバルレレバンススコアに依存して局所アグリゲーションが実施されるツーパスプロトコルが必要とされることがある。アグリゲーション（すなわち、シャローアグリゲーション）に対して使用される最高ランク文書数を指定する時は、同じ方法を使用してアグリゲータ当りのエラー（ｅｒｒｏｒｐｅｒａｇｇｒｅｇａｔｏｒ）を推定することができる。アグリゲーションのプレゼンテーションはエラーを示したり高すぎるエラーを有するアグリゲーションを単純にドロップすることができる。

文書は定められた属性に対して１つ以上の値としか関連付けられないだけでなく、ファジーメンバシップ得点、たとえば、その特定値ｐ（ｄ，ａ，ν）を有する確率と関連付けることもできる。これは文書を検索できるようにする前に、文書前処理中またはコンテンツをプッシュするクライアントを介して割当てられる事前重み（ｐｒｉｏｒｉｗｅｉｇｈｔ）である。アグリゲーションは関数ｆ、たとえば和（ｓｕｍ）を介したアグリゲート、を介した全体（正規化）文書レレバンススコアだけでなくこの属性値重み（ａｔｔｒｉｂｕｔｅｖａｌｕｅｗｅｉｇｈｔ）も考慮する。
Ｒ（ａ，ν）＝Σｆ（ｐ（ｄ），ｐ（ｄ，ａ，ν））ｉｆ ν ｉｎｄ（ａ）［ｓｕｍｏｖｅｒａｌｌｄｉｎＤ］

関数ｆはリザルトセットの他のオブジェクト、他の属性、付加演算子、または前記したシステムおよび方法が階層型文書およびクエリーに応用されるように一般化される次節に記載される他のアグリゲータも考慮する。

重みｐ（ｄ，ａ，ν）は、たとえば、文書ｄの言語を属性ａに割当てることにより、たとえば、分類プロセスから引き出すことができる。表１は４サンプル文書上での言語検出に対する非正規化確率得点（ｐｒｏｂａｂｉｌｉｔｙｓｃｏｒｅ）を示す。２つのノルウェー語“ｎｂ”および“ｎｎ”、スエーデン語（“ｓｖ”）、デンマーク語（“ｄａ”）の検出には明らかにあいまいさがある。困難な演繹的分類を行うのではなく、検索およびアグリゲーション品質は不確かさを一致プロセスおよびアグリゲーションまで持ってくることにより改善する。

文書に関連付けられる各言語はその言語の確率と共に値ν内にｐ（ｄ，ａ，ν）として入れられる。多言語またはあいまいな文書には、たとえば、「言語“ｌａｎｇｕａｇｅ”」属性内の下記の値｛（“ｅｎ”，０．９），（“ｊａ”，０．２）｝を割当てることができ、もう１つの文書は値｛（“ｅｎ”，１．０）｝を有する。「言語“ｌａｎｇｕａｇｅ”」属性にわたるこれら２つのアグリゲーション（和を介した）は｛（“ｅｎ”，１．９），（“ｊａ”，０．２）｝となる。ユーザが言語、たとえば、“ｅｎ”を選出すると、リザルトセットは言語フィルタにかけられて、ある閾値よりも上の“ｅｎ”得点を有するリザルトセットのサブセットを選出するか、あるいはそれらの“ｅｎ”得点に従って文書をブーストする。“ｅｎ”のブーストの相対的重みはリザルトセットおよび言語ナビゲータのレレバンス統計の解析から決定することができる。

任意の特徴抽出が不確かさおよび確率と関連付けられる。本発明はハード２進判断（ｈａｒｄｂｉｎａｒｙｄｅｃｉｓｉｏｎ）を行ってこれらの２進値をアグリゲートするのではなく、確率をアグリゲートしてユーザにアグリゲーションを提示することによりこれらの確率を処理する。情報検索に対する特徴抽出は、たとえば、言語検出、トピック分類、画像解析、音響解析（たとえば、音声からテキスト）、および映像解析を含む。

特定のクエリーに関連付けられた文書スコープの概観を得ることは、クエリーに関連付けられた事実を推論できるようにするだけでなく、欲しい情報があるリテラル文脈を調べる検索を改良するために非常に貴重である。これは文脈ナビゲーションに頼って、すなわち、最初に戻された情報の文脈を使用して行うことができる。このような文脈情報の品質は、下記の検討から明らかなように、サブ文書コンテンツ要素に適用される時により高くなる。

本発明は階層型コンテンツ（たとえば、一般的にＨＴＭＬ，ＸＨＴＭＬ，およびＸＭＬで表される）およびクエリー（たとえば、全文拡張を含むＸＰａｔｈおよびＸＱｕｅｒｙ）にも応用される。このケースにおける文書の表現はＸＭＬデータモデル［ｈｔｔｐ：／／ｗｗｗ．ｗ３．ｏｒｇ／ＸＭＬ／Ｄａｔａｍｏｄｅｌ．ｈｔｍｌ］，すなわち、階層型指定要素（ｈｉｅｒａｒｃｈｉｃａｌｎａｍｅｄｅｌｅｍｅｎｔｓ）とすることができ、要素はリテラルコンテンツ、サブ要素、指定スコープ（ｎａｍｅｄｓｃｏｐｅｓ）を有することができる。前に参照した文書モデルは文書が指定要素のセット（典型的にはフリーテキスト検索に使用される）および検索、およびアグリゲートに使用される指定スコープのセットを有する特殊なケースである。

要素とスコープとの間の区別はむしろ偶然の一致による。本発明において属性値、属性アグリゲーション、および属性ナビゲーションを参照する時は、文書スコープを有する両方のトップレベル属性、サブ文書要素上の属性、およびサブ文書要素を含める。たとえば、人名は文要素のリテラルコンテンツ内の要素である、文内の人名上にアグリゲートすることは完全に可能である。本発明は要素および属性の両方へのアグリゲートを教示し、下記の任意特定の言葉使いは両方を示唆する。スコープという用語はここでは要素および要素属性の両方を含む。

情報検索システムはストリングスコープ（ｓｔｒｉｎｇｓｃｏｐｅｓ）のリテラルコンテンツをトークン化する、すなわち、コンテンツを人間ユーザにより知覚される検索可能なアトミックユニット（ａｔｏｍｉｃｕｎｉｔｓ）、トークン、へ分割する。西洋の言語（ｗｅｓｔｅｒｎｌａｎｇｕａｇｅｓ）に対して、これらのユニットはほぼワードレベルであり、コンテンツ一致（ｃｏｎｔｅｎｔｍａｔｃｈｉｎｇ）を句読点（ｐｕｎｃｔｕａｔｉｏｎ）等に対して鈍感にする。ある言語はこのようなトークンの明白な分離がなく文脈依存方法を必要とする。構造全体を通してコンテンツは要素属性コンテンツに影響されない単調増加位置（たとえば、文字位置およびトークン位置）を有する。

トークンを選出する述語またはスコープ発生の形の多数の制約を含むクエリーは一致間の距離（ｄｉｓｔａｎｃｅｂｅｔｗｅｅｎｔｈｅｍａｔｃｈｅｓ）を含むレレバンススコアを計算することができる。この距離はコンテンツ内の直接の位置距離（ｓｔｒａｉｇｈｔ−ｆｏｒｗａｒｄｐｏｓｉｔｉｏｎａｌｄｉｓｔａｎｃｅ）に関して定義することができる、例えばトークン距離である。近接レレバンススコア（ｐｒｏｘｉｍｉｔｙｒｅｌｅｖａｎｃｅｓｃｏｒｅ）は、たとえば、ＡＮＤまたはＯＲ演算子（ｏｐｅｒａｔｏｒｓ）に対して暗黙（ｉｍｐｌｉｃｉｔｌｙ）に含めることができ、あるいは、たとえば、“ｔｏ”ＮＥＡＲ“ｂｅ”を検索する明示な近接演算子（ｅｘｐｌｉｃｉｔｐｒｏｘｉｍｉｔｙｏｐｅｒａｔｏｒｓ）内に含めることができる。明示な近接演算子は引数の順序では鈍感にしか一致することができないが、それでもレレバンススコアを順序で区別できる、すなわち、相対距離については否定的（ｎｅｇａｔｉｖｅ）である。暗黙近接レレバンスも引数順序（ａｒｇｕｍｅｎｔｏｒｄｅｒ）（たとえば、ＡＮＤ演算子）に依存することができる。

クエリーは術語のセット（ａｓｅｔｏｆｐｒｅｄｉｃａｔｅｓ）が評価される構造的文書スコープを指定する。レレバンススコア、位置情報、要素意味論（ｅｌｅｍｅｎｔｓｅｍａｎｔｉｃｓ）、要素統計（ｅｌｅｍｅｎｔｓｔａｔｉｓｔｉｃｓ）（たとえば、グローバルでのおよび文書当り（ｐｅｒｄｏｃｕｍｅｎｔ）のこのような要素数）、要素サイズ、文脈内に適用される述語／演算子（ｔｈｅｐｒｅｄｉｃａｔｅｓ／ｏｐｅｒａｔｏｒｓａｐｐｌｉｅｄｉｎｔｈｅｃｏｎｔｅｘｔ）を含む各一致するこのようなスコープに対するクエリー評価文脈があり、特に、文脈内の述語というターム（ｔｈｅｔｅｒｍｐｒｅｄｉｃａｔｅｓｉｎｔｈｅｃｏｎｔｅｘｔ）はレレバンス統計−たとえば、この文書内で、文脈内にグローバルに存在するターム数等を含む。クエリー文脈は文書スコープと関連付けられる、すなわち、その文脈内の述語が適用される文書スコープに関連付けられる。たとえば、文内に述語を有するクエリーは文に関して他のスコープ（たとえば、ＸＰａｔｈ仕様内の軸）を参照できる文クエリー文脈を有する。各スコープ値はそれをアグリゲートする時に使用される事前レレバンススコア（ｐｒｉｏｒｉｒｅｌｅｖａｎｃｅｓｃｏｒｅ）（重み（ｗｅｉｇｈｔ））と関連付けられる。クエリー文脈はクエリー内で指定される祖先クエリー文脈（ａｎｃｅｓｔｏｒｑｕｅｒｙｃｏｎｔｅｘｔｓ）も含んでいる。特に、グローバル文書属性を含むグローバルクエリー文脈は各クエリー評価文脈から入手可能である。

クエリーは選出基準を定義するものの他にアグリゲートだけのためのソフト関連述語（ｓｏｆｔｒｅｌｅｖａｎｃｅｐｒｅｄｉｃａｔｅｓ）を定義することができる。たとえば、“ｓａｉｄ”および会社スコープを含む全文スコープ（ａｌｌｓｅｎｔｅｎｃｅｓｃｏｐｅｓ）の選出、これら２つの制約の位置近似を含むレレバンススコアの算出、レレバンススコアにより重み付けされた会社値のアグリゲートおよび“Ｉｎｃ”を含む会社値への追加ブーストの付与。

文脈ナビゲーション、特に、事実発見（ｆａｃｔｆｉｎｄｉｎｇ）中に情報の位置近似はしばしば意味関連度（ｄｅｇｒｅｅｏｆｓｅｍａｎｔｉｃａｓｓｏｃｉａｔｉｏｎ）に対応する。近似概念（ｐｒｏｘｉｍａｌｃｏｎｃｅｐｔｓ）は通常より高い意味関連度を有する。しかしながら、絶対的距離限界（ａｂｓｏｌｕｔｅｄｉｓｔａｎｃｅｌｉｍｉｔ）は決定するのが困難である。それはコンテンツおよびクエリーの両方の性質に依存する。ある概念は冗長な談話（ｖｅｒｂｏｓｅｄｉｓｃｏｕｒｓｅ）（広い文脈）内に存在し他は簡潔なリスト（ｔｅｒｓｅｌｉｓｔｓ）（狭い文脈）内に存在する。挑戦（ｃｈａｌｌｅｎｇｅ）は著しく適切な関連を含むのに十分狭い場合に統計的証拠を得るのに十分なデータを得るのに十分広い最適文脈を選択することである。したがって、リザルトセットに対して元々考慮された適合率−再現率トレードオフは良品質文脈ナビゲータに対して極めて重大となる。どんなエンティティおよびエンティティ値がある他の述語に関連付けられるかに関心を持っている場合、ユーザは文脈を指定しない。このような適切な関連を見つけるための適切な文脈を選出するのは情報検索システムまでである。

一致のために特定のトークン距離近接述語およびアグリゲーションのための重みを付与する時（Ｗｈｅｎｉｍｐｏｓｉｎｇｓｐｅｃｉｆｉｃｔｏｋｅｎｄｉｓｔａｎｃｅｐｒｏｘｉｍｉｔｙｐｒｅｄｉｃａｔｅｓｆｏｒｍａｔｃｈｉｎｇａｎｄｗｅｉｇｈｔｓｆｏｒａｇｇｒｅｇａｔｉｏｎ）は、文字またはトークン／語に関して距離を予測するのが困難になることがある。多くの場合、文書スコープに関して距離を指定することは手元のタスクによりぴったり適合し、より正確な結果を与えるだけでなく一致および重み付けの指定（ｔｏｓｐｅｃｉｆｙｔｈｅｍａｔｃｈａｎｄｗｅｉｇｈｉｎｇ）をより容易にする。たとえば、クエリーは５つの文内の２つの述語を検索して一方の述語のアグリゲーション重み（ｗｅｉｇｈｔｓ）を述語がどれだけ多くの文から離れているかの関数として指定することができる。もう１つの例は、中間の名詞句の数により重み付けされる場所“Ｏｓｌｏ”の３つの文内の名詞句をアグリゲートする（ａｇｇｒｅｇａｔｅｎｏｕｎｐｈｒａｓｅｓｗｉｔｈｉｎｔｈｒｅｅｓｅｎｔｅｎｃｅｓｏｆｔｈｅｌｏｃａｔｉｏｎ “Ｏｓｌｏ”ｗｅｉｇｈｅｄｂｙｔｈｅｎｕｍｂｅｒｏｆｉｎ−ｂｅｔｗｅｅｎｎｏｕｎｐｈｒａｓｅｓ）。

２つの述語間のもう１つの距離測度はもう１つの述語により選出されたスコープのアグリゲーションである。この距離測度は名詞句が文内に“Ｏｓｌｏ”の後で現われる名詞句のアグリゲーションの重み付け（ｗｅｉｇｈｉｎｇｏｆｔｈｅａｇｇｒｅｇａｔｉｏｎｏｆａｎｏｕｎｐｈｒａｓｅ）に使用することができ、重み（ｗｅｉｇｈｔ）は中間形容詞スコープの感情属性の関数（ｆｕｎｃｔｉｏｎｏｆｔｈｅｓｅｎｔｉｍｅｎｔａｔｔｒｉｂｕｔｅｏｆｔｈｅｉｎ−ｂｅｔｗｅｅｎａｄｊｅｃｔｉｖｅｓｃｏｐｅｓ）である。

高品質連関（ｈｉｇｈｑｕａｌｉｔｙａｓｓｏｃｉａｔｉｏｎｓ）を見つけるために、たとえば、文レベルにおける、最初に狭い文脈を検索しアグリゲートする（すなわち、ナビゲータを計算する）ことができる。そこに十分な証拠（ｅｖｉｄｅｎｃｅ）があればそれをユーザに提示し、そうでなければ、たとえば文節レベルにおいて、幾分広い文脈を試みる。まだ十分一致する文節がなければ、全文書を横断しクエリーを適用することに頼りグローバル文書−レベル属性を使用する。

もう１つの方法はトークン位置に関して（ｃｏｎｔｅｘｔｗｉｄｔｈ）を指定する、たとえば、最初に述語およびアグリゲートされるべきスコープ間の５トークンの間隙で試み、次に、十分なデータがアグリゲートされまで間隙を増加しそれをユーザに提示する。

接近（ｐｒｏｘｉｍｉｔｙ）がレレバンススコアに著しく寄与する時は、広い文脈を第１の試みにおいて使用することができ、近接距離がアグリゲートされた値を変調して（ｔｈｅｐｒｏｘｉｍｉｔｙｄｉｓｔａｎｃｅｍｏｄｕｌａｔｉｎｇｔｈｅａｇｇｒｅｇａｔｅｄｖａｌｕｅｓ）最もレレバントな関連に向かうバイアスを達成する。このスキームにおいて、引き続くより広い検索が必要となることはありそうにない。しかしながら、文脈が段階的に増加して、構造要素に関してまたは位置距離に関して十分なデータを得ると、アグリゲーションはさまざまなレベルにおけるデータを結合してより狭い文脈をより広いものよりも高く評価することができる。この種のアグリゲーションは各レベルにおける結果の性質を解析してアグリゲートされた値を結合する適切な方法を決定しなければならない。これに基づいたデータの結合、すなわちデータの階層およびレベルを考慮した結合はメタアグリゲーション（ｍｅｔａａｇｇｒｅｇａｔｉｏｎ）と呼ばれ後述する。

スコープ値の重み付け（ｗｅｉｇｈｉｎｇｏｆｓｃｏｐｅｖａｌｕｅｓ）は関係（ｒｅｌａｔｉｏｎ）がクエリー内に指定される他のスコープに依存することができる。たとえば、人名のアグリゲーションは、他のレレバンスメトリクスの他に、親文上の感情により重み付けされ（ｗｅｉｇｈｔｅｄｂｙｓｅｎｔｉｍｅｎｔｏｎｔｈｅｐａｒｅｎｔｓｅｎｔｅｎｃｅ）ポジティブな文脈内の人名がより高く重み付けされる（感情上の数値を仮定して）。重み付け（ｗｅｉｇｈｉｎｇ）は文脈コンテンツが、たとえば、各名前に関連付けられたタイトルにより人名を重み評価するのに使用できるように値のマッピングを含む。このようなアグリゲーションはスコープ値に関連付けられたインデクシング時間算出重み（ｉｎｄｅｘｉｎｇ−ｔｉｍｅｃａｌｃｕｌａｔｅｄｗｅｉｇｈｔｓ）上で行うことができる。この方法はより高い性能を提供できるがクエリー時間に（ａｔｑｕｅｒｙｔｉｍｅ）このようなアグリゲーションを定義することに関する柔軟性の欠如の問題がある。

概念的に、他のナビゲータから推論されたレレバンスによりスコープ値の重み付けをする（ｗｅｉｇｈｓｃｏｐｅｖａｌｕｅｓ）こともできる（クエリー改良オプションは必要とされないため、実際はアグリゲーションである）。たとえば、価格範囲は、低価格であればいかなる色であろうとより適切であるが、高価格に対しては人は正確な色を欲しがるように、価格範囲は色の重み付けをすることができる。前と同様に、同じ述語を文脈レベル、たとえば、文またはトークン近接に適用できるが重み付けされた色アグリゲーションに対する適切な証拠を集めるのに不十分なデータであれば、価格アグリゲーションは価格のリザルトセット距離に従って色を重みを評価する（ｗｅｉｇｈｓ）（価格アグリゲーションも評価できる）。

従来、ナビゲーション中のクエリー改良は任意のレレバンススコアを適用せず、異なるセット（ｄｉｆｆｅｒｅｎｔｓｅｔ）を使用して暗黙的にのみ、クエリー内のフィルタ制約を本質的に変えるリザルトサブセットの選出および非選出（ｓｅｌｅｃｔｉｏｎａｎｄｄｅ−ｓｅｌｅｃｔｉｏｎ）である。本発明により、アグリゲーションおよびナビゲーション経験はきちんとした（ｃｒｉｓｐ：クリスプ）フィルタリング演算子ではなくクエリーへソフト制約（ｓｏｆｔｃｏｎｓｔｒａｉｎｔｓ）を加える（または除去する）クエリー改良を使用して「よりソフトに（ｓｏｆｔｅｒ）」することができる。たとえば、クエリー改良はオリジナルクエリーのアンドライク演算子（ａｎｄ−ｌｉｋｅｏｐｅｒａｔｏｒ）および推論ネットワークまたはファジー論理内のソフトナビゲーション述語を加えることができる。オリジナルクエリーおよび加えられたナビゲーション述語はリザルトセットおよびナビゲータの解析に従って重み付けされる（ｗｅｉｇｈｔｅｄ）。たとえば、ナビゲーション述語の重みは小さなリザルトセットよりも巨大なリザルトセットに対してより高くより制約的となる。小さなリザルトセットに対しては、ヒットリストの再ランク付けが有効となることがある。本発明により、リザルトセットのレレバンスを変えるクエリー改良は従来のきちんとしたフィルタリングと同じ効果をナビゲータ内に達成することができる。

要約値メトリクス（ＳＶＭ）は、たとえば、Ｊａｖａ（登録商標）コードに関して、クエリー内に定義されたカスタムコード（ｃｕｓｔｏｍｃｏｄｅ）に基づいて計算することができる。たとえば、Ｊａｖａ（登録商標）コードはアグリゲーションが小文字値（ｌｏｗｅｒｃａｓｅｖａｌｕｅｓ）上にあり、値内に大文字（ｕｐｐｅｒｃａｓｅｃｈａｒａｃｔｅｒｓ）が存在すれば値当たりＳＶＭは増加したと指定することができる。クエリーは値上のカスタムアグリゲーションおよびＳＶＭも指定することができる。たとえば、カスタムコードは文書内の一意的値をアグリゲートすることができ、一意的値当たりの最大ＳＶＭを選出する。ＸＱｕｅｒｙ全文またはオントロジー言語を含む、他の言語、たとえば、ＸＰａｔｃｈまたはＸｑｕｅｒｙを使用することができる。

コンテンツは様々なものとして多数のスキーマ（ｓｃｈｅｍａｓ）に付着することができる。ある情報検索システムにより特定の検索スキーマへ正規化する必要なしにコンテンツを受け入れる（ｉｎｇｅｓｔｅｄ）ことができる。各コンテンツスキーマの特定の検索スキーマへのマッピングを定義するタスクは巨大で決して終わらない。検索スキーマおよびマッピングは検索アプリケーションが発展するにつれ変化する。クエリー時間において（ａｔｑｕｅｒｙ−ｔｉｍｅ）マッピングを定義すればより柔軟性が与えられる。本発明により多数のスキーマを横切るアグリゲーションは検索スキーマに含まれマッピングされる指定されたスコープ間の意味距離を考慮することができる。マッピングは予め行って値を意味距離（重みとしての）と関連付けるか、あるいはクエリー時間に行うことができる。たとえば、コンテンツ内の下記のスコープは意味距離（“ｃｕｓｔｏｍｅｒ”，０．５），（“ｐｅｒｓｏｎｎａｍｅ”，１．０），（“ａｃｃｏｕｎｔｈｏｌｄｅｒ”，０．８），（“ｏｗｎｅｒ”，０．７）により重み付けされる検索スキーマ内の“ｎａｍｅ”内へアグリゲートすることができる。

図６はコンテンツスキーマ“Ｃｏｎｔａｃｔｓ”Ｘ０１および“Ｃｕｓｔｏｍｅｒｓ”Ｘ０２の検索スキーマ“ＳｅａｒｃｈＳｃｈｅｍａ”Ｘ０３へのプリ・インデクシングまたはクエリー時間における（ｐｒｅ−ｉｎｄｅｘｉｎｇｏｒａｔｑｕｅｒｙｔｉｍｅ）−マッピングを示す。“Ｃｏｎｔａｃｔｓ”スキーマＸ０１内で、“ＷｏｒｋＰｈｏｎｅ”，“Ｈｏｍｅｐｈｏｎｅ”，および“ＭｏｂｉｌｅＰｈｏｎｅ”フィールドは全て検索スキーマＸ０３（赤線）内の“ＰｈｏｎｅＮｕｍｂｅｒ”へマッピングされるが、プライベートコンタクトであるかビジネスコンタクトであるかに応じて、たとえば、家または仕事で人とコンタクトするペナルティを考慮する異なる重みでマッピングされる。図６は“Ｃｏｎｔａｃｔｓ”Ｘ０１内の“ＥｍａｉｌＮａｍｅ”の検索スキームＸ０３（緑線）内の多数のフィールドへのマッピングも示しており、各々が異なる重みを有する。双方向マッピングのあいまいさに（ｂｉ−ｄｉｒｅｃｔｉｏｎａｌｍａｐｐｉｎｇａｍｂｉｇｕｉｔｉｅｓ）関連する重みが、値をアグリゲートする時だけでなく、検索結果リスト内のヒットの一致およびランク付けの両方に使用される。検索およびアグリゲートは使用ケースに対して適切な検索スキーマに関するものである。多数の使用ケースに一致するいくつかの検索スキーマがあることがある。検索スキーマＸ０３はクエリーが情報検索システム内に存在する、たとえば、ＸＭＬ表現の物理的スキーマＸ０１およびＸ０２をカバーするように拡張される点で論理１となることがある。あるいは、システム内の情報はプリ・インデクシング時間（ｐｒｅ−ｉｎｄｅｘｉｎｇｔｉｍｅ）に正規化されてスキーマＸ０３を検索しその表現（ｒｅｐｒｅｓｅｎｔａｔｉｏｎ）内に格納されることがある。２つの代替策の混合により検索スキーマ内にフィールド当たり柔軟性対性能の交換が提供される。

事実および知識を発見する時、すなわち、情報検索システム内の選出された文書のコンテンツ内の強い関連（ｓｔｒｏｎｇａｓｓｏｃｉａｔｉｏｎｓ）を探す時は、全スコープを横切る（スコープ、値）関連をマージして減少するレレバンスメトリクスをソートするのが興味深いかもしれない。マージするスコープの集合は、恐らくは全アグリゲーションを横切って、クエリー内に定義することができる。

本発明は、たとえば、人名および「誕生」を含む文内のデータの同時発生マイニングにも応用できる。この場合、評価の利点は人と誕生日間のより良い関連を与えることである。たとえば、人と「誕生」間の名詞句は「ビルクリントンの妻は１９４７−１０−２６に生まれた」という形の文が「ビルクリントン」と日付間の強い関連を作らないように関連の重みを下げることができる（ｃｏｕｌｄｗｅｉｇｈｔｔｈｅａｓｓｏｃｉａｔｉｏｎｄｏｗｎ）。

図７は会社名が緑でハイライトされ、食料雑貨店（すなわち言語変形（ｌｉｎｇｕｉｓｔｉｃｖａｒｉａｎｔｓ））が赤でハイライトされ、形容詞が黄色でハイライトされた２つの文Ｘ０１およびＸ０２を示す。文Ｘ０１は会社名Ｘ０３、形容詞Ｘ０４、および基本形式「食料雑貨店（ｇｒｏｃｅｒｙ）」に関連付けられる「食料雑貨店（ｇｒｏｃｅｒｉｅｓ）」Ｘ０５を含んでいる。文Ｘ０２は「食料雑貨店（ｇｒｏｃｅｒｙ）」Ｘ０６および会社名Ｘ０７を含んでいる。クエリーは“Ｉｎｃ”を含む会社をブーストしながら「食料雑貨店（ｇｒｏｃｅｒｙ）」と同じ文内の会社名のアグリゲーションを指定する。このようにして、ＳＶＭはクエリー内の述語間の文書内の近くでトークンまたは語位置またはヴィジュアル（ｖｉｓｕａｌ）に応答するようにされ、あるいは、同様にクエリー内の述語間の文書内の文字位置近接に応答するようにされる。トークン距離による近接の測定は必ずしもトークン間の視覚距離を表す必要はない。あるトークンは他よりも長く、句読点、文字は一列に生じレイアウトは、たとえば、トークンを分離するテーブルを含むことがある。たとえば、トークンとエンティティスコープ間の視覚距離は要約値メトリクスＳＶＭ内に含まれることがある。「誕生」と同時に発生する人をアグリゲートする時は、視覚的に「誕生」近くに現われる「人」スコープが好ましい。たとえば、２つの文節において、
．．．ｉｎ１９５３，ｔｈｅｈｏｕｓｅｗａｓｔａｋｅｎｏｖｅｒｂｙＪｏｈｎＳｍｉｔｈ．
Ｂｏｒｎｉｎ１９６５，ＪｕｌｉａＳｍｉｔｈ．．．
第１の文節は人スコープで終り、後続文節はトークン「誕生」で始り、人スコープおよびトークン「誕生」はトークン近接に関して隣接しているが、視覚的には意味的にさらに離れている。このケースにおいてＳＶＭに簡約を与えるために、文節スコープに暗黙的トークン分離を関連付けることができる。より進んだ方法は、たとえば、ＨＴＭＬを解釈することにより文書フォーマット内の視覚レイアウトからトークン分離を引き出すことである。もう１つの方法はクエリーが評価されるとコンテンツ内の一致間の視覚距離を計算できるように視覚位置をトークン位置に平行に関連付けることである。文Ｘ０２内の会社名Ｘ０７はより良いトークン近接得点および正確な言語学的一致により文Ｘ０１内の会社名Ｘ０３より高い重みを得る。言語学的変形は意味的あいまいさが導入されるケースではより低い重みを有することがある。一方、クエリー内に指定されているように、会社名Ｘ０３は“Ｉｎｃ”を含むための追加ブーストを得る。さらに、クエリーは形容詞「良い（ｇｏｏｄ）」Ｘ０４が会社名Ｘ０３にブーストを与えるように中間形容詞上の感情にわたってアグリゲーションを指定することができる。

アグリゲーションは文書レベル上の文脈にも感応することができる。階層型分類法における同じノード内の支配的文書数はより広範な文書からの証拠のために幾分軽く重み付けされる（ｄｏｗｎ−ｗｅｉｇｈｔｅｄ）。分類法は重みと関連付けてアグリゲーションが、たとえば、「ニュース（Ｎｅｗｓ）」カテゴリ内の文書からのスコープ値が「旅行（Ｔｒａｖｅｌ）」カテゴリ内の文書からの値よりも高いと評価することができる。このような分類法の例はＵＲＬ（ドメイン、ウェブサイト、ディレクトリ等のレベルを有する）、概念的カテゴリ、プロダクト階層等の明白な分類、等である。

このような分類法に対するサポートは、たとえば、ＯＷＬ，ＲＤＦ／ＲＤＦＳ，ＯＩＬ，ＤＡＭＬ，ＤＡＭＬ＋ＯＩＬ，ＫＩＦ，ＯＣＭＬ，ＬＯＯＭ，ＫＭ，Ｆ−Ｌｏｇｉｃ，ＯＫＢＣ，およびＣｙｃＬ（その他）等のオントロジー言語内に定義されたオントロジーに一般化することができる。本発明において適用されるオントロジーについては後述する。

オントロジー内のいくつかのオブジェクトに部分的に関連付けられることがある文書が与えられると、スコープ値のレレバンス重みを推論する推論ルールを定義することができる（たとえば、前記言語内に）。概念的分類に関して、文書は「旅行（Ｔｒａｖｅｌ）」および「ニュース（Ｎｅｗｓ）」の両方に属することができるが、確率は異なる。これらの演繹的確率も前記したスコープ値重みに寄与する。

また、オントロジーはアグリゲートされる値を各々が重みに関連付けられた多数の候補値へマッピングすることができる。“ｆｏｏｄｋｉｎｄ”スコープは値“ＧｒａｎｎｙＳｍｉｔｈ”を有することがあり「りんご（ａｐｐｌｅ）」または「果物（ｆｒｕｉｔ）」へマッピングされる。重みはやはり文書およびリザルトセット性質を考慮することができるオントロジーに対する推論ルールにより決定することができる。最も単純なケースでは、重みはオントロジー内の“ｉｓ−ａ”関係内の意味的距離から決定される。このようにして、値“ＧｒａｎｎｙＳｍｉｔｈ”は文書内に事前重み０．９を運び、“ＧｒａｎｎｙＳｍｉｔｈｉｓａｎａｐｐｌｅ”関係は重み０．９を有し、“ａｐｐｌｅｉｓａｆｒｕｉｔ”関係は重み０．８を有する。重みの単純なアグリゲートにより、“ｆｏｏｄｋｉｎｄ”ナビゲータは３つの（値、重み）対、（“ＧｒａｎｎｙＳｍｉｔｈ”，０．９），（“ａｐｐｌｅ”，０．８１），および（“ｆｒｕｉｔ”，０．６４８）を与えられる。

図８はオントロジーＸ０１に関連付けられた文書Ｘ０６内の概念のアグリゲーションを示す。文書Ｘ０６は異なる強度でノードＸ０２，Ｘ０４，およびＸ０５に関連付けられる。オントロジー内で、ノードＸ０５はたとえばユーザプロファイルに基づいてＸ０４がノードＸ０３に関連付けられるよりも強力にノードＸ０３に関連付けられる。Ａｍｅｒｉｃａｎコンテンツに興味のあるユーザからのより頻繁な訪問がある。文書Ｘ０６からの重みは全着信パス（破線で示す）のアグリゲートされた重みを有するようにノードＸ０３へパスＸ０４−Ｘ０３およびＸ０５−Ｘ０３を介して伝搬する。したがって、文書Ｘ０６に一致する時に全ノードＸ０２，Ｘ０３，Ｘ０４，およびＸ０５がアグリゲーション内に含まれる。

要約情報は多数のスコープに基づいて監視または非監視クラスタリングにより計算することができる。監視クラスタリングは分類、すなわち、さまざまな文書レベルに対するスコープ値を考慮した分類法の使用に近いと見なすことができる。前記したように、分類法はオントロジー内に一般化することができ、文書を異なるレベルしたがってさまざまな値に対する異なる確率に関連付けることができる概念的分類に対するルールを定義することができる。多数のスコープに基づいてクラスタリングを実施すると、各スコープに関連付けられた重みはクラスタリングプロセス内に含まれる。たとえば、“ｔｉｔｌｅ”スコープは“ｂｏｄｙ”スコープよりも高い重みを有することがあり、“ｔｉｔｌｅ”内のトークンは、たとえば、文書ベクトルに一層寄与しなければならない。また、エンティティサブスコープ（ｅｎｔｉｔｙｓｕｂｓｃｏｐｅｓ）は“ｔｉｔｌｅ”および“ｂｏｄｙ”の各々のスコープ内でさらにブースティングを提供することがある。クラスタリングプロセスにおいて、各文書は各々がクラスタメンバシップ得点、たとえば、文書ベクトルおよびクラスタ中心ベクトル間のベクトル類似性測度に関連付けられた１つ以上のクラスタで作られることがある。この得点はスコープ名およびスコープ値のアグリゲートに関して要約値メトリクスとして使用することができる。次に、本発明のいくつかの典型的な実施例をその特定の応用に関して与える。

例１
本発明の第１の実施例はインターネット検索アプリケーション内の、たとえば、垂直検索、局所検索、およびグローバルインターネット検索である。このようなアプリケーションの圧倒的なコンテンツボリュームおよび、サービスが一般大衆により使用されるために生じる、ユーザの検索専門技術の典型的な欠如により関連情報を戻すための補助手段をシステムに設ける必要がある。新考案によりウェブページ解析は、たとえば、良く見えるフォント内の情報に焦点を合わせて視覚表現により概念およびメタデータを評価し、逆文書頻度（ｉｎｖｅｒｓｅｄｏｃｕｍｅｎｔｆｒｅｑｕｅｎｃｙ）に基づくターム(ｔｅｒｍｓ）のレレバンス計算と同様な多くのページ上で見つかったメニュー内のテキストからの寄与を低減する。文脈のハイパーリンク構造の解析は、たとえば、アンカーテキスト・ナビゲータ内のページの参照しているアンカーテキストを評価することができる。クエリーの結果としてのページビューを使用してクエリーを見られたページと関連付けることができる。このクエリートラフィックの解析は、たとえば、時間経過に伴う人気、現在のトレンド、ユーザを評価できる他のユーザのグループ内の人気に基づいて重み付けされた関連を提供することができる。一般的なページビューに対するユーザトラフィックの解析は全メタデータに適用する演繹的文書レレバンスを提供することができる。概念ナビゲータは前例を含むいくつかのソースから重み付けされた入力を取り出すことができる。

例２
本考案の第２の実施例はｅ−行列（ｔａｉｌｉｎｇ）およびインターネット・ショッピングを含むｅ−コマース・アプリケーションの検索分野内にある。たとえば、クエリー“ｍｐ３”は多くのバッテリではなく多くのプレーヤを有するメーカへ向かってバイアスされるメーカ・ナビゲータを与えるように、ｍｐ３プレーヤはそのｍｐ３プレーヤに対するバッテリよりも強くメーカと関連付けられる。重みは単純に価格とすることができるが、検索からのだけではなく全体的な販売数を含むように改良することができる。製品ナビゲータ内の値に対する重みもレビューから引き出してビシセネスルール−たとえば、製品満了日付、製品収益性、およびキャンペーンにより設定することができる。製品およびクエリー内のテキストから引き出された概念間の重み付けされた関連を、前記したインターネット検索アプリケーションと同様に、これらのデータから確立することができる。示唆された製品カテゴリ、メーカ、モデル、および色およびサイズ等の特徴の重みはユーザトラフィックから推論することができる。異なる製品タイプは異なる特性を有するため、検索に関して異なるコンテンツスキーマを有する。これらのスキーマはエンドユーザに対して一般的な検索スキーマを提供するように正規化されるため、特定製品分野を検索スキーマ分野へマッピングすることはファジーとなることがある。このファジーさは検索スキーマ分野上のナビゲーションへ持続することができる。意味的に良好なマッピングに対する値は明確ではない意味的相関があるマッピングに対するよりも高く重み付けされる。

表２はクエリー“ｍｐ３”に一致する５製品を載せたｅ−コマース設定において使用されるサンプル製品データベースを示す。メーカの従来のナビゲータは“Ｓａｎｙｏ”に対する３ヒットおよび“Ｃｒｅａｔｉｖｅ”に対する２ヒットを返し、“Ｓａｎｙｏ”エントリを“Ｃｒｅａｔｉｖｅ”エントリよりも高くランク付けする。本考案によりベンダは“Ｃｒｅａｔｉｖｅ”が“Ｓａｎｙｏ”よりも高くランク付けされるように、たとえば、価格でメーカ・ナビゲータを評価することができ、これはより良いユーザ経験を作りベンダの収益性を改善すると思われる。

例３
本発明の第３の実施例は知識発見およびテキストマイニング、たとえば、特許検索のエリア内にある。ユーザは典型的に対象エリアのエキスパートであり検索結果に極端な精度が要求される。挑戦はより精密な情報を提供するクエリー改良を提供するだけでなく、クエリーをナビゲータと関連付けてクエリーおよびリザルトセットの定性的測度を与えることである。文書をメタデータと関連付ける技術、およびクエリーをそのリザルトセット内の文書のメタデータ上のナビゲータと関連付ける技術は既にある。本出願人が譲り受けた国際特許出願ＰＣＴ／ＮＯ０６／０００１６５はクエリー時間選出サブ文書エンティティと関連付けられたメタデータ上のナビゲータを計算し、ナビゲータ内により高い精度を与えるように示されている。両方のケースにおいて、ナビゲータはメタデータの頻度に基づいている。本発明はクエリーおよびメタデータ間の関連を２進関係からクエリー時間で重みを評価できる重み付け関係に変える。特許検索に応用された本実施例では、独立項、特に請求項１の概念は、たとえば、発明の背景の概念よりも高く重み付けされるように重みを、たとえば、請求項構造に基づくものとして特許の中の発明的ステップの識別により良い精度を与えることができる。たとえば、述語の形の知識の抽出は本来確率的であり、本考案によりこの不確かさは要約化へ流すことができる。これらの確率を閾値でフィルタリングすると要約の品質が低減する。

例４
本発明の第４の実施例はファイルおよび音楽、ビデオ、音声、および写真を含むストリーミングブロードキャストを含むマルチメディアオブジェクトへの応用である。たとえば、社会的ネットワーク内の人気測度は過去の活動および現在のトレンドの概要がこれらの重みを含むようにジャンル、アーチスト、およびソングに重みを与えることができる。オブジェクトにグローバルおよび特定文脈メタデータ（たとえば、ビデオストリーム内のスクリーン当たり）を付加するために、特徴抽出がしばしばマルチメディアに適用される。抽出された特徴は本発明が要約化において考慮する確率と関連付けられる。たとえば、音声からテキストへの変換はメディアストリーム内で検出された音素および語へ確率を割り当て、顔検出システムが検出された各顔へ確率を割り当てる。

本発明のある望ましい有用な応用例の他に、当業者ならば本発明は検索システム上の従来の情報アクセスにおいて実施される情報アクセスおよび検索を超えた応用において実施できることを容易に実感すると思われ、たとえば、企業検索システムでは要約値メトリクスにビジネス企業内の特定の経営目標を達成する意図を設定することができる。要約値メトリクスＳＶＭを宣伝入札に応答させることもでき、これらは特に入札値および／または期待宣伝収益を含むことができる。

本発明に従った方法を応用すべき情報アクセスおよび検索のための一般的システムは本発明に従った検索エンジン内に有利に実施することができる。

以下において、本発明の方法をサポートし実現するようにされた検索エンジンについてより詳細に検討する。本発明の方法をサポートし実現するために、さらにコンポーネントおよびモジュールが設けられ、図９について説明する。

本発明の検索エンジン１００は、従来技術で知られているように、さまざまなサブシステム１０１−１０７を含まなければならない。検索エンジンはそこからコンテンツを検索エンジン内にアクティブに押込む、またはデータコネクタを介して押込むことができるコンテンツドメインまたはスペース内に配置された文書やコンテンツ・レポジットリにアクセスすることができる。典型的なレポジットリはデータベース、Ｉｎｆｏｒｍａｔｉｃａ等のＥＴＬ（Ｅｘｔｒａｃｔ−Ｔｒａｎｓｆｏｒｍ−Ｌｏａｄ）ツールを介して利用可能とされたソース、ＸＭＬフォーマット化レポジットリ、ファイルサーバからのファイル、ウェブサーバからのファイル、文書管理システム、コンテンツ管理システム、電子メールシステム、通信システム、コラボレーションシステム、およびオーディオ、イメージおよびビデオ等のリッチメディアを含んでいる。検索された文書はコンテンツＡＰＩ（ＡｐｐｌｉｃａｔｉｏｎＰｒｏｇｒａｍｍｉｎｇＩｎｔｅｒｆａｃｅ）１０２を介して検索エンジン１００へ提出される。その後、改善された検索および発見操作に対するコンテンツを準備するために、文書はコンテンツ処理サブシステムとも呼ばれるコンテンツ解析段階１０３で解析される。典型的に、この段階の出力は入力文書のＸＭＬ表現である。コンテンツ解析の出力はコア検索エンジン１０１へ供給するのに使用される。大きな文書セットおよび高いクエリー負荷が処理されることを考慮するために、コア検索エンジン１０１は典型的にサーバのファームを横切って分散展開される。コア検索エンジン１０１はユーザ要求を受け入れて一致する文書のリストを作り出すことができる。文書順序付け（ｄｏｃｕｍｅｎｔｏｒｄｅｒｉｎｇ）は通常クエリーに関する定められた文書の確からしい重要度を測定するレレバンスモデルに従って決定される。さらに、コア検索エンジン１０３は文書属性に対する要約情報等のリザルトセットに関する追加メタデータを作り出すことができる。

コア検索エンジン１０１自体がさらにサブシステム、すなわち、コンテンツ文書をクローリング（ｃｒａｗｌｉｎｇ）およびインデクシングする索引（ｉｎｄｅｘｉｎｇ）サブシステム１０１ａおよび検索を適切に実施するための検索サブシステム１０１ｂを含んでいる。あるいは、コンテンツ解析段階１０３の出力はオプショナル・アラートエンジン１０４内に供給することができる。アラートエンジン１０４はクエリーのセットを格納していて、定められた文書入力をどのクエリーが受け入れているか決定することができる。検索エンジンは典型的にはモバイルでコンピュータ−ベース・クライアント・アプリケーションとすることができる多くの異なるクライアントまたはアプリケーションからアクセスすることができる。他のクライアントはＰＤＡおよびゲーム装置を含む。クライアントスペースすなわちドメイン内に配置されたこれらのクライアントは検索エンジンクエリーまたはクライアントＡＰＩ１０７に要求を提出する。典型的に、検索エンジン１００は、さらに、クエリー解析段階１０５の形のサブシステムを備え、より有意の情報を抽出できる導クエリー（ｄｅｒｉｖｅｄｑｕｅｒｙ）を構成するためにクエリーを解析し改良する。最後に、クライアントにより使用される情報または視覚化を作り出すために、コア検索エンジン１０３からの出力は典型的にもう１つのサブシステム、すなわち、リザルト解析段階１０６内でさらに解析される。両方の段階１０５および１０６がコア検索エンジン１０１およびクライアントＡＰＩ１０７間に接続され、アラートエンジン１０４が存在する場合、それはコンテンツ解析段階１０３およびクエリーおよびリザルト解析段階１０５，１０６間でコア検索エンジン１０１に並列接続される。

本発明をサポートし実現するために、従来技術で既知の検索エンジン１００にはあるモジュール１０８−１１１を設けなければならない。第１のモジュールは階層型スコープに要約値メトリクスを指定するために通常コンテンツＡＰＩ１０２内に設けられる。あるいは、この第１のモジュールはコンテンツ解析段階内に含めることができる。少なくとも、コンテンツ解析段階１０３はコンテンツ内の明白なフォーマット構造を認識することによりスコープを生成する第２のモジュール１０９を含み、それに基づいてこのように生成されたスコープへ要約値メトリクス（ＳＶＭ）を割り当てる。さらに、第３のモジュールにはコンテンツの解析からスコープを生成し、それに基づいてこのように生成されたスコープへ要約値メトリクス（ＳＶＭ）を割り当てるするコンテンツ解析段階１０２が設けられ。前記したように、実際上ここではマルチ分散コア検索エンジンの表現と見なすことができるコア検索エンジン１０１は、事実、さらに２つのサブシステム、すなわち、インデクシングサブシステム１０１ａおよび検索サブシステム１０１ｂを含んでいる。本発明に従った方法を実現するために、インデクシングサブシステム１０１ａはスコープ、値およびＳＶＭをインデクシングするための第４のモジュール１１１を含まなければならない。最後に、クエリーおよびリザルトの両方を処理するクライアントＡＰＩは、当業者ならばお判りのように、クエリー、アグリゲーションおよびナビゲータを指定するための手段すなわちモジュールを含み、これらは本発明に従った方法をサポートするように適切に適合される。

本発明はこのような要約情報をクエリー改良のためのインタラクティブ・オブジェクトとどのように関連付けられるかを開示しており、前にリザルトセットだけに適用された、レレバンスの概念も要約情報に適用されデータ通信システム一般、すなわち、エクストラネットとイントラネットの両方にわたって情報検索に応用することができる検索エンジンまたは検索システムの知覚された品質を改善する。さらに、本発明は所要ネットワーク帯域幅を低減することにより分散検索エンジン内のクエリー・スループットをどのように高めるかをも開示している。したがって、詳細に説明したように、本発明は広く応用される情報アクセスおよび検索方法の著しい改善を表している。

典型的な適合率−再現率グラフを示す図である。文書レベルリザルトセットナビゲータを示す図である。クエリー“ｓｏｃｃｅｒ”に対する文脈ナビゲーションを示す図である。クエリーに対するレレバンスプロファイルを示す図である。分散されたアグリゲーションの略図である。重みを有するマッピングの略図である。要約値メトリクスの文脈重み付けを示す図である。オントロジーを介したアグリゲーションを示す図である。本発明に従った検索エンジンのアーキテクチュアの略図である。

符号の説明

２０１クエリー
２０２リザルトセット
２０３，２０４，２０５文書・レベル・メタデータ
Ｘ０１文書（図３）
Ｘ０２文節（図３）
Ｘ０３文レベル（図３）
Ｘ０１コンテンツ・パーティション（図５）
Ｘ０２局所アグリゲーション（図５）
Ｘ０３ネットワーク（図５）
Ｘ０４グローバルアグリゲーション（図５）
Ｘ０５プロセス（図５）
Ｘ０１Ｃｏｎｔａｃｔｓ（図６）
Ｘ０２Ｃｕｓｔｏｍｅｒｓ（図６）
Ｘ０３ＳｅａｒｃｈＳｃｈｅｍａ（図６）
Ｘ０１文（図７）
Ｘ０２文（図７）
Ｘ０３会社名（図７）
Ｘ０４形容詞（図７）
Ｘ０５食料雑貨店（図７）
Ｘ０１オントロジー（図８）
Ｘ０１，Ｘ０２，Ｘ０３，Ｘ０４，Ｘ０５ノード（図８）
Ｘ０６文書（図８）
１００検索エンジン
１０１コア検索エンジン
１０１ａインデクシングサブシステム
１０１ｂ検索サブシステム
１０２，１０７アプリケーション・プログラミング・インターフェイス
１０３コンテンツ解析段階
１０４アラートエンジン
１０５クエリー解析段階
１０６リザルト解析段階
１０８，１０９，１１０，１１１モジュール

Claims

コンピュータが文書の要約情報を計算する方法であって、
属性（Ａ）および前記属性（Ａ）に対応する属性値（Ｖ _ｊ）を含むクエリー情報に基づき、前記コンピュータがアクセス可能な記憶装置に格納された文書集合にクエリーを実行し、一致した文書（ｄ _ｉ）を識別するステップと、
前記一致した文書（ｄ _ｉ）の各々に関して、前記属性（Ａ）を有するトークンの第１の数（Ｎ１ _ｉ（Ａ））を抽出するステップと、
前記一致した文書（ｄ _ｉ）の各々に関して、前記属性値（Ｖ _ｊ）を有するトークンの第２の数（Ｎ２ _ｉ（Ｖ _ｊ））を抽出するステップと、
前記第２の数（Ｎ２ _ｉ（Ｖ _ｊ））を前記第１の数（Ｎ１ _ｉ（Ａ））で割った値であるスコア（Ｓ _ｉｊ）について前記一致した文書（ｄ _ｉ）全体で和をとり、前記属性値（Ｖ _ｊ）に対するアグリゲートされた要約値メトリックス（ＳＶＭ _ｊ）を算出するステップと、
複数の前記属性値（Ｖ _ｊ）および前記アグリゲートされた要約値メトリックス（ＳＶＭ _ｊ）からなる前記要約情報を作成してユーザーに提示するステップと
を有することを特徴とする方法。