JP2009528581A

JP2009528581A - 知識相関サーチエンジン

Info

Publication number: JP2009528581A
Application number: JP2008541146A
Authority: JP
Inventors: ボビック，マーク; ウィマー，カール
Original assignee: メイクセンスインコーポレイテッド
Priority date: 2005-11-14
Filing date: 2006-06-28
Publication date: 2009-08-06
Anticipated expiration: 2026-06-28
Also published as: JP4864095B2; EP1974292A4; EP1974292A1; CN101310274A; WO2007061451A1; CN101310274B

Abstract

テキスト・発話合成における予測構文解析及び機械翻訳のためのテキスト配列の推測などの各種ＮＬＰタスクについてクローズは重要である（Ｅｊｅｒｈｅｄ１９８８，Ｌｅｆｆａ１９９８，Ｐａｐａｇｅｏｒｇｉｏｕ１９９７）。ＣｏｍｐｕｔａｔｉｏｎａｌＮａｔｕｒａｌＬａｎｇｕａｇｅＬｅａｒｎｉｎｇ２００１共有タスク（Ｓａｎｇ＆Ｄｅｊｅａｎ２００１）は、機械学習メソッドを利用してテキストのクローズ氷塊を特定することを目的とする。このタスクのため生成されたシステムは、クローズタイプ間の区別なくセンテンスのポジションにおいてスタート及びエンドするクローズの個数を指定するラベルを各ワードについて予測した。この作業は、複数の方法により共有されたタスクのものを拡張する。（１）パフォーマンス境界が利用される。（２）“メイン”及び“サブ”クローズを区別することが試みられる。（３）タスクについて上述されていないが、類似するドメインにおいて有効であると判明した選別最大エントロピーモデルクラスが、上記問題に適用される。

Description

発明の詳細な説明

［関連出願の相互参照］
本出願は、（１）発明者ＭａｒｋＢｏｂｉｃｋ及びＣａｒｌＷｉｍｍｅｒにより２００５年１１月１４日に出願された米国出願第１１／２７３，５６８号“ＴｅｃｈｎｉｑｕｅｓＦｏｒＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙＢｙＣｏｎｓｔｒｕｃｔｉｎｇＫｎｏｗｌｅｄｇｅＣｏｒｒｅｌａｔｉｏｎｓＵｓｉｎｇＣｏｎｃｅｐｔｓｏｒＴｅｒｍｓ”（代理人整理番号８３０７１）と、（２）発明者ＭａｒｋＢｏｂｉｃｋ及びＣａｒｌＷｉｍｍｅｒにより２００５年１２月２１日に出願された米国出願第１１／３１４，８３５号“ＴｅｃｈｎｉｑｕｅｓＦｏｒＫｎｏｗｌｅｄｇｅＤｉｓｃｏｖｅｒｙＢｙＣｏｎｓｔｒｕｃｔｉｎｇＫｎｏｗｌｅｄｇｅＣｏｒｒｅｌａｔｉｏｎｓＵｓｉｎｇＣｏｎｃｅｐｔｓｏｒＴｅｒｍｓ”（代理人整理番号８３０７１＿ＣＩＰ）の一部継続出願であり、それらについて優先権を主張するものであり、上記出願の内容は、参照することによりその全てが本出願に含まれる。
［発明の背景］
発明の分野
本発明は、情報技術に関し、より詳細には、知識相関の結果を利用して、デジタル情報オブジェクトの何れか所与のユーザ問い合わせ、主題又はトピックスに重要なネットワーク及び／又はインターネットリソースを特定するサーチエンジンに関する。

関連技術の説明
サーチエンジンは、知識の情報抽出（ＩＲ）領域の一部として広く認識されている。ＩＲメソッドは、クエリと呼ばれる問い合わせに関連するリソース（典型的には、文書）を特定することに関する。このクエリは、単一の検索条件から英語などの自然言語により構成された複雑なセンテンスに至る各形式をとりうる。検索される可能性のあるリソースの集合体はコーパス（ボディ）と呼ばれ、各タイプのコーパスを検索するための各種技術が開発されてきた。例えば、デジタル化された百科事典に含まれる記事群を検索するのに利用される技術は、ウェブサーチエンジンにより利用される技術と異なっている。利用される技術に関係なく、ＩＲにおける中核的な問題は関連性、すなわち、オリジナルクエリについて抽出される文書の関連性である。各種ＩＲメソッドの有効性を比較するため、形式的なメトリックが適用される。通常のＩＲ有効性メトリックは、抽出されたすべての文書に対する抽出された関連する文書の比率である精度、コーパスのすべての関連する文書に対する抽出された関連する文書の比率であるリコール、及びコーパスのすべての関連しない文書に対する抽出された関連しない文書の比率であるフォールアウト（ｆａｌｌ−ｏｕｔ）を含む。関連するとみなされる抽出後の文書には、（大部分のＩＲシステムでは）再び各種技術を利用してある関連性ランクが割り当てられ、結果が返される。クエリはユーザと呼ばれる人間により最も通常は提供されるが（結果が返される）、ユーザは他のソフトウェアプロセスでありうる。

テキスト抽出は、テキストから構成される関連する文書を特定することに典型的に関するＩＲタイプであり、文書抽出は、特に非構造化（又は“フリー”）テキストから構成される文書などのテキスト文書の特定部分を特定することに関する。

データ抽出の関連する知識ドメインは、データ抽出がＳＱＬデータベースからのレコードなどの具体的なデータアイテムの迅速で正確な抽出に関するものであるという点で、ＩＲと異なっている。

情報抽出（ＩＥ）は、名前／値ペアのテンプレートなどのデータ構造への非構造化（通常はテキスト）文書からの情報の自動抽出を目的とする他のタイプのＩＲである。このようなテンプレートから、以降において、情報はリレーショナルデータベースを正しく更新するか、又はそれに挿入することが可能である。

ソフトウェアプロダクトとしてリリースされ、又は文献に記載されたサーチエンジンは、各キーワードからフレーズ、センテンス、パラグラフ、コンセプト及びデータオブジェクトに至る多数の入力形式を使用する。キーワード、センテンス及びパラグラフの意味はこれらの用語の一般的な理解に従うが、フレーズ、コンセプト及びデータオブジェクトの意味は実現形態毎に異なる。ときには、フレーズという用語はそれの伝統的な意味を文法的に利用して定義される。この使用では、フレーズのタイプには、前置詞句（ＰＰ）、名詞句（ＮＰ）、動詞句（ＶＰ）、形容詞句及び副詞句がある。他の実現形態では、フレーズという用語は、何れか適切な名前（ニューヨーク市など）として定義されるかもしれない。大部分の定義は、少なくとも１つの定義が単一の単語がフレーズとみなされることを許容するが、フレーズが複数の単語を含むことを要求する。いくつかのサーチエンジン実現形態は、フレーズの用語集（予め記録されたリスト）を利用する。ＷｏｒｄＮｅｔＬｅｘｉｃａｌＤａｔａｂａｓｅは、一般的なフレーズソースである。

サーチエンジンに関連して使用されるとき、コンセプトという用語は一般に２つのコンストラクトの１つを表す。第１のコンストラクトは、キーワードに関連するシソーラスに類似した関連する単語のクラスとしてのコンセプトである。いくつかの実現形態では、このクラスタは、関連付け及びカスタマイズ化のためＧＵＩ（ＧｒａｐｈｉｃＵｓｅｒＩｎｔｅｒｆａｃｅ）を介しユーザに利用可能とされる。ユーザは、結果として得られるコンセプトがユーザの理解及び意図を最も良く表すまで、単語のクラスタをカスタマイズすることが可能である。第２コンストラクトは、キーワードの周辺の関連する単語のローカライズされたセマティックネットとしてのコンセプトである。ここで、ローカル又はパブリックなオントロジー（ｏｎｔｏｌｏｇｙ）及びタクソノミー（ｔａｘｏｎｏｍｙ）が、キーワードの周辺のセマティックネットを生成するのに照会される。コンセプトの一部の実現形態は、イメージ及び他の非テキスト要素を含む。

トピックスは、一般的な実用では、テキストのボディに対して特定の処理群を適用することから特定又は“検出”される必要がある。トピックスの特定及び／又は検出のための各種方法が文献に記載されている。サーチエンジンへの入力としてのトピックスの使用は、通常はテキストのボディが入力されることを意味し、必要とされるトピックス特定又はトピックス検出機能が呼び出される。結果として得られるトピックスのフォーマット及び長さに応じて、適切な関連性機能がサーチエンジンにより呼び出すことが可能である。

サーチエンジンへの入力としてのデータオブジェクトは、可変長フリー形式センテンス群、フルレングステキスト文書、ＸＭＬ文書などのメタデータ文書を含む各種形式をとりうる。オブジェクト指向（ＯＯ）パラダイムは、ＯＯシステムが入力としてオブジェクトを受け付けることを規定する。ソフトウェア関数は、ほとんど常に入力されるオブジェクトを処理するよう要求され、これにより、サーチエンジンの以降の関連性機能が進捗可能となる。

ランク付けされた結果セットは、サーチエンジンの市場での成功にとってキーとなっている。Ｇｏｏｇｌｅサーチエンジン（Ｇｏｏｇｌｅ，Ｉｎｃ．の製品）の現在の優勢は、所与の文書の人気が結果ランクを（実質的に）規定するＧｏｏｇｌｅに使用されるＰａｇｅＲａｎｋシステムによるものである。Ｇｏｏｇｌｅの例における人気は、リンク数と、所与の検索用語又はフレーズを入力したＧｏｏｇｌｅユーザの嗜好とに適用される。これらのランキングは、Ｇｏｏｇｌｅが特定の閾値（ｋと呼ぶ）を超えたランクの文書のみを返すことによって検索を最適化することを可能にする。結果をランク付けするためのウェブサーチエンジンにより使用される他の方法は、所与のウェブページ又は文書に対するインリンクとアウトリンクとをカウントする“Ｈｕｂｓ＆Ａｕｔｈｏｒｉｔｉｅｓ”、マルコフチェーン及びランダムウォークを含む。
［発明の概要］
本発明は、コンピュータにより実現される方法を利用して、デジタル情報オブジェクトの何れか所与のユーザ問い合わせ、主題又はトピックスに重要となるリソースの一意的なＵＲＩ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＩｄｅｎｔｉｆｉｅｒ）又はＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）により参照される少なくとも１つのリソースを特定するサーチエンジンの新規な形態を開示する。本発明では、ユーザの問い合わせ、主題又はトピックスが入力として機能する。この入力は、データオブジェクトの集合内の論理構造を構築又は検出しようとするソフトウェア関数により利用され、各データオブジェクトは、当該データオブジェクトに寄与したリソースに関連付けされ、構築又は検出された論理構造は、入力に強く関連付けされる。好適な実施例について、上記ソフトウェア関数は、出願第１１／２７３，５６８号に記載されるような知識相関関数であり、上記論理構造は、パスのクイーバ（ｑｕｉｖｅｒ）と呼ばれる有向非循環グラフの形態である。入力に強く関連付けされた上記論理構造が実際に構築又は検出された場合、このようなデータ構造のデータオブジェクトメンバーは、アンサースペースとなる。このアンサースペースを使用して、他のソフトウェア関数は、アンサースペースに寄与したリソースの何れがアンサースペースに最も重要な寄与をしたか高い信頼度により決定し、これにより、入力された問い合わせ、主題又はトピックスに最も重要なＵＲＬ及びＵＲＩを特定することができる。最終的に、データオブジェクトをアンサースペースに寄与したＵＲＬ及びＵＲＩにより参照された各リソースを入力に対する重要度によりランク付けするのに利用される。

本発明は、既存のサーチエンジンと異なっている。なぜなら、本発明で使用される出願第１１／２７３，５６８号に記載されるような知識相関プロセスは、Ｘ（又は“オリジン”）と呼ばれる１つの用語、フレーズ又はコンセプトと、Ｙ（又は“デスティネーション”）と呼ばれる少なくとも第２の用語、フレーズ又はコンセプトとの間の相関と呼ばれるすべての接続を記述したパスの包括的な集合を構築しようとするためである。このような１以上の相関が実際に構築可能である場合、本発明は、相関の構築に寄与したすべてのリソースを関連するものとして特定する。既存のサーチエンジンと異なり、本発明の関連性は、各用語、フレーズ又はコンセプトに別々に適用されるのでなく、Ｘ及びＹだけでなく相関を構築するのに直面するすべての用語、フレーズ及びコンセプトに適用される。これら新規な特徴のため、本発明は、１つのウェブページ又は文書のコンテンツを利用しては回答できないユーザクエリを特に充足することができる。

本発明に対する入力は、現在の使用とは異なっている。なぜなら、本発明のすべての入力モードは、少なくとも２つの同一でない用語、フレーズ又はコンセプトを提供しなければならないためである。この使用における“同一でない”とは、語彙的又は意味的な重複又は分離が要求されることを意味する。出願第１１／２７３，５６８号に記載されるように、少なくとも２つの用語、フレーズ又はコンセプトはＸ及びＹ（又は“オリジン”及び“デスティネーション”）と呼ばれる。何れの入力プロセスも同義、アイデンティティ又は同一の（ｉｄｅｍｐｏｔｅｎｔ）Ｘ及びＹの用語、フレーズ若しくはコンセプトを生じさせる可能性がある。既存の技術に関して、テキストオブジェクト及びデータオブジェクトが受入可能であり（本発明では、Ｘ又はＹとして）、トピックス及び／又はコンセプトが、知識相関プロセスに提供される前に抽出可能である。しかしながら、大部分の（すべてではないが）既存のサーチエンジンと異なり、入力の形式（用語、フレーズ、コンセプト又はオブジェクト）は本発明では制約されない。これは、関連性関数（知識相関）が関連性を確立するため類似性の指標を使用しない理由から、可能である。この特性は、本発明が多くの既存のＩＲアプリケーションとシームレスに統合されるのを可能にする。

入力の形式又は方法に関係なく、本発明の知識相関の目的は文書関連性を確立することである。現在、関連性は、集合により文書を表現する集合理論モデル、ベクトル若しくはマトリックスとして文書を表現する代数モデル、及び文書属性（トピックスなど）を学習するため確率理論を利用する確率モデルの３つの一般的なアプローチを利用してＩＲにおいて確立される。各モデルは、１以上の文書が類似するか、これにより、所与の入力に関連するか判断する手段を提供する。例えば、最も基本的な集合理論モデルは、「入力された単語が文書に出現するか？」という標準的な関連性に対するブールアプローチを利用する。出現する場合、文書は関連性がある。出現しない場合、文書は関連性がない。代数モデルは、項のベクトルとして表現される文書が項のベクトルとして表現される入力クエリと比較されるベクトル空間モデルなどの技術を利用する。ベクトルの類似性は、文書の関連性を意味する。確率モデルでは、関連性は、入力と文書の比較された確率により決定される。

上述されるように、本発明は、既存の何れのサーチエンジンとも全く異なる基準を使用して、全く異なるプロセスにより関連性を確立している。しかしながら、本発明は、コーパス内の“関連する”ソースの検出及び取得に依存する（特にコーパスがＷＷＷである場合）。このため、既存の技術の何れの形式も、出願第１１／２７３，５６８号に記載されるような検出段階中の制限なく、知識相関プロセスへの入力のついて候補リソースの特定を支援するため利用可能である。

すべてのサーチエンジンについて、所与の文書の所与の入力に対する単なる関連性の決定は、必要ではあるが十分ではない。“コンピュータ”という単語を含むＷＷＷに対する何れかのクエリについて、例えば、関連性に対する標準的なブールアプリーチを利用して、数千万の文書が関連性があると判断されるであろう。ユーザは実際には“コンピュータ”の特定のアプリケーションを記載した文書のみに興味があった場合、このような膨大な結果セットは利用できないとわかるであろう。実際問題として、ユーザは、サーチエンジンが最も関連性の高いものから低いものに結果をランク付けすることを要求する。典型的には、ユーザは、最も関連性の高い結果から始めて、関連性の降順に提示された関連する文書を有することを所望する。大部分の関連性関数は実数値を生成するため、サーチエンジンの結果セットをランク付けする自然な方法は、各自の関連性のスコアにより結果セットのメンバーをランク付けすることである。

本発明は、新規なランク付け方法を利用する。なぜなら、それは、所与の文書又はリソースが相関“アンサースペース”に寄与する程度の関数となるためである。出願第１１／２７３，５６８号に記載されるように、このアンサースペースはノードと呼ばれるデータ構造から構築され、さらにノードは関連するリソースの分解により生成される。アンサースペースにおけるノードの出現頻度をカウントする本発明の最も直接的なランク付け関数でさえ、もとのユーザクエリに一意的に又は強く関連する文書を特定することが可能である。以降に記載されるような本発明のより高度なランク付け機構は、この結果を向上させる。
［発明の説明］
図１は、相関関数１１０により受付される入力の３つの例のブロック図である。主題２００は、主題評価関数２２０により評価される。デジタル情報オブジェクト２３０が、トピック検出モジュール２４０のアダプタ２３５によりトピックについて調べられる。標準形式問い合わせ生成関数２５０は、入力としての問い合わせ２６０を生成する。

好適な実施例では、後述されるような何れかの形式による及び何れかのソースからの少なくとも２つの入力が、相関関数１１０に提供される必要がある。Ｘ又は“オリジン”入力と呼ばれる第１の入力と、Ｙ又は“デスティネーション”入力と呼ばれる第２の入力がある。このため、受付可能な入力は、２つの主題２００、デジタル情報オブジェクト２３０又は問い合わせ２６０の何れかの組み合わせを含むかもしれない。

後述されるような他の実施例では、主題２００、デジタル情報オブジェクト２３０又は問い合わせ２６０である少なくとも１つのＸ入力が相関関数１１０に提供される。停止相関条件と呼ばれる第２入力が、相関関数１１０にわたされる。停止相関条件が相関関数１１０により充足されるまで、相関デスティネーションである要求されるＹの実際の値は未知とされる。実際のＹ入力の何れも入力として処理される必要はないが、相関デスティネーションの要求は充足される。

図１に示される第１の例が、図１Ａにより詳細に示される。一実施例では、主題２００は個別のキーワード、フレーズ、センテンス又はコンセプトであるかもしれない。主題２００が個別のキーワードであるとき、主題２００は主題評価関数２２０によって、さらなる処理なく相関関数１１０に直接転送される。同様に、主題２００がフレーズであるとき、主題２００は主題評価関数２２０によって、さらなる処理なく相関関数１１０に直接転送される。主題２００がセンテンスであるとき、ワード及び／又はフレーズの形式によりセンテンスの実際の主題２００を抽出するため、センテンスの構文解析を実行するために自然言語パーサ（ＮＬＰ）１３３が呼び出される。その後、このようなワード又はフレーズは相関関数１１０に転送される。センテンスからさらなるワード又はフレーズが抽出され、コンテクストとして相関関数１１０に提供されてもよい。出願第１１／２７３，５６８号に記載されるように、Ｘ又はＹに加えて、ワード又はフレーズである任意数のコンテクストワード又はフレーズが、向上させるため相関関数１１０に提供することが可能である。何れのワード又はフレーズ（存在する場合）がセンテンスから抽出されるかに関する選択は、ＮＬＰ１３３の用語集のワード又はフレーズのメンバーシップと共通の停止ワードリストからのワードの欠如に基づく。停止ワードはＩＲにおいて周知である。このようなワードは、ＩＲの集合理論モデルにおける関連性を確立するのに利用することはできず、このため、このようなモデルについて構築されるインデックスに追加されることはない。

センテンスが標準形式にマッチする問い合わせ２５０である場合、主題評価関数２２０は、センテンスからＸとＹのワード又はフレーズを抽出し、相関関数１１０に提供する。主題２００がコンセプトであるとき、コンセプトワード又はフレーズがＸ又はＹとして相関関数１１０に提供され、コンセプトクラスタ又はマップの残りの項は、コンテクストワード又はフレーズとして相関関数１１０に提供される。

好適な実施例では、主題は、出願第１１／２７３，５６８号の図２Ａなどのグラフィカルユーザインタフェースを利用してユーザにより提供される。他の実施例では、何れか周知の入力インタフェースが利用される（テキスト入力フィールド、発話による入力など）。

一実施例では、図１Ａを参照するに、主題２００はコンプレックス主題（ｃｏｍｐｌｅｘｓｕｂｊｅｃｔ）、すなわち、１つの独立節と１以上の従属節とから構成される主題の形式をとる。例えば、“ｒｅｇｕｌａｔｉｏｎｏｆｐｏｌｌｕｔｉｏｎ，ｇｉｖｅｎｔｈｅｅｆｆｅｃｔｓｏｆａｕｔｏｍｏｂｉｌｅｐｏｌｌｕｔｉｏｎ”などである。他の実施例では、主題２００は、コンパウンド主題（ｃｏｍｐｏｕｎｄｓｕｂｊｅｃｔ）、すなわち、“ａｎｄ”、“ｏｒ”、“ｎｏｔ”などの論理演算子を利用して接続された２以上の独立節から構成される主題の形式をとる。例えば、“ｔｈｅＴｒｉｌａｔｅｒａｌＣｏｍｍｉｓｓｉｏｎａｎｄｉｎｔｅｒｎａｔｉｏｎａｌＮＧＯｓｎｏｔＷｏｒｌｄＢａｎｋ”などである。あるいは、主題２００は、マルチパートオーソゴナル主題（ｍｕｌｔｉ−ｐａｒｔｏｒｔｈｏｇｏｎａｌｓｕｂｊｅｃｔ）、すなわち、接続されておらず、互いにオーソゴナルである２以上の独立節から構成される主題の形式をとる。例えば、“ｐｏａｃｈｉｎｇ，ｅｎｄａｎｇｅｒｅｄｓｐｅｃｉｅｓ，ｍｅｎ‘ｓｈｅａｌｔｈ，ｇｏｖｅｒｎｍｅｎｔｉｎｔｅｒｖｅｎｔｉｏｎ”などである。これらの実施例では、節又はクローズ認識のための高度なＮＬＰメソッド（Ｈａｃｈｅｙ，Ｂ．Ｃ．２００２．Ｔｈｅｓｉｓ：ＲｅｃｏｎｇｎｉｓｉｎｇＣｌａｕｓｅｓＵｓｉｎｇＳｙｍｂｏｌｉｃａｎｄＭａｃｈｉｎｅＬｅａｒｎｉｎｇＡｐｐｒｏａｃｈｅｓ．ＵｎｉｖｅｒｓｉｔｙｏｆＥｄｉｎｂｕｒｇｈ）が、主題２００に適用され、まず主題２００をクローズに分解し、それから構文解析によりキーワード及びフレーズに分解する。クローズ認識技術が、Ｘ、Ｙ及び相関関数１１０へのコンテクスト入力を区別するのに利用される。

一実施例では、主題評価関数２２０は、ユーザにより提供された主題２００が本発明からのレスポンスとして、最も適切なレスポンスとしてのリストを生成する。例えば、図１Ｂを参照するに、ユーザにより提供された主題が“ＩｔａｌｉａｎｒｅｓｔａｕｒａｎｔｓＤｏｖｅｒＤＥ”である場合、主題評価関数２２０は、ＤｅｌａｗａｒｅのＤｏｖｅｒにあるイタリアンレストランのリストを求められていることを認識するであろう。この場合、主題評価関数２２０は、ユーザにＧｏｏｇｌｅ（Ｇｏｏｇｌｅ，Ｉｎｃ．の製品）又はＹａｈｏｏ（Ｙａｈｏｏ，Ｉｎｃ．の製品）などの周知のシンプルなウェブサーチエンジンの１つを使用するよう指示するか、又はこれらのシンプルなサーチエンジンの１つを直接呼び出す。あるいは、主題評価関数２２０は、ユーザにより提供された主題がレスポンスとして最も適切なレスポンスとして１つのウェブページを生成するか判断する。例えば、ユーザにより提供された主題が“ｓｈｏｗｔｉｍｅｓｒｉａｌｔｏｔｈｅａｔｒｅ”である場合、主題評価関数２２０は、ＲｉａｌｔｏＴｈｅａｔｒｅのウェブサイトが求められていることを認識するであろう。この場合、主題評価関数２２０は、ユーザにＧｏｏｇｌｅ又はＹａｈｏｏなどの周知のシンプルなウェブサーチエンジンの１つを利用するよう指示するか、又は上述されたシンプルなサーチエンジンの１つを直接呼び出すであろう。これは、ちょうど２つの完全なフレーズが主題２２０を構成し、フレーズの１つが適切な地理的名称（ニューヨーク市など）又は適切な名前（ＲｉａｌｔｏＴｈｅａｔｒｅなど）であり、他方が形容詞＋名詞のフレーズ（“ｓｈｏｗｔｉｍｅｓ”又は“Ｉｔａｌｉａｎｒｅｓｔａｕｒａｎｔｓ”）であるとき、シンプルなウェブサーチエンジンが呼び出されるというルールを利用して、自動フレーズ認識技術（Ｋｅｌｌｅｄｙ，Ｆ．Ｓｍｅａｔｏｎ，Ａ．Ｆ．１９９７．ＡｕｔｏｍａｔｉｃＰｈｒａｓｅＲｅｃｏｇｎｉｔｉｏｎａｎｄＥｘｔｒａｃｔｉｏｎｆｒｏｍＴｅｘｔ．Ｐｒｏｃｅｅｄｉｎｇｓｏｆｔｈｅ１９ｔｈＡｎｎｕａｌＢＣＳ−ＩＲＳＧＣｏｌｌｏｑｕｉｕｍｏｎＩＲＲｅｓｅａｒｃｈを参照）により実現される。より高度なルールが、大部分の状況をカバーするのに容易に定義可能である。

図１に示される第３の入力モードは、特許出願第１１／２７３，５６８号の図２Ａにより十分に示されており、そこでは、相関関数１１０への入力がユーザの問い合わせであり、このユーザの問い合わせは標準形式により不完全な問い合わせと、当該問い合わせを完全にする１以上のキーワードとから構成される（“ブランクに記入せよ”の周知なパラダイムと比較可能である）。あるいは、この不完全な問い合わせは、ユーザにより明示的に選択される。一実施例では、不完全な問い合わせは、サポートされている標準形式の問い合わせのリスト又はメニューからユーザにより明示的に選択される。他の実施例では、サポートされている不完全な標準形式の問い合わせのリスト又はメニューは、“スタティック又は静的”である。すなわち、リストは各呼び出し毎に変化しない。あるいは、サポートされている不完全な標準形式の問い合わせのリスト又はメニューは、“ダイナミック又は動的”である。すなわち、リストは各呼び出し毎に変化する。図１を参照するに、サポートされている不完全な標準形式の問い合わせのダイナミックなリスト又はメニューが、コンピュータプログラムミング言語（ＳｕｎＭｉｃｒｏｓｙｓｔｅｍｓ，Ｉｎｃ．の製品であるＪａｖａ（登録商標）など）により記述されたソフトウェア関数、標準形式問い合わせ生成関数２５０、ソフトウェアプログラムコンポーネントにより各呼び出し毎に生成される。あるいは、不完全な問い合わせは非明示的なものであり、ソフトウェアプログラムコンポーネント、標準形式問い合わせ生成関数２５０により選択される。あるいは、標準形式問い合わせ生成関数２５０により選択される不完全な非明示的な問い合わせは、“スタティック”なものであり、すなわち、各呼び出し毎に変化しない。

現在の好適な実施例では、スタティックで非明示的な選択された問い合わせは、“キーワード１とキーワード２との間の接続は何か？”というものである。あるいは、スタティックで非明示的な選択された問い合わせは、“キーワード３、キーワード４及び／又はキーワード５のコンテクストには、キーワード１とキーワード２との間の接続は何か？”というものである。あるいは、標準形式問い合わせ生成関数２５０により選択される不完全な非明示的問い合わせは、“ダイナミック”であり、すなわち、各呼び出し毎に変更される。

一実施例では、デジタル情報オブジェクト２３０がユーザにより提供される。デジタル情報オブジェクト２３０は、限定されるものではないが以下を含む。
（ｉ）テキスト（平文）ファイル
（ｉｉ）ＲｉｃｈＴｅｘｔＦｏｒｍａｔ（ＲＴＦ）（Ｍｉｃｒｏｓｏｆｔ，Ｉｎｃ．により開発された規格）他の方法は、まずＲＴＦ／テキスト変換ユーティリティ（ＰｅｔｅＳｅｒｇｅａｎｔの製品であるＲＴＦ−Ｐａｒｓｅｒ−１．０９など）の中間的な利用によりＲＴＦからクリアテキストを取得することである。
（ｉｉｉ）ＥｘｔｅｎｄｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ（ＸＭＬ）（ワールド・ワイド・ウェブコンソーシアムの製品）ファイル
（ｉｖ）限定されるものではないが、ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ（ＨＴＭＬ）、ＥｘｔｅｎｓｉｂｌｅＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ（ＸＨＴＭＬ（登録商標））（ワールド・ワイド・ウェブコンソーシアムのプロジェクト）、ＲｕｌｅＭＬ（ＲｕｌｅＭＬＩｎｉｔｉａｔｉｖｅのプロジェクト）、ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ（ＳＧＭＬ））国際規格）、ＥｘｔｅｎｓｉｂｌｅＳｔｙｌｅｓｈｅｅｔＬａｎｇｕａｇｅ（ＸＳＬ）ワールド・ワイド・ウェブコンソーシアムのプロジェクト）を含むマークアップ言語ファイルの何れかの変形
（ｖ）ＰｏｒｔａｂｌｅＤｏｃｕｍｅｎｔＦｏｒｍａｔ（ＰＤＦ）ファイル（Ａｄｏｂｅ，Ｉｎｃ．の専用フォーマット）（ＰＤＦ・テキスト変換ユーティリティの中間的利用による）
（ｖｉ）ＭＳＷＯＲＤ（Ｍｉｃｒｏｓｏｆｔ，Ｉｎｃ．のワープロソフトウェア製品）による文書を格納するのに使用されるＤＯＣファイルなどのＭＳＷＯＲＤファイル本実施例は、ＭＳＷｏｒｄ・テキストパーサ（Ａｐａｃｈｅ．ｏｒｇの製品であるＡｐａｃｈｅＰＯＩプロジェクトなど）をプログラム的に利用する。ＰＯＩプロジェクトＡＰＩはまた、プログラム的に呼び出されたＭｉｃｒｏｓｏｆｔＥｘｃｅｌスプレッドシートファイル（ＸＬＳ）からのテキスト抽出を可能にする。ＭＳＷｏｒｄファイルはまた、ＸＬＳファイルは可能でないが、特殊文字を含むプレインテキストファイルとしてＮＬＰにより処理可能である。
（ｖｉｉ）以下に限定されるものでないが、トランザクションログ、電話番号レコード、従業員タイムシート、コンピュータシステムイベントログを含むイベント情報キャプチャログファイル
（ｖｉｉｉ）ウェブページ
（ｉｘ）ブログページ
（ｘ）リレーショナルデータベース行
（ｘｉ）リレーショナルデータベースビュー
（ｘｉｉ）リレーショナルデータベーステーブル
（ｘｉｉｉ）リレーショナルデータベースアンサーシート（すなわち、関係代数演算から得られる行セット）
デジタル情報オブジェクト２３０のトピックは、ソフトウェア関数、トピック検出関数２４０、ソフトウェアプログラムコンポーネントにより決定される。このようなトピック検出ソフトウェアの具体例は、文献に十分に記載されている。（Ｃｈｅｎ，Ｋ．１９９５．ＴｏｐｉｃＩｄｅｎｔｉｆｉｃａｔｉｏｎｉｎＤｉｓｃｌｏｓｕｒｅ．ＭｏｒｇａｎＫａｕｆｍａｎを参照されたい。）トピック検出関数２４０は、デジタル情報オブジェクト２３０の各形式を処理するソフトウェアアダプタ２３５により実現される。このようなソフトウェアアダプタ２３５は周知である。（例えば、ｈｔｔｐ：／／ｗｗｗ−３０６．ｉｂｍ．ｃｏｍ／ｓｏｆｔｗａｒｅ／ｉｎｔｅｇｒａｔｉｏｎ／ｗｂｉａｄａｐｔｅｒｓ／ｆｒａｍｅｗｏｒｋなどを参照されたい。）トピック検出関数の出力は、その後に相関関数１１０に提供されるキーワード及び／又はフレーズである。

図８は、図１に記載されるような入力に応答して知識相関関数１１０により開始され、本発明の一特徴に従ってユーザに結果を提示し続けるサーチエンジンプロセスのフローチャートである。相関関数１１０は、関連するデータ構造オブジェクト８３０、トリプル８３５及び関連するオブジェクト８３７をアンサースペース８８５に提供する。アンサースペース８８５におけるオブジェクトの重要性は、ランキング関数８４５が重要度によりランク付けするためデータをセットアップする重要性計算関数８４０により決定される。その後、出力がユーザに表示される。相関関数が何れかのタイプの有向非循環グラフを生成すると、階層的レイアウト関数８５０によりレイアウトが構成された後、グラフがユーザに表示可能となる。

本発明は、相関関数１１０の成功に依存する。特許出願第１１／２７３，５６８号からの以下のテキストは、本発明で使用される相関関数１１０を要約している。以下の引用における図に対するすべての参照は、特許出願第１１／２７８，５６８号の図面にのみ適用される。

『図１Ａに表示されるような本発明の実施例では、ユーザは、ＧＵＩインタフェースを利用して少なくとも１つの項を入力する。図２Ａは、ユーザ入力を受け付けるためのＧＵＩコンポーネントのスクリーンキャプチャである。当該インタフェースにおける重要度フィールドは、“Ｘ項”、“Ｙ項”及び“タンジェント”である。後述されるように、１〜５個の項又はフレーズのユーザのエントリは、本発明の動作に対して重要な効果を有している。図２Ａに示されるような好適な実施例では、ユーザは、少なくとも２つの入力項又はフレーズを提供することが要求される。図１Ａを参照するに、図２Ａの“Ｘ項”データエントリフィールドに入力することによって、ユーザ入力１００の“ＧＯＬＤ”がサーチ可能な項又はフレーズ１１０としてキャプチャされる。ユーザ入力１００の“ＩＮＦＬＡＴＩＯＮ”は、図２Ａの“Ｙ項”データエントリフィールドに入力されることにより、サーチ可能な項又はフレーズ１１０としてキャプチャされる。ユーザにより起動されると、関心のある項又はフレーズに関する情報の実際の及び可能性のあるソースを特定するため、サーチ１２０が実行される。実際の及び可能性のある各ソースが、関心のある項又はフレーズとの関連性１２５についてテストされる。サーチされるソースには、コンピュータファイルシステム、インターネット、リレーショナルデータベース、電子メールレポジトリ、タクソノミーのインスタンス、オントロジーのインスタンスがある。関連すると判明した上記ソースは、リソース１２８と呼ばれる。関連するリソース１２８のサーチ１２０は、“発見”と呼ばれる。各リソース１２８からの情報は、ノードと呼ばれるデジタル情報オブジェクト１３８に分解される（１３０）。図１Ｃを参照するに、ノード１８０Ａ及び１８０Ｂは、意味を含み伝達するデータ構造である。各ノードは自己完結している。ノードは、意味を伝達するための他の何れも必要としない。図１Ａを再び参照するに、良好に分解された（１３０）リソース１２８からのノード１８０Ａ，１８０Ｂがノードプール１４０に配置される。ノードプール１４０は、データアクセス及び抽出のための論理構造である。リソース１２８のキャプチャ及びノード１８０Ａ，１８０Ｂへの分解は、“取得”と呼ばれる。その後、相関１５５がノードプール１４０のメンバーノードと呼ばれるノード１８０Ａ，１８０Ｂを利用して構築される。図１Ｂを参照するに、相関は、関心のある項又はフレーズを明示的に含むノードプールのノードの１つからスタートする。このようなノードは項ノードと呼ばれる。相関における第１ノードとして使用されるとき、項ノードはオリジン（ソース）１５２と呼ばれる。相関は、ノードのチェーン（パス）の形式で構築される。パスは、オリジンノード１５２（同義的にはパスルートと呼ばれる）においてスタートする。パスは、オリジンノードに関連付け可能なメンバーノード１５１をノードプール１４０のノードメンバー１５１から検索することによって拡張される。このようなノード（適格なメンバー１５１Ｈ）が検出された場合、この適格なメンバーノードはオリジンノード１５２にリンクされ、パスの現在の終点として指定される。パスはさらに、パスの現在の終点に関連付けされ及び追加される適格なメンバーノードが最終的な終点ノード（デスティネーションノード１５９）とみなされるまで、又はノードプールにさらなる適格なメンバーノードが存在しなくなるまで、パスの連続的に指定された現在の終点にノードプールの適格なメンバーノードの繰り返しの関連付け及び連続的なリンクにより拡張される。パスの最終的な終点としてデスティネーションノード１５９の関連付け及びリンクは、成功結果（ゴール状態）と呼ばれ、この場合、パスは以降に相関１５５と呼ばれ、このような相関１５５は保存される。ノードプールにさらなる適格なメンバーノードが存在せず、このため受入可能なデスティネーションノードが存在しない状態は、不成功結果（消耗）とみなされ、パスは破棄され、相関とは呼ばれない。完成した相関１５５は、オリジンノード１５２と相関のその他の各ノードと関連付けし、特に相関のデスティネーションノード１５９と関連付けされる。このプロセスの名前は“相関”である。相関１５５は、サーチにおいて特定されたすべてのソースからの情報を結び付ける知識ブリッジを形成する。知識ブリッジは、発見された知識である。』
本発明は上述されるような相関関数５３５の成功に依存するため、可能性のあるソースに適用される関連性テスト（出願第１１／２７８，５６８号の図１Ａのアイテム１２５）が興味がある。上述されるような相関関数１１０の発見段階は、関連性テストを利用して（出願第１１／２７８，５６８号の図１Ａのアイテム１２５）、以降の取得のためのリソース（出願第１１／２７８，５６８号の図１Ａのアイテム１２８）を特定する。これらの関連性テスト（出願第１１／２７８，５６８号の図１Ａのアイテム１２５）は、関連技術に記載される関連性アプローチと類似し、共通部分を有する。リソース（出願第１１／２７８，５６８号の図１Ａのアイテム１２８）が相関関数１１０による取得を保証するのに十分な関連性を有しているとみなされる事実は、リソース（出願第１１／２７８，５６８号の図１Ａのアイテム１２８）がアンサースペース８００に重要な方法により寄与することがわかることを意味するものでなく、また保証するものでもない。出願第１１／２７８，５６８号に列記される関連性テスト（出願第１１／２７８，５６８号の図１Ａのアイテム１２５）が以下に列記される。本発明の一実施例では、出願第１１／２７８，５６８号に列記されるすべての関連性テスト（出願第１１／２７８，５６８号の図１Ａのアイテム１２５）と共に、関連技術に記載されるすべての関連性アプローチが、相関関数１１０による取得のためのリソース（出願第１１／２７８，５６８号の図１Ａのアイテム１２８）を選択するのに利用される。

出願第１１／２７８，５６８号による関連性テストは、限定されるものでないが以下を含むことが可能である。
（ｉ）可能性のあるソースが、関心のある項又はフレーズの単数形又は複数形とのマッチを含むこと。
（ｉｉ）可能性のあるソースが、関心のある項又はフレーズの同義語とのマッチを含むこと。
（ｉｉｉ）可能性のあるソースが、関心のある項又はフレーズに関連するワードとのマッチを含むこと（シソーラスにより提供されるように関連する）。
（ｉｖ）可能性のあるソースが、可能性のあるソースのコンテンツと関心のある項又はフレーズとの間の関係が信頼できるリファレンスソースにより確立されている関心のある項又はフレーズに関連するワードとのマッチを含むこと。
（ｖ）サーチ中に特定された可能性のあるソースの何れかのコンテンツが関心のある項又はフレーズの同義語又は関連するか判断するため、Ｍｅｒｒｉａｍ−Ｗｅｂｓｔｅｒ’ｓＴｈｅｓａｕｒａｕｓ（Ｍｅｒｒｉａｍ−Ｗｅｂｓｔｅｒ，Ｉｎｃ．の製品）などのシソーラスの利用。
（ｖｉ）可能性のあるソースが、関心のある項及び／又はフレーズの１つの信頼できるリファレンスの定義に現れるワードとのマッチを含むこと。
（ｖｉｉ）サーチ中に特定される可能性のあるソースの何れかのコンテンツが、関心のある項又はフレーズの辞書の定義に出現し、このため関連性があるか判断するため、Ｍｅｒｒｉａｍ−Ｗｅｂｓｔｅｒ’ｓＤｉｃｔｉｏｎａｒｙ（Ｍｅｒｒｉａｍ−Ｗｅｂｓｔｅｒ，Ｉｎｃ．の製品）などの辞書の利用。
（ｖｉｉｉ）可能性のあるソースが、信頼できるリファレンスソースの関心のある項又はフレーズに関する説明に出現するワードとのマッチを含むこと。
（ｉｘ）サーチ中に特定された可能性のあるソースの何れかのコンテンツが、関心のある項又はフレーズの百科事典の説明に出現し、このため関心のある項又はフレーズに関連するか判断するため、ｔｈｅＥｎｃｙｃｌｏｐｅｄｉａＢｒｉｔａｎｎｉｃａ（ＥｎｃｙｃｌｏｐｅｄｉａＢｒｉｔａｎｎｉｃａ，Ｉｎｃ．の製品）などの百科事典の利用。
（ｘ）可能性のあるソースに含まれる項が、関心のある項又はフレーズと親子又は兄弟関係を有すること。
（ｘｉ）可能性のあるソースに含まれる項が、関心のある項又はフレーズと親子関係又は兄弟関係を有することを判断するためのタクソノミーの利用。本実施例では、関心のある項又はフレーズを含む頂点がタクソノミーに配置される。これが、関心のある頂点である。可能性のあるソースのコンテンツで特定された各ワードについて、タクソノミーの親、兄弟又は子供の頂点が、関心のある頂点から当該関心のある頂点の親、兄弟及び子供の頂点への関係（リンク）を追跡することによってサーチされる。親、兄弟又は子供の頂点の何れかが可能性のあるソースのコンテンツからのワードを含む場合、マッチが宣言され、ソースは関心のある項又はフレーズに関する情報の実際のソースとみなされる。本実施例では、グラフ探索関数と呼ばれるソフトウェア関数が、関心のある項又はフレーズの親、兄弟及び子供の頂点を特定及び検証するのに利用される。
（ｘｉｉ）関心のある項又はフレーズが、可能性のあるソースに含まれる項から次数（長さ）１の意味的距離を有すること。
（ｘｉｉｉ）関心のある項又はフレーズが、可能性のあるソースに含まれる項から次数（長さ）２の意味的距離を有すること。
（ｘｉｖ）次数（長さ）１の意味的距離が関心のある項又はフレーズからソースを分離することを判断するためのオントロジーの利用。本実施例では、関心のある項又はフレーズを含む頂点がオントロジーで特定される。これが、関心のある頂点である。可能性のあるソースのコンテンツにおいて特定された各ワードについて、オントロジーが、関心のある頂点から隣接するすべての頂点への関係（リンク）を追跡することによりサーチされる。隣接する頂点の何れかが可能性のあるソースのコンテンツからのワードを含む場合、マッチが宣言され、ソースが関心のある項又はフレーズに関する情報の実際のソースとみなされる。
（ｘｖ）次数（長さ）２の意味的距離が関心のある項又はフレーズからソースを分離することを判断するためのオントロジーの利用。本実施例では、関心のある項又はフレーズを含む頂点がオントロジーにおいて特定される。これが、関心のある頂点である。可能性のあるソースのコンテンツにおいて特定された各ワードについて、意味的に次数１の関連性テストが実行される。これが不成功であった場合、オントロジーが、関心のある頂点に隣接する頂点から各自のすべての隣接する頂点への関係（リンク）を追跡することによって、サーチされる。このような頂点は、関心のある頂点から意味的に次数２となる。意味的に次数２の頂点の何れかが可能性のあるソースのコンテンツからのワードを含む場合、マッチが宣言され、ソースが関心のある項又はフレーズに関する情報の実際のソースとみなされる。
（ｘｖｉ）関心のある項及び／又はフレーズの１つからサーチ中に特定された可能性のあるソースの何れかのコンテンツへの意味的距離の次数（長さ）を決定するため、ＣＹＣＯｎｔｏｌｏｇｙ（Ｃｙｃｏｒｐ，Ｉｎｃ．の製品）などの一般的なオントロジーの利用。
（ｘｖｉｉ）関心のある項及び／又はフレーズの１つからサーチ中に特定された化膿し絵のあるソースの何れかのコンテンツへの意味的距離の次数（長さ）を決定するため、ＧｅｎｅＯｎｔｏｌｏｇｙ（ＧｅｎｅＯｎｔｏｌｏｇｙＣｏｎｓｏｒｔｉｕｍのプロジェクト）などの特殊なオントロジーの利用。

オントロジーを利用し、テストについて、オントロジーがＯｎｔｏｌｏｇｙＬａｎｇｕａｇｅ（ＷｅｂＯｎｔｏｌｏｇｙＬａｎｇｕａｇｅなど）（ＯＷＬ）（ＷｏｒｌｄＷｉｄｅＷｅｂＣｏｎｓｏｒｔｉｕｍのプロジェクト）を利用してアクセス及びナビゲートされる。

このようにサーチされるコンピュータは、個人のパーソナルコンピュータ、ネットワーク上の各コンピュータ、ネットワークサーバコンピュータ、ネットワークオントロジーサーバコンピュータ、ネットワークタクソノミーサーバコンピュータ、ネットワークデータベースサーバコンピュータ、ネットワーク電子メールサーバコンピュータ、ネットワークファイルサーバコンピュータを含む。ネットワークオントロジーサーバは、典型的には、大きなユーザグループに対する意味的サーチ機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。ネットワークタクソノミーサーバは、典型的には、大きなユーザグループに対する分類サーチ機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。ネットワークデータベースサーバは、典型的には、大きなユーザグループに対するデータベース機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。ネットワーク電子メールサーバは、典型的には、大きなユーザグループに対する電子メール機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。ネットワークファイルサーバは、大きなユーザグループに対するファイル維持及び抽出機能をサポートするタスクに専用の特殊なハイパフォーマンスコンピュータである。コンピュータネットワークは、少なくとも２つのネットワークノードを有し、ネットワークノードの最大数は無限である。コンピュータファイルシステムは、少なくとも２つのファイルを有し、ファイルの最大数は無限となる。

相関関数１１０が良好に完了すると、アンサースペース８００が存在する。出願第１１／２７３，５６８号に記載され、本出願の図８に示されるように、アンサースペース８００はいくつかの相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）から構成される。これらの相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）は、さらに図５においていくつかのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ａ及び１８０Ｂ）から構成される。相関関数１１０により生成される図４の良好な相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）は、好適な一実施例では、相関の有向グラフ（ダイグラフとも呼ばれる）として一緒にモデル化される。あるいは、相関関数１１０により生成される図４の良好な相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）は、良好な相関のパスのクイーバ（ｑｕｉｖｅｒ）として一緒にモデル化される。相関関数１１０により生成される図４の良好な相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）は、相関に関してアンサースペース８００と呼ばれる。相関関数１１０がパスのクイーバの各パスが良好な相関であるパスのクイーバを構築した場合、すべての良好な相関はスタートポイントとしてオリジンノード（出願第１１／２７３，５６８号の図１Ｂのアイテム１５２）を共有し、オリジンノードからのすべての可能な相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）が構築される。同一のオリジン項ノード（出願第１１／２７３，５６８号の図１Ｂのアイテム１５２）からスタートし、同一のターゲット項ノード（出願第１１／２７３，５６８号の図１Ｂのアイテム１５９）又は同一の関連するターゲット項ノード（出願第１１／２７３，５６８号の図１Ｂのアイテム１５９）で終わるすべての相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）（パス）は、相関セットを構成する。

現在好適な実施例では、アンサースペース８００がコンピュータデジタルメモリに格納されるか、又はコンピュータデジタル記憶媒体（ハードドライブなど）に格納される。このようなデジタルメモリ及びデジタル記憶装置は周知である。アンサースペース８００は、計算装置、コンピュータネットワーク接続装置又はパーソナル計算装置に一時的あるか、又は常駐する。周知の計算装置は、限定されるものでないが、スーパーコンピュータ、メインフレームコンピュータ、企業クラスコンピュータ、サーバ、ファイルサーバ、ブレードサーバ、ウェブサーバ、部門サーバ及びデータベースサーバを含む。周知のコンピュータネットワーク接続装置は、限定されるものでないが、インターネットゲートウェイ装置、データ記憶装置、ホームインターネット装置、セットトップボックス及び車載計算プラットフォームを含む。周知のパーソナル計算装置は、限定されるものでないが、デスクトップパーソナルコンピュータ、ラップトップパーソナルコンピュータ、携帯情報端末（ＰＤＡ）、先進的なディスプレイ携帯電話、先進的なディスプレイページャ、及び先進的なディスプレイテキストメッセージ処理装置を含む。アンサースペース８００は、最小で２つのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ａ及び１８０Ｂ）を有し又は関連付け、ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ａ及び１８０Ｂ）の最大数は無限となる。

ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ａ及び１８０Ｂ）は相関関数１１０の発見段階により特定されたリソース（出願第１１／２７３，５６８号の図１Ａのアイテム１２８）に対して適用された分解関数（出願第１１／２７３，５６８号の図１Ｂのアイテム１３０）のプロダクトであるため、これらのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ａ及び１８０Ｂ）は、当該ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ａ及び１８０Ｂ）が導出されるリソース（出願第１１／２７３，５６８号の図１Ａのアイテム１２８）に強く関連付けされる。このようなリソース（出願第１１／２７３，５６８号の図１Ａのアイテム１２８）は、ここでは貢献リソースと呼ばれる。さらに、アンサースペース８００は、ユーザクエリ（入力される主題２００、デジタル情報オブジェクト２３０又は問い合わせ２５０として示される）に強く関連付けされる。なぜなら、良好な相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）は、ユーザクエリがコーパスのコンテンツから充足可能な実在するプルーフ（実在する数量化）であるためである。本発明は、ユーザクエリとアンサースペース８００との強い関連付けがアンサースペースにノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ａ及び１８０Ｂ）を貢献させたリソース（出願第１１／２７３，５６８号の図１Ａのアイテム１２８）に推移的なものであるという事実に基づき、これにより、知識相関サーチエンジンの本発明がユーザクエリに関連するリソース（出願第１１／２７３，５６８号の図１Ａのアイテム１２８）の正確なリンクを提供することを可能にする。

本発明の要件は、アンサースペース１８５にノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ａ及び１８０Ｂ）を貢献させたリソース（出願第１１／２７３，５６８号の図１Ａのアイテム１２８）が特定される必要があるということである（すなわち、貢献リソース０００が何れか？）。出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂに示すことができるように、出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂのノードのメンバーはシーケンス（ソース）（出願第１１／２７３，５６８号の図１Ｃのアイテム１８８）である。シーケンス（出願第１１／２７３，５６８号の図１Ｃのアイテム１８８）は、ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）が導出されるリソース（出願第１１／２７３，５６８号の図１Ａのアイテム１２８）（出願第１１／２７３，５６８号の図１Ｃのアイテム１８８のノードに対する貢献リソース１２８）のＵＲＩを含む。このため、本発明は、アンサースペース１８５のすべてのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８８）において検出されるすべてのリソース（出願第１１／２７３，５６８号の図１Ａのアイテム１２８）を単に数え上げることによって、ユーザクエリに関連する貢献リソース１２８を特定することができる。

改良されているが依然として基本的な実施例では、各相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）を調べることが可能であり、相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）における貢献リソース１２８の出現頻度がヒストグラムにおいてキャプチャすることができる。その後、すべての貢献リソース１２８の出現の累積的なカウントがソートすることができる。その後、すべての貢献リソース０００のＵＲＩが、出現頻度の降順によりユーザに提示可能である。本実施例について、図２を参照して、相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）の検証、貢献リソース１２８の出現頻度のキャプチャ及び貢献リソース１２８のキャプチャされた出現頻度のヒストグラムへの配置が、重要度計算関数５４０により実行される。すべての貢献リソース１２８の出現に対する累積的なカウントのソートがランキング関数５４５により実行され、ソートされた結果のユーザへの提示が、階層的レイアウト関数５５０により実行される。

他の基本的な例では、重要度計算関数８４２は、重要度計算関数８４２は、各貢献リソース１２８によりアンサースペース８８５に寄与する一意的なノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）の個数に基づく統計関数である。本実施例では、アンサースペース８８５における相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）は考慮されない。重要度計算関数８４２はまず、各ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）についてリストの１つのエントリを有するアンサースペース８８５の一意的なノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）をリストする。その後、各貢献リソース１２８への参照頻度がカウントされる。統計的な重要度を測るため標準的で周知な統計基準及び方法を利用して、ランキング関数８４５により使用されるｋ閾値が確定され、最も重要度の高い貢献リソース１２８が特定され、ユーザに提示可能となる。

他の例として、重要度計算関数８４２は、シンプルな出現頻度とシンプルな貢献頻度値とを相関させ、基本的な重要度スコアを生成する。スキャッタプロットがこのデータを表示するのに使用される場合、最も高い出現頻度と最も高い貢献頻度とを有する重要なリソース１２８が、右から最も遠く上部に最も近く配置される。再び、後述される重要度計算関数８４２のすべての変形された実施例について、標準的で周知な統計的な重要度の指標が、ランキング関数８４５に適したｋ閾値情報を提供するのに利用される。必要に応じて、重要度計算関数８４２により利用可能な他の統計技術は、限定されるものでないが、出現頻度とシンプルな貢献との間のリニア（周知のピアソンｒ）相関、プロットデータの非リニア相関、ケンダールの一致係数などの非パラメトリック統計アプローチ、互いに対数的関係を有するデータの幾何平均の計算及び変数間の関係を測定するための他の周知な技術を含む。

一実施例では、ノード重要度スコアは、当該特定のノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）の貢献リソース１２８による貢献を受けるノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）の個数に対する出現頻度の比率、又はすべての貢献リソース１２８による貢献を受けるノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）の平均数に対する出現頻度の比率などの指標を使用することにより計算可能である。重要度計算関数８４２のスピードを向上させるため、ノード重要度スコアは確率により（０，１）又は（−１，１）で正規化することが可能であり、これにより、所与の貢献リソース１２８がアンサースペースに重要か否か迅速に判断できる。

他の実施例では、重要度計算関数８４２は、入力として相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）をとるリンク解析関数８４２である。これは、ウェブグラフと比較して、相関関数１１０により生成される相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）の間の差分を利用する。リンク解析関数としての重要度計算関数８４２は、アンサースペース１２８における各ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）に対するリンクポピュラリティスコアを確定する。リンクポピュラリティスコアは、アンサースペース８８５の各ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）との入りリンクの次数により決定される。その後、貢献リソース１２８による貢献を受けるすべてのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）のポピュラリティスコア値が集計される。本実施例では、貢献リソース１２８による貢献を受けたすべてのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）の集計されたポピュラリティスコアが、貢献リソース１２８に送信される。

一実施例では、リンク解析関数としての重要度計算関数８４２は、各ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）に対する重要度スコアを確定する。この重要度スコアは、周知のＫｌｅｉｎｂｅｒｇＨｕｂｓａｎｄＡｕｔｈｏｒｉｔｙアルゴリズムにより決定される。貢献リソース１２８による貢献を受けるすべてのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）に対するＨｕｂ又はＡｕｔｈｏｒｉｔｙスコアがその後に集計される。本実施例では、貢献リソース１２８による貢献を受けたすべてのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）の集計されたＨｕｂａｎｄＡｕｔｈｏｒｉｔｙスコアが貢献リソース１２８に送信される。一実施例では、重要度スコアは、ＰａｇｅＲａｎｋアルゴリズムの周知のセカンドバージョンにより決定される。その後、貢献リソース１２８による貢献を受けるすべてのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）のＰａｇｅＲａｎｋスコアが集計される。本実施例では、貢献リソース１２８による貢献を受けた全てのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）の集計されたＰａｇｅＲａｎｋスコアが、貢献リソース１２８に送信される。

リソース重要度計算関数８４２の結果が、ソフトウェア関数、ランキング関数８４５、ソフトウェアプログラムコンポーネントによりランク付けされる。一実施例では、ランキング関数８４５は、ランキング関数８４５によりナンバー１のランクを与えられた重要度計算関数８４２により最も高い値を与えられた貢献リソース１２８によりシンプルな降順ソートを実現する。その他の貢献リソース１２８の通常のランクは、ソートされた重要度のリストにおける各自の相対的なポジションに基づき割り当てられる。重要度計算関数８４２が各貢献リソース１２８によりアンサースペース８８５について貢献を受けた各ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）の個数に基づく統計関数であるとき、またランキング関数８４５がシンプルな降順ソートを実現するとき、ランキング関数は貢献によるランクと呼ばれる。重要度計算関数８４２が、各貢献リソース１２８によりアンサースペース８８５に対して貢献を受けたすべてのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）の関連性スコアの合計を計算する統計関数であるとき、またランキング関数８４５がシンプルな降順ソートを実現するとき、ランキング関数は関連性によるランクと呼ばれる。重要度計算関数８４２が、各貢献リソース１２８によりアンサースペース８８５に対して貢献を受けたすべてのノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）のポピュラリティスコア、ＨｕｂａｎｄＡｕｔｈｏｒｉｔｙスコア又はＰａｇｅＲａｎｋスコアの合計を計算する統計関数であるとき、またランキング関数８４５がシンプルな降順ソートを実現するとき、ランキング関数は重要度によるランクと呼ばれる。

現在好適な実施例では、貢献リソース１２８の少なくとも２つのカテゴリがアンサースペース８８５に対してノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）に貢献する。貢献リソースの２つのカテゴリは、ここではトピックリソース及びリファレンスリソースと指定される。トピックリソースは、ノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）に、例えば、トリプルＧＬＯＢＡＬＷＡＲＭＩＮＧ−ＡＦＦＥＣＴＳ−ＧＬＡＣＩＥＲＳなどのトピックに対する明示的な参照を提供する。リファレンスリソースは、例えば、トリプルＧＬＯＢＡＬＷＡＲＭＩＮＧ−ＩＳ−ＣＬＩＭＡＴＥＣＨＡＮＧＥ又はＧＬＯＢＡＬＷＡＲＭＩＮＧ−ＦＲＯＭ−ＥＭＩＳＳＩＯＮＳなどのトピックリソースノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）をサポートする知識の基礎を提供するノード（出願第１１／２７３，５６８号の図１Ｃのアイテム１８０Ｂ）を提供する。

一実施例では、サポートベクターマシーン（ＳＶＭ）が、貢献リソースを分類及びランク付けするのに生成される。貢献リソース１２５の各分類の個数及び特性に応じて、ＳＶＭ−ＲＦＥ（ＳＶＭ−ＲｅｃｕｒｓｉｖｅＦｅａｔｕｒｅＥｌｉｍｉｎａｔｉｏｎ）及びＲ−ＳＶＭ（Ｒｅｄｕｃｅｄ−ＳＶＭ）を含むＳＶＭの変形が利用される。現在好適な実施例では、トピックリソース及びリファレンスリソースへの貢献リソース１２８の分類が要求される場合、貢献リソース１２８を分類及びランク付けするためのＳＶＭ処理のアプリケーションは、ガン細胞サンプルから健全な組織サンプルを特定するため診断分類手段として利用されるＳＶＭ処理と実質的に同一である。

現在好適な実施例では、相関関数１１０により構築又は発見された相関（出願第１１／２７３，５６８号の図１Ｂのアイテム１５５）がユーザに表示可能である。この表示は、プレゼンテーションと呼ばれる。現在好適な実施例では、アンサースペース１２８のプレゼンテーションは、階層的ライアウト８９０を利用して実現される。現在好適な実施例では、階層的レイアウト８９０は、ソフトウェア関数、階層的レイアウト関数８５０、ソフトウェアプログラムコンポーネントを利用して生成される。階層的レイアウト関数８５０は、交差するエッジの個数と同一方向のグラフフローの大部分のエッジが最小化されるように、異なるレイヤのグラフのノードを割り当てる。現在好適な実施例では、階層的レイアウト関数８５０はＳｕｇｉｙａｍａレイアウトアルゴリズムを利用する。

本発明の各種実施例が詳細に説明されたが、以下の請求項に与えられるような本発明の範囲から逸脱することなく、上記実施例の改良及び適応が当業者に想到することは明らかである。

図１は、本発明の一特徴によるサーチエンジンの機能コンポーネントを示すブロック図である。図２は、図１のプレサーチブロックのクロック図である。図２Ａは、本発明の一特徴によるキーワード、フレーズ、センテンス及びコンセプトに対する一例となる主題評価関数の一部のブロック図である。図２Ｂは、本発明の一特徴によるシンプルなウェブクエリとコンパウンド、コンプレックス又はオーソゴナル主題の一例となる主題評価関数の残りの部分のブロック図である。図２Ｃは、本発明の一特徴による一例となるトピック検出モジュールと関連するアダプタのブロック図である。図２Ｄは、本発明の一特徴による問い合わせ生成関数のブロック図である。図３は、出願第１１／２７３，５６８号の図１Ａのコピーである。図４は、出願第１１／２７３，５６８号の図１Ｂのコピーである。図５は、出願第１１／２７３，５６８号の図１Ｃのコピーである。図６は、出願第１１／２７３，５６８号の図２Ａのコピーである。図７は、出願第１１／２７３，５６８号の図２Ｅのコピーである。図８は、図１のポストサーチブロック１２０のブロック図である。

Claims

ａ．相関を利用するサーチプロセスと、
ｂ．ユーザにより提供された入力から前記サーチプロセスの入力を抽出し、前記サーチのための入力を前記サーチプロセスに提供する入力評価関数と、
を有するサーチエンジン。
前記入力評価関数は、キーワード、フレーズ、センテンス、コンセプト、コンパウンド、コンプレックス若しくはオーソゴナル入力又はシンプルなウェブクエリから主題情報を抽出し、前記主題情報を前記サーチプロセスに転送する主題評価関数を有する、請求項１記載のサーチエンジン。
前記キーワード及びフレーズに対する主題評価関数は、パススルー関数から構成される、請求項２記載のサーチエンジン。
前記センテンスに対する主題評価関数は、自然言語パーサから構成される、請求項２記載のサーチエンジン。
前記コンセプトに対する主題評価関数は、主題、オブジェクト及び任意的にコンテクスト情報を有する、請求項２記載のサーチエンジン。
前記コンパウンド、コンプレックス又はオーソゴナル入力に対する主題評価関数は、クローズ認識関数と自然言語パーサとから構成される、請求項２記載のサーチエンジン。
前記シンプルなウェブクエリに対する主題評価関数は、フレーズ認識プロセスから構成される、請求項２記載のサーチエンジン。
前記入力は、デジタル情報オブジェクトから構成され、
前記入力評価関数は、トピック検出モジュールアダプタとトピック検出モジュールとから構成される、請求項１記載のサーチエンジン。
前記トピック検出モジュールの出力を受け付ける自然言語パーサをさらに有する、請求項８記載のサーチエンジン。
前記入力は、クエリを定義する問い合わせ生成関数から構成される、請求項１記載のサーチエンジン。
前記問い合わせ生成関数は、問い合わせの静的なメニューを生成する、請求項１０記載のサーチエンジン。
前記問い合わせ生成関数は、問い合わせの動的なメニューを生成する、請求項１０記載のサーチエンジン。
前記クエリは、標準形式により提示される、請求項１０記載のサーチエンジン。
前記サーチプロセスの出力は、アンサースペースに基づく、請求項１記載のサーチエンジン。
前記サーチプロセスの出力は、前記アンサースペースから特定されるリソースに強く関連付けされる、請求項１４記載のサーチエンジン。
前記出力は、前記アンサースペースを生成するのに使用されるリソースにに強く関連付けされる、請求項１４記載のサーチエンジン。
前記出力は、前記アンサースペースを生成するのに使用されるリソースを介しユーザ入力に一時的に関連付けされる、請求項１４記載のサーチエンジン。
前記リソースの前記ユーザ入力に対する関連性は、アンサースペースの存在により保証される、請求項１４記載のサーチエンジン。
関連性を確立するのに類似性指標を使用しない、請求項１４記載のサーチエンジン。
前記サーチプロセスの出力は、ユーザへの提示順序を決定するため、ポストサーチプロセスに適用される、請求項１記載のサーチエンジン。