JP2002366549A - 選択的検索メタ探索エンジンおよび選択的検索を行う方法 - Google Patents

選択的検索メタ探索エンジンおよび選択的検索を行う方法

Info

Publication number
JP2002366549A
JP2002366549A JP2002068461A JP2002068461A JP2002366549A JP 2002366549 A JP2002366549 A JP 2002366549A JP 2002068461 A JP2002068461 A JP 2002068461A JP 2002068461 A JP2002068461 A JP 2002068461A JP 2002366549 A JP2002366549 A JP 2002366549A
Authority
JP
Japan
Prior art keywords
search
meta
selective
search engine
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002068461A
Other languages
English (en)
Inventor
Eric Glover
グローバー エリック
Robert Lawrence Stephen
ロバート ローレンス ステファン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2002366549A publication Critical patent/JP2002366549A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 実行時間、資源使用、スループット、または
結果の質の面で性能が向上したメタ探索エンジンと、メ
タ探索エンジンにおける選択的検索を行う方法を提供す
る。 【構成】 選択的検索メタ探索エンジンは、付加情報を
得るべきドキュメントを選択するために、ドキュメント
の関連性の評価と、関連性評価の信頼度の計算とを行
う。選択されたドキュメントについての関連性評価を更
新するために、付加情報が用いられる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明はメタ探索(サーチ)
エンジンに関し、特に、実行時間の短縮と、資源の使用
の改善と、スループットの向上と、結果の質の向上との
少なくとも1つを達成するために、付加情報の選択的検
索を用いるメタ探索エンジンに関する。
【0002】
【従来の技術】AltaVista(http://www.altav
ista.com/を参照)およびGoogle(http://www.go
ogle.com/を参照)などのウェブ(web)探索エンジンは、
ウェブページに含まれているテキストを索引付けし、ユ
ーザキーワード探索で情報を見付けることができるよう
にする。ウェブ探索エンジンは、例えば、S. Brin, L.
Page, “The Anatomy of a Large-Scale Hypertextual
Web Search Engine(大規模ハイパーテキスチュアル・
ウェブ探索エンジンの構造)”, Seventh Internationa
l World Wide Web Conference(第7回国際ワールドワ
イドウェブ会議), Brisbane(ブリスベーン), オース
トラリア, 1998年に記述されている。メタ探索エン
ジンは、通常の探索エンジン上のレイヤ(層)として動
作する。通常の探索エンジンは、AltaVistaな
どの汎用ウェブ探索エンジン、ResearchInd
ex(http://researchindex.org/参照)などの特殊化
されたウェブ探索エンジン、イントラネットメタ探索エ
ンジンなどのローカル探索エンジン、またはメタ探索エ
ンジンがアクセスできるその他の探索エンジンあるいは
データベースを含むことができる。以下の説明におい
て、「探索エンジン(search engine)」という用語は、
探索照会(search query)を受け、1つまたは複数の結果
またはドキュメントを戻す任意のシステムを指すものと
理解されたい。メタ探索エンジンは探索照会を受け、そ
の照会(おそらく変換して)を1つまたは複数の通常の
探索エンジンへ送り、ドキュメントのリストをユーザに
提示するためにその通常の探索エンジンからの応答を収
集して処理する。メタ探索エンジンについてのさらなる
情報については、例えば、E. Selberg, O. Etzioni,
“The MetaCrawler Architecture for Resource Aggreg
ation on the Web(ウェブに資源を集めるためのメタク
ロウラー・アーキテクチャ)”, IEEE Expert, 199
7年1〜2月号11〜14ページを参照されたい。
【0003】探索エンジンおよびメタ探索エンジンは、
照会に応じて、ドキュメントのランク(順位)付けされ
たリストをユーザへ戻す。ドキュメントは、関連性の尺
度、有用性の尺度、または価値の尺度と呼ばれる種々の
尺度によりランク付けされる。広くいえば、目標は、ユ
ーザの照会に対して最も関連しているか、最も有用であ
るドキュメントを高くランク付けすることである。ここ
で使用する「関連性(relevance)」という用語は、探索
エンジンまたはメタ探索エンジンにおいて、ドキュメン
トに点数をつけランク付けするために使用できる種々の
尺度のいずれをも指すと理解されたい。なお、関連性
は、キーワード照会またはその他の情報もしくはそれら
の両方を基づくことができる。例えば、E. Glover, S.
Lawrence,W. Birmingham, C. L. Giles, “Architectur
e of a Metasearch Engine That Supports User Inform
ation Needs(ユーザ情報ニーズをサポートするメタ探
索エンジンのアーキテクチャ)”, Eighth Internation
al Conference on Information and Knowledge Managem
ent(情報および知識管理についての第8回国際会議),
CIKM 99, pp. 210〜216, 1999に記載されているよう
に、関連性は、キーワード照会および情報ニーズのカテ
ゴリに基づくことができる。
【0004】以下の説明において、「結果」および「ド
キュメント」という用語は、探索エンジンにより検索(r
etrieve)されたもの(material)を指すものであると理解
されたい。
【0005】現在のメタ探索エンジンは、2つのタイプ
(タイプAおよびタイプB)のうちの1つに入る。タイ
プAのメタ探索エンジンは、探索エンジンから結果を得
て、探索エンジンから返されたタイトル、要約およびU
RL(uniform resource locator)などのローカルデータ
に基づくだけでそれらの結果を融合する。タイプAのメ
タ探索エンジンの例には、MetaCrawler(上
記のSelbergらの論文において論じられている)および
SavvySearch(D. Drelinger, A. Howe, “E
xperience with Selecting Search Engines Using Meta
search(メタ探索を用いる探索エンジンの選択での経
験)”, ACM Transactions on Information Systems, V
ol. 15, No. 3, pp. 195-222, 1997を参照)が含まれ
る。タイプBのメタ探索エンジンは、結果を探索エンジ
ンから得て、リストに挙げられたドキュメントの現在の
内容を検索(retrieve)して付加的な情報を取得し、ドキ
ュメントの関連性を判定するための探索エンジンの性能
を向上する。タイプBのメタ探索エンジンの例には、S.
Lawrence, C. L. Giles, “Context and Page Analysi
s for Improved Web Search(改良されたウェブ探索の
ためのコンテキストおよびページ解析)”, IEEE Inter
net Computing, Vol. 2, No. 4, pp. 38-46, 1998に記
載されているようなInquirusと、上記のGlover
らの論文に記述されているようにInquirus 2
の初期のバージョンとが含まれている。タイプBのメタ
探索エンジンは、内容に基づいた(content-based)メタ
探索エンジンとしても知られている。好適なメタ探索エ
ンジンは、1998年7月10日に出願された「Meta S
earch Engine(メタ探索エンジン)」という名称の米国
特許出願09/113,751(特開平11−191114号公報
に対応)に記述されている。
【0006】
【発明が解決しようとする課題】しかしながら、タイプ
AとタイプBのメタ探索エンジンの両方ともに、大きな
問題点を有している。タイプAの探索エンジンは、高速
ではあるが、利用できる情報に限りがあるので、ドキュ
メントの関連性を予測する性能に困難がある。これは、
メタ探索エンジンが探索エンジンにより返されたおそら
く非常に多くの結果をランク付けすることに、非常に大
きな困難があり得ることを意味する。ユーザは、しばし
ば、返された結果のうちの最上位(トップ)からいくつ
かのものを調べるだけの時間しか持っていないので、返
された全ての結果におけるトップ近くの最良の結果を探
索エンジンがランク付けできることは、非常に重要であ
る。また、タイプAのメタ探索エンジンには、インタフ
ェースの限界と、無効なリンクを返すおそれとがある。
タイプBのメタ探索エンジンは、ドキュメントの現在の
内容にアクセスするので、無効なリンクを解消し、ドキ
ュメントの関連性のより正確な評価を行うことができ
る。しかし、探索エンジンによって返された全てのドキ
ュメントの現在の内容を検索する必要があるために、こ
れらのメタ探索エンジンは非常に遅くかつ極めて資源集
約的である。ドキュメントの内容の検索に費用がかかり
過ぎたり、困難であったり、時間がかかり過ぎたりする
が、これは、タイプBのメタ探索エンジンの大きな限界
である。例えば、検索された各ドキュメントは使用され
る帯域幅のために費用を要することがあり、ドキュメン
トの内容の検索に長い遅延を生じたりすることがあり、
かつ、ドキュメントの提供者が検索されるドキュメント
の数を最少にすることを望むこともある。
【0007】本発明の目的は、実行時間、資源の使用、
スループット、または結果の品質の面で性能が改善され
たメタ探索エンジンを提供するにある。
【0008】本発明の別の目的は、メタ探索エンジンに
おいて選択的検索を行うための方法を提供することにあ
る。
【0009】
【課題を解決するための手段】選択的検索メタ探索エン
ジンは、通常の探索エンジンにより戻されたドキュメン
トの関連性を、その探索エンジンにより提供された要約
情報を基にして予測する。さらに、選択的検索メタ探索
エンジンは、各関連性予測について信頼度値を評価す
る。信頼度値は、ドキュメントのリンク統計または現在
の内容などの、そのドキュメントについての付加情報(a
dditional information)を得るか否かを判定するために
使用される。付加情報が得られたら、そのドキュメント
の関連性についての新たな予測が計算される。選択的検
索メタ探索エンジンは、従来のメタ探索エンジンと比較
して結果の質についてのあらゆる改善をなくすことな
く、内容を基にする(content-based)メタ探索エンジン
と比較して検索要求量をより少なくすることにより、実
行時間を短縮し、資源の使用を改善し、スループットを
向上することができる。
【0010】すなわち本発明は、選択的検索に関するも
のである。選択的検索は、タイプBのメタ探索エンジン
に匹敵する正確さを与えるが、実行時間と、資源の使用
と、スループットとの少なくとも1つはタイプAのメタ
探索エンジンと同程度のものである。選択的検索メタ探
索エンジンは、関連性またはその他の基準を完全に予測
するために十分な情報を利用できるならば、付加情報を
検索するか否かは、各結果ごとに決定できる。十分な情
報を利用できるならば、付加情報は検索されず、ドキュ
メントにただちに点数をつけ、あるいはランク付けする
ことができる。
【0011】
【発明の実施の形態】次に、本発明の好ましい実施の形
態について、図面を参照して説明する。図1は、本発明
の好ましい実施の形態におけるウェブ探索エンジンの構
成を示す概略ブロック図である。ウェブ探索エンジン
は、ユーザ入力を受けるステップと、ユーザ入力を処理
するステップと、データベースに対する照会(クエリ;
query)を適用するステップと、結果を処理するステッ
プと、結果を表示するステップとを実行する。
【0012】ユーザインタフェース10は、ユーザ入力
を受け付け、出力を提示する。出力を提示することに
は、結果をユーザに返すこと、ランク(順位)付けされ
た結果を保存すること、ランク付けされた結果をさらに
に処理することを含むが、それらに限定されるものでは
ないと理解すべきである。照会(クエリ)プロセッサ1
1が、ユーザ入力からデータベース照会を生ずる。デー
タベース12が、各結果についての知識を保存する。評
点モジュール13が、各結果を表示のためにユーザイン
タフェース10へ送る前に各結果を処理する。それらの
構成要素に加えて、ほとんどのウェブ探索エンジンは、
その探索エンジンのデータベース12を取り入れて維持
するために用いられるクロウラー(crawler)14を有す
る。
【0013】ユーザインタフェース10は、どのような
タイプの情報をユーザが提供できるかを規定する。その
ような入力タイプの範囲は、キーボード照会からリスト
からのオプション(選択肢)の選択まで、あるいはユー
ザ動作のトラッキングまでさえである。入力インタフェ
ースの目標は、使用されているユーザ情報の記述をでき
る限り明確に得ることである。
【0014】ユーザインタフェース10は、結果のユー
ザへの提供も行う。
【0015】照会プロセッサ11は、ユーザ入力を、探
索エンジンが使用するためのデータベース照会(データ
ベース照会の集合)に変換する。ユーザは、通常、明示
的なデータベース照会を入力しない。いくつかの照会プ
ロセッサは、ユーザにより入力された照会語とは異なる
データベース照会を発生する能力を有する。例えば、同
じ語(たとえば、複数)の変形(バリアント)を同じ語
として取り扱うためにステミング(stemming)を使用でき
る。ある探索エンジンは、ユーザの照会を概念的に解釈
し、「車」および「自動車」などの、類似の概念の語を
潜在的に有用なものとして識別する。より進んだシステ
ムでは、自然語による照会が可能である。
【0016】データベース12は、ウェブにおけるドキ
ュメントについての集合的な、ローカルな知識である。
ウェブ探索エンジンデータベースは、探索しているユー
ザへどの(ローカルな)ドキュメントを返すことができ
るかを判定する。
【0017】評点モジュール13は、ドキュメントにど
のように評点するかを決定し、最終的にドキュメントを
どのようにランク付けするかを決定する。順序付けのポ
リシーは、結果をランク付けを生成するために探索エン
ジンにより使用される方法に依存する。
【0018】古典的な情報検索(information retrieva
l)システムは、各照会用語を含んでいるデータベース中
のドキュメントの数に対する各ドキュメント中の照会用
語の頻度を基にした評点システムを使用している。従来
の情報検索システムを改変したいくつかのシステムは、
ドキュメント中の用語の場所などの因子を考慮してい
る。例えば、ドキュメントのタイトルまたは最初の部分
にある用語を、そのドキュメント中のどこか別の場所に
ある用語よりも重視してもよい。
【0019】最近、ウェブの構造がランク付けの因子と
して用いられるようになってきた。ウェブのページは相
互にリンクされているので、相互にリンクされてるペー
ジは関連する傾向にある。同様に、非常に頻繁にリンク
されているページは、より一般的である、あるいはより
権威がありそうである。
【0020】評点モジュール13は、各結果およびユー
ザ入力についての利用できる情報を基にして、スコアを
生成する。他の結果とは独立に結果を評点できる評点モ
ジュールは、結果を独立に評点する特性を持っている。
評点におけるテキスト以外の主要な因子は、リンクの構
造、ページの深さ(サイトのメインページからどれだけ
深いところにあるか)、ユーザが供給したメタデータ、
ページ構造情報(タイトル、見出し、フォントの色な
ど)と思われる。
【0021】ウェブクロウラー14は、探索エンジンが
データベース中に含めるべきウェブページを探すことが
できるようにするツールである。ほとんどの汎用探索エ
ンジンは、ウェブロボットとも呼ばれているクロウラー
を使用することにより、その探索エンジンのデータベー
スに取り込む。そのクロウラーは、ページをダウンロー
ドし、調べられた各ページからURLを取り出し、新し
いURLをそれのクロウルリスト(crawl list)に付加す
ることにより、ウェブ21を調べる。クロウラー14
は、どのページを調べるか、およびどのページを索引付
けするかについて決定しなければならない。索引付け
(インデクシング)というのは、ページを探索エンジン
のデータベースに付加するプロセスである。
【0022】最も簡単なクロウラーは、探索アルゴリズ
ムと考えることができる。単一のページp0、から始め
てそのページをダウンロードし、URL{p1,p2
…,pn}を取り出し、その後で新しいURLをダウン
ロードし、これを反復する。特定の順序付けは、幅優先
探索(breadth-first search)のように簡単なものとする
ことができ、またはおそらく最良優先探索(best-first
search)のある形態とすることができる。
【0023】クロウラーの基本的な目的は、データベー
スに組み込むためのウェブページを検索することであ
る。汎用探索エンジンに加えて、特定用途探索エンジン
がある。特定用途探索エンジンは、研究論文やニュース
などの特定の領域のみをカバーする探索エンジンであ
る。
【0024】クロウラーには、集中(focused)クロウラ
ーと汎用クロウラーとの2つの基本的な形式がある。集
中クロウラーは、特定のカテゴリのウェブページを見付
けるために要する資源を最小にしようとする。
【0025】図2は、メタ探索エンジンの構成を示して
いる。上述したようにメタ探索エンジンは、他の探索エ
ンジンを探索する探索エンジンである。メタ探索エンジ
ンは、ユーザ照会を取り込み、それらを多数の配下の探
索エンジンに送り込み、それらの結果を単一のインタフ
ェースに組合わせる。メタ探索エンジンは、単一の探索
エンジンと比較して、対象範囲を拡張するために主とし
て用いられる。
【0026】ウェブメタ探索エンジンのアーキテクチャ
は、通常のウェブ探索エンジンのアーキテクチャに類似
する。主な違いは、ウェブ探索エンジンのデータベース
が、ディスパッチャ(dispatcher;発行器)20と他の
ウェブ探索エンジン(ワールドワイドウェブ21、WW
W;World Wide Webに含まれている)と結果プロセッサ
22とを備えている仮想データベースにより置き換えら
れていることである。メタ探索エンジンのその他の構成
要素は、ユーザインタフェース23と評点モジュール2
5である。
【0027】メタ探索エンジンのユーザインタフェース
23は、どこを探索すべきかについての判定に関連する
付加的な特徴を有することもあるが、それを除けば、従
来の探索エンジンのユーザインタフェース10に類似す
る。メタ探索エンジンは、それが照会する探索エンジン
の性能により制約される。その結果、メタ探索エンジン
は、探索を完了するのに、単一の探索エンジンよりもは
るかに長い時間を要することがあり、それによりユーザ
インタフェースの設計問題に影響する。
【0028】メタ探索エンジンのディスパッチャ20
は、従来の探索エンジンの照会プロセッサに類似する。
照会プロセッサはユーザインタフェースからの入力に基
づいてデータベース照会を発生し、ディスパッチャ20
はユーザの入力から探索エンジン要求を発生する。ディ
スパッチャ20は、どの探索エンジンを照会し、かつそ
れらをどのようにして照会するかを決定しなければばな
らない。
【0029】図3は、ディスパッチャ20の構成を示し
ている。ディスパッチャ20は、照会すべき探索エンジ
ンを選択するソースセレクタ31と、各ソース(探索エ
ンジン)ごとに照会(クエリ)を適切に修正する照会発
生部32とを含んでいる。照会は、要求発生部33に供
給され、その後で、ワールドワイドウェブ21へ伝送す
るための要求送出部34に供給される。
【0030】ディスパッチャ20は、メタ探索エンジン
のために、最初の探索決定を行う。どの探索エンジンを
照会するかの決定と、各ソースをどのように照会するか
は、メタ探索エンジンの有用な結果を見付ける性能に直
接影響する。ディスパッチャ20は、メタ探索エンジン
が必要とする資源にも影響する。使用される探索エンジ
ンの数が増加すると、必要なネットワークの資源が増加
し、探索を完了するために必要な時間が長くなる。
【0031】図4は、結果プロセッサ22の構成を示し
ている。メタ探索エンジンの結果プロセッサ22は、通
常の探索エンジンにおけるデータベースの出力のように
動作する。結果プロセッサ22から評点モジュール25
に送られる結果は、データベースから返される結果に類
似する。結果プロセッサ22は、探索エンジンの応答を
受け付け、それらの応答から個々の結果を抽出する。
【0032】すなわち結果プロセッサ22は、ワールド
ワイドウェブ21からページ検索部41を介してページ
を検索し、結果抽出部42を介して結果を取り出す。
【0033】メタ探索エンジンの評点モジュール25
は、通常の探索エンジンの評点モジュールと同様に、各
結果に点をつけることにより、探索エンジンの順序付け
のポリシーを定める。メタ探索エンジンが結果を直接比
較できない場合には、結果のランク付けされたリストを
組合わせて単一の順序付けされたリストとするために、
融合ポリシー(fusion policy)が用いられる。メタ探索
エンジンは、各結果に対して限られた情報しか持たない
ことがある。失われた情報は、所与の情報ニーズに対し
て有用であるものとして結果を特定することを困難にす
るかもしれない。
【0034】メタ探索エンジンの目標は、ユーザにより
判定された最良の結果すなわち最良のドキュメントを返
すことである。しかし、メタ探索エンジンは、必ずしも
データベースを有しておらず、むしろ、他の探索エンジ
ンからの結果に依存する。メタ探索エンジンは、ディス
パッチャ20を通じて結果の集合をコントロールする。
返すことができる結果の集合は、ディスパッチャ20を
介して発生された探索エンジン要求に対する応答から決
定できる。メタ探索エンジンは、それが返すドキュメン
トのランク付けを選択できる。しかし、メタ探索エンジ
ンは、しばしば、各結果についての限られた情報でラン
ク付けの選択を行わなければならない。
【0035】要望に基づいた(preference-based)メタ探
索エンジンは、明示的なユーザ要望(preference)を用い
るメタ探索エンジンである。明示的な要望は、有用なド
キュメントを見付ける能力を向上し、かつ性能を向上す
るために用いられる。要望に基づいたメタ探索エンジン
において明示的なユーザ要望を利用するための3つのや
り方があるが、それは、メタ探索エンジンが有用なドキ
ュメントの場所を探す能力を向上すること、メタ探索エ
ンジンのドキュメントが有用であると識別する能力を向
上すること、および探索の待ち時間を短縮しかつ資源の
コストを低減することにより性能を向上することであ
る。
【0036】探索エンジンおよびメタ探索エンジンにつ
いて一般的に説明してきたが、本発明は、選択的検索メ
タ探索を行うことにより、従来のメタ探索エンジンを改
良するものである。
【0037】図5は、タイプAのメタ探索エンジンの処
理を示すフローチャートである。この処理は、探索照会
ステップ50と、随意(オプション)に設けられる照会
変換ステップ51と、探索エンジン結果を検索するステ
ップ52と、関連性評価ステップ53と、ドキュメント
ランク付けステップ54と、戻りステップすなわちプロ
セス結果を返すステップ55とからなっている。探索照
会ステップ50では、ユーザ入力から照会(クエリ)が
生成される。オプションの照会変換ステップ51では、
異なる探索エンジンに対して、異なるやり方で探索照会
を変換できる。ここで、単一の探索エンジンまたはデー
タベースに対して複数の変換された照会があってもよ
い。探索エンジンの結果を検索するステップ52では、
照会を探索エンジンまたはデータベースに送り、探索エ
ンジンまたはデータベースからのURLの形態、さらに
はドキュメントの簡単な要約あるいはドキュメントの日
付などの探索エンジンまたはデータベースから返された
オプションの要約情報の形態の、結果を検索する。多数
の照会を同じ探索エンジンに送って、例えば多数の結果
ページを要求することができ、または種々に異なって変
換された照会を用いることができる。関連性評価ステッ
プ53では、探索エンジンまたはデータベースにより返
された結果の関連性が定められる。ドキュメントランク
付けステップ54では、評価された関連性に基づいて、
結果にランク付けがなされる。戻りステップすなわちプ
ロセス結果を返すステップ55では、ランク付けされた
結果がユーザへ返される。
【0038】実際には、タイプAのメタ探索エンジン
は、ユーザが決定した探索照会10を1つまたは複数の
探索エンジンまたはデータベースへ送る。探索照会の結
果は、探索エンジンまたはデータベース52から検索さ
れる。関連性評価ステップ53では、検索された結果の
関連性が評価される。ドキュメントは、その関連性評価
にしたがって、ドキュメントランク付けステップ54に
おいてランク付けされる。ランク付けされた結果はユー
ザへ返される。
【0039】別の実施形態においては、上述したよう
に、照会が探索エンジンまたはデータベースへ送られ結
果が検索される前に、探索照会に対して照会変換ステッ
プ51が実行される。
【0040】次に図6を参照する。この図には、タイプ
Bのメタ探索エンジンでの処理の流れが示されている。
タイプBのメタ探索エンジンは、タイプAのメタ探索エ
ンジンにおける上述したステップの全て(ステップ5
0、51、52、53、54および55)を実行し、か
つ、ドキュメントの関連性を評価するステップ53を実
行する前に、探索エンジンにより返された(ステップ5
2)ドキュメントの現在の内容を検索するための、全て
の結果に関して現在のページを検索するステップ60を
さらに含む。ドキュメントの内容を検索することによ
り、関連性を一層正確に評価できることになる。
【0041】本発明に基づく選択的検索により、実行時
間と資源の使用とスループットとの少なくとも1つがタ
イプAのメタ探索エンジンに匹敵しつつ、タイプBのメ
タ探索エンジンに匹敵する正確さが得られる。
【0042】次に、例を挙げて、本発明に基づく選択的
検索メタ探索エンジンの動作について説明する。例え
ば、DVD(digital video disk)プレーヤについての製
品の評価記事(レビュー)を探しているユーザの場合を
考えることとし、かつ次の2つのドキュメント#1,#
2について考える。
【0043】ドキュメント#1:タイトル:資料たくさ
んのボブのサイト(Bobs site of lots of stuff),探索
エンジンによる要約:ボブはあなたがいつも知りたがっ
ているものを全て提供する,URL:http//www.bobstuff.c
om/DVD_PLAYERS.html.
【0044】ドキュメント#2:タイトル:GreatRevie
ws.comがDVDプレーヤをレビューする,探索エンジン
による要約:2000のDVDプレーヤのうちの最も売
れている5機種がレビューされ、編集者の選択(editor
picks)が与えられる,URL:http//www.greatreviews.com
/dvd_players_review.html。
【0045】この例では、ドキュメント#1がDVDプ
レーヤのレビューに関するものではないことが最もあり
そうであるが、実はドキュメント#1はDVDプレーヤ
のレビューに関するものかもしれない。ドキュメント#
1はDVDプレーヤのレビューのページである可能性が
あるが、探索エンジンによって与えられる要約からは、
そうであるかどうかを決めることができない。タイプA
のメタ探索エンジンは、このドキュメントを低くランク
付けし、あるいは、ドキュメントの内容または種類とは
無関係に、元の探索エンジンでのランク付けに基づくラ
ンクを使用する。タイプBのメタ探索エンジンは、ドキ
ュメントの内容を検索し、そのドキュメントがレビュー
ページか否かを見出すことができ、適切にドキュメント
をランク付けする。この実施の形態の選択的検索メタ探
索エンジンは、タイプAのメタ探索エンジンでの処理手
順をまず実行し、ドキュメント#1がDVDプレーヤの
レビューであるかどうかが分からなかったと判定して、
その後で、タイプBのメタ探索エンジンのようにそのド
キュメントそれ自体を検索する。
【0046】ドキュメント#2については、十分な情報
を利用できるので、タイプAのメタ探索エンジンは、ド
キュメントの内容を検索せず、それを適切にランク付け
する。タイプBのメタ探索エンジンは、ドキュメントの
内容を検索してそれを適切にランク付けする。この実施
の形態の選択的検索メタ探索エンジンは、一般的に、ド
キュメントの内容を検索しないでそのドキュメントを適
切にランク付けする。したがって、この選択的検索メタ
探索エンジンは、2つのドキュメントのうちの1つをダ
ウンロードするのみで、両方のドキュメントをダウンロ
ードする必要があるタイプBのメタ探索エンジンに匹敵
する正確さを提供し、タイプAのメタ探索エンジンより
はるかに高い正確さを示す。
【0047】第2の例として、航空会社のストライキ
(同盟罷業)についての現在の事態を知りたがっている
ユーザについて考えることにする。メタ探索エンジンは
1つまたは複数のニュースサイトを探索するが、そのニ
ュースサイトはおそらく汎用の探索エンジンであろう。
たとえば、CNNおよびAltaVistaを探索する
ことができる。次のドキュメントについて考えることに
する。
【0048】ドキュメント#1:CNNから:タイト
ル:“NNNN航空のストライキについてのニュー
ス”,URL:http//cnn.com/stories/nwa_str.html,日
付:不明.
【0049】ドキュメント#2:AltaVistaか
ら:タイトル:“NNNN航空のストライキ−ブレーキ
ング・ニュース(breaking news)”,URL:http//www.cn
n.com/news/03-21-01/nwest.html.
【0050】ドキュメント#3:CNNから:タイト
ル:“NNNNのストライキについての最新のニュー
ス”,URL:http//cnn.com/stories/asba.html,日付:
2001年3月21日.
【0051】ドキュメント#4:AltaVistaか
ら:タイトル:“NNNN航空のホームページ”,URL:
http//www.nwa.com/,日付:不明。
【0052】タイプAのメタ探索エンジンは、どのドキ
ュメントの内容も検索せず、したがって、ドキュメント
#1または#4の関連性を正確に判定できないであろ
う。その理由は、与えられたタイトルおよび要約から
は、それらのドキュメントが時事問題として関連してい
るか否か、およびそのドキュメントがニュースの記事か
否かが不明確だからである。ドキュメント#1と#4の
日付は不明である。例えばユーザはより最近のニュース
記事を強く好むことがあるので、日付は、関連性計算に
おける重要な部分であることがある。タイプBのメタ探
索エンジンは、ドキュメントの内容の全てを検索する
が、これは、実行時間および資源の使用の面で、費用が
非常にかかる。また、ニュースサイトは、矢継ぎ早に多
くのドキュメントが検索されることを好まないことがあ
る。逆にそれらのサイトは、メタ探索エンジンをブロッ
クすることがある。この実施の形態の選択的検索メタ探
索エンジンは、たぶん、ドキュメント#2と#3の内容
を検索しないが、関連性がドキュメントの日付の関数で
あると仮定してドキュメントの関連性を予測するには不
十分な情報しかないので、ドキュメント#1と#4の内
容を検索する。しかし、ドキュメント#1に日付が備わ
っているとすると、十分な情報が存在することになる。
関連性を正確に評価するために十分な情報が提供されて
いるので、ドキュメント#3の内容は検索されない。ド
キュメント#2は、URL中に日付を有する。それはそ
のドキュメントの内容を検索しないという選択のために
は十分であろう。
【0053】選択的検索メタ探索エンジンを実現するた
めに、2段予測システムを使用できる。タイプAのメタ
探索エンジンは、探索エンジンにより提供された要約情
報(URL、タイトル、ドキュメント要約、および探索
エンジンによるランク)の関数に基づいて、ドキュメン
トの関連性を予測する。要約情報のなかには使用できな
いものもある。
【0054】R1=f1(要約情報)、ここでR1は予測さ
れた関連性である。
【0055】タイプBのメタ探索エンジンは、全てのド
キュメントの現在の内容を検索し、ドキュメントの現在
の内容と探索エンジンにより提供された要約情報との関
数に基づいて、そのドキュメントの関連性を計算する。
なお、要約情報のいくつかまたはは全てが使用されない
こともある。
【0056】R2=f2(要約情報およびドキュメント内
容)
【0057】2段選択的検索メタ探索エンジンは、3つ
の評価関数を有する。探索エンジンにより返された各ド
キュメントについて、下記のものが計算される。
【0058】R1=f1(要約情報)、ここにR1は予測さ
れた関連性である。 C3=f3(要約情報)、ここにC3はR1の評価における予
測された信頼度である。
【0059】予測された信頼度C3は、R1の予測された
関連性がどれほど正確であるかの評価を与える。選択的
検索メタ探索エンジンは、C3を用いて各ドキュメント
についてどのように処理するかを決定する。
【0060】C3>x(xはしきい値)であると、選択
的検索メタ探索エンジンは、R1が正確であると仮定し
てさらに処理するためにR1を使用し、C3>xでなけれ
ば、ドキュメントの現在の内容が検索され、探索エンジ
ンは次のものを計算する。
【0061】R2=f2(要約情報およびドキュメント内
容)
【0062】誤って肯定的であると判断する割合(false
positive rate)と検索の回数との間のバランスをとる
ために、しきい値xを調整できる。
【0063】別の実施の形態では、追加の段を設けても
よい。一例が、関連性計算の一部としてリンク統計を使
用するメタ探索エンジンである。メタ探索エンジンは、
リンク統計を得るために、外部ソースを照会しなければ
ならない。3段選択的検索メタ探索エンジンは、次のよ
うに動作することができる。探索エンジンにより返され
た各ドキュメントについて、上述と同様に下記のものが
計算される。
【0064】R1=f1(要約情報)、ここにR1は予測さ
れた関連性である。 C3=f3(要約情報)、ここにC3はR1の評価における予
測された信頼度である。
【0065】値C3は、R1の予測がどれほど正確である
かの評価を与える。選択的検索メタ探索エンジンは、C
3を用いて、各ドキュメントについてどのように処理す
るかを決定する。
【0066】C3>x1(x1はしきい値)であると、選
択的検索メタ探索エンジンは、R1が正確であると仮定
してさらに処理するためにR1を使用し、C3>x1でな
ければ、そのドキュメントについてのリンク統計が外部
ソースから求められ、下記のものが計算される。
【0067】R4=f4(要約情報およびリンク統計)、こ
こにR4は予測された関連性である。 C5=f5(要約情報およびリンク統計)、ここにC5はR4
の評価における予測された信頼度である。
【0068】C5>x2(x2はしきい値)であると、選
択的検索メタ探索エンジンはR4が正確であると仮定し
てさらに処理するためにR4を使用し、C5>x2でなけ
ればドキュメントの現在の内容が検索され、探索エンジ
ンは次のものを計算する。
【0069】R6=f6(要約情報およびリンク統計およ
びドキュメント内容)
【0070】リンク統計および十分なドキュメント詳細
(種々のURLにより異なることがある)を検索する費
用と効果とに依存して、後の2つの段の順序を逆にする
こともできる。
【0071】図7は、選択的検索メタ探索エンジンの好
適な実施形態での処理の流れが示されている。この選択
的検索メタ探索エンジンの処理は、タイプAのメタ探索
エンジン(図5)の処理におけるステップ50、51、
52、53、54および55を備えており、このうちス
テップ51は、使用するか否かが随意(オプション)で
ある。さらにこの選択的検索メタ探索エンジンの処理
は、さらに、関連性を評価するステップ53の後に、関
連性評価の信頼度を計算するための関連性評価信頼度計
算ステップ70を備えている。
【0072】なお、本発明の別の実施形態では、ステッ
プ53とステップ70とを組合わせることができる。例
えば、ニューラルネットワークまたはサポートベクトル
マシン(support vector machine)などのマシン学習法に
よって、関連性評価とそれの信頼度とを同時に計算でき
る。さらに情報を得るためにドキュメントを選択するス
テップ71では、計算された信頼度があるしきい値より
低い時に、付加情報を得るためにドキュメントを選択す
る。選択されたドキュメントについて一層の情報を得る
ステップ72では、一層の情報を得るべきドキュメント
についての付加情報を得る。これには、例えば、ドキュ
メントの現在の内容を検索すること、またはリンク統計
などの統計を要求することが含まれてもよい。選択され
たドキュメントについての関連性を更新するステップ7
3では、ステップ72により得られた付加情報のいくつ
かまたは全てを用いて、選択されたドキュメントについ
ての関連性評価が更新される。選択的検索メタ探索エン
ジンは、ステップ70、71、72および73を随意選
択(オプション)により1回または複数回繰り返すこと
ができる。なお、ステップのあるものは、並列に実行す
ることができる。例えば、ステップ52における処理す
なわち照会を送って探索エンジンからの結果を検索する
処理が依然として行われている間に、ステップ53の処
理すなわち1つまたは複数の結果の関連性を評価する処
理を行うことができる。
【0073】図8は、選択的検索メタ探索エンジンの好
適な実施形態の概略ブロック図である。この選択的検索
メタ探索エンジンにおける符号20、21、23および
25で表わされる構成要素は、図2に示されているそれ
らの構成要素と同じであり、符号42で示される構成要
素は図4に示されているその構成要素と同じである。し
かし、図8に示した選択的検索メタ探索エンジンでは、
結果抽出部42の出力は、関連性評価の信頼度を計算す
る信頼度および関連性計算部80に供給される。計算さ
れた信頼度が所定のしきい値に等しいかそれより大きい
場合には、結果が評点モジュール25へ供給される。所
定のしきい値より低い信頼度を有するドキュメントの内
容は、ドキュメント検索部81により検索され、その後
で、関連性計算部82に供給される。関連性計算部82
において、検索されたドキュメントの関連性が、新たに
検索されたドキュメント内容からの付加情報に基づい
て、再び計算される。結果は評点モジュール25に供給
される。
【0074】図8は2段選択的検索メタ探索エンジンを
表わしている。あるいは、関連性計算部82からの再計
算された関連性評価を第2の信頼度および関連性計算部
(不図示)に供給し、その再計算された関連性の信頼度
を計算するようにし、信頼度が第2の所定のしきい値よ
り低い場合には、計算された信頼度および追加情報の検
索に基づいてこのプロセスが繰り返されるようにしても
よい。
【0075】ドキュメントの関連性の予測や評価はいく
つかのやり方で行うことができる。例えば、TFIDF
などの類似性測定値、またはニューラルネットワークや
サポートベクトルマシンなどのマシン学習法を使用でき
る。
【0076】関連性予測の信頼度の計算は、いくつかの
やり方で行うことができる。例えば、探索エンジンによ
り戻される情報の量と種類、TFIDFなどの類似性測
定値、またはニューラルネットワークやサポートベクト
ルマシンなどのマシン学習法を使用できる。ドキュメン
トを分類するために分類器が使用される場合には、ドキ
ュメントの予測されたクラスと、分類の正確さと、他の
情報との少なくとも1つを信頼度の計算に使用できる。
【0077】本発明のさらに別の実施形態においては、
しきい値を、例えば、システム負荷またはユーザの選択
に基づいて動的に変更できる。例えばメタ探索エンジン
が高負荷の下にあるときには、しきい値を小さくするこ
とにより、ドキュメントおよびさらなる情報の検索回数
を減少でき、それによりメタ探索エンジンが所与の時間
内に処理できる照会の数を増加させる。同様にユーザ
は、2以上の異なるしきい値のいずれかを選択すること
を望むことができる。より低いしきい値によって、結果
の質がおそらくより低下するという犠牲を払って、メタ
探索エンジンに照会を一層速く処理させることができ
る。ユーザは、実行時間と結果の質との間のトレードオ
フの関係において、いずれをどの程度優先するかを選択
することができる。さらに、しきい値は関連性予測に基
づいていてもよい。例えば、予測された関連性が非常に
低い場合には、より高いしきい値を使用することが好ま
しいであろう。さらにまた、しきい値は、現在の結果に
基づいて、ある照会を行っている間に変更できる。また
別の代替実施形態では、付加情報を得るという判定の影
響を次のドキュメントに及ぼすために、既に処理された
ドキュメントについての関連性予測の回数、大きさまた
は分布を使用できる。すなわち、しきい値を以前のドキ
ュメントについての関連性予測の関数とすることができ
る。例えば、質が高い多数のドキュメントが既に見出さ
れている場合には、実行時間を一層短縮するためにしき
い値を小さくすることが望ましいことがある。
【0078】本発明に基づく選択的検索メタ探索エンジ
ンの利点の1つは、全体の処理時間をタイプBのメタ探
索エンジンのそれよりも大幅に短縮できることである。
探索システムが動的インタフェースを含んでいるときに
は、各ドキュメントの処理が終了するやいなやそのドキ
ュメントをただちに表示できる。その全ての付加情報を
得ることが必要ではないドキュメントについては、タイ
プBのメタ探索エンジンよりも早くそれをユーザに示す
ことができ、結果をユーザに提示できる速さを一層改善
することができる。本発明の代替実施形態では、最初の
関連性評価に基づいて動的インタフェースによって結果
をただちに提示でき、かつ付加情報が得られたドキュメ
ントの関連性とランク付けを動的に更新できる。このよ
うにして、探索エンジンまたはデータベースにより返さ
れる全てのドキュメントを、探索エンジンまたはデータ
ベースから返された時にただちに提示できる。選択され
たドキュメントについての付加情報が検索されるにつれ
て、それらのドキュメントの関連性とランク付けを動的
に更新できる。この実施形態は、タイプAのメタ探索エ
ンジンにおける最初の結果を表示する速さと匹敵し、し
かも選択されたドキュメントについて付加情報が得られ
るにつれて結果を非常に迅速に改善する。
【0079】本発明のさらに別の代替実施形態では、選
択されたドキュメントについての付加情報の検索は、特
定の停止条件に到達するまで、例えばユーザがそれ以上
の処理をキャンセルするまで、あるいは最長限度時間に
達するまで、続行できる。選択されたドキュメントにつ
いての付加情報の検索は、各ドキュメントについての予
測された関連性および信頼度にしたがって順序付けでき
る。例えば、関連性評価における信頼度が低いドキュメ
ントに対する付加情報は、関連性評価における信頼度が
より高いドキュメントに対する付加情報を要求する前
に、要求することができる。関連性評価における信頼度
がより低い場合には、付加情報を要求することにより大
きな改善が達成されることがある。したがって、全体と
しての探索結果における改善は、時期的には、探索の早
期の段階でより大きいだろう。
【0080】探索システムはユーザから探索照会を受け
付けるのが一般的であるが、本発明の代替実施形態で
は、ハードコード化(hard-coded)された照会、すなわち
プログラムコード中に直接挿入された照会を受け付ける
ようにすることができ、または、たとえば、ユーザの現
在の活動の文脈(コンテキスト)に基づいて、探索照会
を自動的に発生するようにすることもできる。
【0081】探索システムは、通常、ランク付けされた
結果をユーザに返すが、本発明の代替実施形態では結果
をさらに処理することができ、かつそれらの結果をユー
ザへ返す以外の何か別の目的のために使用できる。例え
ば、さらなる処理において、ユーザが今までに見なかっ
たドキュメントを特定でき、それらのドキュメントを後
でのアクセスのために保存することができる。別の例と
して、照会をバッチモードで処理でき、ユーザへ返す代
わりにウェブページを発生するために結果を使用するこ
とができる。
【0082】選択的検索メタ探索エンジンのいくつかの
実施形態について説明し、示したが、本発明の要旨およ
び広範な教示から逸脱することなく改変が可能であるこ
とが当業者には明らかであろう。本発明はここに添付さ
れている特許請求の範囲によってのみ限定されるべきで
ある。
【0083】
【発明の効果】以上説明したように本発明は、メタ検索
エンジンにおいて選択的検索を行うことにより、実行時
間、資源の使用、スループット、または結果の品質の面
で性能が改善されるという効果がある。
【図面の簡単な説明】
【図1】ウェブ探索エンジンの構成を示す概略ブロック
図である。
【図2】ウェブメタ探索エンジンの構成を示す概略ブロ
ック図である。
【図3】ディスパッチャの構成を示す概略ブロック図で
ある。
【図4】結果プロセッサの構成を示す概略ブロック図で
ある。
【図5】先行技術におけるタイプAのメタ探索エンジン
での処理を示すフローチャートである。
【図6】先行技術におけるタイプBのメタ探索エンジン
での処理を示すフローチャートである。
【図7】好ましい実施形態の選択的検索メタ探索エンジ
ンでの処理を示すフローチャートである。
【図8】別の好ましい実施形態の選択的検索メタ探索エ
ンジンの構成を示す概略ブロック図である。
【符号の説明】
10,23 ユーザインタフェース 11 照会プロセッサ 12 データベース 13,25 評点モジュール 14 クロウラー 20 ディスパッチャ 21 ワールドワイドウェブ 22 結果プロセッサ 31 ソースセレクタ 32 照会発生部 33 要求発生部 34 要求送出部 41 ページ検索部 42 結果抽出部 50〜55,60,70〜73 ステップ 80 信頼度および関連性計算部 81 ドキュメント検索部 82 関連性計算部
フロントページの続き (72)発明者 エリック グローバー アメリカ合衆国、 ニュージャージー 08540、 プリンストン、 インディペン デンス ウェイ 4 エヌ・イー・シー・ リサーチ・インスティテューテュ・インク 内 (72)発明者 ステファン ロバート ローレンス アメリカ合衆国、 ニュージャージー 08540、 プリンストン、 インディペン デンス ウェイ 4 エヌ・イー・シー・ リサーチ・インスティテューテュ・インク 内 Fターム(参考) 5B075 KK02 PQ02 PQ32 PQ36 QM05

Claims (55)

    【特許請求の範囲】
  1. 【請求項1】 探索照会を受け付ける手段と、 前記探索照会を少なくとも1つの探索エンジンへ送り、
    前記少なくとも1つの探索エンジンからの、前記探索照
    会の結果を検索する手段と、 検索された各結果の関連性を評価する手段と、 検索された各結果についての前記関連性評価の信頼度を
    計算する手段と、 前記関連性評価についての前記計算された信頼度を用い
    て結果を選択する手段と、 前記選択された結果についての付加情報を得る手段と、 選択された各結果について得られた前記付加情報に基づ
    いて前記関連性評価を更新する手段と、 選択された各結果の前記関連性評価に基づいて、前記検
    索された結果をランク付けする手段と、 前記ランク付けられた結果を返す手段と、 を有する選択的検索メタ探索エンジン。
  2. 【請求項2】 前記探索照会を少なくとも1つの探索エ
    ンジンへ送る前に前記探索照会を変換する手段をさらに
    有する、請求項1に記載の選択的検索メタ探索エンジ
    ン。
  3. 【請求項3】 前記探索照会は少なくとも1つのキーワ
    ードを有する、請求項1に記載の選択的検索メタ探索エ
    ンジン。
  4. 【請求項4】 前記探索照会は付加情報を有する、請求
    項1に記載の選択的検索メタ探索エンジン。
  5. 【請求項5】 前記探索照会は少なくとも1つのキーワ
    ードと付加情報とを有する、請求項1に記載の選択的検
    索メタ探索エンジン。
  6. 【請求項6】 前記付加情報を得る手段は、前記選択さ
    れた結果の現在の内容を検索する、請求項1に記載の選
    択的検索メタ探索エンジン。
  7. 【請求項7】 前記付加情報を得る手段は、リンク統計
    と、語統計と、他ドキュメント統計とから構成されてい
    る群から選択された情報を得る、請求項1に記載の選択
    的検索メタ探索エンジン。
  8. 【請求項8】 前記関連性を評価する手段は類似性測定
    手段を含んでいる、請求項1に記載の選択的検索メタ探
    索エンジン。
  9. 【請求項9】 前記関連性を評価する手段はマシン学習
    手段を含んでいる、請求項1に記載の選択的検索メタ探
    索エンジン。
  10. 【請求項10】 前記関連性を評価する手段はニュ−ラ
    ルネットワークを含んでいる、請求項1に記載の選択的
    検索メタ探索エンジン。
  11. 【請求項11】 前記関連性を評価する手段はサポート
    ベクトルマシンを含んでいる、請求項1に記載の選択的
    検索メタ探索エンジン。
  12. 【請求項12】 前記信頼度を計算する手段は、少なく
    とも1つの探索エンジンにより提供された情報を用い
    る、請求項1に記載の選択的検索メタ探索エンジン。
  13. 【請求項13】 前記信頼度を計算する手段は類似性測
    定値を用いる、請求項1に記載の選択的検索メタ探索エ
    ンジン。
  14. 【請求項14】 前記信頼度を計算する手段はマシン学
    習手段を用いる、請求項1に記載の選択的検索メタ探索
    エンジン。
  15. 【請求項15】 前記信頼度を計算する手段はニュ−ラ
    ルネットワークを用いる、請求項14に記載の選択的検
    索メタ探索エンジン。
  16. 【請求項16】 前記信頼度を計算する手段はサポート
    ベクトルマシンを用いる、請求項14に記載の選択的検
    索メタ探索エンジン。
  17. 【請求項17】 前記信頼度を計算する手段は、結果を
    分類することの確度を見積もる、請求項1に記載の選択
    的検索メタ探索エンジン。
  18. 【請求項18】 前記結果を選択する手段は、信頼度を
    しきい値と比較する手段を含んでいる、請求項1に記載
    の選択的検索メタ探索エンジン。
  19. 【請求項19】 前記結果を選択する手段は、さらに、
    システム負荷に基づいて前記しきい値を動的に変更す
    る、請求項18に記載の選択的検索メタ探索エンジン。
  20. 【請求項20】 前記結果を選択する手段は、さらに、
    ユーザの選択に基づいて前記しきい値を動的に変更す
    る、請求項18に記載の選択的検索メタ探索エンジン。
  21. 【請求項21】 前記しきい値は前記評価された関連性
    に基づいている、請求項18に記載の選択的検索メタ探
    索エンジン。
  22. 【請求項22】 前記しきい値は、既に評価されている
    結果についての関連性評価に基づいている、請求項18
    に記載の選択的検索メタ探索エンジン。
  23. 【請求項23】 前記結果を返す手段は最初の関連性評
    価に基づいて最初の結果を提示し、前記選択された結果
    についての付加情報が得られるにつれてドキュメントの
    前記関連性とランクが更新される、請求項1に記載の選
    択的検索メタ探索エンジン。
  24. 【請求項24】 前記付加情報を得る手段は、前記メタ
    探索エンジンの全体の結果を改善すると最も期待される
    結果から付加情報を得る、請求項23に記載の選択的検
    索メタ探索エンジン。
  25. 【請求項25】 前記結果を返す手段は、前記ランク付
    けされた結果をユーザへ返す、請求項1に記載の選択的
    検索メタ探索エンジン。
  26. 【請求項26】 前記結果を返す手段は、前記ランク付
    けされた結果を保存する、請求項1に記載の選択的検索
    メタ探索エンジン。
  27. 【請求項27】 前記結果を返す手段は、前記ランク付
    けされた結果をさらに処理する、請求項1に記載の選択
    的検索メタ探索エンジン。
  28. 【請求項28】 探索照会を受け付けるステップと、前
    記探索照会を少なくとも1つの探索エンジンへ送り、前
    記少なくとも1つの探索エンジンからの、前記探索照会
    の結果を検索するステップと、 検索された各結果の関連性を評価するステップと、 検索された各結果についての前記関連性評価の信頼度を
    計算するステップと、 前記関連性評価についての前記計算された信頼度を用い
    て結果を選択するステップと、 前記選択された結果についての付加情報を得るステップ
    と、 選択された各結果について得られた前記付加情報に基づ
    いて前記関連性評価を更新するステップと、 選択された各結果の前記関連性評価に基づいて、前記検
    索された結果をランク付けするステップと、 前記ランク付けされた結果を返すステップと、 を備える選択的検索メタ検索を行う方法。
  29. 【請求項29】 前記探索照会を少なくとも1つの探索
    エンジンへ送る前に前記探索照会を変換するステップを
    さらに有する、請求項28に記載の選択的検索メタ探索
    を行う方法。
  30. 【請求項30】 前記探索照会は少なくとも1つのキー
    ワードを有する、請求項28に記載の選択的検索メタ探
    索を行う方法。
  31. 【請求項31】 前記探索照会は付加情報を有する、請
    求項28に記載の選択的検索メタ探索を行う方法。
  32. 【請求項32】 前記探索照会は少なくとも1つのキー
    ボードと付加情報とを有する、請求項28に記載の選択
    的検索メタ探索を行う方法。
  33. 【請求項33】 前記付加情報を得るステップは、前記
    選択された結果の現在の内容を検索するステップを含ん
    でいる、請求項28に記載の選択的検索メタ探索を行う
    方法。
  34. 【請求項34】 前記付加情報を得るステップは、リン
    ク統計と、語統計と、他ドキュメント統計とから構成さ
    れている群から選択された情報を得るステップを含んで
    いる、請求項28に記載の選択的検索メタ探索を行う方
    法。
  35. 【請求項35】 前記関連性を評価するステップは、類
    似性測定値を使用するステップを含んでいる、請求項2
    8に記載の選択的検索メタ探索を行う方法。
  36. 【請求項36】 前記関連性を評価するステップは、マ
    シン学習を使用するステップを含んでいる、請求項28
    に記載の選択的検索メタ探索を行う方法。
  37. 【請求項37】 前記関連性を評価するステップは、ニ
    ュ−ラルネットワークを用いるステップを含んでいる、
    請求項28に記載の選択的検索メタ探索を行う方法。
  38. 【請求項38】 前記関連性を評価するステップは、サ
    ポートベクトルマシンを用いるステップを含んでいる、
    請求項28に記載の選択的検索メタ探索を行う方法。
  39. 【請求項39】 前記信頼度を計算するステップは、少
    なくとも1つの探索エンジンにより提供された情報を用
    いるステップを含んでいる、請求項28に記載の選択的
    検索メタ探索を行う方法。
  40. 【請求項40】 前記信頼度を計算するステップは、類
    似性測定値より得られた情報を用いるステップを含んで
    いる、請求項28に記載の選択的検索メタ探索を行う方
    法。
  41. 【請求項41】 前記信頼度を計算するステップは、マ
    シン学習手段を用いるステップを含んでいる、請求項2
    8に記載の選択的検索メタ探索を行う方法。
  42. 【請求項42】 前記信頼度を計算するステップは、ニ
    ュ−ラルネットワークを用いるステップを含んでいる、
    請求項41に記載の選択的検索メタ探索を行う方法。
  43. 【請求項43】 前記信頼度を計算するステップは、サ
    ポートベクトルマシンを用いるステップを含んでいる、
    請求項41に記載の選択的検索メタ探索を行う方法。
  44. 【請求項44】 前記信頼度を計算するステップは、結
    果を分類することの確度を見積もるステップを含んでい
    る、請求項28に記載の選択的検索メタ探索を行う方
    法。
  45. 【請求項45】 前記結果を選択するステップは、信頼
    度をしきい値と比較するステップを含んでいる、請求項
    28に記載の選択的検索メタ探索を行う方法。
  46. 【請求項46】 前記結果を選択するステップは、シス
    テム負荷に基づいて前記しきい値を動的に変更するステ
    ップをさらに有する、請求項43に記載の選択的検索メ
    タ探索を行う方法。
  47. 【請求項47】 前記結果を選択するステップは、ユー
    ザの選択に基づいて前記しきい値を動的に変更するステ
    ップをさらに有する、請求項43に記載の選択的検索メ
    タ探索を行う方法。
  48. 【請求項48】 前記しきい値は、前記評価された関連
    性に基づいている、請求項43に記載の選択的検索メタ
    探索を行う方法。
  49. 【請求項49】 前記しきい値は、既に評価されている
    結果についての関連性評価に基づいている、請求項43
    に記載の選択的検索メタ探索を行う方法。
  50. 【請求項50】 前記結果を返すステップは最初の関連
    性評価に基づいて最初の結果を提示するステップを有
    し、前記選択された結果についての付加情報が得られる
    につれてドキュメントの前記関連性とランクが更新され
    る、請求項28に記載の選択的検索メタ探索を行う方
    法。
  51. 【請求項51】 前記付加情報を得る前記ステップは、
    前記メタ探索エンジンの全体の結果を改善すると最も期
    待される結果から付加情報を得るステップを有する、請
    求項50に記載の選択的検索メタ探索を行う方法。
  52. 【請求項52】 前記結果を返すステップは、前記ラン
    ク付けされた結果を保存するステップを有する、請求項
    28に記載の選択的検索メタ探索を行う方法。
  53. 【請求項53】 前記結果を返すステップは、前記ラン
    ク付けされた結果をさらに処理するステップを有する、
    請求項28に記載の選択的検索メタ探索を行う方法。
  54. 【請求項54】 前記結果を返すステップは、前記ラン
    ク付けされた結果をユーザへ返すステップを有する、請
    求項28に記載の選択的検索メタ探索を行う方法。
  55. 【請求項55】 前記信頼度を計算するステップと、前
    記結果を選択するステップと、前記付加情報を得るステ
    ップと、前記関連性評価を更新するステップとを複数回
    繰り返す、請求項28に記載の選択的検索メタ探索を行
    う方法。
JP2002068461A 2001-05-07 2002-03-13 選択的検索メタ探索エンジンおよび選択的検索を行う方法 Pending JP2002366549A (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US28922301P 2001-05-07 2001-05-07
US60/289,223 2001-06-29
US09/896,338 US20020165860A1 (en) 2001-05-07 2001-06-29 Selective retrieval metasearch engine
US09/896,338 2001-06-29

Publications (1)

Publication Number Publication Date
JP2002366549A true JP2002366549A (ja) 2002-12-20

Family

ID=26965523

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002068461A Pending JP2002366549A (ja) 2001-05-07 2002-03-13 選択的検索メタ探索エンジンおよび選択的検索を行う方法

Country Status (2)

Country Link
US (1) US20020165860A1 (ja)
JP (1) JP2002366549A (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006139763A (ja) * 2004-11-11 2006-06-01 Microsoft Corp テキストマイニングおよび検索のためのアプリケーションプログラミングインターフェース
JP2011516989A (ja) * 2008-04-11 2011-05-26 マイクロソフト コーポレーション 編集距離および文書情報を使用する検索結果順位付け
WO2011133716A3 (en) * 2010-04-21 2012-01-26 Yahoo! Inc. Selectively adding social dimension to web searches
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001245827A1 (en) * 2000-03-17 2001-10-03 America Online, Inc. Home-networking
US7165024B2 (en) * 2002-02-22 2007-01-16 Nec Laboratories America, Inc. Inferring hierarchical descriptions of a set of documents
CN100392644C (zh) * 2002-05-28 2008-06-04 弗拉迪米尔·叶夫根尼耶维奇·涅博利辛 综合从搜索系统中使用的文档中抽取知识的自学习系统的方法
US7383339B1 (en) 2002-07-31 2008-06-03 Aol Llc, A Delaware Limited Liability Company Local proxy server for establishing device controls
US20040143644A1 (en) * 2003-01-21 2004-07-22 Nec Laboratories America, Inc. Meta-search engine architecture
US7403939B1 (en) 2003-05-30 2008-07-22 Aol Llc Resolving queries based on automatic determination of requestor geographic location
US7401072B2 (en) 2003-06-10 2008-07-15 Google Inc. Named URL entry
US7617203B2 (en) * 2003-08-01 2009-11-10 Yahoo! Inc Listings optimization using a plurality of data sources
US7562069B1 (en) * 2004-07-01 2009-07-14 Aol Llc Query disambiguation
US7349896B2 (en) * 2004-12-29 2008-03-25 Aol Llc Query routing
US7272597B2 (en) * 2004-12-29 2007-09-18 Aol Llc Domain expert search
US7818314B2 (en) * 2004-12-29 2010-10-19 Aol Inc. Search fusion
WO2006071928A2 (en) * 2004-12-29 2006-07-06 Aol Llc Routing queries to information sources and sorting and filtering query results
US7571157B2 (en) * 2004-12-29 2009-08-04 Aol Llc Filtering search results
US8719265B1 (en) 2005-11-07 2014-05-06 Google Inc. Pre-fetching information in anticipation of a user request
US20080222107A1 (en) * 2006-07-21 2008-09-11 Maluf David A Method for Multiplexing Search Result Transmission in a Multi-Tier Architecture
US8086600B2 (en) 2006-12-07 2011-12-27 Google Inc. Interleaving search results
US20080183691A1 (en) * 2007-01-30 2008-07-31 International Business Machines Corporation Method for a networked knowledge based document retrieval and ranking utilizing extracted document metadata and content
US20100042610A1 (en) * 2008-08-15 2010-02-18 Microsoft Corporation Rank documents based on popularity of key metadata
US20100192054A1 (en) * 2009-01-29 2010-07-29 International Business Machines Corporation Sematically tagged background information presentation
US8862614B2 (en) * 2010-08-05 2014-10-14 Carnegie Mellon University Planning-based automated fusing of data from multiple heterogeneous sources
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9858343B2 (en) 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US10152538B2 (en) * 2013-05-06 2018-12-11 Dropbox, Inc. Suggested search based on a content item
EP3039581A4 (en) * 2013-08-29 2016-08-10 Yandex Europe Ag SYSTEM AND METHOD FOR DISPLAYING VERTICALLY RELEVANT VERTICAL RESEARCH RESULTS
US20150095303A1 (en) * 2013-09-27 2015-04-02 Futurewei Technologies, Inc. Knowledge Graph Generator Enabled by Diagonal Search
US10896186B2 (en) 2014-06-30 2021-01-19 Microsoft Technology Licensing, Llc Identifying preferable results pages from numerous results pages
EP3311303A1 (en) * 2015-06-17 2018-04-25 Tiscali S.p.A. A method to rank documents by a computer, using additive ensembles of regression trees and cache optimisation, and search engine using such a method
US11226999B2 (en) * 2017-10-06 2022-01-18 Elsevier, Inc. Systems and methods for providing recommendations for academic and research entities
US11823038B2 (en) 2018-06-22 2023-11-21 International Business Machines Corporation Managing datasets of a cognitive storage system with a spiking neural network

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11191114A (ja) * 1997-10-10 1999-07-13 Nec Corp メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654735B1 (en) * 1999-01-08 2003-11-25 International Business Machines Corporation Outbound information analysis for generating user interest profiles and improving user productivity
EP1183613A4 (en) * 1999-04-05 2006-06-21 Neomedia Tech Inc SYSTEM AND METHOD FOR USING MACHINE-LIKE OR MACHINE-READABLE LINK CODES TO ACCESS NETWORK DATA RESOURCES
US6728695B1 (en) * 2000-05-26 2004-04-27 Burning Glass Technologies, Llc Method and apparatus for making predictions about entities represented in documents

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11191114A (ja) * 1997-10-10 1999-07-13 Nec Corp メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8843486B2 (en) 2004-09-27 2014-09-23 Microsoft Corporation System and method for scoping searches using index keys
JP2006139763A (ja) * 2004-11-11 2006-06-01 Microsoft Corp テキストマイニングおよび検索のためのアプリケーションプログラミングインターフェース
US9348912B2 (en) 2007-10-18 2016-05-24 Microsoft Technology Licensing, Llc Document length as a static relevance feature for ranking search results
JP2011516989A (ja) * 2008-04-11 2011-05-26 マイクロソフト コーポレーション 編集距離および文書情報を使用する検索結果順位付け
US8812493B2 (en) 2008-04-11 2014-08-19 Microsoft Corporation Search results ranking using editing distance and document information
WO2011133716A3 (en) * 2010-04-21 2012-01-26 Yahoo! Inc. Selectively adding social dimension to web searches
US8738635B2 (en) 2010-06-01 2014-05-27 Microsoft Corporation Detection of junk in search result ranking
US9495462B2 (en) 2012-01-27 2016-11-15 Microsoft Technology Licensing, Llc Re-ranking search results

Also Published As

Publication number Publication date
US20020165860A1 (en) 2002-11-07

Similar Documents

Publication Publication Date Title
JP2002366549A (ja) 選択的検索メタ探索エンジンおよび選択的検索を行う方法
US11036814B2 (en) Search engine that applies feedback from users to improve search results
US10055461B1 (en) Ranking documents based on large data sets
US6751612B1 (en) User query generate search results that rank set of servers where ranking is based on comparing content on each server with user query, frequency at which content on each server is altered using web crawler in a search engine
US6920448B2 (en) Domain specific knowledge-based metasearch system and methods of using
JP5114380B2 (ja) 検索結果の関連性の再ランク付けおよびその増強
US7260573B1 (en) Personalizing anchor text scores in a search engine
US7194454B2 (en) Method for organizing records of database search activity by topical relevance
US7475074B2 (en) Web search system and method thereof
US8832058B1 (en) Systems and methods for syndicating and hosting customized news content
US20070067304A1 (en) Search using changes in prevalence of content items on the web
US20120185485A1 (en) Techniques for Personalized and Adaptive Search Services
US20080114753A1 (en) Method and a device for ranking linked documents
MX2007015440A (es) Resultados de busqueda relativos basados en la interaccion de usuario.
US9594809B2 (en) System and method for compiling search results using information regarding length of time users spend interacting with individual search results
US9275145B2 (en) Electronic document retrieval system with links to external documents
EP1938214A1 (en) Search using changes in prevalence of content items on the web
JP3499105B2 (ja) 情報検索方法および情報検索装置
US20040205049A1 (en) Methods and apparatus for user-centered web crawling
JP2002215674A (ja) Webページ閲覧支援システム、方法及びプログラム
KR20030082109A (ko) 앤드 연산자를 이용한 색인어 검색 및 정보 제공 시스템및 방법
KR20030082110A (ko) 앤드 연산자 및 문서 내 연관성을 이용한 색인어 검색 및정보 제공 시스템 및 방법
Du A Web Meta-Search Engine

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20041206

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20041206

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20050307

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050406