JPH11191114A - メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジン - Google Patents
メタ検索方法、画像検索方法、メタ検索エンジン及び画像検索エンジンInfo
- Publication number
- JPH11191114A JPH11191114A JP10286599A JP28659998A JPH11191114A JP H11191114 A JPH11191114 A JP H11191114A JP 10286599 A JP10286599 A JP 10286599A JP 28659998 A JP28659998 A JP 28659998A JP H11191114 A JPH11191114 A JP H11191114A
- Authority
- JP
- Japan
- Prior art keywords
- question
- image
- search
- search engine
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9532—Query formulation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9538—Presentation of query results
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99934—Query formulation, input preparation, or translation
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99933—Query processing, i.e. searching
- Y10S707/99935—Query augmenting and refining, e.g. inexact access
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
に、利用者が真に要求している情報を迅速かつ的確にそ
の利用者に提示できるようにする。 【解決手段】 本発明のメタ検索エンジンおよび検索方
法では、質問をインターネット(ウェブ202)上にあ
る複数のサードパーティ検索エンジンに送り(ステップ
212)、各検索エンジンからの応答を解析することで
(ステップ216)、質問に合致するドキュメントに関
する情報を抽出し、質問に合致するドキュメントの全テ
キストをダウンロードし(ステップ217)、ドキュメ
ント中で、質問用語の位置を見つけ、質問用語の周囲の
テキストを抽出して表示する(ステップ222)。
Description
nternet)などのネットワーク上でドキュメント(文書)
や画像データ、各種コンテンツ類などを検索する検索方
法及び検索エンジンに関し、特に、サードパーティ(第
三者)の検索エンジンを用いて検索を実行するメタ検索
方法、画像検索方法、メタ検索エンジン及び画像検索エ
ンジンに関する。
が、インターネット上のWWW(WorldWide Web:ワー
ルド・ワイド・ウェブ)の全文(フルテキスト)索引を
維持するよう努めている。例えば、現在、インターネッ
トでは、AltaVista(アルタビスタ)、Excite(エキサ
イト)、HotBot(ホットボット)、Infoseek(インフォ
シーク)、Lycos(ライコス)及びNorthern Light(ノ
ーザンライト)などの検索サービスから検索エンジンが
利用可能である。しかしながら、ウェブの検索は、未だ
に、遅くて冗長な作業になる場合がある。
検索エンジンが導入されるようになった。メタ検索エン
ジンは、AltaVistaやInfoseekなどの複数の検索エンジ
ンに要求を行うことで、ウェブの検索を行うものであ
る。現在のメタ検索エンジンの主たる利点は、複数の検
索エンジンの結果を組み合わせることができることと、
これらエンジンを検索するのに一貫したユーザーインタ
ーフェースを提供できることである。実験結果から、主
要な検索エンジンが比較的少ない量のウェブに対しての
みインデックス(索引)付けを行い、したがって複数の
エンジンの検索結果を組み合わせることによって、他の
方法では見つからないと考えられる多くのドキュメント
を回答として与えることができることが、明らかになっ
ている。
である。最も一般的なものをいくつか挙げると、MetaCr
awler(メタクラウラー)、Inference Find(インフェ
レンスファインド)、SavvySearch(サビーサーチ)、F
usion(フュージョン)、ProFusion(プロフュージョ
ン)、Highway 61(ハイウェイ61)、Mamma(マン
マ)、Quarterdeck WebCompass(クォーターデックウェ
ブコンパス)、Symantec Internet FastFind(シマンテ
ックインターネットファーストファインド)およびFore
Front WebSeeker(フォアフロントウェブシーカー)な
どがある。
索エンジンにおいては、精度が欠如し、検索範囲が限ら
れており、利用性が限られており、ユーザーインターフ
ェースに限界があり、データベースが古いという問題点
があり、これこそが、本発明においてメタ検索エンジン
の基本的なテキストのメタ検索能力を向上させようとす
る主要な動機である。より具体的には、従来の主要なウ
ェブ検索エンジンでは、ウェブが多様であり、ウェブ検
索エンジンが比較的簡単な質問を非常に迅速に取り扱う
ことに注力していることから、多くの場合、精度を欠く
検索結果を生じることになる。さらに、「検索エンジン
スパミング(spamming)」の実行が一般的となり、それ
によってユーザーは、検索結果でのページの順位付けを
変えるために、そのページに無関係のキーワードを加え
る可能性がある。検索でヒットした特定のページと質問
との関連性は、多くの場合、ページのダウンロードを待
って、そのページで質問用語を見い出した後に初めて明
らかになる。
々の検索エンジンの検索範囲が比較的小さいことが示唆
される。すなわち、2つ目のエンジンを用いて検索を行
うと、最初のエンジンによっては検索結果として与えら
れなかったドキュメントが、いくつか見つかる場合が多
いと考えられる。検索エンジンAltaVistaがドメイン当
たりにインデックス付けされるページ数を制限している
ことや、各検索エンジンが、それぞれ、インデックス付
けするページの選択に異なる戦略を持っていることが、
示唆されている。実験結果からは、ある一つの検索エン
ジンの検索範囲が非常に限られていることが確認されて
いる。
ワークにおける問題のために、最も迅速に反応するエン
ジンは、時間を経るにつれて変わる。検索エンジンの有
用性を高める多くの特徴を付与することが可能である。
集中化された検索エンジンデータベースは、常に内容が
古いものである。新たな情報が利用できるようになる時
と、それに索引付けする時との間には、時間的遅れがあ
る。
することにある。
析し、質問用語の周囲のローカルな文脈を表示するメタ
検索エンジンを提供することにある。
法よりも効率が向上した検索方法を提供することにあ
る。
脈の表示、より進んだ重複検出、結果のプログレッシブ
な表示(データが入力し次第、順次表示する表示方
法)、ビュー(表示)時のページにおける質問用語の強
調(ハイライト表示)、大きいページで質問用語を見つ
けるためのクイック・ジャンプ・リンク(quick jump li
nk)の挿入、固有の表現形式を用いることによるある種
の質問に関する精度の大幅な改善、関連性の順位付けの
改善、クラスタリングの改善および画像検索を行うこと
ができるメタ検索エンジンを提供することにある。
目的は、コンピュータで実行されるメタ検索エンジンお
よび検索方法によって達成される。本発明の方法によれ
ば、多くのサードパーティ(第三者)の検索エンジンに
質問を送り、それらサードパーティの検索エンジンから
の応答を解析することで、その質問に合致するドキュメ
ントに関する情報を抽出する。質問に合致するドキュメ
ントの全テキストをダウンロードし、ドキュメント中の
質問用語(質問に用いた用語)の位置を見つけ出す。質
問用語の周囲のテキストを抽出して、そのテキストを表
示する。
ットに対応する実際のページをダウンロードし、質問用
語についてそれらページ中での検索を行う。検索エンジ
ンは、そのページの概要ではなく、その質問用語が出て
くる文脈(コンテキスト)を提供する(現在利用できる
検索エンジンおよびメタ検索エンジンで、このような機
能を提供するものはない)。質問用語が出てくる文脈
は、典型的には、他の検索エンジンが使用する概要や要
約より、質問とページとの関連性をかなり良好に示すも
のであり、必要な情報が含まれていないことを知ること
のみを目的としてページを見るのを回避する上で、役立
つ場合が多い。その文脈は、必要とする文脈とは異なる
文脈で生じ得る用語を検索が含む場合は常に、特に役立
つものとなろう。ユーザは、ユーザー質問用語の前後い
ずれかの側での文字数によって、文脈の量を指定する。
英数字以外の文字のほとんどは、その文脈からフィルタ
処理よって除去されて、より読みやすく、より有益な結
果を提供する。
後ではなく、個々のページのダウンロードおよび解析を
行った後にその都度もたらされる。最初の結果は、検索
エンジンの平均応答時間より速く表示されるのが普通で
ある。最も速いサイトを最初に解析・表示するので、複
数ページによって必要な情報が提供される場合は、メタ
検索エンジンこのアーキテクチャーは、有効なものとな
り得る。
ーを行う場合、それらのページを質問用語を強調表示す
るためにフィルタ処理され、また、各質問用語がそれぞ
れ最初に出現した箇所にジャンプするためのリンクが、
そのページのトップ(先頭部分)に挿入される。質問用
語の各出現箇所でのリンクは、それぞれの用語の次の出
現箇所にジャンプするものである。質問用語の強調表示
は、質問用語とページの関連性を迅速に確認する上で役
立つ。リンクは、大きいドキュメント中で質問用語を迅
速に見つける上で役立つ。
ができる。そのようなページは、応答の最後にリストア
ップされる。他のメタ検索サービスの中には「無効リン
ク」検出を行うものもあるが、その機能はデフォルトで
はオフになっているのが普通であり、全ページをチェッ
クするまで結果が返ってこない。しかしながら、漸増的
かつ迅速に結果を与えることができる本発明のメタ検索
エンジンの場合、この機能は検索エンジンのアーキテク
チャーに本来備わっているものである。
質問と適切に合致しないページを確認することができ
る。そのようなページは、質問と適切に合致するページ
の後にリストアップされる。それは非常に重要なものと
なり得る。というのは、異なるエンジンは異なる関連付
け技術を用いており、1個のエンジンが適合性に乏しい
結果を返す場合、それによって標準的なメタ検索法から
得られる結果は不十分なものとなり得るからである。
避することができる。本発明のメタ検索エンジンは、個
々の検索エンジン応答から、検索にヒットする次のペー
ジを要求するためのURL(Uniform Resource Locato
r)をどのように抽出するかを理解している。より進ん
だ重複ページ検出が行なわれる。関連する文脈文字列が
同一である場合、ページは重複していると考えられる。
それによって、ページが異なるヘッダまたはフッタを有
する場合に、重複を検出することができる。
明細書には、メタ検索法による関連性の順位付け方法で
あって、基礎となる検索エンジンに変更を加えて、ドキ
ュメント中での各検索用語の出現回数およびデータベー
ス全体での出現回数などの追加情報を取得する方法が開
示されている。本発明のメタ検索エンジンの場合、実際
のページをダウンロードおよび解析することから、その
ような方法は必要ない。従って、本発明では、各種の検
索エンジンが検索結果として与えたドキュメントに対し
て、一定の順位付け尺度を適用することが可能である。
現在、本発明の検索エンジンでは、ドキュメント中で出
てくる質問用語の数が少なくなる順にページを表示する
(最初の数ページに質問用語全てを含むものがない場
合、検索エンジンは、最初に、それまでに一つのページ
中で見つかった最大質問用語数を含む結果を表示す
る)。全てのページをダウンロートしたのち検索エンジ
ンは、簡単な関連性尺度にしたがってページの再リスト
アップする。
ドキュメント中にある質問用語の数、質問用語間の近さ
および用語の頻度に基づくものである。なお、通常の場
合、ドキュメント中頻度の逆数もまた有用である(Salt
on, G., "Automatic text processing: the transforma
tion, analysis and retrieval of information by com
puter," Addison-Wesley (1989))。
(各用語はそれぞれ1回だけ数える)、Ntはドキュメ
ント中の質問用語の総数であり、d(i,j)はドキュメ
ント中に存在するi番目とj番目の質問用語の間の最短
距離であり(現在は、文字数によって示している)、c
1は関連性尺度Rの全体的大きさを制御する定数であ
り、c2は有用と考えられる質問用語間の最大距離を指
定する定数であり、c3は用語頻度の重要性を指定する
定数である。現在、c1=100、c2=5000、c3
=10c1である。この尺度は、複数の質問用語を含む
ページに使用される。見つかった質問用語が1個のみで
ある場合は、ページの最初からの用語の距離を用いる。
用である。ウェブ上の複数の用語についての質問によっ
て、全ての用語を含むドキュメントが結果として得られ
る場合が多いが、それらの用語は、ドキュメント中では
非常に離れていて、ページの無関係な部分にある場合が
ある。例えば、単一のウェブページで上にアーカイブ
(保管)されている別個のUsenet(インターネット上の
ニュースグループ)メッセージ、あるいはブックマーク
リストを含むページでの別個のブックマークなどの場合
である。
スに関して、最小公分母法を使わない。この検索エンジ
ンは、ブール代数シンタックスなどの、全ての一般的な
検索フォーマットをサポートする。個々の質問シンタッ
クスに合致させるために、質問は動的に変化させられ
る。この検索エンジンは、質問結果を追跡し、所与の質
問に合致する新たなドキュメントが見つかった場合に、
その旨をユーザに自動的に知らせることができる。この
検索エンジンは、所定のページのテキストを追跡して、
キストに変更があった場合に、どの行が変更されたかを
ユーザに知らせることができる。この検索エンジンに
は、既存の検索エンジンで行われるクラスタリングに対
して改良されたクラスタリング技術を含むものである。
具体的な表現形式検索法は、ある種の質問についての検
索精度を飛躍的に高め得るものである。新たな質問拡張
法は、自動的にインテリジェントな質問拡張を行うこと
ができる。
きると考えられる別の機能には、改善された関連性尺
度、別の順位付け法(例:サイトごとの順位付け)、フ
ィールド検索(例:ページのタイトル、Usenetメッセー
ジの題名、ハイパーリンクテキスト)、特定のサーチエ
ンジンに質問をルーチングするための規則及び/または
学習方法、単語の意味の明確化、関連性のフィードバッ
クなどがある。
態について、図面を参照して説明する。
一つは、各ドキュメントを解析し、質問用語の周囲のロ
ーカル文脈を表示するというものである。ドキュメント
の要約や概要ではなく、ローカル文脈を表示することの
利点は、ドキュメントがユーザーの具体的な質問に答え
るものであるか否かを、そのユーザーがより容易に判断
できるというものである。本質的にこの方法は、コンピ
ュータが特定のドキュメントの関連性を正確に決定でき
ないことを認め、そのような能力に代わって、ユーザー
が関連性を迅速に判断する上で最良の形で情報を配列す
るものである。したがってユーザーは、質問用語のロー
カル文脈を迅速にスキャンすることで、関連性の高いド
キュメントを見いだすことができる。この方法は簡潔で
あるが、特にデータベースが非常に大きく、多様で、し
かも系統化が不十分なウェブ検索の場合に、非常に有効
なものとなり得る。
ータベースからの結果の照合の考え方は新しいものでは
ない。PLS、Lexis-NexisおよびVerityなどの企業
は、複数の異種のデータベースの結果を統合するシステ
ムをかなり以前から作っている。一般的かつ有用なMeta
Crawler(メタクラウラー)サービスのような、他の多
くのウェブメタ検索サービスがある。MetaCrawlerと同
様のサービスには、SavvySearch、Inference Find、Fus
ion、ProFusion、Highway 61、Mamma、Quarterdeck Web
Compass、Metabot、Symantec Internet FastFindおよび
WebSeekerなどがある。
タ検索エンジンのホームページ(ここに示す例は、NE
CI(NEC Research Institute Inc.)メタ検索エンジン
のホームページである)を示している。一番上のバー1
2には、オプションページやヘルプページにジャンプ
し、あるいは「意見と問題報告」を送信するためのリン
クがある。質問は、「検索(Find)」ボックス14に入
力する。どの検索エンジンを検索のために使用するかの
選択は、その下の行にある適切な選択肢をクリックする
ことで行う。この場合のオプションは、現在のところ、
以下の通りである。
ン:(a)AltaVista、(b)Excite、(c)Infoseek、(d)HotBo
t、(e)Lycos、(f)Northern Light、(g)WebCrawler及び
(h)Yahoo 2.Usenetデータベース−UseNetニュースグループのイ
ンデックス:(a)AltaVista、(b)DejaNews、(c)Referenc
e.com 3.報道−新聞記事およびオンラインニュースサービス
(ニュースワイヤー:news wire):(a)Infoseek Newsw
ire、Industry、およびPremier(プレミヤ)の情報源
(Infoseekからなる)−Reuters(ロイター)、PR News
Wireなど、及び(b)NewsTracker(Exciteからなる)−オ
ンライン新聞・雑誌 4.画像−画像インデックス:(a)Corel(コレル)−co
rel画像データベース、(b)HotBot−HotBot画像、(c)Lyc
os−Lycos画像、(d)WebSeer(ウェブシーア)−WebSeer
画像、(e)Yahoo−Yahoo画像、(f)AltaVista−AltaVista
画像 5.雑誌−学術雑誌:(a)Science(サイエンス) 6.テクノロジー−技術ニュース:(a)TechWeb(テック
ウェブ)及び(b)ZDNet(ZDネット) 7.全部−上記全て 制限ニュー16が、検索ボックス14の下にある。制限
メニュー16のは、個別のドメイン、個別のページの期
間および個別の画像種類に対して結果を制限するための
オプションがある。その次に、結果の最大数、質問用語
周囲で表示すべき文脈の量(文字で)、及び、クラスタ
リングもしくは追跡(トラッキング)を起動させるか否
かを選択するための選択肢があるメインオプションメニ
ュー20がある。
クによって、図2において符号22で示したような多く
の他のオプションを設定することができる。そのオプシ
ョンには、 1.(個々のページのダウンロードごとの)タイムアウ
ト、 2.ビュー(表示)を行う際にページにフィルター処理
を行うか否か、 3.ビューを行う際にページからの画像にフィルター処
理を行うか否か、 4.各検索が新規ウィンドウに結果を表示するか否か、 5.(画像のマニュアル操作での分類のため)画像の分
類を行うか否か、 がある。さらに、図2には、質問とURLの変更を追跡
し、新たなURLの入力の追跡を可能とするオプション
ページを、ページ24、26として示してある。
l watermark(電子透かし入れ)"」についての、本発明
に基づくメタ検索エンジンの応答例を示してある。図3
には、検索からの応答の最初の部分を示してある。検索
フォームが一番上にあり、その次に、質問によって変わ
り得るヒント(tip)30の表示がある。全ての質問用
語を含む結果が、検索・解析されるにつれて表示され
る。前述のように、最初のいくつかのページのいずれも
が質問用語の全てを含むものでない場合、検索エンジン
は、最初に、それまでのページで認められる最大数の質
問用語を含む結果を表示する。ドキュメントタイトルの
左にあるバー32は、そのドキュメントで質問用語同士
がどの程度近接しているかを示している。すなわち、バ
ーが長いほど、質問用語が互いに近いことを示してい
る。そのドキュメントを検索した検索エンジン、ドキュ
メントの期間(ドキュメントがウェブ上に存在してから
の時間)、ドキュメントの大きさ及びURLが、ドキュ
メントのタイトルに引き続いて表示されている。
ンは、図4に示すように、用語近接度情報を用いて順位
付けした最初の20のページを表示する。図5〜8で説
明するように、下に行くにつれて、メタ検索エンジン
は、質問用語が上に表示されているページより少ないペ
ージ、質問用語がないページ、重複文脈文字列を含むペ
ージ、そしてダウンロードできなかったページを表示す
る。次に、使用した検索エンジンページへのリンクが表
示され、その次に質問の拡張に有用と考えられる用語が
表示される。図8について説明すると、メタ検索エンジ
ンは、次に、検索エンジンごとに見いだしたドキュメン
トの数、検索および処理した数、及び重複数に関する情
報がある要約ボックスを表示する。
ように処理するかの例を示してある。一番上にあるリン
ク40は、それをクリックすることによってドキュメン
ト内で質問用語が最初に出てくる箇所へジャンプするこ
とができ、また、その用語が出てくる回数を示してい
る。[Track Page(追跡ページ)]リンクは、そのペー
ジについての追跡を作動させるものであり、ユーザー
は、そのドキュメントについての変更の時期および方法
に関する情報を得ることができる。
理部分、すなわちメタ検索コードと並列ページ検索デー
モンを有する。(簡易版の)検索コードについての擬似
コード(pseudocode)は次の通りである。
を簡略化して示している。このページ検索エンジンは、
比較的簡潔なものであるが、要求の待ち合わせ(キュー
イング)及び複数検索プロセスからの負荷の平準化、な
らびにサイトへの過負荷を防止するための同一サイトへ
の要求の遅延などの特徴を組み込んでいる。以下、この
フローチャートを説明する。
各ウェブ(サイト)202を並列して検索する並列ペー
ジ検索エンジン201を含んでいる。ウェブ202に
は、サードパーティの検索エンジンも含まれている。図
10において破線の矢印は、データの流れを示してい
る。
ップ211)、各検索エンジンに併せて質問を手直し
し、その質問を各検索エンジンに送信する(ステップ2
12)。その後、予め定めた最大ヒット数未満であって
かつ検索するページが残存しているかを判断し(ステッ
プ213)、そうでない場合にはステップ223に移行
し、予め定めた最大ヒット数未満であってかつ検索する
ページが残存している場合には、各検索エンジンでのペ
ージの検索を待ち合わせ(ステップ214)、検索エン
ジンからページが入力したかどうかを判断する(ステッ
プ215)。
合には、その検索エンジンからの応答を解析し(ステッ
プ216)、その解析結果に基づいて、ウェブページの
要求を送信し(ステップ217)、検索エンジンでさら
にヒットしたかを判断する(ステップ218)。ここで
ヒットしなかった場合には、次のページの検索のために
ステップ213に戻り、ヒットした場合には、ヒットし
た結果に含まれる、次のページの要求を送信して(ステ
ップ219)、ステップ213に戻る。
場合には、既に検索したドキュメントを分析し(ステッ
プ220)、そのドキュメントが表示の基準を満たして
いるかを判断して(ステップ221)、満たしていない
場合には、次のページの検索のためにステップ213に
戻り、満たしている場合には、質問用語文脈とともにド
キュメントを表示してから(ステップ222)、ステッ
プ213に戻る。
か、検索するページが残っていない場合には、結果を表
示する段階に入り、異なる順位付け基準とともに、結果
を表示し(ステップ223)、前の表示基準には適合し
なかった結果を表示し(ステップ224)、統計解析の
要約を表示して(ステップ225)、処理を終了する。
は、コンピュータ上にソフトウェアとして実装されるも
のであり、特に、図10に示した制御処理は、コンピュ
ータ上で実行されるプロセスの一種であるデーモンとし
て実行されるものである。
ての擬似コードは次の通りである。
して、エラーとタイムアウトを扱い、適切な検索プロセ
スに、直接、そのページを送り返すものである。
語に関するメタ情報のデータベースを作成して、そのデ
ータベースを使用することにより、ユーザにとってより
適切な情報をユーザに提示することができる。例えば、
映画のタイトル(題名)についてのリストをメタ検索エ
ンジンが保持するようにしておき、ユーザが映画のタイ
トルを含む質問を入力したときには、メタ検索エンジン
がその質問を認識してリストを参照し、インターネット
上の特定の映画評論サイトにある当該映画についての評
論のページにアクセスして、そのページをユーザに提示
するようにすることができる。
メタ検索に使用されるアルゴリズムは、以下の通りであ
る。擬似コードで示す。
の制御フローチャート60を簡略化して示している。以
下、このフローチャートを説明する。
上の各ウェブ(サイト)202を並列して検索する並列
ページ検索エンジン201を含んでいる。ウェブ202
には、サードパーティの検索エンジンも含まれている。
図11において破線の矢印は、データの流れを示してい
る。
ップ231)、各検索エンジンに併せて質問を手直し
し、その質問を各検索エンジンに送信する(ステップ2
32)。その後、予め定めた最大ヒット数未満であって
かつ検索するページが残存しているかを判断し(ステッ
プ233)、そうでない場合にはステップ247に移行
し、予め定めた最大ヒット数未満であってかつ検索する
ページが残存している場合には、各検索エンジンでのペ
ージの検索を待ち合わせ(ステップ234)、検索エン
ジンからページが入力したかどうかを判断する(ステッ
プ235)。
合には、その検索エンジンからの応答を解析し(ステッ
プ236)、その解析結果に基づいて、ウェブページの
要求を送信し(ステップ237)、検索エンジンでさら
にヒットしたかを判断する(ステップ238)。ここで
ヒットしなかった場合には、次のページの検索のために
ステップ233に戻り、ヒットした場合には、ヒットし
た結果に含まれる、次のページの要求を送信して(ステ
ップ239)、ステップ233に戻る。
場合には、既に受け取ったページが画像かどうかを判断
し(ステップ240)、画像でない場合には、質問用語
でそのページを検索し、画像に合致すると考えられる質
問を予測し(ステップ241)、質問に合致すると予測
される画像の要求を送信して(ステップ241)、ステ
ップ213に戻る。また、ステップ240でページが画
像である場合には、そのページが表示の基準を満たして
いるかを判断して(ステップ243)、満たしていない
場合には、次のページの検索のためにステップ233に
戻り、満たしている場合には、その画像を表示キューに
追加してから(ステップ244)、表示キューが一杯か
どうかを判別し(ステップ245)、表示キューが一杯
でなければそのままステップ233に戻り、表示キュー
が一杯であれば、画像のモンタージュを作成・表示し、
表示キューをクリアしてから(ステップ246)、ステ
ップ233に戻る。
か、検索するページが残っていない場合には、結果を表
示する段階に入り、表示キュー中の画像のモンタージュ
を作成・表示し、統計解析の要約を表示して(ステップ
247)、処理を終了する。
際には、コンピュータ上にソフトウェアとして実装され
るものである。
eerは、写真またはグラフィックとして画像の分類を試
みるものである。WebSeerは、画像から多くの特徴を抽
出し、分類のために決定木を使用する。本発明者らは、
同様の画像分類システムを実装した。しかしながら本発
明者らは、異なる特徴集合を用い、ニューラルネットワ
ークを使って分類を行う。図12及び図13は、写真に
ついてフィルター処理を行った画像を用いての、画像質
問「コアラ(koala)」に対する本発明のメタ検索エン
ジンの応答を示している。図14は、グラフィックにつ
いてフィルター処理を行った場合の応答を示している。
線画、ロゴ、地図、漫画、ポーとレート、ボタン、チャ
ート及び天文画などが挙げられる。フィルター処理を行
う場合には、画像の種類が、ここで挙げた分類項目のう
ちのいずれに該当するかをまず同定し、その同定結果に
基づいて、フィルター処理を実行する。その際、画像の
種類などのメタ情報を保存することにより、新たな質問
が入力したときに、画像の再ダウンロードを実行するこ
となく、メタ情報を用いて画像のフィルター処理を実行
することができるようになる。
ントのクラスタリング法は、典型的には、重複しないク
ラスターを生み出すものである。例えば、ドキュメント
のクラスタリングで最も一般的に使用されるアルゴリズ
ムである階層集塊クラスタリング(Hierarchical Agglo
merative Clustering; HAC)(Willet, P., "Recent tr
ends in hierarchical document clustering: a critic
al review", Information Processing and Management,
24, 577-597(1988))は、あるクラスター中の各ドキュ
メントから始めて、停止条件が満足されるまで、クラス
ターを繰り返しマージする。HACアルゴリズムは、文
書間及び文書集合間の類似度関数を使用している。
ase)およびフレーズの結合の同定に基づいた文書クラス
タリングアルゴリズムが開示している。そのアルゴリズ
ムは、一般に使用される方法とは、クラスターの重複が
あり得て、共通の項目もしくはテーマを同定するための
ものである点で、基本的に異なっている。
く、多くの冗長性を有し、シグナル対ノイズ比(S/
N)が比較的小さい。これらのファクターは、ウェブ上
での情報検出を困難にしている。本明細書で提供するク
ラスタリングアルゴリズムは、情報発見を支援するため
のものである。すなわち、ある質問について返ってきた
多くのヒットから、どのトピックが含まれているかを発
見するためのものである。これによってユーザーは、質
問に改善を加えて、小トピックの一つを調べることがで
きる。
りである。擬似コードで示す。
ゴリズムによって形成されたクラスター70を示してい
る。図16は、これらクラスターについての最初の2つ
のクラスターの要約72、74を示している。図17及
び図18は、同じ質問についてHuskySearch(ハスキー
サーチ)によって形成されたクラスター76、80を示
している。図19は、AltaVistaによって形成されたク
ラスター82を示している。図20及び図21は、別の
2つの質問「ニューラルネットワーク(neural networ
k)」および「typing and injury」について、本発明の
メタ検索エンジンによって形成されたクラスター84、
86を示している。
は、質問用語の形態を変えることで質問を大きくするも
のである。単語語幹化(stemming)(Porter, M.F., "a
n algorithm forsuffix stripping", Program, 14, 130
-137(1980))を用いて、単語の変形語を同一単語として
処理することができる。ウェブ検索エンジンは、ウェブ
のインデックス付けを行うのに必要なリソースを減らす
と考えられているにもかかわらず、単語語幹化を行わな
いのが普通である。ウェブ検索エンジンが単語語幹化を
行わない理由の一つは、語幹化によって精度が低下する
可能性があるというものである。語幹化は、全ての変形
語を考慮するものである。全ての変形語を用いる質問拡
張では、変形語が異なる概念を指す場合が多いことか
ら、ウェブ検索の精度を低下させることになる場合が多
い。ウェブのデータベースがより大きく、より多様にな
っていることから、単語語幹化を用いた場合の精度低下
は、従来の情報検索テストを集成した場合と比較して、
ウェブでは問題となりやすいのが普通である。
用に基づいた質問拡張アルゴリズムが開示されている。
具体的には、そのアルゴリズムでは、元の質問に合致す
るウェブページのうちのある一定のパーセントのウェブ
ページにおいて出てくる変形語の部分集合を用いる。現
在、質問用語は、ポーターのステマー(stemmer)(Por
ter, M.F., "An algorithm for suffix stripping", Pr
ogram, 14, 130-137 (1980))によって語幹化されてお
り、質問用語の変形語について、検索ページを検索する
ことができる。それらのページの1%より多くで出てく
る変形語をユーザーに表示して、それ以降の質問に含め
ることができる。この方法についての定量的な評価は行
っていないが、有用な用語が提案されるのが認められ
る。例を挙げれば、「necと"digital watermark"」とい
う質問については、digitally、watermarking、waterma
rks、watermarkedという用語が、質問拡張のためのもの
として提案される。
あることから、現在、この技術は、最初に質問を入力し
た時に、質問を自動的に拡張することはない。しかしな
がら、各質問用語について拡張用語のデータベースを維
持することで、この技術を自動化することができる。あ
る用語を含む最初の質問によって、同時に出てくる変形
語をデータベースに追加することができ、それ以降の質
問ではそれらの用語を使って必要に応じてデータベース
を更新することができる。
される可能性があって、意味論(semantic)の組み込みお
よび自然言語の理解を行う最適な検索システムを必要と
するため、正確な情報検索は困難である。情報検索にお
ける研究では、例えば単語語幹化および質問拡張などの
再検索能力向上を目的とした技術を考慮する場合が多
い。前述のように、これらの技術によって、特にウェブ
と同じように多様なデータベースでは、精度が低下する
可能性がある。
を有する。情報は複数回含まれることが多く、ウェブを
通じ、各種形式で表現される。全ての情報が全ての可能
な形で表現されるという制限下では、高精度の情報検索
は簡単なものとなり、意味論解析上の知識を必要としな
いと考えられる。そこで、ある特定の情報表現方法につ
いて検索する必要があるだけとなると考えられる。その
ような目標は、全ての情報については決して達成される
ものではないが、実験から、ウェブはすでに、この考え
方に基づいたアプローチを行えるものとなっており、あ
る種の検索作業には有効であることが示されている。
を表現するための具体的形式に変換するものである。例
えば、「NASDAQは何を表すか(What does NASDAQ stand
for?)」という質問は、「NASDAQは表わす」、「NASDAQ
は略称である」、「NASDAQは意味する」という質問に変
換される。明らかに、その情報は、これら3つの可能性
に対して異なった形で含まれると考えられる。しかしな
がら、その情報がこれら形式のいずれかに存在する場
合、それらのフレーズを見い出すことで、質問に対する
回答が得られる確率が高くなる。この手法は、再検索に
よって精度を売るものである。
の質問について、固有表現形式(SEF:specific exp
ression forms)手法を用いている(大括弧[]は選択
肢を示し、括弧()はオプションの用語または選択肢を
示す)。また、{}内は、対応する英文での質問を示し
ている。
|are] x?} ・xは何によって[生じるか|作られるか|形成される
か]。{What [causes|creates|produces] x?} ・x[について|のことを|に関して]あなたはどう思
うか。{What do youthink [about|of|regarding] x?} ・xは何を[表すか|意味するか]。{What does x [s
tand for|means]?} ・xはどこにあるか。{Where is x?} ・xは誰か。{Who is x?} ・( |その)x[単数|複数]は[なぜ|どのように
して]yであるか。{[Why|how] [is|are] (a|the) x y
?} ・なぜxを行うか。{Why do x?} ・xはいつか。{When is x?} ・いつxを行うか。{When do x?} ・どのように、x[を行うか|を行うことができる
か]。{How [do|can] I x?} ・[ |その]xはどのようにしてyを行う(ことがで
きる)か。(How (can)[a|the x y?]) ・[ |その]xはどのようにしてyを行うか。(How d
oes [a|the] x y?) 変換の例として、「xは何を[表すか|意味するか]」
は、「xは表す{x stands for}」、「xは略称である{x
is an abbreviation}」、「xは意味する{x means}」
に変換され、「xは何によって[生じるか|作られるか
|形成されるか]」は、「xを生じる{x is cause
d}」、「xは作られる{x is created}」、「xをもたら
す{cause x}」、「xを形成する{create x}」、「xを
作る{make x}」に変換される。
top word)および適合度尺度を使用し、それにより、一
部の検索エンジンは、SEFを含まない多くのページを
検索結果として与える傾向がある。したがって、関連す
るエンジンについて、望ましくない文面が質問から除去
される。
すか」という質問についての本発明のメタ検索エンジン
の応答を示している。この質問に対する回答は、最初の
6個のページからの約5個のページについて表示された
ローカル文脈に含まれている。図23は、符号92に、
同じ質問に対するInfoseekの応答を示してある。この質
問に対する回答はページ要約には表示されず、回答があ
った場合にどのページが回答を含んでいるかははっきり
しない。図24及び25は、それぞれ、符号94と符号
96に、「虹はどのようにして作られるか(How is a ra
inbow created?)」という質問に対する本発明のメタ検
索エンジンとInfoseekの応答を示してある。やはりその
回答は、本発明のメタ検索エンジンによって示されたロ
ーカル文脈に含まれているが、Infoseekでは、それが挙
げたページのどれが質問に対する回答を含んでいるかは
はっきりしない。図26は、符号100に、「ミーリー
機械とは何か(What is a Mealy machine)」という質問
についての本発明のメタ検索エンジンからの応答の第3
の例を示している。
情報の量は、時間の経過に伴って増加することから、固
有表現形式手法(SEF)の表現形式方法の実行可能性
(viability)は、時間の経過に伴って向上すると予想
される。上記で議論の手順の延長として、各種SEFに
ついて順序が決定される。例えば「xは表す」は、「x
は意味する」というフレーズより「xは何を表すか」と
いうフレーズに対して回答を見い出しやすいと考えられ
る。いずれのSEFも見い出されない場合は、メタ検索
エンジンは、標準的質問に戻る。
ト(search tips)を得ることができる。そのヒントとし
て表示される文面には例えば、次のものが含まれるもの
と考えられる。
フレーズについての引用符を用いるとよいでしょう。
クリックすることで、画面スペースを節約するために上
記の種々の選択肢を隠すことができます。
クすることで、多重検索のために同一ウィンドウに、あ
るいは各新規検索のために新たなウィンドウに、ページ
が表示されます。
ジにフィルター処理を行って、質問用語を強調します。
そのページのローカルキャッシュ化により、表示が高速
化します。
た検索エンジンを識別するものです(例:A==AltaVist
a)。
は、そのページが最後に更新されて以降の時間を示しま
す(例:5m=5ヶ月、1y=1年間)。
は、ページのサイズです。
れかの側を表示する際の文字数を選択するものです。
ージをダウンロードする際の最大時間を設定するもので
す。
在のニューストピックでより高い精度を得る上で有用で
す。
うため、ビュー時にページから画像を除去します。
行う場合、質問用語をクリックすることで、その用語が
次に出てくる所にジャンプすることができます。最後に
出てきた用語をクリックすることで、最初に出てきた所
にジャンプして戻ります。
除外することができます。
ww.neci.nj.nec.com/homepages/gilesについて検索を行
うことができます。ただし、自己リンクは除外されま
す。
よいでしょう。
ンジンの場合の3倍を超えるドキュメントを利用できる
ようにするものです。例えば、NASDAQが何を表すかを知
りたい場合、検索に限定を加えることで、「NASDAQ」よ
り「NASDAQは表す」について検索を行う方が、より迅速
に回答を見いだすことができます。ただし、その情報も
別の形で表現されている場合もあります。
る検索エンジンリンクをクリックすることで、現在の質
問に対するその検索エンジンの応答が示されます。
とで、画像、例えば「red rose」の検索を行うことがで
きます。
ドキュメント中で互いに近くなるほど長くなります。
リックすると、Webster(ウェブスター)辞書でのその
用語の定義を表示します。
択すると、質問が追跡され、「NEC検索についての最近
の項目(recent articles about NEC Research)」と同
様のあなたのためにカスタマイズされたホームページ
に、新たなヒットが表示されます。
s)」を選択して、ドキュメントのクラスタリングを行
い、共通のテーマを確認することができます。
いることで、各画像が写真であるかグラフィックである
かのニューラルネットワーク予測を行い、画像にフィル
ターをかけることができます。
後、用語の近接度によって順位付けしたページのリスト
が表示されます。
ヒントとして表示される文面の例である。さらには、ユ
ーザが入力した質問に基づいて文脈に応じた提案を行う
ようにすることもできる。例えば、入力された質問がイ
ニシャルを表わすと考えられる単一の文字を含む場合
に、名前についての検索を行う方法についての提案ある
いは示唆を表示するようにすることもできる。
などのサービスは、質問に対するウェブ検索エンジンの
応答を追跡し、新たなドキュメントが発見されたらユー
ザーに知らせるものである。本発明のメタ検索エンジン
は、この機能をサポートする。質問実行時に追跡(Trac
k)オプションを選択することで、その質問についての
追跡が起動される。次に、デーモンが、質問を定期的に
繰り返して、新たなドキュメントをそれが発見された時
刻とともに保存する。新たなドキュメントは、図27の
符号102に示したように、メタ検索エンジンのホーム
ページ上でユーザーに呈示される。質問に一致するドキ
ュメントが変更されているか否かについては、このメタ
検索エンジンは現在のところ、ユーザーにそれを知らせ
ない。ただし、それを追加することは可能であると考え
られる。
Lの追跡もサポートする。検索エンジン結果からのペー
ジのいずれかのビューを行う際に、[ページの追跡(Tr
ackpage)]リンクをクリックすることで、追跡を開始
する。別法として、オプションページを用いて、任意の
URLについての追跡を起動することができる。デーモ
ンは、追跡対象ページに対する更新を確認し、図27に
示すように、ホームページ上で、ユーザーに対して変更
のあったページのリストを示す。[ページ(Page)]リ
ンクは、図28に例示するように、追跡対象ページを表
示し、最初の部分にヘッダを挿入して、ユーザーがその
ページを最後に見て以降、どの行に追加もしくは変更が
あったかを示す。
定:WWW(World Wide Web)は拡大し続けていること
から、科学者にとって徐々に重要な情報源となりつつあ
る。全ての科学文献を即座に閲覧することは、科学者の
長年の夢であり、ウェブ検索エンジンは、科学文献およ
び他の情報源の大きくかつ成長し続けている閲覧容易な
集合体をを形成するようになった。主要なウェブ検索エ
ンジンは、一般に、ウェブのかなりの割合の部分に対し
てインデックス付けを行うと考えられている。検索方法
の選択に影響を与える重要な疑問には、「検索エンジン
は、ウェブのどの部分についてインデックス付けを行う
か」、「どの検索エンジンが最も包括的であるか」、
「検索エンジンのデータベースは、どの程度最新のもの
か」などがある。
できる。それには、多くの検索エンジンでの1組の質問
実行と、各検索エンジンが返してきた結果数の報告とが
含まれるのが普通である。検索エンジンは、質問用語の
入っていないドキュメントを返す場合があることから、
それらの比較の結果の信頼性は限られている。それは、
(a)エンジンが使用する情報検索法(例えば、Exciteは
「概念に基づくクラスタリング」を使用し、Infoseekは
形態論を用いる。これらのエンジンは、関連する単語を
含むドキュメントを返してくる場合がある)、(b)ドキ
ュメントがもはや存在しない場合があること(無効なド
キュメントを決して削除しないエンジンが有利になると
考えられる)、(c)ドキュメントは存在するものの、変
更されていて、質問用語をもはや含まない場合があるこ
と、が原因となるものと考えられる。
d Etzioni, O., "Multi-service search and compariso
n using the MetaCrawler", Proceedings of the 1995
World Wide Web Conference, (1995))は、MetaCrawler
メタ検索サービスの利用ログに基づいた結果を発表して
いる(検索エンジンサービスとウェブにおいてかなりの
変更があったため、その結果は、現在、同じことを繰り
返したとしたらかなり異なるものになると予想され
る)。これらの結果は、Lycos、WebCrawler、InfoSee
k、Galaxy(ギャラクシー)、Open Text(オープンテキ
スト)及びYahooという検索エンジンを検討したもので
ある。セルバーグ及びエチオニの結果は、有益ではある
が、いくつかの理由により制限がある。
の「市場シェア(market share)」を提供しており、それ
は、各検索エンジンから得られたドキュメントでユーザ
ーがフォローするものパーセント(割合)である。(a)
ページを見なければ関連性を決定することは困難である
こと、(b)ドキュメントを提供する順序がユーザーの関
連性判断に影響を与えること(Eisenberg, M. and Barr
y, C., "Order effects: A preliminary study of the
possible influence of presentation order on user j
udgments of document relevance", Proceedings of th
e 49th AnnualMeeting of the American Society for I
nformation Science, Vol. 23, pp. 80-86 (1986))、
等の多くの理由のために、セルバーグらの結果は、限定
的なものとなる。
た結果は、さらに、彼らが、特定の1つの検索エンジン
のみから検索されたドキュメントのパーセントと、各検
索エンジンの検索範囲とによって、結果を表わしている
ことからも限定的なものである。彼らの結果は、各検索
エンジンがウェブの一部のみカバーすることを示唆する
ものである。しかしながら彼らの結果は、(a)上述のよ
うに、検索エンジンは質問用語が含まれていないドキュ
メントを返す場合があり、関連する単語があるドキュメ
ントまたは無関係なドキュメントを返してくる検索エン
ジンによって、かなり異なる結果が生じる場合があるこ
と、(b)検索エンジンは異なった順序でドキュメントを
返してくるため、妥当な比較を行うには全てのドキュメ
ントを検索する必要があること、例えば、2つの検索エ
ンジンがドキュメントの全く同一の組み合わせにインデ
ックス付けを行うが、最初のxとして異なる組み合わせ
を返してくることがあること、等の理由により、限定的
なものである。
関係なリンクのパーセントが15%であることを見出し
ている。彼らはそれを、検索エンジンごとに分析してい
ない。セルバーグおよびエチオニは、その研究における
限界を指摘している(非常に好結果を示したMetaCrawle
rサービスについての膨大な論文のごくわずかな部分を
割いて)。
は、最近、それらがウェブを総合的に網羅していないこ
とを確認している(Brake, D., "Lost in cyberspace",
New Scientist, 154(2088), 12-13, (1997))。以下
に、これら検索エンジンがどの程度網羅しているかの推
定について、議論する。
の検索範囲、ウェブのサイズ、検索エンジンのデータベ
ースの最新性についての統計解析を行った。ここでは、
AltaVista、Excite、HotBot、Infoseek、LycosおよびNo
rthern Light(アルファベット順)という6つの最近の
主要なフルテキスト(全文)検索エンジンのみについて
検討した。一般的な認識は、これらの検索エンジンが、
同一ドキュメントを大まかにインデックス付けし、ウェ
ブの比較的大きい部分についてインデックス付けを行う
というものである。
ジンの異なる組み合わせを用いた場合に、検索結果とし
て返されてくるドキュメントの数を比較する。全体を通
じての本発明者らの方法は、全ての検索エンジンからの
合致ドキュメントのリストを検索し、次にそれらドキュ
メント全てについて検索を行って解析するというもので
ある。2つの重要な制約を用いた。
は、その質問に合致するドキュメントの全体リストを、
全ての検索エンジンについて検索していなければならな
いというものであった。検索エンジンがドキュメントに
順位付けを行う順序が、検索エンジン間で異なることか
ら、この制約は重要である。各検索エンジンから100
0を超えるドキュメントが得られた質問について検討す
る。各検索エンジンからの最初の200のドキュメント
のみを比較していたら、特定の1つの検索エンジンから
の結果にのみ見られるURLを多く見いだすことができ
る。しかしながら本発明者らは、それら検索エンジン
が、固有のURLのインデックス付けを行ったか、ある
いは、それら検索エンジンが同一のURLのインデック
ス付けを行ったが最初の200個のドキュメントとして
異なる部分集合を返したか、について決定することがで
きないと考えている。
ジンが質問に合致するとしてリストアップするドキュメ
ント全てについて、対応するURLの全テキストをダウ
ンロードすることを試みたというものである。ダウンロ
ードできて、実際に質問用語を含むドキュメントのみを
数える。これは、(a)検索エンジンの中には、その検索
エンジンは関連があると考えるが、実際には質問用語を
含んでいないドキュメントを返してくるものがあること
(例えば、Exciteは「概念に基づくクラスタリング」を
用いるとともに関連する単語を考慮する場合があり、In
foseekは形態論を用いる)、(b)各検索エンジンは多く
の無効なリンクを含み、無効なリンクのパーセントは検
索エンジン間で異なること(無効なリンクを削除しない
検索エンジンが有利になると考えられる)から、重要で
ある。
は、以下のものがある。
出など、1個の検索エンジンまたは複数の検索エンジン
の組み合わせによって返されてくるドキュメントの総数
を検討することで、重複が除かれる。URLは、a)その
末尾に配置される「index.html」接尾語または終端文字
「/」を除き(一般には、URLとしてhttp://www.aaa.
comとhttp://www.aaa.com/とhttp://www.aaa.com/inde
x.htmlを入力すると、同じウェブページが表示され
る)、b)ポート番号80の指定(デフォルト)を除き
(TCP/IP(Transmission Control Protocol/Inter
net Protocol)において、ポート番号80は、ウェブペ
ージ表示用のプロトコルであるhttp(Hyper Text Transp
ort Protocol)を指す)、c)1より大きいディレクトリ
深度(directorydepth)を有するURLのドメイン名の
最初のセグメントを除き(マシンのエイリアスを考慮す
るため)、d)エスケープ文字(例:URL中の"%7E"
は、波形文字("~")と同等である)による拡張を除くこ
とで、規格化される。
る質問を異なった形で処理することから(例:AltaVist
aは、大文字の質問に対しては大文字の結果のみ返して
くる)、本発明者らは、小文字の質問のみを考慮する。
アウトとして60秒を用いた。タイムアウトとなったペ
ージは解析には含めなかった。
ュメント数(重複を除いた後に合わせた全ての検索エン
ジンからのもの)を700に固定して、それより多いド
キュメントを返す質問を含まないようにした。これら検
索エンジンは、検索可能な最大数のドキュメントを課す
のが普通であり(現在の限界は、AltaVistaで200、I
nfoseekで500、HotBotで1000、Exciteで100
0、Lycosで1000、Northern Lightで10000超
である)、本発明者らは、これらの範囲を超えていない
ことを調べた(この制約を用いると、各検索エンジンか
ら最大数を超えて返ってくる質問はなかった。特には、
AltaVistaから200を超えて返ってくる質問はなかっ
た)。
ドキュメントのみを数えた。すなわち、あるドキュメン
ト中の「crystals」という単語は「crystal」という質
問用語とは合致せず、そのドキュメントを質問に合致す
るものとして数えるには、その単語の単数形がドキュメ
ント中になければならないことになろう。これは、検索
エンジンが異なると形態規則が異なることから必要であ
る。
一情報を有する別のページを確認する場合がある。これ
らの別ページは統計解析に含める(それらは同一データ
を有する別ページを確認しない検索エンジンの場合と同
様である)。
l collection)」(公的にインデックス付け可能なウェ
ブの一部ではないプレミアのドキュメント)は使用しな
かった。
約を満足する500の質問を用いて、各検索エンジンか
らの結果を収集した。以下に述べる結果は、本発明者ら
が、1997年8月23日〜1997年8月24日の期
間で、500の質問を行って得たものである。検索エン
ジンは、ドキュメントのリストアップ及び/または次ペ
ージのドキュメントの要求についてのフォーマット(書
式)を定期的に変更することから、テストの前後で各検
索エンジンからの全ての結果が正しく検索および解析さ
れていることを、本発明者らは、マニュアル操作で調べ
た(本発明者らは、さらに、検索エンジンの応答フォー
マットにおける一時的不首尾や変化を検出するための自
動的方法も用いる)。
れたドキュメントの全体に対して、各検索エンジンのそ
れぞれから検索されたドキュメントの総数がどの程度の
割合になるかを示している。以下表1に、95%信頼区
間とともにこれらの結果を示す。この比較では、HotBot
が最も網羅的である。これらの結果は、実行した特定の
質問、ならびにそれを行った時点での検索エンジンのデ
ータベースの状態に固有のものである。さらにその結果
は部分的には、データベースサイズが異なるためではな
く、インデックス付けが異なるためである可能性があ
る。すなわち、検索エンジンが異なると、同じドキュメ
ントに対して同一の単語をインデックス付けしない場合
がある(例えば、これらエンジンは最大ファイルサイズ
を課して、大きすぎるドキュメントを効果的に切り取る
のが普通である)。
キュメント数によって規格化した、1個乃至6個の検索
エンジンによって検索されたドキュメント数の平均割合
を示してある。1個乃至5個の検索エンジンを用いた場
合については、平均は、検索エンジンのあらゆる組み合
わせ全体にわたるものであり、各質問について平均を取
ってから、質問全体にわたって平均を取ったものであ
る。
的に増えるという仮定、ならびにその制限の下では、無
限数の検索エンジンによってウェブ全体を網羅すること
になるという仮定を用いると、f(x)=b(1−1/
exp(ax))(式中、aおよびbは定数であり、x
は検索エンジン数である)がデータに適合することにな
る(プログラムgnuplotにおけるデフォルトパラメータ
を用いたLevenberg-Marquardt最小化(Fletcher, R., "
Practical Methods of Optimization", SecondEdition,
John Wiley & Sons, (1987))を実施)。その結果を図
30に示してある。これは、各検索エンジンがウェブの
ある一定のパーセントを網羅し、各検索エンジンから得
られるウェブのサンプルが、全てのウェブページから独
立に抜き出される(ci=ci-1+c1(1−ci-1),i
=2,...,n(式中、ciはi個のエンジンの検索範囲で
あり、c1は1個のエンジンの範囲である))という仮
定と等価である。
索エンジンは、通常、検索フォームの背後に隠れた索引
ドキュメントや、(ウェブ内検索用の)ロボットの除外
基準や認証要件のために検索エンジンが除外されること
となるドキュメントのインデックス付けを検討しない。
したがって本発明者らは、ウェブの真のサイズは、ここ
で推定されるものよりはるかに大きいと予想している。
しかしながら、検索エンジンはこれらのドキュメントの
インデックス付けを開始する可能性は低いことから、そ
れら検索エンジンがインデックス付けを検討するウェブ
(以下、「インデックス可能ウェブ」と称する)の大き
さと、検索エンジンの相対的総合性を推定することは興
味深いものである。
るウェブの量は、検索エンジン間でかなり変動するもの
であること、(b)検索エンジンは独立にウェブのサンプ
リングを行わないことから、上記の対数関数による外挿
は、インデックス可能ウェブのサイズを決定するには正
確ではない。6個の検索エンジンのいずれも、ユーザー
がそのページを登録できる登録機能を提供する。多くの
ユーザーが、これら検索エンジンのいくつかでページを
登録すると考えるのが妥当である。したがって、各検索
エンジンがインデックス付けするページは、部分的に依
存的である。各検索エンジンが行うサンプリング間の依
存性の第2の原因は、各検索エンジンが、他のページに
リンクされているページ、すなわちより人気のあるペー
ジの方に偏っているのが普通であるという事実から生じ
るものである。
ジンbの間の重複について考える。各検索エンジンがウ
ェブを独立にサンプリングすると仮定すると、量n0/
nb(n0は両方の検索エンジンによって返ってくるドキ
ュメント数であり、nbは検索エンジンbによって返っ
てくるドキュメント数である)は、検索エンジンaによ
って網羅されるインデックス可能ウェブの割合paの推
定値である。基準点として6個の検索エンジンの検索範
囲を用いると、p'a=na/n6と書くことができる(n
aは検索エンジンaによって返ってくる固有(unique)の
ドキュメント数であり、n6は6個の検索エンジンの組
み合わせによって返って固有のドキュメント数であ
る)。従って、p'aは、6個のエンジンの検索範囲に対
する検索エンジンaの検索範囲であり、c=p'a/pa
=nanb/n6n0と書くことができる。この式を用いて
本発明者らは、ここで検討している6個の検索エンジン
によって網羅されるウェブの量に関連して、ウェブのサ
イズを推算する。検索エンジンのサイズはかなり変動す
ることから、本発明者らは、最も小さい2つから最も大
きい2つまでの2つの検索エンジンの組み合わせを用い
て、cの値を推定することを検討する。本発明者らはこ
の解析を、50以上のドキュメントを返す245の質問
に限定する(n0=0の場合の問題を回避するため)。
表2にはその結果を示してある。cの値が1より小さい
と、インデックス可能ウェブのサイズが、6個のエンジ
ン全てから検索されたドキュメントの数より小さいこと
が示唆される。相対的に大きいエンジンは、a)ユーザー
が登録するページ以外のページを相対的に多くインデッ
クス付けでき、b)ウェブ上の人気の低いページを相対的
に多くインデックス付けできることから、依存性が相対
的に小さいと予想できる。実際、検索エンジンが大きく
なるにつれてcの推定値が高くなるという、明らかな傾
向がある。
て、エンジンが網羅するインデックス可能ウェブの割合
を推算することができ、HotBotで17.8%、Exciteで
14.1%、Northern Lightで13.8%、AltaVista
で13.3%、Infoseekで8.1%、Lycosで5.5%
である。これらの結果を、図32の120に示してあ
る。主要検索エンジンによってインデックス付けされた
インデックス可能ウェブのパーセントは、一般に考えら
れているものよりかなり低い。(a)cの真の値は、2つ
の最も大きいエンジン間にある依存性のために、実際に
は2.2より大きいと考えられ、(b)異なる種類のユー
ザーからの質問については、異なる結果が認められる場
合がある、ということは注目すべき点である。
ージがあり、これは、インデックス可能ウェブのサイズ
についての下限に関する本発明者らの推定値を約3億万
ページとするものである。Internet Archiveは、画像、
音声などを除いて、8000万ページという推定値を用
いている(Cunningham, M., "Brewster's millions",ht
tp://www.irish-times.com/irish-times/paper/1997/01
27/cmpl.html, (1997))。Forrester Researchは、75
00万を超えるページがあると推定している(Guglielm
o, C., "Mr.Kurnit's neighborhood", Upside Septembe
r, (1997))。AltaVistaは、現在、ウェブには1億〜1
億5000万ページがあると推定している(Brake, D,
"Lost in cyberspace", New Scientist 154(2088), 12
-13(1997))。
か興味深い結論が得られる。表3には、6個の主要検索
エンジンのそれぞれが応答するのに要した時間の中央値
を、6個の検索エンジン全てに対して質問を同時に行っ
た場合(メタ検索エンジンで起こるような状態)に、こ
れら検索エンジンのうち最初に結果を返したものについ
ての応答時間中央値とともに示してある。
中の最初のものの応答時間のヒストグラムを図33及び
図34に示してあり、中央値を図35に示してある。図
36には、nの値を変えたときのn個の検索エンジンの
うちに最初に応答したものの応答時間の中央値を示して
ある。これらの結果は1997年9月のものであり、検
索エンジンの相対的速度は、時間の経過に応じて変動す
る点は留意すべきである。
ドするのに要する時間について見ると、図37に応答時
間のヒストグラムがある。図38には、nの値を変えた
ときのn個の検索エンジン中最速のものが応答するのに
要する時間の中央値を示してある。本発明のメタ検索エ
ンジンが最初の結果を表示するまでに要する時間を推算
することができる。この推算値は、それは6個の検索エ
ンジンのうちの最初に応答するもの(このメタ検索エン
ジンは、実際には6個を超える検索エンジンを用いる
が、本発明者らは、この場合は、主要なウェブ検索エン
ジンに絞っている)及び10個のウェブページ(実際の
数字は、応答する最初の検索エンジンが返す数によって
決まる)の最初に表示されたものについての分布からサ
ンプリングを行い、それらを一緒に加算し、1000回
の試行について平均を取ることで得られる値である。
てある。分布の中央値は1.3秒である(それに対し
て、実際のページのダウンロードを行わない場合であっ
ても、検索エンジンの応答時間中央値は2.7秒であ
る)。比較のため、MetaCrawlerが結果を返すのに要す
る平均時間は25.7秒(ページ確認を行わない場合)
または139.3秒(ページ確認を行う場合)である
(Selberg, E. and Etziono,O., "Multiservice search
and comparison using the MetaCrawler", Proceeding
s of the 1995 World Wide Web Conference, (199
5))。なお、基礎となる検索エンジン及び/またはウェ
ブは、セルバーグとエチオニが実験を行った時より、か
なり速いように思われる。
索エンジンは、並列アーキテクチャであることによっ
て、標準的な検索エンジンが結果を与えるより迅速に、
最初のページを検出、ダウンロードおよび解析を行うこ
とができることが分かる。ただし、標準的な検索エンジ
ンは、ページのダウンロードや解析は行わない。なお、
ここで述べた結果は、実行した特定の質問(質問の関数
としての速度は検索エンジンごとに異なる)とそれを行
ったネットワーク条件に固有のものであることに、留意
すべきである。これらの要素は、結果をある特定の検索
エンジンに偏らせる場合がある。ウェブのアクセス時間
の非定常性はここでは考慮しない。例えば、検索エンジ
ンの速度は、時間経過に伴ってかなり変動する。短期的
変動は、ネットワークもしくは機械の問題およびユーザ
ーのロード動作によるものであると考えられ、長期的変
動は、検索エンジンのソフトウェア、検索エンジンのハ
ードウェア資源または関連するネットワークの接続にお
ける変化によるものであると考えられる。
エンジンから返されるドキュメントのリアルタイム解析
が可能であることを示している。実際、ウェブ検索エン
ジンの呼び出しおよびウェブページのダウンロードを並
行して行うことで、本発明のメタ検索エンジンは、平均
すると、標準的な検索エンジンを用いた場合より迅速
に、最初の結果を表示することができる。
語周囲のリアルタイムでのローカル文脈の表示とビュー
時の文書中での質問用語の強調によって、ウェブ検索の
効率が大幅に向上することを示している。
の検索範囲についての上限が、インデックス可能ウェブ
の6%(Lycos)から18%(HotBot)までの間で変動
することを示している。6個の検索エンジンの結果を合
わせると、検索エンジン1個のみを用いた場合と比較し
て、3.5倍を超えるドキュメントが返ってくる。検索
エンジン間の重複を解析することによって、本発明者ら
は、インデックス可能ウェブのサイズについての大体の
下限は3億ページであると推定する。主要な検索エンジ
ンが返す無効リンクの割合は、3%〜7%の範囲で変動
する。本発明者らの結果からは、主要なウェブ検索エン
ジンの相対的な検索範囲が分かり、セルバーグ及びエチ
オニが示しているように、いずれか1個の検索エンジン
の範囲は非常に限られたものであることが確認される。
ンジンは、質問をインターネット上にある複数のサード
パーティ検索エンジンに送り、各検索エンジンからの応
答を解析することで、質問に合致するドキュメントに関
する情報を抽出し、質問に合致するドキュメントの全テ
キストをダウンロードし、ドキュメント中で、質問用語
の位置を見つけ、質問用語の周囲のテキストを抽出する
ことにより、メタ検索の効率が向上して、その利用者が
真に要求している情報を迅速かつ的確にその利用者に提
示できるようになるという効果がある。
をインターネット上にある複数のサードパーティ画像検
索エンジンに送り、サードパーティ画像検索エンジンか
らの応答を解析することで、質問に合致する画像に関す
る情報を抽出し、質問に合致する画像をダウンロード
し、画像のサムネイル画像をユーザーに表示することに
より、メタ検索の効率が向上して、その利用者が真に要
求している画像データを迅速かつ的確にその利用者に提
示できるようになるという効果がある。
ン(ここでは、NECIメタ検索エンジン)のホームペ
ージを示す図である。
ンのオプションページを示す図である。
ンにおける「"nec"及び"digital watermark(デジタル
電子透かし)"」という質問に対する応答例の第1の部
分を示す図である。
ンにおける「"nec"及び"digital watermark"」という質
問に対する応答例の第2の部分を示す図であり、用語近
接度情報を含む関連性尺度によってページをランク付け
した結果を示している。
ンにおける「"nec"及び"digital watermark"」という質
問に対する応答例の第3の部分を示す図であり、質問用
語のうちの1つのみが見つかったページを示している。
ンにおける「"nec"及び"digital watermark"」という質
問に対する応答例の第4の部分を示す図であり、質問用
語が見つからなかったページを示している。
ンにおける「"nec"及び"digital watermark"」という質
問に対する応答例の第5の部分を示す図であり、先に見
つけたページに対する重複文脈文字列を含むページを示
している。
ンにおける「"nec"及び"digital watermark"」という質
問に対する応答例の第6の部分(最後の部分)を示す図
であり、個々の独立した検索エンジン等から得られた結
果を含む要約情報を示している。
ンのページ表示の例を示す図であって、質問用語をハイ
ライト表示するとともに、先頭部にあるリンクの表示に
よって、各質問用語がそれぞれ最初に現われたところに
ジャンプすることができることを示している。
ジンの概略制御フロー図であって、ページ検索デーモン
との相互作用を破線で示す図である。
検索を説明する概略制御フロー図であって、ページ検索
デーモンとの相互作用を破線で示す図である。
ースにおける「"koala(コアラ)"」という質問に対す
る、本発明の好ましい実施の形態のメタ検索エンジンの
応答例の第1の部分を示す図である。
ースにおける「"koala"」という質問に対する、本発明
の好ましい実施の形態のメタ検索エンジンの応答例の第
2の部分を示す図である。
データベースにおける「"koala"」という質問に対す
る、本発明の好ましい実施の形態のメタ検索エンジンの
応答例を示す図である。
ーを示す図である。
ての最初の2つのクラスターの概要を示す図である。
ンHuskySearchからのクラスターの第1の部分を示す図
である。
ンHuskySearchからのクラスターの第2の部分を示す図
である。
ンAltaVistaからのクラスターを示す図である。
好ましい実施の形態のメタ検索エンジンによって得られ
たクラスターを示す図である。
発明の好ましい実施の形態のメタ検索エンジンで得られ
るクラスタと、最初のクラスタの概要とを示す図であ
る。
and for)」という質問についての、本発明の好ましい実
施の形態のメタ検索エンジンの応答を示す図である。
の、検索エンジンInfoseekの応答を示す図である。
rainbow created?)」という質問についての、本発明の
好ましい実施の形態のメタ検索エンジンの応答を示す図
である。
問についての、検索エンジンInfoseekの応答を示す図で
ある。
achine?)」という質問についての、本発明の好ましい実
施の形態のメタ検索エンジンの応答を示す図である。
更されたURL(uniform resource locator)とを示すホ
ームページの例を示す図である。
えられたテキストを示す、ページ表示の例を示す図であ
る。
索エンジンのそれぞれの検索範囲を、これらの検索エン
ジン全体から得られる検索範囲と対比して示すグラフで
ある。
の質問に対する平均として、全体としての検索範囲の変
化を示すグラフであって、図中の指数曲線は、検索エン
ジン数に対して対数的に検索範囲が増大すると仮定した
ときの曲線であり、検索エンジン数が増えるとともに、
より多くのドキュメントが検索結果として与えられるこ
とがはっきりと分かる。
たインデックス付け可能なウェブの数を推定するため
に、6つの検索エンジンの全体から結果として得られた
ドキュメントの数と、検索エンジン間で重複する数とを
比較した結果を示す図である。
の推定数は、真の値より小さいと予想されている)に対
する、各検索エンジンの検索範囲を示すグラフである。
の応答時間のヒストグラムであり、これらヒストグラム
において、頻度は、ヒストグラムの各区間ごとにその区
間内の応答時間の比率を示すように、正規化されてい
る。
の応答時間のヒストグラムであり、(d)は、6個のエン
ジンに対して同時に質問を行った場合の最初の応答につ
いての、過去の分布から導かれた10000サンプルか
ら求めた応答時間のヒストグラムであり、これらヒスト
グラムにおいて、頻度は、ヒストグラムの各区間ごとに
その区間内の応答時間の比率を示すように、正規化され
ている。
ンが応答するまでの時間の中央値を示すグラフである。
したものについて、その応答が得られるまでに要した時
間の中央値をnの値ごとに示すグラフである。
布を示すヒストグラムである。
答したものについて、それをダウンロードするのに要し
た時間の中央値をnの値ごとに示すグラフである。
に要する応答時間を示すグラフである。
Claims (45)
- 【請求項1】 コンピュータで実行されるメタ検索方法
であって、 質問を複数のサードパーティ検索エンジンに送る段階
と、 前記サードパーティ検索エンジンからの応答を解析する
ことで、前記質問に合致するドキュメントに関する情報
を抽出する段階と、 前記質問に合致するドキュメントの全テキストをダウン
ロードする段階と、 前記ドキュメント中で、前記質問に用いた用語である質
問用語の位置を見つけ、前記質問用語の周囲のテキスト
を抽出する段階と、 前記質問用語の周囲のテキストを表示する段階と、を有
するメタ検索方法。 - 【請求項2】 コンピュータで実行されるメタ検索方法
であって、 質問をサードパーティ検索エンジンに送る段階と、 前記サードパーティ検索エンジンからの応答を解析する
ことで、前記質問に合致するドキュメントに関する情報
を抽出する段階と、 前記質問に合致するドキュメントの全テキストをダウン
ロードする段階と、 前記ドキュメント中で、前記質問に用いた用語である質
問用語の位置を見つけ、前記質問用語の周囲のテキスト
を抽出する段階と、 前記質問用語の周囲のテキストを表示する段階と、を有
するメタ検索方法。 - 【請求項3】 前記ドキュメントを検索しながら、前記
質問用語の周囲のテキストを順次に(progressively)
表示する段階をさらに有する請求項1または2に記載の
メタ検索方法。 - 【請求項4】 冗長な空白部、繰り返し文字、HTML
(hypertext markuplanguage)のコメント及びタグ、特殊
文字を除去することによって読みやすさを向上させるた
めに、文脈文字列(context string)のフィルタ処理を行
う段階をさらに有する請求項1または2に記載のメタ検
索方法。 - 【請求項5】 質問用語を含んでいないページを同定し
てフィルタ処理する段階をさらに有する請求項1または
2に記載のメタ検索方法。 - 【請求項6】 各ドキュメントの全テキストの解析と、
同時に出てくるフレーズ及び単語の同定と、同時に出て
くる及び単語の接続関係とに基づいて、前記ドキュメン
トのクラスタリングを実行する段階をさらに有する請求
項1または2に記載のメタ検索方法。 - 【請求項7】 質問に合致するドキュメントを保存し
て、質問を繰り返すことができるようにする段階と、新
規ドキュメントあるいは最後の質問以降または所定の時
間以降に変更を加えられたドキュメントのみを提示する
段階とをさらに有する請求項1または2に記載のメタ検
索方法。 - 【請求項8】 全体の表示を行う際に、(a)質問用語を
強調し、(b)迅速なジャンプリンクを挿入するために、
実際のドキュメントに対してフィルター処理を実行し、
これによって、ユーザーが関心のある質問用語に迅速に
ジャンプできるようにする段階をさらに有する請求項1
または2に記載のメタ検索方法。 - 【請求項9】 質問用語に関するメタ情報のデータベー
スを作成・使用する段階、例えば、映画タイトルのリス
トを保存し、ユーザーが映画タイトルを含む質問を入力
した時にそれを認識し、ユーザーに対して特定の映画論
評サイトにある当該映画の論評を示すなどの特別の動作
を実行する段階、をさらに有する請求項1または2に記
載のメタ検索方法。 - 【請求項10】 質問を行った前記サードパーティ検索
エンジンの数の関数として、見出されたと考えられるド
キュメント数を解析する段階と、前記サードパーティ検
索エンジンの推定サイズ及び該サードパーティ検索エン
ジンがインデックス付けするドキュメントの主構成部の
推定サイズを計算する段階と、をさらに有する有する請
求項1に記載のメタ検索方法。 - 【請求項11】 定期的な検索のスケジューリングを行
うことで、ユーザーに対して以前の検索以降の新規ドキ
ュメントまたは変更のあったドキュメントを知らせる段
階をさらに有する請求項1または2に記載のメタ検索方
法。 - 【請求項12】 ドキュメントが異なるヘッダ若しくは
フッタを有する場合であっても、重複する文脈を確認す
ることで、重複するドキュメントの検出を行う段階さら
にを有する請求項1または2に記載のメタ検索方法。 - 【請求項13】 全ドキュメントのキャッシュ化を行っ
て、アクセス速度を高める段階をさらに有する請求項1
または2に記載のメタ検索方法。 - 【請求項14】 入力された質問に基づいて文脈に応じ
た提案を用いる段階、例えば、前記質問がイニシャルを
表すと考えられる単一の文字を含む場合に、名前につい
ての検索を行う方法に関する提案を提供する段階、をさ
らに有する請求項1または2に記載のメタ検索方法。 - 【請求項15】 近接度に基づく順位付け方法を用い
て、質問用語数および質問用語間の近接度にしたがって
ドキュメントを再順位付けする段階をさらに有する請求
項1または2に記載のメタ検索方法。 - 【請求項16】 コンピュータで実行されキーワードに
基づいて画像を検索する画像検索方法であって、 質問を複数のサードパーティ画像検索エンジンに送る段
階と、 前記サードパーティ画像検索エンジンからの応答を解析
することで、前記質問に合致する画像に関する情報を抽
出する段階と、 前記質問に合致する画像をダウンロードする段階と、 前記画像のサムネイル画像をユーザーに表示する段階
と、を有する画像検索方法。 - 【請求項17】 コンピュータで実行されキーワードに
基づいて画像を検索する画像検索方法であって、 質問を複数のサードパーティテキスト検索エンジンに送
る段階と、 前記サードパーティテキスト検索エンジンからの応答を
解析することで、前記質問に合致するドキュメントに関
する情報を抽出する段階と、 前記質問に合致するドキュメントをダウンロードする段
階と、 前記ドキュメントを解析し、前記質問に用いた用語であ
る質問用語と画像タグまたは参照語(reference)との近
接度に基づいて、ユーザーの質問と合致しうる画像の配
備位置を決定する段階と、 前記画像をダウンロードする段階と、 前記画像のサムネイル画像をユーザーに表示する段階
と、を有する画像検索方法。 - 【請求項18】 ユーザーによって選択可能であり、画
像のサイズ、色または意味論的属性に基づく、画像のフ
ィルター処理を行う段階をさらに有する請求項16また
は17に記載の画像検索方法。 - 【請求項19】 画像やドキュメントのセクションを分
離するのに使用される水平方向バーなどの、ウェブで一
般的に使用される画像を同定してフィルター処理する段
階をさらに有する請求項16または17に記載の画像検
索方法。 - 【請求項20】 類似する画像を同定してフィルター処
理を行う段階をさらに有する請求項16または17に記
載の画像検索方法。 - 【請求項21】 写真、線画、ロゴ、地図、漫画、ポー
トレート、ボタン、チャート及び天文画などの画像の種
類を同定する段階と、その画像の種類に基づいてフィル
ター処理を行う段階と、をさらに有する請求項16また
は17に記載の画像検索方法。 - 【請求項22】 質問に合致する画像を保存して、質問
を繰り返すことができるようにする段階と、新規画像の
みを提示する段階とをさらに有する請求項16または1
7に記載の画像検索方法。 - 【請求項23】 画像の種類などのメタ情報を保存する
ことで、新たな質問に対して画像の再ダウンロードを行
うことなく、前記メタ情報を用いて画像のフィルター処
理を行うことができるようにする段階をさらに有する請
求項16または17に記載の画像検索方法。 - 【請求項24】 画像全体を表示するとともに可能であ
ればその画像を参照するドキュメントを表示し、ドキュ
メント中での質問用語を強調表示する段階をさらに有す
る請求項16または17に記載の画像検索方法。 - 【請求項25】 コンピュータに実装されるメタ検索エ
ンジンであって、 質問を複数のサードパーティ検索エンジンに送る手段
と、 前記サードパーティ検索エンジンからの応答を解析する
ことで、前記質問に合致するドキュメントに関する情報
を抽出する手段と、 前記質問に合致するドキュメントの全テキストをダウン
ロードする手段と、 前記ドキュメント中で、前記質問に用いた用語である質
問用語の位置を見つけ、前記質問用語の周囲のテキスト
を抽出する手段と、 前記質問用語の周囲のテキストを表示する手段と、を有
するメタ検索エンジン。 - 【請求項26】 コンピュータに実装されるメタ検索エ
ンジンであって、 質問をサードパーティ検索エンジンに送る手段と、 前記サードパーティ検索エンジンからの応答を解析する
ことで、前記質問に合致するドキュメントに関する情報
を抽出する手段と、 前記質問に合致するドキュメントの全テキストをダウン
ロードする手段と、 前記ドキュメント中で、前記質問に用いた用語である質
問用語の位置を見つけ、前記質問用語の周囲のテキスト
を抽出する手段と、 前記質問用語の周囲のテキストを表示する手段と、を有
するメタ検索エンジン。 - 【請求項27】 前記ドキュメントを検索しながら、前
記質問用語の周囲のテキストを順次に(progressivel
y)表示する手段をさらに有する請求項25または26
に記載のメタ検索エンジン。 - 【請求項28】 冗長な空白部、繰り返し文字、HTM
L(hypertext markup language)のコメント及びタグ、
特殊文字を除去することによって読みやすさを向上させ
るために、文脈文字列(context string)のフィルタ処理
を行う手段をさらに有する請求項25または26に記載
のメタ検索エンジン。 - 【請求項29】 質問用語を含んでいないページを同定
してフィルタ処理する段階をさらに有する請求項25ま
たは26に記載のメタ検索エンジン。 - 【請求項30】 各ドキュメントの全テキストの解析
と、同時に出てくるフレーズ及び単語の同定と、同時に
出てくる及び単語の接続関係とに基づいて、前記ドキュ
メントのクラスタリングを実行する機構をさらに有する
請求項25または26に記載のメタ検索エンジン。 - 【請求項31】 質問に合致するドキュメントを保存し
て、質問を繰り返すことができるようにするとともに、
新規ドキュメントあるいは最後の質問以降または所定の
時間以降に変更を加えられたドキュメントのみを提示す
る機構をさらに有する請求項25または26に記載のメ
タ検索エンジン。 - 【請求項32】 コンピュータに実装されキーワードに
基づいて画像を検索する画像検索エンジンであって、 質問を複数のサードパーティ画像検索エンジンに送る手
段と、 前記サードパーティ画像検索エンジンからの応答を解析
することで、前記質問に合致する画像に関する情報を抽
出する手段と、 前記質問に合致する画像をダウンロードする手段と、 前記画像のサムネイル画像をユーザーに表示する手段
と、を有する画像検索エンジン。 - 【請求項33】 コンピュータに実装されキーワードに
基づいて画像を検索する画像検索エンジンであって、 質問を複数のサードパーティテキスト検索エンジンに送
る手段と、 前記サードパーティテキスト検索エンジンからの応答を
解析することで、前記質問に合致するドキュメントに関
する情報を抽出する手段と、 前記質問に合致するドキュメントをダウンロードする手
段と、 前記ドキュメントを解析し、前記質問に用いた用語であ
る質問用語と画像タグまたは参照語(reference)との近
接度に基づいて、ユーザーの質問と合致しうる画像の配
備位置を決定する手段と、 前記画像をダウンロードする手段と、 前記画像のサムネイル画像をユーザーに表示する手段
と、を有する画像検索エンジン。 - 【請求項34】 画像のサイズ、色または意味論的属性
に基づいて、選択可能なフィルター処理を画像に行う手
段をさらに有する請求項32または33に記載の画像検
索エンジン。 - 【請求項35】 画像やドキュメントのセクションを分
離するのに使用される水平方向バーなどの、ウェブで一
般的に使用される画像を同定してフィルター処理する手
段をさらに有する請求項32または33に記載の画像検
索エンジン。 - 【請求項36】 類似する画像を同定してフィルター処
理を行う手段をさらに有する請求項32または33に記
載の画像検索エンジン。 - 【請求項37】 写真、線画、ロゴ、地図、漫画、ポー
トレート、ボタン、チャート及び天文画などの画像の種
類を同定し、その画像の種類に基づいてフィルター処理
を行う手段をさらに有する請求項32または33に記載
の画像検索エンジン。 - 【請求項38】 質問に合致する画像を保存して質問を
繰り返すことができるようにするとともに、新規画像の
みを提示する手段をさらに有する請求項32または33
に記載の画像検索エンジン。 - 【請求項39】 画像の種類などのメタ情報を保存する
ことで、新たな質問に対して画像の再ダウンロードを行
うことなく、前記メタ情報を用いて画像のフィルター処
理を行うことができるようにする手段をさらに有する請
求項32または33に記載の画像検索エンジン。 - 【請求項40】 画像全体を表示するとともに可能であ
ればその画像を参照するドキュメントを表示する手段
と、ドキュメント中での質問用語を強調表示する手段と
をさらに有する請求項32または33に記載の画像検索
エンジン。 - 【請求項41】 コンピュータによって実行され、サー
ドパーティの検索エンジンの相対的検索範囲を推定する
方法であって、 2個のサードパーティの検索エンジンに対して1群の質
問を送る段階と、 各検索エンジンからの結果の完全リストを検索する段階
と、 各検索エンジンによってリストアップされた全ページの
テキストを検索する段階と、 利用できないページ及び質問と合致しないページをフィ
ルター処理によって除去する段階と、 各検索エンジンからのページのうち残ったページの数を
比較する段階と、を有する相対的検索範囲推定方法。 - 【請求項42】 コンピュータで実行される情報検索方
法であって、 疑問の形態の質問を認識する段階と、 前記疑問に対する回答が表現されると考えられる1以上
の具体的表現形式からなる集合に前記質問を変換する段
階と、 前記変換された質問について検索を行う段階と、を有す
る情報検索方法。 - 【請求項43】 各種類の疑問についての前記具体的表
現形式がマニュアル操作で記述されている請求項42記
載の情報検索方法。 - 【請求項44】 質問を複数のサードパーティ検索エン
ジンに送る段階と、 前記サードパーティ検索エンジンからの応答を解析する
ことで、前記質問に合致するドキュメントに関する情報
を抽出する段階と、 前記質問に合致するドキュメントの全テキストをダウン
ロードする段階と、 前記ドキュメント中で、前記質問に用いた用語である質
問用語の位置を見つけ、前記質問用語の周囲のテキスト
を抽出する段階と、 前記質問用語の周囲のテキストを表示する段階と、 前記文脈の共通形式を同定する段階と、を有する検索方
法によって、ユーザーが選択するドキュメント中の質問
用語の文脈を解析することで、各種類の疑問についての
前記具体的表現形式が学習される請求項42記載の情報
検索方法。 - 【請求項45】 コンピュータで実行される質問拡張方
法であって、 質問に用いた用語である質問用語を語幹化(stemming)す
る段階と、 前記質問に対する結果のページの集合において、前記質
問用語の共通に出現する変形語(morphological varian
t)を検索する段階と、 前記共通に出現する変形語を用いて、質問の拡張を行う
段階と、を有する質問拡張方法。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US6295897P | 1997-10-10 | 1997-10-10 | |
US09/113751 | 1998-07-10 | ||
US09/113,751 US6999959B1 (en) | 1997-10-10 | 1998-07-10 | Meta search engine |
US60/062958 | 1998-07-10 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001237654A Division JP2002132832A (ja) | 1997-10-10 | 2001-08-06 | 画像検索方法及び画像検索エンジン装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH11191114A true JPH11191114A (ja) | 1999-07-13 |
JP3303912B2 JP3303912B2 (ja) | 2002-07-22 |
Family
ID=26742911
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP28659998A Expired - Fee Related JP3303912B2 (ja) | 1997-10-10 | 1998-10-08 | メタ検索方法及びメタ検索エンジン装置 |
JP2001237654A Pending JP2002132832A (ja) | 1997-10-10 | 2001-08-06 | 画像検索方法及び画像検索エンジン装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001237654A Pending JP2002132832A (ja) | 1997-10-10 | 2001-08-06 | 画像検索方法及び画像検索エンジン装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US6999959B1 (ja) |
JP (2) | JP3303912B2 (ja) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000006664A (ko) * | 1999-09-29 | 2000-02-07 | 문성일 | 엔드유저 컴퓨터에 세팅되는 메타검색엔진 |
JP2001188803A (ja) * | 1999-11-17 | 2001-07-10 | Xerox Corp | クローラ型検索及び索引型検索を実行するシステム及び方法 |
JP2001325275A (ja) * | 2000-05-17 | 2001-11-22 | Gala Inc | インターネット上で運用されている複数の検索エンジンを使ってwebページの検索レポートを作成する方法と装置 |
JP2001344240A (ja) * | 2000-05-31 | 2001-12-14 | Nippon System Kikaku Kk | インターネット上の検索方法及び検索システム |
EP1209583A2 (en) * | 2000-10-19 | 2002-05-29 | Gruppo Euromedia S.R.L. | Method and device for searching for information on a data communications network |
JP2002207655A (ja) * | 2001-01-10 | 2002-07-26 | Toshiba Corp | 情報統合方法、プログラム及びシステム |
JP2002297651A (ja) * | 2001-03-30 | 2002-10-11 | Nec Corp | 情報検索方法、情報検索システム、およびプログラム |
JP2002366549A (ja) * | 2001-05-07 | 2002-12-20 | Nec Corp | 選択的検索メタ探索エンジンおよび選択的検索を行う方法 |
KR100382600B1 (ko) * | 2000-01-31 | 2003-05-01 | 주식회사 제이.이.씨 | 네트워크 시스템을 이용한 통합웹검색서비스 제공방법 및그 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체 |
KR100530256B1 (ko) * | 2000-06-13 | 2005-11-22 | 삼성물산 주식회사 | 인터넷 메시지의 자동 검색 및 링크 방법 및 장치 |
JP2006244102A (ja) * | 2005-03-03 | 2006-09-14 | Univ Of Tsukuba | 質問応答システム |
JP2009010957A (ja) * | 2008-07-07 | 2009-01-15 | Nec Corp | 情報配信サービスシステムおよび情報配信方法 |
JP2012043320A (ja) * | 2010-08-23 | 2012-03-01 | Mic Ware:Kk | 地図画像取得装置、地図画像取得方法、及びプログラム |
CN107748764A (zh) * | 2017-09-27 | 2018-03-02 | 合肥博力生产力促进中心有限公司 | 一种用于企业服务的远程辅助指导控制系统 |
Families Citing this family (135)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7562392B1 (en) * | 1999-05-19 | 2009-07-14 | Digimarc Corporation | Methods of interacting with audio and ambient music |
US7602940B2 (en) * | 1998-04-16 | 2009-10-13 | Digimarc Corporation | Steganographic data hiding using a device clock |
US6144958A (en) * | 1998-07-15 | 2000-11-07 | Amazon.Com, Inc. | System and method for correcting spelling errors in search queries |
US7801913B2 (en) * | 1998-12-07 | 2010-09-21 | Oracle International Corporation | System and method for querying data for implicit hierarchies |
US6587856B1 (en) * | 1998-12-07 | 2003-07-01 | Oracle International Corporation | Method and system for representing and accessing object-oriented data in a relational database system |
AU1936900A (en) * | 1998-12-08 | 2000-06-26 | Mediadna, Inc. | A system and method of obfuscating data |
US6636853B1 (en) | 1999-08-30 | 2003-10-21 | Morphism, Llc | Method and apparatus for representing and navigating search results |
US7099925B1 (en) * | 2000-03-15 | 2006-08-29 | Drugstore.Com | Electronic commerce session management |
US9246975B2 (en) | 2000-03-17 | 2016-01-26 | Facebook, Inc. | State change alerts mechanism |
US7624172B1 (en) | 2000-03-17 | 2009-11-24 | Aol Llc | State change alerts mechanism |
US7912915B1 (en) * | 2000-05-01 | 2011-03-22 | Google Inc. | Systems and methods for enticing users to access a web site |
US6832220B1 (en) * | 2000-08-03 | 2004-12-14 | Microsoft Corporation | Method and apparatus for file searching, accessing file identifiers from reference page |
US7359951B2 (en) | 2000-08-08 | 2008-04-15 | Aol Llc, A Delaware Limited Liability Company | Displaying search results |
US7047229B2 (en) * | 2000-08-08 | 2006-05-16 | America Online, Inc. | Searching content on web pages |
US7007008B2 (en) * | 2000-08-08 | 2006-02-28 | America Online, Inc. | Category searching |
US20030217052A1 (en) * | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
IL140241A (en) * | 2000-12-11 | 2007-02-11 | Celebros Ltd | Interactive searching system and method |
US7451136B2 (en) * | 2000-10-11 | 2008-11-11 | Microsoft Corporation | System and method for searching multiple disparate search engines |
US7308445B2 (en) * | 2000-11-08 | 2007-12-11 | Overture Services, Inc. | Method for estimating coverage of web search engines |
US7191252B2 (en) | 2000-11-13 | 2007-03-13 | Digital Doors, Inc. | Data security system and method adjunct to e-mail, browser or telecom program |
US7822621B1 (en) | 2001-05-16 | 2010-10-26 | Perot Systems Corporation | Method of and system for populating knowledge bases using rule based systems and object-oriented software |
US7831442B1 (en) | 2001-05-16 | 2010-11-09 | Perot Systems Corporation | System and method for minimizing edits for medical insurance claims processing |
US7236940B2 (en) | 2001-05-16 | 2007-06-26 | Perot Systems Corporation | Method and system for assessing and planning business operations utilizing rule-based statistical modeling |
US7216088B1 (en) | 2001-07-26 | 2007-05-08 | Perot Systems Corporation | System and method for managing a project based on team member interdependency and impact relationships |
US7257568B2 (en) * | 2001-10-16 | 2007-08-14 | Sizatola, Llc | Process and system for matching products and markets |
US7313531B2 (en) * | 2001-11-29 | 2007-12-25 | Perot Systems Corporation | Method and system for quantitatively assessing project risk and effectiveness |
US7404004B2 (en) * | 2002-02-26 | 2008-07-22 | Microsoft Corporation | Page function architectural framework |
US6973624B2 (en) | 2002-02-26 | 2005-12-06 | Microsoft Corporation | Page function architectural framework |
US6996558B2 (en) | 2002-02-26 | 2006-02-07 | International Business Machines Corporation | Application portability and extensibility through database schema and query abstraction |
US7082561B2 (en) * | 2002-04-30 | 2006-07-25 | Lsi Logic Corporation | Built-in functional tester for search engines |
US8122137B2 (en) | 2002-11-18 | 2012-02-21 | Aol Inc. | Dynamic location of a subordinate user |
US7428580B2 (en) | 2003-11-26 | 2008-09-23 | Aol Llc | Electronic message forwarding |
CA2506585A1 (en) | 2002-11-18 | 2004-06-03 | Valerie Kucharewski | People lists |
US7590696B1 (en) | 2002-11-18 | 2009-09-15 | Aol Llc | Enhanced buddy list using mobile device identifiers |
US7640306B2 (en) | 2002-11-18 | 2009-12-29 | Aol Llc | Reconfiguring an electronic message to effect an enhanced notification |
US8701014B1 (en) | 2002-11-18 | 2014-04-15 | Facebook, Inc. | Account linking |
US8005919B2 (en) | 2002-11-18 | 2011-08-23 | Aol Inc. | Host-based intelligent results related to a character stream |
US8965964B1 (en) | 2002-11-18 | 2015-02-24 | Facebook, Inc. | Managing forwarded electronic messages |
US7899862B2 (en) | 2002-11-18 | 2011-03-01 | Aol Inc. | Dynamic identification of other users to an online user |
US7640267B2 (en) | 2002-11-20 | 2009-12-29 | Radar Networks, Inc. | Methods and systems for managing entities in a computing device using semantic objects |
US20040143644A1 (en) * | 2003-01-21 | 2004-07-22 | Nec Laboratories America, Inc. | Meta-search engine architecture |
US20050177564A1 (en) * | 2003-03-13 | 2005-08-11 | Fujitsu Limited | Server, method, computer product, and terminal device for searching item data |
US7200785B2 (en) * | 2003-03-13 | 2007-04-03 | Lsi Logic Corporation | Sequential tester for longest prefix search engines |
US7613776B1 (en) | 2003-03-26 | 2009-11-03 | Aol Llc | Identifying and using identities deemed to be known to a user |
US7685010B2 (en) | 2003-04-04 | 2010-03-23 | Netsuite, Inc. | Concise communication of real-time business information in an enterprise network |
US7685515B2 (en) * | 2003-04-04 | 2010-03-23 | Netsuite, Inc. | Facilitating data manipulation in a browser-based user interface of an enterprise business application |
US8321470B2 (en) * | 2003-06-20 | 2012-11-27 | International Business Machines Corporation | Heterogeneous multi-level extendable indexing for general purpose annotation systems |
US9026901B2 (en) * | 2003-06-20 | 2015-05-05 | International Business Machines Corporation | Viewing annotations across multiple applications |
US7315857B2 (en) * | 2004-05-13 | 2008-01-01 | International Business Machines Corporation | Method and system for propagating annotations using pattern matching |
GB2403636A (en) * | 2003-07-02 | 2005-01-05 | Sony Uk Ltd | Information retrieval using an array of nodes |
US7653693B2 (en) | 2003-09-05 | 2010-01-26 | Aol Llc | Method and system for capturing instant messages |
WO2005020103A1 (en) * | 2003-08-18 | 2005-03-03 | Sap Aktiengesellschaft | Generic search engine framework |
US7340447B2 (en) * | 2003-10-09 | 2008-03-04 | Oracle International Corporation | Partitioning data access requests |
US7617196B2 (en) | 2003-10-22 | 2009-11-10 | International Business Machines Corporation | Context-sensitive term expansion with multiple levels of expansion |
US7593929B2 (en) * | 2003-10-22 | 2009-09-22 | International Business Machines Corporation | Context sensitive term expansion with dynamic term expansion |
US20050114306A1 (en) * | 2003-11-20 | 2005-05-26 | International Business Machines Corporation | Integrated searching of multiple search sources |
US7900133B2 (en) | 2003-12-09 | 2011-03-01 | International Business Machines Corporation | Annotation structure type determination |
US7370037B2 (en) * | 2003-12-29 | 2008-05-06 | International Business Machines Corporation | Methods for processing a text search query in a collection of documents |
US20050187920A1 (en) * | 2004-01-23 | 2005-08-25 | Porto Ranelli, Sa | Contextual searching |
US8595146B1 (en) | 2004-03-15 | 2013-11-26 | Aol Inc. | Social networking permissions |
US7359893B2 (en) * | 2004-03-31 | 2008-04-15 | Yahoo! Inc. | Delivering items based on links to resources associated with search results |
US9009313B2 (en) | 2004-07-12 | 2015-04-14 | NetSuite Inc. | Simultaneous maintenance of multiple versions of a web-based business information system |
US7558843B2 (en) | 2004-07-12 | 2009-07-07 | Netsuite, Inc. | Phased rollout of version upgrades in web-based business information systems |
US20060184514A1 (en) * | 2004-07-22 | 2006-08-17 | Weiyi Meng | Large-scale metasearch engine |
US7606793B2 (en) * | 2004-09-27 | 2009-10-20 | Microsoft Corporation | System and method for scoping searches using index keys |
US20060080292A1 (en) * | 2004-10-08 | 2006-04-13 | Alanzi Faisal Saud M | Enhanced interface utility for web-based searching |
US20060109327A1 (en) * | 2004-11-01 | 2006-05-25 | Diamond Arthur S | Radiofrequency activated inkjet inks and apparatus for inkjet printing |
US20060101504A1 (en) * | 2004-11-09 | 2006-05-11 | Veveo.Tv, Inc. | Method and system for performing searches for television content and channels using a non-intrusive television interface and with reduced text input |
US7895218B2 (en) * | 2004-11-09 | 2011-02-22 | Veveo, Inc. | Method and system for performing searches for television content using reduced text input |
US20070266406A1 (en) * | 2004-11-09 | 2007-11-15 | Murali Aravamudan | Method and system for performing actions using a non-intrusive television with reduced text input |
US7877382B1 (en) * | 2004-12-31 | 2011-01-25 | Google, Inc. | System and methods for detecting images distracting to a user |
US7962504B1 (en) | 2005-05-26 | 2011-06-14 | Aol Inc. | Sourcing terms into a search engine |
US8417697B2 (en) | 2005-08-22 | 2013-04-09 | Google Inc. | Permitting users to remove documents |
US7788266B2 (en) | 2005-08-26 | 2010-08-31 | Veveo, Inc. | Method and system for processing ambiguous, multi-term search queries |
US9507850B1 (en) * | 2005-08-30 | 2016-11-29 | ProQuest, LLC | Method and system for searching databases |
US7620607B1 (en) * | 2005-09-26 | 2009-11-17 | Quintura Inc. | System and method for using a bidirectional neural network to identify sentences for use as document annotations |
US7475072B1 (en) | 2005-09-26 | 2009-01-06 | Quintura, Inc. | Context-based search visualization and context management using neural networks |
WO2007038713A2 (en) * | 2005-09-28 | 2007-04-05 | Epacris Inc. | Search engine determining results based on probabilistic scoring of relevance |
US20090037396A1 (en) * | 2005-10-18 | 2009-02-05 | Justsystems Corporation | Search apparatus and search method |
US7533084B2 (en) * | 2005-11-15 | 2009-05-12 | International Business Machines Corporation | Monitoring user specific information on websites |
US7644054B2 (en) * | 2005-11-23 | 2010-01-05 | Veveo, Inc. | System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors |
US20070179849A1 (en) * | 2006-02-02 | 2007-08-02 | Microsoft Corporation | Ad publisher performance and mitigation of click fraud |
US20070179853A1 (en) * | 2006-02-02 | 2007-08-02 | Microsoft Corporation | Allocating rebate points |
US20070179848A1 (en) * | 2006-02-02 | 2007-08-02 | Microsoft Corporation | Employing customer points to confirm transaction |
US7571162B2 (en) * | 2006-03-01 | 2009-08-04 | Microsoft Corporation | Comparative web search |
US7657526B2 (en) | 2006-03-06 | 2010-02-02 | Veveo, Inc. | Methods and systems for selecting and presenting content based on activity level spikes associated with the content |
US8073860B2 (en) * | 2006-03-30 | 2011-12-06 | Veveo, Inc. | Method and system for incrementally selecting and providing relevant search engines in response to a user query |
US20070255693A1 (en) * | 2006-03-30 | 2007-11-01 | Veveo, Inc. | User interface method and system for incrementally searching and selecting content items and for presenting advertising in response to search activities |
US7461061B2 (en) | 2006-04-20 | 2008-12-02 | Veveo, Inc. | User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content |
US20070255701A1 (en) * | 2006-04-28 | 2007-11-01 | Halla Jason M | System and method for analyzing internet content and correlating to events |
US7558787B2 (en) * | 2006-07-05 | 2009-07-07 | Yahoo! Inc. | Automatic relevance and variety checking for web and vertical search engines |
US8117545B2 (en) * | 2006-07-05 | 2012-02-14 | Magnify Networks, Inc. | Hosted video discovery and publishing platform |
WO2008045690A2 (en) | 2006-10-06 | 2008-04-17 | Veveo, Inc. | Linear character selection display interface for ambiguous text input |
US8078884B2 (en) | 2006-11-13 | 2011-12-13 | Veveo, Inc. | Method of and system for selecting and presenting content based on user identification |
US8423565B2 (en) * | 2006-12-21 | 2013-04-16 | Digital Doors, Inc. | Information life cycle search engine and method |
US8468244B2 (en) | 2007-01-05 | 2013-06-18 | Digital Doors, Inc. | Digital information infrastructure and method for security designated data and with granular data stores |
US7437370B1 (en) * | 2007-02-19 | 2008-10-14 | Quintura, Inc. | Search engine graphical interface using maps and images |
US10394771B2 (en) * | 2007-02-28 | 2019-08-27 | International Business Machines Corporation | Use of search templates to identify slow information server search patterns |
JP2008250498A (ja) * | 2007-03-29 | 2008-10-16 | Canon Inc | 情報処理装置および情報処理方法 |
US7844605B2 (en) * | 2007-04-20 | 2010-11-30 | Yahoo! Inc. | Using natural search click events to optimize online advertising campaigns |
US8549424B2 (en) * | 2007-05-25 | 2013-10-01 | Veveo, Inc. | System and method for text disambiguation and context designation in incremental search |
US20080313574A1 (en) * | 2007-05-25 | 2008-12-18 | Veveo, Inc. | System and method for search with reduced physical interaction requirements |
CN100461183C (zh) * | 2007-07-10 | 2009-02-11 | 北京大学 | 网络搜索中基于多种规则的元数据自动抽取方法 |
US7899805B2 (en) * | 2007-08-31 | 2011-03-01 | Microsoft Corporation | Augmenting URL queries |
US20090106221A1 (en) * | 2007-10-18 | 2009-04-23 | Microsoft Corporation | Ranking and Providing Search Results Based In Part On A Number Of Click-Through Features |
US9348912B2 (en) * | 2007-10-18 | 2016-05-24 | Microsoft Technology Licensing, Llc | Document length as a static relevance feature for ranking search results |
US8943539B2 (en) | 2007-11-21 | 2015-01-27 | Rovi Guides, Inc. | Enabling a friend to remotely modify user data |
US7814108B2 (en) * | 2007-12-21 | 2010-10-12 | Microsoft Corporation | Search engine platform |
US20090171907A1 (en) * | 2007-12-26 | 2009-07-02 | Radovanovic Nash R | Method and system for searching text-containing documents |
US8392436B2 (en) * | 2008-02-07 | 2013-03-05 | Nec Laboratories America, Inc. | Semantic search via role labeling |
US20090240670A1 (en) * | 2008-03-20 | 2009-09-24 | Yahoo! Inc. | Uniform resource identifier alignment |
US8180754B1 (en) | 2008-04-01 | 2012-05-15 | Dranias Development Llc | Semantic neural network for aggregating query searches |
US8812493B2 (en) * | 2008-04-11 | 2014-08-19 | Microsoft Corporation | Search results ranking using editing distance and document information |
EP2277116A1 (de) * | 2008-05-08 | 2011-01-26 | IQser IP AG | Erstellung eines kategorienbaums über den inhalt eines datenbestandes |
US20090327224A1 (en) * | 2008-06-26 | 2009-12-31 | Microsoft Corporation | Automatic Classification of Search Engine Quality |
US20100017388A1 (en) * | 2008-07-21 | 2010-01-21 | Eric Glover | Systems and methods for performing a multi-step constrained search |
CN101510217B (zh) * | 2009-03-09 | 2013-06-05 | 阿里巴巴集团控股有限公司 | 图像数据库中的图像更新方法、服务器及系统 |
WO2010120934A2 (en) | 2009-04-15 | 2010-10-21 | Evri Inc. | Search enhanced semantic advertising |
US8200617B2 (en) * | 2009-04-15 | 2012-06-12 | Evri, Inc. | Automatic mapping of a location identifier pattern of an object to a semantic type using object metadata |
US20110055238A1 (en) * | 2009-08-28 | 2011-03-03 | Yahoo! Inc. | Methods and systems for generating non-overlapping facets for a query |
US20110191330A1 (en) * | 2010-02-04 | 2011-08-04 | Veveo, Inc. | Method of and System for Enhanced Content Discovery Based on Network and Device Access Behavior |
US10417334B2 (en) * | 2010-04-19 | 2019-09-17 | Oath, Inc. | Systems and methods for providing a microdocument framework for storage, retrieval, and aggregation |
US10204163B2 (en) * | 2010-04-19 | 2019-02-12 | Microsoft Technology Licensing, Llc | Active prediction of diverse search intent based upon user browsing behavior |
US8738635B2 (en) * | 2010-06-01 | 2014-05-27 | Microsoft Corporation | Detection of junk in search result ranking |
US8341142B2 (en) * | 2010-09-08 | 2012-12-25 | Nuance Communications, Inc. | Methods and apparatus for searching the Internet |
WO2012034069A1 (en) * | 2010-09-10 | 2012-03-15 | Veveo, Inc. | Method of and system for conducting personalized federated search and presentation of results therefrom |
JP5175951B2 (ja) | 2011-04-27 | 2013-04-03 | 株式会社東芝 | 映像表示装置、映像表示管理装置、映像表示方法、及び映像表示管理方法 |
US9495462B2 (en) | 2012-01-27 | 2016-11-15 | Microsoft Technology Licensing, Llc | Re-ranking search results |
US20130282714A1 (en) * | 2012-04-18 | 2013-10-24 | Yumber, Inc. | Personalized Redirection Identifiers |
WO2017123785A1 (en) * | 2016-01-12 | 2017-07-20 | Veritone, Inc. | User interface for multivariate searching |
US10380124B2 (en) * | 2016-10-06 | 2019-08-13 | Oracle International Corporation | Searching data sets |
BR112019013977A2 (pt) | 2017-01-13 | 2020-04-28 | Deutsche Telekom Ag | método para uma pesquisa de informação orientada por usuário e aprimorada e coleta de informação, sistema, programa e produto de programa de computador |
US10509836B2 (en) * | 2017-04-19 | 2019-12-17 | Rovi Guides, Inc. | Systems and methods for presenting search results from multiple sources |
CN111259225B (zh) | 2018-12-03 | 2023-04-25 | 阿里巴巴集团控股有限公司 | 新媒体信息展示方法、装置、电子设备及计算机可读介质 |
US11176158B2 (en) * | 2019-07-31 | 2021-11-16 | International Business Machines Corporation | Intelligent use of extraction techniques |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5724571A (en) * | 1995-07-07 | 1998-03-03 | Sun Microsystems, Inc. | Method and apparatus for generating query responses in a computer-based document retrieval system |
US5913215A (en) * | 1996-04-09 | 1999-06-15 | Seymour I. Rubinstein | Browse by prompted keyword phrases with an improved method for obtaining an initial document set |
US5987446A (en) * | 1996-11-12 | 1999-11-16 | U.S. West, Inc. | Searching large collections of text using multiple search engines concurrently |
US6078914A (en) * | 1996-12-09 | 2000-06-20 | Open Text Corporation | Natural language meta-search system and method |
US6044385A (en) * | 1997-09-10 | 2000-03-28 | International Business Machines Corporation | Method and system for efficiently managing the manipulation of large documents displayed within a computer screen |
US6094649A (en) * | 1997-12-22 | 2000-07-25 | Partnet, Inc. | Keyword searches of structured databases |
US6151624A (en) * | 1998-02-03 | 2000-11-21 | Realnames Corporation | Navigating network resources based on metadata |
US6092074A (en) * | 1998-02-10 | 2000-07-18 | Connect Innovations, Inc. | Dynamic insertion and updating of hypertext links for internet servers |
-
1998
- 1998-07-10 US US09/113,751 patent/US6999959B1/en not_active Expired - Fee Related
- 1998-10-08 JP JP28659998A patent/JP3303912B2/ja not_active Expired - Fee Related
-
2001
- 2001-08-06 JP JP2001237654A patent/JP2002132832A/ja active Pending
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20000006664A (ko) * | 1999-09-29 | 2000-02-07 | 문성일 | 엔드유저 컴퓨터에 세팅되는 메타검색엔진 |
JP2001188803A (ja) * | 1999-11-17 | 2001-07-10 | Xerox Corp | クローラ型検索及び索引型検索を実行するシステム及び方法 |
KR100382600B1 (ko) * | 2000-01-31 | 2003-05-01 | 주식회사 제이.이.씨 | 네트워크 시스템을 이용한 통합웹검색서비스 제공방법 및그 방법을 기록한 컴퓨터로 읽을 수 있는 기록매체 |
JP2001325275A (ja) * | 2000-05-17 | 2001-11-22 | Gala Inc | インターネット上で運用されている複数の検索エンジンを使ってwebページの検索レポートを作成する方法と装置 |
JP2001344240A (ja) * | 2000-05-31 | 2001-12-14 | Nippon System Kikaku Kk | インターネット上の検索方法及び検索システム |
KR100530256B1 (ko) * | 2000-06-13 | 2005-11-22 | 삼성물산 주식회사 | 인터넷 메시지의 자동 검색 및 링크 방법 및 장치 |
EP1209583A3 (en) * | 2000-10-19 | 2003-03-19 | Gruppo Euromedia S.R.L. | Method and device for searching for information on a data communications network |
EP1209583A2 (en) * | 2000-10-19 | 2002-05-29 | Gruppo Euromedia S.R.L. | Method and device for searching for information on a data communications network |
JP2002207655A (ja) * | 2001-01-10 | 2002-07-26 | Toshiba Corp | 情報統合方法、プログラム及びシステム |
JP2002297651A (ja) * | 2001-03-30 | 2002-10-11 | Nec Corp | 情報検索方法、情報検索システム、およびプログラム |
JP2002366549A (ja) * | 2001-05-07 | 2002-12-20 | Nec Corp | 選択的検索メタ探索エンジンおよび選択的検索を行う方法 |
JP2006244102A (ja) * | 2005-03-03 | 2006-09-14 | Univ Of Tsukuba | 質問応答システム |
JP4512826B2 (ja) * | 2005-03-03 | 2010-07-28 | 国立大学法人 筑波大学 | 質問応答システム |
JP2009010957A (ja) * | 2008-07-07 | 2009-01-15 | Nec Corp | 情報配信サービスシステムおよび情報配信方法 |
JP2012043320A (ja) * | 2010-08-23 | 2012-03-01 | Mic Ware:Kk | 地図画像取得装置、地図画像取得方法、及びプログラム |
CN107748764A (zh) * | 2017-09-27 | 2018-03-02 | 合肥博力生产力促进中心有限公司 | 一种用于企业服务的远程辅助指导控制系统 |
Also Published As
Publication number | Publication date |
---|---|
JP2002132832A (ja) | 2002-05-10 |
US6999959B1 (en) | 2006-02-14 |
JP3303912B2 (ja) | 2002-07-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP3303912B2 (ja) | メタ検索方法及びメタ検索エンジン装置 | |
US8495049B2 (en) | System and method for extracting content for submission to a search engine | |
US7630973B2 (en) | Method for identifying related pages in a hyperlinked database | |
US6490579B1 (en) | Search engine system and method utilizing context of heterogeneous information resources | |
EP1202187B1 (en) | Image retrieval system and methods with semantic and feature based relevance feedback | |
US8200704B2 (en) | Searching structured data | |
US9367637B2 (en) | System and method for searching a bookmark and tag database for relevant bookmarks | |
US5913208A (en) | Identifying duplicate documents from search results without comparing document content | |
US8527491B2 (en) | Expanded text excerpts | |
JP4785838B2 (ja) | マルチバージョンウェブドキュメントのためのウェブサーバ | |
US6789076B1 (en) | System, method and program for augmenting information retrieval in a client/server network using client-side searching | |
US6381593B1 (en) | Document information management system | |
US8965894B2 (en) | Automated web page classification | |
US7664767B2 (en) | System and method for geographically organizing and classifying businesses on the world-wide web | |
US9613061B1 (en) | Image selection for news search | |
JP2001510607A (ja) | 増殖概念による索引付け手法を用いたインテリジェントネットワークブラウザ | |
US7024405B2 (en) | Method and apparatus for improved internet searching | |
WO2007051397A1 (fr) | Systeme d’extraction d’informations et procede d’extraction d’informations | |
JP2007122732A (ja) | ウェブドキュメントの集合において効率的に日付を検索する方法、コンピュータプログラム、およびサービス方法(ウェブドキュメントの集合において効率的に日付を検索するシステムおよび方法) | |
KR19980701598A (ko) | 정보 액세스 방법 및 시스템(methods and/or systems for acessing informatiom) | |
JP2004110808A (ja) | ネットワークを介してデータを検索及び提示する方法及びマシン可読記憶装置 | |
KR100359233B1 (ko) | 웹 정보 추출 방법 및 시스템 | |
US9971782B2 (en) | Document tagging and retrieval using entity specifiers | |
EP1312039A2 (en) | System and method for automatic preparation and searching of scanned documents | |
US7886217B1 (en) | Identification of web sites that contain session identifiers |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090510 Year of fee payment: 7 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20100510 Year of fee payment: 8 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110510 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20110510 Year of fee payment: 9 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120510 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20120510 Year of fee payment: 10 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130510 Year of fee payment: 11 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140510 Year of fee payment: 12 |
|
LAPS | Cancellation because of no payment of annual fees |