JP2001188802A - 情報検索装置及び情報検索方法 - Google Patents

情報検索装置及び情報検索方法

Info

Publication number
JP2001188802A
JP2001188802A JP2000353256A JP2000353256A JP2001188802A JP 2001188802 A JP2001188802 A JP 2001188802A JP 2000353256 A JP2000353256 A JP 2000353256A JP 2000353256 A JP2000353256 A JP 2000353256A JP 2001188802 A JP2001188802 A JP 2001188802A
Authority
JP
Japan
Prior art keywords
search
word
search engine
user
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000353256A
Other languages
English (en)
Other versions
JP4428850B2 (ja
Inventor
Atsushi Sugiura
淳 杉浦
Etsuiooni Oren
エツィオーニ オーレン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
University of Washington
Original Assignee
NEC Corp
University of Washington
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/569,305 external-priority patent/US6701310B1/en
Application filed by NEC Corp, University of Washington filed Critical NEC Corp
Publication of JP2001188802A publication Critical patent/JP2001188802A/ja
Application granted granted Critical
Publication of JP4428850B2 publication Critical patent/JP4428850B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 インターネット上のウェブを検索する場合
に、ユーザの検索キーワードに適した特定トピック向け
検索エンジンを選択できるようにする。 【解決手段】 各特定トピック向け検索エンジンに関連
する単語をウェブ11などから収集し、検索エンジンを
選択するためのDB選択インデックスをインデックス生
成部202によりあらかじめ作成しておく。ユーザから
検索キーワードが与えられた場合、その検索キーワード
に関連する単語をクエリ展開部204によって汎用ウェ
ブ検索エンジン12から取得し、ここで取得された単語
とDB選択インデックスに格納されている単語とマッチ
ングを行い、一致度が高い特定トピック向け検索エンジ
ンをユーザに提示する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】インターネット(Internet)で
の情報検索に関し、特に、インターネット上のWWW
(ワールド・ワイド・ウェブ(World Wide Web)、以下、
単にウェブともいう)上に存在する複数の検索エンジン
から情報を取得する情報検索装置および情報検索方法に
関する。
【0002】
【従来の技術】WWW上には、さまざまな種類の情報検
索エンジン(以下、単に、検索エンジンともいう)が存
在する。例えば、Yahoo(ヤフー(http://www.yaho
o.com))やAltaVista(アルタビスタ(http://
www.altavista.com))では、ウェブ上に存在するウェブ
ページのURL(uniform resourse locator)のデータベ
ースを構築し、ユーザがウェブページを検索できるよう
にしている。YahooやAltaVistaは、あら
ゆるトピックやカテゴリのウェブページを対象とした汎
用的な検索エンジンである。また、特定のトピックに限
定した検索エンジンも存在する。例えば、Amazo
n.com(アマゾン・ドット・コム(http://www.amaz
on.com))には、書籍を検索するための書籍専用のデー
タベースがある。
【0003】検索エンジンによってWWWを検索する場
合、一般に、ユーザは、目的に応じて検索エンジンをユ
ーザ自身で選び、検索キーワード(検索エンジンを使っ
て情報検索する際に入力するキーワードのこと)をその
検索エンジンに入力することなどにより、情報を検索す
ることになる。すなわち、通常は単一の検索エンジンを
その都度利用することになる。
【0004】これに対し、ウェブ上に存在する複数の検
索エンジンを利用するメタサーチと呼ばれる手法がある
(例えば、Selberg, E. and Etzioni, O. "Multi-Servi
ce Search and Comparison using the MetaCrawler", P
roceedings of the 4th International World Wide Web
Conference, 1994を参照)。メタサーチでは、ユーザ
が入力した検索キーワードを複数の検索エンジンに送
り、各検索エンジンから取得した全ての検索結果を一つ
にまとめてユーザに提示する。単一の検索エンジンを使
っている場合には、ある検索エンジンで必要な情報が得
られなければ、ユーザは別の検索エンジンで検索をする
ことになる。すなわち、ユーザは、必要な情報が見つか
るまで検索エンジンを渡り歩き何度も検索キーワードを
入力しなければならない。メタサーチでは、このような
繰り返し操作は不要となる。
【0005】また、複数の情報ソースからクエリ(質問
(query))に適したものを選択する分散情報検索手法が
提案されている(例えば、Xu., J., and Callan, J. "E
ffective retrieval with distributed collections",
In Proceedings of the 21stAnnual International ACM
SIGIR Conference on Research and Development in I
nformation Retrieval, pp.112-120, 1998を参照)。こ
こでは、選択された情報ソースのデータベースのみに問
い合わせをするため、検索の処理速度の向上などが期待
される。適切なデータベースを選択するために、分散デ
ータベースでは、個々のデータベースに含まれるキーワ
ードとその出現頻度を用いてデータベース(DB)選択
インデックスをあらかじめ作成しておく。
【0006】
【発明が解決しようとする課題】単一の検索エンジンを
利用する場合、ユーザは所望の情報に応じて検索エンジ
ンを選択する必要がある(例えば、新刊本の情報が知り
たければ書籍検索エンジン、宿泊する場所を探している
のならホテル検索エンジン)。しかしながら、必要とす
る情報ごとに適切な検索サービスをユーザ自らが選択す
るのは負担のかかる作業である。
【0007】メタサーチ手法により既知の全ての検索エ
ンジンに検索キーワードを送信する方法も考えられる
が、検索エンジンの数が多い場合には、全ての検索サー
ビスに検索キーワードを送信するのはネットワーク負荷
や処理速度の問題などにより事実上不可能である。現状
のメタサーチでは、通常10個程度の検索エンジンを利
用しているが、検索エンジンの数が例えば数千個になっ
た場合には、従来のメタサーチ手法は現実的ではない。
【0008】したがって、ユーザの検索キーワードに応
じて適切な検索エンジンを選択する必要がある。しかし
ながら、従来の分散情報検索でのデータベース選択手法
では、データベース選択インデックスを作成するため
に、各々の情報ソースのデータベース中に含まれる全て
のデータにアクセスできることを前提としている。しか
しながら、情報ソースがウェブ上の検索エンジンである
場合、一般には、それらのデータベースの全ての内容に
アクセスすることはできない。そのため、従来の分散情
報検索でのデータベース選択手法は利用できない。
【0009】本発明の目的は、ウェブ上に存在する検索
エンジンに対し、検索エンジンを選択するためのインデ
ックス(以下DB選択インデックスと呼ぶ)を作成し、
ユーザの検索キーワードに適した検索エンジンを選択す
る情報検索装置および情報検索方法を実現することにあ
る。
【0010】具体的には、例えばユーザの検索キーワー
ドが“python”であった場合、図1に示すような
結果をユーザに提示することを目的としている。“py
thon”はもともとニシキヘビという意味であるが、
スクリプトタイプのオブジェクト指向プログラミング(o
bject oriented programming)言語の名前でもある。こ
のように検索キーワードが複数トピックに関連する場
合、トピックごとに検索エンジンの選択結果を提示し、
なおかつ、そのトピックを説明するフレーズを付加す
る。図1の場合、オブジェクト指向プログラミング言語
としての“python”に対しては、フレーズ"objec
t oriented programming with python"が付加されると
ともに、"Object-oriented Information Source"と"Scr
ipting Database"とが検索エンジンとして列挙されてい
る。一方、爬虫類(reptile)であるヘビ(snake)としての
“python”に対しては、フレーズ"snake python"
とともに、"Reptile Search"と"Snake Information"と
が検索エンジンとして列挙されている。ユーザは自分の
意図にあったものを選択し、選択した検索エンジンに検
索キーワードを実際に送信できるようにする。図示した
例では、選択しようとする検索エンジンの横に表示され
たチェックボックスにチェックを入れ、“Send Q
uery”のボタンをクリックすることにより、選択し
た検索エンジンに検索キーワードを送信できるようにな
る。
【0011】また、図1に示すように、関連するであろ
う特定トピック向け検索エンジンのリストをユーザに提
示せずに、検索キーワードを各特定トピック向け検索エ
ンジンに直接送信して、検索結果を取得してもよい。
【0012】
【課題を解決するための手段】本発明の情報検索装置
は、検索エンジンが扱うトピックや内容を説明する単
語を収集する関連単語収集部と、収集された関連単語
からDB選択インデックスを作成するインデックス生成
部と、記憶装置内に記憶されるDB選択インデックス
と、ユーザが入力した検索キーワードに関連する単語
を汎用検索エンジンから取得するクエリ展開部と、ク
エリ展開部により得られた単語を記憶する展開単語記憶
部と、DB選択インデックスと展開単語記憶部に記憶
されている情報に基づいて検索エンジンを選択するエン
ジン選択部と、を有する。ここで、クエリ展開部は、ユ
ーザが入力した検索キーワードを汎用ウェブ検索エンジ
ンに送ることによって得られた検索結果から、検索キー
ワードに関連する単語を取得するようにすることが好ま
しい。さらに本発明の情報検索装置では、クエリ展開
部により汎用ウェブ検索エンジンから取得した文書中の
文字列を記憶するリファレンス文字列記憶部と、展開
単語記憶部とリファレンス文字列記憶部に記憶されてい
る情報に基づいて、検索キーワードに関連するトピック
を説明するフレーズを生成するフレーズ生成部と、を設
けることが好ましい。
【0013】(作用)本発明の情報検索装置を用いてウ
ェブの情報検索を行う処理は、DB選択インデックスを
生成するためのフェーズ(インデックス生成フェーズ)
と、ユーザから与えられた検索キーワードに適した検索
エンジンをDB選択インデックスを用いて選択するフェ
ーズ(検索エンジン選択フェーズ)とに分けられる。
【0014】インデックス生成フェーズでは、まず関連
単語収集部が、検索エンジンが扱うトピックや検索エン
ジンの内容に関連する単語を、検索エンジンのウェブペ
ージそのものや検索エンジンのページへのハイパーリン
クを有する他のウェブページから収集する。次に、イン
デックス生成部が、関連単語収集手段が収集した単語と
その出現頻度からDB選択インデックスを生成し、DB
選択インデックス格納部(典型的には記憶装置)内に記
憶する。
【0015】検索エンジン選択フェーズでは、まずクエ
リ展開部において、ユーザから与えられた検索キーワー
ドに関連する単語を例えば汎用ウェブ検索エンジンから
取得する。これは、関連単語収集部では限られた数の単
語しか収集されず、ユーザが与えた検索キーワードだけ
ではDB選択インデックス中に登録された単語に全くマ
ッチしない場合が多いためである。クエリ展開部によっ
て獲得された単語は展開単語記憶部に記憶され、クエリ
展開処理のために汎用検索エンジンなどから取得した検
索結果中に含まれる文字列は、必要に応じてリファレン
ス文字列記憶部に記憶される。
【0016】クエリ展開処理の後、エンジン選択部にお
いて、DB選択インデックスと展開単語記憶部に記憶さ
れた情報をもとに検索エンジンを選択する。さらに、フ
レーズ生成部において、ユーザが入力した検索キーワー
ドに関連するトピックを説明するフレーズを生成し、エ
ンジン選択部で選択された検索エンジンとともにユーザ
に提示するようにしてもよい。
【0017】
【発明の実施の形態】次に、本発明の好ましい実施の形
態について、図面を参照して説明する。図2は、本発明
の実施の一形態の情報検索装置の構成を示すブロック図
である。
【0018】この情報検索装置20は、検索エンジン
が扱うトピックや内容を説明する単語をウェブ11から
収集する関連単語収集部201と、収集された関連単
語からDB選択インデックスを作成するインデックス生
成部202と、DB選択インデックスを格納するDB
選択インデックス記憶部203と、ユーザが入力した
検索キーワードに関連する単語を汎用ウェブ検索エンジ
ン12から取得するクエリ展開部204と、クエリ展
開部204により得られた単語を記憶する展開単語記憶
部205と、クエリ展開部204が汎用ウェブ検索エ
ンジン12から取得した文書中の文字列を記憶するリフ
ァレンス文字列記憶部206と、DB選択インデック
ス記憶部203と展開単語記憶部205に登録されてい
る情報に基づいて、検索エンジンを選択するエンジン選
択部207と、展開単語記憶部204とリファレンス
文字列記憶部206に記憶されている情報に基づいて、
検索キーワードに関連するトピックを説明するフレーズ
を生成するフレーズ生成部208と、を備えている。
【0019】ここで、情報検索装置20は、ハードウェ
ア構成としては、プログラム制御により動作するデータ
処理装置21と、情報を記憶する記憶装置22とを備え
ている。データ処理装置21は、関連単語収集部20
1、インデックス生成部202、クエリ展開部204、
エンジン選択部207およびフレーズ生成部208を含
み、また、記憶装置22は、DB選択インデックス格納
部203、展開単語記憶部205およびリファレンス文
字列記憶部206を含んでいる。データ処理装置21
は、インターネット10に接続しており、インターネッ
ト10上のウェブ11から、インターネット上の各検索
エンジンが扱うトピックや内容を説明する単語が関連単
語収集部201に与えられる。また、汎用ウェブ検索エ
ンジン12は、あらゆるトピックやカテゴリのウェブペ
ージを対象とした汎用的な検索エンジンのことである。
例えば上述したYahooやAltaVistaのよう
にインターネット経由で利用可能なものであっても、イ
ンターネット上には公開されておらず情報検索装置20
のみが利用可能なローカルなシステムとして構築された
ものでもよい。
【0020】次に、この情報検索装置を使用した情報検
索について説明する。上述したように、本発明に基づく
情報検索の処理は、大別して、DB選択インデックスを
生成するためのインデックス生成フェーズと、ユーザか
ら与えられた検索キーワードに適した検索エンジンをD
B選択インデックスを用いて選択する検索エンジン選択
フェーズとに分かれるから、まず、インデックス生成フ
ェーズに関して、この情報検索装置の動作を説明する。
【0021】インデックス生成フェーズにおいて、関連
単語収集部201は、検索エンジンのURL Ei(1
≦i≦n)が与えられたとき、その検索エンジンが扱う
トピックや関連する単語を収集する。この収集方法とし
て、本明細書では2通りの方法を説明する。関連単語収
集部201としては、下記の2個の方法のいずれを利用
してもよい。
【0022】第一の方法は、URL Eiに対応するウ
ェブ文書Pi(Eiによりウェブ11から取得される文
書)を利用する方法である。ウェブ文書Piには、検索
エンジンの内容を説明する文章や語句が含まれていると
期待される。第一の方法では、Piに含まれる全ての単
語を検索エンジンに関連する単語とする。
【0023】第二の方法は、URL Eiを参照してい
る(Eiへのリンクを有する)他のウェブ文書を利用す
る方法である。URL Eiを参照しているウェブ文書
には、Eiの内容を説明する語句が含まれている可能性
が高いと考えられる。具体的に第二の方法では、Ei
参照している複数のウェブ文書Pij(1≦j≦m)を取
得し、取得した全ての文書に含まれる全ての単語を検索
エンジンに関連する単語とする。もしくは、ウェブ文書
ijにおいて、Eiへのリンクの周囲にある単語(例え
ばEiへのリンクと同じ行にある単語)だけを関連単語
としてもよい。Eiを参照しているウェブ文書Pijは、
上述のAltaVistaやInfoseek(インフ
ォシーク(http://www.infoseek.com))などの汎用ウェ
ブ検索エンジンで取得することが可能である。
【0024】次に、インデックス生成部202は、関連
単語収集部201で収集された関連単語Sik(1≦k≦
q)をDB選択インデックスとしてDB選択インデック
ス格納部203に記憶する。さらに、全てのSikに対し
その出現回数をカウントして正規化し、インデックス記
憶部203に重要度Wikとして記憶する。重要度Wik
0.0から1.0までの値をとる。
【0025】上記の関連単語収集処理とインデックス生
成処理は、与えられた全ての検索エンジンのURL E
i(1≦i≦n)に対して行われる。したがって、図3
に示すように、DB選択インデックス格納部203は、
DB選択インデックスとして、各検索エンジンごとにそ
れぞれ関連単語と重要度を記憶する。
【0026】以上によりインデックス生成フェーズが完
了すると、次に、ユーザの入力した検索キーワードに適
した検索エンジンを選択する検索エンジン選択フェーズ
が開始する。
【0027】検索エンジン選択フェーズでは、まず、ク
エリ展開部204が汎用ウェブ検索エンジン12を検索
して、ユーザが与えた検索キーワードに関連する単語を
取得する。
【0028】ここでクエリ展開を行うのは、上記の関連
単語収集処理により収集された単語の数が少ない場合が
あり、ユーザが与えた検索キーワードがDB選択インデ
ックス格納部203に登録された単語と全くマッチしな
いケースがあるためである。クエリ展開により検索キー
ワードに関連する単語を取得した上でDB選択インデッ
クス格納部203に登録された単語とのマッチングを行
えば、検索キーワードがDB選択インデックス格納部2
03に登録された単語と全くマッチしないケースは、か
なりの場合、回避できると期待される。
【0029】クエリ展開部204でのクエリ展開手法と
しては、検索キーワードに関連する単語を取得できるも
のであればどのような手法であっても利用可能である。
ここでは、検索キーワードを汎用ウェブ検索エンジン
(例えば、AltaVistaやInfoseekな
ど)12から取得する方法について、さらに詳しく説明
する。クエリ展開部204の動作を説明する前に、汎用
ウェブ検索エンジン12に検索キーワードを送信した際
に汎用ウェブ検索エンジン12から返される検索結果に
ついて、図4を用いて説明しておく。
【0030】図4に示すように、汎用ウェブ検索エンジ
ン12からの検索結果には、一般的に、送信したクエリ
に関連する複数のウェブ文書が含まれ、それぞれのウェ
ブ文書に対して、ウェブページのタイトル(表題)、ア
ブストラクト(要約)およびURLが記述される。本明
細書では、ウェブページのタイトルとアブストラクトを
合わせたものをリファレンス文字列と呼ぶ。図4に示す
ように、汎用ウェブ検索エンジン12から得られる検索
結果には、複数のリファレンス文字列が含まれることに
なる。
【0031】図5は、クエリ展開部204の動作を説明
するPAD図(問題分析図;problem analysis diagra
m)である。クエリ展開部204は、ユーザから検索キ
ーワードKa(1≦a≦b)が与えられた場合(ステッ
プ501)、全ての検索キーワードを連結した文字列
“K12 … Kb”をクエリとして汎用ウェブ検索エン
ジン12に送り、検索結果D0を得る(ステップ50
2)。次に、検索結果D0中に含まれるトピックワード
c(1≦c≦d)を抽出する(ステップ503)。こ
こでトピックワードとは、DB選択インデックスにおい
て重要度があるしきい値(例えば、0.8)以上である
関連単語を指す。
【0032】次に、ユーザから与えられた検索キーワー
ドと各トピックワードTcとの関連性を調べるために、
各トピックワードTcごとに、ステップ505〜510
の処理を行なう(ステップ504)。
【0033】まず、ステップ505において、“K1
2 … Kbc”をクエリとして汎用ウェブ検索エンジン
12に送り、検索結果Dcを得る。次に、検索結果Dc
おいてKa(1≦a≦b)のいずれかとTcとをともに含
むリファレンス文字列をRce(1≦e≦f)とする(ス
テップ506)。ここで、fは、検索結果Dcにおいて
aとTcが同一のウェブ文書中に同時に出現する回数と
なる。この回数fがある一定のしきい値以上である場合
は、トピックワードTcはユーザが入力した検索キーワ
ードKaに関連するものであるとみなし(ステップ50
7)、ステップ508〜510の処理を行う。
【0034】ステップ508において、まず、リファレ
ンス文字列Rce(1≦e≦f)に出現する全ての単語X
cg(1≦g≦h)の出現回数Ccgをカウントし、それを
展開単語記憶部205に記憶する(ステップ509)。
また、全てのRce(1≦e≦f)を連結して一つの文字
列Ucとし、リファレンス文字列記憶部206に記憶す
る(ステップ510)。ただし、クエリ“K12
bc”により得られた単語Xcg(1≦g≦h)を一
つのグループとして扱う。そのため、ユニークなグルー
プID(識別番号)をつけ、そのグループIDごとにX
cgとCcgを管理する。したがって展開単語記憶部205
には、図6に示すように、グループIDに対応する展開
単語と出現回数が記憶される。同様に、リファレンス文
字列記憶部206には、各グループIDに対応するUc
が記憶される。
【0035】次に、エンジン選択部207が、検索エン
ジンと展開語句との適合度を計算する。図8は、エンジ
ン選択部207の動作を示すPAD図である。適合度の
計算は、展開単語記憶部206に記憶された各グループ
c(1≦c≦d)ごとに行われる(ステップ80
1)。グループGcの展開語句に対する検索エンジンEi
の適合度を計算する場合、まず、Gcに対する展開単語
cg(1≦g≦h)とその出現回数Ccgを展開単語記憶
部206から取得する(ステップ802)。次に、Ei
の関連単語Sik(1≦k≦q)とその重要度WikをDB
選択インデックス格納部20より取得し(ステップ80
4)、下記の計算式によりグループGcにおける検索エ
ンジンEiの適合度F(Ei,Gc)を計算する。
【0036】
【数1】
【0037】ただし、f(x,y)は文字列xとyが等し
い場合に1、それ以外の場合は0である関数である。
【0038】エンジン選択部207は、グループG
c(1≦c≦d)ごとに全ての検索エンジンEi(1≦i
≦n)の適合度を計算し(ステップ803)、得点が上
位の検索エンジンをグループGcに対する検索エンジン
としてユーザに提示する(ステップ806)。
【0039】エンジン選択部207での処理とは独立し
て、フレーズ生成部208は、ユーザが入力した検索キ
ーワードに関連するトピックを説明するフレーズを作成
する。図9は、ここでのフレーズ生成部208の処理を
示している。すなわちフレーズ生成部208は、リファ
レンス文字列記憶部206に記憶された各グループG c
(1≦c≦d)ごとにそのグループの内容を説明するフ
レーズPMcを作成するために、ステップ901〜90
5を繰り返す(ステップ901)。フレーズPM cは、
以下の処理によりリファレンス文字列Ucから抽出され
る。
【0040】まず、Gcにおいて出現回数Ccgがある一
定回数以上の展開単語Xcgを展開単語記憶部205から
取得し、集合Ycとする(ステップ902)。Ucにおい
て、Ycに含まれる単語もしくは前置詞もしくは冠詞が
連続して出現する全ての個所PRr(1≦r≦v)をP
cの候補として抽出し(ステップ904)、各PRr
とに得点を計算する(ステップ905)。得点は、PR
r中に含まれる全てのXcgの出現回数Ccgの和によって
計算される。この得点が最大であったフレーズをグルー
プGcを説明するフレーズPMcとして選択し、ユーザに
提示する(ステップ906)。
【0041】例えば、あるグループGに対するリファレ
ンス文字列Uが"Object oriented programming with Py
thon. Home page for Python, an object oriented scr
ipting."であり、展開単語記憶部に記憶されたGに対す
る展開単語および出現回数が図10に示す通りであった
とする。出現回数が3回以上の展開単語が連続している
個所をフレーズとして用いるとすると、Uからは"Objec
t oriented programming with Python"と"Python, an o
bject oriented scripting"という二つが候補として抽
出される。ここで"with"と"an"の出現回数は3回未満で
あるが、前置詞と冠詞であるためフレーズの中に含まれ
ることを許される。"Object oriented programming wit
h Python"は関連単語"Object"、"oriented"、"programm
ing"および"Python"の出現回数6,6,9,15を合計
し、36となる。同様に"Python,an object oriented s
cripting"の得点は31となる。したがって、"Object o
riented programming with Python"がグループGを説明
するフレーズPMとして選択される。
【0042】以上、本発明の好ましい実施形態の情報検
索装置について説明したが、図2にも示すように、この
情報検索装置20は、ハードウェア構成としては、プロ
グラム制御により動作するデータ処理装置21と、情報
を記憶する記憶装置22とを備えている。したがって、
この情報検索装置20は、データ処理装置21としての
CPU(中央処理装置)及び主記憶装置(メモリ)と、
記憶装置22としてのハードディスク装置などの外部記
憶装置とを有する汎用のコンピュータシステムを用意
し、上述した情報検索を実現するための計算機プログラ
ムをその汎用のコンピュータシステムに読み込ませ、そ
のプログラムを実行させることによっても実現できる。
その汎用のコンピュータシステムは、さらに、検索キー
ワードなどの入力のための入力装置(キーボードやマウ
スなど)と、検索結果の表示などのための表示装置(C
RTなど)と、インターネット10に接続するための通
信インタフェース(モデムなど)と、プログラムを記録
した記録媒体を読み取るための読み取り装置とを備えて
いる。そして、上述したような情報検索を行うためのプ
ログラムを格納した記録媒体を読み取り装置に装着し、
記録媒体からプログラムを読み出してプログラム用の記
憶領域に格納し、この格納されたプログラムを中央処理
装置が実行することにより、情報検索が実行される。
【0043】
【発明の効果】以上説明したように本発明は、検索エン
ジンのデータベース内の全てのデータにアクセスできな
い場合でも、検索エンジンのページそのものや検索エン
ジンへのリンクを有する他のウェブページを利用してD
B選択インデックスを生成するため、ユーザの入力した
検索キーワードに適した、ウェブ上にある検索エンジン
を提示することが可能であるという効果がある。
【0044】また、ここで述べたようなDB選択インデ
ックス作成手法によって収集された単語の数が少ない場
合でも、クエリ展開手法を用いて検索キーワードに関連
する単語を取得し、ここで得られた単語とDB選択イン
デックス中の単語のマッチングを行なうことにより、多
くの場合適切な検索エンジンを選択することができるよ
うになる。
【0045】また、検索キーワードが複数のトピックに
関連する可能性がある場合は、関連する可能性があるト
ピックごとにクエリ展開処理を行い検索エンジンを選択
し、なおかつそのトピックを説明するフレーズを生成す
ることにより、検索キーワードが複数トピックに関連す
る場合でも、トピックごとに適切な検索エンジンをユー
ザに提示することができるようになる。
【図面の簡単な説明】
【図1】本発明に基づく検索結果出力の例を示す図であ
る。
【図2】本発明の実施の一形態の情報検索装置の構成を
示すブロック図である。
【図3】DB選択インデックスに格納されるデータを説
明する図である。
【図4】汎用ウェブ検索エンジンから返される検索結果
の例を示す図である。
【図5】クエリ展開部の動作を説明するPAD図(問題
分析図;problem analysis diagram)である。
【図6】展開単語記憶部に格納されるデータを説明する
図である。
【図7】リファレンス文字列記憶部に格納されるデータ
を説明する図である。
【図8】エンジン選択部の動作を説明するPAD図であ
る。
【図9】フレーズ生成部の動作を説明するPAD図であ
る。
【図10】関連単語記憶部に記憶されたデータの例を示
す図である。
【符号の説明】
10 インターネット 11 ウェブ 12 汎用ウェブ検索エンジン 20 情報検索装置 21 データ処理装置 22 記憶装置 201 関連単語収集部 202 インデックス生成部 203 DB選択インデックス格納部 204 クエリ展開部 205 展開単語記憶部 206 リファレンス文字列記憶部 207 エンジン選択部 208 フレーズ作成部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 オーレン エツィオーニ アメリカ合衆国、 ワシントン 98195、 シアトル、 ボックス 352350、 ユニ バーシティ オブ ワシントン内

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】 各検索エンジンが扱うトピック及び/ま
    たは内容を説明する単語を関連単語として収集する関連
    単語収集部と、 収集された前記関連単語からDB選択インデックスを作
    成するインデックス生成部と、 前記DB選択インデックスを記憶するDB選択インデッ
    クス格納部と、 ユーザが入力した検索キーワードに関連する単語を取得
    するクエリ展開部と、 前記クエリ展開部により得られた単語を記憶する展開単
    語記憶部と、 前記DB選択インデックス格納部と前記展開単語記憶部
    に記憶されている情報に基づいて、前記検索キーワード
    と各検索エンジンとの適合度を計算し、前記検索キーワ
    ードに適合した検索エンジンを選択するエンジン選択部
    と、を有する情報検索装置。
  2. 【請求項2】 クエリ展開部は、ユーザが入力した検索
    キーワードを汎用ウェブ検索エンジンに送ることによっ
    て得られた検索結果から、前記検索キーワードに関連す
    る単語を取得する、請求項1に記載の情報検索装置。
  3. 【請求項3】 ユーザが入力した検索キーワードを汎用
    ウェブ検索エンジンへ送った際に検索結果として前記汎
    用ウェブ検索エンジンから取得した文書中の文字列を記
    憶するリファレンス文字列記憶部と、 展開単語記憶部と前記リファレンス文字列記憶部に記憶
    されている情報に基づいて、前記検索キーワードに関連
    するトピックを説明するフレーズを生成するフレーズ生
    成部と、をさらに有する請求項1または2に記載の情報
    検索装置。
  4. 【請求項4】 DB選択インデックスが、検索エンジン
    ごとの関連単語と、関連単語ごとの重要度とを含み、各
    関連単語の重要度が当該関連単語の出現度に応じて定め
    られる、請求項1乃至3のいずれか1項に記載の情報検
    索装置。
  5. 【請求項5】 関連単語収集部が、ウェブ上に存在する
    特定トピック向け検索エンジンに対応する関連単語を当
    該特定トピック向け検索エンジンのウェブページそのも
    のから取得する、請求項1乃至4のいずれか1項に記載
    の情報検索装置。
  6. 【請求項6】 関連単語収集部が、ウェブ上に存在する
    特定トピック向け検索エンジンに対応する関連単語を、
    当該特定トピック向け検索エンジンへのハイパーリンク
    を有する他のウェブページから取得する、請求項1乃至
    4のいずれか1項に記載の情報検索装置。
  7. 【請求項7】 クエリ展開部が、DB選択インデックス
    格納部に登録された関連単語から重要度の高い関連単語
    を抽出し、抽出された関連単語とユーザが入力した検索
    キーワードとの関連性を優先的に調べることにより、前
    記検索ワードに関連する単語を取得する、請求項1乃至
    6に記載の情報検索装置。
  8. 【請求項8】 ユーザが入力した検索キーワードに適合
    した特定トピック向け検索エンジンを前記ユーザに提示
    する情報検索方法であって、 ウェブ上に存在する特定トピック向け検索エンジンごと
    に、その特定トピック向け検索エンジンの内容に関連す
    る単語を当該特定トピック向け検索エンジンのウェブペ
    ージそのものから取得し、 前記キーワードに関連する単語をクエリ展開により取得
    し、 特定トピック向け検索エンジンに関連する単語とクエリ
    展開により取得した単語とのマッチングを行い、 前記取得した単語と前記検索キーワードとのマッチング
    を行い、 マッチングでの適合度の高い単語に対応する特定トピッ
    ク向け検索エンジンを前記ユーザに提示する情報検索方
    法。
  9. 【請求項9】 ユーザが入力した検索キーワードに適合
    した特定トピック向け検索エンジンを前記ユーザに提示
    する情報検索方法であって、 ウェブ上に存在する各特定トピック向け検索エンジンの
    内容に関連する単語を当該特定トピック向け検索エンジ
    ンへのハイパーリンクを持つ他のウェブページから取得
    し、 前記キーワードに関連する単語をクエリ展開により取得
    し、 特定トピック向け検索エンジンに関連する単語とクエリ
    展開により取得した単語とのマッチングを行い、 前記取得した単語と前記検索キーワードのマッチングを
    行い、 マッチングでの適合度の高い単語に対応する特定トピッ
    ク向け検索エンジンを前記ユーザに提示する情報検索方
    法。
  10. 【請求項10】 ユーザが入力した検索キーワードを汎
    用検索エンジンに送信してその結果として得られた検索
    結果の文書から、前記検索キーワードをクエリ展開する
    ことにより得られた単語と前置詞と冠詞が連続するフレ
    ーズを抽出し、 前記抽出されたフレーズの重要度を計算し、 最も重要度の高いフレーズを、前記検索キーワードの内
    容をより詳細に説明するフレーズとして選択し、 選択されたフレーズを情報検索結果とともに前記ユーザ
    に提示する、情報検索方法。
JP2000353256A 1999-11-22 2000-11-20 情報検索装置及び情報検索方法 Expired - Lifetime JP4428850B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16671899P 1999-11-22 1999-11-22
US09/569,305 US6701310B1 (en) 1999-11-22 2000-05-11 Information search device and information search method using topic-centric query routing
US09/569305 2000-05-11
US60/166718 2000-05-11

Publications (2)

Publication Number Publication Date
JP2001188802A true JP2001188802A (ja) 2001-07-10
JP4428850B2 JP4428850B2 (ja) 2010-03-10

Family

ID=26862506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000353256A Expired - Lifetime JP4428850B2 (ja) 1999-11-22 2000-11-20 情報検索装置及び情報検索方法

Country Status (1)

Country Link
JP (1) JP4428850B2 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308335A (ja) * 2002-04-15 2003-10-31 Just Syst Corp 文書検索システム及び方法、並びにプログラム
JP2006099279A (ja) * 2004-09-28 2006-04-13 Newswatch Inc 検索装置及び検索プログラム
WO2006046390A1 (ja) * 2004-10-29 2006-05-04 Matsushita Electric Industrial Co., Ltd. 情報検索装置
JP2007323394A (ja) * 2006-06-01 2007-12-13 Ritsumeikan メタ検索システム及びメタ検索方法とこれに用いるユーザ端末及びプログラム
JP2008165785A (ja) * 2006-12-27 2008-07-17 Nhn Corp 検索システムおよびその方法
JP2008186452A (ja) * 2007-01-29 2008-08-14 Nhn Corp 検索システム及び検索方法
JP2009059195A (ja) * 2007-08-31 2009-03-19 Toshiba Corp 情報提供サーバ及び情報提供方法
US7768955B2 (en) 2004-01-13 2010-08-03 Kt Corporation Method and device for connecting wireless internet service with string
JP2013174979A (ja) * 2012-02-24 2013-09-05 Yahoo Japan Corp 検索サーバ、プログラム及び方法
JP2014178902A (ja) * 2013-03-14 2014-09-25 Ricoh Co Ltd 検索システム、検索語辞書生成装置、プログラム、記憶媒体及び検索語辞書生成方法
JP2015503163A (ja) * 2012-01-18 2015-01-29 テンセント テクノロジー (シェンツェン) カンパニー リミテッド ユーザ質問の処理方法及び処理システム
WO2018124464A1 (ko) * 2016-12-26 2018-07-05 삼성전자 주식회사 전자 장치 및 전자 장치의 검색 서비스 제공 방법

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308335A (ja) * 2002-04-15 2003-10-31 Just Syst Corp 文書検索システム及び方法、並びにプログラム
US7768955B2 (en) 2004-01-13 2010-08-03 Kt Corporation Method and device for connecting wireless internet service with string
JP2006099279A (ja) * 2004-09-28 2006-04-13 Newswatch Inc 検索装置及び検索プログラム
JP4516815B2 (ja) * 2004-09-28 2010-08-04 株式会社ニューズウォッチ 検索装置
US7725486B2 (en) 2004-10-29 2010-05-25 Panasonic Corporation Information retrieval apparatus
WO2006046390A1 (ja) * 2004-10-29 2006-05-04 Matsushita Electric Industrial Co., Ltd. 情報検索装置
US7483921B2 (en) 2004-10-29 2009-01-27 Panasonic Corporation Information retrieval apparatus
JP2007323394A (ja) * 2006-06-01 2007-12-13 Ritsumeikan メタ検索システム及びメタ検索方法とこれに用いるユーザ端末及びプログラム
JP2008165785A (ja) * 2006-12-27 2008-07-17 Nhn Corp 検索システムおよびその方法
JP2008186452A (ja) * 2007-01-29 2008-08-14 Nhn Corp 検索システム及び検索方法
JP2011222056A (ja) * 2007-01-29 2011-11-04 Nhn Japan Corp 検索システム及び検索方法
JP2009059195A (ja) * 2007-08-31 2009-03-19 Toshiba Corp 情報提供サーバ及び情報提供方法
JP2015503163A (ja) * 2012-01-18 2015-01-29 テンセント テクノロジー (シェンツェン) カンパニー リミテッド ユーザ質問の処理方法及び処理システム
US9223775B2 (en) 2012-01-18 2015-12-29 Tencent Technology (Shenzhen) Company Limited User question processing method and system
JP2013174979A (ja) * 2012-02-24 2013-09-05 Yahoo Japan Corp 検索サーバ、プログラム及び方法
JP2014178902A (ja) * 2013-03-14 2014-09-25 Ricoh Co Ltd 検索システム、検索語辞書生成装置、プログラム、記憶媒体及び検索語辞書生成方法
WO2018124464A1 (ko) * 2016-12-26 2018-07-05 삼성전자 주식회사 전자 장치 및 전자 장치의 검색 서비스 제공 방법

Also Published As

Publication number Publication date
JP4428850B2 (ja) 2010-03-10

Similar Documents

Publication Publication Date Title
US6701310B1 (en) Information search device and information search method using topic-centric query routing
JP4991289B2 (ja) 予め定義されたサーチ問合せからサーチ結果へのアクセスを与えるurlで補足されるサーチエンジン
JP4623820B2 (ja) ネットワークベース情報検索システム及びドキュメントサーチ促進方法
US8037068B2 (en) Searching through content which is accessible through web-based forms
US7392238B1 (en) Method and apparatus for concept-based searching across a network
JP3717808B2 (ja) 情報検索システム
US7099870B2 (en) Personalized web page
JP3849318B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US20050065774A1 (en) Method of self enhancement of search results through analysis of system logs
US7024405B2 (en) Method and apparatus for improved internet searching
JP2010506335A (ja) 場所に関するサイトの識別
US9971828B2 (en) Document tagging and retrieval using per-subject dictionaries including subject-determining-power scores for entries
JP4428850B2 (ja) 情報検索装置及び情報検索方法
JP4613346B2 (ja) キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出装置、並びにメタデータ作成方法、メタデータ作成プログラムおよびメタデータ作成装置
Krohn et al. Concept lattices for knowledge management
US7483877B2 (en) Dynamic comparison of search systems in a controlled environment
JP2009205588A (ja) ページ検索システム及びプログラム
KR20010095215A (ko) 사이트 정보 데이터베이스 구축을 통한 인터넷 상에서의정보 검색 방법
US7490082B2 (en) System and method for searching internet domains
KR20010097062A (ko) 자동 링크 지원 시스템
WO2000007133A1 (en) Method and system for applying user specified hyperlinks
WO2002041182A1 (fr) Systeme et procede de distribution de nouvelles interessantes
JP2010282403A (ja) 文書検索方法
JPH1166078A (ja) 検索要求具体化方法及び装置及び検索要求具体化プログラムを格納した記憶媒体
JP2005025418A (ja) 質問応答装置、質疑応答方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050628

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080917

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090218

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090325

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090325

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090325

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090819

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4428850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131225

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term