JP4428850B2 - 情報検索装置及び情報検索方法 - Google Patents

情報検索装置及び情報検索方法 Download PDF

Info

Publication number
JP4428850B2
JP4428850B2 JP2000353256A JP2000353256A JP4428850B2 JP 4428850 B2 JP4428850 B2 JP 4428850B2 JP 2000353256 A JP2000353256 A JP 2000353256A JP 2000353256 A JP2000353256 A JP 2000353256A JP 4428850 B2 JP4428850 B2 JP 4428850B2
Authority
JP
Japan
Prior art keywords
search
word
search engine
words
expanded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2000353256A
Other languages
English (en)
Other versions
JP2001188802A (ja
Inventor
淳 杉浦
エツィオーニ オーレン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US09/569,305 external-priority patent/US6701310B1/en
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2001188802A publication Critical patent/JP2001188802A/ja
Application granted granted Critical
Publication of JP4428850B2 publication Critical patent/JP4428850B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
インターネット(Internet)での情報検索に関し、特に、インターネット上のWWW(ワールド・ワイド・ウェブ(World Wide Web)、以下、単にウェブともいう)上に存在する複数の検索エンジンから情報を取得する情報検索装置および情報検索方法に関する。
【0002】
【従来の技術】
WWW上には、さまざまな種類の情報検索エンジン(以下、単に、検索エンジンともいう)が存在する。例えば、Yahoo(ヤフー(http://www.yahoo.com))やAltaVista(アルタビスタ(http://www.altavista.com))では、ウェブ上に存在するウェブページのURL(uniform resourse locator)のデータベースを構築し、ユーザがウェブページを検索できるようにしている。YahooやAltaVistaは、あらゆるトピックやカテゴリのウェブページを対象とした汎用的な検索エンジンである。また、特定のトピックに限定した検索エンジンも存在する。例えば、Amazon.com(アマゾン・ドット・コム(http://www.amazon.com))には、書籍を検索するための書籍専用のデータベースがある。
【0003】
検索エンジンによってWWWを検索する場合、一般に、ユーザは、目的に応じて検索エンジンをユーザ自身で選び、検索キーワード(検索エンジンを使って情報検索する際に入力するキーワードのこと)をその検索エンジンに入力することなどにより、情報を検索することになる。すなわち、通常は単一の検索エンジンをその都度利用することになる。
【0004】
これに対し、ウェブ上に存在する複数の検索エンジンを利用するメタサーチと呼ばれる手法がある(例えば、Selberg, E. and Etzioni, O. "Multi-Service Search and Comparison using the MetaCrawler", Proceedings of the 4th International World Wide Web Conference, 1994を参照)。メタサーチでは、ユーザが入力した検索キーワードを複数の検索エンジンに送り、各検索エンジンから取得した全ての検索結果を一つにまとめてユーザに提示する。単一の検索エンジンを使っている場合には、ある検索エンジンで必要な情報が得られなければ、ユーザは別の検索エンジンで検索をすることになる。すなわち、ユーザは、必要な情報が見つかるまで検索エンジンを渡り歩き何度も検索キーワードを入力しなければならない。メタサーチでは、このような繰り返し操作は不要となる。
【0005】
また、複数の情報ソースからクエリ(質問(query))に適したものを選択する分散情報検索手法が提案されている(例えば、Xu., J., and Callan, J. "Effective retrieval with distributed collections", In Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp.112-120, 1998を参照)。ここでは、選択された情報ソースのデータベースのみに問い合わせをするため、検索の処理速度の向上などが期待される。適切なデータベースを選択するために、分散データベースでは、個々のデータベースに含まれるキーワードとその出現頻度を用いてデータベース(DB)選択インデックスをあらかじめ作成しておく。
【0006】
【発明が解決しようとする課題】
単一の検索エンジンを利用する場合、ユーザは所望の情報に応じて検索エンジンを選択する必要がある(例えば、新刊本の情報が知りたければ書籍検索エンジン、宿泊する場所を探しているのならホテル検索エンジン)。しかしながら、必要とする情報ごとに適切な検索サービスをユーザ自らが選択するのは負担のかかる作業である。
【0007】
メタサーチ手法により既知の全ての検索エンジンに検索キーワードを送信する方法も考えられるが、検索エンジンの数が多い場合には、全ての検索サービスに検索キーワードを送信するのはネットワーク負荷や処理速度の問題などにより事実上不可能である。現状のメタサーチでは、通常10個程度の検索エンジンを利用しているが、検索エンジンの数が例えば数千個になった場合には、従来のメタサーチ手法は現実的ではない。
【0008】
したがって、ユーザの検索キーワードに応じて適切な検索エンジンを選択する必要がある。しかしながら、従来の分散情報検索でのデータベース選択手法では、データベース選択インデックスを作成するために、各々の情報ソースのデータベース中に含まれる全てのデータにアクセスできることを前提としている。しかしながら、情報ソースがウェブ上の検索エンジンである場合、一般には、それらのデータベースの全ての内容にアクセスすることはできない。そのため、従来の分散情報検索でのデータベース選択手法は利用できない。
【0009】
本発明の目的は、ウェブ上に存在する検索エンジンに対し、検索エンジンを選択するためのインデックス(以下DB選択インデックスと呼ぶ)を作成し、ユーザの検索キーワードに適した検索エンジンを選択する情報検索装置および情報検索方法を実現することにある。
【0010】
具体的には、例えばユーザの検索キーワードが“python”であった場合、図1に示すような結果をユーザに提示することを目的としている。“python”はもともとニシキヘビという意味であるが、スクリプトタイプのオブジェクト指向プログラミング(object oriented programming)言語の名前でもある。このように検索キーワードが複数トピックに関連する場合、トピックごとに検索エンジンの選択結果を提示し、なおかつ、そのトピックを説明するフレーズを付加する。図1の場合、オブジェクト指向プログラミング言語としての“python”に対しては、フレーズ"object oriented programming with python"が付加されるとともに、"Object-oriented Information Source"と"Scripting Database"とが検索エンジンとして列挙されている。一方、爬虫類(reptile)であるヘビ(snake)としての“python”に対しては、フレーズ"snake python"とともに、"Reptile Search"と"Snake Information"とが検索エンジンとして列挙されている。ユーザは自分の意図にあったものを選択し、選択した検索エンジンに検索キーワードを実際に送信できるようにする。図示した例では、選択しようとする検索エンジンの横に表示されたチェックボックスにチェックを入れ、“Send Query”のボタンをクリックすることにより、選択した検索エンジンに検索キーワードを送信できるようになる。
【0011】
また、図1に示すように、関連するであろう特定トピック向け検索エンジンのリストをユーザに提示せずに、検索キーワードを各特定トピック向け検索エンジンに直接送信して、検索結果を取得してもよい。
【0012】
【課題を解決するための手段】
本発明の情報検索装置は、▲1▼検索エンジンが扱うトピックや内容を説明する単語を収集する関連単語収集部と、▲2▼収集された関連単語からDB選択インデックスを作成するインデックス生成部と、▲3▼記憶装置内に記憶されるDB選択インデックスと、▲4▼ユーザが入力した検索キーワードに関連する単語を汎用検索エンジンから取得するクエリ展開部と、▲5▼クエリ展開部により得られた単語を記憶する展開単語記憶部と、▲6▼DB選択インデックスと展開単語記憶部に記憶されている情報に基づいて検索エンジンを選択するエンジン選択部と、を有する。ここで、クエリ展開部は、ユーザが入力した検索キーワードを汎用ウェブ検索エンジンに送ることによって得られた検索結果から、検索キーワードに関連する単語を取得するようにすることが好ましい。さらに本発明の情報検索装置では、▲7▼クエリ展開部により汎用ウェブ検索エンジンから取得した文書中の文字列を記憶するリファレンス文字列記憶部と、▲8▼展開単語記憶部とリファレンス文字列記憶部に記憶されている情報に基づいて、検索キーワードに関連するトピックを説明するフレーズを生成するフレーズ生成部と、を設けることが好ましい。
【0013】
(作用)
本発明の情報検索装置を用いてウェブの情報検索を行う処理は、DB選択インデックスを生成するためのフェーズ(インデックス生成フェーズ)と、ユーザから与えられた検索キーワードに適した検索エンジンをDB選択インデックスを用いて選択するフェーズ(検索エンジン選択フェーズ)とに分けられる。
【0014】
インデックス生成フェーズでは、まず関連単語収集部が、検索エンジンが扱うトピックや検索エンジンの内容に関連する単語を、検索エンジンのウェブページそのものや検索エンジンのページへのハイパーリンクを有する他のウェブページから収集する。次に、インデックス生成部が、関連単語収集手段が収集した単語とその出現頻度からDB選択インデックスを生成し、DB選択インデックス格納部(典型的には記憶装置)内に記憶する。
【0015】
検索エンジン選択フェーズでは、まずクエリ展開部において、ユーザから与えられた検索キーワードに関連する単語を例えば汎用ウェブ検索エンジンから取得する。これは、関連単語収集部では限られた数の単語しか収集されず、ユーザが与えた検索キーワードだけではDB選択インデックス中に登録された単語に全くマッチしない場合が多いためである。クエリ展開部によって獲得された単語は展開単語記憶部に記憶され、クエリ展開処理のために汎用検索エンジンなどから取得した検索結果中に含まれる文字列は、必要に応じてリファレンス文字列記憶部に記憶される。
【0016】
クエリ展開処理の後、エンジン選択部において、DB選択インデックスと展開単語記憶部に記憶された情報をもとに検索エンジンを選択する。さらに、フレーズ生成部において、ユーザが入力した検索キーワードに関連するトピックを説明するフレーズを生成し、エンジン選択部で選択された検索エンジンとともにユーザに提示するようにしてもよい。
【0017】
【発明の実施の形態】
次に、本発明の好ましい実施の形態について、図面を参照して説明する。図2は、本発明の実施の一形態の情報検索装置の構成を示すブロック図である。
【0018】
この情報検索装置20は、▲1▼検索エンジンが扱うトピックや内容を説明する単語をウェブ11から収集する関連単語収集部201と、▲2▼収集された関連単語からDB選択インデックスを作成するインデックス生成部202と、▲3▼DB選択インデックスを格納するDB選択インデックス記憶部203と、▲4▼ユーザが入力した検索キーワードに関連する単語を汎用ウェブ検索エンジン12から取得するクエリ展開部204と、▲5▼クエリ展開部204により得られた単語を記憶する展開単語記憶部205と、▲6▼クエリ展開部204が汎用ウェブ検索エンジン12から取得した文書中の文字列を記憶するリファレンス文字列記憶部206と、▲7▼DB選択インデックス記憶部203と展開単語記憶部205に登録されている情報に基づいて、検索エンジンを選択するエンジン選択部207と、▲8▼展開単語記憶部204とリファレンス文字列記憶部206に記憶されている情報に基づいて、検索キーワードに関連するトピックを説明するフレーズを生成するフレーズ生成部208と、を備えている。
【0019】
ここで、情報検索装置20は、ハードウェア構成としては、プログラム制御により動作するデータ処理装置21と、情報を記憶する記憶装置22とを備えている。データ処理装置21は、関連単語収集部201、インデックス生成部202、クエリ展開部204、エンジン選択部207およびフレーズ生成部208を含み、また、記憶装置22は、DB選択インデックス格納部203、展開単語記憶部205およびリファレンス文字列記憶部206を含んでいる。データ処理装置21は、インターネット10に接続しており、インターネット10上のウェブ11から、インターネット上の各検索エンジンが扱うトピックや内容を説明する単語が関連単語収集部201に与えられる。また、汎用ウェブ検索エンジン12は、あらゆるトピックやカテゴリのウェブページを対象とした汎用的な検索エンジンのことである。例えば上述したYahooやAltaVistaのようにインターネット経由で利用可能なものであっても、インターネット上には公開されておらず情報検索装置20のみが利用可能なローカルなシステムとして構築されたものでもよい。
【0020】
次に、この情報検索装置を使用した情報検索について説明する。上述したように、本発明に基づく情報検索の処理は、大別して、DB選択インデックスを生成するためのインデックス生成フェーズと、ユーザから与えられた検索キーワードに適した検索エンジンをDB選択インデックスを用いて選択する検索エンジン選択フェーズとに分かれるから、まず、インデックス生成フェーズに関して、この情報検索装置の動作を説明する。
【0021】
インデックス生成フェーズにおいて、関連単語収集部201は、検索エンジンのURL Ei(1≦i≦n)が与えられたとき、その検索エンジンが扱うトピックや関連する単語を収集する。この収集方法として、本明細書では2通りの方法を説明する。関連単語収集部201としては、下記の2個の方法のいずれを利用してもよい。
【0022】
第一の方法は、URL Eiに対応するウェブ文書Pi(Eiによりウェブ11から取得される文書)を利用する方法である。ウェブ文書Piには、検索エンジンの内容を説明する文章や語句が含まれていると期待される。第一の方法では、Piに含まれる全ての単語を検索エンジンに関連する単語とする。
【0023】
第二の方法は、URL Eiを参照している(Eiへのリンクを有する)他のウェブ文書を利用する方法である。URL Eiを参照しているウェブ文書には、Eiの内容を説明する語句が含まれている可能性が高いと考えられる。具体的に第二の方法では、Eiを参照している複数のウェブ文書Pij(1≦j≦m)を取得し、取得した全ての文書に含まれる全ての単語を検索エンジンに関連する単語とする。もしくは、ウェブ文書Pijにおいて、Eiへのリンクの周囲にある単語(例えばEiへのリンクと同じ行にある単語)だけを関連単語としてもよい。Eiを参照しているウェブ文書Pijは、上述のAltaVistaやInfoseek(インフォシーク(http://www.infoseek.com))などの汎用ウェブ検索エンジンで取得することが可能である。
【0024】
次に、インデックス生成部202は、関連単語収集部201で収集された関連単語Sik(1≦k≦q)をDB選択インデックスとしてDB選択インデックス格納部203に記憶する。さらに、全てのSikに対しその出現回数をカウントして正規化し、インデックス記憶部203に重要度Wikとして記憶する。重要度Wikは0.0から1.0までの値をとる。
【0025】
上記の関連単語収集処理とインデックス生成処理は、与えられた全ての検索エンジンのURL Ei(1≦i≦n)に対して行われる。したがって、図3に示すように、DB選択インデックス格納部203は、DB選択インデックスとして、各検索エンジンごとにそれぞれ関連単語と重要度を記憶する。
【0026】
以上によりインデックス生成フェーズが完了すると、次に、ユーザの入力した検索キーワードに適した検索エンジンを選択する検索エンジン選択フェーズが開始する。
【0027】
検索エンジン選択フェーズでは、まず、クエリ展開部204が汎用ウェブ検索エンジン12を検索して、ユーザが与えた検索キーワードに関連する単語を取得する。
【0028】
ここでクエリ展開を行うのは、上記の関連単語収集処理により収集された単語の数が少ない場合があり、ユーザが与えた検索キーワードがDB選択インデックス格納部203に登録された単語と全くマッチしないケースがあるためである。クエリ展開により検索キーワードに関連する単語を取得した上でDB選択インデックス格納部203に登録された単語とのマッチングを行えば、検索キーワードがDB選択インデックス格納部203に登録された単語と全くマッチしないケースは、かなりの場合、回避できると期待される。
【0029】
クエリ展開部204でのクエリ展開手法としては、検索キーワードに関連する単語を取得できるものであればどのような手法であっても利用可能である。ここでは、検索キーワードを汎用ウェブ検索エンジン(例えば、AltaVistaやInfoseekなど)12から取得する方法について、さらに詳しく説明する。クエリ展開部204の動作を説明する前に、汎用ウェブ検索エンジン12に検索キーワードを送信した際に汎用ウェブ検索エンジン12から返される検索結果について、図4を用いて説明しておく。
【0030】
図4に示すように、汎用ウェブ検索エンジン12からの検索結果には、一般的に、送信したクエリに関連する複数のウェブ文書が含まれ、それぞれのウェブ文書に対して、ウェブページのタイトル(表題)、アブストラクト(要約)およびURLが記述される。本明細書では、ウェブページのタイトルとアブストラクトを合わせたものをリファレンス文字列と呼ぶ。図4に示すように、汎用ウェブ検索エンジン12から得られる検索結果には、複数のリファレンス文字列が含まれることになる。
【0031】
図5は、クエリ展開部204の動作を説明するPAD図(問題分析図;problem analysis diagram)である。クエリ展開部204は、ユーザから検索キーワードKa(1≦a≦b)が与えられた場合(ステップ501)、全ての検索キーワードを連結した文字列“K12 … Kb”をクエリとして汎用ウェブ検索エンジン12に送り、検索結果D0を得る(ステップ502)。次に、検索結果D0中に含まれるトピックワードTc(1≦c≦d)を抽出する(ステップ503)。ここでトピックワードとは、DB選択インデックスにおいて重要度があるしきい値(例えば、0.8)以上である関連単語を指す。
【0032】
次に、ユーザから与えられた検索キーワードと各トピックワードTcとの関連性を調べるために、各トピックワードTcごとに、ステップ505〜510の処理を行なう(ステップ504)。
【0033】
まず、ステップ505において、“K12 … Kbc”をクエリとして汎用ウェブ検索エンジン12に送り、検索結果Dcを得る。次に、検索結果DcにおいてKa(1≦a≦b)のいずれかとTcとをともに含むリファレンス文字列をRce(1≦e≦f)とする(ステップ506)。ここで、fは、検索結果DcにおいてKaとTcが同一のウェブ文書中に同時に出現する回数となる。この回数fがある一定のしきい値以上である場合は、トピックワードTcはユーザが入力した検索キーワードKaに関連するものであるとみなし(ステップ507)、ステップ508〜510の処理を行う。
【0034】
ステップ508において、まず、リファレンス文字列Rce(1≦e≦f)に出現する全ての単語Xcg(1≦g≦h)の出現回数Ccgをカウントし、それを展開単語記憶部205に記憶する(ステップ509)。また、全てのRce(1≦e≦f)を連結して一つの文字列Ucとし、リファレンス文字列記憶部206に記憶する(ステップ510)。ただし、クエリ“K12 … Kbc”により得られた単語Xcg(1≦g≦h)を一つのグループとして扱う。そのため、ユニークなグループID(識別番号)をつけ、そのグループIDごとにXcgとCcgを管理する。したがって展開単語記憶部205には、図6に示すように、グループIDに対応する展開単語と出現回数が記憶される。同様に、リファレンス文字列記憶部206には、図7に示すように、各グループIDに対応するUcが記憶される。
【0035】
次に、エンジン選択部207が、検索エンジンと展開語句との適合度を計算する。図8は、エンジン選択部207の動作を示すPAD図である。適合度の計算は、展開単語記憶部206に記憶された各グループGc(1≦c≦d)ごとに行われる(ステップ801)。グループGcの展開語句に対する検索エンジンEiの適合度を計算する場合、まず、Gcに対する展開単語Xcg(1≦g≦h)とその出現回数Ccgを展開単語記憶部206から取得する(ステップ802)。次に、Eiの関連単語Sik(1≦k≦q)とその重要度WikをDB選択インデックス格納部20より取得し(ステップ804)、下記の計算式によりグループGcにおける検索エンジンEiの適合度F(Ei,Gc)を計算する。
【0036】
【数1】
Figure 0004428850
【0037】
ただし、f(x,y)は文字列xとyが等しい場合に1、それ以外の場合は0である関数である。
【0038】
エンジン選択部207は、グループGc(1≦c≦d)ごとに全ての検索エンジンEi(1≦i≦n)の適合度を計算し(ステップ803)、得点が上位の検索エンジンをグループGcに対する検索エンジンとしてユーザに提示する(ステップ806)。
【0039】
エンジン選択部207での処理とは独立して、フレーズ生成部208は、ユーザが入力した検索キーワードに関連するトピックを説明するフレーズを作成する。図9は、ここでのフレーズ生成部208の処理を示している。すなわちフレーズ生成部208は、リファレンス文字列記憶部206に記憶された各グループGc(1≦c≦d)ごとにそのグループの内容を説明するフレーズPMcを作成するために、ステップ901〜905を繰り返す(ステップ901)。フレーズPMcは、以下の処理によりリファレンス文字列Ucから抽出される。
【0040】
まず、Gcにおいて出現回数Ccgがある一定回数以上の展開単語Xcgを展開単語記憶部205から取得し、集合Ycとする(ステップ902)。Ucにおいて、Ycに含まれる単語もしくは前置詞もしくは冠詞が連続して出現する全ての個所PRr(1≦r≦v)をPMcの候補として抽出し(ステップ904)、各PRrごとに得点を計算する(ステップ905)。得点は、PRr中に含まれる全てのXcgの出現回数Ccgの和によって計算される。この得点が最大であったフレーズをグループGcを説明するフレーズPMcとして選択し、ユーザに提示する(ステップ906)。
【0041】
例えば、あるグループGに対するリファレンス文字列Uが"Object oriented programming with Python. Home page for Python, an object oriented scripting."であり、展開単語記憶部に記憶されたGに対する展開単語および出現回数が図10に示す通りであったとする。出現回数が3回以上の展開単語が連続している個所をフレーズとして用いるとすると、Uからは"Object oriented programming with Python"と"Python, an object oriented scripting"という二つが候補として抽出される。ここで"with"と"an"の出現回数は3回未満であるが、前置詞と冠詞であるためフレーズの中に含まれることを許される。"Object oriented programming with Python"は関連単語"Object"、"oriented"、"programming"および"Python"の出現回数6,6,9,15を合計し、36となる。同様に"Python, an object oriented scripting"の得点は31となる。したがって、"Object oriented programming with Python"がグループGを説明するフレーズPMとして選択される。
【0042】
以上、本発明の好ましい実施形態の情報検索装置について説明したが、図2にも示すように、この情報検索装置20は、ハードウェア構成としては、プログラム制御により動作するデータ処理装置21と、情報を記憶する記憶装置22とを備えている。したがって、この情報検索装置20は、データ処理装置21としてのCPU(中央処理装置)及び主記憶装置(メモリ)と、記憶装置22としてのハードディスク装置などの外部記憶装置とを有する汎用のコンピュータシステムを用意し、上述した情報検索を実現するための計算機プログラムをその汎用のコンピュータシステムに読み込ませ、そのプログラムを実行させることによっても実現できる。その汎用のコンピュータシステムは、さらに、検索キーワードなどの入力のための入力装置(キーボードやマウスなど)と、検索結果の表示などのための表示装置(CRTなど)と、インターネット10に接続するための通信インタフェース(モデムなど)と、プログラムを記録した記録媒体を読み取るための読み取り装置とを備えている。そして、上述したような情報検索を行うためのプログラムを格納した記録媒体を読み取り装置に装着し、記録媒体からプログラムを読み出してプログラム用の記憶領域に格納し、この格納されたプログラムを中央処理装置が実行することにより、情報検索が実行される。
【0043】
【発明の効果】
以上説明したように本発明は、検索エンジンのデータベース内の全てのデータにアクセスできない場合でも、検索エンジンのページそのものや検索エンジンへのリンクを有する他のウェブページを利用してDB選択インデックスを生成するため、ユーザの入力した検索キーワードに適した、ウェブ上にある検索エンジンを提示することが可能であるという効果がある。
【0044】
また、ここで述べたようなDB選択インデックス作成手法によって収集された単語の数が少ない場合でも、クエリ展開手法を用いて検索キーワードに関連する単語を取得し、ここで得られた単語とDB選択インデックス中の単語のマッチングを行なうことにより、多くの場合適切な検索エンジンを選択することができるようになる。
【0045】
また、検索キーワードが複数のトピックに関連する可能性がある場合は、関連する可能性があるトピックごとにクエリ展開処理を行い検索エンジンを選択し、なおかつそのトピックを説明するフレーズを生成することにより、検索キーワードが複数トピックに関連する場合でも、トピックごとに適切な検索エンジンをユーザに提示することができるようになる。
【図面の簡単な説明】
【図1】本発明に基づく検索結果出力の例を示す図である。
【図2】本発明の実施の一形態の情報検索装置の構成を示すブロック図である。
【図3】DB選択インデックスに格納されるデータを説明する図である。
【図4】汎用ウェブ検索エンジンから返される検索結果の例を示す図である。
【図5】クエリ展開部の動作を説明するPAD図(問題分析図;problem analysis diagram)である。
【図6】展開単語記憶部に格納されるデータを説明する図である。
【図7】リファレンス文字列記憶部に格納されるデータを説明する図である。
【図8】エンジン選択部の動作を説明するPAD図である。
【図9】フレーズ生成部の動作を説明するPAD図である。
【図10】関連単語記憶部に記憶されたデータの例を示す図である。
【符号の説明】
10 インターネット
11 ウェブ
12 汎用ウェブ検索エンジン
20 情報検索装置
21 データ処理装置
22 記憶装置
201 関連単語収集部
202 インデックス生成部
203 DB選択インデックス格納部
204 クエリ展開部
205 展開単語記憶部
206 リファレンス文字列記憶部
207 エンジン選択部
208 フレーズ作成部

Claims (10)

  1. 検索エンジンを選択するための情報検索装置であって、
    特定トピック向け検索エンジンへのリンクを有するウェブページから、及び、特定トピック向け検索エンジンのページから、各検索エンジンが扱うトピック及び/または内容を説明する単語を関連単語として収集する関連単語収集部と、
    収集された前記関連単語からDB選択インデックスを作成するインデックス生成部と、
    前記DB選択インデックスを記憶するDB選択インデックス格納部と、
    ユーザが汎用ウェブ検索エンジンに対して入力した検索キーワードに関連する単語を展開単語として取得するクエリ展開部と、
    前記クエリ展開部により得られた展開単語を記憶する展開単語記憶部と、
    前記DB選択インデックス格納部と前記展開単語記憶部に記憶されている情報に基づいて、前記検索キーワードと各検索エンジンとの適合度を計算し、前記適合度に基づいて、前記検索キーワードに適合した検索エンジンを選択するエンジン選択部と、を有し、
    前記適合度は、
    Figure 0004428850
    により計算され、ここでf(x,y)は文字列xとyが等しい場合に1、それ以外の場合は0である関数であり、Eiは検索エンジンを表し、GCは複数の前記検索キーワードと重要度がある閾値以上の前記関連単語であるトピックワードからなるクエリにより得られた前記展開単語Xcgを1つのグループとしたグループを表し、 ik は前記検索エンジンE i の関連単語を表し、W ik は前記検索エンジンE i の前記関連単語S ik の重要度を表し、X cg は前記グループG c の前記展開単語を表し、C cg は前記グループG c の前記展開単語X cg の出現回数を表している、情報検索装置。
  2. クエリ展開部は、ユーザが入力した検索キーワードを汎用ウェブ検索エンジンに送ることによって得られた検索結果から、前記検索キーワードに関連する単語を取得する、請求項1に記載の情報検索装置。
  3. ユーザが入力した検索キーワードを汎用ウェブ検索エンジンへ送った際に検索結果として前記汎用ウェブ検索エンジンから取得した文書中の文字列を記憶するリファレンス文字列記憶部と、
    展開単語記憶部と前記リファレンス文字列記憶部に記憶されている情報に基づいて、前記検索キーワードに関連するトピックを説明するフレーズを生成するフレーズ生成部と、をさらに有する請求項1または2に記載の情報検索装置。
  4. DB選択インデックスが、検索エンジンごとの関連単語と、関連単語ごとの重要度とを含み、各関連単語の重要度が当該関連単語の出現度に応じて定められる、請求項1乃至3のいずれか1項に記載の情報検索装置。
  5. 関連単語収集部が、ウェブ上に存在する特定トピック向け検索エンジンに対応する関連単語を当該特定トピック向け検索エンジンのウェブページそのものから取得する、請求項1乃至4のいずれか1項に記載の情報検索装置。
  6. 関連単語収集部が、ウェブ上に存在する特定トピック向け検索エンジンに対応する関連単語を、当該特定トピック向け検索エンジンへのハイパーリンクを有する他のウェブページから取得する、請求項1乃至4のいずれか1項に記載の情報検索装置。
  7. クエリ展開部が、前記トピックワードを抽出し、抽出された前記トピックワードとユーザが入力した検索キーワードとの関連性を優先的に調べることにより、前記検索ワードに関連する単語を取得する、請求項1乃至6に記載の情報検索装置。
  8. ユーザが入力した検索キーワードに適合した特定トピック向け検索エンジンを前記ユーザに提示する情報検索方法であって、
    コンピュータが、特定トピック向け検索エンジンへのリンクを有するウェブページから、及び、特定トピック向け検索エンジンのページから、各検索エンジンが扱うトピック及び/または内容を説明する単語を関連単語として収集し、収集された前記関連単語からDB選択インデックスを作成し、前記DB選択インデックスをコンピュータの記憶装置へ記憶する処理と、
    コンピュータが、ユーザが汎用ウェブ検索エンジンに対して入力した検索キーワードに関連する単語を展開単語として取得するクエリ展開を実行し、前記クエリ展開により得られた展開単語を前記コンピュータの記憶装置へ記憶する処理と、
    コンピュータが、前記コンピュータの記憶装置から前記DB選択インデックスと前記展開単語を読み出し、前記DB選択インデックスと前記展開単語に基づいて、前記検索キーワードと各検索エンジンとの適合度を計算し、前記適合度に基づいて、前記検索キーワードに適合した検索エンジンを選択するエンジン選択処理と、
    を有し、
    前記適合度は、
    Figure 0004428850
    により計算され、ここでf(x,y)は文字列xとyが等しい場合に1、それ以外の場合は0である関数であり、Eiは検索エンジンを表し、GCは複数の前記検索キーワードと重要度がある閾値以上の前記関連単語であるトピックワードからなるクエリにより得られた前記展開単語Xcgを1つのグループとしたグループを表し、 ik は前記検索エンジンE i の関連単語を表し、W ik は前記検索エンジンE i の前記関連単語S ik の重要度を表し、X cg は前記グループG c の前記展開単語を表し、C cg は前記グループG c の前記展開単語X cg の出現回数を表している、情報検索方法。
  9. ユーザが入力した検索キーワードに適合した特定トピック向け検索エンジンを前記ユーザに提示する情報検索方法であって、
    コンピュータが、ウェブ上に存在する各特定トピック向け検索エンジンの内容に関連する単語を当該特定トピック向け検索エンジンへのハイパーリンクを持つ他のウェブページから関連単語として収集し、収集された前記関連単語からDB選択インデックスを作成し、前記DB選択インデックスを前記コンピュータの記憶装置へ記憶する処理と、
    コンピュータが、ユーザが前記特定トピック向け検索エンジンに対して入力した検索キーワードに関連する単語を展開単語として取得するクエリ展開を実行し、前記クエリ展開により得られた展開単語を前記コンピュータの記憶装置へ記憶する処理と、
    コンピュータが、コンピュータの記憶装置から前記DB選択インデックスと前記展開単語を読み出し、前記DB選択インデックスと前記展開単語に基づいて、前記検索キーワードと各検索エンジンとの適合度を計算し、前記適合度に基づいて、前記検索キーワードに適合した検索エンジンを選択するエンジン選択処理と、
    を有し、
    前記適合度は、
    Figure 0004428850
    により計算され、ここでf(x,y)は文字列xとyが等しい場合に1、それ以外の場合は0である関数であり、Eiは検索エンジンを表し、GCは複数の前記検索キーワードと重要度がある閾値以上の前記関連単語であるトピックワードからなるクエリにより得られた前記展開単語Xcgを1つのグループとしたグループを表し、 ik は前記検索エンジンE i の関連単語を表し、W ik は前記検索エンジンE i の前記関連単語S ik の重要度を表し、X cg は前記グループG c の前記展開単語を表し、C cg は前記グループG c の前記展開単語X cg の出現回数を表している、情報検索方法。
  10. 検索エンジンを選択するための情報検索装置であって、
    特定トピック向け検索エンジンへのリンクを有するウェブページから、及び、特定トピック向け検索エンジンのページから、各検索エンジンが扱うトピック及び/または内容を説明する単語を関連単語として収集する関連単語収集部と、
    収集された前記関連単語からDB選択インデックスを作成するインデックス生成部と、
    前記DB選択インデックスを記憶するDB選択インデックス格納部と、
    ユーザが汎用ウェブ検索エンジンに対して入力した検索キーワードに関連する単語を展開単語として取得するクエリ展開部と、
    前記クエリ展開部により得られた展開単語を記憶する展開単語記憶部と、
    前記DB選択インデックス格納部と前記展開単語記憶部に記憶されている情報に基づいて、前記検索キーワードと各検索エンジンとの適合度を計算し、前記適合度に基づいて、前記検索キーワードに適合した検索エンジンを選択するエンジン選択部と、を有し、
    前記エンジン選択部は、複数の前記検索キーワードと重要度がある閾値以上の前記関連単語であるトピックワードからなるクエリにより得られ、前記展開単語記憶部に記憶された展開単語をひとつのグループとした前記グループごとに、各グループに対する展開単語と当該展開単語の出現回数、及び各検索エンジンに関連する関連単語と当該関連単語の重要度から、前記適合度を計算する、情報検索装置。
JP2000353256A 1999-11-22 2000-11-20 情報検索装置及び情報検索方法 Expired - Lifetime JP4428850B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US16671899P 1999-11-22 1999-11-22
US09/569,305 US6701310B1 (en) 1999-11-22 2000-05-11 Information search device and information search method using topic-centric query routing
US09/569305 2000-05-11
US60/166718 2000-05-11

Publications (2)

Publication Number Publication Date
JP2001188802A JP2001188802A (ja) 2001-07-10
JP4428850B2 true JP4428850B2 (ja) 2010-03-10

Family

ID=26862506

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000353256A Expired - Lifetime JP4428850B2 (ja) 1999-11-22 2000-11-20 情報検索装置及び情報検索方法

Country Status (1)

Country Link
JP (1) JP4428850B2 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003308335A (ja) * 2002-04-15 2003-10-31 Just Syst Corp 文書検索システム及び方法、並びにプログラム
JP2007525744A (ja) 2004-01-13 2007-09-06 ケイティーフリーテル カンパニー リミテッド 文字列を使用した無線インターネットサービス接続方法及び装置
JP4516815B2 (ja) * 2004-09-28 2010-08-04 株式会社ニューズウォッチ 検索装置
WO2006046390A1 (ja) * 2004-10-29 2006-05-04 Matsushita Electric Industrial Co., Ltd. 情報検索装置
JP2007323394A (ja) * 2006-06-01 2007-12-13 Ritsumeikan メタ検索システム及びメタ検索方法とこれに用いるユーザ端末及びプログラム
KR100955776B1 (ko) * 2006-12-27 2010-04-30 엔에이치엔(주) 검색 시스템 및 방법
KR100896614B1 (ko) * 2007-01-29 2009-05-08 엔에이치엔(주) 검색 시스템 및 방법
JP2009059195A (ja) * 2007-08-31 2009-03-19 Toshiba Corp 情報提供サーバ及び情報提供方法
CN103218356B (zh) * 2012-01-18 2017-12-08 深圳市世纪光速信息技术有限公司 一种面向开放平台的提问质量判定方法和系统
JP5530468B2 (ja) * 2012-02-24 2014-06-25 ヤフー株式会社 検索サーバ、プログラム及び方法
JP6131646B2 (ja) * 2013-03-14 2017-05-24 株式会社リコー 検索システム、プログラム、記憶媒体及び検索方法
KR20180075227A (ko) * 2016-12-26 2018-07-04 삼성전자주식회사 전자 장치 및 전자 장치의 검색 서비스 제공 방법

Also Published As

Publication number Publication date
JP2001188802A (ja) 2001-07-10

Similar Documents

Publication Publication Date Title
US6701310B1 (en) Information search device and information search method using topic-centric query routing
JP4274689B2 (ja) データ組を選ぶための方法とシステム
US7599911B2 (en) Method and apparatus for search ranking using human input and automated ranking
JP4623820B2 (ja) ネットワークベース情報検索システム及びドキュメントサーチ促進方法
JP5114380B2 (ja) 検索結果の関連性の再ランク付けおよびその増強
US6282538B1 (en) Method and apparatus for generating query responses in a computer-based document retrieval system
Gauch et al. ProFusion*: Intelligent fusion from multiple, distributed search engines
EP1341099B1 (en) Subject specific search engine
US6199067B1 (en) System and method for generating personalized user profiles and for utilizing the generated user profiles to perform adaptive internet searches
US20050065774A1 (en) Method of self enhancement of search results through analysis of system logs
US7099870B2 (en) Personalized web page
JP3849318B2 (ja) 情報検索装置、情報検索方法及び情報検索プログラムを記録したコンピュータ読み取り可能な記録媒体
US7024405B2 (en) Method and apparatus for improved internet searching
KR19980701598A (ko) 정보 액세스 방법 및 시스템(methods and/or systems for acessing informatiom)
KR20080031928A (ko) 태그를 분석하여 관련 문서를 찾기 위한 시스템 및 방법
US20090307217A1 (en) Method, Device and System for Processing, Browsing and Searching an Electronic Documents
JP4428850B2 (ja) 情報検索装置及び情報検索方法
Kim et al. Personalized search results with user interest hierarchies learnt from bookmarks
Diao et al. Toward learning based web query processing
WO2000048057A2 (en) Bookmark search engine
US7483877B2 (en) Dynamic comparison of search systems in a controlled environment
JP4649036B2 (ja) 検索サーバーによるカテゴリの報告方法、レコードの報告方法、検索サービス装置
WO2000007133A1 (en) Method and system for applying user specified hyperlinks
US20060059126A1 (en) System and method for network searching
Khatavkar et al. Use of noun phrases in identification of a website

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20050628

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20080411

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20080905

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080917

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20081217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090218

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20090325

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20090325

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20090325

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090518

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090819

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091110

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20091202

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20091215

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

Ref document number: 4428850

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121225

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131225

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term