JP2003132084A - 情報検索方法及び情報検索システム - Google Patents

情報検索方法及び情報検索システム

Info

Publication number
JP2003132084A
JP2003132084A JP2001330217A JP2001330217A JP2003132084A JP 2003132084 A JP2003132084 A JP 2003132084A JP 2001330217 A JP2001330217 A JP 2001330217A JP 2001330217 A JP2001330217 A JP 2001330217A JP 2003132084 A JP2003132084 A JP 2003132084A
Authority
JP
Japan
Prior art keywords
search engine
query term
initial query
category
query
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001330217A
Other languages
English (en)
Inventor
Hiroyuki Kitagawa
博之 北川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
INST TSUKUBA LIAISON CO Ltd
Institute of Tsukuba Liaision Co Ltd
Original Assignee
INST TSUKUBA LIAISON CO Ltd
Institute of Tsukuba Liaision Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by INST TSUKUBA LIAISON CO Ltd, Institute of Tsukuba Liaision Co Ltd filed Critical INST TSUKUBA LIAISON CO Ltd
Priority to JP2001330217A priority Critical patent/JP2003132084A/ja
Publication of JP2003132084A publication Critical patent/JP2003132084A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】サーチエンジンを用いて情報検索を行う場合
に、サーチ結果の精度を大幅に向上させる。 【解決手段】本発明に係る方法はデータベースから所望
の情報を検索する方法であって、初期照会用語とコンテ
クストカテゴリーとを決定する過程(ステップS10
1)と、前記初期照会用語と前記コンテクストカテゴリ
ーとを体系分類式サーチエンジンに送る過程(ステップ
S102)と、前記初期照会用語を拡張する過程(ステ
ップS107)と、拡張した初期照会用語をクローラ式
サーチエンジンに送る過程(ステップS109)と、を
備える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、いわゆるサーチエ
ンジンを用いて情報を検索する方法及びシステムに関す
る。
【0002】
【従来の技術】インターネット技術の急速な進歩ととも
に、WWWスペースにおける効率的な情報検索が重要な研
究課題になってきている。
【0003】インターネットに利用できるサーチエンジ
ンは2種類ある。クローラ式サーチエンジン(「ロボッ
ト型サーチエンジン」とも呼ばれる)と分類(ディレク
トリ)式サーチエンジンとである。
【0004】アルタビスタ(Altavista)に代
表されるクローラ式サーチエンジンは、インデックスを
付与するページを探索するためにインターネット中を巡
回するクローラを採用している。アルタビスタにおける
全ての処理はほぼ自動的に行われ、人間の介入はごく僅
かである。従って、このクローラ式サーチエンジンはウ
ェブの多くの部分をカバーすることが可能である。
【0005】しかしながら、このクローラ式サーチエン
ジンはこのようにクロールされたページを一群のキーワ
ードとして記憶するものであるので(すなわち、ページ
の要約やトピックなどを形成するものではないので)、
クローラ式サーチエンジンは一般的にキーワードベース
のサーチをサポートするにすぎず、結果的に、得られた
結果には多くのノイズドキュメントが含まれることとな
る。
【0006】一方、ヤフー(Yahoo!(登録商
標))のような体系分類(Taxonomy)式サーチ
エンジンは、分類法(Taxonomy)を用いてウェ
ブページを管理する。この体系分類式サーチエンジンで
は、同類のトピックを有するページが同一のカテゴリに
記憶され(分類され)るため、ユーザは容易に情報検索
を行うことが可能である。
【0007】しかしながら、分類はマニュアルでなされ
るために、この体系分類式サーチエンジンはウェブのご
く僅かな範囲をカバーできるにすぎない。
【0008】
【発明が解決しようとする課題】検索結果の精度を高め
る方法の一つとして、自動照会(Query:クエリ
ー)拡張法がある。
【0009】この方法においては、ユーザーの照会の結
果として得られた最上位のドキュメントをその照会に対
する関連ドキュメントと見なし、そのドキュメントから
共通の用語を抽出し、抽出した用語が最初の照会に付加
される。このように、より有効な用語を最初の照会に付
加することにより、この検索方法は検索結果の精度を向
上させることができる。
【0010】しかしながら、この方法には明白な欠点が
存在する。
【0011】検索結果の有効性は、最上位のドキュメン
トにおける関連ドキュメントの割合に大きく依存する。
関連すると思われた多数のドキュメントが実際には関連
性のないものであるならば、最初の照会に付加されたほ
とんどの用語は、ユーザーが要求したトピックとは関連
のない可能性が大きい。従って、拡張された照会の精度
は、最初の照会よりも悪化している可能性がある。
【0012】この問題の解決策の一つは、ブール(Bo
olean)フィルタを用いて、ドキュメントのランク
付けを再構成することである。すなわち、関連性のない
ドキュメントをブールフィルタにかけることにより抹消
し、最初の照会を拡張するために関連性のあるものだけ
を使用する。
【0013】他の解決策は、最初の照会の結果として得
られたドキュメントをクラスタ化することである。この
方法においては、ユーザーはどのクラスタが自らが要求
したトピックを正確に表しているかを選択し、次いで、
最初の照会は、クラスタを体系化するドキュメントベク
トルを用いることによって、拡張される。
【0014】これまでに、ウェブコンテンツを自動的に
分類するための多数の方法が提案されている。これらの
方法の目的は、幾何級数的に拡大しているオンラインテ
キストデータベース量を処理することができるようにす
ることである。これらの方法は、コーパス(corpu
s)の小さなサンプルを手で分類することから始まり、
やがて、階層的分類子(classifier)が確立
される。稼動時には、検索される各ウェブページは、こ
の分類子により、自動的に適切なカテゴリに分類され
る。
【0015】しかしながら、この方法は次のような欠点
を有する。
【0016】第1に、ヤフーのような、膨大なトピック
を処理できる優れた大型の階層分類子を確立することが
極めて困難であること、第2に、カテゴリノード及びそ
れに関連するドキュメントの削除及び追加などのカテゴ
リー階層の修正は、動的ウェブ環境においては、重要な
ものであるが、ほとんどの分類子は、そのカテゴリー階
層の修正を処理できないこと、である。
【0017】本発明は以上のような点に鑑みてなされた
ものであり、サーチ結果の精度を大幅に向上させること
ができる情報検索方法及び同システムを提供することを
目的とする。
【0018】
【課題を解決するための手段】この目的を達成するた
め、本発明は、2つのサーチエンジンの優れた特徴を最
大限に利用する新規な方法を提案する。概略的には、本
発明は、サーチ結果の精度を向上させることができる分
類式サーチ技術と、照会拡張方法によってウェブを十分
にカバーすることができるクローラ式技術とを組み合わ
せる。
【0019】本発明に係る情報検索方法及び情報検索シ
ステムの概要は以下の通りである。
【0020】関連情報を探し出すために、先ず、ユーザ
ーは、体系分類式サーチエンジンが提供する分類体系の
閲覧を行う。ユーザーが、探し出したいトピックに関連
するカテゴリを見つけ出した後に(これは、カテゴリ内
のドキュメントを調べた後に決定することも可能であ
る)、キーワードベースの照会すべき用語を決定する。
【0021】次いで、情報検索システムは照会用語を、
選択されたカテゴリに基づいて、自動的に拡張する。
【0022】次いで、この拡張された照会用語をクロー
ラ式サーチエンジンに送る。
【0023】照会用語は、クローラ式サーチエンジンに
よるサーチ結果が、選択されたカテゴリに分類されるペ
ージのほとんどを含むように、拡張される。言い換えれ
ば、それらのページはキーワードベースの照会条件に一
致し、かつ、選択されたカテゴリのトピックを有する。
【0024】本発明に係る情報検索方法及び情報検索シ
ステムは、ルールベースの分類子と、照会用語を拡張す
るために、予め分類されている情報と、を利用する。こ
のようにすることによって、クローラ式サーチエンジン
の助けを得て、体系分類(Taxonomy)式サーチエンジン
の有効範囲を増大させることができる。
【0025】さらに、本発明は、所定の体系分類(Taxo
nomy)から独立して構築されているいかなるデータベー
スにも適用することが可能である。
【0026】クローラ式サーチエンジンによるサーチ結
果が多くのノイズドキュメントを含むことの理由の一つ
は、ユーザー照会に使用される用語の曖昧さにある。こ
の曖昧さは、ウェブ環境においては一般的なことである
が、短い照会用語を使用することが原因である。
【0027】例えば、ユーザーが照会用語として「AT
M」と「カンパニー」とを使って、同期転送モード(As
ynchronous Transfer Mode:
ATM)に関する情報を探す場合を想定する。
【0028】アルタビスタサーチエンジンは約20,0
00件のサーチ結果を提供するが、そのほとんどは、銀
行関係設備に関する情報またはコンピュータネットワー
クに関連する情報に分類される。このように多くの関連
情報が検索されても、それらの情報は銀行関係設備のA
TMに関連する多くのページによって曖昧なものになら
ざるを得ない。これは、用語「ATM」が「自動テラー
機」という別の意味を有しており、アルタビスタサーチ
エンジンが「ATM」という短い照会用語からユーザー
の意図を汲み取ることができないために発生する。
【0029】この照会用語の曖昧さに起因する問題は、
体系分類式サーチエンジンにおいて、その照会用語が属
するカテゴリを選択することにより、解決することが可
能である。カテゴリを選択することにより、サーチは、
特定のカテゴリにおいてのみなされることになるからで
ある。先の「ATM」の例で言えば、例えば、「通信」
というカテゴリを指定することにより、照会用語「AT
M」は通信の分野においてのみサーチされ、銀行関係設
備に関する情報は検索されないこととなる。
【0030】本発明においては、クローラ式サーチエン
ジンと体系分類(Taxonomy)式サーチエンジンとが利用
可能であり、これらはブール(Boolean)手法で照会用語
を処理できるものとする。さらに、体系分類式サーチエ
ンジンにより、体系分類内に存在するすべてのカテゴリ
においてサーチを行うことができるものとする。
【0031】
【発明の実施の形態】図1は、本発明に係る情報検索方
法の各過程を示すフローチャートである。
【0032】先ず、ユーザー10は、関連情報を見つけ
出すために、体系分類(Taxonomy)式サーチエンジンに
より得られる体系分類に従って、ユーザーが求めるトピ
ックに関連するカテゴリを見つけ出す。
【0033】次いで、ユーザー10は、キーワードから
なる照会用語を決定する(ステップS101)。この照
会用語の決定は、あたかもクローラ式サーチエンジンを
使用して照会用語を決定するのと同様にして行う。以
下、このようにしてユーザー10により選択されたカテ
ゴリを「コンテクストカテゴリ」と呼ぶ。
【0034】次いで、ユーザー10により選択されたコ
ンテクストカテゴリを記録した後、照会用語及びコンテ
クストカテゴリの双方を体系分類式サーチエンジンに送
る(ステップS102)。
【0035】体系分類式エンジンからのサーチ結果を受
け取った後(ステップS103)、コンテクストカテゴ
リに基づいて、サーチ結果を関連ドキュメント及び非関
連ドキュメントに分離する(ステップS104)。
【0036】関連ドキュメントは、ユーザー10が照会
した照会用語に関連するドキュメントのうち、コンテク
ストカテゴリあるいはそのコンテクストカテゴリに属す
るサブカテゴリに分類されるドキュメントである。非関
連ドキュメントは、ユーザー10が照会した照会用語に
関連するドキュメントのうち、コンテクストカテゴリ及
びそのコンテクストカテゴリに属するサブカテゴリに属
しないドキュメントである。
【0037】関連ドキュメント及び非関連ドキュメント
が見つけ出されると、照会用語は、クローラ式サーチエ
ンジンに送られる前に、ブール法により拡張される。
【0038】しかしながら、ブール法による照会用語の
拡張は、ベクトルスペースによる照会を拡張することよ
りも複雑である。なぜならば、新しい照会用語を選択し
なければならない上に、どのブールオペレータがそれら
の新しい照会用語に接続されているかを判断しなければ
ならないからである。
【0039】この点に鑑みて、本発明に係る情報検索方
法においては、ルールベースの分類子(Classifier)を
用いて(ステップS105)、以下のようにして、ブー
ル法による照会用語の拡張を行う。
【0040】第1に、関連カテゴリ及び非関連カテゴリ
の2つの新規なカテゴリに関する分類子(Classifier)
を形成する。関連カテゴリは関連ドキュメントに対応
し、非関連カテゴリは非関連ドキュメントに対応する。
分類子(Classifier)は、関連ドキュメント及び非関連
ドキュメントをそれぞれ肯定的例及び否定的例として設
定することによって、形成される。このようにして得ら
れる分類子は、T→cの形式の論理ルールである。ここ
で、Tは連言命題であり、cは関連カテゴリまたは非関
連カテゴリである。
【0041】このようなルール形式の分類子はマシーン
ラーニングの分野において盛んに研究されてきた。後に
記載する実施例においては、この分類子を構成するのに
RIPPERモジュールを採用する。
【0042】次に、関連カテゴリに関するルールを以下
のようにブール条件に変換する(ステップS106)。
【0043】(1)Rを関連カテゴリのルールとする。
【0044】(2)各ルールri∈Rについて、qi=T
を設定する。ここで、ri=T→cとする。
【0045】(3)得られた条件は、q'=q1 OR…OR qn
である。ここで、n=|R|である。
【0046】最後に、初期の照会条件(q)をq'で論
理積を行うことにより初期照会条件を拡張する(ステッ
プS107)。
【0047】すなわち、拡張照会=q AND q’であ
る。
【0048】この拡張された照会用語(ステップS10
8)はクローラ式サーチエンジンに送られ(ステップS
109)、このクローラ式サーチエンジンによるサーチ
結果がユーザー10に示される(ステップS110)。
【0049】上記の分類子は、初期照会条件に一致する
ドキュメントがコンテクストカテゴリに分類されるか否
かを判定するために使用される。言い換えれば、クロー
ラ式サーチエンジンにおいてサーチを導き出すときに発
生する可能性のある問題、すなわち、照会用語の曖昧さ
の問題を排除するために分類子が使用される。
【0050】従って、照会用語とともに分類子をクロー
ラ式サーチエンジンに送ることによって、すなわち、分
類子をブール条件に変換し、それにより、初期照会を拡
張することによって、クローラ式サーチエンジンのサー
チ結果がユーザー10の意図に関連するドキュメントを
ほとんど含むことになる。
【0051】上記のように初期照会条件を拡張すること
の他に、コンテクストノードへの経路に基づいて初期照
会条件を拡張することもできる。すなわち、主カテゴリ
からコンテクストカテゴリまでの経路に基づいてブール
条件を生成することにより、初期照会条件を拡張するこ
とも可能である。この場合の経路は主カテゴリからコン
テクストカテゴリまでカテゴリシーケンスである。この
方法(以下、単純方法または単純アプローチと呼ぶ)
は、例えば、経路内に存在するカテゴリ名中の全ターム
の論理積を行うことによって、実現される。
【0052】以下、本発明に係る情報検索方法の一実施
例を挙げる。
【0053】本実施例においては、ユーザーが、体系分
類におけるコンピュータ/データコミュニケーション/
同期転送モードからなるカテゴリにおいて、照会用語と
して「ATM」を用いて、非同期転送モード(ATM)
についての情報を検索する場合を想定する。
【0054】先ず、ユーザーは、照会用語「ATM」を
体系分類(Taxonomy)式サーチエンジンに送信する。
【0055】これにより、関連ドキュメントとして非同
期転送モードに関するドキュメントと、非関連ドキュメ
ントとして、例えば、自動窓口機(Automated
Teller Machine)に関するドキュメン
トを得る。
【0056】次いで、非同期転送モードに関連したトピ
ックに対応する関連カテゴリと、他のトピックに対応す
る非関連カテゴリに関する分類子を構成する。
【0057】分類子は関連ドキュメント及び非関連ドキ
ュメントに基づいて構成されているため、新規なドキュ
メントが非同期転送モード関連のトピックの情報を含む
か否かを容易に知ることができる。
【0058】本発明の発明者は、本発明に係る情報検索
方法の優れた効果を実証するための試験を行った。
【0059】この試験においては、本発明に係る情報検
索方法により拡張された照会用語の精度及び検索能力
を、前述した単純な方法により拡張された照会用語の精
度及び検索能力並びに初期照会による精度及び検索能力
と比較する。
【0060】ただし、精度と再現度とを算出するために
は、選択されたコンテクストカテゴリに関する照会用語
の真の回答を知ることが必要がある。このための一つの
方法は、サーチ結果における各ドキュメントが関連ドキ
ュメントであるか否かを検証することである。
【0061】この方法を評価するために二つのアプロー
チを採用する。
【0062】第1のアプローチは、体系分類式サーチエ
ンジンのみを使用し、クローラ式サーチエンジンのシミ
ュレートを行うことである。クローラ式サーチエンジン
のシミュレーションは、体系分類(Taxonomy)に存在す
る全てのカテゴリ内のドキュメントに対してサーチを実
行することによりなされる。
【0063】この第1のアプローチにおける照会用語に
対する真の回答は、照会条件に一致し、かつ、照会用語
のコンテクストカテゴリに分類されるサブセットのドキ
ュメントである。クローラ式サーチエンジンを体系分類
式サーチエンジンでシミュレートすることにより、いか
なる深さのカテゴリであっても、本方法の効果を簡単に
検証することができる。なぜならば、真の回答とは選択
されたコンテクストカテゴリにおけるドキュメントのサ
ブセットであるからである。
【0064】第1のアプローチにおいて、体系分類にお
いて分類されたドキュメントは体系分類式サーチエンジ
ンと、シミュレートされたクローラ式サーチエンジンと
の双方に対して使用される。
【0065】第2のアプローチにおいては、実際のクロ
ーラ式サーチエンジンが使用される。
【0066】関連性に関する判断を容易にするために、
検索結果をクラスタ化するクローラ式サーチエンジンに
照会用語を送る。
【0067】次いで、クラスタを特定する(このクラス
タのドキュメントが選択されたコンテクストカテゴリに
分類されることになる)。
【0068】このようにして、本アプローチにおける照
会用語に対する真の回答は、コンテクストカテゴリに一
致するクラスタ内のドキュメントとなる。
【0069】しかしながら、極めて特定のトピックを有
するカテゴリにクラスタを一致させることは困難である
ために、試験ではコンテクストカテゴリとして主のカテ
ゴリ(体系分類の上位部分に位置するカテゴリ)のみを
取り上げる。
【0070】第1の試験の詳細を図2に示す。
【0071】この第1の試験では、体系分類式サーチエ
ンジンのみを使用する。さらに、初期照会はトレーニン
グセットとテストセット(test)に分けられ、選択
されたコンテクストカテゴリに基づいて、関連ドキュメ
ントセット及び非関連ドキュメントセットに分けられ
る。
【0072】トレーニングセットにおける関連ドキュメ
ント及び非関連ドキュメントは分類子を構成するために
使用され、次いで、その分類子は初期照会を拡張するた
めに使用される。この結果得られた拡張照会用語は体系
分類式サーチエンジンに戻され、サーチ結果の精度と再
現度とがテストセットに基づいて求められる。
【0073】前述したように、これを単純アプローチと
比較する。従って、拡張された照会用語(または照会条
件)を単純アプローチから体系分類式サーチエンジンに
送り、サーチ結果の精度と再現度とを求める。
【0074】拡張照会の精度と再現度とは以下のように
して算出される。
【0075】eq1を拡張された照会の結果セットとテ
ストセットに含まれているドキュメントセットとする。
eq1relをeq1における関連ドキュメントのセッ
ト、すなわち、初期照会条件に一致し、かつ、コンテク
ストカテゴリに分類されるドキュメントセットとする。
【0076】同様に、testrelを、テストセットに
おける関連ドキュメントセットとする。次いで、拡張照
会の精度と再現度とを以下のように算出する。
【0077】 精度=|eq1rel|/|eq1| (1) 再現度=|eq1rel|/|testrel| (2) 初期照会の再現度は常に1であり、精度は以下の式によ
り算出される。
【0078】 精度=|testrel|/|test| (3) 3回相互検証法により評価手順を実施する。
【0079】初期照会結果は、相互に排他的な3つのサ
ブセットs1、s2及びs3に不規則に分けられ、それ
ぞれはほぼ同じ大きさである。再現度及び精度計算は3
回実行され、i回の反復において、サブセットsiはテ
ストセットとして使用され、残りのサブセットは集合的
にトレーニングセットとして使用される。後者の再現度
と精度の値は3回の評価結果の平均値である。
【0080】ここでは、体系分類(Taxonomy)式サーチ
エンジンとして、オープンディレクトリプロジェクト
(Open Directory Project:O
DP)が提供するサーチエンジンを採用する。ODP
は、2001年9月現在、約400,000カテゴリ
と、2,800,000以上の記録サイトとを有する。
サーチを実行すると、ODPは、キーワードに一致する
ウェブサイト、タイトル、コメント及びURLを捜す。
このようにして、サーチ結果はサイト項目(サイトエン
トリ)からなるリストとして表され、サイト項目の各々
は、タイトル、説明、アドレス及びカテゴリ名からな
る。本実験においては、各サイト項目をドキュメントと
扱う。
【0081】ODP体系分類(Taxonomy)のトピック編
成は極めて詳細である。このため、分類子を構成するの
に使用される肯定例および否定例の数が少なくなり、分
類子の精度を劣化させることになる。
【0082】この問題を解消するために、本試験におい
ては、否定例におけるサイト項目と同一のカテゴリに登
録されているn個のサイト項目(本試験では、n=5で
ある)を付加することにより、否定例のサイズを大きく
する。肯定例に関しては、肯定例(初期照会に一致し、
コンテクストカテゴリに分類される関連ドキュメント)
の数が35以上であれば、そのカテゴリをコンテクスト
カテゴリとして選択できるものとする。
【0083】図3は、第2の試験の流れを表すフローチ
ャートである。
【0084】図3に示されているように、試験例1から
得られた拡張照会を再使用する。従って、本発明に係る
情報検索方法から得られた拡張された照会は試験例1に
おいて構成されたトレーニングセットから得られたもの
である。
【0085】初期照会に対する応答としてクローラ式サ
ーチエンジンが出力したクラスタのうち、選択されたコ
ンテクストカテゴリと同一のトピックを有するものを識
別し、そのクラスタ内のドキュメントを照会に対する真
実の回答として扱う。従って、本試験例における「真
実」の回答は、分類子を構成するのに用いたものと同一
ソースに由来するものではない。選択されたクラスタを
関連クラスタとし、それ以外の残りのクラスタを非関連
クラスタとする。関連クラスタは、クラスタ名と、その
クラスタ内に存在するいくつかのドキュメントを調べる
ことにより、取り出すことができる。
【0086】initrelを初期照会に対する関連クラ
スタからのドキュメントセットとし、eq2relをin
itrel内にある拡張された照会結果からのドキュメン
トセットとする。また、initnonを初期照会に対す
る非関連クラスタからのドキュメントセットとし、eq
nonをinitnon内にある拡張された照会結果からの
ドキュメントセットとする。
【0087】初期照会をブール条件と論理積演算を行う
ことにより拡張するので、拡張照会の結果は初期照会の
サブセットでなければならない。拡張照会の再現度及び
精度は以下のようにして計算される。
【0088】 精度=|eq2rel|/(|eq2rel|+|eq2non|) (4) 再現度=|eq2rel|/|initrel| (5) 試験1と同様に、初期照会の再現度は常に1であり、精
度は以下のようにして計算される。
【0089】 精度=|initrel|/(|initrel|+|initnon|) (6) クローラ式サーチエンジンとしてノーザンライトを使用
する。これを採用するのは、このサーチエンジンが、そ
のサーチ結果をクラスタ化し、ブール照会をサポートす
ることができるからである。ノーザンライトを採用する
のは評価のためだけであり、本発明に係る方法はブール
サーチをサポートする他のクローラ式サーチエンジンに
も適用することが可能である。
【0090】簡潔にするために、本試験においては、サ
ーチエンジンから出力された主クラスタ(第1ページの
クラスタ)のみを考慮する。関連クラスタとして、コン
テクストカテゴリと同一のトピックを、非関連クラスタ
として、別のコンテクストカテゴリと同一のトピックを
有するクラスタを選択する。
【0091】以下、上述の試験の結果を述べる。
【0092】先ず、試験1の結果は次の通りである。
【0093】試験1に使用される5つの照会用語は次の
通りである。 (1) q1 : 「ATM」 (2) q2 : 「salsa」 (3) q3 : 「apple」 (4) q4 : 「oil」及び「product」 (5) q5 ; 「capital」及び「invest」 2つのサブ試験1.1と1.2を行う。
【0094】サブ試験1.1においては、q1からq4
までの照会用語を使用し、コンテクストカテゴリにおけ
る照会用語の意味が異なるように、各照会用語に関して
2つのコンテクストカテゴリを選択する。コンテクスト
カテゴリがより狭い概念にシフトされるときに(例え
ば、コンテクストカテゴリがサブカテゴリにシフトされ
たときに)ついても、評価が行われる。
【0095】サブ試験1.2においては、照会用語q
2、q3、およびq5を使って、コンテクストカテゴリ
において照会用語の意味が類似したものになるように各
照会用語ごとにいくつかのコンテクストカテゴリを選択
する。
【0096】表1及び表2は、サブ試験1.1及びサブ
試験1.2におけるそれぞれの各照会用語のコンテクス
トカテゴリと意味とを示している。
【0097】
【表1】
【0098】
【表2】
【0099】先ず、サブ試験1.1について以下に説明
する。
【0100】表3及び図4乃至図7はサブ試験1.1の
結果を表す。
【0101】
【表3】
【0102】E_prec、N_prec及びI_precは、本発明
に係る方法を用いた拡張照会、単純方法を用いる拡張照
会及び初期照会のそれぞれの精度を示し、E_recall、N
_recall及びI_recallは、本発明に係る方法を用いた
拡張照会、単純方法を用いる拡張照会及び初期照会のそ
れぞれの再現度を示す。
【0103】表3における数値n/aは、対応する照会
のサーチ結果が空であることを示している。
【0104】表3及び図4乃至図7に示すように、主コ
ンテクストカテゴリにおいては、本発明に係る方法は、
再現度の減少に伴い、初期照会の精度が顕著に高まって
いる。コンテクストカテゴリが狭くなってくると、精度
の向上はほとんど変化しないが、再現度の減少はいくら
か大きくなる。
【0105】一方、カテゴリ名に基づいて初期照会を拡
張するという単純方法においては、特に、再現度が劣っ
ている。このため、図4乃至図7においては、これらを
省いた。このことから、カテゴリ名におけるタームはカ
テゴリ内のドキュメントの主タームであるとは限らない
ことがわかる。
【0106】本発明に係る方法においては、主コンテク
ストカテゴリはより狭いコンテクストカテゴリよりも優
れている。なぜならば、要求されたトピックを含むほと
んどのドキュメントが肯定例の中に含まれているからで
ある。この結果、分類子を高精度に形成することが可能
である。
【0107】しかしながら、コンテクストカテゴリがよ
り狭いカテゴリにシフトされると、コンテクストカテゴ
リが該コンテクストカテゴリ以外のカテゴリ内に存在す
る状態では、同様のトピックを有するドキュメントは否
定的例として処理されることになり、結果的に分類子の
精度の劣化をもたらす。
【0108】例えば、C1.1’は、ATMネットワー
クを表す多くのドキュメントを含んでいるが、/コンピ
ュータ/ソフトウェア/ネットワーキング/及び/コン
ピュータ/インターネット/rfcs/のような他のカ
テゴリも同一のトピックを表す多くのドキュメントを含
んでいる。このようなことが起きるのは、ODPのトピ
ック編成が極めて詳細であり、同一のトピックを表すド
キュメントが同一のカテゴリに分類されているとは限ら
ないためである。
【0109】次いで、以下、サブ試験1.2について説
明する。
【0110】
【表4】
【0111】表4及び図8及び図9は、サブ試験1.2
の結果を表している。精度は、サブ試験1.1とほぼ同
じである。すなわち、精度が高い。さらに、類似したコ
ンテクストカテゴリの精度はほぼ同一である。従って、
本発明に係る方法は、類似したコンテクストカテゴリに
関連したドキュメントを同程度の精度で検索することが
できる。再現度は、主コンテクストカテゴリの再現度と
狭いコンテクストカテゴリの再現度との間である。
【0112】さらに、単純方法の精度と再現度は極めて
低いので、これらを図8と図9から省略する。
【0113】異なる視点から見ると、この結果は、主カ
テゴリと狭い方のカテゴリとの間のコンテクストカテゴ
リにおける本発明に係る方法の性能を示すことになる。
なぜならば、コンテクストカテゴリの位置は主カテゴリ
と狭い方のカテゴリとの間に位置するからである。
【0114】次いで、試験例2について説明する。
【0115】試験2で使用された照会用語は試験1にお
ける照会用語と同一であり、このコンテクストカテゴリ
は主カテゴリである。従って、各照会用語を拡張するル
ールも同じである。表5は、ルールとinitrelとi
nitnonの数を示す。
【0116】
【表5】
【0117】ここで注意すべきことは、ルール導出プロ
セスにおいて、ルールヘッド内の照会用語の接尾詞は削
除されるので、サーチエンジンに送る前に照会用語の終
わりにワイルドカードを付与していることである。
【0118】
【表6】
【0119】表6及び図10及び図11は本試験の試験
結果を表している。試験2における精度と再現度とは試
験1よりもわずかに大きいが、全体的にこれらは試験1
と同じような傾向を示している。
【0120】また、単純方法では再現度が低かった。さ
らに、照会用語によっては、再現度がゼロまたはゼロに
ほぼ近い。しかし、再現度が極めて低いために、その精
度は試験2による精度に匹敵する。
【0121】上述した2つの試験から、本発明に係る方
法は、体系分類におけるコンテクストとは関係なく、選
択されたコンテクストカテゴリに基づいて、ドキュメン
トを高精度に検索できる。一方、再現度は位置に従って
変わる。このことは、本発明に係る方法が、精度が再現
度よりも重要であるWWW情報検索に適合することを示し
ている。
【0122】なお、上述の実施例においては、拡張した
初期照会用語を入力するサーチエンジンとしてクローラ
式サーチエンジンを用いたが、キーワード検索を行うこ
とができるサーチエンジンであれば、クローラ式サーチ
エンジン以外のサーチエンジンを使用することも可能で
ある。
【0123】上述の本発明に係る情報検索方法は、コン
ピュータが読み取り可能な言語で記述されたコンピュー
タプログラムによっても実行可能である。
【0124】図12は、本発明に係る情報検索方法を実
施するためのコンピュータの一例の構造を示すブロック
図である。
【0125】図12に示すように、コンピュータ100
は、ユーザ10がデータを入力するインターフェイス1
10と、インターフェイス110からデータを受け取る
とともに、コンピュータ100の動作を支配する制御部
120と、コンピュータプログラムを記憶するメモリ1
30と、制御部120の演算結果を出力する出力装置1
40と、からなる。
【0126】インターフェイス110は、例えば、キー
ボードからなり、出力装置140は、例えば、プリンタ
ーやディスプレイからなる。
【0127】コンピュータプログラムにより制御部12
0を動作させる場合には、メモリ130にコンピュータ
プログラムを格納する。制御部120はメモリ130か
らそのコンピュータプログラムを読み出すことにより、
そのコンピュータプログラムに従って、上述のような動
作を実行する。
【0128】さらには、そのようなコンピュータプログ
ラムを格納した記憶媒体を制御部120にセットするこ
とにより、制御部120がその記憶媒体からそのコンピ
ュータプログラムを読み出し、そのコンピュータプログ
ラムに従って、上述のような動作を実行するようにする
ことも可能である。
【0129】次いで、上述のコンピュータプログラムを
格納した記憶媒体について以下に説明する。
【0130】上述のマイクロコンピュータの機能は各種
のコマンドを含むプログラムとして実現可能であり、コ
ンピュータによって読み取り可能な記憶媒体を介して提
供することが可能である。
【0131】本明細書において、「記憶媒体」の語は、
データを記録することができるあらゆる媒体を含むもの
とする。記憶媒体の各種例を図13に示す。
【0132】記憶媒体としては、例えば、CD−ROM
(Compact Disk−ROM)やPDなどのデ
ィスク型の記憶媒体401、磁気テープ、MO(Mag
neto Optical Disk)、DVD−RO
M(Digital Video Disk−Read
Only Memory)、DVD−RAM(Dig
ital Video Disk−Random Ac
cess Memory)、フロッピー(登録商標)デ
ィスク402、RAM(Random Access
Memory)やROM(Read Only Mem
ory)などのメモリーチップ404、EPROM(E
rasable Programmable Read
Only Memory)、EEPROM(Elec
trically Erasable Program
mable Read Only Memory)、ス
マートメディア(登録商標)、フラッシュメモリー、コ
ンパクトフラッシュ(登録商標)カードなどの書き換え
可能なカード型ROM405、ハードディスク403が
あり、その他プログラムの格納に適していれば、いかな
る手段も用いることができる。
【0133】この記憶媒体は、コンピュータが読み取り
可能なプログラム用言語を用いて上述のマイクロコンピ
ュータの各機能をプログラミングし、そのプログラムを
プログラムの記録が可能な上記の記憶媒体に記録するこ
とにより、作成することができる。
【0134】あるいは、記憶媒体として、サーバーに備
え付けられたハードディスクを用いることも可能であ
る。
【0135】また、本発明に係る記憶媒体は、上述のコ
ンピュータプログラムを上記のような記憶媒体に格納
し、ネットワークを介して、そのコンピュータプログラ
ムを他のコンピュータにより読み取ることによっても、
作成可能である。
【0136】コンピュータ400としては、パーソナル
コンピュータ、デスクトップ型コンピュータ、ノート式
コンピュータ、モバイルコンピュータ、ラップトップ式
コンピュータ、ポケットコンピュータ、サーバーコンピ
ュータ、クライアントコンピュータ、ワークステーショ
ン、ホストコンピュータなどを用いることができる。
【0137】
【発明の効果】本発明は、体系分類(Taxonomy)式サー
チエンジンとクローラ式サーチエンジンの優れた特徴を
組み合わせるために新規な方法を提供した。本発明を実
施することにより、クローラ式サーチエンジンの助けを
得て、体系分類(Taxonomy)式サーチエンジンの有効範
囲を高めることができる。
【0138】関連情報を見つけ出すために、ユーザは、
意図するトピックに関連したカテゴリを見つけ、そのカ
テゴリとともに照会用語を決定する。次いで、選択され
たカテゴリに基づいて、ユーザの照会用語を自動的に拡
張し、拡張された照会用語をクローラ式サーチエンジン
に送る。照会用語は、クローラ式サーチエンジンによる
サーチ結果が、選択されたカテゴリに分類される全ての
ページを含むように、拡張される。本発明は、照会用語
を拡張するために、ルールベースの分類子と予め分類さ
れた体系分類に存在するサイト情報とを採用する。
【0139】試験結果は本発明に係る方法の有効性を示
した。本発明に係る方法は、選択されたコンテクストカ
テゴリに基づいてユーザの照会用語を拡張することがで
きるので、この照会用語のサーチ結果は、コンテクスト
カテゴリのトピックを有するドキュメントを含む可能性
が高い。さらに、試験結果では、コンテクストカテゴリ
以外のカテゴリには多くの同様なドキュメントが存在す
るとしても、拡張された照会用語により、より狭い範囲
のトピックでドキュメントを検索できるようにする。こ
のため、体系分類から適切なカテゴリを選択することに
より、ユーザがまさに必要とするトピックの幅を自由に
シフトすることができる。
【0140】本方法の再現度は選択されたコンテクスト
カテゴリの位置により変化する。コンテクストカテゴリ
が深くなればなるほど、再現度の減少も大きくなる。し
かし、ウェブサーチエンジンの出力結果における関連ド
キュメントは通常極めて大きいために、精度は再現度よ
りもより重要なものになる。
【0141】2つの上述した試験例から、本発明に係る
方法は、体系分類(taxonomy)におけるコンテクストカテ
ゴリの位置には関係なく高精度をもって、一方、再現度
はその位置によって変化しながら、選択されたコンテク
ストカテゴリに基づいてドキュメントを検索できること
は明白である。
【図面の簡単な説明】
【図1】本発明に係る情報検索方法の各過程を示すフロ
ーチャートである。
【図2】試験1の手順を示すフローチャートである。
【図3】試験2の手順を示すフローチャートである。
【図4】サブ試験1.1の結果を示すグラフである。
【図5】サブ試験1.1の結果を示すグラフである。
【図6】サブ試験1.1の結果を示すグラフである。
【図7】サブ試験1.1の結果を示すグラフである。
【図8】サブ試験1.2の結果を示すグラフである。
【図9】サブ試験1.2の結果を示すグラフである。
【図10】試験2の試験結果を示すグラフである。
【図11】試験2の試験結果を示すグラフである。
【図12】本発明に係る情報検索方法を実施するための
コンピュータの一例の構造を示すブロック図である。
【図13】本発明に係る情報検索方法を実施するための
コンピュータプログラムを格納する記憶媒体の例を示す
図である。
【符号の説明】
10 ユーザ 100 コンピュータ 110 インターフェイス 120 制御部 130 メモリ 140 出力装置

Claims (7)

    【特許請求の範囲】
  1. 【請求項1】 データベースから所望の情報を検索する
    方法であって、 初期照会用語とコンテクストカテゴリーとを決定する過
    程と、 前記初期照会用語と前記コンテクストカテゴリーとを体
    系分類式サーチエンジンに送る過程と、 前記初期照会用語を拡張する過程と、 拡張した初期照会用語を前記体系分類式サーチエンジン
    以外のサーチエンジンに送る過程と、 を備える情報検索方法。
  2. 【請求項2】 データベースから所望の情報を検索する
    方法であって、 初期照会用語とコンテクストカテゴリーとを決定する過
    程と、 前記初期照会用語と前記コンテクストカテゴリーとを体
    系分類式サーチエンジンに送る過程と、 得られた結果を関連ドキュメントと非関連ドキュメント
    とに分類する過程と、 前記関連ドキュメント及び前記非関連ドキュメントに基
    づいて分類子を生成する過程と、 前記分類子からブール条件を生成する過程と、 前記ブール条件に基づいて前記初期照会用語を拡張する
    過程と、 拡張した初期照会用語を前記体系分類式サーチエンジン
    以外のサーチエンジンに送る過程と、 を備える情報検索方法。
  3. 【請求項3】 前記体系分類式サーチエンジン以外のサ
    ーチエンジンはクローラ式サーチエンジンであることを
    特徴とする請求項1または2に記載の情報検索方法。
  4. 【請求項4】 コンピュータに、 初期照会用語とコンテクストカテゴリーとを決定する過
    程と、 前記初期照会用語と前記コンテクストカテゴリーとを体
    系分類式サーチエンジンに送る過程と、 前記初期照会用語を拡張する過程と、 拡張した初期照会用語を前記体系分類式サーチエンジン
    以外のサーチエンジンに送る過程と、 を実行させるためのプログラム。
  5. 【請求項5】 コンピュータに、 初期照会用語とコンテクストカテゴリーとを決定する過
    程と、 前記初期照会用語と前記コンテクストカテゴリーとを体
    系分類式サーチエンジンに送る過程と、 得られた結果を関連ドキュメントと非関連ドキュメント
    とに分類する過程と、 前記関連ドキュメント及び前記非関連ドキュメントに基
    づいて分類子を生成する過程と、 前記分類子からブール条件を生成する過程と、 前記ブール条件に基づいて前記初期照会用語を拡張する
    過程と、 拡張した初期照会用語を前記体系分類式サーチエンジン
    以外のサーチエンジンに送る過程と、 を実行させるためのプログラム。
  6. 【請求項6】 前記体系分類式サーチエンジン以外のサ
    ーチエンジンはクローラ式サーチエンジンであることを
    特徴とする請求項4または5に記載のプログラム。
  7. 【請求項7】 請求項4乃至6の何れか一項に記載した
    プログラムを記憶したコンピュータ読み取り可能な記憶
    媒体。
JP2001330217A 2001-10-29 2001-10-29 情報検索方法及び情報検索システム Pending JP2003132084A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001330217A JP2003132084A (ja) 2001-10-29 2001-10-29 情報検索方法及び情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001330217A JP2003132084A (ja) 2001-10-29 2001-10-29 情報検索方法及び情報検索システム

Publications (1)

Publication Number Publication Date
JP2003132084A true JP2003132084A (ja) 2003-05-09

Family

ID=19145973

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001330217A Pending JP2003132084A (ja) 2001-10-29 2001-10-29 情報検索方法及び情報検索システム

Country Status (1)

Country Link
JP (1) JP2003132084A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016532210A (ja) * 2014-07-28 2016-10-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド サーチ方法、装置、設備および不揮発性計算機メモリ

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016532210A (ja) * 2014-07-28 2016-10-13 バイドゥ オンライン ネットワーク テクノロジー (ベイジン) カンパニー リミテッド サーチ方法、装置、設備および不揮発性計算機メモリ

Similar Documents

Publication Publication Date Title
US6732088B1 (en) Collaborative searching by query induction
JP3726742B2 (ja) 文書の一般テキストサマリを作成する方法およびシステム
Sieg et al. Web search personalization with ontological user profiles
Sieg et al. Learning ontology-based user profiles: A semantic approach to personalized web search.
US6701310B1 (en) Information search device and information search method using topic-centric query routing
US6336112B2 (en) Method for interactively creating an information database including preferred information elements, such as, preferred-authority, world wide web pages
Chirita et al. Summarizing local context to personalize global web search
US7318057B2 (en) Information search using knowledge agents
JP4908214B2 (ja) サーチクエリのリファインメントを提供するシステム及び方法。
US6944609B2 (en) Search results using editor feedback
US7676452B2 (en) Method and apparatus for search optimization based on generation of context focused queries
US7962487B2 (en) Ranking oriented query clustering and applications
US20020103809A1 (en) Combinatorial query generating system and method
Ichise et al. Integrating multiple internet directories by instance-based learning
Shang et al. Precision evaluation of search engines
US20120130999A1 (en) Method and Apparatus for Searching Electronic Documents
US20050154713A1 (en) Systems and methods for determining document relationship and automatic query expansion
Goldman et al. Musag an agent that learns what you mean
Agosti et al. Information retrieval on the web
JP2000339330A (ja) 座標付きホームページ情報収集提供方法、記録媒体及び装置
JP2001188802A (ja) 情報検索装置及び情報検索方法
Yamamoto et al. Rerank-by-example: Efficient browsing of web search results
Khushhal et al. Question retrieval using combined queries in community question answering
Ipeirotis et al. Automatic classification of text databases through query probing
JP2003132084A (ja) 情報検索方法及び情報検索システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20041028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070601

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20071005