JP2003308335A - 文書検索システム及び方法、並びにプログラム - Google Patents

文書検索システム及び方法、並びにプログラム

Info

Publication number
JP2003308335A
JP2003308335A JP2002111857A JP2002111857A JP2003308335A JP 2003308335 A JP2003308335 A JP 2003308335A JP 2002111857 A JP2002111857 A JP 2002111857A JP 2002111857 A JP2002111857 A JP 2002111857A JP 2003308335 A JP2003308335 A JP 2003308335A
Authority
JP
Japan
Prior art keywords
search
document
search engine
engines
condition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002111857A
Other languages
English (en)
Inventor
Naoyuki Nomura
直之 野村
Yoji Kawasaki
洋治 川崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JustSystems Corp
Original Assignee
JustSystems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JustSystems Corp filed Critical JustSystems Corp
Priority to JP2002111857A priority Critical patent/JP2003308335A/ja
Publication of JP2003308335A publication Critical patent/JP2003308335A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 予め用意された複数の検索エンジンの中から
実際に用いる検索エンジンを動的に選択して、文書検索
の性能を高める。 【解決手段】 検索条件入力部2では、検索対象となる
文書群31〜3nを指定し、自然言語の文章またはキー
ワード検索式の検索条件を入力して、検索エンジン選択
部1に渡す。検索エンジン選択部1では、検索対象とな
った文書群の文書数、文書サイズ、文書構造の複雑さ、
文書に付されたラベル、入力された検索条件の複雑さ、
及び一定時間だけ検索を仮実行した結果に基づいて、検
索エンジン41〜4nをそれぞれ性能評価し、その性能
評価の結果に従って、検索エンジン41〜4nのうちか
ら指定された文書群31〜3nの検索に使用するものを
選択する。選択された検索エンジン41〜4nによる検
索結果は、検索結果出力部5から出力される。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、複数の文書を含む
文書群から所望の文書を検索するための文書検索システ
ム等に関し、特に文書を検索するための検索エンジンの
選択に関するものである。
【0002】
【従来の技術】複数の文書を含む文書群から所望の文書
を検索するための技術として、従来より検索エンジンが
知られている。従来の検索エンジンによる文書の検索
は、文書のインデックスを使用するだけであったり、各
文書に検索条件として入力したキーワードが存在するか
どうかを逐一照合するといった方法で行われていた。つ
まり、それぞれの検索エンジンによる文書の検索方法
は、非常に単純なものであった。
【0003】
【発明が解決しようとする課題】しかしながら、このよ
うに単純な検索方法では、文書群に含まれる文書の数、
サイズまたは内容、さらには検索条件の内容によって
は、検索に非常に時間がかかったり、検索精度が悪かっ
たりといったように、検索エンジン毎に大きな差異が生
じることとなる。もっとも、検索エンジンの性能の差異
が生じる原因は単純なものであったため、文書の検索を
行おうとするユーザが各検索エンジンの性質を知った上
で、自ら適切な検索エンジンを選択することで上記の問
題はある程度までは解決することができた。
【0004】ところで、従来では検索対象とされていた
文書群に含まれる文書は、単に文字コードを羅列しただ
けか、これにインデックスが付された程度のものであ
り、検索エンジンによる文書検索の手法も限られたもの
であった。これに対して、最近では検索対象となる文書
群に含まれる文書がマークアップ言語によって記述され
ている階層的に構造化された文書が増えつつある。
【0005】マークアップ言語を用いると、文書中にそ
の文書全体又は部分に意味的な情報を埋め込んだり、文
書を表示あるいは印刷する際のレイアウト情報や文字修
飾情報などを埋め込むことができる。これによって特定
の意味情報を持つ部分や文書を探し出すことが可能にな
ったり、ブラウザ上に文書を見やすく表示できるように
なるなどの利点がある。
【0006】ここで、マークアップ言語には、XML(e
Xtensible Markup Language)の他に、インターネット
上のホームページの記述に用いられるHTML(HyperT
extMarkup Language)、XMLをベースとした二次元グ
ラフィックス記述言語であるSVG(Scalable Vector
Graphics)、同期マルチメディア統合言語であるSMI
L(Synchronized Multimedia Integration Languag
e)、数学表記記述言語であるMathML(Mathematical
Markup Language)、HTMLをXMLベースの言語と
して定義し直したXHTML(eXtensible HyperText M
arkup Language)などがある。
【0007】マークアップ言語で記述された文書を含む
文書群では、検索エンジンにより文書の検索を行う際の
検索条件も、キーワード検索式のような単純なものだけ
ではなく、XQueryなどの検索指定言語でより複雑なもの
が入力できることとなる。また、自然言語で入力した検
索条件も、キーワード検索式に変換するだけでなく、検
索指定言語の検索条件に変換することもできるようにな
る。
【0008】そこで、マークアップ言語で記述された文
書を含む文書群では、各文書の構造や検索条件の複雑さ
の度合いなどによって、検索エンジンの性能に大きな差
異が生じてくる。例えば、検索の精度は非常に高いが検
索時間がかかる検索エンジンや、検索の精度は低いが検
索時間が非常に短いという検索エンジンがあるというこ
とである。さらに、入力した検索条件が特定のものであ
る場合に検索精度が高くなる検索エンジンや、検索対象
となる文書群に含まれる文書によって検索精度や検索時
間に差異が生じてくる検索エンジンなどもあるというよ
うに性能の差異が生じる原因も複雑になってくる。
【0009】このように検索エンジンの性能に非常に大
きな差異が生じ、しかも差異の生じる原因が複雑である
と、文書の検索を行おうとするユーザに最も適した検索
エンジンを選択するのはとりわけ難しくなってくる。こ
こで、ユーザ自身で選択するのが困難なのは勿論であ
る。そこで、システム側の判断で適切な検索エンジンを
選択できるようにすることが要請されるが、従来は検索
エンジンの性能を決定付ける原因がこのように複雑であ
ることは想定されていないので、適切な検索エンジンの
選択が現在まで未解決の課題となっていた。
【0010】本発明は、予め用意された複数の検索エン
ジンの中から実際に用いる検索エンジンを動的に選択す
ることで、文書検索の性能を高めることができる文書検
索システム及び方法、並びにそのためのプログラムを提
供することを目的とする。
【0011】
【課題を解決するための手段】上記目的を達成するた
め、本発明の第1の観点にかかる文書検索システムは、
複数の文書を含む文書群から検索条件に従って文書を検
索するために予め用意された複数の検索エンジンの中か
ら、前記文書群に含まれる文書の性質と前記検索条件の
内容との少なくとも一方に従って、いずれかの検索エン
ジンを選択する検索エンジン選択手段と、前記検索エン
ジン選択手段が選択した検索エンジンに前記文書群を検
索させ、前記検索条件に応じた文書を索出させる検索実
行手段と、前記検索実行手段が検索エンジンに検索を実
行させることで索出された文書を検索結果として出力す
る検索結果出力手段とを備えることを特徴とする。
【0012】上記文書検索システムでは、検索対象とな
る文書群から文書を検索するために予め用意された複数
の検索エンジンの中から、実際に文書群の検索のために
用いられる検索エンジンを動的に選択する。どの検索エ
ンジンが選択されるかは、検索対象となる文書群に含ま
れる文書の性質と検索条件の内容との少なくとも一方に
従って決められる。そして、選択した検索エンジンによ
り検索結果を得ることができるので、文書検索の性能を
高めることができる。
【0013】上記文書検索システムにおいて、前記文書
群に含まれる文書は、構造化して記述されたものであっ
てもよい。この場合、前記検索エンジン選択手段は、前
記文書群に含まれる文書の構造に従って、前記文書群の
検索に用いる検索エンジンを選択するものとすることが
できる。
【0014】ここで、構造化されて記述された文書とし
ては、例えば、タグの階層構造によって文書を記述する
マークアップ言語によって記述された文書が挙げられ
る。このマークアップ言語で記述された文書が検索対象
の文書群に含まれている場合には、マークアップ密度、
タグの最大および/または平均深度、使用されているタ
グ名の種類、内容文字列の最大および/または平均長な
どに従って、検索エンジンを選択するものとすることが
できる。
【0015】上記文書検索システムにおいて、前記文書
群に含まれる文書が、構造化して記述されたものである
場合には、前記検索エンジン選択手段は、前記検索条件
の複雑さの度合いに従って、前記文書群の検索に用いる
検索エンジンを選択するものとすることができる。
【0016】ここで、検索条件の複雑さの度合いとは、
例えば、単純な文字列照合による検索となるか、文書の
構造までを意識して検索を行う必要があるか、さらには
文書に含まれている数値データに基づく計算を行う必要
があるかといったことによって判断される。文書の構造
を意識した検索を行う必要があれば、その構造を判断す
るのに適した検索エンジンが選択されることとなり、さ
らに検索の実行の際に数値計算も必要となれば、数値計
算に適した検索エンジンが選択されることとなる。
【0017】上記文書検索システムにおいて、前記検索
エンジン選択手段は、前記文書群に含まれる文書の数、
前記文書群に含まれる文書のサイズ、及び前記文書群に
含まれる文書に付されたラベルのいずれか1以上に従っ
て、前記文書群の検索に用いる検索エンジンを選択する
ものであってもよい。
【0018】すなわち、上記文書検索システムで検索対
象とする文書群に含まれる文書の性質としての文書の構
造、文書の数、文書のサイズ、及び文書に付されたラベ
ルといった各条件を、任意に組み合わせて検索エンジン
を選択することができる。また、検索条件の内容を検索
エンジンの選択のための条件としてさらに組み合わせる
こともできる。このように様々な条件を組み合わせて検
索エンジンの選択を行うものとすることで、条件に最も
適した検索エンジンを選択することができ、文書検索の
性能を高めることができる。
【0019】上記文書検索システムは、前記複数の検索
エンジンの少なくとも2以上に、前記検索条件に従って
前記文書群に含まれる文書について検索を仮実行させる
仮検索実行手段と、前記仮検索実行手段が検索を実行さ
せた各検索エンジンについて、その検索の実行結果に従
って仮の性能評価をする仮評価手段とをさらに備えてい
てもよい。この場合において、前記検索エンジン選択手
段は、前記仮評価手段による仮の性能評価に従って、前
記文書群の検索に用いる検索エンジンを選択するものと
することができる。
【0020】上記のように仮検索実行手段と仮評価手段
とを備え、仮評価手段による仮の性能評価に従って検索
エンジンを選択するものとすることによって、検索エン
ジンの性能に差異を生じさせる要因が単純に特定できな
いような場合でも、適切な検索エンジンを選択できるよ
うになる。特にマークアップ言語で記述された文書のよ
うな構造化された文書の検索においては、検索エンジン
の性能に差異を生じさせる要因が単純でないので、この
ような仮検索実行手段及び仮評価手段を有する構成が特
に有効となる。
【0021】上記文書検索システムは、前記文書群を検
索させる検索エンジンに対してユーザが要求する性能を
入力する性能入力手段をさらに備えていてもよい。この
場合において、前記検索エンジン選択手段は、前記性能
入力手段から入力された要求性能に従って前記複数の検
索エンジンにそれぞれ重み付けをして、前記文書群の検
索に用いる検索エンジンを選択するものとすることがで
きる。
【0022】検索対象となる文書群と検索条件の内容と
が同じであったとしても、その検索結果に対してユーザ
が要求する性能は、必ずしも同じであるとは限らない。
例えば、検索時間はかかっても検索精度が高いものを望
む場合や、検索精度は低くても検索時間が短いものを望
む場合があるということである。上記のような性能入力
手段をさらに備え、入力された要求性能に従って検索エ
ンジンに重み付けを行うことで、ユーザが望む検索結果
を得ることができる検索エンジンを選択できるようにな
る。
【0023】上記文書検索システムにおいて、前記検索
エンジン選択手段は、前記複数の検索エンジンの中から
いずれか2以上の検索エンジンを選択してもよい。この
場合において、前記検索結果出力手段は、前記検索エン
ジン選択手段が選択した各検索エンジンが索出した文書
に従って、検索結果として出力すべき文書と検索結果と
して文書を選択する順番との少なくとも一方を選択する
文書選択手段を有するものとすることができる。
【0024】この場合において上記文書検索システム
は、前記文書群に含まれる文書の性質と前記検索条件の
内容との少なくとも一方に従って、少なくとも前記検索
エンジン選択手段が選択する2以上の検索エンジンにつ
いて、それぞれ性能評価する性能評価手段を備えていて
もよく、前記文書選択手段は、前記性能評価手段による
性能評価に従って各検索エンジンが索出した文書に重み
付けをして、検索結果として出力すべき文書と検索結果
として文書を選択する順番との少なくとも一方を選択す
ることができる。
【0025】上記のように2以上の検索エンジンを選択
し、それぞれが索出した文書から検索結果として出力す
べき文書とその順番との少なくとも一方を選択して出力
することで、ユーザは、検索条件の内容に適合した文書
を得やすくなる。特に選択した検索エンジンの性能評価
に従って、検索結果として出力すべき文書とその順番と
の少なくとも一方が選択されることで、検索条件の内容
に適合した文書がさらに得やすくなる。
【0026】上記目的を達成するため、本発明の第2の
観点にかかる文書検索方法は、複数の文書を含む文書群
から検索条件に従って文書を検索するために予め用意さ
れた複数の検索エンジンの中から、前記文書群に含まれ
る文書の性質と前記検索条件の内容との少なくとも一方
に従って、いずれかの検索エンジンを選択するステップ
と、選択された検索エンジンに前記文書群を検索させ、
前記検索条件に応じた文書を索出させるステップと、索
出された文書を検索結果として出力するステップとを含
むことを特徴とする。
【0027】上記目的を達成するため、本発明の第3の
観点にかかるプログラムは、複数の文書を含む文書群か
ら検索条件に従って文書を検索するための複数の検索エ
ンジンを用意したコンピュータ装置を、前記文書群に含
まれる文書の性質と前記検索条件の内容との少なくとも
一方に従って、いずれかの検索エンジンを選択する検索
エンジン選択手段、前記検索エンジン選択手段が選択し
た検索エンジンに前記文書群を検索させ、前記検索条件
に応じた文書を索出させる検索実行手段、及び、前記検
索実行手段が検索エンジンに検索を実行させることで索
出された文書を検索結果として出力する検索結果出力手
段として機能させることを特徴とする。
【0028】なお、前記コンピュータ装置が複数の検索
エンジンを用意しているとは、当該コンピュータ装置自
体が検索エンジンとしての機能を有する場合だけでな
く、検索エンジンとしての機能が構築された他のコンピ
ュータ装置に検索を依頼する機能を有する場合も含むも
のである。この場合、検索実行手段は、検索エンジンと
しての機能を有する他のコンピュータ装置に検索を依頼
するものとなる。検索結果出力手段は、検索エンジンと
しての機能を有する他のコンピュータ装置から受け取っ
た検索結果を出力するものとなる。
【0029】
【発明の実施の形態】以下、添付図面を参照して、本発
明の実施の形態について説明する。
【0030】図1は、この実施の形態にかかる文書検索
システムの構成を示すブロック図である。図示するよう
に、この文書検索システムは、検索エンジン選択部1
と、検索条件入力部2と、文書データベース3と、複数
の検索エンジン41〜4nと、検索結果出力部5とから
構成されている。文書データベース3には、検索対象と
なる文書群31〜3nが格納されている。文書群31〜
3nの詳細については、後述する。
【0031】検索エンジン41〜4nは、それぞれ検索
条件入力部2から入力された検索条件に応じた文書を指
定された文書群の中から検索する。検索エンジン41〜
4nの中には、単純な文字列照合による検索を行うも
の、後述するように検索対象となる文書群31〜3nに
含まれる文書の構造を考慮して検索を行うもの、さらに
検索の際に数値計算を行うことができるものなどが含ま
れる。検索エンジン41〜4nのどれが検索の実行に用
いられるかは、検索エンジン選択部1の選択による。検
索結果出力部5は、検索エンジン41〜4nによる検索
結果を出力する。
【0032】検索条件入力部2は、検索条件を自然言語
の文章で入力する自然言語入力部21と、キーワード検
索式で入力するキーワード入力部22と、XQueryなどの
検索指定言語で入力する検索指定言語入力部23と、検
索対象となる文書群の範囲を指定する文書群指定部24
と、ユーザが求める検索品質を指定する検索品質指定部
25とを備えている。ここでいう検索品質の指定とは、
例えば、検索精度、検索速度或いは検索時のシステム負
荷といった条件のうちでどの条件を優先させるかといっ
たことの指定である。自然言語入力部21は、入力され
た自然言語の文章を構文解析し、キーワード検索式また
は検索指定言語による検索条件に変換する機能も備えて
いる。なお、検索条件入力部2から入力する検索条件の
詳細については、後述する。
【0033】検索エンジン選択部1は、検索条件入力部
2から入力された検索条件の内容と検索対象となる文書
群31〜3nとに従って、複数の検索エンジン41〜4
nのいずれかを選択して文書群31〜3nを検索させ、
検索結果を索出させる。検索エンジン選択部1は、文書
数判定部11と、文書サイズ判定部12と、文書構造判
定部13と、検索条件判定部14と、文書ラベル参照部
15と、仮検索実行部16とを備えている。
【0034】文書数判定部11は、文書群指定部24か
ら検索対象として指定された文書群31〜3nに含まれ
る文書の数に従って、検索エンジン41〜4nをそれぞ
れ性能評価する。文書サイズ判定部12は、文書群指定
部24から検索対象として指定された文書群31〜3n
に含まれる文書のサイズに従って、検索エンジン41〜
4nをそれぞれ性能評価する。文書構造判定部13は、
文書群指定部24から検索対象として指定された文書群
31〜3nに含まれる文書の性質に従って、検索エンジ
ン41〜4nをそれぞれ性能評価する。
【0035】検索条件判定部14は、検索条件入力部2
から入力された検索条件(自然言語入力部21から自然
言語の文章で検索条件が入力された場合は、キーワード
検索式または検索指定言語の検索条件に変換したもの)
の複雑さ度合いに従って、検索エンジン41〜4nをそ
れぞれ性能評価する。文書ラベル参照部15は、文書群
指定部24から検索対象として指定された文書群31〜
3nに含まれる文書に付されたラベルに従って、検索エ
ンジン41〜4nをそれぞれ性能評価する。
【0036】仮検索実行部16は、文書群指定部24か
ら検索対象として指定された文書群31〜3nに対し
て、一定時間だけ検索エンジン41〜4nのそれぞれ、
あるいは一部の代表的な検索エンジンに対して仮の検索
を実行させる。そして、この仮の検索の終了時点での処
理済み度合い、メモリ使用量などのシステム負荷、或い
はこの時点までに得られた検索結果の内容に従って、検
索エンジン41〜4nをそれぞれ性能評価する。
【0037】検索エンジン選択部1は、各部11〜16
から得られた検索エンジン41〜4nの性能評価をトー
タルして、検索エンジン41〜4nの総合的な性能評価
を得る。さらに、検索エンジン41〜4nの性能評価に
対して、検索品質指定部25から指定された検索品質に
応じた重み付けを行う。検索エンジン選択部1は、こう
して最終的に得られた性能評価が最も高かった検索エン
ジン41〜4nに、文書群指定部24から検索対象とし
て指定された文書群31〜3nの検索を行わせる。
【0038】なお、図1に示した文書検索システムは、
CPU(Central Processing Unit)、CPUが実行す
るプログラムを記憶したメモリ、文書群データベース3
が構築される補助メモリ、検索条件を入力するための入
力装置(キーボードなど)、及び検索結果を出力するた
めの出力装置(表示装置など)を有する汎用コンピュー
タ装置上に構築されている。検索エンジン選択部1(及
びその各部11〜16)並びに検索エンジン41〜4n
の機能は、CPUがメモリに記憶されたプログラムを実
行することによって実現される。
【0039】次に、文書データベース3に格納されてい
る文書群31〜3nについて説明する。文書群31〜3
nに含まれる各文書には、それぞれ所定のラベルが付さ
れている。また、各文書は、単に文字コードの羅列で記
述されているのではなく、マークアップ言語を用いて記
述されている。マークアップ言語は、図2及び図3に示
すようなタグの階層構造で文書を記述するものである。
【0040】例えば、図2に示す各文書は、それぞれ<
国>タグに囲まれ、国家に関する基本データを示した文
書となっている。国家に関するデータの種類毎に、<名
前>、<首都>、<人口>、<面積>といった下位階層のタグ
が設けられている。<人口>タグ内の文字列と<面積>タグ
内の文字列とはいずれも数値データであり、文書の中に
直接含まれていなくても、これらの数値データに基づく
計算を行うような検索条件を指定することで、国家の人
口密度を求めることも可能である。
【0041】また、図3に示す文書は、<新聞記事>タグ
に囲まれ、図2の場合と同じように、<新聞名>、<日付
>、<見出し>、<本文>といった下位階層のタグが設けら
れている。ここで、<本文>タグ内には、非常に多くの文
字列が含まれており、文書全体の量に対するタグの密度
は、図2の場合に比べて明らかに小さなものとなってい
る。なお、図2及び図3の文書のタグ構造は2階層であ
るが、文書群31〜3nの中には、3階層以上となって
いる文書を含むものがあってもよい。
【0042】次に、検索条件入力部2から入力される検
索条件について説明する。検索条件としては、図4
(a)に示すようなキーワード検索式、図4(b)に示
すような検索指定言語、或いは図4(c)の4つの例に
示すような自然言語の文章で入力することができる。ユ
ーザは、自然言語入力部21、キーワード入力部22及
び検索指定言語入力部23のいずれかに切り替えて、自
然言語の文章でもキーワード検索式でも検索指定言語で
も検索条件を入力することができるようになっている。
【0043】図4(a)に示すようなキーワード検索式
または図4(b)に示すような検索指定言語による検索
条件は、そのまま検索エンジン選択部1に渡される。図
4(c)の4つの例に示すような自然言語の文章で検索
条件が入力された場合は、その文章が構文解析され、構
文解析結果に基づいて生成されたキーワード検索式また
は検索指定言語による検索条件が検索エンジン選択部1
に渡される。
【0044】図4(b)の第1の例の検索条件では、<
首都>タグ内の文字列が東京となっている文書を探すこ
とにより、正確な検索ができるようになる。従って、検
索対象となっている文書群の各文書の中から、タグを高
速且つ正確に見つけ出す検索エンジン41〜4nが、こ
の検索条件文による検索に適したものということができ
る。図4(c)の第1の例の検索条件文も、図4(b)
の第1の例のような検索指定言語の検索条件に変換され
ることとなるので、これと同じことが言える。
【0045】図4(b)の第2の例の検索条件では、<
人口>タグ内の文字列を数値化した値が○○○○○○○
人以上となっている文書を探すことにより、正確な検索
ができるようになる。図4(c)の第2の例の検索条件
文も、図4(b)の第2の例のような検索指定言語の検
索条件に変換されることとなるので、これと同じことが
言える。
【0046】図4(b)の第3の例の検索条件では、<
人口>タグ内の文字列と<面積>タグ内の文字列とを数値
化して所定の数値計算をすることで、正確な検索ができ
るという傾向がさらに顕著になる。この場合には、人口
と面積とから人口密度を求める計算も必要となるため、
このような数値計算に適した検索エンジン41〜4nが
必要となる。図4(c)の第3の例の検索条件文も、図
4(b)の第3の例のような検索指定言語の検索条件に
変換されることとなるので、これと同じことが言える。
【0047】これに対して、図4(a)のキーワード検
索式では、「××新聞」「株式会社△△」及び「○○ソ
フト」という文字列の照合だけによる検索を行う方が高
速な検索が行え、また、タグの階層構造を考慮しても検
索の精度に差が現れることがない。検索エンジン41〜
4nの中に文字列の照合だけで高速に検索を行うものが
あれば、これが最も検索に適した検索エンジンというこ
とになる。また、図3に示すようなマークアップ密度が
小さい文書を含む文書群を検索する場合にも、単純な文
字列の照合による検索が適している場合が多い。図4
(c)の第4の例の検索条件文は、「日本 OR 東
京」というキーワード検索式に変換されることとなるの
で、これと同じことが言えることとなる。
【0048】図4(a)〜(c)に示した各検索条件で
考えると、文字列照合のみで検索を行う図4(a)の例
と図4(c)の第4の例とが、最も単純な検索条件とい
うこととなる。タグの探索を含む図4(b)の第1の例
と図4(c)の第2の例とが、次に単純な検索条件とい
うこととなる。タグの探索の他に文字列の数値化や数値
計算を含む図4(b)の第2、第3の例と図4(c)の
第2、第3の例とは、より複雑な検索条件ということと
なる。この中で、数値計算の手法がより複雑な図4
(b)の第3の例と図4(c)の第3の例とが、最も複
雑な検索条件ということになる。
【0049】また、検索品質指定部25からの検索品質
の指定として、ユーザは、検索の精度の高さ、検索速度
の速さ、及びシステムにかかる負荷の小ささを、それぞ
れどの程度に優先させるかを指定することができる。も
っとも、検索速度の速さの程度とシステムにかかる負荷
の小ささの程度とはほぼ一致するので、検索の精度と速
度の2つだけの優先付けの指定であっても構わない。な
お、検索品質の指定は必須のものではなく、ユーザは、
必要に応じて検索品質の指定を行えばよい。
【0050】以下、この実施の形態にかかる文書検索シ
ステムにおける処理について説明する。図5は、この実
施の形態にかかる文書検索システムにおける全体の処理
を示すフローチャートである。
【0051】まず、ユーザが自然言語の文章、キーワー
ド検索式または検索指定言語による検索条件を入力する
と共に、検索対象となる文書群31〜3nの指定と、必
要に応じて所望の検索品質を指定する検索条件入力処理
(詳細を後述)を行う(ステップS1)。次に、入力さ
れた検索条件の内容、検索対象として指定された文書群
31〜3nの性質、及びユーザによって指定された検索
品質に従って、検索エンジン41〜4nのいずれかを選
択する検索エンジン選択処理(詳細を後述)を行う(ス
テップS2)。
【0052】次に、検索エンジン41〜4nのうちでス
テップS2の検索エンジン選択処理で選択されたもの
は、検索対象として指定された文書群31〜3nから検
索条件に従った文書を検索する(ステップS3)。そし
て、検索結果出力部5が、選択された検索エンジン41
〜4nが文書群31〜3nから検索した文書を出力して
(ステップS4)、一連の文書検索の処理を終了する。
次に、ステップS1の検索条件入力処理と、ステップS
2の検索エンジン選択処理を、詳しく見ていくものとす
る。
【0053】図6は、ステップS1の検索条件入力処理
を詳細に示すフローチャートである。ユーザは、まず、
文書データベース3に格納されている文書群31〜3n
のうちで検索対象とする1以上の文書群を文書群指定部
24から指定する(ステップS101)。ここで文書群
の指定がなければ、文書群31〜3nの全てが指定され
たものとすることができる。また、必要に応じて所望の
検索品質を検索品質指定部25から指定する(ステップ
S102)。次に、ユーザは、自然言語入力部21から
自然言語の文章で検索条件を入力するか、キーワード入
力部22からキーワード検索式で検索条件を入力する
か、それとも検索指定言語入力部23から検索指定言語
で検索条件を入力するかを選択する(ステップS10
3)。
【0054】自然言語の文章での検索条件の入力が選択
された場合、ユーザは、指定した文書群31〜3nの中
から所望の文書を検索するための図4(c)に示したよ
うな文章を、自然言語入力部21から自然言語で入力す
る(ステップS104)。自然言語入力部21は、この
入力された自然言語の文章を構文解析し(ステップS1
05)、この構文解析結果に基づいてキーワード検索式
または検索指定言語の検索条件に変換する(ステップS
106)。そして、ステップS109の処理に進む。
【0055】キーワード検索式での検索条件の入力が選
択された場合には、ユーザは、AND条件および/また
はOR条件を組み合わせた図4(a)に示したようなキ
ーワード検索式を、キーワード入力部22から入力する
(ステップS107)。そして、ステップS109の処
理に進む。検索指定言語での検索条件の入力が選択され
た場合には、ユーザは、図4(b)に示したようなXQue
ryなどの検索指定言語による検索条件を、検索指定言語
入力部23から入力する(ステップS108)。そし
て、ステップS109の処理に進む。
【0056】ステップS109では、検索条件入力部2
は、ステップS101で指定された検索対象となる文書
群31〜3nに関する情報と、ステップS102で検索
品質が指定されている場合には指定された検索品質に関
する情報と、ステップS106で検索用の文章を変換し
たキーワード検索式または検索指定言語の検索条件、も
しくはステップS107で入力されたキーワード検索式
もしくはステップS108で入力された検索指定言語の
検索条件とを、検索エンジン選択部1に渡す。これで、
検索条件入力処理が終了する。
【0057】図7は、ステップS2の検索エンジン選択
処理を詳細に示すフローチャートである。このフローチ
ャートは、検索エンジン選択部1における処理である。
まず、文書数判定部11は、検索対象として指定された
文書群31〜3nに含まれる文書の数に従って、検索エ
ンジン41〜4nをそれぞれ性能評価し、それぞれの性
能評価に応じたポイントを算出する(ステップS20
1)。文書サイズ判定部12は、検索対象として指定さ
れた文書群31〜3nに含まれる文書のサイズに従っ
て、検索エンジン41〜4nをそれぞれ性能評価し、そ
れぞれの性能評価に応じたポイントを算出する(ステッ
プS202)。
【0058】文書構造判定部13は、検索対象として指
定された文書群31〜3nに含まれる文書の構造に従っ
て、検索エンジン41〜4nをそれぞれ性能評価し、そ
れぞれの性能評価に応じたポイントを算出する(ステッ
プS203)。ここで、文書の構造としては、次のよう
なものが考えられる。 ・マークアップ密度(全文書サイズに対する内容文字列
以外の部分の割合) ・タグの最大深度(タグが最大何階層か) ・タグの平均深度(タグが平均何階層か) ・使用されているタグ名の種類 ・内容文字列の最大長 ・内容文字列の平均長
【0059】検索条件判定部14は、検索条件入力部2
から入力された検索条件に従って、検索エンジン41〜
4nをそれぞれ性能評価し、その性能評価に応じたポイ
ントを算出する(ステップS204)。例えば、図4
(b)の第1の例または図4(c)の第1の例では、検
索条件に従ったタグを見つけ出すのに適したものほど、
高いポイントが与えられる。図4(b)の第2及び第3
の例または図4(c)の第2及び第3の例では、検索条
件に従ったタグを見つけ出すのに適し、さらに数値計算
も高速に行えるものに、高いポイントが与えられる。図
4(a)の例または図4(c)の第4の例では、単純な
文字列の照合を高速に行えるものに、高いポイントが与
えられる。
【0060】文書ラベル参照部15は、検索対象として
指定された文書群31〜3nに含まれる文書に付された
ラベルに従って、検索エンジン41〜4nをそれぞれ性
能評価し、それぞれの性能評価に応じたポイントを算出
する(ステップS205)。仮検索実行部16は、検索
対象として指定された文書群31〜3nに対して、一定
時間だけ検索エンジン41〜4nのそれぞれ、あるいは
一部の代表的な検索エンジンに対して仮の検索を実行さ
せる。一定時間が終了したときにおいて検索を終了した
部分の割合、メモリの使用量、その時点までに検索結果
として得られた内容を基準として、検索エンジン41〜
4nをそれぞれ性能評価し、それぞれの性能評価に応じ
たポイントを算出する(ステップS206)。
【0061】ステップS201〜S206の処理は、必
ずしもこの順番で処理される必要はなく、いずれの順序
で実行させても構わない。検索エンジン選択部1は、ス
テップS201〜S206を並列して実行させるものと
しても構わない。また、ステップS206の仮検索実行
部16による検索エンジン41〜4nの性能評価は、例
えば、入力された検索条件によって検索エンジン41〜
4nの間で性能に大きな差が生じると推定されるときだ
けに実行するものとしてもよい。
【0062】ステップS201〜S206までにおい
て、文書数判定部11、文書サイズ判定部12、文書構
造判定部13、検索条件判定部14、及び文書ラベル参
照部15、(並びに仮検索実行部16)がそれぞれ検索
エンジン41〜4nを性能評価したポイントが算出され
ると、検索エンジン選択部1は、検索エンジン41〜4
nのそれぞれについて、各部11〜16が性能評価した
ポイントの合計を算出する(ステップS207)。
【0063】次に、検索エンジン選択部1は、検索品質
指定部25から検索品質の指定がなされている場合に
は、指定された検索品質に応じて検索エンジン41〜4
n毎に異なる係数を、ステップS207で算出した検索
エンジン41〜4n毎のポイントに掛け合わせて、検索
エンジン41〜4nの性能評価となる最終的なポイント
を算出する(ステップS208)。検索品質の指定がな
されていなければ、ステップS207で求めたポイント
が最終的なポイントとなる。検索エンジン選択部1は、
検索エンジン41〜4nのうちで最終的な性能評価のポ
イントが最も高いものを、指定された文書群31〜3n
の検索を実行させる検索エンジンとして選択する(ステ
ップS209)。そして、検索エンジン選択処理を終了
する。
【0064】以上説明したように、この実施の形態にか
かる文書検索システムでは、文書群指定部24から検索
対象として指定された文書群31〜3nに含まれる文書
の性質(文書の数、サイズ、構造及びラベル)と、自然
言語入力部21、キーワード入力部22または検索指定
言語入力部23から入力された検索条件の内容とに従っ
て、複数用意された検索エンジン41〜4nの中から、
指定された文書群31〜3nを実際に検索するためのも
のが選択される。こうして動的に選択した検索エンジン
41〜4nが検索を行った結果を検索結果として得るこ
とができるので、文書検索の性能を高めることができ
る。
【0065】検索対象として指定された文書群31〜3
nに含まれる文書は、それぞれマークアップ言語で記述
されており、その構造の違いが検索エンジン41〜4n
の性能の違いに大きな影響を与えることとなる。また、
検索指定言語入力部23から検索指定言語で検索条件を
入力した場合や自然言語入力部21から自然言語で入力
された文章が検索指定言語の検索条件に変換された場合
は、その内容によっては、指定された文書群31〜3n
から特定のタグを探し出したり、数値計算が必要になっ
たりといった複雑な検索手法が必要となる。つまり、入
力される検索条件が、検索エンジン41〜4nの性能の
違いに大きな影響を与えることとなる。ここで、検索エ
ンジン選択部1は、文書構造判定部13と検索条件判定
部14とを備えているので、検索対象として指定された
文書群31〜3nに含まれる文書の構造の違いや、入力
された検索条件の複雑さの度合いに従って、検索エンジ
ン41〜4nの中から適切なものを選択できるようにな
る。
【0066】ところで、マークアップ言語で記述された
文書を含む文書群31〜3nの検索であって、検索指定
言語の検索条件や自然言語の文章で検索条件を入力でき
るとなると、検索エンジン41〜4nの性能に影響する
要因も単純に分からない。ここで、検索エンジン選択部
1は、仮検索実行部16を備え、検索対象として指定さ
れた文書群31〜3nに対する検索を検索エンジン41
〜4nに仮に実行させ、その仮の検索結果を最終的な検
索を行う検索エンジン41〜4nを選択するために用い
ることができる。これにより、検索エンジン41〜4n
の性能の差に与える要因が複雑なものであっても、検索
エンジン41〜4nの中から適切なものを選択できるよ
うになる。
【0067】検索エンジン選択部1は、さらに文書数判
定部11、文書サイズ判定部12及び文書ラベル参照部
15を備え、検索対象として指定された文書群31〜3
nに含まれる文書の数、サイズ、及び付されているラベ
ルを条件としても、検索エンジン41〜4nの選択を行
っている。このように様々な条件を組み合わせて検索エ
ンジン41〜4nの選択を行うものとすることで、検索
エンジン41〜4nの中から条件に最も適したものを選
択することができるようになり、文書検索の性能を高め
ることができる。
【0068】ところで、検索対象として指定された文書
群31〜3nと、自然言語入力部21、キーワード入力
部22または検索指定言語入力部23から入力された検
索条件が同じであったとしても、ユーザが求める検索性
能は、必ずしも同じであるとは限らない。検索時間はか
かっても検索精度が高いものを望む場合があったり、検
索精度は低くても検索時間が短いものを望む場合があっ
たりするからである。上記の文書検索システムにおいて
は、検索条件入力部2がユーザが求める検索品質を指定
するための検索品質指定部25を備えており、ここから
指定された検索品質に従って検索エンジン41〜4nを
性能評価したポイントに重み付けがされる(ステップS
208参照)。これにより、検索エンジン41〜4nの
中からユーザが望む検索結果を得ることができるものを
選択できるようになる。
【0069】本発明は、上記の実施の形態に限られず、
種々の変形、応用が可能である。以下、本発明に適用可
能な上記の実施の形態の変形態様について説明する。
【0070】上記の実施の形態では、検索エンジン選択
部1は、複数の検索エンジン41〜4nの中から合計ポ
イントの高いもの1つだけを選択して、文書群指定部2
4によって指定された文書群31〜3nに含まれる文書
の検索を行わせるものとしていた。これに対して、合計
ポイントの高いものから2以上の所定数の検索エンジン
41〜4nを選択して、文書群31〜3nに含まれる文
書の検索を行わせるものとしてもよい。
【0071】この場合には、選択された複数の検索エン
ジン41〜4nのそれぞれによって指定された文書群3
1〜3nから文書が検索されることとなる。検索結果出
力部5から出力される検索結果としては、それぞれの検
索エンジン41〜4nで文書群31〜3nから検索され
た文書を並べるだけのものであってもよい。しかし、検
索エンジン41〜4nが、それぞれ検索条件との合致度
合いの高い文書から順番に並べた検索結果を得るもので
ある場合、検索結果出力部5は、次のような処理を行っ
て、最終的な検索結果として出力することで一覧の精度
を高めることができる。
【0072】図8は、この変形例にかかる検索結果選択
処理を示すフローチャートである。検索結果出力部5
は、選択された検索エンジン41〜4nのそれぞれが検
索結果として得た文書に、その順番に応じたポイントを
付与する。例えば、100個の文書が検索結果として得
られた場合に、1番目の文書に100ポイント、2番目
の文書に99ポイントを付与するといった具合である
(ステップS301)。次に、ステップS208(また
はS207)で最終的に算出された検索エンジン41〜
4nのポイントを係数として、ステップS301の各文
書に付与されたポイントに掛け合わせる(ステップS3
02) 。
【0073】次に、検索結果出力部5は、文書毎に合計
のポイントを算出する。例えば、ポイント120の検索
エンジンで11番目の文書(90ポイント)となり、ポ
イント100の検索エンジンで1番目の文書(100ポ
イント)となった文書の合計ポイントは、120×90
+100×100=20800ポイントとなる。ポイン
ト120の検索エンジンで80番目の文書(21ポイン
ト)となったが、ポイント100の検索エンジンでは検
索されなかった文書の合計ポイントは、120×21+
100×0=2520となる(ステップS303)。
【0074】そして、検索結果出力部5は、合計ポイン
トに従って降順で、複数の検索エンジン41〜4nが検
索した文書を並び替える(ステップS304)。検索結
果出力部5は、合計ポイントが上位のものから所定数ま
での並び替えが終わると、そこまで並び替えの終了した
文書が検索結果としての出力対象とし、それ以外の文書
は、最終的に出力する検索結果から除外すべく破棄する
(ステップS305)。ステップS4では、この並び替
えが行われた順番で所定数の文書が、検索結果として出
力されることとなる。
【0075】以上のような変形を加えることによって、
ユーザは、入力した検索条件に適合した文書をより得や
すくすることができる。もっとも、検索速度を重視して
選択された検索エンジン41〜4nの検索結果では、文
書が検索された順番が必ずしも検索条件との適合度を示
すものとならない場合がある。従って、上記の変形は、
検索精度を重視する検索品質の指定がなされるか、検索
品質の指定がなされなかった場合にのみ適用するものと
してもよい。
【0076】上記の実施の形態では、検索エンジン選択
部1は、文書数判定部11、文書サイズ判定部12、文
書構造判定部13、検索条件判定部14、文書ラベル参
照部15及び仮検索実行部16を含み、各部11〜16
による検索エンジン41〜4nの性能評価を複合して、
実際に検索を実行させるための検索エンジンを選択して
いた。しかしながら、本発明は、これに限るものではな
く、これらのうちの1つまたは複数を任意に組み合わせ
て実際に検索を行わせるための検索エンジンを選択する
ことができる。また、これらとは異なる検索エンジン4
1〜4nの性能評価手段を組み合わせることもできる。
【0077】上記の実施の形態では、検索条件の複雑さ
は、文字列照合のみの検索か、タグの探索を含むか、さ
らには文字列の数値や数値計算を含むかということによ
って判定されていた。しかしながら、検索条件の複雑さ
を判定する方法はこれに限るものではない。例えば、検
索の条件項目がいくつ存在するかということを複雑さの
判定基準とすることもできる。自然言語の文章で検索条
件を入力する場合を例とすると、「首都が東京である」
というのは検索項目数が1つ、「人口が1,000,0
00人以上かつ面積が1,000,000km2以上の
国」というのは検索項目数が2つ、「株式会社△△を含
むか○○ソフトを含み、かつ××新聞を含む」というの
は検索項目数が3つなので、この順番で複雑になってい
くということとなる。複雑さの判定基準としてどのよう
なものを採用するかは、例えば、検索エンジン41〜4
nの性質に従って決めることができる。
【0078】上記の実施の形態では、検索エンジン選択
部1の各部11〜16が性能評価したポイントを、検索
エンジン41〜4n毎に単純に加算して合計ポイントを
求めるものとしていた。もっとも、検索エンジン41〜
4nの性能に特に大きな差異を生じさせるものは、検索
対象として指定された文書群31〜3nに含まれる文書
の構造と、入力された検索条件の内容的な複雑さ度合い
である。そこで、検索エンジン選択部1は、各部11〜
16が検索エンジン41〜4n毎に性能評価したポイン
トの合計を求めるときに、文書構造判定部13が性能評
価したポイントと検索条件判定部14が性能評価したポ
イントとに重み付けを行うものとしてもよい。
【0079】上記の実施の形態では、検索条件入力部2
は、文書群指定部24と検索品質指定部25とを備えて
おり、これらの指定がされなければ、文書データベース
3に含まれる全ての文書群31〜3nを検索対象とした
り、検索エンジン毎のポイントに重み付けを行わないで
各検索エンジンのポイントを算出するものとしていた。
つまり、文書群指定部24や検索品質指定部25は、本
発明において必須の構成ということではなく、これらが
検索条件入力部2に含まれていない文書検索システムと
することも可能である。文書群指定部24および/また
は検索品質指定部25を構成要素として含まない場合
は、文書群の指定や検索品質の指定がされなかった場合
と同じように処理すればよい。また、文書群指定部24
を構成要素として含まない場合は、文書データベース3
の全体を1つの文書群として検索を行うことができる。
【0080】上記の実施の形態では、図1に示した文書
検索システムは、単一の汎用コンピュータ装置上に構築
されているものとして説明したが、複数のコンピュータ
装置による分散処理システムで構成されるものとしても
よい。例えば、文書データベース3及び検索エンジン4
1〜4nがサーバシステム側に、検索エンジン選択部
1、検索条件入力部2及び検索結果出力部5が端末側に
構築されたようなシステム構成であってもよい。この場
合、端末側の検索エンジン選択部1は、サーバシステム
側の検索エンジン41〜4nの選択されたものに対し
て、文書データベース3に含まれる文書群31〜3nの
うちの指定された文書群の検索を依頼するものとしても
よい。端末側の検索結果出力部5は、サーバシステム側
の検索エンジン41〜4nから検索した文書を受け取
り、これを出力するものとしてもよい。
【0081】上記の実施の形態では、検索エンジン選択
部1が検索エンジン41〜4nのいずれかを選択するた
めのプログラム(図7)は、汎用コンピュータのメモリ
に記憶されているものとして説明した。また、複数の検
索エンジン41〜4nによって検索された文書を並び替
えるためのプログラム(図8)も、汎用コンピュータの
メモリに記憶されているものとして説明した。しかしな
がら、これらのプログラムをCD−ROMやDVD−R
OMなどのコンピュータ読み取り可能な記録媒体に格納
して、ハードウェアとは独立して配布するものとしても
よい。また、これらの処理プログラムをインターネット
上のWebサーバ装置が有する固定ディスク装置に格納
しておき、インターネットを通じて配信するものとして
もよい。
【0082】
【発明の効果】以上説明したように、本発明によれば、
予め用意された複数の検索エンジンの中から検索エンジ
ンを動的に選択して検索を行わせることができるので、
文書検索の性能を高めることができるようになる。
【図面の簡単な説明】
【図1】本発明の実施の形態にかかる文書検索システム
の構成を示すブロック図である。
【図2】マークアップ言語で記述された文書の第1の例
を示す図である。
【図3】マークアップ言語で記述された文書の第2の例
を示す図である。
【図4】検索条件入力部から入力される検索条件を説明
する図である。
【図5】本発明の実施の形態にかかる文書検索システム
における全体の処理を示すフローチャートである。
【図6】図5の検索条件入力処理を詳細に示すフローチ
ャートである。
【図7】図5の検索エンジン選択処理を詳細に示すフロ
ーチャートである。
【図8】本発明の実施の形態の変形例にかかる検索結果
選択処理を示すフローチャートである。
【符号の説明】
1 検索エンジン選択部 2 検索条件入力部 3 文書データベース 5 検索結果出力部 11 文書数判定部 12 文書サイズ判定部 13 文書構造判定部 14 検索条件判定部 15 文書ラベル参照部 16 仮検索実行部 21 自然言語入力部 22 キーワード入力部 23 検索指定言語入力部 24 文書群指定部 25 検索品質指定部 31〜3n 文書群 41〜4n 検索エンジン

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】複数の文書を含む文書群から検索条件に従
    って文書を検索するために予め用意された複数の検索エ
    ンジンの中から、前記文書群に含まれる文書の性質と前
    記検索条件の内容との少なくとも一方に従って、いずれ
    かの検索エンジンを選択する検索エンジン選択手段と、 前記検索エンジン選択手段が選択した検索エンジンに前
    記文書群を検索させ、前記検索条件に応じた文書を索出
    させる検索実行手段と、 前記検索実行手段が検索エンジンに検索を実行させるこ
    とで索出された文書を検索結果として出力する検索結果
    出力手段とを備えることを特徴とする文書検索システ
    ム。
  2. 【請求項2】前記文書群に含まれる文書は、構造化して
    記述されており、 前記検索エンジン選択手段は、前記文書群に含まれる文
    書の構造に従って、前記文書群の検索に用いる検索エン
    ジンを選択することを特徴とする請求項1に記載の文書
    検索システム。
  3. 【請求項3】前記文書群に含まれる文書は、構造化して
    記述されており、 前記検索エンジン選択手段は、前記検索条件の複雑さの
    度合いに従って、前記文書群の検索に用いる検索エンジ
    ンを選択することを特徴とする請求項1または2項に記
    載の文書検索システム。
  4. 【請求項4】前記検索エンジン選択手段は、前記文書群
    に含まれる文書の数、前記文書群に含まれる文書のサイ
    ズ、及び前記文書群に含まれる文書に付されたラベルの
    いずれか1以上に従って、前記文書群の検索に用いる検
    索エンジンを選択することを特徴とする請求項1乃至3
    のいずれか1項に記載の文書検索システム。
  5. 【請求項5】前記複数の検索エンジンの少なくとも2以
    上に、前記検索条件に従って前記文書群に含まれる文書
    について検索を仮実行させる仮検索実行手段と、 前記仮検索実行手段が検索を実行させた各検索エンジン
    について、その検索の実行結果に従って仮の性能評価を
    する仮評価手段とをさらに備え、 前記検索エンジン選択手段は、前記仮評価手段による仮
    の性能評価に従って、前記文書群の検索に用いる検索エ
    ンジンを選択することを特徴とする請求項1乃至4のい
    ずれか1項に記載の文書検索システム。
  6. 【請求項6】前記文書群を検索させる検索エンジンに対
    してユーザが要求する性能を入力する性能入力手段をさ
    らに備え、 前記検索エンジン選択手段は、前記性能入力手段から入
    力された要求性能に従って前記複数の検索エンジンにそ
    れぞれ重み付けをして、前記文書群の検索に用いる検索
    エンジンを選択することを特徴とする請求項1乃至5の
    いずれか1項に記載の文書検索システム。
  7. 【請求項7】前記検索エンジン選択手段は、前記複数の
    検索エンジンの中からいずれか2以上の検索エンジンを
    選択し、 前記検索結果出力手段は、前記検索エンジン選択手段が
    選択した各検索エンジンが索出した文書に従って、検索
    結果として出力すべき文書と検索結果として文書を選択
    する順番との少なくとも一方を選択する文書選択手段を
    有することを特徴とする請求項1乃至6のいずれか1項
    に記載の文書検索システム。
  8. 【請求項8】前記文書群に含まれる文書の性質と前記検
    索条件の内容との少なくとも一方に従って、少なくとも
    前記検索エンジン選択手段が選択する2以上の検索エン
    ジンについて、それぞれ性能評価する性能評価手段を備
    え、 前記文書選択手段は、前記性能評価手段による性能評価
    に従って各検索エンジンが索出した文書に重み付けをし
    て、検索結果として出力すべき文書と検索結果として文
    書を選択する順番との少なくとも一方を選択することを
    特徴とする請求項7に記載の文書検索システム。
  9. 【請求項9】複数の文書を含む文書群から検索条件に従
    って文書を検索するために予め用意された複数の検索エ
    ンジンの中から、前記文書群に含まれる文書の性質と前
    記検索条件の内容との少なくとも一方に従って、いずれ
    かの検索エンジンを選択するステップと、 選択された検索エンジンに前記文書群を検索させ、前記
    検索条件に応じた文書を索出させるステップと、 索出された文書を検索結果として出力するステップとを
    含むことを特徴とする文書検索方法。
  10. 【請求項10】複数の文書を含む文書群から検索条件に
    従って文書を検索するための複数の検索エンジンを用意
    したコンピュータ装置を、 前記文書群に含まれる文書の性質と前記検索条件の内容
    との少なくとも一方に従って、いずれかの検索エンジン
    を選択する検索エンジン選択手段、 前記検索エンジン選択手段が選択した検索エンジンに前
    記文書群を検索させ、前記検索条件に応じた文書を索出
    させる検索実行手段、及び、 前記検索実行手段が検索エンジンに検索を実行させるこ
    とで索出された文書を検索結果として出力する検索結果
    出力手段として機能させるためのプログラム。
JP2002111857A 2002-04-15 2002-04-15 文書検索システム及び方法、並びにプログラム Pending JP2003308335A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002111857A JP2003308335A (ja) 2002-04-15 2002-04-15 文書検索システム及び方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002111857A JP2003308335A (ja) 2002-04-15 2002-04-15 文書検索システム及び方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2003308335A true JP2003308335A (ja) 2003-10-31

Family

ID=29394536

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002111857A Pending JP2003308335A (ja) 2002-04-15 2002-04-15 文書検索システム及び方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2003308335A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008210272A (ja) * 2007-02-27 2008-09-11 Toshiba Corp 文書検索システム及び文書検索方法
JP2009510547A (ja) * 2005-08-29 2009-03-12 グーグル・インコーポレーテッド モバイルサイトマップ
JP2010003230A (ja) * 2008-06-23 2010-01-07 Onkyo Corp コンテンツ再生装置及びそのプログラム
US7752216B2 (en) 2006-12-21 2010-07-06 Hitachi, Ltd. Retrieval apparatus, retrieval method and retrieval program
WO2011013234A1 (ja) * 2009-07-30 2011-02-03 株式会社東芝 受信装置
JP2015045996A (ja) * 2013-08-28 2015-03-12 Kddi株式会社 分散クエリ処理装置、処理方法及び処理プログラム
WO2017045277A1 (zh) * 2015-09-16 2017-03-23 百度在线网络技术(北京)有限公司 搜索方法、装置、设备及非易失性计算机存储介质
JP2018060379A (ja) * 2016-10-05 2018-04-12 富士通株式会社 検索手段選択プログラム、検索手段選択方法及び検索手段選択装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096794A (ja) * 1995-06-14 1997-01-10 Fuji Xerox Co Ltd データ検索指示装置
JP2001188802A (ja) * 1999-11-22 2001-07-10 Nec Corp 情報検索装置及び情報検索方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH096794A (ja) * 1995-06-14 1997-01-10 Fuji Xerox Co Ltd データ検索指示装置
JP2001188802A (ja) * 1999-11-22 2001-07-10 Nec Corp 情報検索装置及び情報検索方法

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8234266B2 (en) 2005-08-29 2012-07-31 Google Inc. Mobile SiteMaps
JP2009510547A (ja) * 2005-08-29 2009-03-12 グーグル・インコーポレーテッド モバイルサイトマップ
US8655864B1 (en) 2005-08-29 2014-02-18 Google Inc. Mobile SiteMaps
US7752216B2 (en) 2006-12-21 2010-07-06 Hitachi, Ltd. Retrieval apparatus, retrieval method and retrieval program
JP2008210272A (ja) * 2007-02-27 2008-09-11 Toshiba Corp 文書検索システム及び文書検索方法
JP2010003230A (ja) * 2008-06-23 2010-01-07 Onkyo Corp コンテンツ再生装置及びそのプログラム
WO2011013234A1 (ja) * 2009-07-30 2011-02-03 株式会社東芝 受信装置
CN102473180A (zh) * 2009-07-30 2012-05-23 株式会社东芝 接收装置
JPWO2011013234A1 (ja) * 2009-07-30 2013-01-07 株式会社東芝 受信装置
US8862607B2 (en) 2009-07-30 2014-10-14 Kabushiki Kaisha Toshiba Content receiving apparatus with search query generator
CN102473180B (zh) * 2009-07-30 2015-06-10 株式会社东芝 接收装置
JP2015045996A (ja) * 2013-08-28 2015-03-12 Kddi株式会社 分散クエリ処理装置、処理方法及び処理プログラム
WO2017045277A1 (zh) * 2015-09-16 2017-03-23 百度在线网络技术(北京)有限公司 搜索方法、装置、设备及非易失性计算机存储介质
JP2018060379A (ja) * 2016-10-05 2018-04-12 富士通株式会社 検索手段選択プログラム、検索手段選択方法及び検索手段選択装置

Similar Documents

Publication Publication Date Title
US8458207B2 (en) Using anchor text to provide context
US8001135B2 (en) Search support apparatus, computer program product, and search support system
US8983965B2 (en) Document rating calculation system, document rating calculation method and program
JP2003016089A (ja) 情報検索システム及びサーバ
US20120078907A1 (en) Keyword presentation apparatus and method
CN101246484A (zh) 一种便于查询的电子文本的相似性处理方法和系统
JP2010061420A (ja) 商品情報検索装置、方法及びシステム
CN111694967A (zh) 属性抽取方法、装置、电子设备及介质
JP2003308335A (ja) 文書検索システム及び方法、並びにプログラム
JP5151368B2 (ja) 情報処理装置および情報処理プログラム
JP2007034772A (ja) Webサイト検索結果の最適表示システム及びその装置及びその方法及びそのプログラム
JP4423841B2 (ja) キーワード決定装置、決定方法、文書検索装置、検索方法、文書分類装置及び分類方法並びにプログラム
Gupta et al. Text analysis and information retrieval of text data
JP5179564B2 (ja) クエリセグメント位置決定装置
JP2001265774A (ja) 情報検索方法、装置、および情報検索プログラムを記録した記録媒体、ハイパーテキスト情報検索システム
Christos et al. A Web-page fragmentation technique for personalized browsing
JP3894428B2 (ja) 情報抽出方法、情報検索方法及び情報抽出コンピュータプログラム
JP2003016106A (ja) 関連度値算出装置
Fonou-Dombeu et al. CRank: a novel framework for ranking semantic web ontologies
JP2012104051A (ja) 文書インデックス作成装置
JPH11345238A (ja) www上のHTML文書のキーワード検索の結果の提示方法
JP4959032B1 (ja) ウェブページ解析装置およびウェブページ解析用プログラム
JP2007026116A (ja) 概念検索システム及び概念検索方法
JP2009075662A (ja) 検索支援装置
JP2009251845A (ja) 検索結果評価装置及び検索結果評価方法

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051228

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060228