JP2002297594A - 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体 - Google Patents

分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体

Info

Publication number
JP2002297594A
JP2002297594A JP2001103782A JP2001103782A JP2002297594A JP 2002297594 A JP2002297594 A JP 2002297594A JP 2001103782 A JP2001103782 A JP 2001103782A JP 2001103782 A JP2001103782 A JP 2001103782A JP 2002297594 A JP2002297594 A JP 2002297594A
Authority
JP
Japan
Prior art keywords
search
information
word
document
formula
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001103782A
Other languages
English (en)
Inventor
Masahito Sawada
雅人 澤田
Genichiro Kikui
玄一郎 菊井
Junji Tomita
準二 富田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001103782A priority Critical patent/JP2002297594A/ja
Publication of JP2002297594A publication Critical patent/JP2002297594A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 分散型全文検索装置における、単語に関する
情報や保有文書集合に関する情報の交換を必要最小限に
とどめながら、適合度や検索結果の順序を一致させるこ
とを可能とする。 【解決手段】 本発明は、検索式と保有文書との適合度
を算出し、保有文書とその適合度の組の一覧を検索結果
として出力する複数の検索実行装置と、複数の検索実行
装置に対して検索式を送信し、それぞれの検索実行装置
から得られた検索結果を統合したものを全体の検索結果
として出力するメタ検索装置を有する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、分散型検索装置に
おけるメタ検索方法及び装置及びメタ検索プログラム及
びメタ検索プログラムを格納した記憶媒体及び分散型検
索装置における検索実行方法及び装置及び検索実行プロ
グラム及び検索実行プログラムを格納した記憶媒体に係
り、特に、複数の文書集合から検索式に適合する文書を
検索する場合に、単一の文書集合から検索した場合と、
適合度や検索結果の順序が一致する、分散型検索装置に
おけるメタ検索方法及び装置及びメタ検索プログラム及
びメタ検索プログラムを格納した記憶媒体及び分散型検
索装置における検索実行方法及び装置及び検索実行プロ
グラム及び検索実行プログラムを格納した記憶媒体に関
する。
【0002】
【従来の技術】最初に従来の全文検索装置について説明
する。
【0003】図10は、従来の全文検索装置の構成を示
す。
【0004】同図に示す全文検索装置は、検索装置10
と保有する文書集合に関する情報を保持する文書データ
ベース20から構成され、入力として単語または、単語
のブール演算子結合によって記述された検索式を取得
し、文書データベース20から検索式に適合する文書を
取得し、検索結果として出力する。
【0005】ここで、大量の文書で構成される文書集合
から、検索式に適合する文書を検索すると、大量の文書
が検索結果として得られることがあり、利用者が本当に
必要としている文書を取得するためには、全ての検索結
果を参照するなど、必要に大きな負担を必要とする。
【0006】そこで、全文検索装置では、検索結果に含
まれる個々の文書に対して、検索式とどの程度適合して
いるかという適合度を算出し、検索結果の文書の並びを
適合度の高い順に並びかえて出力したり、適合度の低い
文書を検索結果から除外したりしている。
【0007】適合度の算出には、文書内や文書集合内で
の単語の出現頻度などに基づいて適合度を算出する手法
が一般的に用いられている。
【0008】このような適合度の算出方法として、TF
* IDF法と呼ばれる手法がある。当該TF* IDF法
では、 ・検索式に含まれる単語の出現頻度が高い文書の適度は
高い; ・検索式に含まれる単語で、文書集合中における出現頻
度が低い単語を含む文書の適合度は高い; という基準で適合度を算出する。
【0009】例えば、文書集合Dに含まれる文書dと単
語wの適合度S(w,d)を以下に示す式を用いて算出
する。
【0010】S(w,d)=TF(w,d)・IDF
(w) TF(w,d)=word_num (w,d)/|d| IDF(w)=log (|D|_doc _num (D,w)) ここで、word_num (w,d)は、単語dに含まれる単
語wの個数、|d|は、文書dに含まれる単語の総数、
|D|は、文書集合Dに含まれる文書数、doc_num
(D,w)は、文書集合Dの文書のうち単語wを含むも
のの数を示す。
【0011】検索式Qが単一の単語のみで構成されてい
れば、このS(w,d)が検索式Qと文書dの適合度と
なる。
【0012】検索式Qが複数の単語をブール演算子で結
合したものであれば、それぞれの単語についてS(w,
d)を求め、単語間のブール演算子に応じた演算をする
ことで、検索式Qと文書dの適合度を計算する。
【0013】非常に大規模な文書集合を扱う場合や、全
文検索装置を複数の場所に配置して利用する場合におい
ては、分散型全文検索装置が用いられている。
【0014】図11は、従来の分散型全文検索装置の構
成を示す。同図に示す分散型全文検索装置は、複数の検
索実行装置40とメタ検索装置30から構成され、これ
らの装置は、ネットワークで接続され、相互に通信を行
う。
【0015】検索実行装置40は、単一の全文検索装置
と同等の機能を有するものである。メタ検索装置30
は、単語または、単語のブール演算子結合によって記述
された検索式を入力として取得し、複数の検索実行装置
40に対して検索式を送信し、それぞれの検索実行装置
40から検索結果を取得する。そして、個々の検索結果
をまとめて全体の検索結果として出力する。
【0016】分散型全文検索装置では、文書集合Dが複
数の部分文書集合D1 ,D2 ,…,Dn に分割され、検
索実行装置40に割り当てられているため、各検索実行
装置40が保持している文書データベースに含まれる情
報は割り当てられた部分集合から得られる情報のみであ
る。
【0017】そのため、適合度の算出に関して次のよう
な手法が用いられている。
【0018】(1) 部分文書集合から得られる情報の
みで適合度を算出する。
【0019】例えば、TF* IDF法であれば、IDF
(w)の計算に必要な、文書集合Dにおける|D|やdo
c _num (D,w)を、Dj における|Dj |や、doc
_num (Dj ,w)で代用する。 (2) 情報を事前
に交換することで、文書集合全体の情報を用いて適合度
を算出する。
【0020】例えば、TF* IDF法であれば、IDF
(w)の計算に必要な、文書集合Dにおける|D|や全
ての単語のdoc _num (D,w)を各検索実行装置間で
交換することで、事前に文書集合全体の情報を取得して
おき、検索時には、この情報を用いてIDF(w)を計
算する。
【0021】
【発明が解決しようとする課題】しかしながら、上記の
従来の技術における適合度の算出方法における(1)の
場合では、単語に関する情報や保有文書集合に関する情
報の交換を行わないため、適合度の計算に用いる値が文
書集合全体から得られる情報を用いる場合と異なる可能
性があり、同じ文書集合に対して同じ検索式で検索を行
ったとしても、単一の全文検索装置を用いた場合と、分
散型全文検索装置を用いた場合で、適合度や検索結果の
順序が一致しない可能性が生じるという問題がある。
【0022】また、上記の(2)の場合で、保有文書数
が多い場合には、全ての単語に関する情報量が膨大とな
り、実際には利用されないかもしれない単語の情報を含
む大量の情報を検索実行装置間で交換しなければならな
いという問題がある。
【0023】また、文書の追加・削除・更新が頻繁に行
われる場合においては、追加・削除・更新された文書に
含まれている単語に関する情報、及び、保有文書集合に
関する情報を、文書の追加・削除・更新が行われる度に
交換する必要があり、結果として大量の情報を交換しな
ければならないという問題がある。
【0024】本発明は、上記の点に鑑みなされたもの
で、分散型全文検索装置における、単語に関する情報や
保有文書集合に関する情報の交換を必要最小限にとどめ
ながら、適合度や検索結果の順序を一致させることが可
能な分散型検索装置におけるメタ検索方法及び装置及び
メタ検索プログラム及びメタ検索プログラムを格納した
記憶媒体及び分散型検索装置における検索実行方法及び
装置及び検索実行プログラム及び検索実行プログラムを
格納した記憶媒体を提供することを目的とする。
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。
【0025】本発明(請求項1)は、単語または、単語
のブール演算子結合からなる検索式に対して、検索式に
合致する文書を検索結果として出力する分散型検索装置
におけるメタ検索方法において、入力された検索式、も
しくは、入力された検索式に含まれる単語を検索実行装
置に送信し(ステップ1)、検索式に含まれる単語に関
する情報、または、それぞれの検索実行装置の保有文書
集合に関する情報、または、これら両方を予め全ての検
索実行装置から取得し(ステップ2)、単語に関する情
報、保有文書集合に関する情報、または、これらの両
方、及び検索式から、補正検索式を生成し、各検索実行
装置に送信し(ステップ3)、各検索実行装置から得ら
れた検索結果を統合したものを全体の検索結果として出
力する(ステップ4)。
【0026】図2は、本発明の原理構成図である。
【0027】本発明(請求項2)は、単語または、単語
のブール演算子結合からなる検索式に対して、検索式に
合致する文書を検索結果として出力する分散型検索装置
におけるメタ検索装置であって、入力された検索式、も
しくは、入力された検索式に含まれる単語を検索実行装
置に送信し、該検索式に含まれる単語に関する情報、ま
たは、それぞれの検索実行装置の保有文書集合に関する
情報、または、これら両方を予め全ての検索実行装置か
ら取得する情報取得手段120と、単語に関する情報、
保有文書集合に関する情報、または、これらの両方及び
検索式から、補正検索式を生成し、各検索実行装置に送
信する補正検索式生成手段130と、各検索実行装置か
ら得られた検索結果を統合したものを全体の検索結果と
して出力する検索結果出力手段140とを有する。
【0028】本発明(請求項3)は、補正検索式生成手
段130において、全ての検索実行装置から、検索式に
含まれる各単語に対して、それぞれの単語が出現する文
書の数、または、それぞれの検索実行装置の保有する文
書の数、または、これら両方を予め取得し、取得した情
報と該検索式から補正検索式を生成する手段を有する。
【0029】本発明(請求項4)は、単語または、単語
のブール演算子結合からなる検索式に対して、検索式に
合致する文書を検索結果として出力するメタ検索プログ
ラムであって、入力された検索式、もしくは、入力され
た検索式に含まれる単語を検索実行装置に送信し、該検
索式に含まれる単語に関する情報、または、それぞれの
検索実行装置の保有文書集合に関する情報、または、こ
れら両方を予め全ての検索実行装置から取得する情報取
得プロセスと、単語に関する情報、保有文書集合に関す
る情報、または、これらの両方及び検索式から、補正検
索式を生成し、各検索実行装置に送信する補正検索式生
成プロセスと、各検索実行装置から得られた検索結果を
統合したものを全体の検索結果として出力する検索結果
出力プロセスとを有する。
【0030】本発明(請求項5)は、単語または、単語
のブール演算子結合からなる検索式に対して、検索式に
合致する文書を検索結果として出力するメタ検索プログ
ラムを格納した記憶媒体であって、入力された検索式、
もしくは、入力された検索式に含まれる単語を検索実行
装置に送信し、該検索式に含まれる単語に関する情報、
または、それぞれの検索実行装置の保有文書集合に関す
る情報、または、これら両方を予め全ての検索実行装置
から取得する情報取得プロセスと、単語に関する情報、
保有文書集合に関する情報、または、これらの両方及び
検索式から、補正検索式を生成し、各検索実行装置に送
信する補正検索式生成プロセスと、各検索実行装置から
得られた検索結果を統合したものを全体の検索結果とし
て出力する検索結果出力プロセスとを有する。
【0031】本発明(請求項6)は、単語または、単語
のブール演算子結合からなる検索式に対して、検索式に
合致する文書を検索結果として出力する分散型検索装置
における検索実行方法において、単語情報要求及び、保
有文書集合情報要求をメタ検索装置から取得し(ステッ
プ10)、単語情報要求で指定された単語に関する情
報、保有文書集合情報要求による保有文書集合に関する
情報を文書データベースから取得し(ステップ11)、
得られた情報をメタ検索装置に出力する(ステップ1
2)。
【0032】本発明(請求項7)は、メタ検索装置か
ら、補正検索式を取得した際に、単語に関する情報及び
保有文書集合に関する情報を用いて、補正検索式と保有
文書の適合度を算出し、該補正検索式と該保有文書の適
合度を補正する。
【0033】本発明(請求項8)は、単語または、単語
のブール演算子結合からなる検索式に対して、検索式に
合致する文書を検索結果として出力する分散型検索装置
における検索実行装置であって、単語情報要求及び、保
有文書集合情報要求をメタ検索装置から取得する要求取
得手段210と、単語情報要求で指定された単語に関す
る情報、保有文書集合情報要求による保有文書集合に関
する情報を文書データベースから取得する検索手段22
0と、検索手段220で得られた情報をメタ検索装置に
出力する結果出力手段230とを有する。
【0034】本発明(請求項9)は、検索手段220に
おいて、メタ検索装置から単語情報要求を取得した際
に、該単語情報要求により指定された単語が出現する文
書の数を文書データベースから取得し、得られた文書数
を出力する手段と、メタ検索装置から保有文書集合情報
要求を取得した際に、保有する文書の数を文書データベ
ースから取得し、得られた文書数を出力する手段とを有
する。
【0035】本発明(請求項10)は、メタ検索装置か
ら、補正検索式を取得した際に、単語に関する情報及び
保有文書集合に関する情報を用いて、補正検索式と保有
文書の適合度を算出し、該補正検索式と該保有文書の適
合度を補正する適合度補正手段を有する。
【0036】本発明(請求項11)は、適合度補正手段
において、メタ検索装置から、補正検索式を取得した際
に、分散型全文検索装置の保有する文書集合全体におけ
る、補正検索式に含まれる各単語に対して、それぞれの
単語が出現する文書の数及び、文書の総数を用いて、該
補正検索式と保有文書の適合度を補正する手段を含む。
【0037】本発明(請求項12)は、単語または、単
語のブール演算子結合からなる検索式に対して、検索式
に合致する文書を検索結果として出力する検索実行プロ
グラムであって、単語情報要求及び、保有文書集合情報
要求をメタ検索装置から取得する要求取得プロセスと、
単語情報要求で指定された単語に関する情報、保有文書
集合情報要求による保有文書集合に関する情報を文書デ
ータベースから取得する検索プロセスと、 検索プロセ
スで得られた情報をメタ検索装置に出力する結果出力プ
ロセスとを有する。
【0038】本発明(請求項13)は、メタ検索装置か
ら、補正検索式を取得した際に、単語に関する情報及び
保有文書集合に関する情報を用いて、補正検索式と保有
文書の適合度を算出し、該補正検索式と該保有文書の適
合度を補正する適合度補正プロセスを有する。
【0039】本発明(請求項14)は、単語または、単
語のブール演算子結合からなる検索式に対して、検索式
に合致する文書を検索結果として出力する検索実行プロ
グラムを格納した記憶媒体であって、単語または、単語
のブール演算子結合からなる検索式に対して、検索式に
合致する文書を検索結果として出力する検索実行プログ
ラムであって、単語情報要求及び、保有文書集合情報要
求をメタ検索装置から取得する要求取得プロセスと、単
語情報要求で指定された単語に関する情報、保有文書集
合情報要求による保有文書集合に関する情報を文書デー
タベースから取得する検索プロセスと、検索プロセスで
得られた情報をメタ検索装置に出力する結果出力プロセ
スとを有する。
【0040】本発明(請求項15)は、メタ検索装置か
ら、補正検索式を取得した際に、単語に関する情報及び
保有文書集合に関する情報を用いて、補正検索式と保有
文書の適合度を算出し、該補正検索式と該保有文書の適
合度を補正する適合度補正プロセスを有する。
【0041】上記のように、本発明では、メタ検索装置
が検索式を取得した際に、全ての検索実行装置から、検
索式に含まれる単語に関する情報、及び保有文書集合に
関する情報を取得し、得られた情報と検索式から、補正
検索式を生成して、各検索実行装置に送信する。また、
検索実行装置が補正検索式に含まれる単語に関する情報
及び、保有文書集合に関する情報を用いて検索式と保有
文書の適合度を補正する。これにより、適合度や検索結
果の順序を一致させることが可能となり、利用されない
可能性のある情報を含む大量の情報を交換する必要がな
くなる。
【0042】
【発明の実施の形態】以下、図面と共に本発明の一実施
の形態について説明する。
【0043】図3は、本発明の一実施の形態における分
散型全文検索装置の構成を示す。
【0044】同図に示す分散型全文検索装置は、メタ検
索装置100と複数の検索実行装置200から構成さ
れ、これらの装置はネットワークで接続され、相互に通
信を行う。
【0045】メタ検索装置100の個数については、同
図では、1個のみ記載しているが、この構成に限定され
ることなく、複数存在してもよい。
【0046】また、各装置を異なる計算機上に実装する
必要もなく、同じ計算機上に複数の装置を実装したり、
全ての装置を同一の計算機上に実装してもよい。
【0047】最初に、メタ検索装置100の構成につい
て説明する。
【0048】図4は、本発明の一実施の形態におけるメ
タ検索装置の構成を示す。
【0049】同図に示すメタ検索装置100は、検索式
取得部110、情報取得部120、補正検索式生成部1
30、検索結果出力部140から構成される。
【0050】検索式取得部110は、ユーザから入力と
して検索式を取得する。
【0051】情報取得部120は、検索式に含まれる単
語を抽出し、全ての検索実行装置に、各単語についての
単語情報要求及び、保有文書集合情報要求を送信し、単
語情報、及び保有文書集合に関する情報を取得する。
【0052】補正検索式生成部130は、検索式、単語
情報、及び保有文書集合に関する情報から補正検索式を
生成し、全ての検索実行装置100に送信する。
【0053】検索結果出力部140は、各検索実行装置
100から検索結果を取得し、個々の検索結果をまとめ
て全体の検索結果を出力する。
【0054】次に、検索実行装置200の構成について
説明する。
【0055】図5は、本発明の一実施の形態における検
索実行装置の構成を示す。
【0056】同図に示す検索実行装置200は、要求取
得部210、検索部220、適合度算出部230及び文
書データベース240から構成される。
【0057】要求取得部210は、単語情報要求及び保
有文書情報要求をメタ検索装置100から取得し、検索
部220に渡す。
【0058】検索部220は、要求取得部210から単
語情報要求を取得した場合には、指定された単語に関す
る情報を文書データベース240から取得し、メタ検索
装置100に返却する。また、保有文書集合情報要求を
取得した場合には、保有文書集合に関する情報を文書デ
ータベース240から取得し、メタ検索装置100に返
却する。
【0059】適合度算出部230は、補正検索式をメタ
検索装置100から取得し、単語に関する情報、保有文
書集合に関する情報を抽出し、検索式と保有文書との適
合度を算出し、保有文書と算出した適合度の組の一覧を
出力する。
【0060】ここで、適合度の算出手法について説明す
る。算出手法としてTF* IDF法を用いた場合につい
て説明する。
【0061】適合度の算出手法については、TF* ID
F法に限定されることなく、文書内での単語の出現頻度
や、文書集合内での単語の出現頻度などの情報に基づく
手法であればよい。
【0062】TF* IDF法では、IDF(w)の計算
に、部分文書集合からは得られない情報である、文書集
合Dにおける|D|やdoc _num (D,w)の値を用い
ている。
【0063】そこで、メタ検索装置100及び検索実行
装置200において、実際の検索処理を以下のように行
う。
【0064】図6は、本発明の一実施の形態におけるメ
タ検索装置の検索処理を説明するための図である。
【0065】ステップ101) 検索式取得部110に
おいて検索式Qをユーザから取得する。
【0066】ステップ102) 情報取得部120は、
検索式Qに含まれる単語W(i)(i≧1)を抽出す
る。
【0067】ステップ103) 情報取得部120は、
W(i)の単語情報要求を検索実行装置200に送信す
る。
【0068】ステップ104) 情報取得部120は、
W(i)の単語情報doc _num (Dj ,W(i))(1
≦j≦n)を検索実行装置200jから取得する。
【0069】ステップ105) 補正検索式生成部13
0は、取得した単語情報を用いて
【0070】
【数1】 を算出する。
【0071】ステップ106) 次に、情報取得部12
0は、検索実行装置200jに対して保有文書集合情報
要求を送信する。
【0072】ステップ107) 情報取得部120は、
検索実行装置200jから保有文書数|D(j)|を取
得する。
【0073】ステップ108) 補正検索式生成部13
0は、保有文書数に基づいて、
【0074】
【数2】 を算出する。
【0075】ステップ109) 補正検索式生成部13
0は、検索式Qと、doc _num (D,W(i))、及び
|D|から補正検索式Q’を生成する。例えば、 Q’={Q,doc _num (D,W(i)),|D|} ステップ110) 補正検索式生成部130は、全ての
検索実行装置200に、補正検索式Q’を送信する。
【0076】ステップ111) 検索結果出力部140
は、検索実行装置jから検索結果R(j)を取得する。
【0077】ステップ112) 検索結果出力部140
は、R(j)を適合度の高い順に並べ替えて、全体の検
索結果Rを生成する。
【0078】ステップ113) 検索結果出力部140
は、検索結果Rを出力する。
【0079】次に、検索実行装置200の検索手順につ
いて説明する。
【0080】検索実行装置200jでは、メタ検索装置
100から送信された単語情報要求、保有文書集合情報
要求、及び補正検索式を以下の手順で処理する。
【0081】最初に単語情報要求に対する処理手順を説
明する。
【0082】図7は、本発明の一実施の形態における検
索実行装置での単語情報要求の処理手順を示す。
【0083】ステップ201) 要求取得部210で
は、メタ検索装置100から単語情報要求を取得し、検
索部220に渡す。
【0084】ステップ202) 検索部220は、単語
情報要求中の単語W(i)に関する情報doc _num
(D,W(i))を文書データベース240から取得す
る。
【0085】ステップ203) 検索部220は、取得
したdoc _num (D,W(i))の一覧をメタ検索装置
100に出力する。
【0086】次に、保有文書集合情報要求に対する処理
手順を説明する。
【0087】図8は、本発明の一実施の形態における検
索実行装置での保有文書集合情報要求の処理手順を示
す。
【0088】ステップ301) 要求取得部210で
は、メタ検索装置100から保有文書集合情報要求を取
得して、検索部220に渡す。
【0089】ステップ302) 検索部220は、保有
文書集合情報要求に基づいて、文書数|D(j)|を文
書データベース240から取得する。
【0090】ステップ303) 検索部220は、取得
した文書数|D(j)|をメタ検索装置100に出力す
る。
【0091】次に、検索実行装置200において、メタ
検索装置100から補正検索式Q’を取得した場合の処
理について説明する。
【0092】図9は、本発明の一実施の形態における検
索実行装置での補正検索式の処理手順を示す。
【0093】ステップ401) 適合度算出部230
は、メタ検索装置100から補正検索式Q’を取得す
る。
【0094】ステップ402) 適合度算出部230
が、補正検索式Q’から検索式Q、doc _num (D,W
(i))及び|D|を抽出する。
【0095】ステップ403) 適合度算出部230
は、検索式Qと保有文書d(k,j)(1≦k≦|D
|)の適合度S(k)を、文書データベース240から
得られるTF値と、doc _num (D,W(i))、及
び、|D|から得られるIDF値を用いて算出する。
【0096】ステップ404) 適合度算出部230
は、d(k,j)とS(k)の組をS(k)の高い順に
並べ替え、検索結果R(j)を生成する。
【0097】ステップ405) 検索結果R(j)をメ
タ検索装置100に出力する。
【0098】このように、各検索実行装置200では、
doc _num (D,W(i))や|D|のような、保有し
ている部分文書集合からは得ることができない情報を用
いて適合度の算出を行うことが可能となり、同じ文書集
合に対して同じ検索式で検索を行ったときに、単一の全
文検索装置を用いた場合でも、分散型全文検索装置を用
いた場合でも、適合度や検索結果の順序が一致するよう
になる。
【0099】また、メタ検索装置100と検索実行装置
200との間で交換される情報が、検索式に含まれる単
語に関する情報と、部分文書集合に関する情報のみであ
るため、全ての単語に関する情報を交換する場合に比
べ、交換する情報を必要最小限に抑えることが可能とな
る。
【0100】また、上記の実施の形態では、図4及び図
5の構成に基づいて説明したが、これらのメタ検索装置
100や検索実行装置200の各構成要素をプログラム
として構築し、当該検索装置として利用されるコンピュ
ータのCPUにインストールする、または、ネットワー
クを介して流通させることも可能である。
【0101】また、構築されたプログラムを検索装置と
して利用されるコンピュータに接続されるハードディス
クや、フロッピー(登録商標)ディスク、CD−ROM
等の可搬記憶媒体に格納しておき、本発明を実施する際
にインストールすることにより、容易に本発明を実現で
きる。
【0102】なお、本発明の上記の実施例に限定される
ことなく、特許請求の範囲内において、種々変更・応用
が可能である。
【0103】
【発明の効果】上述のように、本発明によれば、分散型
全文検索装置における、単語に関する情報や保有文書集
合に関する情報の交換をメタ検索装置と検索実行装置と
の間で必要最小限に留めながら、適合度や検索結果の順
序を一致させることができる。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の一実施の形態における分散型全文検索
装置の構成図である。
【図4】本発明の一実施の形態におけるメタ検索装置の
構成図である。
【図5】本発明の一実施の形態における検索実行装置の
構成図である。
【図6】本発明の一実施の形態におけるメタ検索装置の
検索処理を説明するための図である。
【図7】本発明の一実施の形態における検索実行装置で
の単語情報要求の処理手順を示す図である。
【図8】本発明の一実施の形態における検索実行装置で
の保有文書集合情報要求の処理手順を示す図である。
【図9】本発明の一実施の形態における検索実行装置で
の補正検索式の処理手順である。
【図10】従来の全文検索装置の構成である。
【図11】従来の分散型全文検索装置の構成図である。
【符号の説明】
100 メタ検索装置 110 検索式取得部 120 情報取得手段、情報取得部 130 補正検索式生成手段、補正検索式生成部 140 検索結果出力手段、検索結果出力部 200 検索実行装置 210 要求取得手段、要求取得部 220 検索手段、検索部 230 結果出力手段、適合度算出部 240 文書データベース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 富田 準二 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 KK02 ND03 PQ74 PR06 QM08 QS01 (54)【発明の名称】 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラム を格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム 及び検索実行プログラムを格納した記憶媒体

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 単語または、単語のブール演算子結合か
    らなる検索式に対して、検索式に合致する文書を検索結
    果として出力する分散型検索装置におけるメタ検索方法
    において、 入力された検索式、もしくは、入力された検索式に含ま
    れる単語をを検索実行装置に送信し、 前記検索式に含まれる単語に関する情報、または、それ
    ぞれの検索実行装置の保有文書集合に関する情報、また
    は、これら両方を予め全ての検索実行装置から取得し、 前記単語に関する情報、前記保有文書集合に関する情
    報、または、これらの両方、及び前記検索式から、補正
    検索式を生成し、各検索実行装置に送信し、 前記各検索実行装置から得られた検索結果を統合したも
    のを全体の検索結果として出力することを特徴とする分
    散型検索装置におけるメタ検索方法。
  2. 【請求項2】 単語または、単語のブール演算子結合か
    らなる検索式に対して、検索式に合致する文書を検索結
    果として出力する分散型検索装置におけるメタ検索装置
    であって、 入力された検索式、もしくは、入力された検索式に含ま
    れる単語を検索実行装置に送信し、該検索式に含まれる
    単語に関する情報、または、それぞれの検索実行装置の
    保有文書集合に関する情報、または、これら両方を予め
    全ての検索実行装置から取得する情報取得手段と、 前記単語に関する情報、前記保有文書集合に関する情
    報、または、これらの両方及び前記検索式から、補正検
    索式を生成し、各検索実行装置に送信する補正検索式生
    成手段と、 前記各検索実行装置から得られた検索結果を統合したも
    のを全体の検索結果として出力する検索結果出力手段と
    を有することを特徴とする分散型検索装置におけるメタ
    検索装置。
  3. 【請求項3】 前記補正検索式生成手段は、 前記全ての検索実行装置から、前記検索式に含まれる各
    単語に対して、それぞれの単語が出現する文書の数、ま
    たは、それぞれの検索実行装置の保有する文書の数、ま
    たは、これら両方を予め取得し、取得した情報と該検索
    式から前記補正検索式を生成する手段を有する請求項2
    記載の分散型検索装置におけるメタ検索装置。
  4. 【請求項4】 単語または、単語のブール演算子結合か
    らなる検索式に対して、検索式に合致する文書を検索結
    果として出力するメタ検索プログラムであって、 入力された検索式、もしくは、入力された検索式に含ま
    れる単語を検索実行装置に送信し、該検索式に含まれる
    単語に関する情報、または、それぞれの検索実行装置の
    保有文書集合に関する情報、または、これら両方を予め
    全ての検索実行装置から取得する情報取得プロセスと、 前記単語に関する情報、前記保有文書集合に関する情
    報、または、これらの両方及び前記検索式から、補正検
    索式を生成し、各検索実行装置に送信する補正検索式生
    成プロセスと、 前記各検索実行装置から得られた検索結果を統合したも
    のを全体の検索結果として出力する検索結果出力プロセ
    スとを有することを特徴とするメタ検索プログラム。
  5. 【請求項5】 単語または、単語のブール演算子結合か
    らなる検索式に対して、検索式に合致する文書を検索結
    果として出力するメタ検索プログラムを格納した記憶媒
    体であって、 入力された検索式、もしくは、入力された検索式に含ま
    れる単語を検索実行装置に送信し、該検索式に含まれる
    単語に関する情報、または、それぞれの検索実行装置の
    保有文書集合に関する情報、または、これら両方を予め
    全ての検索実行装置から取得する情報取得プロセスと、 前記単語に関する情報、前記保有文書集合に関する情
    報、または、これらの両方及び前記検索式から、補正検
    索式を生成し、各検索実行装置に送信する補正検索式生
    成プロセスと、 前記各検索実行装置から得られた検索結果を統合したも
    のを全体の検索結果として出力する検索結果出力プロセ
    スとを有することを特徴とするメタ検索プログラムを格
    納した記憶媒体。
  6. 【請求項6】 単語または、単語のブール演算子結合か
    らなる検索式に対して、検索式に合致する文書を検索結
    果として出力する分散型検索装置における検索実行方法
    において、 単語情報要求及び、保有文書集合情報要求をメタ検索装
    置から取得し、 前記単語情報要求で指定された単語に関する情報、前記
    保有文書集合情報要求による保有文書集合に関する情報
    を文書データベースから取得し、 得られた情報を前記メタ検索装置に出力すること特徴と
    する分散検索装置における検索実行方法。
  7. 【請求項7】 前記メタ検索装置から、補正検索式を取
    得した際に、 前記単語に関する情報及び前記保有文書集合に関する情
    報を用いて、前記補正検索式と保有文書の適合度を算出
    し、該補正検索式と該保有文書の適合度を補正する請求
    項6記載の分散型検索装置における検索実行方法。
  8. 【請求項8】 単語または、単語のブール演算子結合か
    らなる検索式に対して、検索式に合致する文書を検索結
    果として出力する分散型検索装置における検索実行装置
    であって、 単語情報要求及び、保有文書集合情報要求をメタ検索装
    置から取得する要求取得手段と、 前記単語情報要求で指定された単語に関する情報、前記
    保有文書集合情報要求による保有文書集合に関する情報
    を文書データベースから取得する検索手段と、 前記検索手段で得られた情報を前記メタ検索装置に出力
    する結果出力手段とを有すること特徴とする分散検索装
    置における検索実行装置。
  9. 【請求項9】 前記検索手段は、 前記メタ検索装置から前記単語情報要求を取得した際
    に、該単語情報要求により指定された単語が出現する文
    書の数を前記文書データベースから取得し、得られた文
    書数を出力する手段と、 前記メタ検索装置から前記保有文書集合情報要求を取得
    した際に、保有する文書の数を前記文書データベースか
    ら取得し、得られた文書数を出力する手段とを有する請
    求項8記載の分散検索装置における検索実行装置。
  10. 【請求項10】 前記メタ検索装置から、補正検索式を
    取得した際に、前記単語に関する情報及び前記保有文書
    集合に関する情報を用いて、前記補正検索式と保有文書
    の適合度を算出し、該補正検索式と該保有文書の適合度
    を補正する適合度補正手段を有する請求項8記載の分散
    型検索装置における検索実行装置。
  11. 【請求項11】 前記適合度補正手段は、 前記メタ検索装置から、補正検索式を取得した際に、分
    散型全文検索装置の保有する文書集合全体における、前
    記補正検索式に含まれる各単語に対して、それぞれの単
    語が出現する文書の数及び、文書の総数を用いて、該補
    正検索式と前記保有文書の適合度を補正する手段を含む
    請求項10記載の分散型検索装置における検索実行装
    置。
  12. 【請求項12】 単語または、単語のブール演算子結合
    からなる検索式に対して、検索式に合致する文書を検索
    結果として出力する検索実行プログラムであって、 単語情報要求及び、保有文書集合情報要求をメタ検索装
    置から取得する要求取得プロセスと、 前記単語情報要求で指定された単語に関する情報、前記
    保有文書集合情報要求による保有文書集合に関する情報
    を文書データベースから取得する検索プロセスと、 前
    記検索プロセスで得られた情報を前記メタ検索装置に出
    力する結果出力プロセスとを有すること特徴とする検索
    実行プログラム。
  13. 【請求項13】 前記メタ検索装置から、補正検索式を
    取得した際に、前記単語に関する情報及び前記保有文書
    集合に関する情報を用いて、前記補正検索式と保有文書
    の適合度を算出し、該補正検索式と該保有文書の適合度
    を補正する適合度補正プロセスを有する請求項12記載
    の分散型検索装置における検索実行装プログラム。
  14. 【請求項14】 単語または、単語のブール演算子結合
    からなる検索式に対して、検索式に合致する文書を検索
    結果として出力する検索実行プログラムを格納した記憶
    媒体であって、 単語または、単語のブール演算子結合からなる検索式に
    対して、検索式に合致する文書を検索結果として出力す
    る検索実行プログラムであって、 単語情報要求及び、保有文書集合情報要求をメタ検索装
    置から取得する要求取得プロセスと、 前記単語情報要求で指定された単語に関する情報、前記
    保有文書集合情報要求による保有文書集合に関する情報
    を文書データベースから取得する検索プロセスと、 前記検索プロセスで得られた情報を前記メタ検索装置に
    出力する結果出力プロセスとを有すること特徴とする検
    索実行プログラムを格納した記憶媒体。
  15. 【請求項15】 前記メタ検索装置から、補正検索式を
    取得した際に、前記単語に関する情報及び前記保有文書
    集合に関する情報を用いて、前記補正検索式と保有文書
    の適合度を算出し、該補正検索式と該保有文書の適合度
    を補正する適合度補正プロセスを有する請求項14記載
    の分散型検索装置における検索実行装プログラムを格納
    した記憶媒体。
JP2001103782A 2001-04-02 2001-04-02 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体 Pending JP2002297594A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001103782A JP2002297594A (ja) 2001-04-02 2001-04-02 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001103782A JP2002297594A (ja) 2001-04-02 2001-04-02 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体

Publications (1)

Publication Number Publication Date
JP2002297594A true JP2002297594A (ja) 2002-10-11

Family

ID=18956785

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001103782A Pending JP2002297594A (ja) 2001-04-02 2001-04-02 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP2002297594A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331117A (ja) * 2005-05-26 2006-12-07 Ricoh Co Ltd 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
JP2012208775A (ja) * 2011-03-30 2012-10-25 Casio Comput Co Ltd 検索方法、検索装置、ならびに、コンピュータプログラム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006331117A (ja) * 2005-05-26 2006-12-07 Ricoh Co Ltd 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
JP2012208775A (ja) * 2011-03-30 2012-10-25 Casio Comput Co Ltd 検索方法、検索装置、ならびに、コンピュータプログラム

Similar Documents

Publication Publication Date Title
Fu et al. Enabling central keyword-based semantic extension search over encrypted outsourced data
EP1225517B1 (en) System and methods for computer based searching for relevant texts
US9195744B2 (en) Protecting information in search queries
US20160342948A1 (en) Interactively entering data into the database
US7599922B1 (en) System and method for federated searching
WO2008016494A1 (en) Ranking functions using an incrementally-updatable, modified naïve bayesian query classifier
US20090083024A1 (en) Apparatus, method, computer program product, and system for machine translation
KR20160149978A (ko) 검색 엔진 및 그의 구현 방법
JP2009093643A (ja) 適応サービス選択のための装置および方法、クエリシステムおよび方法
JP2006331117A (ja) 文書検索システム、文書検索装置、文書検索方法および文書検索プログラム
JPH11328194A (ja) キーワード検索方法及び装置及びキーワード検索プログラムを格納した記憶媒体
JPH07295994A (ja) 情報検索装置
JP2001134588A (ja) 文書検索装置
JP3567861B2 (ja) 情報源所在推定方法及び装置及び情報源所在推定プログラムを格納した記憶媒体
US11461551B1 (en) Secure word search
JP4154118B2 (ja) 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体
JP3457405B2 (ja) 情報検索装置、情報検索方法及び知識獲得システム
JP2002297594A (ja) 分散型検索装置におけるメタ検索方法及び装置及びメタ検索プログラム及びメタ検索プログラムを格納した記憶媒体及び分散型検索装置における検索実行方法及び装置及び検索実行プログラム及び検索実行プログラムを格納した記憶媒体
CN116644146A (zh) 一种文档搜索方法、装置、系统、电子设备及存储介质
JP2004192374A (ja) 文書検索装置、プログラムおよび記録媒体
JP4671212B2 (ja) 文書検索装置、文書検索方法、プログラムおよび記録媒体
KR101430064B1 (ko) 분류 코드를 제공하기 위한 시스템 및 방법
JP2003248691A (ja) 分散型検索方法、及び、分散型検索装置、及び、分散型検索プログラム、及び、分散型検索プログラムを格納した記憶媒体
JP4494901B2 (ja) リソース検索方法およびリソース検索システム
US20080021875A1 (en) Method and apparatus for performing a tone-based search

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20060808

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20061212