JP2002245039A - 文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体 - Google Patents

文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体

Info

Publication number
JP2002245039A
JP2002245039A JP2001039183A JP2001039183A JP2002245039A JP 2002245039 A JP2002245039 A JP 2002245039A JP 2001039183 A JP2001039183 A JP 2001039183A JP 2001039183 A JP2001039183 A JP 2001039183A JP 2002245039 A JP2002245039 A JP 2002245039A
Authority
JP
Japan
Prior art keywords
search
document
index file
search execution
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001039183A
Other languages
English (en)
Other versions
JP3578092B2 (ja
Inventor
Junji Tomita
準二 富田
Genichiro Kikui
玄一郎 菊井
Masahito Sawada
雅人 澤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001039183A priority Critical patent/JP3578092B2/ja
Publication of JP2002245039A publication Critical patent/JP2002245039A/ja
Application granted granted Critical
Publication of JP3578092B2 publication Critical patent/JP3578092B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 インデクス更新中でも検索が実行でき、ま
た、検索対象の文書量が大きくなった場合でも更新時間
を予め管理者が決めた時間内で終わらせることを可能と
する。 【解決手段】 本発明は、インデクスの更新機能を持っ
た複数の検索実行装置と、これらの検索実行装置に対し
て一度に検索を行ない、検索結果を統合するメタ検索装
置と、どの検索実行装置に対して文書の追加削除を行う
のかと、どの検索実行装置に対して検索式を送信するの
かを管理する検索管理装置を持ち、インデクスファイル
の更新中でも検索の実行を可能とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書検索方法及び
システム及び文書検索プログラム及び文書検索プログラ
ムを格納した記憶媒体に係り、特に、検索対象となる文
書の追加削除を高速に行うことが可能な文書検索方法及
びシステム及び文書検索プログラム及び文書検索プログ
ラムを格納した記憶媒体に関する。
【0002】
【従来の技術】従来の文書(全文)検索装置について説
明する。
【0003】図8は、従来の文書検索装置の構成を示
す。
【0004】従来の文書検索システムは、文書検索装置
10、インデクスファイル20、及び文書データベース
30より構成され、文書検索装置10は、文書検索部1
1とインデクス作成部12からなる。
【0005】インデクス作成部12は、検索を高速に行
うために、インデクスの作成(更新)要求に従い、予め
インデクスファイルを作成(更新)する。以下にインデ
クス新規作成手順とインデクス更新手順を示す。
【0006】図9は、従来の文書検索装置のインデクス
作成部におけるインデクス新規作成のフローチャートで
ある。
【0007】ステップ11) インデクス作成要求を入
力として取得する。
【0008】ステップ12) インデクス作成要求に記
述された内容に基づき検索対象となる文書の集合を文書
データベース30から取得する。この文書集合をDとす
る。 ステップ13) それぞれの文書j∈Dに使用されてい
る単語iを抽出する。 ステップ14) インデクスファイル20を作成し出力
する。ここで、インデクスファイル20は、以下のキー
と値を持つテーブルであり、キーを単語i、値を単語i
の出現する文書IDの集合とする。
【0009】以下の、このテーブルの値の部分(文書I
Dの集合)をポステイング情報と呼ぶ。インデクスファ
イルの例を図10に示す。例えば、図10において、単
語“言語”は、文書IDが“1,3,5”の文書に出現
することを示す。
【0010】ステップ15) インデクスの作成が完了
したら、作成完了通知を出力する。次に、インデクスの
更新手順について説明する。
【0011】図11は、従来の文書検索装置のインデク
ス作成部におけるインデクス更新のフローチャートであ
る。
【0012】ステップ21) インデクス更新(文書の
追加or削除)要求を入力として取得する。
【0013】ステップ22) インデクス更新要求が削
除要求の場合にはステップ23に移行し、追加要求の場
合にはステップ24に移行する。
【0014】ステップ23) 削除要求の場合は、指定
された削除対象文書の文書IDをインデクスファイルの
ポスティング情報から削除する。
【0015】ステップ24) 追加要求の場合は、新規
作成の場合と同様に、文書データベース30から追加対
象の文書集合を取得し、それぞれの文書から単語を抽出
し、インデクスファイル20へ追加する。
【0016】ステップ25) インデクスの更新が完了
したら、更新完了通知を出力する。次に、文書検索部1
1について説明する。
【0017】文書検索部11は、入力として検索式を取
得し、これに合致する検索結果(文書IDの集合)を出
力する。この際にインデクス作成部12が作成したイン
デクスファイル20を利用する。
【0018】具体的な動作を以下に示す。
【0019】図12は、従来の文書検索装置の文書検索
部における検索動作のフローチャートである。
【0020】ステップ31) 単語または、単語のブー
ル演算子結合によって記述される検索式qを入力として
取得する。
【0021】ステップ32) インデクスが更新中(ま
たは、新規作成中)である場合にはステップ33に移行
し、そうでない場合にはステップ34に移行する。
【0022】ステップ33) エラーを出力して処理を
終了する。
【0023】ステップ34) 検索式qに含まれるそれ
ぞれの単語iを用いて、インデクスファイルを参照し、
そのポスティング情報から単語iが出現する文書IDの
集合Sを取得する。
【0024】ステップ35) 検索式qに含まれるブー
ル演算子を処理して、検索式に合致する文書IDの集合
Rを集合Sの中から選定する。
【0025】ステップ36) 検索結果として文書ID
の集合Rを出力する。
【0026】インデクスファイル20を用いた文書検索
装置10では、検索式で指定された単語が出現する文書
IDの集合を瞬時に取得することができる。そのため、
非常に高速に検索を行うことができる。
【0027】例えば、“(言語and処理)or知識”
という検索式が与えられた場合、図10のインデクスフ
ァイル20からそれぞれの単語が出現する文書は、 言語(1 3 5) 処理(3 4 10) 知識(2 5) であると瞬時にわかる。そして、検索式のブール演算子
を処理することによって検索結果は、文書“2、3、
5”となる。このように、インデクスファイル20を用
いると、検索対象のすべての文書を走査する必要がなく
なり高速に検索を行うことができるので、特に検索対象
となる文書量が大きい場合に有効である。
【0028】
【発明が解決しようとする課題】しかしながら、上記従
来のインデクスファイルを用いた文書検索装置には、大
規模な文書を対象とした場合でも検索速度が速いという
特徴を持つ反面、以下の2つの問題がある。
【0029】(a) 検索対象する文書量が大きくなる
につれて、インデクスの更新(文書の追加削除)時間が
大きくなるという問題:文書検索装置において、インデ
クスの更新(文書の追加削除)を行うためには、それぞ
れの単語の対応したインデクスファイルのポスティング
情報を書き替える必要がある。例えば、図10のインデ
クスファイルに図13の文書を追加すると図14の内容
となる。当然、既にインデクスされている文書量が大き
ければ大きいほど、インデクスファイルに登録される異
なり語の個数とポスティング情報の大きさは大きくな
る。そのため、文書の更新時間は、既にインデクスされ
ている文書の量の応じて大きくなってしまう。その結
果、既にインデクスされている文書量が大きい場合に追
加や削除を行ってもインデクスに反映されるまでに時間
がかかるという問題がある。
【0030】(b) 更新作業中に検索を行うことがで
きない問題:文書検索装置の構成から明らかなようにイ
ンデクスの更新作業をしている間は、検索を行うことが
できない。この問題を解決するために、インデクスファ
イルを一旦コピーし、コピー先のインデクスファイルに
対して更新作業を行ない、この間の検索は、コピー元の
インデクスファイルを用いて行う。そして、更新作業が
終わった時点で、新しいインデクスファイルを引くよう
に切り替えるということが行われている。この方法によ
って、更新作業中でも原理的には検索を行うことができ
る。しかしながら、この方法では、更新作業中にインデ
クスファイルの全体のサイズの2倍ものディクス領域が
必要になるため、文書が大規模な場合にディスク容量の
問題がある。
【0031】本発明は、上記の点に鑑みなされたもの
で、インデクス更新中でも検索が実行でき、また、検索
対象の文書量が大きくなった場合でも更新時間を予め管
理者が決めた時間内で終わらせることが可能な文書検索
方法及びシステム及び文書検索プログラム及び文書検索
プログラムを格納した記憶媒体を提供することを目的と
する。
【0032】
【課題を解決するための手段】図1は、本発明の原理を
説明するための図である。
【0033】本発明(請求項1)は、複数の検索実行装
置を有する文書検索装置における文書検索方法におい
て、検索式を入力し(ステップ1)、各検索実行装置の
稼働状況を取得し(ステップ2)、稼働中の各検索実行
装置に検索式を送信し(ステップ3)、各検索実行装置
から検索結果を取得し(ステップ4)、取得した検索結
果を統合して出力する(ステップ5)。
【0034】本発明(請求項2)は、文書の追加・削除
要求に応じて、適切な検索実行装置に該文書の追加・削
除要求を送信する。
【0035】本発明(請求項3)は、検索式を送信する
際に、稼働中の検索実行装置のリストに基づいて、どの
検索実行装置に検索式を送信するかを決定する。
【0036】本発明(請求項4)は、文書検索装置にお
いて、文書の追加要求を取得した場合には、複数の検索
実行装置が有するインデクスファイルの中から最もファ
イルサイズの小さいものを見つけ、ファイルサイズが予
め指定したサイズより小さければ、インデクスファイル
に文書を追加する更新要求を発行し、ファイルサイズが
予め指定したサイズより大きい場合には、新たな空のイ
ンデクスファイルを作成して、該新たな空のインデクス
ファイルに文書を追加する更新要求を発行する。
【0037】本発明(請求項5)は、文書検索装置にお
いて、追加及び削除要求を取得した場合に、検索実行装
置が有する更新対象となるインデクスファイルをコピー
し、コピー先のインデクスファイルに対して更新作業を
行ない、更新中は、コピー元のインデクスファイルを用
いて検索を行ない、コピー先のインデクスファイルの更
新作業が終了した後に、インデクスファイルを該コピー
先のインデクスファイルに切り替え、稼働中の検索実行
装置のリストを更新する。
【0038】図2は、本発明の原理構成図である。
【0039】本発明(請求項6)は、検索機能と文書の
追加・削除機能とを有する複数の検索実行装置200を
有する文書検索システムであって、検索式を入力する検
索式入力手段と、稼働中の各検索実行装置200に検索
式を送信する検索式送信手段と、各検索実行装置200
から検索結果を取得し、取得した検索結果を統合して出
力する統合出力手段とを有するメタ検索装置110と、
どの検索実行装置が現在稼働中かを管理し、文書の追加
・削除要求に応じて、適切な検索実行装置200に、追
加・削除要求を送信する要求送信手段を有する検索管理
装置120とを有する。
【0040】本発明(請求項7)は、検索管理装置12
0において、稼働中の検索実行装置を判定し、稼働中の
検索実行装置のリストを生成する手段を有し、メタ検索
装置110において、検索管理装置120が作成した稼
働中の検索実行装置のリストに基づいて、どの検索実行
装置に検索式を送信するかを決定する手段を有する。
【0041】本発明(請求項8)は、検索管理装置12
0において、文書の追加要求を取得した場合には、複数
の検索実行装置200が有するインデクスファイルの中
から最もファイルサイズの小さいインデクスファイルを
見つける手段と、最もファイルサイズが小さいインデク
スファイルのファイルサイズが予め指定したサイズより
小さければ、インデクスファイルに文書を追加する更新
要求を発行する手段と、インデクスファイルのファイル
サイズが予め指定したサイズより大きい場合には、新た
な空のインデクスファイルを作成して、該新たな空のイ
ンデクスファイルに文書を追加する更新要求を発行する
手段とを有する。
【0042】本発明(請求項9)は、検索管理装置12
0において、追加要求及び削除要求を発行する際に、検
索実行装置200に対して、該検索実行装置200が有
する更新対象となるインデクスファイルのコピーを指示
する手段と、コピー先のインデクスファイルに対して更
新作業を行なわせる手段と、更新中は、コピー元のイン
デクスファイルを用いて検索を行なわせ、コピー先のイ
ンデクスファイルの更新作業が終了した後に、インデク
スファイルを該コピー先のインデクスファイルに切り替
えさせる手段と、稼働中の検索実行装置のリストを更新
する手段とを有する。
【0043】本発明(請求項10)は、検索管理装置1
20において、検索実行装置200から更新完了通知を
取得したら、稼働中の検索実行装置のリストを更新する
手段を有する。
【0044】本発明(請求項11)は、検索機能と文書
の追加・削除機能とを有する複数の検索実行装置を有す
る文書検索システムにおいて、該検索実行装置の検索を
管理する装置に実行させる文書検索プログラムであっ
て、検索式を入力させる検索式入力プロセスと、稼働中
の各検索実行装置に検索式を送信させる検索式送信プロ
セスと、各検索実行装置から検索結果を取得し、取得し
た検索結果を統合して出力する統合出力プロセスとを有
するメタ検索プログラムと、どの検索実行装置が現在稼
働中かを管理し、文書の追加・削除要求に応じて、適切
な検索実行装置に、追加・削除要求を送信させる要求送
信プロセスを有する検索管理プログラムとを有する。
【0045】本発明(請求項12)は、検索管理プログ
ラムにおいて、稼働中の検索実行装置を判定し、稼働中
の検索実行装置のリストを生成するプロセスを有し、メ
タ検索プログラムの検索式送信プロセスは、検索管理プ
ログラムにおいて作成された稼働中の検索実行装置のリ
ストに基づいて、どの検索実行装置に検索式を送信する
かを決定するプロセスを有する。
【0046】本発明(請求項13)は、検索管理プログ
ラムにおいて、文書の追加要求を取得した場合には、複
数の検索実行装置が有するインデクスファイルの中から
最もファイルサイズの小さいインデクスファイルを見つ
けるプロセスと、最もファイルサイズが小さいインデク
スファイルのファイルサイズが予め指定したサイズより
小さければ、インデクスファイルに文書を追加する更新
要求を発行するプロセスと、インデクスファイルのファ
イルサイズが予め指定したサイズより大きい場合には、
新たな空のインデクスファイルを作成して、該新たな空
のインデクスファイルに文書を追加する更新要求を発行
するプロセスとを有する。
【0047】本発明(請求項14)は、検索管理プログ
ラムにおいて、追加要求及び削除要求を発行する際に、
検索実行装置に対して、該検索実行装置が有する更新対
象となるインデクスファイルのコピーを指示するプロセ
スと、コピー先のインデクスファイルに対して更新作業
を行なわせるプロセスと、更新中は、コピー元のインデ
クスファイルを用いて検索を行なわせ、コピー先のイン
デクスファイルの更新作業が終了した後に、インデクス
ファイルを該コピー先のインデクスファイルに切り替え
させるプロセスと、稼働中の検索実行装置のリストを更
新するプロセスとを有する。
【0048】本発明(請求項15)は、検索管理プログ
ラムにおいて、検索実行装置から更新完了通知を取得し
たら、稼働中の検索実行装置のリストを更新するプロセ
スを有する。
【0049】本発明(請求項16)は、検索機能と文書
の追加・削除機能とを有する複数の検索実行装置を有す
る文書検索システムにおいて、該検索実行装置の検索を
管理する装置に実行させる文書検索プログラムを格納し
た記憶媒体であって、検索式を入力させる検索式入力プ
ロセスと、稼働中の各検索実行装置に検索式を送信させ
る検索式送信プロセスと、各検索実行装置から検索結果
を取得し、取得した検索結果を統合して出力する統合出
力プロセスとを有するメタ検索プログラムと、どの検索
実行装置が現在稼働中かを管理し、文書の追加・削除要
求に応じて、適切な検索実行装置に、追加・削除要求を
送信させる要求送信プロセスを有する検索管理プログラ
ムとを有する。
【0050】本発明(請求項17)は、検索管理プログ
ラムにおいて、稼働中の検索実行装置を判定し、稼働中
の検索実行装置のリストを生成するプロセスを有し、メ
タ検索プログラムの検索式送信プロセスは、稼働中の検
索実行装置のリストに基づいて、どの検索実行装置に検
索式を送信するかを決定するプロセスを有する。
【0051】本発明(請求項18)は、検索管理プログ
ラムにおいて、文書の追加要求を取得した場合には、複
数の検索実行装置が有するインデクスファイルの中から
最もファイルサイズの小さいインデクスファイルを見つ
けるプロセスと、最もファイルサイズが小さいインデク
スファイルのファイルサイズが予め指定したサイズより
小さければ、インデクスファイルに文書を追加する更新
要求を発行するプロセスと、インデクスファイルのファ
イルサイズが予め指定したサイズより大きい場合には、
新たな空のインデクスファイルを作成して、該新たな空
のインデクスファイルに文書を追加する更新要求を発行
するプロセスとを有する。
【0052】本発明(請求項19)は、検索管理プログ
ラムにおいて、追加要求及び削除要求を発行する際に、
検索実行装置に対して、該検索実行装置が有する更新対
象となるインデクスファイルのコピーを指示するプロセ
スと、コピー先のインデクスファイルに対して更新作業
を行なわせるプロセスと、更新中は、コピー元のインデ
クスファイルを用いて検索を行なわせ、コピー先のイン
デクスファイルの更新作業が終了した後に、インデクス
ファイルを該コピー先のインデクスファイルに切り替え
させるプロセスと、稼働中の検索実行装置のリストを更
新するプロセスとを有する。
【0053】本発明(請求項20)は、検索管理プログ
ラムにおいて、検索実行装置から更新完了通知を取得し
たら、稼働中の検索実行装置のリストを更新するプロセ
スを有する。
【0054】上記のように、本発明によれば、インデク
スの更新機能を持った複数の実行装置と、これらの検索
実行装置に対して一度に検索を行ない、検索結果を統合
するメタ検索装置と、どの検索実行装置に対して文書の
追加削除を行うのかと、どの検索実行装置に対して検索
式を送信するのかを管理する検索管理装置を持ち、イン
デクスファイルの更新中でも検索の実行を可能とし、ま
た、検索対象の文書量が大きくなった場合でも更新時間
を予め管理者が決めた時間内で終わらせることが可能と
なる。
【0055】
【発明の実施の形態】図3は、本発明の文書検索装置の
構成を示す。
【0056】同図に示す文書検索装置は、メタ検索装置
110、検索管理装置120、複数の検索実行装置20
0から構成される。
【0057】これらの装置は、ネットワークで接続さ
れ、相互に通信を行う。
【0058】検索実行装置200は、図4に示すよう
に、従来の文書検索装置と同等の機能を持つものであ
り、インデクス作成部210と文書検索部220からな
る。インデクス作成部210は、インデクスファイル3
00の作成と更新を行う。文書検索部220は、検索式
を受け取るとインデクスファイル300を引き、それに
応じた検索結果を返す。ここで検索実行装置200単体
では、従来の文書検索装置と同様に、インデクスファイ
ルの更新中に検索を行うことはできない。
【0059】メタ検索装置110は、検索式を入力とし
て取得すると、まず、検索管理装置120から取得した
稼働中の検索実行装置200のリストを用いて、どの検
索実行装置200に検索式を送るかを決定する。そし
て、それらの検索実行装置200にその検索式を送り、
それぞれの検索実行装置200から検索結果として取得
した文書IDのリストを纏めることによって全体の検索
結果を作成し、出力する。ここで、検索結果のまとめ方
は特に限定しない。例えば、各検索装置からの検索結果
を単純に結合して出力する、または、各検索装置からの
検索結果が、例えば、検索式との一致度(得点)を持つ
場合、各検索装置からの検索結果を得点準にソートして
出力する等が考えられる。
【0060】検索管理装置120は、インデクスファイ
ル300の更新処理全体を管理する。まず、更新要求
(文の追加・削除要求)を入力として取得する。文書の
追加要求の場合、文書データベース140から追加対象
となる文書を取得し、適切な検索実行装置200に対し
て追加要求を送る。削除要求の場合には、適切な検索実
行装置200に対して削除要求を送る。更新完了通知を
検索実行装置200から取得すると稼働中の検索実行装
置200のリストを変更し、これをメタ検索装置110
に送る。
【0061】
【実施例】以下、図面と共の本発明の実施例を説明す
る。
【0062】実際に文書検索及びインデクスの更新(文
の追加と削除)がどのように行われるかを以下に示す。
【0063】最初に、メタ検索装置110における文書
検索について説明する。
【0064】図5は、本発明の一実施例の文書検索の動
作のシーケンスチャートである。
【0065】メタ検索装置110は、単語、または、単
語のブール演算結合からなる検索式を入力として取得す
る(ステップ101)。
【0066】検索管理装置120から稼働中の検索実行
装置200のリストを取得して(ステップ102)調
べ、稼働中の検索実行装置に対して検索式を送信する
(ステップ103)。
【0067】それぞれの検索実行装置200から結果を
受信し(ステップ104)、取得した結果をまとめるこ
とによって全体の検索結果を作成する(ステップ10
5)。ステップ105で作成した検索結果を出力する
(ステップ106)。
【0068】次に、文書の追加要求が発行された場合に
おける、検索管理装置120の追加処理について説明す
る。
【0069】図6は、本発明の一実施例の文書追加処理
のフローチャートである。
【0070】ステップ201) 検索管理装置120
が、文書の追加要求を入力として取得する。
【0071】ステップ202) 検索管理装置120
は、現在稼働中の検索実行装置200の中で、最小サイ
ズのインデクスファイルを持つ検索実行装置を抽出す
る。このインデクスファイルのIDをkとする。また、
以下、kを持つ検索実行装置200をs(k)で表す。
【0072】ステップ203) もし、「kのサイズ<
インデクスファイルの最大サイズm」ならば、インデク
スの更新処理のステップ204に移行し、そうでなけれ
ば、インデクス新規作成処理のステップ209に移行す
る。ここで、インデクスファイルの最大サイズmは予め
システム管理者が決めておくものとする。
【0073】ステップ204) kをコピーしたインデ
クスファイルk’を作成する。
【0074】ステップ205) 検索管理装置120
は、検索実行装置s(k’)を起動し、s(k’)のイ
ンデクス作成部210に文書追加処理を依頼する。
【0075】ステップ206) 検索管理装置120
は、検索実行装置s(k’)から更新完了通知を受けた
ら稼働中の検索実行装置リストを更新する。具体的には
s(k)をリストから削除し、s(k’) を検索実行
装置リストに加える。
【0076】ステップ207) 検索管理装置120
は、検索実行装置リストをメタ検索装置110に送る。
【0077】ステップ208) 検索管理装置120
は、検索実行装置s(k)に対するすべての検索処理が
終了したのを確認し、s(k)を停止させる。
【0078】ステップ209) 空のインデクスファイ
ルxを作成する。
【0079】ステップ210) 検索管理装置120
は、新しい検索実行装置s(x)を起動する。
【0080】ステップ211) 検索管理装置120
は、検索実行装置s(x)のインデクス作成部210に
文書追加処理を依頼する。
【0081】ステップ212) 検索管理装置120
は、検索実行装置s(x)から更新完了通知を取得した
ら検索実行装置リストに当該検索実行装置s(x)を追
加する。
【0082】ステップ213) 検索管理装置120
は、検索実行装置リストをメタ検索装置110に送る。
【0083】次に、インデクスの更新として文書の削除
の例を説明する。
【0084】図7は、本発明の一実施例の文書削除処理
のシーケンスチャートである。
【0085】ステップ301) 検索管理装置120
は、文書の削除要求を入力として受け取る。
【0086】ステップ302) 削除要求で指定された
文書IDからどの検索実行装置s(k)に対する削除要
求なのかを判定する。
【0087】ステップ303) 当該検索実行装置s
(k)を介してインデクスファイルをコピーしてk’を
作成する。
【0088】ステップ304) 検索管理装置120
は、検索実行装置s(k’)を起動し、s(k’)のイ
ンデクス作成部220に文書削除処理を依頼する。
【0089】ステップ305) 検索管理装置120
は、s(k’)から更新完了通知を取得したら、検索実
行装置リストを更新する。具体的には、s(k)をリス
トから削除し、s(k’)をリストに加える。
【0090】ステップ306) 検索管理装置120
は、検索実行装置s(k)に対する検索処理がすべて終
了したのを確認し、検索実行装置s(k)を停止させ
る。
【0091】上記により、前述の問題点が解決される
が、以下にその理由を説明する。
【0092】(a) 検索対象とする文書量が大きくな
るにつれて、インデクスの更新(文書の追加・削除)時
間が大きくなるという問題:本発明を用いた場合、文書
量がどんなに大きくなったとしてもそれぞれのインデク
スファイルのサイズは最大でもmに保たれる。ここで、
mは、インデクスファイルの最大サイズであり、システ
ム管理者が自由に指定できる。また、mを越えるような
追加が行われる場合には、自動的に新しいインデクスフ
ァイルが作成される。従って、インデクスの更新時間
は、文書量によらずmによって決まるので、文書量が大
きくなった場合でもシステム管理者が任意の時間に設定
することができる。
【0093】(b) 更新作業中に検索を行うことがで
きない問題:本発明を用いた更新作業では、更新対象の
インデクスファイルを一旦コピーし、コピー先のインデ
クスファイルに対して更新が行われる。そして、更新作
業中は、コピー元のインデクスファイルを用いて検索が
行われる。そのため、更新作業中でも中断することなく
検索を行うことができる。また、コピーされるインデク
スファイルのサイズは最大でもシステム管理者の定めた
mであるので、既にインデクスされている文書量によら
ない。そのため、文書量が大きくなった場合でもディス
クスペースの問題は起きない。
【0094】また、上記の実施例では、図3の構成に基
づいて説明したが、メタ検索装置110、検索管理装置
120をプログラムとして構築し、検索装置として利用
されるコンピュータのCPUにインストールする、また
は、通信網を介して流通させることも可能である。
【0095】また、構築されたプログラムをコンピュー
タに接続されるディスク装置や、フロッピー(登録商
標)ディスクやCD−ROM等の可搬記憶媒体に格納し
ておき、本発明を実施する際にインストールすることに
より容易に本発明を実現できる。
【0096】なお、本発明は、上記の実施例に限定され
ることなく、特許請求の範囲内において種々変更・応用
が可能である。
【0097】
【発明の効果】上述のように、本発明によれば、検索対
象の文書が大規模になった場合でも、非常に短い時間
で、かつ、検索を中断することなくインデクスの更新
(文書の追加削除)作業を行うことができるので、大規
模な文書検索システムの利便性を向上させることができ
る。
【図面の簡単な説明】
【図1】本発明の原理を説明するための図である。
【図2】本発明の原理構成図である。
【図3】本発明の文書検索装置の構成図である。
【図4】本発明の検索実行装置の構成図である。
【図5】本発明の一実施例の文書検索の動作のフローチ
ャートである。
【図6】本発明の一実施例の文書追加処理のフローチャ
ートである。
【図7】本発明の一実施例の文書削除処理のシーケンス
チャートである。
【図8】従来の文書検索装置の構成図である。
【図9】従来の文書検索装置のインデクス作成部におけ
るインデクス新規作成のフローチャートである。
【図10】従来のインデクスファイルの例である。
【図11】従来の文書検索装置のインデクス作成部にお
けるインデクス更新のフローチャートである。
【図12】従来の文書検索装置の文書検索部の動作のフ
ローチャートである。
【図13】従来の例における追加ドキュメントの例であ
る。
【図14】従来の例におけるドキュメント追加後のイン
デクスファイルの例である。
【符号の説明】
110 メタ検索装置 120 検索管理装置 200 検索実行装置 210 インデクス作成部 220 文書検索部 300 インデクスファイル 400 文書データベース
───────────────────────────────────────────────────── フロントページの続き (72)発明者 澤田 雅人 東京都千代田区大手町二丁目3番1号 日 本電信電話株式会社内 Fターム(参考) 5B075 KK03 KK33 KK37 ND02 ND34 NR12 PR10 UU06

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 複数の検索実行装置を有する文書検索装
    置における文書検索方法において、 検索式を入力し、 前記各検索実行装置の稼働状況を取得し、 前記稼働中の各検索実行装置に検索式を送信し、 前記各検索実行装置から検索結果を取得し、 取得した検索結果を統合して出力することを特徴とする
    文書検索方法。
  2. 【請求項2】 文書の追加・削除要求に応じて、適切な
    検索実行装置に該文書の追加・削除要求を送信する請求
    項1記載の文書検索方法。
  3. 【請求項3】 前記検索式を送信する際に、 稼働中の検索実行装置のリストに基づいて、どの検索実
    行装置に前記検索式を送信するかを決定する請求項1記
    載の文書検索方法。
  4. 【請求項4】 前記文書検索装置において、文書の追加
    要求を取得した場合には、 前記複数の検索実行装置が有するインデクスファイルの
    中から最もファイルサイズの小さいものを見つけ、 前記ファイルサイズが予め指定したサイズより小さけれ
    ば、前記インデクスファイルに文書を追加する更新要求
    を発行し、 前記ファイルサイズが予め指定したサイズより大きい場
    合には、新たな空のインデクスファイルを作成して、該
    新たな空のインデクスファイルに文書を追加する更新要
    求を発行する請求項2記載の文書検索方法。
  5. 【請求項5】 前記文書検索装置において、追加及び削
    除要求を取得した場合に、 前記検索実行装置が有する更新対象となるインデクスフ
    ァイルをコピーし、 コピー先のインデクスファイルに対して更新作業を行な
    い、 更新中は、コピー元のインデクスファイルを用いて検索
    を行ない、 前記コピー先のインデクスファイルの更新作業が終了し
    た後に、インデクスファイルを該コピー先のインデクス
    ファイルに切り替え、稼働中の検索実行装置のリストを
    更新する請求項2記載の文書検索方法。
  6. 【請求項6】 検索機能と文書の追加・削除機能とを有
    する複数の検索実行装置を有する文書検索システムであ
    って、 検索式を入力する検索式入力手段と、 稼働中の各検索実行装置に前記検索式を送信する検索式
    送信手段と、 前記各検索実行装置から検索結果を取得し、取得した検
    索結果を統合して出力する統合出力手段とを有するメタ
    検索装置と、 どの検索実行装置が現在稼働中かを管理し、文書の追加
    ・削除要求に応じて、適切な検索実行装置に、追加・削
    除要求を送信する要求送信手段を有する検索管理装置と
    を有することを特徴とする文書検索システム。
  7. 【請求項7】 前記検索管理装置は、 稼働中の検索実行装置を判定し、稼働中の検索実行装置
    のリストを生成する手段を有し、 前記メタ検索装置は、 前記検索管理装置が作成した前記稼働中の検索実行装置
    のリストに基づいて、どの検索実行装置に前記検索式を
    送信するかを決定する手段を有する請求項6記載の文書
    検索システム。
  8. 【請求項8】 前記検索管理装置は、 文書の追加要求を取得した場合には、前記複数の検索実
    行装置が有するインデクスファイルの中から最もファイ
    ルサイズの小さいインデクスファイルを見つける手段
    と、 前記最もファイルサイズが小さいインデクスファイルの
    ファイルサイズが予め指定したサイズより小さければ、
    前記インデクスファイルに文書を追加する更新要求を発
    行する手段と、 前記インデクスファイルのファイルサイズが予め指定し
    たサイズより大きい場合には、新たな空のインデクスフ
    ァイルを作成して、該新たな空のインデクスファイルに
    文書を追加する更新要求を発行する手段とを有する請求
    項6記載の文書検索システム。
  9. 【請求項9】 前記検索管理装置は、 追加要求及び削除要求を発行する際に、前記検索実行装
    置に対して、該検索実行装置が有する更新対象となるイ
    ンデクスファイルのコピーを指示する手段と、 コピー先のインデクスファイルに対して更新作業を行な
    わせる手段と、 更新中は、コピー元のインデクスファイルを用いて検索
    を行なわせ、前記コピー先のインデクスファイルの更新
    作業が終了した後に、インデクスファイルを該コピー先
    のインデクスファイルに切り替えさせる手段と、 前記稼働中の検索実行装置のリストを更新する手段とを
    有する請求項6記載の文書検索システム。
  10. 【請求項10】 前記検索管理装置は、 前記検索実行装置から更新完了通知を取得したら、前記
    稼働中の検索実行装置のリストを更新する手段を有する
    請求項8または、9記載の文書検索システム。
  11. 【請求項11】 検索機能と文書の追加・削除機能とを
    有する複数の検索実行装置を有する文書検索システムに
    おいて、該検索実行装置の検索を管理する装置に実行さ
    せる文書検索プログラムであって、 検索式を入力させる検索式入力プロセスと、 稼働中の各検索実行装置に前記検索式を送信させる検索
    式送信プロセスと、 前記各検索実行装置から検索結果を取得し、取得した検
    索結果を統合して出力する統合出力プロセスとを有する
    メタ検索プログラムと、 どの検索実行装置が現在稼働中かを管理し、文書の追加
    ・削除要求に応じて、適切な検索実行装置に、追加・削
    除要求を送信させる要求送信プロセスを有する検索管理
    プログラムとを有することを特徴とする文書検索プログ
    ラム。
  12. 【請求項12】 前記検索管理プログラムは、 稼働中の検索実行装置を判定し、稼働中の検索実行装置
    のリストを生成するプロセスを有し、 前記メタ検索プログラムの検索式送信プロセスは、 前記検索管理プログラムで作成された前記稼働中の検索
    実行装置のリストに基づいて、どの検索実行装置に前記
    検索式を送信するかを決定するプロセスを有する請求項
    11記載の文書検索プログラム。
  13. 【請求項13】 前記検索管理プログラムは、 文書の追加要求を取得した場合には、前記複数の検索実
    行装置が有するインデクスファイルの中から最もファイ
    ルサイズの小さいインデクスファイルを見つけるプロセ
    スと、 前記最もファイルサイズが小さいインデクスファイルの
    ファイルサイズが予め指定したサイズより小さければ、
    前記インデクスファイルに文書を追加する更新要求を発
    行するプロセスと、 前記インデクスファイルのファイルサイズが予め指定し
    たサイズより大きい場合には、新たな空のインデクスフ
    ァイルを作成して、該新たな空のインデクスファイルに
    文書を追加する更新要求を発行するプロセスとを有する
    請求項11記載の文書検索プログラム。
  14. 【請求項14】 前記検索管理プログラムは、 追加要求及び削除要求を発行する際に、前記検索実行装
    置に対して、該検索実行装置が有する更新対象となるイ
    ンデクスファイルのコピーを指示するプロセスと、 コピー先のインデクスファイルに対して更新作業を行な
    わせるプロセスと、 更新中は、コピー元のインデクスファイルを用いて検索
    を行なわせ、前記コピー先のインデクスファイルの更新
    作業が終了した後に、インデクスファイルを該コピー先
    のインデクスファイルに切り替えさせるプロセスと、 前記稼働中の検索実行装置のリストを更新するプロセス
    とを有する請求項11記載の文書検索プログラム。
  15. 【請求項15】 前記検索管理プログラムは、 前記検索実行装置から更新完了通知を取得したら、前記
    稼働中の検索実行装置のリストを更新するプロセスを有
    する請求項13または、14記載の文書検索プログラ
    ム。
  16. 【請求項16】 検索機能と文書の追加・削除機能とを
    有する複数の検索実行装置を有する文書検索システムに
    おいて、該検索実行装置の検索を管理する装置に実行さ
    せる文書検索プログラムを格納した記憶媒体であって、 検索式を入力させる検索式入力プロセスと、 稼働中の各検索実行装置に前記検索式を送信させる検索
    式送信プロセスと、 前記各検索実行装置から検索結果を取得し、取得した検
    索結果を統合して出力する統合出力プロセスとを有する
    メタ検索プログラムと、 どの検索実行装置が現在稼働中かを管理し、文書の追加
    ・削除要求に応じて、適切な検索実行装置に、追加・削
    除要求を送信させる要求送信プロセスを有する検索管理
    プログラムとを有することを特徴とする文書検索プログ
    ラムを格納した記憶媒体。
  17. 【請求項17】 前記検索管理プログラムは、 稼働中の検索実行装置を判定し、稼働中の検索実行装置
    のリストを生成するプロセスを有し、 前記メタ検索プログラムの検索式送信プロセスは、 前記稼働中の検索実行装置のリストに基づいて、どの検
    索実行装置に前記検索式を送信するかを決定するプロセ
    スを有する請求項16記載の文書検索プログラムを格納
    した記憶媒体。
  18. 【請求項18】 前記検索管理プログラムは、 文書の追加要求を取得した場合には、前記複数の検索実
    行装置が有するインデクスファイルの中から最もファイ
    ルサイズの小さいインデクスファイルを見つけるプロセ
    スと、 前記最もファイルサイズが小さいインデクスファイルの
    ファイルサイズが予め指定したサイズより小さければ、
    前記インデクスファイルに文書を追加する更新要求を発
    行するプロセスと、 前記インデクスファイルのファイルサイズが予め指定し
    たサイズより大きい場合には、新たな空のインデクスフ
    ァイルを作成して、該新たな空のインデクスファイルに
    文書を追加する更新要求を発行するプロセスとを有する
    請求項16記載の文書検索プログラムを格納した記憶媒
    体。
  19. 【請求項19】 前記検索管理プログラムは、 追加要求及び削除要求を発行する際に、前記検索実行装
    置に対して、該検索実行装置が有する更新対象となるイ
    ンデクスファイルのコピーを指示するプロセスと、 コピー先のインデクスファイルに対して更新作業を行な
    わせるプロセスと、 更新中は、コピー元のインデクスファイルを用いて検索
    を行なわせ、前記コピー先のインデクスファイルの更新
    作業が終了した後に、インデクスファイルを該コピー先
    のインデクスファイルに切り替えさせるプロセスと、 前記稼働中の検索実行装置のリストを更新するプロセス
    とを有する請求項16記載の文書検索プログラムを格納
    した記憶媒体。
  20. 【請求項20】 前記検索管理プログラムは、 前記検索実行装置から更新完了通知を取得したら、前記
    稼働中の検索実行装置のリストを更新するプロセスを有
    する請求項18または、19記載の文書検索プログラム
    を格納した記憶媒体。
JP2001039183A 2001-02-15 2001-02-15 文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体 Expired - Lifetime JP3578092B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001039183A JP3578092B2 (ja) 2001-02-15 2001-02-15 文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001039183A JP3578092B2 (ja) 2001-02-15 2001-02-15 文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体

Publications (2)

Publication Number Publication Date
JP2002245039A true JP2002245039A (ja) 2002-08-30
JP3578092B2 JP3578092B2 (ja) 2004-10-20

Family

ID=18902034

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001039183A Expired - Lifetime JP3578092B2 (ja) 2001-02-15 2001-02-15 文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体

Country Status (1)

Country Link
JP (1) JP3578092B2 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299021A (ja) * 2006-04-27 2007-11-15 Hitachi Ltd インデクス更新方法及びそのシステム
JP2008102765A (ja) * 2006-10-19 2008-05-01 Fujitsu Ltd 検索処理方法及び検索システム
EP2184690A1 (en) 2008-10-23 2010-05-12 Hitachi Software Engineering Co., Ltd. Federated search system based on multiple search engines
JP2012073944A (ja) * 2010-09-29 2012-04-12 Brother Ind Ltd ノード装置、情報通信システム、情報処理方法及び情報処理プログラム
JP2012526320A (ja) * 2009-05-08 2012-10-25 アリババ・グループ・ホールディング・リミテッド 検索エンジンインデクシング及びインデックスを使用する検索のための方法とシステム
JP2014119846A (ja) * 2012-12-14 2014-06-30 Exa Corp データ管理装置及びデータ管理プログラム
JP2014182446A (ja) * 2013-03-18 2014-09-29 Mitsubishi Electric Information Systems Corp データ検索システム及びデータ検索プログラム

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007299021A (ja) * 2006-04-27 2007-11-15 Hitachi Ltd インデクス更新方法及びそのシステム
JP2008102765A (ja) * 2006-10-19 2008-05-01 Fujitsu Ltd 検索処理方法及び検索システム
EP2184690A1 (en) 2008-10-23 2010-05-12 Hitachi Software Engineering Co., Ltd. Federated search system based on multiple search engines
JP2012526320A (ja) * 2009-05-08 2012-10-25 アリババ・グループ・ホールディング・リミテッド 検索エンジンインデクシング及びインデックスを使用する検索のための方法とシステム
US8977623B2 (en) 2009-05-08 2015-03-10 Alibaba Group Holding Limited Method and system for search engine indexing and searching using the index
JP2012073944A (ja) * 2010-09-29 2012-04-12 Brother Ind Ltd ノード装置、情報通信システム、情報処理方法及び情報処理プログラム
JP2014119846A (ja) * 2012-12-14 2014-06-30 Exa Corp データ管理装置及びデータ管理プログラム
JP2014182446A (ja) * 2013-03-18 2014-09-29 Mitsubishi Electric Information Systems Corp データ検索システム及びデータ検索プログラム

Also Published As

Publication number Publication date
JP3578092B2 (ja) 2004-10-20

Similar Documents

Publication Publication Date Title
JP5437557B2 (ja) 検索処理方法及び検索システム
JP5509596B2 (ja) データ管理装置
WO2022148055A1 (zh) 一种文件检索方法及计算设备
US7281014B2 (en) Method and apparatus for moving data between storage devices
CN106407376B (zh) 重建索引方法及装置
JP3578092B2 (ja) 文書検索方法及びシステム及び文書検索プログラム及び文書検索プログラムを格納した記憶媒体
JPH11272683A (ja) 検察処理装置および記憶媒体
JP7103763B2 (ja) 情報処理システムおよび情報処理方法
JP4154118B2 (ja) 関連語選出装置、その方法および記録媒体、並びに文書検索装置、その方法および記録媒体
JPH1063680A (ja) 情報検索システム
JP2002259387A (ja) 文書検索システム
JP2009093581A (ja) 類義語検索管理システム
JP7068210B2 (ja) データベース管理システム、端末装置及び方法
US11057470B2 (en) Communication device and communication method for processing meta data
JPH117445A (ja) 統合化文書管理装置
JP4494901B2 (ja) リソース検索方法およびリソース検索システム
JP3601869B2 (ja) 機械翻訳システム
US12032531B1 (en) Filesystem pathnames indexing using path change annex
US20240126750A1 (en) Accelerating query execution by optimizing data transfer between storage nodes and database nodes
JP4550876B2 (ja) 構造化文書検索システム及びプログラム
JP2008021031A (ja) 検索サーバ装置及びその制御方法、情報処理装置及びその制御方法、情報処理システム、情報検索装置及びその制御方法、プログラム、記憶媒体
JP3982969B2 (ja) 文書管理装置
JP6367441B2 (ja) データベース装置
JPH11327987A (ja) データベース管理装置、および、そのプログラムが記録された記録媒体
JP2008003990A (ja) サービス連携方法及びその装置、プログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040323

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040517

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040622

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040705

R150 Certificate of patent or registration of utility model

Ref document number: 3578092

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080723

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20090723

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100723

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110723

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120723

Year of fee payment: 8

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130723

Year of fee payment: 9

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

EXPY Cancellation because of completion of term