JPH1063686A - ドキュメントデータ検索システム - Google Patents

ドキュメントデータ検索システム

Info

Publication number
JPH1063686A
JPH1063686A JP8238376A JP23837696A JPH1063686A JP H1063686 A JPH1063686 A JP H1063686A JP 8238376 A JP8238376 A JP 8238376A JP 23837696 A JP23837696 A JP 23837696A JP H1063686 A JPH1063686 A JP H1063686A
Authority
JP
Japan
Prior art keywords
document
server
information
function
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP8238376A
Other languages
English (en)
Inventor
Daiki Kurihara
大樹 栗原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dainippon Screen Manufacturing Co Ltd
Original Assignee
Dainippon Screen Manufacturing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dainippon Screen Manufacturing Co Ltd filed Critical Dainippon Screen Manufacturing Co Ltd
Priority to JP8238376A priority Critical patent/JPH1063686A/ja
Publication of JPH1063686A publication Critical patent/JPH1063686A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】 処理能力が比較的低いドキュメントサーバに
格納されているドキュメントに関するドキュメント索引
情報を、より効率的に更新することのできる技術を提供
する。 【解決手段】 ドキュメントデータ検索システムは、代
行機能付きドキュメントサーバと、省機能ドキュメント
サーバと、検索サーバと、を備える。検索サーバは、各
ドキュメントサーバに格納されているドキュメントに関
するドキュメント索引情報を記憶している。省機能ドキ
ュメントサーバは、ドキュメントデータが更新されたこ
とを検知すると、代行機能付きドキュメントサーバに対
して、ドキュメント索引情報を更新するための更新情報
の少なくとも一部を作成する処理の代行を委譲する。そ
して、代行機能付きドキュメントサーバで作成された情
報を含む更新情報を、検索サーバに転送する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、多数のドキュメン
トデータを1つ以上のドキュメントサーバに分散して格
納している場合に、各ドキュメントサーバに通信回線を
介して接続される検索サーバによって、所望のドキュメ
ントデータの格納場所をドキュメント索引情報に基づい
て検索するドキュメントデータ検索システムに関するも
のである。
【0002】
【従来の技術】ドキュメントデータを効率よく検索する
ためには、すべてのドキュメントデータを1つのドキュ
メントサーバに格納し、集中的に管理することが好まし
い。しかし、ドキュメントデータを扱うシステムの規模
が大きくなると、大量のドキュメントデータを扱わなけ
ればならなくなるため、1つのドキュメントサーバだけ
では管理しきれず、それゆえ、大量のドキュメントデー
タを複数のドキュメントサーバに分散して格納する必要
がある。
【0003】このような大規模なシステムに格納されて
いるドキュメントデータを検索しようとするユーザ(検
索者)は、そのドキュメントデータが、どのドキュメン
トサーバに格納されているかを知らない場合が普通であ
る。この場合には、検索者は、クライアントワークステ
ーションを使って、書誌情報やキーワードなどを入力
し、ドキュメントサーバ毎に、目的のドキュメントデー
タが格納されているか否かを検索しなければならない。
これは検索者にとって大変負担が大きい。
【0004】この問題を解決するために、ドキュメント
索引情報を格納した検索サーバを用いた検索システムが
提案されている。ドキュメント索引情報は、ネットワー
クを介して接続された複数のドキュメントサーバ上に分
散して格納されている各ドキュメントに関する各種の情
報を収集したデータベースである。検索者は、このドキ
ュメント索引情報データベースを利用して、所望のドキ
ュメントを高速に検索することができる。
【0005】
【発明が解決しようとする課題】検索サーバに格納され
ているドキュメント索引情報は、各ドキュメントサーバ
に格納されたドキュメントのいずれかが更新された時
に、その更新の内容を反映するように更新する必要があ
る。各ドキュメントサーバは、ドキュメント索引情報を
更新するために、更新のあったドキュメントについてド
キュメント索引情報を更新する更新情報を作成し、検索
サーバにその更新情報を転送する。ドキュメントサーバ
が更新情報を作成する際には、更新のあったドキュメン
トのキーワードを抽出する処理や、書誌情報を生成する
処理等が行なわれる。キーワード抽出処理は、ドキュメ
ント中のテキストをディスク上の辞書と照合し、名詞を
抽出するという形態素解析処理である。この形態素解析
処理は、大量のディスクアクセスや大きなCPUパワー
を必要とする処理である。仮に、処理能力のあまり高く
ないドキュメントサーバにおいてドキュメント索引情報
を作成すると、その処理にかなりの時間を要し、ドキュ
メントサーバとしての本来の機能を著しく低下させてし
まうという問題があった。
【0006】従って、本発明の目的は、上記した従来技
術の問題点を解決し、処理能力が比較的低いドキュメン
トサーバに格納されているドキュメントに関するドキュ
メント索引情報を、より効率的に更新することのできる
技術を提供することにある。
【0007】
【課題を解決するための手段およびその作用・効果】上
記した目的の少なくとも一部を達成するために、第1の
発明は、ドキュメントデータ検索システムであって、ド
キュメントデータの要求を発行するクライアントと、複
数のドキュメントデータを格納し、前記クライアントか
らの要求に応じて所望のドキュメントデータを提供する
代行機能付きドキュメントサーバと、複数のドキュメン
トデータを格納し、前記クライアントからの要求に応じ
て所望のドキュメントデータを提供する省機能ドキュメ
ントサーバと、前記代行機能付きドキュメントサーバと
前記省機能付きドキュメントサーバに格納されている各
ドキュメントデータに関するドキュメント索引情報を格
納し、前記クライアントからの要求に応じて、前記ドキ
ュメント索引情報を参照して所望のドキュメントデータ
の格納場所を検索するとともに、検索結果を前記クライ
アントに提供する検索サーバと、前記クライアントと、
前記代行機能付きドキュメントサーバと、前記省機能ド
キュメントサーバと、前記検索サーバとを相互に接続す
る通信回線と、を備え、前記省機能ドキュメントサーバ
は、前記省機能ドキュメントサーバが格納する複数のド
キュメントデータのいずれかが更新されたことを検知す
る更新検知手段と、前記更新検知手段による検知に応じ
て、前記代行機能付きドキュメントサーバに対し、更新
されたドキュメントデータに関するドキュメント索引情
報を更新するために使用される更新情報の少なくとも一
部を作成する処理の代行を委譲する処理委譲手段と、前
記更新されたドキュメントデータに関する前記更新情報
を、前記検索サーバに転送する第1の転送手段と、を備
え、前記代行機能付きドキュメントサーバは、前記省機
能ドキュメントサーバから委譲された前記更新情報の作
成処理を実行する更新情報作成手段と、前記更新情報作
成手段によって作成された前記更新情報を前記省機能ド
キュメントサーバに転送する第2の転送手段と、を備
え、前記検索サーバは、前記第1の転送手段から転送さ
れた前記更新情報に基づいて、前記ドキュメント索引情
報を更新する更新手段を備える、ことを特徴とする。
【0008】省機能ドキュメントサーバは、高い処理能
力を必要とする更新情報の生成処理を自ら行わず、代行
機能付きドキュメントサーバにその処理を委譲するの
で、処理能力が高くなくてもよい。従って、処理能力が
比較的低い省機能ドキュメントサーバでも、本来のドキ
ュメントサーバとしての動作にあまり支障を来すことな
く、ドキュメント索引情報を更新するための更新情報を
効率よく作成できるという効果がある。
【0009】上記第1の発明において、前記ドキュメン
トデータ検索システムは、複数の前記代行機能付きドキ
ュメントサーバを備え、前記省機能ドキュメントサーバ
は、さらに、前記複数の代行機能付きドキュメントサー
バに対して、前記処理の代行の受け入れの可能性を表す
受け入れ可能情報を要求する受け入れ可能情報要求手段
と、前記複数の代行機能付きドキュメントサーバから供
給された前記受け入れ可能情報に基づいて、前記処理の
代行を委譲する代行機能付きドキュメントサーバを選択
する選択手段と、を備え、各代行機能付きドキュメント
サーバは、さらに、前記省機能ドキュメントサーバから
の受け入れ可能情報の要求に応じて、各代行機能付きド
キュメントサーバに関する受け入れ可能情報を前記省機
能ドキュメントサーバに通知する受け入れ可能情報応答
手段を備える、ことが好ましい。
【0010】こうすれば、複数の代行機能付きドキュメ
ントサーバから、適切なサーバを選択して処理を委譲す
ることができる。
【0011】前記受け入れ可能情報は、各代行機能付き
ドキュメントサーバにおける前記処理の終了時間に関す
る予測値を含むことが好ましい。
【0012】こうすれば、更新情報の作成処理を最も短
時間で行えると予測される代行機能付きドキュメントサ
ーバを選択することができる。
【0013】また、前記受け入れ可能情報は、各代行機
能付きドキュメントサーバにおいて、前記更新情報の作
成処理が実行されているか否かを示す情報を含むように
してもよい。
【0014】更新情報の作成処理は、比較的高い処理能
力を必要とする。従って、更新情報の作成処理を実行し
ていないサーバを選択するようにすれば、比較的処理時
間が短いと予想される適切なサーバを選択することがで
きる。
【0015】
【発明の実施の形態】
A.システム構成:以下、本発明の実施の形態を実施例
に基づいて説明する。図1は本発明の一実施例としての
ドキュメントデータ検索システムの構成を示す説明図で
ある。図2は、図1のドキュメントデータ検索システム
の各ステーションの内部構成を示すブロック図である。
【0016】図1に示すように、ドキュメントデータ検
索システムは、データベースサーバワークステーション
600,700と、検索サーバワークステーション30
0と、クライアントワークステーション400と、を備
えており、それらは通信回線500,520,540,
560,580によって互いにネットワークとして接続
されている。なお、データベースサーバ600,700
は、ドキュメントサーバとも呼ばれる。
【0017】第1のデータベースサーバワークステーシ
ョン(以下データベースサーバと略す)600は、代行
機能付きドキュメントサーバである。図2に示すよう
に、第1のデータベースサーバ600は、各種のプログ
ラムやデータを記憶するメモリ610と、複数のドキュ
メントデータによって構成されるドキュメントデータフ
ァイル群620が格納された記憶媒体と、メモリ610
内のプログラムに従って各種の処理動作を行なうCPU
630と、ネットワークを介して他のワークステーショ
ンと通信を行なうためのネットワークインタフェース6
40とを備えている。メモリ610には、データベース
サーバプログラム611と、代行機能付き検索エージェ
ントプログラム615とが記憶されている。なお、「検
索エージェント」とは、検索サーバプログラム311を
助けるための処理を、検索サーバワークステーション3
00以外のステーションで代行するプログラム、という
意味である。
【0018】第1のデータベースサーバ600は、マル
チタスクオペレーティングシステムが稼働する比較的高
機能のエンジニアリングワークステーションで構成され
ている。図1および図2においては、代行機能付きデー
タベースサーバ600は1台しか図示されていないが、
実際には、複数台の代行機能付きデータベースサーバ6
00を接続することが可能である。
【0019】第2のデータベースサーバ700は、省機
能ドキュメントサーバである。図2に示すように、第2
のデータベースサーバ700は、メモリ710と、ドキ
ュメントデータファイル群720が格納された記憶媒体
と、CPU730と、ネットワークインタフェース74
0とを備えている。メモリ710には、データベースサ
ーバプログラム711と、省機能検索エージェントプロ
グラム715とが記憶されている。第2のデータベース
サーバ700では、第1のデータベースサーバ600と
は異なり、省機能検索エージェントプログラム715が
稼働する。ここで、省機能検索エージェントプログラム
715とは、CPU負荷の大きいドキュメント索引情報
の生成手段を持たない検索エージェントプログラムをい
う。なお、第2のデータベースサーバ700は、マルチ
タスクオペレーティングシステムが稼働する比較的低機
能のパーソナルコンピュータで構成されている。
【0020】データベースサーバプログラム711は、
CPUパワーやメモリなどのシステムリソースをかなり
大量に使用する。仮に、負荷の大きい検索エージェント
プログラムを第2のデータベースサーバ700上で稼働
させると、データベースサーバ700のシステムリソー
スのかなりの部分が検索エージェントに使用されてしま
うで、データベースサーバとしての機能を十分に発揮で
きない可能性がある。そこで、第2のデータベースサー
バ700上では、比較的低負荷の省機能検索エージェン
トプログラム715を稼働させている。
【0021】検索サーバワークステーション(以下、検
索サーバと略す。)300は、図2に示すように、メモ
リ310と、ドキュメント索引情報データベース320
と、CPU330と、ネットワークインタフェース34
0を備えている。メモリ310には、ドキュメント索引
情報データベース320を検索したり、更新したりする
ための検索サーバプログラム311が記憶されている。
【0022】検索サーバ300内のドキュメント索引情
報データベース320(図1)には、各データベースサ
ーバ600,700に格納されている全ドキュメントデ
ータについて、それぞれ、ドキュメント索引情報(サマ
リー情報)が格納されている。ドキュメント索引情報
は、ドキュメントデータの書誌情報(ドキュメント名、
作者名、作成年月日等)と、キーワードと、格納場所と
を含んでいる。
【0023】クライアントワークステーション(以下、
クライアントと略す。)400は、図2に示すように、
メモリ410と、CPU430と、ネットワークインタ
フェース440を備えている。メモリ410には、デー
タベースサーバ600,700或いは検索サーバ300
にアクセスするためのクライアントプログラム411が
記憶されている。
【0024】なお、各ステーションのコンピュータプロ
グラムは、それぞれハードディスク等の記憶媒体に格納
されており、必要に応じてそれぞれのメモリに記憶され
る。これらのコンピュータプログラムは、フロッピディ
スクやCD−ROM等の携帯型の記憶媒体から各ステー
ションの外部記憶装置に転送される。あるいは、通信経
路を介して、プログラム供給装置から各ステーションに
供給するようにしてもよい。
【0025】B.システムの動作:図3は、2種類の検
索エージェントプログラム615,715の機能を示す
機能ブロック図である。代行機能付き検索エージェント
プログラム615は、データ更新検知手段661と、ド
キュメント索引生成手段662と、ドキュメント索引転
送手段663と、受け入れ可能情報応答手段664と、
受け入れ手段665の機能を実現する。また、省機能検
索エージェントプログラム715は、データ更新検知手
段761と、処理委譲先選択手段762と、処理委譲手
段763と、更新情報転送手段764の機能を実現す
る。
【0026】第1のデータベースサーバ600のドキュ
メントデータファイル群620の更新(ドキュメントデ
ータの追加、変更、削除)がなされると、データ更新検
知手段661によって更新されたことが認識される。こ
のうち追加または変更されたドキュメントデータに関し
ては、ドキュメント索引生成手段662によって、ドキ
ュメントデータの中からキーワードが抽出され、また、
書誌情報が生成される。そして、これらのキーワードや
書誌情報を含むドキュメント索引情報が生成される。ま
た、更新された各ドキュメントに関するドキュメント索
引情報を含む更新情報(後述する)が、ドキュメント索
引転送手段663によって、検索サーバ300へ転送さ
れる。
【0027】図4は、更新情報とドキュメント索引情報
のデータ構造を示す説明図である。図4(b)に示すよ
うに、ドキュメント索引情報は、書誌情報と、キーワー
ドと、ドキュメント種別と、ドキュメントデータの格納
場所とを含んでいる。書誌情報は、ドキュメント名と、
作者名と、作成部門と、作成年月日とを含んでいる。ま
た、ドキュメント種別は、テキストデータとバイナリデ
ータの区別、および画像データや、HTMLデータの区
別などの情報を含んでいる。ドキュメントデータの格納
場所は、データベースサーバ名、データベース名、ファ
イル名、主キー値(データベース内のドキュメントを一
意的に区別するための識別番号)などを含んでいる。
【0028】なお、更新の種別が「変更」や「削除」で
ある場合には、ドキュメント索引情報として、図4
(b)に示すような情報を全て生成する必要はない。即
ち、「変更」の場合には、少なくとも変更された部分の
情報(例えば、作者名が変更されている場合は、その作
者名と作成年月日または更新年月日)とドキュメントデ
ータの格納場所を有していれば良い。また、「削除」の
場合は少なくともドキュメントデータの格納場所を有し
ていれば良い。
【0029】図4(a)に示すように、更新情報は、検
索サーバ300に対するドキュメント索引更新要求と、
更新されたドキュメントに関するドキュメント索引情報
とを含んでいる。図4(a)の例では、複数のドキュメ
ントデータに関するドキュメント索引情報が1つの更新
情報に含まれている。通常は、1回のトランザクション
(処理の実行単位)において更新されたドキュメントの
索引情報が、1つの更新情報に含まれる。この更新情報
は、検索サーバプログラム311(図1)に転送され
る。
【0030】図5は、検索サーバプログラム311の機
能を説明するための機能ブロック図である。CPU33
0は、検索サーバプログラム311を実行することによ
って、ドキュメント索引検索手段312と、ドキュメン
ト索引更新手段313の機能を実現する。ドキュメント
索引更新手段313は、検索エージェントから転送され
た更新情報に従って、検索サーバ300内のドキュメン
ト索引情報データベース320を更新する。この機能に
ついては後述する。
【0031】第2のデータベースサーバ700のドキュ
メントデータファイル群720の更新(ドキュメントデ
ータの追加、変更、削除)がなされると、更新されたこ
とがデータ更新検知手段761(図3(b))によって
認識される。このうち、追加または変更されたドキュメ
ントデータファイルに関しては、ドキュメント索引情報
の作成を行う必要がある。そこで、処理委譲先選択手段
762は、ドキュメント索引情報の作成を委譲するため
に、代行機能付き検索エージェントを選択する。
【0032】図6は、処理委譲先の選択手順を示すフロ
ーチャートである。ここでは、ドキュメントデータ検索
システムにN個(Nは1以上の整数)の代行機能付きデ
ータベースサーバ600が接続されており、N個の代行
機能付き検索エージェント615が存在する場合を仮定
している。
【0033】ステップS11では、検索エージェントの
番号を示すパラメータiを1に設定する。ステップS1
2では、パラメータiをN(利用可能な代行機能付き検
索エージェントの総数)と比較する。i≦Nならば、代
行機能付き検索エージェントテーブル790内のi番目
のエージェントを着目エージェントとして採用する。こ
こで、代行機能付き検索エージェントテーブル790
は、利用可能な代行機能付き検索エージェントを順番に
並べたテーブルであり、第2のデータベースサーバ70
0のメモリ710(図2)に記憶されている。
【0034】ステップS15では、着目エージェントに
受け入れ可否を問い合わせる。着目エージェントの受け
入れ可能情報応答手段664(図3(a))は、ドキュ
メント索引情報の作成処理を受け入れ可能か否か、を省
機能検索エージェント715に回答する。ドキュメント
索引情報の作成処理を受け入れ可能か否かの判断の際に
は、種々の判断基準が考えられる。ここでは、代行機能
付き検索エージェントプログラム615のデータ更新検
知手段661が一定時間毎に起動され、ドキュメントデ
ータファイル群620のファイルのタイムスタンプを調
べ、一回前に起動して調べたタイムスタンプと更新日時
が異なるドキュメントファイルを選び出す処理を行って
いる場合を想定する。この場合には、代行機能付き検索
エージェントプログラム615は、データ更新検知手段
661が起動された直後は、検出されたドキュメントフ
ァイルに対する更新情報の作成処理を行うため、データ
ベースサーバ600のCPU630やディスクには高負
荷がかかっている。しかし、その他の時間はデータベー
スサーバプログラム611が稼働しているだけなので、
データベースサーバ600の負荷は小さい状態にある。
データベースサーバ600の負荷が小さい状態にあると
きは、省機能検索エージェント715から更新情報の生
成処理を受け入れることが可能である。そこで、受け入
れ可能情報応答手段664は、代行機能付き検索エージ
ェント615が更新情報の生成処理を実行中である場合
には受け入れ不可と応答し、更新情報の作成処理を行っ
ていない場合には受け入れ可能と応答する。
【0035】図6のステップS16において、着目エー
ジェントが受け入れ不可と応答した場合には、ステップ
S17においてパラメータiに1を加算してステップS
12に戻る。こうして、受け入れ可能な代行機能付き検
索エージェントが見つかるまで、ステップS12〜S1
7を繰り返す。N個の代行機能付き検索エージェントが
すべて受け入れ不可の場合には、ステップS12からス
テップS13に移行し、一定時間スリープして、再びス
テップS11以降の処理を実行する。こうして、受け入
れ可能な代行機能付き検索エージェントが見つかるまで
ステップS11〜S17を繰り返す。
【0036】ステップS16において着目エージェント
が受け入れ可能と応答した場合には、ステップS18に
おいて、着目エージェントを処理委譲先エージェントと
して決定する。すると、処理委譲手段763(図3
(b))が、更新されたドキュメントの索引情報の作成
処理を、処理委譲先エージェントに委譲する。この際、
処理委譲手段763は、ドキュメント索引情報の作成処
理に必要なデータ(ドキュメントデータの本体およびそ
のディレクトリ情報等)を処理委譲先エージェントに転
送する。転送されたデータは、受け入れ手段665(図
3(a))によって受け入れられる。
【0037】処理を委譲された代行機能付き検索エージ
ェント615のドキュメント索引生成手段662は、委
譲されたドキュメントの索引情報を作成する。こうして
作成されたドキュメント索引情報は、ドキュメント索引
転送手段663によって省機能検索エージェントプログ
ラム715に転送される。省機能検索エージェントプロ
グラム715の更新情報転送手段764は、このドキュ
メント索引情報を用いて、図4(a)に示す更新情報を
作成し、検索サーバ300に転送する。
【0038】図7は、検索サーバ300におけるドキュ
メント索引情報の更新処理の内容を示す説明図である。
検索サーバ300のドキュメント索引更新手段313
(図5)は、まず、更新情報(図4(a))の更新の種
別を判別する。更新の種別が「追加」の場合には、図7
に示すように、ドキュメント索引情報データベース32
0の最後尾に、更新情報内のドキュメント索引情報1を
1行追加する。また、更新の種別が「変更」である場合
には、ドキュメント索引情報データベース320内の該
当行のドキュメント索引情報2を、更新情報内の新たな
ドキュメント索引情報2と置き換える。更新の種別が
「削除」である場合には、ドキュメント索引情報データ
ベース320内の該当行のドキュメント索引情報3を削
除する。
【0039】このドキュメントデータ検索システムを用
いて検索者がデータを検索する場合には、検索者はクラ
イアントプログラム411(図1)を用いて、探したい
所望のドキュメントのドキュメント名などの書誌情報の
一部や、キーワードを検索条件として入力する。検索条
件は検索サーバプログラム311に転送される。検索サ
ーバプログラム311のドキュメント索引検索手段31
2(図5)は、検索条件と一致するドキュメントをデー
タベース索引情報データベース320から見つけ、その
結果をクライアントプログラム411に返す。検索者
は、この検索結果から、目的のドキュメントの存在位置
を知ることができ、これをもとに、第1のデータベース
サーバ600または第2のデータベースサーバ700に
アクセスし、所望のドキュメントを得ることができる。
【0040】以上のように、この実施例では、比較的低
機能のサーバ700上の省機能検索エージェントプログ
ラム715はドキュメント索引情報の作成処理を行わ
ず、比較的高機能のサーバ600上の代行機能付き検索
エージェントプログラム615にその処理を委譲してい
る。このため、処理能力が比較的低いドキュメントサー
バに格納されているドキュメントに関するドキュメント
索引情報をより効率よく作成することができる。なお、
上述したように、検索エージェントプログラム615,
715で作成されるドキュメント索引情報は、検索サー
バ300のドキュメント索引情報データベース320を
更新するために利用される。従って、上記実施例におけ
る処理の委譲は、ドキュメント索引情報データベース3
20を更新するための更新情報の作成処理の一部を、省
機能検索エージェント715から代行機能付き検索エー
ジェント615に委譲したものと考えることができる。
【0041】本発明は、上記した実施例や実施形態に限
られるものではなく、その要旨を逸脱しない範囲におい
て種々の態様にて実施することが可能であり、例えば次
のような変形も可能である。
【0042】(1)上記実施例では、代行機能付き検索
エージェントテーブル790を、各省機能検索エージェ
ントプログラム715が保持するようにしていた。この
時、代行機能付き検索エージェント615が追加された
場合には、検索エージェントテーブル790の保守を、
各省機能検索エージェントプログラム715毎に行うこ
とになり、煩雑である。そこで、ネットワークで接続さ
れたコンピュータの1つ(データベースサーバであって
もよいし、検索サーバであってもよい)に、有効な代行
機能付き検索エージェントテーブル790を、ネットワ
ークを介して参照可能な状態で保持しておき、各省機能
検索エージェント715(具体的には処理委譲先選択手
段762)に、テーブルの参照手段を設けるようにして
もよい。この場合には、代行機能付き検索エージェント
615が追加された時に、その代行機能付き検索エージ
ェント615自身が、ネットワーク上の代行機能付き検
索エージェントテーブル790に登録を行う。省機能検
索エージェントプログラム715は、ネットワーク上の
代行機能付き検索エージェントテーブル790を参照す
る。こうすれば、代行機能付き検索エージェント615
が追加された場合のテーブル790の保守が不要になる
という利点がある。
【0043】(2)ドキュメント索引情報の処理を受け
入れ可能か否かの判断には、次のような方法も考えられ
る。この方法では、代行機能付き検索エージェントプロ
グラム615の受け入れ可能情報応答手段664(図3
(a))は、ドキュメント索引生成処理が終了するまで
の時間の予測値tを、次の(1)式に従って算出する機
能を有する。 t=(Q+1)*T(L)=Q*T(L)+T(L) …(1)
【0044】ここで、Qは受け入れ可否の問い合わせ時
点における索引情報の生成処理の待ち行列の数、Lは問
い合わせ時点における単位時間当たりの平均負荷値、T
は1ドキュメントの索引情報の生成処理に要する平均処
理時間である。なお、平均処理時間Tは、そのデータベ
ースサーバの負荷Lの関数として予め与えられている。
従って、その時点における負荷値Lから、平均処理時間
T(L)を決定することができる。(1)式の右辺第1
項{Q*T(L)}は待ち時間を示し、第2項{T
(L)}は、今回委譲される索引情報の作成処理の所用
時間を示している。
【0045】省機能検索エージェントプログラム715
の処理委譲先選択手段762は、N個の代行機能付き検
索エージェントプログラム615に受け入れ可能情報を
要求する手段としての機能と、各代行機能付き検索エー
ジェントプログラム615の受け入れ可能情報応答手段
664から、(1)式で与えられる終了時間予測値tを
受け入れ可能情報としてそれぞれ受け取る機能と、この
終了時間予測値tが最も小さな検索エージェントを選択
して処理を委譲する機能と、を有する。このように、終
了時間の予測値tに基づいて処理を委譲するようにすれ
ば、ドキュメント索引情報を、より効率的に、より早く
作成することができる。
【0046】なお、ドキュメント索引情報の作成処理の
受け入れ可能情報としては、上述したもの以外にも種々
のものが考えられる。例えば、各代行機能付きデータサ
ーバ600において実行中のタスクの数を受け入れ可能
情報として利用することも可能である。また、これらの
複数種類の情報を、受け入れ可能情報として使用するこ
とも可能である。
【0047】(3)上記実施例では、代行機能付き検索
エージェントプログラム615が、更新されたドキュメ
ントに関するドキュメント索引情報のすべてを作成する
こととしていた。しかし、ドキュメント索引情報の作成
処理の中で、比較的高負荷の一部の処理のみを代行機能
付き検索エージェントプログラム615に委譲し、他の
処理は省機能検索エージェントプログラム715で実行
するようにしてもよい。例えば、キーワードの抽出処理
のみを、代行機能付き検索エージェントプログラム61
5に委譲するようにすることが可能である。
【図面の簡単な説明】
【図1】本発明の一実施例としてドキュメントデータ検
索システムの概要を示す説明図である。
【図2】各ステーションの内部構成を示すブロック図で
ある。
【図3】代行機能付き検索エージェントプログラム61
5と省機能検索エージェントプログラム715の機能を
示す機能ブロック図である。
【図4】更新情報とドキュメント索引のデータ構造の一
例を示す説明図である。
【図5】検索サーバプログラム311の機能を示す機能
ブロック図である。
【図6】処理委譲先の選択手順を示すフローチャートで
ある。
【図7】検索サーバ300におけるドキュメント索引情
報の更新処理の内容を示す説明図である。
【符号の説明】
300…検索サーバワークステーション 310…メモリ 311…検索サーバプログラム 312…ドキュメント索引検索手段 313…ドキュメント索引更新手段 320…ドキュメント索引情報 330…CPU 340…ネットワークインタフェース 400…クライアントワークステーション 410…メモリ 411…クライアントプログラム 430…CPU 440…ネットワークインタフェース 500,520,540,560,580…通信回線 600…代行機能付きデータベースサーバ(代行機能付
きドキュメントサーバ) 610…メモリ 611…データベースサーバプログラム 615…代行機能付き検索エージェントプログラム 620…ドキュメントデータファイル群 630…CPU 640…ネットワークインタフェース 661…データ更新検知手段 662…ドキュメント索引生成手段(更新情報作成手
段) 663…ドキュメント索引転送手段(第2の転送手段) 664…可能情報応答手段 665…受け入れ手段 700…省機能データベースサーバ(省機能ドキュメン
トサーバ) 710…メモリ 711…データベースサーバプログラム 715…省機能検索エージェントプログラム 720…ドキュメントデータファイル群 730…CPU 740…ネットワークインタフェース 761…データ更新検知手段 762…処理委譲先選択手段 763…処理委譲手段 764…更新情報転送手段(第1の転送手段) 790…代行機能付き検索エージェントテーブル

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 ドキュメントデータ検索システムであっ
    て、 ドキュメントデータの要求を発行するクライアントと、 複数のドキュメントデータを格納し、前記クライアント
    からの要求に応じて所望のドキュメントデータを提供す
    る代行機能付きドキュメントサーバと、 複数のドキュメントデータを格納し、前記クライアント
    からの要求に応じて所望のドキュメントデータを提供す
    る省機能ドキュメントサーバと、 前記代行機能付きドキュメントサーバと前記省機能付き
    ドキュメントサーバに格納されている各ドキュメントデ
    ータに関するドキュメント索引情報を格納し、前記クラ
    イアントからの要求に応じて、前記ドキュメント索引情
    報を参照して所望のドキュメントデータの格納場所を検
    索するとともに、検索結果を前記クライアントに提供す
    る検索サーバと、 前記クライアントと、前記代行機能付きドキュメントサ
    ーバと、前記省機能ドキュメントサーバと、前記検索サ
    ーバとを相互に接続する通信回線と、を備え、 前記省機能ドキュメントサーバは、 前記省機能ドキュメントサーバが格納する複数のドキュ
    メントデータのいずれかが更新されたことを検知する更
    新検知手段と、 前記更新検知手段による検知に応じて、前記代行機能付
    きドキュメントサーバに対し、更新されたドキュメント
    データに関するドキュメント索引情報を更新するために
    使用される更新情報の少なくとも一部を作成する処理の
    代行を委譲する処理委譲手段と、 前記更新されたドキュメントデータに関する前記更新情
    報を、前記検索サーバに転送する第1の転送手段と、を
    備え、 前記代行機能付きドキュメントサーバは、 前記省機能ドキュメントサーバから委譲された前記更新
    情報の作成処理を実行する更新情報作成手段と、 前記更新情報作成手段によって作成された前記更新情報
    を前記省機能ドキュメントサーバに転送する第2の転送
    手段と、を備え、 前記検索サーバは、前記第1の転送手段から転送された
    前記更新情報に基づいて、前記ドキュメント索引情報を
    更新する更新手段を備える、ことを特徴とするドキュメ
    ントデータ検索システム。
  2. 【請求項2】 請求項1記載のドキュメントデータ検索
    システムであって、 前記ドキュメントデータ検索システムは、複数の前記代
    行機能付きドキュメントサーバを備え、 前記省機能ドキュメントサーバは、さらに、 前記複数の代行機能付きドキュメントサーバに対して、
    前記処理の代行の受け入れの可能性を表す受け入れ可能
    情報を要求する受け入れ可能情報要求手段と、 前記複数の代行機能付きドキュメントサーバから供給さ
    れた前記受け入れ可能情報に基づいて、前記処理の代行
    を委譲する代行機能付きドキュメントサーバを選択する
    選択手段と、を備え、 各代行機能付きドキュメントサーバは、さらに、 前記省機能ドキュメントサーバからの受け入れ可能情報
    の要求に応じて、各代行機能付きドキュメントサーバに
    関する受け入れ可能情報を前記省機能ドキュメントサー
    バに通知する受け入れ可能情報応答手段を備える、ドキ
    ュメントデータ検索システム。
  3. 【請求項3】 請求項2記載のドキュメントデータ検索
    システムであって、 前記受け入れ可能情報は、各代行機能付きドキュメント
    サーバにおける前記処理の終了時間に関する予測値を含
    む、ドキュメントデータ検索システム。
  4. 【請求項4】 請求項2または3記載のドキュメントデ
    ータ検索システムであって、 前記受け入れ可能情報は、各代行機能付きドキュメント
    サーバにおいて、前記更新情報の作成処理が実行されて
    いるか否かを示す情報を含む、ドキュメントデータ検索
    システム。
JP8238376A 1996-08-20 1996-08-20 ドキュメントデータ検索システム Pending JPH1063686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP8238376A JPH1063686A (ja) 1996-08-20 1996-08-20 ドキュメントデータ検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP8238376A JPH1063686A (ja) 1996-08-20 1996-08-20 ドキュメントデータ検索システム

Publications (1)

Publication Number Publication Date
JPH1063686A true JPH1063686A (ja) 1998-03-06

Family

ID=17029272

Family Applications (1)

Application Number Title Priority Date Filing Date
JP8238376A Pending JPH1063686A (ja) 1996-08-20 1996-08-20 ドキュメントデータ検索システム

Country Status (1)

Country Link
JP (1) JPH1063686A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003518293A (ja) * 1999-12-20 2003-06-03 ユアアミーゴ・プロプライエタリー・リミテッド インデクシングシステムおよび方法
JP2005122702A (ja) * 2003-10-16 2005-05-12 Hitachi Ltd 検索エンジンと一式以上のファイルサーバ間の結合を改善する方法及び装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003518293A (ja) * 1999-12-20 2003-06-03 ユアアミーゴ・プロプライエタリー・リミテッド インデクシングシステムおよび方法
US7987165B2 (en) 1999-12-20 2011-07-26 Youramigo Limited Indexing system and method
JP4873813B2 (ja) * 1999-12-20 2012-02-08 ユアアミーゴ・リミテッド インデクシングシステムおよび方法
JP2005122702A (ja) * 2003-10-16 2005-05-12 Hitachi Ltd 検索エンジンと一式以上のファイルサーバ間の結合を改善する方法及び装置
JP4559158B2 (ja) * 2003-10-16 2010-10-06 株式会社日立製作所 データにアクセスするための方法及びシステム

Similar Documents

Publication Publication Date Title
US8782032B2 (en) Minimizing visibility of stale content in web searching including revising web crawl intervals of documents
US20180089317A1 (en) Document reuse in a search engine crawler
JP4786945B2 (ja) インデックス付与強制クエリ
US6898592B2 (en) Scoping queries in a search engine
US7627613B1 (en) Duplicate document detection in a web crawler system
JP3742177B2 (ja) 並列データベースシステムルーチン実行方法
MXPA04006267A (es) Registros para y recuperacion de informacion de cambio de tabla de la base de datos que puede ser usada para invalidar entradas en la memoria cache.
US5995972A (en) System and method for retrieving data
JP2000076109A (ja) データ表示装置およびデータ表示方法
JPH09204442A (ja) ドキュメントデータ検索システム
US20030084095A1 (en) Method to preserve web page links using registration and notification
JPH1063686A (ja) ドキュメントデータ検索システム
KR20040039691A (ko) 정보 검색 시스템의 인덱싱 방법
JP2001005830A (ja) 情報処理装置及びその方法、コンピュータ可読メモリ
JP3526198B2 (ja) データベース類似検索方法及び装置及び類似検索プログラムを格納した記憶媒体
US20050131908A1 (en) Browsing a list of data items
KR20020060417A (ko) 사용자별 검색 이력 정보를 이용한 문서 검색 시스템 및문서 검색 방법
JP2005327225A (ja) 文書管理システム、文書管理方式、文書管理プログラム及びプログラム記録媒体
KR100434718B1 (ko) 문서 색인 시스템 및 그 방법
Meng et al. Performance analysis of three text-join algorithms
JP2003203089A (ja) Webページ検索方法およびWebページ検索装置、Webページ検索プログラム並びにそのプログラムを記録した記録媒体
US20050131883A1 (en) Browsing a list of data items
JP2004272747A (ja) データベースのデータ取得方法及び取得システム
JPH08147274A (ja) 文書処理装置
JPH05233417A (ja) 分散ファイルシステムのディレクトリ管理方法