JPH10312393A

JPH10312393A - 文書管理システム

Info

Publication number: JPH10312393A
Application number: JP9123754A
Authority: JP
Inventors: Kenichi Kitamura; 健一北村; Nobuo Kawamura; 信男河村; Norihiro Hara; 憲宏原
Original assignee: Hitachi Software Engineering Co Ltd; Hitachi Ltd
Current assignee: Hitachi Software Engineering Co Ltd; Hitachi Ltd
Priority date: 1997-05-14
Filing date: 1997-05-14
Publication date: 1998-11-24

Abstract

(57)【要約】【課題】任意の検索タームによる探索処理を効率的に実
現するテキストインデクスを有した文書管理システムに
おいて、登録文書情報のインデクス反映を効率的に行う
とともに検索処理の応答性能を低下させることなく、常
に最新の文書が検索できるようにする。さらに障害発生
に際してインデクスの回復が速やかに実現できるように
する。【解決手段】追加した文書１７のインデクス反映を自動
的に行うだけでなく、反映が完了したインデクス１５の
バックアップも取得する。これにより障害発生時の回復
が簡便かつ速やかに行うことができる。またインデクス
の反映処理途中であっても検索処理を行い、インデクス
未反映分は文書１７を直接参照し、この結果をインデク
ス１５の探索結果とマージすることにより、常に最新状
態の文書について正確な検索結果を得ることができる。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、文書をデータベー
スに格納し、任意の文字を含む文書を探索し取り出す処
理と、新たな文書の追加登録を併せて実現するシステム
に関し、特に文書の探索と登録の両方を高速に行なえる
ようにした文書管理システムに関するものである。

【０００２】

【従来の技術】従来より、目的とする文書の探索を効率
よく行うため、インデクスを導入する方法が取られてい
る。英文のように空白等により単語を切り出せる文書で
は、個々の単語をインデクスのキーとすることができ
る。これに対して日本語のように機械的に単語の切り出
しができない文書では、文書を登録する際に、探索に指
定することが予想されるキーワードを併せて登録する方
法がある。この方法はキーワードを選択する手間が掛か
るうえ、登録したキーワード以外での探索ができない。
この欠点をなくす方法として、文書を構成する全ての文
字とその位置情報からなる、全文検索用インデクスを作
成する方法がとられている。これにより任意の探索条件
文字列において効率よく文書の探索が実現できるように
なった。この反面、文書の登録に際して、インデクス情
報の追加処理に要するオーバヘッドが大きく、大量の文
書を登録する業務においては、これが運用のネックとな
っている。そこで、文書を１件登録する毎インデクスに
反映せず、大量の文書を一括して反映することにより処
理効率を改善する方法が公知となっている。この反映契
機として、反映処理のコマンドを投入する。あるいは予
め指定した時刻に当該処理が起動されるように設定する
ことで自動的に行う。

【０００３】

【発明が解決しようとする課題】上述のような大量に登
録文書をため込み、後に一括してインデクスに反映する
システムを用いて文書管理を行うと、次のような問題点
が発生する。すなわち、１.文書を登録してから、それ
がインデクスに反映されるまで、探索の対象とならな
い。すなわち最新状態の文書情報を検索することができ
ない。２.反映途中のインデクスを探索すると、検索結
果が不正となるため、反映処理と検索処理の同時実行を
抑止しなければならない。すなわち反映処理の間は検索
業務が停止する。３.インデクス反映処理ではその格納
ファイルの内容を大量に変更する。（その際、障害発生
時の回復処理用に、更新内容をログ出力することは、ロ
グが大量となることから実用的でない。）ログを取得し
ない場合、事前に取ったバックアップより回復すること
になる。バックアップをこまめに取得するのは運用上の
負担が大きく、取得頻度を減らすと回復に要する時間が
長くなる。いずれにしても回復処理が煩わしい。

【０００４】

【課題を解決するための手段】上記の問題を解決するた
め、本発明の文書管理システムは、登録されている文書
の文字情報からなる全文検索用のテキストインデクスを
格納しているテキストインデクス格納部、その制御を行
うテキストインデクス制御部、文書データを格納するデ
ータ格納部、その制御を行うデータ制御部、クライアン
トとの間でデータの送受信を行うデータ送受信制御部を
有し、クライアントからの文書登録、あるいは検索要求
に応じて、文書管理を行う文書管理システムであって、
登録した文書のテキストインデクスへの反映を自動的に
一括して行い、バックアップの自動取得と、常に最新状
態の文書に対する検索を実現することを特徴とする文書
管理システム。

【０００５】

【発明の実施の形態】以下、本発明の実施例を図面を用
いて具体的に説明する。

【０００６】図１は本発明のシステム構成例である。

【０００７】１０は文書管理システム機能を提供するサ
ーバである。１８は本システム機能を利用するクライア
ントであり、１４のネットワークを介して文書の登録や
検索処理を要求する。文書管理サーバ１０はテキストイ
ンデクス１５の探索および更新やインデクス管理情報１
６の管理を行うテキストインデクス制御部１１、文書デ
ータ１７の取り出しおよび格納を行うデータ制御部１
２、ネットワーク１４を介してクライアント１８との処
理要求やデータの送受信を行うデータ送受信制御部１３
からなる。クライアント１８は文書検索および登録要求
を行う応用プログラム１９と要求やデータをサーバとの
間で送受信するデータ送受信制御部１３からなる。図２
に本方法における文書の検索・登録およびテキストイン
デクスへの反映処理の流れを示すフローチャートを示
す。検索処理の流れを図２（ａ）に示すフローチャート
を参照して説明する。先ず２１においてテキストインデ
クスを探索し探索条件(検索ターム)を含む文書のデータ
番号を得る。次に２２においてデータ格納分には登録さ
れているがテキストインデクスには反映されていない文
書データが存在しているかチェックを行う。最新のイン
デクス反映処理の対象となった文書以降に登録された文
書が存在する場合には２３以降の処理を、存在しない場
合には２６以降の処理を行う。２３において未反映文書
を参照して検索タームが含んでいるかチェックする。含
んでいる場合には２４により当該文書のデータ番号をテ
キストインデクスの探索結果に追加する。２５において
未反映文書が残っているかチェックし、残っている場合
には、その文書データについて２３以降の処理を行う。
残っていない、すなわち全件完了している場合には２６
の処理に移り、探索条件に該当した文書データを取り出
し検索処理を完了する。

【０００８】検索処理の実行タイミングによる処理内容
の違いを図３を用いて説明する。

【０００９】初期状態ではテキストインデクスに反映し
た後に登録された文書データがないため、テキストイン
デクスの探索結果だけから該当文書を決定する。

【００１０】反映処理の開始時点では、インデクスに反
映していない文書データがあるため、インデクスの探索
完了後、追加分の文書を参照し検索タームのチェックを
行い、該当文書をインデクス探索結果とマージする。反
映処理の処理途中では、テキストインデクスに追加分の
文書情報が反映されつつある状態を探索するため、追加
分の文書については正しい結果が得られない場合があ
る。このため、文書を参照しての検索タームチェックは
不確定な追加分の文書以降、最新状態までを対象とす
る。反映処理の完了時点では上記処理の結果、追加分の
文書がインデクスに反映されおり、インデクスの探索完
了後、反映処理開始以降に新たに追加された分の文書を
対象として検索タームチェックを行う。

【００１１】以上のようにいかなるタイミングにおいて
もテキストインデクスの探索と追加登録分の文書に対す
る検索タームチェックを併用することで最新状態の文書
を対象とした検索を効率的に実現する。登録処理の流れ
を図２（ｂ）に示すフローチャートを参照して説明す
る。先ず３１において文書番号を採番し文書を登録す
る。次に３２で未反映文書の反映要求時刻が設定されて
いるかチェックし、設定されていない場合には３３にお
いて現在の時刻に最大許容遅延時間を加えて求めた最遅
反映時刻を設定する。次に３４において文書番号とテキ
ストインデクスに反映されている文書番号を比較し、そ
の差が規定値に達しているかチェックする。規定値に達
している場合に限り３５によりインデクス反映処理を起
動して登録処理を完了する。反映処理の流れを図２
（ｃ）に示すフローチャートを参照して説明する。先ず
４１で反映対象となる最終文書番号を決定するとともに
未反映文書の反映要求時刻をクリアする。４２において
未反映の文書を取り出しインデクスへの反映処理を行
い、４３において未反映文書が残っていないかチェック
し、残っている場合には、４２に戻り未反映文書の反映
処理を継続する。対象の文書について反映が完了した場
合、４４において前回のバックアップに使用したファイ
ルを判定し、今回の出力先ファイルを決定し、４５によ
り当該インデクスの内容をバックアップ用のファイルに
出力する。次に４６でインデクス反映済みの文書番号や
バックアップ取得ファイル等のインデクス管理情報を更
新し反映処理を完了する。時間監視機能による反映起動
処理の流れを図２（ｄ）に示すフローチャートを参照し
て説明する。先ず５１で当該インデクスに対して文書が
追加登録されているかチェックする。登録されている場
合、さらに５２により現在の時刻がインデクス反映要求
時刻に達して(過ぎて)いるかをチェックする。達してい
る場合には、５３によりインデクスの反映処理を起動し
て当該処理終了する。この監視処理を定期的に行う。

【００１２】

【発明の効果】以上に説明したように、本発明の文書管
理方式によれば、以下のような利点がある。１.適切な
インデクス反映契機(件数＆時間)によって追加登録した
文書のインデクス反映処理が効率的に実現される。２.
インデクスへの反映状態に依存せず、さらに反映処理の
完了を待つことなく、常に最新の登録文書を対象とした
検索を行うことができる。３.インデクスの反映処理と
連動してバックアップが取得されるため、常に最新のバ
ックアップが自動的に取得される。障害発生時にはこれ
を使って最新状態に戻すだけで、すぐに文書検索システ
ムの運用が継続できる。

【図面の簡単な説明】

【図１】本発明の一実施例にかかる文書管理システムの
構成を示すブロック図

【図２】本発明による文書の検索、登録、インデクス反
映処理の処理フロー例を示すフローチャート

【図３】本発明によるインデクス反映状態と文書の検索
処理の関連を示す図

【符号の説明】

１０文書管理システムサーバ、１１テキストインデクス制御部、１２データ制御部、１３データ送受信制御部、１４ネットワーク、１５テキストインデクス、１６テキストインデクスの管理情報、１７文書データ、１８クライアント、１９応用プログラム

───────────────────────────────────────────────────── フロントページの続き (72)発明者河村信男神奈川県川崎市幸区鹿島田890番地株式会社日立製作所情報・通信開発本部内 (72)発明者原憲宏神奈川県川崎市幸区鹿島田890番地株式会社日立製作所情報・通信開発本部内

Claims

【特許請求の範囲】

【請求項１】文書データとその構成文字毎の登場位置情
報よりなるインデクスを格納したデータベースを有し、
任意の文字列を含む文書を当該インデクスを探索するこ
とで求める文書管理システムにおいて、追加登録した文書のインデクス反映を複数件数分をまと
めて大量文書を登録するインデクス反映処理を行うこと
を特徴とする文書管理システム。
【請求項２】請求項１記載の文書管理システムにおい
て、追加登録した文書をインデクスを反映する際に、インデ
クスの内容を別ファイルに複写し、障害の発生に際して
使用するバックアップを作成することで、障害発生時に
はファイルをバックアップにより戻した後はインデクス
の遅延反映処理により、自動的に最新状態に戻ることを
特徴とする文書管理システム。
【請求項３】請求項１記載の文書管理システムにおい
て、登録した文書インデクスへの反映が完了していないもの
については文書を直接参照し、インデクスの探索結果と
マージすることで常に最新の登録文書が検索対象となる
ことを特徴とする文書管理システム。