JPH10312393A - 文書管理システム - Google Patents

文書管理システム

Info

Publication number
JPH10312393A
JPH10312393A JP9123754A JP12375497A JPH10312393A JP H10312393 A JPH10312393 A JP H10312393A JP 9123754 A JP9123754 A JP 9123754A JP 12375497 A JP12375497 A JP 12375497A JP H10312393 A JPH10312393 A JP H10312393A
Authority
JP
Japan
Prior art keywords
document
index
registered
management system
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP9123754A
Other languages
English (en)
Inventor
Kenichi Kitamura
健一 北村
Nobuo Kawamura
信男 河村
Norihiro Hara
憲宏 原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Original Assignee
Hitachi Software Engineering Co Ltd
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Software Engineering Co Ltd, Hitachi Ltd filed Critical Hitachi Software Engineering Co Ltd
Priority to JP9123754A priority Critical patent/JPH10312393A/ja
Publication of JPH10312393A publication Critical patent/JPH10312393A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

(57)【要約】 【課題】任意の検索タームによる探索処理を効率的に実
現するテキストインデクスを有した文書管理システムに
おいて、登録文書情報のインデクス反映を効率的に行う
とともに検索処理の応答性能を低下させることなく、常
に最新の文書が検索できるようにする。さらに障害発生
に際してインデクスの回復が速やかに実現できるように
する。 【解決手段】追加した文書17のインデクス反映を自動
的に行うだけでなく、反映が完了したインデクス15の
バックアップも取得する。これにより障害発生時の回復
が簡便かつ速やかに行うことができる。またインデクス
の反映処理途中であっても検索処理を行い、インデクス
未反映分は文書17を直接参照し、この結果をインデク
ス15の探索結果とマージすることにより、常に最新状
態の文書について正確な検索結果を得ることができる。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、文書をデータベー
スに格納し、任意の文字を含む文書を探索し取り出す処
理と、新たな文書の追加登録を併せて実現するシステム
に関し、特に文書の探索と登録の両方を高速に行なえる
ようにした文書管理システムに関するものである。
【0002】
【従来の技術】従来より、目的とする文書の探索を効率
よく行うため、インデクスを導入する方法が取られてい
る。英文のように空白等により単語を切り出せる文書で
は、個々の単語をインデクスのキーとすることができ
る。これに対して日本語のように機械的に単語の切り出
しができない文書では、文書を登録する際に、探索に指
定することが予想されるキーワードを併せて登録する方
法がある。この方法はキーワードを選択する手間が掛か
るうえ、登録したキーワード以外での探索ができない。
この欠点をなくす方法として、文書を構成する全ての文
字とその位置情報からなる、全文検索用インデクスを作
成する方法がとられている。これにより任意の探索条件
文字列において効率よく文書の探索が実現できるように
なった。この反面、文書の登録に際して、インデクス情
報の追加処理に要するオーバヘッドが大きく、大量の文
書を登録する業務においては、これが運用のネックとな
っている。そこで、文書を1件登録する毎インデクスに
反映せず、大量の文書を一括して反映することにより処
理効率を改善する方法が公知となっている。この反映契
機として、反映処理のコマンドを投入する。あるいは予
め指定した時刻に当該処理が起動されるように設定する
ことで自動的に行う。
【0003】
【発明が解決しようとする課題】上述のような大量に登
録文書をため込み、後に一括してインデクスに反映する
システムを用いて文書管理を行うと、次のような問題点
が発生する。すなわち、1.文書を登録してから、それ
がインデクスに反映されるまで、探索の対象とならな
い。すなわち最新状態の文書情報を検索することができ
ない。2.反映途中のインデクスを探索すると、検索結
果が不正となるため、反映処理と検索処理の同時実行を
抑止しなければならない。すなわち反映処理の間は検索
業務が停止する。3.インデクス反映処理ではその格納
ファイルの内容を大量に変更する。(その際、障害発生
時の回復処理用に、更新内容をログ出力することは、ロ
グが大量となることから実用的でない。)ログを取得し
ない場合、事前に取ったバックアップより回復すること
になる。バックアップをこまめに取得するのは運用上の
負担が大きく、取得頻度を減らすと回復に要する時間が
長くなる。いずれにしても回復処理が煩わしい。
【0004】
【課題を解決するための手段】上記の問題を解決するた
め、本発明の文書管理システムは、登録されている文書
の文字情報からなる全文検索用のテキストインデクスを
格納しているテキストインデクス格納部、その制御を行
うテキストインデクス制御部、文書データを格納するデ
ータ格納部、その制御を行うデータ制御部、クライアン
トとの間でデータの送受信を行うデータ送受信制御部を
有し、クライアントからの文書登録、あるいは検索要求
に応じて、文書管理を行う文書管理システムであって、
登録した文書のテキストインデクスへの反映を自動的に
一括して行い、バックアップの自動取得と、常に最新状
態の文書に対する検索を実現することを特徴とする文書
管理システム。
【0005】
【発明の実施の形態】以下、本発明の実施例を図面を用
いて具体的に説明する。
【0006】図1は本発明のシステム構成例である。
【0007】10は文書管理システム機能を提供するサ
ーバである。18は本システム機能を利用するクライア
ントであり、14のネットワークを介して文書の登録や
検索処理を要求する。文書管理サーバ10はテキストイ
ンデクス15の探索および更新やインデクス管理情報1
6の管理を行うテキストインデクス制御部11、文書デ
ータ17の取り出しおよび格納を行うデータ制御部1
2、ネットワーク14を介してクライアント18との処
理要求やデータの送受信を行うデータ送受信制御部13
からなる。クライアント18は文書検索および登録要求
を行う応用プログラム19と要求やデータをサーバとの
間で送受信するデータ送受信制御部13からなる。図2
に本方法における文書の検索・登録およびテキストイン
デクスへの反映処理の流れを示すフローチャートを示
す。検索処理の流れを図2(a)に示すフローチャート
を参照して説明する。先ず21においてテキストインデ
クスを探索し探索条件(検索ターム)を含む文書のデータ
番号を得る。次に22においてデータ格納分には登録さ
れているがテキストインデクスには反映されていない文
書データが存在しているかチェックを行う。最新のイン
デクス反映処理の対象となった文書以降に登録された文
書が存在する場合には23以降の処理を、存在しない場
合には26以降の処理を行う。23において未反映文書
を参照して検索タームが含んでいるかチェックする。含
んでいる場合には24により当該文書のデータ番号をテ
キストインデクスの探索結果に追加する。25において
未反映文書が残っているかチェックし、残っている場合
には、その文書データについて23以降の処理を行う。
残っていない、すなわち全件完了している場合には26
の処理に移り、探索条件に該当した文書データを取り出
し検索処理を完了する。
【0008】検索処理の実行タイミングによる処理内容
の違いを図3を用いて説明する。
【0009】初期状態ではテキストインデクスに反映し
た後に登録された文書データがないため、テキストイン
デクスの探索結果だけから該当文書を決定する。
【0010】反映処理の開始時点では、インデクスに反
映していない文書データがあるため、インデクスの探索
完了後、追加分の文書を参照し検索タームのチェックを
行い、該当文書をインデクス探索結果とマージする。反
映処理の処理途中では、テキストインデクスに追加分の
文書情報が反映されつつある状態を探索するため、追加
分の文書については正しい結果が得られない場合があ
る。このため、文書を参照しての検索タームチェックは
不確定な追加分の文書以降、最新状態までを対象とす
る。反映処理の完了時点では上記処理の結果、追加分の
文書がインデクスに反映されおり、インデクスの探索完
了後、反映処理開始以降に新たに追加された分の文書を
対象として検索タームチェックを行う。
【0011】以上のようにいかなるタイミングにおいて
もテキストインデクスの探索と追加登録分の文書に対す
る検索タームチェックを併用することで最新状態の文書
を対象とした検索を効率的に実現する。登録処理の流れ
を図2(b)に示すフローチャートを参照して説明す
る。先ず31において文書番号を採番し文書を登録す
る。次に32で未反映文書の反映要求時刻が設定されて
いるかチェックし、設定されていない場合には33にお
いて現在の時刻に最大許容遅延時間を加えて求めた最遅
反映時刻を設定する。次に34において文書番号とテキ
ストインデクスに反映されている文書番号を比較し、そ
の差が規定値に達しているかチェックする。規定値に達
している場合に限り35によりインデクス反映処理を起
動して登録処理を完了する。反映処理の流れを図2
(c)に示すフローチャートを参照して説明する。先ず
41で反映対象となる最終文書番号を決定するとともに
未反映文書の反映要求時刻をクリアする。42において
未反映の文書を取り出しインデクスへの反映処理を行
い、43において未反映文書が残っていないかチェック
し、残っている場合には、42に戻り未反映文書の反映
処理を継続する。対象の文書について反映が完了した場
合、44において前回のバックアップに使用したファイ
ルを判定し、今回の出力先ファイルを決定し、45によ
り当該インデクスの内容をバックアップ用のファイルに
出力する。次に46でインデクス反映済みの文書番号や
バックアップ取得ファイル等のインデクス管理情報を更
新し反映処理を完了する。時間監視機能による反映起動
処理の流れを図2(d)に示すフローチャートを参照し
て説明する。先ず51で当該インデクスに対して文書が
追加登録されているかチェックする。登録されている場
合、さらに52により現在の時刻がインデクス反映要求
時刻に達して(過ぎて)いるかをチェックする。達してい
る場合には、53によりインデクスの反映処理を起動し
て当該処理終了する。この監視処理を定期的に行う。
【0012】
【発明の効果】以上に説明したように、本発明の文書管
理方式によれば、以下のような利点がある。1.適切な
インデクス反映契機(件数&時間)によって追加登録した
文書のインデクス反映処理が効率的に実現される。2.
インデクスへの反映状態に依存せず、さらに反映処理の
完了を待つことなく、常に最新の登録文書を対象とした
検索を行うことができる。3.インデクスの反映処理と
連動してバックアップが取得されるため、常に最新のバ
ックアップが自動的に取得される。障害発生時にはこれ
を使って最新状態に戻すだけで、すぐに文書検索システ
ムの運用が継続できる。
【図面の簡単な説明】
【図1】本発明の一実施例にかかる文書管理システムの
構成を示すブロック図
【図2】本発明による文書の検索、登録、インデクス反
映処理の処理フロー例を示すフローチャート
【図3】本発明によるインデクス反映状態と文書の検索
処理の関連を示す図
【符号の説明】
10 文書管理システムサーバ、 11 テキストインデクス制御部、 12 データ制御部、 13 データ送受信制御部、 14 ネットワーク、 15 テキストインデクス、 16 テキストインデクスの管理情報、 17 文書データ、 18 クライアント、 19 応用プログラム
───────────────────────────────────────────────────── フロントページの続き (72)発明者 河村 信男 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所情報・通信開発本部内 (72)発明者 原 憲宏 神奈川県川崎市幸区鹿島田890番地 株式 会社日立製作所情報・通信開発本部内

Claims (3)

    【特許請求の範囲】
  1. 【請求項1】文書データとその構成文字毎の登場位置情
    報よりなるインデクスを格納したデータベースを有し、
    任意の文字列を含む文書を当該インデクスを探索するこ
    とで求める文書管理システムにおいて、 追加登録した文書のインデクス反映を複数件数分をまと
    めて大量文書を登録するインデクス反映処理を行うこと
    を特徴とする文書管理システム。
  2. 【請求項2】請求項1記載の文書管理システムにおい
    て、 追加登録した文書をインデクスを反映する際に、インデ
    クスの内容を別ファイルに複写し、障害の発生に際して
    使用するバックアップを作成することで、障害発生時に
    はファイルをバックアップにより戻した後はインデクス
    の遅延反映処理により、自動的に最新状態に戻ることを
    特徴とする文書管理システム。
  3. 【請求項3】請求項1記載の文書管理システムにおい
    て、 登録した文書インデクスへの反映が完了していないもの
    については文書を直接参照し、インデクスの探索結果と
    マージすることで常に最新の登録文書が検索対象となる
    ことを特徴とする文書管理システム。
JP9123754A 1997-05-14 1997-05-14 文書管理システム Pending JPH10312393A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP9123754A JPH10312393A (ja) 1997-05-14 1997-05-14 文書管理システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP9123754A JPH10312393A (ja) 1997-05-14 1997-05-14 文書管理システム

Publications (1)

Publication Number Publication Date
JPH10312393A true JPH10312393A (ja) 1998-11-24

Family

ID=14868486

Family Applications (1)

Application Number Title Priority Date Filing Date
JP9123754A Pending JPH10312393A (ja) 1997-05-14 1997-05-14 文書管理システム

Country Status (1)

Country Link
JP (1) JPH10312393A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002189757A (ja) * 2000-12-20 2002-07-05 Canon Inc データ検索装置及び方法
KR100663605B1 (ko) * 1999-12-18 2007-01-02 주식회사 케이티 전자문서 백업/복구 장치 및 그 방법
JP2007109133A (ja) * 2005-10-17 2007-04-26 Ntt-It Corp 検索インデクス生成方法およびプログラムおよびプログラムを記録した記録媒体
CN107704552A (zh) * 2017-09-27 2018-02-16 合肥博力生产力促进中心有限公司 一种基于云管理系统的企业数据管理及监控系统

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100663605B1 (ko) * 1999-12-18 2007-01-02 주식회사 케이티 전자문서 백업/복구 장치 및 그 방법
JP2002189757A (ja) * 2000-12-20 2002-07-05 Canon Inc データ検索装置及び方法
JP2007109133A (ja) * 2005-10-17 2007-04-26 Ntt-It Corp 検索インデクス生成方法およびプログラムおよびプログラムを記録した記録媒体
CN107704552A (zh) * 2017-09-27 2018-02-16 合肥博力生产力促进中心有限公司 一种基于云管理系统的企业数据管理及监控系统

Similar Documents

Publication Publication Date Title
US6549917B1 (en) Synchronization of host computers and handheld remote computers
CA2116029C (en) Code server
US9229940B2 (en) Method and apparatus for improving the integration between a search engine and one or more file servers
JP4318741B2 (ja) データベースシステム、データベース検索方法及び記録媒体
US6638314B1 (en) Method of web crawling utilizing crawl numbers
US7308643B1 (en) Anchor tag indexing in a web crawler system
US5802524A (en) Method and product for integrating an object-based search engine with a parametrically archived database
US5761404A (en) Image-data managing apparatus
JP2003150594A (ja) データウェアハウスシステム
US8959062B2 (en) Data storage device with duplicate elimination function and control device for creating search index for the data storage device
US20030115268A1 (en) Conflict resolution for collaborative work system
CA2422161C (en) Decoupled object identification for object switching in database systems
KR970076238A (ko) 클라이언트 데이타 화일의 다수의 복사본을 생성하고 관리하는 서버, 방법 및 그 프로그램 제품
JPH1021061A (ja) クライアントソフトウェア自動バージョンアップシステム
US6480887B1 (en) Method of retaining and managing currently displayed content information in web server
US6951016B2 (en) Code server
EP1131756B1 (en) Protocol for synchronizing parallel processors in a mobile communications system
JPH09204442A (ja) ドキュメントデータ検索システム
JPH0535570A (ja) コピーされたデータ・オブジエクトの文脈探索の方法
JPH10312393A (ja) 文書管理システム
US7107290B2 (en) Method and system for automatically checking-out/in and replicating documents in databases
JP3250453B2 (ja) リンクメンテナンスシステム
CN109558417B (zh) 一种数据处理方法和系统
JPH103418A (ja) 電子計算機システム間のデータ一致方式
JP2003122618A (ja) データベースダウンロードシステムおよびプログラム