JP5487854B2 - 文書情報収集システム、文書情報収集方法、文書情報収集プログラム - Google Patents

文書情報収集システム、文書情報収集方法、文書情報収集プログラム Download PDF

Info

Publication number
JP5487854B2
JP5487854B2 JP2009222520A JP2009222520A JP5487854B2 JP 5487854 B2 JP5487854 B2 JP 5487854B2 JP 2009222520 A JP2009222520 A JP 2009222520A JP 2009222520 A JP2009222520 A JP 2009222520A JP 5487854 B2 JP5487854 B2 JP 5487854B2
Authority
JP
Japan
Prior art keywords
document
document information
information
state
collection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009222520A
Other languages
English (en)
Other versions
JP2011070523A (ja
Inventor
康之 友永
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2009222520A priority Critical patent/JP5487854B2/ja
Publication of JP2011070523A publication Critical patent/JP2011070523A/ja
Application granted granted Critical
Publication of JP5487854B2 publication Critical patent/JP5487854B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ネットワーク上に分散して格納されたデータを収集する情報収集システムに関する。
企業内に設置された企業内LAN(Local Area Network)では、この企業内LANに接続された端末間で、生成・更新された企業内文書やファイル情報などの文書情報を共有するため、文書情報の収集を行い管理する文書情報収集システムが設けられ、例えばバックアップやデータベース用に、生成、更新された文書情報の収集を行う。
この文書情報の収集にあたって、例えば、文書情報収集システムが、長期間内容変更が行われていない文書情報と内容変更が頻繁行われている文書情報をそれぞれ同等の頻度で収集する設定である場合、内容変更が行われていない、同一内容の文書情報が記憶ディスク上に蓄積されることとなる。
このため、データベースに設置された記憶ディスクなどの記憶領域(リソース)は、収集の必要性の低い、同一内容の文書情報により占有されることとなり、リソース利用の効率性が低下してしまう。
また、上記文書情報収集システムで、頻繁に内容変更が行われる文書情報が他の文書情報と同等の頻度で収集が行われた場合、文書情報収集の頻度が内容変更の頻度に比べて低いことにより、文書内容の更新を反映することができず、収集された文書情報を最新の状態に維持することができず、更新精度が低下してしまうといった不都合が生じ得る。
ところで、文書情報には、一般に、1)作成、2)承認、3)公開、4)保管、5)廃棄などの状態からなる文書ライフサイクルがあることが知られている。このため、この文書ライフサイクルにおける文書情報の状態(「文書状態」という)に応じて文書情報の収集を行うことにより、リソース利用の効率性を高めることができる。
また、文書情報収集のための収集ポリシーを設定して、この収集ポリシーに基づき文書情報収集を行うことによっても、文書情報収集に係るリソース利用の効率性を高めることができる。
しかしながら、予め設定された収集ポリシーを柔軟に変更するには、収集の対象である文書情報のライフサイクルを管理するシステムを予め導入する必要があり、この場合、文書情報収集システム全体として大規模で煩雑なシステムとなってしまう不都合がある。
また、これに対する関連技術として、ウェブコンテンツに対する情報収集方法と同様の方法により、ファイル情報などの文書情報の収集が行う文書情報収集システムが開示されている(特許文献1)。
特願平10−49553号公報
しかしながら、上記特許文献1に記載の関連技術における文書情報集装置では、ウェブコンテンツ情報の収集を想定しているため、文書情報における上記文書ライフサイクルや文書情報ごとに異なる内容更新の必要性を考慮することなく、文書情報の収集が行われる。
このため、文書情報の収集効率を高めることが困難であると共に、文書情報収集に係るリソース利用の効率性を高めることができないといった不都合が生じ得る。
更に、上記関連技術では、文書ライフサイクルを管理するシステムが導入されていない環境では、文書状態に応じた文書収集方法の変更や収集ポリシーの変更などを行うことができないといった不都合がある。
[発明の目的]
本発明は、上記関連技術の有する不都合を改善し、文書情報の収集にかかるリソースの負荷を有効に軽減し得る文書情報収集システム、文書情報収集方法、文書情報収集プログラムを提供することを、その目的とする。
上記目的を達成するために、本発明に係る文書情報収集システムは、文書情報を記憶保持する文書情報記憶装置と、各文書情報を当該各文書情報に対応して予め設定された収集頻度で収集を行うと共に収集した文書情報を予め設定された文書データベースに格納する文書情報収集装置とを備えた文書情報収集システムであって、文書情報収集装置が、各文書情報の作成および更新された日時にかかる情報を示す文書履歴情報を取得する履歴情報取得部と、文書履歴情報に基づいて各文書が文書のライフサイクルにおけるどの状態にあるかを示す状態判定スコアを算出し、この状態判定スコアが予め設定された閾値以上であるか否かに応じて各文書情報が内容変更される頻度が高頻度であるか低頻度であるかを示す更新頻度状態を推定し設定する更新頻度状態推定部と、設定された更新頻度状態に基づき文書情報収集装置が一定期間内に各文書情報の収集を行う度合いを収集頻度として決定する収集頻度決定部とを備えた構成をとっている。
また、本発明にかかる文書情報収集方法は、作成および更新された文書情報を記憶保持する文書情報記憶装置と、各文書情報を当該各文書情報に対応して予め設定された収集頻度で収集し予め設定された文書情報収集装置とを備えた文書情報収集システムにあって、予め設定された文書データベースに格納するための文書情報収集方法であって、各文書情報の作成および更新された日時にかかる情報を示す文書履歴情報を取得し、文書履歴情報に基づいて各文書が文書のライフサイクルにおけるどの状態にあるかを示す状態判定スコアを算出し、文書情報が予め設定された基準頻度より高頻度に内容変更される状態にあるか基準頻度より低頻度に内容変更される状態にあるかを示す更新頻度状態を状態判定スコアが予め設定された閾値以上であるか否かに応じて設定し、設定された更新頻度状態に基づき文書情報収集装置が一定期間内に各文書情報の収集を行う度合いを収集頻度として決定し、文書情報記憶装置から各文書情報を決定された収集頻度で収集することを特徴としている。
又、本発明にかかる文書情報収集プログラムは、作成および更新された文書情報を記憶保持する文書情報記憶装置と、各文書情報を当該各文書情報に対応して予め設定された収集頻度で収集し予め設定された文書情報収集装置とを備えた文書情報収集システムにあって、予め設定された文書データベースに格納する文書情報収集プログラムであって、各文書情報の作成および更新された日時にかかる情報を示す文書履歴情報を取得する処理を行う履歴情報取得機能と、文書履歴情報に基づいて各文書が文書のライフサイクルにおけるどの状態にあるかを示す状態判定スコアを算出し、この状態判定スコアが予め設定された閾値以上であるか否かに応じて各文書情報が内容変更される頻度が高頻度であるか低頻度であるかを示す更新頻度状態を推定し設定する更新頻度状態推定機能と、設定された更新頻度状態に基づき文書情報収集装置が一定期間内に各文書情報の収集を行う度合いを収集頻度として決定する収集頻度決定機能と、文書情報記憶装置から各文書情報を決定された収集頻度で収集する処理を行う文書情報収集機能とを予め設定されたコンピュータに実現させることを特徴としている。
本発明は、以上のように構成され機能するので、これによると、予め記憶された各文書情報の更新された日時にかかる情報に基づき、文書情報の内容変更の度合いに応じた文書の状態を推定設定し、設定された文書の状態に応じて設定した頻度で上記文書情報の収集を行う構成としたことにより、文書情報の収集処理にかかる処理負荷を有効に軽減し得る文書情報収集システム、文書情報収集方法、文書情報収集プログラムを提供することができる。
本発明による文書情報収集システムにおける一実施形態を示す概略ブロック図である。 図1に開示した文書情報収集システムにおける文書情報の文書状態の推移過程を示す説明図である。 図3(a)は、図1に開示した文書情報収集システムにおける文書情報管理テーブルに記憶された内容の一例を示す説明図であり、図3(b)は、図1に開示した文書情報収集システムにおける文書状態管理テーブルに記憶された内容の一例を示す説明図であり、図3(c)は、図1に開示した文書情報収集システムにおけるサーバ情報管理テーブルに設定された内容の一例を示す説明図である。 図1に開示した文書情報収集システムにおける文書状態推定部の動作処理ステップを示すフローチャートである。 図1に開示した文書情報収集システムにおける文書情報収集部の動作処理ステップを示すフローチャートである。 図1に開示した文書情報収集システムにおける文書情報収集要求部の動作処理ステップを示すフローチャートである。 図1に開示した文書情報収集システムにおける文書状態推定部の動作処理ステップを示すフローチャートである。
[実施形態]
次に、本発明の実施形態について、その基本的構成内容を説明する。
本実施形態である文書収集システム1は、例えば企業内LAN(Local Area Network)の各端末で生成・編集され当該各端末から送り込まれた文書情報を記憶する文書格納サーバ300と、文書格納サーバ300に記憶された文書情報の状態(文書ライフサイクルにおける状態:文書状態)を示す予め設定された文書状態に基づいて文書格納サーバ300から文書情報の収集を行う文書情報収集サーバ200と、文書情報収集サーバ200が収集を行う文書情報を決定するための参照情報である各種管理テーブルを保持するデータベースサーバ100を備えた構成となっている。
また、上記文書情報収集サーバ200は、データベースサーバ100に予め格納された管理テーブルの情報に基づき文書格納サーバに記憶された文書情報の収集を行うと共に、収集した文書情報に含まれる特定の情報に基づいてデータベースサーバ100の管理テーブルの情報を更新する。
更に、文書情報収集サーバ200は、データベースサーバ100に格納されている管理テーブルの内容に基づいて、文書格納サーバ内に記憶された文書情報の文書状態を推定(設定)すると共に、推定(設定)された内容に基づきデータベースサーバ100に格納された管理テーブルの内容を更新する。
尚、一般に、文書情報(企業内文書)は、図2に示すように、1)作成、2)承認、3)公開、4)保管、5)廃棄の5つの状態(文書状態、段階)からなる文書ライフサイクルを辿る。
このため、文書格納サーバ300に格納された各文書情報(企業内文書)は、当該文書情報の生成時点、または編集時点を基準として、1)作成、2)承認、3)公開、4)保管、5)廃棄の何れかの状態にあるものとする。
また、企業内文書(文書情報)は、文書ライフサイクルにおけるどの状態(文書状態)にあるかによって、その文書内容に対する変更が行われる頻度が異なる。尚、一般に、文書ライフサイクルにおける文書状態と文書内容の変更頻度との関係には、以下に示すような傾向がある。
例えば、文書状態が、(1)作成、または(2)承認状態にある文書情報は、一般に、頻繁に変更される確率が高く、また、(3)公開、または(4)保管の状態(文書状態)にある文書情報は、頻繁に変更される確率が低い。
次に、文書収集システム1の構成内容について、詳説する。
データベースサーバ100は、図1に示すように、文書情報収集サーバ200により収集された文書情報を記憶保持する文書情報管理テーブル110と、文書情報収集部230により収集された文書情報のメタ情報を記憶保持する文書状態管理テーブル120と、文書情報の収集が行われる対象サーバである文書格納サーバ300に係る情報を記憶保持するサーバ情報管理テーブル130とを備え、更に、上記文書情報管理テーブル110、文書状態管理テーブル120、およびサーバ情報管理テーブル130それぞれのデータフィルールドの更新を行うデータベース更新制御部を備えた構成を有する。
尚、データベースサーバ100は、HDDなどの記憶装置と、CPU、メモリなどを備えた一般のサーバコンピュータであって、上記CPUが予め設定されたプログラムに基づく実行処理を行うことにより、データベース更新制御部を実現するものとする。
文書情報収集サーバ200は、文書状態管理テーブル120に記憶されたメタ情報に基づいて文書格納サーバ300に記憶された文書情報の状態を推定し設定する文書状態推定部210と、文書情報管理テーブル110に格納された文書情報、この文書情報の状態を示す状態情報、および文書格納サーバ300に係るサーバ情報に基づいて、文書格納サーバ300に格納された文書情報について収集を行う優先度を決定する文書情報収集要求部220と、文書情報管理テーブル110および文書状態管理テーブル120を更新する文書情報収集管理部230と、収集を行う文書のURI情報を、要求情報として(キューの形式で)で保持する文書情報収集要求キュー240を備えている。
尚、文書情報収集サーバ200は、通信回線を介してデータベースサーバ100および文書格納サーバ300に接続された、一般のサーバコンピュータであって、その内部にCPU、メモリなどを備え、このCPUが、予め設定されたプログラムに基づく実行処理を行うことにより、以下に示す動作機能部を実現する。
文書状態推定部210は、データベースサーバ100の文書状態管理テーブル120に対して、文書情報の履歴情報(更新日時(1)〜更新日時(n))の取得要求を行う(履歴情報取得要求機能)。
文書状態推定部210は、文書状態管理テーブル120内に、対象文書情報の文書IDに対応する文書レコードが存在する場合(エントリあり)、取得した更新日時(1)〜(n−1)をそれぞれ更新日時(2)〜更新日時(n)に設定し、更に、対象文書情報の更新日時を、更新日時(1)に設定することにより、履歴情報(更新日時(1)〜更新日時(n))を新たに作成する(履歴情報更新機能)。
また、文書状態推定部210は、文書状態管理テーブル120内に、対象文書情報の文書IDに対応する文書レコードが存在しない場合、与えられた文書情報の作成日時を更新日時(2)、作成日時に対して1秒(秒数に1を加えた)を加えた日時を更新日時(1)として履歴情報を新たに作成する(履歴情報更新機能)。
更に、文書状態推定部210は、作成または更新した履歴情報に基づいて、各文書情報の状態判定スコアを計算する状態判定スコア計算機能を備えている。更に、文書状態推定部210は、算出した状態判定スコアを文書状態管理テーブル120に書き込む状態判定スコア格納機能を有する。
ここで、状態判定スコアとは、例えば図3(b)に示すように、各文書情報の文書状態の段階を示す数値であり、例えば、対象文書情報の優先度を示す数値として優先度の高さに応じて0〜1の数値が設定される設定としてもよい。
また、状態判定スコアは文書状態に対応して、例えば、0〜0.2は作成状態、0.21〜0.4は承認状態、0.41〜0.6は公開状態、0.61〜0.8は保管状態、0.81〜1は廃棄状態を示す設定であってもよい。
ここで、文書状態推定部210による状態判定スコア計算機能について、詳説する。
まず、文書状態推定部210は、文書情報に対応して予め設定された状態判定スコアを0に初期化し、ループ制御変数(以下、iと表記)に2を設定する。また、文書状態推定部210は、更新日時(i−1)と更新日時(i)を比較し、両者が一致する場合は状態判定スコアにiの値を加算する。
次に、文書状態推定部210は、ループ制御変数に1を加算し、iの値がnの値以下の場合は、「更新日時(i−1)と更新日時(i)を比較して両者が一致する場合は状態判定スコアにiの値を加算する」動作を再帰的に行う。
一方、iの値がnの値より大きい場合、文書状態推定部210は、状態判定スコアをnで除算し、その結果を状態判定スコアとしてデータベースサーバ100に返信する。
以上のように、文書状態推定部210は、状態判定スコアを算出することにより文書状態の推定設定を行う。また、本実施形態では、以下に示す、文書情報収集要求部220、文書情報収集管理部230、および文書情報収集要求キュー管理部240により、推定設定された文書状態に基づく文書情報の収集頻度の調整を行う。
また、文書状態推定部210は、データベースサーバ100に対して、文書情報の履歴情報および状態判定スコアに対応する文書レコードの作成を要求する(エントリ作成更新要求)。
また、文書状態推定部210は、データベースサーバ100に対して、対象文書情報の履歴情報および状態判定スコアの更新を要求する判定スコア更新要求機能(S107)を備えている。
文書情報収集要求部220は、文書IDおよび当該文書IDに対応する文書情報の状態判定スコアの取得をデータベースサーバ100に対して要求する状態判定スコア要求機能を有する。
また、文書情報収集要求部220は、取得した文書IDに対応した文書情報の格納先のサーバIDおよび格納パスを、データベースサーバ100に対して要求する格納パス要求機能と、取得したサーバIDのサーバIPアドレスを、データベースサーバ100に対して要求するサーバIPアドレス取得要求を有する。
更に、文書情報収集要求部220は、データサーバ100から取得した、対象文書情報の状態判定スコアが予め設定された閾値以上の値である場合、その文書状態が(作成、承認)状態であると判定し、文書情報収集要求キュー(高優先度)241に対して対象文書情報のURI情報(文書ID、サーバIPアドレス、および格納パスを含む)の追加格納を要求する(URI追加格納要求機能)。
また、文書情報収集要求部220は、データサーバ100から取得した、対象文書情報の状態判定スコアが上記閾値未満の値である場合、その文書状態が(公開、保管、破棄)状態であると判定し、文書情報収集要求キュー(低優先度)242に対して、対象文書のURI情報(対象文書のアドレス:文書ID、サーバIPアドレス、および格納パスを含む)の追加格納を要求する(URI追加格納要求機能)。
これにより、文書情報収集要求部220は、文書情報収集要求キュー(高優先度)241および文書情報収集要求キュー(低優先度)242に対する収集対象文書情報を格納する。
また、文書情報収集要求部220は、文書状態管理テーブル120に格納された状態判定スコアに応じて文書情報を、文書情報収集要求キュー(高優先度)241、または文書情報収集要求キュー(低優先度)242に振り分ける(文書情報振分機能)。
ここで、文書情報収集要求部220は、文書情報管理テーブル110に格納された文書情報を文書情報収集要求キューに格納する際に、どちらの文書情報収集要求キュー(241、242)に振り分けるかを、文書状態管理テーブル120に格納された状態判定スコアに基づき決定する。
ここで、文書情報収集要求部220は、文書情報の文書状態が作成、承認、公開、保管、廃棄の何れの状態にあるかを、文書状態管理テーブル120の状態判定スコアに基づき判定を行う。
尚、本実施形態では、文書状態が(作成、承認)または(公開、保管、廃棄)のどちらの状態にあるかを判定できればよく、文書情報収集要求部220は、図6に示すように、状態判定スコアが予め設定された閾値以上である場合を(作成、承認)の状態、状態判定スコアがこの閾値未満である場合は(公開、保管、廃棄)の状態にあると判定するものとする。
また、文書情報収集要求部220は、状態判定スコアに基づき優先度が高い(状態判定スコアが閾値以上)と判定された文書情報にかかる文書関連情報(例えば、URI情報)を、文書情報収集要求キュー(高優先度)241に格納する。また、状態判定スコアに基づき優先度が低い(状態判定スコアが閾値未満)と判定された文書情報にかかるURI情報(文書関連情報)を、文書情報収集要求キュー(低優先度)242に格納する。
これにより、文書情報収集要求キュー(高優先度)241には、(作成、承認)の状態の文書情報にかかる情報(URI情報:文書関連情報)が、また、文書情報収集要求キュー(低優先度)242には、(公開、保管、廃棄)の状態にある文書情報にかかる情報(URI情報:文書関連情報)が、それぞれ格納される。
これにより、(作成、承認)の状態の文書情報は、文書情報収集部(高優先度)231により高頻度に収集され、一方、(公開、保管、廃棄)の状態にある文書は、文書情報収集部232により低頻度に収集される。このため、優先度が高い文書情報は短い間隔で、優先度が低い文書情報は長い間隔でそれぞれ収集される。
尚、文書情報収集要求部220は、文書情報収集管理部230と並行して、つまり、マルチスレッドで動作するモジュールプログラムであって、動作開始および終了のタイミングを、文書情報収集管理部230に合わせて行う設定としてもよい。
また、文書情報収集要求部220は、上述のように、文書情報収集管理部230が収集対象とする文書情報に係る文書関連情報を、文書情報収集要求キュー(高優先度)241および文書情報収集要求キュー(低優先度)242に対して格納する。文書情報収集管理部(230)は、文書情報収集要求部(220)が文書情報収集要求キュー(241、242)に格納した情報に基づいて文書情報を収集を行う。
文書情報収集部230は、文書情報収集要求キュー240に対して文書情報のURI情報の取得を要求するURI情報取得要求機能と、文書情報収集要求キュー240から取得したURI情報を用いて、文書格納サーバ300に対して文書情報の取得要求を行う文書情報取得要求機能とを備えている。
ここで、文書情報収集部230は、文書情報収集要求キュー240により指定されたURLを含むメッセージを文書格納サーバ300に対して送信することにより、URLにより特定される文書情報の取得要求を行う。
また、文書情報収集部230は、文書情報収集要求キュー(高優先度)241に格納された文書関連情報(URI情報)を取得する文書情報収集部(高優先度)231と、文書情報収集要求キュー(低優先度)242に格納された文書関連情報(URI情報)を取得する文書情報収集部(低優先度)232を備えている。
ここで、文書情報収集部(高優先度)231は、文書情報収集部(低優先度)232に比べて高頻度に文書情報収集要求キュー(高優先度)241に格納された文書関連情報を取得する動作を行う設定としてもよい。
ここで、文書情報収集部(高優先度)231および文書情報収集部(低優先度)232は、それぞれ文書関連情報(URI情報)を取得する頻度が異なる。つまり、文書情報収集部231は高頻度に(優先度の高い)文書情報のURI情報を取得し、文書情報収集部232は、文書情報収集部231に比べて低頻度に(優先度の低い)文書情報のURI情報を取得する。
このため、URI情報に基づき文書情報収集部231および232により行われる文書情報の収集動作の頻度が調整されることになる。
ここでは、例えば、文書情報収集部(高優先度)231が、100文書/分のペースで文書情報を収集し、また、文書情報収集部(低優先度)232が、1文書/分のペースで文書情報を収集するものとする。
また、文書情報収集部230は、指定したURI情報に対応する文書情報(対象文書情報)が文書格納サーバ300内に存在する場合、この対象文書情報に対応した、予めデータベースサーバ100内に格納された同文書情報の更新を、データベースサーバ100に対して要求する文書情報更新要求機能を備えている。
更に、文書情報収集部230は、文書状態推定部210に対して予め格納された対象文書情報の状態判定スコアの更新を要求する状態判定スコア更新要求機能を有する。
更に、文書情報収集部230は、指定したURI情報に対応する文書情報(対象文書情報)が文書格納サーバ300内に存在しない場合、データベースサーバ100に対して、文書情報管理テーブル110内に予め格納された、対象文書情報に対応する文書レコードの削除を要求する。
文書情報収集要求キュー管理部240は、文書情報収集部230からの要求に応じて、文書情報収集要求キュー格納部である高優先度241または低優先度242から、対応するURI情報を取り出して返信するURI情報返信機能を備えている。
文書情報収集要求キュー格納部(高優先度)241は、データベースサーバ100の追加格納要求に含まれた、高優先度と判定された文書情報のURI情報を、追加格納するURI情報追加格納機能を有する。ここで、追加格納されるURI情報は、データ構造キューの末尾に追加されるものとする。
また、文書情報収集要求キュー格納部(低優先度)242は、低優先度と判定された文書情報に係るURI情報をキューの末尾に追加する処理を行う追加格納処理機能を備えている。
データベースサーバ100は、文書情報収集管理部230により文書格納サーバ300から収集された文書情報を格納する記憶領域としての文書情報管理テーブル110と、文書状態推定部210により設定された各文書情報の文書状態を記憶保持する記憶領域である文書状態管理テーブル120と、収集する文書情報の格納先である文書格納サーバ(ここでは、300)に係る情報を記憶するサーバ情報管理テーブル130を備えると共に、文書情報収集サーバ200からの要求に応じて上記文書情報管理テーブル110、文書状態管理テーブル120、およびサーバ情報管理テーブル130に記憶された情報の更新制御を行うデータベース更新制御部を備えた構成となっている。
ここで、上記文書情報管理テーブル110には、例えば図3(a)に示すように、収集された各文書情報の文書ID、各文書情報が格納された文書格納サーバのサーバID、文書格納サーバ内における各文書情報の格納パス、および、各文書情報の内容である本文(文書内容)がテーブル情報(文書レコード)として格納されているものとする。
また、上記文書状態管理テーブル120には、例えば図3(b)に示すように、収集された各文書情報の文書ID、作成された日時(作成日時)、更新の行われた日時(更新日時(1)〜(n))、状態判定スコアがテーブル情報(文書レコード)として格納されている。
更に、上記サーバ情報管理テーブル130には、例えば図3(c)に示すように、収集が行われる文書情報の格納先である各文書格納サーバのサーバID、サーバIPアドレス、サーバ種別がテーブル情報として格納されている。
また、データベース更新制御部は、文書情報収集部230からの要求に応じて、収集された文書情報を文書情報管理テーブル110に文書レコードとして格納する文書レコード作成機能と、文書情報収集サーバ200からの要求に応じて文書レコードの更新を行う文書レコード更新機能を備えている。
ここで、作成された文書レコードには、対象文書情報の文書ID、文書内容、作成日時、および更新日時が含まれているものとする。
更に、データベース更新制御部は、文書情報収集部230からの要求に応じて、文書情報管理テーブル110および文書状態管理テーブル120から同文書の文書IDに対応する文書レコードを削除する文書レコード削除機能を有する。
また、データベース更新制御部は、文書情報収集要求部220からの要求に応じて、文書状態管理テーブル120から文書IDフィールド、および状態判定スコアフィールドを取得すると共に文書情報収集要求部220に返信する状態判定スコア返信機能と、文書情報管理テーブル110から文書IDに対応する文書レコードのサーバIDフィールドおよび格納パスフィールドを取得して、文書情報収集要求部220に返信する格納パスフィールド返信機能を有する
更に、データベース更新制御部は、サーバ情報管理テーブル130からサーバIDに対応するサーバIPアドレス(サーバIPアドレスフィールド情報)を取得して文書情報収集要求部220に対して返信するサーバアドレス返信機能と、指定された文書IDに対応する文書レコードの履歴情報(履歴情報フィールド情報)を、文書状態管理テーブル120から取得し、文書状態推定部210に返信する履歴情報返信機能を有する。
また、データベース更新制御部は、文書状態管理テーブル120の文書IDに対応するレコードの履歴情報フィールドおよび状態判定スコア(フィールド)の更新を行う状態判定スコア更新機能を備えている。
尚、文書格納サーバ300は、企業内LANに接続され、企業内LANに接続して設定された端末(コンピュータ)から送り込まれた文書情報を記憶保持するためのサーバコンピュータであって、一般のサーバコンピュータと同様に、CPU(Central Processing Unit)、メモリを備え、また、HDD(Hard Disk Drive)などの大容量記憶装置を備えた構成となっている。
本実施形態では、文書格納サーバ300は、上記CPUが予め設定されたプログラムの実行を行うことにより、ウェブコンテンツの提供を行うウェブ(Web)サーバ310、SMB(Server Message Block)サーバ機能を提供するサンバ(Samba)サーバ320、ネットワーク経由のファイル共有システムを提供するNFS(Network File System)サーバ330を実現しているものとする。
尚、上記Webサーバ310、Sambaサーバ320、NFSサーバ330は、ネットワークに接続されたそれぞれ異なるサーバコンピュータ上で動作する構成であってもよい。
文書格納サーバ300は、文書情報収集部230からの要求に応じて、指定されたURI情報(URL)に対応する文書情報を文書情報収集部230に返信する文書情報返信機能を備えている。
尚、本実施形態では、文書状態が「作成」状態にある、未承認状態である文書情報(ファイル情報)の収集を行わない設定としてもよい。
これにより、文書情報の収集にかかるシステムリソースの処理負荷をより有効に軽減することができる。
以上のように、本実施形態では、文書情報の作成日時、更新日時などを示すメタ情報を履歴情報として記録しておき、文書情報収集サーバ200による企業内文書(文書情報)の収集時に、企業内文書それぞれの文書ライフサイクルにおける文書状態を、履歴情報に基づき推定設定すると共に、設定された文書状態に応じて各文書情報を収集の頻度(単位時間における収集回数)を決定し、文書情報の収集頻度の制御、調整を行うことを可能とする。
具体的には、文書情報収集サーバ200は、推定設定された文書状態が、作成または承認状態にある文書情報に対しては、短い間隔で高頻度に文書情報の収集を行い、公開または保管状態にある文書に対しては長い間隔で低頻度に文書情報の収集を行う。
これにより、本実施形態では、企業内文書それぞれのライフサイクルに基づいて、効率的な文書情報の収集を行うことができ、このため、文書情報の収集にかかるリソース利用の効率性を有効に高めることができる。
[実施形態の動作説明]
次に、本実施形態の動作について、その概略を説明する。
まず、文書状態推定部210が、文書格納サーバ300に記憶された文書情報の作成および更新された日時にかかる情報を示す文書履歴情報を取得し(履歴情報取得工程)、前記文書情報が予め設定された基準頻度より高頻度に内容変更される状態にあるか前記基準頻度より低頻度に内容変更される状態にあるかを示す更新頻度状態を文書履歴情報に基づき設定し(更新頻度状態推定工程)、設定された頻度状態に基づき文書情報の収集を行う周期を前記収集頻度として決定し(収集頻度決定工程)、文書情報収集管理部230が、文書情報記憶装置から前記各文書情報を前記決定された収集頻度で収集する(文書情報収集工程)。
ここで、上記履歴情報取得工程、更新頻度状態推定工程、収集頻度決定機能工程、および文書情報収集工程については、その実行内容をプログラム化し、コンピュータに実行させるように構成してもよい。
次に、文書状態推定部210による、文書状態管理テーブルにおけるエントリの作成および更新動作について、図4のフローチャートに基づき説明する。
まず、文書状態推定部210は、文書格納サーバ300から、文書状態を設定対象である対象文書情報の文書ID、作成日時、および更新日時を取得し、データベースサーバ100に同文書の履歴情報(更新日時(1)〜更新日時(n))取得要求を行う(ステップS101)。
データベースサーバ100(データベースサーバ更新制御部)は、文書状態管理テーブル120から、取得要求に含まれる文書IDに対応する文書レコードの履歴情報フィールド(作成日時、更新日時(1)〜(n)、状態判定スコア)を取得し、文書状態推定部210に送信する(ステップS102)。
このとき、文書状態推定部210は、文書状態管理テーブル120に文書IDに対応する文書レコードが存在する場合(エントリあり)、取得した更新日時(1)〜更新日時(n−1)をそれぞれ更新日時(2)〜更新日時(n)に設定する(ステップS103)と共に、対象文書情報の更新日時を更新日時(1)とした履歴情報(更新日時(1)〜更新日時(n))を新たに作成する(ステップS104)。
次いで、文書状態推定部210は、作成した履歴情報から文書の状態判定スコアを計算し(ステップS106:エントリあり)、データベースサーバ100に文書の履歴情報および状態判定スコアの更新を要求する(ステップS107)。
データベースサーバ100は、文書状態管理テーブル120の文書IDに対応するレコード(エントリ)の履歴情報フィールド(1〜n)、および状態判定スコアを更新する(ステップS110)。
一方、文書状態管理テーブル120に文書IDに対応するレコード(エントリ)が存在しない場合(エントリなし)、文書状態推定部210は、取得した文書情報の作成日時を更新日時(2)に設定すると共に、作成日時に1秒加えた日時を更新日時(1)に設定して、履歴情報を新たに作成する(ステップS105)。
次いで、文書状態推定部210は、作成した履歴情報から文書の状態判定スコアを計算し(ステップS106)、データベースサーバ100に文書の履歴情報および状態判定スコアに対応する文書レコード(エントリ)の作成を要求する(ステップS108)。
データベースサーバ100は、文書状態推定部210からの要求に応じて、文書状態管理テーブルに取得した文書情報(対象文書情報)に対応する文書レコードを作成する(ステップS109)。
ここで、文書状態推定部210における、状態判定スコアの計算を行う動作(ステップS106)について、図7のフローチャートに基づき説明する。
まず、文書状態推定部210は、文書状態管理テーブル120における、取得した文書情報(対象文書情報)の状態判定スコアを0に初期化する(ステップS401)と共に、ループ制御変数(以下、iと表記)に2を設定する(ステップS402)。
次いで、文書状態推定部210は、更新日時(i−1)と更新日時(i)を比較し(ステップS403)、両者が一致する場合は状態判定スコアにiの値を加算する(ステップS404)。
次に、文書状態推定部210は、ループ制御変数に1を加算する(ステップS405)共に、iの値がnの値以下であるかを判定し、iの値がnの値の場合はS403〜S404の処理を再帰的に実行する。
ここで、iの値がnの値より大きい場合、文書状態推定部210は、状態判定スコアをnで除算し、その結果を状態判定スコアとしてデータベースサーバ100に対して返信する(ステップS406)。
次いで、文書情報の収集を行う文書情報収集部230の動作について、図5のフローチャートに基づき説明する。
文書情報収集部230(231、232)は、文書情報収集要求キュー240に文書情報のURI情報を要求する(ステップS301)。
文書情報収集要求キュー240は、この要求に応じて文書情報収集要求キュー241、242からURI情報を取り出し、文書情報収集部230に返信する(ステップS302)。
文書情報収集部230は、取得したURI情報を用いて、文書格納サーバ300に対して文書情報の取得要求を行う(ステップS303)。
文書格納サーバ300は、取得要求に含まれるURI情報に対応した文書情報、および当該文書情報のメタ情報を、文書情報収集部230に送信する(ステップS304)。
ここで、URI情報に対応する文書が、文書格納サーバ300内に存在している場合(文書が存在する)、文書情報収集部230は、文書情報管理テーブル110における対象文書情報の文書レコード(エントリ)の更新を、データベースサーバ100に対して要求する(ステップS305)。
データベースサーバ100(データベース更新制御部)は、文書情報管理テーブル110における対象文書情報に対応する文書レコードを更新する(ステップS308)。
次に、文書情報収集部230は、文書状態推定部210に対して、対象文書情報の状態判定スコアの更新を要求する(ステップS309)。
文書状態推定部210は、この要求に応じて、上述のように、対象文書情報の状態判定スコアの更新を行う(図4)。
一方、URI情報に対応する文書が文書格納サーバ300に存在しない場合(文書が存在しない)、文書情報収集部230は、データベースサーバ100に対して同文書(対象文書情報)に対応する文書レコード(エントリ)の削除を要求する(ステップS306)。
データベースサーバ100は、文書情報管理テーブル110、および文書状態管理テーブル120から上記同文書(対象文書情報)の文書IDに対応する文書レコードを削除する(ステップS307)。
次に、文書情報収集要求部220の動作について、図6のフローチャートに基づき説明する。
まず、文書情報収集要求部220は、データベースサーバ100に対して文書IDおよび状態判定スコアを要求する(ステップS201)。
データベースサーバ100(データベース更新制御部)は、文書状態管理テーブル120から文書IDフィールド、および状態判定スコアフィールドを取得し、文書情報収集要求部220に返信する(ステップS202)。
文書情報収集要求部220は、データベースサーバ100に取得した文書IDに対応するサーバIDおよび格納パスの取得を要求する(ステップS203)。
データベースサーバ100は、文書情報管理テーブル110から文書IDに対応する文書レコード(エントリ)のサーバIDフィールドおよび格納パスフィールドを取得して文書情報収集要求部220に返信する(ステップS204)。
文書情報収集要求部220は、データベースサーバ100に対して取得したサーバIDに対応するサーバIPアドレスを要求する(ステップS205)。
データベースサーバ100は、サーバ情報管理テーブル130からサーバIDに対応するエントリのサーバIPアドレスフィールドを取得し文書情報収集要求部220に返信する(ステップS206)。
ここで、文書情報収集要求部220は、取得した状態判定スコアと予め設定された閾値とを比較する閾値判定を行う。
ここで、取得した状態判定スコアがこの閾値以上の値である場合、文書情報収集要求部220は、対象文書情報のURI情報(文書ID、サーバIPアドレス、および格納パス)の文書情報収集要求キュー(高優先度)241に対する追加登録を、文書情報収集要求キュー管理部240に要求する(ステップS207)。
文書情報収集要求キュー管理部240は、このURI情報を、文書情報収集要求キュー(高優先度)241の末尾に追加する(ステップS210)。
一方、取得した状態判定スコアがこの閾値未満の値である場合、文書情報収集要求部220は、文書情報収集要求キュー(低優先度)242に対する対象文書情報のURI情報(文書ID、サーバIPアドレス、および格納パス)の追加登録を、文書情報収集要求キュー管理部240に要求する(ステップS208)。
文書情報収集要求キュー管理部240は、要求に応じてこのURI情報を、文書情報収集要求キュー(低優先度)242の末尾に追加する(ステップS209)。
これにより、文書情報収集部(高優先度)231は、文書情報収集要求キュー241から優先度の高い文書情報のURI情報を取得することとなり、このため、高頻度に内容の更新が行われる(作成、承認)の状態の文書情報を、予め設定された頻度値に基づき、より高頻度に収集する。
また、文書情報収集部(低優先度)232は、文書情報収集要求キュー242から優先度の低い文書情報のURI情報を取得することとなる。このため、文書情報収集部(低優先度)232は、文書情報収集部(高優先度)231における収集動作よりも低頻度で、内容の更新頻度が低い(公開、保管)の状態にある文書情報の収集を行う。
これにより、文書格納サーバ300に格納された文書情報のうち、より頻繁に内容更新される文書状態の文書情報は、より高頻度に収集が行われ、内容更新の頻度が低い文書状態の文書情報はより低頻度に収集が行われることにより、文書情報にかかるシステムのリソースを効率的に活用することができ、更には、データベースサーバ100に格納された文書情報の鮮度を有効に高めることができる。
また、本実施形態では、格納された文書情報が文書ライフサイクルにおけるどの状態にあるかを推定(設定)する構成を備えたことにより、文書ライフサイクルを管理するシステムが予め導入されていないファイルシステム環境においても、各文書情報における文書ライフサイクルの状態および段階に応じて文書情報を有効に収集することができ、これにより、文書情報の収集動作に係るリソースの動作負荷を有効に軽減することができる。
本発明は、文書状態が「保管」状態にある文書情報や、企業が定める保管期間を過ぎている文書情報の一覧を作成し文書情報の所有者に警告を行う、または文書を自動的に削除する文書情報、ファイル情報管理システムに対して有効に適用することができる。
1 文書情報収集システム
100 データベースサーバ(文書データベース)
110 文書情報管理テーブル
120 文書状態管理テーブル
130 サーバ情報管理テーブル
200 文書情報収集サーバ
210 文書状態推定部(履歴情報取得部、更新頻度状態推定部、収集頻度決定部)
220 文書情報収集要求部
230 文書情報収集管理部(文書情報収集装置)
231 文書情報収集部(高優先度)
232 文書情報収集部(低優先度)
240 文書情報収集要求キュー管理部
241 文書情報収集要求キュー(高優先度)
242 文書情報収集要求キュー(低優先度)
300 文書格納サーバ(文書情報記憶装置)
310 Webサーバ
320 Sambaサーバ
330 NFSサーバ

Claims (6)

  1. 文書情報を記憶保持する文書情報記憶装置と、前記各文書情報を当該各文書情報に対応して予め設定された収集頻度で収集を行うと共に前記収集した文書情報を予め設定された文書データベースに格納する文書情報収集装置とを備えた文書情報収集システムであって、
    前記文書情報収集装置が、
    前記各文書情報の作成および更新された日時にかかる情報を示す文書履歴情報を取得する履歴情報取得部と、
    前記文書履歴情報に基づいて前記各文書が文書のライフサイクルにおけるどの状態にあるかを示す状態判定スコアを算出し、この状態判定スコアが予め設定された閾値以上であるか否かに応じて前記各文書情報が内容変更される頻度が高頻度であるか低頻度であるかを示す更新頻度状態を推定し設定する更新頻度状態推定部と、
    前記設定された更新頻度状態に基づき前記文書情報収集装置が一定期間内に前記各文書情報の収集を行う度合いを前記収集頻度として決定する収集頻度決定部とを備えたことを特徴とする文書情報収集システム。
  2. 請求項1に記載の文書情報収集システムにおいて、
    前記収集頻度決定部は、前記文書情報の更新頻度状態に基づき前記文書情報収集装置により収集が行われる前記文書情報の優先度を設定する収集優先度設定手段を備えたことを特徴とする文書情報収集システム。
  3. 請求項1または2に記載の文書情報収集システムにおいて、
    前記文書データベースは、前記収集された文書情報それぞれの文書履歴情報を前記各文書情報に対応させて記憶する文書履歴情報記憶手段を備えたことを特徴とする文書情報収集システム。
  4. 請求項に記載の文書情報収集システムにおいて、
    前記文書データベースが、前記算出された状態判定スコアを前記文書情報それぞれに対応させて記憶する状態判定スコア記憶手段を備えると共に、
    前記文書情報収集装置が、予め収集された前記文書情報が新たに収集された場合に当該文書情報の更新頻度状態に基づき前記文書データベースに予め記憶された状態判定スコアを更新するよう要求する状態判定スコア更新要求機能を備えたことを特徴とする文書情報収集システム。
  5. 作成および更新された文書情報を記憶保持する文書情報記憶装置と、前記各文書情報を当該各文書情報に対応して予め設定された収集頻度で収集し予め設定された文書情報収集装置とを備えた文書情報収集システムにあって、予め設定された文書データベースに格納するための文書情報収集方法であって、
    前記各文書情報の作成および更新された日時にかかる情報を示す文書履歴情報を取得し、
    前記文書履歴情報に基づいて前記各文書が文書のライフサイクルにおけるどの状態にあるかを示す状態判定スコアを算出し、
    前記文書情報が予め設定された基準頻度より高頻度に内容変更される状態にあるか前記基準頻度より低頻度に内容変更される状態にあるかを示す更新頻度状態を前記状態判定スコアが予め設定された閾値以上であるか否かに応じて設定し、
    前記設定された更新頻度状態に基づき前記文書情報収集装置が一定期間内に前記各文書情報の収集を行う度合いを前記収集頻度として決定し、
    前記文書情報記憶装置から前記各文書情報を前記決定された収集頻度で収集することを特徴とする文書情報収集方法。
  6. 作成および更新された文書情報を記憶保持する文書情報記憶装置と、前記各文書情報を当該各文書情報に対応して予め設定された収集頻度で収集し予め設定された文書情報収集装置とを備えた文書情報収集システムにあって、予め設定された文書データベースに格納する文書情報収集プログラムであって、
    前記各文書情報の作成および更新された日時にかかる情報を示す文書履歴情報を取得する処理を行う履歴情報取得機能と、
    前記文書履歴情報に基づいて前記各文書が文書のライフサイクルにおけるどの状態にあるかを示す状態判定スコアを算出し、この状態判定スコアが予め設定された閾値以上であるか否かに応じて前記各文書情報が内容変更される頻度が高頻度であるか低頻度であるかを示す更新頻度状態を推定し設定する更新頻度状態推定機能と、
    前記設定された更新頻度状態に基づき前記文書情報収集装置が一定期間内に前記各文書情報の収集を行う度合いを前記収集頻度として決定する収集頻度決定機能と、
    前記文書情報記憶装置から前記各文書情報を前記決定された収集頻度で収集する処理を行う文書情報収集機能とを予め設定されたコンピュータに実現させることを特徴とする文書情報収集プログラム。
JP2009222520A 2009-09-28 2009-09-28 文書情報収集システム、文書情報収集方法、文書情報収集プログラム Active JP5487854B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009222520A JP5487854B2 (ja) 2009-09-28 2009-09-28 文書情報収集システム、文書情報収集方法、文書情報収集プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009222520A JP5487854B2 (ja) 2009-09-28 2009-09-28 文書情報収集システム、文書情報収集方法、文書情報収集プログラム

Publications (2)

Publication Number Publication Date
JP2011070523A JP2011070523A (ja) 2011-04-07
JP5487854B2 true JP5487854B2 (ja) 2014-05-14

Family

ID=44015732

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009222520A Active JP5487854B2 (ja) 2009-09-28 2009-09-28 文書情報収集システム、文書情報収集方法、文書情報収集プログラム

Country Status (1)

Country Link
JP (1) JP5487854B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6103228B2 (ja) * 2013-07-24 2017-03-29 Kddi株式会社 データ収集装置、データ収集方法、およびプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002099557A (ja) * 2000-09-22 2002-04-05 Matsushita Electric Ind Co Ltd 情報提供装置及び情報提供方法
JP2004118415A (ja) * 2002-09-25 2004-04-15 Fujitsu Ltd 情報収集方法及びその方法における処理をコンピュータに行なわせるためのプログラム
JP4380375B2 (ja) * 2003-03-19 2009-12-09 富士ゼロックス株式会社 文書収集装置および文書収集用コンピュータプログラム
JP2004070957A (ja) * 2003-08-01 2004-03-04 Toshiba Corp 検索システム

Also Published As

Publication number Publication date
JP2011070523A (ja) 2011-04-07

Similar Documents

Publication Publication Date Title
KR100906262B1 (ko) 원자적으로 갱신되는 중앙 캐시 메모리를 위한 방법 및시스템
KR101150146B1 (ko) 클라이언트가 서버와 상호작용하는 컴퓨터 구현 방법, 서버가 클라이언트와 상호작용하는 컴퓨터 구현 방법, 오브젝트를 공유하는 분산 파일 시스템 및 컴퓨터 판독가능 기록 매체
WO2011108021A1 (en) File level hierarchical storage management system, method, and apparatus
CN107943718B (zh) 一种清理缓存文件的方法和装置
CN108055302B (zh) 一种图片缓存处理方法、系统和服务器
US8041893B1 (en) System and method for managing large filesystem-based caches
CN106230997B (zh) 一种资源调度方法和装置
JP2008546076A (ja) 時間制限メッセージの効率的な処理
JP2008293218A (ja) ファイル管理システム、ファイル管理方法、ファイル管理プログラム
CN112052247A (zh) 搜索引擎的索引更新系统、方法、装置、电子设备、存储介质
CN111026728A (zh) 一种日志数据处理方法及相关装置
US8583662B2 (en) Managing data across a plurality of data storage devices based upon collaboration relevance
US20060106960A1 (en) Deleting expired items in a queue data structure
JP5487854B2 (ja) 文書情報収集システム、文書情報収集方法、文書情報収集プログラム
JP5956064B2 (ja) 計算機システム、データ管理方法、及び計算機
CN110554914B (zh) 资源锁管理方法、装置、服务器及存储介质
US8805942B2 (en) Storing and partitioning email messaging data
JP5131062B2 (ja) 文書管理プログラム、文書管理装置及び文書管理システム
US9075857B2 (en) Computer-readable non-transitory medium storing therein a control program, management apparatus, and information processing system
JP6135430B2 (ja) 情報処理装置、方法、プログラム、及びシステム
JP2006139398A (ja) キャッシュサーバ及びコンテンツ選定保持方法
JP6522261B1 (ja) ファイルの属性情報を管理する方法及びコンピューティング装置{method for managing attribute information of file and computing device using the same}
US10506063B2 (en) Method and apparatus for caching user generated content messages
JP6638486B2 (ja) ファイル管理装置及びプログラム
JP2004310630A (ja) キャッシュ制御装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20120808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130904

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130917

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131111

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140128

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140210

R150 Certificate of patent or registration of utility model

Ref document number: 5487854

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150