JP2014063447A

JP2014063447A - 業務文書処理装置、業務文書処理方法及び業務文書処理プログラム

Info

Publication number: JP2014063447A
Application number: JP2012209640A
Authority: JP
Inventors: Toshiko Matsumoto; 俊子松本
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2012-09-24
Filing date: 2012-09-24
Publication date: 2014-04-10
Anticipated expiration: 2032-09-24
Also published as: JP5887236B2

Abstract

【課題】ファイルサーバの利用を支援するシステムにおいて、ファイルの情報を更新するのに時間がかかる。
【解決手段】ファイルサーバに存在するファイルの情報を更新する業務文書処理装置であって、ファイルサーバに、アクセス日時、対象オブジェクトであるフォルダ又はファイル、アクセスユーザの少なくともいずれかを、アクセス毎に記録するアクセスログを格納するアクセスログデータベースと、ファイルの属性情報を格納するファイル属性情報データベースと、に接続され、前記アクセスログを読み込むアクセスログ読み込み処理部と、前記アクセスログに記載のあったアクセス毎のフォルダ又はファイルのアクセス情報を用いて、アクセス毎のファイルの属性情報を更新する更新部と、を備えたことを特徴とする業務文書処理装置。
【選択図】図１

Description

本発明は、大量の文書を効率的に管理するための業務文書処理技術に関する。

組織内のファイルサーバは電子データの保存・共有のために利便性が高く、広く普及している。また、ファイルサーバの利用が進み、多くのファイルが保存されるようになったことに伴い、その利用をさらに便利なものにするための技術が提案されてきた（以下では「利用支援システム」と呼ぶ）。

全文検索エンジン「エンタープライズサーチ uCosminexus Enterprise Search」http://www.hitachi.co.jp/Prod/comp/soft1/cosminexus/esearch/index.html ファイルサーバの管理システム「コンテンツ運用支援ソリューションMEANS」http://www.hitachi-solutions.co.jp/means/sp/ データ格納領域管理システム「Hitachi Data Discovery Suite」http://www.hds.com/products/file-and-content/data-discovery-suite.html

これらの技術はいずれも、ファイルサーバに対し網羅的なアクセス（クローリング）を行うことで、どのようなファイルが保存されているか調べ、利用支援システム内にファイルの情報を保持しておくことで、ユーザに対し利便性の高い表示を行ったり管理操作を提供したりする。したがって、常に最新のファイルサーバの状態を調べておく必要がある。

しかし、ファイルサーバの大規模化に伴い、保存されているファイルの数は膨大なものになり、クローリングにより利用支援システム内のファイルの情報を更新するためにかかる時間が増大することが問題視されてきた。また、最初に利用支援システムを導入する時（初期クローリング）だけでなく、日常的な差分の更新（差分クローリング）においても処理時間が増大してしまうことは、ユーザにとって特に大きな問題である。組織内で利用支援システムを使ったユーザサービスの提供開始後も、「ファイルサーバに直接アクセスした時と同じ情報が利用できない」状態をもたらしてしまい、ユーザサービスレベルの低下を引き起こすためである。

本発明は、ユーザの利用を支援するためのシステムに登録されているファイルの情報の更新を効率化することを目的とする。

上記で述べた課題に対し、発明者は、差分クローリングの処理時間を増大させている原因として、実際に生じている差分は非常に小さい割合であるにも関わらず、ファイルサーバに保存されている膨大な数のファイル全体に対しクローリングを行っていることを発見した。組織内のファイルサーバには、数十万〜数十億のファイルが保存されている場合も珍しくないが、そのうちで毎日利用されているファイルは、０．０１％に満たない場合も少なくない。そのようなファイルサーバにおいては、必要量の実に１０，０００倍もの情報をファイルサーバから取得して差分クローリングを行っていることになり、このことこそが処理時間を増大させている原因であると言える。必要最低限の情報のみファイルサーバから取得するように処理を改めるに際し、発明者は、ファイルサーバが管理目的で出力するアクセスログを用いて、真に情報を更新する必要のあるファイルの数を絞り込むことに想到した。以下に対応案の概要について説明する。

対応策１：ファイルサーバのアクセスログには、いつ・どのオブジェクト（ファイルまたはフォルダ）に・どのユーザがアクセスしたかが記録されている。アクセスログを参照してクローリング対象のファイルを絞り込むことで、差分クローリングを高速化することができる。

対応策１−１：ファイルサーバのアクセスログに記載のあったフォルダ・ファイルのアクセス情報を用いて、ファイルの情報を更新する。

対応策１−２：ファイルサーバのアクセスログに記載のあったフォルダ・ファイルのリストを参照し、ファイルサーバをクローリングして、ファイルの情報を更新する。

また、ファイルサーバにおける多様な利用形態に対応するため、下記の対応策によりアクセスログを利用するという解決策に想到した。

利用形態２：初期クローリングに要する処理時間が増大している場合でも、「その時点で各ユーザが必要としているファイルが登録されている」なら、ユーザは利用支援システムの利用を部分的に開始できる。

利用形態３：ファイルサーバがアクセスログを出力する際、内部的な管理用文字列を付与した形でフォルダ名を出力する場合がある。

利用形態４：ファイルサーバに対し、情報システム管理者が管理操作のために行った操作についてもアクセスログが出力されてしまう。ウィルスチェック・バックアップなどの管理操作においては、膨大な件数のアクセスログが出力されてしまう。

利用形態５：ファイルサーバに対してユーザが行う操作の中には、フォルダ単位で行われ、サブツリー内のファイル全てに影響が及ぶものがある。例えば、フォルダの名称を変更すると、サブツリー内のファイル全てのパス名が変わる。また、フォルダの圧縮を行うと、サブツリー内のファイル全てを含む圧縮ファイルが出力される。また、フォルダの削除を行うと、サブツリー内のファイルも全て削除される。このような操作によるファイルアクセスを正しく差分クローリングで反映させるためには、フォルダに対する１件のアクセスログだけでは不十分である。

利用形態６：ファイルサーバ内のファイルを用いてユーザが業務を実行する場合、単一の業務を遂行する時間内においては、同じファイルに対して何度もアクセスを行うことが一般的である。例えば、報告書を半日かけて執筆する場合、少し書き進めるたびに文書ファイルを何度も上書き保存することなどである。この場合、アクセスログには同一のファイルに対するアクセスが何度も出力され、アクセスログを参照して差分クローリングを行うと、同じファイルについての情報を何度も取得・更新してしまうことになる。ただし、例えば、まずファイルを開いて閲覧し、その後で内容の修正を行って上書き保存し、完成後にアクセス権限を変更したような場合には、それぞれ異なった種類(内容のRead・内容のWrite・属性のWrite)のアクセスのログが出力されるため、単に最後に出力されたアクセスログを代表として用いて済ませる方式では、正しく情報を更新することができない。

利用形態７：ユーザが利用するコンピュータ端末の機能により、ユーザが意図的に行っていないアクセスがサーバに対して行われる場合がある。例えば、文書や写真のサムネイルを表示させるためにコンピュータ端末がまとめてファイルを読み込んでキャッシュ化しておく、ファイルサーバへのネットワーク接続が切断しても利用を続けられるようにコンピュータ端末がまとめてファイルを読み込んでキャッシュしておく、など。これらのアクセスが行われた場合、本来は情報の更新を行う必要のないファイルについてもアクセスログが出力されてしまう。

利用形態８：ファイルサーバ内のファイルを用いてユーザが業務を実行する場合、単一の業務に必要なファイルは、フォルダ構造上近傍のフォルダに集めて保存することが一般的である。例えば、特許明細書を執筆する場合、本文を執筆する文書ファイルと図を執筆する画像ファイルとを同じフォルダに置いて、両者の執筆を並行して進めることなどである。このようなフォルダに存在するファイルは特に利用頻度の高いものであり、優先的に利用支援システムに情報を登録できればユーザの利便性を改善することができる。

利用形態９：ファイルサーバのアクセスログ上は、ファイルに対するアクセスとフォルダに対するアクセスの種類を明示せずに出力される。このため、ファイルについてのみ情報を保持する利用支援システムや、ファイルとフォルダについてそれぞれ異なる管理機能を提供する利用支援システムにおいては、アクセスログに出力される情報だけでは正しく更新処理を行うことができない。

利用形態１０：ファイルサーバのアクセスログ上は、差分クローリングを行うプロセスがアクセス権限を付与されていないファイルに対するアクセスについても出力される。このため、アクセスログに記載されているファイルに対し情報を取得しようとしても、失敗してしまう場合がある。

利用形態１１：ファイルサーバのファイルに対して行われるアクセスは、書き込みよりも読み取りの方が多い。書き込みにおいては、ファイルの内容に対する書き込みであっても、アクセス権限に対する書き込みであっても、ファイルの属性情報に対する書き込みであっても、書き込まれた内容についてはアクセスログには出力されない。また、ファイルサーバが保持するファイルの属性値としての最終アクセス日時と、アクセルログ上で読み取りが行われたと出力されている日時との間に、差がある場合がある。

対応策２：初期クローリングとしてファイルサーバに保存されているファイル全体にアクセスしてファイルの情報を取得することを避け、ファイルの情報を保持するDBを初期化するのみで差分クローリングを行うことにより、直近で利用のあったファイルに対して優先的に情報を取得・登録することができる。

対応策３：ファイルサーバごとに、管理用文字列を辞書として保持しておき、アクセスログを読み込む際にフォルダ名を標準化して保持する。

対応策４：アクセスログのうち、情報システム管理者による管理操作には、一般のユーザによるアクセスにはない特徴がある場合が多い。すなわち、アクセスを行ったユーザが特権ユーザであること・夜間や週末の時間帯に操作が行われること・ユーザが作成するオフィス文書などではなく、システムファイルに対して操作が行われることである。したがって、アクセスを行ったユーザ・アクセスが行われた時間帯・対象ファイルの拡張子に対する条件を辞書として保持しておき、アクセスログを読み込む際に条件と照合して除外することで、管理操作の影響を避けることができる。

対応策５：発明者が調査を行った結果、サブツリー内に影響を及ぼすフォルダ操作において、フォルダに対するアクセスログを１件だけ出力するファイルサーバの種類と、（どのようなフォルダ操作に対しても）サブツリー内の全てのファイルに対するアクセスとして別々にアクセスログを出力するファイルサーバの種類とが存在することが分かった。このことに基づき、発明者は、ファイルサーバごとに、「フォルダに対するアクセスを示すアクセスログがあったら、サブツリー内の全てのファイルに対しクローリングを行って情報を更新する必要があるか」を示すフラグを辞書として保持しておき、フラグに従って「フォルダに対するアクセスログ」を読み込んだ場合の処理を振り分ける対応策を考えた。この対応策により、最小限のファイルに対する情報取得処理でファイルの情報を正しく更新することができる。

対応策６：ファイルサーバが出力したアクセスログを、同一のファイルに対するアクセスログをまとめて集約する。また、アクセスログを読み込むたびに、アクセスの種類に関するフラグ変数を更新して、どのような種類のアクセスが行われたかをまとめて保持する。これにより、同一のファイルに対してユーザが何度もアクセスを行った場合でも、ファイルサーバから１回情報を取得するだけで差分クローリングに必要な情報を得ることができる。

対応策７：発明者が調査を行った結果、コンピュータ端末により（ユーザの意図とは別に）行われるアクセスは、特定のフォルダに存在するサブツリー内のファイルに対し網羅的な読み込み処理が行われるという特徴があることが分かった。このことに基づき、発明者は、あるフォルダに存在するサブツリー内で利用支援システムに登録されているファイル全てに対し読み込みのアクセスログが出力されていた場合、読み込みのアクセスログのみ出力されているファイルはファイルサーバから情報を取得する対象から除外する対応策を考えた。これにより、コンピュータ端末によるアクセスが行われただけのファイルに対して、ファイルサーバから情報を取得することを省略することができる。

対応策８：ファイルサーバが出力したアクセスログを、フォルダごとに集計し、それぞれのフォルダにおいてアクセスが行われたファイルの数を調べる。この数の多いフォルダからファイルの情報を取得し利用支援システムに登録していくことで、ユーザが高頻度に利用するファイルから優先してファイルの情報を利用支援システムに登録することができる。

対応策９：アクセスログから作成したリストを参照してファイルサーバから情報を取得する際、まず、ファイルサーバに存在するものがファイルなのかフォルダなのかを調べて、ファイルなのであれば、ファイルサーバから情報を取得し利用支援システムを更新する。これにより、利用支援システムが保持する、ファイルサーバ内のファイルについての情報を正しく更新することができる。

対応策１０：アクセスログから作成したリストを参照してファイルサーバから情報を取得する際、まず、ファイルに対するアクセス権限があるかを調べて、アクセス権限があれば、ファイルサーバから情報を取得し利用支援システムを更新する。差分クローリングを行うプロセスがアクセス権限を持たないファイルは、利用支援システムの管理対象外と考えるべきであり、この対応策により、利用支援システムが保持する、ファイルサーバ内のファイルについての情報を正しく更新することができる。

対応策１１：利用支援システムの多くにおいて、アクセスログが出力されたファイルのうち、Readアクセスのみ出力されたファイルは、読み取りは行われたが書き込みは行われていないことを意味する。したがって、登録されている情報のうち「最終アクセス日時」は更新する必要があるが、「最終更新日時」、「所有者」、「アクセス権限」、「ファイルサイズ」などのその他の情報は更新する必要がない。したがって、ファイルサーバごとに「最終アクセス日時について、アクセスログからではなくファイルサーバから情報取得する必要があるかどうか」を示すフラグを辞書として保持しておき、アクセスログから作成したリストを参照してファイルサーバから情報を取得する際、Readアクセスのみ出力されたファイルについては、アクセスログから日時を取得して利用支援システムの登録値を更新するか、ファイルサーバから最終アクセス日時を取得して利用支援システムの登録値を更新するか、処理内容を振り分ける対応策を考えた。また、最後に出力されたアクセスがDeleteアクセスであるファイルにおいては、ファイルサーバから情報取得することなくアクセスログの情報のみから利用支援システムにおけるエントリを削除するか、ファイルサーバからファイルの存在情報を取得して利用支援システムにおけるエントリを削除するか、処理内容を振り分ける対応策を考えた。これにより、最小限のファイルに対する情報取得処理でファイルの情報を正しく更新することができる。

上記の対応策を実現するため、下記の手段により解決する手法を提案する。

発明者は、前述した課題を解決することを目的として、ファイルサーバのアクセスログに記載のあったフォルダ・ファイルのアクセス情報を用いて、ファイルの情報を更新する方法を提案する。

また、発明者は、前述した課題を解決することを目的として、ファイルサーバのアクセスログに記載のあったフォルダ・ファイルのリストを参照し、ファイルサーバをクローリングして、ファイルの情報を更新する方法を提案する。

また、発明者は、前述した課題を解決することを目的として、初期状態のDBに対して、ファイルサーバのアクセスログに記載のあったフォルダ・ファイルのリストを参照し、ファイルサーバをクローリングして、ファイルの情報を追加する方法を提案する。

また、発明者は、前述した課題を解決することを目的として、ファイルサーバごとに、管理用文字列を辞書として保持しておき、アクセスログを読み込む際にフォルダ名を標準化して保持する方法を提案する。

また、発明者は、前述した課題を解決することを目的として、アクセスを行ったユーザ・アクセスが行われた時間帯・対象ファイルの拡張子に対する条件を辞書として保持しておき、アクセスログを読み込む際に条件と照合して除外する方法を提案する。

また、発明者は、前述した課題を解決することを目的として、ファイルサーバごとに、「フォルダに対するアクセスを示すアクセスログがあったら、サブツリー内の全てのファイルに対しクローリングを行って情報を更新する必要があるか」を示すフラグを辞書として保持しておき、フラグに従って「フォルダに対するアクセスログ」を読み込んだ場合の処理を振り分ける方法を提案する。

また、発明者は、前述した課題を解決することを目的として、ファイルサーバが出力したアクセスログを、アクセスの種類に関するフラグ変数を更新しながら、同一のファイルに対するアクセスログをまとめて集約する方式を提案する。

また、発明者は、前述した課題を解決することを目的として、あるフォルダに存在するサブツリー内で利用支援システムに登録されているファイル全てに対し読み込みのアクセスログが出力されていた場合、読み込みのアクセスログのみ出力されているファイルはファイルサーバから情報を取得する対象から除外する方式を提案する。

また、発明者は、前述した課題を解決することを目的として、ファイルサーバが出力したアクセスログを、フォルダごとに集計し、それぞれのフォルダにおいてアクセスが行われたファイルの数を調べ、この数の多いフォルダからファイルの情報を取得していく方式を提案する。

また、発明者は、前述した課題を解決することを目的として、アクセスログから作成したリストを参照してファイルサーバから情報を取得する際、まず、ファイルサーバに存在するものがファイルなのかフォルダなのかを調べて、ファイルなのであれば、ファイルサーバから情報を取得する方式を提案する。

また、発明者は、前述した課題を解決することを目的として、アクセスログから作成したリストを参照してファイルサーバから情報を取得する際、まず、ファイルに対するアクセス権限があるかを調べて、アクセス権限があれば、ファイルサーバから情報を取得する方式を提案する。

また、発明者は、前述した課題を解決することを目的として、ファイルサーバごとに「最終アクセス日時について、アクセスログからではなくファイルサーバから情報取得する必要があるかどうか」を示すフラグを辞書として保持しておき、アクセスログから作成したリストを参照してファイルサーバから情報を取得する際、Readアクセスのみ出力されたファイルについては、アクセスログから日時を取得するか、ファイルサーバから最終アクセス日時を取得するか、処理内容を振り分け、最後に出力されたアクセスがDeleteアクセスであるファイルについては、アクセスログから削除された情報を取得するか、ファイルサーバからファイルの存在情報を取得するか、処理内容を振り分ける方式を提案する。

本発明によれば、大量のファイルが保存されたファイルサーバにおいて、ユーザの利用を支援するためのシステムに登録されているファイルの情報の更新を効率化することができる。

本発明の一実施の形態による業務文書処理装置を含むシステムの一構成例を示す機能ブロック図である。設定データ、標準化ルールデータ、適用除外条件データのデータ構造を示す図である。サーバアクセスデータ、フォルダアクセスデータ、ファイルアクセスデータのデータ構造を示す図である。アクセス毎のアクセスログデータ、ファイル属性データのデータ構造を示す図である。業務文書処理装置において実行される処理手順の全体を説明するフローチャート図である。インポート処理部において実行される処理手順の詳細を説明するフローチャート図である。本実施の形態による業務処理の設定を行う画面例を示す図である。本実施の形態による業務処理結果を表示する画面例を示す図である。アクセスログ読み込み処理部において実行される処理手順の詳細を説明するフローチャート図である。フォルダ名標準化処理部において実行される処理手順の詳細を説明するフローチャート図である。除外条件確認処理部において実行される処理手順の詳細を説明するフローャート図である。サブツリー網羅処理部において実行される処理手順の詳細を説明するフローチャート図である。ファイル名まとめ処理部において実行される処理手順の詳細を説明するフローチャート図である。網羅アクセス除外処理部において実行される処理手順の詳細を説明するフローチャート図である。網羅アクセス除外処理部において実行される処理手順の詳細を説明するフローチャート図である。優先度付与処理部において実行される表示処理を示す画面例を示す図である。クローリング併用処理部において実行される処理手順の詳細を説明するフローチャート図である。 Read_Deleteスキップ処理部において実行される処理手順の詳細を説明するフローチャート図である。アクセス権限再確認処理部において実行される処理手順の詳細を説明するフローチャート図である。ファイル_フォルダ確認処理部において実行される処理手順の詳細を説明するフローチャート図である。

以下、添付図面を参照しながら、本発明に係る業務文書処理装置の形態例を説明する。勿論、後述する形態例やその説明は一例であり、本発明には様々な変形例が考えられる。

（１）形態例
（１−１）システム構成
図１〜図２０は、以下で説明する形態例を例示する図であり、これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。

図１は、本発明の実施の形態による業務文書処理装置の内部構造例を概略的に示す機能ブロック図である。図１に示す業務文書処理装置は、データを表示するための表示装置１００、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード１０１、マウスなどのポインティングデバイス１０２、必要な演算処理、制御処理などを行う中央処理装置１０３、中央処理装置１０３での処理に必要なプログラムを格納するプログラムメモリ１０４、中央処理装置１０３での処理に必要なデータを格納するデータメモリ１０５、利用支援システムが持つファイル属性DB１０６、アクセスログ１０７、ファイルサーバ１０８を備えている。なお、ファイルサーバは複数台存在する場合もある。

中央処理装置１０３は、インポート処理部１０９と、アクセスログ読み込み処理部１１０と、網羅アクセス除外処理部１１５と、優先度付与処理部１１６と、クローリング併用処理部１１７とを備えている。この形態例の場合、コンピュータによって構成され、インポート処理部１０９と、アクセスログ読み込み処理部１１０と、網羅アクセス除外処理部１１５と、優先度付与処理部１１６と、クローリング併用処理部１１７は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ１０４に格納されている。アクセスログ読み込み処理部１１０は、フォルダ名標準化処理部１１１、除外条件確認処理部１１２、サブツリー網羅処理部１１３、ファイルまとめ処理部１１４を備えている。クローリング併用処理部１１７は、Read_Deleteスキップ処理部１１８、アクセス権限再確認処理部１１９、ファイル_フォルダ確認処理部１２０を備えている。

インポート処理部１０９は上記の対応策２を実現するものであり、アクセスログ読み込み処理部１１０は上記の対応策１−１を実現するものであり、フォルダ名標準化処理部１１１は上記の対応策３を実現するものであり、除外条件確認処理部１１２は上記の対応策４を実現するものであり、サブツリー網羅処理部１１３は上記の対応策５を実現するものであり、ファイルまとめ処理部１１４は上記の対応策６を実現するものであり、網羅アクセス除外処理部１１５は上記の対応策７を実現するものであり、優先度付与処理部１１６は上記の対応策８を実現するものであり、クローリング併用処理部１１７は上記の対応策１−２を実現するものであり、Read_Deleteスキップ処理部１１８は上記の対応策１１を実現するものであり、アクセス権限再確認処理部１１９は上記の対応策１０を実現するものであり、ファイル_フォルダ確認処理部１２０は上記の対応策９を実現するものである。

データメモリ１０５に記憶される記憶データは、設定データ１２１、標準化ルールデータ１２２、適用除外条件データ１２３、サーバアクセスデータ１２４、フォルダアクセスデータ１２５、ファイルアクセスデータ１２６、アクセスログデータ１２７、ファイル属性データ１２８である。

アクセスログ１０７はアクセスログデータ１２７のデータを保持しており、利用支援システムが持つファイル属性DBはファイル属性データ１２８を保持している。

図２は、データメモリ１０５に含まれる設定データ１２１(a)、標準化ルールデータ１２２(ｂ)、適用除外条件データ１２３(ｃ)のデータ構造例を示す図である。

設定データ１２１は、適用除外条件有無２００、サブツリー網羅条件有無２０１、Read_Deleteスキップ条件有無２０２、網羅アクセス除外条件有無２０３、インポート処理有無２０４、フォルダ名標準化ルール２０５、適用除外条件２０６を含んでいる。それぞれのファイルサーバごとに設定が行われるので、設定データ１２１は配列の形で保持される。フォルダ名標準化ルールは、下記に示す標準化ルールデータの配列の形で保持される。適用除外条件は、下記に示す適用除外条件データの形で保持される。
標準化ルールデータ１２２は、対象文字列２０７、置換後文字列２０８を含んでいる。

適用除外条件データ１２３は、ユーザ条件２０９、時間帯条件２１０、拡張子条件２１１を含んでいる。ユーザ条件２０９は、０、１、または複数の文字列（ユーザID）を含む配列の形で保持される。時間帯条件２１０は、０、１、または複数の時間帯を含む配列の形で保持される。拡張子条件２１１は、０、１、または複数の文字列を含む配列の形で保持される。

図３は、サーバアクセスデータ１２４、フォルダアクセスデータ１２５、ファイルアクセスデータ１２６のデータ構造例を示す図である。

サーバアクセスデータ１２４は、サーバ名３００、フォルダリスト３０１を含んでいる。フォルダリスト３０１は、下記に示すフォルダアクセスデータの配列の形で保持される。

フォルダアクセスデータ１２５は、フォルダ名３０２、ファイルリスト３０３、優先度３０４、サブツリー網羅要否３０５を含んでいる。ファイルリスト３０３は、下記に示すファイルアクセスデータの配列の形で保持される。優先度３０４は、上記の対応策８を実現するために保持する値であり、デフォルト値は０である。また、サブツリー網羅要否３０５は、上記の対応策５を実現するために保持する値であり、デフォルト値はFALSEである。

ファイルアクセスデータ１２６は、ファイル名３０６、最終アクセス日時３０７、Readのみフラグ３０８、Readを含むフラグ３０９、最後にDeleteフラグ３１０を含んでいる。Readのみフラグ３０８は、アクセスログに記載されたそのファイルへのアクセスが全てReadアクセスであった場合にTRUEが設定され、デフォルト値はTRUEである。Readを含むフラグ３０９は、アクセスログに記載されたそのファイルへのアクセスのうち、１件以上がReadアクセスであった場合にTRUEが設定され、デフォルト値はFALSEである。最後にDeleteフラグは、アクセスログに記載されたそのファイルへのアクセスのうち、最後のものが、Deleteアクセスであった場合にTRUEが設定され、デフォルト値はTRUEである。

図４は、データメモリ１０５に含まれるアクセスログデータ１２７、ファイル属性データ１２８のデータ構造例を示す図である。

アクセスログデータ１２７は、対象オブジェクト４００、アクセス日時４０１、アクセス種別４０２、アクセスユーザ４０３を含んでいる。

ファイル属性データ１２８は、ファイル名４０４、最終アクセス日時４０５、最終更新日時４０６、作成日時４０７、所有者４０８、アクセス権限４０９、ファイルサイズ４１０、全文データ４１１、ハッシュ値４１２を含んでいる。

次に、上記のように構成された本実施形態の業務文書処理装置において行われる処理について説明する。図５は、業務文書処理装置において行われる処理の流れを概略的に示すフローチャートである。図５において、まず、設定画面を表示しユーザからの入力を受け付けて設定データ１２１に格納する（ステップ５００）。この画面については図７を参照して説明する。アクセスログを利用支援システムが持つファイル属性DB１０６にインポートする（ステップ５０１）。この処理については、インポート処理部を用いて行うものであり、図６において詳細に説明する。次に、ファイルサーバの情報を定期的に反映させるべく予め設定された時刻に到達したかどうかを調べる（ステップ５０２）。到達していた場合は(Yes)、ファイルサーバそれぞれについて以下の処理を行うため、インデックスserver_idxを１で初期化する（ステップ５０３）。server_idx以上のファイルサーバが存在するか否かを調べ（ステップ５０４）、存在するのであれば(Yes)、アクセスログを読み込む処理を行い（ステップ５０５）、網羅アクセスを除外する処理を行い（ステップ５０６）、優先度を付与する処理を行い（ステップ５０７）、クローリングを併用して利用支援システムが持つファイル属性DB１０６を更新する（ステップ５０８）。ステップ５０５における処理については、アクセスログ読み込み処理部１１０を用いて行うものであり、図９において詳細に説明する。ステップ５０６における処理については、網羅アクセス除外処理部１１５を用いて行うものであり、図１４において詳細に説明する。ステップ５０７における処理については、優先度付与処理部１１６を用いて行うものであり、図１６において詳細に説明する。ステップ５０８における処理については、クローリング併用処理部１１７を用いて行うものであり、図１７において詳細に説明する。その後、server_idxを１だけインクリメントし（ステップ５０９）、ステップ５０４から処理をやり直す。ステップ５０４においてserver_idx以上のファイルサーバが存在しない場合は（Ｎｏ）、結果画面を表示し（ステップ５１０）、差分クローリングの間隔として予め設定された時間だけ待機し（ステップ５１１）、ステップ５０２から処理をやり直す。ステップ５１０における画面については図８を参照して説明する。ステップ５０２において到達していなかった場合も同様に、ステップ５１１を実行後、ステップ５０２から処理をやり直す。

図５のステップ５０１における、インポート処理について、図６に示す詳細フローを参照しながら説明する。まず、ファイルサーバそれぞれについて以下の処理を行うため、インデックスserver_idxを１で初期化する（ステップ６００）。server_idx以上のファイルサーバが存在するか調べ（ステップ６０１）、存在するのであれば（Ｙｅｓ）、設定データ１２１のインポート処理有無２０４の値を調べる。FALSEであれば、従来技術と同様に初期クローリングを行い（ステップ６０３）、TRUEであれば、利用支援システムが持つファイル属性DB１０６を初期化する（ステップ６０４）。その後、server_idxを１だけインクリメントし（ステップ６０５）、ステップ６０１から処理をやり直す。ステップ６０１において、server_idx以上のファイルサーバが存在しない場合は（Ｎｏ）、処理を終了する。

図５のステップ５０５における、アクセスログ読み込み処理について、図９に示す詳細フローを参照しながら説明する。まず、アクセスログに出力された各エントリについて処理を行うため、インデックス変数log_idxを１で初期化する（ステップ９００）。log_idx以上のアクセスログが存在するか調べ（ステップ９０１）、存在するのであれば(Yes)、下記の処理を行う。まず、ファイル名を標準化する処理を行い（ステップ９０２）、除外条件に適合するか調べる処理を行い（ステップ９０３）、適合しないならば（ステップ９０４）、サブツリー網羅に該当するか調べる処理を行い（ステップ９０５）、該当しないならば（ステップ９０６）、フォルダ名を登録し（ステップ９０７）、ファイル名を登録する処理を行う（ステップ９０８）。ステップ９０２における処理については、フォルダ名標準化処理部１１１を用いて行うものであり、図１０において詳細に説明する。ステップ９０３における処理については、除外条件確認処理部１１２を用いて行うものであり、図１１において詳細に説明する。ステップ９０５における処理については、サブツリー網羅処理部１１３を用いて行うものであり、図１２において詳細に説明する。ステップ９０８における処理については、ファイルまとめ処理部１１４を用いて行うものであり、図１３において詳細に説明する。ステップ９０８を行った後、または、ステップ９０４において適合した場合（Yes）、または、ステップ９０６において該当した場合は(Yes)、log_idxを１だけインクリメントして（ステップ９０９）、ステップ９０１から処理をやり直す。ステップ９０１においてserver_idx以上のファイルサーバが存在しない場合は（No）、処理を終了する。

図９のステップ９０２における、フォルダ名標準化処理について、図１０に示す詳細フローを参照しながら説明する。まず、設定データ１２１のフォルダ名標準化ルール２０５それぞれについて処理を行うため、インデックス変数rule_idxを１で初期化する（ステップ１０００）。フォルダ名標準化ルール２０５にrule_idx以上の配列要素が存在するか調べ（ステップ１００１）、存在するのであれば(Yes)、アクセスログデータ１２７の対象オブジェクト４００は、rule_idx番目の配列要素の対象文字列２０７を含むか調べる（ステップ１００２）。含むのであれば(Yes)、該当箇所を置換後文字列２０８で差し替える（ステップ１００３）。その後、rule_idxを１だけインクリメントし（ステップ１００４）、ステップ１００１から処理をやり直す。ステップ１００１においてrule_idx以上の配列要素が存在しない場合は(No)、処理を終了する。

図９のステップ９０３における、除外条件に適合するか調べる処理について、図１１に示す詳細フローを参照しながら説明する。まず、設定データ１２１の適用除外条件有無２００に設定されている値を調べる（ステップ１１００）。TRUEであれば、下記の処理を行う。まず、アクセスログデータ１２７のアクセスユーザ４０３は、設定データ１２１の適用除外条件２０６のユーザ条件２０９に指定されている文字列のうち１つ以上と同じであるか調べる（ステップ１１０１）。同じでないのであれば(No)、アクセスログデータ１２７のアクセス日時４０１は、設定データ１２１の適用除外条件２０６の時間帯条件２１０で指定されている時間帯のうち１つ以上に含まれないか調べる（ステップ１１０２）。含まれないのであれば(No)、アクセスログデータ１２７の対象オブジェクト４００は、設定データ１２１の適用除外条件２０６の拡張子条件２１１のうち１つ以上を末尾に含まないか調べる（ステップ１１０３）。ステップ１１０１において同じであった場合、または、ステップ１１０２において含まれる場合(Yes)、または、ステップ１１０３において含む場合は(Yes)、適用除外条件に適合すると判定し（ステップ１１０４）、処理を終える。ステップ１１００においてFALSEであった場合、または、ステップ１１０３において含まない場合は(No)、適用除外条件に適合しないと判定し（ステップ１１０５）、処理を終える。

図９のステップ９０５における、サブツリー網羅に該当するか調べる処理について、図１２に示す詳細フローを参照しながら説明する。まず、設定データ１２１のサブツリー網羅条件有無２０１に設定されている値を調べる（ステップ１２００）。TRUEであれば、下記の処理を行う。まず、サーバアクセスデータ１２４におけるフォルダリスト３０１の中に、フォルダ名３０２がアクセスログデータ１２７の対象オブジェクト４００に含まれるものが存在するか調べる（ステップ１２０１）。例えば、フォルダ名３０２が"\server1\2\3"であるフォルダアクセスデータと、対象オブジェクト４００が"server1\2\3\4.txt"であるアクセスログデータは、この条件に適合する。ステップ１２０１において、存在する場合(Yes)、フォルダ"server1\2\3"に含まれるサブツリーについて網羅的にクローリングを行いファイルサーバから情報を取得する必要がある。すなわち、そのフォルダアクセスデータのサブツリー網羅要否３０５をTRUEに設定し（ステップ１２０２）、ファイルリスト３０３を空にする（ステップ１２０３）。ステップ１２０１において、存在しない場合(No)、フォルダリスト３０１の中に、フォルダ名３０２がアクセスログデータ１２７の対象オブジェクト４００を含むものが存在するか調べる（ステップ１２０４）。例えば、フォルダ名３０２が"server1\2\3"であるフォルダアクセスデータと、対象オブジェクトが"server1\2"であるアクセスログデータは、この条件に適合する。ステップ１２０４において、存在する場合(Yes)、フォルダ"server1\2"に含まれるサブツリーについて網羅的にクローリングを行いファイルサーバから情報を取得する必要がある。すなわち、親にあたるフォルダ"server1\2"についてのフォルダアクセスデータ（サブツリー網羅要否はTRUEに設定）をフォルダリスト３０１に追加し（ステップ１２０５）、子のあたるフォルダ"server1\2\3"についてのフォルダアクセスデータをフォルダリスト３０１から削除する。ステップ１２００においてFALSEであれば、そのまま処理を終了する。

図９のステップ９０８における、ファイル名を登録する処理について、図１３に示す詳細フローを参照しながら説明する。まず、サーバアクセスデータ１２４におけるフォルダリスト３０１の中にあるフォルダアクセスデータ１２５におけるファイルリスト３０３の中にあるファイルアクセスデータ１２６の中に、ファイル名３０６がアクセスログデータ１２７の対象オブジェクト４００と合致するものが存在するか調べる（ステップ１３００）。存在するのであれば、下記の処理を行う。まず、ファイルアクセスデータ１２６の最終アクセス日時３０７を、アクセスログデータ１２７のアクセス日時４０１で更新する（ステップ１３０１）。次に、アクセスログデータ１２７のアクセス種別４０２の種類が、Readであるか調べる（ステップファイルの内容のRead、属性のReadなどであるか調べる）（ステップ１３０２）。Readなのであれば(Yes)、ファイルアクセスデータ１２６のReadを含むフラグ３０９をTRUEに設定する（ステップ１３０３）。ステップ１３０２において、Readではなかった場合(No)、ファイルアクセスデータ１２６のReadのみフラグをFALSEに設定する（ステップ１３０４）。次に、アクセスログデータ１２７のアクセス種別４０２の種類が、Deleteであるか調べ（ステップ１３０５）、Deleteであれば(Yes)、ファイルアクセスデータ１２６の最後にDeleteフラグ３１０をTRUEに設定し（ステップ１３０６）、処理を終了する。ステップ１３０３を行った後、または、ステップ１３０５においてDeleteではなかった場合は(No)、最後にDeleteフラグ３１０をFALSEに設定し（ステップ１３０７）、処理を終了する。ステップ１３００において存在しなかった場合は、そのファイルに該当するファイルアクセスデータを追加し（ステップ１３０８）、処理を終了する。

図５のステップ５０６における、網羅アクセス除外処理について、図１４に示す詳細フローを参照しながら説明する。まず、サーバアクセスデータ１２４におけるフォルダリスト３０１の中にあるフォルダアクセスデータ１２５のそれぞれについて処理を行うため、インデックス変数folder_idxを１で初期化する（ステップ１４００）。次に、Folder_idx以上のフォルダアクセスデータが存在するか調べ（ステップ１４０１）、存在するのであれば(Yes)、下記の処理を行う。まず、利用支援システムが持つファイル属性DBの中のファイル属性データ１２８から、フォルダアクセスデータ１２５のフォルダ名３０２と同じフォルダ名をファイル名４０４に持つものを全て取得する（ステップ１４０２）。取得したファイル属性データそれぞれについて処理を行うため、インデックス変数file_idxを１で初期化する（ステップ１４０３）。ステップ１４０２で取得したファイル属性データがfile_idx件以上であったか調べ（ステップ１４０４）、file_idx以上であれば、下記の処理を行う。まず、フォルダアクセスデータ１２５のファイルリスト３０３の中で、ファイル名３０６が、ファイル属性データ１２８のファイル名４０４と同じであるものが存在するか調べ（ステップ１４０５）、存在するのであれば(Yes)、そのファイルアクセスデータ１２６においてReadを含むフラグ３０９の値がTRUEであるか調べ（ステップ１４０６）、TRUEであるならばfile_idxを１だけインクリメントして（ステップ１４０７）ステップ１４０４から処理をやり直す。ステップ１４０５において存在しない(No)、または、ステップ１４０６においてFALSEであった場合は、Readアクセスがアクセスログに出力されていないファイルがあった（網羅的なReadは行われていなかった）ので、folder_idxを１だけインクリメントして（ステップ１４０８）、ステップ１４０１から処理をやり直す。ステップ１４０４においてfile_idx件未満であった場合（ファイル属性DBに登録されている全てのファイルについて網羅的にReadアクセスがアクセスログに出力されていた場合）は、網羅アクセスに該当するアクセスデータを削除し（ステップ１４０９）、ステップ１４０８から処理を続ける。ステップ１４０９における処理については、図１５において詳細に説明する。ステップ１４０１において存在しなかった場合は、処理を終了する。

図１４のステップ１４０９における処理について、図１５に示す詳細フローを参照しながら説明する。まず、網羅的なReadアクセスが行われたフォルダに存在するファイルそれぞれについて処理を行うため、インデックス変数file_idxを１で初期化する（ステップ１５００）。次に、フォルダアクセスデータ１２５のファイルリスト３０３にfile_idx以上の配列要素が存在するか調べる（ステップ１５０１）。存在するのであれば(Yes)、file_idx番目の配列要素のファイルアクセスデータ１２６におけるReadのみフラグ３０８がTRUEであるか調べ（ステップ１５０２）、FALSEであるならばfile_idxを１だけインクリメントし（ステップ１５０４）、TRUEであるならばその配列要素を削除して（ステップ１５０５）、ステップ１５０１から処理をやり直す。ステップ１５０１において存在しないのであれば(No)、そのフォルダアクセスデータ１２５におけるファイルリスト３０３が空であるか調べ（ステップ１５０５）、空なのであればフォルダアクセスデータを削除し（ステップ１５０６）、folder_idxを１だけデクリメントして（ステップ１５０７）、処理を終える。ステップ１５０５において空でなかった場合は、そのまま処理を終える。

図５のステップ５０７における優先度付与処理について、図１６に示す詳細フローを参照しながら説明する。まず、サーバアクセスデータ１２４におけるフォルダリスト３０１の中にあるフォルダアクセスデータ１２５のそれぞれについて処理を行うため、インデックス変数folder_idxを１で初期化する（ステップ１６００）。次に、Folder_idx以上のフォルダアクセスデータが存在するか調べ（ステップ１６０１）、存在するのであれば(Yes)、下記の処理を行う。まず、フォルダアクセスデータ１２５の優先度３０４を０で初期化する（ステップ１６０２）。次に、利用支援システムが持つファイル属性DBの中のファイル属性データ１２８から、フォルダアクセスデータ１２５のフォルダ名３０２と同じフォルダ名をファイル名４０４に持つものを全て取得する（ステップ１６０３）。取得したファイル属性データそれぞれについて処理を行うため、インデックス変数file_idxを１で初期化する（ステップ１６０４）。ステップ１６０３で取得したファイル属性データがfile_idx件以上であったか調べ（ステップ１６０５）、file_idx以上であれば(Yes)、下記の処理を行う。フォルダアクセスデータ１２５のファイルリスト３０３の中で、ファイル名３０６が、ファイル属性データ１２８のファイル名４０４と同じであるものが存在するか調べ（ステップ１６０６）、存在するのであれば(Yes)、優先度を１だけインクリメントする（ステップ１６０７）。ステップ１６０７の処理を終えた場合、または、ステップ１６０６において存在しなかった場合は(No)、file_idxを１だけインクリメントし（ステップ１６０８）、ステップ１６０５から処理をやり直す。ステップ１６０５においてfile_idx未満であった場合は、folder_idxを１だけインクリメントし（ステップ１６０９）、ステップ１６０１から処理をやり直す。ステップ１６０１においてfolder_idx未満であった場合は、優先度の降順になるようサーバアクセスデータ１２４のフォルダリスト３０１の中にあるフォルダアクセスデータを並べ替え（ステップ１６１０）、処理を終了する。

図５のステップ５０８におけるクローリング併用処理について、図１７に示す詳細フローを参照しながら説明する。まず、サーバアクセスデータ１２４におけるフォルダリスト３０１の中にあるフォルダアクセスデータ１２５のそれぞれについて処理を行うため、インデックス変数folder_idxを１で初期化する（ステップ１７００）。次に、Folder_idx以上のフォルダアクセスデータが存在するか調べ（ステップ１７０１）、存在するのであれば(Yes)、下記の処理を行う。まず、フォルダアクセスデータ１２５のサブツリー網羅要否３０５の値を調べる（ステップ１７０２）。FALSEであれば、そのフォルダ内のファイルに対するアクセスのうち、ReadおよびDeleteについてファイルサーバへのアクセスを省略するための処理を行う（ステップ１７０３）。この処理については、Read_Deleteスキップ処理部１１８を用いて行うものであり、図１８において詳細に説明する。次に、フォルダアクセスデータ１２５におけるファイルリスト３０３の中にあるファイルアクセスデータ１２６のそれぞれについて処理を行うため、インデックス変数file_idxを１で初期化する（ステップ１７０４）。次に、file_idx以上のファイルアクセスデータが存在するか調べ（ステップ１７０５）、存在するのであれば(Yes)、下記の処理を行う。まず、そのファイルに対するアクセス権限を確認する処理を行い（ステップ１７０６）、アクセス権限があるのであれば、そのファイルが本当にファイルであるか調べる処理を行い（ステップ１７０７）、ファイルであるならば、ファイルサーバ１０８からファイル属性データ１２８を取得して利用支援システムが持つファイル属性DB１０６を更新する（ステップ１７０８）。ステップ１７０６における処理はアクセス権限再確認処理部１１９を用いて行うものであり、図１９において詳細に説明する。ステップ１７０７における処理は、ファイル_フォルダ確認処理部１２０を用いて行うものであり、図２０において詳細に説明する。ステップ１７０６においてアクセス権限がない(No)、または、ステップ１７０７においてフォルダである場合、または、ステップ１７０８の処理を行った後には、ステップ１７０９でfile_idxを１だけインクリメントし、ステップ１７０５から処理をやり直す。ステップ１７０２においてTRUEであった場合は、そのフォルダ以下のサブツリーについて、ファイルサーバに対し網羅的にクローリングを行ってファイル属性データ１２８を取得して利用支援システムが持つファイル属性DBを更新する（ステップ１７１１）。ステップ１７１１の処理を行った後、または、ステップ１７０５においてfile_idx未満であった場合、folder_idxを１だけインクリメントして（ステップ１７１０）、ステップ１７０１から処理をやり直す。ステップ１７０１においてfolder_idx未満であった場合、処理を終了する。

図１７のステップ１７０３におけるRead_Deleteスキップ処理について、図１８に示す詳細フローを参照しながら説明する。まず、設定データ１２１のRead_Deleteスキップ条件有無２０２の値を調べ（ステップ１８００）、TRUEなのであれば下記の処理を行う。まず、フォルダアクセスデータ１２５のファイルリスト３０３に存在するファイルアクセスデータそれぞれについて処理を行うため、インデックス変数file_idxを１で初期化する（ステップ１８０１）。次に、フォルダアクセスデータ１２５のファイルリスト３０３にfile_idx以上の配列要素が存在するか調べる（ステップ１８０２）。存在するのであれば(Yes)、下記の処理を行う。まず、ファイルアクセスデータ１２６のReadのみフラグ３０８の値を調べ（ステップ１８０３）、TRUEなのであれば、利用支援システムが持つファイル属性DBにおけるファイル属性データのうちファイル名４０４がファイルアクセスデータ１２６のファイル名３０６と同じものにおける最終アクセス日時４０５をファイルアクセスデータ１２６の最終アクセス日時３０７で更新する（ステップ１８０５）。ステップ１８０３においてFALSEなのであれば、最後にDeleteフラグ３１０の値を調べ（ステップ１８０４）、TRUEなのであれば、利用支援システムが持つファイル属性DBにおけるファイル属性データのうちファイル名４０４がファイルアクセスデータ１２６のファイル名３０６と同じものを削除する（ステップ１８０５）。ステップ１８０５の処理を行った後、または、ステップ１８０７の処理を行った後、そのファイルアクセスデータを削除し（ステップ１８０６）、ステップ１８０２から処理をやり直す。ステップ１８０４においてFALSEなのであれば、file_idxを１だけインクリメントし（ステップ１８０８）、ステップ１８０２から処理をやり直す。ステップ１８００においてFALSEである場合、または、ステップ１８０２においてfile_idx未満のデータがある場合は(No)、処理を終了する。

図１７のステップ１７０６におけるアクセス権限再確認処理について、図１９に示す詳細フローを参照しながら説明する。まず、利用支援システムのクローリングを行うユーザIDに対し、ファイルサーバ１０８における該当ファイル（ファイル名が、ファイルアクセスデータ１２６のファイル名３０６と同じであるファイル）へのReadアクセス権限が付与されているかを調べる（ステップ１９００）。付与されているのであれば(Yes)「アクセス権限あり」と判定し（ステップ１９０１）、そうでなければ(No)「アクセス権限なし」と判定する（ステップ１９０２）。

図１７のステップ１７０７におけるファイル_フォルダ確認処理について、図２０に示す詳細フローを参照しながら説明する。まず、ファイルサーバ１０８上に、ファイル名が、ファイルアクセスデータ１２６のファイル名３０６と同じであるファイルが存在するか調べる（ステップ２０００）。存在するのであれば(Yes)「ファイルである」と判定し（ステップ２００１）、そうでなければ(No)「フォルダである」と判定する（ステップ２００２）。

図５のステップ５００における、設定画面を表示する処理について、図７を参照して説明する。サーバごとに（７００）現在の設定内容を表示すると共に変更を受付け（７０１，７０２、７０３）、確認した旨を受け付けて（７０４）、設定データ１２１に格納する。

図５のステップ５１０における、結果画面を表示する処理について、図８を参照して説明する。サーバごとに（８００）差分クローリングに関する情報を表示し（８０１）、確認した旨を受け付けて（８０２）、差分クローリング処理を終える。

本明細書では、フォルダ名標準化ルール２０５は、対象文字列と置換後文字列の組で与える形式とした。この方式に代えて、正規表現の形で与える方式についても、本発明を同様に適用することができる。

本明細書では、ファイル属性データ１２８として、全文データ４１１を保持する形式とした。全文検索エンジン以外（ファイルサーバの管理システム・データ格納領域管理システムなど）では、この方式に代えて、全文データを保持しない方式についても、本発明を同様に適用することができる。さらに、ハッシュ値４１２を保持しない方式についても、本発明を同様に適用することができる。

本明細書では、適用除外条件有無２００、サブツリー網羅条件有無２０１、Read_Deleteスキップ条件有無２０２、網羅アクセス除外条件有無２０３、インポート処理有無２０４の変数をユーザの設定に従って保持し、処理内容を切り替える形式について説明している。これらの設定値についてあらかじめTRUEまたはFALSEの値を固定してしまい、常に処理を行う、または、常に処理を行わないとした方式についても、本発明を同様に適用することができる。

本発明では、ファイルサーバのアクセスログを参照し、フォルダ名の標準化・情報システムの管理者による管理操作に由来するアクセスの除外・フォルダに対するアクセスが行われた場合のサブツリーに対する網羅的情報更新・ファイルに対して複数回アクセスが行われた場合のまとめての情報更新・コンピュータ端末によるユーザの意図を伴わないアクセスの除外・ユーザのファイル利用頻度に応じた優先度付与・アクセス種別に基づく情報更新・アクセス権限に基づく情報更新・ファイルとフォルダの確認に基づく情報更新により、ファイルの情報の更新の効率化を行う。

また、上記の実施の形態において、添付図面に図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。

また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。

また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。

本発明は、業務処理装置として利用可能である。

１００…表示装置
１０１…キーボード
１０２…ポインティングデバイス
１０３…中央処理装置
１０４…プログラムメモリ
１０５…データメモリ
１０６…ファイル属性DB
１０７…アクセスログ
１０８…ファイルサーバ
１０９…インポート処理部
１１０…アクセスログ読み込み処理部
１１１…フォルダ名標準化処理部
１１２…除外条件確認処理部
１１３…サブツリー網羅処理部
１１４…ファイルまとめ処理部
１１５…網羅アクセス除外処理部
１１６…優先度付与処理部
１１７…クローリング併用処理部（更新部）
１１８…Read_Deleteスキップ処理部
１１９…アクセス権限再確認処理部
１２０…ファイル_フォルダ確認処理部

Claims

ファイルサーバに存在するファイルの情報を更新する業務文書処理装置であって、
アクセス日時、対象オブジェクトであるフォルダ又はファイル、アクセスユーザの少なくともいずれかを、ファイルサーバへのアクセス毎に記録するアクセスログを格納するアクセスログデータベースと、ファイルの属性情報を格納するファイル属性情報データベースと、に接続され、
前記アクセスログを読み込むアクセスログ読み込み処理部と、
前記アクセスログに記載のあったアクセス毎のフォルダ又はファイルのアクセス情報を用いて、アクセス毎のファイルの属性情報を更新する更新部と、を備えたことを特徴とする業務文書処理装置。
前記更新部は、
前記アクセスログに記載されているフォルダ又はファイルのアクセス毎のリストを参照し、ファイルサーバをクローリングするクローリング併用処理部による処理を併用して、前記ファイルの属性情報を更新することを特徴とする請求項１に記載の業務文書処理装置。
前記更新部は、
初期状態のDBに対して、前記アクセスログに記載されているフォルダ又はファイルのアクセス毎のリストを参照し、ファイルサーバをクローリングして、前記ファイルの属性情報を追加することを特徴とする請求項１または２に記載の業務文書処理装置。
ファイルサーバごとに、対象文字列と、それを標準化するための管理用文字列との対応関係を保持しておき、
前記アクセスログ読み込み処理部がアクセスログを読み込む際にフォルダ名を前記対応関係を参照して前記管理用文字列により標準化するファイル名標準化処理部を備えたことを特徴とする請求項１または２に記載の業務文書処理装置。
アクセスを行ったユーザ又はアクセスが行われた時間帯又は対象ファイルの属性（拡張子）のいずれかに対する条件を保持しておき、前記アクセスログと前記条件とを照合して、照合された条件を有するオブジェクトを前記アクセスログの読み込み対照から除外する除外条件確認処理部を備えたことを特徴とする請求項１または２に記載の業務文書処理装置。
前記ファイルサーバごとに、フォルダに含まれるファイル群のうち更新対象を特定する特定情報を付加しておく、前記特定情報に基づいて、更新対象を振り分ける制御を行うサブツリー網羅処理部を備えたことを特徴とする請求項１または２に記載の業務文書処理装置。
前記ファイルサーバが出力したアクセスログを、アクセスの種類に関するフラグ変数を更新しながら、同一のファイルに対するアクセスログをまとめて集約するファイルまとめ処理部を備えたことを特徴とする請求項１または２に記載の業務文書処理装置。
あるフォルダに存在するサブツリー内で利用支援システムに登録されているファイル全てに対し読み込みのアクセスログが出力されていた場合に、読み込みのアクセスログのみ出力されているファイルはファイルサーバから情報を取得する対象から除外する網羅アクセス除外処理部を備えたことを特徴とする請求項１または２に記載の業務文書処理装置。
前記ファイルサーバが出力したアクセスログを、フォルダごとに集計し、それぞれのフォルダにおいてアクセスが行われたファイルの数を調べ、アクセス数の多いフォルダからファイルの情報を取得する優先度付与処理部を備えたことを特徴とする請求項１または２に記載の業務文書処理装置。
前記アクセスログから作成したリストを参照して前記ファイルサーバからファイルの情報を取得する際、まず、前記ファイルサーバに存在するものがファイルであるかフォルダであるかを調べるファイル−フォルダ確認処理部を有し、ファイルなのであれば、前記ファイルサーバからファイルの情報を取得することを備えたことを特徴とする請求項１または２に記載の業務文書処理装置。
前記アクセスログから作成したリストを参照して前記ファイルサーバから情報を取得する際、まず、ファイルに対するアクセス権限があるかを調べるアクセス権限再確認処理部を有し、アクセス権限があれば、ファイルサーバから情報を取得することを特徴とする請求項１または２に記載の業務文書処理装置。
前記ファイルサーバごとに、最終アクセス日時の取得先を前記アクセスログ又は前記ファイルサーバのいずれかとする情報を保持しておき、前記アクセスログから作成したリストを参照してファイルサーバから情報を取得する際、Readアクセスのみ出力されたファイルについては、前記アクセスログから日時を取得するか、ファイルサーバから最終アクセス日時を取得するか、処理内容を振り分けることを特徴とする請求項１または２に記載の業務文書処理装置。
前記ファイルサーバごとに、最終アクセス日時の取得先を前記アクセスログ又は前記ファイルサーバのいずれかとする情報を保持しておき、前記アクセスログから作成したリストを参照してファイルサーバから情報を取得する際、最後に出力されたアクセスがDeleteアクセスであるファイルについては、アクセスログから削除された情報を取得するか、ファイルサーバからファイルの存在情報を取得するか、処理内容を振り分けることを特徴とする請求項１または２に記載の業務文書処理装置。
ファイルサーバごとに現在の設定内容を表示すると共に変更を設定する変更設定部を有し、
前記変更設定部は、適用除外条件と、サブツリー網羅条件と、リード‐デリートスキップ条件と、網羅アクセス除外条件と、インポート処理の有無と、フォルダ名標準化ルールと、適用除外条件の設定とのいずれかのインターフェイスを有し、
これらの条件の設定を格納する設定データ部を有することを特徴とする業務文書処理装置。
アクセス日時、対象オブジェクトであるフォルダ又はファイル、アクセスユーザの少なくともいずれかを、ファイルサーバへのアクセス毎に記録するアクセスログを格納するアクセスログデータベースと、ファイルの属性情報を格納するファイル属性情報データベースと、に接続され、ファイルサーバに存在するファイルの情報を更新する業務文書処理方法であって、
ファイルサーバに、
前記アクセスログを読み込むアクセスログ読み込み処理ステップと、
前記アクセスログに記載のあったアクセス毎のフォルダ又はファイルのアクセス情報を用いて、アクセス毎のファイルの属性情報を更新する更新ステップと、を有することを特徴とする業務文書処理方法。
コンピュータに、請求項１５に記載の業務文書処理方法を実行させるための業務文書処理プログラム。