JP6081213B2

JP6081213B2 - 業務文書処理装置、業務文書処理プログラム

Info

Publication number: JP6081213B2
Application number: JP2013024928A
Authority: JP
Inventors: 俊子松本; あゆみ三松
Original assignee: Hitachi Solutions Ltd
Current assignee: Hitachi Solutions Ltd
Priority date: 2013-02-12
Filing date: 2013-02-12
Publication date: 2017-02-15
Anticipated expiration: 2033-02-12
Also published as: JP2014154044A

Description

本発明は、大量の文書を効率的に管理するための技術に関する。

組織内のファイルサーバは電子データの保存・共有のために利便性が高く、広く普及している。また、ファイルサーバの利用が進み、多くのファイルが保存されるようになったことに伴い、その運用を支援するための技術が提案されてきた（以下では「運用支援システム」と呼ぶ）。

下記非特許文献１・２に記載の技術はいずれも、ファイルサーバに保存されているファイル群を分類し、その分類に従って、同期遠隔バックアップの要否を指定したり、格納先を指定したり（高性能または大容量のメディア）することで、ファイルサーバの運用を支援するものである（以下では「退避」と呼ぶ）。分類は通常、ファイルシステムがメタデータとして保持するファイルの属性情報を用いて行われ、ファイルの最終参照日時や最終更新日時が新しいファイルはアクティブなファイルと見なされて、同期遠隔バックアップの対象となったり高性能のメディアが格納先に選ばれたりすることが多い。

「MEANS ファイルサーバスリム化ソリューション」がBCPと大規模対応を強化http://www.hitachi-solutions.co.jp/company/press/news/2012/1210.pdf ストレージの自動階層化を理解するhttp://www.atmarkit.co.jp/fserver/articles/vstorage/04/01.html ナレムコの統計とはhttp://assist.livedoor.biz/archives/cat_50029159.html Leung, A. W., Pasupathy, S., Goodson, G., and Miller, E. L.: "Measurement and Analysis of Large-Scale Network File System Workloads", Proceedings of USENIX08http://www.ssrc.ucsc.edu/Papers/leung-usenix08.pdf ストレージ管理「File Census」http://www.digiberry.com/products/filecensus/

しかし、ファイルがアクティブであると見なすための、ファイルの最終参照日時や最終更新日時の閾値については有効性が保証された基準は知られていない。この閾値が古すぎれば、必要性の低いファイルまで同期遠隔バックアップが行われたり高性能のメディアに格納されたりしてファイルサーバのコストを上昇させる原因となる。一方、この閾値が新しすぎれば、エンドユーザが日常的に利用するファイルが遠隔同期バックアップされなかったり大容量だが低速なメディアに格納されたりして利便性を損ねる原因となる。
ファイルの使用頻度について、既存の調査報告が存在している。しかし、上記非特許文献３では、紙の文書において、限られた職業・業務環境の下で実験的な観測が行われた結果を述べているのみであり、電子ファイルにおいても同じ条件が適しているとは限らない。また、上記非特許文献３・４では、電子ファイルの利用形態について調査する試みも行われている。

上記非特許文献４では、ファイルサーバにおけるファイルの参照や更新の頻度を、アクセスログを用いて集計する技術を述べている。しかしアクセスログは一般的に膨大な量になるため、参照や更新の閾値を判断するための分析に時間を要する。また、ファイルサーバに保存されてはいるものの全くアクセスが行われないファイルについてはアクセス頻度の情報を取得できず、ファイル全体としての参照や更新の頻度の推定値を偏らせる原因となる。

上記非特許文献５では、ある特定の時点における、ファイルサーバに保存されているファイルの最終更新日時の分布をグラフ表示する。この表示画面により、特定の閾値を与えた元で、退避対象になるファイルの割合をファイルサーバ管理者は把握できる。しかし、その閾値で運用を継続した場合の割合の変動や、エンドユーザの利便性がどの程度確保されるかなどの情報を得ることはできない。
本発明の目的は、ファイルサーバにおいて、退避するファイルを決定するための閾値を効率的に決めることである。特に、大量のファイルが保存されたファイルサーバにおいて、同期遠隔バックアップの要否を指定したり、高速メディアまたは大容量メディアへの格納を指定したりするための閾値の決定を効率化することである。

上記で述べた課題に対し、発明者は、ファイルサーバを定期的にクローリングする既存のアプリケーション、すなわち、全文検索エンジン（非特許文献６）、コンテンツ運用支援ソリューション（非特許文献７）などが持つファイルのメタデータ情報の特定時点の一覧（スナップショット）を利用することに着目した。
（非特許文献６）欲しい情報をすばやく正確に検索「日立高速全文検索シリーズ」
http://www.hitachi.co.jp/Prod/comp/soft1/textsearch/index.html
（非特許文献７）コンテンツ運用支援ソリューションMEANS
http://www.hitachi-solutions.co.jp/means/sp/

また、発明者は、２つの異なる時点におけるスナップショットを比較することにより、図２６に示すように、ファイルパスの消失・最終参照日時や最終更新日時の変化・ファイルパスの出現により、ファイルの削除、参照、更新、作成があったことを検出できることに着目した（知見１）。

また、発明者は、ファイルサーバに保存されているファイルに対するエンドユーザのアクセスは、個々のファイルに対し手動でアクセスが行われる場合と、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われる場合とで異なる統計的傾向を示すことを発見した。エンドユーザが個々のファイルに対し手動でアクセスを行う場合は、一日にアクセスされるファイルは多くても数十程度と考えられるのに対し、ファイルプログラム開発・メーラ・アプリケーションの実行ログ・ダウンロードしたファイル一式などにおいては、数千〜数万以上のファイルが一揃いの情報を構成している場合があり、エンドユーザがそのようなファイルの一式に対してアクセスを行うと、突如、大量のアクセスが記録されることとなる。例えば、１０００万以上のファイルが格納されたファイルサーバに対し１００人以上のユーザによって行われた１年間の書き込み容量合計の４０％以上が、１人のユーザが１つのフォルダに対して行った１回の操作による書き込み容量で占められる場合もある。このような大量のアクセスは、アクセス頻度の集計値により「運用支援システム」における閾値を決定しようというファイルサーバ管理者の想定に含まれないものであり、個々のファイルに対する手動のアクセスと分けて考える必要がある。発明者は、このような大量のアクセスは、単一のエンドユーザによって、単一のフォルダに格納されているファイルに対して集中的に、短期間に突発的に、単一のアクセス種類（例えば、参照のみ）が集中的に行われるという特徴を発見し、これらの特徴により個々のファイルに対し手動でアクセスが行われる場合と、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われる場合とを識別できることに着目した（知見２）。

また、発明者は、ファイルサーバに保存されているファイルに対してエンドユーザにより行われた参照、更新、削除のアクセスが、直前のそのファイルへのアクセスからどれだけ期間を開けて行われたのかを集計することにより、特定の閾値の下で「エンドユーザによるファイルへの参照、更新、削除のアクセスのうちどれだけの割合が、退避対象となったファイルへのアクセスとなるか」をファイルサーバ管理者が把握することができることに着目した（知見３）。

また、発明者は、複数の異なる時点におけるスナップショットにおいて、各時点のスナップショットから退避対象容量を順次計算することで、退避対象となるファイルの割合の変動、すなわち、退避に必要なファイルサーバ費用の変動をファイルサーバ管理者が把握できることに着目した。企業内の活動は、月末・月初・年末・年度末・納入期限日・〆日など予め定められた期限に連動して行われる場合が多く、それらの期限の前後でアクセス頻度の変動（すなわち退避対象となるファイルの割合の変動）が想定され、一方、実際のデータでは想定した変動が必ずしも観測されるとは限らないことから、このような集計を行うことはファイルサーバ管理者の閾値決定に有用な情報を与えることに着目した（知見４）。

また、発明者は、ファイルサーバ上のファイルの利用形態は組織・部署によって異なり、利用形態によって有効なファイルサーバ管理上の施策が異なること、また、利用形態はアクセス頻度傾向に現れることを発見した。例えば、ある組織では、ファイルサーバ上のファイルは複数のエンドユーザによって参照、更新、名称を変更しての保存が活発に行われ、また別の組織では、ファイルサーバには編集が完成したファイルが情報共有および保存のために格納されており、定期的に見直しの上で古くなったファイルは削除され、さらに別の組織では、ファイルサーバ上に組織内で共有するためのファイルを格納するフォルダと、個人が自由に利用するフォルダが共存しており、個人用フォルダではローカルファイルのバックアップなどが行われていることが考えられる。１番目の組織では、作成途中のファイルの定期的な削除や文書の種類ごとのファイルの保管期限の制定が有効な施策として考えられ、２番目の組織では、文書の種類ごとのファイルの保管期限の制定が有効な施策として考えられ、３番目の組織では、１番目の組織における施策およびエンドユーザごとの容量管理やバックアップ領域の分離が有効な施策として考えられる。また、１番目の組織では参照、更新、作成の頻度が高い一方でいったんアクセスがなくなると再度のアクセスが発生する可能性は低く、２番目の組織では参照の頻度と比べて更新の頻度が低く、また参照の後では削除の確率が高く、３番目の組織では書き込みの頻度が高くなるという特徴が現れる。そこで、アクセスパターンの頻度からファイルの利用形態を推測することで、ファイルサーバの管理施策の判断に有用な情報を得られることに着目した（知見５）。
上記の知見により、発明者は以下の対応策に想到した。以下に対応案の概要について説明する。

（対応策）
対応策１：ファイルサーバを定期的にクローリングするアプリケーションから、スナップショットを得ることで、対象期間内に一度もアクセスが行われなかったファイルについても計算対象とする。

対応策２：一定期間内におけるファイルサーバに対するアクセスが記録されたアクセスログをスナップショット情報と照合し変換することで、その時点までのスナップショット情報とする。

対応策３：２つの異なる時点におけるスナップショットを比較することで、２つの時点の間にファイルサーバに対して行われたアクセスについて分析する。
対応策３−１：２つの異なる時点におけるスナップショットについて、各ファイルの両スナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、２つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する（知見１の利用）。
対応策３−２：２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、個々のファイルに対し手動でアクセスが行われたのではなく、大量のファイルに一括してアクセスが行われた場合を検知する（知見２の利用）。
対応策３−３：２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、アクセスの頻度を集計する。
対応策３−３−１：２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計する（知見３の利用）。
対応策３−３−２：各時点におけるスナップショットに記載されているファイルについて、退避対象容量を集計する（知見４の利用）。
対応策３−３−３：複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計する（知見５の利用）。

対応策４：退避によるエンドユーザが行うファイルアクセスへの影響の限界値および重みづけ係数と、退避対象となるファイルの割合の限界値および重みづけ係数を入力として受け取り、閾値ごとに、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果および、閾値ごとに、退避対象容量を集計した結果により、閾値の提案を行う。

対応策５：対応策４で求めた閾値と、現在の閾値の設定とを比較し、表示を行う。
対応策６：対応策３−３の結果について、表示を行う。
対応策６−１：対応策３−３−１の結果について、表示を行う。
対応策６−２：対応策３−３−２の結果について、表示を行う。
対応策６−３：ファイルサーバ上のファイルの利用形態とアクセスパターンの頻度を入力として受け取り、対応策３−３−３の結果を用いて、アクセスパターンが類似する利用形態の表示を行う。

上記の対応策を実現するため、下記の手段により解決する手法を提案する。
発明者は、前述した課題を解決することを目的として、ファイルサーバを定期的にクローリングするアプリケーションから、スナップショットを得て、ファイルのアクセスの頻度を集計する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、一定期間内におけるファイルサーバに対するアクセスが記録されたアクセスログをスナップショット情報と照合し変換することで、その時点までのスナップショット情報とし、ファイルのアクセスの頻度を集計する技術を提案する。

また、発明者は、前述した課題を解決することを目的として、２つの異なる時点におけるスナップショットを比較することで、２つの時点の間にファイルサーバに対して行われたアクセスについて分析する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、２つの異なる時点におけるスナップショットについて、各ファイルの両スナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、２つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、個々のファイルに対し手動でアクセスが行われたのではなく、大量のファイルに一括してアクセスが行われた場合を検知する技術を提案する。

また、発明者は、前述した課題を解決することを目的として、２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、アクセスの頻度を集計する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、各時点におけるスナップショットに記載されているファイルについて、退避対象容量を集計する技術を提案する。

また、発明者は、前述した課題を解決することを目的として、複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計する方法を技術する。
また、発明者は、前述した課題を解決することを目的として、退避によるエンドユーザが行うファイルアクセスへの影響の限界値および重みづけ係数と、退避対象となるファイルの割合の限界値および重みづけ係数を入力として受け取り、閾値ごとに、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果および、閾値ごとに、退避対象容量を集計した結果により、閾値の提案を行う技術を提案する。
また、発明者は、前述した課題を解決することを目的として、提案する閾値と現在の閾値の設定とを比較し、表示を行う技術を提案する。

また、発明者は、前述した課題を解決することを目的として、複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスの頻度を集計した結果の表示を行う技術を提案する。
また、発明者は、前述した課題を解決することを目的として、２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果の表示を行う方法を提案する。
また、発明者は、前述した課題を解決することを目的として、各時点におけるスナップショットに記載されているファイルについて、退避対象容量を集計した結果の表示を行う技術を提案する。
また、発明者は、前述した課題を解決することを目的として、ファイルサーバ上のファイルの利用形態とアクセスパターンの頻度を入力として受け取り、複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計した結果を用いて、アクセスパターンが類似する利用形態の表示を行う技術を提案する。

本発明の一観点によれば、ファイルサーバに存在するファイルを退避するための条件となる閾値の決定を支援する装置であって、ファイルサーバを定期的にクローリングするアプリケーションから、ファイルのメタデータ情報の特定時点の一覧であるスナップショット（以下、「スナップショット」と称する。）を得ることで、対象期間内に一度もアクセスが行われなかったファイルについても計算対象とするスナップショット読込み処理部と、２つの異なる時点における第１及び第２のスナップショットを比較することで、２つの時点の間にファイルサーバに対して行われたアクセスの内容を分析する差分分析処理部と、退避によるエンドユーザが行うファイルアクセスへの影響と、退避対象となるファイルの割合と、に基づいて、閾値ごとに、変更が行われたファイルについて、アクセス間隔として集計した結果、および、閾値ごとに、退避対象容量を集計した結果により、閾値の望ましさを最大化する新しい閾値を提案する閾値提案処理部とを有することを特徴とする業務文書処理装置が提供される。

大量のアクセスは、単一のエンドユーザによって、単一のフォルダに格納されているファイルに対して集中的に、短期間に突発的に、単一のアクセス種類（例えば、参照のみ）が集中的に行われるという特徴を見出し、これらの特徴により個々のファイルに対し手動でアクセスが行われる場合と、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われる場合とを識別できる。また、ファイルサーバに保存されているファイルに対してエンドユーザにより行われた参照、更新、削除のアクセスが、直前のそのファイルへのアクセスからどれだけ期間を開けて行われたのかを集計することにより、特定の閾値の下で「エンドユーザによるファイルへの参照、更新、削除のアクセスのうちどれだけの割合が、退避対象となったファイルへのアクセスとなるか」を把握することができる。

ファイルサーバを定期的にクローリングする既存のアプリケーション、すなわち、全文検索エンジン、コンテンツ運用支援ソリューションなどが持つファイルのメタデータ情報の特定時点の一覧（スナップショット）を利用し、２つの異なる時点におけるスナップショットを比較することにより、２つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する。ファイルパスの消失・最終参照日時や最終更新日時の変化・ファイルパスの出現により、ファイルの削除、参照、更新、作成があったことを検出し、例えば、退避によるエンドユーザが行うファイルアクセスへの影響の限界値および重みづけ係数と、退避対象となるファイルの割合の限界値および重みづけ係数を入力として受け取り、閾値ごとに、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果および、閾値ごとに、退避対象容量を集計することで、適切な新たな閾値の提案を行うことができる。

これにより、ファイルサーバにおけるファイルの参照や更新の頻度を、アクセスログを用いて集計する技術では、アクセスログは一般的に膨大な量になるため、参照や更新の閾値を判断するための分析に時間を要すること、また、ファイルサーバに保存されてはいるものの全くアクセスが行われないファイルについてはアクセス頻度の情報を取得できず、ファイル全体としての参照や更新の頻度の推定値を偏らせる原因となることが解消できる。
また、ある特定の時点における、ファイルサーバに保存されているファイルの最終更新日時の分布をグラフ表示画面により、特定の閾値を与えることで、退避対象になるファイルの割合をファイルサーバ管理者が把握できるものの、その閾値で運用を継続した場合の割合の変動や、エンドユーザの利便性がどの程度確保されるかなどの情報を得ることはできないということを解決できる。

本発明は、ファイルサーバに存在するファイルを退避するための条件の決定を支援する方法であって、ファイルサーバを定期的にクローリングするアプリケーションから、スナップショットを得ることで、対象期間内に一度もアクセスが行われなかったファイルについても計算対象とするスナップショット読込みステップを有することを特徴とする業務文書処理方法であっても良く、コンピュータに当該業務文書処理方法を実行させるためのプログラム、これを記憶する記録媒体でも良い。

本発明によれば、大量のファイルが保存されたファイルサーバにおいて、同期遠隔バックアップの要否を指定したり、高速メディアまたは大容量メディアへの格納退を指定したりするための閾値の決定を効率化することができる。

本発明の実施の形態による業務文書処理装置の概略構成例を示す機能ブロック図である。スナップショットデータ、アクセスログデータ、アクセス系列データのデータ構造例を示す図である。突発大量アクセス確認データ、更新取得日データ、アクセス間隔データのデータ構造を示す図である。退避対象容量データ、アクセス頻度データ、アクセス類型データ、閾値データのデータ構造例を示す図である。閾値基準データのデータ構造例を示す図である。業務文書処理装置において実行される処理手順の全体を説明するフローチャートである。更新分析処理部において実行される処理手順の詳細を説明するフローチャートである。アクセスログ・スナップショット変換処理部において実行される処理手順の詳細を説明するフローチャートである。差分分析処理部において実行される処理手順の一部の詳細を説明するフローャートである。差分分析処理部において実行される処理手順の一部の詳細を説明するフローャートである。突発大量アクセス検知処理部において実行される処理手順の全体を説明するフローチャートである。突発大量アクセス検知処理部において実行される処理手順のうちアクセスフラグ配列を埋める処理において実行される処理手順の詳細を説明するフローチャートである。突発大量アクセス検知処理部において実行される処理手順のうち突発大量アクセスを判定する処理において実行される処理手順の詳細を説明するフローチャートである。突発大量アクセス検知処理部において実行される処理手順のうちアクセス系列を修正する処理において実行される処理手順の詳細を説明するフローチャートである。足しこみ処理部において実行される処理手順の詳細を説明するフローチャートである。アクセス間隔集計処理部において実行される処理手順の詳細を説明するフローチャートである。退避対象容量集計処理部において実行される処理手順の詳細を説明するフローチャートである。アクセスパターン頻度集計処理部において実行される処理手順の詳細を説明するフローチャートである。閾値提案処理部において実行される処理手順の詳細を説明するフローチャートである。閾値表示処理部において実行される表示処理を示す画面例である。アクセス間隔グラフ表示処理部において実行される表示処理を示す画面例である。退避対象容量グラフ表示処理部において実行される表示処理を示す画面例である。アクセス間隔グラフ表示処理部において実行される表示処理を示す画面例である。アクセスパターン表示処理部において実行される表示処理を示す画面例である。複数の部署における退避対象容量割合の比較表示を示す説明図である。２つの異なる時点におけるスナップショットについて、各ファイルの両スナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、２つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する方法を示す説明図である。

以下、添付図面を参照しながら、本発明に係る業務文書処理技術について図面を参照しながら詳細に説明する。勿論、後述する形態例やその説明は一例であり、本発明には様々な変形例が考えられる。本明細書において、コンテンツ運用支援ソリューションなどが持つファイルのメタデータ情報の特定時点の一覧をスナップショットと称する。

（１）実施の形態
（１−１）システム構成例
図１〜図２４は、以下で説明する形態例を例示する図であり、これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。

図１は業務文書処理装置の内部構造を概略的に示す機能ブロック図である。業務文書処理装置は、データを表示するための表示装置１００、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード１０１、マウスなどのポインティングデバイス１０２、必要な演算処理、制御処理などを行う中央処理装置１０３、中央処理装置１０３での処理に必要なプログラムを格納するプログラムメモリ１０４、中央処理装置１０３での処理に必要なデータを格納するデータメモリ１０５、ファイルサーバを定期的にクローリングするアプリケーションからスナップショットの形で得られるファイル属性DB１０６、ファイルサーバから得られるアクセスログ１０７、辞書情報として入力されたファイルサーバの利用形態とアクセスパターンの頻度情報を保持するアクセス類型１３４、退避の対象となるファイルを分類するための閾値を決定するための基準として入力された値を保持する閾値基準１３５を備えている。

中央処理装置１０３は、スナップショット読込み処理部１０８と、アクセスログ・スナップショット変換処理部１０９と、更新分析処理部１１０と、閾値提案処理部１１７と、閾値表示処理部１１８と、分析結果表示処理部１１９とを備えている。この形態例の場合、コンピュータによって構成され、スナップショット読込み処理部１０８と、アクセスログ・スナップショット変換処理部１０９と、更新分析処理部１１０と、閾値提案処理部１１７と、閾値表示処理部１１８と、分析結果表示処理部１１９は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ１０４に格納されている。更新分析処理部１１０は、差分分析処理部１１１と、突発大量アクセス検知処理部１１２と、足しこみ処理部１１３とを備えている。足しこみ処理部１１３は、アクセス間隔集計処理部１１４と、退避対象容量集計処理部１１５と、アクセスパターン頻度集計処理部１１６とを備えている。分析結果表示処理部１１９は、アクセス間隔グラフ表示処理部１２０と、退避対象容量グラフ表示処理部１２１と、アクセスパターン表示処理部１２２とを備えている。

スナップショット読込み処理部１０８は上記の対応策１を実現するものであり、アクセスログ・スナップショット変換処理部１０９は上記の対応策２を実現するものであり、更新分析処理部１１０は上記の対応策３を実現するものであり、閾値提案処理部１１７は上記の対応策４を実現するものであり、閾値表示処理部１１８は上記の対応策５を実現するものであり、分析結果表示処理部１１９は上記の対応策６を実現するものである。また、差分分析処理部１１１は上記の対応策３−１を実現するものであり、突発大量アクセス検知処理部１１２は上記の対応策３−２を実現するものであり、足しこみ処理部１１３は上記の対応策３−３を実現するものである。また、アクセス間隔集計処理部１１４は上記の対応策３−３−１を実現するものであり、退避対象容量集計処理部１１５は上記の対応策３−３−２を実現するものであり、アクセスパターン頻度集計処理部１１６は上記の対応策３−３−３を実現するものである。また、アクセス間隔グラフ表示処理部１２０は上記の対応策６−１を実現するものであり、退避対象容量グラフ表示処理部１２１は上記の対応策６−２を実現するものであり、アクセスパターン表示処理部１２２は上記の対応策６−３を実現するものである。

データメモリ１０５は、スナップショットデータ１２３、アクセスログデータ１２４、アクセス系列データ１２５、突発大量アクセス確認データ１２６、更新取得日データ１２７、アクセス間隔データ１２８、退避対象容量データ１２９、アクセス頻度データ１３０、アクセス類型データ１３１、閾値データ１３２、閾値基準データ１３３を備えている。

ファイル属性DB１０６はスナップショットデータ１２３のデータを保持しており、アクセスログ１０７はアクセスログデータ１２４のデータを保持しており、アクセス類型１３４はアクセル類型データ１３１のデータを保持しており、閾値基準１３５は閾値基準データ１３３のデータを保持している。
尚、各処理部の一部又は全部を専用のハードウェア構成としても良いことは言うまでもない。

（１−２）データ構成例
図２（ａ）−（ｃ）は、データメモリ１０５に含まれるスナップショットデータ１２３、アクセスログデータ１２４、アクセス系列データ１２５のデータ構造例を示す図である。スナップショットデータ１２３は、ファイルパス２００、サイズ２０１、最終更新日時２０２、最終参照日時２０３、所有者２０４を含んでいる。それぞれのファイルごとにこれらのメンバの値を持ち、スナップショットデータ１２３は配列の形で保持される。アクセスログデータ１２４は、ファイルパス２０５、日時２０６、操作内容２０７、サイズ２１６、ユーザ２１７を含んでいる。それぞれのアクセスごとにこれらのメンバの値を持ち、アクセスログデータ１２４は配列の形で保持される。

アクセス系列データ１２５は、ファイルパス２０８、サイズ２０９、最終更新日時２１０、最終参照日時２１１、突発大量以外の最終更新日時２１２、突発大量以外の最終参照日時２１３、所有者２１４、アクセス系列２１５、削除年月日２１８を含んでいる。ファイルパス２０８、サイズ２０９、最終更新日時２１０、最終参照日時２１１、所有者２１４は、それぞれ、ファイルパス２００、サイズ２０１、最終更新日時２０２、最終参照日時２０３、所有者２０４の値を初期値として持つ。突発大量以外の最終更新日時２１２、突発大量以外の最終参照日時２１３および、削除年月日２１８は、初期状態ではNULL値を持つ。アクセス系列は、そのファイルに対してどのような操作が行われたかを、複数の異なる時点におけるスナップショットの分析の結果として保持する。新規にファイルが作成されたことを示す"C"、エンドユーザにより手動で更新されたことを示す"W"、エンドユーザにより手動で参照されたことを示す"R"、エンドユーザにより手動で削除されたことを示す"D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して更新されたことを示す"突W"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して参照されたことを示す"突R"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して削除されたことを示す"突D"、何もアクセスが行われなかったことを示す"N"のいずれかの文字を各要素として持つ配列の形で保持される。

図３（ａ）−（ｃ）は、データメモリ１０５に含まれる突発大量アクセス確認データ１２６、更新取得日データ１２７、アクセス間隔データ１２８のデータ構造を示す図である。

突発大量アクセス確認データ１２６は、フォルダパス３００、ファイル数３０１、Rの件数３０２、Wの件数３０３、Cの件数３０４、Dの件数３０５、所有者３０６、フラグ３０７を含んでいる。知見２に基づき、２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報において、フォルダパス３００で指定されるフォルダツリーに存在する全ファイル数３０１において、参照、更新、作成、削除が行われたファイルの数３０２、３０３、３０４、３０５、フォルダツリーに存在するファイルの所有者３０６を保持する。これらの値を元に、エンドユーザにより個々のファイルに対し手動でアクセスが行われたのか、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われたのかを判断した結果が、フラグ３０７に保持される。フラグ３０７は、判断が行われる前の初期状態ではNULL値を持つ。

更新取得日データ１２７は、取得日３０８を含んでいる。更新データ１２７は、スナップショットまたはアクセスログの形でファイルサーバの情報が更新される度ごとの日付情報を持ち、配列の形で保持される。

アクセス間隔データ１２８は、アクセス種類３０９、アクセス間隔３１０、カウント３１１、突発大量を除いたカウント３１２を含んでいる。アクセス種類３０９は、参照、更新、削除を示す"R"、"W"、"D"のいずれかの値を保持する。アクセス間隔３１０は、期間の範囲を保持する。カウント３１１は、アクセス種類３０９で指定されるアクセスが、直前の何らかのファイルアクセスから、アクセス間隔３１０で指定される期間の間隔で行われた回数を保持する（アクセス種類３０９で指定されるアクセスには、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われた場合も含むとした場合の回数を保持する）。初期状態では0を持つ。突発大量を除いたカウント３１２は、カウント３１１と同様であるが、アクセス種類３０９で指定されるアクセスにおいて、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われた場合は除いた値を保持する。初期状態では0を持つ。

図４（ａ）−（ｄ）は、データメモリ１０５に含まれる退避対象容量データ１２９、アクセス頻度データ１３０、アクセス類型データ１３１、閾値データ１３２のデータ構造を示す図である。

退避対象容量データ１２９は、R閾値４００、W閾値４０１、計算日４０２、対象容量４０３、突発大量を除いた対象容量４０４、全容量４１４を含んでいる。対象容量４０３は、最終参照日時２１１がR閾値４００で指定された期間内の値を持ち、最終更新日時２１０がW閾値４０１で指定された期間内の値を持つファイルのサイズ２０９の合計値の計算日４０２における値を保持し、初期状態では0を持つ。突発大量を除いた対象容量４０４は、突発大量以外の最終参照日時２１３がR閾値４００で指定された期間内の値を持ち、突発大量以外の最終更新日時２１２がW閾値４０１で指定された期間内の値を持つファイルのサイズ２０９の合計値の計算日４０２における値を保持し、初期状態では0を持つ。全容量４１４は、ファイルのサイズ２０９の合計値の計算日４０２における値を保持し、初期状態では0を持つ。R閾値４００、W閾値４０１、計算日４０２の値ごとにこれらのメンバの値を持ち、退避対象容量データは配列の形で保持される。

アクセス頻度データ１３０は、アクセスパターン４０５、カウント４０６を含んでいる。アクセスパターン４０５は、新規にファイルが作成されたことを示す"C"、エンドユーザにより手動で更新されたことを示す"W"、エンドユーザにより手動で参照されたことを示す"R"、エンドユーザにより手動で削除されたことを示す"D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して更新されたことを示す"突W"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して参照されたことを示す"突R"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して削除されたことを示す"突D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して作成されたことを示す"突C"、何もアクセスが行われなかったことを示す"N"のいずれかの文字を1つ以上連ねた文字列を保持する。カウント４０６は、アクセスパターン４０５で指定されるアクセスが行われた回数を保持し、初期状態では0を持つ。アクセスパターン４０５で指定されるアクセスの種類ごとにこれらのメンバの値を持ち、アクセス頻度データ１３０は配列の形で保持される。

アクセス類型データ１３１は、アクセスパターン４０７、確率４０８、表示用_アクセスパターン４０９、表示用_利用状況４１０、表示用_施策４１１を含んでいる。アクセスパターン４０７は、二次元配列の形で保持される。各要素において、第一の要素は、新規にファイルが作成されたことを示す"C"、エンドユーザにより手動で更新されたことを示す"W"、エンドユーザにより手動で参照されたことを示す"R"、エンドユーザにより手動で削除されたことを示す"D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して更新されたことを示す"突W"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して参照されたことを示す"突R"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して削除されたことを示す"突D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して作成されたことを示す"突C"、何もアクセスが行われなかったことを示す"N"のいずれかの文字を1つ以上連ねた文字列を保持し、第二の要素は、第一の要素にさらに1文字加えた文字列を保持する。確率４０８は、0以上1以下の数値の配列の形で保持される。各要素は、アクセスパターン４０７の各要素において、第一の要素で示されるアクセスが生じた場合に第二の要素で示されるアクセスが生じる条件付き確率の値を示す。表示用_アクセスパターン４０９、表示用_利用状況４１０、表示用_施策４１１はそれぞれ、アクセスパターン４０７で指定されたアクセスが確率４０８で指定された条件付き確率で発生する場合についての、画面表示用の説明文字列である。

閾値データ１３２は、R閾値４１２、W閾値４１３を含んでいる。これらの値は、ファイルサーバ上で退避の対象となるファイルを分類するための最終参照日時２０３および最終更新日時２０２の閾値であり、初期状態ではNULL値を持つ。

図５は、データメモリ１０５に含まれる閾値基準データ１３３のデータ構造を示す図である。閾値基準データ１３３は、退避対象容量上限値５００、Rカバー率下限５０１、Wカバー率下限５０２、Dカバー率下限５０３、退避対象容量係数５０４、Rカバー率係数５０５、Wカバー率係数５０６、Dカバー率係数５０７を含んでいる。退避対象容量上限値５００は、ファイルサーバの全容量のうち退避対象となるファイルの容量合計の割合としてファイルサーバ管理者が許容できる最大値として指定された値を保持する。Rカバー率下限５０１、Wカバー率下限５０２および、Dカバー率下限５０３はそれぞれ、エンドユーザが参照、更新、削除するファイルアクセスのうち退避対象ファイルに対象ファイルが存在する割合として許容できる最小値として指定された値を保持する。退避対象容量係数５０４、Rカバー率係数５０５、Wカバー率係数５０６および、Dカバー率係数５０７はそれぞれ、ファイルサーバ上で退避の対象となるファイルを分類するための閾値の決定にあたり、退避対象容量の多さ（退避対象容量係数５０４が負の値の場合は少なさ）、エンドユーザのファイル参照のうち退避対象ファイルに対象ファイルが存在する割合の多さ、エンドユーザのファイル更新のうち退避対象ファイルに対象ファイルが存在する割合の多さおよび、エンドユーザのファイル削除のうち退避対象ファイルに対象ファイルが存在する割合の多さをどれだけ重視するかの係数として指定された値を保持する。

（１−３）処理例
次に、上記のように構成された本実施形態の業務文書処理装置において行われる処理の流れについて例示的に説明する。図６は、業務文書処理装置において行われる処理の流れを概略的に示すフローチャートである。図６において、まず、辞書情報として入力されたファイルサーバの利用形態とアクセスパターンの頻度情報を保持するアクセス類型１３４および、退避の対象となるファイルを分類するための閾値を決定するための基準として入力された閾値基準１３５を読み込む（ステップ６００）。次に、更新取得日データ１２７、アクセス間隔データ１２８、退避対象容量データ１２９、アクセス頻度データ１３０の配列要素を全て削除する。その後、アクセス類型データ１３１のアクセスパターン４０７で定義されている最大の長さ以下になるよう、"R"、"W"、"C"、"D"の並びを生成してアクセスパターン４０５に設定した配列要素をアクセス頻度データ１３０に追加する。カウント４０６には0を設定する（ステップ６０１）。その後、ファイル属性DB１０６に保持された、最も日付の古いスナップショットを読み込み、アクセス系列データに変換して保持する（ステップ６０２）。この変換においては、ファイルパス２０８、サイズ２０９、最終更新日時２１０、最終参照日時２１１、所有者２１４は、それぞれ、ファイルパス２００、サイズ２０１、最終更新日時２０２、最終参照日時２０３、所有者２０４の値を転記し、突発大量以外の最終更新日時２１２、突発大量以外の最終参照日時２１３、アクセス系列２１５および、削除年月日は、NULL値を保持する。続いて、ファイルサーバ上のファイルに関する更新データそれぞれについて以下の処理を行うため、インデックスDump_idxを１で初期化する（ステップ６０３）。Dump_idx以上の更新データが存在するか調べ（ステップ６０４）、存在するのであれば、更新データを取得した日を更新取得日データ１２７の新しい配列要素として追加し（ステップ６０５）、更新データの分析処理を行う（ステップ６０６）。

ステップ６０６における処理については、更新分析処理部１１０を用いて行うものであり、図７において詳細に説明する。その後、Dump_idxをインクリメントし（ステップ６０７）、ステップ６０４から処理をやり直す。ステップ６０４においてDump_idx以上の更新データが存在しない場合は、提案するべき閾値を計算し（ステップ６０８）、計算した閾値の提案表示を行い（ステップ６０９）、ステップ６０６で行った更新分析結果の表示を行う（ステップ６１０）。ステップ６０８における処理については、閾値提案処理部１１７を用いて行うものであり、図１９において詳細に説明する。ステップ６０９における処理については、閾値表示処理部１１８を用いて行うものであり、図２０において詳細に説明する。ステップ６１０における処理については、分析結果表示処理部１１９を用いて行うものであり、図２１〜図２４において詳細に説明する。

図６のステップ６０６における、更新分析処理について、図７に示す詳細フローを参照しながら説明する。まず、更新データがアクセスログとスナップショットのどちらで与えられているかに従い（ステップ７００）、アクセスログ１０７から読込みスナップショットデータ１２３に変換する（ステップ７０１）か、もしくは、ファイル属性DB１０６から読み込みスナップショットデータ１２３として保持する（ステップ７０２）。ステップ７０１における処理については、アクセスログ・スナップショット変換処理部１０９を用いて行うものであり、図８において詳細に説明する。その後、アクセス系列データとスナップショットデータの差分の分析処理を行い（ステップ７０３）、ファイルに対するアクセスのうちフォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われたことに由来する突発的かつ大量のアクセスに該当するアクセスを検知し（ステップ７０４）、アクセス情報を足しこむ処理を行う（ステップ７０５）。ステップ７０３における処理については、差分分析処理部１１１を用いて行うものであり、図９〜図１０において詳細に説明する。また、ステップ７０４における処理については、突発大量アクセス検知処理部１１２を用いて行うものであり、図１１〜１４において詳細に説明する。また、ステップ７０５における処理については、足しこみ処理部１１３を用いて行うものであり、図１５において詳細に説明する。

図７のステップ７０１における、アクセスログ１０７から読み込みスナップショットデータ１２３に変換する処理について、図８に示す詳細フローを参照しながら説明する。まず、ステップ６０２で読み込み、処理フローに応じてステップ７０３で更新したアクセス系列データ１２５をスナップショットデータ１２３にコピーする（ステップ８００）。このコピー処理においては、ファイルパス２００、サイズ２０１、最終更新日時２０２、最終参照日時２０３、所有者２０４の値はそれぞれ、ファイルパス２０８、サイズ２０９、最終更新日時２１０、最終参照日時２１１、所有者２１４の値を転記する。突発大量以外の最終更新日時２１２、突発大量以外の最終参照日時２１３、アクセス系列２１５および、削除年月日２１８は捨てる。次に、アクセスログデータそれぞれについて以下の処理を行うため、インデックスAccL_idxを１で初期化する（ステップ８０１）。AccL_idx以上のアクセスログデータがあるか調べ（ステップ８０２）、存在するのであれば、操作内容２０７が作成であるか調べ（ステップ８０３）、作成であればスナップショットデータを１つ追加する（ステップ８０４）。ステップ８０４における処理では、ファイルパス２００、サイズ２０１および、所有者２０４はそれぞれ、ファイルパス２０５、サイズ２１６、ユーザ２１７を転記する。最終更新日時２０２および最終参照日時２０３は、日時２０６を転記する。その後、AccL_idxをインクリメントし（ステップ８０５）、ステップ８０２から処理をやり直す。ステップ８０３において作成でなかった場合は、操作内容２０７が削除であるか調べ（ステップ８０６）、削除であればファイルパス２０５と同じファイルパス２００を持つスナップショットデータを削除し（ステップ８０７）、そうでなければスナップショットデータを更新する（ステップ８０８）。ステップ８０８における処理では、ファイルパス２０５と同じファイルパス２００を持つ配列要素に対し、操作内容２０７が参照であるなら、最終参照日時２０３を日時２０６で上書きし、操作内容２０７が更新であるなら、最終更新日時２０２および最終参照日時２０３を日時２０６で上書きする。ステップ８０２においてAccL_idx以上のアクセスログデータが存在しない場合は、処理を終了する。

図７のステップ７０３における、アクセス系列データとスナップショットデータの差分の分析を行う処理について、図９〜図１０に示す詳細フローを参照しながら説明する。まず、アクセス系列データとスナップショットデータに含まれるファイルそれぞれについて以下の処理を行うため、スナップショットに含まれるファイルのインデックスCurr_idxおよびアクセス系列データに含まれるファイルのインデックスPrev_idxを１で初期化する（ステップ９００およびステップ９０１）。スナップショットデータにCurr_idx、アクセス系列データにPrev_idx以上の配列要素が存在するか調べ（ステップ９０２）、両者ともに存在するのであれば、アクセス系列データのPrev_idx番目の配列要素の削除年月日２１８に値が設定されているか調べる（ステップ９０３）。削除年月日がNULL値であれば、アクセス系列データのPrev_idx番目の配列要素におけるファイルパス２０８と、スナップショットデータのCurr_idx番目の配列要素におけるファイルパス２００が一致するかどうか調べる（ステップ９０４）。一致するのであれば、アクセス系列データのPrev_idx番目の配列要素における最終更新日時２１０、サイズ２０９、および所有者２１４と、スナップショットデータのCurr_idx番目の配列要素における最終更新日時２０２、サイズ２０１、および所有者２０４のいずれかが不一致であるか調べる（ステップ９０５）。いずれか１つでも不一致のものがあれば、アクセス系列データのPrev_idx番目の配列要素のアクセス系列２１５の末尾に"W"を追記し、最終更新日時２１０および最終参照日時２１１を最終更新日時２０２で上書きする（ステップ９０６）。

その後、Curr_idxおよびPrev_idxをインクリメントし（ステップ９０７およびステップ９０８）、ステップ９０２から処理をやり直す。ステップ９０５において、アクセス系列データのPrev_idx番目の配列要素における最終更新日時２１０、サイズ２０９、および所有者２１４と、スナップショットデータのCurr_idx番目の配列要素における最終更新日時２０２、サイズ２０１、および所有者２０４が全て一致していた場合は、最終参照日時２１１と最終参照日時２０３が不一致であるか調べる（ステップ９０９）。不一致であれば、アクセス系列データのPrev_idx番目の配列要素のアクセス系列２１５の末尾に"R"を追記し、最終参照日時２１１を最終参照日時２０３で上書きする（ステップ９１０）。ステップ９０９において、アクセス系列データのPrev_idx番目の配列要素における最終参照日時２１１と、スナップショットデータのCurr_idx番目の配列要素における最終参照日時２０３が一致していた場合は、アクセス系列データのPrev_idx番目の配列要素のアクセス系列２１５の末尾に"N"を追記する（ステップ９１１）。

ステップ９０４においてファイル名が一致していなかった場合、アクセス系列データのPrev_idx番目の配列要素におけるファイルパス２０８よりも、スナップショットデータのCurr_idx番目の配列要素におけるファイルパス２００の方が、アルファベット順で先であるか調べる（ステップ９１２）。先であった場合、アクセス系列データに配列要素を追加し、アクセス系列２１５に"C"を記載し、ファイルパス２０８、サイズ２０９、最終更新日時２１０、最終参照日時２１１、所有者２１４に、スナップショットデータのCurr_idx番目の配列要素におけるファイルパス２００、サイズ２０１、最終更新日時２０２、最終参照日時２０３、所有者２０４を転記する（ステップ９１３）。
その後、Curr_idxをインクリメントし（ステップ９１４）、ステップ９０２から処理をやり直す。ステップ９１２において先ではなかった場合、アクセス系列データのPrev_idx番目の配列要素におけるアクセス系列２１５の末尾に"D"を追記して削除年月日２１８に更新取得日データ１２７の末尾の配列要素の取得日３０８を設定し（ステップ９１５）、Prev_idxをインクリメントし（ステップ９１６）、ステップ９０２から処理をやり直す。ステップ９０３において、削除年月日２１８がNULLではなければ、既に削除が行われたファイルに関するデータなので、Prev_idxをインクリメントし（ステップ９１６）、ステップ９０２から処理をやり直す。ステップ９０２において、スナップショットデータにCurr_idx以上の配列要素が存在しないか、または、アクセス系列データにPrev_idx以上の配列要素が存在しない場合は、図１０に示す続きの処理を行う。

図１０では、まず、スナップショットデータにCurr_idx以上の配列要素が存在するか調べ（ステップ１０００）、存在するのであれば、アクセス系列データに配列要素を追加し、アクセス系列２１５に"C"を記載し、ファイルパス２０８、サイズ２０９、最終更新日時２１０、最終参照日時２１１、所有者２１４に、スナップショットデータのCurr_idx番目の配列要素におけるファイルパス２００、サイズ２０１、最終更新日時２０２、最終参照日時２０３、所有者２０４を転記する（ステップ１００１）。

その後、Curr_idxをインクリメントし（ステップ１００２）、ステップ１０００から処理をやり直す。ステップ１０００においてCurr_idx以上の配列要素が存在しない場合は、アクセス系列データにPrev_idx以上の配列要素が存在するか調べる（ステップ１００３）。存在するのであれば、アクセス系列データのPrev_idx番目の配列要素の削除年月日２１８に値が設定されているか調べる（ステップ１００４）。削除年月日がNULL値であれば、アクセス系列データのPrev_idx番目の配列要素のアクセス系列２１５の末尾に"D"を追記し削除年月日２１８に更新取得日データ１２７の末尾の配列要素の取得日３０８を設定し（ステップ１００５）、Prev_idxをインクリメントし（ステップ１００６）、ステップ１００３から処理をやり直す。ステップ１００４において削除年月日２１８がNULLでなければ、Prev_idxをインクリメントし（ステップ１００６）、ステップ１００３から処理をやり直す。ステップ１００３においてPrev_idx以上の配列要素が存在しない場合は、処理を終了する。

図７のステップ７０４における、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われたことに由来する突発的かつ大量のアクセスに該当するアクセスを検知する処理について、図１１〜図１４に示す詳細フローを参照しながら説明する。突発大量アクセス確認データ１２６の配列要素を全て削除し初期化する（ステップ１１００）。次に、アクセス系列データの配列要素を、ファイルパス２０８のアルファベット順でソートする（ステップ１１０１）。その後、アクセス系列データに含まれるファイルそれぞれについて以下の処理を行うため、インデックスFile_idxを１で初期化する（ステップ１１０２）。

アクセス系列データにFile_idx以上の配列要素が存在するか調べ（ステップ１１０３）、存在するのであれば、File_idx番目の配列要素のファイルパス２０８のフォルダ階層数と同じ要素数を持つBooleanの配列をアクセスフラグ配列として用意し、全ての要素にFalseを設定する（ステップ１１０４）。その後、フォルダそれぞれについて以下の処理を行うため、インデックスFolder_idxを１で初期化し（ステップ１１０５）、突発大量アクセス確認データ１２６にFolder_idx以上の配列要素が存在するか調べ（ステップ１１０６）、存在するのであれば、突発大量アクセス確認データ１２６のFolder_idx番目の配列要素のフォルダパス３００を、アクセス系列データ１２５のFile_idx番目の配列要素のファイルパス２０８が含むか調べる（ステップ１１０７）。

配列要素のファイルパス２０８を含むのであれば、アクセス系列データのFile_idx番目の配列要素の削除年月日２１８がNULL値であるかまたは更新取得日データ１２７の末尾の配列要素の取得日３０８と異なる値であるなら、アクセス系列２１５の末尾の値に応じて、突発大量アクセス確認データ１２６のFolder_idx番目の配列要素のファイル数３０１をインクリメントし、Rの件数３０２、Wの件数３０３、Cの件数３０４、またはDの件数３０５の値をインクリメントし、所有者３０６が所有者２１４を含まないならば追記し、アクセスフラグ配列の配列要素のうち突発大量アクセス確認データ１２６のFolder_idx番目の配列要素のフォルダパス３００の階層数と同じ位置にTrueを設定する（ステップ１１０８）。

その後、Folder_idxをインクリメントし（ステップ１１０９）、ステップ１１０６から処理をやり直す。ステップ１１０６においてFolder_idx以上の配列要素が存在しない場合は、アクセスフラグ配列を埋めて（ステップ１１１０）、File_idxをインクリメントし（ステップ１１１１）、ステップ１１０３から処理をやり直す。ステップ１１１０における処理は、図１２において詳細に説明する。ステップ１１０３においてFile_idx以上の配列要素が存在しない場合は、突発大量アクセスであるか判定を行い（ステップ１１１２）、判定結果に基づいてアクセス系列を修正し（ステップ１１１３）、処理を終える。ステップ１１１２における処理は、図１３において詳細に説明する。ステップ１１１３における処理は、図１４において詳細に説明する。

図１１のステップ１１１０における、アクセスフラグ配列を埋める処理について、図１２に示す詳細フローを参照しながら説明する。まず、アクセスフラグ配列の要素それぞれについて以下の処理を行うため、インデックスidxを１で初期化し（ステップ１２００）、アクセスフラグ配列にidx以上の配列要素が存在するか調べ（ステップ１２０１）、存在するのであれば、アクセスフラグ配列のidx番目の配列要素の値を調べる（ステップ１２０２）。

Falseであれば、突発大量アクセス確認データに配列要素を追加し、フォルダパス３００にアクセス系列データのFile_idx番目の配列要素のファイルパス２０８のうちidx番目の階層までのフォルダパスを設定し、削除年月日２１８がNULL値であるかまたは更新取得日データ１２７の末尾の配列要素の取得日３０８と異なる値であるなら、ファイル数３０１に１を設定し、アクセス系列２１５の末尾の値に応じて、Rの件数３０２、Wの件数３０３、Cの件数３０４、またはDの件数３０５の値に1を設定し、所有者３０６に所有者２１４を設定する（ステップ１２０３）。その後、idxをインクリメントし（ステップ１２０４）、ステップ１２０１から処理をやり直す。ステップ１２０１においてidx以上の配列要素が存在しない場合は、処理を終了する。

図１１のステップ１１１２における、突発大量アクセスであるか判定を行う処理について、図１３に示す詳細フローを参照しながら説明する。まず、突発大量アクセス確認データの配列要素それぞれについて以下の処理を行うため、インデックスFolder_idxを１で初期化し（ステップ１３００）、突発大量アクセス確認データにFolder_idx以上の配列要素が存在するか調べる（ステップ１３０１）。存在するのであれば、突発大量アクセス確認データのFolder_idx番目の配列要素のファイル数３０１が十分大きく（例えば10以上であり）、ファイル数３０１と比べてRの件数３０２、Wの件数３０３、Cの件数３０４、またはDの件数３０５のいずれかが十分大きく（例えば、ファイル数３０１の値の0.8倍以上であり）、その他の件数は０で、かつ、所有者３０６が単一の値であるか調べ、全て成り立てばフォルダパス３００で示されるフォルダツリーに対して突発大量アクセスが行われたと判定しフラグ３０７にTrueを設定する。そうでなければFalseを設定する（ステップ１３０２）。その後、Folder_idxをインクリメントし（ステップ１３０３）、ステップ１３０１から処理をやり直す。ステップ１３０１においてFolder_idx以上の配列要素が存在しない場合は、処理を終了する。

図１１のステップ１１１３における、突発大量アクセスであるかの判定結果に基づいてアクセス系列を修正する処理について、図１４に示す詳細フローを参照しながら説明する。まず、アクセス系列データ１２５の配列要素それぞれについて以下の処理を行うため、インデックスFile_idxを１で初期化し（ステップ１４００）、アクセス系列データ１２５にFile_idx以上の配列要素が存在するか調べ（ステップ１４０１）、存在するのであれば、アクセス系列２１５の末尾が"N"であるか、または、削除年月日２１８が更新取得日データ１２７の末尾の配列要素の取得日３０８以外のNULLでない値を持つか調べる（ステップ１４０２）。

条件に該当しないならば、Booleanの変数を修正フラグとして用意し、Falseで初期化する（ステップ１４０３）。その後、突発大量アクセス確認データの配列要素それぞれについて以下の処理を行うため、インデックスFolder_idxを１で初期化し（ステップ１４０４）、突発大量アクセス確認データにFolder_idx以上の配列要素が存在するか調べる（ステップ１４０５）。存在するのであれば、フラグ３０７がTrueであり、かつ、フォルダパス３００がアクセス系列データ１２５のFile_idx番目の配列要素のファイルパス２０８に含まれるのであれば、修正フラグにTrueを設定し（ステップ１４０６）、Folder_idxをインクリメントして（ステップ１４０７）、ステップ１４０５から処理をやり直す。

ステップ１４０５においてFolder_idx以上の配列要素が存在しない場合は、修正フラグの値を確認し（ステップ１４０８）、Trueであれば、アクセス系列２１５の末尾の値に"突"を付ける（ステップ１４０９）。例えば、末尾の値が"R"であったならば、"突R"とする。ステップ１４０８においてFalseであれば、突発大量以外の最終更新日時２１２に最終更新日時２１０の値を、突発大量以外の最終参照日時２１３に最終参照日時２１１を転記する（ステップ１４１０）。その後、File_idxをインクリメントし（ステップ１４１１）、ステップ１４０１から処理をやり直す。ステップ１４０１においてFile_idx以上の配列要素が存在しない場合は、処理を終了する。

図７のステップ７０５における、足しこみ処理について、図１５に示す詳細フローを参照しながら説明する。まず、アクセス間隔の集計を行う（ステップ１５００）。この処理については、アクセス間隔集計処理部１１４を用いて行うものであり、図１６において詳細に説明する。次に、退避対象容量の集計を行う（ステップ１５０１）。この処理については、退避対象容量集計処理部１１５を用いて行うものであり、図１７において詳細に説明する。その後、アクセスパターンの頻度を集計し（ステップ１５０２）、処理を終了する。ステップ１５０２における処理については、アクセスパターン頻度集計処理部１１６を用いて行うものであり、図１８において詳細に説明する。

図１５のステップ１５００における、アクセス間隔の集計を行う処理について、図１６に示す詳細フローを参照しながら説明する。まず、アクセス系列データ１２５の配列要素それぞれについて以下の処理を行うため、インデックスFile_idxを１で初期化し（ステップ１６００）、アクセス系列データ１２５にFile_idx以上の配列要素が存在するか調べ（ステップ１６０１）、存在するのであれば、削除年月日２１８が更新取得日データ１２７の末尾の配列要素の取得日３０８以外のNULLでない値を持つか調べる（ステップ１６１１）。条件に該当しないなら、アクセス系列２１５の末尾以外の位置に"R"、"W"、"C"、"突R"、"突W"、または"突C"が存在するか調べる（ステップ１６０２）。存在するのであれば、更新取得日データ１２７の、末尾以外で最も後ろにある存在位置の配列要素の取得日３０８を「前回、このファイルに対してアクセスが行われた年月日」として得る（ステップ１６０３）。

次に、アクセス系列２１５の末尾の値を調べ（ステップ１６０４）、"R"、"W"、"D"、"突R"、"突W"、または"突D"であれば、アクセス系列２１５の末尾の要素について"突"を無視した値および、更新取得日データ１２７の末尾の配列要素の取得日３０８とステップ１６０３で得た値との差がそれぞれ、アクセス間隔データ１２８の、アクセス種類３０９およびアクセス間隔３１０に合致する配列要素に対し、カウント３１１をインクリメントする（そのような配列要素がなければ追加する）（ステップ１６０５）。その後、アクセス系列２１５の末尾以外の位置に"R"、"W"、または"C"が存在するか調べる（ステップ１６０６）。存在するのであれば、更新取得日データ１２７の、末尾以外で最も後ろにある存在位置の配列要素の取得日３０８を「前回、このファイルに対してエンドユーザによる手動アクセスが行われた年月日」として得る（ステップ１６０７）。

次に、アクセス系列２１５の末尾の値を調べ（ステップ１６０８）、"R"、"W"、または"D"であれば、アクセス系列２１５の末尾の要素の値および、更新取得日データ１２７の末尾の配列要素の取得日３０８とステップ１６０７で得た値との差がそれぞれ、アクセス間隔データ１２８の、アクセス種類３０９およびアクセス間隔３１０に合致する配列要素に対し、突発大量を除いたカウント３１２をインクリメントする（そのような配列要素がなければ追加する）（ステップ１６０９）。続いて、File_idxをインクリメントし（１６１０）、ステップ１６０１から処理をやり直す。ステップ１６０１においてFile_idx以上の配列要素が存在しない場合は、処理を終了する。

図１５のステップ１５０１における、退避対象容量の集計を行う処理について、図１７に示す詳細フローを参照しながら説明する。まず、退避対象容量データ１２９に、計算日４０２に更新取得日データ１２７の末尾の配列要素の取得日３０８を設定し、R閾値４００およびW閾値４０１に調査対象とする範囲（例えば、0〜0日以内、1日〜31日以内、32日〜61日以内、62日〜92日以内、…、325日〜356日以内、357日〜、など）を設定した要素を追加する（ステップ１７００）。次に、アクセス系列データ１２５の配列要素それぞれについて以下の処理を行うため、インデックスFile_idxを１で初期化し（ステップ１７０１）、アクセス系列データ１２５にFile_idx以上の配列要素が存在するか調べる（ステップ１７０２）。存在するのであれば、削除年月日２１８が更新取得日データ１２７の末尾の配列要素の取得日３０８以外のNULLでない値を持つか調べる（ステップ１７０５）。

条件に該当しないなら、退避対象容量データ１２９の配列要素のうち計算日４０２が更新取得日データ１２７の末尾の配列要素の取得日３０８を持つものそれぞれに対し、全容量４１４にサイズ２０９を足しこみ、最終更新日時２１０と更新取得日データ１２７の末尾の配列要素の取得日３０８の差がW閾値４０１の範囲内であり、かつ、最終参照日時２１１と更新取得日データ１２７の末尾の配列要素の取得日３０８の差がR閾値４００の範囲内であれば、対象容量４０３にサイズ２０９を足しこみ、突発大量以外の最終更新日時２１２と更新取得日データ１２７の末尾の配列要素の取得日３０８の差がW閾値４０１の範囲内であり、かつ、突発大量以外の最終参照日時２１３と更新取得日データ１２７の末尾の配列要素の取得日３０８の差がR閾値４００の範囲内であれば、突発大量を除いた対象容量４０４にサイズ２０９を足しこむ（ステップ１７０３）。その後、File_idxをインクリメントし（ステップ１７０４）、ステップ１７０２から処理をやり直す。ステップ１７０２においてFile_idx以上の配列要素が存在しない場合は、処理を終了する。

図１５のステップ１５０２における、アクセスパターンの頻度を集計する処理について、図１８に示す詳細フローを参照しながら説明する。まず、アクセス系列データ１２５の配列要素それぞれについて以下の処理を行うため、インデックスFile_idxを１で初期化し（ステップ１８００）、アクセス系列データ１２５にFile_idx以上の配列要素が存在するか調べ（ステップ１８０１）、存在するのであれば、削除年月日２１８が更新取得日データ１２７の末尾の配列要素の取得日３０８以外のNULLでない値を持つか調べる（ステップ１８０４）。条件に該当しないなら、アクセス系列２１５の接尾辞をアクセスパターン４０５として持つアクセス頻度データの配列要素のカウントをインクリメントする（ステップ１８０２）。その後、File_idxをインクリメントし（ステップ１８０３）、ステップ１８０１から処理をやり直す。ステップ１８０１においてFile_idx以上の配列要素が存在しない場合は、処理を終了する。

図６のステップ６０８における、提案するべき閾値を計算する処理について、図１９に示す詳細フローを参照しながら説明する。まず、提案閾値の望ましさを保持する変数Scoreを用意して0で初期化し、提案するべき閾値を保持する変数SuggValを用意してNULL値で初期化する（ステップ１９００）。次に、参照に関する閾値候補を保持する変数R_thresを用意して1ヶ月で初期化し（ステップ１９０１）、更新に関する閾値候補を保持する変数W_thresを用意して１ヶ月で初期化する（ステップ１９０２）。

その後、R_thres、W_thresおよび、更新取得日データ１２７の末尾の配列要素の取得日３０８が、R閾値４００、W閾値４０１および、計算日４０２に合致する退避対象容量データ１２９の配列要素における対象容量４０３と全容量４１４の比が、閾値基準データ１３３の退避対象容量上限値５００を上回っていないか調べ（ステップ１９０３）、上回っていないなら、アクセス間隔データ１２８のうちアクセス種類３０９の値が"R"であり、アクセス間隔３１０の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント３１１の和と、アクセス種類３０９の値が"R"であるもの全体におけるカウント３１１の和との比が、閾値基準データ１３３のRカバー率下限５０１を下回っていないか調べる（ステップ１９０４）。

下回っていないなら、アクセス間隔データ１２８のうちアクセス種類３０９の値が"W"であり、アクセス間隔３１０の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント３１１の和と、アクセス種類３０９の値が"W"であるもの全体におけるカウント３１１の和との比が、閾値基準データ１３３のWカバー率下限５０２を下回っていないか調べ（ステップ１９０５）、下回っていないなら、アクセス間隔データ１２８のうちアクセス種類３０９の値が"D"であり、アクセス間隔３１０の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント３１１の和と、アクセス種類３０９の値が"D"であるもの全体におけるカウント３１１の和との比が、閾値基準データ１３３のDカバー率下限５０３を下回っていないか調べる（ステップ１９０６）。

下回っていないなら、R_thresとW_thresの望ましさを評価してScoreと比較する。R_thresとW_thresの望ましさとしては、R_thres、W_thresおよび、更新取得日データ１２７の末尾の配列要素の取得日が、R閾値４００、W閾値４０１および、計算日４０２に合致する退避対象容量データ１２９の配列要素における対象容量４０３と全容量４１４の比と、アクセス間隔データ１２８のうちアクセス種類３０９の値が"R"であり、アクセス間隔３１０の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント３１１の和と、アクセス種類３０９の値が"R"であるもの全体におけるカウント３１１の和との比と、アクセス間隔データ１２８のうちアクセス種類３０９の値が"W"であり、アクセス間隔３１０の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント３１１の和と、アクセス種類３０９の値が"W"であるもの全体におけるカウント３１１の和との比と、アクセス間隔データ１２８のうちアクセス種類３０９の値が"D"であり、アクセス間隔３１０の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント３１１の和と、アクセス種類３０９の値が"D"であるもの全体におけるカウント３１１の和との比とを、閾値基準データ１３３の退避対象容量係数５０４、Rカバー率係数５０５、Wカバー率係数５０６、Dカバー率係数５０７で重み加算した値を用いる（ステップ１９０７）。

R_thresとW_thresの望ましさがScoreを上回るならば、SuggValとしてR_thresとW_thresを用いることとし、Scoreの値を上書きする（ステップ１９０８）。その後、W_thresを１ヶ月インクリメントし（ステップ１９０９）、R_thres、W_thresおよび、更新取得日データ１２７の末尾の配列要素の取得日３０８が、R閾値４００、W閾値４０１および、計算日４０２に合致する退避対象容量データ１２９の配列要素における対象容量４０３と全容量４１４の比が、閾値基準データ１３３の退避対象容量上限値５００を上回っていないか調べ（ステップ１９１０）、上回っていないならば、ステップ１９０４から処理をやり直す。上回っているならば、R_thresを１ヶ月インクリメントし（ステップ１９１１）、ステップ１９０２から処理をやり直す。ステップ１９０３において上回っているならば、処理を終了する。最終的にSuggValとして保持している値が、提案するべき閾値となる。

（１−４）表示例
図６のステップ６０９における、計算した閾値の提案表示を行う処理について、図２０に示す画面例を参照して説明する。２０００には、閾値データ１３２として保持している値を示し、２００１には、閾値提案処理部１１７で提案するべき閾値として計算した値を示す。また、２００２には、両方の閾値における、アクセス間隔データ１２８のうちアクセス種類３０９の値が"R"であり、アクセス間隔３１０の値がR閾値４１２とW閾値４１３のうち小さい方以内であるものにおけるカウント３１１の和と、アクセス種類３０９の値が"R"であるもの全体におけるカウント３１１の和との比と、アクセス間隔データ１２８のうちアクセス種類３０９の値が"W"であり、アクセス間隔３１０の値がR閾値４１２とW閾値４１３のうち小さい方以内であるものにおけるカウント３１１の和と、アクセス種類３０９の値が"W"であるもの全体におけるカウント３１１の和との比と、アクセス間隔データ１２８のうちアクセス種類３０９の値が"D"であり、アクセス間隔３１０の値がR閾値４１２とW閾値４１３のうち小さい方以内であるものにおけるカウント３１１の和と、アクセス種類３０９の値が"D"であるもの全体におけるカウント３１１の和との比と、R閾値４１２、W閾値４１３および、更新取得日データ１２７の末尾の配列要素の取得日が、R閾値４００、W閾値４０１および、計算日４０２に合致する退避対象容量データ１２９の配列要素における対象容量４０３と全容量４１４の比とを示す。さらに、ボタン２００３の押下操作を受付け、閾値データ１３２の変更を受付ける。

図６のステップ６１０における、更新分析処理部１１０で行った更新分析結果の表示を行う処理について、図２１〜図２４に示す画面例を参照しながら説明する。図２１は、分析結果表示処理部１１９のうちアクセス間隔グラフ表示処理部による表示画面１２０を、２１００で示すタブで選択している画面例である。２１０１には、アクセス間隔データ１２８のうち、アクセス種類３０９が同一のものについて、カウント３１１または突発大量を除いたカウント３１２をデータ系列とした折れ線グラフを示している。２１０２による選択操作を受付け、アクセス間隔データ１２８だけを表示する（単独表示）か、図２３に示すように退避対象容量データ１２９と共に表示する（退避対象容量との比較表示）かを変更する。また、２１０３による選択操作を受付け、カウント３１１または突発大量を除いたカウント３１２の個々の値を表示する（値グラフ）か、アクセス間隔３１０が一定以下の配列要素におけるカウント３１１または突発大量を除いたカウント３１２の累積の値を表示する（累積グラフ）かを変更する。また、ボタン２１０４の押下操作を受付け、閾値データ１３２の変更を受付ける。

図２２は、分析結果表示処理部１１９のうち退避対象容量グラフ表示処理部１２１による表示画面を、２２００で示すタブで選択している画面例である。２２０１には、退避対象容量データ１２９のうち、R閾値４００とW閾値４０１が２２０２で指定された閾値以内であるものについて、２２０２の指定に従い、対象容量４０３または突発大量を除いた対象容量４０４と全容量４１４の比率の、計算日４０２ごとの値をデータ系列とした折れ線グラフを示している。図２１の場合と同様に、２２０３による選択操作を受付け、退避対象容量データ１２９だけを表示する（単独表示）か、アクセス間隔データ１２８と共に表示する（アクセス間隔との比較表示）か否かを変更する。また、ボタン２２０４の押下操作を受付け、２２０２で表示された閾値を変更した折れ線グラフを２２０１に表示する。また、図２１の場合と同様に、ボタン２２０５の押下操作を受付け、閾値データ１３２の変更を受付ける。

図２３は、分析結果表示処理部１１９のうちアクセス間隔グラフ表示処理部１２０による表示画面を、２３００で示すタブで選択しており、さらに、退避対象容量データ１２９との比較表示を２３０１で選択している画面例である。２３０１には、２１０１における表示に加え、退避対象容量データ１２９のうち、R閾値４００およびW閾値４０１が共にX軸の値以下であるものについて、２３０２の指定に従い、対象容量４０３または突発大量を除いた対象容量４０４の値と全容量４１４の比率を、各計算日４０２において平均した値の、X軸の値ごとの値をデータ系列とした折れ線グラフを示している。２３０３による選択操作を受付け、図２１に示したようにアクセス間隔データ１２８だけを表示する（単独表示）か、アクセス間隔データ１２８と退避対象容量データ１２９を共に表示する（退避対象容量との比較表示）かを変更する。また、図２１で示したように、２３０４による指定および、ボタン２３０５の押下操作を受付ける。

図２４は、分析結果表示処理部１１９のうちアクセスパターン表示処理部１２２による表示画面を、２４００で示すタブ選択している画面例である。アクセス類型データ１３１の配列要素のうち、アクセスパターン４０７で指定されるアクセスにおける条件付確率（アクセスパターン頻度集計処理部１１６で計算したアクセス頻度データ１３０を用いて算出）が、確率４０８にもっとも近いものについて、表示用_アクセスパターン４０９を２４０１に、表示用_利用状況４１０を２４０２に、表示用_施策４１１を２４０３に表示する。また、２４０４には、アクセスパターン４０７で指定されるアクセスにおける条件付確率（アクセスパターン頻度集計処理部１１６で計算したアクセス頻度データ１３０を用いて算出）を積み上げ棒グラフで示している。

なお、本実施の形態では、図１９においてR_thresおよびW_thresは１ヶ月以上の値とし、また、１ヶ月ごとに望ましさを評価した。この方式に代えて、１ヶ月ではなく、１日、１週間、または１０日など、他の値を用いる方式についても、本発明を同様に適用することができる。

また、本実施の形態では、閾値提案処理部１１７および閾値表示処理部１１８において、退避対象容量データ１２９の対象容量４０３およびアクセス間隔データ１２８のカウント３１１を用いて計算を行う形式とした。この方式に代えて、退避対象容量データ１２９の突発大量を除いた対象容量４０４およびアクセス間隔データ１２８の突発大量を除いたカウント３１２を用いて計算する方式についても、本発明を同様に適用することができる。
また、本実施の形態では、単一のファイルサーバ（または単一の組織）における例について述べたが、複数のファイルサーバ（または複数の共有ポイント、複数の組織）において本実施例で述べた処理を行い、相互に結果を比較することも可能である。

図２５の表示領域２５００には、各ファイルサーバに対して容量合計（スナップショットデータ１２３の各配列要素におけるサイズ２０１の合計値）と、２５０１に指定された閾値における、退避対象容量データ１２９の対象容量４０３または突発大量を除いた対象容量４０４の値と全容量４１４の比率を、各計算日４０２において平均した値を、それぞれX軸とY軸にプロットしている。

発明者は、このような表示形態において、プロットはグラフエリアの左下に多く配置されて右上には配置されない、すなわち、保有する容量合計が大きい部署では退避対象容量が占める割合は低い（保有する容量合計が大きい場合、その多くの割合のファイルをアクティブなものとして日常的に活用していることはない）傾向を発見した。このような傾向を表示する表示形態により、組織全体のうち一部の部署で本実施例に述べた処理を行い、組織全体における傾向を推測する場合に、ファイルサーバ管理者は、単純な平均を行う方が良いのか、部署をカテゴライズした上で重み平均を用いるなど他の演算を行う方法が良いのかをファイルサーバ管理者は判断することができる。

また、本実施の形態では、全ての種類のファイルについてまとめて扱う形式とした。この方式に代えて、ファイル種類（メール、オフィス文書、画像、など）に分類した上の本実施形態で述べた分析を行い、ファイル種類ごとに折れ線グラフ、面グラフ、積み上げ面グラフなどで結果の表示を行う方式についても、本発明を同様に適用することができる。

発明者は、ファイル種類ごとの表示形態において、特定のファイル種類において、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われる場合が多いことを発見した。このような傾向を表示する表示形態により、ファイルサーバ管理者は管理施策の決定に有効な情報を得ることができる。

本実施の形態によれば、大量のファイルが保存されたファイルサーバにおいて、同期遠隔バックアップの要否を指定したり、高速メディアまたは大容量メディアへの格納を指定したりするための閾値の決定を効率化することができるという利点がある。

（２）その他の形態
また、上記の実施の形態において、添付図面に図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、ＷＷＷシステムを利用している場合であれば、ホームページ提供環境（あるいは表示環境）も含むものとする。

（付記）
本発明は、以下の開示を含む。
（１）
ファイルサーバに存在するファイルを退避するための条件となる閾値の決定を支援する装置であって、ファイルサーバを定期的にクローリングするアプリケーションから、ファイルのメタデータ情報の特定時点の一覧であるスナップショット（以下、「スナップショット」と称する。）を得ることで、対象期間内に一度もアクセスが行われなかったファイルについても計算対象とするスナップショット読込み処理部と、
２つの異なる時点における第１及び第２のスナップショットについて、各ファイルの前記第１及び第２のスナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、２つの異なる時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する差分分析処理部と、
退避によるエンドユーザが行うファイルアクセスへの影響の限界値及び重み付け係数と、退避対象となるファイルの割合の限界値及び重み付け係数に基づいて、閾値ごとに、参照、更新、削除が行われたファイルについて、アクセス間隔として集計した結果、および、閾値ごとに、退避対象容量を集計した結果により、閾値の望ましさを最大化する新しい閾値を提案する閾値提案処理部とを有することを特徴とする業務文書処理装置。

本発明は、業務文書処理装置に利用可能である。

１００…表示装置
１０１…キーボード
１０２…ポインティングデバイス
１０３…中央処理装置
１０４…プログラムメモリ
１０５…データメモリ
１０６…ファイル属性DB
１０７…アクセスログ
１３４…アクセス類型
１３５…閾値基準

Claims

ファイルサーバに存在するファイルのうちから退避するファイルを決定する装置であって、ファイルサーバを定期的にクローリングするアプリケーションから、ファイルのメタデータ情報の特定時点の一覧であるスナップショット（以下、「スナップショット」と称する。）を得るスナップショット読込み処理部と、
２つの異なる時点における第１及び第２のスナップショットを比較することで、２つの時点の間にファイルサーバに対して行われたアクセスの内容を分析する差分分析処理部と、を有し、
前記アクセスの内容の分析に基づいて、退避するファイルを決定することを特徴とする業務文書処理装置。
前記差分分析処理部は、
２つの異なる時点におけるスナップショットについて、各ファイルの両スナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、２つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析することを特徴とする請求項１に記載の業務文書処理装置。
一定期間内におけるファイルサーバに対するアクセスが記録されたアクセスログをスナップショット情報と照合し変換することで、その時点までのスナップショット情報とするアクセスログ・スナップショット変換処理部を有することを特徴とする請求項１又は２に記載の業務文書処理装置。
２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、個々のファイルに対し手動でアクセスが行われたのではなく、大量のファイルに一括してアクセスが行われた場合を検知する突発大量アクセス検知処理部を有することを特徴とする請求項１又は２に記載の業務文書処理装置。
２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、アクセスの頻度を集計する足しこみ処理部を有することを特徴とする請求項１又は２に記載の業務文書処理装置。
２つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、参照、更新、削除が行われたファイルについて、そのファイルが最後にアクセスされたのはその直前のアクセスからどれほどの時間が経過していた後であったのかをアクセス間隔として集計するアクセス間隔集計処理部を有することを特徴とする請求項５に記載の業務文書処理装置。
各時点におけるスナップショットに記載されているファイルについて、退避対象容量を集計する退避対象容量集計処理部を有することを特徴とする請求項５に記載の業務文書処理装置。
複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計するアクセスパターン頻度集計処理部を有することを特徴とする請求項６に記載の業務文書処理装置。
退避によるエンドユーザが行うファイルアクセスへの影響の限界値および重みづけ係数と、退避対象となるファイルの割合の限界値および重みづけ係数を入力として受け取り、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果および、退避対象容量を集計した結果により、ファイルの退避を決定するための閾値の提案を行う閾値提案処理部を有することを特徴とする請求項１又は２に記載の業務文書処理装置。
前記退避対象容量を集計した結果により提案する閾値と、現在の閾値の設定とを比較し、表示を行う閾値表示処理部を有することを特徴とする請求項９に記載の業務文書処理装置。
アクセスの頻度を集計した結果を表示する分析結果表示処理部を有することを特徴とする請求項５に記載の業務文書処理装置。
参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果をグラフ表示するアクセス間隔グラフ表示処理部を有することを特徴とする請求項６に記載の業務文書処理装置。
退避対象容量を集計した結果をグラフ表示する退避対象容量グラフ表示処理部を有することを特徴とする請求項７に記載の業務文書処理装置。
ファイルサーバ上のファイルの利用形態とアクセスパターンの頻度を入力として受け取り、複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計した結果を用いて、アクセスパターンが類似する利用形態の表示を行うアクセスパターン表示処理部を有することを特徴とする請求項１１に記載の業務文書処理装置。
コンピュータに、
ファイルサーバに存在するファイルのうちから退避するファイルを決定する処理であって、
ファイルサーバを定期的にクローリングするアプリケーションから、ファイルのメタデータ情報の特定時点の一覧であるスナップショット（以下、「スナップショット」と称する。）を得るスナップショット読込み処理と、
２つの異なる時点における第１及び第２のスナップショットを比較することで、２つの時点の間にファイルサーバに対して行われたアクセスの内容を分析する差分分析処理と、
前記アクセスの内容の分析に基づいて、退避するファイルを決定する処理と、を実行させるための業務文書処理プログラム。