JP6081213B2 - 業務文書処理装置、業務文書処理プログラム - Google Patents

業務文書処理装置、業務文書処理プログラム Download PDF

Info

Publication number
JP6081213B2
JP6081213B2 JP2013024928A JP2013024928A JP6081213B2 JP 6081213 B2 JP6081213 B2 JP 6081213B2 JP 2013024928 A JP2013024928 A JP 2013024928A JP 2013024928 A JP2013024928 A JP 2013024928A JP 6081213 B2 JP6081213 B2 JP 6081213B2
Authority
JP
Japan
Prior art keywords
access
file
data
processing unit
snapshot
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2013024928A
Other languages
English (en)
Other versions
JP2014154044A (ja
Inventor
俊子 松本
俊子 松本
あゆみ 三松
あゆみ 三松
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2013024928A priority Critical patent/JP6081213B2/ja
Publication of JP2014154044A publication Critical patent/JP2014154044A/ja
Application granted granted Critical
Publication of JP6081213B2 publication Critical patent/JP6081213B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、大量の文書を効率的に管理するための技術に関する。
組織内のファイルサーバは電子データの保存・共有のために利便性が高く、広く普及している。また、ファイルサーバの利用が進み、多くのファイルが保存されるようになったことに伴い、その運用を支援するための技術が提案されてきた(以下では「運用支援システム」と呼ぶ)。
下記非特許文献1・2に記載の技術はいずれも、ファイルサーバに保存されているファイル群を分類し、その分類に従って、同期遠隔バックアップの要否を指定したり、格納先を指定したり(高性能または大容量のメディア)することで、ファイルサーバの運用を支援するものである(以下では「退避」と呼ぶ)。分類は通常、ファイルシステムがメタデータとして保持するファイルの属性情報を用いて行われ、ファイルの最終参照日時や最終更新日時が新しいファイルはアクティブなファイルと見なされて、同期遠隔バックアップの対象となったり高性能のメディアが格納先に選ばれたりすることが多い。
「MEANS ファイルサーバスリム化ソリューション」がBCPと大規模対応を強化http://www.hitachi-solutions.co.jp/company/press/news/2012/1210.pdf ストレージの自動階層化を理解するhttp://www.atmarkit.co.jp/fserver/articles/vstorage/04/01.html ナレムコの統計とはhttp://assist.livedoor.biz/archives/cat_50029159.html Leung, A. W., Pasupathy, S., Goodson, G., and Miller, E. L.: "Measurement and Analysis of Large-Scale Network File System Workloads", Proceedings of USENIX08http://www.ssrc.ucsc.edu/Papers/leung-usenix08.pdf ストレージ管理「File Census」http://www.digiberry.com/products/filecensus/
しかし、ファイルがアクティブであると見なすための、ファイルの最終参照日時や最終更新日時の閾値については有効性が保証された基準は知られていない。この閾値が古すぎれば、必要性の低いファイルまで同期遠隔バックアップが行われたり高性能のメディアに格納されたりしてファイルサーバのコストを上昇させる原因となる。一方、この閾値が新しすぎれば、エンドユーザが日常的に利用するファイルが遠隔同期バックアップされなかったり大容量だが低速なメディアに格納されたりして利便性を損ねる原因となる。
ファイルの使用頻度について、既存の調査報告が存在している。しかし、上記非特許文献3では、紙の文書において、限られた職業・業務環境の下で実験的な観測が行われた結果を述べているのみであり、電子ファイルにおいても同じ条件が適しているとは限らない。また、上記非特許文献3・4では、電子ファイルの利用形態について調査する試みも行われている。
上記非特許文献4では、ファイルサーバにおけるファイルの参照や更新の頻度を、アクセスログを用いて集計する技術を述べている。しかしアクセスログは一般的に膨大な量になるため、参照や更新の閾値を判断するための分析に時間を要する。また、ファイルサーバに保存されてはいるものの全くアクセスが行われないファイルについてはアクセス頻度の情報を取得できず、ファイル全体としての参照や更新の頻度の推定値を偏らせる原因となる。
上記非特許文献5では、ある特定の時点における、ファイルサーバに保存されているファイルの最終更新日時の分布をグラフ表示する。この表示画面により、特定の閾値を与えた元で、退避対象になるファイルの割合をファイルサーバ管理者は把握できる。しかし、その閾値で運用を継続した場合の割合の変動や、エンドユーザの利便性がどの程度確保されるかなどの情報を得ることはできない。
本発明の目的は、ファイルサーバにおいて、退避するファイルを決定するための閾値を効率的に決めることである。特に、大量のファイルが保存されたファイルサーバにおいて、同期遠隔バックアップの要否を指定したり、高速メディアまたは大容量メディアへの格納を指定したりするための閾値の決定を効率化することである。
上記で述べた課題に対し、発明者は、ファイルサーバを定期的にクローリングする既存のアプリケーション、すなわち、全文検索エンジン(非特許文献6)、コンテンツ運用支援ソリューション(非特許文献7)などが持つファイルのメタデータ情報の特定時点の一覧(スナップショット)を利用することに着目した。
(非特許文献6) 欲しい情報をすばやく正確に検索「日立高速全文検索シリーズ」
http://www.hitachi.co.jp/Prod/comp/soft1/textsearch/index.html
(非特許文献7) コンテンツ運用支援ソリューションMEANS
http://www.hitachi-solutions.co.jp/means/sp/
また、発明者は、2つの異なる時点におけるスナップショットを比較することにより、図26に示すように、ファイルパスの消失・最終参照日時や最終更新日時の変化・ファイルパスの出現により、ファイルの削除、参照、更新、作成があったことを検出できることに着目した(知見1)。
また、発明者は、ファイルサーバに保存されているファイルに対するエンドユーザのアクセスは、個々のファイルに対し手動でアクセスが行われる場合と、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われる場合とで異なる統計的傾向を示すことを発見した。エンドユーザが個々のファイルに対し手動でアクセスを行う場合は、一日にアクセスされるファイルは多くても数十程度と考えられるのに対し、ファイルプログラム開発・メーラ・アプリケーションの実行ログ・ダウンロードしたファイル一式などにおいては、数千〜数万以上のファイルが一揃いの情報を構成している場合があり、エンドユーザがそのようなファイルの一式に対してアクセスを行うと、突如、大量のアクセスが記録されることとなる。例えば、1000万以上のファイルが格納されたファイルサーバに対し100人以上のユーザによって行われた1年間の書き込み容量合計の40%以上が、1人のユーザが1つのフォルダに対して行った1回の操作による書き込み容量で占められる場合もある。このような大量のアクセスは、アクセス頻度の集計値により「運用支援システム」における閾値を決定しようというファイルサーバ管理者の想定に含まれないものであり、個々のファイルに対する手動のアクセスと分けて考える必要がある。発明者は、このような大量のアクセスは、単一のエンドユーザによって、単一のフォルダに格納されているファイルに対して集中的に、短期間に突発的に、単一のアクセス種類(例えば、参照のみ)が集中的に行われるという特徴を発見し、これらの特徴により個々のファイルに対し手動でアクセスが行われる場合と、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われる場合とを識別できることに着目した(知見2)。
また、発明者は、ファイルサーバに保存されているファイルに対してエンドユーザにより行われた参照、更新、削除のアクセスが、直前のそのファイルへのアクセスからどれだけ期間を開けて行われたのかを集計することにより、特定の閾値の下で「エンドユーザによるファイルへの参照、更新、削除のアクセスのうちどれだけの割合が、退避対象となったファイルへのアクセスとなるか」をファイルサーバ管理者が把握することができることに着目した(知見3)。
また、発明者は、複数の異なる時点におけるスナップショットにおいて、各時点のスナップショットから退避対象容量を順次計算することで、退避対象となるファイルの割合の変動、すなわち、退避に必要なファイルサーバ費用の変動をファイルサーバ管理者が把握できることに着目した。企業内の活動は、月末・月初・年末・年度末・納入期限日・〆日など予め定められた期限に連動して行われる場合が多く、それらの期限の前後でアクセス頻度の変動(すなわち退避対象となるファイルの割合の変動)が想定され、一方、実際のデータでは想定した変動が必ずしも観測されるとは限らないことから、このような集計を行うことはファイルサーバ管理者の閾値決定に有用な情報を与えることに着目した(知見4)。
また、発明者は、ファイルサーバ上のファイルの利用形態は組織・部署によって異なり、利用形態によって有効なファイルサーバ管理上の施策が異なること、また、利用形態はアクセス頻度傾向に現れることを発見した。例えば、ある組織では、ファイルサーバ上のファイルは複数のエンドユーザによって参照、更新、名称を変更しての保存が活発に行われ、また別の組織では、ファイルサーバには編集が完成したファイルが情報共有および保存のために格納されており、定期的に見直しの上で古くなったファイルは削除され、さらに別の組織では、ファイルサーバ上に組織内で共有するためのファイルを格納するフォルダと、個人が自由に利用するフォルダが共存しており、個人用フォルダではローカルファイルのバックアップなどが行われていることが考えられる。1番目の組織では、作成途中のファイルの定期的な削除や文書の種類ごとのファイルの保管期限の制定が有効な施策として考えられ、2番目の組織では、文書の種類ごとのファイルの保管期限の制定が有効な施策として考えられ、3番目の組織では、1番目の組織における施策およびエンドユーザごとの容量管理やバックアップ領域の分離が有効な施策として考えられる。また、1番目の組織では参照、更新、作成の頻度が高い一方でいったんアクセスがなくなると再度のアクセスが発生する可能性は低く、2番目の組織では参照の頻度と比べて更新の頻度が低く、また参照の後では削除の確率が高く、3番目の組織では書き込みの頻度が高くなるという特徴が現れる。そこで、アクセスパターンの頻度からファイルの利用形態を推測することで、ファイルサーバの管理施策の判断に有用な情報を得られることに着目した(知見5)。
上記の知見により、発明者は以下の対応策に想到した。以下に対応案の概要について説明する。
(対応策)
対応策1:ファイルサーバを定期的にクローリングするアプリケーションから、スナップショットを得ることで、対象期間内に一度もアクセスが行われなかったファイルについても計算対象とする。
対応策2:一定期間内におけるファイルサーバに対するアクセスが記録されたアクセスログをスナップショット情報と照合し変換することで、その時点までのスナップショット情報とする。
対応策3:2つの異なる時点におけるスナップショットを比較することで、2つの時点の間にファイルサーバに対して行われたアクセスについて分析する。
対応策3−1:2つの異なる時点におけるスナップショットについて、各ファイルの両スナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、2つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する(知見1の利用)。
対応策3−2:2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、個々のファイルに対し手動でアクセスが行われたのではなく、大量のファイルに一括してアクセスが行われた場合を検知する(知見2の利用)。
対応策3−3:2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、アクセスの頻度を集計する。
対応策3−3−1:2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計する(知見3の利用)。
対応策3−3−2:各時点におけるスナップショットに記載されているファイルについて、退避対象容量を集計する(知見4の利用)。
対応策3−3−3:複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計する(知見5の利用)。
対応策4:退避によるエンドユーザが行うファイルアクセスへの影響の限界値および重みづけ係数と、退避対象となるファイルの割合の限界値および重みづけ係数を入力として受け取り、閾値ごとに、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果および、閾値ごとに、退避対象容量を集計した結果により、閾値の提案を行う。
対応策5:対応策4で求めた閾値と、現在の閾値の設定とを比較し、表示を行う。
対応策6:対応策3−3の結果について、表示を行う。
対応策6−1:対応策3−3−1の結果について、表示を行う。
対応策6−2:対応策3−3−2の結果について、表示を行う。
対応策6−3:ファイルサーバ上のファイルの利用形態とアクセスパターンの頻度を入力として受け取り、対応策3−3−3の結果を用いて、アクセスパターンが類似する利用形態の表示を行う。
上記の対応策を実現するため、下記の手段により解決する手法を提案する。
発明者は、前述した課題を解決することを目的として、ファイルサーバを定期的にクローリングするアプリケーションから、スナップショットを得て、ファイルのアクセスの頻度を集計する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、一定期間内におけるファイルサーバに対するアクセスが記録されたアクセスログをスナップショット情報と照合し変換することで、その時点までのスナップショット情報とし、ファイルのアクセスの頻度を集計する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、2つの異なる時点におけるスナップショットを比較することで、2つの時点の間にファイルサーバに対して行われたアクセスについて分析する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、2つの異なる時点におけるスナップショットについて、各ファイルの両スナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、2つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、個々のファイルに対し手動でアクセスが行われたのではなく、大量のファイルに一括してアクセスが行われた場合を検知する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、アクセスの頻度を集計する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、各時点におけるスナップショットに記載されているファイルについて、退避対象容量を集計する技術を提案する。
また、発明者は、前述した課題を解決することを目的として、複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計する方法を技術する。
また、発明者は、前述した課題を解決することを目的として、退避によるエンドユーザが行うファイルアクセスへの影響の限界値および重みづけ係数と、退避対象となるファイルの割合の限界値および重みづけ係数を入力として受け取り、閾値ごとに、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果および、閾値ごとに、退避対象容量を集計した結果により、閾値の提案を行う技術を提案する。
また、発明者は、前述した課題を解決することを目的として、提案する閾値と現在の閾値の設定とを比較し、表示を行う技術を提案する。
また、発明者は、前述した課題を解決することを目的として、複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスの頻度を集計した結果の表示を行う技術を提案する。
また、発明者は、前述した課題を解決することを目的として、2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果の表示を行う方法を提案する。
また、発明者は、前述した課題を解決することを目的として、各時点におけるスナップショットに記載されているファイルについて、退避対象容量を集計した結果の表示を行う技術を提案する。
また、発明者は、前述した課題を解決することを目的として、ファイルサーバ上のファイルの利用形態とアクセスパターンの頻度を入力として受け取り、複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計した結果を用いて、アクセスパターンが類似する利用形態の表示を行う技術を提案する。
本発明の一観点によれば、ファイルサーバに存在するファイルを退避するための条件となる閾値の決定を支援する装置であって、ファイルサーバを定期的にクローリングするアプリケーションから、ファイルのメタデータ情報の特定時点の一覧であるスナップショット(以下、「スナップショット」と称する。)を得ることで、対象期間内に一度もアクセスが行われなかったファイルについても計算対象とするスナップショット読込み処理部と、2つの異なる時点における第1及び第2のスナップショットを比較することで、2つの時点の間にファイルサーバに対して行われたアクセスの内容を分析する差分分析処理部と、退避によるエンドユーザが行うファイルアクセスへの影響と、退避対象となるファイルの割合と、に基づいて、閾値ごとに、変更が行われたファイルについて、アクセス間隔として集計した結果、および、閾値ごとに、退避対象容量を集計した結果により、閾値の望ましさを最大化する新しい閾値を提案する閾値提案処理部とを有することを特徴とする業務文書処理装置が提供される。
大量のアクセスは、単一のエンドユーザによって、単一のフォルダに格納されているファイルに対して集中的に、短期間に突発的に、単一のアクセス種類(例えば、参照のみ)が集中的に行われるという特徴を見出し、これらの特徴により個々のファイルに対し手動でアクセスが行われる場合と、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われる場合とを識別できる。また、ファイルサーバに保存されているファイルに対してエンドユーザにより行われた参照、更新、削除のアクセスが、直前のそのファイルへのアクセスからどれだけ期間を開けて行われたのかを集計することにより、特定の閾値の下で「エンドユーザによるファイルへの参照、更新、削除のアクセスのうちどれだけの割合が、退避対象となったファイルへのアクセスとなるか」を把握することができる。
ファイルサーバを定期的にクローリングする既存のアプリケーション、すなわち、全文検索エンジン、コンテンツ運用支援ソリューションなどが持つファイルのメタデータ情報の特定時点の一覧(スナップショット)を利用し、2つの異なる時点におけるスナップショットを比較することにより、2つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する。ファイルパスの消失・最終参照日時や最終更新日時の変化・ファイルパスの出現により、ファイルの削除、参照、更新、作成があったことを検出し、例えば、退避によるエンドユーザが行うファイルアクセスへの影響の限界値および重みづけ係数と、退避対象となるファイルの割合の限界値および重みづけ係数を入力として受け取り、閾値ごとに、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果および、閾値ごとに、退避対象容量を集計することで、適切な新たな閾値の提案を行うことができる。
これにより、ファイルサーバにおけるファイルの参照や更新の頻度を、アクセスログを用いて集計する技術では、アクセスログは一般的に膨大な量になるため、参照や更新の閾値を判断するための分析に時間を要すること、また、ファイルサーバに保存されてはいるものの全くアクセスが行われないファイルについてはアクセス頻度の情報を取得できず、ファイル全体としての参照や更新の頻度の推定値を偏らせる原因となることが解消できる。
また、ある特定の時点における、ファイルサーバに保存されているファイルの最終更新日時の分布をグラフ表示画面により、特定の閾値を与えることで、退避対象になるファイルの割合をファイルサーバ管理者が把握できるものの、その閾値で運用を継続した場合の割合の変動や、エンドユーザの利便性がどの程度確保されるかなどの情報を得ることはできないということを解決できる。
本発明は、ファイルサーバに存在するファイルを退避するための条件の決定を支援する方法であって、ファイルサーバを定期的にクローリングするアプリケーションから、スナップショットを得ることで、対象期間内に一度もアクセスが行われなかったファイルについても計算対象とするスナップショット読込みステップを有することを特徴とする業務文書処理方法であっても良く、コンピュータに当該業務文書処理方法を実行させるためのプログラム、これを記憶する記録媒体でも良い。
本発明によれば、大量のファイルが保存されたファイルサーバにおいて、同期遠隔バックアップの要否を指定したり、高速メディアまたは大容量メディアへの格納退を指定したりするための閾値の決定を効率化することができる。
本発明の実施の形態による業務文書処理装置の概略構成例を示す機能ブロック図である。 スナップショットデータ、アクセスログデータ、アクセス系列データのデータ構造例を示す図である。 突発大量アクセス確認データ、更新取得日データ、アクセス間隔データのデータ構造を示す図である。 退避対象容量データ、アクセス頻度データ、アクセス類型データ、閾値データのデータ構造例を示す図である。 閾値基準データのデータ構造例を示す図である。 業務文書処理装置において実行される処理手順の全体を説明するフローチャートである。 更新分析処理部において実行される処理手順の詳細を説明するフローチャートである。 アクセスログ・スナップショット変換処理部において実行される処理手順の詳細を説明するフローチャートである。 差分分析処理部において実行される処理手順の一部の詳細を説明するフローャートである。 差分分析処理部において実行される処理手順の一部の詳細を説明するフローャートである。 突発大量アクセス検知処理部において実行される処理手順の全体を説明するフローチャートである。 突発大量アクセス検知処理部において実行される処理手順のうちアクセスフラグ配列を埋める処理において実行される処理手順の詳細を説明するフローチャートである。 突発大量アクセス検知処理部において実行される処理手順のうち突発大量アクセスを判定する処理において実行される処理手順の詳細を説明するフローチャートである。 突発大量アクセス検知処理部において実行される処理手順のうちアクセス系列を修正する処理において実行される処理手順の詳細を説明するフローチャートである。 足しこみ処理部において実行される処理手順の詳細を説明するフローチャートである。 アクセス間隔集計処理部において実行される処理手順の詳細を説明するフローチャートである。 退避対象容量集計処理部において実行される処理手順の詳細を説明するフローチャートである。 アクセスパターン頻度集計処理部において実行される処理手順の詳細を説明するフローチャートである。 閾値提案処理部において実行される処理手順の詳細を説明するフローチャートである。 閾値表示処理部において実行される表示処理を示す画面例である。 アクセス間隔グラフ表示処理部において実行される表示処理を示す画面例である。 退避対象容量グラフ表示処理部において実行される表示処理を示す画面例である。 アクセス間隔グラフ表示処理部において実行される表示処理を示す画面例である。 アクセスパターン表示処理部において実行される表示処理を示す画面例である。 複数の部署における退避対象容量割合の比較表示を示す説明図である。 2つの異なる時点におけるスナップショットについて、各ファイルの両スナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、2つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する方法を示す説明図である。
以下、添付図面を参照しながら、本発明に係る業務文書処理技術について図面を参照しながら詳細に説明する。勿論、後述する形態例やその説明は一例であり、本発明には様々な変形例が考えられる。本明細書において、コンテンツ運用支援ソリューションなどが持つファイルのメタデータ情報の特定時点の一覧をスナップショットと称する。
(1)実施の形態
(1−1)システム構成例
図1〜図24は、以下で説明する形態例を例示する図であり、これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。
図1は業務文書処理装置の内部構造を概略的に示す機能ブロック図である。業務文書処理装置は、データを表示するための表示装置100、表示されたデータに対してメニューを選択するなどの操作を行うためのキーボード101、マウスなどのポインティングデバイス102、必要な演算処理、制御処理などを行う中央処理装置103、中央処理装置103での処理に必要なプログラムを格納するプログラムメモリ104、中央処理装置103での処理に必要なデータを格納するデータメモリ105、ファイルサーバを定期的にクローリングするアプリケーションからスナップショットの形で得られるファイル属性DB106、ファイルサーバから得られるアクセスログ107、辞書情報として入力されたファイルサーバの利用形態とアクセスパターンの頻度情報を保持するアクセス類型134、退避の対象となるファイルを分類するための閾値を決定するための基準として入力された値を保持する閾値基準135を備えている。
中央処理装置103は、スナップショット読込み処理部108と、アクセスログ・スナップショット変換処理部109と、更新分析処理部110と、閾値提案処理部117と、閾値表示処理部118と、分析結果表示処理部119とを備えている。この形態例の場合、コンピュータによって構成され、スナップショット読込み処理部108と、アクセスログ・スナップショット変換処理部109と、更新分析処理部110と、閾値提案処理部117と、閾値表示処理部118と、分析結果表示処理部119は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。なお、これらのプログラムは、プログラムメモリ104に格納されている。更新分析処理部110は、差分分析処理部111と、突発大量アクセス検知処理部112と、足しこみ処理部113とを備えている。足しこみ処理部113は、アクセス間隔集計処理部114と、退避対象容量集計処理部115と、アクセスパターン頻度集計処理部116とを備えている。分析結果表示処理部119は、アクセス間隔グラフ表示処理部120と、退避対象容量グラフ表示処理部121と、アクセスパターン表示処理部122とを備えている。
スナップショット読込み処理部108は上記の対応策1を実現するものであり、アクセスログ・スナップショット変換処理部109は上記の対応策2を実現するものであり、更新分析処理部110は上記の対応策3を実現するものであり、閾値提案処理部117は上記の対応策4を実現するものであり、閾値表示処理部118は上記の対応策5を実現するものであり、分析結果表示処理部119は上記の対応策6を実現するものである。また、差分分析処理部111は上記の対応策3−1を実現するものであり、突発大量アクセス検知処理部112は上記の対応策3−2を実現するものであり、足しこみ処理部113は上記の対応策3−3を実現するものである。また、アクセス間隔集計処理部114は上記の対応策3−3−1を実現するものであり、退避対象容量集計処理部115は上記の対応策3−3−2を実現するものであり、アクセスパターン頻度集計処理部116は上記の対応策3−3−3を実現するものである。また、アクセス間隔グラフ表示処理部120は上記の対応策6−1を実現するものであり、退避対象容量グラフ表示処理部121は上記の対応策6−2を実現するものであり、アクセスパターン表示処理部122は上記の対応策6−3を実現するものである。
データメモリ105は、スナップショットデータ123、アクセスログデータ124、アクセス系列データ125、突発大量アクセス確認データ126、更新取得日データ127、アクセス間隔データ128、退避対象容量データ129、アクセス頻度データ130、アクセス類型データ131、閾値データ132、閾値基準データ133を備えている。
ファイル属性DB106はスナップショットデータ123のデータを保持しており、アクセスログ107はアクセスログデータ124のデータを保持しており、アクセス類型134はアクセル類型データ131のデータを保持しており、閾値基準135は閾値基準データ133のデータを保持している。
尚、各処理部の一部又は全部を専用のハードウェア構成としても良いことは言うまでもない。
(1−2)データ構成例
図2(a)−(c)は、データメモリ105に含まれるスナップショットデータ123、アクセスログデータ124、アクセス系列データ125のデータ構造例を示す図である。スナップショットデータ123は、ファイルパス200、サイズ201、最終更新日時202、最終参照日時203、所有者204を含んでいる。それぞれのファイルごとにこれらのメンバの値を持ち、スナップショットデータ123は配列の形で保持される。アクセスログデータ124は、ファイルパス205、日時206、操作内容207、サイズ216、ユーザ217を含んでいる。それぞれのアクセスごとにこれらのメンバの値を持ち、アクセスログデータ124は配列の形で保持される。
アクセス系列データ125は、ファイルパス208、サイズ209、最終更新日時210、最終参照日時211、突発大量以外の最終更新日時212、突発大量以外の最終参照日時213、所有者214、アクセス系列215、削除年月日218を含んでいる。ファイルパス208、サイズ209、最終更新日時210、最終参照日時211、所有者214は、それぞれ、ファイルパス200、サイズ201、最終更新日時202、最終参照日時203、所有者204の値を初期値として持つ。突発大量以外の最終更新日時212、突発大量以外の最終参照日時213および、削除年月日218は、初期状態ではNULL値を持つ。アクセス系列は、そのファイルに対してどのような操作が行われたかを、複数の異なる時点におけるスナップショットの分析の結果として保持する。新規にファイルが作成されたことを示す"C"、エンドユーザにより手動で更新されたことを示す"W"、エンドユーザにより手動で参照されたことを示す"R"、エンドユーザにより手動で削除されたことを示す"D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して更新されたことを示す"突W"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して参照されたことを示す"突R"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して削除されたことを示す"突D"、何もアクセスが行われなかったことを示す"N"のいずれかの文字を各要素として持つ配列の形で保持される。
図3(a)−(c)は、データメモリ105に含まれる突発大量アクセス確認データ126、更新取得日データ127、アクセス間隔データ128のデータ構造を示す図である。
突発大量アクセス確認データ126は、フォルダパス300、ファイル数301、Rの件数302、Wの件数303、Cの件数304、Dの件数305、所有者306、フラグ307を含んでいる。知見2に基づき、2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報において、フォルダパス300で指定されるフォルダツリーに存在する全ファイル数301において、参照、更新、作成、削除が行われたファイルの数302、303、304、305、フォルダツリーに存在するファイルの所有者306を保持する。これらの値を元に、エンドユーザにより個々のファイルに対し手動でアクセスが行われたのか、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われたのかを判断した結果が、フラグ307に保持される。フラグ307は、判断が行われる前の初期状態ではNULL値を持つ。
更新取得日データ127は、取得日308を含んでいる。更新データ127は、スナップショットまたはアクセスログの形でファイルサーバの情報が更新される度ごとの日付情報を持ち、配列の形で保持される。
アクセス間隔データ128は、アクセス種類309、アクセス間隔310、カウント311、突発大量を除いたカウント312を含んでいる。アクセス種類309は、参照、更新、削除を示す"R"、"W"、"D"のいずれかの値を保持する。アクセス間隔310は、期間の範囲を保持する。カウント311は、アクセス種類309で指定されるアクセスが、直前の何らかのファイルアクセスから、アクセス間隔310で指定される期間の間隔で行われた回数を保持する(アクセス種類309で指定されるアクセスには、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われた場合も含むとした場合の回数を保持する)。初期状態では0を持つ。突発大量を除いたカウント312は、カウント311と同様であるが、アクセス種類309で指定されるアクセスにおいて、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われた場合は除いた値を保持する。初期状態では0を持つ。
図4(a)−(d)は、データメモリ105に含まれる退避対象容量データ129、アクセス頻度データ130、アクセス類型データ131、閾値データ132のデータ構造を示す図である。
退避対象容量データ129は、R閾値400、W閾値401、計算日402、対象容量403、突発大量を除いた対象容量404、全容量414を含んでいる。対象容量403は、最終参照日時211がR閾値400で指定された期間内の値を持ち、最終更新日時210がW閾値401で指定された期間内の値を持つファイルのサイズ209の合計値の計算日402における値を保持し、初期状態では0を持つ。突発大量を除いた対象容量404は、突発大量以外の最終参照日時213がR閾値400で指定された期間内の値を持ち、突発大量以外の最終更新日時212がW閾値401で指定された期間内の値を持つファイルのサイズ209の合計値の計算日402における値を保持し、初期状態では0を持つ。全容量414は、ファイルのサイズ209の合計値の計算日402における値を保持し、初期状態では0を持つ。R閾値400、W閾値401、計算日402の値ごとにこれらのメンバの値を持ち、退避対象容量データは配列の形で保持される。
アクセス頻度データ130は、アクセスパターン405、カウント406を含んでいる。アクセスパターン405は、新規にファイルが作成されたことを示す"C"、エンドユーザにより手動で更新されたことを示す"W"、エンドユーザにより手動で参照されたことを示す"R"、エンドユーザにより手動で削除されたことを示す"D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して更新されたことを示す"突W"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して参照されたことを示す"突R"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して削除されたことを示す"突D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して作成されたことを示す"突C"、何もアクセスが行われなかったことを示す"N"のいずれかの文字を1つ以上連ねた文字列を保持する。カウント406は、アクセスパターン405で指定されるアクセスが行われた回数を保持し、初期状態では0を持つ。アクセスパターン405で指定されるアクセスの種類ごとにこれらのメンバの値を持ち、アクセス頻度データ130は配列の形で保持される。
アクセス類型データ131は、アクセスパターン407、確率408、表示用_アクセスパターン409、表示用_利用状況410、表示用_施策411を含んでいる。アクセスパターン407は、二次元配列の形で保持される。各要素において、第一の要素は、新規にファイルが作成されたことを示す"C"、エンドユーザにより手動で更新されたことを示す"W"、エンドユーザにより手動で参照されたことを示す"R"、エンドユーザにより手動で削除されたことを示す"D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して更新されたことを示す"突W"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して参照されたことを示す"突R"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して削除されたことを示す"突D"、フォルダ単位やバッチ処理などで大量のファイルと同時に一括して作成されたことを示す"突C"、何もアクセスが行われなかったことを示す"N"のいずれかの文字を1つ以上連ねた文字列を保持し、第二の要素は、第一の要素にさらに1文字加えた文字列を保持する。確率408は、0以上1以下の数値の配列の形で保持される。各要素は、アクセスパターン407の各要素において、第一の要素で示されるアクセスが生じた場合に第二の要素で示されるアクセスが生じる条件付き確率の値を示す。表示用_アクセスパターン409、表示用_利用状況410、表示用_施策411はそれぞれ、アクセスパターン407で指定されたアクセスが確率408で指定された条件付き確率で発生する場合についての、画面表示用の説明文字列である。
閾値データ132は、R閾値412、W閾値413を含んでいる。これらの値は、ファイルサーバ上で退避の対象となるファイルを分類するための最終参照日時203および最終更新日時202の閾値であり、初期状態ではNULL値を持つ。
図5は、データメモリ105に含まれる閾値基準データ133のデータ構造を示す図である。閾値基準データ133は、退避対象容量上限値500、Rカバー率下限501、Wカバー率下限502、Dカバー率下限503、退避対象容量係数504、Rカバー率係数505、Wカバー率係数506、Dカバー率係数507を含んでいる。退避対象容量上限値500は、ファイルサーバの全容量のうち退避対象となるファイルの容量合計の割合としてファイルサーバ管理者が許容できる最大値として指定された値を保持する。Rカバー率下限501、Wカバー率下限502および、Dカバー率下限503はそれぞれ、エンドユーザが参照、更新、削除するファイルアクセスのうち退避対象ファイルに対象ファイルが存在する割合として許容できる最小値として指定された値を保持する。退避対象容量係数504、Rカバー率係数505、Wカバー率係数506および、Dカバー率係数507はそれぞれ、ファイルサーバ上で退避の対象となるファイルを分類するための閾値の決定にあたり、退避対象容量の多さ(退避対象容量係数504が負の値の場合は少なさ)、エンドユーザのファイル参照のうち退避対象ファイルに対象ファイルが存在する割合の多さ、エンドユーザのファイル更新のうち退避対象ファイルに対象ファイルが存在する割合の多さおよび、エンドユーザのファイル削除のうち退避対象ファイルに対象ファイルが存在する割合の多さをどれだけ重視するかの係数として指定された値を保持する。
(1−3)処理例
次に、上記のように構成された本実施形態の業務文書処理装置において行われる処理の流れについて例示的に説明する。図6は、業務文書処理装置において行われる処理の流れを概略的に示すフローチャートである。図6において、まず、辞書情報として入力されたファイルサーバの利用形態とアクセスパターンの頻度情報を保持するアクセス類型134および、退避の対象となるファイルを分類するための閾値を決定するための基準として入力された閾値基準135を読み込む(ステップ600)。次に、更新取得日データ127、アクセス間隔データ128、退避対象容量データ129、アクセス頻度データ130の配列要素を全て削除する。その後、アクセス類型データ131のアクセスパターン407で定義されている最大の長さ以下になるよう、"R"、"W"、"C"、"D"の並びを生成してアクセスパターン405に設定した配列要素をアクセス頻度データ130に追加する。カウント406には0を設定する(ステップ601)。その後、ファイル属性DB106に保持された、最も日付の古いスナップショットを読み込み、アクセス系列データに変換して保持する(ステップ602)。この変換においては、ファイルパス208、サイズ209、最終更新日時210、最終参照日時211、所有者214は、それぞれ、ファイルパス200、サイズ201、最終更新日時202、最終参照日時203、所有者204の値を転記し、突発大量以外の最終更新日時212、突発大量以外の最終参照日時213、アクセス系列215および、削除年月日は、NULL値を保持する。続いて、ファイルサーバ上のファイルに関する更新データそれぞれについて以下の処理を行うため、インデックスDump_idxを1で初期化する(ステップ603)。Dump_idx以上の更新データが存在するか調べ(ステップ604)、存在するのであれば、更新データを取得した日を更新取得日データ127の新しい配列要素として追加し(ステップ605)、更新データの分析処理を行う(ステップ606)。
ステップ606における処理については、更新分析処理部110を用いて行うものであり、図7において詳細に説明する。その後、Dump_idxをインクリメントし(ステップ607)、ステップ604から処理をやり直す。ステップ604においてDump_idx以上の更新データが存在しない場合は、提案するべき閾値を計算し(ステップ608)、計算した閾値の提案表示を行い(ステップ609)、ステップ606で行った更新分析結果の表示を行う(ステップ610)。ステップ608における処理については、閾値提案処理部117を用いて行うものであり、図19において詳細に説明する。ステップ609における処理については、閾値表示処理部118を用いて行うものであり、図20において詳細に説明する。ステップ610における処理については、分析結果表示処理部119を用いて行うものであり、図21〜図24において詳細に説明する。
図6のステップ606における、更新分析処理について、図7に示す詳細フローを参照しながら説明する。まず、更新データがアクセスログとスナップショットのどちらで与えられているかに従い(ステップ700)、アクセスログ107から読込みスナップショットデータ123に変換する(ステップ701)か、もしくは、ファイル属性DB106から読み込みスナップショットデータ123として保持する(ステップ702)。ステップ701における処理については、アクセスログ・スナップショット変換処理部109を用いて行うものであり、図8において詳細に説明する。その後、アクセス系列データとスナップショットデータの差分の分析処理を行い(ステップ703)、ファイルに対するアクセスのうちフォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われたことに由来する突発的かつ大量のアクセスに該当するアクセスを検知し(ステップ704)、アクセス情報を足しこむ処理を行う(ステップ705)。ステップ703における処理については、差分分析処理部111を用いて行うものであり、図9〜図10において詳細に説明する。また、ステップ704における処理については、突発大量アクセス検知処理部112を用いて行うものであり、図11〜14において詳細に説明する。また、ステップ705における処理については、足しこみ処理部113を用いて行うものであり、図15において詳細に説明する。
図7のステップ701における、アクセスログ107から読み込みスナップショットデータ123に変換する処理について、図8に示す詳細フローを参照しながら説明する。まず、ステップ602で読み込み、処理フローに応じてステップ703で更新したアクセス系列データ125をスナップショットデータ123にコピーする(ステップ800)。このコピー処理においては、ファイルパス200、サイズ201、最終更新日時202、最終参照日時203、所有者204の値はそれぞれ、ファイルパス208、サイズ209、最終更新日時210、最終参照日時211、所有者214の値を転記する。突発大量以外の最終更新日時212、突発大量以外の最終参照日時213、アクセス系列215および、削除年月日218は捨てる。次に、アクセスログデータそれぞれについて以下の処理を行うため、インデックスAccL_idxを1で初期化する(ステップ801)。AccL_idx以上のアクセスログデータがあるか調べ(ステップ802)、存在するのであれば、操作内容207が作成であるか調べ(ステップ803)、作成であればスナップショットデータを1つ追加する(ステップ804)。ステップ804における処理では、ファイルパス200、サイズ201および、所有者204はそれぞれ、ファイルパス205、サイズ216、ユーザ217を転記する。最終更新日時202および最終参照日時203は、日時206を転記する。その後、AccL_idxをインクリメントし(ステップ805)、ステップ802から処理をやり直す。ステップ803において作成でなかった場合は、操作内容207が削除であるか調べ(ステップ806)、削除であればファイルパス205と同じファイルパス200を持つスナップショットデータを削除し(ステップ807)、そうでなければスナップショットデータを更新する(ステップ808)。ステップ808における処理では、ファイルパス205と同じファイルパス200を持つ配列要素に対し、操作内容207が参照であるなら、最終参照日時203を日時206で上書きし、操作内容207が更新であるなら、最終更新日時202および最終参照日時203を日時206で上書きする。ステップ802においてAccL_idx以上のアクセスログデータが存在しない場合は、処理を終了する。
図7のステップ703における、アクセス系列データとスナップショットデータの差分の分析を行う処理について、図9〜図10に示す詳細フローを参照しながら説明する。まず、アクセス系列データとスナップショットデータに含まれるファイルそれぞれについて以下の処理を行うため、スナップショットに含まれるファイルのインデックスCurr_idxおよびアクセス系列データに含まれるファイルのインデックスPrev_idxを1で初期化する(ステップ900およびステップ901)。スナップショットデータにCurr_idx、アクセス系列データにPrev_idx以上の配列要素が存在するか調べ(ステップ902)、両者ともに存在するのであれば、アクセス系列データのPrev_idx番目の配列要素の削除年月日218に値が設定されているか調べる(ステップ903)。削除年月日がNULL値であれば、アクセス系列データのPrev_idx番目の配列要素におけるファイルパス208と、スナップショットデータのCurr_idx番目の配列要素におけるファイルパス200が一致するかどうか調べる(ステップ904)。一致するのであれば、アクセス系列データのPrev_idx番目の配列要素における最終更新日時210、サイズ209、および所有者214と、スナップショットデータのCurr_idx番目の配列要素における最終更新日時202、サイズ201、および所有者204のいずれかが不一致であるか調べる(ステップ905)。いずれか1つでも不一致のものがあれば、アクセス系列データのPrev_idx番目の配列要素のアクセス系列215の末尾に"W"を追記し、最終更新日時210および最終参照日時211を最終更新日時202で上書きする(ステップ906)。
その後、Curr_idxおよびPrev_idxをインクリメントし(ステップ907およびステップ908)、ステップ902から処理をやり直す。ステップ905において、アクセス系列データのPrev_idx番目の配列要素における最終更新日時210、サイズ209、および所有者214と、スナップショットデータのCurr_idx番目の配列要素における最終更新日時202、サイズ201、および所有者204が全て一致していた場合は、最終参照日時211と最終参照日時203が不一致であるか調べる(ステップ909)。不一致であれば、アクセス系列データのPrev_idx番目の配列要素のアクセス系列215の末尾に"R"を追記し、最終参照日時211を最終参照日時203で上書きする(ステップ910)。ステップ909において、アクセス系列データのPrev_idx番目の配列要素における最終参照日時211と、スナップショットデータのCurr_idx番目の配列要素における最終参照日時203が一致していた場合は、アクセス系列データのPrev_idx番目の配列要素のアクセス系列215の末尾に"N"を追記する(ステップ911)。
ステップ904においてファイル名が一致していなかった場合、アクセス系列データのPrev_idx番目の配列要素におけるファイルパス208よりも、スナップショットデータのCurr_idx番目の配列要素におけるファイルパス200の方が、アルファベット順で先であるか調べる(ステップ912)。先であった場合、アクセス系列データに配列要素を追加し、アクセス系列215に"C"を記載し、ファイルパス208、サイズ209、最終更新日時210、最終参照日時211、所有者214に、スナップショットデータのCurr_idx番目の配列要素におけるファイルパス200、サイズ201、最終更新日時202、最終参照日時203、所有者204を転記する(ステップ913)。
その後、Curr_idxをインクリメントし(ステップ914)、ステップ902から処理をやり直す。ステップ912において先ではなかった場合、アクセス系列データのPrev_idx番目の配列要素におけるアクセス系列215の末尾に"D"を追記して削除年月日218に更新取得日データ127の末尾の配列要素の取得日308を設定し(ステップ915)、Prev_idxをインクリメントし(ステップ916)、ステップ902から処理をやり直す。ステップ903において、削除年月日218がNULLではなければ、既に削除が行われたファイルに関するデータなので、Prev_idxをインクリメントし(ステップ916)、ステップ902から処理をやり直す。ステップ902において、スナップショットデータにCurr_idx以上の配列要素が存在しないか、または、アクセス系列データにPrev_idx以上の配列要素が存在しない場合は、図10に示す続きの処理を行う。
図10では、まず、スナップショットデータにCurr_idx以上の配列要素が存在するか調べ(ステップ1000)、存在するのであれば、アクセス系列データに配列要素を追加し、アクセス系列215に"C"を記載し、ファイルパス208、サイズ209、最終更新日時210、最終参照日時211、所有者214に、スナップショットデータのCurr_idx番目の配列要素におけるファイルパス200、サイズ201、最終更新日時202、最終参照日時203、所有者204を転記する(ステップ1001)。
その後、Curr_idxをインクリメントし(ステップ1002)、ステップ1000から処理をやり直す。ステップ1000においてCurr_idx以上の配列要素が存在しない場合は、アクセス系列データにPrev_idx以上の配列要素が存在するか調べる(ステップ1003)。存在するのであれば、アクセス系列データのPrev_idx番目の配列要素の削除年月日218に値が設定されているか調べる(ステップ1004)。削除年月日がNULL値であれば、アクセス系列データのPrev_idx番目の配列要素のアクセス系列215の末尾に"D"を追記し削除年月日218に更新取得日データ127の末尾の配列要素の取得日308を設定し(ステップ1005)、Prev_idxをインクリメントし(ステップ1006)、ステップ1003から処理をやり直す。ステップ1004において削除年月日218がNULLでなければ、Prev_idxをインクリメントし(ステップ1006)、ステップ1003から処理をやり直す。ステップ1003においてPrev_idx以上の配列要素が存在しない場合は、処理を終了する。
図7のステップ704における、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われたことに由来する突発的かつ大量のアクセスに該当するアクセスを検知する処理について、図11〜図14に示す詳細フローを参照しながら説明する。突発大量アクセス確認データ126の配列要素を全て削除し初期化する(ステップ1100)。次に、アクセス系列データの配列要素を、ファイルパス208のアルファベット順でソートする(ステップ1101)。その後、アクセス系列データに含まれるファイルそれぞれについて以下の処理を行うため、インデックスFile_idxを1で初期化する(ステップ1102)。
アクセス系列データにFile_idx以上の配列要素が存在するか調べ(ステップ1103)、存在するのであれば、File_idx番目の配列要素のファイルパス208のフォルダ階層数と同じ要素数を持つBooleanの配列をアクセスフラグ配列として用意し、全ての要素にFalseを設定する(ステップ1104)。その後、フォルダそれぞれについて以下の処理を行うため、インデックスFolder_idxを1で初期化し(ステップ1105)、突発大量アクセス確認データ126にFolder_idx以上の配列要素が存在するか調べ(ステップ1106)、存在するのであれば、突発大量アクセス確認データ126のFolder_idx番目の配列要素のフォルダパス300を、アクセス系列データ125のFile_idx番目の配列要素のファイルパス208が含むか調べる(ステップ1107)。
配列要素のファイルパス208を含むのであれば、アクセス系列データのFile_idx番目の配列要素の削除年月日218がNULL値であるかまたは更新取得日データ127の末尾の配列要素の取得日308と異なる値であるなら、アクセス系列215の末尾の値に応じて、突発大量アクセス確認データ126のFolder_idx番目の配列要素のファイル数301をインクリメントし、Rの件数302、Wの件数303、Cの件数304、またはDの件数305の値をインクリメントし、所有者306が所有者214を含まないならば追記し、アクセスフラグ配列の配列要素のうち突発大量アクセス確認データ126のFolder_idx番目の配列要素のフォルダパス300の階層数と同じ位置にTrueを設定する(ステップ1108)。
その後、Folder_idxをインクリメントし(ステップ1109)、ステップ1106から処理をやり直す。ステップ1106においてFolder_idx以上の配列要素が存在しない場合は、アクセスフラグ配列を埋めて(ステップ1110)、File_idxをインクリメントし(ステップ1111)、ステップ1103から処理をやり直す。ステップ1110における処理は、図12において詳細に説明する。ステップ1103においてFile_idx以上の配列要素が存在しない場合は、突発大量アクセスであるか判定を行い(ステップ1112)、判定結果に基づいてアクセス系列を修正し(ステップ1113)、処理を終える。ステップ1112における処理は、図13において詳細に説明する。ステップ1113における処理は、図14において詳細に説明する。
図11のステップ1110における、アクセスフラグ配列を埋める処理について、図12に示す詳細フローを参照しながら説明する。まず、アクセスフラグ配列の要素それぞれについて以下の処理を行うため、インデックスidxを1で初期化し(ステップ1200)、アクセスフラグ配列にidx以上の配列要素が存在するか調べ(ステップ1201)、存在するのであれば、アクセスフラグ配列のidx番目の配列要素の値を調べる(ステップ1202)。
Falseであれば、突発大量アクセス確認データに配列要素を追加し、フォルダパス300にアクセス系列データのFile_idx番目の配列要素のファイルパス208のうちidx番目の階層までのフォルダパスを設定し、削除年月日218がNULL値であるかまたは更新取得日データ127の末尾の配列要素の取得日308と異なる値であるなら、ファイル数301に1を設定し、アクセス系列215の末尾の値に応じて、Rの件数302、Wの件数303、Cの件数304、またはDの件数305の値に1を設定し、所有者306に所有者214を設定する(ステップ1203)。その後、idxをインクリメントし(ステップ1204)、ステップ1201から処理をやり直す。ステップ1201においてidx以上の配列要素が存在しない場合は、処理を終了する。
図11のステップ1112における、突発大量アクセスであるか判定を行う処理について、図13に示す詳細フローを参照しながら説明する。まず、突発大量アクセス確認データの配列要素それぞれについて以下の処理を行うため、インデックスFolder_idxを1で初期化し(ステップ1300)、突発大量アクセス確認データにFolder_idx以上の配列要素が存在するか調べる(ステップ1301)。存在するのであれば、突発大量アクセス確認データのFolder_idx番目の配列要素のファイル数301が十分大きく(例えば10以上であり)、ファイル数301と比べてRの件数302、Wの件数303、Cの件数304、またはDの件数305のいずれかが十分大きく(例えば、ファイル数301の値の0.8倍以上であり)、その他の件数は0で、かつ、所有者306が単一の値であるか調べ、全て成り立てばフォルダパス300で示されるフォルダツリーに対して突発大量アクセスが行われたと判定しフラグ307にTrueを設定する。そうでなければFalseを設定する(ステップ1302)。その後、Folder_idxをインクリメントし(ステップ1303)、ステップ1301から処理をやり直す。ステップ1301においてFolder_idx以上の配列要素が存在しない場合は、処理を終了する。
図11のステップ1113における、突発大量アクセスであるかの判定結果に基づいてアクセス系列を修正する処理について、図14に示す詳細フローを参照しながら説明する。まず、アクセス系列データ125の配列要素それぞれについて以下の処理を行うため、インデックスFile_idxを1で初期化し(ステップ1400)、アクセス系列データ125にFile_idx以上の配列要素が存在するか調べ(ステップ1401)、存在するのであれば、アクセス系列215の末尾が"N"であるか、または、削除年月日218が更新取得日データ127の末尾の配列要素の取得日308以外のNULLでない値を持つか調べる(ステップ1402)。
条件に該当しないならば、Booleanの変数を修正フラグとして用意し、Falseで初期化する(ステップ1403)。その後、突発大量アクセス確認データの配列要素それぞれについて以下の処理を行うため、インデックスFolder_idxを1で初期化し(ステップ1404)、突発大量アクセス確認データにFolder_idx以上の配列要素が存在するか調べる(ステップ1405)。存在するのであれば、フラグ307がTrueであり、かつ、フォルダパス300がアクセス系列データ125のFile_idx番目の配列要素のファイルパス208に含まれるのであれば、修正フラグにTrueを設定し(ステップ1406)、Folder_idxをインクリメントして(ステップ1407)、ステップ1405から処理をやり直す。
ステップ1405においてFolder_idx以上の配列要素が存在しない場合は、修正フラグの値を確認し(ステップ1408)、Trueであれば、アクセス系列215の末尾の値に"突"を付ける(ステップ1409)。例えば、末尾の値が"R"であったならば、"突R"とする。ステップ1408においてFalseであれば、突発大量以外の最終更新日時212に最終更新日時210の値を、突発大量以外の最終参照日時213に最終参照日時211を転記する(ステップ1410)。その後、File_idxをインクリメントし(ステップ1411)、ステップ1401から処理をやり直す。ステップ1401においてFile_idx以上の配列要素が存在しない場合は、処理を終了する。
図7のステップ705における、足しこみ処理について、図15に示す詳細フローを参照しながら説明する。まず、アクセス間隔の集計を行う(ステップ1500)。この処理については、アクセス間隔集計処理部114を用いて行うものであり、図16において詳細に説明する。次に、退避対象容量の集計を行う(ステップ1501)。この処理については、退避対象容量集計処理部115を用いて行うものであり、図17において詳細に説明する。その後、アクセスパターンの頻度を集計し(ステップ1502)、処理を終了する。ステップ1502における処理については、アクセスパターン頻度集計処理部116を用いて行うものであり、図18において詳細に説明する。
図15のステップ1500における、アクセス間隔の集計を行う処理について、図16に示す詳細フローを参照しながら説明する。まず、アクセス系列データ125の配列要素それぞれについて以下の処理を行うため、インデックスFile_idxを1で初期化し(ステップ1600)、アクセス系列データ125にFile_idx以上の配列要素が存在するか調べ(ステップ1601)、存在するのであれば、削除年月日218が更新取得日データ127の末尾の配列要素の取得日308以外のNULLでない値を持つか調べる(ステップ1611)。条件に該当しないなら、アクセス系列215の末尾以外の位置に"R"、"W"、"C"、"突R"、"突W"、または"突C"が存在するか調べる(ステップ1602)。存在するのであれば、更新取得日データ127の、末尾以外で最も後ろにある存在位置の配列要素の取得日308を「前回、このファイルに対してアクセスが行われた年月日」として得る(ステップ1603)。
次に、アクセス系列215の末尾の値を調べ(ステップ1604)、"R"、"W"、"D"、"突R"、"突W"、または"突D"であれば、アクセス系列215の末尾の要素について"突"を無視した値および、更新取得日データ127の末尾の配列要素の取得日308とステップ1603で得た値との差がそれぞれ、アクセス間隔データ128の、アクセス種類309およびアクセス間隔310に合致する配列要素に対し、カウント311をインクリメントする(そのような配列要素がなければ追加する)(ステップ1605)。その後、アクセス系列215の末尾以外の位置に"R"、"W"、または"C"が存在するか調べる(ステップ1606)。存在するのであれば、更新取得日データ127の、末尾以外で最も後ろにある存在位置の配列要素の取得日308を「前回、このファイルに対してエンドユーザによる手動アクセスが行われた年月日」として得る(ステップ1607)。
次に、アクセス系列215の末尾の値を調べ(ステップ1608)、"R"、"W"、または"D"であれば、アクセス系列215の末尾の要素の値および、更新取得日データ127の末尾の配列要素の取得日308とステップ1607で得た値との差がそれぞれ、アクセス間隔データ128の、アクセス種類309およびアクセス間隔310に合致する配列要素に対し、突発大量を除いたカウント312をインクリメントする(そのような配列要素がなければ追加する)(ステップ1609)。続いて、File_idxをインクリメントし(1610)、ステップ1601から処理をやり直す。ステップ1601においてFile_idx以上の配列要素が存在しない場合は、処理を終了する。
図15のステップ1501における、退避対象容量の集計を行う処理について、図17に示す詳細フローを参照しながら説明する。まず、退避対象容量データ129に、計算日402に更新取得日データ127の末尾の配列要素の取得日308を設定し、R閾値400およびW閾値401に調査対象とする範囲(例えば、0〜0日以内、1日〜31日以内、32日〜61日以内、62日〜92日以内、…、325日〜356日以内、357日〜、など)を設定した要素を追加する(ステップ1700)。次に、アクセス系列データ125の配列要素それぞれについて以下の処理を行うため、インデックスFile_idxを1で初期化し(ステップ1701)、アクセス系列データ125にFile_idx以上の配列要素が存在するか調べる(ステップ1702)。存在するのであれば、削除年月日218が更新取得日データ127の末尾の配列要素の取得日308以外のNULLでない値を持つか調べる(ステップ1705)。
条件に該当しないなら、退避対象容量データ129の配列要素のうち計算日402が更新取得日データ127の末尾の配列要素の取得日308を持つものそれぞれに対し、全容量414にサイズ209を足しこみ、最終更新日時210と更新取得日データ127の末尾の配列要素の取得日308の差がW閾値401の範囲内であり、かつ、最終参照日時211と更新取得日データ127の末尾の配列要素の取得日308の差がR閾値400の範囲内であれば、対象容量403にサイズ209を足しこみ、突発大量以外の最終更新日時212と更新取得日データ127の末尾の配列要素の取得日308の差がW閾値401の範囲内であり、かつ、突発大量以外の最終参照日時213と更新取得日データ127の末尾の配列要素の取得日308の差がR閾値400の範囲内であれば、突発大量を除いた対象容量404にサイズ209を足しこむ(ステップ1703)。その後、File_idxをインクリメントし(ステップ1704)、ステップ1702から処理をやり直す。ステップ1702においてFile_idx以上の配列要素が存在しない場合は、処理を終了する。
図15のステップ1502における、アクセスパターンの頻度を集計する処理について、図18に示す詳細フローを参照しながら説明する。まず、アクセス系列データ125の配列要素それぞれについて以下の処理を行うため、インデックスFile_idxを1で初期化し(ステップ1800)、アクセス系列データ125にFile_idx以上の配列要素が存在するか調べ(ステップ1801)、存在するのであれば、削除年月日218が更新取得日データ127の末尾の配列要素の取得日308以外のNULLでない値を持つか調べる(ステップ1804)。条件に該当しないなら、アクセス系列215の接尾辞をアクセスパターン405として持つアクセス頻度データの配列要素のカウントをインクリメントする(ステップ1802)。その後、File_idxをインクリメントし(ステップ1803)、ステップ1801から処理をやり直す。ステップ1801においてFile_idx以上の配列要素が存在しない場合は、処理を終了する。
図6のステップ608における、提案するべき閾値を計算する処理について、図19に示す詳細フローを参照しながら説明する。まず、提案閾値の望ましさを保持する変数Scoreを用意して0で初期化し、提案するべき閾値を保持する変数SuggValを用意してNULL値で初期化する(ステップ1900)。次に、参照に関する閾値候補を保持する変数R_thresを用意して1ヶ月で初期化し(ステップ1901)、更新に関する閾値候補を保持する変数W_thresを用意して1ヶ月で初期化する(ステップ1902)。
その後、R_thres、W_thresおよび、更新取得日データ127の末尾の配列要素の取得日308が、R閾値400、W閾値401および、計算日402に合致する退避対象容量データ129の配列要素における対象容量403と全容量414の比が、閾値基準データ133の退避対象容量上限値500を上回っていないか調べ(ステップ1903)、上回っていないなら、アクセス間隔データ128のうちアクセス種類309の値が"R"であり、アクセス間隔310の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント311の和と、アクセス種類309の値が"R"であるもの全体におけるカウント311の和との比が、閾値基準データ133のRカバー率下限501を下回っていないか調べる(ステップ1904)。
下回っていないなら、アクセス間隔データ128のうちアクセス種類309の値が"W"であり、アクセス間隔310の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント311の和と、アクセス種類309の値が"W"であるもの全体におけるカウント311の和との比が、閾値基準データ133のWカバー率下限502を下回っていないか調べ(ステップ1905)、下回っていないなら、アクセス間隔データ128のうちアクセス種類309の値が"D"であり、アクセス間隔310の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント311の和と、アクセス種類309の値が"D"であるもの全体におけるカウント311の和との比が、閾値基準データ133のDカバー率下限503を下回っていないか調べる(ステップ1906)。
下回っていないなら、R_thresとW_thresの望ましさを評価してScoreと比較する。R_thresとW_thresの望ましさとしては、R_thres、W_thresおよび、更新取得日データ127の末尾の配列要素の取得日が、R閾値400、W閾値401および、計算日402に合致する退避対象容量データ129の配列要素における対象容量403と全容量414の比と、アクセス間隔データ128のうちアクセス種類309の値が"R"であり、アクセス間隔310の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント311の和と、アクセス種類309の値が"R"であるもの全体におけるカウント311の和との比と、アクセス間隔データ128のうちアクセス種類309の値が"W"であり、アクセス間隔310の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント311の和と、アクセス種類309の値が"W"であるもの全体におけるカウント311の和との比と、アクセス間隔データ128のうちアクセス種類309の値が"D"であり、アクセス間隔310の値がR_thresとW_thresのうち小さい方以内であるものにおけるカウント311の和と、アクセス種類309の値が"D"であるもの全体におけるカウント311の和との比とを、閾値基準データ133の退避対象容量係数504、Rカバー率係数505、Wカバー率係数506、Dカバー率係数507で重み加算した値を用いる(ステップ1907)。
R_thresとW_thresの望ましさがScoreを上回るならば、SuggValとしてR_thresとW_thresを用いることとし、Scoreの値を上書きする(ステップ1908)。その後、W_thresを1ヶ月インクリメントし(ステップ1909)、R_thres、W_thresおよび、更新取得日データ127の末尾の配列要素の取得日308が、R閾値400、W閾値401および、計算日402に合致する退避対象容量データ129の配列要素における対象容量403と全容量414の比が、閾値基準データ133の退避対象容量上限値500を上回っていないか調べ(ステップ1910)、上回っていないならば、ステップ1904から処理をやり直す。上回っているならば、R_thresを1ヶ月インクリメントし(ステップ1911)、ステップ1902から処理をやり直す。ステップ1903において上回っているならば、処理を終了する。最終的にSuggValとして保持している値が、提案するべき閾値となる。
(1−4)表示例
図6のステップ609における、計算した閾値の提案表示を行う処理について、図20に示す画面例を参照して説明する。2000には、閾値データ132として保持している値を示し、2001には、閾値提案処理部117で提案するべき閾値として計算した値を示す。また、2002には、両方の閾値における、アクセス間隔データ128のうちアクセス種類309の値が"R"であり、アクセス間隔310の値がR閾値412とW閾値413のうち小さい方以内であるものにおけるカウント311の和と、アクセス種類309の値が"R"であるもの全体におけるカウント311の和との比と、アクセス間隔データ128のうちアクセス種類309の値が"W"であり、アクセス間隔310の値がR閾値412とW閾値413のうち小さい方以内であるものにおけるカウント311の和と、アクセス種類309の値が"W"であるもの全体におけるカウント311の和との比と、アクセス間隔データ128のうちアクセス種類309の値が"D"であり、アクセス間隔310の値がR閾値412とW閾値413のうち小さい方以内であるものにおけるカウント311の和と、アクセス種類309の値が"D"であるもの全体におけるカウント311の和との比と、R閾値412、W閾値413および、更新取得日データ127の末尾の配列要素の取得日が、R閾値400、W閾値401および、計算日402に合致する退避対象容量データ129の配列要素における対象容量403と全容量414の比とを示す。さらに、ボタン2003の押下操作を受付け、閾値データ132の変更を受付ける。
図6のステップ610における、更新分析処理部110で行った更新分析結果の表示を行う処理について、図21〜図24に示す画面例を参照しながら説明する。図21は、分析結果表示処理部119のうちアクセス間隔グラフ表示処理部による表示画面120を、2100で示すタブで選択している画面例である。2101には、アクセス間隔データ128のうち、アクセス種類309が同一のものについて、カウント311または突発大量を除いたカウント312をデータ系列とした折れ線グラフを示している。2102による選択操作を受付け、アクセス間隔データ128だけを表示する(単独表示)か、図23に示すように退避対象容量データ129と共に表示する(退避対象容量との比較表示)かを変更する。また、2103による選択操作を受付け、カウント311または突発大量を除いたカウント312の個々の値を表示する(値グラフ)か、アクセス間隔310が一定以下の配列要素におけるカウント311または突発大量を除いたカウント312の累積の値を表示する(累積グラフ)かを変更する。また、ボタン2104の押下操作を受付け、閾値データ132の変更を受付ける。
図22は、分析結果表示処理部119のうち退避対象容量グラフ表示処理部121による表示画面を、2200で示すタブで選択している画面例である。2201には、退避対象容量データ129のうち、R閾値400とW閾値401が2202で指定された閾値以内であるものについて、2202の指定に従い、対象容量403または突発大量を除いた対象容量404と全容量414の比率の、計算日402ごとの値をデータ系列とした折れ線グラフを示している。図21の場合と同様に、2203による選択操作を受付け、退避対象容量データ129だけを表示する(単独表示)か、アクセス間隔データ128と共に表示する(アクセス間隔との比較表示)か否かを変更する。また、ボタン2204の押下操作を受付け、2202で表示された閾値を変更した折れ線グラフを2201に表示する。また、図21の場合と同様に、ボタン2205の押下操作を受付け、閾値データ132の変更を受付ける。
図23は、分析結果表示処理部119のうちアクセス間隔グラフ表示処理部120による表示画面を、2300で示すタブで選択しており、さらに、退避対象容量データ129との比較表示を2301で選択している画面例である。2301には、2101における表示に加え、退避対象容量データ129のうち、R閾値400およびW閾値401が共にX軸の値以下であるものについて、2302の指定に従い、対象容量403または突発大量を除いた対象容量404の値と全容量414の比率を、各計算日402において平均した値の、X軸の値ごとの値をデータ系列とした折れ線グラフを示している。2303による選択操作を受付け、図21に示したようにアクセス間隔データ128だけを表示する(単独表示)か、アクセス間隔データ128と退避対象容量データ129を共に表示する(退避対象容量との比較表示)かを変更する。また、図21で示したように、2304による指定および、ボタン2305の押下操作を受付ける。
図24は、分析結果表示処理部119のうちアクセスパターン表示処理部122による表示画面を、2400で示すタブ選択している画面例である。アクセス類型データ131の配列要素のうち、アクセスパターン407で指定されるアクセスにおける条件付確率(アクセスパターン頻度集計処理部116で計算したアクセス頻度データ130を用いて算出)が、確率408にもっとも近いものについて、表示用_アクセスパターン409を2401に、表示用_利用状況410を2402に、表示用_施策411を2403に表示する。また、2404には、アクセスパターン407で指定されるアクセスにおける条件付確率(アクセスパターン頻度集計処理部116で計算したアクセス頻度データ130を用いて算出)を積み上げ棒グラフで示している。
なお、本実施の形態では、図19においてR_thresおよびW_thresは1ヶ月以上の値とし、また、1ヶ月ごとに望ましさを評価した。この方式に代えて、1ヶ月ではなく、1日、1週間、または10日など、他の値を用いる方式についても、本発明を同様に適用することができる。
また、本実施の形態では、閾値提案処理部117および閾値表示処理部118において、退避対象容量データ129の対象容量403およびアクセス間隔データ128のカウント311を用いて計算を行う形式とした。この方式に代えて、退避対象容量データ129の突発大量を除いた対象容量404およびアクセス間隔データ128の突発大量を除いたカウント312を用いて計算する方式についても、本発明を同様に適用することができる。
また、本実施の形態では、単一のファイルサーバ(または単一の組織)における例について述べたが、複数のファイルサーバ(または複数の共有ポイント、複数の組織)において本実施例で述べた処理を行い、相互に結果を比較することも可能である。
図25の表示領域2500には、各ファイルサーバに対して容量合計(スナップショットデータ123の各配列要素におけるサイズ201の合計値)と、2501に指定された閾値における、退避対象容量データ129の対象容量403または突発大量を除いた対象容量404の値と全容量414の比率を、各計算日402において平均した値を、それぞれX軸とY軸にプロットしている。
発明者は、このような表示形態において、プロットはグラフエリアの左下に多く配置されて右上には配置されない、すなわち、保有する容量合計が大きい部署では退避対象容量が占める割合は低い(保有する容量合計が大きい場合、その多くの割合のファイルをアクティブなものとして日常的に活用していることはない)傾向を発見した。このような傾向を表示する表示形態により、組織全体のうち一部の部署で本実施例に述べた処理を行い、組織全体における傾向を推測する場合に、ファイルサーバ管理者は、単純な平均を行う方が良いのか、部署をカテゴライズした上で重み平均を用いるなど他の演算を行う方法が良いのかをファイルサーバ管理者は判断することができる。
また、本実施の形態では、全ての種類のファイルについてまとめて扱う形式とした。この方式に代えて、ファイル種類(メール、オフィス文書、画像、など)に分類した上の本実施形態で述べた分析を行い、ファイル種類ごとに折れ線グラフ、面グラフ、積み上げ面グラフなどで結果の表示を行う方式についても、本発明を同様に適用することができる。
発明者は、ファイル種類ごとの表示形態において、特定のファイル種類において、フォルダ単位やバッチ処理などで大量のファイルに一括してアクセスが行われる場合が多いことを発見した。このような傾向を表示する表示形態により、ファイルサーバ管理者は管理施策の決定に有効な情報を得ることができる。
本実施の形態によれば、大量のファイルが保存されたファイルサーバにおいて、同期遠隔バックアップの要否を指定したり、高速メディアまたは大容量メディアへの格納を指定したりするための閾値の決定を効率化することができるという利点がある。
(2)その他の形態
また、上記の実施の形態において、添付図面に図示されている構成等については、これらに限定されるものではなく、本発明の効果を発揮する範囲内で適宜変更することが可能である。その他、本発明の目的の範囲を逸脱しない限りにおいて適宜変更して実施することが可能である。また、本発明の各構成要素は、任意に取捨選択することができ、取捨選択した構成を具備する発明も本発明に含まれるものである。
また、本実施の形態で説明した機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。尚、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
(付記)
本発明は、以下の開示を含む。
(1)
ファイルサーバに存在するファイルを退避するための条件となる閾値の決定を支援する装置であって、ファイルサーバを定期的にクローリングするアプリケーションから、ファイルのメタデータ情報の特定時点の一覧であるスナップショット(以下、「スナップショット」と称する。)を得ることで、対象期間内に一度もアクセスが行われなかったファイルについても計算対象とするスナップショット読込み処理部と、
2つの異なる時点における第1及び第2のスナップショットについて、各ファイルの前記第1及び第2のスナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、2つの異なる時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析する差分分析処理部と、
退避によるエンドユーザが行うファイルアクセスへの影響の限界値及び重み付け係数と、退避対象となるファイルの割合の限界値及び重み付け係数に基づいて、閾値ごとに、参照、更新、削除が行われたファイルについて、アクセス間隔として集計した結果、および、閾値ごとに、退避対象容量を集計した結果により、閾値の望ましさを最大化する新しい閾値を提案する閾値提案処理部とを有することを特徴とする業務文書処理装置。
本発明は、業務文書処理装置に利用可能である。
100…表示装置
101…キーボード
102…ポインティングデバイス
103…中央処理装置
104…プログラムメモリ
105…データメモリ
106…ファイル属性DB
107…アクセスログ
134…アクセス類型
135…閾値基準

Claims (15)

  1. ファイルサーバに存在するファイルのうちから退避するファイルを定する装置であって、ファイルサーバを定期的にクローリングするアプリケーションから、ファイルのメタデータ情報の特定時点の一覧であるスナップショット(以下、「スナップショット」と称する。)を得るスナップショット読込み処理部と、
    2つの異なる時点における第1及び第2のスナップショットを比較することで、2つの時点の間にファイルサーバに対して行われたアクセスの内容を分析する差分分析処理部と、を有し、
    前記アクセスの内容の分析に基づいて、退避するファイルを決定することを特徴とする業務文書処理装置。
  2. 前記差分分析処理部は、
    2つの異なる時点におけるスナップショットについて、各ファイルの両スナップショットにおける存在有無、最終参照日付の変化の有無、最終更新日付の変化の有無を調べることで、2つの時点の間にそのファイルが参照、更新、削除、または新規作成されたのかどうかを分析することを特徴とする請求項に記載の業務文書処理装置。
  3. 一定期間内におけるファイルサーバに対するアクセスが記録されたアクセスログをスナップショット情報と照合し変換することで、その時点までのスナップショット情報とするアクセスログ・スナップショット変換処理部を有することを特徴とする請求項1又は2に記載の業務文書処理装置。
  4. 2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、個々のファイルに対し手動でアクセスが行われたのではなく、大量のファイルに一括してアクセスが行われた場合を検知する突発大量アクセス検知処理部を有することを特徴とする請求項1又は2に記載の業務文書処理装置。
  5. 2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、アクセスの頻度を集計する足しこみ処理部を有することを特徴とする請求項1又は2に記載の業務文書処理装置。
  6. 2つの異なる時点におけるスナップショットの分析から得られたアクセスが行われたファイルの情報に対し、参照、更新、削除が行われたファイルについて、そのファイルが最後にアクセスされたのはの直アクセスからどれほどの時間が経過していた後であったのかをアクセス間隔として集計するアクセス間隔集計処理部を有することを特徴とする請求項5に記載の業務文書処理装置。
  7. 各時点におけるスナップショットに記載されているファイルについて、退避対象容量を集計する退避対象容量集計処理部を有することを特徴とする請求項5に記載の業務文書処理装置。
  8. 複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計するアクセスパターン頻度集計処理部を有することを特徴とする請求項6に記載の業務文書処理装置。
  9. 退避によるエンドユーザが行うファイルアクセスへの影響の限界値および重みづけ係数と、退避対象となるファイルの割合の限界値および重みづけ係数を入力として受け取り、参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果および、退避対象容量を集計した結果により、ファイルの退避を決定するための閾値の提案を行う閾値提案処理部を有することを特徴とする請求項1は2に記載の業務文書処理装置。
  10. 前記退避対象容量を集計した結果により提案する閾値と、現在の閾値の設定とを比較し、表示を行う閾値表示処理部を有することを特徴とする請求項に記載の業務文書処理装置。
  11. アクセスの頻度を集計した結果を表示する分析結果表示処理部を有することを特徴とする請求項5に記載の業務文書処理装置。
  12. 参照、更新、削除が行われたファイルについて、そのファイルが直前にアクセスされたのはいつだったのかをアクセス間隔として集計した結果をグラフ表示するアクセス間隔グラフ表示処理部を有することを特徴とする請求項6に記載の業務文書処理装置。
  13. 退避対象容量を集計した結果をグラフ表示する退避対象容量グラフ表示処理部を有することを特徴とする請求項7に記載の業務文書処理装置。
  14. ファイルサーバ上のファイルの利用形態とアクセスパターンの頻度を入力として受け取り、複数の異なる時点におけるスナップショットの分析から得られたアクセス情報を集計してアクセスのパターンの頻度を集計した結果を用いて、アクセスパターンが類似する利用形態の表示を行うアクセスパターン表示処理部を有することを特徴とする請求項11に記載の業務文書処理装置。
  15. コンピュータに、
    ファイルサーバに存在するファイルのうちから退避するファイルを定する処理であって、
    ファイルサーバを定期的にクローリングするアプリケーションから、ファイルのメタデータ情報の特定時点の一覧であるスナップショット(以下、「スナップショット」と称する。)を得るスナップショット読込み処理と、
    2つの異なる時点における第1及び第2のスナップショットを比較することで、2つの時点の間にファイルサーバに対して行われたアクセスの内容を分析する差分分析処理と、
    前記アクセスの内容の分析に基づいて、退避するファイルを決定する処理とを実行させるための業務文書処理プログラム。
JP2013024928A 2013-02-12 2013-02-12 業務文書処理装置、業務文書処理プログラム Active JP6081213B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013024928A JP6081213B2 (ja) 2013-02-12 2013-02-12 業務文書処理装置、業務文書処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013024928A JP6081213B2 (ja) 2013-02-12 2013-02-12 業務文書処理装置、業務文書処理プログラム

Publications (2)

Publication Number Publication Date
JP2014154044A JP2014154044A (ja) 2014-08-25
JP6081213B2 true JP6081213B2 (ja) 2017-02-15

Family

ID=51575830

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013024928A Active JP6081213B2 (ja) 2013-02-12 2013-02-12 業務文書処理装置、業務文書処理プログラム

Country Status (1)

Country Link
JP (1) JP6081213B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6253752B1 (ja) 2016-11-29 2017-12-27 株式会社東芝 階層化ストレージシステム
JP7114877B2 (ja) * 2017-10-25 2022-08-09 富士フイルムビジネスイノベーション株式会社 同期処理装置、ファイル同期システムおよびプログラム

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1011344A (ja) * 1996-06-24 1998-01-16 Mitsubishi Electric Corp データ・バックアップ方法
JP2004133538A (ja) * 2002-10-08 2004-04-30 Fujitsu Ltd ファイルの自動バックアップシステムおよび自動バックアップ方法ならびにコンピュータ読取り可能な記録媒体
JP2004171249A (ja) * 2002-11-20 2004-06-17 Hitachi Ltd データベースのバックアップ実行判断方法
JP2005190259A (ja) * 2003-12-26 2005-07-14 Hitachi Ltd 複数世代のバックアップデータの管理
JP2006277563A (ja) * 2005-03-30 2006-10-12 Ibm Japan Ltd ファイルを指定日時のバージョンに復帰させるためのバックアップ・システム、バックアップ方法および該方法をコンピュータに実行させるためのプログラム
JP2009080670A (ja) * 2007-09-26 2009-04-16 Hitachi Ltd ストレージ装置、計算機システム及びバックアップ管理方法

Also Published As

Publication number Publication date
JP2014154044A (ja) 2014-08-25

Similar Documents

Publication Publication Date Title
US11989707B1 (en) Assigning raw data size of source data to storage consumption of an account
US10417265B2 (en) High performance parallel indexing for forensics and electronic discovery
US9135306B2 (en) System for forensic analysis of search terms
US20170161503A1 (en) Determining a risk indicator based on classifying documents using a classifier
US9665632B2 (en) Managing activities over time in an activity graph
CA2934280C (en) Long string pattern matching of aggregated account data
US20040167921A1 (en) Identifying history of modification within large collections of unstructured data
CN106354434A (zh) 日志数据的存储方法及系统
EP2024879A1 (en) Significant change search alerts
US20140071135A1 (en) Managing activities over time in an activity graph
CN111026961A (zh) 标引多重数据元素内的感兴趣的数据的方法及系统
Beebe et al. Ranking algorithms for digital forensic string search hits
AU2012298708A1 (en) System to identify multiple copyright infringements
US9760842B2 (en) Operation target management apparatus and non-transitory computer readable medium
JP6081213B2 (ja) 業務文書処理装置、業務文書処理プログラム
CN112052259A (zh) 数据处理方法、装置、设备及计算机存储介质
CN106326400A (zh) 基于多维数据集的数据处理系统
Birkisson Numerical solution of nonlinear boundary value problems for ordinary differential equations in the continuous framework
US20150032749A1 (en) Method of creating classification pattern, apparatus, and recording medium
JP5887236B2 (ja) 業務文書処理装置、業務文書処理方法及び業務文書処理プログラム
JP2009176119A (ja) ファイル利用状況判定システム
JP2011123652A (ja) データ解析システム、及びその方法
US20160364813A1 (en) System for creating a linkage family tree including non-requested entities and detecting changes to the tree via an intelligent change detection system
JP6725476B2 (ja) データ管理システム及びデータ管理方法
JP2009245263A (ja) 情報提示装置および関連ファイル推定システム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150911

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160608

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160719

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160825

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170110

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170118

R150 Certificate of patent or registration of utility model

Ref document number: 6081213

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250