JP5912949B2 - 業務文書処理システム、及びプログラム - Google Patents

業務文書処理システム、及びプログラム Download PDF

Info

Publication number
JP5912949B2
JP5912949B2 JP2012156828A JP2012156828A JP5912949B2 JP 5912949 B2 JP5912949 B2 JP 5912949B2 JP 2012156828 A JP2012156828 A JP 2012156828A JP 2012156828 A JP2012156828 A JP 2012156828A JP 5912949 B2 JP5912949 B2 JP 5912949B2
Authority
JP
Japan
Prior art keywords
folder
file
deletion
information
deleted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012156828A
Other languages
English (en)
Other versions
JP2014021552A (ja
Inventor
岩田 泰明
泰明 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2012156828A priority Critical patent/JP5912949B2/ja
Publication of JP2014021552A publication Critical patent/JP2014021552A/ja
Application granted granted Critical
Publication of JP5912949B2 publication Critical patent/JP5912949B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、業務文書処理システム、及びプログラムに関し、例えば、ファイルサーバ内に保存された大量のファイルデータを管理するための技術に関する。
近年、会社などの組織内において電子データの保存・共有について利便性が高いファイルサーバが広く普及している。しかし、ファイルサーバ内のファイル数は爆発的に増大する傾向にあり、不要なファイルの削除やアーカイブ化を支援・促進するための技術に対する要求が高まっている。例えば、デジタルデータが爆発的に増大していること(非特許文献1)、企業内ではRDB(Relational Database)に格納されている構造データは全体の2割に過ぎないこと、大半は文書ファイルなどの非構造文書であることなどが調査・報告されている(非特許文献2)。
また、不要なファイルの削除を支援するソフトウェア(非特許文献3乃至5)が提案されている。これらの技術では、最終更新日が古い・最終アクセス日が古い・内容が重複したファイルがある・ファイル名が類似したファイルがあるなどの条件を用いて、不要と思われるファイルの提示を行う機能を持つ。これらのファイルについて、自動的なアーカイブ化・削除の機能を持つものや、ファイルを利用しているユーザの確認・了承によりアーカイブ化・削除の機能を持つものがある。
J. F. Gantz, et al. The Diverse and Exploding Digital Universe, An IDC White Paper,http://japan.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf S. Grimes, "Unstructured Data and the 80 Percent Rule", Clarabridge Bridgepoints, http://clarabridge.com/default.aspx?tabid=137&ModuleID=635&ArticleID=551 NEC, 文書・コンテンツ管理支援システム, InfoFrame PROCENTER/C, http://www.nec.co.jp/pfsoft/procenter/index.html ジャストシステム, GDMS, http://just-enterprise.com/product/gdms/ 株式会社日立ソリューションズ, MEANSファイルサーバスリム化ソリューション, http://hitachisoft.jp/products/means/slimserver/
しかしながら、上記既存技術ではファイル単位で削除候補を示すため、削除候補ファイルの数が膨大であった場合に、ユーザが確認及び削除を行う工数が膨大になってしまう。また、一般的に同じフォルダに格納されているファイルやフォルダは互いに関連を持っており、同一カテゴリのファイルやフォルダは階層構造で区切られて管理されている。このため、一部のファイルのみを削除すると、それ以外の同一カテゴリのファイルも不要であるにも拘わらず残ってしまうことがある。
したがって、ファイル及びフォルダを効率的に削除する際には不要となったカテゴリ、すなわちフォルダツリー単位で削除することが最も効率的である。
ところが、ユーザがフォルダツリー単位でファイルの削除を行うには、フォルダツリーを辿っていき、不要となったフォルダツリーを探さなくてはならず膨大な数のフォルダの削除可否を確認しなくてはならないという課題がある。さらに、不要と判断したフォルダツリーの中に、必要なファイルやフォルダが含まれていないか調べることや、必要なファイルを別のフォルダに移動させなければならず手間が生じてしまう。
本発明はこのような状況に鑑みてなされたものであり、ファイルサーバに格納されたファイル及びフォルダに関し、ユーザにとって不要なフォルダツリーの提示とフォルダの削除を効率的に実現するための技術を提供するものである。
上記課題を解決するために、本発明による業務文書処理システムは、削除済ファイルの情報に対して機械学習処理を実行して、処理対象ファイルのそれぞれの削除可能確率を算出するファイル削除可能確率算出処理と、処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの算出された削除可能確率の偏りを算出して、削除可能確率の偏りに基づいて、処理対象フォルダについて削除可否を判断するフォルダ削除可否分析処理と、フォルダ削除可否の情報と各フォルダにおける親子関係の情報に基づいて、削除可能なフォルダツリーを示す削除候補フォルダツリー情報を取得する削除候補フォルダツリー取得処理と、削除候補フォルダツリー情報を支援情報として出力する支援情報出力処理と、を実行する。
本発明によれば、ユーザにとって不要である可能性の高いフォルダツリーを提示することができ、ユーザは不要なフォルダを効率的に削除することができるようになる。
本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。
本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。
本発明の実施形態による業務文書処理装置(業務文書処理システム)の概略構成例を示す機能ブロック図である。 ファイル情報およびフォルダ情報のデータ構造例を示す図である。 削除済みファイル情報、削除候補フォルダツリー、削除確認フォルダツリー、対象外フォルダツリー、対象外ファイルのデータ構造を示す図である。 業務文書処理装置において実行される処理の全体概要を説明するためのフローチャートである。 削除ファイル分析処理部(109)の詳細を説明するためのフローチャートである。 削除フォルダ分析処理部(110)の詳細を説明するためのフローチャートである。 削除候補フォルダツリー登録処理部(111)の詳細を説明するためのフローチャートである。 削除候補表示処理部(112)の詳細を説明するためのフローチャートである。 削除候補表示処理部によって表示される画面例を示す図である。 削除候補表示処理部によって表示される画面例を示す図である。 削除候補表示処理部によって表示される画面例を示す図である。
以下、添付図面を参照しながら、本発明の装置を実施するための最良の実施形態を詳細に説明する。図1〜図11は、本発明の実施形態を例示する図である。これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。尚、本発明の実施形態において、使用される機器、手法等は一例であり、本発明はこれらに限定されるものではないことは勿論である。
更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。
なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。
また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。
以下では「プログラム」を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。
<業務文書処理装置の構成>
図1は、本発明の実施形態による業務文書処理装置(文書処理システムということもできる)1の内部概略構成を示す機能ブロック図である。図1において、当該業務文書処理装置1は、単独の計算機として示されているが、各構成部が遠隔的に配置され、それぞれがネットワークを介して接続されて構成される、計算機システムとして構成されるようにしても良い。
業務文書処理装置1は、ファイル情報DB100と、フォルダ情報DB101と、削除済みファイル情報DB102と、必要な演算処理、制御処理などを行う中央処理装置103と、中央処理装置103での処理に必要なプログラムを格納するプログラムメモリ104と、中央処理装置103での処理に必要なデータを格納するデータメモリ105と、データを表示するための表示装置106と、表示されたデータに対してメニューを選択するなどの操作を行うための入力装置107と、を備えている。
中央処理装置103は、機械学習処理部108と、削除ファイル分析処理部109と、削除フォルダ分析処理部110と、削除候補フォルダツリー登録処理部111と、削除候補表示処理部112と、を備えている。この実施形態では、コンピュータによって構成されるため、機械学習処理部108と、削除ファイル分析処理部109と、削除フォルダ分析処理部110と、削除候補フォルダツリー登録処理部111と、削除候補表示処理部112は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。従って、各処理部を各処理プログラムと読み替えることも可能である。なお、これらのプログラムは、プログラムメモリ104に格納されている。
データメモリ105は、ファイル情報113と、フォルダ情報114と、削除済みファイル情報115と、削除候補フォルダツリー116と、削除確認フォルダツリー117と、削除対象外ファイル118と、を備えている。
<データ構造>
以下、図2及び3を用いてデータメモリ105に含まれる各情報のデータ構造を説明する。
(i)図2は、データメモリ105に含まれるファイル情報113とフォルダ情報114のデータ構造を示す図であり、例えば、ファイルサーバ上のファイル及びフォルダについての情報を示す。
ファイル情報113は、ファイルID200と、ファイル名201と、親フォルダID202と、拡張子203と、サイズ204と、更新日205と、作成日206と、アクセス日207と、テキスト208と、所有者209と、削除可能確率 210を、を構成項目として含み、例えば、配列の形式でこれらの情報を保有している。ファイルID200は、ファイルに対して一意に振られた値が格納されている。ファイル名201は、ファイル名などの識別名などを示す。親フォルダ情報202は、対象のファイルが格納されたフォルダの絶対パスを示す情報である。拡張子203は、対象のファイルの保存形式を示す情報である。サイズ204は、対象のファイルの容量を示す情報であり、バイト単位で保持される。更新日205は、対象のファイルに対する書き込み処理が最後に行われた時点の情報である。作成日206は、対象のファイルが作成された時点の情報である。アクセス日207は、対象のファイルに対するアクセス処理が最後に行われた時点の情報である。テキスト208は、対象のファイルがテキスト情報を格納するファイルである場合に、そのテキストの情報を示す。所有者209は、対象のファイルを所有しているユーザのIDを示す情報である。削除可能確率210は、対象のファイルが削除できる確率を示す情報である。
フォルダ情報114は、フォルダID211と、フォルダ名212と、格納ファイルID213と、格納フォルダID214と、階層215と、削除可能確率216と、削除フラグ217と、を構成項目として含み、例えば配列の形式でこれらの情報を保有している。フォルダID211は、フォルダに対して一意に振られた値が格納されている。フォルダ名212は、フォルダ名などの識別名などを示す。格納ファイルID213は、対象フォルダの直下に格納されているファイルのファイルIDを示す。格納フォルダID214は、対象フォルダの直下に格納されているフォルダのフォルダIDを示す。階層215は、ファイルサーバにおける最も上のフォルダ(ルートフォルダ)から対象のフォルダが位置する階層を示す。例えば当該項目が「4」を保持する場合、当該フォルダはルートフォルダから子フォルダへ4回たどることで到達できる位置に属する。削除可能確率216は、対象のフォルダが削除できる確率を示す情報である。削除フラグ217は、対象のフォルダが削除可能であるかどうかを「true」と「false」で示す。初期段階では、対象のフォルダが削除可能か既知ではないため削除不可とする「false」が保持される。
(ii)図3は、データメモリ105に含まれる削除済みファイル情報115と、削除候補フォルダツリー116と、削除確認フォルダツリー117と、削除対象外ファイル118のデータ構造を示す図である。
削除済みファイル情報115は、ファイルID300と、ファイル名301と、親フォルダID302と、拡張子303と、サイズ304と、更新日305と、作成日306と、アクセス日307と、削除日308と、テキスト309と、所有者310と、を構成項目として含み、例えば、過去にファイルサーバにおいて削除されたファイルについての情報を配列形式で保有している。ファイルID300は、ファイルに対して一意に振られた値が格納されている。ファイル名301は、ファイル名などの識別名などを示す。親フォルダID302は、対象のファイルが格納されたフォルダの絶対パスを示す情報である。拡張子303は、対象のファイルの保存形式を示す情報である。サイズ304は、対象のファイルの容量を示す情報であり、バイト単位で保持される。更新日305は、対象のファイルに対する書き込み処理が最後に行われた時点の情報である。作成日306は、対象のファイルが作成された時点の情報である。アクセス日307は、対象のファイルに対するアクセス処理が最後に行われた時点の情報である。削除日308は、対象のファイルがファイルサーバから削除された時点の情報である。テキスト309は、対象のファイルがテキスト情報を格納するファイルである場合に、そのテキストの情報を示す。所有者310は、対象のファイルを所有しているユーザのIDを示す情報である。これらの情報は、後述するファイルの削除可能確率の分析における機械学習の際に用いる情報である。
削除候補フォルダツリー116は、削除候補のフォルダID311を構成情報として有する。フォルダID311は、削除候補とするフォルダツリーのルートフォルダであるフォルダ情報114のフォルダID211を配列の形式で保持される。
削除確認フォルダツリー117は、削除確認対象の フォルダID312を構成情報として有する。フォルダID312は、削除確認対象のフォルダツリーのルートフォルダであるフォルダ情報114のフォルダID211を配列の形式で保持される。
削除対象外ファイル118は、フォルダID313を構成情報として有する。フォルダID313は削除候補とするフォルダツリーの中で、必要であると判別して削除の対象のファイルとするファイル情報113のファイルID200を配列の形式で保持される。
<業務文書処理装置における処理の概要>
次に、本実施形態の業務文書処理装置1において行われる処理について説明する。図4は、業務文書処理装置1において行われる全体的な処理の流れを概略的に示すフローチャートである。このフローチャートは、ファイルサーバのファイルの削除可能確率からフォルダ、及びフォルダツリーが削除できるかを判別し、その結果を表示する処理を示す。また、フローチャートにおける処理の主体は中央処理装置(単に、プロセッサということもできる)103とする。
図4において、まず、中央処理装置103は、ファイルサーバのファイルとフォルダの情報を取得するために、ファイル情報DB100の情報をファイル情報113に、フォルダ情報DB101の情報をフォルダ情報114に、それぞれ読み込んで保持する(ステップ400)。読み込むタイミングは、当該削除候補表示処理を開始するタイミングでも良いし、ファイル情報やフォルダ情報が更新されたタイミングでも良い。ただし、この読み込んだ段階では、読み込んだ結果のファイル情報113における削除可能確率210とフォルダ情報114における削除可能確率216の値は何も保持されていない。削除可能確率210と削除可能確率216は対象ファイル及びフォルダの削除できる確率を保持するため、後述するファイルの削除可能確率の分析とフォルダの削除可能確率の分析において値が設定される。
次に、中央処理装置103は、削除ファイル分析処理部109を用いてファイルサーバの各ファイルの削除可能確率の計算を行う(ステップ401)。当該処理の詳細については、図5を参照して後述する。
そして、ファイルの削除可能確率が求まると、中央処理装置103は、削除フォルダ分析処理部110を用いて、ファイルの削除可能確率を基にフォルダの削除可否の判別を行う(ステップ402)。当該処理の詳細については、図6を参照して詳しく説明する。
さらに、中央処理装置103は、フォルダの削除可否の分析結果から、削除候補のフォルダツリーを取得する(ステップ403)。当該処理の詳細については、図7を参照して詳しく説明する。
最後に、中央処理装置103は、削除候補表示処理部112を用いて、削除候補のフォルダツリーについて画面に表示する(ステップ404)。当該処理の結果得られる画面表示例については、図9乃至11 を参照して詳しく説明する。
<ファイルの削除可能確率の分析処理(ステップ401)の詳細>
図5は、図4のステップ401における削除ファイル分析処理部109による処理の詳細について説明するためのフローチャートである。当該処理は、過去に削除されたファイル情報から機械学習により分類モデルを生成し、処理対象となる各ファイルについて削除可能確率を計算するものである。また、当該処理は、中央処理装置103が削除ファイル分析処理部(削除ファイル分析処理プログラム)109を実行することにより実現される。
まず、中央処理装置103は、過去に削除されたファイル情報を削除済みファイル情報DB102から取得して、データメモリ105における削除済みファイル情報113に保持する(ステップ501)。
そして、中央処理装置103は、データメモリ105における任意のファイル情報を「削除できなかったファイル」、削除済みファイル情報を「削除できたファイル」として機械学習を行い、ファイルが削除可能であるかどうかの分類モデルを生成する(ステップ501)。当該機械学習の処理では、例えば、「ファイル名」、「親フォルダ名」、「拡張子」、「サイズ」、「テキスト」、「所有者」、及び「作成日、更新日、アクセス日から削除日までのそれぞれの経過時間」などを属性とし、「削除できたファイル」と「削除できなかったファイル」を属性値と設定した決定木による分類モデルを生成する。また、この他にもk近傍法、ロジスティック回帰、ナイーブベイズなどの機械学習アルゴリズムを用いても良い。
次に、中央処理装置103は、処理対象となる各ファイルについて削除可能確率を計算するためのインデックス変数file_idx を初期化する(ステップ502)。
そして、中央処理装置103は、ファイル情報113にfile_idx以上のデータがあるかどうかを調べる(ステップ503)。対象データがない場合、処理は終了する。
ステップ503においてfile_idx以上のファイルがある場合、中央処理装置103は、機械学習で生成した分類モデルを用いてfile_idx 番目のファイルについて削除可能確率を計算し、結果を当該ファイルのファイル情報における削除可能確率210に保持する(ステップ504)。例えば、削除されたファイルのメタデータ(例えば、作成日)の平均値を求め、その平均値との距離が近ければ確率が高くなるように、削除可能確率が求められる。
最後に、中央処理装置103は、file_idxをインクリメントし(ステップステップ505)、ステップ503から処理を繰り返す。
以上の処理により、ファイルサーバの各ファイルについての削除可能確率の算出を行う。なお、削除候補がユーザに提示され(画面に表示され)、実際にユーザによって削除されたファイル数が積み重なっていくにつれて削除可能確率の精度が高くなっていく。
<フォルダの削除可否の分析処理(ステップ402)の詳細>
次に、図4のステップ402における削除フォルダ分析処理部110による処理の詳細について説明する。当該処理は、ファイルの削除可能確率を基にフォルダが削除できるかどうかを判別する。フォルダの削除可能確率は0〜100の間の数値であり、通常、これらの集合を基にフォルダの削除可否の判定は削除可能確率の平均値や最小値などを求め、閾値を基準に削除可否の判別を行うことが考えられる。しかし、削除可能確率に偏りがある場合、平均値ではフォルダの削除可否の決定ができない場合がある。例えば、あるフォルダに削除可能確率が10%のファイルが1ファイルと90%のファイルが10ファイルあるとする。すると、これらの削除可能確率の平均値は82%となり、当該ファイルは削除できると判別する。しかし、このフォルダに削除可能確率が10%のファイルがあることから本来ならば削除できないフォルダであるといえる。また、フォルダの中で削除可能確率を対象フォルダの最小値とする場合、大多数の削除できるファイル群を持つフォルダツリーであるにも関わらず、削除可能確率が低いファイルの影響を受けて検知できなくなる可能性がある。あるいは、削除できない削除可能確率の閾値を設定して閾値以下のファイル及びフォルダを除外した場合、本来ならば削除できないフォルダ、例えば、削除可能確率の分布が均等なフォルダが削除できるフォルダとして判別され、また、多くのファイルが削除できないファイルとして残ってしまう。すると、本来の目的である、不要となったカテゴリ、すなわちフォルダツリーで削除する目的であるのに対して、削除後には残留した用途不明のファイルが散在してしまうことになる。
そこで、削除フォルダ分析処理部110では、上記のような偏りのある削除可能確率のフォルダに対応するため、フォルダが削除できるかどうかをジニ係数と中央値を用いてフォルダが削除可能であるかを判別する。まず、フォルダ直下に格納されたファイル及びフォルダの削除可否についての偏り度合を示すジニ係数を算出し、ファイル及びフォルダの削除可能確率が閾値以上に偏っているかを調べる。閾値はファイルを削除できる最低確率をあらかじめ設定し、閾値以上を「削除できる」、閾値以下を「削除できない」と定義する。そして、ジニ係数によって当該フォルダ直下のファイル及びフォルダの削除可能確率に偏りがあることがわかった場合、削除可能確率の中央値を求めて閾値以上であることを確認する。中央値が閾値以上であることがわかれば、ファイル及びフォルダの削除可能確率は「削除できる」に偏っていることがわかる。また、削除できると判別したフォルダにおいて、当該フォルダ内で相対的に極端に低い削除可能確率のファイルがある場合、削除対象外として後述する削除候補表示処理の際にユーザに表示をして実際に削除できるかどうかを確認できるようにする。このように、フォルダの削除可否に判断にジニ係数と中央値を用いることで、上記で述べた削除可能確率の値が両極端に分散したフォルダやフォルダ内で相対的に極端に低い削除可能確率の影響を受けずにフォルダの削除可否の判別が可能となる。
図6は、図4のステップ402における削除フォルダ分析処理部110による処理の詳細について説明するためのフローチャートである。なお、当該処理は、中央処理装置103が削除フォルダ分析処理部(削除フォルダ分析処理プログラム)110を実行することにより実現される。
まず、中央処理装置103は、最下層のフォルダからルートフォルダへ順に削除可否を判別していくためのインデックス変数 layer_idx を初期化する(ステップ600)。
そして、中央処理装置103は、layer_idx の層より上のフォルダ階層があるかどうかを調べる(ステップ601)。一番下の階層のフォルダから削除可能確率を求めないと上位階層のフォルダの削除可能確率を算出することができないからである。対象データがない場合、処理は終了する。
ステップ601において、layer_idxより上のフォルダ階層がある場合、中央処理装置103は、当該フォルダ階層における各フォルダについて削除可否の判別を行うためのインデックス変数 folder_idx を初期化する(ステップ602)。
そして、中央処理装置103は、folder_idx 以上のデータがあるかどうかを調べる(ステップ603)。
対象データがない場合、中央処理装置103は、当該フォルダ階層には削除可否を判別するフォルダはないことから一つ上の階層のフォルダについて処理をするために、layer_idx をデクリメントし(ステップ611)、ステップ601から処理を繰り返す。
一方、ステップ603においてfolder_idx 以上のファイルがある場合、中央処理装置103は、folder_idx番目のフォルダ直下のファイルとフォルダの削除可能確率における中央値の計算(ステップ604)とジニ係数の計算(ステップ605)を行う。ここで、folder_idx番目のフォルダ直下にファイルが1つしかない場合はジニ係数を1とする。なお、フォルダの削除可能確率は、フォルダ直下のファイル及びフォルダの削除可能確率についての中央値を格納するものとする。
そして、中央処理装置103は、ジニ係数が閾値(第1の閾値)以上であるか(ステップ606)、中央値が閾値(第2の閾値)以上であるか(ステップ607)を調べる。ジニ係数と中央値が共に閾値以上でない場合、処理は終了する。
ステップ606及びステップ607において、ジニ係数と中央値が共に対応する閾値以上である場合には、中央処理装置103は、folder_idx番目のフォルダ直下において、中央値との削除可能確率の差が閾値(第3の閾値)以上のファイルのファイルIDをデータメモリ105における削除対象外ファイル118に登録する(ステップ608)。このようにして、全体としてほとんど削除できるファイルを含むフォルダから、削除できないファイルを取り除き、当該フォルダを削除可能とすることができる。また、削除できるファイル及びフォルダとできないファイル及びフォルダが散在しているような削除の可否ができないファイルについては、ジニ係数と中央値によって削除不可と判別する。
そして、中央処理装置103は、folder_idx番目のフォルダの削除フラグ217をtrueにし、中央値の再計算を行って当該フォルダの削除可能確率とする(ステップ609)。
さらに、中央処理装置103は、folder_idx をインクリメントし(ステップ610)、ステップ603から処理を繰り返す。
<削除候補フォルダツリー登録処理(ステップ403)の詳細>
図7は、図4のステップにおける削除候補フォルダツリー登録処理部111による処理(ステップ403)の詳細を説明するためのフローチャートである。なお、当該処理は、中央処理装置103が削除候補フォルダツリー登録処理部(削除候補フォルダツリー登録処理プログラム)111を実行することにより実現される。
当該処理では、フォルダの削除可否の判別結果から削除対象のフォルダツリー(削除候補フォルダツリー)のルートフォルダを取得するものである。また、フォルダツリーとして取得する範囲に、フォルダツリーが含む全てのファイルの所有者は単一であるという条件を含む。これは、ユーザがフォルダツリーについて削除可否の判別を行う際には、そのフォルダツリーが単一ユーザのみが管理しているフォルダでならなくてはならいためである。様々なユーザが所有者であるファイル群を格納するフォルダツリーに対して削除を行う際は、一人のユーザが削除可否の判別をすることは困難な場合が多く、各所有者一人一人に削除可否の確認を取らなくてはならない。そこで、全てのファイルの所有者が単一であり、かつ、フォルダの削除可否の判別結果が削除可能とするフォルダツリーの提示を行う。ファイルサーバ上の一部のフォルダについては複数のユーザがファイルを格納して情報共有されているものの、見積書や検収通知書や内部統制のためのチェックリストなど統制された業務フローの中で作成されるドキュメントファイルであるため大量件数には及ばない。そして、それ以外のほとんどのフォルダでは単一のユーザが管理する傾向にあり、例えば、メールファイル、ソフトウェア開発の際に自動生成されたソースコードやテスト用データのバックアップ、担当業務において付随して収集・作成された情報を記載したドキュメントファイルなどが該当する。これらのファイルは、それぞれのユーザごとに管理・利用されるファイルであり、当該ユーザの管理ポリシーに従って格納される。このことから、ファイルサーバにおけるフォルダのほとんどは、単一ユーザを所有者とするファイル群をフォルダツリーとして格納している。この傾向を受けて、当該処理では、一人のユーザのみでフォルダについての削除可否の判断を行えるフォルダツリーを提示するため、全てのファイルの所有者が単一であり、かつ、フォルダの削除可否の判別結果が削除可能とするフォルダツリーの取得を行う。
まず、中央処理装置103は、ファイルサーバにおけるルートフォルダから順に削除候補フォルダツリーのルートフォルダを調べて取得するためのインデックス変数 layer_idx を初期化する(ステップ700)。
そして、中央処理装置103は、layer_idx の層より下のフォルダ階層があるどうか調べる(ステップ701)。対象データがない場合、すなわちファイルサーバにおける最下層より一つ下の層のインデックスであることから、処理は終了する。
ステップ701において、layer_idx より下のフォルダ階層がある場合、中央処理装置103は、当該フォルダ階層における各フォルダについて削除候補フォルダツリーのルートフォルダがあるか調べるためのインデックス変数 folder_idx を初期化する(ステップ702)。
次に、中央処理装置103は、folder_idx 以上のフォルダがあるかどうか調べる(ステップ703)。対象データがない場合は、次の下のフォルダ階層について処理するため、layer_idx をインクリメントし(ステップ709)、ステップ701から処理を繰り返す。
ステップ703において、folder_idx 以上のフォルダがある場合、中央処理装置103は、当該フォルダ以下(当該フォルダから末端のフォルダまで)における全てのファイルの所有者が同一であるかどうか調べる(ステップ704)。
所有者が複数であった場合、中央処理装置103は、当該フォルダをルートフォルダとするフォルダツリーは一人のユーザが単独で削除可否の判断ができないフォルダであることから削除候補とせず、次のフォルダについて調べるため folder_idxをインクリメントし(ステップ708)、ステップ703から処理を繰り返す。
ステップ704において、所有者が同一であった場合、中央処理装置103は、当該フォルダの削除フラグ217がtureかどうか調べる(ステップ705)。
削除フラグ217がfalseであった場合、中央処理装置103は、削除できないと判定されたフォルダであることから削除候補とはせず、次のフォルダについて調べるため folder_idx をインクリメントし(ステップ708)、ステップ703から処理を繰り返す。
ステップ705において、削除フラグ217がtrueであった場合、中央処理装置103は、当該フォルダの親フォルダの削除フラグ217がfalseであるかどうか調べる(ステップ706)。
親フォルダの削除フラグ217がtrueであった場合、当該フォルダは削除候補フォルダツリーにおけるルートフォルダより下のフォルダ階層のフォルダであり、当該処理は最も上のフォルダ階層から順に処理するため当該フォルダを含む削除候補フォルダツリーのルートフォルダは既に取得されていることになる。よって、中央処理装置103は、当該フォルダをとばして次のフォルダについて調べるため folder_idx をインクリメントし(ステップ708)、ステップ703から処理を繰り返す。
ステップ706において、親フォルダの削除フラグ217がfalseであった場合、当該フォルダは削除候補フォルダツリーにおけるルートフォルダであることから、中央処理装置103は、当該フォルダのフォルダIDをデータメモリ105における削除候補フォルダツリー116に登録する(ステップ707)。
そして、中央処理装置103は、folder_idx をインクリメントし(ステップ708)、ステップ703から処理を繰り返す。
<削除候補表示処理(ステップ404)の詳細>
図8は、図4のステップ404における削除候補表示処理部112による処理の詳細を説明するためのフローチャートであり、図9、図10、及び図11は当該処理の過程でユーザに表示する画面例である。当該処理は、中央処理装置103が削除候補表示処理部(削除候補表示処理プログラム)112を実行することにより実現される。
当該処理では、図4のステップ403の処理から得られた削除候補フォルダツリー116において、一部削除できないと推論したファイルを持つフォルダツリーとそうでないフォルダツリーの二つに分けて表示する処理を行う。削除できないと推論したファイルを持つフォルダツリーを分けることで、ユーザは、これらのツリーについて特に注意してフォルダツリー削除可否の判定を行うことができる。
まず、中央処理装置103は、削除候補として取得したフォルダツリーについて一つずつ取得するためのインデックス delete_idxを0で初期化する(ステップ800)。
次に、中央処理装置103は、delete_idx番目のフォルダツリーがあるか確認する(ステップ801)。
ステップ801において、delete_idx番目のフォルダツリーがあると判断された場合、中央処理装置103は、delete_idx番目のフォルダツリーが削除対象外ファイル118に含まれるファイルを格納しているか調べる(ステップ802)。
ステップ802において、delete_idx番目のフォルダツリーが削除対象外ファイル118に含まれるファイルを格納していると判断された場合、中央処理装置103は、delete_idx番目のフォルダツリーを削除確認フォルダツリー117に登録し、削除候補フォルダツリー116から削除する。ステップ802において、delete_idx番目のフォルダツリーが削除対象外ファイル118に含まれるファイルを一つも格納していないと判断された場合、中央処理装置103は、delete_idxをインクリメントし(ステップ804)、ステップ801からの処理を繰り返す。
一方、ステップ801においてdelete_idx番目のフォルダツリーが無いと判断された場合、中央処理装置103は、全てのファイルが削除できると推論したフォルダツリーである削除候補フォルダツリー116を表示する(ステップ805)。なお、当該表示処理については図9を用いて詳しく後述する。
そして、中央処理装置103は、ユーザによる画面操作終了の命令を待機する(ステップ806)。
そして、中央処理装置103は、ユーザの操作から画面操作終了の命令を受け取ったら、一部削除できないと推論したファイルを含む削除候補フォルダツリーとする削除確認フォルダツリー117を表示する(ステップ807)。なお、当該表示処理については図10を用いて詳しく後述する。
さらに、中央処理装置103は、ユーザによる画面操作終了の命令を待機する(ステップ808)。ユーザの操作から、画面操作終了の命令を受け取ったら、削除候補表示処理部112の処理を終了する。
<削除候補フォルダツリーリスト表示>
図9は、図8のステップ805において行われる、削除候補フォルダツリーのリスト表示の画面例を示す図である。
図9の「削除候補フォルダツリーリスト」において、まず、中央処理装置103は、削除候補表示処理部112を実行して、図9におけるフォルダツリーリスト900に、削除候補フォルダツリー116に登録されたフォルダのフォルダ名を表示する。
また、中央処理装置103は、フォルダツリーリスト900の表示されたフォルダツリーと同じ行に、当該フォルダツリーの所有者209を所有者リスト901、ファイルの合計ファイルサイズをファイルサイズ合計リスト902に、合計ファイルサイズがファイルサーバにおける全ファイルの合計ファイルサイズに対して占める割合をファイルサイズ割合リスト903に、合計ファイル数をファイル数合計リスト904に、合計ファイル数がファイルサーバにおける全ファイルの合計ファイル数に対して占める割合をファイル数割合リスト905に、それぞれ計算して表示する。これにより、ユーザは所有者リスト901の中から自身が管理するフォルダツリーについてのみ確認することができ、大量にあるフォルダ群の中から、まとめて削除できる可能性が高いフォルダツリーに効率的に到達することができる。また、企業内などにおいては、退職者や他部署へ移動したユーザが所有者となっているフォルダツリーについても表示することができることから、ファイルサーバの管理者などがそのようなフォルダツリーについてまとめて探し出して削除することが可能となる。さらに、各フォルダツリーを削除した場合のファイルサーバ全体への削除効果がわかるため、削除効率を見積もりが可能となる。
そして、ユーザによって、ラジオボタン906が選択されると、中央処理装置103は、削除候補表示処理部112により、選択されたラジオボタンと同じ行にあるフォルダツリーを選択状態として保持する。そして、ユーザによって、選択ボタン908の「選択ツリーの確認」を押下すると、中央処理装置103は、削除候補表示処理112により、選択状態であるフォルダツリーについて後述する図11における「フォルダツリーの確認」で表示処理を行う。
また、ユーザは終了ボタン907を押下すると、中央処理装置103は、画面操作終了の命令を受け取り、本画面を閉じる。そして、ユーザによって削除ボタン909の「選択ツリーを削除」が押下されると、中央処理装置103は、削除候補表示処理部112により、選択状態にあるフォルダツリーにおける削除対象外ファイルを除いたファイル群についてファイルサーバ上から削除する。また、このとき、削除したファイルのファイル情報113を削除済みファイル情報DBへ追加登録する。当該削除処理は既存技術(非特許文献5)で実現できるため説明は省略する。
<削除確認フォルダツリーリスト表示>
図10は、図8のステップ807において行われる、削除確認フォルダツリーリスト表示の画面例を示す図である。
図10の「削除確認フォルダツリーリスト」は、図9における「削除候フォルダツリーリスト」と同様の表示形態を備える。そして、当該画面では削除候補確認フォルダツリー117について表示を行う。また、この表示形態に加えて、中央処理装置103は、削除候補表示処理部112により、表示したフォルダツリーが含むファイル及びフォルダにおいて、削除対象外ファイル118に該当するファイルの合計ファイル数を削除対象外ファイル数1000に表示する。当該表示では、一部削除できないと推論したファイルを含むフォルダツリーについて表示をしているため、各フォルダツリーの削除できないファイルの件数を同時に表示することで、ユーザは各フォルダツリーにおいて何件の削除できないファイルが含まれているかを確認できる。特に、削除できないファイル数が多いフォルダツリーは、関連するファイルは近くに保存される傾向があることから、他にも削除できないファイルが当該フォルダツリーに含まれている可能性があり、これについて当該表示を行うことで削除対象外ファイル数からユーザは優先的、かつ、詳しく確認しなくてはならないフォルダツリーかどうかを判断することができる。
<フォルダツリーの確認表示>
図11は、図10において「選択ツリーの確認」ボタンが押下されたときに表示されるフォルダツリーの確認表示の画面例を示す図である。
図11の「フォルダツリーの確認」において、中央処理装置103は、削除候補表示処理部112を用いて、上記の選択状態にあるフォルダツリーについてツリー構造でフォルダツリー表示領域1100に表示する。最上位階層は、当該フォルダ以下のフォルダの階層構造が踏襲される。また、表示される各フォルダの表示形態は、フォルダ直下のファイルが削除対象外ファイル118に含まれているかよって異なる。例えば、削除対象外ファイル118に含まれているファイルを格納するフォルダは、ツリー上では赤で表示される。これによって、機械学習によって削除できないと推論したフォルダがフォルダツリー上のどのフォルダに存在するかをユーザは容易に特定できることから、削除対象となりうるファイルについて効率的に削除可否の確認が行える。
また、フォルダツリー表示領域1100に表示されたフォルダツリーにおける各フォルダは選択可能になっており、図11では顧客資料フォルダ1105が選択された状態が示されている。
ユーザによってフォルダが選択されると、中央処理装置103は、そのフォルダに格納されたファイルをファイルリスト1102にリスト表示する。ただし、データメモリ105における削除対象外ファイル118が含むファイルに関しては、ファイルリスト1102には表示せず、削除対象外ファイルリスト1104にリスト表示する。また、ファイル削除チェックボックス1101及び1103は同じ行にあるファイルリスト1102及び削除対象外ファイルリスト1104のファイルが、削除対象外ファイル118に格納されたファイルに該当するかどうかによって表示形態が異なる。削除対象外ファイル118に格納されたファイルの場合、当該ファイルに対応するチェックボックスはチェック済みとする黒で表示され、含まれていない場合にはチェックしていないとする白で表示される。
ユーザは、チェックボックスにチェックを入れることで、中央処理装置103は、当該チェックボックスに対応するファイルのファイルIDを削除対象外ファイル118に登録する。一方、ユーザは、当該チェックボックスのチェックを外すと、中央処理装置103は、当該チェックボックスに対応するファイルのファイルIDを削除対象外ファイル118から除外することができる。
ユーザは、表示されたフォルダツリー、ファイルリスト、及び削除対象外ファイルリストから、当該フォルダツリーがまとめて削除可能かを判断し、必要なファイルについて確認をすることができる。その際、ユーザはファイルリストのすべてを見ずとも、フォルダツリーで表示したフォルダ名やファイルリストの一部のファイル名から、当該フォルダツリーが削除可能であるかを把握することが可能である。
また、ユーザによって、戻るボタン1106が押下されると、中央処理装置103は、当該画面を閉じて、図9または図10における画面を再表示する。
<変形例>
(i)本発明の実施形態では、ファイルをフォルダツリー単位で削除するための不要とする削除候補フォルダツリーを検知する業務文書処理装置について述べた。当該業務文書処理装置は、過去の削除ファイルデータを基に削除可能確率を計算し、フォルダ直下のファイルについて削除可能確率の偏りからフォルダが削除できるかどうかを判別する。また、ほとんどのファイルが不要と判断したフォルダツリーの中から必要なファイルのみを削除可能確率の偏りを用いることで自動的に削除対象から除外する。これは、フォルダツリーの最下層からルートフォルダまでのファイルの削除可能確率を計算し、フォルダの階層構造について削除可能確率の偏りを用いて解析することで削除できるフォルダツリーを検知している。また、フォルダツリーの検知の際には、格納されているファイルの所有者が単一である条件を加えていることから、検知されたフォルダツリーの所有者は単一ユーザが管理するものであることから、ファイルサーバの利用者が本装置の画面を用いて削除作業をする際に、自身が管理するフォルダツリーについてフォルダの階層を追わずに到達することができ、効率的にフォルダツリーの削除可否の確認作業が行えるようになる。また、複数のユーザを跨ってフォルダツリーの削除可否の確認が不要となる。そして、本装置の画面表示において、ユーザは、削除可能と検知したフォルダツリーについて、リスト表示による各フォルダツリーの削除に関するファイルサイズ及びファイル数の効果と見積もりを確認できる。また、削除候補のフォルダツリーのツリー構造の表示をして、ユーザはツリー構造で表示されたフォルダ名と、削除対象のファイルリストと、削除できないファイルリストを一つの画面でまとめて確認できることから、当該フォルダツリーの削除可否の確認が容易に行える。さらに、ツリー構造の表示において、削除できないファイルを含むフォルダについては色を変えて表示することで、機械学習で削除できると推論したファイルの確認と共に、推論しきれなかった削除できないファイルの発見を促す効果がある。これは、関連性の高いファイルが同一フォルダにまとめられて管理される傾向から、例えば、推論結果が正しい削除できないファイルと同一フォルダにあるファイル群は、関連性が高いため同様に削除できないファイルである可能性がある。これについて、推論結果を反映したフォルダの表示形態について色を変えるなどして強調することで、ファイルサーバに散在する当該フォルダの発見を容易にすることができる。また、確認した結果、削除できるとなった削除候補フォルダツリーに関しては、削除対象外のフォルダを残してまとめて削除することができ、従来での削除対象外のファイルを予め別の格納場所に移動させる作業を省略することができる。このように、当該業務文書処理装置によりユーザは効率的にフォルダツリー単位でのファイルの削除ができるようになる。
(ii)本実施形態では、不要なフォルダツリーの検知をするための装置として説明したが、ファイルをフォルダツリー単位でアーカイブすることや、ファイルをフォルダツリー単位でバックアップ頻度の低いファイルサーバへコピーや移動するなどの用途にも適用できる。例えば、使用頻度が低いファイル情報について機械学習をすることで、使用頻度が低いフォルダツリーを検知し、当該フォルダツリーにおけるファイル群を一つのファイルにアーカイブすることや、バックアップ頻度の低いファイルサーバへコピーや移動させても良い。
また、本明細書では、図4のステップ401の処理において、ファイルサーバ上のファイルにおける削除可能確率を求める処理について述べた。追加機能としてステップ401終了時に、全ファイル及びフォルダの削除可能確率を正規化しても良い。この場合、機械学習によって得られたファイル及びフォルダの削除可能確率が全体的に低い値が求まった場合に有効である。例えば求まった削除可能確率の最大値が50%であった場合には、50%を100%とする係数をすべての削除候補確率に乗算する。すると、たとえ削除可能確率が低い場合でも、全ファイル及びフォルダに対して、相対的に見た際に高い確率であった場合には削除可能と判別することができる。
(iii)本実施形態では、図4のステップ402の処理において、削除できない可能性があるファイル及びフォルダについて削除対象外とする処理について述べた。当該処理の中央値からの削除可能確率の差分が閾値以上であるファイルを削除対象外とする処理の代わりに、近い削除可能確率のファイル及びフォルダのクラスタリングをし、低い削除可能確率のグループを対象外ファイル及び対象外フォルダとする方法も考えられる。この場合、グループに分割する手法として最短距離法、最長距離法、群平均法、k−means法、及びウォード法などのクラスタリング手法を用いることで実現できる。
(iv)本実施形態では、図4のステップ402の処理において、各フォルダが削除できるかどうかを判別する処理について述べた。当該処理のジニ係数を用いてフォルダが削除可能かを判別する処理の代わりに、削除可能確率の平均値と分散値を用いてもよい。例えば、平均値が高くかつ分散値が低い場合においては、当該フォルダは削除できる可能性が高いといえる。また、平均値が高くかつ分散値が高い場合においては、削除可能確率が低いファイル又はフォルダが含まれている可能性が高いため、閾値を設けることで削除可能確率が低いファイル及びフォルダを取り除くことが可能であると考えられる。
(v)本実施形態では、図4のステップ402の処理において、各フォルダが削除できるかどうかを判別する処理について述べた。当該処理のジニ係数を用いてフォルダが削除可能かを判別する処理の代わりに、フォルダ直下のファイルの削除可能確率について50%の差分の絶対値の平均を取ることでフォルダが削除可能かを判断することも考えられる。例えば、削除可能確率が10%のファイルが1ファイル、削除可能確率が90%のファイル10ファイルあるとすると、当該処理結果の値は40となる。当該処理の値の範囲は、0〜50であり、値が高いほど、フォルダ内の削除可能確率が0%側や100%側、あるいは両側に偏っていることを示し、低いほど削除可能確率は50%の付近に集中していることがわかる。すなわち、当該処理結果が50に近く、削除可能確率の基準値が閾値以上であれば、フォルダは削除可能と判別し、少数の削除できないファイルは削除対象外とすることができる。
(vi)本実施形態では、図9において、削除候補フォルダツリーのリスト表示する処理について述べた。追加機能として、ファイル数が多い順にソートしてから表示しても良い。これは、フォルダ直下におけるファイル数には偏りがあり、大多数のファイルを一部の少数のフォルダが含んでいる。すなわち、フォルダツリーにおいても、このような大多数のファイルを持つフォルダを含むフォルダツリーは、全ファイルに対して大多数のファイルを含むことを意味する。よって、リスト表示において当該フォルダツリーを上位に表示することにより、ユーザは削除効率が良いフォルダツリーか順に削除確認が可能となり、例えば、目標とする削除ファイル数に到達できる作業コストを見積もることができる。
(vii)本実施形態では、図9において、削除ボタン909を押下すると、削除候補フォルダツリーにおける削除対象外ファイル以外のファイルをファイルサーバから削除する処理について述べた。追加機能として、ファイルサーバからファイルを削除する際に、指定したフォルダに削除対象外ファイルを移動させて、削除対象となるファイルと共にフォルダを削除しても良い。
<まとめ>
(i)本発明では、削除済ファイルの情報に対して機械学習処理を実行して、処理対象ファイルのそれぞれの削除可能確率を算出する(ファイル削除可能確率算出処理)。また、処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの算出された削除可能確率の偏りを算出して、削除可能確率の偏りに基づいて、処理対象フォルダについて削除可否を判断する(フォルダ削除可否分析処理)。さらに、フォルダ削除可否の情報と各フォルダにおける親子関係の情報に基づいて、削除可能なフォルダツリーを示す削除候補フォルダツリー情報を取得する(削除候補フォルダツリー取得処理)。そして、当該削除候補フォルダツリー情報が支援情報として出力(表示、印刷等)される(支援情報出力処理)。このようにすることにより、削除可能なファイル及びフォルダの情報のみを表示するので、ユーザの削除可否確認作業の工数を劇的に削減することができるようになる。なお、この一連の流れの処理を繰返し実行することにより、ファイル削除可能確率の精度が良くなり、最終的に出力される削除可能フォルダやファイルの情報もより正確になる。また、フォルダ削除可否分析処理において、削除可能確率の偏りを求める際には、例えば、削除可能確率の中央値とジニ係数を用いたり、削除可能確率のそれぞれと確率50%との差分の絶対値の平均を用いたりすることが可能である。上記ファイル情報としては、ファイルサーバにおけるファイルのファイル名、親フォルダのフォルダ名、ファイルサイズ、拡張子、テキスト内容、作成日、更新日、アクセス日、及び所有者の情報のうち少なくとも複数種類のメタ情報を用いることができる。また、上記フォルダ情報としては、ファイルサーバにおけるフォルダのフォルダ名、当該フォルダが含むファイルの情報、当該フォルダが含むフォルダの情報、当該フォルダが前記ファイルサーバのフォルダツリーにおける階層の位置の情報を用いることができる。さらに、削除済ファイル情報としては、過去に削除された複数のファイルのファイル名、親フォルダのフォルダ名、ファイルサイズ、拡張子、テキスト内容、作成日、更新日、アクセス日、所有者、及び削除日の情報のうち少なくとも複数種類のメタ情報を用いることができる。
また、各フォルダについて、所有者が全て同一であるファイルのみを格納したフォルダか否か判定するようにしても良い。この場合、フォルダ所有者判定によって同一の所有者であると判定されたファイルのみを含むフォルダを、削除候補フォルダツリー取得処理の対象とする。このようにすることにより、一人のユーザが削除可否の判別を容易に行うことができるような情報を提供することができる。
また、本発明では、ファイルサーバにおける最下層のフォルダからルートフォルダの順で行うことによって削除可能なフォルダツリーを検知するようにしている。このようにすることにより、単一のフォルダだけでなく、フォルダツリー単位で削除可能かどうか判定し、削除可能なツリーを提示することができるので、ユーザの作業の負担を軽減することができる。なお、削除可能なフォルダツリーを検知に関しては、処理対象フォルダの直下にあるファイル及びフォルダの削除可能確率を基にクラスタリングを行い、削除可能なフォルダツリーを検知するようにしてもよい。
支援情報出力処理においては、削除可能なフォルダツリーにおけるルートフォルダについてリスト表示するようにしても良い。この際、リスト表示の中で前記削除可能なフォルダツリーにおけるファイル群の合計ファイルサイズ及びファイルサーバ全体に対する合計ファイルサイズの割合、合計ファイル数及びファイルサーバ全体に対するファイル数の合計の割合を表示するようにしても良い。或いは、リスト表示を合計ファイルサイズ又は合計ファイルについて降順にソートするようにしても良い。このような表示を提供することにより、ユーザはファイル、或いはフォルダについての削除可否確認作業をさらに容易に実行することができるようになる。また、削除可能なフォルダツリーについてまとめて探し出して削除することが可能となり、さらには、各フォルダツリーを削除した場合のファイルサーバ全体への削除効果がわかるため、削除効率を見積もりが可能となる。
また、支援情報出力処理において、削除可能なフォルダツリーを表示し、当該表示されたフォルダツリーからのフォルダの選択アクションに応答して、当該選択されたフォルダが含むファイルと削除対象外となったファイルを区別して表示するようにしても良い。また、表示されたフォルダツリーにおいて削除対象外となったファイルを含むフォルダを他のフォルダと区別して表示(例えば、色分け表示)するようにしても良い。このようにすることにより、ユーザの削除可否の判断をより容易にすることができるようになる。
(ii)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。
また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。
さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。
最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益である場合もある。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。
さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。
加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び/又はコンポーネントは、データを管理する機能を有するコンピュータシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。
100・・・ファイル情報DB
101・・・フォルダ情報DB
102・・・削除済みファイル情報DB
103・・・中央処理装置
104・・・プログラムメモリ
105・・・データメモリ
106・・・表示装置
107・・・入力装置
108・・・機械学習処理部
109・・・削除ファイル分析処理部
110・・・削除フォルダ分析処理部
111・・・削除候補フォルダツリー登録処理部
112・・・削除候補表示処理部
113・・・ファイル情報
114・・・フォルダ情報
115・・・削除済みファイル情報
116・・・削除候補フォルダツリー
117・・・削除確認フォルダツリー
118・・・削除対象外ファイル

Claims (15)

  1. ファイルサーバに保存されている複数のファイルを整理するための支援情報を提供する業務文書処理システムであって、
    処理対象ファイルの情報及び処理対象フォルダの情報と、削除済ファイルの情報と、を格納する記憶デバイスと、
    前記支援情報を生成し、生成した当該支援情報を提供するプロセッサと、を有し、
    前記プロセッサは、
    前記削除済ファイルの情報に対して機械学習処理を実行して、前記処理対象ファイルのそれぞれの削除可能性に関する指標を算出するファイル削除可能性指標算出処理と、
    前記処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの前記算出された削除可能性に関する指標ばらつきを算出して、前記削除可能性に関する指標ばらつきに基づいて、前記処理対象フォルダについて削除可否を判断するフォルダ削除可否分析処理と、
    前記処理対象フォルダの前記削除可否の情報と各フォルダにおける親子関係の情報に基づいて、削除可能なフォルダツリーを示す削除候補フォルダツリー情報を取得する削除候補フォルダツリー取得処理と、
    前記削除候補フォルダツリー情報を前記支援情報として出力する支援情報出力処理と、
    を実行することを特徴とする業務文書処理システム。
  2. 請求項1において、
    前記プロセッサは、ユーザが前記支援情報に基づいて実際に削除したファイルの情報を前記削除済ファイルの情報に反映させ、前記ファイル削除可能性指標算出処理、前記フォルダ削除可否分析処理、及び前記削除候補フォルダツリー取得処理を再度実行することを特徴とする業務文書処理システム。
  3. 請求項1において、
    前記プロセッサは、さらに、前記各フォルダについて、所有者が全て同一であるファイルのみを格納したフォルダか否か判定するフォルダ所有者判定処理を実行し、
    前記プロセッサは、前記フォルダ所有者判定処理によって同一の所有者であると判定されたファイルのみを含むフォルダを、前記削除候補フォルダツリー取得処理の対象とすることを特徴とする業務文書処理システム。
  4. 請求項2において、
    前記処理対象ファイルの情報は、ファイルサーバにおけるファイルのファイル名、親フォルダのフォルダ名、ファイルサイズ、拡張子、テキスト内容、作成日、更新日、アクセス日、及び所有者の情報のうち少なくとも複数種類のメタ情報を含み、
    前記処理対象フォルダの情報は、前記ファイルサーバにおけるフォルダのフォルダ名、当該フォルダが含むファイルの情報、当該フォルダが含むフォルダの情報、当該フォルダが前記ファイルサーバのフォルダツリーにおける階層の位置の情報を含み、
    前記削除済ファイルの情報は、過去に削除された複数のファイルのファイル名、親フォルダのフォルダ名、ファイルサイズ、拡張子、テキスト内容、作成日、更新日、アクセス日、所有者、及び削除日の情報のうち少なくとも複数種類のメタ情報を含み、
    前記プロセッサは、前記ファイル削除可能性指標算出処理において、前記削除済ファイルの前記メタ情報と、前記ユーザが削除不可であると判断したファイルの前記メタ情報と、を用いて前記機械学習処理を実行することを特徴とする業務文書処理システム。
  5. 請求項1において、
    前記プロセッサは、前記フォルダ削除可否分析処理において、前記処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの前記算出された削除可能性に関する指標の中央値とジニ係数を算出して、当該中央値及びジニ係数を用いて前記処理対象フォルダ内のファイル及びフォルダの削除可能性に関する指標ばらつきを算出し、当該ばらつきに基づいて、前記処理対象フォルダについて削除可否を判断することを特徴とする業務文書処理システム。
  6. 請求項2において、
    前記プロセッサは、前記フォルダ削除可否分析処理において、前記ファイル及びフォルダのジニ係数が第1の閾値以上、かつ前記ファイル及びフォルダの中央値が第2の閾値以上の処理対象フォルダから、前記ファイル及びフォルダの中央値と前記ファイル及びフォルダの削除可能性に関する指標の差が第3の閾値以上のファイル又はフォルダを取り除き、当該処理対象フォルダについてファイル及びフォルダの中央値を再度計算し、当該処理対象フォルダの削除可能性に関する指標とすることを特徴とする業務文書処理システム。
  7. 請求項1において、
    前記プロセッサは、前記フォルダ削除可否分析処理において、前記算出した削除可能性に関する指標のそれぞれと指標50%との差分の絶対値の平均を用いて、前記処理対象フォルダ内のファイル及びフォルダの削除可能性に関する指標ばらつきを求め、当該ばらつきに基づいて、前記処理対象フォルダの削除可否を判断することを特徴とする業務文書処理システム。
  8. 請求項1において、
    前記削除候補フォルダツリー取得処理において、前記プロセッサは、前記フォルダ削除可否分析処理を、前記ファイルサーバにおける最下層のフォルダからルートフォルダの順で行うことによって前記削除候補フォルダツリー情報を取得することを特徴とする業務文書処理システム。
  9. 請求項1において、
    前記削除候補フォルダツリー取得処理において、前記プロセッサは、前記処理対象フォルダの直下にあるファイル及びフォルダの削除可能性に関する指標の値に対してクラスタリングを行うことによって前記削除候補フォルダツリー情報を取得することを特徴とする業務文書処理システム。
  10. 請求項8において、
    前記プロセッサは、前記支援情報出力処理において、前記削除可能なフォルダツリーにおけるルートフォルダについてリスト表示することを特徴とする業務文書処理システム。
  11. 請求項10において、
    前記プロセッサは、前記リスト表示の中で前記削除可能なフォルダツリーにおけるファイル群の合計ファイルサイズ及び前記ファイルサーバ全体に対する合計ファイルサイズの割合、合計ファイル数及び前記ファイルサーバ全体に対するファイル数の合計の割合を表示することを特徴とする業務文書処理システム。
  12. 請求項10において、
    前記プロセッサは、前記リスト表示を合計ファイルサイズ又は合計ファイルについて降順にソートすることを特徴とする業務文書処理システム。
  13. 請求項8において、
    前記プロセッサは、前記支援情報出力処理において、前記削除可能なフォルダツリーを表示し、当該表示されたフォルダツリーからのフォルダの選択アクションに応答して、当該選択されたフォルダが含むファイルと削除対象外となったファイルを区別して表示することを特徴とする業務文書処理システム。
  14. 請求項13において、
    前記プロセッサは、前記表示されたフォルダツリーにおいて前記削除対象外となったファイルを含むフォルダを他のフォルダと区別して表示することを特徴とする業務文書処理システム。
  15. コンピュータシステムを、ファイルサーバに保存されている複数のファイルを整理するための支援情報を提供する業務文書処理システムとして動作させるためのプログラムであって、
    前記コンピュータシステムは、プロセッサと、処理対象ファイルの情報及び処理対象フォルダの情報と、削除済ファイルの情報と、を格納する記憶デバイスと、を有し、
    前記プログラムは、前記プロセッサに、
    前記削除済ファイルの情報に対して機械学習処理を実行して、前記処理対象ファイルのそれぞれの削除可能性に関する指標を算出するファイル削除可能性指標算出処理と、
    前記処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの前記算出された削除可能性に関する指標ばらつきを算出して、前記削除可能性に関する指標ばらつきに基づいて、前記処理対象フォルダについて削除可否を判断するフォルダ削除可否分析処理と、
    前記処理対象フォルダの前記削除可否の情報と各フォルダにおける親子関係の情報に基づいて、削除可能なフォルダツリーを示す削除候補フォルダツリー情報を取得する削除候補フォルダツリー取得処理と、
    前記削除候補フォルダツリー情報を前記支援情報として出力する支援情報出力処理と、
    を実行することを特徴とするプログラム。
JP2012156828A 2012-07-12 2012-07-12 業務文書処理システム、及びプログラム Expired - Fee Related JP5912949B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012156828A JP5912949B2 (ja) 2012-07-12 2012-07-12 業務文書処理システム、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012156828A JP5912949B2 (ja) 2012-07-12 2012-07-12 業務文書処理システム、及びプログラム

Publications (2)

Publication Number Publication Date
JP2014021552A JP2014021552A (ja) 2014-02-03
JP5912949B2 true JP5912949B2 (ja) 2016-04-27

Family

ID=50196409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012156828A Expired - Fee Related JP5912949B2 (ja) 2012-07-12 2012-07-12 業務文書処理システム、及びプログラム

Country Status (1)

Country Link
JP (1) JP5912949B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6693162B2 (ja) * 2016-02-17 2020-05-13 日本電気株式会社 整理候補推薦装置、整理候補推薦方法および整理候補推薦プログラム
JP2017219970A (ja) * 2016-06-06 2017-12-14 キヤノン株式会社 画像形成装置、その制御方法、及びプログラム
US10956453B2 (en) 2017-05-24 2021-03-23 International Business Machines Corporation Method to estimate the deletability of data objects
JP7322438B2 (ja) 2019-03-14 2023-08-08 富士フイルムビジネスイノベーション株式会社 情報処理装置および情報処理プログラム

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225704A (ja) * 1994-02-10 1995-08-22 Fuji Xerox Co Ltd ファイル管理装置
JP2006031464A (ja) * 2004-07-16 2006-02-02 Canon Inc 文書管理方法及び装置
JP2006302010A (ja) * 2005-04-21 2006-11-02 Kyocera Mita Corp 情報処理装置
JP5399114B2 (ja) * 2009-03-30 2014-01-29 株式会社日立ソリューションズ ファイルサーバ運用支援装置、方法、プログラム及び記録媒体
JP2011059919A (ja) * 2009-09-09 2011-03-24 Fujitsu Ltd 情報管理装置、情報管理方法、及び、情報管理プログラム

Also Published As

Publication number Publication date
JP2014021552A (ja) 2014-02-03

Similar Documents

Publication Publication Date Title
JP5346506B2 (ja) ファイル管理装置
JP4041080B2 (ja) データ検索装置及びデータ検索プログラム
US20160259786A1 (en) Methods, Systems, And Computer Program Products For Automatically Associating Data With A Resource As Metadata Based On A Characteristic Of The Resource
US9030502B2 (en) System and method for organizing documents
JP4911438B2 (ja) 操作監視装置
CN107291949B (zh) 信息搜索方法及装置
JP2000067065A (ja) 文書画像識別方法および記録媒体
JP5912949B2 (ja) 業務文書処理システム、及びプログラム
US20230214091A1 (en) Multimedia object arrangement method, electronic device, and storage medium
JP5512570B2 (ja) 文書処理装置、及びファイルサーバ管理支援方法、並びにファイルサーバ管理支援プログラム
JP2011076396A (ja) メタデータ設定方法及びメタデータ設定システム、並びにプログラム
JP5753056B2 (ja) 検索装置、文書管理方法、及び文書検索システム
US9164970B2 (en) Using structured data for online research
JP5891875B2 (ja) 情報処理装置及び情報処理プログラム
CN103365535A (zh) 信息处理装置及信息处理方法
WO2014061303A1 (ja) 情報処理装置及びプログラム
US20070055928A1 (en) User workflow lists to organize multimedia files
JPWO2022137356A5 (ja)
WO2019163610A1 (ja) 情報処理システム及び情報処理方法
US20130060778A1 (en) Device, method, and program for displaying document list
US9208224B2 (en) Business content hierarchy
CN117312774A (zh) 一种大数据的智能聚合可视化与管控系统
JP6636235B2 (ja) 文書管理装置、文書管理方法、及びプログラム
JP2005196254A (ja) ディレクトリ構造形成装置及びその方法、ディレクトリサービスシステム
CN111858779A (zh) 数据分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160401

R150 Certificate of patent or registration of utility model

Ref document number: 5912949

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees