JP2014021552A - Task document processing system and program - Google Patents

Task document processing system and program Download PDF

Info

Publication number
JP2014021552A
JP2014021552A JP2012156828A JP2012156828A JP2014021552A JP 2014021552 A JP2014021552 A JP 2014021552A JP 2012156828 A JP2012156828 A JP 2012156828A JP 2012156828 A JP2012156828 A JP 2012156828A JP 2014021552 A JP2014021552 A JP 2014021552A
Authority
JP
Japan
Prior art keywords
folder
file
deletion
information
deleted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012156828A
Other languages
Japanese (ja)
Other versions
JP5912949B2 (en
Inventor
Yasuaki Iwata
泰明 岩田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Solutions Ltd
Original Assignee
Hitachi Solutions Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Solutions Ltd filed Critical Hitachi Solutions Ltd
Priority to JP2012156828A priority Critical patent/JP5912949B2/en
Publication of JP2014021552A publication Critical patent/JP2014021552A/en
Application granted granted Critical
Publication of JP5912949B2 publication Critical patent/JP5912949B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To use the meta data of files for files and folders stored in a file server, and to achieve the presentation of a folder tree which is unnecessary for a user and the deletion of a folder with necessary files left.SOLUTION: Deletion possibility probability is calculated on the basis of past deleted file data, and as for files just under a file to be processed, whether or not a folder is deletable is determined from the deviation of the deletion possibility probability, and as for the folder the most of files of which can be determined to be unnecessary, only the necessary files are automatically excluded from the target of deletion, and the deletion possibility probability is calculated from the undermost layer of a folder tree to a route folder so that a deletable folder tree can be detected, and deletion candidate folder trees are displayed in the form of a list, and also the deletion candidate folder trees are displayed in a tree structure, and the presentation and confirmation of files other than the target of deletion is performed, and files other than the files excluded from the target of deletion are deleted in a batch from a file server.

Description

本発明は、業務文書処理システム、及びプログラムに関し、例えば、ファイルサーバ内に保存された大量のファイルデータを管理するための技術に関する。   The present invention relates to a business document processing system and a program, for example, a technique for managing a large amount of file data stored in a file server.

近年、会社などの組織内において電子データの保存・共有について利便性が高いファイルサーバが広く普及している。しかし、ファイルサーバ内のファイル数は爆発的に増大する傾向にあり、不要なファイルの削除やアーカイブ化を支援・促進するための技術に対する要求が高まっている。例えば、デジタルデータが爆発的に増大していること(非特許文献1)、企業内ではRDB(Relational Database)に格納されている構造データは全体の2割に過ぎないこと、大半は文書ファイルなどの非構造文書であることなどが調査・報告されている(非特許文献2)。   In recent years, file servers that are highly convenient for storing and sharing electronic data have become widespread in organizations such as companies. However, the number of files in the file server tends to increase explosively, and there is an increasing demand for technology for supporting and promoting the deletion and archiving of unnecessary files. For example, digital data is explosively increasing (Non-patent Document 1), the structure data stored in the RDB (Relational Database) is only 20% of the whole in the company, most are document files, etc. It has been investigated and reported that it is an unstructured document (Non-patent Document 2).

また、不要なファイルの削除を支援するソフトウェア(非特許文献3乃至5)が提案されている。これらの技術では、最終更新日が古い・最終アクセス日が古い・内容が重複したファイルがある・ファイル名が類似したファイルがあるなどの条件を用いて、不要と思われるファイルの提示を行う機能を持つ。これらのファイルについて、自動的なアーカイブ化・削除の機能を持つものや、ファイルを利用しているユーザの確認・了承によりアーカイブ化・削除の機能を持つものがある。   In addition, software (Non-Patent Documents 3 to 5) that supports deletion of unnecessary files has been proposed. With these technologies, a function that presents files that are considered unnecessary using conditions such as the last update date is old, the last access date is old, there are duplicate files, or there are files with similar file names have. Some of these files have an automatic archiving / deleting function, and others have an archiving / deleting function upon confirmation / approval of the user who uses the file.

J. F. Gantz, et al. The Diverse and Exploding Digital Universe, An IDC White Paper,http://japan.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdfJ. F. Gantz, et al. The Diverse and Exploding Digital Universe, An IDC White Paper, http://japan.emc.com/collateral/analyst-reports/diverse-exploding-digital-universe.pdf S. Grimes, "Unstructured Data and the 80 Percent Rule", Clarabridge Bridgepoints, http://clarabridge.com/default.aspx?tabid=137&ModuleID=635&ArticleID=551S. Grimes, "Unstructured Data and the 80 Percent Rule", Clarabridge Bridgepoints, http://clarabridge.com/default.aspx?tabid=137&ModuleID=635&ArticleID=551 NEC, 文書・コンテンツ管理支援システム, InfoFrame PROCENTER/C, http://www.nec.co.jp/pfsoft/procenter/index.htmlNEC, Document / Content Management Support System, InfoFrame PROCENTER / C, http://www.nec.co.jp/pfsoft/procenter/index.html ジャストシステム, GDMS, http://just-enterprise.com/product/gdms/Justsystem, GDMS, http://just-enterprise.com/product/gdms/ 株式会社日立ソリューションズ, MEANSファイルサーバスリム化ソリューション, http://hitachisoft.jp/products/means/slimserver/Hitachi Solutions, Ltd., MEANS file server slimming solution, http://hitachisoft.jp/products/means/slimserver/

しかしながら、上記既存技術ではファイル単位で削除候補を示すため、削除候補ファイルの数が膨大であった場合に、ユーザが確認及び削除を行う工数が膨大になってしまう。また、一般的に同じフォルダに格納されているファイルやフォルダは互いに関連を持っており、同一カテゴリのファイルやフォルダは階層構造で区切られて管理されている。このため、一部のファイルのみを削除すると、それ以外の同一カテゴリのファイルも不要であるにも拘わらず残ってしまうことがある。   However, since the existing technique indicates deletion candidates in units of files, if the number of deletion candidate files is enormous, the number of steps for the user to check and delete becomes enormous. In general, files and folders stored in the same folder are related to each other, and files and folders of the same category are managed in a hierarchical structure. For this reason, if only some files are deleted, other files of the same category may remain even though they are unnecessary.

したがって、ファイル及びフォルダを効率的に削除する際には不要となったカテゴリ、すなわちフォルダツリー単位で削除することが最も効率的である。   Therefore, when deleting files and folders efficiently, it is most efficient to delete them in categories that are no longer necessary, that is, in folder tree units.

ところが、ユーザがフォルダツリー単位でファイルの削除を行うには、フォルダツリーを辿っていき、不要となったフォルダツリーを探さなくてはならず膨大な数のフォルダの削除可否を確認しなくてはならないという課題がある。さらに、不要と判断したフォルダツリーの中に、必要なファイルやフォルダが含まれていないか調べることや、必要なファイルを別のフォルダに移動させなければならず手間が生じてしまう。   However, in order to delete a file in folder tree units, the user must trace the folder tree and search for a folder tree that is no longer needed, and confirm whether or not a large number of folders can be deleted. There is a problem of not becoming. Furthermore, it is troublesome to check whether or not the necessary file or folder is included in the folder tree determined to be unnecessary, and to move the necessary file to another folder.

本発明はこのような状況に鑑みてなされたものであり、ファイルサーバに格納されたファイル及びフォルダに関し、ユーザにとって不要なフォルダツリーの提示とフォルダの削除を効率的に実現するための技術を提供するものである。   The present invention has been made in view of such a situation, and provides a technique for efficiently realizing presentation of a folder tree and deletion of a folder unnecessary for a user regarding files and folders stored in a file server. To do.

上記課題を解決するために、本発明による業務文書処理システムは、削除済ファイルの情報に対して機械学習処理を実行して、処理対象ファイルのそれぞれの削除可能確率を算出するファイル削除可能確率算出処理と、処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの算出された削除可能確率の偏りを算出して、削除可能確率の偏りに基づいて、処理対象フォルダについて削除可否を判断するフォルダ削除可否分析処理と、フォルダ削除可否の情報と各フォルダにおける親子関係の情報に基づいて、削除可能なフォルダツリーを示す削除候補フォルダツリー情報を取得する削除候補フォルダツリー取得処理と、削除候補フォルダツリー情報を支援情報として出力する支援情報出力処理と、を実行する。   In order to solve the above-mentioned problem, the business document processing system according to the present invention executes a machine learning process on information of a deleted file, and calculates a deletion possibility probability of each processing target file. Calculate the bias of the calculated deletion probability of each file and folder directly under each processing folder and the processing target folder, and determine whether the processing target folder can be deleted based on the bias of the deletion probability Based on the analysis process, information on whether or not the folder can be deleted, and information on the parent-child relationship in each folder, a deletion candidate folder tree acquisition process for acquiring deletion candidate folder tree information indicating a folder tree that can be deleted, and deletion candidate folder tree information And a support information output process for outputting the support information.

本発明によれば、ユーザにとって不要である可能性の高いフォルダツリーを提示することができ、ユーザは不要なフォルダを効率的に削除することができるようになる。   According to the present invention, it is possible to present a folder tree that is highly likely to be unnecessary for the user, and the user can efficiently delete unnecessary folders.

本発明に関連する更なる特徴は、本明細書の記述、添付図面から明らかになるものである。また、本発明の態様は、要素及び多様な要素の組み合わせ及び以降の詳細な記述と添付される特許請求の範囲の様態により達成され実現される。   Further features related to the present invention will become apparent from the description of the present specification and the accompanying drawings. The embodiments of the present invention can be achieved and realized by elements and combinations of various elements and the following detailed description and appended claims.

本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。   It should be understood that the description herein is merely exemplary and is not intended to limit the scope of the claims or the application of the invention in any way.

本発明の実施形態による業務文書処理装置(業務文書処理システム)の概略構成例を示す機能ブロック図である。It is a functional block diagram which shows the example of schematic structure of the business document processing apparatus (business document processing system) by embodiment of this invention. ファイル情報およびフォルダ情報のデータ構造例を示す図である。It is a figure which shows the data structure example of file information and folder information. 削除済みファイル情報、削除候補フォルダツリー、削除確認フォルダツリー、対象外フォルダツリー、対象外ファイルのデータ構造を示す図である。It is a figure which shows the data structure of deleted file information, a deletion candidate folder tree, a deletion confirmation folder tree, a non-target folder tree, and a non-target file. 業務文書処理装置において実行される処理の全体概要を説明するためのフローチャートである。It is a flowchart for demonstrating the whole outline | summary of the process performed in the business document processing apparatus. 削除ファイル分析処理部(109)の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of a deletion file analysis process part (109). 削除フォルダ分析処理部(110)の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of a deletion folder analysis process part (110). 削除候補フォルダツリー登録処理部(111)の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of a deletion candidate folder tree registration process part (111). 削除候補表示処理部(112)の詳細を説明するためのフローチャートである。It is a flowchart for demonstrating the detail of a deletion candidate display process part (112). 削除候補表示処理部によって表示される画面例を示す図である。It is a figure which shows the example of a screen displayed by the deletion candidate display process part. 削除候補表示処理部によって表示される画面例を示す図である。It is a figure which shows the example of a screen displayed by the deletion candidate display process part. 削除候補表示処理部によって表示される画面例を示す図である。It is a figure which shows the example of a screen displayed by the deletion candidate display process part.

以下、添付図面を参照しながら、本発明の装置を実施するための最良の実施形態を詳細に説明する。図1〜図11は、本発明の実施形態を例示する図である。これらの図において、同一の符号を付した部分は同一物を表し、基本的な構成及び動作は同様であるものとする。尚、本発明の実施形態において、使用される機器、手法等は一例であり、本発明はこれらに限定されるものではないことは勿論である。   DETAILED DESCRIPTION OF THE PREFERRED EMBODIMENTS Embodiments of the present invention will be described in detail below with reference to the accompanying drawings. 1 to 11 are diagrams illustrating an embodiment of the present invention. In these drawings, parts denoted by the same reference numerals represent the same items, and the basic configuration and operation are the same. In addition, in embodiment of this invention, the apparatus, method, etc. which are used are examples, and of course, this invention is not limited to these.

更に、本発明の実施形態は、後述されるように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし専用ハードウェア又はソフトウェアとハードウェアの組み合わせで実装しても良い。   Furthermore, as will be described later, the embodiment of the present invention may be implemented by software running on a general-purpose computer, or may be implemented by dedicated hardware or a combination of software and hardware.

なお、以後の説明では「テーブル」形式によって本発明の各情報について説明するが、これら情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、DB、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「DB」、「キュー」等について単に「情報」と呼ぶことがある。   In the following description, each information of the present invention will be described in a “table” format. However, the information does not necessarily have to be expressed in a data structure by a table, such as a data structure such as a list, a DB, a queue, or the like. It may be expressed as Therefore, “table”, “list”, “DB”, “queue”, etc. may be simply referred to as “information” to indicate that they do not depend on the data structure.

また、各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「名前」、「ID」という表現を用いることが可能であり、これらについてはお互いに置換が可能である。   In addition, when explaining the contents of each information, the expressions “identification information”, “identifier”, “name”, “name”, “ID” can be used, and these can be replaced with each other. It is.

以下では「プログラム」を主語(動作主体)として本発明の実施形態における各処理について説明を行うが、プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート(通信制御装置)を用いながら行うため、プロセッサを主語とした説明としてもよい。また、プログラムを主語として開示された処理は管理サーバ等の計算機、情報処理装置が行う処理としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。   In the following, each process in the embodiment of the present invention will be described using “program” as a subject (operation subject). However, a program is executed by a processor and a process determined by a memory and a communication port (communication control device). Since it is performed while being used, the description may be made with the processor as the subject. Further, the processing disclosed with the program as the subject may be processing performed by a computer such as a management server or an information processing apparatus. Part or all of the program may be realized by dedicated hardware, or may be modularized. Various programs may be installed in each computer by a program distribution server or a storage medium.

<業務文書処理装置の構成>
図1は、本発明の実施形態による業務文書処理装置(文書処理システムということもできる)1の内部概略構成を示す機能ブロック図である。図1において、当該業務文書処理装置1は、単独の計算機として示されているが、各構成部が遠隔的に配置され、それぞれがネットワークを介して接続されて構成される、計算機システムとして構成されるようにしても良い。
<Configuration of business document processing apparatus>
FIG. 1 is a functional block diagram showing an internal schematic configuration of a business document processing apparatus (also referred to as a document processing system) 1 according to an embodiment of the present invention. In FIG. 1, the business document processing apparatus 1 is shown as a single computer, but is configured as a computer system in which each component is remotely arranged and connected via a network. You may make it.

業務文書処理装置1は、ファイル情報DB100と、フォルダ情報DB101と、削除済みファイル情報DB102と、必要な演算処理、制御処理などを行う中央処理装置103と、中央処理装置103での処理に必要なプログラムを格納するプログラムメモリ104と、中央処理装置103での処理に必要なデータを格納するデータメモリ105と、データを表示するための表示装置106と、表示されたデータに対してメニューを選択するなどの操作を行うための入力装置107と、を備えている。   The business document processing apparatus 1 includes a file information DB 100, a folder information DB 101, a deleted file information DB 102, a central processing apparatus 103 that performs necessary arithmetic processing and control processing, and processing necessary for the central processing apparatus 103. A program memory 104 for storing a program, a data memory 105 for storing data necessary for processing in the central processing unit 103, a display device 106 for displaying data, and a menu for the displayed data are selected. And an input device 107 for performing operations such as these.

中央処理装置103は、機械学習処理部108と、削除ファイル分析処理部109と、削除フォルダ分析処理部110と、削除候補フォルダツリー登録処理部111と、削除候補表示処理部112と、を備えている。この実施形態では、コンピュータによって構成されるため、機械学習処理部108と、削除ファイル分析処理部109と、削除フォルダ分析処理部110と、削除候補フォルダツリー登録処理部111と、削除候補表示処理部112は、いずれもコンピュータ上で実行されるプログラムの機能の一部として実現される。従って、各処理部を各処理プログラムと読み替えることも可能である。なお、これらのプログラムは、プログラムメモリ104に格納されている。   The central processing unit 103 includes a machine learning processing unit 108, a deletion file analysis processing unit 109, a deletion folder analysis processing unit 110, a deletion candidate folder tree registration processing unit 111, and a deletion candidate display processing unit 112. Yes. In this embodiment, since it is configured by a computer, a machine learning processing unit 108, a deletion file analysis processing unit 109, a deletion folder analysis processing unit 110, a deletion candidate folder tree registration processing unit 111, and a deletion candidate display processing unit 112 is realized as a part of the function of the program executed on the computer. Therefore, each processing unit can be read as each processing program. Note that these programs are stored in the program memory 104.

データメモリ105は、ファイル情報113と、フォルダ情報114と、削除済みファイル情報115と、削除候補フォルダツリー116と、削除確認フォルダツリー117と、削除対象外ファイル118と、を備えている。   The data memory 105 includes file information 113, folder information 114, deleted file information 115, a deletion candidate folder tree 116, a deletion confirmation folder tree 117, and a non-deletion target file 118.

<データ構造>
以下、図2及び3を用いてデータメモリ105に含まれる各情報のデータ構造を説明する。
<Data structure>
Hereinafter, the data structure of each piece of information included in the data memory 105 will be described with reference to FIGS.

(i)図2は、データメモリ105に含まれるファイル情報113とフォルダ情報114のデータ構造を示す図であり、例えば、ファイルサーバ上のファイル及びフォルダについての情報を示す。 (I) FIG. 2 is a diagram showing the data structure of the file information 113 and the folder information 114 included in the data memory 105. For example, FIG. 2 shows information about files and folders on the file server.

ファイル情報113は、ファイルID200と、ファイル名201と、親フォルダID202と、拡張子203と、サイズ204と、更新日205と、作成日206と、アクセス日207と、テキスト208と、所有者209と、削除可能確率 210を、を構成項目として含み、例えば、配列の形式でこれらの情報を保有している。ファイルID200は、ファイルに対して一意に振られた値が格納されている。ファイル名201は、ファイル名などの識別名などを示す。親フォルダ情報202は、対象のファイルが格納されたフォルダの絶対パスを示す情報である。拡張子203は、対象のファイルの保存形式を示す情報である。サイズ204は、対象のファイルの容量を示す情報であり、バイト単位で保持される。更新日205は、対象のファイルに対する書き込み処理が最後に行われた時点の情報である。作成日206は、対象のファイルが作成された時点の情報である。アクセス日207は、対象のファイルに対するアクセス処理が最後に行われた時点の情報である。テキスト208は、対象のファイルがテキスト情報を格納するファイルである場合に、そのテキストの情報を示す。所有者209は、対象のファイルを所有しているユーザのIDを示す情報である。削除可能確率210は、対象のファイルが削除できる確率を示す情報である。   File information 113 includes file ID 200, file name 201, parent folder ID 202, extension 203, size 204, update date 205, creation date 206, access date 207, text 208, owner 209. The deletion possibility probability 210 is included as a configuration item, and for example, these pieces of information are held in the form of an array. The file ID 200 stores a value uniquely assigned to the file. The file name 201 indicates an identification name such as a file name. The parent folder information 202 is information indicating the absolute path of the folder in which the target file is stored. The extension 203 is information indicating the storage format of the target file. The size 204 is information indicating the capacity of the target file, and is held in units of bytes. The update date 205 is information at the time when the writing process for the target file was last performed. The creation date 206 is information at the time when the target file is created. The access date 207 is information at the time when the access process for the target file was last performed. A text 208 indicates information on the text when the target file is a file storing text information. The owner 209 is information indicating the ID of the user who owns the target file. The deletion possibility 210 is information indicating the probability that the target file can be deleted.

フォルダ情報114は、フォルダID211と、フォルダ名212と、格納ファイルID213と、格納フォルダID214と、階層215と、削除可能確率216と、削除フラグ217と、を構成項目として含み、例えば配列の形式でこれらの情報を保有している。フォルダID211は、フォルダに対して一意に振られた値が格納されている。フォルダ名212は、フォルダ名などの識別名などを示す。格納ファイルID213は、対象フォルダの直下に格納されているファイルのファイルIDを示す。格納フォルダID214は、対象フォルダの直下に格納されているフォルダのフォルダIDを示す。階層215は、ファイルサーバにおける最も上のフォルダ(ルートフォルダ)から対象のフォルダが位置する階層を示す。例えば当該項目が「4」を保持する場合、当該フォルダはルートフォルダから子フォルダへ4回たどることで到達できる位置に属する。削除可能確率216は、対象のフォルダが削除できる確率を示す情報である。削除フラグ217は、対象のフォルダが削除可能であるかどうかを「true」と「false」で示す。初期段階では、対象のフォルダが削除可能か既知ではないため削除不可とする「false」が保持される。   The folder information 114 includes a folder ID 211, a folder name 212, a storage file ID 213, a storage folder ID 214, a hierarchy 215, a deletion probability 216, and a deletion flag 217 as configuration items. For example, in the form of an array I have this information. The folder ID 211 stores a value uniquely assigned to the folder. The folder name 212 indicates an identification name such as a folder name. The storage file ID 213 indicates the file ID of a file stored immediately below the target folder. A storage folder ID 214 indicates a folder ID of a folder stored immediately below the target folder. A hierarchy 215 indicates a hierarchy in which the target folder is located from the uppermost folder (root folder) in the file server. For example, when the item holds “4”, the folder belongs to a position that can be reached by following the child folder four times from the root folder. The deletion possibility probability 216 is information indicating the probability that the target folder can be deleted. The deletion flag 217 indicates whether the target folder can be deleted by “true” and “false”. In the initial stage, “false” indicating that the target folder can be deleted or is not known is not stored.

(ii)図3は、データメモリ105に含まれる削除済みファイル情報115と、削除候補フォルダツリー116と、削除確認フォルダツリー117と、削除対象外ファイル118のデータ構造を示す図である。 (Ii) FIG. 3 is a diagram showing the data structure of the deleted file information 115, the deletion candidate folder tree 116, the deletion confirmation folder tree 117, and the non-deletion target file 118 included in the data memory 105.

削除済みファイル情報115は、ファイルID300と、ファイル名301と、親フォルダID302と、拡張子303と、サイズ304と、更新日305と、作成日306と、アクセス日307と、削除日308と、テキスト309と、所有者310と、を構成項目として含み、例えば、過去にファイルサーバにおいて削除されたファイルについての情報を配列形式で保有している。ファイルID300は、ファイルに対して一意に振られた値が格納されている。ファイル名301は、ファイル名などの識別名などを示す。親フォルダID302は、対象のファイルが格納されたフォルダの絶対パスを示す情報である。拡張子303は、対象のファイルの保存形式を示す情報である。サイズ304は、対象のファイルの容量を示す情報であり、バイト単位で保持される。更新日305は、対象のファイルに対する書き込み処理が最後に行われた時点の情報である。作成日306は、対象のファイルが作成された時点の情報である。アクセス日307は、対象のファイルに対するアクセス処理が最後に行われた時点の情報である。削除日308は、対象のファイルがファイルサーバから削除された時点の情報である。テキスト309は、対象のファイルがテキスト情報を格納するファイルである場合に、そのテキストの情報を示す。所有者310は、対象のファイルを所有しているユーザのIDを示す情報である。これらの情報は、後述するファイルの削除可能確率の分析における機械学習の際に用いる情報である。   The deleted file information 115 includes a file ID 300, a file name 301, a parent folder ID 302, an extension 303, a size 304, an update date 305, a creation date 306, an access date 307, a deletion date 308, The text 309 and the owner 310 are included as configuration items, and for example, information about files deleted in the file server in the past is held in an array format. The file ID 300 stores a value uniquely assigned to the file. The file name 301 indicates an identification name such as a file name. The parent folder ID 302 is information indicating the absolute path of the folder in which the target file is stored. The extension 303 is information indicating the storage format of the target file. The size 304 is information indicating the capacity of the target file, and is held in units of bytes. The update date 305 is information at the time when the writing process for the target file was last performed. The creation date 306 is information at the time when the target file is created. The access date 307 is information at the time when the access process for the target file was last performed. The deletion date 308 is information when the target file is deleted from the file server. The text 309 indicates information on the text when the target file is a file storing text information. The owner 310 is information indicating the ID of the user who owns the target file. These pieces of information are information used for machine learning in the analysis of the file deletion probability described later.

削除候補フォルダツリー116は、削除候補のフォルダID311を構成情報として有する。フォルダID311は、削除候補とするフォルダツリーのルートフォルダであるフォルダ情報114のフォルダID211を配列の形式で保持される。   The deletion candidate folder tree 116 includes a deletion candidate folder ID 311 as configuration information. The folder ID 311 holds the folder ID 211 of the folder information 114, which is the root folder of the folder tree that is a deletion candidate, in an array format.

削除確認フォルダツリー117は、削除確認対象の フォルダID312を構成情報として有する。フォルダID312は、削除確認対象のフォルダツリーのルートフォルダであるフォルダ情報114のフォルダID211を配列の形式で保持される。   The deletion confirmation folder tree 117 includes a folder ID 312 as a deletion confirmation target as configuration information. The folder ID 312 holds the folder ID 211 of the folder information 114, which is the root folder of the folder tree to be deleted, in an array format.

削除対象外ファイル118は、フォルダID313を構成情報として有する。フォルダID313は削除候補とするフォルダツリーの中で、必要であると判別して削除の対象のファイルとするファイル情報113のファイルID200を配列の形式で保持される。   The non-deletion target file 118 has a folder ID 313 as configuration information. The folder ID 313 is determined to be necessary in the folder tree to be deleted, and the file ID 200 of the file information 113 to be deleted is stored in an array format.

<業務文書処理装置における処理の概要>
次に、本実施形態の業務文書処理装置1において行われる処理について説明する。図4は、業務文書処理装置1において行われる全体的な処理の流れを概略的に示すフローチャートである。このフローチャートは、ファイルサーバのファイルの削除可能確率からフォルダ、及びフォルダツリーが削除できるかを判別し、その結果を表示する処理を示す。また、フローチャートにおける処理の主体は中央処理装置(単に、プロセッサということもできる)103とする。
<Outline of processing in business document processing apparatus>
Next, processing performed in the business document processing apparatus 1 of the present embodiment will be described. FIG. 4 is a flowchart schematically showing the overall processing flow performed in the business document processing apparatus 1. This flowchart shows a process of determining whether a folder and a folder tree can be deleted from the file server file deletion probability and displaying the result. Further, the main processing unit in the flowchart is a central processing unit (also simply referred to as a processor) 103.

図4において、まず、中央処理装置103は、ファイルサーバのファイルとフォルダの情報を取得するために、ファイル情報DB100の情報をファイル情報113に、フォルダ情報DB101の情報をフォルダ情報114に、それぞれ読み込んで保持する(ステップ400)。読み込むタイミングは、当該削除候補表示処理を開始するタイミングでも良いし、ファイル情報やフォルダ情報が更新されたタイミングでも良い。ただし、この読み込んだ段階では、読み込んだ結果のファイル情報113における削除可能確率210とフォルダ情報114における削除可能確率216の値は何も保持されていない。削除可能確率210と削除可能確率216は対象ファイル及びフォルダの削除できる確率を保持するため、後述するファイルの削除可能確率の分析とフォルダの削除可能確率の分析において値が設定される。   In FIG. 4, first, the central processing unit 103 reads the information of the file information DB 100 into the file information 113 and the information of the folder information DB 101 into the folder information 114 in order to obtain the file and folder information of the file server. (Step 400). The timing for reading may be the timing for starting the deletion candidate display processing or the timing for updating the file information or folder information. However, at this stage of reading, none of the values of the deletion possibility probability 210 in the file information 113 and the deletion possibility probability 216 in the folder information 114 are retained. Since the deletion possibility probability 210 and the deletion possibility probability 216 hold the probability that the target file and folder can be deleted, values are set in the analysis of the file deletion possibility and the folder deletion possibility described later.

次に、中央処理装置103は、削除ファイル分析処理部109を用いてファイルサーバの各ファイルの削除可能確率の計算を行う(ステップ401)。当該処理の詳細については、図5を参照して後述する。   Next, the central processing unit 103 uses the deleted file analysis processing unit 109 to calculate the probability of deletion of each file on the file server (step 401). Details of this processing will be described later with reference to FIG.

そして、ファイルの削除可能確率が求まると、中央処理装置103は、削除フォルダ分析処理部110を用いて、ファイルの削除可能確率を基にフォルダの削除可否の判別を行う(ステップ402)。当該処理の詳細については、図6を参照して詳しく説明する。   When the file deletion probability is obtained, the central processing unit 103 uses the deletion folder analysis processing unit 110 to determine whether or not the folder can be deleted based on the file deletion probability (step 402). Details of this processing will be described in detail with reference to FIG.

さらに、中央処理装置103は、フォルダの削除可否の分析結果から、削除候補のフォルダツリーを取得する(ステップ403)。当該処理の詳細については、図7を参照して詳しく説明する。   Further, the central processing unit 103 acquires a deletion candidate folder tree from the analysis result of whether or not the folder can be deleted (step 403). Details of this processing will be described in detail with reference to FIG.

最後に、中央処理装置103は、削除候補表示処理部112を用いて、削除候補のフォルダツリーについて画面に表示する(ステップ404)。当該処理の結果得られる画面表示例については、図9乃至11 を参照して詳しく説明する。   Finally, the central processing unit 103 uses the deletion candidate display processing unit 112 to display the deletion candidate folder tree on the screen (step 404). A screen display example obtained as a result of the processing will be described in detail with reference to FIGS.

<ファイルの削除可能確率の分析処理(ステップ401)の詳細>
図5は、図4のステップ401における削除ファイル分析処理部109による処理の詳細について説明するためのフローチャートである。当該処理は、過去に削除されたファイル情報から機械学習により分類モデルを生成し、処理対象となる各ファイルについて削除可能確率を計算するものである。また、当該処理は、中央処理装置103が削除ファイル分析処理部(削除ファイル分析処理プログラム)109を実行することにより実現される。
<Details of File Deletability Probability Analysis Processing (Step 401)>
FIG. 5 is a flowchart for explaining details of processing by the deleted file analysis processing unit 109 in step 401 of FIG. In this process, a classification model is generated by machine learning from file information deleted in the past, and a deletion possibility probability is calculated for each file to be processed. The processing is realized by the central processing unit 103 executing the deleted file analysis processing unit (deleted file analysis processing program) 109.

まず、中央処理装置103は、過去に削除されたファイル情報を削除済みファイル情報DB102から取得して、データメモリ105における削除済みファイル情報113に保持する(ステップ501)。   First, the central processing unit 103 acquires file information deleted in the past from the deleted file information DB 102 and stores it in the deleted file information 113 in the data memory 105 (step 501).

そして、中央処理装置103は、データメモリ105における任意のファイル情報を「削除できなかったファイル」、削除済みファイル情報を「削除できたファイル」として機械学習を行い、ファイルが削除可能であるかどうかの分類モデルを生成する(ステップ501)。当該機械学習の処理では、例えば、「ファイル名」、「親フォルダ名」、「拡張子」、「サイズ」、「テキスト」、「所有者」、及び「作成日、更新日、アクセス日から削除日までのそれぞれの経過時間」などを属性とし、「削除できたファイル」と「削除できなかったファイル」を属性値と設定した決定木による分類モデルを生成する。また、この他にもk近傍法、ロジスティック回帰、ナイーブベイズなどの機械学習アルゴリズムを用いても良い。   Then, the central processing unit 103 performs machine learning by setting arbitrary file information in the data memory 105 as “file that could not be deleted” and deleted file information as “file that could be deleted”, and whether or not the file can be deleted. A classification model is generated (step 501). In the machine learning process, for example, “file name”, “parent folder name”, “extension”, “size”, “text”, “owner”, and “deleted from creation date, update date, access date” A classification model based on a decision tree in which “Each elapsed time until day” is set as an attribute and “Files that can be deleted” and “Files that cannot be deleted” are set as attribute values is generated. In addition, a machine learning algorithm such as k-nearest neighbor method, logistic regression, naive bayes, or the like may be used.

次に、中央処理装置103は、処理対象となる各ファイルについて削除可能確率を計算するためのインデックス変数file_idx を初期化する(ステップ502)。   Next, the central processing unit 103 initializes an index variable file_idx for calculating a deletion probability for each file to be processed (step 502).

そして、中央処理装置103は、ファイル情報113にfile_idx以上のデータがあるかどうかを調べる(ステップ503)。対象データがない場合、処理は終了する。   Then, the central processing unit 103 checks whether the file information 113 includes data greater than or equal to file_idx (step 503). If there is no target data, the process ends.

ステップ503においてfile_idx以上のファイルがある場合、中央処理装置103は、機械学習で生成した分類モデルを用いてfile_idx 番目のファイルについて削除可能確率を計算し、結果を当該ファイルのファイル情報における削除可能確率210に保持する(ステップ504)。例えば、削除されたファイルのメタデータ(例えば、作成日)の平均値を求め、その平均値との距離が近ければ確率が高くなるように、削除可能確率が求められる。   If there is a file greater than or equal to file_idx in step 503, the central processing unit 103 calculates the probability of deletion for the file_idx-th file using the classification model generated by machine learning, and the result is the probability of deletion in the file information of the file. 210 (step 504). For example, the average value of the metadata (for example, creation date) of the deleted file is obtained, and the probability of deletion is obtained so that the probability increases if the distance from the average value is close.

最後に、中央処理装置103は、file_idxをインクリメントし(ステップステップ505)、ステップ503から処理を繰り返す。   Finally, the central processing unit 103 increments file_idx (step step 505) and repeats the processing from step 503.

以上の処理により、ファイルサーバの各ファイルについての削除可能確率の算出を行う。なお、削除候補がユーザに提示され(画面に表示され)、実際にユーザによって削除されたファイル数が積み重なっていくにつれて削除可能確率の精度が高くなっていく。   With the above processing, the probability of deletion for each file on the file server is calculated. It should be noted that deletion candidates are presented to the user (displayed on the screen), and the accuracy of the deletion probability increases as the number of files actually deleted by the user accumulates.

<フォルダの削除可否の分析処理(ステップ402)の詳細>
次に、図4のステップ402における削除フォルダ分析処理部110による処理の詳細について説明する。当該処理は、ファイルの削除可能確率を基にフォルダが削除できるかどうかを判別する。フォルダの削除可能確率は0〜100の間の数値であり、通常、これらの集合を基にフォルダの削除可否の判定は削除可能確率の平均値や最小値などを求め、閾値を基準に削除可否の判別を行うことが考えられる。しかし、削除可能確率に偏りがある場合、平均値ではフォルダの削除可否の決定ができない場合がある。例えば、あるフォルダに削除可能確率が10%のファイルが1ファイルと90%のファイルが10ファイルあるとする。すると、これらの削除可能確率の平均値は82%となり、当該ファイルは削除できると判別する。しかし、このフォルダに削除可能確率が10%のファイルがあることから本来ならば削除できないフォルダであるといえる。また、フォルダの中で削除可能確率を対象フォルダの最小値とする場合、大多数の削除できるファイル群を持つフォルダツリーであるにも関わらず、削除可能確率が低いファイルの影響を受けて検知できなくなる可能性がある。あるいは、削除できない削除可能確率の閾値を設定して閾値以下のファイル及びフォルダを除外した場合、本来ならば削除できないフォルダ、例えば、削除可能確率の分布が均等なフォルダが削除できるフォルダとして判別され、また、多くのファイルが削除できないファイルとして残ってしまう。すると、本来の目的である、不要となったカテゴリ、すなわちフォルダツリーで削除する目的であるのに対して、削除後には残留した用途不明のファイルが散在してしまうことになる。
<Details of Folder Deletability Analysis Process (Step 402)>
Next, details of the processing by the deletion folder analysis processing unit 110 in step 402 of FIG. 4 will be described. This process determines whether or not a folder can be deleted based on the probability of file deletion. The probability of deletion of a folder is a numerical value between 0 and 100. Usually, determination of whether or not a folder can be deleted is based on these sets, and an average value or minimum value of the probability of deletion is obtained, and whether or not deletion is possible based on a threshold value. It is conceivable to make a determination. However, if there is a bias in the probability of deletion, it may not be possible to determine whether a folder can be deleted based on the average value. For example, assume that there is one file with a probability of deletion of 10% and 10 files with 90% in a certain folder. Then, the average value of the probability of deletion becomes 82%, and it is determined that the file can be deleted. However, it can be said that this folder cannot be deleted because there is a file with a probability of deletion of 10% in this folder. In addition, when the probability of deletion within a folder is set to the minimum value of the target folder, it can be detected by the influence of a file with a low probability of deletion even though the folder tree has a large number of files that can be deleted. There is a possibility of disappearing. Alternatively, when a threshold of the probability of deletion that can not be deleted is set and files and folders below the threshold are excluded, it is determined as a folder that cannot be deleted, for example, a folder that can be deleted with a uniform distribution of probability of deletion, In addition, many files remain as files that cannot be deleted. Then, while the original purpose is the purpose of deleting in the unnecessary category, that is, the folder tree, the files of unknown use remaining after the deletion are scattered.

そこで、削除フォルダ分析処理部110では、上記のような偏りのある削除可能確率のフォルダに対応するため、フォルダが削除できるかどうかをジニ係数と中央値を用いてフォルダが削除可能であるかを判別する。まず、フォルダ直下に格納されたファイル及びフォルダの削除可否についての偏り度合を示すジニ係数を算出し、ファイル及びフォルダの削除可能確率が閾値以上に偏っているかを調べる。閾値はファイルを削除できる最低確率をあらかじめ設定し、閾値以上を「削除できる」、閾値以下を「削除できない」と定義する。そして、ジニ係数によって当該フォルダ直下のファイル及びフォルダの削除可能確率に偏りがあることがわかった場合、削除可能確率の中央値を求めて閾値以上であることを確認する。中央値が閾値以上であることがわかれば、ファイル及びフォルダの削除可能確率は「削除できる」に偏っていることがわかる。また、削除できると判別したフォルダにおいて、当該フォルダ内で相対的に極端に低い削除可能確率のファイルがある場合、削除対象外として後述する削除候補表示処理の際にユーザに表示をして実際に削除できるかどうかを確認できるようにする。このように、フォルダの削除可否に判断にジニ係数と中央値を用いることで、上記で述べた削除可能確率の値が両極端に分散したフォルダやフォルダ内で相対的に極端に低い削除可能確率の影響を受けずにフォルダの削除可否の判別が可能となる。   Therefore, the deletion folder analysis processing unit 110 corresponds to the biased folder having the probability of deletion as described above, and determines whether the folder can be deleted using the Gini coefficient and the median. Determine. First, a Gini coefficient indicating the degree of bias regarding whether or not a file and folder stored directly under the folder can be deleted is calculated, and it is checked whether or not the probability that the file and folder can be deleted is more than a threshold. For the threshold, a minimum probability that the file can be deleted is set in advance, and a value above the threshold is defined as “can be deleted”, and a value below the threshold is defined as “cannot be deleted”. When it is found from the Gini coefficient that the deletion possibility probability of the files and folders immediately under the folder is biased, the median value of the deletion possibility probability is obtained and confirmed to be equal to or greater than the threshold value. If the median is found to be equal to or greater than the threshold, it can be seen that the probability of deletion of files and folders is biased toward “can be deleted”. In addition, in a folder that is determined to be deleted, if there is a file with a relatively extremely low probability of deletion within the folder, the file is actually displayed as a deletion candidate and displayed to the user during the deletion candidate display process described later. Make sure that it can be deleted. In this way, by using the Gini coefficient and the median value for determining whether or not a folder can be deleted, the deleteability probability value described above is relatively extremely low in a folder or folder in which the deleteability probability value is distributed in both extremes. It is possible to determine whether or not a folder can be deleted without being affected.

図6は、図4のステップ402における削除フォルダ分析処理部110による処理の詳細について説明するためのフローチャートである。なお、当該処理は、中央処理装置103が削除フォルダ分析処理部(削除フォルダ分析処理プログラム)110を実行することにより実現される。   FIG. 6 is a flowchart for explaining the details of the processing by the deletion folder analysis processing unit 110 in step 402 of FIG. This process is realized by the central processing unit 103 executing the deletion folder analysis processing unit (deletion folder analysis processing program) 110.

まず、中央処理装置103は、最下層のフォルダからルートフォルダへ順に削除可否を判別していくためのインデックス変数 layer_idx を初期化する(ステップ600)。   First, the central processing unit 103 initializes an index variable layer_idx for determining whether deletion is possible in order from the lowest folder to the root folder (step 600).

そして、中央処理装置103は、layer_idx の層より上のフォルダ階層があるかどうかを調べる(ステップ601)。一番下の階層のフォルダから削除可能確率を求めないと上位階層のフォルダの削除可能確率を算出することができないからである。対象データがない場合、処理は終了する。   The central processing unit 103 checks whether there is a folder hierarchy above the layer_idx layer (step 601). This is because it is not possible to calculate the deletion possibility probability of the upper level folder unless the deletion possibility probability is obtained from the folder of the lowest hierarchy. If there is no target data, the process ends.

ステップ601において、layer_idxより上のフォルダ階層がある場合、中央処理装置103は、当該フォルダ階層における各フォルダについて削除可否の判別を行うためのインデックス変数 folder_idx を初期化する(ステップ602)。   If there is a folder hierarchy above layer_idx in step 601, the central processing unit 103 initializes an index variable folder_idx for determining whether or not each folder in the folder hierarchy can be deleted (step 602).

そして、中央処理装置103は、folder_idx 以上のデータがあるかどうかを調べる(ステップ603)。   The central processing unit 103 checks whether there is data equal to or greater than folder_idx (step 603).

対象データがない場合、中央処理装置103は、当該フォルダ階層には削除可否を判別するフォルダはないことから一つ上の階層のフォルダについて処理をするために、layer_idx をデクリメントし(ステップ611)、ステップ601から処理を繰り返す。   If there is no target data, the central processing unit 103 decrements layer_idx in order to process the folder one level higher than the folder hierarchy because there is no folder for determining whether deletion is possible or not (step 611). The processing is repeated from step 601.

一方、ステップ603においてfolder_idx 以上のファイルがある場合、中央処理装置103は、folder_idx番目のフォルダ直下のファイルとフォルダの削除可能確率における中央値の計算(ステップ604)とジニ係数の計算(ステップ605)を行う。ここで、folder_idx番目のフォルダ直下にファイルが1つしかない場合はジニ係数を1とする。なお、フォルダの削除可能確率は、フォルダ直下のファイル及びフォルダの削除可能確率についての中央値を格納するものとする。   On the other hand, if there is a file equal to or larger than folder_idx in step 603, the central processing unit 103 calculates the median value (step 604) and the Gini coefficient (step 605) in the probability of deletion of files and folders immediately under the folder_idxth folder. I do. Here, if there is only one file directly under the folder_idx-th folder, the Gini coefficient is set to 1. The folder deletion probability stores a median value regarding the deletion probability of files and folders directly under the folder.

そして、中央処理装置103は、ジニ係数が閾値(第1の閾値)以上であるか(ステップ606)、中央値が閾値(第2の閾値)以上であるか(ステップ607)を調べる。ジニ係数と中央値が共に閾値以上でない場合、処理は終了する。   Then, the central processing unit 103 checks whether the Gini coefficient is equal to or greater than a threshold value (first threshold value) (step 606) and whether the median value is equal to or greater than a threshold value (second threshold value) (step 607). If both the Gini coefficient and the median are not greater than or equal to the threshold, the process ends.

ステップ606及びステップ607において、ジニ係数と中央値が共に対応する閾値以上である場合には、中央処理装置103は、folder_idx番目のフォルダ直下において、中央値との削除可能確率の差が閾値(第3の閾値)以上のファイルのファイルIDをデータメモリ105における削除対象外ファイル118に登録する(ステップ608)。このようにして、全体としてほとんど削除できるファイルを含むフォルダから、削除できないファイルを取り除き、当該フォルダを削除可能とすることができる。また、削除できるファイル及びフォルダとできないファイル及びフォルダが散在しているような削除の可否ができないファイルについては、ジニ係数と中央値によって削除不可と判別する。   In step 606 and step 607, when both the Gini coefficient and the median value are equal to or greater than the corresponding threshold values, the central processing unit 103 determines that the difference between the median value and the erasure probability is the threshold value (the first value) immediately below the folder_idxth folder. The file IDs of the above files are registered in the non-deletion target file 118 in the data memory 105 (step 608). In this way, it is possible to remove a file that cannot be deleted from a folder including files that can be almost deleted as a whole, and to delete the folder. In addition, files that cannot be deleted and files that cannot be deleted, such as files that cannot be deleted and folders that cannot be deleted, are determined to be undeleteable by the Gini coefficient and the median value.

そして、中央処理装置103は、folder_idx番目のフォルダの削除フラグ217をtrueにし、中央値の再計算を行って当該フォルダの削除可能確率とする(ステップ609)。   Then, the central processing unit 103 sets the folder_idx-th folder deletion flag 217 to true, and recalculates the median value to determine the probability of deletion of the folder (step 609).

さらに、中央処理装置103は、folder_idx をインクリメントし(ステップ610)、ステップ603から処理を繰り返す。   Further, the central processing unit 103 increments folder_idx (step 610) and repeats the processing from step 603.

<削除候補フォルダツリー登録処理(ステップ403)の詳細>
図7は、図4のステップにおける削除候補フォルダツリー登録処理部111による処理(ステップ403)の詳細を説明するためのフローチャートである。なお、当該処理は、中央処理装置103が削除候補フォルダツリー登録処理部(削除候補フォルダツリー登録処理プログラム)111を実行することにより実現される。
<Details of Delete Candidate Folder Tree Registration Process (Step 403)>
FIG. 7 is a flowchart for explaining details of the processing (step 403) by the deletion candidate folder tree registration processing unit 111 in the step of FIG. This processing is realized by the central processing unit 103 executing the deletion candidate folder tree registration processing unit (deletion candidate folder tree registration processing program) 111.

当該処理では、フォルダの削除可否の判別結果から削除対象のフォルダツリー(削除候補フォルダツリー)のルートフォルダを取得するものである。また、フォルダツリーとして取得する範囲に、フォルダツリーが含む全てのファイルの所有者は単一であるという条件を含む。これは、ユーザがフォルダツリーについて削除可否の判別を行う際には、そのフォルダツリーが単一ユーザのみが管理しているフォルダでならなくてはならいためである。様々なユーザが所有者であるファイル群を格納するフォルダツリーに対して削除を行う際は、一人のユーザが削除可否の判別をすることは困難な場合が多く、各所有者一人一人に削除可否の確認を取らなくてはならない。そこで、全てのファイルの所有者が単一であり、かつ、フォルダの削除可否の判別結果が削除可能とするフォルダツリーの提示を行う。ファイルサーバ上の一部のフォルダについては複数のユーザがファイルを格納して情報共有されているものの、見積書や検収通知書や内部統制のためのチェックリストなど統制された業務フローの中で作成されるドキュメントファイルであるため大量件数には及ばない。そして、それ以外のほとんどのフォルダでは単一のユーザが管理する傾向にあり、例えば、メールファイル、ソフトウェア開発の際に自動生成されたソースコードやテスト用データのバックアップ、担当業務において付随して収集・作成された情報を記載したドキュメントファイルなどが該当する。これらのファイルは、それぞれのユーザごとに管理・利用されるファイルであり、当該ユーザの管理ポリシーに従って格納される。このことから、ファイルサーバにおけるフォルダのほとんどは、単一ユーザを所有者とするファイル群をフォルダツリーとして格納している。この傾向を受けて、当該処理では、一人のユーザのみでフォルダについての削除可否の判断を行えるフォルダツリーを提示するため、全てのファイルの所有者が単一であり、かつ、フォルダの削除可否の判別結果が削除可能とするフォルダツリーの取得を行う。   In this process, the root folder of the folder tree to be deleted (deletion candidate folder tree) is acquired from the determination result of whether or not the folder can be deleted. Moreover, the range acquired as a folder tree includes a condition that the owner of all the files included in the folder tree is single. This is because when a user determines whether or not a folder tree can be deleted, the folder tree must be a folder managed only by a single user. When deleting a folder tree that stores a group of files owned by various users, it is often difficult for one user to determine whether or not deletion is possible. You must take the confirmation. Therefore, a folder tree is presented in which all the files have a single owner and the determination result of whether or not the folder can be deleted is deleteable. Some folders on the file server are shared by multiple users by storing files, but created in a controlled work flow such as quotations, acceptance notices, and checklists for internal controls Because it is a document file, it does not reach the large number of cases. Most of the other folders tend to be managed by a single user. For example, mail files, backup of source code and test data automatically generated during software development, and incidental collection in charge -Applicable to document files that describe created information. These files are managed and used for each user, and are stored according to the management policy of the user. For this reason, most of the folders in the file server store a group of files owned by a single user as a folder tree. In response to this trend, the process presents a folder tree in which only one user can determine whether or not a folder can be deleted. Therefore, the owner of all files is single and whether or not a folder can be deleted. A folder tree that can be deleted by the discrimination result is acquired.

まず、中央処理装置103は、ファイルサーバにおけるルートフォルダから順に削除候補フォルダツリーのルートフォルダを調べて取得するためのインデックス変数 layer_idx を初期化する(ステップ700)。   First, the central processing unit 103 initializes an index variable layer_idx for examining and acquiring the root folder of the deletion candidate folder tree in order from the root folder in the file server (step 700).

そして、中央処理装置103は、layer_idx の層より下のフォルダ階層があるどうか調べる(ステップ701)。対象データがない場合、すなわちファイルサーバにおける最下層より一つ下の層のインデックスであることから、処理は終了する。   The central processing unit 103 checks whether there is a folder hierarchy below the layer_idx layer (step 701). If there is no target data, that is, the index is one layer below the lowest layer in the file server, the process ends.

ステップ701において、layer_idx より下のフォルダ階層がある場合、中央処理装置103は、当該フォルダ階層における各フォルダについて削除候補フォルダツリーのルートフォルダがあるか調べるためのインデックス変数 folder_idx を初期化する(ステップ702)。   If there is a folder hierarchy below layer_idx in step 701, the central processing unit 103 initializes an index variable folder_idx for checking whether there is a root folder of the deletion candidate folder tree for each folder in the folder hierarchy (step 702). ).

次に、中央処理装置103は、folder_idx 以上のフォルダがあるかどうか調べる(ステップ703)。対象データがない場合は、次の下のフォルダ階層について処理するため、layer_idx をインクリメントし(ステップ709)、ステップ701から処理を繰り返す。   Next, the central processing unit 103 checks whether there is a folder equal to or greater than folder_idx (step 703). If there is no target data, in order to process the next lower folder hierarchy, layer_idx is incremented (step 709), and the processing from step 701 is repeated.

ステップ703において、folder_idx 以上のフォルダがある場合、中央処理装置103は、当該フォルダ以下(当該フォルダから末端のフォルダまで)における全てのファイルの所有者が同一であるかどうか調べる(ステップ704)。   If there is a folder equal to or greater than folder_idx in step 703, the central processing unit 103 checks whether the owners of all files in the folder (from the folder to the end folder) are the same (step 704).

所有者が複数であった場合、中央処理装置103は、当該フォルダをルートフォルダとするフォルダツリーは一人のユーザが単独で削除可否の判断ができないフォルダであることから削除候補とせず、次のフォルダについて調べるため folder_idxをインクリメントし(ステップ708)、ステップ703から処理を繰り返す。   When there are a plurality of owners, the central processing unit 103 determines that the folder tree having the folder as the root folder is a folder that cannot be determined by one user alone and cannot be deleted. Folder_idx is incremented (step 708), and the processing is repeated from step 703.

ステップ704において、所有者が同一であった場合、中央処理装置103は、当該フォルダの削除フラグ217がtureかどうか調べる(ステップ705)。   If the owners are the same at step 704, the central processing unit 103 checks whether the deletion flag 217 of the folder is true (step 705).

削除フラグ217がfalseであった場合、中央処理装置103は、削除できないと判定されたフォルダであることから削除候補とはせず、次のフォルダについて調べるため folder_idx をインクリメントし(ステップ708)、ステップ703から処理を繰り返す。   If the deletion flag 217 is false, the central processing unit 103 increments folder_idx to check the next folder without considering it as a deletion candidate because it is determined that the folder cannot be deleted (step 708). The processing is repeated from 703.

ステップ705において、削除フラグ217がtrueであった場合、中央処理装置103は、当該フォルダの親フォルダの削除フラグ217がfalseであるかどうか調べる(ステップ706)。   If the deletion flag 217 is true in step 705, the central processing unit 103 checks whether the deletion flag 217 of the parent folder of the folder is false (step 706).

親フォルダの削除フラグ217がtrueであった場合、当該フォルダは削除候補フォルダツリーにおけるルートフォルダより下のフォルダ階層のフォルダであり、当該処理は最も上のフォルダ階層から順に処理するため当該フォルダを含む削除候補フォルダツリーのルートフォルダは既に取得されていることになる。よって、中央処理装置103は、当該フォルダをとばして次のフォルダについて調べるため folder_idx をインクリメントし(ステップ708)、ステップ703から処理を繰り返す。   When the deletion flag 217 of the parent folder is true, the folder is a folder in the folder hierarchy below the root folder in the deletion candidate folder tree, and the process includes the folder because the process is performed in order from the highest folder hierarchy. The root folder of the deletion candidate folder tree has already been acquired. Therefore, the central processing unit 103 increments folder_idx to skip the folder and examine the next folder (step 708), and repeats the processing from step 703.

ステップ706において、親フォルダの削除フラグ217がfalseであった場合、当該フォルダは削除候補フォルダツリーにおけるルートフォルダであることから、中央処理装置103は、当該フォルダのフォルダIDをデータメモリ105における削除候補フォルダツリー116に登録する(ステップ707)。   If the deletion flag 217 of the parent folder is false in step 706, the central processing unit 103 sets the folder ID of the folder as a deletion candidate in the data memory 105 because the folder is the root folder in the deletion candidate folder tree. Registration in the folder tree 116 (step 707).

そして、中央処理装置103は、folder_idx をインクリメントし(ステップ708)、ステップ703から処理を繰り返す。   The central processing unit 103 increments folder_idx (step 708) and repeats the processing from step 703.

<削除候補表示処理(ステップ404)の詳細>
図8は、図4のステップ404における削除候補表示処理部112による処理の詳細を説明するためのフローチャートであり、図9、図10、及び図11は当該処理の過程でユーザに表示する画面例である。当該処理は、中央処理装置103が削除候補表示処理部(削除候補表示処理プログラム)112を実行することにより実現される。
<Details of Delete Candidate Display Processing (Step 404)>
FIG. 8 is a flowchart for explaining details of the processing by the deletion candidate display processing unit 112 in step 404 of FIG. 4, and FIGS. 9, 10, and 11 are examples of screens displayed to the user in the course of the processing. It is. The processing is realized by the central processing unit 103 executing the deletion candidate display processing unit (deletion candidate display processing program) 112.

当該処理では、図4のステップ403の処理から得られた削除候補フォルダツリー116において、一部削除できないと推論したファイルを持つフォルダツリーとそうでないフォルダツリーの二つに分けて表示する処理を行う。削除できないと推論したファイルを持つフォルダツリーを分けることで、ユーザは、これらのツリーについて特に注意してフォルダツリー削除可否の判定を行うことができる。   In this process, in the deletion candidate folder tree 116 obtained from the process of step 403 in FIG. 4, a process is performed to display a folder tree having a file that is inferred that a part of the folder tree 116 cannot be deleted and a folder tree that is not. . By separating the folder trees having files inferred that they cannot be deleted, the user can determine whether or not the folder tree can be deleted with particular attention to these trees.

まず、中央処理装置103は、削除候補として取得したフォルダツリーについて一つずつ取得するためのインデックス delete_idxを0で初期化する(ステップ800)。   First, the central processing unit 103 initializes an index delete_idx for acquiring one folder tree acquired as deletion candidates one by one (step 800).

次に、中央処理装置103は、delete_idx番目のフォルダツリーがあるか確認する(ステップ801)。   Next, the central processing unit 103 checks whether there is a delete_idxth folder tree (step 801).

ステップ801において、delete_idx番目のフォルダツリーがあると判断された場合、中央処理装置103は、delete_idx番目のフォルダツリーが削除対象外ファイル118に含まれるファイルを格納しているか調べる(ステップ802)。   If it is determined in step 801 that there is a delete_idxth folder tree, the central processing unit 103 checks whether the delete_idxth folder tree stores a file included in the non-deletion target file 118 (step 802).

ステップ802において、delete_idx番目のフォルダツリーが削除対象外ファイル118に含まれるファイルを格納していると判断された場合、中央処理装置103は、delete_idx番目のフォルダツリーを削除確認フォルダツリー117に登録し、削除候補フォルダツリー116から削除する。ステップ802において、delete_idx番目のフォルダツリーが削除対象外ファイル118に含まれるファイルを一つも格納していないと判断された場合、中央処理装置103は、delete_idxをインクリメントし(ステップ804)、ステップ801からの処理を繰り返す。   If it is determined in step 802 that the delete_idxth folder tree stores a file included in the non-deleted file 118, the central processing unit 103 registers the delete_idxth folder tree in the deletion confirmation folder tree 117. Delete from the deletion candidate folder tree 116. If it is determined in step 802 that the delete_idxth folder tree does not store any file included in the non-deletion target file 118, the central processing unit 103 increments delete_idx (step 804). Repeat the process.

一方、ステップ801においてdelete_idx番目のフォルダツリーが無いと判断された場合、中央処理装置103は、全てのファイルが削除できると推論したフォルダツリーである削除候補フォルダツリー116を表示する(ステップ805)。なお、当該表示処理については図9を用いて詳しく後述する。   On the other hand, if it is determined in step 801 that there is no delete_idx-th folder tree, the central processing unit 103 displays a deletion candidate folder tree 116 that is a folder tree inferred that all files can be deleted (step 805). The display process will be described later in detail with reference to FIG.

そして、中央処理装置103は、ユーザによる画面操作終了の命令を待機する(ステップ806)。   The central processing unit 103 then waits for an instruction to end the screen operation by the user (step 806).

そして、中央処理装置103は、ユーザの操作から画面操作終了の命令を受け取ったら、一部削除できないと推論したファイルを含む削除候補フォルダツリーとする削除確認フォルダツリー117を表示する(ステップ807)。なお、当該表示処理については図10を用いて詳しく後述する。   When the central processing unit 103 receives an instruction to end the screen operation from the user's operation, the central processing unit 103 displays a deletion confirmation folder tree 117 as a deletion candidate folder tree including a file inferred that a part of the operation cannot be deleted (step 807). The display process will be described later in detail with reference to FIG.

さらに、中央処理装置103は、ユーザによる画面操作終了の命令を待機する(ステップ808)。ユーザの操作から、画面操作終了の命令を受け取ったら、削除候補表示処理部112の処理を終了する。   Further, the central processing unit 103 waits for an instruction to end the screen operation by the user (step 808). When receiving a screen operation end command from the user's operation, the process of the deletion candidate display processing unit 112 is ended.

<削除候補フォルダツリーリスト表示>
図9は、図8のステップ805において行われる、削除候補フォルダツリーのリスト表示の画面例を示す図である。
<Delete candidate folder tree list display>
FIG. 9 is a diagram showing a screen example of a list display of the deletion candidate folder tree performed in step 805 of FIG.

図9の「削除候補フォルダツリーリスト」において、まず、中央処理装置103は、削除候補表示処理部112を実行して、図9におけるフォルダツリーリスト900に、削除候補フォルダツリー116に登録されたフォルダのフォルダ名を表示する。   In the “deletion candidate folder tree list” in FIG. 9, first, the central processing unit 103 executes the deletion candidate display processing unit 112 to register folders registered in the deletion candidate folder tree 116 in the folder tree list 900 in FIG. 9. Displays the folder name.

また、中央処理装置103は、フォルダツリーリスト900の表示されたフォルダツリーと同じ行に、当該フォルダツリーの所有者209を所有者リスト901、ファイルの合計ファイルサイズをファイルサイズ合計リスト902に、合計ファイルサイズがファイルサーバにおける全ファイルの合計ファイルサイズに対して占める割合をファイルサイズ割合リスト903に、合計ファイル数をファイル数合計リスト904に、合計ファイル数がファイルサーバにおける全ファイルの合計ファイル数に対して占める割合をファイル数割合リスト905に、それぞれ計算して表示する。これにより、ユーザは所有者リスト901の中から自身が管理するフォルダツリーについてのみ確認することができ、大量にあるフォルダ群の中から、まとめて削除できる可能性が高いフォルダツリーに効率的に到達することができる。また、企業内などにおいては、退職者や他部署へ移動したユーザが所有者となっているフォルダツリーについても表示することができることから、ファイルサーバの管理者などがそのようなフォルダツリーについてまとめて探し出して削除することが可能となる。さらに、各フォルダツリーを削除した場合のファイルサーバ全体への削除効果がわかるため、削除効率を見積もりが可能となる。   The central processing unit 103 adds the owner 209 of the folder tree to the owner list 901 and the total file size of the files to the file size total list 902 in the same row as the folder tree displayed in the folder tree list 900. The ratio of the file size to the total file size of all files in the file server is the file size ratio list 903, the total number of files is the total file number list 904, and the total number of files is the total number of all files in the file server. The ratio occupied by each is calculated and displayed in the file number ratio list 905. As a result, the user can confirm only the folder tree managed by himself / herself from the owner list 901, and efficiently reaches the folder tree that is likely to be deleted from a large number of folders. can do. In addition, in a company or the like, it is possible to display a folder tree that is owned by a retired person or a user who has moved to another department. It is possible to find and delete. Furthermore, since the deletion effect on the entire file server when each folder tree is deleted can be understood, the deletion efficiency can be estimated.

そして、ユーザによって、ラジオボタン906が選択されると、中央処理装置103は、削除候補表示処理部112により、選択されたラジオボタンと同じ行にあるフォルダツリーを選択状態として保持する。そして、ユーザによって、選択ボタン908の「選択ツリーの確認」を押下すると、中央処理装置103は、削除候補表示処理112により、選択状態であるフォルダツリーについて後述する図11における「フォルダツリーの確認」で表示処理を行う。   When the radio button 906 is selected by the user, the central processing unit 103 causes the deletion candidate display processing unit 112 to hold the folder tree in the same row as the selected radio button as a selected state. Then, when the user presses “confirm selection tree” of the selection button 908, the central processing unit 103 causes the deletion candidate display processing 112 to execute “confirmation of folder tree” in FIG. Perform display processing with.

また、ユーザは終了ボタン907を押下すると、中央処理装置103は、画面操作終了の命令を受け取り、本画面を閉じる。そして、ユーザによって削除ボタン909の「選択ツリーを削除」が押下されると、中央処理装置103は、削除候補表示処理部112により、選択状態にあるフォルダツリーにおける削除対象外ファイルを除いたファイル群についてファイルサーバ上から削除する。また、このとき、削除したファイルのファイル情報113を削除済みファイル情報DBへ追加登録する。当該削除処理は既存技術(非特許文献5)で実現できるため説明は省略する。   When the user presses an end button 907, the central processing unit 103 receives a screen operation end command and closes this screen. When the user presses “Delete selected tree” on the delete button 909, the central processing unit 103 causes the deletion candidate display processing unit 112 to delete a file group excluding files not to be deleted in the selected folder tree. Delete from the file server. At this time, the file information 113 of the deleted file is additionally registered in the deleted file information DB. Since the deletion process can be realized by the existing technology (Non-Patent Document 5), the description is omitted.

<削除確認フォルダツリーリスト表示>
図10は、図8のステップ807において行われる、削除確認フォルダツリーリスト表示の画面例を示す図である。
<Delete confirmation folder tree list display>
FIG. 10 is a diagram showing a screen example of the deletion confirmation folder tree list display performed in step 807 of FIG.

図10の「削除確認フォルダツリーリスト」は、図9における「削除候フォルダツリーリスト」と同様の表示形態を備える。そして、当該画面では削除候補確認フォルダツリー117について表示を行う。また、この表示形態に加えて、中央処理装置103は、削除候補表示処理部112により、表示したフォルダツリーが含むファイル及びフォルダにおいて、削除対象外ファイル118に該当するファイルの合計ファイル数を削除対象外ファイル数1000に表示する。当該表示では、一部削除できないと推論したファイルを含むフォルダツリーについて表示をしているため、各フォルダツリーの削除できないファイルの件数を同時に表示することで、ユーザは各フォルダツリーにおいて何件の削除できないファイルが含まれているかを確認できる。特に、削除できないファイル数が多いフォルダツリーは、関連するファイルは近くに保存される傾向があることから、他にも削除できないファイルが当該フォルダツリーに含まれている可能性があり、これについて当該表示を行うことで削除対象外ファイル数からユーザは優先的、かつ、詳しく確認しなくてはならないフォルダツリーかどうかを判断することができる。   The “deletion confirmation folder tree list” in FIG. 10 has the same display form as the “deletion candidate folder tree list” in FIG. In this screen, the deletion candidate confirmation folder tree 117 is displayed. In addition to this display form, the central processing unit 103 causes the deletion candidate display processing unit 112 to calculate the total number of files corresponding to the non-deletion files 118 in the files and folders included in the displayed folder tree. The number of outside files is displayed in 1000. In this display, since the folder tree containing files that are inferred that some of them cannot be deleted is displayed, the number of files that cannot be deleted in each folder tree is displayed at the same time, so that the user can delete how many items in each folder tree. You can check whether a file that cannot be used is included. In particular, a folder tree with a large number of files that cannot be deleted tends to have related files stored nearby, so there may be other files that cannot be deleted. By performing the display, the user can determine whether the folder tree has priority and needs to be confirmed in detail from the number of files not to be deleted.

<フォルダツリーの確認表示>
図11は、図10において「選択ツリーの確認」ボタンが押下されたときに表示されるフォルダツリーの確認表示の画面例を示す図である。
<Folder tree confirmation display>
FIG. 11 is a diagram showing an example of a folder tree confirmation display screen displayed when the “confirmation of selected tree” button in FIG. 10 is pressed.

図11の「フォルダツリーの確認」において、中央処理装置103は、削除候補表示処理部112を用いて、上記の選択状態にあるフォルダツリーについてツリー構造でフォルダツリー表示領域1100に表示する。最上位階層は、当該フォルダ以下のフォルダの階層構造が踏襲される。また、表示される各フォルダの表示形態は、フォルダ直下のファイルが削除対象外ファイル118に含まれているかよって異なる。例えば、削除対象外ファイル118に含まれているファイルを格納するフォルダは、ツリー上では赤で表示される。これによって、機械学習によって削除できないと推論したフォルダがフォルダツリー上のどのフォルダに存在するかをユーザは容易に特定できることから、削除対象となりうるファイルについて効率的に削除可否の確認が行える。   In “confirmation of folder tree” in FIG. 11, the central processing unit 103 uses the deletion candidate display processing unit 112 to display the folder tree in the selected state in the folder tree display area 1100 in a tree structure. The highest hierarchy follows the hierarchical structure of folders below the folder. In addition, the display form of each displayed folder differs depending on whether the file directly under the folder is included in the non-deletion target file 118. For example, a folder that stores files included in the non-deletion target file 118 is displayed in red on the tree. As a result, the user can easily identify in which folder on the folder tree the folder inferred that it cannot be deleted by machine learning, so that it is possible to efficiently confirm whether the file can be deleted.

また、フォルダツリー表示領域1100に表示されたフォルダツリーにおける各フォルダは選択可能になっており、図11では顧客資料フォルダ1105が選択された状態が示されている。   Each folder in the folder tree displayed in the folder tree display area 1100 can be selected. FIG. 11 shows a state in which the customer material folder 1105 is selected.

ユーザによってフォルダが選択されると、中央処理装置103は、そのフォルダに格納されたファイルをファイルリスト1102にリスト表示する。ただし、データメモリ105における削除対象外ファイル118が含むファイルに関しては、ファイルリスト1102には表示せず、削除対象外ファイルリスト1104にリスト表示する。また、ファイル削除チェックボックス1101及び1103は同じ行にあるファイルリスト1102及び削除対象外ファイルリスト1104のファイルが、削除対象外ファイル118に格納されたファイルに該当するかどうかによって表示形態が異なる。削除対象外ファイル118に格納されたファイルの場合、当該ファイルに対応するチェックボックスはチェック済みとする黒で表示され、含まれていない場合にはチェックしていないとする白で表示される。   When the user selects a folder, the central processing unit 103 displays a list of files stored in the folder in the file list 1102. However, files included in the non-deletion target file 118 in the data memory 105 are not displayed in the file list 1102 but are displayed in the non-deletion target file list 1104. The file deletion check boxes 1101 and 1103 display differently depending on whether the files in the file list 1102 and the non-deletion target file list 1104 in the same row correspond to the files stored in the non-deletion target file 118. In the case of a file stored in the non-deletable file 118, the check box corresponding to the file is displayed in black indicating that it has been checked, and is displayed in white indicating that it has not been checked if it is not included.

ユーザは、チェックボックスにチェックを入れることで、中央処理装置103は、当該チェックボックスに対応するファイルのファイルIDを削除対象外ファイル118に登録する。一方、ユーザは、当該チェックボックスのチェックを外すと、中央処理装置103は、当該チェックボックスに対応するファイルのファイルIDを削除対象外ファイル118から除外することができる。   When the user checks the check box, the central processing unit 103 registers the file ID of the file corresponding to the check box in the non-deletion target file 118. On the other hand, when the user unchecks the check box, the central processing unit 103 can exclude the file ID of the file corresponding to the check box from the non-deletion target file 118.

ユーザは、表示されたフォルダツリー、ファイルリスト、及び削除対象外ファイルリストから、当該フォルダツリーがまとめて削除可能かを判断し、必要なファイルについて確認をすることができる。その際、ユーザはファイルリストのすべてを見ずとも、フォルダツリーで表示したフォルダ名やファイルリストの一部のファイル名から、当該フォルダツリーが削除可能であるかを把握することが可能である。   The user can determine whether the folder tree can be deleted collectively from the displayed folder tree, file list, and non-deletion target file list, and can confirm necessary files. At this time, the user can grasp whether or not the folder tree can be deleted from the folder name displayed in the folder tree or a part of the file list without viewing the entire file list.

また、ユーザによって、戻るボタン1106が押下されると、中央処理装置103は、当該画面を閉じて、図9または図10における画面を再表示する。   When the user presses the return button 1106, the central processing unit 103 closes the screen and redisplays the screen in FIG. 9 or FIG.

<変形例>
(i)本発明の実施形態では、ファイルをフォルダツリー単位で削除するための不要とする削除候補フォルダツリーを検知する業務文書処理装置について述べた。当該業務文書処理装置は、過去の削除ファイルデータを基に削除可能確率を計算し、フォルダ直下のファイルについて削除可能確率の偏りからフォルダが削除できるかどうかを判別する。また、ほとんどのファイルが不要と判断したフォルダツリーの中から必要なファイルのみを削除可能確率の偏りを用いることで自動的に削除対象から除外する。これは、フォルダツリーの最下層からルートフォルダまでのファイルの削除可能確率を計算し、フォルダの階層構造について削除可能確率の偏りを用いて解析することで削除できるフォルダツリーを検知している。また、フォルダツリーの検知の際には、格納されているファイルの所有者が単一である条件を加えていることから、検知されたフォルダツリーの所有者は単一ユーザが管理するものであることから、ファイルサーバの利用者が本装置の画面を用いて削除作業をする際に、自身が管理するフォルダツリーについてフォルダの階層を追わずに到達することができ、効率的にフォルダツリーの削除可否の確認作業が行えるようになる。また、複数のユーザを跨ってフォルダツリーの削除可否の確認が不要となる。そして、本装置の画面表示において、ユーザは、削除可能と検知したフォルダツリーについて、リスト表示による各フォルダツリーの削除に関するファイルサイズ及びファイル数の効果と見積もりを確認できる。また、削除候補のフォルダツリーのツリー構造の表示をして、ユーザはツリー構造で表示されたフォルダ名と、削除対象のファイルリストと、削除できないファイルリストを一つの画面でまとめて確認できることから、当該フォルダツリーの削除可否の確認が容易に行える。さらに、ツリー構造の表示において、削除できないファイルを含むフォルダについては色を変えて表示することで、機械学習で削除できると推論したファイルの確認と共に、推論しきれなかった削除できないファイルの発見を促す効果がある。これは、関連性の高いファイルが同一フォルダにまとめられて管理される傾向から、例えば、推論結果が正しい削除できないファイルと同一フォルダにあるファイル群は、関連性が高いため同様に削除できないファイルである可能性がある。これについて、推論結果を反映したフォルダの表示形態について色を変えるなどして強調することで、ファイルサーバに散在する当該フォルダの発見を容易にすることができる。また、確認した結果、削除できるとなった削除候補フォルダツリーに関しては、削除対象外のフォルダを残してまとめて削除することができ、従来での削除対象外のファイルを予め別の格納場所に移動させる作業を省略することができる。このように、当該業務文書処理装置によりユーザは効率的にフォルダツリー単位でのファイルの削除ができるようになる。
<Modification>
(I) In the embodiment of the present invention, the business document processing apparatus that detects an unnecessary deletion candidate folder tree for deleting a file in folder tree units has been described. The business document processing apparatus calculates the probability of deletion based on the past deletion file data, and determines whether or not the folder can be deleted from the bias of the deletion possibility with respect to the files immediately under the folder. Also, only necessary files are automatically excluded from deletion targets by using a bias of probability of deletion from a folder tree determined that most files are unnecessary. This detects a folder tree that can be deleted by calculating the probability of deletion of files from the lowest layer of the folder tree to the root folder and analyzing the hierarchical structure of the folder using the bias of the probability of deletion. In addition, when a folder tree is detected, a condition that the owner of the stored file is single is added, so the owner of the detected folder tree is managed by a single user. Therefore, when a file server user performs deletion using the screen of this device, the folder tree managed by the user can be reached without following the hierarchy of the folder, and the folder tree can be deleted efficiently. It will be possible to confirm the availability. Further, it is not necessary to confirm whether or not the folder tree can be deleted across a plurality of users. In the screen display of this apparatus, the user can confirm the effect and estimate of the file size and the number of files related to the deletion of each folder tree by the list display for the folder tree detected as deletable. In addition, since the tree structure of the deletion candidate folder tree is displayed, the user can confirm the folder name displayed in the tree structure, the file list to be deleted, and the file list that cannot be deleted together on one screen, It is easy to confirm whether or not the folder tree can be deleted. In addition, in the tree structure display, folders that contain files that cannot be deleted are displayed in a different color to confirm the files that can be deleted by machine learning, and to find files that cannot be deleted that cannot be inferred. effective. This is because files with high relevance tend to be managed together in the same folder. For example, files in the same folder as files that cannot be deleted with correct inference results are highly related and cannot be deleted as well. There is a possibility. About this, by highlighting the display form of the folder reflecting the inference result by changing the color or the like, it is possible to easily find the folder scattered in the file server. In addition, regarding the deletion candidate folder tree that can be deleted as a result of the confirmation, it is possible to delete all the folders that are not subject to deletion, and move the files that are not subject to deletion to a different storage location in advance. Can be omitted. In this way, the business document processing apparatus enables the user to efficiently delete files in folder tree units.

(ii)本実施形態では、不要なフォルダツリーの検知をするための装置として説明したが、ファイルをフォルダツリー単位でアーカイブすることや、ファイルをフォルダツリー単位でバックアップ頻度の低いファイルサーバへコピーや移動するなどの用途にも適用できる。例えば、使用頻度が低いファイル情報について機械学習をすることで、使用頻度が低いフォルダツリーを検知し、当該フォルダツリーにおけるファイル群を一つのファイルにアーカイブすることや、バックアップ頻度の低いファイルサーバへコピーや移動させても良い。 (Ii) Although the present embodiment has been described as an apparatus for detecting an unnecessary folder tree, files can be archived in units of folder trees, or files can be copied to file servers with low backup frequency in units of folder trees. It can also be applied to uses such as moving. For example, machine learning is performed on file information that is used infrequently, so that a folder tree that is used infrequently is detected, and a group of files in the folder tree is archived into a single file, or copied to a file server that is not frequently used for backup. Or move it.

また、本明細書では、図4のステップ401の処理において、ファイルサーバ上のファイルにおける削除可能確率を求める処理について述べた。追加機能としてステップ401終了時に、全ファイル及びフォルダの削除可能確率を正規化しても良い。この場合、機械学習によって得られたファイル及びフォルダの削除可能確率が全体的に低い値が求まった場合に有効である。例えば求まった削除可能確率の最大値が50%であった場合には、50%を100%とする係数をすべての削除候補確率に乗算する。すると、たとえ削除可能確率が低い場合でも、全ファイル及びフォルダに対して、相対的に見た際に高い確率であった場合には削除可能と判別することができる。   Further, in this specification, the processing for obtaining the probability of deletion in a file on the file server in the processing of step 401 in FIG. 4 has been described. As an additional function, the probability of deletion of all files and folders may be normalized at the end of step 401. In this case, it is effective when a value with a low overall probability of deleting files and folders obtained by machine learning is obtained. For example, if the maximum value of the probability of deletion that has been determined is 50%, all deletion candidate probabilities are multiplied by a coefficient that sets 50% to 100%. Then, even if the probability of deletion is low, it is possible to determine that deletion is possible if the probability is high when viewed relative to all files and folders.

(iii)本実施形態では、図4のステップ402の処理において、削除できない可能性があるファイル及びフォルダについて削除対象外とする処理について述べた。当該処理の中央値からの削除可能確率の差分が閾値以上であるファイルを削除対象外とする処理の代わりに、近い削除可能確率のファイル及びフォルダのクラスタリングをし、低い削除可能確率のグループを対象外ファイル及び対象外フォルダとする方法も考えられる。この場合、グループに分割する手法として最短距離法、最長距離法、群平均法、k−means法、及びウォード法などのクラスタリング手法を用いることで実現できる。 (Iii) In the present embodiment, the processing of excluding files and folders that may not be deleted in the processing of step 402 in FIG. 4 has been described. Instead of deleting files whose deleteability probability difference from the median of the process is greater than or equal to the threshold value, files and folders with close deleteability probabilities are clustered to target groups with low deleteability probabilities. A method of making an external file and a non-target folder is also conceivable. In this case, it can be realized by using a clustering method such as a shortest distance method, a longest distance method, a group average method, a k-means method, or a Ward method as a method of dividing into groups.

(iv)本実施形態では、図4のステップ402の処理において、各フォルダが削除できるかどうかを判別する処理について述べた。当該処理のジニ係数を用いてフォルダが削除可能かを判別する処理の代わりに、削除可能確率の平均値と分散値を用いてもよい。例えば、平均値が高くかつ分散値が低い場合においては、当該フォルダは削除できる可能性が高いといえる。また、平均値が高くかつ分散値が高い場合においては、削除可能確率が低いファイル又はフォルダが含まれている可能性が高いため、閾値を設けることで削除可能確率が低いファイル及びフォルダを取り除くことが可能であると考えられる。 (Iv) In the present embodiment, the process of determining whether each folder can be deleted in the process of step 402 in FIG. 4 has been described. Instead of the process of determining whether a folder can be deleted using the Gini coefficient of the process, an average value and a variance value of the deletion probability may be used. For example, when the average value is high and the variance value is low, it can be said that there is a high possibility that the folder can be deleted. In addition, when the average value is high and the variance value is high, it is highly likely that a file or folder with a low probability of deletion is included. Therefore, by setting a threshold, files and folders with a low probability of deletion are removed. Is considered possible.

(v)本実施形態では、図4のステップ402の処理において、各フォルダが削除できるかどうかを判別する処理について述べた。当該処理のジニ係数を用いてフォルダが削除可能かを判別する処理の代わりに、フォルダ直下のファイルの削除可能確率について50%の差分の絶対値の平均を取ることでフォルダが削除可能かを判断することも考えられる。例えば、削除可能確率が10%のファイルが1ファイル、削除可能確率が90%のファイル10ファイルあるとすると、当該処理結果の値は40となる。当該処理の値の範囲は、0〜50であり、値が高いほど、フォルダ内の削除可能確率が0%側や100%側、あるいは両側に偏っていることを示し、低いほど削除可能確率は50%の付近に集中していることがわかる。すなわち、当該処理結果が50に近く、削除可能確率の基準値が閾値以上であれば、フォルダは削除可能と判別し、少数の削除できないファイルは削除対象外とすることができる。 (V) In the present embodiment, the process of determining whether or not each folder can be deleted in the process of step 402 in FIG. 4 has been described. Instead of processing to determine whether a folder can be deleted using the Gini coefficient of the processing, it is determined whether the folder can be deleted by taking the average of the absolute value of the difference of 50% with respect to the probability of deleting a file immediately under the folder It is also possible to do. For example, if there is one file with a 10% deletion probability, and 10 files with a 90% deletion probability, the value of the processing result is 40. The range of the value of the processing is 0 to 50, and the higher the value, the more likely the deletion possibility in the folder is biased toward 0%, 100%, or both sides. It can be seen that the concentration is in the vicinity of 50%. That is, if the processing result is close to 50 and the reference value of the probability of deletion is greater than or equal to the threshold value, it is determined that the folder can be deleted, and a small number of files that cannot be deleted can be excluded from deletion.

(vi)本実施形態では、図9において、削除候補フォルダツリーのリスト表示する処理について述べた。追加機能として、ファイル数が多い順にソートしてから表示しても良い。これは、フォルダ直下におけるファイル数には偏りがあり、大多数のファイルを一部の少数のフォルダが含んでいる。すなわち、フォルダツリーにおいても、このような大多数のファイルを持つフォルダを含むフォルダツリーは、全ファイルに対して大多数のファイルを含むことを意味する。よって、リスト表示において当該フォルダツリーを上位に表示することにより、ユーザは削除効率が良いフォルダツリーか順に削除確認が可能となり、例えば、目標とする削除ファイル数に到達できる作業コストを見積もることができる。 (Vi) In the present embodiment, the process of displaying a list of deletion candidate folder trees in FIG. 9 has been described. As an additional function, the files may be displayed after being sorted in descending order. This is because the number of files directly under the folder is uneven, and a small number of folders include a large number of files. That is, also in the folder tree, a folder tree including a folder having such a large number of files means that a large number of files are included in all files. Therefore, by displaying the folder tree at the top in the list display, the user can confirm the deletion in order of the folder tree with the highest deletion efficiency, and can estimate the work cost that can reach the target number of deleted files, for example. .

(vii)本実施形態では、図9において、削除ボタン909を押下すると、削除候補フォルダツリーにおける削除対象外ファイル以外のファイルをファイルサーバから削除する処理について述べた。追加機能として、ファイルサーバからファイルを削除する際に、指定したフォルダに削除対象外ファイルを移動させて、削除対象となるファイルと共にフォルダを削除しても良い。 (Vii) In the present embodiment, the process of deleting files other than the non-deletion files in the deletion candidate folder tree from the file server when the delete button 909 is pressed in FIG. 9 has been described. As an additional function, when a file is deleted from the file server, the file not to be deleted may be moved to a designated folder, and the folder may be deleted together with the file to be deleted.

<まとめ>
(i)本発明では、削除済ファイルの情報に対して機械学習処理を実行して、処理対象ファイルのそれぞれの削除可能確率を算出する(ファイル削除可能確率算出処理)。また、処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの算出された削除可能確率の偏りを算出して、削除可能確率の偏りに基づいて、処理対象フォルダについて削除可否を判断する(フォルダ削除可否分析処理)。さらに、フォルダ削除可否の情報と各フォルダにおける親子関係の情報に基づいて、削除可能なフォルダツリーを示す削除候補フォルダツリー情報を取得する(削除候補フォルダツリー取得処理)。そして、当該削除候補フォルダツリー情報が支援情報として出力(表示、印刷等)される(支援情報出力処理)。このようにすることにより、削除可能なファイル及びフォルダの情報のみを表示するので、ユーザの削除可否確認作業の工数を劇的に削減することができるようになる。なお、この一連の流れの処理を繰返し実行することにより、ファイル削除可能確率の精度が良くなり、最終的に出力される削除可能フォルダやファイルの情報もより正確になる。また、フォルダ削除可否分析処理において、削除可能確率の偏りを求める際には、例えば、削除可能確率の中央値とジニ係数を用いたり、削除可能確率のそれぞれと確率50%との差分の絶対値の平均を用いたりすることが可能である。上記ファイル情報としては、ファイルサーバにおけるファイルのファイル名、親フォルダのフォルダ名、ファイルサイズ、拡張子、テキスト内容、作成日、更新日、アクセス日、及び所有者の情報のうち少なくとも複数種類のメタ情報を用いることができる。また、上記フォルダ情報としては、ファイルサーバにおけるフォルダのフォルダ名、当該フォルダが含むファイルの情報、当該フォルダが含むフォルダの情報、当該フォルダが前記ファイルサーバのフォルダツリーにおける階層の位置の情報を用いることができる。さらに、削除済ファイル情報としては、過去に削除された複数のファイルのファイル名、親フォルダのフォルダ名、ファイルサイズ、拡張子、テキスト内容、作成日、更新日、アクセス日、所有者、及び削除日の情報のうち少なくとも複数種類のメタ情報を用いることができる。
<Summary>
(I) In the present invention, machine learning processing is executed on the information of the deleted file to calculate each deletion possibility probability of the processing target file (file deletion possibility calculation processing). Further, the bias of the calculated deletion probability of each file and folder immediately below each of the processing target folders is calculated, and whether or not the processing target folder can be deleted is determined based on the bias of the deletion probability (folder deletion permission / non-permission). Analytical processing). Furthermore, deletion candidate folder tree information indicating a folder tree that can be deleted is acquired based on information on whether or not the folder can be deleted and parent-child information on each folder (deletion candidate folder tree acquisition process). Then, the deletion candidate folder tree information is output (displayed, printed, etc.) as support information (support information output process). By doing so, only the information on the files and folders that can be deleted is displayed, so that it is possible to dramatically reduce the man-hours required for the user's deletion permission confirmation work. It should be noted that by repeatedly executing this series of processing, the accuracy of the file deletion possibility is improved, and the information on the folder and file that can be finally deleted is also more accurate. Further, when obtaining the bias of the probability of deletion in the folder deletion possibility analysis process, for example, the median value of the deletion possibility and the Gini coefficient are used, or the absolute value of the difference between each of the deletion probability and the probability of 50% It is possible to use the average of. The file information includes at least a plurality of types of meta information among the file name of the file on the file server, the folder name of the parent folder, the file size, the extension, the text content, the creation date, the update date, the access date, and the owner information. Information can be used. Further, as the folder information, the folder name of the folder in the file server, the information of the file included in the folder, the information of the folder included in the folder, and the position information of the hierarchy in the folder tree of the file server are used. Can do. In addition, deleted file information includes the file names of multiple files deleted in the past, the folder name of the parent folder, file size, extension, text content, creation date, update date, access date, owner, and deletion At least a plurality of types of meta information can be used among the day information.

また、各フォルダについて、所有者が全て同一であるファイルのみを格納したフォルダか否か判定するようにしても良い。この場合、フォルダ所有者判定によって同一の所有者であると判定されたファイルのみを含むフォルダを、削除候補フォルダツリー取得処理の対象とする。このようにすることにより、一人のユーザが削除可否の判別を容易に行うことができるような情報を提供することができる。   Further, for each folder, it may be determined whether or not the folder stores only files having the same owner. In this case, a folder including only files determined to be the same owner by the folder owner determination is set as a candidate for deletion candidate folder tree acquisition processing. In this way, it is possible to provide information that allows one user to easily determine whether or not deletion is possible.

また、本発明では、ファイルサーバにおける最下層のフォルダからルートフォルダの順で行うことによって削除可能なフォルダツリーを検知するようにしている。このようにすることにより、単一のフォルダだけでなく、フォルダツリー単位で削除可能かどうか判定し、削除可能なツリーを提示することができるので、ユーザの作業の負担を軽減することができる。なお、削除可能なフォルダツリーを検知に関しては、処理対象フォルダの直下にあるファイル及びフォルダの削除可能確率を基にクラスタリングを行い、削除可能なフォルダツリーを検知するようにしてもよい。   Further, in the present invention, a folder tree that can be deleted is detected by performing in order from the lowest folder in the file server to the root folder. By doing so, it is possible to determine whether or not each folder tree can be deleted as well as a single folder and present a tree that can be deleted, thereby reducing the work burden on the user. As for detection of a deleteable folder tree, clustering may be performed based on the probability of deletion of files and folders directly under the processing target folder to detect the deleteable folder tree.

支援情報出力処理においては、削除可能なフォルダツリーにおけるルートフォルダについてリスト表示するようにしても良い。この際、リスト表示の中で前記削除可能なフォルダツリーにおけるファイル群の合計ファイルサイズ及びファイルサーバ全体に対する合計ファイルサイズの割合、合計ファイル数及びファイルサーバ全体に対するファイル数の合計の割合を表示するようにしても良い。或いは、リスト表示を合計ファイルサイズ又は合計ファイルについて降順にソートするようにしても良い。このような表示を提供することにより、ユーザはファイル、或いはフォルダについての削除可否確認作業をさらに容易に実行することができるようになる。また、削除可能なフォルダツリーについてまとめて探し出して削除することが可能となり、さらには、各フォルダツリーを削除した場合のファイルサーバ全体への削除効果がわかるため、削除効率を見積もりが可能となる。   In the support information output process, the root folder in the deleteable folder tree may be displayed as a list. At this time, the total file size of the file group in the deleteable folder tree and the ratio of the total file size to the entire file server, the total number of files, and the ratio of the total number of files to the entire file server are displayed in the list display. Anyway. Alternatively, the list display may be sorted in descending order with respect to the total file size or the total file. By providing such a display, the user can more easily execute a deletion / non-permission confirmation operation for a file or a folder. In addition, it is possible to search for and delete the folder tree that can be deleted, and furthermore, it is possible to estimate the deletion efficiency because the deletion effect on the entire file server when each folder tree is deleted can be understood.

また、支援情報出力処理において、削除可能なフォルダツリーを表示し、当該表示されたフォルダツリーからのフォルダの選択アクションに応答して、当該選択されたフォルダが含むファイルと削除対象外となったファイルを区別して表示するようにしても良い。また、表示されたフォルダツリーにおいて削除対象外となったファイルを含むフォルダを他のフォルダと区別して表示(例えば、色分け表示)するようにしても良い。このようにすることにより、ユーザの削除可否の判断をより容易にすることができるようになる。   In addition, in the support information output process, a folder tree that can be deleted is displayed, and in response to a folder selection action from the displayed folder tree, a file included in the selected folder and a file that is not to be deleted May be displayed separately. Further, a folder including a file that is not to be deleted in the displayed folder tree may be displayed separately from other folders (for example, color-coded display). In this way, it is possible to make it easier to determine whether or not a user can be deleted.

(ii)本発明は、実施形態の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をシステム或は装置に提供し、そのシステム或は装置のコンピュータ(又はCPUやMPU)が記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施形態の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、CD−ROM、DVD−ROM、ハードディスク、光ディスク、光磁気ディスク、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどが用いられる。 (Ii) The present invention can also be realized by software program codes that implement the functions of the embodiments. In this case, a storage medium in which the program code is recorded is provided to the system or apparatus, and the computer (or CPU or MPU) of the system or apparatus reads the program code stored in the storage medium. In this case, the program code itself read from the storage medium realizes the functions of the above-described embodiments, and the program code itself and the storage medium storing the program code constitute the present invention. As a storage medium for supplying such program code, for example, a flexible disk, CD-ROM, DVD-ROM, hard disk, optical disk, magneto-optical disk, CD-R, magnetic tape, nonvolatile memory card, ROM Etc. are used.

また、プログラムコードの指示に基づき、コンピュータ上で稼動しているOS(オペレーティングシステム)などが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。さらに、記憶媒体から読み出されたプログラムコードが、コンピュータ上のメモリに書きこまれた後、そのプログラムコードの指示に基づき、コンピュータのCPUなどが実際の処理の一部又は全部を行い、その処理によって前述した実施の形態の機能が実現されるようにしてもよい。   Also, based on the instruction of the program code, an OS (operating system) running on the computer performs part or all of the actual processing, and the functions of the above-described embodiments are realized by the processing. May be. Further, after the program code read from the storage medium is written in the memory on the computer, the computer CPU or the like performs part or all of the actual processing based on the instruction of the program code. Thus, the functions of the above-described embodiments may be realized.

さらに、実施の形態の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することにより、それをシステム又は装置のハードディスクやメモリ等の記憶手段又はCD−RW、CD−R等の記憶媒体に格納し、使用時にそのシステム又は装置のコンピュータ(又はCPUやMPU)が当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしても良い。   Further, by distributing the program code of the software that realizes the functions of the embodiment via a network, it is stored in a storage means such as a hard disk or memory of a system or apparatus, or a storage medium such as a CD-RW or CD-R And the computer (or CPU or MPU) of the system or apparatus may read and execute the program code stored in the storage means or the storage medium when used.

最後に、ここで述べたプロセス及び技術は本質的に如何なる特定の装置に関連することはなく、コンポーネントの如何なる相応しい組み合わせによってでも実装できることを理解する必要がある。更に、汎用目的の多様なタイプのデバイスがここで記述した教授に従って使用可能である。ここで述べた方法のステップを実行するのに、専用の装置を構築するのが有益である場合もある。また、実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。本発明は、具体例に関連して記述したが、これらは、すべての観点に於いて限定の為ではなく説明の為である。本分野にスキルのある者には、本発明を実施するのに相応しいハードウェア、ソフトウェア、及びファームウエアの多数の組み合わせがあることが解るであろう。例えば、記述したソフトウェアは、アセンブラ、C/C++、perl、Shell、PHP、Java(登録商標)等の広範囲のプログラム又はスクリプト言語で実装できる。   Finally, it should be understood that the processes and techniques described herein are not inherently related to any particular apparatus, and can be implemented by any suitable combination of components. In addition, various types of devices for general purpose can be used in accordance with the teachings described herein. It may be beneficial to build a dedicated device to perform the method steps described herein. Various inventions can be formed by appropriately combining a plurality of constituent elements disclosed in the embodiments. For example, some components may be deleted from all the components shown in the embodiment. Furthermore, constituent elements over different embodiments may be appropriately combined. Although the present invention has been described with reference to specific examples, these are in all respects illustrative rather than restrictive. Those skilled in the art will appreciate that there are numerous combinations of hardware, software, and firmware that are suitable for implementing the present invention. For example, the described software can be implemented in a wide range of programs or script languages such as assembler, C / C ++, perl, shell, PHP, Java (registered trademark).

さらに、上述の実施形態において、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていても良い。   Furthermore, in the above-described embodiment, control lines and information lines are those that are considered necessary for explanation, and not all control lines and information lines on the product are necessarily shown. All the components may be connected to each other.

加えて、本技術分野の通常の知識を有する者には、本発明のその他の実装がここに開示された本発明の明細書及び実施形態の考察から明らかになる。記述された実施形態の多様な態様及び/又はコンポーネントは、データを管理する機能を有するコンピュータシステムに於いて、単独又は如何なる組み合わせでも使用することが出来る。明細書と具体例は典型的なものに過ぎず、本発明の範囲と精神は後続する請求範囲で示される。   In addition, other implementations of the invention will be apparent to those skilled in the art from consideration of the specification and embodiments of the invention disclosed herein. Various aspects and / or components of the described embodiments can be used alone or in any combination in a computer system capable of managing data. The specification and specific examples are merely exemplary, and the scope and spirit of the invention are indicated in the following claims.

100・・・ファイル情報DB
101・・・フォルダ情報DB
102・・・削除済みファイル情報DB
103・・・中央処理装置
104・・・プログラムメモリ
105・・・データメモリ
106・・・表示装置
107・・・入力装置
108・・・機械学習処理部
109・・・削除ファイル分析処理部
110・・・削除フォルダ分析処理部
111・・・削除候補フォルダツリー登録処理部
112・・・削除候補表示処理部
113・・・ファイル情報
114・・・フォルダ情報
115・・・削除済みファイル情報
116・・・削除候補フォルダツリー
117・・・削除確認フォルダツリー
118・・・削除対象外ファイル
100 ... file information DB
101 ... Folder information DB
102 ... Deleted file information DB
103 ... Central processing unit 104 ... Program memory 105 ... Data memory 106 ... Display device 107 ... Input device 108 ... Machine learning processing unit 109 ... Deleted file analysis processing unit 110 Deletion folder analysis processing unit 111 ... Deletion candidate folder tree registration processing unit 112 ... Deletion candidate display processing unit 113 ... File information 114 ... Folder information 115 ... Deleted file information 116 ... Deletion candidate folder tree 117 ... Deletion confirmation folder tree 118 ... Non-deletable file

Claims (15)

ファイルサーバに保存されている複数のファイルを整理するための支援情報を提供する業務文書処理システムであって、
処理対象ファイルの情報及び処理対象フォルダの情報と、削除済ファイルの情報と、を格納する記憶デバイスと、
前記支援情報を生成し、生成した当該支援情報を提供するプロセッサと、を有し、
前記プロセッサは、
前記削除済ファイルの情報に対して機械学習処理を実行して、前記処理対象ファイルのそれぞれの削除可能確率を算出するファイル削除可能確率算出処理と、
前記処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの前記算出された削除可能確率の偏りを算出して、前記削除可能確率の偏りに基づいて、前記処理対象フォルダについて削除可否を判断するフォルダ削除可否分析処理と、
前記フォルダ削除可否の情報と各フォルダにおける親子関係の情報に基づいて、削除可能なフォルダツリーを示す削除候補フォルダツリー情報を取得する削除候補フォルダツリー取得処理と、
前記削除候補フォルダツリー情報を前記支援情報として出力する支援情報出力処理と、
を実行することを特徴とする業務文書処理システム。
A business document processing system that provides support information for organizing a plurality of files stored in a file server,
A storage device for storing information on the processing target file and information on the processing target folder, and information on the deleted file;
A processor for generating the support information and providing the generated support information,
The processor is
A file deletion probability calculation process for performing a machine learning process on the information of the deleted file and calculating a deletion possibility probability of each of the processing target files;
Folder deletion for calculating whether or not deletion is possible for the processing target folder based on the bias of the deletion possibility calculated by calculating the bias of the calculated deletion possibility of each file and folder immediately below each of the processing target folders Availability analysis processing,
A deletion candidate folder tree acquisition process for acquiring deletion candidate folder tree information indicating a folder tree that can be deleted based on the information on whether or not the folder can be deleted and parent-child relationship information in each folder;
Support information output processing for outputting the deletion candidate folder tree information as the support information;
A business document processing system characterized by executing
請求項1において、
前記プロセッサは、ユーザが前記支援情報に基づいて実際に削除したファイルの情報を前記削除済ファイルの情報に反映させ、前記ファイル削除可能確率算出処理、前記フォルダ削除可否分析処理、及び前記削除候補フォルダツリー取得処理を再度実行することを特徴とする業務文書処理システム。
In claim 1,
The processor reflects the information of the file actually deleted by the user based on the support information in the information of the deleted file, the file deletion probability calculation process, the folder deletion possibility analysis process, and the deletion candidate folder A business document processing system characterized in that tree acquisition processing is executed again.
請求項1において、
前記プロセッサは、さらに、前記各フォルダについて、所有者が全て同一であるファイルのみを格納したフォルダか否か判定するフォルダ所有者判定処理を実行し、
前記プロセッサは、前記フォルダ所有者判定処理によって同一の所有者であると判定されたファイルのみを含むフォルダを、前記削除候補フォルダツリー取得処理の対象とすることを特徴とする業務文書処理システム。
In claim 1,
The processor further executes, for each folder, a folder owner determination process for determining whether or not the folder stores only files having the same owner.
The business document processing system, wherein the processor includes a folder including only files determined to be the same owner by the folder owner determination process as a target of the deletion candidate folder tree acquisition process.
請求項2において、
前記処理対象ファイルの情報は、ファイルサーバにおけるファイルのファイル名、親フォルダのフォルダ名、ファイルサイズ、拡張子、テキスト内容、作成日、更新日、アクセス日、及び所有者の情報のうち少なくとも複数種類のメタ情報を含み、
前記処理対象フォルダの情報は、前記ファイルサーバにおけるフォルダのフォルダ名、当該フォルダが含むファイルの情報、当該フォルダが含むフォルダの情報、当該フォルダが前記ファイルサーバのフォルダツリーにおける階層の位置の情報を含み、
前記削除済ファイルの情報は、過去に削除された複数のファイルのファイル名、親フォルダのフォルダ名、ファイルサイズ、拡張子、テキスト内容、作成日、更新日、アクセス日、所有者、及び削除日の情報のうち少なくとも複数種類のメタ情報を含み、
前記プロセッサは、前記ファイル削除可能確率算出処理において、前記削除済ファイルの前記メタ情報と、前記ユーザが削除不可であると判断したファイルの前記メタ情報と、を用いて前記機械学習処理を実行することを特徴とする業務文書処理システム。
In claim 2,
The processing target file information includes at least a plurality of types of file name, file name of parent folder, file size, extension, text content, creation date, update date, access date, and owner information in the file server. Including meta information,
The information of the processing target folder includes the folder name of the folder in the file server, the information of the file included in the folder, the information of the folder included in the folder, and the position information of the hierarchy in the folder tree of the file server. ,
The deleted file information includes file names of a plurality of previously deleted files, folder names of parent folders, file sizes, extensions, text contents, creation dates, update dates, access dates, owners, and deletion dates. Including at least multiple types of meta information
The processor performs the machine learning process using the meta information of the deleted file and the meta information of the file that the user has determined to be undeleteable in the file deletion probability calculation process. A business document processing system characterized by that.
請求項1において、
前記プロセッサは、前記フォルダ削除可否分析処理において、前記処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの前記算出された削除可能確率の中央値とジニ係数を算出して、当該中央値及びジニ係数を用いて前記処理対象フォルダ内のファイル及びフォルダの削除可能確率の偏りを算出し、当該偏りに基づいて、前記処理対象フォルダについて削除可否を判断することを特徴とする業務文書処理システム。
In claim 1,
The processor calculates a median and a Gini coefficient of the calculated probability of deletion of each file and folder immediately under each of the processing target folders in the folder deletion possibility analysis process, and the median and the Gini coefficient A business document processing system characterized in that a bias of deletion probability of files and folders in the processing target folder is calculated using, and whether or not the processing target folder can be deleted is determined based on the bias.
請求項2において、
前記プロセッサは、前記フォルダ削除可否分析処理において、前記ファイル及びフォルダのジニ係数が第1の閾値以上、かつ前記ファイル及びフォルダの中央値が第2の閾値以上の処理対象フォルダから、前記ファイル及びフォルダの中央値と前記ファイル及びフォルダの削除可能確率の差が第3の閾値以上のファイル又はフォルダを取り除き、当該処理対象フォルダについてファイル及びフォルダの中央値を再度計算し、当該処理対象フォルダの削除可能確率とすることを特徴とする業務文書処理システム。
In claim 2,
In the folder deletion feasibility analysis process, the processor determines whether the file and folder from a processing target folder in which the Gini coefficient of the file and folder is equal to or greater than a first threshold value and the median value of the file and folder is equal to or greater than a second threshold value. The file or folder whose difference between the median value of the file and the folder and the folder can be deleted is equal to or greater than a third threshold, the median value of the file and folder is calculated again for the processing target folder, and the processing target folder can be deleted. A business document processing system characterized by probability.
請求項1において、
前記プロセッサは、前記フォルダ削除可否分析処理において、前記算出した削除可能確率のそれぞれと確率50%との差分の絶対値の平均を用いて、前記処理対象フォルダ内のファイル及びフォルダの削除可能確率の偏りを求め、当該偏りに基づいて、前記処理対象フォルダの削除可否を判断することを特徴とする業務文書処理システム。
In claim 1,
In the folder deletion feasibility analysis process, the processor uses an average of absolute values of differences between the calculated deletion probability and a probability of 50% to determine the deletion probability of files and folders in the processing target folder. A business document processing system characterized by obtaining a bias and determining whether or not the processing target folder can be deleted based on the bias.
請求項1において、
前記プロセッサは、前記フォルダ削除可否分析処理を、前記ファイルサーバにおける最下層のフォルダからルートフォルダの順で行うことによって削除可能なフォルダツリーを検知することを特徴とする業務文書処理システム。
In claim 1,
The business document processing system, wherein the processor detects the folder tree that can be deleted by performing the folder deletion possibility analysis processing in the order of the lowest folder in the file server in order from the root folder.
請求項1において、
前記プロセッサは、前記処理対象フォルダの直下にあるファイル及びフォルダの削除可能確率を基にクラスタリングを行い、削除可能なフォルダツリーを検知することを特徴とする業務文書処理システム。
In claim 1,
The business document processing system, wherein the processor performs clustering based on a deletion probability of files and folders directly under the processing target folder and detects a deleteable folder tree.
請求項8において、
前記プロセッサは、前記支援情報出力処理において、前記削除可能なフォルダツリーにおけるルートフォルダについてリスト表示することを特徴とする業務文書処理システム。
In claim 8,
The business document processing system, wherein the processor displays a list of root folders in the deleteable folder tree in the support information output processing.
請求項10において、
前記プロセッサは、前記リスト表示の中で前記削除可能なフォルダツリーにおけるファイル群の合計ファイルサイズ及び前記ファイルサーバ全体に対する合計ファイルサイズの割合、合計ファイル数及び前記ファイルサーバ全体に対するファイル数の合計の割合を表示することを特徴とする業務文書処理システム。
In claim 10,
The processor includes: a total file size of a file group in the folder tree that can be deleted in the list display; a ratio of the total file size to the entire file server; a total number of files; and a ratio of the total number of files to the entire file server Business document processing system characterized by displaying
請求項10において、
前記プロセッサは、前記リスト表示を合計ファイルサイズ又は合計ファイルについて降順にソートすることを特徴とする業務文書処理システム。
In claim 10,
The business document processing system, wherein the processor sorts the list display in descending order with respect to a total file size or a total file.
請求項8において、
前記プロセッサは、前記支援情報出力処理において、前記削除可能なフォルダツリーを表示し、当該表示されたフォルダツリーからのフォルダの選択アクションに応答して、当該選択されたフォルダが含むファイルと削除対象外となったファイルを区別して表示することを特徴とする業務文書処理システム。
In claim 8,
In the support information output process, the processor displays the folder tree that can be deleted, and responds to a folder selection action from the displayed folder tree and excludes the file included in the selected folder and the deletion target. A business document processing system that distinguishes and displays different files.
請求項13において、
前記プロセッサは、前記表示されたフォルダツリーにおいて前記削除対象外となったファイルを含むフォルダを他のフォルダと区別して表示することを特徴とする業務文書処理システム。
In claim 13,
The business document processing system, wherein the processor displays a folder including a file that is excluded from the deletion target in the displayed folder tree in distinction from other folders.
コンピュータシステムを、ファイルサーバに保存されている複数のファイルを整理するための支援情報を提供する業務文書処理システムとして動作させるためのプログラムであって、
前記コンピュータシステムは、プロセッサと、処理対象ファイルの情報及び処理対象フォルダの情報と、削除済ファイルの情報と、を格納する記憶デバイスと、を有し、
前記プログラムは、前記プロセッサに、
前記削除済ファイルの情報に対して機械学習処理を実行して、前記処理対象ファイルのそれぞれの削除可能確率を算出するファイル削除可能確率算出処理と、
前記処理対象フォルダのそれぞれの直下の各ファイル及びフォルダの前記算出された削除可能確率の偏りを算出して、前記削除可能確率の偏りに基づいて、前記処理対象フォルダについて削除可否を判断するフォルダ削除可否分析処理と、
前記フォルダ削除可否の情報と各フォルダにおける親子関係の情報に基づいて、削除可能なフォルダツリーを示す削除候補フォルダツリー情報を取得する削除候補フォルダツリー取得処理と、
前記削除候補フォルダツリー情報を前記支援情報として出力する支援情報出力処理と、
を実行することを特徴とするプログラム。
A program for operating a computer system as a business document processing system that provides support information for organizing a plurality of files stored in a file server,
The computer system includes a processor, a storage device that stores information on a processing target file and information on a processing target folder, and information on a deleted file.
The program is stored in the processor.
A file deletion probability calculation process for performing a machine learning process on the information of the deleted file and calculating a deletion possibility probability of each of the processing target files;
Folder deletion for calculating whether or not deletion is possible for the processing target folder based on the bias of the deletion possibility calculated by calculating the bias of the calculated deletion possibility of each file and folder immediately below each of the processing target folders Availability analysis processing,
A deletion candidate folder tree acquisition process for acquiring deletion candidate folder tree information indicating a folder tree that can be deleted based on the information on whether or not the folder can be deleted and parent-child relationship information in each folder;
Support information output processing for outputting the deletion candidate folder tree information as the support information;
A program characterized by executing
JP2012156828A 2012-07-12 2012-07-12 Business document processing system and program Expired - Fee Related JP5912949B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012156828A JP5912949B2 (en) 2012-07-12 2012-07-12 Business document processing system and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012156828A JP5912949B2 (en) 2012-07-12 2012-07-12 Business document processing system and program

Publications (2)

Publication Number Publication Date
JP2014021552A true JP2014021552A (en) 2014-02-03
JP5912949B2 JP5912949B2 (en) 2016-04-27

Family

ID=50196409

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012156828A Expired - Fee Related JP5912949B2 (en) 2012-07-12 2012-07-12 Business document processing system and program

Country Status (1)

Country Link
JP (1) JP5912949B2 (en)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146752A (en) * 2016-02-17 2017-08-24 日本電気株式会社 Arrangement candidate recommendation device, arrangement candidate recommendation method, and arrangement candidate recommendation program
US20170353619A1 (en) * 2016-06-06 2017-12-07 Canon Kabushiki Kaisha Image forming apparatus, control method for the same, storage medium, and data processing apparatus
JP2020522782A (en) * 2017-05-24 2020-07-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation How to estimate the deletability of a data object
US11169966B2 (en) 2019-03-14 2021-11-09 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing information processing program for hidden file tracing

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225704A (en) * 1994-02-10 1995-08-22 Fuji Xerox Co Ltd File managing device
JP2006031464A (en) * 2004-07-16 2006-02-02 Canon Inc Document management method and apparatus
JP2006302010A (en) * 2005-04-21 2006-11-02 Kyocera Mita Corp Information processor
JP2010237725A (en) * 2009-03-30 2010-10-21 Hitachi Software Eng Co Ltd File server operation support device, method, program and recording medium
JP2011059919A (en) * 2009-09-09 2011-03-24 Fujitsu Ltd Information management device, information management method, and information management program

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07225704A (en) * 1994-02-10 1995-08-22 Fuji Xerox Co Ltd File managing device
JP2006031464A (en) * 2004-07-16 2006-02-02 Canon Inc Document management method and apparatus
JP2006302010A (en) * 2005-04-21 2006-11-02 Kyocera Mita Corp Information processor
JP2010237725A (en) * 2009-03-30 2010-10-21 Hitachi Software Eng Co Ltd File server operation support device, method, program and recording medium
JP2011059919A (en) * 2009-09-09 2011-03-24 Fujitsu Ltd Information management device, information management method, and information management program

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017146752A (en) * 2016-02-17 2017-08-24 日本電気株式会社 Arrangement candidate recommendation device, arrangement candidate recommendation method, and arrangement candidate recommendation program
US20170353619A1 (en) * 2016-06-06 2017-12-07 Canon Kabushiki Kaisha Image forming apparatus, control method for the same, storage medium, and data processing apparatus
US10659646B2 (en) * 2016-06-06 2020-05-19 Canon Kabushiki Kaisha Image forming apparatus configured to manage storage of documents, control method for the same, storage medium, and data processing apparatus
JP2020522782A (en) * 2017-05-24 2020-07-30 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation How to estimate the deletability of a data object
US10956453B2 (en) 2017-05-24 2021-03-23 International Business Machines Corporation Method to estimate the deletability of data objects
JP7038143B2 (en) 2017-05-24 2022-03-17 インターナショナル・ビジネス・マシーンズ・コーポレーション How to estimate the deleteability of a data object
US11169966B2 (en) 2019-03-14 2021-11-09 Fujifilm Business Innovation Corp. Information processing apparatus and non-transitory computer readable medium storing information processing program for hidden file tracing

Also Published As

Publication number Publication date
JP5912949B2 (en) 2016-04-27

Similar Documents

Publication Publication Date Title
JP5346506B2 (en) File management device
JP4041080B2 (en) Data search device and data search program
US20160259786A1 (en) Methods, Systems, And Computer Program Products For Automatically Associating Data With A Resource As Metadata Based On A Characteristic Of The Resource
US7493323B2 (en) Document group analyzing apparatus, a document group analyzing method, a document group analyzing system, a program, and a recording medium
US9030502B2 (en) System and method for organizing documents
CN107291949B (en) Information searching method and device
US20180025003A1 (en) Automatic Detection and Transfer of Relevant Image Data to Content Collections
JP5912949B2 (en) Business document processing system and program
US20230214091A1 (en) Multimedia object arrangement method, electronic device, and storage medium
JP2011128777A (en) Operation monitoring apparatus
CN102541988A (en) Document management apparatus and method for controlling same
JP5512570B2 (en) Document processing apparatus, file server management support method, and file server management support program
JP2011076396A (en) Metadata setting method, metadata setting system and program
US8832146B2 (en) Using structured data for online research
JP5753056B2 (en) Search device, document management method, and document search system
US10782947B2 (en) Systems and methods of diagram transformation
US20170262439A1 (en) Information processing apparatus and non-transitory computer readable medium
WO2014061303A1 (en) Information processing device and program
US9208224B2 (en) Business content hierarchy
US20110302384A1 (en) Computer readable medium storing information processing program, information processing apparatus, and information processing method
JP2021067962A (en) Information processing system and information processing method
JP6636235B2 (en) Document management apparatus, document management method, and program
CN117312774A (en) Intelligent aggregation visualization and management and control system for big data
JP6107505B2 (en) File search program, file search method, and file search device
JP2023057658A (en) Information processing device, method executed by computer to provide information, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150126

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20151009

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20151110

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160108

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160308

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160401

R150 Certificate of patent or registration of utility model

Ref document number: 5912949

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees