JP2013206280A - Deletion file detection program, deletion file detection method and deletion file detection device - Google Patents
Deletion file detection program, deletion file detection method and deletion file detection device Download PDFInfo
- Publication number
- JP2013206280A JP2013206280A JP2012076350A JP2012076350A JP2013206280A JP 2013206280 A JP2013206280 A JP 2013206280A JP 2012076350 A JP2012076350 A JP 2012076350A JP 2012076350 A JP2012076350 A JP 2012076350A JP 2013206280 A JP2013206280 A JP 2013206280A
- Authority
- JP
- Japan
- Prior art keywords
- file
- similar
- files
- deletion
- update date
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、削除ファイル検出プログラム、削除ファイル検出方法、及び、削除ファイル検出装置に関する。 The present invention relates to a deleted file detection program, a deleted file detection method, and a deleted file detection apparatus.
近年、サーバ上に複数のユーザによる使用を許可する共有フォルダを有し、共有フォルダを介して、情報交換を行う場面が増えている。このような共有フォルダでは、共有フォルダの容量管理が適切に行われないことにより、アクセスの遅延や容量不足による新規ファイルの格納の失敗が発生する。また、例えば、共有フォルダが容量制限付きのディスク上に生成された場合、格納ファイルの総量が制限量に達した場合に削除メッセージが通知される。 In recent years, there is an increasing number of scenes where a server has a shared folder that is allowed to be used by a plurality of users and information is exchanged via the shared folder. In such a shared folder, the capacity management of the shared folder is not properly performed, so that a new file storage failure occurs due to access delay or insufficient capacity. Also, for example, when a shared folder is created on a disk with a capacity limit, a delete message is notified when the total amount of stored files reaches the limit.
また、個人のパソコン(以下、PC)においても、ファイルの削除が適切に行われない場合、不要なファイルが蓄積される。これにより、同様にして、アクセス遅延や新規ファイルの格納の失敗が発生する。さらに、不要なファイルが増加することにより、必要なファイルを探す際の効率が悪くなる。 In addition, even in a personal computer (hereinafter referred to as a PC), unnecessary files are accumulated if the files are not deleted appropriately. As a result, similarly, an access delay or a failure to store a new file occurs. Furthermore, since the number of unnecessary files increases, the efficiency when searching for the necessary files is deteriorated.
このように、削除メッセージが通知された場合や、不要ファイルが蓄積された場合、ユーザは、ファイルの有効期限や最終アクセスからの経過時間、ファイル属性として付与された削除属性等に基づいて、不要なファイルを自ら選択し削除する。 In this way, when a deletion message is notified or unnecessary files are accumulated, the user is not required based on the expiration date of the file, the elapsed time from the last access, the deletion attribute assigned as the file attribute, etc. Select and delete the correct files.
しかしながら、新規ファイルの格納が失敗したことによるその場限りのファイル削除では、蓄積された不要なファイルの削除処理が十分に行われない。これにより、再び、ファイルの削除処理が必要となってしまう。しかしながら、不要ファイルの判定を行うために、ファイルに有効期限や削除属性等を付与することは、ユーザの処理を煩雑にしてしまう。 However, in the case of temporary file deletion due to the failure of storing a new file, the accumulated unnecessary files are not sufficiently deleted. This again necessitates a file deletion process. However, assigning an expiration date, a deletion attribute, or the like to a file to determine an unnecessary file complicates the user's processing.
削除ファイル検出については、例えば、特許文献1に記載される。
The deletion file detection is described in
本発明は、フォルダから削除候補のファイルを自動的に検出可能にする削除ファイル検出プログラム、削除ファイル検出方法、及び、削除ファイル検出装置を提供することにある。 An object of the present invention is to provide a deletion file detection program, a deletion file detection method, and a deletion file detection device that can automatically detect a deletion candidate file from a folder.
第1の側面は、フォルダに格納された複数のファイルのうち削除候補のファイルを検出する削除ファイル検出処理をコンピュータに実行させるコンピュータ読み取り可能な削除ファイル検出プログラムであって、前記削除ファイル検出処理は、前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出工程と、抽出された前記複数の類似ファイルのうち、更新日時が1つ古い類似ファイルとのファイル内のコード情報の変化率が前記更新日時が新しくなるに連れて低減する一連のファイル群、または、当該変化率の差分が基準範囲内に収まる一連のファイル群を検出し、当該一連のファイル群のうち、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出工程と、を有する。 A first aspect is a computer-readable deletion file detection program for causing a computer to execute a deletion file detection process for detecting a deletion candidate file among a plurality of files stored in a folder, wherein the deletion file detection process includes: , A similar file extraction step for extracting a plurality of similar files having similar file names from the plurality of files, and a code in the file of the extracted similar files having a date of update one older from the plurality of similar files A series of file groups in which the rate of change of information is reduced as the update date is updated, or a series of file groups in which the difference in the rate of change falls within a reference range, and among the series of file groups, Similar files with the latest update date and time are not candidates for deletion, and other similar files are candidates for deletion Having a detection step of detecting by.
第1の側面によれば、本発明は、フォルダから削除候補のファイルを自動的に検出可能にする。 According to the first aspect, the present invention enables a deletion candidate file to be automatically detected from a folder.
以下、図面にしたがって本発明の実施の形態について説明する。ただし、本発明の技術的範囲はこれらの実施の形態に限定されず、特許請求の範囲に記載された事項とその均等物まで及ぶものである。 Hereinafter, embodiments of the present invention will be described with reference to the drawings. However, the technical scope of the present invention is not limited to these embodiments, but extends to the matters described in the claims and equivalents thereof.
[削除ファイル検出装置の構成]
図1は、削除ファイル検出装置を示すコンピュータ1の構成の一例を示す図である。同図のコンピュータ1は、例えば、メモリ10、プロセッサ11、外部インタフェース12を有し、お互いにバス13を介して接続される。メモリ10は、削除ファイル検出プログラム20と、当該削除ファイル検出プログラム20の処理の対象である対象フォルダFLとを有する。削除ファイル検出プログラム20は、プロセッサ11と協働することによって、対象フォルダFLに格納された複数のファイルから削除候補のファイルを検出する。また、例えば、メモリ10には、削除ファイル検出プログラム20によって検出された削除候補ファイルが格納される削除候補フォルダDFLが生成される。
[Configuration of Deleted File Detection Device]
FIG. 1 is a diagram showing an example of the configuration of a
なお、対象フォルダFLは、コンピュータ1と外部インタフェース14を介して接続された外付けの外部メモリ30に保持されていてもよい。または、対象フォルダFLは、コンピュータ1とネットワークを介して接続された別のコンピュータ(図示せず)のメモリに保持されていてもよい。削除候補フォルダDFLについても、同様である。
Note that the target folder FL may be held in an external
[削除ファイル検出プログラム20]
一般的に、ファイルの更新を重ねる場面において、ユーザは、主にバックアップを目的として更新対象のファイルの複製を作成しながらファイルの更新処理を行う。このとき、同一フォルダには同一名のファイルを生成できないことから、ユーザは、ファイル名を変更して複製ファイルを生成する。これにより、一連のファイルの更新処理によって、更新経過のファイル名が少しずつ異なるファイルが蓄積されていく。また、ファイルが更新されていく過程で、ファイル名が変更されることもある。
[Deleted File Detection Program 20]
In general, when a file is repeatedly updated, the user performs a file update process while creating a copy of the file to be updated mainly for the purpose of backup. At this time, since a file with the same name cannot be generated in the same folder, the user changes the file name and generates a duplicate file. As a result, files with slightly different file names are accumulated by a series of file update processes. The file name may be changed in the process of updating the file.
本実施の形態例における削除ファイル検出プログラム20は、このように、一連のファイルの更新処理によって生成された類似ファイルから、各ファイルの内容に基づいて、削除候補の類似ファイルを検出する。そのため、削除ファイル検出プログラム20は、まず、処理対象のフォルダFLに格納された複数のファイルから類似ファイルを抽出する。ここで、類似ファイルについて説明する。
In this way, the deleted
[類似ファイル]
本実施の形態例における類似ファイルとは、対象フォルダFLに格納されたファイルのうち、ファイルの名前が類似するファイルを示す。具体的に、例えば、類似ファイルとは、ファイル作成ユーザ及び拡張子が同一のファイルであって、ファイル内容名が類似する複数のファイルを示す。
[Similar files]
The similar file in the present embodiment indicates a file having a similar file name among the files stored in the target folder FL. Specifically, for example, a similar file refers to a plurality of files having the same file creation user name and file extension, and similar file content names.
ファイル内容名とは、ファイル名から、拡張子、接頭語(以下、プレフィックス)及び接尾語(以下、サフィックス)を除いた名前を示す。ファイル名におけるプレフィックス、サフィックスは、例えば、ファイルの内容に関する付属的な情報に相当する。例えば、ファイル名には、プレフィックスとして、ISOの文書管理番号や、「議事録」「お知らせ」等の文書のカテゴリ、日付等の情報が付与される。また、サフィックスとして、例えば、日付や版番号、人名等の情報が付与される。 The file content name is a name obtained by removing an extension, a prefix (hereinafter, prefix) and a suffix (hereinafter, suffix) from the file name. The prefix and suffix in the file name correspond to, for example, ancillary information regarding the contents of the file. For example, information such as ISO document management number, document category such as “minutes”, “notice”, date, etc. is added to the file name as a prefix. For example, information such as date, version number, and person's name is given as a suffix.
具体的に、例えば、ファイル名が「Rep1234_A製品の打合せ開催について−20120220.doc」である場合のファイル内容名について例示する。当該ファイル名において、プレフィックスはRep1234、サフィックスは20120220に該当する。これにより、ファイル内容名として「A製品の打合せ開催について」が抽出される。このように、ファイル内容名は、より実質的なファイルの内容を表す。ファイル内容名の抽出処理の詳細については、後述する。 Specifically, for example, the file content name in the case where the file name is “Rep1234_A product meeting held--20120220.doc” is illustrated. In the file name, the prefix corresponds to Rep1234 and the suffix corresponds to 20120220. As a result, “About A Product Meeting” is extracted as the file content name. Thus, the file content name represents a more substantial file content. Details of the file content name extraction process will be described later.
そして、本実施の形態例における削除ファイル検出プログラム20は、抽出された複数の類似ファイルから、当該類似ファイルのコード情報の変化率に基づいて、削除候補のファイルを検出する。本実施の形態例では、2つの検出方法について説明する。
Then, the deletion
第1の検出方法として、本実施の形態例における削除ファイル検出プログラム20は、複数の類似ファイルのうち、変化率が更新日時が新しくなるに連れて低減する一連のファイル群、または、変化率の差分が基準範囲内に収まる一連のファイル群を検出し、当該一連のファイル群のうち、更新日時が最新の類似ファイル以外の類似ファイルを削除候補として検出する。変化率とは、更新日時が1つ古い類似ファイルとのファイル内のコード情報の変化率を示す。
As a first detection method, the deleted
また、第2の検出方法として、本実施の形態例における削除ファイル検出プログラム20は、抽出された複数の類似ファイルについて、更新日時が1つ新しい類似ファイルとの変化率が基準変化率以上であり、当該変化率が更新日時の1つ古い類似ファイルとの変化率よりも大きい類似ファイル、及び、更新日時が最新の類似ファイル以外の類似ファイルを削除候補として検出する。
As a second detection method, the deletion
ここで、本実施の形態例における削除ファイル検出プログラム20によって検出される削除候補ファイルの例を具体例に基づいて説明する。初めに、第1の方法によって検出される削除候補ファイルについて例示する。
Here, an example of the deletion candidate file detected by the deletion
[具体例:変化率が時系列に低減]
図2は、変化率が、更新日時が新しくなるに連れて低減する一連のファイル群の具体例を示す図である。同図では、5つの類似ファイルが、更新日時の古い順に1版から5版として例示される。更新日時とは、最終更新日時のことを示す。同図において、各版のファイルの網掛け部分cgは、1つ前の版のファイルのコード情報に対して、更新、削除、または追加されたコード情報を示す。また、変化率は、更新日時が1つ古い類似ファイル、即ち、1つ前の版のファイルからのコード情報の変化の度合いを示す。また、同図下のグラフgf1における横軸は版、縦軸は変化率、及び、1版からの累積変化率を示す。累積変化率は実線、変化率は点線で表される。
[Specific example: Change rate is reduced in time series]
FIG. 2 is a diagram showing a specific example of a series of file groups in which the rate of change decreases as the update date and time becomes new. In the figure, five similar files are exemplified as the first to fifth editions in order from the oldest update date. The update date / time indicates the last update date / time. In the figure, the shaded portion cg of each version of the file indicates code information that has been updated, deleted, or added to the code information of the previous version of the file. The change rate indicates the degree of change in code information from a similar file whose update date is one older, that is, from the previous version file. In the graph gf1 at the bottom of the figure, the horizontal axis indicates the plate, the vertical axis indicates the change rate, and the cumulative change rate from the first plate. The cumulative rate of change is represented by a solid line, and the rate of change is represented by a dotted line.
図2によると、1版のファイルから2版のファイルへの変化率は50%である。これは、例えば、1版のファイルにおけるコード情報の50%が、2版のファイルにおいて更新、削除、または追加されていることを示す。また、この例では、3版のファイルへの変化率は20%、4版のファイルへの変化率は10%、5版のファイルへの変化率は5%である。つまり、この例では、2版から5版にかけてファイルの変化率が低減している。このため、図2のグラフgf1では、2版から5版までの変化率は、点線B1のように、右下がりの変移を描く。また、各版の累積変化率は、線A1のように、傾きが緩やかになるように変移する。 According to FIG. 2, the rate of change from the first version file to the second version file is 50%. This indicates, for example, that 50% of the code information in the first-version file is updated, deleted, or added in the second-version file. In this example, the change rate to the 3rd version file is 20%, the change rate to the 4th version file is 10%, and the change rate to the 5th version file is 5%. That is, in this example, the rate of change of the file is reduced from the 2nd version to the 5th version. For this reason, in the graph gf1 of FIG. 2, the change rate from the 2nd version to the 5th version draws a downward transition as indicated by the dotted line B1. Further, the cumulative change rate of each plate changes so that the inclination becomes gentle as shown by a line A1.
このように、一連の類似ファイルの変化率が版を重ねる毎に低減していく場面は、例えば、新しくファイルを生成し、更新を重ねてファイルを完成させるような場合に相当する。このような場面において、一連の類似ファイル群の変化率には、更新日時が新しくなるに連れて、ゼロに向かって収束していく傾向がみられる。このような場合、一連のファイル群における更新日時が最新の5版のファイル以外の類似ファイルについては、完成するまでの更新過程のファイルに相当するため、有用性の低いファイルとして判定される。 In this way, the scene in which the change rate of a series of similar files decreases each time the plates are overlapped corresponds to, for example, a case where a new file is generated and updated to complete the file. In such a situation, the change rate of a series of similar files tends to converge toward zero as the update date and time becomes new. In such a case, similar files other than the latest five-version files in the series of file groups correspond to files in the update process until completion, and thus are determined as low useful files.
そこで、本実施の形態例における削除ファイル検出プログラム20は、複数の類似ファイルのうち、変化率が、更新日時が新しくなるに連れて低減する一連のファイル群を検出すると、当該一連のファイル群のうち、更新日時が最新の類似ファイル以外の類似ファイルを削除候補として検出する。つまり、削除ファイル検出プログラム20は、1版から5版までの類似ファイルのうち、1版から4版までの類似ファイルを削除候補のファイルとして検出する。
Therefore, when the deletion
[具体例:変化率が略一定]
図3は、変化率の差分が一定の基準範囲内に収まる一連の類似ファイル群の具体例を示す図である。図2と同様にして、5つの類似ファイルが、更新日時の古い順に1版から5版として例示される。また、同図下のグラフgf2では、各版のファイルの変化率及び累積変化率が表される。同図の例において、網掛け部分cgで表される2版から5版のファイルにおける変更されたコード情報の度合いは、ほぼ同等である。また、この例において、変化率の基準範囲は、例えば、5%である。
[Specific example: Change rate is almost constant]
FIG. 3 is a diagram showing a specific example of a series of similar file groups in which the difference in change rate falls within a certain reference range. Similarly to FIG. 2, five similar files are exemplified as
具体的に、図3において、2版のファイルへの変化率は20%、3版のファイルへの変化率は18%、4版のファイルへの変化率は22%、5版のファイルの変化率は20%である。つまり、各版のファイルの変化率は約20%であり、変化率の差分は4%以内に収められている。つまり、各版の変化率の差分は基準範囲内に収められている。このため、グラフgf2における2版から5版までの変化率は、点線B2のように、直線に近い変移を描く。また、各版の累積変化率は、線A2のように、傾きがほぼ一定に変移する。 Specifically, in FIG. 3, the rate of change to the 2nd version file is 20%, the rate of change to the 3rd version file is 18%, the rate of change to the 4th version file is 22%, and the change of the 5th version file The rate is 20%. That is, the change rate of each version of the file is about 20%, and the difference between the change rates is within 4%. In other words, the difference in change rate of each version is within the reference range. For this reason, the change rate from the 2nd version to the 5th version in the graph gf2 draws a transition close to a straight line as indicated by a dotted line B2. In addition, the cumulative change rate of each plate changes in slope almost constant as shown by a line A2.
このように、一連の類似ファイル群の変化率の差分が一定の範囲内に収められる場面は、例えば、完成されたファイルに対して定型的な更新が行われる場合に相当する。これは、例えば、雛形ファイルに対して、ファイル内の定位置に配置された人名や日付等のコード情報を更新する場面を示す。このような場合、一連のファイル群における更新日時が最新の5版のファイル以外の類似ファイルについては、保持しておく必要性の低いファイルとして判定される。 As described above, a scene in which the difference between the change rates of a series of similar files is within a certain range corresponds to, for example, a case where a regular update is performed on a completed file. This shows, for example, a scene in which code information such as a person name and date arranged at a fixed position in the file is updated with respect to the template file. In such a case, similar files other than the latest five-version files in the series of file groups are determined as files that need not be retained.
そこで、本実施の形態例における削除ファイル検出プログラム20は、複数の類似ファイルのうち、変化率の差分が基準範囲内に収まる一連のファイル群を検出すると、当該一連のファイル群のうち、更新日時が最新の類似ファイル以外の類似ファイルを削除候補として検出する。つまり、削除ファイル検出プログラム20は、1版から5版までの類似ファイルのうち、1版から4版までの類似ファイルを削除候補のファイルとして検出する。
Therefore, when the deleted
ところで、ファイルの更新を重ねる場面では、一連の更新処理の流れが、複数の変更フェーズを有することがある。これは、一連の更新処理の流れにおいて、図2、図3で示したような変化率の変移が、複数回に渡って発生する場合を示す。続いて、一連の更新処理の流れが、複数の変更フェーズを有する場合の具体例について説明する。 By the way, in the scene where the file is repeatedly updated, the flow of a series of update processes may have a plurality of change phases. This shows a case where the change in the change rate as shown in FIGS. 2 and 3 occurs a plurality of times in a series of update processing flows. Subsequently, a specific example in a case where a series of update processing flows has a plurality of change phases will be described.
[具体例:変化率の変移の別の例]
図4は、複数の類似ファイルにおける変化率の変移の別の具体例について説明する図である。同図において、横軸は時間の経過を示し、時間t0〜t9は類似ファイルF0〜F9の更新日時を示す。また、縦軸は各類似ファイルの累積変化率を示す。
[Specific example: Another example of change in rate of change]
FIG. 4 is a diagram for explaining another specific example of the change of the change rate in a plurality of similar files. In the figure, the horizontal axis indicates the passage of time, and the times t0 to t9 indicate the update dates and times of the similar files F0 to F9. The vertical axis indicates the cumulative change rate of each similar file.
図4の例では、10個の類似ファイルF0〜F9のうち、一部の一連の類似ファイルについて、更新日時が新しくなるに連れて変化率が低減している。具体的に、類似ファイルF0〜F9のうち、類似ファイルF0〜F3(G1)、類似ファイルF4〜F6(G2)、類似ファイルF7〜F9(G3)の変化率について、更新日時が新しくなるに連れて低減している。つまり、同図の例は、一連の更新処理の流れにおいて、3つの変更フェーズが存在する場合を示す。 In the example of FIG. 4, the rate of change decreases as the update date and time of a part of a series of similar files out of the ten similar files F <b> 0 to F <b> 9. Specifically, among the similar files F0 to F9, with respect to the rate of change of the similar files F0 to F3 (G1), the similar files F4 to F6 (G2), and the similar files F7 to F9 (G3), the update date and time becomes new. Has been reduced. That is, the example of FIG. 4 shows a case where there are three change phases in a series of update processing flows.
このように、一連の更新処理の流れにおいて、複数の変更フェーズが存在する場合についても、各変更フェーズにおける更新日時が最新のファイルを除くファイルが、当該変更フェーズにおける変更過程のファイルに相当すると判定され、削除候補として検出される。本実施の形態例における削除ファイル検出プログラム20は、更新日時が新しくなるに連れて変化率が低減する一連のファイル群G1〜G3を複数検出した場合、各ファイル群G1〜G3における更新日時が最新の類似ファイルF3、F6、F9を除く類似ファイルを削除候補ファイルとして検出する。これにより、図4において黒丸で示した類似ファイルF0〜F2、F4、F5、F7、F8が削除対象のファイルとして抽出される。
As described above, even when there are a plurality of change phases in the flow of a series of update processes, it is determined that the files other than the file with the latest update date and time in each change phase correspond to the files in the change process in the change phase. And detected as a deletion candidate. When the deletion
ここまでは、第1の方法によって検出される削除候補ファイルについて例示した。続いて、第2の方法に基づく削除候補ファイルの検出について説明する。 Up to this point, the deletion candidate file detected by the first method has been illustrated. Subsequently, detection of a deletion candidate file based on the second method will be described.
第2の方法によると、削除ファイル検出プログラム20は、複数の類似ファイルのうち、更新日時が最新の類似ファイルに加えて、更新日時が1つ新しい類似ファイルとのファイル内のコード情報の変化率が基準変化率以上であり、当該変化率が更新日時の1つ古い類似ファイルとの変化率よりも大きい類似ファイル以外の類似ファイルを削除候補とする。図4の例において、基準変化率は、例えば、30%であるものとする。
According to the second method, the deletion
第2の方法では、大幅な変更が行われ、当該変更の度合いが更新日時の1つ古いファイルにおける変更度合いよりも大きい場合、当該変更の変更元ファイルが、更新日時が最新の類似ファイルに加えて、削除候補外の類似ファイルとして検出される。 In the second method, when a significant change is made and the degree of the change is greater than the degree of change in the file one older than the update date, the change source file of the change is added to the similar file with the latest update date. Thus, it is detected as a similar file that is not a candidate for deletion.
具体的に、図4の例において、類似ファイルF3と類似ファイルF4との変化率d3−4は、例えば35%であり、基準変化率を上回る。また、変化率d3−4は、類似ファイルF3と類似ファイルF2との変化率d2−3よりも大きい。このため、類似ファイルF3は、更新日時が1つ新しい類似ファイル(F4)との変化率が基準変化率以上であり、当該変化率が更新日時の1つ古い類似ファイル(F2)との変化率よりも大きい類似ファイルに該当する。したがって、類似ファイルF3は、削除候補対象外のファイルとして検出される。 Specifically, in the example of FIG. 4, the change rate d3-4 between the similar file F3 and the similar file F4 is, for example, 35%, which exceeds the reference change rate. The change rate d3-4 is larger than the change rate d2-3 between the similar file F3 and the similar file F2. Therefore, the rate of change of the similar file F3 with the similar file (F4) whose update date is one new is equal to or higher than the standard rate of change, and the rate of change with the similar file (F2) whose update date is one old. This applies to similar files that are larger than. Therefore, the similar file F3 is detected as a file that is not a candidate for deletion.
同様にして、類似ファイルF6と類似ファイルF7との変化率d6−7についても、例えば、35%であり、基準変化率を上回る。また、変化率d6−7は、類似ファイルF6と類似ファイルF5との変化率d5−6よりも大きい。このため、類似ファイルF6についても、削除候補対象外のファイルとして検出される。そこで、検出された類似ファイルF3、F6に加えて、更新日時が最新のファイルF9を除外する類似ファイルが、削除候補ファイルとして検出される。 Similarly, the change rate d6-7 between the similar file F6 and the similar file F7 is, for example, 35%, which exceeds the reference change rate. The change rate d6-7 is larger than the change rate d5-6 between the similar file F6 and the similar file F5. For this reason, the similar file F6 is also detected as a file that is not a candidate for deletion. Therefore, in addition to the detected similar files F3 and F6, similar files excluding the file F9 with the latest update date and time are detected as deletion candidate files.
第2の検出方法によって検出された類似ファイルF3、F6は、大幅な変更が行われたファイルである。また、当該ファイルについて、更新日時が1つ新しいファイルとの変化率は、更新日時が1つ古いファイルとの変化率よりも大きい。これは、ファイルの更新が一旦収束したファイルに対して、大幅な変更が行われるような場面に相当する。このため、大幅な変更時の変更元ファイルとして参照される可能性が高く、有用性が高い。このため、削除候補から除外される。 Similar files F3 and F6 detected by the second detection method are files that have undergone significant changes. In addition, the rate of change of the file with the file with the newest update date is larger than the rate of change with the file with the oldest update date. This corresponds to a scene in which a significant change is made to a file once the file update has converged. For this reason, there is a high possibility of being referred to as a change source file at the time of a large change, and the utility is high. For this reason, it is excluded from deletion candidates.
なお、第2の方法において、削除候補の除外ファイルとして検出される類似ファイルF3、F6は、ファイルの更新が一旦収束したファイルに対して大幅な変更が行われた場合の変更元ファイルに相当することから、変更フェーズの最終ファイルに該当することがある。このため、図4の例では、削除候補の除外ファイルが第1の方法と同一となっている。 In the second method, the similar files F3 and F6 detected as the deletion candidate excluded files correspond to the change source files when the file update has converged once. Therefore, it may correspond to the final file of the change phase. For this reason, in the example of FIG. 4, the deletion candidate exclusion file is the same as in the first method.
続いて、別の具体例に基づいて、更新日時の間隔に基づいて検出される削除候補ファイルについて説明する。 Next, a deletion candidate file that is detected based on the update date and time interval will be described based on another specific example.
[具体例:変化率の変移の別の例2]
図5は、複数の類似ファイルにおける変化率の変移の別の具体例について説明する図である。同図において、横軸は時間の経過を示し、時間t10〜t19は類似ファイルF10〜F19の更新日時を示す。また、縦軸は各類似ファイルの累積変化率を示す。
[Specific example: Another example 2 of change in rate of change]
FIG. 5 is a diagram for explaining another specific example of the change of the change rate in a plurality of similar files. In the figure, the horizontal axis indicates the passage of time, and the times t10 to t19 indicate the update dates and times of the similar files F10 to F19. The vertical axis indicates the cumulative change rate of each similar file.
まず、第1の方法に基づいて検出される削除候補ファイルについて説明する。図5の例において、類似ファイルF10〜F19のうち、一連の類似ファイルF10〜F13(G11)の変化率の差分が基準範囲内に収められ、一連の類似ファイルF14〜F19(G12)の変化率が、更新日時が新しくなるに連れて低減する。つまり、図5の例は、類似ファイル群G11、G12を有する。そこで、削除ファイル検出プログラム20は、類似ファイル群G11、G12のうち、更新日時が最新の類似ファイルF13、F19を除くファイルを削除候補ファイルとする。
First, the deletion candidate file detected based on the first method will be described. In the example of FIG. 5, among the similar files F10 to F19, the difference in the change rate of the series of similar files F10 to F13 (G11) is within the reference range, and the change rate of the series of similar files F14 to F19 (G12). However, it decreases as the update date and time becomes new. That is, the example of FIG. 5 has similar file groups G11 and G12. Therefore, the deletion
続いて、第2の方法によって検出される削除候補ファイルについて説明する。図5の例において、類似ファイルF13と類似ファイルF14との変化率d13−14は、基準変化率以上であるものとする。また、変化率d13−14は、類似ファイルF13と類似ファイルF12との変化率d12−13より大きい。このため、類似ファイルF13が、削除候補対象外のファイルとして検出される。これにより、複数の類似ファイルF10〜F19のうち、更新日時が最新の類似ファイルF19に加えて、類似ファイルF13が、削除候補ファイルから除外される。 Subsequently, the deletion candidate file detected by the second method will be described. In the example of FIG. 5, it is assumed that the change rate d13-14 between the similar file F13 and the similar file F14 is equal to or higher than the reference change rate. The change rate d13-14 is larger than the change rate d12-13 between the similar file F13 and the similar file F12. For this reason, the similar file F13 is detected as a file that is not a candidate for deletion. As a result, among the plurality of similar files F10 to F19, in addition to the similar file F19 with the latest update date and time, the similar file F13 is excluded from the deletion candidate files.
[更新日時の間隔に基づく削除候補除外ファイル]
なお、図5の例において、時間t15と時間t16の間隔tmは、例えば、1年以上である。一連のファイルの更新処理において、長期の間隔を空けて更新された類似ファイルは、新たな変更フェーズの基点ファイルとみなされる。長期間が経過してから開始される変更フェーズにおける基点のファイルは、参照対象となる可能性が高く有用性が高い。そのため、本実施の形態例における削除ファイル検出プログラム20は、更新日時の間隔が基準間隔以上の類似ファイルについても、削除候補から除外する。
[Delete candidate exclusion file based on update date interval]
In the example of FIG. 5, the interval tm between time t15 and time t16 is, for example, one year or more. In a series of file update processing, a similar file updated at a long interval is regarded as a base file for a new change phase. The base point file in the change phase that starts after a long period of time has a high possibility of being a reference target and is highly useful. For this reason, the deleted
例えば、本実施の形態例において、基準間隔は1年である。そこで、図5の例において、削除ファイル検出プログラム20は、第1、第2の方法で検出された類似ファイルF13、F19に加えて、1つ前の類似ファイルとの更新日時の間隔が1年を超える類似ファイルF16についても削除候補から除外する。
For example, in the present embodiment, the reference interval is one year. Therefore, in the example of FIG. 5, the deleted
このように、図2〜図5の具体例に基づいて述べてきたように、本実施の形態例における削除ファイル検出プログラム20は、ファイルの一連の更新過程で生成される複数の類似ファイルについて、更新日時が最新の類似ファイルに加えて、有用性が高いと判定される類似ファイルを検出し、それ以外の類似ファイルを削除候補ファイルとして検出する。第1の検出方法、第2の検出方法、いずれの方法が用いられてもよい。
As described above, as described based on the specific examples of FIGS. 2 to 5, the deleted
続いて、本実施の形態例における削除ファイル検出プログラム20のブロック図、及び、削除ファイル検出プログラム20の処理の流れについて順次説明する。
Next, a block diagram of the deletion
[削除ファイル検出プログラム20のブロック図]
図6は、本実施の形態例における削除ファイル検出プログラム20のブロック図の一例を示す図である。削除ファイル検出プログラム20は、例えば、ファイル分類部21、ファイル名一致確認部22、ファイル内容変化率判定部23、ファイル削除処理部24を有する。
[Block Diagram of Deleted File Detection Program 20]
FIG. 6 is a diagram showing an example of a block diagram of the deleted
まず、ファイル分類部21は、例えば、個人ファイル抽出部211と、拡張子分類処理部212を有する。個人ファイル抽出部211は、対象フォルダFLに格納される複数のファイルについて、作成ユーザが同一のファイルに分類する。そして、拡張子分類処理部212は、作成ユーザが同一の複数のファイルについて、拡張子が同一のファイルに分類し、分類テーブルGTとして出力する。
First, the file classification unit 21 includes, for example, a personal
ファイル名一致確認部22は、例えば、ファイル名ソート処理部221と、ファイル名一致性確認処理部222とを有する。ファイル名ソート処理部221は、分類テーブルGTを入力として、ファイル名を更新日時の古い順にソートする。そして、ファイル名一致性確認処理部222は、プレフィックス、サフィックスを除いたファイル内容名を形態素解析し、作成ユーザ及び拡張子が同一の複数のファイルについて、ファイル内容名が類似する複数のファイルを類似ファイルとして抽出し、マスタファイルテーブルMTに記載する。
The file name
ファイル内容変化率判定部23は、例えば、ファイル内容変化率計算部231と、削除ファイル決定処理部232とを有する。ファイル内容変化率計算部231は、マスタファイルテーブルMTに記載された類似ファイルについて、更新日時が1つ前の類似ファイルとの変化率を算出する。削除ファイル決定処理部232は、算出した変化率に基づいて、削除候補のファイルを検出してファイルテーブルFTに記載すると共に、削除候補のファイルを削除候補フォルダDFLに移動する。
The file content change
そして、ファイル削除処理部24は、期限切れ確認処理部241と、ファイル一括削除部242を有する。期限切れ確認処理部241は、削除候補フォルダDFLについて、予め設定された保留期限が経過したか否かを判定する。ファイル一括削除部242は、保留期限が経過した削除候補フォルダDFLについて、当該フォルダに格納されたファイルを削除する。
The file
続いて、削除ファイル検出プログラム20の処理の流れについて、フローチャート図に基づいて説明する。
Next, the process flow of the deleted
[削除候補ファイルの検出処理の流れ]
図7は、本実施の形態例における削除ファイル検出プログラム20の処理の流れについて説明するフローチャート図である。まず、削除ファイル検出プログラム20は、予め、類似ファイルの抽出時におけるファイル内容名の一致基準値を設定しておく(S11)。例えば、この例において、一致基準値は、例えば、70%に設定される。この場合、1つ更新日時が前のファイルと、ファイル内容名が70%以上一致するファイルについて、類似ファイルと判定される。ファイル内容名の一致率の詳細については、後述する。
[Flow of detection process for candidate files for deletion]
FIG. 7 is a flowchart for explaining the flow of processing of the deleted
初めに、削除ファイル検出プログラム20の個人ファイル抽出部211は、削除候補ファイルを検出する対象フォルダFLに格納された複数のファイルを、作成ユーザに基づいて分類する(S12)。これにより、対象フォルダFLに格納されたファイルがユーザ別に抽出される。次に、削除ファイル検出プログラム20の拡張子分類処理部212は、作成ユーザ別に分類されたファイルについて、さらに、拡張子別に分類し、分類テーブルGTを生成する(S13)。これにより、対象フォルダFLに格納されたファイルについて、作成ユーザ及び拡張子が同一のファイル群に分類される。
First, the personal
[分類テーブル]
図8は、削除ファイル検出プログラム20によって生成される分類テーブルGTの一例を示す図である。同図では、分類テーブルGTのうち、ユーザAによって生成されたファイルの分類テーブルGTが表される。同図のように、ユーザAによって生成されたファイルについて、拡張子(xls、doc、txt、ppt等)ごとに分類されている。作成ユーザの異なるファイルが対象フォルダFLに格納される場合、作成ユーザ毎の分類テーブルGTが生成される。
[Classification table]
FIG. 8 is a diagram illustrating an example of the classification table GT generated by the deleted
図7のフローチャート図に戻り、削除ファイル検出プログラム20のファイル名ソート処理部221は、図8に示したような分類テーブルGTについて、作成ユーザ及び拡張子が同一のファイルについて更新日時の古い順にソートする(S14)。
Returning to the flowchart of FIG. 7, the file name
続いて、ファイル名一致性確認処理部222は、ソート後の分類テーブルGTに基づいて、更新日時の古い順から2つのファイルを選択する(S15)。そして、ファイル名一致性確認処理部222は、選択したファイルそれぞれのファイル名について、形態素解析し単語に分離する(S16)。続いて、ファイル名一致性確認処理部222は、単語に分離したファイル名から、プレフィックス及びサフィックスを除き、ファイル内容名を取得する(S17)。ファイル内容名の取得処理(S17)の詳細については、別のフローチャート図に基づいて後述する。
Subsequently, the file name matching
続いて、ファイル名一致性確認処理部222は、それぞれのファイル内容名に基づいて、ファイル内容名の一致率を検出し、一致率が一致基準値に達するか否かを判定する(S18)。一致基準値に達する場合(S18のYES)、類似ファイルと判定される。そこで、ファイル名一致性確認処理部222は、ファイル名をマスタファイル名テーブルMTに追加する(S19)。そして、ファイル名一致性確認処理部222は、分類テーブルGTに未判定のファイルがある場合(S20のYES)、分類テーブルGTから更新日時の古い順の次のファイルを選択し、前回選択したファイルのうち更新日時が新しいファイルと共に、選択ファイルとする(S15)。同様にして、工程S16以降の処理が行われる。
Subsequently, the file name matching
一方、一致率が一致基準値に満たない場合(S18のNO)、類似ファイルとみなされない。そこで、ファイル名一致性確認処理部222は、2つの選択ファイルのうち更新日時が新しいファイルを、別のマスタファイル名テーブルMTに追加する(S21)。そして、工程S15の処理に戻り、処理が繰り返される。また、分類テーブルGTに未判定のファイルがない場合(S20のNO)、類似ファイルに分類されたマスタファイル名テーブルMTの生成が完了する。
On the other hand, when the coincidence rate is less than the coincidence reference value (NO in S18), it is not regarded as a similar file. Therefore, the file name consistency
ここで、ファイル内容名の一致率の判定処理を具体例に基づいて説明する。 Here, the process of determining the match rate of the file content name will be described based on a specific example.
[ファイル内容名の一致率の判定処理を具体例]
例えば、第1のファイル内容名「ABC様向け基幹装置の修正に関する問合せ」と、第2のファイル内容名「ABC様向け基盤装置の修正について」について、一致率を判定する場合を例示する。この場合、第1のファイル内容名「ABC様向け基幹装置の修正に関する問合せ」は、「ABC/様/向け/基幹/装置/の/修正/に/関する/問合せ」のように単語単位に形態素解析される。また、第2のファイル内容名「ABC様向け基盤装置の修正について」については、「ABC/様/向け/基盤/装置/の/修正/に/ついて」のように単語単位に形態素解析される。
[Specific example of file content name match rate judgment processing]
For example, the case of determining the coincidence rate for the first file content name “inquiry about modification of the backbone device for ABC-like” and the second file content name “revision of the base device for ABC-like” is exemplified. In this case, the first file content name “inquiry about modification of the backbone device for ABC-like” is a morpheme in units of words like “ABC / like / toward / core / device / of / modification / related / inquiry”. Analyzed. In addition, the second file content name “ABC-like base device modification” is subjected to morphological analysis in units of words as “ABC / like / target / base / device / of / modification / about / about”. .
2つのファイル内容名における単語を比較すると、第1のファイル内容名が有する10個の単語のうち、単語「基幹」「関する」「問合せ」は第2のファイル内容名に含まれない。また、第1のファイル内容名から第2のファイル内容名に、単語「基盤」「ついて」が追加されている。このように、第1のファイル内容名が有する10個の単語に対して、第2のファイル内容名では3個の単語が不足していると共に、2個の単語が追加されている。そこで、ファイル名一致性確認処理部222は、10個中5個の単語に関する変更と判定し、ファイル内容名の一致率を50%と判定する。
When the words in the two file content names are compared, the words “basic”, “related”, and “inquiry” are not included in the second file content name among the ten words included in the first file content name. Further, the words “base” and “about” are added from the first file content name to the second file content name. Thus, for the ten words included in the first file content name, the second file content name lacks three words and two words are added. Therefore, the file name matching
別の具体例について説明する。例えば、第2のファイル内容名「ABC様向け基盤装置の修正について」と、第3のファイル内容名「ABC様向け:基盤装置の修正」について、一致率を判定する場合を例示する。この場合、第2のファイル内容名「ABC様向け基盤装置の修正について」は、「ABC/様/向け/基盤/装置/の/修正/に/ついて」のように単語単位に形態素解析される。また、第3のファイル内容名「ABC様向け:基幹装置の修正」については、「ABC/様/向け/:/基盤/装置/の/修正」のように単語単位に形態素解析される。 Another specific example will be described. For example, a case where the match rate is determined for the second file content name “ABC-like base device modification” and the third file content name “ABC-like: Base device modification” is illustrated. In this case, the second file content name “ABC-like base device modification” is subjected to morphological analysis in units of words like “ABC / like / target / base / device // modification / about / about”. . In addition, the third file content name “for ABC-like: modification of core device” is subjected to morphological analysis in units of words as “ABC / like / directed /: / base / device / of / modification”.
2つのファイル内容名における単語を比較すると、第2のファイル内容名が有する9個の単語のうち、単語「に」「ついて」が、第3のファイル内容名に含まれない。また、第2のファイル内容名に対して、第3のファイル内容名では単語「:」が追加されている。このように、第2のファイル内容名が有する9個の単語に対して、第3のファイル内容名では2個単語が不足していると共に、1個の単語が追加されている。そこで、ファイル名一致性確認処理部222は、9個中3個の単語に関する変更と判定し、ファイル内容名の一致率を約70%と判定する。
When the words in the two file content names are compared, the words “ni” and “about” are not included in the third file content name among the nine words included in the second file content name. Further, the word “:” is added to the second file content name in the third file content name. In this way, for the nine words included in the second file content name, the third file content name is deficient in two words and added with one word. Therefore, the file name matching
図7のフローチャート図の工程S11で説明したように、ファイル内容名の一致基準値が70%に設定される場合、第1のファイル内容名と第2のファイル内容名の一致率は一致基準値に達しないため、類似ファイルとみなされない。一方、第2のファイル内容名と第3のファイル内容名の一致率は一致基準値以上であるため、類似ファイルとみなされる。なお、例えば、3つ以上の類似ファイルが検出されない場合、削除ファイル検出プログラム20は一致基準値を低く調整してもよい。
As described in step S11 in the flowchart of FIG. 7, when the matching reference value of the file content name is set to 70%, the matching rate between the first file content name and the second file content name is the matching reference value. Is not considered a similar file. On the other hand, since the matching rate between the second file content name and the third file content name is equal to or higher than the matching reference value, it is regarded as a similar file. For example, when three or more similar files are not detected, the deletion
続いて、マスタファイル名テーブルMTの一例について説明する。 Next, an example of the master file name table MT will be described.
[マスタファイル名テーブル]
図9は、削除ファイル検出プログラム20によって生成されるマスタファイル名テーブルMTの一例を示す図である。同図では、2つのマスタファイル名テーブルMTが表されている。各マスタファイル名テーブルMTでは、ファイル内容名の一致率が一致基準率(この例では、70%)のファイルが更新日時の古い順に並べられる。同図の例において、マスタファイル名テーブルMTは、ファイル名と、拡張子及びプレフィックス、サフィックスが除かれたファイル内容名と、更新日時の情報を有する。また、マスタファイル名テーブルMTは、対象フォルダFLについて、1つまたは複数生成される。
[Master file name table]
FIG. 9 is a diagram illustrating an example of the master file name table MT generated by the deleted
削除ファイル検出プログラム20の処理のフローチャート図に戻り、続いて、マスタファイル名テーブルMTにリストされた各ファイルについてファイルの変化率を算出する。
Returning to the flowchart of the process of the deleted
図10は、本実施の形態例の削除ファイル検出プログラム20における図7のフローチャート図に続く処理について説明するフローチャート図である。削除ファイル検出プログラム20は、図7における分類テーブルGTにおける全てのファイルの判定が完了した場合(S20のNO)、図10のフローチャート図の工程S31の処理を行う。図10では、前述した第1の検出方法の処理については実線で、第2の検出方法の処理については点線で表される。
FIG. 10 is a flowchart for explaining processing subsequent to the flowchart of FIG. 7 in the deleted
図10の工程S31において、削除ファイル検出プログラム20のファイル内容変化率計算部231は、マスタファイルテーブルMTから、更新日時の古い順に2つの類似ファイルを選択し、当該類似ファイル間の変化率を算出する(S31)。ファイルの変化率の算出処理(S31)の詳細については、別のフローチャート図に基づいて後述する。
In step S31 of FIG. 10, the file content change
第1の検出方法では、類似ファイルの変化率が前回の変化率より減少傾向にある場合、または、変化率の差分が基準範囲内に収まる場合(S32のYES)、削除ファイル検出プログラム20の削除ファイル決定処理部232は、ファイルテーブルFTにファイル名と変化率とを記録し、2つの類似ファイルについて、削除フラグをONに設定する(S33)。これにより、更新日時が新しくなるに連れて変化率が低減する、または、変化率の差分が基準範囲内の一連のファイル群の削除フラグがONに設定され、削除候補として設定される。また、工程S32の判定がNOの場合、削除ファイル決定処理部232は、新しいファイルテーブルを作成する(S35)。
In the first detection method, when the rate of change of similar files tends to decrease from the rate of change of the previous time, or when the difference in rate of change is within the reference range (YES in S32), deletion of the deleted
一方、第2の検出方法では、削除ファイル決定処理部232は、ファイルテーブルFTにファイル名と変化率とを記録し、2つの類似ファイルについて、削除フラグをONに設定しておく(S36)。続いて、削除ファイル決定処理部232は、算出した変化率が基準変化率以上であって、かつ、更新日時が1つ前のファイルの変化率より大きいか否かを判定する(S37)。工程S37がYESのとき、削除ファイル検出プログラム20は、2つの類似ファイルのうち、更新日時が古いファイルの削除フラグをONからOFFに変更する(S38)。一方、工程S37がNOのとき、削除ファイル決定処理部232は、2つの類似ファイルの削除フラグをONのまま変更しない。
On the other hand, in the second detection method, the deletion file
これにより、更新日時が1つ新しいファイルとの変化率が一定の基準変化率以上であり、更新日時が1つ古いファイルとの変化率よりも大きい類似ファイルの削除フラグがOFFに設定され、削除候補から除外される。 As a result, the deletion flag of the similar file whose change rate with the new update date is higher than a certain reference change rate and larger than the change rate with the old update date is set to OFF. Excluded from the candidate.
第1、第2の検出方法の処理に続いて、削除ファイル決定処理部232は、2つの類似ファイルについて、更新日時の間隔が基準間隔以上であるか否かを判定する(S39)。基準間隔以上である場合(S39のYES)、削除ファイル決定処理部232は、更新日時が新しいファイルの削除フラグをONからOFFに変更する(S40)。これにより、基準間隔以上の期間を経て更新された更新ファイルについても削除候補から除外される。
Subsequent to the processing of the first and second detection methods, the deletion file
続いて、削除ファイル検出プログラム20は、マスタファイルテーブルに次の未判定の類似ファイルがある場合(S41のYES)、工程S31から工程S40の処理を繰り返す。一方、未判定の類似ファイルがない場合(S41のNO)、削除ファイル検出プログラム20は、生成された1つまたは複数のファイルテーブルFTにおける類似ファイルのうち、更新日時が最新のファイルと、削除フラグがOFFに設定されたファイルを除く類似ファイルを削除候補フォルダDFLに移動する(S42)。これにより、削除候補ファイルが削除候補フォルダDFLに移動される。そして、削除ファイル検出プログラム20は、削除候補フォルダDFLに移動した削除候補ファイルの削除通知をユーザに発行する(S43)。続く削除処理の詳細については、別のフローチャート図に基づいて後述する。
Subsequently, when the next undecided similar file exists in the master file table (YES in S41), the deleted
このように、本実施の形態例における削除ファイル検出プログラム20は、ファイル名の類似性、及び、ファイルの内容の変化率、更新間隔を時系列に比較することによって、ファイルの更新を重ねていく過程で生成される複数のファイルについて、更新日時が最新のファイルと、有用性が高いと判定されるファイルを除くファイルを削除候補ファイルとして検出する。
As described above, the deleted
[ファイルテーブル]
図11は、削除ファイル検出プログラム20によって生成されるファイルテーブルFTの一例を示す図である。同図では、3つのファイルテーブルFT1〜FT3が例示される。同図のファイルテーブルFTは、ファイル名、変化率、更新日時、削除フラグの情報を有する。
[File Table]
FIG. 11 is a diagram illustrating an example of the file table FT generated by the deleted
図11のファイルテーブルFT1、FT2は、第1の検出方法に基づいて生成されるファイルテーブルFTの一例である。具体的に、ファイルテーブルFT1は、複数の類似ファイルから検出された、更新日時が新しくなるに連れて変化率が低減する一連のファイル群を示す。また、例えば、一連のファイル群において、ファイルFaについては、1つ古い類似ファイルとの更新日時の間隔が基準間隔以上であることにより、削除フラグがOFFに設定される。このため、ファイルテーブルFT1によると、ファイルFaと、ファイル群における更新日時が最新のファイルFbを除くファイルが削除候補ファイルとして検出される。 The file tables FT1 and FT2 in FIG. 11 are an example of the file table FT generated based on the first detection method. Specifically, the file table FT1 shows a series of files that are detected from a plurality of similar files, and whose rate of change decreases as the update date and time becomes new. Further, for example, in the series of file groups, the deletion flag is set to OFF for the file Fa because the update date and time interval with the one old similar file is equal to or greater than the reference interval. Therefore, according to the file table FT1, files other than the file Fa and the file Fb with the latest update date and time in the file group are detected as deletion candidate files.
また、図11のファイルテーブルFT2は、変化率の差分が基準範囲内の一連のファイル群と、更新日時が新しくなるに連れて変化率が低減する一連のファイル群とを有する。また、この例においても、ファイルFcは、1つ古い類似ファイルとの更新日時の間隔が基準間隔以上であることにより、削除フラグがOFFに設定される。このため、ファイルテーブルFT2によると、ファイルFcと、ファイル群における更新日時が最新のファイルFdを除くファイルが削除候補ファイルとして検出される。 Further, the file table FT2 in FIG. 11 includes a series of file groups in which the difference in change rate is within the reference range, and a series of file groups in which the change rate decreases as the update date and time becomes new. Also in this example, the deletion flag is set to OFF for the file Fc because the update date interval with the one old similar file is equal to or greater than the reference interval. For this reason, according to the file table FT2, files other than the file Fc and the file Fd with the latest update date and time in the file group are detected as deletion candidate files.
一方、ファイルテーブルFT3は、第2の検出方法に基づいて生成されるファイルテーブルFTの一例である。ファイルテーブルFT3におけるファイルFeについて、更新日時が1つ新しい類似ファイルとの変化率(この例では、40%)は、更新日時が1つ古い類似ファイルとの変化率(この例では、16%)よりも大きく、基準変化率(この例では、例えば30%)以上である。このため、ファイルFeの削除フラグがOFFに設定される。ファイルFfについても、同様である。このため、ファイルテーブルFT3によると、ファイルFe、Ffと、ファイル群における更新日時が最新のファイルFgを除くファイルが削除候補ファイルとして検出される。 On the other hand, the file table FT3 is an example of a file table FT generated based on the second detection method. The rate of change of the file Fe in the file table FT3 with a similar file with one new update date (in this example, 40%) is the rate of change with a similar file with one old update date (in this example, 16%) Larger than the reference change rate (in this example, for example, 30%). For this reason, the deletion flag of the file Fe is set to OFF. The same applies to the file Ff. Therefore, according to the file table FT3, files other than the files Fe and Ff and the file Fg with the latest update date and time in the file group are detected as deletion candidate files.
続いて、前述した図7のフローチャート図の工程S17のファイル内容名の抽出処理について、フローチャートに基づいて説明する。 Next, the file content name extraction process in step S17 in the flowchart shown in FIG. 7 will be described based on the flowchart.
[ファイル内容名の抽出処理の詳細]
図12は、ファイル名からファイル内容名を抽出する処理の詳細について説明するフローチャート図である。初めに、削除ファイル検出プログラム20のファイル名一致性確認処理部222は、ファイル名から拡張子を除く(S51)。次に、ファイル名一致性確認処理部222は、拡張子を除いたファイル名の文字数をカウントする(S52)。
[Details of file content name extraction processing]
FIG. 12 is a flowchart for explaining details of processing for extracting a file content name from a file name. First, the file name matching
続いて、ファイル名一致性確認処理部222は、拡張子を除いたファイル名の先頭から、デリミッタ文字を探索する(S53)。デリミッタとは、例えば、対となる括弧や、アンダーバー、ハイフン、ピリオド等である。デリミッタが見つかった場合(S54のYES)、当該デリミッタが対をなす種類のデリミッタであるか否かを判定する(S55)。例えば、工程S54で検出されたデリミッタが括弧開きである場合、対をなす種類のデリミッタであるとみなされる。
Subsequently, the file name matching
対をなす種類のデリミッタである場合(S55のYES)、ファイル名一致性確認処理部222は、検出したデリミッタと対となるデリミッタの終端を探索する(S56)。この場合、プレフィックス文字数は、例えば、ファイル名の先頭からデリミッタの終端までの文字数となる。一方、対をなさないデリミッタである場合(S55のNO)、プレフィックス文字数は、ファイル名の先頭から検出された単体デリミッタまでの文字数となる。そして、一方、デリミッタが検出されない場合(S54のNO)、プレフィックス文字数は0文字となる。ファイル名一致性確認処理部222は、プレフィックス文字数を保持する(S57)。
When the delimiters are of a pair type (YES in S55), the file name matching
続いて、ファイル名一致性確認処理部222は、ファイル名の終端からデリミッタ文字を探索する(S58)。なお、ファイル名の終端から探索して検出されたデリミッタ文字が、工程S54で検出されたデリミッタである場合、ファイル名はサフィックス文字を含まないと判定される。デリミッタが見つかった場合(S59のYES)、ファイル名一致性確認処理部222は、当該デリミッタが対をなす種類のデリミッタか否かを判定する(S60)。対をなすデリミッタである場合(S60のYES)、さらに、ファイル名一致性確認処理部222は、デリミッタの終端を探索する(S61)。
Subsequently, the file name consistency
プレフィックス文字数と同様にして、ファイル名一致性確認処理部222は、ファイル名におけるサフィックス文字の文字数を保持する(S62)。そして、ファイル名一致性確認処理部222は、拡張子を除いたファイル名の先頭からサフィックス文字数、最後尾からプレフィックスの文字数を除く文字列を、ファイル内容名として検出する。
Similarly to the number of prefix characters, the file name matching
ここで、ファイル内容名の抽出処理について具体例に基づいて説明する。 Here, the file content name extraction processing will be described based on a specific example.
[ファイル内容名の抽出の具体例]
ファイル名が「Rep1234_A製品の打ち合わせ開催について−20120220.doc」である場合、ファイル名一致性確認処理部222は、初めに、拡張子の除くファイル名の文字数をカウントする(S51、S52)。この場合、ファイル名から拡張子を除いた文字数は、32文字である。
[Specific example of file content name extraction]
When the file name is “Rep1234_A product meeting held--20120220.doc”, the file name matching
続いて、ファイル名一致性確認処理部222は、拡張子(.doc)を除いたファイル名から、デリミッタとしてアンダーバー(_)を検出する(S54のYES)。アンダーバーは、対となるデリミッタではないことから(S55のNO)、ファイル名一致性確認処理部222は、ファイル名の先頭からアンダーバーまでの文字数をプレフィックス文字数としてカウントする。この場合、プレフィックス文字数は8となる(S57)。
Subsequently, the file name matching
続いて、ファイル名一致性確認処理部222は、ファイル名の最後尾からデリミッタ文字を検索する(S59)。この例において、ファイル名一致性確認処理部222は、ハイフン(−)を検出する(S59のYES)。ハイフンは、対となるデリミッタではないことから(S60のNO)、ファイル名一致性確認処理部222は、ファイル名の最後尾からハイフンまでの文字数をプレフィックス文字数としてカウントする。この場合、サフィックス文字数は、9となる(S62)。
Subsequently, the file name consistency
そして、ファイル名一致性確認処理部222は、ファイル名の先頭からプレフィックス文字数8、最後尾からサフィックス文字数9を除く文字列「A製品の打ち合わせ開催について」をファイル内容名として検出する。なお、ファイル名からファイル内容名を抽出する処理はこの例に限定されるものではない。図12のフローチャート図は、ファイル内容名の抽出処理の一例である。
Then, the file name matching
続いて、ファイル内のコード情報の変化率を算出する処理をフローチャート図に基づいて説明する。 Next, a process for calculating the rate of change of the code information in the file will be described based on a flowchart.
[ファイルの変化率の算出処理の詳細]
図13は、2つのファイルにおけるコード情報の変化率を算出する処理について説明するフローチャート図である。
[Details of file change rate calculation processing]
FIG. 13 is a flowchart for explaining processing for calculating the rate of change of code information in two files.
まず、削除ファイル検出プログラム20のファイル内容変化率計算部231は、変更率を算出する対象の2つのファイルについて、コード情報の内容が異なる位置まで位置カウンタをカウントアップする(S71)。ここでは、2つの選択ファイルのうち更新日時が古いファイルをAファイル、更新日時が新しいファイルをBファイルとする。
First, the file content change
続いて、ファイル内容変化率計算部231は、コード情報が異なる位置を検出すると、Aファイルからコード情報が削除されたことによる相違か否かを判定する(S72)。具体的に、ファイル内容変化率計算部231は、Bファイルの位置を維持したままAファイルのコード情報の位置カウンタを進めて、コード情報が一致するか否かを判定する。一致する場合(S72のYES)、Aファイルから位置カウンタを進めた分のコード情報が削除されていることを示す。そこで、ファイル内容変化率計算部231は、進めた位置カウンタ分、変更されたコード情報を示す変更カウンタをカウントアップする(S73)。
Subsequently, when the file content change
これは、同図のフローチャート図における右下図EXの1)削除の場合を示す。右下図1)のように、Bファイルの位置を固定にしたまま、Aファイルのコード情報の位置カウンタを進めて、3コード目で、Bファイルのコード情報と一致する。この場合、Xで示す3カウント分のコード情報がAファイルから削除されたものと判定される。 This shows the case of 1) deletion in the lower right diagram EX in the flowchart of FIG. As shown in the lower right figure 1), the position counter of the code information of the A file is advanced with the position of the B file fixed, and the code information of the B file coincides with the third code. In this case, it is determined that the code information for 3 counts indicated by X has been deleted from the A file.
一方、工程S72がNOの場合、即ち、コード情報の削除による相違ではない場合、ファイル内容変化率計算部231は、Aファイルにコード情報が追加されたことによる相違か否かを判定する(S74)。具体的に、ファイル内容変化率計算部231は、Aファイルの位置を維持したままBファイルのコード情報の位置を進めて、コード情報が一致するか否かを判定する。一致する場合(S74)、Aファイルに対して、位置カウンタを進めた分のコード情報が追加されていることを示す。そこで、ファイル内容変化率計算部231は、進めた位置カウンタ分、変更カウンタをカウントアップする(S75)。
On the other hand, if step S72 is NO, that is, if the difference is not due to deletion of the code information, the file content change
これは、同図のフローチャート図における右下図EXの2)追加の場合を示す。右下図2)のように、Aファイルの位置カウンタを固定にしたまま、Bファイルのコード情報の位置カウンタを進めて3コード目で、Bファイルのコード情報と一致する。この場合、Yで示す3カウント分のコード情報がBファイルに追加されたものと判定される。 This shows a case of 2) addition in the lower right diagram EX in the flowchart of FIG. As shown in the lower right figure 2), the position counter of the B file code information is advanced while the position counter of the A file is fixed, and the code information of the B file coincides with the third code. In this case, it is determined that three counts of code information indicated by Y have been added to the B file.
さらに、工程S74がNOの場合、即ち、コード情報の削除及び追加による相違ではない場合、ファイル内容変化率計算部231は、Aファイルのコード情報が更新されたことによる相違か否かを判定する(S76)。具体的に、ファイル内容変化率計算部231は、ひとつ位置カウンタを進めたBファイルのコード情報と、位置カウンタを進めたAファイルのコード情報が一致するか否かを順次判定する(S76)。コード情報が一致しない場合(S76のNO)、ファイル内容変化率計算部231は、さらに、Bファイルのコード情報の位置カウンタを進めて(S77)、位置カウンタを進めたAファイルのコード情報が一致するか否かを順次判定する(S76)。コード情報が一致した場合(S76のYES)、コード情報が更新されたことを示す。このため、ファイル内容変化率計算部231は、更新されたコード情報分、変更カウンタをカウントアップする(S78)。
Furthermore, when step S74 is NO, that is, when the difference is not due to deletion and addition of the code information, the file content change
これは、同図のフローチャート図における右下図EXの3)更新の場合を示す。右下図3)のように、Bファイルの位置カウンタを進めながら、Aファイルとコード情報が一致するか否かを判定する。この場合、Bファイルの位置カウンタを3コード分進めたときに、コード情報が一致する。この場合、Aファイルにおけるコード情報Xが、Bファイルでコード情報Zに更新されたものと判定される。 This shows the case of 3) update in the lower right diagram EX in the flowchart of FIG. As shown in the lower right figure 3), while advancing the position counter of the B file, it is determined whether or not the A file and the code information match. In this case, the code information matches when the position counter of the B file is advanced by three codes. In this case, it is determined that the code information X in the A file is updated to the code information Z in the B file.
工程S73、S75、S78において、変更カウンタをカウントアップした後、ファイル内容変化率計算部231は、Aファイル及びBファイルの位置カウンタと、変更カウンタとを記録する(S79)。続いて、ファイル内容変化率計算部231は、両ファイルについて、ファイルの探索位置が終端に達したか否かを判定する(S80)。ファイルの終端に達していない場合(S80のNO)、ファイル内容変化率計算部231は、引き続き、両ファイルの内容が異なる位置まで位置カウンタを進める。ファイルの終端に達した場合(S80のYES)、ファイル内容変化率計算部231は、ファイルAの終端を示す位置カウンタと変更カウンタとに基づいて、ファイルAの全体における変化率を算出する(S81)。
In steps S73, S75, and S78, after the change counter is counted up, the file content change
このように、AファイルにおけるBファイルへのコード情報の変化率が算出される。ただし、ファイルの内容の変化率を算出する方法は、この例に限定されるものではない。例えば、特開平02−141823や、特開平03−245230等にファイル内容の比較方法について記載される。 In this way, the rate of change of code information from the A file to the B file is calculated. However, the method for calculating the rate of change of the contents of the file is not limited to this example. For example, methods for comparing file contents are described in JP-A-02-141823, JP-A-03-245230, and the like.
続いて、図10のフローチャート図の工程S43に続いて行われる削除候補ファイルの削除処理について、フローチャートに基づいて説明する。 Next, a deletion candidate file deletion process performed subsequent to step S43 in the flowchart of FIG. 10 will be described based on the flowchart.
[ファイル削除処理の詳細]
図14は、本実施の形態例における削除ファイル検出プログラム20における削除候補ファイルの削除処理について説明するフローチャート図である。
[Details of file deletion processing]
FIG. 14 is a flowchart for explaining deletion candidate file deletion processing in the deletion
削除ファイル検出プログラム20の期限切れ確認処理部241は、削除候補フォルダDFLの作成日に保留期間を加算して、削除期限日を算出する(S91)。続いて、期限切れ確認処理部241は、現在の日付と削除期限日とを比較し、期限切れになったか否かを判定する(S92)。期限切れになった場合(S92のYES)、削除ファイル検出プログラム20のファイル一括削除部242は、削除フォルダに格納されるファイルを削除する(S93)。
The expiration
なお、保留期間は削除ファイル検出プログラム20において共通に設定されてもよいし、削除候補フォルダDFLがユーザに関連付けられる場合、ユーザ単位に設定されてもよい。
Note that the hold period may be set in common in the deletion
このように、本実施の形態例における削除ファイル検出プログラム20は、検出された削除候補ファイルを削除候補フォルダDFLに移動し、保留期間経過後に削除候補ファイルのファイルを削除する。つまり、削除ファイル検出プログラム20は、削除候補として検出したファイルを即座に削除するのではなく、別のフォルダに移動して保留期間が経過したときに削除処理を行う。これにより、ユーザは、自動検出された削除候補ファイルについて、保留期間中に、削除対象から除外するファイルを削除候補フォルダDFLから移動することができる。このため、必要なファイルが削除されてしまうことを回避できる。また、ユーザが削除候補フォルダDFLから削除しないファイルを選択することは、ユーザが対象フォルダFLから削除対象のファイルを選択する場合に比べて効率がよい。
As described above, the deletion
なお、削除ファイル検出プログラム20は、削除候補フォルダDFL内からいずれかの削除候補ファイルの移動が行われた保留期間内における経過期間に基づいて、次回以降の保留期間を自動変更してもよい。削除候補フォルダDFL内からいずれかの削除候補ファイルの移動が行われたことは、削除候補フォルダDFLにおける削除候補ファイルの要否確認が行われたことを意味する。そこで、削除候補ファイルの要否確認が行われた時期の傾向に基づいて、次回以降の保留期間を調整する。これにより、ユーザの要否確認の傾向に基づいて、削除候補ファイルの保留期間が自動調整され、削除ファイル検出プログラム20の利便性が向上する。
Note that the deletion
具体例にしたがって説明すると、例えば、保留期間が30日である場合であって、20日経過前に、削除候補フォルダDFL内からいずれかの削除候補ファイルの移動が行われた場合を例示する。このとき、例えば、早いタイミングで削除候補ファイルの確認が行われたものとみなされる。そこで、削除ファイル検出プログラム20は、次回以降の保留期間を、例えば、30日から25日に設定変更する。また、削除候補フォルダDFL内からいずれかの削除候補ファイルの移動が、30日経過直前に行われた場合、削除ファイル検出プログラム20は、次回以降の保留期間を、例えば、30日から40日に設定変更する。
Explaining according to a specific example, for example, a case where the hold period is 30 days and one of the deletion candidate files is moved from the deletion candidate folder DFL before the lapse of 20 days is illustrated. At this time, for example, it is considered that the deletion candidate file has been confirmed at an early timing. Therefore, the deleted
このように、保留期間における削除候補ファイルの要否確認時期に基づいて、次回以降の保留期間が調整される。削除ファイル検出プログラム20では、保留期間経過後に削除候補フォルダに移動されたファイルが自動削除されるため、保留期間が調整されることはユーザの利便性を向上する。
In this way, the next and subsequent hold periods are adjusted based on the necessity confirmation time of the deletion candidate file in the hold period. The deleted
以上のようにして、本実施の形態例における削除ファイル検出プログラム20は、対象フォルダFLに格納された複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する。そして、削除ファイル検出プログラム20は、抽出された複数の類似ファイルのうち、更新日時が1つ古い類似ファイルとのファイル内のコード情報の変化率が更新日時が新しくなるに連れて低減する一連のファイル群、または、当該変化率の差分が基準範囲内に収まる一連のファイル群を検出し、当該一連のファイル群のうち、更新日時が最新の類似ファイル以外の類似ファイルを削除候補として検出する。
As described above, the deleted
これにより、本実施の形態例における削除ファイル検出プログラム20は、ファイル名の類似性、及び、ファイルの内容の変化率を時系列に比較することによって、ファイルの更新を重ねていく過程で生成される複数のファイルのうち、更新日時が最新のファイルを除くファイルを削除候補ファイルとして検出できる。つまり、削除ファイル検出プログラム20は、ファイルの一連の更新過程で生成される類似ファイルのうち最終版以外の経過ファイルを、削除候補ファイルとして検出可能となる。
As a result, the deleted
このように、削除ファイル検出プログラム20は、ファイルの一連の更新過程で生成される類似ファイルについて、変化率の時系列の変移に基づいて有用性の高いファイルを検出できる。このため、削除ファイル検出プログラム20は、削除候補のファイルをより適切に検出することができる。
As described above, the deleted
また、ユーザは、削除候補とするファイルを、逐一、ファイルの内容を確認しながら判定する必要がないため、不要なファイルの削除処理が効率化される。また、本実施の形態例における削除ファイル検出プログラム20は、ファイルのプロパティ情報ではなく、ファイルの内容に基づいて削除候補ファイルを検出する。これにより、削除ファイルの検出のために、予め、ファイルのプロパティに有効期限等の属性を付与しておく必要がないため、煩雑性がない。
In addition, since the user does not need to determine the files that are candidates for deletion one by one while confirming the contents of the files, unnecessary file deletion processing is made more efficient. In addition, the deletion
また、本実施の形態例における削除ファイル検出プログラム20は、抽出された複数の類似ファイルについて、更新日時が1つ新しい類似ファイルとのファイル内のコード情報の変化率が基準変化率以上であって当該変化率が更新日時の1つ古い類似ファイルとの変化率よりも大きい類似ファイル、及び、更新日時が最新の類似ファイル以外の類似ファイルを削除候補として検出する。
In addition, the deletion
これにより、本実施の形態例における削除ファイル検出プログラム20は、ファイル名の類似性、及び、ファイルの内容の変化率を時系列に比較することによって、ファイルの更新を重ねていく過程で生成される複数のファイルのうち、更新日時が最新のファイル、及び、更新が収束したファイルに対して大幅な変更が行われた場合における変更元ファイルを除くファイルを削除候補ファイルとして検出できる。つまり、削除ファイル検出プログラム20は、ファイルの一連の更新過程で生成される類似ファイルのうち、最終版の類似ファイルと、参照される可能性が高く有用性の高い類似ファイル以外のファイルを削除候補ファイルとして検出可能となる。
As a result, the deleted
このように、削除ファイル検出プログラム20は、ファイルの一連の更新過程で生成される類似ファイルについて、変化率の度合いと、変化率の時系列の変移との複数要素に基づいて、有用性の高いファイルを検出できる。このため、削除ファイル検出プログラム20は、削除候補のファイルをより適切に検出することができる。
As described above, the deletion
また、同様にして、ユーザは、削除候補とするファイルを、逐一、ファイルの内容を確認しながら判定する必要がないため、不要なファイルの削除処理が効率化される。また、本実施の形態例における削除ファイル検出プログラム20は、ファイルのプロパティ情報ではなく、ファイルの内容に基づいて削除候補ファイルを検出する。これにより、削除ファイルの検出のために、予め、ファイルのプロパティに有効期限等の属性を付与しておく必要がないため、煩雑性がない。
Similarly, since it is not necessary for the user to determine a file as a deletion candidate while checking the contents of the file one by one, unnecessary file deletion processing is made efficient. In addition, the deletion
さらに、本実施の形態例における削除ファイル検出プログラム20は、更新日時が1つ古い類似ファイルとの更新日時の間隔が基準間隔以上の類似ファイルについても削除候補から除外する。これにより、ファイルの一連の更新過程で生成される類似ファイルのうち、所定の間隔以上の期間を経て更新されたファイルについても、長期経過後に開始される変更フェーズの基点となる有用性の高いファイルとして削除候補ファイルから除外される。
Furthermore, the deleted
このように、本実施の形態例における削除ファイル検出プログラム20は、ファイルの一連の更新過程で生成される類似ファイルについて、変化率に加えて更新日時の間隔に基づいて有用性の高い類似ファイルを検出し、削除候補から除外する。これにより、本実施の形態例における削除ファイル検出プログラム20は、ファイルに係る複数要素に基づいて有用性の高い類似ファイルを検出できることから、より適切に削除候補のファイルを検出することができる。
As described above, the deleted
なお、本実施の形態例における変化率は、類似ファイル内の全体のコード情報における、追加、更新、削除が行われたコード情報の割合を示す。これにより、変更元のファイルに対して、追加、削除、更新のいずれの変更が行われる場合であっても、変化率に反映される。 The change rate in the present embodiment indicates the ratio of code information that has been added, updated, or deleted in the entire code information in a similar file. As a result, even if any of addition, deletion, and update is performed on the change source file, it is reflected in the change rate.
また、本実施の形態例における削除ファイル検出プログラム20は、複数のファイルについて、ファイル作成ユーザが同一のファイルのうち、ファイル名から拡張子、及び、接頭語、接尾語を除くファイル内容名について、更新日時が1つ古いファイルとのファイル内容名一致率が一致基準値以上のファイルを類似ファイルとして抽出する。これにより、本実施の形態例における削除ファイル検出プログラム20は、ファイルの実質的な内容を示すファイル内容名の一致度に基づいて、ファイルの一連の更新過程で生成される類似ファイルを抽出することができる。
In addition, the deleted
また、本実施の形態例における削除ファイル検出プログラム20において、ファイル内容名の一致率は、ファイル内容名が形態素解析された単語の一致率に基づいて算出される。これによって、削除ファイル検出プログラム20は、ファイル名における単語の順番が変更された場合であっても、比較対象のファイル内容名と単語の一致率が高い場合は、類似ファイルとして抽出することができる。
Further, in the deleted
なお、本実施の形態例における削除ファイル検出プログラム20は、検出された削除候補のファイルを削除候補フォルダDFLに移動し、保留期間経過後、削除候補フォルダDFLに格納される削除候補ファイルを削除する。
Note that the deletion
このように、本実施の形態例における削除ファイル検出プログラム20は、検出された削除候補ファイルを削除候補フォルダDFLに移動し、保留期間経過後に削除候補ファイルのファイルを削除する。つまり、削除ファイル検出プログラム20は、削除候補として検出したファイルを即座に削除するのではなく、別のフォルダに移動して保留期間が経過したときに削除処理を行う。これにより、ユーザは、自動検出された削除候補ファイルについて、保留期間中に、削除対象から除外するファイルを削除候補フォルダDFLから移動することができる。このため、必要なファイルが削除されてしまうことを回避できる。また、ユーザが削除候補フォルダDFLから削除しないファイルを選択することは、ユーザが対象フォルダFLから削除対象のファイルを選択する場合に比べて効率がよい。
As described above, the deletion
さらに、本実施の形態例における削除ファイル検出プログラム20は、削除候補フォルダDFLからいずれかの削除候補ファイルの移動が行われた保留期間内における経過期間に基づいて、次回以降の保留期間を設定変更する。これにより、そこで、削除候補ファイルの要否確認が行われる時期の傾向に基づいて、次回以降の保留期間を調整する。これにより、本実施の形態例における削除ファイル検出プログラム20は、ユーザの要否確認の傾向に基づいて、削除候補ファイルの保留期間を自動調整し、ユーザの利便性を向上できる。
Furthermore, the deletion
なお、本実施の形態例における削除ファイル検出処理は、コンピュータ読み取り可能な記録媒体にプログラムとして記憶され、当該プログラムをコンピュータが読み出して実行することによって行われてもよい。 Note that the deleted file detection process in the present embodiment may be stored as a program on a computer-readable recording medium, and the program may be read and executed by the computer.
以上の実施の形態をまとめると、次の付記のとおりである。 The above embodiment is summarized as follows.
(付記1)
フォルダに格納された複数のファイルのうち削除候補のファイルを検出する削除ファイル検出処理をコンピュータに実行させるコンピュータ読み取り可能な削除ファイル検出プログラムであって、
前記削除ファイル検出処理は、
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出工程と、
抽出された前記複数の類似ファイルのうち、更新日時が1つ古い類似ファイルとのファイル内のコード情報の変化率が前記更新日時が新しくなるに連れて低減する一連のファイル群、または、当該変化率の差分が基準範囲内に収まる一連のファイル群を検出し、当該一連のファイル群のうち、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出工程と、を有する削除ファイル検出プログラム。
(Appendix 1)
A computer-readable delete file detection program for causing a computer to execute a delete file detection process for detecting a delete candidate file among a plurality of files stored in a folder,
The deleted file detection process includes:
A similar file extraction step of extracting a plurality of similar files having similar file names from the plurality of files;
Among a plurality of extracted similar files, a series of file groups in which the change rate of code information in a file with a similar file whose update date is one older is reduced as the update date becomes new, or the change Detects a series of file groups whose rate difference falls within the reference range, and does not detect similar files with the latest update date and time among the series of file groups, but detects other similar files as deletion candidates A deleted file detection program comprising: a detection step;
(付記2)
フォルダに格納された複数のファイルのうち削除候補のファイルを検出する削除ファイル検出処理をコンピュータに実行させるコンピュータ読み取り可能な削除ファイル検出プログラムであって、
前記削除ファイル検出処理は、
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出工程と、
抽出された前記複数の類似ファイルについて、更新日時が1つ新しい類似ファイルとのファイル内のコード情報の変化率が基準変化率以上であって当該変化率が前記更新日時の1つ古い類似ファイルとの変化率よりも大きい類似ファイル、及び、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出工程と、を有する削除ファイル検出プログラム。
(Appendix 2)
A computer-readable delete file detection program for causing a computer to execute a delete file detection process for detecting a delete candidate file among a plurality of files stored in a folder,
The deleted file detection process includes:
A similar file extraction step of extracting a plurality of similar files having similar file names from the plurality of files;
For the extracted similar files, the change rate of the code information in the file with the new similar file with one update date and time is equal to or higher than the reference change rate, and the change rate is the old similar file with the old update date and time. A deleted file detection program comprising: a similar file having a rate of change greater than the change rate and a similar file with the latest update date and time not detected as a deletion candidate, and detecting other similar files as deletion candidates.
(付記3)
付記1または2について、
前記検出工程は、さらに、前記更新日時が1つ古い類似ファイルとの前記更新日時の間隔が基準間隔以上の類似ファイルについても前記削除候補としないファイル検出プログラム。
(Appendix 3)
About
The detection step further includes a file detection program in which a similar file whose update date / time interval with a similar file whose update date / time is one older than the reference interval is not considered as the deletion candidate.
(付記4)
付記1乃至3のいずれかにおいて、
前記変化率は、前記類似ファイル内の全体のコード情報における、追加、更新、削除が行われたコード情報の割合を示す削除ファイル検出プログラム。
(Appendix 4)
In any one of
The change rate is a deleted file detection program that indicates a ratio of code information that has been added, updated, or deleted in the entire code information in the similar file.
(付記5)
付記1乃至4のいずれかにおいて、
前記類似ファイル抽出工程は、前記複数のファイルについて、ファイル作成ユーザが同一のファイルのうち、ファイル名から拡張子、及び、接頭語、接尾語を除くファイル内容名について、更新日時が1つ古いファイルとの一致率が一致基準値以上のファイルを類似ファイルとして抽出する削除ファイル検出プログラム。
(Appendix 5)
In any one of
In the similar file extraction step, among the plurality of files, the file creation user has the same file, and the file date of the file name excluding the extension, prefix, and suffix is the file with the latest update date and time. Deleted file detection program that extracts files with a match rate equal to or higher than the match reference value as similar files.
(付記6)
付記5において、
前記ファイル内容名一致率は、前記ファイル内容名が形態素解析された単語の一致率である削除ファイル検出プログラム。
(Appendix 6)
In
The deleted file detection program, wherein the file content name match rate is a match rate of words obtained by morphological analysis of the file content name.
(付記7)
付記1乃至6のいずれかにおいて、
前記削除ファイル検出処理は、さらに、
前記検出工程によって検出された前記削除候補のファイルを削除候補フォルダに移動し、保留期間経過後、前記削除候補フォルダに格納される削除候補ファイルを削除する削除工程、を有する削除ファイル検出プログラム。
(Appendix 7)
In any one of
The deleted file detection process further includes:
A deletion file detection program comprising: a deletion step of moving the deletion candidate file detected in the detection step to a deletion candidate folder, and deleting the deletion candidate file stored in the deletion candidate folder after a lapse of a holding period.
(付記8)
付記7において、
前記削除工程は、前記削除候補フォルダからいずれかの前記削除候補ファイルの移動が行われた保留期間内における経過期間に基づいて、次回以降の保留期間を設定変更する削除ファイル検出プログラム。
(Appendix 8)
In Appendix 7,
The deletion step is a deletion file detection program for setting and changing the next and subsequent hold periods based on an elapsed period within a hold period in which any one of the deletion candidate files is moved from the deletion candidate folder.
(付記9)
フォルダに格納された複数のファイルのうち削除候補のファイルを検出する削除ファイル検出方法であって、
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出工程と、
抽出された前記複数の類似ファイルのうち、更新日時が1つ古い類似ファイルとのファイル内のコード情報の変化率が前記更新日時が新しくなるに連れて低減する一連のファイル群、または、当該変化率の差分が基準範囲内に収まる一連のファイル群を検出し、当該一連のファイル群のうち、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出工程と、を有する削除ファイル検出方法。
(Appendix 9)
A delete file detection method for detecting a delete candidate file among a plurality of files stored in a folder,
A similar file extraction step of extracting a plurality of similar files having similar file names from the plurality of files;
Among a plurality of extracted similar files, a series of file groups in which the change rate of code information in a file with a similar file whose update date is one older is reduced as the update date becomes new, or the change Detects a series of file groups whose rate difference falls within the reference range, and does not detect similar files with the latest update date and time among the series of file groups, but detects other similar files as deletion candidates And a detecting step of deleting a deleted file.
(付記10)
フォルダに格納された複数のファイルのうち削除候補のファイルを検出する削除ファイル検出方法であって、
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出工程と、
抽出された前記複数の類似ファイルについて、更新日時が1つ新しい類似ファイルとのファイル内のコード情報の変化率が基準変化率以上であって当該変化率が前記更新日時の1つ古い類似ファイルとの変化率よりも大きい類似ファイル、及び、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出工程と、を有する削除ファイル検出方法。
(Appendix 10)
A delete file detection method for detecting a delete candidate file among a plurality of files stored in a folder,
A similar file extraction step of extracting a plurality of similar files having similar file names from the plurality of files;
For the extracted similar files, the change rate of the code information in the file with the new similar file with one update date and time is equal to or higher than the reference change rate, and the change rate is the old similar file with the old update date and time. And a detection step of detecting other similar files as deletion candidates without detecting similar files having a rate of change larger than that and a similar file with the latest update date and time.
(付記11)
フォルダに格納された複数のファイルのうち削除候補のファイルを検出する削除ファイル検出装置であって、
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出手段と、
抽出された前記複数の類似ファイルのうち、更新日時が1つ古い類似ファイルとのファイル内のコード情報の変化率が前記更新日時が新しくなるに連れて低減する一連のファイル群、または、当該変化率の差分が基準範囲内に収まる一連のファイル群を検出し、当該一連のファイル群のうち、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出手段と、を有する削除ファイル検出装置。
(Appendix 11)
A delete file detection device that detects a delete candidate file among a plurality of files stored in a folder,
Similar file extraction means for extracting a plurality of similar files having similar file names from the plurality of files,
Among a plurality of extracted similar files, a series of file groups in which the change rate of code information in a file with a similar file whose update date is one older is reduced as the update date becomes new, or the change Detects a series of file groups whose rate difference falls within the reference range, and does not detect similar files with the latest update date and time among the series of file groups, but detects other similar files as deletion candidates A deleted file detecting device.
(付記12)
フォルダに格納された複数のファイルのうち削除候補のファイルを検出する削除ファイル検出装置であって、
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出手段と、
抽出された前記複数の類似ファイルについて、更新日時が1つ新しい類似ファイルとのファイル内のコード情報の変化率が基準変化率以上であって当該変化率が前記更新日時の1つ古い類似ファイルとの変化率よりも大きい類似ファイル、及び、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出手段と、を有する削除ファイル検出装置。
(Appendix 12)
A delete file detection device that detects a delete candidate file among a plurality of files stored in a folder,
Similar file extraction means for extracting a plurality of similar files having similar file names from the plurality of files,
For the extracted similar files, the change rate of the code information in the file with the new similar file with one update date and time is equal to or higher than the reference change rate, and the change rate is the old similar file with the old update date and time. A deleted file detection apparatus comprising: a similar file having a rate of change greater than the change rate and a similar file with the latest update date and time not being a deletion candidate, and detecting other similar files as deletion candidates.
1:コンピュータ、10:メモリ、11:プロセッサ、12:外部インタフェース、13:バス、20:削除ファイル検出プログラム、FL:対象フォルダ、DFL:削除候補フォルダ、30:外部メモリ 1: computer, 10: memory, 11: processor, 12: external interface, 13: bus, 20: deleted file detection program, FL: target folder, DFL: deletion candidate folder, 30: external memory
Claims (12)
前記削除ファイル検出処理は、
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出工程と、
抽出された前記複数の類似ファイルのうち、更新日時が1つ古い類似ファイルとのファイル内のコード情報の変化率が前記更新日時が新しくなるに連れて低減する一連のファイル群、または、当該変化率の差分が基準範囲内に収まる一連のファイル群を検出し、当該一連のファイル群のうち、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出工程と、を有する削除ファイル検出プログラム。 A computer-readable delete file detection program for causing a computer to execute a delete file detection process for detecting a delete candidate file among a plurality of files stored in a folder,
The deleted file detection process includes:
A similar file extraction step of extracting a plurality of similar files having similar file names from the plurality of files;
Among a plurality of extracted similar files, a series of file groups in which the change rate of code information in a file with a similar file whose update date is one older is reduced as the update date becomes new, or the change Detects a series of file groups whose rate difference falls within the reference range, and does not detect similar files with the latest update date and time among the series of file groups, but detects other similar files as deletion candidates A deleted file detection program comprising: a detection step;
前記削除ファイル検出処理は、
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出工程と、
抽出された前記複数の類似ファイルについて、更新日時が1つ新しい類似ファイルとのファイル内のコード情報の変化率が基準変化率以上であって当該変化率が前記更新日時の1つ古い類似ファイルとの変化率よりも大きい類似ファイル、及び、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出工程と、を有する削除ファイル検出プログラム。 A computer-readable delete file detection program for causing a computer to execute a delete file detection process for detecting a delete candidate file among a plurality of files stored in a folder,
The deleted file detection process includes:
A similar file extraction step of extracting a plurality of similar files having similar file names from the plurality of files;
For the extracted similar files, the change rate of the code information in the file with the new similar file with one update date and time is equal to or higher than the reference change rate, and the change rate is the old similar file with the old update date and time. A deleted file detection program comprising: a similar file having a rate of change greater than the change rate and a similar file with the latest update date and time not detected as a deletion candidate, and detecting other similar files as deletion candidates.
前記検出工程は、さらに、前記更新日時が1つ古い類似ファイルとの前記更新日時の間隔が基準間隔以上の類似ファイルについても前記削除候補としないファイル検出プログラム。 Regarding claim 1 or 2,
The detection step further includes a file detection program in which a similar file whose update date / time interval with a similar file whose update date / time is one older than the reference interval is not considered as the deletion candidate.
前記変化率は、前記類似ファイル内の全体のコード情報における、追加、更新、削除が行われたコード情報の割合を示す削除ファイル検出プログラム。 In any one of Claims 1 thru | or 3,
The change rate is a deleted file detection program that indicates a ratio of code information that has been added, updated, or deleted in the entire code information in the similar file.
前記類似ファイル抽出工程は、前記複数のファイルについて、ファイル作成ユーザが同一のファイルのうち、ファイル名から拡張子、及び、接頭語、接尾語を除くファイル内容名について、更新日時が1つ古いファイルとの一致率が一致基準値以上のファイルを類似ファイルとして抽出する削除ファイル検出プログラム。 In any one of Claims 1 thru | or 4,
In the similar file extraction step, among the plurality of files, the file creation user has the same file, and the file date of the file name excluding the extension, prefix, and suffix is the file with the latest update date and time. Deleted file detection program that extracts files with a match rate equal to or higher than the match reference value as similar files.
前記ファイル内容名一致率は、前記ファイル内容名が形態素解析された単語の一致率である削除ファイル検出プログラム。 In claim 5,
The deleted file detection program, wherein the file content name match rate is a match rate of words obtained by morphological analysis of the file content name.
前記削除ファイル検出処理は、さらに、
前記検出工程によって検出された前記削除候補のファイルを削除候補フォルダに移動し、保留期間経過後、前記削除候補フォルダに格納される削除候補ファイルを削除する削除工程、を有する削除ファイル検出プログラム。 In any one of Claims 1 thru | or 6.
The deleted file detection process further includes:
A deletion file detection program comprising: a deletion step of moving the deletion candidate file detected in the detection step to a deletion candidate folder, and deleting the deletion candidate file stored in the deletion candidate folder after a lapse of a holding period.
前記削除工程は、前記削除候補フォルダからいずれかの前記削除候補ファイルの移動が行われた保留期間内における経過期間に基づいて、次回以降の保留期間を設定変更する削除ファイル検出プログラム。 In claim 7,
The deletion step is a deletion file detection program for setting and changing the next and subsequent hold periods based on an elapsed period within a hold period in which any one of the deletion candidate files is moved from the deletion candidate folder.
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出工程と、
抽出された前記複数の類似ファイルのうち、更新日時が1つ古い類似ファイルとのファイル内のコード情報の変化率が前記更新日時が新しくなるに連れて低減する一連のファイル群、または、当該変化率の差分が基準範囲内に収まる一連のファイル群を検出し、当該一連のファイル群のうち、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出工程と、を有する削除ファイル検出方法。 A delete file detection method for detecting a delete candidate file among a plurality of files stored in a folder,
A similar file extraction step of extracting a plurality of similar files having similar file names from the plurality of files;
Among a plurality of extracted similar files, a series of file groups in which the change rate of code information in a file with a similar file whose update date is one older is reduced as the update date becomes new, or the change Detects a series of file groups whose rate difference falls within the reference range, and does not detect similar files with the latest update date and time among the series of file groups, but detects other similar files as deletion candidates And a detecting step of deleting a deleted file.
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出工程と、
抽出された前記複数の類似ファイルについて、更新日時が1つ新しい類似ファイルとのファイル内のコード情報の変化率が基準変化率以上であって当該変化率が前記更新日時の1つ古い類似ファイルとの変化率よりも大きい類似ファイル、及び、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出工程と、を有する削除ファイル検出方法。 A delete file detection method for detecting a delete candidate file among a plurality of files stored in a folder,
A similar file extraction step of extracting a plurality of similar files having similar file names from the plurality of files;
For the extracted similar files, the change rate of the code information in the file with the new similar file with one update date and time is equal to or higher than the reference change rate, and the change rate is the old similar file with the old update date and time. And a detection step of detecting other similar files as deletion candidates without detecting similar files having a rate of change larger than that and a similar file with the latest update date and time.
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出手段と、
抽出された前記複数の類似ファイルのうち、更新日時が1つ古い類似ファイルとのファイル内のコード情報の変化率が前記更新日時が新しくなるに連れて低減する一連のファイル群、または、当該変化率の差分が基準範囲内に収まる一連のファイル群を検出し、当該一連のファイル群のうち、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出手段と、を有する削除ファイル検出装置。 A delete file detection device that detects a delete candidate file among a plurality of files stored in a folder,
Similar file extraction means for extracting a plurality of similar files having similar file names from the plurality of files,
Among a plurality of extracted similar files, a series of file groups in which the change rate of code information in a file with a similar file whose update date is one older is reduced as the update date becomes new, or the change Detects a series of file groups whose rate difference falls within the reference range, and does not detect similar files with the latest update date and time among the series of file groups, but detects other similar files as deletion candidates A deleted file detecting device.
前記複数のファイルから、ファイル名が類似する複数の類似ファイルを抽出する類似ファイル抽出手段と、
抽出された前記複数の類似ファイルについて、更新日時が1つ新しい類似ファイルとのファイル内のコード情報の変化率が基準変化率以上であって当該変化率が前記更新日時の1つ古い類似ファイルとの変化率よりも大きい類似ファイル、及び、前記更新日時が最新の類似ファイルについては削除候補とせず、それ以外の類似ファイルを削除候補として検出する検出手段と、を有する削除ファイル検出装置。 A delete file detection device that detects a delete candidate file among a plurality of files stored in a folder,
Similar file extraction means for extracting a plurality of similar files having similar file names from the plurality of files,
For the extracted similar files, the change rate of the code information in the file with the new similar file with one update date and time is equal to or higher than the reference change rate, and the change rate is the old similar file with the old update date and time. A deleted file detection apparatus comprising: a similar file having a rate of change greater than the change rate and a similar file with the latest update date and time not being a deletion candidate, and detecting other similar files as deletion candidates.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012076350A JP2013206280A (en) | 2012-03-29 | 2012-03-29 | Deletion file detection program, deletion file detection method and deletion file detection device |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012076350A JP2013206280A (en) | 2012-03-29 | 2012-03-29 | Deletion file detection program, deletion file detection method and deletion file detection device |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2013206280A true JP2013206280A (en) | 2013-10-07 |
Family
ID=49525260
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012076350A Pending JP2013206280A (en) | 2012-03-29 | 2012-03-29 | Deletion file detection program, deletion file detection method and deletion file detection device |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2013206280A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020522782A (en) * | 2017-05-24 | 2020-07-30 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | How to estimate the deletability of a data object |
CN111552673A (en) * | 2020-04-29 | 2020-08-18 | 咪咕文化科技有限公司 | File processing method and device, electronic equipment and storage medium |
CN112416866A (en) * | 2019-08-23 | 2021-02-26 | 珠海金山办公软件有限公司 | Method and device for detecting duplicate files and electronic equipment |
-
2012
- 2012-03-29 JP JP2012076350A patent/JP2013206280A/en active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020522782A (en) * | 2017-05-24 | 2020-07-30 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | How to estimate the deletability of a data object |
JP7038143B2 (en) | 2017-05-24 | 2022-03-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | How to estimate the deleteability of a data object |
CN112416866A (en) * | 2019-08-23 | 2021-02-26 | 珠海金山办公软件有限公司 | Method and device for detecting duplicate files and electronic equipment |
CN111552673A (en) * | 2020-04-29 | 2020-08-18 | 咪咕文化科技有限公司 | File processing method and device, electronic equipment and storage medium |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9646030B2 (en) | Computer-readable medium storing program and version control method | |
US7117294B1 (en) | Method and system for archiving and compacting data in a data storage array | |
EP3103025B1 (en) | Content based organization of file systems | |
US9547657B2 (en) | Methods and systems for efficient comparison of file sets | |
CN109726177A (en) | A kind of mass file subregion indexing means based on HBase | |
US8478719B2 (en) | System and method for media file synchronization | |
CN102360410B (en) | User operation discovery method of file system and synchronous system utilizing the same | |
CN109522160B (en) | Method and system for comparing and backing up file directory by saving file information abstract | |
CN109522271B (en) | Batch insertion and deletion method and device for B + tree nodes | |
CN113420026B (en) | Database table structure changing method, device, equipment and storage medium | |
US10256977B2 (en) | Methods and systems for efficient representation of file sets | |
CN109408589A (en) | Method of data synchronization and device | |
CN101419717B (en) | Format file graphic-text auto-associating method and system | |
CN111125298A (en) | Method, equipment and storage medium for reconstructing NTFS file directory tree | |
JP2013206280A (en) | Deletion file detection program, deletion file detection method and deletion file detection device | |
CN106407288B (en) | Method and system for synchronously updating information | |
KR101358793B1 (en) | Method of forming index file, Method of searching data and System for managing data using dictionary index file, Recoding medium | |
KR20070119394A (en) | Apparatus and method for browsing contents | |
CN111176901B (en) | HDFS deleted file recovery method, terminal device and storage medium | |
US20220222146A1 (en) | Versioned backup on an object addressable storage system | |
CN110795520B (en) | Automatic identification method for association relation between digital geological data packet directory and file | |
CN104317950B (en) | The conjunction rule inspection method and device of code | |
CN109344163B (en) | Data verification method and device and computer readable medium | |
CN113297201A (en) | Index data synchronization method, system and device | |
CN105260423A (en) | Duplicate removal method and apparatus for electronic cards |