JP2012181796A - Information processing system, duplicate file removal method for information processing system, information processor, and control method and control program for information processor - Google Patents

Information processing system, duplicate file removal method for information processing system, information processor, and control method and control program for information processor Download PDF

Info

Publication number
JP2012181796A
JP2012181796A JP2011045934A JP2011045934A JP2012181796A JP 2012181796 A JP2012181796 A JP 2012181796A JP 2011045934 A JP2011045934 A JP 2011045934A JP 2011045934 A JP2011045934 A JP 2011045934A JP 2012181796 A JP2012181796 A JP 2012181796A
Authority
JP
Japan
Prior art keywords
data
folder
file
information processing
path
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2011045934A
Other languages
Japanese (ja)
Other versions
JP5473010B2 (en
Inventor
Takemi Yoshida
武未 吉田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Fielding Ltd
Original Assignee
NEC Fielding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Fielding Ltd filed Critical NEC Fielding Ltd
Priority to JP2011045934A priority Critical patent/JP5473010B2/en
Publication of JP2012181796A publication Critical patent/JP2012181796A/en
Application granted granted Critical
Publication of JP5473010B2 publication Critical patent/JP5473010B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

PROBLEM TO BE SOLVED: To effectively use resources by removing duplicate data and centrally managing retained data in an information processing system where plural computers are connected with each other.SOLUTION: An information processor includes: a search unit for searching whether a folder including the same data file as a data file to be processed is in data retention means for retaining data; a storage unit for, when the folder including the same data file is not in the data retention means, storing the folder including the data file in the data retention means; a path setting unit for setting a path from a shortcut file in each folder of all information processors having the data file to the data file in the data retention means; and a removal unit for removing all the data files retained in the folders of the information processors.

Description

本発明は、情報処理システムにおいて重複ファイルを排除する技術に関する。   The present invention relates to a technique for eliminating duplicate files in an information processing system.

上記技術分野において、特許文献1では、記憶装置ユニット(HDU)内における重複データをハッシュコードの比較により検出して、重複データに対しては、一方を破棄する処理やリンクに置き換える処理、重複しないデータのみのコピー処理などを行なうことが記載されている。また、特許文献2では、複数のディスクドライブからなる記憶システムにおいて、データの重複除外範囲についてハッシュ値の表を保持して、ディスクドライブが電源OFFであっても重複除外処理ができる技術が記載されている。また、特許文献3には、複数のディスクからなるストレージアレイにデータを保持する場合に、仮想テープライブラリ(VTL:Virtual Tape Library)によってデータセット内の同じアンカーポイントとその前後のデルタによって重複データを識別する。そして、重複データをストレージインジケータで置き換えることによって記憶データを圧縮することが記載されている。   In the above technical field, in Patent Document 1, duplicate data in a storage unit (HDU) is detected by comparing hash codes, and for duplicate data, processing for discarding one or replacing it with a link, there is no duplication It describes that only data is copied. Patent Document 2 describes a technique that allows a deduplication process to be performed even when a disk drive is turned off by holding a hash value table for a deduplication range of data in a storage system including a plurality of disk drives. ing. In Patent Document 3, when data is stored in a storage array composed of a plurality of disks, duplicate data is stored by the same anchor point in the data set and a delta before and after the virtual tape library (VTL). Identify. It also describes that the stored data is compressed by replacing the duplicate data with a storage indicator.

特開2009−251725号公報JP 2009-251725 A 特開2009−080788号公報JP 2009-080788 A 特表2009−535704号公報Special table 2009-535704 gazette

しかしながら、上記従来技術は、いずれもディスクなどからなる個別の記憶媒体内における、重複データを排除する技術である。したがって、記憶媒体内の重複データの一方は残し他方はポインタに置き換えることで自己完結的に解決が可能である。ところが、ネットワークを介して多くのコンピュータや周辺機器などが接続されたコンピュータシステムにおいては、記憶媒体間やコンピュータ間、コンピュータと記憶媒体間での重複データを削除することも求められる。   However, the above conventional techniques are techniques for eliminating duplicate data in individual storage media such as disks. Accordingly, it is possible to solve the problem in a self-contained manner by replacing one of the duplicate data in the storage medium and replacing the other with a pointer. However, in a computer system in which many computers and peripheral devices are connected via a network, it is also required to delete duplicate data between storage media, between computers, and between computers and storage media.

たとえば、それぞれ各ユーザ個人で使用するクライアントPCのデータは、ユーザ自らの意思で自由に管理して上記従来技術を適用すれば重複データの排除は可能である。しかしながら、コンピュータシステムを構成する全サーバ、全クライアントPCが含むディスク全体を対象にすれば、複数の重複したデータが存在する可能性が極めて高くなる。なぜなら、コンピュータシステムにおいて複数のクライアントPCで情報の共有をするには、WEB上やファイルサーバ上に共有ファイルをアップデートする必要があり、また、それぞれのクライアントPCが同一ファイルをダウンロードするためである。また、各クライアントPCには重複データが無く1つデータであったとしても、二度と使用する必要がないファイルを削除し忘れたりすると、システム内には重複データとして残ってしまうことになる。さらに、ユーザ意識の問題による支給PCの私物化なども原因となる。かかる問題点の解決には、個別の装置内における重複データの排除とは異なる新たな工夫が求められる。   For example, it is possible to eliminate duplicate data if the data of the client PC used by each individual user is freely managed by the user's own intention and the above-described conventional technique is applied. However, if the entire disks included in all servers and all client PCs constituting the computer system are targeted, the possibility that a plurality of duplicate data exists is extremely high. This is because in order to share information among a plurality of client PCs in a computer system, it is necessary to update the shared file on the WEB or the file server, and each client PC downloads the same file. Even if there is no duplicate data in each client PC and there is only one data, if you forget to delete a file that does not need to be used again, it will remain as duplicate data in the system. In addition, it is also caused by the personalization of the payment PC due to the problem of user awareness. In order to solve such a problem, a new device different from the elimination of duplicate data in individual apparatuses is required.

本発明の目的は、上述の課題を解決する技術を提供することにある。   The objective of this invention is providing the technique which solves the above-mentioned subject.

上記目的を達成するため、本発明に係る装置は、
処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持手段内に有るか否かを検索する検索手段と、
同一のデータファイルを含むフォルダが前記データ保持手段内に無い場合は、前記データファイルを含むフォルダを前記データ保持手段に記憶する記憶手段と、
前記データファイルを保持する全ての情報処理装置のフォルダに対して、当該フォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するパス設定手段と、
前記情報処理装置のフォルダが保持する前記データファイルを全て削除する削除手段と、
を備えることを特徴とする。
In order to achieve the above object, an apparatus according to the present invention provides:
Search means for searching whether or not a folder containing the same data file as the data file to be processed exists in the data holding means for holding data;
If there is no folder containing the same data file in the data holding means, storage means for storing the folder containing the data file in the data holding means;
Path setting means for setting a path from a shortcut file in the folder to the data file in the data holding means for all information processing device folders holding the data file;
Deleting means for deleting all the data files held by the folder of the information processing apparatus;
It is characterized by providing.

上記目的を達成するため、本発明に係る方法は、
処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持手段内に有るか否かを検索する検索ステップと、
同一のデータファイルを含むフォルダが前記データ保持手段内に無い場合は、前記データファイルを含むフォルダを前記データ保持手段に記憶する記憶ステップと、
前記データファイルを保持する全ての情報処理装置のフォルダに対して、当該フォルダのショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するパス設定ステップと、
前記情報処理装置のフォルダが保持する前記データファイルを全て削除する削除ステップと、
を含むことを特徴とする。
In order to achieve the above object, the method according to the present invention comprises:
A search step for searching whether a folder containing the same data file as the data file to be processed exists in the data holding means for holding the data;
If there is no folder containing the same data file in the data holding means, a storing step of storing the folder containing the data file in the data holding means;
A path setting step for setting a path from a shortcut file of the folder to the data file in the data holding unit for all folders of the information processing apparatus holding the data file;
A deletion step of deleting all the data files held by the folder of the information processing apparatus;
It is characterized by including.

上記目的を達成するため、本発明に係るプログラムは、
処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持手段内に有るか否かを検索する検索ステップと、
同一のデータファイルを含むフォルダが前記データ保持手段内に無い場合は、前記データファイルを含むフォルダを前記データ保持手段に記憶する記憶ステップと、
前記データファイルを保持する全ての情報処理装置のフォルダに対して、当該フォルダのショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するパス設定ステップと、
前記情報処理装置のフォルダが保持する前記データファイルを全て削除する削除ステップと、
をコンピュータに実行させることを特徴とする。
In order to achieve the above object, a program according to the present invention provides:
A search step for searching whether a folder containing the same data file as the data file to be processed exists in the data holding means for holding the data;
If there is no folder containing the same data file in the data holding means, a storing step of storing the folder containing the data file in the data holding means;
A path setting step for setting a path from a shortcut file of the folder to the data file in the data holding unit for all folders of the information processing apparatus holding the data file;
A deletion step of deleting all the data files held by the folder of the information processing apparatus;
Is executed by a computer.

上記目的を達成するため、本発明に係るシステムは、
複数のクライアントが生成した異なるフォルダに同じデータファイルを保持することが可能な情報処理システムであって、
前記同じデータファイルを1つのフォルダに保持する保持手段と、
前記複数のクライアントが生成した前記同じデータファイルを保持する全ての異なるフォルダ内のショートカットファイルから、前記保持手段に保持した前記1つのフォルダへのパスを設定するパス設定手段と、
前記全ての異なるフォルダが保持する前記同じデータファイルを全て削除する削除手段と、
を備えることを特徴とする。
In order to achieve the above object, a system according to the present invention provides:
An information processing system capable of holding the same data file in different folders generated by a plurality of clients,
Holding means for holding the same data file in one folder;
Path setting means for setting a path from the shortcut files in all the different folders holding the same data file generated by the plurality of clients to the one folder held in the holding means;
Deleting means for deleting all the same data files held by all the different folders;
It is characterized by providing.

上記目的を達成するため、本発明に係る方法は、
複数のクライアントが生成した異なるフォルダに同じのデータファイルを保持することが可能な情報処理システムにおける重複ファイル排除方法であって、
前記同じデータファイルを1つのフォルダに保持する保持ステップと、
前記複数のクライアントが生成した前記同じデータファイルを保持する全ての異なるフォルダ内のショートカットファイルから、前記保持ステップにおいて保持した前記1つのフォルダへのパスを設定するパス設定ステップと、
前記全ての異なるフォルダが保持する前記同じデータファイルを全て削除する削除ステップと、
を含むことを特徴とする。
In order to achieve the above object, the method according to the present invention comprises:
A duplicate file elimination method in an information processing system capable of holding the same data file in different folders generated by a plurality of clients,
A holding step of holding the same data file in one folder;
A path setting step for setting a path from the shortcut files in all the different folders holding the same data file generated by the plurality of clients to the one folder held in the holding step;
A deletion step of deleting all the same data files held by all the different folders;
It is characterized by including.

本発明によれば、複数のコンピュータが接続する情報処理システムにおける重複データの排除と保持データの集中管理とにより、リソースを有効利用できる。   According to the present invention, resources can be effectively used by eliminating duplicate data and centrally managing retained data in an information processing system connected to a plurality of computers.

本発明の第1実施形態に係る情報処理装置の構成を示すブロック図である。It is a block diagram which shows the structure of the information processing apparatus which concerns on 1st Embodiment of this invention. 本発明の第2実施形態に係る情報処理システムの構成を示すブロック図である。It is a block diagram which shows the structure of the information processing system which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る情報処理システムにおける各装置の機能構成の概略とその動作手順を示すブロック図である。It is a block diagram which shows the outline of the function structure of each apparatus in the information processing system which concerns on 2nd Embodiment of this invention, and its operation | movement procedure. 本発明の第2実施形態に係る重複検索サーバのハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the duplication search server which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係るショートカットデータの構成を示す図である。It is a figure which shows the structure of the shortcut data which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係るバックアップDBとデータ参照DBとの構成を示す図である。It is a figure which shows the structure of backup DB and data reference DB which concern on 2nd Embodiment of this invention. 本発明の第2実施形態に係る重複検索サーバの処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of the duplication search server which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係るバックアップデータ有無の判断処理を含む処理手順を示すフローチャートである。It is a flowchart which shows the process sequence including the judgment process of backup data presence / absence based on 2nd Embodiment of this invention. 本発明の第2実施形態に係る重複データの判断処理を含む処理手順を示すフローチャートである。It is a flowchart which shows the process sequence including the judgment process of the duplicate data which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る重複データ有りの場合のクライアントPC用のショートカット作成処理を含む処理手順を示すフローチャートである。It is a flowchart which shows the process sequence including the shortcut creation process for client PCs in case with duplicate data which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係る重複データ無しの場合のデータ参照サーバへのバックアップデータ記憶処理を含む処理手順を示すフローチャートである。It is a flowchart which shows the process sequence including the backup data storage process to the data reference server in the case of no duplicate data based on 2nd Embodiment of this invention. 本発明の第2実施形態に係る重複データ無しの場合のクライアントPC用のショートカット作成処理を含む処理手順を示すフローチャートである。It is a flowchart which shows the process sequence including the shortcut creation process for client PCs in the case of no duplicate data concerning 2nd Embodiment of this invention. 本発明の第2実施形態に係る処理済みでないバックアップデータ有無の判断処理を含む処理手順を示すフローチャートである。It is a flowchart which shows the process sequence including the judgment process of the backup data presence / absence which has not been processed based on 2nd Embodiment of this invention. 本発明の第2実施形態に係る後処理を含む処理手順を示すフローチャートである。It is a flowchart which shows the process sequence including the post-process which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係るクライアントPCのハードウェア構成を示すブロック図である。It is a block diagram which shows the hardware constitutions of the client PC concerning 2nd Embodiment of this invention. 本発明の第2実施形態に係るショートカットテーブルの構成を示す図である。It is a figure which shows the structure of the shortcut table which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態に係るクライアントPCの処理手順を示すフローチャートである。It is a flowchart which shows the process sequence of client PC which concerns on 2nd Embodiment of this invention. 本発明の第2実施形態による具体例の処理における起動前起点での各部データを示す図である。It is a figure which shows each part data in the starting point before starting in the process of the specific example by 2nd Embodiment of this invention. 本発明の第2実施形態による具体例の処理における初期化時点(S701)での各部データを示す図である。It is a figure which shows each part data in the initialization time (S701) in the process of the specific example by 2nd Embodiment of this invention. 本発明の第2実施形態による具体例の処理におけるバックアップデータ数の検出時点(S707)での各部データを示す図である。It is a figure which shows each part data in the detection time (S707) of the number of backup data in the process of the specific example by 2nd Embodiment of this invention. 本発明の第2実施形態による具体例の処理における1番目のバックアップデータの重複データ有無判断中(S809の判定)の各部データを示す図である。It is a figure which shows each part data in the duplication data existence judgment (judgment of S809) of the 1st backup data in the process of the specific example by 2nd Embodiment of this invention. 本発明の第2実施形態による具体例の処理における重複データ無しの場合のデータ参照サーバ書込準備時(S1007)の各部データを示す図である。It is a figure which shows each part data at the time of the data reference server write preparation in the case of no duplicate data in the process of the specific example by 2nd Embodiment of this invention (S1007). 本発明の第2実施形態による具体例の処理における重複データ無しの場合のデータ参照サーバ書込時(S1105)及びショートカットパス設定時(S1109)の各部データを示す図である。It is a figure which shows each part data at the time of the data reference server writing at the time of the duplication data absence in the process of the specific example by 2nd Embodiment of this invention (S1105), and a shortcut path setting (S1109). 本発明の第2実施形態による具体例の処理における1回目の処理済み判定時(S1201/S1203)の各部データを示す図である。It is a figure which shows each part data at the time of the 1st process completion determination in the process of the specific example by 2nd Embodiment of this invention (S1201 / S1203). 本発明の第2実施形態による具体例の処理における2番目のバックアップデータの重複データ有りの判断時(S809)及びショートカットパス設定時(S911)の各部データを示す図である。It is a figure which shows each part data at the time of judgment (S809) of the duplication data of the 2nd backup data in the process of the specific example by 2nd Embodiment of this invention, and the time of a shortcut path setting (S911). 本発明の第2実施形態による具体例の処理における2回目の処理済み判定時(S1201/S1203)の各部データを示す図である。It is a figure which shows each part data at the time of the 2nd process completion determination in the process of the specific example by 2nd Embodiment of this invention (S1201 / S1203). 本発明の第2実施形態による具体例の処理における重複データ処理の終了時点(S1307/S1309)での各部データを示す図である。It is a figure which shows each part data in the completion time (S1307 / S1309) of the duplication data process in the process of the specific example by 2nd Embodiment of this invention.

以下に、図面を参照して、本発明の実施の形態について例示的に詳しく説明する。ただし、以下の実施の形態に記載されている構成要素はあくまで例示であり、本発明の技術範囲をそれらのみに限定する趣旨のものではない。   Hereinafter, exemplary embodiments of the present invention will be described in detail with reference to the drawings. However, the components described in the following embodiments are merely examples, and are not intended to limit the technical scope of the present invention only to them.

[第1実施形態]
本発明の第1実施形態としての情報処理装置100について、図1を用いて説明する。 図1に示すように、情報処理装置100は、検索部120と、記憶部130と、パス設定部140と、削除部150と、を含む。検索部120は、処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持部110内に有るか否かを検索する。記憶部130は、同一のデータファイルBを含むフォルダがデータ保持部110内に無い場合は、データファイルBを含むフォルダYYをデータ保持部110に記憶する。
[First Embodiment]
An information processing apparatus 100 as a first embodiment of the present invention will be described with reference to FIG. As illustrated in FIG. 1, the information processing apparatus 100 includes a search unit 120, a storage unit 130, a path setting unit 140, and a deletion unit 150. The search unit 120 searches whether or not a folder including the same data file as the data file to be processed exists in the data holding unit 110 that holds data. When there is no folder that includes the same data file B in the data holding unit 110, the storage unit 130 stores the folder YY that includes the data file B in the data holding unit 110.

パス設定部140は、データファイルAを保持する全ての情報処理装置160、180のフォルダAA,CCに対して、当該フォルダ内のショートカットファイルA,Cからデータ保持部110内のデータファイルAへのパス190を設定する。また、パス設定部140は、データファイルBを保持する情報処理装置170のフォルダBBに対して、当該フォルダ内のショートカットファイルBからデータ保持部110内のデータファイルBへのパス190を設定する。削除部150は、情報処理装置160,170のフォルダAA,CCが保持するデータファイルAを全て削除する。また、削除部150は、情報処理装置170のフォルダBBが保持するデータファイルBを削除する。   The path setting unit 140 applies, for all the information processing apparatuses 160 and 180 holding the data file A, the folders AA and CC in the folder from the shortcut files A and C in the folder to the data file A in the data holding unit 110. A path 190 is set. Further, the path setting unit 140 sets a path 190 from the shortcut file B in the folder to the data file B in the data holding unit 110 for the folder BB of the information processing apparatus 170 that holds the data file B. The deletion unit 150 deletes all data files A held in the folders AA and CC of the information processing apparatuses 160 and 170. Further, the deletion unit 150 deletes the data file B held in the folder BB of the information processing apparatus 170.

本実施形態によれば、複数のコンピュータが接続する情報処理システムにおける重複データの排除と保持データの集中管理とにより、リソースを有効利用できる。   According to the present embodiment, resources can be effectively used by eliminating duplicate data and centralized management of retained data in an information processing system in which a plurality of computers are connected.

[第2実施形態]
本発明の第2実施形態によれば、重複検索サーバに導入した処理を管理機端末PCから実行することにより、自動的に全クライアントPC上のデータが、データ参照サーバ上の、同一ハッシュ値のデータが保管されたフォルダへのショートカットファイルに置き換えられ、削除される。データ参照サーバに同一ハッシュ値のデータがない場合は、データが新規にデータ参照サーバに追加され、そのデータへのパスがデータベースに追加される。
[Second Embodiment]
According to the second embodiment of the present invention, by executing the processing introduced in the duplicate search server from the management terminal PC, the data on all the client PCs is automatically stored in the data reference server with the same hash value. It is replaced with a shortcut file to the folder where the data is stored and deleted. If there is no data with the same hash value in the data reference server, the data is newly added to the data reference server, and the path to the data is added to the database.

上記、本実施形態による重複検索サーバの処理手順は、次のような手順である。まず、全クライアントPCのデータを重複検索サーバへ統合バックアップして、全データのそれぞれのハッシュ値を算出してデータベースに書き込む。次に、そのバックアップデータベースを参照した対象データのハッシュ値と、現在までの一意なデータが統合保管されているデータ参照サーバを一覧できるデータ参照データベースに保持された対象データのハッシュ値とを1つ1つ比較する。そして、バックアップデータベースの対象データが重複データであるか非重複データであるかの比較をする。比較の結果、対象バックアップデータが非重複データの場合は、データ参照サーバ上に新たに対象バックアップデータを複製して、データ参照データベースに新データの情報を追加する。対象バックアップデータが重複データの場合は、データ参照サーバへのデータ複製は行わない。この状態で、対象バックアップデータが非重複データであっても重複データであっても、データ参照サーバ上にデータが存在することになる。最後に、クライアントPC上の対象バックアップデータが保管されたフォルダに、データ参照サーバ上の同一データファイルへのショートカットを作成して、クライアントPC上の対象バックアップデータを削除する。本実施形態の処理手順によって、情報処理システム全体の重複ファイルを排除することができ、かつ、システムに接続する全てのクライアントPC上のデータをサーバに一括してマイグレーションし、システム全体としてディスクなどの記憶媒体の有効活用を実現することができる。   The processing procedure of the duplicate search server according to the present embodiment is as follows. First, the data of all the client PCs are integrated and backed up to the duplicate search server, and the hash values of all the data are calculated and written in the database. Next, one hash value of the target data referring to the backup database and one hash value of the target data held in the data reference database that can list the data reference servers in which the unique data until now are integrated and stored Compare one. Then, it is compared whether the target data of the backup database is duplicated data or non-duplicated data. As a result of the comparison, if the target backup data is non-duplicate data, the target backup data is newly duplicated on the data reference server, and new data information is added to the data reference database. When the target backup data is duplicate data, data replication to the data reference server is not performed. In this state, data exists on the data reference server regardless of whether the target backup data is non-duplicate data or duplicate data. Finally, a shortcut to the same data file on the data reference server is created in the folder where the target backup data on the client PC is stored, and the target backup data on the client PC is deleted. Through the processing procedure of this embodiment, it is possible to eliminate duplicate files in the entire information processing system, and the data on all client PCs connected to the system is migrated to the server in a lump so that the entire system can be Effective utilization of the storage medium can be realized.

なお、本実施形態では、情報処理システム内のバックアップデータファイルの重複を無くす例を代表して説明するが、いかなるデータファイルあるいはデータの一部の重複を無くすためにも容易に適用できる。さらに、データはプログラムであってもよく、本実施形態のデータはクライアントPCが処理する全てのデジタルデータを含む概念である。   In this embodiment, an example in which duplication of backup data files in the information processing system is eliminated will be described as a representative example. However, the present embodiment can be easily applied to eliminate duplication of any data file or part of data. Further, the data may be a program, and the data of the present embodiment is a concept including all digital data processed by the client PC.

《本実施形態の情報処理システムの構成》
図2は、本実施形態に係る情報処理システム200の構成を示すブロック図である。
<< Configuration of Information Processing System of this Embodiment >>
FIG. 2 is a block diagram illustrating a configuration of the information processing system 200 according to the present embodiment.

図2を参照すると、本実施形態の情報処理システム200は、クライアントPC・N100〜N10XとクライアントサーバN11Xとを含むクライアント装置を有する。なお、上記クライアントPC・N100〜N10Xには、デスクトップコンピュータN100〜N10Kや携帯端末N10MやノートパソコンN10N〜N10Xを含んでよい。情報処理システム200は、重複検索サーバN200と、データ参照サーバN300と、管理端末PC・N400とを有する。クライアントPC・N100〜N10Xと、重複検索サーバN200と、データ参照サーバN300と、管理端末PC・N400とは、ネットワークN500を介して、互いに接続される。接続は有線であっても無線であってもよい。   Referring to FIG. 2, the information processing system 200 of the present embodiment includes a client device including client PCs N100 to N10X and a client server N11X. The client PCs N100 to N10X may include desktop computers N100 to N10K, portable terminals N10M, and notebook computers N10N to N10X. The information processing system 200 includes a duplicate search server N200, a data reference server N300, and a management terminal PC / N400. The client PCs N100 to N10X, the duplicate search server N200, the data reference server N300, and the management terminal PC N400 are connected to each other via a network N500. The connection may be wired or wireless.

なお、管理端末PC・N400は、重複検索サーバN200に直接接続されてよい(図2に破線で示す)。また、データ参照サーバN300は、本情報処理システムが参照するただ1つのデータを保持するため、図2のように並列構造であるのが望ましい。   The management terminal PC / N400 may be directly connected to the duplicate search server N200 (shown by a broken line in FIG. 2). The data reference server N300 preferably has a parallel structure as shown in FIG. 2 in order to hold only one piece of data that is referred to by the information processing system.

(情報処理システムにおける各装置の機能構成とその動作手順の概略)
図3は、情報処理システム200における各装置の機能構成の概略とその動作手順を示すブロック図である。なお、図3には、重複検索サーバN200を中心に機能構成部とそれらのデータ及び信号の接続と、動作手順のステップ番号を示している(ステップ番号は、図7〜図13のステップ番号に対応する)。動作手順の詳細な処理は図7〜図13に従って後述するので、ここでは機能構成部の機能と動作を主に説明する。
(Outline of functional configuration and operation procedure of each device in information processing system)
FIG. 3 is a block diagram showing an outline of a functional configuration of each device in the information processing system 200 and an operation procedure thereof. Note that FIG. 3 shows the function configuration units, their data and signal connections, and the step numbers of the operation procedures centering on the duplicate search server N200 (the step numbers are the same as the step numbers in FIGS. 7 to 13). Corresponding). Since detailed processing of the operation procedure will be described later with reference to FIGS. 7 to 13, the function and operation of the functional component will be mainly described here.

クライアントPC・N100〜N10Xに内蔵されるフォルダは、バックアップデータ元フォルダF110〜F11Xである。   The folders built in the client PCs N100 to N10X are backup data source folders F110 to F11X.

重複検索サーバN200に内蔵される処理部は、中央処理部SW10と、バックアップ制御部SW20と、比較計算部SW30と、データ作成部SW40とである。なお、本実施形態においては、これら処理部は重複検索サーバN200のCPUが各処理モジュールプログラムを実行することにより実現され、各処理部間の信号伝達は各処理モジュールプログラム間の引き数により実現される。しかしながら、処理部の一部あるいは全部がそれぞれのCPUを有していて、各処理部間の信号伝達はコンピュータ通信により行なわれてもよい。   The processing units incorporated in the duplicate search server N200 are a central processing unit SW10, a backup control unit SW20, a comparison calculation unit SW30, and a data creation unit SW40. In the present embodiment, these processing units are realized by the CPU of the duplicate search server N200 executing each processing module program, and signal transmission between the processing units is realized by an argument between the processing module programs. The However, some or all of the processing units may have respective CPUs, and signal transmission between the processing units may be performed by computer communication.

また、重複検索サーバN200に内蔵されるデータベースは、重複検索サーバN200が処理するクライアントPCのバックアップデータ元フォルダを管理するバックアップDB・D10と、データ参照サーバのデータ参照先フォルダを管理するデータ参照DB・D20とである。また、重複検索サーバN200に内蔵されるレジスタは、バックアップDB・D10を管理するためのBUID指数レジスタR10及びBUID合計レジスタR20と、データ参照DB・D20を管理するためのFDID指数レジスタR30及びFDID合計レジスタR40とである。また、重複検索サーバN200に内蔵されるフォルダは、クライアントPCから転送されたバックアップデータを格納する格納先フォルダF210〜F21Xである。また、重複検索サーバN200に内蔵されるカウンタは、処理するバックアップデータ数を示すカウンタC10である。   The database built in the duplicate search server N200 includes a backup DB D10 for managing the backup data source folder of the client PC processed by the duplicate search server N200, and a data reference DB for managing the data reference destination folder of the data reference server. -It is with D20. The registers built in the duplicate search server N200 include a BUID index register R10 and a BUID total register R20 for managing the backup DB / D10, and a FDID index register R30 and FDID total for managing the data reference DB / D20. Register R40. The folders built in the duplicate search server N200 are storage destination folders F210 to F21X for storing backup data transferred from the client PC. The counter built in the duplicate search server N200 is a counter C10 indicating the number of backup data to be processed.

データ参照サーバN300に内蔵されるフォルダは、参照先のバックアップデータを保持するデータ参照先フォルダF310〜F310である。   The folders built in the data reference server N300 are data reference destination folders F310 to F310 that hold backup data of reference destinations.

本実施形態で処理される対象データは、バックアップデータF10〜F1Xと、ショートカットファイルF30〜F3Xとである。バックアップデータF10〜F1Xは、データ参照サーバのデータ参照フォルダに保持され、クライアントPCのバックアップ元フォルダや格納先フォルダからは削除される。そのため、図3では削除されるバックアップデータは破線で示されている。クライアントPCのバックアップ元フォルダのバックアップデータF10〜F1Xは削除されて、ショートカットファイルF30〜F3Xに置き換えられる。   The target data processed in this embodiment is backup data F10 to F1X and shortcut files F30 to F3X. The backup data F10 to F1X are held in the data reference folder of the data reference server, and are deleted from the backup source folder and the storage destination folder of the client PC. Therefore, in FIG. 3, the backup data to be deleted is indicated by a broken line. The backup data F10 to F1X in the backup source folder of the client PC are deleted and replaced with shortcut files F30 to F3X.

各機能構成部の概要動作をさらに詳細に説明する。   The general operation of each functional component will be described in more detail.

クライアントPC・N100〜N10Xは各クライアントPCであり、本情報処理システムのデータ排除対象である。重複検索サーバN200は本情報処理システムの処理サーバであり、データの処理を行うサーバである。データ参照サーバN300は全非重複データの格納先サーバであり、クライアントPCに保管されるショートカットファイルのデータ参照先サーバである。管理端末PC・N400は、本情報処理システムを起動させる端末であり、重複検索サーバの中央処理部SW10を起動させる端末である。   Client PCs N100 to N10X are client PCs and are data exclusion targets of the information processing system. The duplicate search server N200 is a processing server of the information processing system, and is a server that processes data. The data reference server N300 is a storage destination server for all non-redundant data, and is a data reference destination server for shortcut files stored in the client PC. The management terminal PC / N400 is a terminal that activates the information processing system, and is a terminal that activates the central processing unit SW10 of the duplicate search server.

クライアントPC・N100〜N10Xのバックアップデータ元フォルダF110〜F11Xは、クライアントPC上のバックアップデータを保存しているフォルダである。バックアップDBに当フォルダへのパス情報を書き込む
重複検索サーバN200の中央処理部SW10は管理端末PC・N400からの起動命令から起動する処理部で、主な機能として各処理部への起動を中心に行う司令塔の役割を持つ処理部である。また、処理終了時の管理端末PC・N400への処理終了伝達も行う。バックアップ制御部SW20は中央処理部SW10からの起動命令により起動する処理部で、主な機能として全クライアントPCのバックアップの役割を持つ処理部である。比較計算部SW30は中央処理部SW10からの起動命令により起動する処理部で、主な機能としてバックアップDBとデータ参照サーバDBとのデータ比較や、各レジスタ値のデータ比較の役割を持つ処理部である。データ作成部SW40は中央処理部SW10からの起動命令により起動する処理部で、主な機能としてデータおよびフォルダの生成や削除の役割や、ショートカットファイルの作成の役割を持つ処理部である。
The backup data source folders F110 to F11X of the client PCs N100 to N10X are folders that store backup data on the client PC. Write the path information to this folder in the backup DB. The central processing unit SW10 of the duplicate search server N200 is a processing unit that is activated from the activation command from the management terminal PC / N400, with the main function being the activation to each processing unit. It is a processing department that has the role of a command tower. Also, the process end is transmitted to the management terminal PC N400 at the end of the process. The backup control unit SW20 is a processing unit that is activated by an activation instruction from the central processing unit SW10, and is a processing unit that has a role of backing up all client PCs as a main function. The comparison calculation unit SW30 is a processing unit that is activated by an activation instruction from the central processing unit SW10, and is a processing unit that plays a role of data comparison between the backup DB and the data reference server DB and data comparison of each register value as a main function. is there. The data creation unit SW40 is a processing unit that is activated by an activation command from the central processing unit SW10. The data creation unit SW40 is a processing unit that has a main function of creating and deleting data and folders and a role of creating shortcut files.

バックアップDB・D10は、バックアップ制御部SW20からのバックアップ命令によりデータごとに昇順のIDを与えた、クライアントPCのフォルダへのパスを保持するパス保持部であるバックアップデータのデータベースである。バックアップDB・D10が取得する項目は、バックアップIDと、バックアップIDに対応付けられたファイル名、バックアップ格納先フォルダパス、ハッシュ値、バックアップ元クライアントフォルダパスとの5つである(図5B参照)。   The backup DB D10 is a database of backup data that is a path holding unit that holds the path to the folder of the client PC, which is given an ascending ID for each data by a backup command from the backup control unit SW20. There are five items acquired by the backup DB / D10: a backup ID, a file name associated with the backup ID, a backup storage destination folder path, a hash value, and a backup source client folder path (see FIG. 5B).

データ参照DB・D20は、データ作成部SW40からの非重複データの作成命令によりデータごとに昇順のIDを与えた、データ参照サーバのフォルダへのパスを蓄積するパス蓄積部であり、データ参照サーバN300内のデータを管理するデータベースである。取得する項目は、フォルダIDと、フォルダIDに対応付けられたファイル名、データ参照フォルダパス、ハッシュ値との4つである(図5B参照)。   The data reference DB D20 is a path storage unit that stores an ascending ID for each data according to a non-duplicate data creation command from the data creation unit SW40, and accumulates a path to a folder of the data reference server. This is a database for managing data in N300. There are four items to be acquired: a folder ID, a file name associated with the folder ID, a data reference folder path, and a hash value (see FIG. 5B).

BUID指数レジスタR10は、バックアップDBの主キーとなるID値を示すレジスタである。BUID合計レジスタR20は、バックアップDBのデータ数の合計値を示すレジスタである。バックアップ制御部SW20により生成されたカウンタ数をそのまま反映する。FDID指数レジスタR30は、データ参照DBの主キーとなるID値を示すレジスタである。FDID合計レジスタR40は、データ参照DBのデータ数の合計値を示すレジスタである。   The BUID index register R10 is a register indicating an ID value serving as a primary key of the backup DB. The BUID total register R20 is a register indicating the total value of the number of data in the backup DB. The number of counters generated by the backup control unit SW20 is reflected as it is. The FDID index register R30 is a register that indicates an ID value that is a primary key of the data reference DB. The FDID total register R40 is a register indicating the total value of the number of data in the data reference DB.

格納先フォルダF210〜F21Xは、バックアップ制御部SW20による全クライアントPCのバックアップを一時保存しているフォルダである。格納先フォルダF210〜F21Xに基づき、バックアップ制御部SW20はバックアップDBに当フォルダへのパス情報を書き込む。   The storage destination folders F210 to F21X are folders that temporarily store backups of all client PCs by the backup control unit SW20. Based on the storage destination folders F210 to F21X, the backup control unit SW20 writes the path information to this folder in the backup DB.

データ参照先フォルダF310〜F31Xは、データ参照サーバN300上に保管されるデータの保管先で、クライアントPCがデータを参照する先のフォルダである。   Data reference destination folders F310 to F31X are storage destinations of data stored on the data reference server N300, and are folders to which the client PC refers to data.

重複検索サーバN200の稼働中、データ作成部SW40は、対象バックアップデータが非重複データであった場合、データ参照サーバN300に新規のデータ参照フォルダを作成する。バックアップデータF10〜F1Xは、元々クライアントPC上に保管されていたデータである。また、バックアップ制御部SW20によりバックアップされる対象のデータでもある。また、データ作成部SW40によりデータを削除されるデータ、かつ、データ参照先フォルダへ保管されるデータでもある。   During the operation of the duplicate search server N200, the data creation unit SW40 creates a new data reference folder in the data reference server N300 when the target backup data is non-duplicate data. The backup data F10 to F1X are data originally stored on the client PC. It is also data to be backed up by the backup control unit SW20. Further, the data is deleted by the data creation unit SW40 and stored in the data reference destination folder.

ショートカットS10は、クライアントPCのバックアップ元フォルダから、対象バックアップデータが格納されたデータ参照先フォルダを参照するショートカットファイルである。このショートカットS10は、対象のバックアップデータが格納されたデータ参照先フォルダへのショートカットとしてデータ作成部SW40が作成し、通知されたものである。   The shortcut S10 is a shortcut file that refers to the data reference destination folder in which the target backup data is stored from the backup source folder of the client PC. This shortcut S10 is created and notified by the data creation unit SW40 as a shortcut to the data reference destination folder in which the target backup data is stored.

カウンタC10は、バックアップ制御部SW20からバックアップ命令により作成されるバックアップDBのID数をカウントするカウンタである。カウンタは、そのままバックアップ制御部SW20によりBUID合計レジスタ値に反映される。   The counter C10 is a counter that counts the number of backup DB IDs created by the backup command from the backup control unit SW20. The counter is directly reflected in the BUID total register value by the backup control unit SW20.

《本実施形態に係る重複検索サーバのハードウェア構成》
図4は、本実施形態に係る重複検索サーバN200のハードウェア構成を示すブロック図である。
<< Hardware Configuration of Duplicate Search Server According to this Embodiment >>
FIG. 4 is a block diagram showing a hardware configuration of the duplicate search server N200 according to the present embodiment.

図4で、CPU410は演算制御用のプロセッサであり、プログラムを実行することで図3の各機能構成部を実現する。ROM420は、初期データ及びプログラムなどの固定データ及びプログラムを記憶する。通信制御部430は、ネットワークを介してクライアントPC・N100〜N10X、データ参照サーバN300及び管理端末PC・N400と通信する。通信は無線でも有線でもよい。   In FIG. 4, a CPU 410 is a processor for arithmetic control, and implements each functional component of FIG. 3 by executing a program. The ROM 420 stores fixed data and programs such as initial data and programs. The communication control unit 430 communicates with the client PCs N100 to N10X, the data reference server N300, and the management terminal PC N400 via the network. Communication may be wireless or wired.

RAM440は、CPU410が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM440には、本実施形態の実現に必要なデータを記憶する領域が確保されている。441は、BUID指数レジスタである。442は、BUID合計レジスタである。443は、FDID指数レジスタである。444は、FDID合計レジスタである。445は、カウンタでありバックアップDB・D10のカウンタC10として機能する。446は、重複検索サーバN200が各バックアップデータに対応して作成するショートカットデータである(図5A参照)。   The RAM 440 is a random access memory that the CPU 410 uses as a work area for temporary storage. In the RAM 440, an area for storing data necessary for realizing the present embodiment is secured. Reference numeral 441 denotes a BUID index register. Reference numeral 442 denotes a BUID total register. Reference numeral 443 denotes an FDID index register. Reference numeral 444 denotes an FDID total register. Reference numeral 445 denotes a counter that functions as the counter C10 of the backup DB D10. Reference numeral 446 denotes shortcut data created by the duplicate search server N200 corresponding to each backup data (see FIG. 5A).

ストレージ450は、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータ又はプログラムが記憶されている。451は、一時的にバックアップデータを格納する格納先フォルダである。452は、バックアップDBである(図5B参照)。453は、データ参照DBである(図5B参照)。ストレージ450には、以下のプログラムが格納される。454は、全体の処理を実行させる重複ファイル検索プログラムであり、図3の中央処理部SW10の処理に対応する(図6参照)。455は、クライアントPCのバックアップデータを制御するバックアップ制御モジュールであり、図3のバックアップ制御部SW20の処理に対応する。456は、重複ファイル検索プログラム454の分岐処理においてレジスタ内容やカウンタ値を比較する比較形成モジュールであり、図3の比較計算部SW30の処理に対応する。457は、データ参照サーバへのバックアップデータの記憶やショートカットの作成を行なうデータ作成モジュールであり、図3のデータ作成部SW40の処理に対応する。   The storage 450 stores a database, various parameters, or the following data or programs necessary for realizing the present embodiment. A storage destination folder 451 temporarily stores backup data. Reference numeral 452 denotes a backup DB (see FIG. 5B). Reference numeral 453 denotes a data reference DB (see FIG. 5B). The storage 450 stores the following programs. Reference numeral 454 denotes a duplicate file search program for executing the entire process, which corresponds to the process of the central processing unit SW10 in FIG. 3 (see FIG. 6). A backup control module 455 controls backup data of the client PC and corresponds to the processing of the backup control unit SW20 in FIG. Reference numeral 456 denotes a comparison formation module that compares register contents and counter values in the branch process of the duplicate file search program 454, and corresponds to the process of the comparison calculation unit SW30 in FIG. Reference numeral 457 denotes a data creation module for storing backup data in the data reference server and creating a shortcut, and corresponds to the processing of the data creation unit SW40 in FIG.

なお、図4には、本実施形態に必須なデータやプログラムのみが示されており、OSなどの汎用のデータやプログラムは図示されていない。   Note that FIG. 4 shows only data and programs essential to the present embodiment, and general-purpose data and programs such as OS are not shown.

(ショートカットデータの構成)
図5Aは、重複検索サーバN200のデータ作成部SW40が作成するショートカットデータ446の構成を示す図である。
(Composition of shortcut data)
FIG. 5A is a diagram showing a configuration of shortcut data 446 created by the data creation unit SW40 of the duplicate search server N200.

ショートカットデータ446には、クライアントPCのバックアップ元クライアントフォルダへのバックアップ元クライアントフォルダパス511に対応付けられて、次のデータが記憶される。そのデータは、ファイル名512と、データ参照サーバN300のデータ参照先フォルダパス513と、ファイル内のバックアップデータのハッシュ値514とである。   The shortcut data 446 stores the following data in association with the backup source client folder path 511 to the backup source client folder of the client PC. The data includes a file name 512, a data reference destination folder path 513 of the data reference server N300, and a hash value 514 of backup data in the file.

(バックアップDBとデータ参照DBとの構成)
図5Bは、重複検索サーバN200のバックアップDB452とデータ参照DB453の構成を示す図である。
(Configuration of backup DB and data reference DB)
FIG. 5B is a diagram showing the configuration of the backup DB 452 and the data reference DB 453 of the duplicate search server N200.

バックアップDB452には、バックアップID521に対応付けられて、次のデータが記憶される。そのデータは、ファイル名522と、重複検索サーバN200の格納先フォルダへのバックアップ格納先フォルダパス523と、ファイル内のバックアップデータのハッシュ値524と、バックアップ元クライアントフォルダパス525とである。   The backup DB 452 stores the following data in association with the backup ID 521. The data includes a file name 522, a backup storage destination folder path 523 to the storage destination folder of the duplicate search server N200, a hash value 524 of backup data in the file, and a backup source client folder path 525.

データ参照DB453には、データ参照先フォルダのフォルダID531に対応付けられて、次のデータが記憶される。そのデータは、ファイル名532と、データ参照サーバN300のデータ参照先フォルダへのデータ格納先フォルダパス533と、ファイル内のバックアップデータのハッシュ値524とである。   The data reference DB 453 stores the next data in association with the folder ID 531 of the data reference destination folder. The data includes a file name 532, a data storage destination folder path 533 to a data reference destination folder of the data reference server N300, and a hash value 524 of backup data in the file.

《本実施形態に係る重複検索サーバの処理手順》
図6は、本実施形態に係る重複検索サーバN200の処理手順を示すフローチャートである。このフローチャートは、CPU410によってRAM440を使用しながら実行されて、図3の重複検索サーバN200の各処理部の機能が実現される。また、各処理部がCPUを有する場合には、各ステップは各処理部の処理を含み、処理部間の情報伝達はコンピュータ間通信で実現される。従って、図6のフローチャートは中央処理部SW10の処理手順に対応するものである、なお、図6の丸数字は、図7〜図13の丸数字に対応する。
<< Processing Procedure of Duplicate Search Server According to this Embodiment >>
FIG. 6 is a flowchart showing a processing procedure of the duplicate search server N200 according to the present embodiment. This flowchart is executed by the CPU 410 while using the RAM 440, and the functions of the processing units of the duplicate search server N200 in FIG. 3 are realized. When each processing unit has a CPU, each step includes processing of each processing unit, and information transmission between the processing units is realized by communication between computers. Therefore, the flowchart of FIG. 6 corresponds to the processing procedure of the central processing unit SW10. Note that the circled numbers in FIG. 6 correspond to the circled numbers in FIGS.

図6のフローチャートは管理端末PCからの起動指示によりスタートする。まず、ステップS610において、重複検索サーバN200の初期化を行なう(図7参照)。次に、ステップS620において、クライアントPCから重複検索サーバN200の格納先フォルダに複写した新しいバックアップデータの有無を判断する(図8参照)。バックアップデータが無ければ、ステップS690の管理端末PC・N400への報告をして処理を終了する。   The flowchart in FIG. 6 starts with an activation instruction from the management terminal PC. First, in step S610, the duplicate search server N200 is initialized (see FIG. 7). Next, in step S620, it is determined whether there is new backup data copied from the client PC to the storage destination folder of the duplicate search server N200 (see FIG. 8). If there is no backup data, a report is sent to the management terminal PC / N400 in step S690 and the process is terminated.

一方、バックアップデータが有ればステップS630に進んで、そのバックアップデータの重複データがデータ参照サーバN300に有るか否かを判定する(図9参照)。重複データがデータ参照サーバN300に有ると判別されればステップS640に進んで、データ参照サーバN300のデータ参照先フォルダのバックアップデータへのショートカットを作成する。そして、クライアントPCのバックアップデータ元フォルダにショートカットを設定し、元のバックアップデータは削除する(図9参照)。一方、重複データがデータ参照サーバN300に無いと判別されればステップS650に進んで、格納先フォルダに一時格納されているバックアップデータをデータ参照サーバN300のデータ参照先フォルダに記憶する(図10参照)。そして、ステップS660において、ステップS650で記憶したデータ参照サーバN300のデータ参照先フォルダのバックアップデータへのショートカットを作成する。そして、クライアントPCのバックアップデータ元フォルダにショートカットを設定し、元のバックアップデータは削除する(図11参照)。   On the other hand, if there is backup data, the process proceeds to step S630, and it is determined whether duplicate data of the backup data exists in the data reference server N300 (see FIG. 9). If it is determined that duplicate data exists in the data reference server N300, the process advances to step S640 to create a shortcut to the backup data of the data reference destination folder of the data reference server N300. Then, a shortcut is set in the backup data source folder of the client PC, and the original backup data is deleted (see FIG. 9). On the other hand, if it is determined that there is no duplicate data in the data reference server N300, the process advances to step S650 to store the backup data temporarily stored in the storage destination folder in the data reference destination folder of the data reference server N300 (see FIG. 10). ). In step S660, a shortcut to the backup data of the data reference destination folder of the data reference server N300 stored in step S650 is created. Then, a shortcut is set in the backup data source folder of the client PC, and the original backup data is deleted (see FIG. 11).

ステップS640あるいはS660で、クライアントPCのバックアップデータをショートカットに置き換えた後、ステップS670において、全てのバックアップデータを処理したか否かを判断する(図12参照)。まだ処理していないバックアップデータが残っていればステップS630に戻って、次のバックアップデータの処理を繰り返す。全てのバックアップデータを処理していればステップS680に進んで、後処理をした後、ステップS690において管理端末PCに処理終了を通知して、重複検索サーバN200の処理を終了する。   After replacing the backup data of the client PC with the shortcut in step S640 or S660, it is determined in step S670 whether all the backup data has been processed (see FIG. 12). If backup data that has not yet been processed remains, the process returns to step S630 to repeat the next backup data process. If all the backup data has been processed, the process proceeds to step S680. After post-processing, the management terminal PC is notified of the end of processing in step S690, and the process of the duplicate search server N200 is terminated.

以下、図7〜図13に図6の各ステップを更に詳細に示したフローチャートを示す。なお、図7〜図13のフローチャートにおいては、中央処理部SW10により各処理部が起動されるように記載されている。しかし、上述の如く、図4の構成であれば引き数を持って各モジュールを起動するものであり、複数CPUで構成されていれば各処理部へのコンピュータ通信により起動することになる。   7 to 13 are flowcharts showing the steps of FIG. 6 in more detail. In the flowcharts of FIGS. 7 to 13, it is described that each processing unit is activated by the central processing unit SW <b> 10. However, as described above, in the configuration shown in FIG. 4, each module is activated with an argument, and when configured with a plurality of CPUs, it is activated by computer communication to each processing unit.

(バックアップデータ有無の判断処理)
図7は、バックアップデータ有無の判断処理を含む処理手順を示すフローチャートである。図7は、管理端末機PC・N400からの起動からバックアップ制御部SW20によるバックアップ処理の終了までを示す。管理機端末PC・N400が中央処理部SW10を起動して、図7の処理が開始する。
(Judgment processing for backup data)
FIG. 7 is a flowchart showing a processing procedure including determination processing for the presence / absence of backup data. FIG. 7 shows from the startup from the management terminal PC · N400 to the end of the backup process by the backup control unit SW20. The management machine terminal PC · N400 activates the central processing unit SW10 and the processing of FIG. 7 starts.

まず、ステップS701において、中央処理部SW10は、BUID指数レジスタR10とFDID指数レジスタR30の値を初期化する。すなわち、BUID指数レジスタR10=1とし、FDID指数レジスタR30=1とする。次に、ステップS703において、中央処理部SW10はバックアップ制御部SW20を起動する。   First, in step S701, the central processing unit SW10 initializes the values of the BUID index register R10 and the FDID index register R30. That is, BUID index register R10 = 1 and FDID index register R30 = 1. Next, in step S703, the central processing unit SW10 activates the backup control unit SW20.

次に、ステップS705において、バックアップ制御部SW20は、全クライアントPCデータの統合バックアップを開始する。ここで、格納先としては、格納先フォルダF210〜F21Xを指定する。次に、ステップS707において、バックアップ制御部SW20は、バックアップのデータベースであるバックアップDB・D10に、ステップS705におけるバックアップデータを反映する。なお、ステップS705でデータをバックアップする度にバックアップ数をカウントするカウンタC10の値を反映する。次に、ステップS709において、バックアップ制御部SW20は、カウンタC10を読み、カウンタC10=0かどうか判定する。すなわち、バックアップデータがないかを判定する。   In step S705, the backup control unit SW20 starts an integrated backup of all client PC data. Here, the storage destination folders F210 to F21X are designated as the storage destination. Next, in step S707, the backup control unit SW20 reflects the backup data in step S705 on the backup DB · D10 which is a backup database. Note that the value of the counter C10 that counts the number of backups every time data is backed up in step S705 is reflected. Next, in step S709, the backup control unit SW20 reads the counter C10 and determines whether the counter C10 = 0. That is, it is determined whether there is backup data.

バックアップデータが無ければ図13に進む。一方、バックアップデータがあればステップS711に進んで、バックアップ制御部SW20は、ステップS705、S707が終了した時点でBUID合計レジスタR20とカウンタC10とを読み出す。そして、BUID合計レジスタR20にカウンタC10の値を書き込みレジスタ値を更新する。すなわち、BUID合計レジスタR20=カウンタC10とする。次に、アウテップS713において、バックアップ制御部SW20は処理を終了し、中央処理部SW10にバックアップ終了の伝達をする。   If there is no backup data, the process proceeds to FIG. On the other hand, if there is backup data, the process proceeds to step S711, and the backup control unit SW20 reads the BUID total register R20 and the counter C10 when steps S705 and S707 are completed. Then, the value of the counter C10 is written in the BUID total register R20 to update the register value. That is, BUID total register R20 = counter C10. Next, in step S713, the backup control unit SW20 ends the process, and transmits the backup end to the central processing unit SW10.

(重複データの判断処理)
図8は、重複データの判断処理を含む処理手順を示すフローチャートである。図8は、比較計算部SW30による重複データ検査及び終了までを示す。
(Duplicate data judgment process)
FIG. 8 is a flowchart showing a processing procedure including a duplicate data determination process. FIG. 8 shows the duplication data inspection and the end by the comparison calculation unit SW30.

まず、ステップS801において、中央処理部SW10は、ステップS713においてバックアップ制御部SW20の終了伝達を受け取った時点で、自動的に比較計算部SW30を起動する。また、ステップS1209において比較計算部SW30のまだ重複排除検索が必要なバックアップデータが存在することの伝達を受け取った時点で、再自動的に比較計算部SW30を起動する。   First, in step S801, the central processing unit SW10 automatically activates the comparison calculation unit SW30 when it receives the end notification of the backup control unit SW20 in step S713. In step S1209, the comparison calculation unit SW30 is automatically activated again when it receives notification from the comparison calculation unit SW30 that there is still backup data that requires deduplication search.

次に、ステップS803において、比較計算部SW30は、FDID指数レジスタR30とFDID合計レジスタR40を読込み、FDID指数レジスタR30の値がFDID合計レジスタR40の値より大きい値かを比較する(FDID指数レジスタR30>FDID合計レジスタR40)。すなわち、対象バックアップデータはデータ参照DB内データと全て比較したか、を判定する。FDID指数レジスタR30>FDID合計レジスタR40の場合はステップS811に進んで、比較計算部SW30は処理を終了して、中央処理部SW10に比較系差結果として「非重複」データであることを伝達する。   Next, in step S803, the comparison calculation unit SW30 reads the FDID exponent register R30 and the FDID total register R40, and compares whether the value of the FDID exponent register R30 is larger than the value of the FDID total register R40 (FDID exponent register R30). > FDID total register R40). That is, it is determined whether the target backup data is all compared with the data in the data reference DB. If FDID index register R30> FDID total register R40, the process proceeds to step S811, and the comparison calculation unit SW30 ends the process and notifies the central processing unit SW10 that the data is “non-overlapping” data as a comparison system difference result. .

一方、FDID指数レジスタR30≦FDID合計レジスタR40の場合はステップS805に進み、BUID指数レジスタR10とFDID指数レジスタR30とを読み込む。次に、ステップS807において、ステップS805で読み込んだBUID指数レジスタR10とFDID指数レジスタR30とをそれぞれのデータベースのID値としたハッシュ値を比較する。すなわち、バックアップDB・D10におけるバックアップIDがBUID指数レジスタ値のハッシュ値=データ参照DB・D20におけるフォルダIDがFDID指数レジスタ値のハッシュ値を比較する。その結果から、対象データは既にデータ参照サーバに存在するかを判断する。ハッシュ値比較で一致すればステップS813に進んで、比較計算部SW30は処理を終了し、中央処理部SW10に比較計算結果として、「重複」データであることを伝達する。   On the other hand, if FDID exponent register R30 ≦ FDID total register R40, the process advances to step S805 to read the BUID exponent register R10 and the FDID exponent register R30. Next, in step S807, hash values using the BUID index register R10 and the FDID index register R30 read in step S805 as the ID values of the respective databases are compared. That is, the backup ID in the backup DB · D10 is the hash value of the BUID index register value = the hash value of the folder ID in the data reference DB · D20 is the FDID index register value. From the result, it is determined whether the target data already exists in the data reference server. If they match in the hash value comparison, the process proceeds to step S813, where the comparison calculation unit SW30 ends the process and notifies the central processing unit SW10 that the data is “duplicate” as a comparison calculation result.

一方、ハッシュ値比較で一致しなければステップS809に進んで、比較計算部SW30は、FDID指数レジスタR30の値に+1をした値を書き込む(FDID指数レジスタR30=FDID指数レジスタR30+1)。次に、ステップS803に戻って、比較計算部SW30は、再び、FDID指数レジスタR30とFDID合計レジスタR40を読込み、FDID指数レジスタR30の値がFDID合計レジスタR40の値より大きい値かを比較する(FDID指数レジスタR30>FDID合計レジスタR40)。   On the other hand, if they do not match in the hash value comparison, the process advances to step S809, and the comparison calculation unit SW30 writes a value obtained by adding +1 to the value of the FDID exponent register R30 (FDID exponent register R30 = FDID exponent register R30 + 1). Next, returning to step S803, the comparison calculation unit SW30 reads the FDID index register R30 and the FDID total register R40 again and compares whether the value of the FDID index register R30 is larger than the value of the FDID total register R40 ( FDID index register R30> FDID total register R40).

(重複データ有りの場合のクライアントPC用のショートカット作成処理)
図9は、重複データ有りの場合のクライアントPC用のショートカット作成処理を含む処理手順を示すフローチャートである。図8での重複データ検査の結果、対象データが重複データであった場合の処理方法を示す。
(Shortcut creation process for client PC when duplicate data exists)
FIG. 9 is a flowchart showing a processing procedure including a shortcut creation process for a client PC when there is duplicate data. A processing method when the target data is duplicate data as a result of the duplicate data inspection in FIG. 8 will be described.

ステップS901において、中央処理部SW10は、ステップS813の比較計算部SW30の「対象ファイルが重複データ」である伝達を受け取った時点で、自動的にデータ作成部SW40を起動する。次に、ステップS903において、データ作成部SW40は、FDID指数レジスタR30を読み込む。次に、ステップS905において、データ作成部SW40は、データ参照DB・D20を読み込む。次に、ステップS907において、データ作成部SW40は、BUID指数レジスタR10を読み込む。次に、ステップS909において、データ作成部SW40は、バックアップDB・D10を読み込む。次に、ステップS911において、データ作成部SW40は、ステップS909で読み込んだバックアップDB・D10のバックアップID列の内、ステップS907で読み込んだBUID指数レジスタR10の値の行のバックアップ元クライアントフォルダパスを参照する。そして、対象のバックアップ元クライアントパス上に、ステップS905で読み込んだデータ参照DB・D20のフォルダID列の内、ステップS903で読み込んだFDID指数レジスタR30の値の行のデータ参照先フォルダパスへのショートカットS10を新規作成する。   In step S901, the central processing unit SW10 automatically activates the data creation unit SW40 when receiving the transmission that “the target file is duplicate data” from the comparison calculation unit SW30 in step S813. Next, in step S903, the data creation unit SW40 reads the FDID index register R30. In step S905, the data creation unit SW40 reads the data reference DB D20. Next, in step S907, the data creation unit SW40 reads the BUID index register R10. Next, in step S909, the data creation unit SW40 reads the backup DB · D10. Next, in step S911, the data creation unit SW40 refers to the backup source client folder path in the row of the value of the BUID index register R10 read in step S907 in the backup ID column of the backup DB • D10 read in step S909. To do. Then, on the target backup source client path, a shortcut to the data reference destination folder path in the row of the value of the FDID index register R30 read in step S903 in the folder ID column of the data reference DB D20 read in step S905. S10 is newly created.

次に、ステップS913において、データ作成部SW40は、ステップS909で読み込んだバックアップDB・D10のバックアップID列の内、ステップS907で読み込んだBUID指数レジスタR10の行の値のファイル名とバックアップ元クライアントフォルダパスとを参照する。そして、対象のバックアップ元クライアントパス上の同一ファイル名のファイルを削除する。次に、ステップS916において、データ作成部SW40は、データ作成部SW40を終了し、中央処理部SW10にデータ作成終了を伝達する。   In step S913, the data creation unit SW40 includes the file name and the backup source client folder in the row of the BUID index register R10 read in step S907 in the backup ID column of the backup DB • D10 read in step S909. Refer to the path. Then, the file with the same file name on the target backup source client path is deleted. Next, in step S916, the data creation unit SW40 terminates the data creation unit SW40 and transmits the end of data creation to the central processing unit SW10.

(重複データ無しの場合のデータ参照サーバへのバックアップデータ記憶処理)
図10は、重複データ無しの場合のデータ参照サーバへのバックアップデータ記憶処理を含む処理手順を示すフローチャートである。図10は、図8での重複データ検査の結果、対象データが非重複データであった場合の処理方法の内、データ参照サーバへのバックアップデータ記憶処理を示す。
(Backup data storage processing to the data reference server when there is no duplicate data)
FIG. 10 is a flowchart showing a processing procedure including a backup data storage process to the data reference server when there is no duplicate data. FIG. 10 shows backup data storage processing to the data reference server in the processing method when the target data is non-duplicate data as a result of the duplicate data check in FIG.

まず、ステップS1001において、中央処理部SW10は、ステップS811の比較計算部SW30の「対象ファイルが非重複データ」である伝達を受け取った時点で、自動的にデータ作成部SW40を起動する。次に、ステップS1003において、データ作成部SW40は、FDID指数レジスタR30を読み込む。次に、ステップS1005において、データ作成部SW40は、データ参照サーバN300のDドライブ上にバックアップ参照先フォルダF31Xを新規作成する。なお、フォルダ名は、ステップS1003で読み込んだFDID指数レジスタR30の値にする。   First, in step S1001, the central processing unit SW10 automatically activates the data creation unit SW40 when it receives the transmission that “the target file is non-duplicate data” from the comparison calculation unit SW30 in step S811. Next, in step S1003, the data creation unit SW40 reads the FDID index register R30. Next, in step S1005, the data creation unit SW40 creates a new backup reference destination folder F31X on the D drive of the data reference server N300. Note that the folder name is set to the value of the FDID index register R30 read in step S1003.

次に、ステップS1007において、データ作成部SW40は、FDID合計レジスタR40の値に+1をした値を書き込む(FDID合計レジスタR40=FDID合計レジスタR40+1)。次に、ステップS1009において、データ作成部SW40は、データ参照DB・D20を読み込み、データベースの最後行に、ステップS1003で読み込んだFDID指数レジスタR30の値がフォルダIDの値となるべく行を追加する。この時点で、データ参照DB・D20の最終行には、フォルダIDとデータ参照先フォルダパスの列とを書き込む。   Next, in step S1007, the data creation unit SW40 writes a value obtained by adding +1 to the value of the FDID total register R40 (FDID total register R40 = FDID total register R40 + 1). Next, in step S1009, the data creation unit SW40 reads the data reference DB D20, and adds a row to the last row of the database so that the value of the FDID index register R30 read in step S1003 becomes the folder ID value. At this time, the folder ID and the column of the data reference destination folder path are written in the last row of the data reference DB D20.

次に、ステップS1011において、データ作成部SW40は、BUID指数レジスタR10を読み込む。次に、ステップS1013において、データ作成部SW40は、バックアップDB・D10を読み込む。次に、ステップS1015において、データ作成部SW40は、対象のバックアップデータF10を読み込む。すなわち、ステップS1013で読み込んだバックアップDB・D10のバックアップIDの値が、ステップS1011で読み込んだBUID指数レジスタR10の値である行の、バックアップ格納先フォルダパスを参照し、対象のバックアップデータを読み込む。   Next, in step S1011, the data creation unit SW40 reads the BUID index register R10. In step S1013, the data creation unit SW40 reads the backup DB D10. Next, in step S1015, the data creation unit SW40 reads the target backup data F10. That is, the target backup data is read by referring to the backup storage destination folder path in the row in which the backup ID value of the backup DB D10 read in step S1013 is the value of the BUID index register R10 read in step S1011.

(重複データ無しの場合のクライアントPC用のショートカット作成処理)
図11は、重複データ無しの場合のクライアントPC用のショートカット作成処理を含む処理手順を示すフローチャートである。図11は、図8での重複データ検査の結果、対象データが非重複データであった場合の処理方法の内、図10に続くクライアントPC用のショートカット作成処理を示す。
(Shortcut creation process for client PC when there is no duplicate data)
FIG. 11 is a flowchart showing a processing procedure including a shortcut creation process for a client PC when there is no duplicate data. FIG. 11 shows a shortcut creation process for the client PC subsequent to FIG. 10 in the processing method when the target data is non-duplicate data as a result of the duplicate data check in FIG.

まず、ステップS1101において、データ作成部SW40は、データ参照DB・D20を読み込む。次に、ステップS1103において、データ作成部SW40は、ステップS1005で作成したデータ参照サーバ上の新規フォルダへ、ステップS1015で読み込んだバックアップデータF10を複製する。すなわち、ステップS1101で読み込んだデータ参照DB・D20のバックアップID列が、ステップS1003で読み込んだFDID指数レジスタR30の行のデータ参照先フォルダパスを参照する。そして、対象のパス先へ、ステップS1015で読み込んだバックアップデータF10を複製する。   First, in step S1101, the data creation unit SW40 reads the data reference DB · D20. In step S1103, the data creation unit SW40 copies the backup data F10 read in step S1015 to the new folder on the data reference server created in step S1005. That is, the backup ID column of the data reference DB D20 read in step S1101 refers to the data reference destination folder path in the row of the FDID index register R30 read in step S1003. Then, the backup data F10 read in step S1015 is copied to the target path destination.

次に、ステップS1105において、データ作成部SW40は、ステップS1009で書き込んだデータ参照DB・D20のフォルダIDの値がFDID指数レジスタR30である空白列のファイル名とハッシュ値とに、ステップS1013で読み込んだバックアップDB・D10のステップS1011で読み込んだバックアップIDの値がBUID指数レジスタR10の行のファイル名とハッシュ値とを書き込む。すなわち、この時点で、ステップS1009で空白であったデータ参照DBの最終行のファイル名とハッシュ値とが書き込まれる。   In step S1105, the data creation unit SW40 reads in step S1013 the file name and hash value of the blank string whose folder ID value of the data reference DB D20 written in step S1009 is the FDID index register R30. The backup ID value read in step S1011 of the backup DB • D10 writes the file name and hash value in the row of the BUID index register R10. That is, at this point, the file name and hash value of the last line of the data reference DB that was blank in step S1009 are written.

次に、ステップS1107において、データ作成部SW40は、ステップS1013で読み込んだバックアップDB・D10のバックアップID列が、ステップS1011で読み込んだBUID指数レジスタR10の値の行のバックアップ元クライアントフォルダパスの列を参照する。また、対象のバックアップ元クライアントパス上に、ステップS1101で読み込んだデータ参照DB・D20のフォルダID列が、ステップS1011で読み込んだFDID指数レジスタR30の値の行の、データ参照先フォルダパスの列を参照する。そして、対象のデータ参照先フォルダパスへのショートカットS10を新規作成する。すなわち、対象バックアップデータのクライアントパス元へデータ複製したデータ参照先へのショートカットファイルを作成する。   In step S1107, the data creation unit SW40 sets the backup source client folder path column in the row of the value of the BUID index register R10 read in step S1011 as the backup ID column of the backup DB D10 read in step S1013. refer. Further, on the target backup source client path, the folder ID column of the data reference DB D20 read in step S1101 is the column of the data reference destination folder path in the row of the value of the FDID index register R30 read in step S1011. refer. Then, a shortcut S10 to the target data reference destination folder path is newly created. That is, a shortcut file is created for the data reference destination that has been copied to the client path source of the target backup data.

次に、ステップS1109において、データ作成部SW40は、ステップS1013で読み込んだバックアップDB・D10のバックアップID列が、ステップS1011で読み込んだBUID指数レジスタR10の値の行の、バックアップ元クライアントフォルダパスの列を参照する。そして、対象のバックアップ元クライアントパス上の対象バックアップデータと同一の対象バックアップデータF10を削除する。この時点で、クライアントPCには、対象バックアップデータは削除され、変わりに非重複データの格納先であるデータ参照サーバへのショートカットに置き換えられる。次に、ステップS1111において、データ作成部SW40は処理を終了し、中央処理部SW10にバックアップ終了を伝達する。   In step S1109, the data creation unit SW40 sets the backup source client folder path column in the row of the value of the BUID index register R10 read in step S1011 in the backup ID column of the backup DB D10 read in step S1013. Refer to Then, the same target backup data F10 as the target backup data on the target backup source client path is deleted. At this point, the target backup data is deleted in the client PC, and is replaced with a shortcut to the data reference server that is the storage destination of non-duplicate data. Next, in step S1111, the data creation unit SW40 ends the process, and transmits the backup end to the central processing unit SW10.

(処理済みでないバックアップデータ有無の判断処理)
図12は、処理済みでないバックアップデータ有無の判断処理を含む処理手順を示すフローチャートである。図12は、対象データの比較を全て行って終了するか継続するかの判定処理を示す。
(Judgment process for the presence of unprocessed backup data)
FIG. 12 is a flowchart showing a processing procedure including determination processing for the presence / absence of unprocessed backup data. FIG. 12 shows a process for determining whether to end or continue by comparing all target data.

まず、ステップS1201において、中央処理部SW10は、BUID指数レジスタR10を読み込み、BUID指数レジスタR10の値に+1をした値を書き込む(BUID指数レジスタR10=BUID指数レジスタR10+1)。次に、ステップS1203において、中央処理部SW10は、FDID指数レジスタR30を読み込み、FDID指数レジスタR30の値を初期化する。すなわち、FDID指数レジスタR30=1とする。次に、ステップS1205において、中央処理部SW10は、比較計算部SW30を起動する。   First, in step S1201, the central processing unit SW10 reads the BUID index register R10 and writes a value obtained by adding +1 to the value of the BUID index register R10 (BUID index register R10 = BUID index register R10 + 1). Next, in step S1203, the central processing unit SW10 reads the FDID exponent register R30 and initializes the value of the FDID exponent register R30. That is, FDID index register R30 = 1. Next, in step S1205, the central processing unit SW10 activates the comparison calculation unit SW30.

次に、ステップS1207において、比較計算部SW30は、BUID指数レジスタR10とBUID合計レジスタR20とを読み込み、BUID指数レジスタR10の値がBUID合計レジスタR20の値より大きい値か比較する(BUID指数レジスタR10>BUID合計レジスタR20)。すなわち、全バックアップデータを全て処理したかの判断である。BUID指数レジスタR10≦BUID合計レジスタR20の場合はステップS1209に進んで、比較計算部SW30は処理を終了し、中央処理部SW10にまだ重複排除検索が必要なバックアップデータが存在することを伝達して、ステップS801に戻る。すなわち、次のバックアップデータの処理へ進む。一方、BUID指数レジスタR10>BUID合計レジスタR20の場合はステップS1211に進んで、比較計算部SW30は処理を終了し、中央処理部SW10に重複排除検索が必要なバックアップデータが存在しないことを伝達して、ステップS1301に進む。   Next, in step S1207, the comparison calculation unit SW30 reads the BUID index register R10 and the BUID total register R20 and compares whether the value of the BUID index register R10 is larger than the value of the BUID total register R20 (BUID index register R10). > BUID total register R20). That is, it is a determination whether all the backup data has been processed. In the case of BUID index register R10 ≦ BUID total register R20, the process proceeds to step S1209, the comparison calculation unit SW30 ends the processing, and notifies the central processing unit SW10 that there is backup data that still needs deduplication search. Return to step S801. That is, the process proceeds to the next backup data processing. On the other hand, if BUID index register R10> BUID total register R20, the process proceeds to step S1211, the comparison calculation unit SW30 ends the process, and notifies the central processing unit SW10 that there is no backup data that requires deduplication search. Then, the process proceeds to step S1301.

(後処理)
図13は、後処理を含む処理手順を示すフローチャートである。図13は、後処理としての最終的な初期化処理を示す。
(Post-processing)
FIG. 13 is a flowchart showing a processing procedure including post-processing. FIG. 13 shows final initialization processing as post-processing.

まず、ステップS1301において、中央処理部SW10は、ステップS1211の比較計算部SW30の「必要なバックアップデータが存在しない」という伝達を受け取った時点で、自動的にバックアップ制御部SW20を起動する。   First, in step S1301, the central processing unit SW10 automatically activates the backup control unit SW20 when it receives a notification that “the necessary backup data does not exist” from the comparison calculation unit SW30 in step S1211.

次に、ステップS1303において、バックアップ制御部SW20は、バックアップDB・D10のカウンタC10を読み込む。次に、ステップS1305において、バックアップ制御部SW20は、ステップS1303で読み込んだバックアップDB・D10とカウンタC10との情報から、バックアップ格納先フォルダ内の全バックアップデータを消去する。次に、ステップS1307において、バックアップ制御部SW20は、ステップS1303で読み込んだバックアップDB・D10の2行目以降(項目以外)のデータを消去し、カウンタC10を初期化する(カウンタC10=0)。次に、ステップS1309において、バックアップ制御部SW20は、ステップS1305、S1307が終了した時点で、BUID合計レジスタR20の値を初期化する(BUID合計レジスタR20=1)。次に、ステップS1311において、バックアップ制御部SW20は、中央処理部SW10に初期化の終了を伝達する。   In step S1303, the backup control unit SW20 reads the counter C10 of the backup DB · D10. In step S1305, the backup control unit SW20 deletes all backup data in the backup storage destination folder from the information of the backup DB D10 and the counter C10 read in step S1303. Next, in step S1307, the backup control unit SW20 deletes data in the second and subsequent rows (other than the items) of the backup DB • D10 read in step S1303, and initializes the counter C10 (counter C10 = 0). Next, in step S1309, the backup control unit SW20 initializes the value of the BUID total register R20 when the steps S1305 and S1307 are completed (BUID total register R20 = 1). Next, in step S1311, the backup control unit SW20 transmits the end of initialization to the central processing unit SW10.

次に、ステップS1313において、中央処理部SW10は、ステップS1311のバックアップ制御部SW20の「初期化の終了」の伝達を受け取った時点で、自動的に重複検索サーバN200の処理を終了し、管理端末PC・N400へ終了を通知して表示させる。   Next, in step S1313, the central processing unit SW10 automatically ends the processing of the duplicate search server N200 when receiving the “end of initialization” transmission from the backup control unit SW20 in step S1311, and the management terminal The PC / N 400 is notified of the end and displayed.

《本実施形態に係るクライアントPCのハードウェア構成》
図14は、本実施形態に係るクライアントPCのハードウェア構成を示すブロック図である。
<< Hardware Configuration of Client PC According to this Embodiment >>
FIG. 14 is a block diagram showing a hardware configuration of the client PC according to the present embodiment.

図14で、CPU1410は演算制御用のプロセッサであり、プログラムを実行することで図2Bの各機能構成部を実現する。ROM1420は、初期データ及びプログラムなどの固定データ及びプログラムを記憶する。通信制御部1430は、ネットワークを介して重複検索サーバN200及びデータ参照サーバN300と通信する。通信は無線でも有線でもよい。   In FIG. 14, a CPU 1410 is a processor for arithmetic control, and implements each functional component of FIG. 2B by executing a program. The ROM 1420 stores fixed data and programs such as initial data and programs. The communication control unit 1430 communicates with the duplicate search server N200 and the data reference server N300 via the network. Communication may be wireless or wired.

RAM1440は、CPU1410が一時記憶のワークエリアとして使用するランダムアクセスメモリである。RAM1440には、本実施形態の実現に必要なデータを記憶する領域が確保されている。1441は、本クライアントPCが処理する処理データである。1442は、重複検索サーバN200から設定されたショートカットデータである(図4参照)。   The RAM 1440 is a random access memory that the CPU 1410 uses as a work area for temporary storage. The RAM 1440 has an area for storing data necessary for realizing the present embodiment. 1441 is processing data processed by the client PC. 1442 is shortcut data set from the duplicate search server N200 (see FIG. 4).

ストレージ1450は、データベースや各種のパラメータ、あるいは本実施形態の実現に必要な以下のデータ又はプログラムが記憶されている。1451は、データ参照サーバN300のデータを参照するための、重複検索サーバN200から設定されたショートカットデータを保持するショートカットテーブルである(図15参照)。1452は、ショートカットデータの設定が完了すれば削除される、元のバックアップデータである。ストレージ1450には、以下のプログラムが格納される。1453は、処理データ1441を使って全体の処理を実行させるデータ処理プログラムである(図16参照)。1454は、データ処理プログラム1453に含まれ、本実施形態により作成されたショートカットデータによりデータ参照サーバN300のデータファイルを参照するファイルアクセスモジュールである。   The storage 1450 stores a database, various parameters, or the following data or programs necessary for realizing the present embodiment. Reference numeral 1451 denotes a shortcut table that holds shortcut data set by the duplicate search server N200 for referring to data of the data reference server N300 (see FIG. 15). Reference numeral 1452 denotes original backup data that is deleted when the setting of the shortcut data is completed. The storage 1450 stores the following programs. Reference numeral 1453 denotes a data processing program for executing the entire processing using the processing data 1441 (see FIG. 16). Reference numeral 1454 denotes a file access module that is included in the data processing program 1453 and refers to the data file of the data reference server N300 using the shortcut data created according to the present embodiment.

入力インタフェース1460は、ユーザの指示あるいは機器からのデータ入力のためのインタフェースであり、たとえば、キーボード1461や、ユーザの指示などを入力するポインティングデバイス1462が接続されている。一方、出力インタフェース1470は、外部にデータを出力するためのインタフェースであり、たとえば、表示部1471が接続されている。   The input interface 1460 is an interface for inputting a user instruction or data from a device. For example, a keyboard 1461 and a pointing device 1462 for inputting a user instruction are connected. On the other hand, the output interface 1470 is an interface for outputting data to the outside, and for example, a display unit 1471 is connected thereto.

なお、図14には、本実施形態に必須なデータやプログラムのみが示されており、OSなどの汎用のデータやプログラムは図示されていない。   Note that FIG. 14 shows only data and programs essential to the present embodiment, and general-purpose data and programs such as OS are not shown.

(ショートカットテーブルの構成)
図15は、本実施形態に係るショートカットテーブル1451の構成を示す図である。
(Shortcut table configuration)
FIG. 15 is a diagram showing a configuration of the shortcut table 1451 according to the present embodiment.

ショートカットテーブル1451には、クライアントPCのバックアップ元クライアントフォルダ1501に対応付けられて、バックアップ元クライアントフォルダ1501に含まれるファイル名1502が記憶される。そして、ファイル名1502に対応付けられて、次のデータが記憶される。そのデータは、データ参照サーバN300のデータ参照先フォルダパス1503と、ファイル内のバックアップデータのハッシュ値1504とである。   The shortcut table 1451 stores a file name 1502 included in the backup source client folder 1501 in association with the backup source client folder 1501 of the client PC. Then, the following data is stored in association with the file name 1502. The data includes a data reference destination folder path 1503 of the data reference server N300 and a hash value 1504 of backup data in the file.

《本実施形態に係るクライアントPCの処理手順》
図16は、本実施形態に係るクライアントPC・N100〜N10Xの処理手順を示すフローチャートである。このフローチャートは、CPU1410によってRAM1440を使用しながら実行されて、図14のクライアントPC・N100〜N10Xの各処理部の機能が実現される。
<< Processing Procedure of Client PC According to this Embodiment >>
FIG. 16 is a flowchart showing a processing procedure of the client PCs N100 to N10X according to the present embodiment. This flowchart is executed by the CPU 1410 while using the RAM 1440, and the functions of the processing units of the client PCs N100 to N10X in FIG. 14 are realized.

まず、ステップS1610において、重複検索サーバN200からの重複データの検索であるか否かが判定される。重複データの検索であればステップS1612に進んで、フォルダ中のデータファイルを重複検索サーバN200の格納策フォルダに送信する。   First, in step S1610, it is determined whether or not a search for duplicate data from the duplicate search server N200. If it is a search for duplicate data, the process advances to step S1612 to transmit the data file in the folder to the storage policy folder of the duplicate search server N200.

また、ステップS1620においては、重複検索サーバN200からのショートカットパスの設定であるかを判定する。ショートカットパスの設定であればステップS1622に進んで、ショートカットテーブル1451を更新する。次に、ステップS1624において、ショートカットパスがショートカットテーブル1451に記録されたデータファイルを、フォルダから削除する。   In step S1620, it is determined whether or not the shortcut path is set from the duplicate search server N200. If the shortcut path is set, the process advances to step S1622, and the shortcut table 1451 is updated. Next, in step S1624, the data file whose shortcut path is recorded in the shortcut table 1451 is deleted from the folder.

また、ステップS1630においては、フォルダ内のデータファイルへのアクセスであるかを判定する。データファイルへのアクセスであればステップS1632に進んで、ショートカットテーブル1451に記録されたショートカットパスに従い、データ参照サーバN300のデータ参照フォルダをアクセスして、データを取得する。   In step S1630, it is determined whether the access is to a data file in the folder. If the access is to the data file, the process proceeds to step S1632, and the data reference folder of the data reference server N300 is accessed according to the shortcut path recorded in the shortcut table 1451 to acquire the data.

《本実施形態による具体例の処理》
以下、簡単な具体例に従って、本実施形態の図から〜図13の処理を説明する。
<< Specific Example Processing According to the Present Embodiment >>
Hereinafter, the processing of FIG. 13 to FIG. 13 will be described according to a simple specific example.

(起動前起点での各部データ)
図17は、本実施形態による具体例の処理における起動前起点での各部データ1700を示す図である。
(Each part data at the starting point before starting)
FIG. 17 is a diagram showing each part data 1700 at the start point before starting in the processing of the specific example according to the present embodiment.

図17の総データ一覧は、クライアントPCの新たなファイルが2つ(ハッシュ値が“AAAAAAAAAAAAAAAA”の“a”と“CCCCCCCCCCCCCCCC”“c”)であり、それぞれ“提案フォルダ”と“構築フォルダ”に含まれていること示す。また、レジスタ値は初期化前のデータであり、FDID合計レジスタR40の“4”のみがデータ参照サーバDB・D20に4つのファイルが登録されていることを示している。また、バッックアップDB・D10には、何も登録されていない。また、データ参照DB・D20には、今までデータ参照サーバN300に記憶された4つのファイル(“b”、“c”、“d”、“e”)が、データ参照サーバN300のデータ参照先フォルダパスと共に登録されている。また、バックアップDB・D10のカウンタC10は“0”である。   The total data list of FIG. 17 includes two new files of client PCs (“a” and “CCCCCCCCCCCCCCCC” “c” with hash values “AAAAAAAAAAAAAAAA”), and “Proposal folder” and “Construction folder” respectively. Indicates that it is included. The register value is data before initialization, and only “4” in the FDID total register R40 indicates that four files are registered in the data reference server DB • D20. Also, nothing is registered in the backup DB D10. In the data reference DB D20, four files (“b”, “c”, “d”, “e”) stored in the data reference server N300 until now are stored in the data reference server N300. Registered with folder path. The counter C10 of the backup DB · D10 is “0”.

(初期化時点での各部データ)
図18は、初期化時点(S701)での各部データ1800を示す図である。
(Data for each part at the time of initialization)
FIG. 18 is a diagram showing each part data 1800 at the time of initialization (S701).

図7のステップS701における初期化を終えた時点のレジスタ値である。BUID指数レジスタR10=1、FDID指数レジスタR30=1である。   This is the register value when the initialization in step S701 in FIG. BUID index register R10 = 1 and FDID index register R30 = 1.

(バックアップデータ数の検出時点での各部データ)
図19は、バックアップデータ数の検出時点(S707)での各部データ1900を示す図である。
(Data of each part when the number of backup data is detected)
FIG. 19 is a diagram showing each piece of data 1900 at the time of detecting the number of backup data (S707).

図7のステップS707におけるバックアップDB・D10の設定時のデータである。バックアップDB・D10には、図17の総データ一覧のファイル“a”と“c”とが複製されている。そして、バックアップDB・D10のカウンタC10は“2”に設定される。この状態が、図7のステップS708の分岐で判定される。本具体例では、カウンタC10は“2”なのでステップS709の判定では“NO”となり、ステップS711に進む。   This is the data at the time of setting the backup DB · D10 in step S707 in FIG. The files “a” and “c” in the total data list of FIG. 17 are duplicated in the backup DB D10. The counter C10 of the backup DB · D10 is set to “2”. This state is determined at the branch of step S708 in FIG. In this specific example, since the counter C10 is “2”, the determination in step S709 is “NO”, and the process proceeds to step S711.

(1番目のバックアップデータの重複データ有無判断中の各部データ)
図20は、1番目のバックアップデータの重複データ有無判断中(S809の判定)の各部データ2000を示す図である。
(Each part data in the presence of duplicate data in the first backup data)
FIG. 20 is a diagram showing the data 2000 of each part during the determination of the presence / absence of duplicate data in the first backup data (the determination in S809).

図20の左上は、図7のステップS711でカウンタC10の“2”をBUID合計レジスタR20に設定したレジスタ値を示している。図20の残りの5つのレジスタ値は、最初のファイル“a”についてデータ参照サーバDB・D20に同じファイルが重複してあるかのファイルIDの順の判定時の、レジスタ値である。本具体例では、データ参照サーバDB・D20に同じファイル“a”は無いので、図8のステップS809でFDID指数レジスタR30が順にカウントアップされる。   The upper left of FIG. 20 shows a register value in which “2” of the counter C10 is set in the BUID total register R20 in step S711 of FIG. The remaining five register values in FIG. 20 are register values when determining in the order of file IDs whether the same file is duplicated in the data reference server DB • D20 for the first file “a”. In this specific example, since the same file “a” does not exist in the data reference server DB • D20, the FDID index register R30 is sequentially counted up in step S809 in FIG.

図20の左下のように、4番目のファイル“e”との比較が終わってFDID指数レジスタR30が“5”になり、図8のステップS803の判定で“YES”と判定し、ステップS811に進む。ファイル“a”がデータ参照サーバDB・D20に無く、データ参照サーバN300のデータ参照先フォルダに記憶されていないことが判明する。   As shown in the lower left of FIG. 20, the comparison with the fourth file “e” is completed, the FDID index register R30 becomes “5”, and “YES” is determined in the determination of step S803 in FIG. move on. It turns out that the file “a” does not exist in the data reference server DB · D20 and is not stored in the data reference destination folder of the data reference server N300.

(重複データ無しの場合のデータ参照サーバ書込準備時の各部データ)
図21は、重複データ無しの場合のデータ参照サーバ書込準備時(S1007、S1009)の各部データ2100を示す図である。
(Each data at the time of data reference server writing preparation when there is no duplicate data)
FIG. 21 is a diagram showing each part data 2100 at the time of data reference server writing preparation when there is no duplicate data (S1007, S1009).

図21のレジスタ値の内、FDID合計レジスタR40は、図10のステップS1007で、データ参照サーバN300に記憶されてないファイル“a”をデータ参照サーバDB・D20に加えるために、カウントアップされる。そして、ステップS1009において、データ参照サーバDB・D20の5番目に新たなファイルを追加するための行が、データ参照先フォルダパスと共に準備される。   Of the register values in FIG. 21, the FDID total register R40 is counted up in step S1007 in FIG. 10 to add the file “a” not stored in the data reference server N300 to the data reference server DB · D20. . In step S1009, a line for adding the fifth new file in the data reference server DB • D20 is prepared together with the data reference destination folder path.

(重複データ無しの場合のデータ参照サーバ書込時及びショートカットパス設定時の各部データ)
図22は、重複データ無しの場合のデータ参照サーバ書込時(S1103、S1105)及びショートカットパス設定時(S1109)の各部データ2200を示す図である。
(Each part data when writing data reference server and setting shortcut path when there is no duplicate data)
FIG. 22 is a diagram showing each part data 2200 at the time of data reference server writing (S1103, S1105) and shortcut path setting (S1109) when there is no duplicate data.

図11のステップS1103において、ファイル“a”をデータ参照先フォルダパスのデータ参照先フォルダに記憶する。その後、図22のデータ参照サーバDB・D20に示すように、図11のステップS1105において、5番目の行にファイル“a”とそのハッシュ値が挿入される。そして、図11のステップS1107において、バックアップDB・D10およびデータ参照サーバDB・D20のファイル“a”の情報からショートカットが作成される。作成されたデータ参照先フォルダに記憶されたファイル“a”へのショートカットパスは、図11のステップS1109において、対応するクライアントPCの“提案フォルダ”のファイル“a”に置き換えられる。   In step S1103 of FIG. 11, the file “a” is stored in the data reference destination folder of the data reference destination folder path. After that, as shown in the data reference server DB • D20 in FIG. 22, the file “a” and its hash value are inserted in the fifth row in step S1105 in FIG. In step S1107 in FIG. 11, a shortcut is created from the information of the file “a” in the backup DB D10 and the data reference server DB D20. The shortcut path to the file “a” stored in the created data reference destination folder is replaced with the file “a” in the “suggest folder” of the corresponding client PC in step S1109 of FIG.

(1回目の処理済み判定時の各部データ)
図23は、1回目の処理済み判定時(S1201/S1203)の各部データを示す図である。
(Each part data at the time of the first processed judgment)
FIG. 23 is a diagram illustrating data of each part at the time of the first processing completion determination (S1201 / S1203).

1番目のファイル“a”の処理が終了し、図23のように、図12のステップS1201においてBUID指数レジスタR10を“2”として、2番目のファイル“c”が重複データであるかの判定の準備を行なう。次に、ステップS1203において、FDID指数レジスタR30を“1”に初期化して、ファイル“c”を5つのファイルが登録されているデータ参照サーバDB・D20の最初からの比較の準備をする。図12のステップS1207の判定では、BUID指数レジスタR10=BUID合計レジスタR20(NO)なので、再びステップS801に戻って、ファイル“c”がデータ参照サーバDB・D20に既に登録されているかの判定を始める。   When the processing of the first file “a” is completed, as shown in FIG. 23, the BUID index register R10 is set to “2” in step S1201 of FIG. 12, and it is determined whether the second file “c” is duplicate data. Prepare for. In step S1203, the FDID index register R30 is initialized to “1”, and the file “c” is prepared for comparison from the beginning of the data reference server DB • D20 in which five files are registered. In step S1207 of FIG. 12, BUID index register R10 = BUID total register R20 (NO). Therefore, the process returns to step S801 again to determine whether the file “c” has already been registered in the data reference server DB • D20. start.

(2番目のバックアップデータの重複データ有りの判断時及びショートカットパス設定時の各部データ)
図24は、2番目のバックアップデータの重複データ有りの判断時(S809)及びショートカットパス設定時(S911)の各部データを示す図である。
(Each part data at the time of judging that there is duplicate data in the second backup data and setting a shortcut path)
FIG. 24 is a diagram illustrating the data of each part when it is determined that duplicate data exists in the second backup data (S809) and when a shortcut path is set (S911).

ファイル“c”がデータ参照サーバDB・D20に既に登録されているかの判定で、最初の行のファイルは“b”なので図8のステップS809でFDID指数レジスタR30が“2”となる。データ参照サーバDB・D20に既に登録されている2番目のファイルは“c”でハッシュ値が一致するので、図8のステップS807で“YES”と判別されてステップS813に進む。そして、図9のステップS911において、2つ目のファイル“c”のショートカットが作成される。   By determining whether the file “c” is already registered in the data reference server DB • D20, the file on the first line is “b”, so the FDID index register R30 is set to “2” in step S809 in FIG. The second file already registered in the data reference server DB · D20 is “c” and has the same hash value. Therefore, “YES” is determined in the step S807 in FIG. 8, and the process proceeds to a step S813. In step S911 in FIG. 9, a shortcut for the second file “c” is created.

(2回目の処理済み判定時の各部データ)
図25は、2回目の処理済み判定時(S1201/S1203)の各部データを示す図である。
(Each part data at the time of the second processed determination)
FIG. 25 is a diagram illustrating each part data at the time of the second processing completion determination (S1201 / S1203).

2番目のファイル“c”の処理が終了し、図25のように、図12のステップS1201においてBUID指数レジスタR10を“3”とする。次に、ステップS1203において、FDID指数レジスタR30を“1”に初期化して、3番目のファイルがあれば5つのファイルが登録されているデータ参照サーバDB・D20の最初からの比較の準備をする。図12のステップS1207の判定では、BUID指数レジスタR10>BUID合計レジスタR20(YES)なのでもう処理してないバックアップデータは無く、ステップS1211に進んで、終了処理に向かう。   The processing of the second file “c” is completed, and the BUID index register R10 is set to “3” in step S1201 of FIG. 12, as shown in FIG. Next, in step S1203, the FDID index register R30 is initialized to “1”, and if there is a third file, the data reference server DB • D20 in which five files are registered is prepared for comparison from the beginning. . In the determination in step S1207 in FIG. 12, since BUID index register R10> BUID total register R20 (YES), there is no backup data that has not been processed anymore, and the process proceeds to step S1211 and the process ends.

(重複データ処理の終了時点での各部データ)
図26は、重複データ処理の終了時点(S1307/S1309)での各部データを示す図である。
(Each part data at the end of duplicate data processing)
FIG. 26 is a diagram showing the data of each part at the end of the duplicate data processing (S1307 / S1309).

図13のステップS1307で初期化されて、バックアップDB・D10は空となり、カウンタC10は“0”となる。そして、ステップS1309においてはBUID合計レジスタR20もバックアップDB・D10の最初の行を指すように初期化されて、重複検索サーバN200の処理が終了する。   Initialized in step S1307 in FIG. 13, the backup DB · D10 becomes empty, and the counter C10 becomes “0”. In step S 1309, the BUID total register R 20 is also initialized to point to the first line of the backup DB · D 10, and the process of the duplicate search server N 200 ends.

本具体例では、ファイル“a”と“c”との2つが処理され、まずファイル“a”はデータ参照サーバN300に無いので、データ参照サーバN300のデータ参照先フォルダに記憶されて、それへのショートカットパスがクライアントPCの提案フォルダに設定された。次にファイル“c”はデータ参照サーバN300に既に有ったので、データ参照サーバN300のデータ参照先フォルダに記憶せず、既に記憶されたファイル“c”へのショートカットパスがクライアントPCの提案フォルダに設定された。   In this specific example, two files “a” and “c” are processed. First, since the file “a” does not exist in the data reference server N300, it is stored in the data reference destination folder of the data reference server N300. Is set in the proposal folder of the client PC. Next, since the file “c” already exists in the data reference server N300, the shortcut path to the already stored file “c” is not stored in the data reference destination folder of the data reference server N300, and the suggested folder of the client PC. Was set to

[他の実施形態]
以上、本発明の実施形態について詳述したが、それぞれの実施形態に含まれる別々の特徴を如何様に組み合わせたシステム又は装置も、本発明の範疇に含まれる。
[Other Embodiments]
As mentioned above, although embodiment of this invention was explained in full detail, the system or apparatus which combined the separate characteristic contained in each embodiment how was included in the category of this invention.

また、本発明は、複数の機器から構成されるシステムに適用されても良いし、単体の装置に適用されても良い。さらに、本発明は、実施形態の機能を実現する制御プログラムが、システムあるいは装置に直接あるいは遠隔から供給される場合にも適用可能である。したがって、本発明の機能をコンピュータで実現するために、コンピュータにインストールされる制御プログラム、あるいはその制御プログラムを格納した媒体、その制御プログラムをダウンロードさせるWWW(World Wide Web)サーバも、本発明の範疇に含まれる。   Further, the present invention may be applied to a system constituted by a plurality of devices, or may be applied to a single device. Furthermore, the present invention can also be applied to a case where a control program that realizes the functions of the embodiments is supplied directly or remotely to a system or apparatus. Therefore, in order to realize the functions of the present invention on a computer, a control program installed in the computer, a medium storing the control program, and a WWW (World Wide Web) server that downloads the control program are also included in the scope of the present invention. include.

[実施形態の他の表現]
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
[Other expressions of embodiment]
A part or all of the above-described embodiment can be described as in the following supplementary notes, but is not limited thereto.

(付記1)
処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持手段内に有るか否かを検索する検索手段と、
同一のデータファイルを含むフォルダが前記データ保持手段内に無い場合は、前記データファイルを含むフォルダを前記データ保持手段に記憶する記憶手段と、
前記データファイルを保持する全ての情報処理装置のフォルダに対して、当該フォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するパス設定手段と、
前記情報処理装置のフォルダが保持する前記データファイルを全て削除する削除手段と、
を備えることを特徴とする情報処理装置。
(付記2)
前記検索手段は、当該情報処理装置に接続される全ての情報処理装置がフォルダ内に保持するデータファイルを前記処理対象とするデータファイルとして、前記データ保持手段内に有るか否かを検索し、
前記パス設定手段は、前記処理対象とするデータファイルと同一のデータファイルを含む異なる情報処理装置の異なるフォルダに対して、当該フォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定することを特徴とする付記1に記載の情報処理装置。
(付記3)
当該情報処理装置に接続される全ての情報処理装置がフォルダ内に新たに保持したデータファイルを読み込んで、前記接続される情報処理装置のフォルダへのパスに対応付けて格納する格納手段をさらに備え、
前記記憶手段は、前記格納手段に格納されたデータファイルを読み出して、前記データ保持手段に新たに作成されたフォルダへのパスに対応付けて前記読み出したデータファイルを前記データ保持手段の前記新たに作成されたフォルダに記憶し、
前記パス設定手段は、前記接続される情報処理装置のフォルダへのパスと前記データ保持手段に新たに作成されたフォルダへのパスとから、前記情報処理装置のフォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定し、前記格納手段に格納されたデータファイルを全て削除することを特徴とする付記1又は2に記載の情報処理装置。
(付記4)
前記パス設定手段は、前記検索手段が前記処理対象とするデータファイルと同一のデータファイルを含むフォルダが前記データ保持手段内に有るとした場合に、前記接続される情報処理装置のフォルダへのパスと既に作成されている前記データ保持手段のフォルダへのパスとから、前記情報処理装置のフォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定し、前記格納手段に格納されたデータファイルを全て削除することを特徴とする付記3に記載の情報処理装置。
(付記5)
前記パス設定手段は、
前記情報処理装置のフォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するまでの間、前記接続される情報処理装置のフォルダへのパスを保持するパス保持手段と、
前記データ保持手段のフォルダへのパスを蓄積するパス蓄積手段と、
を備えることを特徴とする付記3又は4に記載の情報処理装置。
(付記6)
フォルダが前記処理対象とするデータファイルと同一のデータファイルを含むか否かは、各データファイルのハッシュ値の比較に基づいて判断することを特徴とする付記1乃至5のいずれか1項に記載の情報処理装置。
(付記7)
前記データファイルはバックアップデータファイルであり、前記フォルダは前記バックアップデータファイルを保持するフォルダであることを特徴とする付記1乃至6のいずれか1項に記載の情報処理装置。
(付記8)
処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持手段内に有るか否かを検索する検索ステップと、
同一のデータファイルを含むフォルダが前記データ保持手段内に無い場合は、前記データファイルを含むフォルダを前記データ保持手段に記憶する記憶ステップと、
前記データファイルを保持する全ての情報処理装置のフォルダに対して、当該フォルダのショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するパス設定ステップと、
前記情報処理装置のフォルダが保持する前記データファイルを全て削除する削除ステップと、
を含むことを特徴とする情報処理装置の制御方法。
(付記9)
処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持手段内に有るか否かを検索する検索ステップと、
同一のデータファイルを含むフォルダが前記データ保持手段内に無い場合は、前記データファイルを含むフォルダを前記データ保持手段に記憶する記憶ステップと、
前記データファイルを保持する全ての情報処理装置のフォルダに対して、当該フォルダのショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するパス設定ステップと、
前記情報処理装置のフォルダが保持する前記データファイルを全て削除する削除ステップと、
をコンピュータに実行させることを特徴とする制御プログラム。
(付記10)
複数のクライアントが生成した異なるフォルダに同じデータファイルを保持することが可能な情報処理システムであって、
前記同じデータファイルを1つのフォルダに保持する保持手段と、
前記複数のクライアントが生成した前記同じデータファイルを保持する全ての異なるフォルダ内のショートカットファイルから、前記保持手段に保持した前記1つのフォルダへのパスを設定するパス設定手段と、
前記全ての異なるフォルダが保持する前記同じデータファイルを全て削除する削除手段と、
を備えることを特徴とする情報処理システム。
(付記11)
複数のクライアントが生成した異なるフォルダに同じのデータファイルを保持することが可能な情報処理システムにおける重複ファイル排除方法であって、
前記同じデータファイルを1つのフォルダに保持する保持ステップと、
前記複数のクライアントが生成した前記同じデータファイルを保持する全ての異なるフォルダ内のショートカットファイルから、前記保持ステップにおいて保持した前記1つのフォルダへのパスを設定するパス設定ステップと、
前記全ての異なるフォルダが保持する前記同じデータファイルを全て削除する削除ステップと、
を含むことを特徴とする重複ファイル排除方法。
(Appendix 1)
Search means for searching whether or not a folder containing the same data file as the data file to be processed exists in the data holding means for holding data;
If there is no folder containing the same data file in the data holding means, storage means for storing the folder containing the data file in the data holding means;
Path setting means for setting a path from a shortcut file in the folder to the data file in the data holding means for all information processing device folders holding the data file;
Deleting means for deleting all the data files held by the folder of the information processing apparatus;
An information processing apparatus comprising:
(Appendix 2)
The search means searches for whether or not the data file held in a folder by all the information processing apparatuses connected to the information processing apparatus as the processing target data file is in the data holding means,
The path setting means, for different folders of different information processing apparatuses including the same data file as the data file to be processed, a path from the shortcut file in the folder to the data file in the data holding means The information processing apparatus according to appendix 1, wherein:
(Appendix 3)
Storage means for reading a data file newly held in a folder by all the information processing devices connected to the information processing device and storing the data file in association with a path to the folder of the connected information processing device. ,
The storage means reads the data file stored in the storage means, and associates the read data file with the newly created path in the data holding means in association with a path to a folder newly created in the data holding means. Remember it in the created folder,
The path setting means holds the data from the shortcut file in the folder of the information processing apparatus from the path to the folder of the connected information processing apparatus and the path to the folder newly created in the data holding means. The information processing apparatus according to appendix 1 or 2, wherein a path to the data file in the means is set, and all data files stored in the storage means are deleted.
(Appendix 4)
The path setting means, when the search means has a folder containing the same data file as the data file to be processed in the data holding means, the path to the folder of the connected information processing apparatus And a path from the shortcut file in the folder of the information processing device to the data file in the data holding unit from the already created path to the folder of the data holding unit, and stored in the storage unit 4. The information processing apparatus according to appendix 3, wherein all the data files that have been deleted are deleted.
(Appendix 5)
The path setting means includes
A path holding unit that holds a path to the folder of the information processing device to be connected until a path from the shortcut file in the folder of the information processing device to the data file in the data holding unit is set;
Path storage means for storing a path to a folder of the data holding means;
The information processing apparatus according to appendix 3 or 4, further comprising:
(Appendix 6)
6. The method according to any one of appendices 1 to 5, wherein whether or not the folder includes the same data file as the data file to be processed is determined based on a comparison of hash values of the data files. Information processing device.
(Appendix 7)
The information processing apparatus according to any one of appendices 1 to 6, wherein the data file is a backup data file, and the folder is a folder that holds the backup data file.
(Appendix 8)
A search step for searching whether a folder containing the same data file as the data file to be processed exists in the data holding means for holding the data;
If there is no folder containing the same data file in the data holding means, a storing step of storing the folder containing the data file in the data holding means;
A path setting step for setting a path from a shortcut file of the folder to the data file in the data holding unit for all folders of the information processing apparatus holding the data file;
A deletion step of deleting all the data files held by the folder of the information processing apparatus;
A method for controlling an information processing apparatus, comprising:
(Appendix 9)
A search step for searching whether a folder containing the same data file as the data file to be processed exists in the data holding means for holding the data;
If there is no folder containing the same data file in the data holding means, a storing step of storing the folder containing the data file in the data holding means;
A path setting step for setting a path from a shortcut file of the folder to the data file in the data holding unit for all folders of the information processing apparatus holding the data file;
A deletion step of deleting all the data files held by the folder of the information processing apparatus;
A control program for causing a computer to execute.
(Appendix 10)
An information processing system capable of holding the same data file in different folders generated by a plurality of clients,
Holding means for holding the same data file in one folder;
Path setting means for setting a path from the shortcut files in all the different folders holding the same data file generated by the plurality of clients to the one folder held in the holding means;
Deleting means for deleting all the same data files held by all the different folders;
An information processing system comprising:
(Appendix 11)
A duplicate file elimination method in an information processing system capable of holding the same data file in different folders generated by a plurality of clients,
A holding step of holding the same data file in one folder;
A path setting step for setting a path from the shortcut files in all the different folders holding the same data file generated by the plurality of clients to the one folder held in the holding step;
A deletion step of deleting all the same data files held by all the different folders;
A duplicate file elimination method comprising:

Claims (10)

処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持手段内に有るか否かを検索する検索手段と、
同一のデータファイルを含むフォルダが前記データ保持手段内に無い場合は、前記データファイルを含むフォルダを前記データ保持手段に記憶する記憶手段と、
前記データファイルを保持する全ての情報処理装置のフォルダに対して、当該フォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するパス設定手段と、
前記情報処理装置のフォルダが保持する前記データファイルを全て削除する削除手段と、
を備えることを特徴とする情報処理装置。
Search means for searching whether or not a folder containing the same data file as the data file to be processed exists in the data holding means for holding data;
If there is no folder containing the same data file in the data holding means, storage means for storing the folder containing the data file in the data holding means;
Path setting means for setting a path from a shortcut file in the folder to the data file in the data holding means for all information processing device folders holding the data file;
Deleting means for deleting all the data files held by the folder of the information processing apparatus;
An information processing apparatus comprising:
前記検索手段は、当該情報処理装置に接続される全ての情報処理装置がフォルダ内に保持するデータファイルを前記処理対象とするデータファイルとして、前記データ保持手段内に有るか否かを検索し、
前記パス設定手段は、前記処理対象とするデータファイルと同一のデータファイルを含む異なる情報処理装置の異なるフォルダに対して、当該フォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定することを特徴とする請求項1に記載の情報処理装置。
The search means searches for whether or not the data file held in a folder by all the information processing apparatuses connected to the information processing apparatus as the processing target data file is in the data holding means,
The path setting means, for different folders of different information processing apparatuses including the same data file as the data file to be processed, a path from the shortcut file in the folder to the data file in the data holding means The information processing apparatus according to claim 1, wherein:
当該情報処理装置に接続される全ての情報処理装置がフォルダ内に新たに保持したデータファイルを読み込んで、前記接続される情報処理装置のフォルダへのパスに対応付けて格納する格納手段をさらに備え、
前記記憶手段は、前記格納手段に格納されたデータファイルを読み出して、前記データ保持手段に新たに作成されたフォルダへのパスに対応付けて前記読み出したデータファイルを前記データ保持手段の前記新たに作成されたフォルダに記憶し、
前記パス設定手段は、前記接続される情報処理装置のフォルダへのパスと前記データ保持手段に新たに作成されたフォルダへのパスとから、前記情報処理装置のフォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定し、前記格納手段に格納されたデータファイルを全て削除することを特徴とする請求項1又は2に記載の情報処理装置。
Storage means for reading a data file newly held in a folder by all the information processing devices connected to the information processing device and storing the data file in association with a path to the folder of the connected information processing device. ,
The storage means reads the data file stored in the storage means, and associates the read data file with the newly created path in the data holding means in association with a path to a folder newly created in the data holding means. Remember it in the created folder,
The path setting means holds the data from the shortcut file in the folder of the information processing apparatus from the path to the folder of the connected information processing apparatus and the path to the folder newly created in the data holding means. 3. The information processing apparatus according to claim 1, wherein a path to the data file in the means is set, and all data files stored in the storage means are deleted.
前記パス設定手段は、前記検索手段が前記処理対象とするデータファイルと同一のデータファイルを含むフォルダが前記データ保持手段内に有るとした場合に、前記接続される情報処理装置のフォルダへのパスと既に作成されている前記データ保持手段のフォルダへのパスとから、前記情報処理装置のフォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定し、前記格納手段に格納されたデータファイルを全て削除することを特徴とする請求項3に記載の情報処理装置。   The path setting means, when the search means has a folder containing the same data file as the data file to be processed in the data holding means, the path to the folder of the connected information processing apparatus And a path from the shortcut file in the folder of the information processing device to the data file in the data holding unit from the already created path to the folder of the data holding unit, and stored in the storage unit 4. The information processing apparatus according to claim 3, wherein all the data files that have been deleted are deleted. 前記パス設定手段は、
前記情報処理装置のフォルダ内のショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するまでの間、前記接続される情報処理装置のフォルダへのパスを保持するパス保持手段と、
前記データ保持手段のフォルダへのパスを蓄積するパス蓄積手段と、
を備えることを特徴とする請求項3又は4に記載の情報処理装置。
The path setting means includes
A path holding unit that holds a path to the folder of the information processing device to be connected until a path from the shortcut file in the folder of the information processing device to the data file in the data holding unit is set;
Path storage means for storing a path to a folder of the data holding means;
The information processing apparatus according to claim 3, further comprising:
前記データファイルはバックアップデータファイルであり、前記フォルダは前記バックアップデータファイルを保持するフォルダであることを特徴とする請求項1乃至5のいずれか1項に記載の情報処理装置。   The information processing apparatus according to claim 1, wherein the data file is a backup data file, and the folder is a folder that holds the backup data file. 処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持手段内に有るか否かを検索する検索ステップと、
同一のデータファイルを含むフォルダが前記データ保持手段内に無い場合は、前記データファイルを含むフォルダを前記データ保持手段に記憶する記憶ステップと、
前記データファイルを保持する全ての情報処理装置のフォルダに対して、当該フォルダのショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するパス設定ステップと、
前記情報処理装置のフォルダが保持する前記データファイルを全て削除する削除ステップと、
を含むことを特徴とする情報処理装置の制御方法。
A search step for searching whether a folder containing the same data file as the data file to be processed exists in the data holding means for holding the data;
If there is no folder containing the same data file in the data holding means, a storing step of storing the folder containing the data file in the data holding means;
A path setting step for setting a path from a shortcut file of the folder to the data file in the data holding unit for all folders of the information processing apparatus holding the data file;
A deletion step of deleting all the data files held by the folder of the information processing apparatus;
A method for controlling an information processing apparatus, comprising:
処理対象とするデータファイルと同一のデータファイルを含むフォルダが、データを保持するデータ保持手段内に有るか否かを検索する検索ステップと、
同一のデータファイルを含むフォルダが前記データ保持手段内に無い場合は、前記データファイルを含むフォルダを前記データ保持手段に記憶する記憶ステップと、
前記データファイルを保持する全ての情報処理装置のフォルダに対して、当該フォルダのショートカットファイルから前記データ保持手段内の前記データファイルへのパスを設定するパス設定ステップと、
前記情報処理装置のフォルダが保持する前記データファイルを全て削除する削除ステップと、
をコンピュータに実行させることを特徴とする制御プログラム。
A search step for searching whether a folder containing the same data file as the data file to be processed exists in the data holding means for holding the data;
If there is no folder containing the same data file in the data holding means, a storing step of storing the folder containing the data file in the data holding means;
A path setting step for setting a path from a shortcut file of the folder to the data file in the data holding unit for all folders of the information processing apparatus holding the data file;
A deletion step of deleting all the data files held by the folder of the information processing apparatus;
A control program for causing a computer to execute.
複数のクライアントが生成した異なるフォルダに同じデータファイルを保持することが可能な情報処理システムであって、
前記同じデータファイルを1つのフォルダに保持する保持手段と、
前記複数のクライアントが生成した前記同じデータファイルを保持する全ての異なるフォルダ内のショートカットファイルから、前記保持手段に保持した前記1つのフォルダへのパスを設定するパス設定手段と、
前記全ての異なるフォルダが保持する前記同じデータファイルを全て削除する削除手段と、
を備えることを特徴とする情報処理システム。
An information processing system capable of holding the same data file in different folders generated by a plurality of clients,
Holding means for holding the same data file in one folder;
Path setting means for setting a path from the shortcut files in all the different folders holding the same data file generated by the plurality of clients to the one folder held in the holding means;
Deleting means for deleting all the same data files held by all the different folders;
An information processing system comprising:
複数のクライアントが生成した異なるフォルダに同じのデータファイルを保持することが可能な情報処理システムにおける重複ファイル排除方法であって、
前記同じデータファイルを1つのフォルダに保持する保持ステップと、
前記複数のクライアントが生成した前記同じデータファイルを保持する全ての異なるフォルダ内のショートカットファイルから、前記保持ステップにおいて保持した前記1つのフォルダへのパスを設定するパス設定ステップと、
前記全ての異なるフォルダが保持する前記同じデータファイルを全て削除する削除ステップと、
を含むことを特徴とする重複ファイル排除方法。
A duplicate file elimination method in an information processing system capable of holding the same data file in different folders generated by a plurality of clients,
A holding step of holding the same data file in one folder;
A path setting step for setting a path from the shortcut files in all the different folders holding the same data file generated by the plurality of clients to the one folder held in the holding step;
A deletion step of deleting all the same data files held by all the different folders;
A duplicate file elimination method comprising:
JP2011045934A 2011-03-03 2011-03-03 Information processing system, duplicate file elimination method of information processing system, information processing apparatus, control method thereof, and control program Expired - Fee Related JP5473010B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011045934A JP5473010B2 (en) 2011-03-03 2011-03-03 Information processing system, duplicate file elimination method of information processing system, information processing apparatus, control method thereof, and control program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011045934A JP5473010B2 (en) 2011-03-03 2011-03-03 Information processing system, duplicate file elimination method of information processing system, information processing apparatus, control method thereof, and control program

Publications (2)

Publication Number Publication Date
JP2012181796A true JP2012181796A (en) 2012-09-20
JP5473010B2 JP5473010B2 (en) 2014-04-16

Family

ID=47012920

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011045934A Expired - Fee Related JP5473010B2 (en) 2011-03-03 2011-03-03 Information processing system, duplicate file elimination method of information processing system, information processing apparatus, control method thereof, and control program

Country Status (1)

Country Link
JP (1) JP5473010B2 (en)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293619A (en) * 2006-04-25 2007-11-08 Canon Software Inc Server device, information sharing system, program, and recording medium
JP2010508608A (en) * 2006-10-31 2010-03-18 レビット・インコーポレーテッド Automatic protection system for data and file directory structure recorded in computer memory
JP2010176256A (en) * 2009-01-28 2010-08-12 Ri Co Ltd Backup program
JP2010231656A (en) * 2009-03-27 2010-10-14 Nippon Telegraph & Telephone West Corp File management device
JP2010237846A (en) * 2009-03-30 2010-10-21 Hitachi East Japan Solutions Ltd Backup management method, program, and backup management device

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007293619A (en) * 2006-04-25 2007-11-08 Canon Software Inc Server device, information sharing system, program, and recording medium
JP2010508608A (en) * 2006-10-31 2010-03-18 レビット・インコーポレーテッド Automatic protection system for data and file directory structure recorded in computer memory
JP2010176256A (en) * 2009-01-28 2010-08-12 Ri Co Ltd Backup program
JP2010231656A (en) * 2009-03-27 2010-10-14 Nippon Telegraph & Telephone West Corp File management device
JP2010237846A (en) * 2009-03-30 2010-10-21 Hitachi East Japan Solutions Ltd Backup management method, program, and backup management device

Also Published As

Publication number Publication date
JP5473010B2 (en) 2014-04-16

Similar Documents

Publication Publication Date Title
JP6495568B2 (en) Method, computer readable storage medium and system for performing incremental SQL server database backup
JP5731000B2 (en) Method and system for performing individual restore of a database from a differential backup
CN101676855B (en) Scalable secondary storage systems and methods
JP5276218B2 (en) Convert LUNs to files or files to LUNs in real time
US8230187B1 (en) Techniques for integrating backup modules with virtualized storage
JP5728087B2 (en) Storage management system and storage management method
CN102317938B (en) Asynchronous distributed de-duplication for replicated content addressable storage clusters
US10216449B1 (en) Extended snapshot using backup and microservice
US9235589B2 (en) Optimizing storage allocation in a virtual desktop environment
JP5023018B2 (en) Storage system and data management method
CN100414547C (en) Method for accessing file system snapshots and file system
US20130282676A1 (en) Garbage collection-driven block thinning
US10474539B1 (en) Browsing federated backups
JP6604115B2 (en) Storage device and storage control program
CN109086388A (en) Block chain date storage method, device, equipment and medium
US20070112892A1 (en) Non-disruptive backup copy in a database online reorganization environment
JP5938615B2 (en) Computer program, system, and method for restoring deduplicated data objects from sequential backup devices
US20200364239A1 (en) Asynchronous replication of in-scope table data
US10733161B1 (en) Atomically managing data objects and assigned attributes
US20220083513A1 (en) Post-processing global deduplication algorithm for scaled-out deduplication file system
JP5473010B2 (en) Information processing system, duplicate file elimination method of information processing system, information processing apparatus, control method thereof, and control program
US9952780B2 (en) Method for retrieving data from a tape drive
WO2015162717A1 (en) Computer
US9690803B1 (en) Auxiliary files in a container file system
JP2009163334A (en) Information processor, program, and backup method

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130809

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130814

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20131011

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20140107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140130

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees