JP2020149229A - Duplicate eliminating apparatus, duplicate eliminating method, program and storage media - Google Patents
Duplicate eliminating apparatus, duplicate eliminating method, program and storage media Download PDFInfo
- Publication number
- JP2020149229A JP2020149229A JP2019045030A JP2019045030A JP2020149229A JP 2020149229 A JP2020149229 A JP 2020149229A JP 2019045030 A JP2019045030 A JP 2019045030A JP 2019045030 A JP2019045030 A JP 2019045030A JP 2020149229 A JP2020149229 A JP 2020149229A
- Authority
- JP
- Japan
- Prior art keywords
- area
- data
- system information
- operating system
- data storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims description 16
- 238000013500 data storage Methods 0.000 claims abstract description 48
- 238000001514 detection method Methods 0.000 claims abstract description 21
- 230000008030 elimination Effects 0.000 claims description 2
- 238000003379 elimination reaction Methods 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 12
- 230000007717 exclusion Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
本発明は、重複排除装置、重複排除方法、プログラム及び記録媒体に関する。 The present invention relates to deduplication devices, deduplication methods, programs and recording media.
従来から、ストレージにおける記憶容量コストを抑制するために、重複したデータをストレージ内から排除する技術が用いられている(特許文献1)。 Conventionally, in order to suppress the storage capacity cost in storage, a technique for eliminating duplicated data from the storage has been used (Patent Document 1).
しかしながら、ストレージ内の全データを比較し、データの重複を確認することは、負荷の高い処理が必要となる。そのため、低性能なハードウエアでは、前記処理に時間を要するという問題がある。一方で、処理の負荷が高くとも短時間処理を可能とする高性能なハードウエアは、コストが高いため、実装することが困難という問題がある。 However, comparing all the data in the storage and confirming the duplication of data requires a heavy processing. Therefore, in low-performance hardware, there is a problem that the processing takes time. On the other hand, high-performance hardware that enables short-time processing even if the processing load is high has a problem that it is difficult to implement because of its high cost.
そこで、本発明は、低コストで、負荷の高い処理を最小限に抑え、且つ、短時間処理を可能とする重複排除装置、重複排除方法、プログラム及び記録媒体の提供を目的とする。 Therefore, an object of the present invention is to provide a deduplication device, a deduplication method, a program, and a recording medium that can perform processing in a short time while minimizing high-load processing at low cost.
前記目的を達成するために、本発明の重複排除装置は、
特定部、重複領域検出部、及び重複排除部を含み、
前記特定部は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定し、
前記重複領域検出部は、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出し、
前記重複排除部は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する、装置である。
In order to achieve the above object, the deduplication device of the present invention is
Including a specific part, an overlapping area detection part, and a deduplication part
The specific unit identifies the type of operating system information based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage.
In the data storage area, the overlapping area detection unit detects an area in which duplicate data exists from the data group having the same type of operating system information.
The deduplication unit is a device that stores the duplication data in at least one of the regions and eliminates the duplication data from the other regions.
本発明の重複排除方法は、
特定工程、重複領域検出工程、及び重複排除工程を含み、
前記特定工程は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定し、
前記重複領域検出工程は、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出し、
前記重複排除工程は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する、方法である。
The deduplication method of the present invention
Including a specific step, a duplication region detection step, and a duplication elimination step
In the specific step, the type of operating system information is specified based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage.
The overlapping area detection step detects an area in which duplicate data exists from the data group having the same type of operating system information in the data storage area.
The deduplication step is a method of storing the duplicated data in at least one of the regions and eliminating the duplicated data from the other regions.
本発明によれば、例えば、低コストで、負荷の高い処理を最小限に抑え、且つ、短時間処理が可能となる。 According to the present invention, for example, low-cost, high-load processing can be minimized, and short-time processing can be performed.
本発明の装置は、さらに、データ記憶領域特定部を含み、前記データ記憶領域特定部は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定し、前記重複領域検出部は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する、という態様であってもよい。 The device of the present invention further includes a data storage area specifying unit, which identifies the data storage area having the same type of operating system information by using the identification information, and the duplication. The area detection unit may be in an embodiment in which an area in which duplicate data exists is detected from the data group having the same type of operating system information between the specified data storage areas.
本発明の装置において、前記特定部は、仮想化されたストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定する、という態様であってもよい。 In the apparatus of the present invention, the specific unit specifies the type of operating system information based on the file system information existing in the first area of the virtual disk area of the data group in the virtualized storage. There may be.
本発明の方法は、さらに、データ記憶領域特定工程を含み、前記データ記憶領域特定工程は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定し、前記重複領域検出工程は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する、という態様であってもよい。 The method of the present invention further includes a data storage area specifying step, in which the data storage area specifying step identifies the data storage area having the same type of operating system information using the identification information, and the duplication. The area detection step may be an embodiment in which an area in which duplicate data exists is detected from the data group having the same type of operating system information between the specified data storage areas.
本発明の方法において、前記特定工程は、仮想化されたストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定する、という態様であってもよい。 In the method of the present invention, the specific step identifies the type of operating system information based on the file system information existing in the first area of the virtual disk area of the data group in the virtualized storage. There may be.
本発明のプログラムは、本発明の方法をコンピュータ上で実行可能なプログラムである。 The program of the present invention is a program capable of executing the method of the present invention on a computer.
本発明の記録媒体は、本発明のプログラムを記録しているコンピュータ読み取り可能な記録媒体である。 The recording medium of the present invention is a computer-readable recording medium on which the program of the present invention is recorded.
前記重複データとは、例えば、同一種類のオペレーティングシステム(以下、OS)のOS領域、データのバックアップ及びコピー等により、同一内容を有するデータのことである。一般的に、データが重複する状況は、同じOS上で保存されている場合が多い。例えば、OS領域でデータが重複するには、同じOSを使用していることが必須である。また、例えば、前記バックアップの場合は、OSも複製されるため、同じOSとなる。さらに、例えば、前記コピーの場合は、過去のデータを保持するためコピーすることが想定されるため、同じOSとなることが想定される。 The duplicated data is data having the same contents due to, for example, an OS area of the same type of operating system (hereinafter, OS), data backup and copying, and the like. In general, the situation where data is duplicated is often saved on the same OS. For example, in order for data to be duplicated in the OS area, it is essential that the same OS is used. Further, for example, in the case of the backup, the OS is also duplicated, so that the OS is the same. Further, for example, in the case of the copy, it is assumed that the copy is performed in order to retain the past data, so that the OS is assumed to be the same.
本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。 An embodiment of the present invention will be described with reference to the drawings. The present invention is not limited to the following embodiments. In each of the following figures, the same parts are designated by the same reference numerals. Further, the explanations of the respective embodiments can be referred to each other unless otherwise specified, and the configurations of the respective embodiments can be combined unless otherwise specified.
[実施形態1]
図1は、本実施形態の重複排除装置1の一例の構成を示すブロック図である。図1に示すように、本装置1は、特定部11、重複領域検出部12、及び重複排除部13を含む。
[Embodiment 1]
FIG. 1 is a block diagram showing a configuration of an example of the
本装置1は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、図示していないが、本装置1は、前記通信回線網を介して、後述する外部装置と接続可能である。前記通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。前記通信回線網は、例えば、インターネット回線、電話回線、LAN(Local Area Network)、WiFi(Wireless Fidelity)等があげられる。本装置1は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置1は、例えば、本発明のプログラムがインストールされた端末であってもよい。前記端末としては、特に制限されず、例えば、パーソナルコンピュータ(PC)、スマートフォン、タブレット、携帯電話等が挙げられる。
The
図2に、本装置1のハードウエア構成のブロック図を例示する。本装置1は、例えば、CPU(中央処理装置)101、メモリ102、バス103、記憶装置104、入力装置105、表示装置(ディスプレイ)106、通信デバイス107等を有する。本装置1は、例えば、コンピュータ100の記憶装置104に本発明のプログラム等を内蔵した装置である。コンピュータ100は、一般的なコンピュータである。本装置1の各部は、それぞれのインタフェース(I/F)により、バス103を介して相互に接続されている。
FIG. 2 illustrates a block diagram of the hardware configuration of the
CPU101は、本装置1の全体の制御を担う。本装置1において、CPU101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。なお、本発明において、CPUに代えてGPU等の他の演算装置を用いても良い。
The
バス103は、例えば、外部装置とも接続できる。前記外部装置は、例えば、後述する外部記憶装置(外部ストレージ等)、プリンター等があげられる。本装置1は、例えば、バス103に接続された通信デバイス107により、外部ネットワーク(通信回線網)3に接続でき、外部ネットワーク3を介して、前記外部装置と接続することもできる。
The
メモリ102は、例えば、メインメモリ(主記憶装置)が挙げられる。CPU101が処理を行う際には、例えば、後述する記憶装置104に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ102が読み込み、CPU101は、メモリ102からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。また、メモリ102は、例えば、ROM(読み出し専用メモリ)であってもよい。
Examples of the
記憶装置104は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置104には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置104は、例えば、記憶媒体と、記憶媒体に読み書きするドライブとの組合せであってもよい。前記記憶媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD−ROM、CD−R、CD−RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置104は、例えば、記憶媒体とドライブとが一体化されたハードディスクドライブ(HDD)であってもよい。また、記憶装置104は、OSを格納していてもよい。
The
すなわち、図2において、本装置1は、本発明のプログラムをメモリ102が読み込み、CPU101が、メモリ102からデータを受け取って、本発明のプログラムを実行するコンピュータ100であるといえる。
That is, in FIG. 2, it can be said that the
本装置1は、例えば、さらに、入力装置105、ディスプレイ106を有する。入力装置105は、例えば、タッチパネル、キーボード、マウス等である。ディスプレイ106は、例えば、LEDディスプレイ、液晶ディスプレイ等が挙げられる。
The
特定部11は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報(以下、OS情報ともいう)の種類を特定する。前記識別情報は、例えば、LUN(Logical Unit Number)等が挙げられる。前記データ群は、ファイルシステムにおいてファイルやディレクトリ毎の領域に情報を記録したデータである。本実施形態において、前記第1領域とは、ファイルシステム情報が存在している前記各領域のうち読み出しを開始する最先の領域のことをいう。
The
図4に、前記データ群の構成の例を示す。図4において、前記データ群は、左側からデータの読み出しを開始する。前記ファイルシステム情報は、前述のように、前記第1領域に存在する。また、前記ファイルシステム情報よりも後方(右側)に、例えば、OS情報を記録したOSファイルが存在する。さらに、前記OSファイルよりも後方(右側)に、例えば、アクティブページ(AP)情報を記録したAPファイル等の他のファイルが存在する。 FIG. 4 shows an example of the configuration of the data group. In FIG. 4, the data group starts reading data from the left side. The file system information exists in the first area as described above. Further, for example, an OS file in which OS information is recorded exists behind (on the right side) the file system information. Further, behind (on the right side) the OS file, for example, there is another file such as an AP file in which active page (AP) information is recorded.
前記ストレージは、特に制限されず、例えば、図2に示すように、記憶装置104内のストレージでもよいし、本装置1と通信回線網3によって接続された外部ストレージ2を対象としてもよい。外部ストレージ2は、特に制限されず、例えば、仮想化されたストレージでもよいし、ユーザ装置内のストレージでもよい。前記ストレージが仮想化されたストレージである場合、特定部11は、さらに、仮想化されたストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定してもよい。
The storage is not particularly limited, and for example, as shown in FIG. 2, the storage may be the storage in the
図5に基づき、前記ストレージが仮想化されたストレージである場合の例を説明する。図5(A)は、仮想サーバとストレージとの関係を示す模式図であり、図5(B)は、図5(A)の前記ストレージ内における前記データ群の構造の一例を示す模式図である。図5(A)において、各サーバは、サーバ仮想化基板上に存在する仮想サーバであり、前記各仮想サーバは、それぞれ、OSとファイルシステムを含む。なお、図5(A)において、前記各仮想サーバは、3つとしているが、同図は例示であって、これに限定されない。図5(A)に示すように、前記各仮想サーバは、仮想化されたストレージの前記データ記憶領域を共有して使用している。一方で、図5(B)に示す前記データ群は、左側からデータの読み出しを開始する。前記仮想化されたストレージ内の前記データ群は、図5(B)に示すように、前記各仮想サーバの仮想化マシン毎に、仮想ディスク領域がある。また、前記開始側の前記仮想ディスク領域よりも前記開始側の領域に仮想化基板ファイルシステム情報が存在する。前記ファイルシステム情報は、前記各仮想ディスク領域内の各領域のうち前記開始側の最先の領域(第1領域)にそれぞれ存在し、前記OSファイルは、前記ファイルシステム情報よりも後方(右側)に存在する。なお、図示していないが、前記OSファイルよりも後方に、前記他のファイルが存在していてもよい。 An example of the case where the storage is a virtualized storage will be described with reference to FIG. 5 (A) is a schematic diagram showing the relationship between the virtual server and the storage, and FIG. 5 (B) is a schematic diagram showing an example of the structure of the data group in the storage of FIG. 5 (A). is there. In FIG. 5A, each server is a virtual server existing on a server virtualization board, and each of the virtual servers includes an OS and a file system, respectively. In FIG. 5A, the number of each virtual server is three, but the figure is an example and is not limited thereto. As shown in FIG. 5A, each of the virtual servers shares and uses the data storage area of the virtualized storage. On the other hand, the data group shown in FIG. 5B starts reading data from the left side. As shown in FIG. 5B, the data group in the virtualized storage has a virtual disk area for each virtualization machine of the virtual server. Further, the virtualization board file system information exists in the area on the start side rather than the virtual disk area on the start side. The file system information exists in the earliest area (first area) on the start side of each area in each virtual disk area, and the OS file is behind (right side) of the file system information. Exists in. Although not shown, the other file may exist behind the OS file.
重複領域検出部12は、前記データ記憶領域において、同一種類の前記OS情報を有する前記データ群から、重複データが存在する領域を検出する。前記重複データとは、例えば、前述のように、同一種類のOSのOS領域、データのバックアップ及びコピー等により、同一内容を有するデータのことである。前記重複データが存在する領域を重複領域ともいう。
The overlapping
重複排除部13は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する。前記格納する領域は1つでもよいし、2つ以上でもよい。前記格納は、例えば、複数の前記重複データを蓄積して格納してもよいし、特定の重複データのみを格納してもよい。前記特定の重複データとは、特に制限されず、例えば、最新の日時が記録されているデータ及びコピーのオリジナルデータ等が挙げられる。前記排除は、例えば、前記他の領域(すなわち、前記格納する領域以外の前記領域)から前記重複データを削除することによって、排除してもよいし、前記重複データを前記格納する領域及び外部装置等に移動することによって、排除してもよい。
The
次に、本装置1における処理の一例を、図1のブロック図及び図3のフローチャートに基づき説明する。
Next, an example of the processing in the
まず、特定工程により、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定する(S1)。また、前記ストレージが仮想化されたストレージである場合、前記特定工程は、さらに、仮想化ストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定してもよい。 First, in the specific step, the type of operating system information is specified based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage (S1). Further, when the storage is virtualized storage, the specific step further obtains operating system information based on the file system information existing in the first area of the virtual disk area of the data group in the virtualized storage. The type may be specified.
つぎに、重複領域検出工程により、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する(S2)。 Next, the overlapping area detection step detects an area in which the duplicated data exists from the data group having the same type of operating system information in the data storage area (S2).
つぎに、前記重複排除工程により、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除し(S3)、終了する(END)。 Next, by the deduplication step, the duplication data is stored in at least one of the regions, and the duplication data is excluded from the other regions (S3), and the process ends (END).
本実施形態によれば、OSを特定することで、前記重複データの検出範囲を絞ることができるため、例えば、低コストのハードウエア(すなわち、低性能なハードウエア)においても、負荷の高い処理を最小限に抑え、且つ、短時間処理が可能となる。 According to the present embodiment, the detection range of the duplicated data can be narrowed down by specifying the OS, so that even low-cost hardware (that is, low-performance hardware) has a high load. Can be minimized and processed in a short time.
[実施形態2]
本実施形態は、さらに、前記ストレージ内に前記データ記憶領域が複数存在する形態である。特に示さない限り、本実施形態は、前記実施形態1の記載を援用できる。
[Embodiment 2]
In this embodiment, a plurality of the data storage areas are further present in the storage. Unless otherwise specified, the description of the first embodiment can be incorporated in the present embodiment.
図6に示すように、本装置1は、さらに、データ記憶領域特定部14を含むこと以外、実施形態1の重複排除装置1と同じである。
As shown in FIG. 6, the
図7は、前記データ記憶領域を特定する一例を示す模式図である。なお、図7は、例示であって、これに限定されない。図7において、各サーバ20(20a、20b、及び20c)は、OSとファイルシステムを含んでいる。図7において、前記OSの数字は、前記OSの種類を示し、例えば、サーバ20aのOS1とサーバ20bのOS1とは、同一種類のOS情報であることを示す。一方で、例えば、サーバ20aのOS1とサーバ20cのOS2とは、異なる種類のOS情報であることを示す。また、前記ファイルシステムの数字は、前記OSと同様に、前記ファイルシステムの種類を示す。各サーバ20は、1つのストレージ21を共有して使用している。また、ストレージ21内に、各サーバ20と紐づけられた各LUN(識別情報)を有する各データ記憶領域22(22a、22b、及び22c)が存在する。このように、前記ストレージ内に前記データ記憶領域が複数存在する場合、データ記憶領域特定部14は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定する。すなわち、データ記憶領域特定部14は、OS1を含むサーバ20a及び20bに紐づけられた前記各LUNを有するデータ記憶領域22a及び22bを特定することができる。
FIG. 7 is a schematic diagram showing an example of specifying the data storage area. Note that FIG. 7 is an example and is not limited thereto. In FIG. 7, each server 20 (20a, 20b, and 20c) includes an OS and a file system. In FIG. 7, the number of the OS indicates the type of the OS, and for example, the OS1 of the
本実施形態において、重複領域検出部12は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する。すなわち、重複領域検出部12は、データ記憶領域22a及び22b間における前記データ群から、前記重複領域を検出する。
In the present embodiment, the overlapping
また、本実施形態の重複排除方法は、さらに、データ記憶領域特定工程を含む。前記データ記憶領域特定工程は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定する。また、前記重複領域検出工程は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する。 In addition, the deduplication method of the present embodiment further includes a data storage area specifying step. In the data storage area specifying step, the data storage area having the same type of operating system information is specified by using the identification information. In addition, the overlapping area detection step detects an area in which duplicate data exists from the data group having the same type of operating system information between the specified data storage areas.
本実施形態の重複排除装置1によっても、実施形態1の重複排除装置1と同様に、低性能なハードウエアにおいても、負荷の高い処理を最小限に抑え、且つ、短時間処理が可能となる。
Similar to the
[実施形態3]
本実施形態のプログラムは、実施形態1及び2の重複排除方法を、コンピュータ上で実行可能なプログラムである。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されていてもよい。前記記録媒体としては、特に限定されず、例えば、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク等が挙げられる。
[Embodiment 3]
The program of the present embodiment is a program capable of executing the deduplication method of the first and second embodiments on a computer. Further, the program of the present embodiment may be recorded on a computer-readable recording medium, for example. The recording medium is not particularly limited, and examples thereof include a read-only memory (ROM), a hard disk (HD), and an optical disk.
以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the structure and details of the present invention within the scope of the present invention.
本発明によれば、例えば、低コストで、負荷の高い処理を最小限に抑え、且つ、短時間処理を可能とする。このため、本発明は、例えば、低性能なハードウエアを使用してデータの重複排除を行う場合に、特に有用である。 According to the present invention, for example, low-cost, high-load processing can be minimized, and short-time processing can be performed. For this reason, the present invention is particularly useful when, for example, data deduplication is performed using low performance hardware.
1 重複排除装置
2 外部ストレージ
3 通信回線網
11 特定部
12 重複領域検出部
13 重複排除部
14 データ記憶領域特定部
20(20a、20b、20c) サーバ
21 ストレージ
22(22a、22b、22c) データ記憶領域
100 コンピュータ
101 CPU
102 メモリ
103 バス
104 記憶装置
105 入力装置
106 ディスプレイ
107 通信デバイス
1
102
Claims (8)
前記特定部は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定し、
前記重複領域検出部は、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出し、
前記重複排除部は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する、重複排除装置。 Including a specific part, an overlapping area detection part, and a deduplication part
The specific unit identifies the type of operating system information based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage.
In the data storage area, the overlapping area detection unit detects an area in which duplicate data exists from the data group having the same type of operating system information.
The deduplication unit is a deduplication device that stores the duplication data in at least one of the regions and eliminates the duplication data from the other regions.
前記データ記憶領域特定部は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定し、
前記重複領域検出部は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する、請求項1記載の重複排除装置。 In addition, it includes a data storage area identification unit.
The data storage area identification unit identifies the data storage area having the same type of operating system information by using the identification information.
The deduplication device according to claim 1, wherein the duplication area detection unit detects an area in which duplicate data exists from the data group having the same type of operating system information between the specified data storage areas.
前記特定工程は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定し、
前記重複領域検出工程は、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出し、
前記重複排除工程は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する、
重複排除方法。 Including a specific step, a duplication region detection step, and a duplication elimination step
In the specific step, the type of operating system information is specified based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage.
The overlapping area detection step detects an area in which duplicate data exists from the data group having the same type of operating system information in the data storage area.
The deduplication step stores the duplicated data in at least one of the regions and eliminates the duplicated data from the other regions.
Deduplication method.
前記データ記憶領域特定工程は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定し、
前記重複領域検出工程は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する、請求項4記載の重複排除方法。 In addition, it includes a data storage area identification step.
In the data storage area specifying step, the data storage area having the same type of operating system information is specified by using the identification information.
The deduplication method according to claim 4, wherein the duplication area detection step detects an area in which duplicate data exists from the data group having the same type of operating system information between the specified data storage areas.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019045030A JP2020149229A (en) | 2019-03-12 | 2019-03-12 | Duplicate eliminating apparatus, duplicate eliminating method, program and storage media |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019045030A JP2020149229A (en) | 2019-03-12 | 2019-03-12 | Duplicate eliminating apparatus, duplicate eliminating method, program and storage media |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2020149229A true JP2020149229A (en) | 2020-09-17 |
Family
ID=72429663
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019045030A Pending JP2020149229A (en) | 2019-03-12 | 2019-03-12 | Duplicate eliminating apparatus, duplicate eliminating method, program and storage media |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2020149229A (en) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012150803A (en) * | 2011-01-11 | 2012-08-09 | Safenet Inc | Efficient volume encryption |
JP2015501988A (en) * | 2011-12-08 | 2015-01-19 | エンパイア テクノロジー ディベロップメント エルエルシー | Storage discount to enable deduplication between users |
WO2017208450A1 (en) * | 2016-06-03 | 2017-12-07 | 株式会社日立製作所 | Storage system management device |
-
2019
- 2019-03-12 JP JP2019045030A patent/JP2020149229A/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012150803A (en) * | 2011-01-11 | 2012-08-09 | Safenet Inc | Efficient volume encryption |
JP2015501988A (en) * | 2011-12-08 | 2015-01-19 | エンパイア テクノロジー ディベロップメント エルエルシー | Storage discount to enable deduplication between users |
WO2017208450A1 (en) * | 2016-06-03 | 2017-12-07 | 株式会社日立製作所 | Storage system management device |
Non-Patent Citations (1)
Title |
---|
中島 能和, UBUNTUサーバー徹底入門, vol. 第1版, JPN6022055855, 13 June 2018 (2018-06-13), JP, pages 88 - 96, ISSN: 0005097790 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9870288B2 (en) | Container-based processing method, apparatus, and system | |
US8805788B2 (en) | Transactional virtual disk with differential snapshots | |
JP5955870B2 (en) | Method, computer readable storage medium and system for optimal compression of a virtual disk | |
US8990164B1 (en) | Systems and methods for performing incremental backups | |
US9424058B1 (en) | File deduplication and scan reduction in a virtualization environment | |
US9870151B1 (en) | Backup time deduplication of common virtual disks from virtual machine backup images | |
US8230185B2 (en) | Method for optimizing cleaning of maps in FlashCopy cascades containing incremental maps | |
US8984027B1 (en) | Systems and methods for migrating files to tiered storage systems | |
US9015417B2 (en) | Deduplication-aware page cache | |
US9354907B1 (en) | Optimized restore of virtual machine and virtual disk data | |
US11630741B2 (en) | System and method for backing up data in a load-balanced clustered environment | |
US10372547B1 (en) | Recovery-chain based retention for multi-tier data storage auto migration system | |
US9176853B2 (en) | Managing copy-on-writes to snapshots | |
US11698808B2 (en) | System and method of selectively restoring a computer system to an operational state | |
US10552089B2 (en) | Data processing for managing local and distributed storage systems by scheduling information corresponding to data write requests | |
US8578064B2 (en) | Interception and management of I/O operations on portable storage devices | |
US8572338B1 (en) | Systems and methods for creating space-saving snapshots | |
US8732427B2 (en) | Systems and methods for collapsing a derivative version of a primary storage volume | |
KR101584760B1 (en) | Method and apparatus of journaling by block group unit for ordered mode journaling file system | |
KR101996641B1 (en) | Apparatus and method for memory overlay | |
US9405709B1 (en) | Systems and methods for performing copy-on-write operations | |
US11176089B2 (en) | Systems and methods for implementing dynamic file systems | |
US9665582B2 (en) | Software, systems, and methods for enhanced replication within virtual machine environments | |
WO2024113543A1 (en) | Data processing method, system, and apparatus, non-volatile readable storage medium, and electronic device | |
US20240281163A1 (en) | Deduplication Based on Archival Schedule |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20191025 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220209 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221214 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230110 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230704 |