JP2020149229A - Duplicate eliminating apparatus, duplicate eliminating method, program and storage media - Google Patents

Duplicate eliminating apparatus, duplicate eliminating method, program and storage media Download PDF

Info

Publication number
JP2020149229A
JP2020149229A JP2019045030A JP2019045030A JP2020149229A JP 2020149229 A JP2020149229 A JP 2020149229A JP 2019045030 A JP2019045030 A JP 2019045030A JP 2019045030 A JP2019045030 A JP 2019045030A JP 2020149229 A JP2020149229 A JP 2020149229A
Authority
JP
Japan
Prior art keywords
area
data
system information
operating system
data storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2019045030A
Other languages
Japanese (ja)
Inventor
知広 猪鹿倉
Tomohiro Ikakura
知広 猪鹿倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
NEC Solution Innovators Ltd
Original Assignee
NEC Corp
NEC Solution Innovators Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp, NEC Solution Innovators Ltd filed Critical NEC Corp
Priority to JP2019045030A priority Critical patent/JP2020149229A/en
Publication of JP2020149229A publication Critical patent/JP2020149229A/en
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

To provide a duplicate eliminating apparatus capable of low-cost and short-time processing while minimizing high-load processing.SOLUTION: In a duplicate eliminating apparatus 1 of the present invention, an identification unit 11 identifies the type of operating system information based on file system information existing in a first area of a data group stored in a data storage area having identification information in a storage, a duplicate area detection unit 12 detects an area in which duplicate data exists from the data group having the same type of the operating system information in the data storage area, and a duplicate eliminating unit 13 stores the duplicate data in at least one of the areas and eliminates the duplicate data from the other areas.SELECTED DRAWING: Figure 1

Description

本発明は、重複排除装置、重複排除方法、プログラム及び記録媒体に関する。 The present invention relates to deduplication devices, deduplication methods, programs and recording media.

従来から、ストレージにおける記憶容量コストを抑制するために、重複したデータをストレージ内から排除する技術が用いられている(特許文献1)。 Conventionally, in order to suppress the storage capacity cost in storage, a technique for eliminating duplicated data from the storage has been used (Patent Document 1).

特許第4990828号公報Japanese Patent No. 4990828

しかしながら、ストレージ内の全データを比較し、データの重複を確認することは、負荷の高い処理が必要となる。そのため、低性能なハードウエアでは、前記処理に時間を要するという問題がある。一方で、処理の負荷が高くとも短時間処理を可能とする高性能なハードウエアは、コストが高いため、実装することが困難という問題がある。 However, comparing all the data in the storage and confirming the duplication of data requires a heavy processing. Therefore, in low-performance hardware, there is a problem that the processing takes time. On the other hand, high-performance hardware that enables short-time processing even if the processing load is high has a problem that it is difficult to implement because of its high cost.

そこで、本発明は、低コストで、負荷の高い処理を最小限に抑え、且つ、短時間処理を可能とする重複排除装置、重複排除方法、プログラム及び記録媒体の提供を目的とする。 Therefore, an object of the present invention is to provide a deduplication device, a deduplication method, a program, and a recording medium that can perform processing in a short time while minimizing high-load processing at low cost.

前記目的を達成するために、本発明の重複排除装置は、
特定部、重複領域検出部、及び重複排除部を含み、
前記特定部は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定し、
前記重複領域検出部は、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出し、
前記重複排除部は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する、装置である。
In order to achieve the above object, the deduplication device of the present invention is
Including a specific part, an overlapping area detection part, and a deduplication part
The specific unit identifies the type of operating system information based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage.
In the data storage area, the overlapping area detection unit detects an area in which duplicate data exists from the data group having the same type of operating system information.
The deduplication unit is a device that stores the duplication data in at least one of the regions and eliminates the duplication data from the other regions.

本発明の重複排除方法は、
特定工程、重複領域検出工程、及び重複排除工程を含み、
前記特定工程は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定し、
前記重複領域検出工程は、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出し、
前記重複排除工程は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する、方法である。
The deduplication method of the present invention
Including a specific step, a duplication region detection step, and a duplication elimination step
In the specific step, the type of operating system information is specified based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage.
The overlapping area detection step detects an area in which duplicate data exists from the data group having the same type of operating system information in the data storage area.
The deduplication step is a method of storing the duplicated data in at least one of the regions and eliminating the duplicated data from the other regions.

本発明によれば、例えば、低コストで、負荷の高い処理を最小限に抑え、且つ、短時間処理が可能となる。 According to the present invention, for example, low-cost, high-load processing can be minimized, and short-time processing can be performed.

図1は、実施形態1の装置の一例の構成を示すブロック図である。FIG. 1 is a block diagram showing a configuration of an example of the device of the first embodiment. 図2は、実施形態1の装置のハードウエア構成の一例を示すブロック図である。FIG. 2 is a block diagram showing an example of the hardware configuration of the apparatus of the first embodiment. 図3は、実施形態1の装置における処理の一例を示すフローチャートである。FIG. 3 is a flowchart showing an example of processing in the apparatus of the first embodiment. 図4は、実施形態1の装置におけるデータ群の構成の一例を示す模式図である。FIG. 4 is a schematic diagram showing an example of the configuration of the data group in the apparatus of the first embodiment. 図5は、実施形態1の装置において、ストレージが仮想化されたストレージである場合の一例を示す模式図である。FIG. 5 is a schematic diagram showing an example of a case where the storage is virtualized storage in the device of the first embodiment. 図6は、実施形態2の装置の一例の構成を示すブロック図である。FIG. 6 is a block diagram showing a configuration of an example of the device of the second embodiment. 図7は、実施形態2の装置において、データ記憶領域を特定する一例を示す模式図である。FIG. 7 is a schematic diagram showing an example of specifying a data storage area in the apparatus of the second embodiment.

本発明の装置は、さらに、データ記憶領域特定部を含み、前記データ記憶領域特定部は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定し、前記重複領域検出部は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する、という態様であってもよい。 The device of the present invention further includes a data storage area specifying unit, which identifies the data storage area having the same type of operating system information by using the identification information, and the duplication. The area detection unit may be in an embodiment in which an area in which duplicate data exists is detected from the data group having the same type of operating system information between the specified data storage areas.

本発明の装置において、前記特定部は、仮想化されたストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定する、という態様であってもよい。 In the apparatus of the present invention, the specific unit specifies the type of operating system information based on the file system information existing in the first area of the virtual disk area of the data group in the virtualized storage. There may be.

本発明の方法は、さらに、データ記憶領域特定工程を含み、前記データ記憶領域特定工程は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定し、前記重複領域検出工程は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する、という態様であってもよい。 The method of the present invention further includes a data storage area specifying step, in which the data storage area specifying step identifies the data storage area having the same type of operating system information using the identification information, and the duplication. The area detection step may be an embodiment in which an area in which duplicate data exists is detected from the data group having the same type of operating system information between the specified data storage areas.

本発明の方法において、前記特定工程は、仮想化されたストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定する、という態様であってもよい。 In the method of the present invention, the specific step identifies the type of operating system information based on the file system information existing in the first area of the virtual disk area of the data group in the virtualized storage. There may be.

本発明のプログラムは、本発明の方法をコンピュータ上で実行可能なプログラムである。 The program of the present invention is a program capable of executing the method of the present invention on a computer.

本発明の記録媒体は、本発明のプログラムを記録しているコンピュータ読み取り可能な記録媒体である。 The recording medium of the present invention is a computer-readable recording medium on which the program of the present invention is recorded.

前記重複データとは、例えば、同一種類のオペレーティングシステム(以下、OS)のOS領域、データのバックアップ及びコピー等により、同一内容を有するデータのことである。一般的に、データが重複する状況は、同じOS上で保存されている場合が多い。例えば、OS領域でデータが重複するには、同じOSを使用していることが必須である。また、例えば、前記バックアップの場合は、OSも複製されるため、同じOSとなる。さらに、例えば、前記コピーの場合は、過去のデータを保持するためコピーすることが想定されるため、同じOSとなることが想定される。 The duplicated data is data having the same contents due to, for example, an OS area of the same type of operating system (hereinafter, OS), data backup and copying, and the like. In general, the situation where data is duplicated is often saved on the same OS. For example, in order for data to be duplicated in the OS area, it is essential that the same OS is used. Further, for example, in the case of the backup, the OS is also duplicated, so that the OS is the same. Further, for example, in the case of the copy, it is assumed that the copy is performed in order to retain the past data, so that the OS is assumed to be the same.

本発明の実施形態について図を用いて説明する。本発明は、以下の実施形態には限定されない。以下の各図において、同一部分には、同一符号を付している。また、各実施形態の説明は、特に言及がない限り、互いの説明を援用でき、各実施形態の構成は、特に言及がない限り、組合せ可能である。 An embodiment of the present invention will be described with reference to the drawings. The present invention is not limited to the following embodiments. In each of the following figures, the same parts are designated by the same reference numerals. Further, the explanations of the respective embodiments can be referred to each other unless otherwise specified, and the configurations of the respective embodiments can be combined unless otherwise specified.

[実施形態1]
図1は、本実施形態の重複排除装置1の一例の構成を示すブロック図である。図1に示すように、本装置1は、特定部11、重複領域検出部12、及び重複排除部13を含む。
[Embodiment 1]
FIG. 1 is a block diagram showing a configuration of an example of the deduplication device 1 of the present embodiment. As shown in FIG. 1, the apparatus 1 includes a specific unit 11, an overlap region detection unit 12, and a deduplication unit 13.

本装置1は、例えば、前記各部を含む1つの装置でもよいし、前記各部が、通信回線網を介して接続可能な装置でもよい。また、図示していないが、本装置1は、前記通信回線網を介して、後述する外部装置と接続可能である。前記通信回線網は、特に制限されず、公知のネットワークを使用でき、例えば、有線でも無線でもよい。前記通信回線網は、例えば、インターネット回線、電話回線、LAN(Local Area Network)、WiFi(Wireless Fidelity)等があげられる。本装置1は、例えば、システムとしてサーバに組み込まれていてもよい。また、本装置1は、例えば、本発明のプログラムがインストールされた端末であってもよい。前記端末としては、特に制限されず、例えば、パーソナルコンピュータ(PC)、スマートフォン、タブレット、携帯電話等が挙げられる。 The device 1 may be, for example, one device including the above-mentioned parts, or a device in which the above-mentioned parts can be connected via a communication network. Further, although not shown, the present device 1 can be connected to an external device described later via the communication network. The communication network is not particularly limited, and a known network can be used. For example, it may be wired or wireless. Examples of the communication line network include an Internet line, a telephone line, a LAN (Local Area Network), WiFi (Wireless Fidelity), and the like. The apparatus 1 may be incorporated in the server as a system, for example. Further, the present device 1 may be, for example, a terminal in which the program of the present invention is installed. The terminal is not particularly limited, and examples thereof include a personal computer (PC), a smartphone, a tablet, and a mobile phone.

図2に、本装置1のハードウエア構成のブロック図を例示する。本装置1は、例えば、CPU(中央処理装置)101、メモリ102、バス103、記憶装置104、入力装置105、表示装置(ディスプレイ)106、通信デバイス107等を有する。本装置1は、例えば、コンピュータ100の記憶装置104に本発明のプログラム等を内蔵した装置である。コンピュータ100は、一般的なコンピュータである。本装置1の各部は、それぞれのインタフェース(I/F)により、バス103を介して相互に接続されている。 FIG. 2 illustrates a block diagram of the hardware configuration of the present device 1. The device 1 includes, for example, a CPU (central processing unit) 101, a memory 102, a bus 103, a storage device 104, an input device 105, a display device (display) 106, a communication device 107, and the like. The device 1 is, for example, a device in which the program of the present invention or the like is built in the storage device 104 of the computer 100. The computer 100 is a general computer. Each part of the apparatus 1 is connected to each other via the bus 103 by each interface (I / F).

CPU101は、本装置1の全体の制御を担う。本装置1において、CPU101により、例えば、本発明のプログラムやその他のプログラムが実行され、また、各種情報の読み込みや書き込みが行われる。なお、本発明において、CPUに代えてGPU等の他の演算装置を用いても良い。 The CPU 101 is responsible for controlling the entire device 1. In the present device 1, for example, the program of the present invention and other programs are executed by the CPU 101, and various information is read and written. In the present invention, another arithmetic unit such as a GPU may be used instead of the CPU.

バス103は、例えば、外部装置とも接続できる。前記外部装置は、例えば、後述する外部記憶装置(外部ストレージ等)、プリンター等があげられる。本装置1は、例えば、バス103に接続された通信デバイス107により、外部ネットワーク(通信回線網)3に接続でき、外部ネットワーク3を介して、前記外部装置と接続することもできる。 The bus 103 can also be connected to, for example, an external device. Examples of the external device include an external storage device (external storage and the like), a printer, and the like, which will be described later. The device 1 can be connected to the external network (communication network) 3 by the communication device 107 connected to the bus 103, and can also be connected to the external device via the external network 3.

メモリ102は、例えば、メインメモリ(主記憶装置)が挙げられる。CPU101が処理を行う際には、例えば、後述する記憶装置104に記憶されている本発明のプログラム等の種々の動作プログラムを、メモリ102が読み込み、CPU101は、メモリ102からデータを受け取って、プログラムを実行する。前記メインメモリは、例えば、RAM(ランダムアクセスメモリ)である。また、メモリ102は、例えば、ROM(読み出し専用メモリ)であってもよい。 Examples of the memory 102 include a main memory (main storage device). When the CPU 101 performs processing, for example, the memory 102 reads various operation programs such as the program of the present invention stored in the storage device 104 described later, and the CPU 101 receives data from the memory 102 and programs. To execute. The main memory is, for example, a RAM (random access memory). Further, the memory 102 may be, for example, a ROM (read-only memory).

記憶装置104は、例えば、前記メインメモリ(主記憶装置)に対して、いわゆる補助記憶装置ともいう。前述のように、記憶装置104には、本発明のプログラムを含む動作プログラムが格納されている。記憶装置104は、例えば、記憶媒体と、記憶媒体に読み書きするドライブとの組合せであってもよい。前記記憶媒体は、特に制限されず、例えば、内蔵型でも外付け型でもよく、HD(ハードディスク)、CD−ROM、CD−R、CD−RW、MO、DVD、フラッシュメモリー、メモリーカード等が挙げられる。記憶装置104は、例えば、記憶媒体とドライブとが一体化されたハードディスクドライブ(HDD)であってもよい。また、記憶装置104は、OSを格納していてもよい。 The storage device 104 is also referred to as a so-called auxiliary storage device with respect to the main memory (main storage device), for example. As described above, the storage device 104 stores an operation program including the program of the present invention. The storage device 104 may be, for example, a combination of a storage medium and a drive for reading and writing to the storage medium. The storage medium is not particularly limited, and may be an internal type or an external type, and examples thereof include HD (hard disk), CD-ROM, CD-R, CD-RW, MO, DVD, flash memory, and memory card. Be done. The storage device 104 may be, for example, a hard disk drive (HDD) in which a storage medium and a drive are integrated. Further, the storage device 104 may store the OS.

すなわち、図2において、本装置1は、本発明のプログラムをメモリ102が読み込み、CPU101が、メモリ102からデータを受け取って、本発明のプログラムを実行するコンピュータ100であるといえる。 That is, in FIG. 2, it can be said that the apparatus 1 is a computer 100 in which the memory 102 reads the program of the present invention, the CPU 101 receives data from the memory 102, and executes the program of the present invention.

本装置1は、例えば、さらに、入力装置105、ディスプレイ106を有する。入力装置105は、例えば、タッチパネル、キーボード、マウス等である。ディスプレイ106は、例えば、LEDディスプレイ、液晶ディスプレイ等が挙げられる。 The device 1 further includes, for example, an input device 105 and a display 106. The input device 105 is, for example, a touch panel, a keyboard, a mouse, or the like. Examples of the display 106 include an LED display and a liquid crystal display.

特定部11は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報(以下、OS情報ともいう)の種類を特定する。前記識別情報は、例えば、LUN(Logical Unit Number)等が挙げられる。前記データ群は、ファイルシステムにおいてファイルやディレクトリ毎の領域に情報を記録したデータである。本実施形態において、前記第1領域とは、ファイルシステム情報が存在している前記各領域のうち読み出しを開始する最先の領域のことをいう。 The identification unit 11 identifies the type of operating system information (hereinafter, also referred to as OS information) based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage. To do. Examples of the identification information include LUN (Logical Unit Number) and the like. The data group is data in which information is recorded in an area for each file or directory in the file system. In the present embodiment, the first area means the earliest area in which the file system information exists and the reading is started.

図4に、前記データ群の構成の例を示す。図4において、前記データ群は、左側からデータの読み出しを開始する。前記ファイルシステム情報は、前述のように、前記第1領域に存在する。また、前記ファイルシステム情報よりも後方(右側)に、例えば、OS情報を記録したOSファイルが存在する。さらに、前記OSファイルよりも後方(右側)に、例えば、アクティブページ(AP)情報を記録したAPファイル等の他のファイルが存在する。 FIG. 4 shows an example of the configuration of the data group. In FIG. 4, the data group starts reading data from the left side. The file system information exists in the first area as described above. Further, for example, an OS file in which OS information is recorded exists behind (on the right side) the file system information. Further, behind (on the right side) the OS file, for example, there is another file such as an AP file in which active page (AP) information is recorded.

前記ストレージは、特に制限されず、例えば、図2に示すように、記憶装置104内のストレージでもよいし、本装置1と通信回線網3によって接続された外部ストレージ2を対象としてもよい。外部ストレージ2は、特に制限されず、例えば、仮想化されたストレージでもよいし、ユーザ装置内のストレージでもよい。前記ストレージが仮想化されたストレージである場合、特定部11は、さらに、仮想化されたストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定してもよい。 The storage is not particularly limited, and for example, as shown in FIG. 2, the storage may be the storage in the storage device 104, or the external storage 2 connected to the device 1 by the communication network 3 may be targeted. The external storage 2 is not particularly limited, and may be, for example, virtualized storage or storage in the user device. When the storage is virtualized storage, the identification unit 11 further obtains operating system information based on the file system information existing in the first area of the virtual disk area of the data group in the virtualized storage. The type may be specified.

図5に基づき、前記ストレージが仮想化されたストレージである場合の例を説明する。図5(A)は、仮想サーバとストレージとの関係を示す模式図であり、図5(B)は、図5(A)の前記ストレージ内における前記データ群の構造の一例を示す模式図である。図5(A)において、各サーバは、サーバ仮想化基板上に存在する仮想サーバであり、前記各仮想サーバは、それぞれ、OSとファイルシステムを含む。なお、図5(A)において、前記各仮想サーバは、3つとしているが、同図は例示であって、これに限定されない。図5(A)に示すように、前記各仮想サーバは、仮想化されたストレージの前記データ記憶領域を共有して使用している。一方で、図5(B)に示す前記データ群は、左側からデータの読み出しを開始する。前記仮想化されたストレージ内の前記データ群は、図5(B)に示すように、前記各仮想サーバの仮想化マシン毎に、仮想ディスク領域がある。また、前記開始側の前記仮想ディスク領域よりも前記開始側の領域に仮想化基板ファイルシステム情報が存在する。前記ファイルシステム情報は、前記各仮想ディスク領域内の各領域のうち前記開始側の最先の領域(第1領域)にそれぞれ存在し、前記OSファイルは、前記ファイルシステム情報よりも後方(右側)に存在する。なお、図示していないが、前記OSファイルよりも後方に、前記他のファイルが存在していてもよい。 An example of the case where the storage is a virtualized storage will be described with reference to FIG. 5 (A) is a schematic diagram showing the relationship between the virtual server and the storage, and FIG. 5 (B) is a schematic diagram showing an example of the structure of the data group in the storage of FIG. 5 (A). is there. In FIG. 5A, each server is a virtual server existing on a server virtualization board, and each of the virtual servers includes an OS and a file system, respectively. In FIG. 5A, the number of each virtual server is three, but the figure is an example and is not limited thereto. As shown in FIG. 5A, each of the virtual servers shares and uses the data storage area of the virtualized storage. On the other hand, the data group shown in FIG. 5B starts reading data from the left side. As shown in FIG. 5B, the data group in the virtualized storage has a virtual disk area for each virtualization machine of the virtual server. Further, the virtualization board file system information exists in the area on the start side rather than the virtual disk area on the start side. The file system information exists in the earliest area (first area) on the start side of each area in each virtual disk area, and the OS file is behind (right side) of the file system information. Exists in. Although not shown, the other file may exist behind the OS file.

重複領域検出部12は、前記データ記憶領域において、同一種類の前記OS情報を有する前記データ群から、重複データが存在する領域を検出する。前記重複データとは、例えば、前述のように、同一種類のOSのOS領域、データのバックアップ及びコピー等により、同一内容を有するデータのことである。前記重複データが存在する領域を重複領域ともいう。 The overlapping area detection unit 12 detects an area in which duplicate data exists from the data group having the same type of OS information in the data storage area. The duplicated data is, for example, data having the same contents due to the OS area of the same type of OS, data backup, copy, etc., as described above. The area where the duplicated data exists is also referred to as a duplicated area.

重複排除部13は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する。前記格納する領域は1つでもよいし、2つ以上でもよい。前記格納は、例えば、複数の前記重複データを蓄積して格納してもよいし、特定の重複データのみを格納してもよい。前記特定の重複データとは、特に制限されず、例えば、最新の日時が記録されているデータ及びコピーのオリジナルデータ等が挙げられる。前記排除は、例えば、前記他の領域(すなわち、前記格納する領域以外の前記領域)から前記重複データを削除することによって、排除してもよいし、前記重複データを前記格納する領域及び外部装置等に移動することによって、排除してもよい。 The deduplication unit 13 stores the duplicated data in at least one of the regions and eliminates the duplicated data from the other regions. The storage area may be one or two or more. In the storage, for example, a plurality of the duplicated data may be accumulated and stored, or only specific duplicated data may be stored. The specific duplicated data is not particularly limited, and examples thereof include data in which the latest date and time are recorded, original data of a copy, and the like. The exclusion may be eliminated, for example, by deleting the duplicate data from the other area (that is, the area other than the storage area), or the area for storing the duplicate data and an external device. It may be eliminated by moving to or the like.

次に、本装置1における処理の一例を、図1のブロック図及び図3のフローチャートに基づき説明する。 Next, an example of the processing in the present device 1 will be described with reference to the block diagram of FIG. 1 and the flowchart of FIG.

まず、特定工程により、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定する(S1)。また、前記ストレージが仮想化されたストレージである場合、前記特定工程は、さらに、仮想化ストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定してもよい。 First, in the specific step, the type of operating system information is specified based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage (S1). Further, when the storage is virtualized storage, the specific step further obtains operating system information based on the file system information existing in the first area of the virtual disk area of the data group in the virtualized storage. The type may be specified.

つぎに、重複領域検出工程により、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する(S2)。 Next, the overlapping area detection step detects an area in which the duplicated data exists from the data group having the same type of operating system information in the data storage area (S2).

つぎに、前記重複排除工程により、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除し(S3)、終了する(END)。 Next, by the deduplication step, the duplication data is stored in at least one of the regions, and the duplication data is excluded from the other regions (S3), and the process ends (END).

本実施形態によれば、OSを特定することで、前記重複データの検出範囲を絞ることができるため、例えば、低コストのハードウエア(すなわち、低性能なハードウエア)においても、負荷の高い処理を最小限に抑え、且つ、短時間処理が可能となる。 According to the present embodiment, the detection range of the duplicated data can be narrowed down by specifying the OS, so that even low-cost hardware (that is, low-performance hardware) has a high load. Can be minimized and processed in a short time.

[実施形態2]
本実施形態は、さらに、前記ストレージ内に前記データ記憶領域が複数存在する形態である。特に示さない限り、本実施形態は、前記実施形態1の記載を援用できる。
[Embodiment 2]
In this embodiment, a plurality of the data storage areas are further present in the storage. Unless otherwise specified, the description of the first embodiment can be incorporated in the present embodiment.

図6に示すように、本装置1は、さらに、データ記憶領域特定部14を含むこと以外、実施形態1の重複排除装置1と同じである。 As shown in FIG. 6, the present device 1 is the same as the deduplication device 1 of the first embodiment except that the data storage area specifying unit 14 is further included.

図7は、前記データ記憶領域を特定する一例を示す模式図である。なお、図7は、例示であって、これに限定されない。図7において、各サーバ20(20a、20b、及び20c)は、OSとファイルシステムを含んでいる。図7において、前記OSの数字は、前記OSの種類を示し、例えば、サーバ20aのOS1とサーバ20bのOS1とは、同一種類のOS情報であることを示す。一方で、例えば、サーバ20aのOS1とサーバ20cのOS2とは、異なる種類のOS情報であることを示す。また、前記ファイルシステムの数字は、前記OSと同様に、前記ファイルシステムの種類を示す。各サーバ20は、1つのストレージ21を共有して使用している。また、ストレージ21内に、各サーバ20と紐づけられた各LUN(識別情報)を有する各データ記憶領域22(22a、22b、及び22c)が存在する。このように、前記ストレージ内に前記データ記憶領域が複数存在する場合、データ記憶領域特定部14は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定する。すなわち、データ記憶領域特定部14は、OS1を含むサーバ20a及び20bに紐づけられた前記各LUNを有するデータ記憶領域22a及び22bを特定することができる。 FIG. 7 is a schematic diagram showing an example of specifying the data storage area. Note that FIG. 7 is an example and is not limited thereto. In FIG. 7, each server 20 (20a, 20b, and 20c) includes an OS and a file system. In FIG. 7, the number of the OS indicates the type of the OS, and for example, the OS1 of the server 20a and the OS1 of the server 20b indicate the same type of OS information. On the other hand, for example, it is shown that OS1 of the server 20a and OS2 of the server 20c are different types of OS information. Further, the number of the file system indicates the type of the file system as well as the OS. Each server 20 shares and uses one storage 21. Further, in the storage 21, each data storage area 22 (22a, 22b, and 22c) having each LUN (identification information) associated with each server 20 exists. In this way, when a plurality of the data storage areas exist in the storage, the data storage area specifying unit 14 identifies the data storage area having the same type of operating system information by using the identification information. That is, the data storage area specifying unit 14 can specify the data storage areas 22a and 22b having the respective LUNs associated with the servers 20a and 20b including the OS1.

本実施形態において、重複領域検出部12は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する。すなわち、重複領域検出部12は、データ記憶領域22a及び22b間における前記データ群から、前記重複領域を検出する。 In the present embodiment, the overlapping area detection unit 12 detects an area in which duplicate data exists from the data group having the same type of operating system information between the specified data storage areas. That is, the overlapping area detection unit 12 detects the overlapping area from the data group between the data storage areas 22a and 22b.

また、本実施形態の重複排除方法は、さらに、データ記憶領域特定工程を含む。前記データ記憶領域特定工程は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定する。また、前記重複領域検出工程は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する。 In addition, the deduplication method of the present embodiment further includes a data storage area specifying step. In the data storage area specifying step, the data storage area having the same type of operating system information is specified by using the identification information. In addition, the overlapping area detection step detects an area in which duplicate data exists from the data group having the same type of operating system information between the specified data storage areas.

本実施形態の重複排除装置1によっても、実施形態1の重複排除装置1と同様に、低性能なハードウエアにおいても、負荷の高い処理を最小限に抑え、且つ、短時間処理が可能となる。 Similar to the deduplication device 1 of the first embodiment, the deduplication device 1 of the present embodiment also enables low-performance hardware to minimize high-load processing and to perform short-time processing. ..

[実施形態3]
本実施形態のプログラムは、実施形態1及び2の重複排除方法を、コンピュータ上で実行可能なプログラムである。また、本実施形態のプログラムは、例えば、コンピュータ読み取り可能な記録媒体に記録されていてもよい。前記記録媒体としては、特に限定されず、例えば、読み出し専用メモリ(ROM)、ハードディスク(HD)、光ディスク等が挙げられる。
[Embodiment 3]
The program of the present embodiment is a program capable of executing the deduplication method of the first and second embodiments on a computer. Further, the program of the present embodiment may be recorded on a computer-readable recording medium, for example. The recording medium is not particularly limited, and examples thereof include a read-only memory (ROM), a hard disk (HD), and an optical disk.

以上、実施形態を参照して本発明を説明したが、本発明は、上記実施形態に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。 Although the present invention has been described above with reference to the embodiments, the present invention is not limited to the above embodiments. Various changes that can be understood by those skilled in the art can be made to the structure and details of the present invention within the scope of the present invention.

本発明によれば、例えば、低コストで、負荷の高い処理を最小限に抑え、且つ、短時間処理を可能とする。このため、本発明は、例えば、低性能なハードウエアを使用してデータの重複排除を行う場合に、特に有用である。 According to the present invention, for example, low-cost, high-load processing can be minimized, and short-time processing can be performed. For this reason, the present invention is particularly useful when, for example, data deduplication is performed using low performance hardware.

1 重複排除装置
2 外部ストレージ
3 通信回線網
11 特定部
12 重複領域検出部
13 重複排除部
14 データ記憶領域特定部
20(20a、20b、20c) サーバ
21 ストレージ
22(22a、22b、22c) データ記憶領域
100 コンピュータ
101 CPU
102 メモリ
103 バス
104 記憶装置
105 入力装置
106 ディスプレイ
107 通信デバイス
1 Deduplication device 2 External storage 3 Communication network 11 Specific unit 12 Overlapping area detection unit 13 Deduplication unit 14 Data storage area identification unit 20 (20a, 20b, 20c) Server 21 Storage 22 (22a, 22b, 22c) Data storage Area 100 Computer 101 CPU
102 Memory 103 Bus 104 Storage device 105 Input device 106 Display 107 Communication device

Claims (8)

特定部、重複領域検出部、及び重複排除部を含み、
前記特定部は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定し、
前記重複領域検出部は、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出し、
前記重複排除部は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する、重複排除装置。
Including a specific part, an overlapping area detection part, and a deduplication part
The specific unit identifies the type of operating system information based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage.
In the data storage area, the overlapping area detection unit detects an area in which duplicate data exists from the data group having the same type of operating system information.
The deduplication unit is a deduplication device that stores the duplication data in at least one of the regions and eliminates the duplication data from the other regions.
さらに、データ記憶領域特定部を含み、
前記データ記憶領域特定部は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定し、
前記重複領域検出部は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する、請求項1記載の重複排除装置。
In addition, it includes a data storage area identification unit.
The data storage area identification unit identifies the data storage area having the same type of operating system information by using the identification information.
The deduplication device according to claim 1, wherein the duplication area detection unit detects an area in which duplicate data exists from the data group having the same type of operating system information between the specified data storage areas.
前記特定部は、仮想化されたストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定する、請求項1または2記載の重複排除装置。 The deduplication according to claim 1 or 2, wherein the specific unit specifies the type of operating system information based on the file system information existing in the first area of the virtual disk area of the data group in the virtualized storage. apparatus. 特定工程、重複領域検出工程、及び重複排除工程を含み、
前記特定工程は、ストレージ内において識別情報を有するデータ記憶領域に格納されているデータ群の第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定し、
前記重複領域検出工程は、前記データ記憶領域において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出し、
前記重複排除工程は、前記重複データを少なくとも1つの前記領域に格納し、且つ、前記重複データを他の領域から排除する、
重複排除方法。
Including a specific step, a duplication region detection step, and a duplication elimination step
In the specific step, the type of operating system information is specified based on the file system information existing in the first area of the data group stored in the data storage area having the identification information in the storage.
The overlapping area detection step detects an area in which duplicate data exists from the data group having the same type of operating system information in the data storage area.
The deduplication step stores the duplicated data in at least one of the regions and eliminates the duplicated data from the other regions.
Deduplication method.
さらに、データ記憶領域特定工程を含み、
前記データ記憶領域特定工程は、同一種類の前記オペレーティングシステム情報を有する前記データ記憶領域を、前記識別情報を用いて特定し、
前記重複領域検出工程は、前記特定されたデータ記憶領域間において、同一種類の前記オペレーティングシステム情報を有する前記データ群から、重複データが存在する領域を検出する、請求項4記載の重複排除方法。
In addition, it includes a data storage area identification step.
In the data storage area specifying step, the data storage area having the same type of operating system information is specified by using the identification information.
The deduplication method according to claim 4, wherein the duplication area detection step detects an area in which duplicate data exists from the data group having the same type of operating system information between the specified data storage areas.
前記特定工程は、仮想化されたストレージ内において前記データ群の仮想ディスク領域における第1領域に存在するファイルシステム情報に基づき、オペレーティングシステム情報の種類を特定する、請求項4または5記載の重複排除方法。 The deduplication according to claim 4 or 5, wherein the specific step specifies the type of operating system information based on the file system information existing in the first area of the virtual disk area of the data group in the virtualized storage. Method. 請求項4から6のいずれか一項に記載の方法をコンピュータ上で実行可能なプログラム。 A program capable of executing the method according to any one of claims 4 to 6 on a computer. 請求項7記載のプログラムを記録しているコンピュータ読み取り可能な記録媒体。 A computer-readable recording medium on which the program according to claim 7 is recorded.
JP2019045030A 2019-03-12 2019-03-12 Duplicate eliminating apparatus, duplicate eliminating method, program and storage media Pending JP2020149229A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019045030A JP2020149229A (en) 2019-03-12 2019-03-12 Duplicate eliminating apparatus, duplicate eliminating method, program and storage media

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019045030A JP2020149229A (en) 2019-03-12 2019-03-12 Duplicate eliminating apparatus, duplicate eliminating method, program and storage media

Publications (1)

Publication Number Publication Date
JP2020149229A true JP2020149229A (en) 2020-09-17

Family

ID=72429663

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019045030A Pending JP2020149229A (en) 2019-03-12 2019-03-12 Duplicate eliminating apparatus, duplicate eliminating method, program and storage media

Country Status (1)

Country Link
JP (1) JP2020149229A (en)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150803A (en) * 2011-01-11 2012-08-09 Safenet Inc Efficient volume encryption
JP2015501988A (en) * 2011-12-08 2015-01-19 エンパイア テクノロジー ディベロップメント エルエルシー Storage discount to enable deduplication between users
WO2017208450A1 (en) * 2016-06-03 2017-12-07 株式会社日立製作所 Storage system management device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150803A (en) * 2011-01-11 2012-08-09 Safenet Inc Efficient volume encryption
JP2015501988A (en) * 2011-12-08 2015-01-19 エンパイア テクノロジー ディベロップメント エルエルシー Storage discount to enable deduplication between users
WO2017208450A1 (en) * 2016-06-03 2017-12-07 株式会社日立製作所 Storage system management device

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
中島 能和, UBUNTUサーバー徹底入門, vol. 第1版, JPN6022055855, 13 June 2018 (2018-06-13), JP, pages 88 - 96, ISSN: 0005097790 *

Similar Documents

Publication Publication Date Title
US9870288B2 (en) Container-based processing method, apparatus, and system
US8805788B2 (en) Transactional virtual disk with differential snapshots
JP5955870B2 (en) Method, computer readable storage medium and system for optimal compression of a virtual disk
US8990164B1 (en) Systems and methods for performing incremental backups
US9424058B1 (en) File deduplication and scan reduction in a virtualization environment
US9870151B1 (en) Backup time deduplication of common virtual disks from virtual machine backup images
US8230185B2 (en) Method for optimizing cleaning of maps in FlashCopy cascades containing incremental maps
US8984027B1 (en) Systems and methods for migrating files to tiered storage systems
US9015417B2 (en) Deduplication-aware page cache
US9354907B1 (en) Optimized restore of virtual machine and virtual disk data
US11630741B2 (en) System and method for backing up data in a load-balanced clustered environment
US10372547B1 (en) Recovery-chain based retention for multi-tier data storage auto migration system
US9176853B2 (en) Managing copy-on-writes to snapshots
US11698808B2 (en) System and method of selectively restoring a computer system to an operational state
US10552089B2 (en) Data processing for managing local and distributed storage systems by scheduling information corresponding to data write requests
US8578064B2 (en) Interception and management of I/O operations on portable storage devices
US8572338B1 (en) Systems and methods for creating space-saving snapshots
US8732427B2 (en) Systems and methods for collapsing a derivative version of a primary storage volume
KR101584760B1 (en) Method and apparatus of journaling by block group unit for ordered mode journaling file system
KR101996641B1 (en) Apparatus and method for memory overlay
US9405709B1 (en) Systems and methods for performing copy-on-write operations
US11176089B2 (en) Systems and methods for implementing dynamic file systems
US9665582B2 (en) Software, systems, and methods for enhanced replication within virtual machine environments
WO2024113543A1 (en) Data processing method, system, and apparatus, non-volatile readable storage medium, and electronic device
US20240281163A1 (en) Deduplication Based on Archival Schedule

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20191025

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221214

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230110

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230704