JP2019016293A - Information processing device, deduplication rate determination method and deduplication rate determination program - Google Patents

Information processing device, deduplication rate determination method and deduplication rate determination program Download PDF

Info

Publication number
JP2019016293A
JP2019016293A JP2017134894A JP2017134894A JP2019016293A JP 2019016293 A JP2019016293 A JP 2019016293A JP 2017134894 A JP2017134894 A JP 2017134894A JP 2017134894 A JP2017134894 A JP 2017134894A JP 2019016293 A JP2019016293 A JP 2019016293A
Authority
JP
Japan
Prior art keywords
deduplication
duplication
virtual storage
total number
calculation unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017134894A
Other languages
Japanese (ja)
Other versions
JP6888446B2 (en
Inventor
和彦 臼井
Kazuhiko Usui
和彦 臼井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2017134894A priority Critical patent/JP6888446B2/en
Publication of JP2019016293A publication Critical patent/JP2019016293A/en
Application granted granted Critical
Publication of JP6888446B2 publication Critical patent/JP6888446B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

To provide an information processing device capable of calculating the deduplication rate when multiple pools are integrated for allowing a user to estimate in advance the size of a physical area required after the integration.SOLUTION: A deduplication rate determination part 4a of a CM (Controller Module) 4 comprises: a duplication number calculation part 41; and a deduplication rate calculation part 42. The duplication number calculation part 41 is configured to calculate the deduplication number of unit data in two pools and the total number of reference count of the two pools. The deduplication rate calculation part 42 is configured to calculate the deduplication rate by using the deduplication number and the total number of the reference count.SELECTED DRAWING: Figure 2

Description

本発明は、情報処理装置、重複除去率特定方法及び重複除去率特定プログラムに関する。   The present invention relates to an information processing apparatus, a duplicate removal rate specifying method, and a duplicate removal rate specifying program.

ストレージ装置では、同一データを格納しないようにする重複除去機能によりディスク容量の削減を行っている。重複除去は、シン・プロビジョニング・プール(Thin Provisioning Pool)毎に行われる。ここで、シン・プロビジョニング・プールは、シン・プロビジョニングによりデータが格納された物理領域である。なお、以下の説明では、シン・プロビジョニング・プールを単にプールと呼ぶ。   In the storage apparatus, the disk capacity is reduced by a deduplication function that prevents the same data from being stored. Deduplication is performed for each thin provisioning pool. Here, the thin provisioning pool is a physical area in which data is stored by thin provisioning. In the following description, the thin provisioning pool is simply referred to as a pool.

ストレージ装置は、所定の大きさの単位データをSHA−1機能を用いてハッシュ化し、20バイトのハッシュ値にしてメインメモリ上に記憶する。ここで、SHA−1は、ハッシュ関数である。また、ストレージ装置は、単位データをディスクに記憶する。   The storage apparatus hashes the unit data of a predetermined size using the SHA-1 function, and stores it as a 20-byte hash value on the main memory. Here, SHA-1 is a hash function. The storage device also stores unit data on the disk.

単位データの更新が行われると、ストレージ装置は、SHA−1機能を用いてハッシュ化し、20バイトのハッシュ値にして、既存のハッシュ値と同じものがあるかを検索することで、同一データがあるか否かを判定する。   When the unit data is updated, the storage apparatus performs hashing using the SHA-1 function, makes a hash value of 20 bytes, and searches for the same hash value as the existing hash value. It is determined whether or not there is.

同一のハッシュ値が見つからなければ、ストレージ装置は、ハッシュ値をメインメモリ上に記憶し、更新後の単位データをディスクに記憶する。一方、同一のハッシュ値が見つかれば、ストレージ装置は、ハッシュ値に対応付けられたリファレンスカウントを1増加する。リファレンスカウントは、ハッシュ値に対応する単位データのプール内の数である。   If the same hash value is not found, the storage device stores the hash value on the main memory, and stores the updated unit data on the disk. On the other hand, if the same hash value is found, the storage apparatus increments the reference count associated with the hash value by one. The reference count is the number in the pool of unit data corresponding to the hash value.

なお、データの重複除去のためにデータの同一性を調べる技術に関連して、テキストを分類する技術がある。この技術は、与えられたテキストに対してテキスト間の含意認識を行い、個々のテキストを選択し、選択したテキストを含意するテキストをメンバとするグループを生成し、グループ間のメンバ重複度合いに基づく所定の条件を満たす場合にグループを統合する。この技術によれば、複数のテキストを、概観を把握可能なグループに分類することができ、また、含意関係があると判定されなくても意味的に含意関係があるテキスト同士を同じグループに分類することができる。   In addition, there is a technique for classifying texts in connection with a technique for checking the identity of data in order to eliminate duplication of data. This technology recognizes implications between texts for a given text, selects individual texts, generates a group whose text entails the selected text, and based on the degree of member overlap between the groups. Merge groups when certain conditions are met. According to this technology, it is possible to classify multiple texts into groups that allow an overview, and classify texts that have semantic implications into the same group even if they are not determined to have implications. can do.

また、ユーザへのストレージ装置の割り当てに関連して、複数のストレージ装置を含んだ階層構造を持つストレージシステムにおいて、ユーザ毎のストレージ資源使用容量を効率的にかつ公平に管理する技術がある。この技術は、ストレージコスト係数とユーザコスト分配情報から、各ユーザについて各ストレージ装置の理想的な使用容量分配を表す情報である理想使用量を算出し、各ユーザについて、各ストレージ装置に、性能の高いものから順に理想使用量を割り当てる。   In addition, there is a technique for efficiently and fairly managing the storage resource usage capacity for each user in a storage system having a hierarchical structure including a plurality of storage devices in relation to the allocation of storage devices to users. This technology calculates the ideal usage amount, which is information representing the ideal usage capacity distribution of each storage device for each user, from the storage cost coefficient and user cost distribution information. The ideal usage is allocated in order from the highest.

特許第6008067号公報Japanese Patent No. 6008067 特表2012−516479号公報Special table 2012-516479 gazette

複数のプールを用いて業務運用を行っている場合に、複数のプールを統合したい場合がある。しかしながら、複数のプール間にはデータの重複がある可能性があるため、統合後に必要となる物理領域の大きさを予め見積もることができないという問題がある。なお、実際に複数のプールのデータを読み込んでハッシュ値を計算し、重複を判定することで、統合後に必要となる物理領域の大きさを算出することはできるが、処理に時間がかかる。   When business operations are performed using multiple pools, it may be desirable to integrate multiple pools. However, there is a possibility that data may be duplicated between a plurality of pools, and thus there is a problem that the size of a physical area required after integration cannot be estimated in advance. Note that it is possible to calculate the size of the physical area required after integration by actually reading data from a plurality of pools, calculating hash values, and determining duplication, but processing takes time.

本発明は、1つの側面では、統合後に必要となる物理領域の大きさを予め見積もるために、複数のプールを統合した場合の重複除去率を効率良く算出することを目的とする。   In one aspect, an object of the present invention is to efficiently calculate a deduplication rate when a plurality of pools are integrated in order to estimate in advance the size of a physical area required after integration.

1つの態様では、情報処理装置は、第1算出部と第2算出部とを有する。第1算出部は、所定の大きさの単位データについて2つの仮想ストレージプール間の重複数と該2つの仮想ストレージプールに含まれる単位データの総数を算出する。第2算出部は、第1算出部により算出された重複数と総数を用いて重複除去率を算出する。   In one aspect, the information processing apparatus includes a first calculation unit and a second calculation unit. The first calculation unit calculates the overlap between two virtual storage pools and the total number of unit data included in the two virtual storage pools for unit data of a predetermined size. The second calculation unit calculates an overlap removal rate using the overlap number and the total number calculated by the first calculation unit.

1つの側面では、本発明は、複数のプールを統合した場合の重複除去率を効率良く算出することができる。   In one aspect, the present invention can efficiently calculate the deduplication rate when a plurality of pools are integrated.

図1は、実施例に係る情報処理システムのハードウェア構成を示す図である。FIG. 1 is a diagram illustrating a hardware configuration of the information processing system according to the embodiment. 図2は、CMの機能構成を示す図である。FIG. 2 is a diagram illustrating a functional configuration of the CM. 図3は、ハッシュテーブルの一例を示す図である。FIG. 3 is a diagram illustrating an example of a hash table. 図4は、他のCMからのハッシュ値とリファレンスカウントの取得を説明するための図である。FIG. 4 is a diagram for explaining the acquisition of hash values and reference counts from other CMs. 図5は、重複除去率算出処理のフローを示すフローチャートである。FIG. 5 is a flowchart showing the flow of the deduplication rate calculation process. 図6は、重複数算出処理のフローを示すフローチャートである。FIG. 6 is a flowchart showing a flow of the duplication number calculation process.

以下に、本願の開示する情報処理装置、重複除去率特定方法及び重複除去率特定プログラムの実施例を図面に基づいて詳細に説明する。なお、この実施例は開示の技術を限定するものではない。   Embodiments of an information processing apparatus, a duplicate removal rate specifying method, and a duplicate removal rate specifying program disclosed in the present application will be described below in detail with reference to the drawings. Note that this embodiment does not limit the disclosed technology.

まず、実施例に係る情報処理システムのハードウェア構成について説明する。図1は、実施例に係る情報処理システムのハードウェア構成を示す図である。図1に示すように、実施例に係る情報処理システム1は、ホスト2と、ストレージ装置3とを有する。ホスト2は、ストレージ装置3を使用して情報処理を行う。ストレージ装置3は、ホスト2が使用するデータを記憶する。   First, the hardware configuration of the information processing system according to the embodiment will be described. FIG. 1 is a diagram illustrating a hardware configuration of the information processing system according to the embodiment. As illustrated in FIG. 1, the information processing system 1 according to the embodiment includes a host 2 and a storage device 3. The host 2 performs information processing using the storage device 3. The storage device 3 stores data used by the host 2.

ストレージ装置3は、CM(Controller Module)4と、ボリューム記憶装置9とを有する。CM4は、ストレージ装置3を制御する制御装置であるとともに、情報処理を行う情報処理装置でもある。ボリューム記憶装置9は、複数のボリューム9aを記憶する。ボリューム記憶装置9は、例えば、複数台のHDD(Hard Disk Drive)、SSD(Solid State Drive)である。   The storage device 3 has a CM (Controller Module) 4 and a volume storage device 9. The CM 4 is a control device that controls the storage device 3 and an information processing device that performs information processing. The volume storage device 9 stores a plurality of volumes 9a. The volume storage device 9 is, for example, a plurality of HDDs (Hard Disk Drives) and SSDs (Solid State Drives).

CM4は、CA(Channel Adapter)5と、CPU6(Central Processing Unit)と、メインメモリ7と、2つのFC(Fiber Channel)8とを有する。   The CM 4 includes a CA (Channel Adapter) 5, a CPU 6 (Central Processing Unit), a main memory 7, and two FC (Fiber Channel) 8.

CA5は、ホスト2とのインタフェースである。CPU6は、メインメモリ7からプログラムを読み出して実行する中央処理装置である。メインメモリ7は、プログラムやプログラムの実行途中結果などを記憶するRAM(Random Access Memory)である。FC8は、ボリューム記憶装置9とのインタフェースである。FC8は、冗長化される。   The CA 5 is an interface with the host 2. The CPU 6 is a central processing unit that reads a program from the main memory 7 and executes it. The main memory 7 is a RAM (Random Access Memory) that stores programs, results of program execution, and the like. The FC 8 is an interface with the volume storage device 9. FC8 is made redundant.

なお、ここでは説明の便宜上、1台のストレージ装置3のみを示したが、情報処理システム1は、複数のストレージ装置3を有してよい。また、ストレージ装置3は、複数のCM4を有してよい。   Although only one storage device 3 is shown here for convenience of explanation, the information processing system 1 may include a plurality of storage devices 3. Further, the storage device 3 may have a plurality of CMs 4.

次に、CM4の機能構成について説明する。図2は、CM4の機能構成を示す図である。図2に示すように、CM4は、重複除去率特定部4aを有する。重複除去率特定部4aは、以下の式(1)を用いて2つのプールの間の重複除去率を特定する。

Figure 2019016293
Next, the functional configuration of CM4 will be described. FIG. 2 is a diagram showing a functional configuration of CM4. As illustrated in FIG. 2, the CM 4 includes an overlap removal rate specifying unit 4a. The deduplication rate specifying unit 4a specifies the deduplication rate between the two pools using the following equation (1).
Figure 2019016293

ここで、総物理使用量は、2つのプールの物理使用量を足したサイズである。リファレンスカウントの総数は、2つのプールのリファレンスカウントを足した数である。チャンクサイズは、重複除去の単位である単位データのサイズであり、例えば4キロバイト(KB)である。   Here, the total physical usage is a size obtained by adding the physical usage of the two pools. The total number of reference counts is the number obtained by adding the reference counts of the two pools. The chunk size is the size of unit data that is a unit of deduplication, and is, for example, 4 kilobytes (KB).

重複除去率は、統合後の物理使用量((総物理使用量)−(重複するハッシュ値の数)×(チャンクサイズ))と論理使用量((リファレンスカウントの総数)×(チャンクサイズ))の比率に基づく値である。統合後の物理使用量は、2つのプール間で重複する部分のサイズ((重複するハッシュ値の数)×(チャンクサイズ))が(総物理使用量)から引かれている。   Deduplication rate is the combined physical usage ((total physical usage)-(number of duplicate hash values) x (chunk size)) and logical usage ((total number of reference counts) x (chunk size)) It is a value based on the ratio of. The physical usage after integration is subtracted from (total physical usage) the size of the overlapping portion between the two pools ((number of overlapping hash values) × (chunk size)).

重複除去率特定部4aは、ユーザが例えばキーボードやマウスを用いて入力した2つのプールの識別子を受け付けて、2つのプールを統合した場合の重複除去率を特定し、特定した重複除去率を2つのプールを統合した場合に必要な物理使用量とともに出力する。重複除去率特定部4aは、記憶部40と、重複数算出部41と、重複除去率算出部42と、通信部43とを有する。   The deduplication rate specifying unit 4a receives the identifiers of two pools input by the user using, for example, a keyboard or a mouse, specifies the deduplication rate when the two pools are integrated, and sets the specified deduplication rate to 2 Output together with the physical usage required when two pools are combined. The duplicate removal rate specifying unit 4 a includes a storage unit 40, a duplicate number calculation unit 41, a duplicate removal rate calculation unit 42, and a communication unit 43.

記憶部40は、ハッシュテーブルの情報を記憶する。また、記憶部40には、重複除去率を算出する際に一時的に用いられるデータを記憶する領域、他のCM4との通信に用いられるバッファ等が含まれる。   The storage unit 40 stores hash table information. Further, the storage unit 40 includes an area for storing data temporarily used when calculating the deduplication rate, a buffer used for communication with other CMs 4 and the like.

図3は、ハッシュテーブルの一例を示す図である。図3に示すように、ハッシュテーブルは、ハッシュ値にLUN(Logical Unit No)、LBA(Logical Block Address)、リファレンスカウントを対応付けるテーブルである。ハッシュ値に対応する単位データのストレージ装置3での格納場所はLUNとLBAの組合せで特定される。   FIG. 3 is a diagram illustrating an example of a hash table. As shown in FIG. 3, the hash table is a table that associates a LUN (Logical Unit No), an LBA (Logical Block Address), and a reference count with a hash value. The storage location of the unit data corresponding to the hash value in the storage apparatus 3 is specified by a combination of LUN and LBA.

例えば、ハッシュ値が「h」である単位データは、ストレージ装置3のLUNが「l」、LBAが「a」である位置に格納され、プール内に同じ単位データが「n」個ある。   For example, unit data whose hash value is “h” is stored at a location where the LUN of the storage apparatus 3 is “1” and LBA is “a”, and there are “n” same unit data in the pool.

重複数算出部41は、重複数すなわち2つのプール間で重複するハッシュ値の数とリファレンスカウントの総数とを2つのプールのハッシュテーブルを用いて計算する。具体的には、重複数算出部41は、第1のハッシュテーブルのハッシュ値が第2のハッシュテーブルに存在するか否かを判定し、存在する場合には、重複数を1増加する(1)。また、重複数算出部41は、第1のハッシュテーブルのハッシュ値をリファレンスカウントの総数に加える(2)。重複数算出部41は、上記(1)、(2)の処理を第1のハッシュテーブルの全ハッシュ値に対して行う。また、重複数算出部41は、リファレンスカウントの総数に第2のハッシュテーブルの全リファレンスカウントを加える処理を別途行う。   The duplication number calculation unit 41 calculates the duplication number, that is, the number of hash values that overlap between two pools and the total number of reference counts using the hash tables of the two pools. Specifically, the duplication number calculation unit 41 determines whether or not the hash value of the first hash table exists in the second hash table, and if it exists, the duplication number is incremented by 1 (1 ). Also, the duplication number calculation unit 41 adds the hash value of the first hash table to the total number of reference counts (2). The duplicate calculation unit 41 performs the processes (1) and (2) on all the hash values in the first hash table. In addition, the duplication number calculation unit 41 separately performs a process of adding all the reference counts of the second hash table to the total number of reference counts.

重複除去率算出部42は、重複数算出部41により計算された重複数とリファレンスカウントの総数とを用いて重複除去率を計算する。そして、重複除去率算出部42は、計算した重複除去率を2つのプールを統合した場合に必要な物理使用量とともに出力する。重複除去率算出部42は、例えば、2つのプールを統合した場合に必要な物理使用量と重複除去率をストレージ装置3の表示装置に表示する。   The duplication removal rate calculation unit 42 calculates the duplication removal rate using the duplication number calculated by the duplication number calculation unit 41 and the total number of reference counts. Then, the deduplication rate calculation unit 42 outputs the calculated deduplication rate together with the physical usage required when the two pools are integrated. The deduplication rate calculation unit 42 displays, for example, the physical usage amount and deduplication rate required when two pools are integrated on the display device of the storage apparatus 3.

通信部43は、統合される2つのプールが異なるCM4により制御される場合に、他のCM4からハッシュテーブルに登録されたハッシュ値とリファレンスカウントを取得する。また、通信部43は、他のCM4からハッシュテーブルに登録されたハッシュ値とリファレンスカウントの取得要求を受信すると、ハッシュ値とリファレンスカウントを送信する。   When the two pools to be integrated are controlled by different CMs 4, the communication unit 43 acquires a hash value and a reference count registered in the hash table from the other CMs 4. When the communication unit 43 receives a hash value and reference count acquisition request registered in the hash table from another CM 4, the communication unit 43 transmits the hash value and the reference count.

図4は、他のCM4からのハッシュ値とリファレンスカウントの取得を説明するための図である。図4は、CM#1がプール#1を制御し、CM#2がプール#2を制御し、プール#1とプール#2が統合される場合を示す。また、CM#2の通信部43がプール#1のハッシュテーブルの情報を取得する。   FIG. 4 is a diagram for explaining acquisition of a hash value and a reference count from another CM 4. FIG. 4 shows a case where CM # 1 controls pool # 1, CM # 2 controls pool # 2, and pool # 1 and pool # 2 are integrated. In addition, the communication unit 43 of CM # 2 acquires information on the hash table of pool # 1.

図4に示すように、CM#2の通信部43は、プール#1のハッシュ値とリファレンスカウントを記憶するためのバッファを用意する。そして、CM#2の通信部43は、プール#1のハッシュ値とリファレンスカウントを取得するために、取得位置情報を付与して取得要求を発行する(1)。ここで、取得位置情報は、例えば、リファレンステーブルのp番目からq個といった情報である。   As shown in FIG. 4, the communication unit 43 of CM # 2 prepares a buffer for storing the hash value and reference count of pool # 1. Then, the communication unit 43 of the CM # 2 issues an acquisition request with the acquisition position information added thereto in order to acquire the hash value and the reference count of the pool # 1 (1). Here, the acquisition position information is, for example, information from p-th to q-th reference table.

CM#1の通信部43は、取得要求を受信すると、プール#1のハッシュテーブルから取得位置情報に基づきハッシュ値とリファレンスカウントを読み出してCM#2へ送信する(2)。そして、CM#2の通信部43は、送信されたハッシュ値とリファレンスカウントを受信してバッファに格納する。   When receiving the acquisition request, the CM # 1 communication unit 43 reads the hash value and the reference count from the hash table of the pool # 1 based on the acquisition position information, and transmits the hash value and the reference count to the CM # 2 (2). Then, the communication unit 43 of CM # 2 receives the transmitted hash value and reference count and stores them in the buffer.

CM#2の重複数算出部41は、CM#2にあるプール#2のハッシュテーブルとバッファに格納されたハッシュ値とリファレンスカウントを用いて重複数とリファレンスカウントの総数を計算する。バッファに格納されたハッシュ値とリファレンスカウントが全て処理されると、CM#2の通信部43は、取得位置情報を付与して取得要求を発行する。   The duplication number calculation unit 41 of CM # 2 calculates the total number of duplication numbers and reference counts using the hash value and reference count stored in the buffer of the pool # 2 in CM # 2 and the buffer. When all the hash values and the reference count stored in the buffer are processed, the communication unit 43 of CM # 2 issues an acquisition request with the acquisition position information.

なお、重複除去率特定部4aは、同様の機能を有する重複除去率特定プログラムが図1に示したメインメモリ7から読み出されてCPU6によって実行されることによって実現される。重複除去率特定プログラムは、CM4により読み出し可能な記録媒体の一例であるCD−R(Compact Disc)に記憶され、CD−Rから読み出されてボリューム記憶装置9に格納される。あるいは、重複除去率特定プログラムは、ネットワークを介して接続されたコンピュータシステムのデータベース等に記憶され、これらのデータベースから読み出されてボリューム記憶装置9に格納される。ボリューム記憶装置9に格納された重複除去率特定プログラムは、メインメモリ7に読み出されてCPU6によって実行される。   The deduplication rate specifying unit 4a is realized by reading a deduplication rate specifying program having the same function from the main memory 7 shown in FIG. The duplicate removal rate specifying program is stored in a CD-R (Compact Disc) which is an example of a recording medium readable by the CM 4, read from the CD-R, and stored in the volume storage device 9. Alternatively, the deduplication rate specifying program is stored in a database or the like of a computer system connected via a network, read from these databases, and stored in the volume storage device 9. The deduplication rate specifying program stored in the volume storage device 9 is read into the main memory 7 and executed by the CPU 6.

次に、重複除去率算出処理のフローについて説明する。図5は、重複除去率算出処理のフローを示すフローチャートである。図5に示すように、重複除去率算出部42は、記憶部40に、情報を一時的に記憶するための各種領域を確保する(ステップS1)。   Next, the flow of the duplicate removal rate calculation process will be described. FIG. 5 is a flowchart showing the flow of the deduplication rate calculation process. As shown in FIG. 5, the deduplication rate calculation unit 42 secures various areas for temporarily storing information in the storage unit 40 (step S1).

そして、重複除去率算出部42は、重複数算出部41に依頼して、重複数とリファレンスカウントの総数を算出する重複数算出処理を実行させる(ステップS2)。そして、重複除去率算出部42は、プール#1とプール#2の物理使用量を取得し(ステップS3)、重複除去率を計算する(ステップS4)。   Then, the duplication removal rate calculation unit 42 requests the duplication number calculation unit 41 to execute duplication number calculation processing for calculating the total number of duplication numbers and reference counts (step S2). Then, the duplicate removal rate calculation unit 42 acquires the physical usage amounts of the pool # 1 and the pool # 2 (step S3), and calculates the duplicate removal rate (step S4).

そして、重複除去率算出部42は、必要な物理使用量と重複除去率を出力し(ステップS5)、情報を一時的に記憶するために確保した各種領域を解放する(ステップS6)。   The deduplication rate calculation unit 42 then outputs the necessary physical usage and deduplication rate (step S5), and releases various areas reserved for temporarily storing information (step S6).

このように、重複除去率算出部42が重複数、リファレンスカウントの総数、プール#1とプール#2の物理使用量を用いて重複除去率を算出して出力するので、ユーザは、2つのプールの統合後に必要となる物理使用量を知ることができる。   In this way, since the deduplication rate calculation unit 42 calculates and outputs the deduplication rate using the duplication number, the total number of reference counts, and the physical usage of the pool # 1 and the pool # 2, the user can create two pools You can know the physical usage required after integration.

次に、重複数算出処理のフローについて説明する。図6は、重複数算出処理のフローを示すフローチャートである。図6に示すように、重複数算出部41は、重複数とリファレンスカウントの総数を0で初期化する(ステップS21)。   Next, the flow of the overlapping number calculation process will be described. FIG. 6 is a flowchart showing a flow of the duplication number calculation process. As shown in FIG. 6, the duplication number calculation unit 41 initializes the duplication number and the total number of reference counts to 0 (step S21).

そして、重複数算出部41は、プール#1の先頭のハッシュ値とリファレンスカウントを取得する(ステップS22)。そして、重複数算出部41は、取得したハッシュ値がプール#2のハッシュテーブルに存在するか否かを判定し(ステップS23)、存在する場合には、重複数をインクリメントする(ステップS24)。   Then, the duplication number calculation unit 41 acquires the first hash value and the reference count of the pool # 1 (step S22). Then, the duplication number calculation unit 41 determines whether or not the acquired hash value exists in the hash table of the pool # 2 (step S23), and if it exists, increments the duplication number (step S24).

そして、重複数算出部41は、プール#1のリファレンスカウントをリファレンスカウントの総数に加算する(ステップS25)。そして、重複数算出部41は、プール#1の先頭のハッシュ値の検索だった場合、プール#2の全リファレンスカウントをリファレンスカウントの総数に加算する(ステップS26)。   Then, the duplication number calculation unit 41 adds the reference count of the pool # 1 to the total number of reference counts (step S25). Then, when the search is for the first hash value of the pool # 1, the duplication number calculation unit 41 adds the total reference count of the pool # 2 to the total number of reference counts (step S26).

そして、重複数算出部41は、プール#1の全てのハッシュ値を処理したか否かを判定し(ステップS27)、プール#1の全てのハッシュ値を処理した場合には、処理を終了する。一方、プール#1に処理していないハッシュ値がある場合には、重複数算出部41は、プール#1の次のハッシュ値とリファレンスカウントを取得し(ステップS28)、ステップS23に戻る。   Then, the duplication number calculation unit 41 determines whether or not all the hash values of the pool # 1 have been processed (step S27), and when all the hash values of the pool # 1 have been processed, the process ends. . On the other hand, when there is an unprocessed hash value in the pool # 1, the duplication number calculation unit 41 acquires the next hash value and the reference count of the pool # 1 (step S28), and returns to step S23.

このように、重複数算出部41が重複数とリファレンスカウントの総数を算出することで、重複除去率算出部42は、重複除去率を算出することができる。   In this way, the duplication number calculating unit 41 calculates the total number of duplication numbers and reference counts, so that the duplication removal rate calculation unit 42 can calculate the duplication removal rate.

上述してきたように、実施例では、重複数算出部41が2つのプールの単位データの重複数と2つのプールのリファレンスカウントの総数を算出する。そして、重複除去率算出部42が重複数、リファレンスカウントの総数を用いて重複除去率を算出する。したがって、重複除去率特定部4aは、2つのプールを統合した場合の重複除去率を算出することができる。このため、ユーザは、2つのプールを統合した場合に必要となる物理使用量を統合前に知ることができる。   As described above, in the embodiment, the duplication number calculation unit 41 calculates the duplication number of unit data of two pools and the total number of reference counts of the two pools. Then, the deduplication rate calculation unit 42 calculates the deduplication rate using the duplication number and the total number of reference counts. Therefore, the duplicate removal rate specifying unit 4a can calculate the duplicate removal rate when the two pools are integrated. For this reason, the user can know the physical usage required when two pools are integrated before the integration.

重複除去率が高いほど、統合後の物理使用量が減るため、統合するメリットがある。統合前のそれぞれのプールの物理使用量を足し合わせた結果と、統合後の物理使用量の結果を比べ、統合後の物理使用量が小さければ、統合するメリットがあることとなる。   As the deduplication rate is higher, the physical usage after integration is reduced, so there is an advantage of integration. The result of adding the physical usage of each pool before the integration and the result of the physical usage after the integration are compared. If the physical usage after the integration is small, there is an advantage of integration.

また、重複除去率特定部4aは、実データを読んで処理する必要がないため、実データを読み込んで重複除去率を調べるのに比べて、処理時間を少なくすることができる。またメインメモリ7には、重複数を記憶する8バイト、プール#1及び#2の物理使用量を記憶する8バイト×2、プール#1及び#2のリファレンスカウントの総数を記憶する8バイト、重複除去率を記憶する1バイトがあればよく、メモリサイズを小さくできる。プール#1とプール#2が異なるCM4で制御される場合にも、他のプールのハッシュテーブルから取得するハッシュ値とリファレンスカウントの情報を格納するだけのバッファがあればよい。   Further, since the deduplication rate specifying unit 4a does not need to read and process the actual data, the processing time can be reduced as compared with reading the actual data and checking the deduplication rate. The main memory 7 has 8 bytes for storing the duplication number, 8 bytes for storing the physical usage of the pools # 1 and # 2, and 8 bytes for storing the total number of reference counts for the pools # 1 and # 2. There is only one byte for storing the deduplication rate, and the memory size can be reduced. Even when the pool # 1 and the pool # 2 are controlled by different CMs 4, it is only necessary to have a buffer for storing the hash value acquired from the hash table of the other pool and the reference count information.

また、実施例では、重複除去率算出部42は、重複数にチャンクサイズを乗じて重複サイズを算出し、総物理使用量から重複サイズを引いて重複除去後サイズを算出する。また、重複除去率算出部42は、リファレンスカウントの総数にチャンクサイズを乗じて2つのプールを合わせた領域の総サイズを算出する。そして、重複除去率算出部42は、重複除去後サイズを総サイズで割って縮小率を算出し、1から縮小率を引いて重複除去率を算出する。したがって、重複除去率算出部42は、正確に重複除去率を算出することができる。   In the embodiment, the deduplication rate calculation unit 42 calculates the overlap size by multiplying the overlap number by the chunk size, and calculates the post-deduplication size by subtracting the overlap size from the total physical usage. Further, the duplicate removal rate calculation unit 42 calculates the total size of the area obtained by combining the two pools by multiplying the total number of reference counts by the chunk size. Then, the deduplication rate calculation unit 42 calculates the reduction rate by dividing the size after deduplication by the total size, and subtracts the reduction rate from 1 to calculate the deduplication rate. Therefore, the deduplication rate calculation unit 42 can accurately calculate the deduplication rate.

また、実施例では、プール#1とプール#2が異なるCM4で制御される場合に、プール#2を制御するCM4の通信部43が、プール#1のハッシュテーブルに登録されたハッシュ値とリファレンスカウントを取得する。そして、プール#2を制御するCM4の重複数算出部41が、通信部43が取得したハッシュ値とリファレンスカウントとプール#2のハッシュテーブルを用いて重複数とリファレンスカウントの総数とを算出する。したがって、重複数算出部41は、2つのプールが異なるCM4で制御される場合にも、重複数とリファレンスカウントの総数とを算出することができる。   In the embodiment, when the pool # 1 and the pool # 2 are controlled by different CM4, the CM4 communication unit 43 that controls the pool # 2 uses the hash value and the reference registered in the hash table of the pool # 1. Get the count. Then, the duplication number calculation unit 41 of the CM 4 that controls the pool # 2 calculates the duplication number and the total number of reference counts using the hash value, the reference count, and the hash table of the pool # 2 acquired by the communication unit 43. Therefore, the duplication number calculation unit 41 can calculate the duplication number and the total number of reference counts even when the two pools are controlled by different CMs 4.

また、実施例では、シン・プロビジョニング・プールの場合について説明したが、本発明はこれに限定されるものではなく、重複除去が行われる仮想ストレージプールに適用することができる。   In the embodiment, the case of the thin provisioning pool has been described. However, the present invention is not limited to this, and can be applied to a virtual storage pool in which deduplication is performed.

また、実施例では、2つのプールを統合する場合について説明したが、本発明はこれに限定されるものではなく、3つ以上のプールを統合する場合にも同様に適用することができる。   Moreover, although the case where two pools were integrated was demonstrated in the Example, this invention is not limited to this, It can apply similarly when integrating three or more pools.

また、実施例では、CM4が重複除去率を算出する場合について説明したが、本発明はこれに限定されるものではなく、ホスト2が重複除去率を算出する場合にも同様に適用することができる。   In the embodiment, the case where the CM 4 calculates the deduplication rate has been described. However, the present invention is not limited to this, and the same applies to the case where the host 2 calculates the deduplication rate. it can.

1 情報処理システム
2 ホスト
3 ストレージ装置
4 CM
4a 重複除去率特定部
5 CA
6 CPU
7 メインメモリ
8 FC
9 ボリューム記憶装置
9a ボリューム
40 記憶部
41 重複数算出部
42 重複除去率算出部
43 通信部
1 Information processing system 2 Host 3 Storage device 4 CM
4a Deduplication rate specifying part 5 CA
6 CPU
7 Main memory 8 FC
9 Volume storage device 9a Volume 40 Storage unit 41 Duplicate multiple calculation unit 42 Deduplication rate calculation unit 43 Communication unit

Claims (6)

所定の大きさの単位データについて2つの仮想ストレージプール間の重複数と該2つの仮想ストレージプールに含まれる前記単位データの総数を算出する第1算出部と、
前記第1算出部により算出された重複数と総数を用いて重複除去率を算出する第2算出部と
を有することを特徴とする情報処理装置。
A first calculation unit for calculating a duplication number between two virtual storage pools and a total number of the unit data included in the two virtual storage pools for unit data of a predetermined size;
An information processing apparatus comprising: a second calculation unit that calculates a duplication removal rate using the duplication number and the total number calculated by the first calculation unit.
前記第2算出部は、前記重複数に前記所定の大きさを乗じて重複領域の重複サイズを算出し、前記2つの仮想ストレージプールが使用する物理領域のサイズの和から前記重複サイズを引いた重複除去後サイズを算出し、前記総数に前記所定の大きさを乗じて前記2つの仮想ストレージプールを合わせた領域の総サイズを算出し、前記重複除去後サイズを前記総サイズで割った縮小率を1から引いた値を重複除去率として算出することを特徴とする請求項1に記載の情報処理装置。   The second calculation unit calculates the overlap size of the overlap region by multiplying the overlap number by the predetermined size, and subtracts the overlap size from the sum of the sizes of the physical regions used by the two virtual storage pools A reduction ratio obtained by calculating the size after deduplication, calculating the total size of the two virtual storage pools by multiplying the total number by the predetermined size, and dividing the size after deduplication by the total size The information processing apparatus according to claim 1, wherein a value obtained by subtracting 1 from 1 is calculated as a deduplication rate. 前記第1算出部は、ハッシュ計算によりハッシュ値が計算される単位データの仮想ストレージプールにおける数と該ハッシュ値とを対応付けたハッシュ対応情報を用いて前記重複数と前記総数とを算出することを特徴とする請求項1又は2に記載の情報処理装置。   The first calculation unit calculates the duplication number and the total number using hash correspondence information in which a hash value is associated with the number of unit data for which a hash value is calculated by hash calculation in the virtual storage pool. The information processing apparatus according to claim 1 or 2. 前記2つの仮想ストレージプールのうち一方は他の情報処理装置で制御され、
前記ハッシュ対応情報には自身が制御する仮想ストレージプールについての情報が登録され、
前記他の情報処理装置のハッシュ対応情報に登録された情報を該他の制御装置から受信する受信部を有し、
前記第1算出部は、自身のハッシュ対応情報に登録された情報と前記受信部が他のストレージ制御装置から取得した情報とを用いて前記重複数と前記総数とを算出することを特徴とする請求項3に記載の情報処理装置。
One of the two virtual storage pools is controlled by another information processing apparatus,
In the hash correspondence information, information about the virtual storage pool controlled by itself is registered,
A receiver that receives information registered in the hash correspondence information of the other information processing apparatus from the other control apparatus;
The first calculation unit calculates the duplication number and the total number using information registered in its own hash correspondence information and information acquired by the reception unit from another storage control device. The information processing apparatus according to claim 3.
コンピュータが、
所定の大きさの単位データについて2つの仮想ストレージプール間の重複数と該2つの仮想ストレージプールに含まれる前記単位データの総数を算出し、
算出した重複数と総数を用いて重複除去率を算出する
処理を実行することを特徴とする重複除去率特定方法。
Computer
Calculating a duplication number between two virtual storage pools and a total number of the unit data included in the two virtual storage pools for unit data of a predetermined size;
A deduplication rate specifying method, comprising: performing a process of calculating a deduplication rate using the calculated duplication number and the total number.
コンピュータに、
所定の大きさの単位データについて2つの仮想ストレージプール間の重複数と該2つの仮想ストレージプールに含まれる前記単位データの総数を算出し、
算出した重複数と総数を用いて重複除去率を算出する
処理を実行させることを特徴とする重複除去率特定プログラム。
On the computer,
Calculating a duplication number between two virtual storage pools and a total number of the unit data included in the two virtual storage pools for unit data of a predetermined size;
A deduplication rate identifying program characterized by causing a process to calculate a deduplication rate using the calculated duplication number and total number.
JP2017134894A 2017-07-10 2017-07-10 Information processing device, deduplication rate identification method and deduplication rate identification program Active JP6888446B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2017134894A JP6888446B2 (en) 2017-07-10 2017-07-10 Information processing device, deduplication rate identification method and deduplication rate identification program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017134894A JP6888446B2 (en) 2017-07-10 2017-07-10 Information processing device, deduplication rate identification method and deduplication rate identification program

Publications (2)

Publication Number Publication Date
JP2019016293A true JP2019016293A (en) 2019-01-31
JP6888446B2 JP6888446B2 (en) 2021-06-16

Family

ID=65358728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017134894A Active JP6888446B2 (en) 2017-07-10 2017-07-10 Information processing device, deduplication rate identification method and deduplication rate identification program

Country Status (1)

Country Link
JP (1) JP6888446B2 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3951583A1 (en) 2020-08-07 2022-02-09 Fujitsu Limited Information processing device and duplication rate estimation program
WO2023056780A1 (en) * 2021-10-07 2023-04-13 International Business Machines Corporation Storage system workload scheduling for deduplication

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245387A (en) * 2008-03-31 2009-10-22 Hitachi Ltd Storage system
JP2012523023A (en) * 2009-09-18 2012-09-27 株式会社日立製作所 Storage system that eliminates duplicate data
JP2014178939A (en) * 2013-03-15 2014-09-25 Nec Corp Duplicate data management device, data transfer control device, data transfer control system, duplicate data management method, data transfer control method, and computer program
JP2015200946A (en) * 2014-04-04 2015-11-12 日本電気株式会社 storage system
WO2016006050A1 (en) * 2014-07-09 2016-01-14 株式会社日立製作所 Storage system and memory control method
WO2016031051A1 (en) * 2014-08-29 2016-03-03 株式会社日立製作所 Storage device

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009245387A (en) * 2008-03-31 2009-10-22 Hitachi Ltd Storage system
JP2012523023A (en) * 2009-09-18 2012-09-27 株式会社日立製作所 Storage system that eliminates duplicate data
JP2014178939A (en) * 2013-03-15 2014-09-25 Nec Corp Duplicate data management device, data transfer control device, data transfer control system, duplicate data management method, data transfer control method, and computer program
JP2015200946A (en) * 2014-04-04 2015-11-12 日本電気株式会社 storage system
WO2016006050A1 (en) * 2014-07-09 2016-01-14 株式会社日立製作所 Storage system and memory control method
WO2016031051A1 (en) * 2014-08-29 2016-03-03 株式会社日立製作所 Storage device

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3951583A1 (en) 2020-08-07 2022-02-09 Fujitsu Limited Information processing device and duplication rate estimation program
JP7476715B2 (en) 2020-08-07 2024-05-01 富士通株式会社 Information processing device and duplication rate estimation program
WO2023056780A1 (en) * 2021-10-07 2023-04-13 International Business Machines Corporation Storage system workload scheduling for deduplication
US11954331B2 (en) 2021-10-07 2024-04-09 International Business Machines Corporation Storage system workload scheduling for deduplication

Also Published As

Publication number Publication date
JP6888446B2 (en) 2021-06-16

Similar Documents

Publication Publication Date Title
US11073999B2 (en) Extent migration in multi-tier storage systems
US8874532B2 (en) Managing dereferenced chunks in a deduplication system
US20190391744A1 (en) Automated selection of functions to reduce storage capacity based on performance requirements
US9110603B2 (en) Identifying modified chunks in a data set for storage
JP6227007B2 (en) Real-time classification of data into data compression areas
US9983807B1 (en) Static service levels and application specific usage tags for storage policy based management of storage resources
US9400792B1 (en) File system inline fine grained tiering
US10318166B1 (en) Preserving locality of storage accesses by virtual machine copies in hyper-converged infrastructure appliances
CN106462481A (en) Duplicate data using cyclic redundancy check
WO2014141363A1 (en) Storage system and storage system control method
JP2019016293A (en) Information processing device, deduplication rate determination method and deduplication rate determination program
US10242053B2 (en) Computer and data read method
US20220414154A1 (en) Community generation based on a common set of attributes
US11656781B2 (en) Distributing sequential read streams across synchronous mirror pairs
US10168963B2 (en) Storage conditioning with intelligent rebuild
CN112835511B (en) Data writing method, device, equipment and medium of distributed storage cluster
US11182076B2 (en) Managing unequal network shared disks (NSD) in a computer network
US10169363B2 (en) Storing data in a distributed file system
JPWO2018087823A1 (en) Container-type virtual computer management device, method, and computer program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200409

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210217

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210304

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210503

R150 Certificate of patent or registration of utility model

Ref document number: 6888446

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150