JP7443404B2

JP7443404B2 - ストレージシステム

Info

Publication number: JP7443404B2
Application number: JP2022007873A
Authority: JP
Inventors: 貴大山本; 秀雄斎藤; 晋太郎伊藤; 幸恵田島; 寛人江原; 泰輔小野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2022-01-21
Filing date: 2022-01-21
Publication date: 2024-03-05
Anticipated expiration: 2042-01-21
Also published as: JP2023106886A; US12045133B2; US20230236932A1

Description

本発明は、概して、ストレージシステムにおけるリビルドに関する。

複数のストレージノードで構成されたストレージシステムが知られている。例えば、それぞれのストレージノード（以下、ノード）において所定のソフトウェアが実行されることで、ストレージシステムがＳＤＳ（Software Defined Storage）として提供される。

この種のストレージシステムのデータ保護ポリシとして、ＥＣ（Erasure Coding）、ＭＥＣ（Multi-stage Erasure Coding）、ＲＡＩＮ（Redundant Array of Independent Nodes）、ノード間ミラーリング又はＲＡＩＤ（Redundant Array of Independent (or Inexpensive) Disks）が採用され得る。特許文献１は、データ保護ポリシとしてＭＥＣが開示されている。

ＵＳ２０１６／０３７１１４５

ストレージシステムを構成する複数台のノードの各々について、当該ノードの永続記憶装置に基づく記憶領域として、データセットとしてのユーザデータセットが格納される記憶領域であるユーザ領域と、データセットとしてのパリティが格納される記憶領域であるパリティ領域とのうちの少なくとも一つがある。パリティ領域に格納されるパリティは、当該パリティ領域を有するノード以外の二台以上のノードの各々からのデータセットを用いて生成されたデータセットである。

ストレージシステムは、一般に、データ保護単位としての記憶領域グループ（例えばストライプ）毎に、二台以上の生存ノードに格納されているデータセットに基づいて一台以上の障害ノードの各々におけるデータセットをリビルドすることができる。「障害ノード」とは、障害が発生したノードである。「生存ノード」とは、障害が発生していないノードである。

障害が一時的である場合、障害はやがて回復する。障害から回復したノードには、当該ノードの停止時と同じデータが存在する。このため、回復したノードにおけるデータのうち、更新のなかったデータセットは、リビルドなしに利用することができる。

そこで、一時障害からの回復があった場合に行われるリビルドとしては、差分リビルドが好ましい。具体的には、障害ノードがある間に、生存ノードの記憶領域が更新された場合、当該記憶領域について、差分有が管理される。その後、障害が回復した場合、障害から回復したノードのうち差分有の記憶領域のみについてデータセットがリビルドされる。

差分リビルドのためには、ノード毎に、差分情報が存在する。各ノードについて、差分情報は、当該ノードの各記憶領域について当該記憶領域が差分有か否かを表す情報である。

ストレージシステムのデータ冗長度（許容される障害ノードの最大数）をｋとする。この場合、ノード毎に、当該ノードの差分情報が、ｋ台のノードに存在する。つまり、差分情報が冗長化される。これにより、いずれの（ｋ－１）台のノードが障害ノードになっても、いずれかの生存ノードにおける差分情報を用いて、いずれの記憶領域が差分有の記憶領域であるかを特定することができる。

障害ノードがある間において、記憶領域が更新される都度に、差分情報が更新される。このため、通常、差分情報は、ノードのメモリに格納される。また、一台のノードに、複数台のノードの差分情報が格納される。

差分情報のサイズは、ノードにおける記憶領域の数に依存する。一般に、各ノードにおいて記憶領域の数は多く、結果として、差分情報のサイズは大きい。複数台のノードの差分情報が一台のノードのメモリに格納されるため、メモリ使用量が大きい。故に、大容量のメモリが必要である。

メモリが大容量でない場合、複数台のノードの差分情報をメモリに保持しきれず、メモリから永続記憶装置へのスワップが生じる。ノードにおける記憶領域が更新される都度に、当該ノードの差分情報を保持する全てのノードにおいて、当該差分情報が更新され、故に、各ノードにおいてスワップが生じ得る。

ユーザ領域を有するノードについて、当該ノードのユーザ領域毎に差分有か否かを表す情報を含んだ差分情報であるユーザ部差分情報がある。ユーザ領域毎に、差分有は、障害が生じているノードである障害ノードがある間に当該ノードの当該ユーザ領域のユーザデータセットに更新が生じたことである。パリティ領域を有するノードについて、当該ノードのパリティ領域毎に差分有か否かを表す情報を含んだ差分情報であるパリティ部差分情報がある。当該パリティ部差分情報について、パリティ領域毎に、当該パリティ領域に対応した情報は、当該パリティ領域に格納されているパリティの生成に用いられたいずれかのデータセットの記憶領域について差分有を表す情報がある場合に、差分有を表す情報である。

本発明によれば、差分リビルドのために各ノードのメモリが保持すべき差分情報のサイズを低減することができる。

第１の実施の形態に係る差分リビルドの概要の一例を示す。ストレージシステムの物理構成の一例を示す。ストレージシステムの論理構成の一例を示す。メモリ内の情報の一例を示す。クラスタ管理テーブルの一例を示す。ストレージプール管理テーブルの一例を示す。パリティグループ管理テーブルの一例を示す。差分情報管理テーブルの一例を示す。リード処理プログラムが行うリード処理のフローを示す。コレクション処理プログラムが行うコレクション処理のフローを示す。ライト処理プログラムが行うライト処理のフローを示す。パリティ格納ノードにおけるライト処理プログラムが行うパリティ格納処理のフローを示す。パリティ格納ノードにおけるライト処理プログラムが行う最終更新結果処理のフローを示す。リビルド処理プログラムが行うリビルド処理のフローを示す。第２の実施形態に係るノード間転送の概要の一例を示す。第２の実施形態に係るリビルド処理の概要の一例を示す。第２の実施形態に係る差分情報管理の一例を示す。

以下の説明では、「インターフェース装置」は、一つ以上の通信インターフェースデバイスでよい。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス（例えば一つ以上のＮＩＣ（Network Interface Card））であってもよいし二つ以上の異種の通信インターフェースデバイス（例えばＮＩＣとＨＢＡ（Host Bus Adapter））であってもよい。

また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。

また、以下の説明では、「永続記憶装置」は、一つ以上の記憶デバイスの一例である一つ以上の永続記憶デバイスでよい。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス（例えば補助記憶デバイス）でよく、具体的には、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、又はＮＶＭｅ（Non-Volatile Memory Express）ドライブでよい。

また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサデバイスでよいが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア回路（例えばＦＰＧＡ（Field-Programmable Gate Array）、ＣＰＬＤ（Complex Programmable Logic Device）又は又はＡＳＩＣ（Application Specific
Integrated Circuit））といった広義のプロセッサデバイスでもよい。

また、以下の説明では、「ｘｘｘテーブル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよいし（例えば、構造化データでもよいし非構造化データでもよいし）、入力に対する出力を発生するニューラルネットワーク、遺伝的アルゴリズムやランダムフォレストに代表されるような学習モデルでもよい。従って、「ｘｘｘテーブル」を「ｘｘｘ情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。

また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶装置及び／又はインターフェース装置等を用いながら行うため、処理の主語が、プロセッサ（或いは、そのプロセッサを有するコントローラのようなデバイス）とされてもよい。プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読み取り可能な（例えば非一時的な）記録媒体であってもよい。また、以下の説明において、二つ以上のプログラムが一つのプログラムとして実現されてもよいし、一つのプログラムが二つ以上のプログラムとして実現されてもよい。

また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号を使用し、同種の要素を区別して説明する場合は、要素のＩＤ（例えば識別番号）を使用することがある。例えば、ノードを特に区別しないで説明する場合には、「ノード２１０」と記載し、個々のノードを区別して説明する場合には、「ノード１」、「ノード２」のように記載することがある。また、ノードｖ（ｖは０以上の整数）が有する要素の名称にｖを付加することで、いずれのノードの要素であるか（或いは、いずれのノードに対応する要素であるか）を区別することができる。

また、以下の説明では、「セグメント」とは、永続記憶装置に基づく記憶領域の一例であり、ノード領域の一部でよい。セグメントに格納されるデータが、当該セグメントの基になっている永続記憶装置に格納されてよい。具体的には、セグメントには、ユーザデータセット又はパリティが格納されてよい。ユーザデータセットが格納されるセグメントを「ユーザセグメント」と言うことができ、パリティが格納されるセグメントを「パリティセグメント」と言うことができる。なお、「ユーザデータセット」とは、ライト要求に付随するデータ（ライト対象データ）の少なくとも一部を含むユーザデータグループ部分で構成されてよい。「ユーザデータグループ部分」とは、ユーザデータグループの一部であり、「ユーザデータグループ」とは、ストライプに格納される全ユーザデータセットの集合でよい。「パリティ」は、ユーザデータグループに基づき生成されるデータセットでよい。「データセット」とは、一つのセグメントに格納されるデータでよく、以下の説明では、ユーザデータセットとパリティの総称でよい。データセットは、セグメント単位のデータでよい。また、「セグメント」は、一つ以上のブロックで構成されてよい。

また、以下の説明では、「ノード領域」とは、一台のノードが提供する複数のセグメントの集合としての一つの論理記憶領域でよい。

また、以下の説明では、「ストライプ」とは、データ保護ポリシが適用されたデータ保護単位としての記憶領域グループでよく、例えば、ｎのノード領域の各々のセグメントで構成された記憶領域グループでよい。具体的には、例えば、ストライプは、ｎのセグメント（例えば同一論理アドレスのｎのセグメント）で構成された記憶領域でよい。ストレージシステムが、Ｎ台のノード（Ｎは２以上の整数）で構成されている場合、ｎは、２以上且つＮ以下の整数でよい。

また、以下の説明では、「冗長構成領域」とは、Ｎのノード領域で構成された記憶領域でよい。
［第１の実施形態］

図１は、差分リビルドの概要の一例を示す。なお、図１の説明では、ノードｖのうちセグメントｗに属するセグメントを、「セグメントｖｗ」と表現する。

ストレージシステム１０１を構成する複数台のノード（ストレージノード）２１０の一例として、ノード１～４がある。ストライプａ～ｄの各々のデータ保護ポリシは、２Ｄ２Ｐであり、各ストライプは、ノード１～４が有する四つのセグメントから構成されている。ノード１～４の各々において所定のソフトウェアが実行されることで、ストレージシステム１０１がＳＤＳ（Software Defined Storage）として提供されてよい。

図１において、「Ｐ」及び「Ｑ」は、それぞれパリティを表す。例えば、ストライプａに着目すると、ユーザセグメント１ａには、ユーザデータセットＡが格納されており、ユーザセグメント２ａには、ユーザデータセットＢが格納されており、パリティセグメント３ａには、ユーザデータセットＡ及びＢを用いて生成されたパリティＰ_ＡＢが格納されており、パリティセグメント４ａには、ユーザデータセットＡ及びＢを用いて生成されたパリティＱ_ＡＢが格納されている。本実施形態では、ノード１～４の各々が、ユーザセグメントもパリティセグメントも有するが、ストレージシステムは、ユーザセグメントを有するがパリティセグメントを有さないノードと、パリティセグメントを有するがユーザセグメントを有しないノードとで構成されてもよい。

ノード１～４の各々が、差分情報５を保持することができる。具体的には、例えば、いずれかのノード２１０に障害が生じた場合に、残りのノード２１０の各々が、差分管理のために差分情報５を保持する。差分情報５のうち、ユーザセグメント毎に差分有か否かを表す情報を含んだ情報がユーザ部差分情報であり、パリティセグメント毎に差分有か否かを表す情報を含んだ情報がパリティ部差分情報である。本実施形態では、ノードｖのセグメント毎に差分有か否かを表す情報を含んだ差分情報５－ｖが、当該ノードｖのメモリに保持されるが、ノードｖについての差分情報５－ｖは、ノードｖとは別のノード（例えばノード（ｖ＋１）又はノード（ｖ－１））のメモリに保持されてもよい。また、本実施形態では、ユーザ部差分情報及びパリティ部差分情報のいずれにおいても、セグメント毎に差分有か否かを表す情報は、ビット（以下、差分ビット）である。差分ビット“１”が、差分有を表し、差分ビット“０”が、差分無を表す。本実施形態では、ユーザ部差分情報及びパリティ部差分情報も、セグメント毎の差分ビットで構成されたビットマップである。

ノード１～４のうち、ノード４が障害ノードであるとする。また、ノード４に障害がある間（ノード４が停止している間）、ノード１が、ホスト３５０からのライト要求（例えば、ノード１がオーナ権を持つボリューム又はストライプがライト先となるライト要求）に応答して、ユーザセグメント１ａの旧ユーザデータセットＡを新ユーザデータセットＡ´に更新したとする。この場合、ノード１が、差分情報５－１のユーザ部差分情報のうち、ユーザセグメント１ａに対応した差分ビットを“１”に更新する。また、ノード１が、新ユーザデータセットＡ´と旧ユーザデータセットＡとを用いて生成された中間データセットを生成し、ストライプａのうちパリティセグメント３ａを有する生存ノード３に、中間データセットを送信する。ノード３が、ノード１から当該中間データセットを受信し、当該中間データセットと旧パリティＰ_ＡＢとを用いて新パリティＰ_Ａ’Ｂを生成し、新パリティＰ_Ａ’Ｂをセグメント３ａに格納する。ノード３は、差分情報５－３のパリティ部差分情報のうち、パリティセグメント３ａに対応した差分ビットを“１”に更新する。

この後、ノード４が障害から回復したとする。この場合、回復したノード４について差分リビルドが行われる。

まず、ノード４が、差分情報５－４のうちのパリティ部差分情報を復元する。具体的には、ノード４は、ノード４のパリティセグメント毎に、当該パリティセグメントを含んだストライプにおける全ユーザセグメントの差分ビットのＯＲを、当該パリティセグメントに対応した差分ビットとする。このため、パリティセグメント４ａ及び４ｂの各々について、下記の通りとなる。
・パリティセグメント４ａに対応した差分ビットは“１”となる。なぜなら、パリティセグメント４ａを含んだストライプａにおけるユーザセグメント１ａ及び２ａのうち、ユーザセグメント１ａに対応した差分ビットが“１”であるためである。
・パリティセグメント４ｂに対応した差分ビットは“０”となる。なぜなら、パリティセグメント４ｂを含んだストライプｂにおけるユーザセグメント２ｂ及び２ｃｂのうち、いずれのユーザセグメントに対応した差分ビットも“０”であるためである。

このように、本実施形態によれば、パリティセグメントの差分ビットは、当該パリティセグメントを含んだストライプにおける全ユーザセグメントの差分ビットのＯＲである。このため、パリティセグメントを含んだストライプにおけるユーザセグメント毎に差分ビットの複製（冗長化された差分ビット）を、当該パリティセグメントを有するノードのメモリで保持する必要は無い。このため、メモリ使用量が削減される。また、本実施形態によれば、冗長度ｋが適用されｎ台のノード２１０に基づくストライプに関し、いずれかのノード２１０が障害ノードとなった場合、ノード２１０の数は、ｎ´（＝ｎ－１）となるが、当該ストライプのユーザセグメントに関する差分ビットは、（ｎ´－１）台のノード２１０で保持されればよい。図１が示す例によれば、ユーザセグメント１ａに関する差分ビットは、三台のノード１～３において（ｎ´＝３）、二台のノード１及び３に存在すればよい（ノード３では、ユーザセグメント１ａに関する差分ビットは、ユーザセグメント１ａ及び１ｂの差分ビットのＯＲ）。このため、ストレージシステム全体として、メモリ使用量が削減される。

差分情報５－４のパリティ部差分情報が復元された後、ノード４は、ノード４が有する複数のパリティセグメントのうち、差分ビットが“１”のパリティセグメントについてのみ、パリティを復元する（言い換えれば、差分ビットが“０”のパリティセグメントについては、復元はスキップされる）。例えば、ノード４は、ユーザセグメント１ａ及び２ａからユーザデータセットＡ´及びＢを読み出し、ユーザデータセットＡ´及びＢを用いてパリティＱ_Ａ’Ｂを生成し、パリティＱ_Ａ’Ｂをセグメント４ａに格納する。

なお、回復ノード４の各ユーザセグメントについては、当該ユーザセグメントを含むセグメントのいずれかのパリティセグメントに対応した差分ビットが“１”の場合、当該ユーザセグメントのユーザデータセットが実際には更新が無くても、当該ユーザセグメントに対応した差分ビットは“１”とされる。なぜなら、パリティセグメントが更新されたということは、同ストライプ内の全ユーザセグメントが更新された可能性があるためである。例えば、ノード４が障害である間に、ユーザセグメント３ｃのユーザデータセットＥが更新されたためにパリティセグメント１ｃ及び２ｃの各々について差分ビットが“１”とされたとする。ノード４が回復した場合には、パリティセグメント１ｃ及び２ｃの差分ビットが“１”のため、ノード４は、差分情報５－４のユーザ部差分情報のうち、ユーザセグメント２ｃに対応した差分ビットを“１”とし、差分ビット“１”に対応したユーザセグメント２ｃからユーザデータセットＦを復元する（読み出す）。

また、回復ノード４において復元されたデータセット（ユーザデータセット又はパリティ）の復元先は、復元前のデータセットが格納されているセグメント（記憶領域の一例）に限らず、回復ノード４（又は別ノード）における別セグメントでもよい。

図２は、ストレージシステム１０１の物理構成の一例を示す。

ストレージシステム１０１には、１以上のサイト２０１が設けられてもよい。各サイト２０１は、ネットワーク２０２を介して通信可能に接続される。ネットワーク２０２は、例えば、ＷＡＮ（Wide Area Network）であるが、ＷＡＮに限定するものではない。

サイト２０１は、データセンタ等であり、１以上のノード２１０を含んで構成される。

ノード２１０は、一般的なサーバ計算機の構成を備えてよい。ノード２１０は、例えば、１以上のプロセッサパッケージ２１３、１以上のドライブ２１４、１以上のポート２１５を含んで構成される。各構成要素は、内部バス２１６を介して接続されている。プロセッサパッケージ２１３は、プロセッサ２１１及びメモリ２１２等を含む。１以上のドライブ２１４は、永続記憶装置の一例である。１以上のポート２１５は、インターフェース装置の一例である。

プロセッサ２１１は、例えば、ＣＰＵであり、各種の処理を行う。

メモリ２１２は、ノード２１０の機能を実現する上で必要な制御用の情報を格納したり、データを格納したりする。また、メモリ２１２は、例えば、プロセッサ２１１により実行されるプログラムを格納する。メモリ２１２は、揮発性のＤＲＡＭ（Dynamic Random Access Memory）であってもよいし、不揮発のＳＣＭであってもよいし、その他の記憶デバイスであってもよい。

ドライブ２１４は、各種のデータ、プログラム等を記憶する。ドライブ２１４は、ＳＡＳ（Serial Attached SCSI）又はＳＡＴＡ（Serial Advanced Technology Attachment）接続のＨＤＤやＳＳＤ、ＮＶＭｅ接続のＳＳＤの他、ＳＣＭ等であってもよく、記憶デバイスの一例である。

ポート２１５は、ネットワーク２２０に接続され、サイト２０１内の他のノード２１０と通信可能に接続されている。ネットワーク２２０は、例えば、ＬＡＮ（Local Area Network）であるが、ＬＡＮに限定するものではない。

ストレージシステム１０１に係る物理構成は、上述の内容に限定されるものではない。例えば、ネットワーク２０２，２２０については、冗長化されていてもよい。また、例えば、ネットワーク２２０は、管理用のネットワークとストレージ用のネットワークとで分離してもよく、接続規格は、Ethernet（登録商標）、Infiniband、無線でもよく、接続トポロジも図２に示す構成に限定しない。

図３は、ストレージシステム１０１の論理構成の一例を示す。

ノード２１０は、ストレージプログラム３６０を備える。ストレージプログラム３６０は、パリティグループ３１０を構成する。

パリティグループ３１０は、冗長構成領域の一例である。パリティグループ３１０は、複数台のノード２１０のドライブ２１４に基づく物理チャンク３１１から構成される。パリティグループ３１０は、データをノード２１０間に跨り保護するグループであり、例えば、データ保護ポリシが２Ｄ１Ｐである場合、異なるノード２１０のドライブ２１４から確保した３つの物理チャンク３１１でパリティグループ３１０が構成される。データ保護ポリシとしては、二重化、ＥＣ（Erasure Coding）、ＭＥＣ（Multi-stage Erasure Coding）等がある。

物理チャンク３１１は、ドライブ２１４が備える物理領域のうちの全部又は一部の領域であり、連続した領域である。物理チャンク３１１は、ユーザデータセットを記憶する物理領域（データ領域）と、パリティを記憶する物理領域（パリティ領域）とを含んで構成される。パリティは、ユーザデータセットを障害から復元するための冗長符号である。データ領域は、一つ以上のユーザセグメントで構成されてよい。パリティ領域は、一つ以上のパリティセグメントで構成されてよい。パリティグループ３１０において、ノード２１０毎に、当該ノード２１０が提供する一つ以上の物理チャンクが、ノード領域の一例である。

図３が示す例によれば、ユーザデータセット３１３－１及び３１３－２とパリティ３１３－３とが１つのストライプに格納される。ユーザデータセット３１３－１は、ホスト３５０のアプリケーション３５１（ＡｐｐＢ）が格納したデータを含む。ユーザデータセット３１３－２は、ホスト３５０のアプリケーション３５１（ＡｐｐＣ）が格納したデータを含む。

また、図３が示す例によれば、ホスト３５０のアプリケーション３５１（ＡｐｐＡ）から、障害が発生したノード０のユーザデータのリードが要求された場合、当該ユーザデータがあるストライプにおけるユーザデータセット３１２－１及びパリティ３１２－２からユーザデータセット３６１が復元され、復元されたユーザデータセット３６１に基づくユーザデータが、当該アプリケーション３５１に応答される。復元されたユーザデータセット３６１は、リビルドされたデータとして、ノード０の物理チャンク３１１に格納される。これにより、障害が発生したノード０のデータの２回目以降の読み込みオーバヘッドが削減され、スループットとレスポンスの向上が期待される。

パリティグループ３１０からは、論理チャンク３２１が切り出される。論理チャンク３２１は、各ノード２１０のストレージプール３２０に容量を割り当てる単位であり、一つ以上の物理チャンクのうちのデータ領域に対応する領域である。１つのパリティグループ３１０から１つの論理チャンク３２１が切り出されてもよいし、複数の論理チャンク３２１が切り出されてよい。

また、ストレージプログラム３６０は、ストレージプール３２０を構成する。ストレージプール３２０は、複数の論理チャンク３２１を含んで構成され、ストレージシステム１０１全体の容量を仮想化する。ストレージプログラム３６０は、アプリケーション３５１により利用される仮想ボリューム３３０をホスト３５０に提供する。仮想ボリューム３３０は、ボリューム（特に、ホスト３５０のような上位システムに提供されるオンラインボリューム）の一例である。仮想ボリューム３３０は、ストレージプール３２０に関連付けられる。このように、ストレージプログラム３６０は、利用者の要求に応じた容量を、ドライブ２１４に割り当てず、仮想ボリューム３３０として割り当てる。二台以上のノード２１０における二つ以上の仮想ボリューム３３０が同一のホスト３５０（同一のアプリケーション３５１）に提供されてよい。

例えば、ストレージプログラム３６０は、アプリケーション３５１からライト要求を受信した場合、当該ライト要求で指定されている領域を含むページ３３１にページ３３２が割り当てられていない場合、ストレージプール３２０からページ３２２を割り当てる。ページ３２２は、ストレージプール３２０の単位領域である。ページ３２２が、動的に、仮想ボリューム３３０に割り当てられる。つまり、本実施形態では、Thin Provisioningが採用される。ページ３２２は、物理チャンク３１１における領域が対応する。ページ３２２に入出力されるデータは、物理チャンク３１１に入出力される。なお、ライト要求のデータ（又は後述の中間データ）は、データの冗長化に係る他のノード２１０に転送されてパリティが更新される。

このように、ストレージプログラム３６０は、ドライブ２１４を共有のストレージプール３２０として管理し、仮想ボリューム３３０に書き込まれたデータ量に応じてドライブ２１４から容量を割り当てる。これにより、使用されないドライブ２１４の無駄をなくし、効率的な運用が行われる。

なお、データにアクセスするアプリケーション３５１は、ホスト３５０に設けられて動作するものであってもよいし、ストレージプログラム３６０と同一ノード２１０に設けられて動作するものであってもよいし、別のノード２１０に設けられて動作するものであってもよい。また、図３が示す例によれば、リビルド先は、障害が発生したノード２１０内であるが、それに代えて、障害が発生したノード２１０外（例えば生存ノード）でも構わない。

図４は、メモリ２１２内の情報（ドライブ２１４からメモリ２１２に読み出される情報）の一例を示す。なお、制御情報テーブル４１０、各種のプログラム（ストレージプログラム３６０等）は、実行中はメモリ２１２上に展開されるが、停電等に備えてドライブ２１４等の不揮発な領域に格納されている。

制御情報テーブル４１０には、クラスタ管理テーブル４１１、ストレージプール管理テーブル４１２、パリティグループ管理テーブル４１３及び差分情報管理テーブル４１４が含まれる。各テーブルについては、後述する。

ストレージプログラム３６０は、リード処理プログラム４２１、ライト処理プログラム４２２、コレクション処理プログラム４２３及びリビルド処理プログラム４２４を備える。ノード２１０の機能（リード処理プログラム４２１、ライト処理プログラム４２２、コレクション処理プログラム４２３及びリビルド処理プログラム４２４等）は、例えば、プロセッサ２１１がドライブ２１４に格納されたプログラムをメモリ２１２に読み出して実行すること（ソフトウェア）により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、ノード２１０の機能の一部は、ノード２１０と通信可能な他のコンピュータにより実現されてもよい。

図５は、クラスタ管理テーブル４１１の一例を示す。

クラスタ管理テーブル４１１は、サイト２０１、ノード２１０及びドライブ２１４の構成を管理するための情報を格納する。

クラスタ管理テーブル４１１は、サイト構成管理テーブル５１０、ノード構成管理テーブル５２０及びドライブ構成管理テーブル５３０を含んで構成される。なお、ストレージシステム１０１は、サイト構成管理テーブル５１０を管理し、サイト２０１は、サイト２０１内の複数台のノード構成管理テーブル５２０を管理し、ノード２１０は、ノード２１０内の複数のドライブ構成管理テーブル５３０を管理する。

サイト構成管理テーブル５１０は、サイト２０１に係る構成（サイト２０１とノード２１０との関係等）を示す情報を格納する。より具体的には、サイト構成管理テーブル５１０は、サイト番号５１１と、状態５１２と、ノード番号リスト５１３とが対応付けられた情報を格納する。

サイト番号５１１は、サイト２０１を識別可能な識別情報である。状態５１２は、サイト２０１の状態を示す状態情報（Ｎｏｒｍａｌ、Ｗａｒｎｉｎｇ、Ｆａｉｌｕｒｅ等）である。ノード番号リスト５１３は、サイト２０１に設けられるノード２１０を識別可能な識別情報である。

ノード構成管理テーブル５２０は、サイト２０１ごとに設けられ、サイト２０１に設けられるノード２１０に係る構成（ノード２１０とドライブ２１４との関係等）を示す情報を格納する。より具体的には、ノード構成管理テーブル５２０は、ノード番号５２１と、状態５２２と、ドライブ番号リスト５２３とが対応付けられた情報を格納する。

ノード番号５２１は、ノード２１０を識別可能な識別情報である。状態５２２は、ノード２１０の状態を示す状態情報（Ｎｏｒｍａｌ、Ｗａｒｎｉｎｇ、Ｆａｉｌｕｒｅ等）である。ドライブ番号リスト５２３は、ノード２１０に設けられるドライブ２１４を識別可能な識別情報である。

ドライブ構成管理テーブル５３０は、ノード２１０ごとに設けられ、ノード２１０に設けられるドライブ２１４に係る構成を示す情報を格納する。より具体的には、ドライブ構成管理テーブル５３０は、ドライブ番号５３１と、状態５３２と、サイズ５３３（ブロック）とが対応付けられた情報を格納する。

ドライブ番号５３１は、ドライブ２１４を識別可能な識別情報である。状態５３２は、ドライブ２１４の状態を示す状態情報（Ｎｏｒｍａｌ、Ｗａｒｎｉｎｇ、Ｆａｉｌｕｒｅ等）である。サイズ５３３は、ドライブ２１４の容量を示す情報（例えば、ブロックの数）である。例えば、ブロックは、固定サイズ（５１２ｂｙｔｅ等）である。

図６は、ストレージプール管理テーブル４１２の一例を示す。

ストレージプール管理テーブル４１２は、ストレージプール３２０が提供するシンプロビジョニング機能のための制御情報を格納する。

ストレージプール管理テーブル４１２は、ストレージプール情報テーブル６１０、仮想ボリューム管理テーブル６２０、及びページマッピングテーブル６３０を含んで構成される。

ストレージプール情報テーブル６１０は、ストレージプール３２０に係る情報を格納する。より具体的には、ストレージプール情報テーブル６１０は、ストレージプール番号６１１と、総容量６１２（ブロック）と、消費容量６１３（ブロック）とが対応付けられた情報を格納する。

ストレージプール番号６１１は、ストレージプール３２０を識別可能な識別情報である。総容量６１２は、ストレージプール３２０の総容量を示す情報（例えば、ブロックの数）である。消費容量６１３は、ストレージプール３２０で消費されている容量を示す情報（例えば、ブロックの数）である。

仮想ボリューム管理テーブル６２０は、仮想ボリューム３３０に係る情報（仮想ボリューム３３０と仮想ボリューム３３０を割り当てたストレージプール３２０との対応関係を示す情報等）を格納する。より具体的には、仮想ボリューム管理テーブル６２０は、仮想ボリューム番号６２１、サイズ６２２（ブロック）、及びストレージプール番号６２３が対応付けられた情報を格納する。

仮想ボリューム番号６２１は、仮想ボリューム３３０を識別可能な識別情報である。サイズ６２２（ブロック）は、仮想ボリューム３３０の容量を示す情報（例えば、ブロックの数）である。ストレージプール番号６２３は、仮想ボリューム３３０が属するストレージプール３２０を識別可能な識別情報である。

ページマッピングテーブル６３０は、仮想ボリューム３３０に割り当てたページ３３１に係る情報（ページ３３１と論理チャンク３２１との対応関係を示す情報等）を格納する。より具体的には、ページマッピングテーブル６３０は、ページ番号６３１、仮想ボリューム番号６３２、ＬＢＡ（Logical Block Address）６３３、サイズ６３４（ブロック）、論理チャンク番号６３５、及びＬＢＡ６３６が対応付けられた情報を格納する。

ページ番号６３１は、ページ３３１を識別可能な識別情報である。仮想ボリューム番号６３２は、ページ３３１が割り当てられている仮想ボリューム３３０を識別可能な識別情報である。ＬＢＡ６３３は、仮想ボリューム３３０におけるページ３３１の位置を特定可能な情報であり、例えば、仮想ボリューム３３０の最初のページ３３１から何番目であるかを示す情報である。なお、ページ３３１は、ストレージプログラム３６０が仮想ボリューム３３０にアクセスする単位である。サイズ６３４（ブロック）は、ページ３３１の容量を示す情報（ブロックの数）である。論理チャンク番号６３５は、ページ３３１に対応する論理チャンク３２１を識別可能な識別情報である。ＬＢＡ６３６は、ストレージプール３２０における論理チャンク３２１の位置を特定可能な情報であり、例えば、ストレージプール３２０の最初の論理チャンク３２１から何番目であるかを示す情報である。

なお、サイズ６３４は、全てのページ３３１で同じであってもよいし、ページ３３１ごとに異なっていてもよい。

付言するならば、ストレージプログラム３６０は、仮想ボリューム３３０のアドレスからストレージプール３２０のアドレスへの変換を行う際にページマッピングテーブル６３０を参照する。また、ストレージプログラム３６０は、新規ライトを受領する度に、ページ３３１の割当て（ページマッピングテーブル６３０へのレコードの追加）を行う。

図７は、パリティグループ管理テーブル４１３の一例を示す。

パリティグループ管理テーブル４１３は、物理チャンク３１１と複数の物理チャンク３１１を組み合わせて構成したパリティグループ３１０（冗長化グループ）の構成を管理するための制御情報を格納する。

パリティグループ管理テーブル４１３は、論理チャンク管理テーブル７１０、パリティグループ管理テーブル７２０、及び物理チャンク管理テーブル７３０を含んで構成される。

論理チャンク管理テーブル７１０は、パリティグループ３１０から切り出された論理チャンク３２１に係る情報（論理チャンク情報）を格納する。より具体的には、論理チャンク管理テーブル７１０は、論理チャンク番号７１１と、サイズ７１２（ブロック）と、パリティグループ番号７１３とが対応付けられた情報を格納する。

論理チャンク番号７１１は、パリティグループ３１０から切り出された論理チャンク３２１を識別可能な識別情報である。サイズ７１２は、論理チャンク３２１の容量を示す情報（例えば、ブロックの数）である。パリティグループ番号７１３は、論理チャンク３２１が属するパリティグループ３１０を識別可能な識別情報である。

パリティグループ管理テーブル７２０は、パリティグループ３１０に係る情報（パリティグループ情報）を格納する。より具体的には、パリティグループ管理テーブル７２０は、パリティグループ番号７２１と、データ保護設定７２２と、物理チャンク番号７２３とが対応付けられた情報を格納する。

パリティグループ番号７２１は、パリティグループ３１０を識別可能な識別情報である。データ保護設定７２２は、パリティグループ３１０のデータ保護設定である。物理チャンク番号７２３は、パリティグループ３１０に割り当てられた物理チャンク３１１を識別可能な識別情報である。

物理チャンク管理テーブル７３０は、物理チャンク３１１に係る情報（開始オフセットからサイズ分だけドライブ２１４の物理領域を切り出して物理チャンク３１１として管理するための情報）を格納する。より具体的には、物理チャンク管理テーブル７３０は、物理チャンク番号７３１と、開始オフセット７３２と、サイズ７３３（ブロック）と、サイト番号／ノード番号／ドライブ番号７３４とが対応付けられた情報を格納する。

物理チャンク番号７３１は、物理チャンク３１１を識別可能な識別情報である。開始オフセット７３２は、ドライブ２１４から物理チャンク３１１を切り出すときの開始位置を示す情報である。サイズ７３３（ブロック）は、物理チャンク３１１の容量を示す情報（ブロックの数）である。サイト番号／ノード番号／ドライブ番号７３４は、物理チャンク３１１が切り出されている記憶資源を識別可能な識別情報（物理チャンク３１１がどのサイト２０１のどのノード２１０のどのドライブ２１４から切り出されているかを示す情報）である。

図８は、差分情報管理テーブル４１４の一例を示す。

差分情報管理テーブル４１４は、差分情報を管理するためのテーブルである。差分情報管理テーブル４１４は、物理チャンク番号８０１と、ユーザ部差分情報８０２と、パリティ部差分情報８０３とが対応付けられた情報を格納する。

物理チャンク番号８０１は、物理チャンク３１１を識別可能な識別情報である。ユーザ部差分情報８０２は、物理チャンク３１１におけるセグメント毎に当該セグメントが差分セグメントか否かを表す情報である。パリティ部差分情報８０３は、物理チャンク３１１のうちパリティセグメント毎に当該パリティセグメントが差分セグメントか否かを表す情報）である。

本実施形態では、物理チャンク３１１単位で差分情報が記録される、論理チャンク３２１又は仮想ボリュームの領域に紐づけて差分情報が記録されてもよい。差分情報では、単位サイズ（例えば32KB）の領域毎に差分ビットが含まれる。単位サイズの領域は、本実施形態ではセグメントである。セグメント毎に、差分ビットは、差分有（“１”）か否か（“０”）か、すなわち、当該セグメントが差分セグメントか否かを表す。

ノード２１０の物理チャンク３１１毎に、ユーザ部差分情報８０２におけるセグメント毎の差分ビットと、パリティ部差分情報８０３におけるパリティセグメント毎の差分ビットは、下記の通りである。
・ユーザ部差分情報８０２における差分ビットは、当該ノード２１０によりセグメントが更新されたか否かを表す。セグメントは、ユーザセグメントでもよいしパリティセグメントでもよい。
・パリティ部差分情報８０３における差分ビットは、二台以上の別ノード２１０からの差分ビット（ユーザ部差分情報８０２の差分ビット）のＯＲ演算結果としての情報である。具体的には、パリティ部差分情報８０３において、差分ビットは、当該差分ビットに対応したパリティセグメントを含むストライプのうちの二つ以上のユーザセグメントを有する二台以上の別ノードからの差分ビットのＯＲ演算の結果である。

以下、本実施形態で行われる処理の例を説明する。なお、以下の説明において、Ｉ／Ｏ（Input/Output）要求は、ライト要求又はリード要求である。Ｉ／Ｏ要求は、ホスト３５０（又は他種のＩ／Ｏ（Input/Output）要求ソース）から発行される。Ｉ／Ｏ要求では、Ｉ／Ｏ先（例えば、ＬＵＮ（Logical Unit Number）のような仮想ボリューム番号、ＬＢＡのようなアドレス等）が指定されている。仮想ボリューム３３０単位で（又は仮想ボリューム３３０における領域単位で）、当該仮想ボリューム３３０（又は当該仮想ボリューム３３０における領域）のオーナ権を持つノードを表すオーナ権管理テーブルが存在してもよい。オーナ権管理テーブルは、各ノード２１０が保持してよい。Ｉ／Ｏ要求で指定されている領域のオーナ権を持つノードが、当該Ｉ／Ｏ要求を受けたノード２１０であれば、当該ノード２１０が、当該Ｉ／Ｏ要求を処理してよい。一方、Ｉ／Ｏ要求で指定されている領域のオーナ権を持つノードが、当該Ｉ／Ｏ要求を受けたノード２１０で無い場合、当該ノード２１０は、オーナ権管理テーブルを基に、当該領域のオーナ権を持つノード２１０に、当該Ｉ／Ｏ要求を転送してよい。オーナ権は、仮想ボリューム３３０に代えて又は加えて、ストライプ等の他のサイズの領域毎に設けられてもよい。オーナ権は、アクセス権と言い換えられてもよい。

図９は、リード処理プログラム４２１が行うリード処理のフローを示す。

リード処理プログラム４２１は、受信したリード要求で指定されているアクセス先ＬＢＡを参照し（Ｓ９０１）、ストレージプール管理テーブル４１２を基に、アクセス先ＬＢＡが属する領域（仮想ボリューム３３０における領域）にページ３２２が未割当か否かを判定する（Ｓ９０２）。Ｓ９０２の判定結果が真の場合（Ｓ９０２：Ｙｅｓ）、リード処理プログラム４２１は、ページ３２２が未割当であることを示す応答データ（例えば、全ビットの値が“０”のデータ）を生成し（Ｓ９０８）、当該応答データを、リード要求の送信元（例えばホスト３５０）に返却する（Ｓ９０９）。

Ｓ９０２の判定結果が偽の場合（Ｓ９０２：Ｎｏ）、リード処理プログラム４２１は、アクセス先ＬＢＡが属する領域に割り当てられているページ３２２における割当先アドレス（アクセス先ＬＢＡに対応したアドレス）をストレージプール管理テーブル４１２から取得する（Ｓ９０３）。リード処理プログラム４２１は、取得した割当先アドレスの排他を取得する（Ｓ９０４）。

リード処理プログラム４２１は、ストレージプール管理テーブル４１２及びクラスタ管理テーブル４１１を基に、取得した割当先アドレスが正常状態（“Ｎｏｒｍａｌ”）か否かを判定する（Ｓ９０５）。Ｓ９０５の判定結果が真の場合（Ｓ９０５：Ｙｅｓ）、リード処理プログラム４２１は、自ノード（当該リード処理プログラム４２１を有するノード）のドライブ２１４からリード対象のデータを読み出し（Ｓ９０６）、Ｓ９０４で取得した排他を解放し（Ｓ９０７）、当該リード対象のデータを含む応答データを、リード要求の送信元（例えばホスト３５０）に返却する（Ｓ９０９）。Ｓ９０６では、アクセス先ＬＢＡに対応した領域であって自ノードの物理チャンク３１１における領域からデータが読み出される。

Ｓ９０５の判定結果が偽の場合（Ｓ９０５：Ｎｏ）、リード処理プログラム４２１は、差分情報管理テーブル４１４を基に、アクセス先ＬＢＡに対応した物理領域（物理チャンク３１１における領域）の差分ビット（ユーザ部差分情報８０２における差分ビット）が有効（“１”）か否か、つまり、当該物理領域が差分セグメントであるか否かを判定する（Ｓ９１０）。Ｓ９１０の判定結果が偽の場合（Ｓ９１０：Ｎｏ）、すなわち、割当先アドレスが正常状態ではないが、アクセス先ＬＢＡに対応した物理領域が差分セグメントではない場合、アクセス先ＬＢＡに対応した物理領域の基になっているドライブ２１４は、リビルド中の状態ではあるが、アクセス先ＬＢＡに対応した物理領域のデータについてはリビルド済である。このため、Ｓ９０６が行われる。

Ｓ９１０の判定結果が真の場合（Ｓ９１０：Ｙｅｓ）、リード処理プログラム４２１は、コレクション処理プログラム４２３に、コレクション処理（Ｓ９１１）の実行指示を出し、その後、Ｓ９０７及びＳ９０９を実行する。当該実行指示では、アクセス先ＬＢＡに対応した物理領域（つまり、どの物理領域についてコレクション処理を行うか）が指定されてよい。

図１０は、コレクション処理プログラム４２３が行うコレクション処理のフローを示す。コレクション処理の実行指示に応答して、コレクション処理が行われる。当該実行指示には、物理領域（つまり、どの物理領域についてコレクション処理を行うか）が指定されているものとする。

コレクション処理プログラム４２３は、パリティグループ管理テーブル４１３を基に、対象物理領域（コレクション処理対象の物理領域）を含んだ物理チャンク３１１を有するパリティグループ３１０を特定する。コレクション処理プログラム４２３は、差分情報管理テーブル４１４を基に、対象物理領域における差分セグメント毎に、障害データセット（当該差分セグメントにおけるデータセット（ユーザデータセット又はパリティ））の復元に必要な全データセットを、特定されたパリティグループ３１０のうち、対象物理領域を含んだ物理チャンク３１１以外の物理チャンク３１１（つまり一台以上の別ノード２１０）から読み出す（Ｓ１００１）。Ｉ／Ｏ範囲サイズ（入出力の単位サイズの一例）がセグメント（差分ビットに対応した単位領域の一例）と一致している場合、コレクション処理プログラム４２３は、対象物理領域における差分セグメント毎に、読み出されたデータセットを用いて、障害データセットを当該差分セグメントに復元し、当該差分セグメントに対応した差分ビットをクリアする（Ｓ１００２）。差分ビットのクリアは、差分ビットを“１”から“０”に更新することである。

図１１は、ライト処理プログラム４２２が行うライト処理のフローを示す。

ライト処理プログラム４２２は、受信したライト要求で指定されているアクセス先ＬＢＡを参照し（Ｓ１１０１）、ストレージプール管理テーブル４１２を基に、アクセス先ＬＢＡが属する領域（仮想ボリューム３３０における領域）にページ３２２が未割当か否かを判定する（Ｓ１１０２）。Ｓ１１０２の判定結果が真の場合（Ｓ１１０２：Ｙｅｓ）、ライト処理プログラム４２２は、空きページ３２２（いずれの仮想ボリューム３３０にも割り当てられていない割当て可能状態のページ３２２）をストレージプール管理テーブル４１２から特定し、特定したページ３２２を、アクセス先ＬＢＡが属する領域（仮想ボリューム３３０における領域）に割り当てる（Ｓ１１０３）。

Ｓ１１０２の判定結果が偽の場合（Ｓ１１０２：Ｎｏ）、又は、Ｓ１１０３の後、ライト処理プログラム４２２は、アクセス先ＬＢＡが属する領域に割り当てられているページ３２２における割当先アドレス（アクセス先ＬＢＡに対応したアドレス）をストレージプール管理テーブル４１２から取得する（Ｓ１１０４）。ライト処理プログラム４２２は、取得した割当先アドレスの排他を取得する（Ｓ１１０５）。

ライト処理プログラム４２２は、ストレージプール管理テーブル４１２及びクラスタ管理テーブル４１１を基に、取得した割当先アドレスが正常状態（“Ｎｏｒｍａｌ”）か否かを判定する（Ｓ１１０６）。Ｓ１１０６の判定結果が真の場合（Ｓ１１０６：Ｙｅｓ）、ライト処理プログラム４２２は、自ノード（当該ライト処理プログラム４２２を有するノード）のドライブ２１４から旧ユーザデータセット（更新前ユーザデータセット）を読み出し（Ｓ１１０８）、読み出した旧ユーザデータセットを用いて中間ユーザデータセットを生成する（Ｓ１１１０）。「中間ユーザデータセット」は、ユーザデータセットを部分的に更新するときに作成する一時的なユーザデータセットであり、新旧の差分を示すユーザデータセットである。例えば、ストライプに、旧ユーザデータセットＡ１及びＡ２と旧パリティＡＰとが格納されている場合、中間ユーザデータセットは、次のように生成される。
・ＡＰ（旧パリティ）＝Ａ１（旧ユーザデータセット）ＸＯＲＡ２（旧ユーザデータセット）
・Ａ１（新ユーザデータセット）ＸＯＲＡ１（旧ユーザデータセット）＝Ｍ（中間データセット）

なお、新パリティについては、次のように求められる。
・ＡＰ（旧パリティ）ＸＯＲＭ（中間データセット）＝ＡＰ（新パリティ）

Ｓ１１０６の判定結果が偽の場合（Ｓ１１０６：Ｎｏ）、ライト処理プログラム４２２は、差分情報管理テーブル４１４を基に、アクセス先ＬＢＡに対応した物理領域（物理チャンク３１１における領域）の差分ビット（ユーザ部差分情報８０２における差分ビット）が有効（“１”）か否か、つまり、当該物理領域が差分セグメントであるか否かを判定する（Ｓ１１０７）。Ｓ１１０７の判定結果が偽の場合（Ｓ１１０７：Ｎｏ）、すなわち、割当先アドレスが正常状態ではないが、アクセス先ＬＢＡに対応した物理領域が差分セグメントではない場合、アクセス先ＬＢＡに対応した物理領域の基になっているドライブ２１４は、リビルド中の状態ではあるが、アクセス先ＬＢＡに対応した物理領域のデータについてはリビルド済である。このため、Ｓ１１０８が行われる。

Ｓ１１０７の判定結果が真の場合（Ｓ１１０７：Ｙｅｓ）、ライト処理プログラム４２２は、コレクション処理プログラム４２３に、コレクション処理（Ｓ１１０９）の実行指示を出し、その後、Ｓ１１１０を実行する。当該実行指示では、アクセス先ＬＢＡに対応した物理領域（つまり、どの物理領域についてコレクション処理を行うか）が指定されてよい。コレクション処理の詳細は、図１０を参照して説明した通りである。

Ｓ１１１０の後、ライト処理プログラム４２２は、アクセス先ＬＢＡに対応した物理領域におけるセグメントを含むストライプについて、パリティ格納ノード２１０（パリティセグメントを有するノード２１０）に、当該パリティセグメントにおけるパリティの更新要求を送信する（Ｓ１１１１）。ライト処理プログラム４２２は、新データセットを、自ノードの物理チャンク３１１（ドライブ２１４）に書き込む（Ｓ１１１２）。

Ｓ１１１１では、ストライプに複数のパリティセグメントがあれば、複数のパリティ格納ノードの各々に更新要求が送信される。更新要求では、パリティセグメントのアドレスが指定されてよい。また、更新要求は、パリティ更新に必要なデータセット（例えば、パリティセグメントを含むストライプに対応した中間データセット）と、パリティセグメントを含むストライプのうち自ノードのユーザセグメントを含む物理チャンク３１１に対応したユーザ部差分情報８０２の少なくとも一部（例えば、当該パリティセグメントを含むストライプのうち自ノードのユーザセグメントに対応した差分ビット）とを含む。

Ｓ１１１１で送信された更新要求に応答して、パリティ格納ノード２１０により、パリティ格納処理（Ｓ１１２０）が行われる。ライト処理プログラム４２２は、パリティ格納ノード２１０から、Ｓ１１１１で送信した更新要求に対する応答を受信する（Ｓ１１１３）。ライト処理プログラム４２２は、当該応答が、更新失敗を表すか否かを判定する（Ｓ１１１４）。

Ｓ１１１４の判定結果が真の場合（Ｓ１１１４：Ｙｅｓ）、ライト処理プログラム４２２は、アクセス先ＬＢＡに対応した物理領域（物理チャンク３１１における領域）の差分ビットが有効（“１”）とする（Ｓ１１１５）。これにより、差分情報管理テーブル４１４が更新される。ライト処理プログラム４２２は、差分情報管理テーブル４１４を直ちに（又は、ストレージシステム又は自ノードの計画停止時に（例えば、ユーザ操作による停止時に））メモリからドライブ２１４に書き込んでよい。これにより、停電等により差分情報管理テーブル４１４がメモリから消失しても差分情報管理テーブル４１４を復元できる。

Ｓ１１１４の判定結果が偽の場合（Ｓ１１１４：Ｎｏ）、又は、Ｓ１１１５の後、ライト処理プログラム４２２は、アクセス先ＬＢＡに対応した物理領域におけるセグメントを含むストライプについて、パリティ格納ノード２１０（パリティセグメントを有するノード２１０）に、最終更新結果を通知する（Ｓ１１１６）。最終更新結果の通知は、ストライプについて全てのデータセットの更新に成功したか否かを表す通知を含む。一つのデータセットについても更新が失敗であれば、最終更新結果の通知は、失敗を表す。Ｓ１１１６で送信された通知に応答して、パリティ格納ノード２１０により、最終更新結果処理（Ｓ１１３０）が行われる。

Ｓ１１１６の後、ライト処理プログラム４２２は、Ｓ１１０５で取得した排他を解放し（Ｓ１１１７）、ライト要求に対する応答を、当該ライト要求の送信元（例えばホスト３５０）に返却する（Ｓ１１１８）。

図１２は、パリティ格納ノード２１０におけるライト処理プログラム４２２が行うパリティ格納処理のフローを示す。

ライト処理プログラム４２２は、パリティ更新要求を受信する（Ｓ１２０１）。ライト処理プログラム４２２は、受信したパリティ更新要求で指定されているアドレス（パリティセグメントのアドレス）について排他を取得する（Ｓ１２０２）。

ライト処理プログラム４２２は、ストレージプール管理テーブル４１２及びクラスタ管理テーブル４１１を基に、パリティセグメントのアドレスが正常状態（“Ｎｏｒｍａｌ”）か否かを判定する（Ｓ１２０３）。Ｓ１２０３の判定結果が真の場合（Ｓ１２０３：Ｙｅｓ）、ライト処理プログラム４２２は、パリティセグメント（パリティ格納ノード２１０のドライブ２１４）から旧パリティを読み出し（Ｓ１２０６）、読み出した旧パリティと上記更新要求から取得される中間データセットとを用いて新パリティを生成し（Ｓ１２０７）、生成した新パリティをパリティセグメントに書き込む（Ｓ１２０８）。

ライト処理プログラム４２２は、パリティの更新（例えばＳ１２０８）に失敗した場合、パリティ更新先のパリティセグメントに対応した差分ビット（ユーザ部差分情報８０２における差分ビット）を有効（“１”）とする（Ｓ１２１０）。また、ライト処理プログラム４２２は、パリティ更新先のパリティセグメントを含むストライプにおける各ユーザセグメントに対応した差分ビット（ユーザ部差分情報８０２における差分ビットであり別ノード２１０からの差分ビット）のＯＲ演算を行い、ＯＲ演算結果として、パリティ更新先のパリティセグメントに対応した差分ビット（パリティ部差分情報８０３における差分ビット）を格納する（Ｓ１２１１）。なお、ライト処理プログラム４２２は、差分情報管理テーブル４１４を、Ｓ１２１０及びＳ１２１１の少なくとも一つを行ったら直ちに（又は、ストレージシステム又は自ノードの計画停止時に（例えば、ユーザ操作による停止時に））メモリからドライブ２１４に書き込んでよい。これにより、停電等により差分情報管理テーブル４１４がメモリから消失しても差分情報管理テーブル４１４を復元できる。

Ｓ１２０３の判定結果が偽の場合（Ｓ１２０３：Ｎｏ）、ライト処理プログラム４２２は、差分情報管理テーブル４１４を基に、パリティ更新先のパリティセグメントの差分ビット（ユーザ部差分情報８０２における差分ビット）が有効（“１”）か否かを判定する（Ｓ１２０４）。Ｓ１２０４の判定結果が偽の場合（Ｓ１２０４：Ｎｏ）、すなわち、パリティ更新先のパリティセグメントが正常状態ではないが、当該パリティセグメントが差分セグメントではない場合、当該パリティセグメントの基になっているドライブ２１４は、リビルド中の状態ではあるが、当該パリティセグメントのパリティについてはリビルド済である。このため、Ｓ１２０６が行われる。

Ｓ１２０４の判定結果が真の場合（Ｓ１２０４：Ｙｅｓ）、ライト処理プログラム４２２は、Ｓ１２０１で受信したパリティ更新要求に対する応答に更新失敗を設定する（Ｓ１２０５）。

Ｓ１２１１又はＳ１２０５の後、ライト処理プログラム４２２は、Ｓ１２０２で取得した排他を解放し（Ｓ１２１２）、パリティ更新要求に対する応答を、当該更新要求の送信元（つまり別ノード２１０）に返却する（Ｓ１２１３）。

図１３は、パリティ格納ノード２１０におけるライト処理プログラム４２２が行う最終更新結果処理のフローを示す。

ライト処理プログラム４２２は、最終更新結果の通知の受信に失敗した場合（Ｓ１３０１：Ｎｏ）、パリティ更新先のパリティセグメントの差分ビット（ユーザ部差分情報８０２における差分ビット）を有効（“１”）とする（Ｓ１３０３）。

ライト処理プログラム４２２は、最終更新結果の通知の受信に成功したが（Ｓ１３０１：Ｙｅｓ）、当該通知が失敗を表している場合（Ｓ１３０２：Ｙｅｓ）、パリティ更新先のパリティセグメントの差分ビット（ユーザ部差分情報８０２における差分ビット）を有効（“１”）とする（Ｓ１３０３）。ライト処理プログラム４２２は、最終更新結果の通知の受信に成功し（Ｓ１３０１：Ｙｅｓ）、当該通知が成功を表している場合（Ｓ１３０２：Ｎｏ）、Ｓ１３０３を行うことなく処理を終える。

図１４は、リビルド処理プログラム４２４が行うリビルド処理のフローを示す。

リビルド処理プログラム４２４は、例えば、自ノード（当該リビルド処理プログラム４２４を有するノード）が障害から回復した場合に起動してよい。リビルド処理プログラム４２４は、自ノードのセグメント毎に、差分ビットが有効なセグメントのデータセットを復元し、リビルド先セグメントに書き込む。差分ビットが有効なセグメントを含むストライプ全体の状態が正常状態になった場合、リビルド処理プログラム４２４は、有効な差分ビットをクリア（無効化）する。具体的には、リビルド処理は、以下の通りである。

リビルド処理プログラム４２４は、全ての別ノードへ差分情報の取得要求を送信する（Ｓ１４０１）。取得要求では、差分情報の取得範囲（例えば、自ノードのリビルド対象領域に属する少なくとも一つの物理チャンク３１１の少なくとも一部の範囲）が指定されてよい。一つの別ノードを例に取る。別ノードにおけるリビルド処理プログラム４２４は、当該取得要求を受信し（Ｓ１４１５）、指定された範囲のユーザ部差分情報８０２を取得して応答に設定し（Ｓ１４１６）、当該応答を返却する（Ｓ１４１７）。

自ノードのリビルド処理プログラム４２４は、Ｓ１４０１での全ての送信先から応答を受信し（Ｓ１４０２）、リビルド対象領域の差分情報（例えば、リビルド対象領域に属する物理チャンク３１１のパリティ部差分情報８０３）を生成する（Ｓ１４０３）。

リビルド処理プログラム４２４は、リビルド対象領域から、このリビルド処理において未選択の物理チャンク３１１を一つ選択する（Ｓ１４０４）。リビルド処理プログラム４２４は、Ｓ１４０４で選択した物理チャンク３１１の先頭アドレスを取得する（Ｓ１４０５）。

リビルド処理プログラム４２４は、Ｓ１４０５（又は後述のＳ１４１８）で取得されたアドレスが属するセグメントである対象セグメントに対応した差分ビット（自ノードのユーザ部差分情報８０２及びパリティ部差分情報８０３における差分ビット）が有効か否かを判定する（Ｓ１４０６）。

Ｓ１４０６の判定結果が真の場合（Ｓ１４０６：Ｙｅｓ）、リビルド処理プログラム４２４は、対象セグメントの排他を取得する（Ｓ１４０７）。リビルド処理プログラム４２４は、コレクション処理プログラム４２３に、コレクション処理（Ｓ１４０８）の実行指示を出す。当該実行指示では、対象セグメントが指定されてよい。コレクション処理の詳細は、図１０を参照して説明した通りである。リビルド処理プログラム４２４は、コレクション処理（１４０８）において復元されたデータセットをリビルド先領域へ書き込む（Ｓ１４０９）。

リビルド処理プログラム４２４は、対象セグメントを含むストライプにおける全セグメントが回復済（“Ｎｏｒｍａｌ”）か否かを、クラスタ管理テーブル４１１を基に判定する（Ｓ１４１０）。Ｓ１４１０の判定結果が真の場合（Ｓ１４１０：Ｙｅｓ）、リビルド処理プログラム４２４は、対象セグメントに対応した差分ビットを無効（“０”）とし（Ｓ１４１１）、Ｓ１４０７で取得した排他を解放する（Ｓ１４１２）。なお、Ｓ１４１０では、リビルド処理プログラム４２４は、判定対象のストライプにおけるセグメント（部位）毎に、当該セグメントを有するリビルド中の他ノードに、当該セグメントが回復済か否かを問合せる（例えば同期的に問合せる）ことで、当該セグメントが回復済か否か判定してもよい。

Ｓ１４１２の後、Ｓ１４０６の判定結果が偽の場合（Ｓ１４０６：Ｎｏ）、又は、Ｓ１４１０の判定結果が偽の場合（Ｓ１４１０：Ｎｏ）、リビルド処理プログラム４２４は、パリティグループ管理テーブル４１３を基に、対象セグメントが、Ｓ１４０４で選択した物理チャンク３１１の終端のセグメントであるか否かを判定する（Ｓ１４１３）。Ｓ１４１３の判定結果が偽の場合（Ｓ１４１３：Ｎｏ）、リビルド処理プログラム４２４は、Ｓ１４０４で選択した物理チャンク３１１から、対象セグメントの次のセグメントのアドレスを取得し（Ｓ１４１８）、Ｓ１４０６の判定を行う。

Ｓ１４１３の判定結果が真の場合（Ｓ１４１３：Ｙｅｓ）、リビルド処理プログラム４２４は、リビルド対象領域の全チャンクが選択されたか否かを判定する（Ｓ１４１４）。Ｓ１４１４の判定結果が真の場合（Ｓ１４１４：Ｙｅｓ）、リビルド処理が終了する。
Ｓ１４１４の判定結果が偽の場合（Ｓ１４１４：Ｎｏ）、処理がＳ１４０４に戻る。
［第２の実施形態］

第２の実施形態を説明する。その際、第１の実施形態との相違点を主に説明し、第１の実施形態との共通点については説明を省略又は簡略する。

ノードｖがオーナ権を持つ仮想ボリューム３３０を指定したライト要求をノード１が受信した場合、ノードｖは、ライト要求に付随するユーザデータＡを、ノード１のドライブ２１４に格納する。つまり、ノードｖがオーナ権を持つ仮想ボリューム３３０を指定したＩ／Ｏ要求に従い入出力されるユーザデータはノードｖのドライブ２１４に存在するといういわゆるデータローカリティが維持される。

このようなデータローカリティを維持しつつユーザデータＡを冗長化するために、ノードｖは、ユーザデータＡを、ｊのユーザデータセットに分割し、（ｊ×ｋ）のデータセットの各々を、異なる別ノード２１０に転送する。つまり、ノードｖから（ｊ×ｋ）台の別ノード２１０への転送が行われる。別の言い方をすれば、冗長化のためのデータ転送量（転送されるデータセットの数）が、（ｊ×ｋ）である。ｊは、ユーザデータセットの数であり、２以上の整数である。ｋは、パリティの数であり、１以上の整数である。例えば、データ保護ポリシが２Ｄ２Ｐの場合、（ｊ×ｋ）＝（２×２）＝４である。なお、ユーザデータＡのサイズが、ユーザデータセットのサイズの整数倍でない場合、ユーザデータＡから得られる一部のデータのサイズはユーザデータセットのサイズに満たないが、この場合、そのデータに所定のデータ（例えば全ビット“０”のデータ）が付加されることで、所定サイズのユーザデータセットが得られる。

本実施形態では、データローカリティを維持しつつユーザデータの冗長化のためのデータ転送量を削減することができる。具体的には、データ転送量を、（ｊ＋ｋ－１）に削減することができる。例えば、データ保護ポリシが２Ｄ２Ｐの場合、データ転送量は、（ｊ＋ｋ－１）＝（２＋２－１）＝３に削減される。

図１５は、第２の実施形態に係るノード間転送の概要の一例を示す。

四台のノード（ノード１～４）の各々が、２Ｄ２Ｐでデータを保護するようになっているが、データ転送量は、３で済む。以下、その詳細を説明する。なお、ノード２１０のメモリ２１２（図２参照）の一部領域が、キャッシュ領域（又はバッファ領域）といった一時格納領域である。メモリ２１２が、ＳＳＤやＮＶＭｅといった高速な不揮発メモリデバイスを含んでもよく、当該高速な不揮発メモリデバイスに基づく領域が、キャッシュ領域（又はバッファ領域）でよい。

ノードｖ（ｖは、１～４の任意の整数）のライト処理プログラム４２２は、受信したライト対象のユーザデータを二つのユーザデータセットｄｖ１及びｄｖ２に分割し、更に、ノード内冗長コードとして、一つのパリティｐｖ１を生成する。パリティｐｖ１は、一次的な冗長コード（Ｃｌａｓｓ１Ｃｏｄｅ）である。

次に、ノードｖのライト処理プログラム４２２は、ユーザデータセットｄｖ１及びｄｖ２をノードｖのドライブ２１４に格納し、ユーザデータセットｄｖ１及びｄｖ２及びパリティｐｖ１を、別ノードのキャッシュ領域に転送する。ｖ＝１とした場合、ユーザデータセットｄ１１がノード２に、ユーザデータセットｄ１２がノード３に、パリティｐ１１がノード４にそれぞれ転送される。このように、データ転送量は、３である。なお、この転送が完了した時点で、ノードｖのライト処理プログラム４２２は、ライト要求に対する応答を返却してもよい。それに代えて、ノードｖのライト処理プログラム４２２は、転送されたデータセットがドライブ２１４に書き込まれた場合に、ライト要求に対する応答を返却してもよい。

ノードｖのライト処理プログラム４２２は、ライト要求の受信から応答返却までの処理とは非同期的に、ノードｖ以外の三台のノードから集約した三つのデータセット（二つのユーザデータセット及びパリティ）から、二次的な冗長コードであるパリティｘｖ１及びｘｖ２を生成し、ノードｖのドライブ２１４に書き込み、キャッシュ領域（当該三つのデータセットが格納されている領域）を解放する。パリティｘｖ１及びｘｖ２は、二次的な冗長コード（Ｃｌａｓｓ２Ｃｏｄｅ）である。

例えば、ノード３のライト処理プログラム４２２は、ノード１からのユーザデータセットｄ１２、ノード２からのユーザデータセットｄ２１、及びノード４からのパリティｐ４１から、パリティｘ３１及びｘ３２を生成し、パリティｘ３１及びｘ３２をノード３のドライブ２１４に書き込み、キャッシュ領域（ユーザデータセットｄ１２及びｄ２１とパリティｐ４１とが格納された領域）を解放する。

図１５は、２Ｄ２Ｐ冗長構成の例を示すが、本例の方法は、任意のｊＤｋＰ構成に適用できる。すなわち、下記の通りである。
・ノードｖのライト処理プログラム４２２は、ライト対象のユーザデータをノードｖのドライブ２１４に格納すると共に、当該ユーザデータをｊのユーザデータセットｄｖ１、…、ｄｖｊに分割し、且つ、ｊのユーザデータセットｄｖ１、…、ｄｖｊを基に（ｋ－１）のパリティｐｖ１、…、ｐｖ（ｋ－１）を生成し、（ｊ＋ｋ－１）のデータセットの各々を、ノードｖ以外の異なるノードに転送する。つまり、ノードｖからノードｖ以外の（ｊ＋ｋ－１）台のノードへの転送がされる。データ転送量は、（ｊ＋ｋ－１）である。
・ノードｖのライト処理プログラム４２２は、ノードｖ以外の（ｊ＋ｋ－１）台のノードからの（ｊ＋ｋ－１）のデータセット（ｊのユーザデータセットと（ｋ－１）のパリティ）を基に、ｋのパリティｘｖ１、…、ｘｖｋを生成する。ノードｖのライト処理プログラム４２２は、ｋのパリティｘｖ１、…、ｘｖｋを、ノードｖのドライブ２１４に格納する。

また、図１５では、ＲＭＷ（Ｒｅａｄ－Ｍｏｄｉｆｙ－Ｗｒｉｔｅ）で冗長コード（Ｃｌａｓｓ２Ｃｏｄｅ）が更新されてもよい。ＲＭＷで冗長コードが更新される場合、下記の通りである。
・ノードｖのライト処理プログラム４２２は、ライト対象のユーザデータの書き込み先データをリードし、ライトデータとのＸＯＲ演算を行うことで中間データを生成する。そして、ノードｖのライト処理プログラム４２２は、ライトデータをノードｖのドライブ２１４に格納すると共に、当該中間データをｊの中間データセットｄｖ１´、…、ｄｖｊ´に分割し、且つ、ｊの中間データセットｄｖ１´、…、ｄｖｊ´を基に（ｋ－１）の中間パリティｐｖ１、…、ｐｖ（ｋ－１）を生成し、（ｊ＋ｋ－１）の中間データセットの各々を、ノードｖ以外の異なるノードに転送する。
・ノードｖのライト処理プログラム４２２は、中間データセットの一部を受信すると、格納されたｋのパリティｘｖ１、…、ｘｖｋをドライブから読み出し、中間データセットの一部と読み出したｋのパリティとでｌの新パリティｘｖ１´、…、ｘｖｋ´を計算し、ノードｖのドライブ２１４に格納する。

図１６は、第２の実施形態に係るコレクション処理の概要の一例を示す。

２Ｄ２Ｐにおいて、冗長度２と同数の二台のノード１及び２が故障したとする。この場合、生存ノード３において、故障ノード１のデータローカリティにより存在するユーザデータセットｄ１１及びｄ１２がリビルドされ、生存ノード４において、故障ノード２のデータローカリティにより存在するユーザデータセットｄ２１及びｄ２２がコレクションされる。いずれの故障ノードのデータローカリティにより存在するユーザデータセットが、いずれの生存ノードにおいてコレクションされてもよい。

ノード３及び４のうち、ノード３を例に取り、ユーザデータセットｄ１１及びｄ１２のコレクションを説明する。

まず、ノード３のコレクション処理プログラム４２３は、パリティｘ３１及びｘ３２（Ｃｌａｓｓ２ｃｏｄｅ）の生成に用いられたパリティｐ４１（Ｃｌａｓｓ１ｃｏｄｅ）を復元する。具体的には、ノード３のリビルド処理プログラム４２４は、パリティｐ４１の生成に用いられたユーザデータセットｄ４１及びｄ４２を生存ノード４から取得し、当該ユーザデータセットｄ４１及びｄ４２を用いてパリティｐ４１を復元する（パリティｐ４１がノード３のキャッシュ領域に残っていれば、パリティｐ４１の復元はスキップされてよい）。

次に、ノード３のコレクショｈ処理プログラム４２３は、パリティｘ３１及びｘ３２（Ｃｌａｓｓ２ｃｏｄｅ）と、パリティｐ４１とを用いて、パリティｘ３１及びｘ３２の生成に用いられたユーザデータセットｄ１２及びｄ２１を復元する。なお、ノード４では、ノード４のコレクション処理プログラム４２３が、パリティｘ４１及びｘ４２の生成に使用され生存ノード３に存在するデータセットｄ３１をノード３から取得し、パリティｘ４１及びｘ４２とデータセットｄ３１とを用いて、パリティｘ４１及びｘ４２の生成に用いられたユーザデータセットｄ２２及びパリティｐ１１を復元する。

最後に、ノード３のコレクション処理プログラム４２３は、ノード４において復元されたパリティｐ１１をノード４から取得し、ユーザデータセットｄ１２とパリティ１１とを基にユーザデータセットｄ１１を復元する。これにより、ノード３において、ユーザデータセットｄ１１及びｄ１２がリビルドされたことになる。

このように、冗長度ｋと同数のノードに障害が生じた場合、（ｎ－ｋ）台の生存ノードの各々において、当該生存ノードｖのリビルド処理プログラム４２４が、当該生存ノードｖのドライブ２１４にあるｋのパリティｘｖを読み出す。また、生存ノードｖのリビルド処理プログラム４２４が、ｋのパリティｘｖの生成に用いられた（ｋ－１）のデータセット（ユーザデータセット又はパリティ）の各々を、当該データセット（又は当該データセットの生成に用いられたユーザデータセット）を格納する生存ノードから取得することで取得する。生存ノードｖのリビルド処理プログラム４２４が、読み出されたｋのパリティｘｖと、取得された（ｋ－１）のデータセットとを用いて、ｊのユーザデータセットを復元する。生存ノードｖのリビルド処理プログラム４２４は、復元されたｊのユーザデータセットから、対象の障害ノードのユーザデータセット（リビルド対象のユーザデータセット）を取得し、且つ、別の生存ノードから、対象の障害ノードのユーザデータセットを取得する（又は、当該ユーザデータセットの復元に必要なパリティを取得することで、当該ユーザデータセットを取得する）。

このような第２の実施形態では、差分情報は、図１７に例示する通りに管理される。ノードｖとして、ノード４を例に取る。なお、データ保護ポリシは、２Ｄ２Ｐ（ｊＤｋＰの一例）である。

ノード４のドライブ２１４に基づくセグメント毎に差分ビットを有する差分情報を、ノード４が保持する。ノード４におけるセグメントの更新権は、ノード４が有する。

二つのユーザデータセットｄ４１及びｄ４２の各々について、ユーザセグメントの差分ビットの管理は、第１の実施形態と同じである。

一方、二つのパリティｘ４１及びｘ４２は二つのパリティセグメントに格納されるが、二つのパリティセグメントの各々が差分セグメントであるか否かは、一つの差分ビットで管理される。具体的には、障害ノード１で生成されたパリティｐ１１（Ｃｌａｓｓ１ｃｏｄｅ）を用いてパリティｘ４１及びｘ４２が更新され、パリティｐ１１は、ユーザデータセットｄ１１及びｄ１２を用いて生成される。このため、パリティｘ４１及びｘ４２の差分ビットは、ユーザデータセットｄ１１、ｄ１２、ｄ２２及びｄ３１の差分ビットのＯＲ演算結果となる。つまり、ユーザデータセットｄ１１、ｄ１２、ｄ２２及びｄ３１のいずれかが更新されると、パリティｘ４１及びｘ４２のいずれも更新されるため、ユーザデータセットｄ１１、ｄ１２、ｄ２２及びｄ３１のいずれかの差分ビットが有効となると、パリティｘ４１及びｘ４２に対応した差分ビットも有効となる。

なお、パリティｘ４１及びｘ４２に対応した差分ビットのクリア（無効化）は、ユーザデータセットｄ１１、ｄ１２、ｄ２２及びｄ３１の全てが回復した場合に行われる。また、第２の実施形態では、データセットｄ１１、ｄ１２、ｄ２１、ｄ２２、ｄ３１、ｄ３２、ｄ４１及びｄ４２が格納されるユーザ領域を含んだ記憶領域グループが、データ保護単位としての記憶領域グループ（例えば、ストライプ）でよい。

以上が、第２の実施形態の説明である。

以下、第１及び第２の実施形態の説明を総括する。総括は、上述の説明の補足説明を含んでもよいし、変形例の説明を含んでもよい。

ストレージシステム１０１を構成する複数台のノード２１０の各々が、プロセッサ２１１、メモリ２１２及び永続記憶装置（例えば複数のドライブ２１４）を備える。各ノード２１０について、当該ノード２１０の永続記憶装置に基づく記憶領域として、ユーザ領域とパリティ領域の少なくとも一つがある。ユーザ領域は、ユーザデータセットが格納される記憶領域である。パリティ領域は、パリティが格納される記憶領域である。ノード２１０のパリティ領域に格納されるパリティは、当該ノード２１０以外の二台以上のノード２１０の各々からのデータセットを用いて生成される。例えば、第１の実施形態では、ノードｖにおいて、パリティは、ノードｖ以外の二台以上のノード２１０の各々からのユーザデータセットを用いて生成される。第２の実施形態では、ノードｖにおいて、パリティｘは、ノードｖ以外の二台以上のノード２１０の各々からのデータセット（ユーザデータセット、又は、パリティｐ）を用いて生成される。

ユーザ領域を有するノード２１０について、当該ノード２１０のユーザ領域毎に差分ビット（差分有か否かを表す情報の一例）を含んだユーザ部差分情報８０２がある。上述の実施形態では、ユーザ部差分情報８０２（及びパリティ部差分情報８０３）は、物理チャンク毎に存在するが、物理チャンク以外の単位で存在してもよい。ノード２１０のユーザ領域毎に、差分ビットは、障害ノードがある間に当該ノード２１０の当該ユーザ領域のユーザデータセットに更新が生じたことを意味する。

パリティ領域を有するノード２１０について、当該ノード２１０のパリティ領域毎に差分ビットを含んだパリティ部差分情報８０３がある。当該パリティ部差分情報８０３について、パリティ領域毎に、当該パリティ領域に対応した差分ビットは、当該パリティ領域に格納されているパリティの生成に用いられたいずれかのデータセットの記憶領域について差分有を表す情報がある場合に、“１”である。

このように、パリティ領域については、当該パリティ領域に格納されているパリティの生成に用いられた二つ以上のデータセットの記憶領域の差分ビットを基に決まる一つの差分ビットである、言い換えれば、当該二つ以上のデータセットの記憶領域の差分ビットが冗長化される必要が無い。結果として、差分リビルドのために各ノード２１０のメモリ２１２が保持すべき差分情報のサイズを低減する。なお、各ノード２１０について、差分情報（ユーザ部差分情報８０２及び／又はパリティ部差分情報８０３）は、当該ノード２１０のメモリ２１２に保持されてもよいし、当該ノード２１０以外のいずれかのノード２１０のメモリ２１２に保持されてもよい。

また、複数台のノード２１０のうちのいずれかのノードに障害が生じた場合に、障害ノード以外の各ノード２１０のメモリ２１２に、差分情報（ユーザ部差分情報８０２及び／又はパリティ部差分情報８０３）が保持されてよい。別の言い方をすれば、いずれのノード２１０にも障害が生じていない場合、いずれのノード２１０でも差分情報は保持されていなくてよい。

また、上述の実施形態において、ノード２１０の障害の例は、ノード２１０の少なくとも一部（例えば、Ｉ／Ｏ対象のデータの書込みに関するハードウェアやソフトウェア）の停止でよい。

ユーザ部差分情報８０２及びパリティ部差分情報８０３のいずれについても、当該差分情報をメモリ２１２に保持するノード２１０が、当該差分情報のうちの差分ビット“１”を、当該差分ビットに対応した記憶領域が属する記憶領域グループのうちの、全ての障害ノードにおける記憶領域のデータセットが復元された場合に、“０”に更新してよい。このように、記憶領域グループについて更新後データセットが反映された全ての復元データセットが得られたタイミングという適切なタイミングで、差分ビット“１”を、差分無を表す“０”に更新することができる。なお、二つ以上の記憶領域（例えば二つ以上のセグメント）で構成された物理チャンク毎に、ユーザ部差分情報８０２及びパリティ部差分情報８０３が存在してよく、ユーザ部差分情報８０２及びパリティ部差分情報８０３における差分ビット“１”は、物理チャンク単位で差分ビット“０”に更新されてよい。これにより、差分ビットのクリア（“０”へのリセット）の頻度を適切に低減することができる。

障害ノード２１０が障害から回復した場合、当該障害から回復したノードである回復ノード２１０の複数の記憶領域の各々について、当該記憶領域に対応した差分ビットが、当該記憶領域が属する記憶領域グループのうち当該記憶領域以外の二以上の記憶領域のうちの少なくとも一つの記憶領域が差分ビット“１”の場合に“１”とされ、当該回復ノード２１０の複数の記憶領域のうち、差分ビット“１”に対応の記憶領域毎に、当該回復ノードがデータセットを復元してよい。このように、各ノード２１０のメモリ２１２が保持すべき差分情報のサイズが低減されても差分リビルドが可能である。

各ノード２１０は、当該ノード２１０のメモリ２１２における差分情報（ユーザ部差分情報８０２及び／又はパリティ部差分情報８０３）を、特定の契機で、当該ノード２１０のメモリ２１２から当該ノード２１０の永続記憶装置に書き出してよい。これにより、メモリ２１２上の差分情報が永続記憶装置にバックアップされているため、停電等によりメモリ２１２から差分情報の少なくとも一部が消失しても、消失した情報を、永続記憶装置から復元することができる。各ノード２１０について、「特定の契機」は、当該ノード２１０の差分情報の更新時、又は、当該ノード２１０の計画停止時でよい。これにより、適切なタイミングでバックアップできる。バックアップの単位は、差分情報の一部（例えば更新部分のみ）又は全体でもよい。

パリティ領域を有するノード２１０のメモリ２１２が、当該ノード２１０のパリティ領域毎の差分ビットを含んだパリティ部差分情報８０３を保持してよい。これにより、パリティの生成に必要なデータセットの宛先も、当該パリティが格納されるパリティ領域に対応した差分ビットの通知先も、同一のノード２１０となる。結果として、転送効率が向上する。

例えば、第１の実施形態では、ストライプのデータ保護ポリシが、ｊＤｋＰであり（ｊは２以上の整数、ｋは１以上の整数）でよい。当該ストライプが、ｊのユーザ領域とｋのパリティ領域で構成されてよい。ｊのユーザ領域を有するｊ台のノードとｋのパリティ領域を有するｋ台のノードとで構成された（ｊ＋ｋ）台以上のノードのうちのいずれかが、障害ノードでよい。（ｊ＋ｋ）台以上のノードのうちの障害ノード以外のノードである生存ノードの各々が、ライト先の記憶領域にデータセットを格納してよい。当該ライト先の記憶領域に対応した差分ビットが“１”となってよい。障害から回復した回復ノードが、当該回復ノードのパリティ領域毎に、当該パリティ領域を含むストライプにおける少なくとも一つのユーザ領域の差分ビットが“１”の場合、当該パリティ領域に対応した差分ビットを“１”に更新してよい。当該回復ノードは、当該パリティ領域に対応した差分ビットが“１”であれば、当該パリティ領域のパリティを、当該回復ノード以外のデータにおけるユーザデータセットを基に復元してよい。

ユーザ領域を有するノード２１０のメモリ２１２が、当該ノード２１０のユーザ領域毎の情報を含んだユーザ部差分情報８０２を保持してよい。これにより、当該ノード２１０のユーザ領域が更新された場合に迅速にユーザ部差分情報８０２を更新することができる。また、複数台のノード２１０の各々が、ボリューム３３０を提供し、当該ボリューム３３０を指定したライト要求に付随するユーザデータから得られた全てのユーザデータセットを、当該ノード２１０の永続記憶装置に格納してよい。これにより、各ノード２１０は、当該ノード２１０がオーナ権を有する領域に対するユーザデータの入出力を高速に行うことができる。

例えば、第２の実施形態では、データ保護ポリシが、ｊＤｋＰであり（ｊは２以上の整数、ｋは１以上の整数）、ノードｖは、下記を行ってよい。これにより、差分情報の削減とデータ転送量の削減との両方が可能である。
・ノードｖは、ライト対象のユーザデータから得られたｊのユーザデータセットを、当該ノードｖの永続記憶装置に格納する。ノードｖは、当該ｊのユーザデータセットを用いて、（ｋ－１）のパリティである（ｋ－１）の一次パリティを生成する。ノードｖは、（ｊ＋ｋ－１）のデータセット（当該ｊのユーザデータセットと当該（ｋ－１）の一次パリティ）を、当該ノードｖ以外の（ｊ＋ｋ－１）台のノードに転送する。
・ノードｖは、当該ノードｖ以外の（ｊ＋ｋ－１）台のノード２１０から得られた（ｊ＋ｋ－１）のデータセットを用いて、ｋのパリティであるｋの二次パリティを生成する。この「（ｊ＋ｋ－１）のデータセット」は、当該ノードｖのユーザデータセットを含まないｊのユーザデータセットと、当該ノードｖのパリティを含まない（ｋ－１）のパリティとの集合である。ノードｖは、当該ｋの二次パリティを、当該ノードｖの永続記憶装置に格納する。ノードｖは、当該ｋの二次パリティの生成に用いられた（ｊ＋ｋ－１）のデータセットのうちのいずれかのデータセットの記憶領域について差分ビットが“１”である場合、当該ノードｖのパリティ部差分情報８０３のうちの、当該ｋの二次パリティが格納されたｋのパリティ領域に共通の差分ビットを、差分有を表す情報に更新する。

また、データ保護ポリシが、ｊＤｋＰであり（ｊは２以上の整数、ｋは１以上の整数）、以下のように中間データセットが用いられてもよい。なお、下記の説明は、例えば、図３と、図１５～図１７とを参照することで、導き出せる事項である。
・ノードｖは、ライト対象のユーザデータから得られたｊのユーザデータセットを、当該ノードｖの永続記憶装置に格納する。ノードｖは、当該ｊのユーザデータセットと当該ｊのユーザデータセットの書き込み先に格納されたｊの旧ユーザデータセットとで計算されたｊの中間データセットを用いて、（ｋ－１）の中間パリティである（ｋ－１）の一次中間パリティを生成する。ノードｖは、（ｊ＋ｋ－１）のデータセット（当該ｊの中間データセットと当該（ｋ－１）の一次中間パリティ）を、当該ノードｖ以外の（ｊ＋ｋ－１）台のノードに転送する。
・ノードｖは、当該ノードｖ以外の（ｊ＋ｋ－１）台のノード２１０から得られた（ｊ＋ｋ－１）のデータセットに基づくｋの新二次パリティの書き込み先に対応するｋの旧二次パリティを読み出す。この「（ｊ＋ｋ－１）のデータセット」は、当該ノードｖの中間データセットを含まないｊの中間データセットと、当該ノードｖの一次中間パリティを含まない（ｋ－１）の中間パリティとの集合である。ノードｖは、ｋの旧二次パリティと受信した（ｊ＋ｋ－１）のデータセットとを用いて、ｋのパリティであるｋの新二次パリティを生成し、当該ｋの新二次パリティを、当該ノードｖの永続記憶装置に格納する。当該ｋの二次パリティの生成に用いられた（ｊ＋ｋ－１）のデータセットのうちのいずれかのデータセットの記憶領域について差分ビットが“１”である場合、ノードｖは、当該ノードｖのパリティ部差分情報８０３のうちの、当該ｋの二次パリティが格納されたｋのパリティ領域に共通の差分ビットを、差分有を表す情報に更新する。

なお、パリティ領域を有するノード２１０のパリティ部差分情報８０３について、パリティ領域毎に、当該パリティ領域に格納されているパリティの生成に用いられたいずれかのデータセットの記憶領域について差分ビットが“１”の場合、当該パリティ領域に対応した差分ビットは“１”でよい。

なお、例えば、差分情報のローカリティに関し、下記のような表現がされてよい。
［表現例］
それぞれプロセッサ、メモリ及び永続記憶装置を備える複数台のノードを備え、
前記複数台のノードの各々について、当該ノードの永続記憶装置に基づく記憶領域毎に差分有か否かを表す情報を含んだ差分情報があり、当該差分情報が、当該ノードのメモリに保持される、
ストレージシステム。

この表現例においても、差分情報は、上述の特定の契機でメモリから永続記憶装置に格納されてよい。また、回復ノードの各記憶領域について、当該記憶領域の差分有無情報（差分有か否かを表す情報）は、当該記憶領域が属する記憶領域グループのうち当該記憶領域以外の記憶領域のうちの少なくとも一つの記憶領域の差分有無情報が差分有を表している場合、差分有を表す情報とされてよい。

以上、幾つかの実施形態を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施形態にのみ限定する趣旨ではない。本発明は、他の種々の形態でも実行することが可能である。

１０１…ストレージシステム、２１０…ノード

Claims

それぞれプロセッサ、メモリ及び永続記憶装置を備える複数台のノードを備え、
前記複数台のノードの各々について、
当該ノードの永続記憶装置に基づく記憶領域として、データセットとしてのユーザデータセットが格納される記憶領域であるユーザ領域と、データセットとしてのパリティが格納される記憶領域であるパリティ領域とのうちの少なくとも一つがあり、
当該ノードのパリティ領域に格納されるパリティは、当該ノード以外の二台以上のノードの各々からのデータセットを用いて生成されたデータセットであり、
ユーザ領域を有するノードについて、当該ノードのユーザ領域毎に差分有か否かを表す情報を含んだユーザ部差分情報があり、
ユーザ領域毎に、差分有は、障害が生じているノードである障害ノードがある間に当該ノードの当該ユーザ領域のユーザデータセットに更新が生じたことであり、
パリティ領域を有するノードについて、
当該ノードのパリティ領域毎に差分有か否かを表す情報を含んだパリティ部差分情報があり、
当該パリティ部差分情報について、パリティ領域毎に、当該パリティ領域に対応した情報は、当該パリティ領域に格納されているパリティの生成に用いられたいずれかのデータセットの記憶領域について差分有を表す情報がある場合に、差分有を表す情報である、
ストレージシステム。
ユーザ部差分情報及びパリティ部差分情報のいずれについても、当該差分情報をメモリに保持するノードが、当該差分情報のうちの、差分有を表す情報を、当該情報に対応した記憶領域が属する記憶領域グループのうちの、全ての障害ノードにおける記憶領域のデータセットが復元された場合に、差分無を表す情報に更新する、
請求項１に記載のストレージシステム。
前記複数台のノードの各々について、
当該ノードは、それぞれが二つ以上の記憶領域で構成された複数の物理チャンクを有し、
ユーザ部差分情報及びパリティ部差分情報は、それぞれ物理チャンク毎に存在し、
差分無を表す情報への更新は、物理チャンク単位で行われる、
請求項２に記載のストレージシステム。
前記障害ノードが障害から回復した場合、
当該障害から回復したノードである回復ノードの複数の記憶領域の各々について、当該記憶領域に対応した情報が、当該記憶領域が属する記憶領域グループのうち当該記憶領域以外の二以上の記憶領域のうちの少なくとも一つの記憶領域が差分有の場合に差分有を表す情報とされ、
当該回復ノードの複数の記憶領域のうち、差分有の記憶領域毎に、当該回復ノードがデータセットを復元する、
請求項１に記載のストレージシステム。
前記複数台のノードの各々は、当該ノードの差分情報を、特定の契機で、当該ノードのメモリから当該ノードの永続記憶装置に書き出す、
請求項１に記載のストレージシステム。
前記複数台のノードの各々について、前記特定の契機は、当該ノードの差分情報の更新時、又は、当該ノードの計画停止時である、
請求項５に記載のストレージシステム。
パリティ領域を有するノードのメモリが、当該ノードのパリティ領域毎の情報を含んだパリティ部差分情報を保持する、
請求項１に記載のストレージシステム。
ストライプのデータ保護ポリシが、ｊＤｋＰであり（ｊは２以上の整数、ｋは１以上の整数）、
当該ストライプが、ｊのユーザ領域とｋのパリティ領域で構成され、
前記ｊのユーザ領域を有するｊ台のノードと前記ｋのパリティ領域を有するｋ台のノードとで構成された（ｊ＋ｋ）台以上のノードのうちのいずれかが、障害が生じているノードである障害ノードであり、
前記（ｊ＋ｋ）台以上のノードのうちの前記障害ノード以外のノードである生存ノードの各々が、ライト先の記憶領域にデータセットを格納し、
当該ライト先の記憶領域に対応した情報が、差分有を表す情報となり、
障害から回復したノードである回復ノードが、当該回復ノードのパリティ領域毎に、
当該パリティ領域を含むストライプにおける少なくとも一つのユーザ領域に対応した情報が差分有を表す情報の場合、当該パリティ領域に対応した情報を、差分有を表す情報に更新し、
当該パリティ領域に対応した情報が差分有を表していれば、当該パリティ領域のパリティを、当該回復ノード以外のデータにおけるユーザデータセットを基に復元する、
請求項１に記載のストレージシステム。
ユーザ領域を有するノードのメモリが、当該ノードのユーザ領域毎の情報を含んだユーザ部差分情報を保持する、
請求項１に記載のストレージシステム。
前記複数台のノードの各々が、
ボリュームを提供し、
当該ボリュームを指定したライト要求に付随するユーザデータから得られた全てのユーザデータセットを、当該ノードの永続記憶装置に格納する、
請求項９に記載のストレージシステム。
データ保護ポリシが、ｊＤｋＰであり（ｊは２以上の整数、ｋは１以上の整数）、
ノードが、
ライト対象のユーザデータから得られたｊのユーザデータセットを、当該ノードの永続記憶装置に格納し、
当該ｊのユーザデータセットを用いて、（ｋ－１）のパリティである（ｋ－１）の一次パリティを生成し、
当該ｊのユーザデータセットと当該（ｋ－１）のパリティである（ｊ＋ｋ－１）のデータセットを、当該ノード以外の（ｊ＋ｋ－１）台のノードに転送し、
当該ノード以外の（ｊ＋ｋ－１）台のノードから得られ当該ノードのユーザデータセットを含まないｊのユーザデータセットと当該ノードのパリティを含まない（ｋ－１）のパリティとの集合である（ｊ＋ｋ－１）のデータセットを用いて、ｋのパリティであるｋの二次パリティを生成し、
当該ｋの二次パリティを、当該ノードの永続記憶装置に格納し、
当該ｋの二次パリティの生成に用いられた（ｊ＋ｋ－１）のデータセットのうちのいずれかのデータセットの記憶領域について差分有を表す情報がある場合、当該ノードのパリティ部差分情報のうちの、当該ｋの二次パリティが格納されたｋのパリティ領域に共通の情報を、差分有を表す情報に更新する、
請求項１に記載のストレージシステム。
データ保護ポリシが、ｊＤｋＰであり（ｊは２以上の整数、ｋは１以上の整数）、
ノードが、
ライト対象のユーザデータから得られたｊのユーザデータセットを、当該ノードの永続記憶装置に格納し、
当該ｊのユーザデータセットと当該ｊのユーザデータセットの書き込み先に格納されたｊの旧ユーザデータセットとで計算されたｊの中間データセットを用いて、（ｋ－１）の中間パリティである（ｋ－１）の一次中間パリティを生成し、
当該ｊの中間データセットと当該（ｋ－１）の一次中間パリティである（ｊ＋ｋ－１）のデータセットを、当該ノード以外の（ｊ＋ｋ－１）台のノードに転送し、
当該ノード以外の（ｊ＋ｋ－１）台のノードから得られ当該ノードの中間データセットを含まないｊの中間データセットと当該ノードの一次中間パリティを含まない（ｋ－１）の一次中間パリティとの集合である（ｊ＋ｋ－１）のデータセットを用いて、ｋのパリティであるｋの二次パリティを生成し、
当該ｋの二次パリティを、当該ノードの永続記憶装置に格納し、
当該ｋの二次パリティの生成に用いられた（ｊ＋ｋ－１）のデータセットのうちのいずれかのデータセットの記憶領域について差分有を表す情報がある場合、当該ノードのパリティ部差分情報のうちの、当該ｋの二次パリティが格納されたｋのパリティ領域に共通の情報を、差分有を表す情報に更新する、
請求項１に記載のストレージシステム。
それぞれプロセッサ、メモリ及び永続記憶装置を備える複数台のノードを備えたストレージシステムにより行われる記憶制御方法であって、
前記複数台の当該ノードの各々について、当該ノードの永続記憶装置に基づく記憶領域として、データセットとしてのユーザデータセットが格納される記憶領域であるユーザ領域と、データセットとしてのパリティが格納される記憶領域であるパリティ領域とのうちの少なくとも一つがあり、
当該ノードのパリティ領域に格納されるパリティは、当該ノード以外の二台以上のノードの各々からのデータセットを用いて生成されたデータセットであり、
ユーザ領域を有するノードについて、当該ノードのユーザ領域毎に差分有か否かを表す情報を含んだ差分情報であるユーザ部差分情報があり、
ユーザ領域毎に、差分有は、障害が生じているノードである障害ノードがある間に当該ノードの当該ユーザ領域のユーザデータセットに更新が生じたことであり、
パリティ領域を有するノードについて、当該ノードのパリティ領域毎に差分有か否かを表す情報を含んだ差分情報であるパリティ部差分情報があり、
前記記憶制御方法は、
前記複数台のノードのうちのいずれかのノードである第１のノードが、障害が生じたノードである障害ノードである間において、前記複数台のノードのうちの障害ノード以外のノードである生存ノードにおいていずれかの生存ノードのユーザ領域におけるユーザデータセットが更新された場合、当該更新されたユーザデータセットが格納されるユーザ領域を有する生存ノードについてのユーザ部差分情報をメモリに保持する生存ノードが、当該ユーザ部差分情報のうち、当該ユーザ領域に対応した情報を、差分有を表す情報に更新するステップと、
前記第１のノードが前記障害から回復し、前記第１のノードが、前記更新されたユーザデータセットを用いて生成されるパリティが格納されるパリティ領域を有するノードについてのパリティ部差分情報をメモリに保持するノードである場合、前記第１のノードが、当該パリティ部差分情報のうち、当該パリティ領域に対応した情報を、当該パリティ領域に格納されているパリティの生成に用いられたいずれかのデータセットの記憶領域について差分有を表す情報がある場合に、差分有を表す情報とするステップと
を有する記憶制御方法。