JP7506707B2

JP7506707B2 - 記憶システム及び障害対処方法

Info

Publication number: JP7506707B2
Application number: JP2022074093A
Authority: JP
Inventors: 成己倉田; 貴大山本; 隆喜中村; 秀雄斎藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2022-04-28
Filing date: 2022-04-28
Publication date: 2024-06-26
Anticipated expiration: 2042-04-28
Also published as: US12111730B2; CN116974462A; JP2023163298A; US20230350753A1

Description

本発明は記憶システム及び障害対処方法に関し、例えば、それぞれ１又は複数のＳＤＳ（Software Defined Storage）が実装された複数のストレージノードを備える記憶システムに適用して好適なものである。なお、以下において、ＳＤＳとは、ストレージ機能を有するソフトウェアを汎用のサーバ装置に実装することにより構築されるストレージ装置を指す。

従来、情報処理システムでは、可用性及び信頼性向上のためにサーバ装置の冗長化構成をとることが多い。例えば、特許文献１には、ＳＤＳのストレージ制御ソフトウェアのフェールオーバ方式が提案されている。

具体的に、特許文献１では、フェールオーバを実現する制御ソフトウェアのペアを、平時に動作するアクティブ側の制御ソフトウェア（以下、これをアクティブ制御ソフトウェアと呼ぶ）と、障害発生時にアクティブ制御ソフトウェアから処理を引き継ぐスタンバイ側の制御ソフトウェア（以下、これをスタンバイ制御ソフトウェアと呼ぶ）とで構成し、同じペアを構成するアクティブ制御ソフトウェア及びスタンバイ制御ソフトウェアをそれぞれ異なるサーバ装置に配置する。また同じペアを構成するアクティブ制御ソフトウェア及びスタンバイ制御ソフトウェアは、それぞれ同じ制御情報を保持し、これらの制御情報を常に同期して更新する。

このような技術によれば、システム全体の信頼性を維持しつつ、制御情報の読込み処理をサーバ内で閉じることができるため、高性能化を達成できるという利点がある。

一方、近年では、クラウド（特にパブリッククラウド）が情報処理システムのプラットフォームとして普及しつつある。このようなパブリッククラウドでは、パブリッククラウドベンダがＩａａＳ（Infrastructure as a Service）として計算機資源やストレージ資源を提供するサービスを展開している。

パブリッククラウドのユーザは、これらパブリッククラウド上の計算機サービスやストレージサービスにＡＰＩ（Application Programming Interface）を通じてアクセスし、必要な量の計算機資源やストレージ資源を必要なタイミングで確保可能であり、またその構成も迅速に変更可能である。

特開２０１９－１０１７０３号公報

分散ストレージシステム全体としての信頼性及び性能の維持を考慮した場合、サーバ装置の障害を契機とした縮退構成から迅速に復旧するため、特許文献１が前提としている環境をはじめとするオンプレミスの環境においては、予備のサーバ装置を配置することが一般的である。また一般に、予備のサーバ装置には、予め記憶装置が取り付けられており、障害からの復旧時にはその記憶装置にデータを書き戻すことで縮退構成から復帰する。

しかしながら、このように予備のサーバ装置を予め用意するためにはその分の費用が必要となり、分散ストレージシステムの導入や構築に多くの費用を要するという問題があった。また、縮退構成からの復帰のためには、上述のように障害が発生したサーバ装置から予備のサーバ装置に接続された記憶装置に対してデータのコピーを行わなければならないために相応の時間を要し、迅速な復旧の阻害要因となっている問題があった。

本発明は以上の点を考慮してなされたもので、システム構築に要する費用を抑制しながら、障害発生時には縮退構成からの復帰を迅速に行い得る記憶システム及び障害対処方法を提案しようとするものである。

かかる課題を解決するため本発明においては、上位装置に対して記憶領域を提供する記憶システムにおいて、クラウドシステムに設けられ、それぞれ前記記憶領域を提供する１又は複数の記憶装置と、前記クラウドシステムに設けられ、前記上位装置からの要求に応じて自己に割り当てられた前記記憶装置にデータを読み書きする１又は複数のストレージノードと、前記クラウドシステムを制御するクラウド制御装置とを設け、前記ストレージノードが、他のストレージノードの障害を検知した場合に、新たなストレージノードの用意を前記クラウド制御装置に指示し、障害が発生したストレージノードに割り当てられていた前記記憶装置が故障しているか否かを判断し、当該記憶装置が故障していないと判断した場合には、前記障害が発生したストレージノードに割り当てられていた前記記憶装置を、前記新たなストレージノードに割り当てるよう前記クラウド制御装置に依頼し、前記新たなストレージノードが、障害の発生中に前記障害が発生したストレージノードに割り当てられていた前記記憶装置への書き込みが要求されていたデータを、前記新たなストレージノードに割り当てられた前記記録装置に書き込むようにした。

また本発明においては、上位装置に対して記憶領域を提供する記憶システムにおける障害対処方法において、前記記憶システムは、クラウドシステムに設けられ、それぞれ前記記憶領域を提供する１又は複数の記憶装置と、前記クラウドシステムに設けられ、前記上位装置からの要求に応じて自己に割り当てられた前記記憶装置にデータを読み書きする１又は複数のストレージノードと、前記クラウドシステムを制御するクラウド制御装置とを有し、前記ストレージノードが、他のストレージノードの障害を検知した場合に、新たなストレージノードの用意を前記クラウド制御装置に依頼する第１のステップと、当該ストレージノードが、障害が発生したストレージノードに割り当てられていた前記記憶装置が故障しているか否かを判断する第２のステップと、当該ストレージノードが、当該記憶装置が故障していないと判断した場合には、前記障害が発生したストレージノードに割り当てられていた前記記憶装置を、前記新たなストレージノードに割り当てるよう前記クラウド制御装置に依頼する第３のステップと、前記新たなストレージノードが、障害の発生中に前記障害が発生したストレージノードに割り当てられていた前記記憶装置への書き込みが要求されていたデータを、前記新たなストレージノードに割り当てられた前記記録装置に書き込む第４のステップとを設けるようにした。

本発明の記憶システム及び障害対処方法によれば、ユーザが分散ストレージシステムを構築するに際して予備の計算機資源やストレージ資源を事前に用意する必要がないため、ユーザ視点から見て安価に記憶システムを構築することができる。また障害が発生したストレージノードに割り当てられていた記憶装置に格納されているデータを、例えば新たなストレージノードに割り当てた記憶装置にコピーするといった作業も必要がなく、障害発生時の縮退構成からの復帰を迅速に行うことができる。

本発明によれば、システム構築に要する費用を抑制しながら、障害発生時には縮退構成からの復帰を迅速に行い得る記憶システム及び障害対処方法を実現できる。

本実施の形態による記憶システムの全体構成を示すブロック図である。ストレージノードの概略構成を示すブロック図である。ストレージノードのメモリに格納されたソフトウェア及び情報の説明に供するブロック図である。チャンク管理テーブルの構成を示す図表である。チャンクグループ管理テーブルの構成を示す図表である。チャンク更新管理ビットマップテーブルの構成を示す図表である。更新管理ビットマップの説明に供する概念図である。本記憶システムにおける正常時のクラウドの構成及び各ストレージノードの動作説明に供するブロック図である。本記憶システムにおける障害発生時の縮退動作の説明に供するブロック図である。本記憶システムの縮退構成時におけるリード処理の流れの説明に供するブロック図である。本記憶システムの縮退構成時におけるライト処理の流れの説明に供するブロック図である。代替ストレージノードの作成処理の説明に供するブロック図である。代替ストレージノードの作成処理の説明に供するブロック図である。代替ストレージノードの作成処理の説明に供するブロック図である。リビルド処理の説明に供するブロック図である。代替ストレージノード作成処理の処理手順を示すフローチャートである。構成情報更新処理の処理手順を示すフローチャートである。リビルド処理の処理手順を示すフローチャートである。

以下図面について、本発明の一実施の形態を詳述する。なお、以下の記載及び図面は、本発明を説明するための一例であり、本発明の技術的範囲を限定するものではない。また各図において、共通の構成については同一の参照番号が付されている。

以下の説明では、「テーブル」、「表」、「リスト」、「キュー」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「ＸＸテーブル」、「ＸＸリスト」等を「ＸＸ情報」と呼ぶことがある。各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「ＩＤ」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。

また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号又は参照符号における共通番号を使用し、同種の要素を区別して説明する場合は、その要素の参照符号を使用又は参照符号に代えてその要素に割り振られたＩＤを使用することがある。

また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、少なくとも１以上のプロセッサ（例えばＣＰＵ）によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）及び／又はインターフェースデバイス（例えば通信ポート）等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノード、ストレージシステム、ストレージ装置、サーバ、管理計算機、クライアント、又はホストであってもよい。プログラムを実行して行う処理の主体（例えばプロセッサ）は、処理の一部又は全部を行うハードウェア回路を含んでもよい。例えば、プログラムを実行して行う処理の主体は、暗号化及び復号化、又は圧縮及び伸張を実行するハードウェア回路を含んでもよい。プロセッサは、プログラムに従って動作することによって、所定の機能を実現する機能部として動作する。プロセッサを含む装置及びシステムは、これらの機能部を含む装置及びシステムである。

プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサ（例えばＣＰＵ）と記憶資源を含み、記憶資源はさらに配布プログラムと配布対象であるプログラムとを記憶してよい。そして、プログラム配布サーバのプロセッサが配布プログラムを実行することで、プログラム配布サーバのプロセッサは配布対象のプログラムを他の計算機に配布してよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

（１）本実施の形態による記憶システムの概要
図１においては、１は全体して本実施の形態による記憶システムを示す。この記憶システム１は、例えばイーサネット（登録商標）又はＬＡＮ（Local Area Network）などから構成されるネットワーク２を介して相互に接続された複数のホスト装置３と、クラウドシステム４と、クラウド制御装置５とを備えて構成される。

ホスト装置３は、ユーザ操作や実装されたアプリケーションプログラムからの要求に応じてクラウドシステム４内の後述するストレージノード１０に対してリード要求やライト要求（以下、適宜、これらを纏めてＩ／Ｏ（Input/Output）要求と呼ぶ）を送信する上位装置であり、汎用のコンピュータ装置から構成される。なお、ホスト装置３は、物理的なコンピュータ装置であっても、また仮想マシンのような仮想的なコンピュータ装置であってもよい。さらにホスト装置３がクラウドシステム４内に組み込まれていてもよい。

クラウドシステム４は、複数のストレージノード１０から構成される計算機提供サービス部１１と、複数の記憶装置１２から構成されるブロックストレージ提供サービス部１３とから構成され、計算機提供サービス部１１を構成する各ストレージノード１０と、ブロックストレージ提供サービス部１３を構成する各記憶装置１２とがそれぞれブロックストレージ提供サービス向けネットワーク１４を介して相互に接続されている。

ストレージノード１０は、ホスト装置３に対してデータを読み書きするための記憶領域を提供する物理的又は仮想的なサーバ装置である。実際上、各ストレージノード１０には、ブロックストレージ提供サービス部１３内の１又は複数の記憶装置１２がそれぞれ割り当てられている。そしてストレージノード１０は、これら割り当てられた記憶装置１２が提供する記憶領域を仮想化してホスト装置３に提供する。

ストレージノード１０は、図２に示すように、内部ネットワーク２０を介して相互に接続されたＣＰＵ（Central Processing Unit）２１、ホスト向け通信装置２２及びブロックストレージサービス向け通信装置２３と、ＣＰＵ２１に接続されたメモリ２４とを備えて構成される。各ストレージノード１０は、ＣＰＵ２１、ホスト向け通信装置２２、ブロックストレージサービス向け通信装置２３及びメモリ２４をそれぞれ１つ以上備える。

ストレージノード１０が物理的なサーバ装置の場合、ＣＰＵ２１、ホスト向け通信装置２２、ブロックストレージサービス向け通信装置２３及びメモリ２４は物理的なデバイスから構成され、ストレージノード１０が仮想的なサーバ装置の場合、ＣＰＵ２１、ホスト向け通信装置２２、ブロックストレージサービス向け通信装置２３及びメモリ２４はそれぞれ仮想的なデバイスとして構成される。

ＣＰＵ２１は、ストレージノード１０全体の動作制御を司るプロセッサである。またメモリ２４は、ＳＲＡＭ（Static RAM（Random Access Memory））やＤＲＡＭ（Dynamic RAM）などの揮発性の半導体メモリから構成され、各種プログラムや必要なデータを一時的に保持するために利用される。メモリ２４に格納されたプログラムを、少なくとも１以上のＣＰＵ２１が実行することにより、後述のようなストレージノード１０全体としての各種処理が実行される。

ホスト向け通信装置２２は、ストレージノード１０がネットワーク２を介してホスト装置３や、他のストレージノード１０又はクラウド制御装置５と通信を行うためのインタフェースであり、例えばＮＩＣ（Network Interface Card）などから構成される。ホスト向け通信装置２２は、ホスト装置３や、他のストレージノード１０又はクラウド制御装置５との通信時におけるプロトコル制御を行う。

ブロックストレージ提供サービス向け通信装置２３は、ストレージノード１０がブロックストレージ提供サービス向けネットワーク１４を介してブロックストレージ提供サービス部１３内の記憶装置１２と通信を行うためのインタフェースであり、例えば、ホスト向け通信装置２２と同様にＮＩＣなどから構成される。ブロックストレージ提供サービス向け通信装置２３は、記憶装置１２との通信時におけるプロトコル制御を行う。

なおホスト向け通信装置２２及びブロックストレージ提供サービス向け通信装置２３は、物理的に異なる通信装置であってもよいし、物理的に同一で論理的に分離されている通信装置であってもよい。さらには、ホスト向け通信装置２２及びブロックストレージ提供サービス向け通信装置２３が物理的及び論理的に同一の通信装置であってもよい。

各ストレージノード１０は、図１に示すように、他の１又は複数のストレージノード１０と共にクラスタ１５と呼ぶ１つのグループに纏められて管理される。図１の例では、計算機提供サービス部１１内にクラスタ１５が１つのみ設定された場合について例示しているが、計算機提供サービス部１１内に複数のクラスタ１５を設定するようにしてもよい。またクラスタ１５は、分散ストレージシステムと呼ばれるものであってもよい。

記憶装置１２は、ＳＡＳ（Serial Attached SCSI(Small Computer System Interface)）ＳＳＤ（Solid State Drive）、ＮＶＭｅ（Non Volatile Memory express）ＳＳＤ、ＳＡＳハードディスクドライブ又はＳＡＴＡ（Serial ATA(Advanced Technology Attachment)）ハードディスクドライブなどの１又は複数種類の大容量の不揮発性記憶装置から構成される。記憶装置１２は、ホスト装置３からのＩ／Ｏ要求に応じてデータを読み書きするための物理的又は論理的な記憶領域を提供する。

クラウド制御装置５は、システム管理者がクラウドシステム４内の計算機提供サービス部１１及びブロックストレージ提供サービス部１３を制御する機能を有する汎用のコンピュータ装置である。クラウド制御装置５は、システム管理者の操作に応じて、計算機提供サービス部１１内のストレージノード１０及びクラスタ１５や、ブロックストレージ提供サービス部１３内の記憶装置１２の追加、削除又は構成変更などをネットワーク２を介して行う。なお、クラウド制御装置５は、物理的なコンピュータ装置であっても、また仮想マシンのような仮想的なコンピュータ装置であってもよい。さらにクラウド制御装置５がクラウドシステム４内に組み込まれていてもよい。

（２）本記憶システムにおける各種処理の流れ
（２－１）各ストレージノードのメモリに格納されたプログラム及び情報
次に、本記憶システム１における各種処理の流れについて説明する。これに際して、まず、かかる各種処理に関連して各ストレージノード１０のメモリ２４（図２）に格納されるソフトウェア及び情報について、図３～図７を参照して説明する。

図３に示すように、各ストレージノード１０のメモリ２４には、ソフトウェアとして、複数のストレージ制御部３０、クラスタ制御部３１及び容量制御部３２が格納され、構成情報として、各ストレージ制御部３０にそれぞれ対応させて設けられた複数のストレージ構成情報３３と、チャンク管理テーブル３４、チャンクグループ管理テーブル３５及びチャンク更新管理ビットマップテーブル３６から構成される容量構成情報３７とが格納されている。

ストレージ制御部３０は、ＳＤＳのストレージコントローラとして機能するソフトウェアである。ストレージ制御部３０は、ホスト装置３（図１）からのＩ／Ｏ要求を受け付け、容量制御部３２に対して対応する記憶装置１２（図１）へのデータの読み書きを依頼する機能を有する。ストレージ制御部３０は、ストレージ制御プログラムと呼ばれてもよい。

本実施の形態の場合、図８に示すように、ストレージノード１０に実装された各ストレージ制御部３０は、それぞれ互いに異なる他のストレージノード１０にそれぞれ実装された１又は複数の他のストレージ制御部３０と共に冗長化のための１つのグループ（以下、これを冗長化グループと呼ぶ）３８として管理される。

なお図８は、２つのストレージ制御部３０により冗長化グループ３８が構成されている場合を示しており、以下においても、２つのストレージ制御部３０により冗長化グループ３８が構成されるものとして説明を進めるが、３つ以上のストレージ制御部３０により冗長化グループ３８が構成されるものとしてもよい。

冗長化グループ３８では、少なくとも１つのストレージ制御部３０がホスト装置３からのＩ／Ｏ要求を受け付けることができる状態（現用系の状態であり、以下、これをアクティブモードと呼ぶ）に設定され、残りのストレージ制御部３０がホスト装置３からのＩ／Ｏ要求を受け付けない状態（待機系の状態であり、以下、これをスタンバイモードと呼ぶ）に設定される。

従って、２つのストレージ制御部３０から構成される冗長化グループ３８は、これら２つのストレージ制御部３０の双方がアクティブモードに設定された構成（アクティブ－アクティブ構成）と、一方のストレージ制御部３０がアクティブモードに設定され、他方のストレージ制御部３０がスタンバイモードに設定された構成（アクティブ－パッシブ構成）とのうちのいずれかの構成をとることになる。

そして、アクティブ－パッシブ構成が採用された冗長化グループ３８では、アクティブモードに設定されたストレージ制御部３０又はそのストレージ制御部３０が稼動するストレージノード１０に障害が発生した場合や、そのようなストレージノード１０が撤去（ストレージノード１０が減設）された場合に、それまでスタンバイモードに設定されていたストレージ制御部３０の状態がアクティブモードに切り替えられる。これにより、アクティブモードに設定されたストレージ制御部３０が稼動し得なくなった場合に、そのストレージ制御部３０が実行していたＩ／Ｏ処理をそれまでスタンバイモードに設定されていたストレージ制御部３０により引き継ぐことができる（フェールオーバ機能）。

このようなフェールオーバ機能を実現するため、同じ冗長化グループ３８に属するストレージ制御部３０は、常に同一内容のストレージ構成情報３３を保持している。ストレージ構成情報３３は、容量仮想化機能や、アクセス頻度の多いデータをより応答速度が速い記憶領域に移動させる階層記憶制御機能、格納されたデータの中から重複するデータを削除する重複排除機能、データを圧縮して記憶する圧縮機能、ある時点でのデータの状態を保持するSnapshot（スナップショット）機能、及び、災害対策のために同期あるいは非同期で遠隔地にデータをコピーするリモートコピー機能などの各種機能に関する処理をストレージ制御部が実行するために必要な情報である。

そして、冗長化グループ３８を構成するアクティブモードのストレージ制御部３０のストレージ構成情報３３が更新された場合、更新前後のそのストレージ構成情報３３の差分が差分データとしてその冗長化グループ３８を構成する他方のストレージ制御部３０に転送され、この差分データに基づいて当該他方のストレージ制御部３０によりそのストレージ制御部３０が保持するストレージ構成情報３３が更新される。これにより冗長化グループ３８を構成する各ストレージ制御部３０がそれぞれ保持するストレージ構成情報３３が常に同期した状態に維持される。

このように冗長化グループ３８を構成する２つのストレージ制御部３０同士が常に同じ内容のストレージ構成情報３３を保持することにより、アクティブモードに設定されたストレージ制御部３０や、当該ストレージ制御部３０が稼動するストレージノード１０に障害が発生し又は当該ストレージノード１０が撤去された場合にも、それまでそのストレージ制御部３０が実行していた処理を、そのストレージ制御部３０と同じ冗長化グループ３８内の他のストレージ制御部３０が直ちに引き継ぐことが可能となる。

クラスタ制御部３１は、クラスタ１５（図１）を構成する各ストレージノード１０と、これらのストレージノード１０に割り当てられた各記憶装置１２との状態を管理及び操作する機能を有するソフトウェアである。またクラスタ制御部３１は、ストレージ制御部３０及び容量制御部３２の起動や、ストレージ制御部３０の動作モード（後述するアクティブモード又はスタンバイモード）を管理及び操作する。

さらに各クラスタ制御部３１は、互いの疎通状況を監視しており、電断やネットワーク途絶といった何らかの理由により他のストレージノード１０に障害が発生した場合に、これを検知して他のクラスタ制御部３１に通知する機能も有する。なお、「ストレージノードの障害」の状態としては、ストレージノード１０に実装されたＯＳ（Operating System）を動作させるために必要なソフトウェアが格納されたシステムディスクが故障した状態や、クラウドシステム４が提供するインタフェースがストレージノード１０の故障を示している状態などがある。

加えて、クラスタ制御部３１は、ホスト装置３から与えられたＩ／Ｏ要求を、ブロックストレージ提供サービス向けネットワーク１４を介して対応する他のストレージノード１０のクラスタ制御部３１に転送したり、他のストレージノード１０のクラスタ制御部３１から転送されてきたＩ／Ｏ要求を、対応する冗長化グループ３８のストレージ制御部３０に引き渡す機能も有する。

実際上、本実施の形態の場合、図８に示すように、冗長化グループ３８ごとに、その冗長化グループ３８に対応させて１又は複数の仮想的な論理ボリューム（以下、これを仮想ボリュームと呼ぶ）ＬＵが定義され、これら仮想ボリュームＬＵがデータをリード／ライトするための記憶領域としてホスト装置３に提供される。

また本実施の形態の場合、冗長化グループ３８ごとに、１又は複数のプール（図８の「Ｐｏｏｌ」）が定義される。プールは、記憶装置１２が提供する物理的な記憶領域を仮想化した記憶領域であり、このプールを介して仮想ボリュームＬＵ内の仮想的な記憶領域と、記憶装置内の物理的な記憶領域とが対応付けられる。このような記憶装置１２の物理的な記憶領域と、プール内の仮想的な記憶領域との対応関係や、プール内の仮想的な記憶領域と、仮想ボリュームＬＵ内の仮想的な記憶領域との対応関係は、上述のストレージ構成情報３３として管理される。

そしてホスト装置３は、所望する仮想ボリュームＬＵにデータをリード／ライトする場合、そのデータのリード／ライト先の仮想ボリュームＬＵの識別子（ＬＵＮ：Logical Unit Number）と、その仮想ボリュームＬＵにおけるそのデータのリード／ライト先のアドレスと、そのデータのデータ長とを指定したＩ／Ｏ要求を対応するクラスタ１５内のいずれかのストレージノード１０に送信する。

かくして、このＩ／Ｏ要求を受信したストレージノード１０のクラスタ制御部３１は、そのＩ／Ｏ要求において指定されたリード／ライト対象の仮想ボリュームＬＵに対応付けられた冗長化グループ３８のストレージ制御部３０が配置されている各ストレージノード１０のクラスタ制御部３１にそのＩ／Ｏ要求をブロックストレージ提供サービス向けネットワーク１４を介して転送する。

また、このＩ／Ｏ要求を受信したストレージノード１０のクラスタ制御部３１は、このＩ／Ｏ要求を、当該Ｉ／Ｏ要求においてリード／ライト先として指定された仮想ボリュームＬＵに対応付けられた冗長化グループ３８のストレージ制御部３０に引き渡す。そして、このＩ／Ｏ要求が引き渡されたストレージ制御部３０のうち、アクティブモードに設定されたストレージ制御部３０は、このＩ／Ｏ要求がライト要求である場合には、当該Ｉ／Ｏ要求においてデータのライト先として指定された仮想ボリュームＬＵ内のデータのライト先として指定されたアドレス位置にプールを介して記憶装置１２の物理的な記憶領域を動的に割り当てた上で、その物理的な記憶領域にデータをライトするよう容量制御部３２に依頼する。

このような一連の処理を実行するための手段として、各ストレージノード１０のクラスタ制御部３１は、クラスタ１５内に存在する各ストレージ制御部３０がそれぞれどのストレージノード１０に配置され、どの冗長化グループ３８に所属し、動作モードがアクティブモード及びスタンバイモードのいずれに設定されているかといった情報を共有しており、この情報を利用して上述のようなホスト装置３からのＩ／Ｏ要求に対する処理を実行する。

容量制御部３２は、図８に示すように、自ストレージノード１０に割り当てられた記憶装置１２が提供する物理的な記憶領域をチャンクＣＫと呼ぶ所定大きさ単位でストレージ制御部３０に提供する機能を有するソフトウェアである。ストレージ制御部３０は、容量制御部３２から提供されたチャンクＣＫを纏めて上述のプールとして管理し、プール内のチャンクＣＫを仮想ボリュームＬＵに動的に割り当てる。これにより仮想ボリュームＬＵ内の仮想的な記憶領域がプールを介してチャンクＣＫ単位で記憶装置１２内の物理的な記憶領域と対応付けられる。

また容量制御部３２は、ストレージ制御部３０から記憶装置１２への書き込みを依頼されたデータを複数の部分データに分割し、これら部分データから消失訂正記号（Erasure Coding）を生成して、これら複数の部分データ及び消失訂正記号をそれぞれ異なる記憶装置１２内のチャンクＣＫに格納したり、一部の部分データが障害等により読み出しできなくなった場合に、残りの部分データと消失訂正記号とを用いて読み出しできなくなった部分データを復元する機能をも有する。

容量制御部３２は、このような１つのデータから生成した部分データや消失訂正記号がそれぞれ格納された複数のチャンクＣＫをチャンクグループ３９として管理する。図８では、チャンクグループ３９は３つのチャンクＣＫから構成される例が示されており、この場合、元のデータが２つの部分データ（図８の「Ａ」及び「Ｃ」や、「Ｂ」及び「Ｄ」）に分割されてそれぞれチャンクグループ３９内の異なるチャンクＣＫに格納され、これら２つの部分データから生成された消失訂正記号（図８の「α」及び「β」）がそのチャンクグループ３９の残りのチャンクＣＫに格納される。

このようなデータ復元機能を実現するため、各ストレージノード１０の容量制御部３２は、常に同一内容の容量構成情報３７を保持している。容量構成情報３７は、上述のようにストレージ制御部３０に対して使用可能領域を提供する機能や、データを復元する機能に関する処理を容量制御部３２が実行するために必要な情報である。容量構成情報３３には、図３のチャンク管理テーブル３４、チャンクグループ管理テーブル３５及びチャンク更新管理ビットマップテーブル３６が含まれる。

そして容量構成情報３７が更新された場合、更新前後のその容量構成情報３７の差分が差分データとして他の各ストレージノード１０上の容量制御部３２に転送され、この差分データに基づいて当該ストレージノード１０の容量制御部３２によりその容量制御部３２が保持する容量構成情報３７が更新される。これにより各ストレージノード１０の容量制御部３２がそれぞれ保持する容量構成情報３７が常に同期した状態に維持される。

図４は、容量構成情報３７の一部を構成するチャンク管理テーブル３４を示す。チャンク管理テーブル３４は、クラスタ１５（図１）内に存在するチャンクＣＫを管理するために利用されるテーブルであり、図４に示すように、チャンク番号欄３４Ａ、所属ノード番号欄３４Ｂ、記憶装置番号欄３４Ｃ、記憶装置内オフセット欄３４Ｄ及び容量欄３４Ｅを備えて構成される。チャンク管理テーブル３４では、１つのレコード（行）がクラスタ１５内に存在する１つのチャンクＣＫに対応する。

そしてチャンク番号欄３４Ａには、対応するチャンクＣＫに付与された、クラスタ１５内でそのチャンクＣＫに固有の識別番号（チャンク番号）が格納される。また記憶装置番号欄３４Ｃには、そのチャンクＣＫを提供する記憶装置１２に付与された、クラスタ１５内でその記憶装置１２に固有の識別番号（記憶装置番号）が格納され、所属ノード番号欄３４Ｂには、その記憶装置１２が割り当てられたストレージノード１０に付与された、クラスタ１５内でそのストレージノード１０に固有の識別番号（ノード番号）が格納される。

さらに記憶装置内オフセット欄３４Ｄには、対応する記憶装置１２が提供する記憶領域内における対応するチャンクＣＫの先頭アドレスが格納され、容量欄３４Ｅには、そのチャンクＣＫの容量が格納される。

従って、図４の例の場合、例えば「０」というチャンク番号が付与されたチャンクＣＫは、「０」というノード番号のストレージノード１０に割り当てられた「０」という記憶装置番号の記憶装置１２における「0x00000」というアドレスから始まる「0x10000」という容量のチャンクであることが示されている。

また図５は、容量構成情報３７の一部を構成するチャンクグループ管理テーブル３５を示す。このチャンクグループ管理テーブル３５は、クラスタ１５内に存在するチャンクグループ３９（図８）を管理するために利用されるテーブルであり、図５に示すように、チャンクグループ番号欄３５Ａと、複数のチャンク番号欄３５Ｂとを備えて構成される。チャンクグループ管理テーブル３５では、１つのレコード（行）がクラスタ１５内に定義された１つのチャンクグループ３９に対応する。

そしてチャンクグループ番号欄３５Ａには、対応するチャンクグループ３９に付与された、クラスタ１５内でそのチャンクグループ３９に固有の識別番号（チャンクグループ番号）が格納される。また各チャンク番号欄３５Ｂには、それぞれ対応するチャンクグループ３９を構成する異なるチャンクＣＫのチャンク番号が格納される。

従って、図５の例の場合、「０」というチャンクグループ番号が付与されたチャンクグループ３９は、「０」というチャンク番号のチャンクＣＫと、「４」というチャンク番号のチャンクＣＫと、「６」というチャンク番号のチャンクＣＫとから構成されていることが示されている。

さらに図６は、容量構成情報３７の一部を構成するチャンク更新管理ビットマップテーブル３６を示す。チャンク更新管理ビットマップテーブル３６は、障害やその他の理由により当該チャンクＣＫにアクセスできない間にそのチャンクＣＫへのデータの書き込みや、そのチャンクＣＫに格納されているデータの更新があった場合に、そのチャンクＣＫ内のどの箇所にデータが書き込まれ又はどの箇所に格納されているデータが更新されたかを管理するために利用されるテーブルである。

このチャンク更新管理ビットマップテーブル３６は、図６に示すように、チャンク番号欄３６Ａ及び更新管理ビットマップ欄３６Ｂを備えて構成される。チャンク更新管理ビットマップテーブル３６では、１つのレコード（行）が１つのチャンクＣＫに対応しており、クラスタ１５内に存在するすべてのチャンクＣＫにそれぞれ対応させてレコードが設けられている。

そしてチャンク番号欄３６Ａには、対応するチャンクＣＫのチャンク番号が格納される。また更新管理ビットマップ欄３６Ｂには、そのチャンクＣＫに関する更新管理ビットマップが格納される。従って、図６の例の場合、「０」というチャンク番号のチャンクＣＫの更新管理ビットマップが「0011000001…」であることが示されている。

ここで、更新管理ビットマップについて説明する。図７に示すように、更新管理ビットマップＢＭは、チャンクＣＫを所定大きさ（例えば256KB）の複数の部分領域ＡＲに分割したときの各部分領域ＡＲにそれぞれ対応付けた複数の更新管理ビットＢＴから構成されるビットマップである。

更新管理ビットマップＢＭでは、初期時、すべての更新管理ビットＢＴが「０」に設定される。そして、その更新管理ビットマップＢＭに対応するチャンクＣＫが故障等によりアクセスできない間に、そのチャンクＣＫへのデータライト又はそのチャンクＣＫに格納されたデータの更新などがあった場合に、データライトされた又は格納されたデータが更新されたすべての部分領域ＡＲに対応する更新管理ビットＢＴが「１」に設定される。

これにより、その後、そのチャンクＣＫがアクセスできるようになった段階に、更新管理ビットマップＢＭにおいて「１」に設定されている部分領域ＡＲにホスト装置３からのデータを格納したり、その部分領域ＡＲに格納されているデータを更新後のデータに更新することでチャンクＣＫの状態を最新化することができる。

なお、かかる部分領域ＡＲに新たに格納すべきデータや更新後のデータは、そのチャンクＣＫが属すチャンクグループ３９を構成する他のチャンクＣＫに格納されているデータ及び消失訂正符号（パリティ）を用いることでリビルドすることができる。

（２－２）各種処理の流れ
（２－２－１）本記憶システムの平常時の状態
図８は、本記憶システム１における平常時の状態を示す。この図８では、「ストレージノードＡ」～「ストレージノードＣ」は、それぞれストレージノード１０を示し、「ストレージ制御部Ａ（アクティブ）」～「ストレージ制御部Ｃ（アクティブ）」は、それぞれアクティブモードのストレージ制御部３０、「ストレージ制御部Ａ（スタンバイ）」～「ストレージ制御部Ｃ（スタンバイ）」は、それぞれスタンバイモードのストレージ制御部３０を示す。

また図８では、「ストレージノードＡ」上で稼動する「ストレージ制御部Ａ（アクティブ）」と、「ストレージノードＢ」上で稼動する「ストレージ制御部Ａ（スタンバイ）」とが冗長化グループ３８を構成し、「ストレージノードＢ」上で稼動する「ストレージ制御部Ｂ（アクティブ）」と、「ストレージノードＣ」上で稼動する「ストレージ制御部Ｂ（スタンバイ）」とが冗長化グループ３８を構成し、「ストレージノードＣ」上で稼動する「ストレージ制御部Ｃ（アクティブ）」と、「ストレージノードＡ」上で稼動する「ストレージ制御部Ｃ（スタンバイ）」とが冗長化グループ３８を構成している例を示している。さらに、ここでは、ストレージ制御部３０の冗長化により作成する各冗長化グループ３８の構成がアクティブ－スタンバイ構成であるものとする。

このとき、各ストレージノード１０のクラスタ制御部３１は、自身が実装されたストレージノード（以下、これを自ストレージノードと呼ぶ）１０及びそのストレージノード１０に割り当てられた記憶装置１２の状態や、他の制御ソフトウェアの稼動状況を監視し、これらの情報を共有している（Ｓ１）。

また上述のようにアクティブモードのストレージ制御部３０のストレージ構成情報３３が更新された場合（Ｓ２）、更新前後のそのストレージ構成情報３３の差分が差分データとしてそのストレージ制御部３０と同じ冗長化グループ３８を構成する他方のストレージ制御部３０に転送され、この差分データに基づいて当該他方のストレージ制御部３０によりそのストレージ制御部３０が保持するストレージ構成情報３３が更新される（Ｓ３）。

さらに容量構成情報３７が容量制御部３２によって更新された場合、更新前後のその容量構成情報３７の差分が差分データとして直接的又は間接的に他のすべてのストレージノード１０の容量制御部３２に転送され（Ｓ４）、この差分データに基づいてこれら容量制御部３２によりその容量制御部３２が保持する容量構成情報３７が更新される（Ｓ５）。なお、図８は、「ストレージノードＡ」の容量構成情報３７が更新された場合の例を示している。

（２－２－２）ストレージノードの障害発生時における縮退処理の流れ
次に、クラスタ１５を構成するいずれかのストレージノード１０に障害が発生した場合の一連の処理の流れについて説明する。ここでは、図９に示すように、「ストレージノードＡ」に障害が発生し、「ストレージノードＡ」がアクセス不可となった場合の処理（以下、これを縮退処理と呼ぶ）の流れについて説明する。

この場合、「ストレージノードＡ」のクラスタ制御部３１と接続された「ストレージノードＢ」のクラスタ制御部３１が「ストレージノードＡ」の障害を検知する。そして、「ストレージノードＢ」のクラスタ制御部３１は、「ストレージノードＡ」の障害を検知した旨の通知を「ストレージノードＣ」）のクラスタ制御部３１に送信する（Ｓ１０）。

また、この通知を受信した「ストレージノードＣ」のクラスタ制御部３１は、かかる通知を送信してきた「ストレージノードＢ」以外の隣接する（通信可能な）の他のストレージノードに対して「ストレージノードＡ」に障害が発生した旨を通知する。ただし、図９の例では、「ストレージノードＢ」以外で隣接する他のストレージノード１０が存在しないため、「ストレージノードＢ」は、かかる通知を行わない。

そして上述のようにして「ストレージノードＡ」の障害を認識した「ストレージノードＢ」及び「ストレージノードＣ」のクラスタ制御部３１は、障害が発生した「ストレージノードＡ」に配置されたストレージ制御部３０と同じ冗長化グループ３８を構成する自ストレージノード１０内のスタンバイモードのストレージ制御部３０の動作モードをアクティブモードに切り替える処理を行う。図９の例の場合、「ストレージノードＢ」のクラスタ制御部３１が、「ストレージ制御部Ａ（スタンバイ）」の状態をアクティブモードに変更する（Ｓ１１）。これにより、それまで「ストレージ制御部Ａ（アクティブ）」が実行していたＩ／Ｏ処理が「ストレージ制御部Ａ（スタンバイ）」に引き継がれることになる。

また、「ストレージノードＡ」の障害を認識した「ストレージノードＢ」及び「ストレージノードＣ」のクラスタ制御部３１は、それぞれ障害が発生した「ストレージノードＡ」に配置された「ストレージ制御部Ａ（アクティブ）」や「ストレージ制御部Ｃ（スタンバイ）」と冗長化グループ３８を構成していた自ストレージノード１０内の「ストレージ制御部Ａ（スタンバイ）」又は「ストレージ制御部Ｃ（アクティブ）」に対して、この後、そのストレージ制御部３０が保持するストレージ構成情報３３が更新された場合においても、その差分データを、同じ冗長化グループ３８を構成していた「ストレージ制御部Ａ（アクティブ）」や「ストレージ制御部Ｃ（スタンバイ）」）に転送しないよう指示を与える（Ｓ１１）。

（２－２－３）縮退構成時のアクセス不可チャンク内に存在するデータリードの流れ
図１０は、図９のように「ストレージノードＡ」に障害が発生し、図９について上述したような縮退処理が行われた状態（縮退構成の状態）でホスト装置３から「ストレージ制御部Ａ」に対応付けられた仮想ボリュームＬＵへのリード要求が与えられた場合の処理の流れを示す。

この場合、「ストレージノードＢ」内でアクティブとなった「ストレージ制御部Ａ」が、このリード要求を処理する。具体的に、かかる「ストレージ制御部Ａ」は、「ストレージ構成情報Ａ」を参照し、容量制御部３２に対してリード要求を発行する（Ｓ２０）。本実施の形態においては、「チャンクＡ」に対するリード要求が「ストレージ制御部Ａ」から容量制御部３２に発行されたものとする。

このリード要求を受信した「ストレージノードＢ」の容量制御部３２は、容量構成情報３７のチャンク管理テーブル３４（図４）を参照してリード要求において指定されたリード対象のデータが格納されているチャンク（「チャンクＡ」）の所在を確認する。このとき、「チャンクＡ」は、障害が発生した「ストレージノードＡ」に割り当てられていた記憶装置１２が提供するチャンクＣＫであるためアクセスできない。

そこで、かかる容量制御部３２は、容量構成情報３７のチャンクグループ管理テーブル３５（図５）を参照して、「チャンクＡ」が属するチャンクグループ３９を構成する「チャンクＡ」以外のチャンクＣＫを特定する。ここでは、図１０に示すように、「チャンクＡ」が「チャンクＣ」及び「チャンクα」と共にチャンクグループ３９を構成しているものとする。よって、この例では、「チャンクＡ」が属するチャンクグループ３９を構成する「チャンクＡ」以外のチャンクＣＫとして、「チャンクＣ」及び「チャンクα」が特定される。

そして容量制御部３２は、このようにして特定した「チャンクＣ」及び「チャンクα」の所在をチャンク管理テーブル３４を参照して特定した上で、これら「チャンクＣ」及び「チャンクα」からリード対象のデータを復元するために必要なデータをそれぞれ読み出す（Ｓ２１，Ｓ２２）。

また容量制御部３２は、読み出したこれらのデータに基づいてリード対象のデータを復元し、復元したデータを「ストレージ制御部Ａ」に転送する（Ｓ２３）。かくして、「ストレージ制御部Ａ」は、容量制御部３２から与えられた復元されたリード対象のデータを、かかるリード要求の送信元のホスト装置３に送信する（Ｓ２４）。

（２－２－４）縮退構成時のアクセス不可チャンクへのデータライトの流れ
図１１は、図９のように「ストレージノードＡ」に障害が発生し、図９について上述したような縮退処理が行われた状態でホスト装置３から「ストレージ制御部Ａ」に対応付けられた仮想ボリュームＬＵへのライト要求が与えられた場合の処理の流れを示す。

この場合、「ストレージノードＢ」でアクティブとなった「ストレージ制御部Ａ」が、ホスト装置３からのライト要求を処理する。具体的に、かかる「ストレージ制御部Ａ」は、「ストレージ構成情報Ａ」を参照し、容量制御部３２に対してライト要求を発行する（Ｓ３０）。本実施の形態においては、「チャンクＡ」に対するライト要求が「ストレージ制御部Ａ」から容量制御部３２に発行されたものとする。また「ストレージ制御部Ａ」は、ライトデータを容量制御部３２に転送する（Ｓ３１）。

このリード要求を受信した「ストレージノードＢ」の容量制御部３２は、容量構成情報２７のチャンク管理テーブル３４を参照してライト要求において指定されたライトデータの格納先となるチャンクＣＫ（「チャンクＡ」）の所在を確認する。このとき、「チャンクＡ」は、障害が発生した「ストレージノードＡ」に割り当てられた記憶装置１２が提供するチャンクであるためアクセスできない。

そこで、かかる容量制御部３２は、容量構成情報３７のチャンクグループ管理テーブル３５を参照して、「チャンクＡ」が属するチャンクグループ３９を構成する「チャンクＡ」以外のチャンクを特定する。ここでは、図１１に示すように、「チャンクＡ」が「チャンクＣ」及び「チャンクα」と共にチャンクグループ３９を構成しているものとする。よって、この例では、「チャンクＡ」が属するチャンクグループ３９を構成する「チャンクＡ」以外のチャンクとして、「チャンクＣ」及び「チャンクα」が特定される。

そして容量制御部３２は、特定した「チャンクＣ」及び「チャンクα」の所在をチャンク管理テーブル３４を参照して特定する。また容量制御部３２は、ライトデータを用いて新たな消失訂正符号を生成するために必要なデータを「チャンクＣ」から読み出し（Ｓ３２）、読み出したデータと、ライトデータとを用いて新たな消失訂正符号を生成する。また、容量制御部３２は、生成性した消失訂正符号を「チャンクα」に上書きする（Ｓ３３）。

さらに容量制御部３２は、容量構成情報３７のチャンク更新管理ビットマップテーブル３６（図６）に格納された「チャンクＡ」の更新管理ビットマップＢＭ（図７）におけるライトデータを書き込むべきであった部分領域ＡＲ（図７）に対応するすべての更新管理ビットＢＴ（図７）を「１」を設定する。以上により、この一連の処理が終了する。

（２－２－５）障害発生ストレージノードの代替ストレージノード作成の流れ
次に、障害が発生したストレージノード１０の代替となる新たなストレージノード１０を作成し、作成したストレージノード１０をクラスタ１５の一部として利用可能とするまでの流れを図１２～図１４を参照して説明する。ここでは、図９について上述したように「ストレージノードＡ」に障害が発生し、縮退処理が行われたものとする。

まず、図１２に示すように、「ストレージノードＡ」に障害が発生したことを検知した「ストレージノードＢ」のクラスタ制御部３１が、「ストレージノードＡ」に代わる新たなストレージノード（以下、これを代替ストレージノードと呼ぶ）１０の用意をクラウド制御装置５に依頼する（Ｓ４０）。そしてクラウド制御装置５は、かかる依頼を受信すると、クラスタ１５内に新たなストレージノード１０（図１２では「ストレージノードＤ」）を作成する（Ｓ４１）。

具体的に、クラウド制御装置５は、ストレージノード１０が物理的なストレージ装置である場合には、既に存在する物理的なストレージ装置をクラスタ１５に組み込み、ストレージノード１０が仮想的なストレージ装置である場合には、新たな仮想的なストレージ装置を生成してクラスタ１５に取り込む。

また「ストレージノードＢ」のクラスタ制御部３１は、障害が発生した「ストレージノードＡ」に割り当てられている記憶装置１２をすべてデタッチするようクラウド制御装置５に依頼する（Ｓ４２）。かくして、この依頼を受信したクラウド制御装置５は、それまで「ストレージノードＡ」に割り当てられていた記憶装置１２をすべてデタッチさせる（Ｓ４３）。

さらに「ストレージノードＢ」のクラスタ制御部３１は、ステップＳ４３で「ストレージノードＡ」からデタッチさせたすべての記憶装置１２をステップＳ４１で新たに作成した「ストレージノードＤ」にアタッチするようクラウド制御装置５に依頼する（Ｓ４４）。かくして、この依頼を受信したクラウド制御装置５は、それまで「ストレージノードＡ」に割り当てられていたすべての記憶装置１２を「ストレージノードＤ」にアタッチさせる（Ｓ４５）。

一方、上述のようにしてクラスタ１５内に「ストレージノードＤ」が増設されると、その「ストレージノードＤ」内のクラスタ制御部３１がクラウド制御装置５により起動される（Ｓ４６）。そして起動した「ストレージノードＤ」のクラスタ制御部３１は、そのクラスタ１５内の自ストレージノード１０を含めた各ストレージノード１０の構成情報（ストレージ構成情報３３及び容量構成情報３７）や制御ソフトウェア（ストレージ制御部３０及び容量制御部３２）の稼動状況を他のストレージノード１０のクラスタ制御部３１と共有し始める。

そして、上述のようにしてクラスタ１５内の各ストレージノード１０の構成情報や制御ソフトウェアの稼動状況を共有した各ストレージノード１０のクラスタ制御部３１は、縮退した冗長化グループを正常な状態に戻す処理を開始する。ここでは、「ストレージノードＢ」のクラスタ制御部３１が、「ストレージノードＢ」、「ストレージノードＣ」及び「ストレージノードＤ」のＣＰＵ負荷や空きメモリ容量などに基づき、「ストレージ制御部Ａ（アクティブ）」及び「ストレージ制御部Ｃ（スタンバイ）」を「ストレージノードＤ」に配置し、現在アクティブなっている「ストレージノードＢ」の「ストレージ制御部Ａ」をスタンバイモードに変更することを決定したものとする。

この決定結果に基づいて、「ストレージノードＢ」のクラスタ制御部３１は、図１３に示すように、「ストレージ制御部Ａ」に対して「ストレージ構成情報Ａ」を「ストレージノードＤ」にコピーするよう指示を与える（Ｓ５０）。かくして、「ストレージ制御部Ａ」は、この指示に従って「ストレージ構成情報Ａ」を「ストレージノードＤ」に転送する（Ｓ５１）。そして、この「ストレージ構成情報Ａ」を受領した「ストレージノードＤ」のクラスタ制御部３１は、その「ストレージ構成情報Ａ」を自ストレージノード１０のメモリ２４（図２）に格納する。

また「ストレージノードＢ」の「ストレージ制御部Ａ」は、かかる「ストレージ構成情報Ａ」を「ストレージノードＤ」にコピーし終えると、この後、この「ストレージ構成情報Ａ」が更新されるごとに更新前後の差分を差分データとして「ストレージノードＤ」に転送し始める。この結果、この差分データに基づいて、「ストレージノードＤ」の「ストレージ構成情報Ａ」このコピー結果が更新され、これにより「ストレージノードＢ」の「ストレージＡ」のコピー結果との同期が開始される。

一方、「ストレージノードＣ」のクラスタ制御部３１は、上述の決定結果に基づいて、「ストレージ制御部Ｃ」に対して「ストレージ構成情報Ｃ」を「ストレージノードＤ」にコピーするよう指示を与える（Ｓ５２）。かくして、「ストレージ制御部Ｃ」は、この指示に従って、「ストレージ構成情報Ｃ」を「ストレージノードＤ」に転送する（Ｓ５３）。そして、この「ストレージ構成情報Ｃ」を受信した「ストレージノードＤ」のクラスタ制御部３１は、その「ストレージ構成情報Ｃ」を自ストレージノード１０のメモリ２４に格納する。

また「ストレージノードＣ」の「ストレージ制御部Ｃ」は、「ストレージ構成情報Ｃ」を「ストレージノードＤ」にコピーし終えると、この後、その「ストレージ構成情報Ｃ」が更新されるごとに更新前後の差分を差分データとして「ストレージノードＤ」に転送し始める。かくして、この差分データに基づいて「ストレージノードＤ」内の「ストレージ構成情報Ｃ」のコピー結果が更新され、これにより「ストレージノードＣ」内の「ストレージ構成情報Ｃ」と、「ストレージノードＤ」内の「ストレージ構成情報Ｃ」のコピー結果との同期が開始される。

さらに「ストレージノードＢ」のクラスタ制御部３１は、自ストレージノード１０の容量制御部３２に容量構成情報３７を「ストレージノードＤ」にコピーするよう指示を与える（Ｓ５４）。かくして、この指示を受領した容量制御部３２は、この指示に従って、自身が保持する容量構成情報３７を「ストレージノードＤ」に転送する（Ｓ５５）。そして、この容量構成情報３７を受信した「ストレージノードＤ」のクラスタ制御部３１は、その容量構成情報３７を自ストレージノード１０のメモリ２４に格納する。

以上のようにして、障害が発生した「ストレージノードＡ」が保持していた「ストレージ構成情報Ａ」、「ストレージ構成情報Ｃ」及び容量構成情報３７の「ストレージノードＤ」へのコピーが完了すると、図１４に示すように、「ストレージノードＤ」のクラスタ制御部３１は、自ストレージノード１０内でストレージ制御部３０及び容量制御部３２を起動する。具体的に、かかるクラスタ制御部３１は、自ストレージノード１０内の「ストレージ制御部Ａ」をアクティブモードで起動すると共に（Ｓ６０）、「ストレージ制御部Ｃ」をスタンバイモードで起動し（Ｓ６１）、さらに容量制御部３２を起動する（Ｓ６２）。

また、「ストレージノードＤ」のクラスタ制御部３１は、「ストレージノードＢ」のクラスタ制御部３１に対して、ステップＳ６０で起動した「ストレージ制御部Ａ」と冗長化グループ３８を構成する「ストレージノードＢ」内の「ストレージ制御部Ａ」の動作モードをスタンバイモードに切り替えるよう指示を与える（Ｓ６３）。かくして、この指示を受領した「ストレージノードＢ」のクラスタ制御部３１は、自ストレージノード１０内の「ストレージノードＡ」をスタンバイモードに切り替える（Ｓ６４）。

加えて、「ストレージノードＤ」のクラスタ制御部３１は、クラスタ１５内に存在する各ストレージ制御部３０がそれぞれどのストレージノード１０に配置され、どの冗長化グループ３８に所属し、動作モードがアクティブモード及びスタンバイモードのいずれに設定されているかといった自己が保持する情報を現在の状態に合わせて更新する。

また、かかるクラスタ制御部３１は、この情報の更新前後の差分を差分データとして「ストレージノードＢ」のクラスタ制御部３１と、当該クラスタ制御部３１を介して「ストレージノードＣ」のクラスタ制御部３１とにそれぞれ送信する。これにより「ストレージノードＢ」のクラスタ制御部３１が保持するかかる情報と、「ストレージノードＣ」のクラスタ制御部３１が保持するかかる情報とが現在の状態に合わせた内容に更新される。

以上までの処理により、新たに作成した「ストレージノードＤ」をクラスタ１５の一部として利用可能となる。

（２－２－６）リビルド処理の流れ
図１５は、図１２～図１４について上述した一連の処理により作成された新たなストレージノード１０（図１５では「ストレージノードＤ」）の容量制御部３２により実行されるリビルド処理の流れを示す。

「ストレージノードＤ」の容量制御部３２は、図１４の終了後に「ストレージノードＤ」のクラスタ制御部３１により起動され、まず、自ストレージノード１０内の容量構成情報３７を参照して、自ストレージノード１０に割り当てられた記憶装置１２内のリビルドが必要なチャンクＣＫをすべて特定し、特定したチャンクＣＫごとに、そのチャンクＣＫと同じ冗長化グループ３８を構成するそのチャンクＣＫ以外のチャンクＣＫを特定する（Ｓ７０）。

具体的に、かかる容量制御部３２は、自ストレージノード１０内の容量構成情報３７のチャンク管理テーブル３４（図４）を参照して、自ストレージノード１０に割り当てられた記憶装置１２内に存在するチャンクＣＫ（以下、これらを自ストレージノード１０に所属するチャンクＣＫと呼ぶ）の一覧を取得する。

また、かかる容量制御部３２は、容量構成情報３７のチャンク更新管理ビットマップテーブル３６（図６）を参照して、自ストレージノード１０に所属するチャンクＣＫの中でリビルドが必要な部分領域ＡＲ（図７）を含むチャンクＣＫが存在するか否かを確認する。

ここで、「リビルドが必要なチャンクＣＫ」とは、「ストレージノードＡ」に障害が発生してから現在までの間にホスト装置３によりデータライトが行われた部分領域ＡＲを含むチャンクＣＫを指す。チャンク更新管理ビットマップテーブル３６の更新管理ビットマップ欄３６Ｂに格納された更新管理ビットマップＢＭ（図７）内に「１」を含むチャンクがこのようなチャンクＣＫに該当する。以下においては、このようなチャンクＣＫをリビルド対象チャンクＣＫと呼ぶものとする。

そして容量制御部３２は、このようなチャンクＣＫが存在することを確認した場合には、容量構成情報３７のチャンクグループ管理テーブル３５（図５）を参照して、リビルド対象チャンクＣＫごとに、そのリビルド対象チャンクＣＫが属するチャンクグループ３９を構成するそのリビルド対象チャンクＣＫ以外のチャンクＣＫをすべて特定する。例えば、図５及び図６の例では、チャンク番号が「０」のチャンクＣＫがリビルド対象チャンクＣＫであり、同じチャンクグループ３９を構成するそのリビルド対象チャンクＣＫ以外のチャンクＣＫとして「チャンク４」及び「チャンク６」が特定されることになる。

また容量制御部３２は、特定した各チャンクＣＫから、リビルド対象チャンクＣＫにおけるリビルドが必要な部分領域ＡＲ（更新管理ビットマップＢＭにおいて、対応する更新管理ビットＢＴが「１」の部分領域ＡＲであり、以下、これをリビルド対象部分領域ＡＲと呼ぶ）をリビルドするために必要なデータを、他の「ストレージノードＢ」の容量制御部３２や、「ストレージノードＣ」の容量制御部３２を介して対応する記憶装置１２からすべて読み出す（Ｓ７１）。そして容量制御部３２は、読み出したデータに基づいてそのリビルド対象部分領域ＡＲのデータを復元し、復元したデータをそのリビルド対象部分領域ＡＲに格納する（Ｓ７２）。

以上までの処理により、クラスタ１５は縮退動作から復帰し、「ストレージノードＡ」に障害が発生する前の正常状態に戻る。

（２－３）縮退構成復帰に関する各ソフトウェアの具体的な処理内容
次に、上述したストレージノード１０の縮退構成からの復帰動作に関するクラスタ制御部３１や容量制御部３２の具体的な処理内容について説明する。なお、以下においては、クラスタ制御部３１や容量制御部３２といった「ソフトウェア」を各種処理の処理主体として説明するが、実際上は、その「ソフトウェア」に基づいてストレージノード１０のＣＰＵ２１（図２）がその処理を実行することは言うまでもない。

（２－３－１）代替ストレージノード作成処理
図１６は、図１２～図１５について上述したように、障害が発生したストレージノード１０の代替のストレージノード（以下、これを代替ストレージノードと呼ぶ）１０を作成することによりクラスタ１５が縮退構成から正常構成に復帰する際に実行される一連の処理（以下、これを代替ストレージノード作成処理と呼ぶ）の流れを示す。

この代替ストレージノード作成処理は、いずれかのストレージノード１０のクラスタ制御部３１が他のストレージノード１０の障害を検知することによりクラスタ１５が図１１について上述した縮退構成となった後に開始される。

そして、通信装置に接続された他のストレージノード１０の障害を検知したクラスタ制御部（以下、これを障害検知クラスタ制御部と呼ぶ）３１は、まず、障害が発生したストレージノード（以下、これを障害発生ストレージノードと呼ぶ）１０の代替ストレージノード１０の作成をクラウド制御装置５に依頼する（Ｓ８０）。

続いて、障害検知クラスタ制御部３１は、ブロックストレージ提供サービス部１３（図１）が提供する記憶装置１２のうち、障害発生ストレージノード１０に割り当てられていた記憶装置１２を１つ選択し（Ｓ８１）、選択した記憶装置（以下、これを選択記憶装置と呼ぶ）１２の現在の状態を確認するようクラウド制御装置５に依頼する（Ｓ８２）。

そして、障害検知クラスタ制御部３１は、ステップＳ８２の依頼の結果として、選択記憶装置１２が正常であるとの回答がクラウド制御装置５から得られたか否かを判断する（Ｓ８３）。

障害検知クラスタ制御部３１は、この判断で肯定結果を得ると、選択記憶装置１２を障害発生ストレージノード１０からデタッチさせることをクラウド制御装置５に依頼すると共に（Ｓ８４）、この選択記憶装置１２を代替ストレージノード１０にアタッチするようクラウド制御装置５に依頼する（Ｓ８５）。

これに対して、障害検知クラスタ制御部３１は、ステップＳ８３において否定結果を得ると、新たな記憶装置１２の作成をクラウド制御装置５に依頼すると共に（Ｓ８６）、この記憶装置１２の代替ストレージノード１０へのアタッチをクラウド制御装置５に依頼する（Ｓ８７）。

次いで、障害検知クラスタ制御部３１は、自ストレージノード１０内の容量構成情報３７を、ステップＳ８４及びステップＳ８５の処理、又は、ステップＳ８６及びステップＳ８７の処理の処理内容に応じて更新する（Ｓ８８）。

また障害検知クラスタ制御部３１は、この後、障害発生ストレージノード１０に割り当てられていたすべての記憶装置１２についてステップＳ８２～ステップＳ８８の処理を実行し終えたか否かを判断する（Ｓ８９）。そして障害検知クラスタ制御部３１は、この判断で否定結果を得ると、ステップＳ８１に戻り、この後、ステップＳ８１で選択する記憶装置１２をステップＳ８２以降が未処理の他の記憶装置１２に順次切り替えながら、ステップＳ８９で肯定結果を得るまでステップＳ８１～ステップＳ８９の処理を繰り返す。

そして障害検知クラスタ制御部３１は、やがて障害発生ストレージノード１０に割り当てられていたすべての記憶装置１２についてステップＳ８２～ステップＳ８８の処理を実行し終えることによりステップＳ８９で肯定結果を得ると、障害発生ストレージノード１０が保持していたストレージ構成情報３３及び容量構成情報３７を代替ストレージノード１０にコピーするための処理を実行する（Ｓ９０）。

具体的に、障害検知クラスタ制御部３１は、代替ストレージノード１０に配置するストレージ制御部３０が保持すべきストレージ構成情報３３が自ストレージノード１０内に存在する場合には、そのストレージ構成情報３３を代替ストレージノード１０のクラスタ制御部３１に転送する。また障害検知クラスタ制御部３１は、この際、容量構成情報３７も併せて代替ストレージノード１０のクラスタ制御部３１に転送する。かくして、代替ストレージノード１０のクラスタ制御部３１は、障害検知クラスタ制御部３１から転送されてきたストレージ構成情報３３及び容量構成情報３７をメモリ２４（図２）に格納して管理する。

また障害検知クラスタ制御部３１は、代替ストレージノード１０に配置するストレージ制御部３０が保持すべきストレージ構成情報３３が自ストレージノード１０内に存在しない場合には、そのストレージ構成情報３３を保持するストレージノード１０を特定し、そのストレージノード１０のクラスタ制御部３１にそのストレージ構成情報３３を代替ストレージノード１０に転送するよう指示を与える。また障害検知クラスタ制御部３１は、この際、容量構成情報３７を代替ストレージノード１０のクラスタ制御部３１に転送する。

かくして、かかる指示を受信したクラスタ制御部２１は、自ストレージノード１０内の対応するストレージ構成情報３３を代替ストレージノード１０に転送する。また代替ストレージノード１０のクラスタ制御部３１は、障害検知クラスタ制御部３１から転送されてきた容量構成情報３７と、他のストレージノード１０から転送されてきたストレージ構成情報３３とをメモリ２４に格納して管理する。

続いて、障害検知クラスタ制御部３１は、代替ストレージノード１０のクラスタ制御部に対して、すべてのストレージ制御部３０と、容量制御部３２とを起動するよう指示を与える（Ｓ９１）。この際、障害検知クラスタ制御部３１は、代替ストレージノード１０で起動する各ストレージ制御部３０について、その動作モード（アクティブモード又はスタンバイモード）も指定する。

次いで、障害検知クラスタ制御部３１は、代替ストレージノード１０のクラスタ制御部３１にリビルド処理の実行を指示する（Ｓ９２）。この結果、この指示を受けた代替ストレージノード１０のクラスタ制御部３１は、自ストレージノード１０内の容量制御部３２に対して図１８について後述するリビルド処理の実行を指示する。

そして障害検知クラスタ制御部３１は、この後、この一連の代替ストレージノード作成処理を終了する。

（２－３－２）容量構成情報更新処理
図１７は、図１６について上述した代替ストレージノード作成処理のステップＳ８８で障害検知クラスタ制御部３１により実行される一連の処理（以下、これを容量構成情報更新処理と呼ぶ）の流れを示す。

障害検知クラスタ制御部３１は、代替ストレージノード作成処理のステップＳ８８に進むと、この図１７に示す容量構成情報更新処理を開始し、まず、そのときの選択記憶装置１２内の各チャンクＣＫ（図７）の中から１つのチャンクＣＫを選択し（Ｓ１００）、チャンク管理テーブル３４（図４）の各レコード（行）の中からステップＳ１００で選択したチャンク（以下、これを選択チャンクと呼ぶ）ＣＫに対応するレコードを選択チャンクのチャンク番号を手掛かりに特定する（Ｓ１０１）。

続いて、障害検知クラスタ制御部３１は、ステップＳ１０１で特定したレコードにおける所属ノード番号欄３４Ｂ（図４）に格納されたストレージノード番号を、代替ストレージノード１０のストレージノード番号に書き換える（Ｓ１０２）。

次いで、障害検知クラスタ制御部３１は、選択記憶装置１２について、図１６のステップＳ８３で否定結果が得られ、この結果としてステップＳ８６で選択記憶装置１２に代わる新たな記憶装置１２が作成されたか否かを判断する（Ｓ１０３）。そして障害検知クラスタ制御部３１は、この判断で否定結果を得るとステップＳ１０６に進む。

これに対して、障害検知クラスタ制御部３１は、ステップＳ１０３の判断で肯定結果を得ると、チャンク管理テーブル３４におけるステップＳ１０１で特定したレコードの記憶装置番号欄３４Ｃ（図４）に格納されている記憶装置番号を、代替ストレージノード作成処理のステップＳ８６で選択記憶装置１２に代わるものとして作成された記憶装置（以下、これを代替選択記憶装置と呼ぶ）の記憶装置番号に書き換える（Ｓ１０４）。

また障害検知クラスタ制御部３１は、チャンク更新管理ビットマップテーブル３６（図６）の各レコード（行）のうち、選択チャンクに対応するレコードを選択チャンクのチャンク番号を手掛かりに特定し、特定したレコードの更新管理ビットマップ欄３６Ｂ（図６）に格納されている更新管理ビットマップＢＭ（図７）のすべての更新管理ビットＢＴ（図７）の値を「１」に設定する（Ｓ１０５）。

さらに障害検知クラスタ制御部３１は、障害発生ストレージノード１０に割り当てられていたすべての記憶装置１２についてステップＳ１０１～ステップＳ１０５の処理を実行し終えたか否かを判断する（Ｓ１０６）。そして障害検知クラスタ制御部３１は、ステップＳ１０６の判断で否定結果を得るとステップＳ１００に戻り、この後、ステップＳ１０６で肯定結果を得るまでステップＳ１００～ステップＳ１０６の処理を繰り返す。

そして障害検知クラスタ制御部３１は、やがて障害発生ストレージノード１０に割り当てられていたすべての記憶装置１２についてステップＳ１０１～ステップＳ１０５の処理を実行し終えることによりステップＳ１０６で肯定結果を得ると、この容量構成情報更新処理を終了する。

（２－３－３）リビルド処理
図１８は、図１５について上述したリビルド処理に関して代替ストレージノード１０の容量制御部３２により実行される一連の処理の流れを示す。代替ストレージノード１０の容量制御部３２は、図１６のステップＳ９２で代替ストレージノード１０のクラスタ制御部３１からリビルド処理の実行指示が与えられると、この図１８に示すリビルド処理を開始する。

そして、かかる容量制御部３２は、まず、容量構成情報３７のチャンク管理テーブル３４を参照して、「ストレージノードＡ」に代えて新たに作成された代替ストレージノード１０（「ストレージノードＤ」）に割り当てられたリビルド対象の各記憶装置１２内のすべてのチャンクＣＫ（図７）を特定し、特定したチャンクＣＫの中からステップＳ１１１以降が未処理のチャンクＣＫを１つ選択する（Ｓ１１０）。

続いて、容量制御部３２は、ステップＳ１１０で選択したチャンク（以下、これを選択チャンクと呼ぶ）ＣＫの更新管理ビットマップＢＭ（図７）をチャンク更新管理ビットマップテーブル３６（図６）から取得し（Ｓ１１１）、取得した更新管理ビットマップＢＭからステップＳ１１３以降が未処理の更新管理ビットＢＴ（図７）を１つ選択する（Ｓ１１２）。

次いで、容量制御部３２は、ステップＳ１１２で選択した更新管理ビット（以下、これを更新管理ビットと呼ぶ）ＢＴの値が「１」であるか否かを判断する（Ｓ１１３）。そして容量制御部３２は、この判断で否定結果を得るとステップＳ１１２に戻り、この後、ステップＳ１１２以降を上述のように処理する。

これに対して容量制御部３２は、ステップＳ１１３の判断で肯定結果を得ると、選択更新管理ビットＢＴに対応する選択チャンクＣＫ内の部分領域ＡＲ（図７）のデータを復元する（Ｓ１１４）。具体的に、容量制御部３２は、チャンクグループ管理テーブル３５（図５）を参照して選択チャンクＣＫと同じチャンクグループ３９（図８）を構成する他のチャンクＣＫを特定し、特定したこれらチャンクＣＫ内の選択更新管理ビットＢＴに対応する部分領域ＡＲからデータを読み出して転送するよう対応する他のストレージノード１０の容量制御部３２に要求する。そして容量制御部３２は、このようにして取得したデータに基づいて選択チャンクＣＫ内の選択更新管理ビットＢＴに対応する部分領域ＡＲに格納すべきデータを復元する。

続いて、容量制御部３２は、復元したデータを対応する記憶装置１２における選択チャンクＣＫ内のその部分領域ＡＲに書き込み（Ｓ１１５）、この後、選択更新管理ビットＢＴの値を「０」に更新する（Ｓ１１６）。

さらに容量制御部３２は、選択チャンクＣＫに対応する更新管理ビットマップＢＭ内のすべての更新管理ビットＢＴについてステップＳ１１３～ステップＳ１１６の処理を実行し終えたか否かを判断する（Ｓ１１７）。そして容量制御部３２は、この判断で否定結果を得るとステップＳ１１２に戻り、この後、ステップＳ１１２において選択する更新管理ビットＢＴをステップＳ１１３以降が未処理の他の更新管理ビットＢＴに順次切り替えながら、ステップＳ１１７で肯定結果を得るまでステップＳ１１２～ステップＳ１１７の処理を繰り返す。

そして容量制御部３２は、やがて選択チャンクＣＫに対応する更新管理ビットマップＢＭ内のすべての更新管理ビットＢＴについてステップＳ１１３～ステップＳ１１６の処理を実行し終えることによりステップＳ１１７で肯定結果を得ると、代替ストレージノード１０に割り当てられたリビルド対象の各記憶装置１２内のすべてのチャンクＣＫについてステップＳ１１１～ステップＳ１１７の処理を実行し終えたか否かを判断する（Ｓ１１８）。

容量制御部３２は、この判断で否定結果を得るとステップＳ１１０に戻り、この後、ステップＳ１１０で選択するチャンクＣＫをステップＳ１１１以降が未処理の他のチャンクＣＫに順次切り替えながら、ステップＳ１１８で肯定結果を得るまでステップＳ１１０～ステップＳ１１８の処理を繰り返す。

そして容量制御部３２は、やがて代替ストレージノード１０に割り当てられたリビルド対象の各記憶装置１２内のすべてのチャンクＣＫについてステップＳ１１１～ステップＳ１１７の処理を実行し終えることによりステップＳ１１８で肯定結果を得ると、このリビルド処理を終了する。

（３）本実施の形態の効果
以上のように本実施の形態の記憶システム１によれば、ストレージノードが他のストレージノードの障害を検知した場合に、新たなストレージノード（代替ストレージノード）の作成をクラウド制御装置に指示し、障害が発生したストレージノードに割り当てられていた記憶装置が故障しているか否かを判断し、故障していないと判断した場合には、障害が発生したストレージノードに割り当てられていた記憶装置を新たなストレージノードに割り当てるようクラウド制御装置に依頼する。

従って、本記憶システム１によれば、ユーザが分散ストレージシステムを構築するに際して予備の計算機資源やストレージ資源を事前に用意する必要がないため、ユーザ視点から見て安価に記憶システム１を構築することができる。また障害が発生したストレージノード１０に割り当てられていた記憶装置１２に格納されているデータを、例えば新たなストレージノード１０に割り当てた記憶装置１２にコピーするといった作業も必要がなく、障害発生時の縮退構成からの復帰を迅速に行うことができる。よって本記憶システム１によれば、システム構築に要する費用を抑制しながら、障害発生時には縮退構成からの復帰を迅速に行うことができる。

（４）他の実施の形態
なお上述の実施の形態においては、図１６について上述した代替ストレージノード作成処理や、図１７について上述した構成情報更新処理を、同じクラスタ１５を構成するストレージノード１０のうちの障害が発生したストレージノード１０の当該障害を最初に検知したストレージノード１０が行う場合について述べたが、本発明はこれに限らず、例えば、クラスタ１５を構成するストレージノード１０の中から１つの代表となるストレージノード（以下、これを代表ストレージノードと呼ぶ）１０を選定し、選定された代表ストレージノード１０がかかる代替ストレージノード作成処理や構成情報更新処理を実行するようにしてもよい。

また上述の実施の形態においては、ストレージノード１０がデータを複数の部分データに分割し、これら部分データから消失訂正記号を生成して、これら複数の部分データ及び消失訂正記号をそれぞれ異なる記憶装置１２内のチャンクＣＫに格納するようにした場合について述べたが、本発明はこれに限らず、同じデータを異なる複数の記憶装置に格納（レプリケーション）するようにしてもよい。この場合、障害の発生中に障害が発生したストレージノード１０に割り当てられていた記憶装置１２に格納された新たなデータ又は更新されたデータをその代替ストレージノード１０に割り当てられた記憶装置１２に復元する場合には、同じデータが格納されている他の記憶装置１２に格納されているデータをそのままコピーするようにして復元すればよい。

さらに上述の実施の形態においては、記憶装置１２がブロックストレージ装置である場合について述べたが、本発明はこれに限らず、記憶装置１２がファイルストレージ装置である場合にも本発明を適用することができる。この場合には、障害の発生中に障害が発生したストレージノード１０に割り当てられていた記憶装置１２に格納されたデータの更新の有無や新たに書き込まれたデータの有無については、ファイル単位で行うようにすればよい。

本発明は、上位装置に対して記憶領域を提供する種々の構成の記憶システムに広く適用することができる。

１……記憶システム、３……ホスト装置、４……クラウドシステム、５……クラウド制御装置、１０……ストレージノード、１２……記憶装置、２１……ＣＰＵ、３０……ストレージ制御部、３１……クラスタ制御部、３２……容量制御部、３３……ストレージ構成情報、３４……チャンク管理テーブル、３５……チャンクグループ管理テーブル、３６……チャンク更新管理ビットマップテーブル、３７……容量構成情報、３８……冗長化グループ、３９……チャンクグループ、ＡＲ……部分領域、ＢＭ……更新管理ビットマップ、ＢＴ……更新管理ビット、ＣＫ……チャンク。

Claims

上位装置に対して記憶領域を提供する記憶システムにおいて、
クラウドシステムに設けられ、それぞれ前記記憶領域を提供する１又は複数の記憶装置と、
前記クラウドシステムに設けられ、前記上位装置からの要求に応じて自己に割り当てられた前記記憶装置にデータを読み書きする１又は複数のストレージノードと、
前記クラウドシステムを制御するクラウド制御装置と
を備え、
前記ストレージノードは、
他のストレージノードの障害を検知した場合に、新たなストレージノードの用意を前記クラウド制御装置に指示し、
障害が発生したストレージノードに割り当てられていた前記記憶装置が故障しているか否かを判断し、
当該記憶装置が故障していないと判断した場合には、前記障害が発生したストレージノードに割り当てられていた前記記憶装置を、前記新たなストレージノードに割り当てるよう前記クラウド制御装置に依頼し、
前記新たなストレージノードは、
障害の発生中に前記障害が発生したストレージノードに割り当てられていた前記記憶装置への書き込みが要求されていたデータを、前記新たなストレージノードに割り当てられた前記記録装置に書き込む
ことを特徴とする記憶システム。
前記ストレージノードは、
前記障害が発生したストレージノードに割り当てられていた前記記憶装置が故障していると判断した場合、新たな前記記憶装置の用意を前記クラウド制御装置に指示し、
用意された前記新たな記憶装置の前記新たなストレージノードに割り当てを前記クラウド制御装置に依頼し、
前記新たなストレージノードは、
故障していると判断された前記記憶装置に格納されていたデータを、当該新たな記憶装置に書き込む
ことを特徴とする請求項１に記載の記憶システム。
前記ストレージノードは、
前記記憶装置に格納するデータから消失訂正符号を生成し、生成した前記消失訂正符号を当該データが格納される前記記憶装置とは異なる前記記憶装置に格納し、
前記新たなストレージノードは、
故障していると判断された前記記憶装置に格納されていたデータを、前記消失訂正符号を用いて復元し、復元した前記データを前記新たな記憶装置に書き込む
ことを特徴とする請求項２に記載の記憶システム。
障害の発生中に前記障害が発生したストレージノードに割り当てられていた前記記憶装置への書き込みが要求されていたデータの当該記憶装置における書込み先を、当該障害が発生したストレージノード以外の前記ストレージノードが記憶し、
前記新たなストレージノードは、
前記障害が発生したストレージノード以外の前記ストレージノードが記憶した前記書込み先に、復元した前記データを書き込む
ことを特徴とする請求項３に記載の記憶システム。
各前記ストレージノードは、
各前記ストレージノードにそれぞれ割り当てられた前記記憶装置が提供する記憶領域を所定大きさのチャンクに分割して管理すると共に、異なる複数のストレージノードにそれぞれ割り当てられた所定数の前記記憶装置内の１つの前記チャンクをチャンクグループとして管理し、
前記データ及び当該データから生成した前記消失訂正符号を、同じ前記チャンクグループを構成する複数の前記チャンクに分けて格納する
ことを特徴とする請求項３に記載の記憶システム。
上位装置に対して記憶領域を提供する記憶システムにおける障害対処方法において、
前記記憶システムは、
クラウドシステムに設けられ、それぞれ前記記憶領域を提供する１又は複数の記憶装置と、
前記クラウドシステムに設けられ、前記上位装置からの要求に応じて自己に割り当てられた前記記憶装置にデータを読み書きする１又は複数のストレージノードと、
前記クラウドシステムを制御するクラウド制御装置と
を有し、
前記ストレージノードが、他のストレージノードの障害を検知した場合に、新たなストレージノードの用意を前記クラウド制御装置に依頼する第１のステップと、
当該ストレージノードが、障害が発生したストレージノードに割り当てられていた前記記憶装置が故障しているか否かを判断する第２のステップと、
当該ストレージノードが、当該記憶装置が故障していないと判断した場合には、前記障害が発生したストレージノードに割り当てられていた前記記憶装置を、前記新たなストレージノードに割り当てるよう前記クラウド制御装置に依頼する第３のステップと、
前記新たなストレージノードが、障害の発生中に前記障害が発生したストレージノードに割り当てられていた前記記憶装置への書き込みが要求されていたデータを、前記新たなストレージノードに割り当てられた前記記録装置に書き込む第４のステップと
を備えることを特徴とする障害対処方法。
前記第３のステップにおいて、前記ストレージノードは、
前記障害が発生したストレージノードに割り当てられていた前記記憶装置が故障していると判断した場合、新たな前記記憶装置の用意を前記クラウド制御装置に依頼し、
用意された前記新たな記憶装置の前記新たなストレージノードに割り当てを前記クラウド制御装置に依頼し、
前記第４のステップにおいて、前記新たなストレージノードは、
故障していると判断された前記記憶装置に格納されていたデータを、当該新たな記憶装置に書き込む
ことを特徴とする請求項６に記載の障害対処方法。
前記ストレージノードは、
前記記憶装置に格納するデータから消失訂正符号を生成し、生成した前記消失訂正符号を当該データが格納される前記記憶装置とは異なる前記記憶装置に格納し、
前記第４のステップにおいて、前記新たなストレージノードは、
故障していると判断された前記記憶装置に格納されていたデータを、前記消失訂正符号を用いて復元し、復元した前記データを前記新たな記憶装置に書き込む
ことを特徴とする請求項７に記載の障害対処方法。
障害の発生中に前記障害が発生したストレージノードに割り当てられていた前記記憶装置への書き込みが要求されていたデータの当該記憶装置における書込み先を、当該障害が発生したストレージノード以外の前記ストレージノードが記憶し、
前記第４のステップにおいて、前記新たなストレージノードは、
前記障害が発生したストレージノード以外の前記ストレージノードが記憶した前記書込み先に、復元した前記データを書き込む
ことを特徴とする請求項８に記載の障害対処方法。
各前記ストレージノードは、
各前記ストレージノードにそれぞれ割り当てられた前記記憶装置が提供する記憶領域を所定大きさのチャンクに分割して管理すると共に、異なる複数のストレージノードにそれぞれ割り当てられた所定数の前記記憶装置内の１つの前記チャンクをチャンクグループとして管理し、
前記データ及び当該データから生成した前記消失訂正符号を、同じ前記チャンクグループを構成する複数の前記チャンクに分けて格納する
ことを特徴とする請求項８に記載の障害対処方法。