JP2022145964A

JP2022145964A - 記憶システム及びその制御方法

Info

Publication number: JP2022145964A
Application number: JP2022129294A
Authority: JP
Inventors: 晋太郎伊藤; Shintaro Ito; 貴大山本; Takahiro Yamamoto; 幸恵田島; Yukie Tajima; 匡邦揚妻; Masakuni Agetsuma
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-09-28
Filing date: 2022-08-15
Publication date: 2022-10-04
Anticipated expiration: 2040-09-28
Also published as: JP2022055102A; US11615005B2; JP7419456B2; US11481292B2; US20220100616A1; JP7149313B2; US20220100617A1; CN114281240A

Abstract

【課題】リソース消費の集中を回避しながら２台以上のストレージノードに障害が生じた場合の可用性を確保する。【解決手段】各冗長化グループが、１つのアクティブプログラム（アクティブプログラムのストレージ制御プログラム）と、Ｎ（Ｎは２以上の整数）のスタンバイプログラムとで構成される。当該Ｎのスタンバイプログラムの各々には、ＦＯ（フェイルオーバー）先として決定される優先順位が関連付けられている。同一冗長化グループにおいてアクティブプログラムから優先順位に基づいてスタンバイプログラムへのＦＯが行われるようになっている。同一ノードに配置されている複数の冗長化グループにおけるアクティブプログラムとＦＯによりアクティブに変化するスタンバイプログラムとを含む複数のストレージ制御プログラムについて、それぞれのプログラムをＦＯ先となりうるスタンバイのストレージ制御プログラムがそれぞれ異なるノードに配置されている。【選択図】図６

Description

本発明は、概して、記憶システム及びその制御方法に関し、例えば、それぞれ１又は複数のＳＤＳ（Software Defined Storage）が実装された複数のストレージノードを備える情報処理システムに適用して好適なものである。

従来、情報処理システムでは、可用性及び信頼性向上のためにサーバ装置の冗長化構成をとることが多い。

例えば特許文献１には、ある冗長化グループに属する現用系（アクティブ）のストレージ制御ソフトと、別の冗長化グループに属する待機系（スタンバイ）のストレージ制御ソフトとを同じサーバに配置することによって、サーバを効率よく利用しつつストレージ制御ソフトの可用性を高める技術が開示されている。

特開２０１９－１０１７０３号公報

２台以上のサーバに障害が生じた場合の可用性を確保するために、各冗長化グループにおけるスタンバイのストレージ制御ソフトの数を２以上とすること、すなわち、各冗長化グループを構成するストレージ制御ソフトの数を３以上とすることが考えられる。このケースにおいて、２台のサーバが障害を起こした場合、１つのサーバに３つのアクティブのストレージ制御ソフトが動作することがあり得る。結果として、１つのサーバに負荷が集中してＩ／Ｏ性能が落ちるといった問題、及び、メモリ消費が大きくなるといった問題がある。

このような問題を避けるため、２台目のサーバに障害が起きた時に既に２つ動作しているアクティブのストレージ制御ソフトを予め他のサーバに移動しておくという方法が考えられる。しかし、その方法では、ストレージ制御ソフトの移動処理により、障害を起こしたサーバのアクティブ制御ソフトのフェイルオーバーが開始できず、Ｉ／Ｏ停止時間が伸びる。

別の方法として、ある冗長化グループにスタンバイのストレージ制御ソフトが１つしか残っていない場合、このスタンバイ制御ソフトが存在するサーバにあるアクティブ制御ソフトを予め他のサーバに移動しておく方法が考えられる。しかし、その方法では、ストレージ制御ソフトの移動処理により、障害を起こしていないサーバのＩ／Ｏ性能が低下する。

また別の方法として、サーバに障害が起きた時に、他の各サーバにおけるアクティブのストレージ制御ソフトの数を基に、障害が起きたサーバにおけるアクティブのストレージ制御ソフトを含んだ冗長化グループ内の複数のスタンバイのストレージ制御ソフトのうちのいずれのスタンバイのストレージ制御ソフトをアクティブとするかを選択する方法が考えられる。しかし、その方法では、ストレージノードに障害が起きた時に他の各ストレージにおけるアクティブのストレージ制御ソフトの数を検出するためのノード間通信が必要となり、フェイルオーバーの完了までに時間がかかり、結果として、Ｉ／Ｏ停止時間が伸びる。

（Ｎ+１）のストレージ制御プログラムで構成された各冗長化グループについて、１つのストレージ制御プログラムが、アクティブのストレージ制御プログラムであるアクティブプログラムであり、残りのＮのストレージ制御プログラムの各々が、スタンバイのストレージ制御プログラムであるスタンバイプログラムである。当該Ｎのスタンバイプログラムの各々には、フェイルオーバー先として決定される優先順位が関連付けられている。アクティブプログラムが配置されているストレージノードに障害が生じた場合に当該アクティブプログラムから最先の優先順位のスタンバイプログラムへの当該冗長化グループ内でのフェイルオーバーが行われるようになっている。当該冗長化グループαの配置条件は、冗長化グループαにとっての全ての冗長化グループβのｋ次以下の影響ノードには当該冗長化グループαにおけるＮのスタンバイプログラムのうち高々ｋ個のスタンバイプログラムしか配置されないことである。冗長化グループαにとっての冗長化グループβは、冗長化グループαのｍ次影響ノードに配置されたアクティブプログラムを含んだ冗長化グループである（ｍは自然数、且つ、ｍ＜Ｎ）。冗長化グループαのｍ次影響ノードは、冗長化グループαにおける優先順位ｍのスタンバイプログラムが配置されたストレージノードである。冗長化グループαにおけるアクティブプログラムが配置されたストレージノードが０次影響ノードである。冗長化グループαにとっての冗長化グループβにおける優先順位ｋのスタンバイプログラム（ｋは自然数、且つ、１≦ｋ≦（Ｎ－ｍ））が配置されたストレージノードが、冗長化グループαの（ｍ＋ｋ）次影響ノードである。

本発明によれば、リソース消費の集中を回避しながら２台以上のストレージノードに障害が生じた場合の可用性を確保することができる。

第１の実施形態による情報処理システムの構成例を示す。第１の実施形態によるストレージノードの物理構成例を示す。第１の実施形態によるストレージノードの論理構成例を示す。第１の実施形態によるストレージノードに格納されるプログラム及びデータの一例を示す。第１の実施形態によるストレージ制御部の配置方式の一例を示す。第１の実施形態によるストレージ制御部の配置の一例を示す。障害が生じた１台目のストレージノードがストレージノード１であるケースを示す。障害が生じた２台目のストレージノードがストレージノード３であるケースを示す。障害が生じた２台目のストレージノードがストレージノード２であるケースを示す。障害が生じた２台目のストレージノードがストレージノード０であるケースを示す。第１の実施形態の一比較例を示す。第１の実施形態の一比較例を示す。第１の実施形態の一比較例を示す。第１の実施形態によるストレージ制御部の配置の一例を示す。第１の実施形態によるストレージ制御部の配置方式の一例を示す。第１の実施形態によるストレージ制御部の配置の一例を示す。第２の実施形態によるストレージノードの論理構成例を示す。第２の実施形態における影響ノードの概念と、ストレージ制御部の配置方法の例とを示す。第２の実施形態によるストレージ制御部の配置の一例を示す。第２の実施形態によるストレージ制御部の配置の一例を示す。第２の実施形態によるストレージ制御部の配置の一例を示す。第２の実施形態によるストレージ制御部の配置の一例を示す。第３の実施形態によるストレージ制御部の配置の一例を示す。第３の実施形態によるストレージ制御部の配置の一例を示す。

以下の説明では、「インターフェース装置」は、１つ以上のインターフェースデバイスでよい。当該１つ以上のインターフェースデバイスは、下記のうちの少なくとも１つでよい。
・１つ以上のＩ／Ｏ（Input/Output）インターフェースデバイス。Ｉ／Ｏ（Input/Output）インターフェースデバイスは、Ｉ／Ｏデバイスと遠隔の表示用計算機とのうちの少なくとも１つに対するインターフェースデバイスである。表示用計算機に対するＩ／Ｏインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも１つのＩ／Ｏデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・１つ以上の通信インターフェースデバイス。１つ以上の通信インターフェースデバイスは、１つ以上の同種の通信インターフェースデバイス（例えば１つ以上のＮＩＣ（Network Interface Card））であってもよいし二つ以上の異種の通信インターフェースデバイス（例えばＮＩＣとＨＢＡ（Host Bus Adapter））であってもよい。

また、以下の説明では、「メモリ」は、１つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも１つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。

また、以下の説明では、「記憶装置」は、１つ以上の永続記憶デバイスでよい。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス（例えば補助記憶デバイス）でよく、具体的には、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＮＶＭＥ（Non-Volatile Memory Express）ドライブ、又は、ＳＣＭ（Storage Class Memory）でよい。

また、以下の説明では、「プロセッサ」は、１つ以上のプロセッサデバイスでよい。少なくとも１つのプロセッサデバイスは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサデバイスでよいが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサデバイスでもよい。少なくとも１つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも１つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも１つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア記述言語によりゲートアレイの集合体である回路（例えばＦＰＧＡ（Field-Programmable Gate Array）、ＣＰＬＤ（Complex Programmable Logic Device）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサデバイスでもよい。

また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶装置及び／又はインターフェース装置等を用いながら行うため、処理の主語が、プロセッサ（或いは、そのプロセッサを有するコントローラのようなデバイス）とされてもよい。プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ又は計算機が読み取り可能な（例えば非一時的な）記録媒体であってもよい。また、以下の説明において、二つ以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが二つ以上のプログラムとして実現されてもよい。

また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号を使用し、同種の要素を区別して説明する場合は、当該要素に割り振られた識別情報（例えば、符号又は番号）を使用することがある。

以下図面について、本発明の幾つかの実施の形態を詳述する。
（１）第１の実施の形態
（１－１）本実施の形態による情報処理システムの構成

図１は、本実施の形態による情報処理システムの構成例を示す。

この情報処理システムは、例えばファイバーチャネル（Fibre Channel）、イーサネット（登録商標）又はＬＡＮ（Local Area Network）などから構成されるネットワーク１０２を介して相互に接続された複数のホスト装置１０１と、複数のストレージノード１０３と、管理ノード１０４とを備えて構成されている。

ホスト装置１０１は、ユーザ操作や実装されたアプリケーションプログラムからの要求に応じてストレージノード１０３に対してリード要求又はライト要求（以下、適宜、これらをまとめてＩ／Ｏ（Input/Output）要求と呼ぶ）を送信する汎用のコンピュータ装置である。なお、ホスト装置１０１は、仮想マシンのような仮想的なコンピュータ装置であってもよい。

具体的には、例えば、ストレージノード１０３は、ホスト装置１０１に対してデータを読み書きするための記憶領域を提供する物理サーバ装置であり、図２に示すように、ＣＰＵ（Central Processing Unit）１０３１、メモリ１０３２、複数の記憶デバイス１０３３及び通信装置１０３４を備えて構成される。ＣＰＵ１０３１がプロセッサの一例である。複数の記憶デバイス１０３３が記憶装置の一例である。通信装置１０３４がインターフェース装置の一例である。

ＣＰＵ１０３１は、ストレージノード１０３全体の動作制御を司るデバイスである。またメモリ１０３２は、ＳＲＡＭ（Static RAM（Random Access Memory））やＤＲＡＭ（Dynamic RAM）などの揮発性の半導体メモリから構成され、各種プログラムや必要なデータを一時的に保持するために利用される。メモリ１０３２に格納されたプログラムをＣＰＵ１０３１が実行することにより、後述のようなストレージノード１０３全体としての各種処理が実行される。

記憶デバイス１０３３は、ＳＳＤ（Solid State Drive）、ＳＡＳ（Serial Attached SCSI（Small Computer System Interface））ハードディスクドライブ又はＳＡＴＡ（Serial ATA（Advanced Technology Attachment））ハードディスクドライブなどの１又は複数種類の大容量の不揮発性記憶装置から構成され、ホスト装置１０１（図１）からのライト／リード要求（以下、これをＩ／Ｏ（Input/Output）要求と呼ぶ）に応じてデータをリード／ライトするための物理的な記憶領域を提供する。

通信装置１０３４は、ストレージノード１０３がネットワーク１０２（図１）を介してホスト装置１０１や、他のストレージノード１０３又は管理ノード１０４と通信を行うためのインターフェースであり、例えばＮＩＣ（Network Interface Card）やＦＣ（Fibre Channel）カードなどから構成される。通信装置１０３４は、ホスト装置１０１、他のストレージノード１０３又は管理ノード１０４との通信時におけるプロトコル制御を行う。

管理ノード１０４は、システム管理者が本情報処理システム全体を管理するために利用するコンピュータ装置である。管理ノード１０４は、複数のストレージノード１０３を「クラスタ」と呼ぶグループとして管理してよい。なお、図１では、クラスタが１つのみ設けられた例を示しているが、情報処理システム内に複数のクラスタを設けるようにしてもよい。また、管理ノード１０４は、例えば、インターフェース装置、記憶装置、メモリ及びそれらに接続されたプロセッサを備えてよい。記憶装置又はメモリが、構成情報５１といった情報や、配置制御部５３を実現するためのプログラムを記憶してよい。構成情報５は、例えば、ノード毎の識別番号と、後述する冗長化グループ毎の識別番号とを含んでよい。プロセッサがプログラムを実行することで配置制御部５３が実現されてよい。配置制御部５３は、構成情報５１を基に、いずれのストレージ制御部をいずれのストレージノード１０３に配置するかを決定し、ストレージ制御部を配置先として決定されたストレージノード１０３に配置してよい。配置制御部５３が構成情報５１を基に自動でストレージ制御部を配置することに代えて、ユーザ（例えば管理者）からの操作に応答して配置制御部５３がストレージ制御部を配置してもよい。

図３は、ストレージノード１０３の論理構成例を示す。

この図３に示すように、各ストレージノード１０３は、フロントエンドドライバ１０８１及びバックエンドドライバ１０８７と、１又は複数のストレージ制御部１０８３と、容量制御部１０８６とを備える。

フロントエンドドライバ１０８１は、通信装置１０３４（図２）を制御し、ストレージ制御部１０８３に対してホスト装置１０１、他のストレージノード１０３又は管理ノード１０４との通信時における抽象化したインターフェースをＣＰＵ１０３１（図２）に提供する機能を有するソフトウェアである。またバックエンドドライバ１０８７は、自ストレージノード１０３内の各記憶デバイス１０３３（図２）を制御し、これら記憶デバイス１０３３との通信時における抽象化したインターフェースをＣＰＵ１０３１に提供する機能を有するソフトウェアである。

ストレージ制御部１０８３は、ＳＤＳ（Software Defined Storage）のコントローラとして機能するソフトウェアであり、ストレージ制御プログラムの一例である。ストレージ制御部１０８３は、ホスト装置１０１からのＩ／Ｏ要求を受け付け、当該Ｉ／Ｏ要求に応じたＩ／Ｏコマンドを容量制御部１０８６に発行する。

本実施の形態の場合、ストレージノード１０３に実装された各ストレージ制御部１０８３は、別の２つ以上のストレージノード１０３に配置された別の２つ以上のストレージ制御部１０８３と共に冗長構成を構成するグループとして管理される。以下においては、このグループを「冗長化グループ」と呼ぶものとする。

なお図３では、３つのストレージ制御部１０８３により１つの冗長化グループが構成される場合を示しており、以下においても、３つのストレージ制御部１０８３（つまり三重化されたストレージ制御部１０８３）により冗長化グループが構成されるものとして説明を進める。

冗長化グループでは、１つのストレージ制御部１０８３がホスト装置１０１からのＩ／Ｏ要求を受け付けることができる状態（現用系の状態であり、以下、これをアクティブモードと呼ぶ）に設定され、残りのストレージ制御部１０８３の各々がホスト装置１０１からのリード要求やライト要求を受け付けない状態（待機系の状態であり、以下、これをスタンバイモードと呼ぶ）に設定される。

そして冗長化グループでは、アクティブモードに設定されたストレージ制御部１０８３（以下、これをアクティブストレージ制御部１０８３と呼ぶ）やそのアクティブストレージ制御部１０８３が配置されたストレージノード１０３に障害が発生した場合などに、それまでスタンバイモードに設定されていたストレージ制御部１０８３（以下、これをスタンバイストレージ制御部１０８３と呼ぶ）の状態がアクティブモードに切り替えられる。当該アクティブストレージ制御部１０８３を含んだ冗長化グループにおいて、アクティブストレージ制御部１０８３からスタンバイストレージ制御部１０８３へのフェイルオーバーが行われる。これにより、アクティブストレージ制御部１０８３が稼働し得なくなった場合に、当該アクティブストレージ制御部１０８３が実行していたＩ／Ｏ処理を、スタンバイストレージ制御部１０８３により引き継ぐことができる。

容量制御部１０８６は、各冗長化グループに対して自ストレージノード１０３内又は他のストレージノード１０３内の記憶デバイス１０３３が提供する物理的な記憶領域を割り当てると共に、ストレージ制御部１０８３から与えられる上述のＩ／Ｏコマンドに従って、指定されたデータを対応する記憶デバイス１０３３にリード／ライトする機能を有するソフトウェアである。

この場合、容量制御部１０８６は、冗長化グループに対して他のストレージノード１０３内の記憶デバイス１０３３が提供する物理的な記憶領域を割り当てたときには、当該他のストレージノード１０３に実装された容量制御部１０８６と協働して、その容量制御部１０８６との間でネットワーク１０２を介してデータをやり取りすることにより、その冗長化グループのアクティブストレージ制御部１０８３から与えられたＩ／Ｏコマンドに従ってそのデータをその記憶領域にリード／ライトする。

以上の構成を有する本情報処理システムにおいて、容量制御部１０８６は、図４に示すように、各ストレージノード１０３内の記憶デバイス１０３３がそれぞれ提供する物理的な記憶領域を、それぞれ所定大きさの物理記憶領域（以下、これを物理チャンクと呼ぶ）に分割して管理する。

また容量制御部１０８６は、各冗長化グループに対してそれぞれ専用のプールを対応付け、これらプールに物理チャンクと同じ大きさの論理的な記憶領域（以下、これを論理チャンク）を適宜割り当て、この論理チャンクに対して１又は複数の物理チャンクを対応付ける。

さらに各冗長化グループのプール上には１又は複数の仮想的な論理ボリューム（以下、これを仮想ボリュームと呼ぶ）が定義され、これらの仮想ボリュームがホスト装置１０１に提供される。

そしてホスト装置１０１は、かかる仮想ボリュームにデータをライトする場合、そのデータのライト先の仮想ボリューム（以下、これをライト対象仮想ボリュームと呼ぶ）の識別子（ＬＵＮ（Logical Number Unit））と、そのライト対象仮想ボリュームにおけるそのデータのライト先の領域（以下、これをライト先領域と呼ぶ）とを指定したライト要求を、対応するクラスタ内のいずれかのストレージノード１０３に送信する。

このライト要求を受信したストレージノード１０３のフロントエンドドライバ１０８１は、受信したライト要求において指定されたライト対象仮想ボリュームとプールを介して対応付けられた冗長化グループのアクティブストレージ制御部１０８３（図３）又はスタンバイストレージ制御部１０８３が配置されている各ストレージノード１０３のフロントエンドドライバ１０８１にそのライト要求、及び、当該ライト要求と共にホスト装置１０１から送信されてきたライト対象のデータ（以下、これをライトデータと呼ぶ）を転送する。

また、このライト要求及びライトデータを受領したストレージノード１０３のフロントエンドドライバ１０８１は、これらライト要求及びライトデータを、ライト要求において指定されたライト対象仮想ボリュームとプールを介して対応付けられた冗長化グループのストレージ制御部１０８３に引き渡す。

そして、これらライト要求及びライトデータが引き渡されたストレージ制御部１０８３のうちのアクティブストレージ制御部１０８３は、ライト対象仮想ボリューム内のライト先領域に対して、当該ライト対象仮想ボリュームと対応付けられたプールを構成する論理チャンクから必要に応じて記憶領域（以下、これを論理領域と呼ぶ）を割り当てる。

また、かかるアクティブストレージ制御部１０８３は、ライト要求において指定されたライト対象仮想ボリューム内のライト先領域のアドレスを、そのライト先領域に論理領域を割り当てた論理チャンクのチャンク番号と、当該論理領域のオフセット位置とに変換したＩ／Ｏコマンドを生成し、生成したＩ／Ｏコマンドをライトデータと共に自ストレージノード１０３内の容量制御部１０８６に送信する。

そして容量制御部１０８６は、このＩ／Ｏコマンド及びライトデータを受信すると、当該Ｉ／Ｏコマンドで指定された論理チャンクに対応付けた各物理チャンクをそれぞれ提供する各記憶デバイス１０３３内のかかるオフセット位置の記憶領域にデータをそれぞれ格納する。

このようにして本情報処理システムでは、ホスト装置１０１からのデータが対応する論理チャンクに対応付けられた複数の物理チャンクに冗長化されて格納される。このため論理チャンクに割り当てられる物理チャンクの数は、その情報処理システムにおける冗長化方式の設定内容によって決定される。

例えば、データを三重化以上に多重化して記憶する設定の場合や、Erasure-Codingのようにデータから冗長化データを作成して記憶する設定がなされている場合などには、３つ以上の必要な数の物理チャンクが１つの論理チャンクに対応付けられる。

なお１つの論理チャンクに複数の物理チャンクが対応付けられ、これら複数の物理チャンクにデータを多重化して格納する場合、これら複数の物理チャンクの中から１つの物理チャンクが「マスタ」に設定され、残りの物理チャンクがすべて「ミラー」に設定される。そして、後述のように、物理チャンクからのデータリードは「マスタ」に設定された物理チャンクから行われる。またＥＣ（Erasure Coding）の場合には、１つの論理チャンクに複数の物理チャンクが対応付けられ、これら複数の物理チャンクにマスタデータ及び冗長データが所定パターンで格納される。

一方、ホスト装置１０１は、仮想ボリュームからデータを読み出す場合、その仮想ボリューム（以下、これをリード対象仮想ボリュームと呼ぶ）のＬＵＮと、そのリード対象仮想ボリュームにおけるそのデータのリード先の記憶領域（以下、これをリード先領域と呼ぶ）とを指定したリード要求をそのリード対象仮想ボリュームが含まれるクラスタ内のいずれかのストレージノード１０３に送信する。

このリード要求を受信したストレージノード１０３のフロントエンドドライバ１０８１は、受信したリード要求において指定されたリード対象仮想ボリュームとプールを介して対応付けられた冗長化グループのアクティブストレージ制御部１０８３又はスタンバイストレージ制御部１０８３が配置された各ストレージノード１０３にそのリード要求をそれぞれ転送する。

また、このリード要求を受領したかかるストレージノード１０３のフロントエンドドライバ１０８１は、このリード要求を当該リード要求において指定されたリード対象仮想ボリュームとプールを介して対応付けられた冗長化グループのストレージ制御部１０８３に引き渡す。

かくして、このリード要求が引き渡されたかかるストレージ制御部１０８３のうちのアクティブストレージ制御部１０８３は、リード対象仮想ボリューム内のリード先領域のアドレスを、当該リード先領域に論理領域を割り当てた論理チャンクのチャンク番号と、当該論理領域のオフセット位置とに変換したＩ／Ｏコマンドを生成し、生成したＩ／Ｏコマンドを自ストレージノード１０３内の容量制御部１０８６に送信する。

容量制御部１０８６は、このＩ／Ｏコマンドを受信すると、当該Ｉ／Ｏコマンドで指定された論理チャンクと対応付けられた各物理チャンクのうち、「マスタ」に設定された物理チャンク内のＩ／Ｏコマンドで指定されたオフセット位置の記憶領域からデータを読み出し、読み出したデータをリードデータとしてＩ／Ｏコマンドの送信元のアクティブストレージ制御部１０８３に転送する。かくして、このリードデータは、この後、かかるアクティブストレージ制御部１０８３によりネットワーク１０２を介してかかるリード要求の送信元のホスト装置１０１に転送される。
（１－２）論理チャンクに対する物理チャンクの割当て

ところで、上述のように１つの論理チャンクに複数の物理チャンクを対応付け、これらの物理チャンクにデータをそれぞれ格納することによりデータを冗長化する冗長化方式を採用する場合、データ保護の観点からも、１つの論理チャンクに対応付ける複数の物理チャンクをそれぞれ異なるストレージノード１０３が提供する物理チャンクから選択することが望ましい。これは、例えば、１つの論理チャンクに対して同じストレージノード１０３内の複数の物理チャンクを対応付けた場合、そのストレージノード１０３が障害等によりデータの読み出しを行えなくなったときにデータロストが発生することになるからである。

そこで本情報処理システムでは、容量制御部１０８６が冗長化グループに論理チャンクを割り当て、その論理チャンクに複数の物理チャンクを対応付ける際に、これら複数の物理チャンクをそれぞれ互いに異なる複数のストレージノード１０３が提供する物理チャンクの中から選択することとしている。

一方で、論理チャンクと対応付ける物理チャンクを、アクティブストレージ制御部１０８３が配置されたストレージノード１０３とは別のストレージノード１０３内の物理チャンクから選択することとした場合、そのアクティブストレージ制御部１０８３からのＩ／Ｏコマンドを受領した容量制御部１０８６（アクティブストレージ制御部１０８３と同じストレージノード１０３内の容量制御部１０８６）がその物理チャンクにデータをリード／ライトする際に、その物理チャンクを提供するストレージノード１０３との間の通信が必要となり、その分、システム全体としての応答性能が悪くなるという問題がある。従って、論理チャンクに複数の物理チャンクを対応付けるに際しては、その物理チャンクのうちの１つを、アクティブストレージ制御部１０８３が配置されたストレージノード１０３内の記憶デバイス１０３３が提供する物理チャンクの中から選択する方がシステム全体の応答性能の観点からも望ましい。

また、冗長化グループにおけるアクティブストレージ制御部１０８３が配置されたストレージノード１０３に障害が発生した場合に、スタンバイストレージ制御部１０８３がアクティブモードに切り替えられることを考慮すると、上述と同様の理由により、論理チャンクに対応付ける物理チャンクのうちの１つは、スタンバイストレージ制御部１０８３が配置されたストレージノード１０３内の記憶デバイス１０３３が提供する物理チャンクの中から選択する方がシステム全体の応答性能の観点からも望ましい。

そこで本情報処理システムでは、容量制御部１０８６が冗長化グループに論理チャンクを割り当て、その論理チャンクに複数の物理チャンクを対応付ける際に、当該冗長化グループのアクティブストレージ制御部１０８３が配置されたストレージノード１０３内の記憶デバイス１０３３が提供する物理チャンクと、当該冗長化グループのスタンバイストレージ制御部１０８３が配置されたストレージノード１０３内の記憶デバイス１０３３が提供する物理チャンクとを優先的にその論理チャンクに対応付ける容量優先割当て機能が容量制御部１０８６に搭載されている。

ただし、１つの冗長化グループに割り当てられたプール内の論理チャンクに対して、その冗長化グループを構成するアクティブストレージ制御部１０８３やスタンバイストレージ制御部１０８３が配置されたストレージノード１０３から物理チャンクを無制限に対応付けると、そのストレージノード１０３にアクティブストレージ制御部１０８３やスタンバイストレージ制御部１０８３が配置された他の冗長化グループの論理チャンクに対してそのストレージノード１０３内の記憶デバイス１０３３から物理チャンクを対応付けられなくなるという問題がある。

そこで、かかる容量優先割り当て機能には、冗長化グループに対し、当該冗長化グループのアクティブストレージ制御部１０８３が配置されたストレージノード１０３や、当該冗長化グループのスタンバイストレージ制御部１０８３が配置されたストレージノード１０３から割り当てる物理チャンクの容量を抑制する機能も含まれている。

次に、本実施形態における、ストレージ制御部１０８３の配置方式とフェイルオーバー先スタンバイ選択方式を述べる。

これ以降、ストレージ制御部を「ＳＣ」と表現し、冗長化グループα（例えば、α＝Ｘ、Ｙ、…）に属するＳＣを「ＳＣ－α」と表現（αは任意の冗長化グループの符号又は番号）し、アクティブＳＣを「ＳＣ（Ａ）」と表現し、スタンバイＳＣを「ＳＣ（Ｓ）」と表現し、スタンバイ（ｉ）モードで動作するＳＣ（Ｓ）を「ＳＣ（Ｓｉ）」と表現する。各冗長化グループにおいて、“ｉ”は、ＳＣ（Ｓ）に割り振られた通し番号（以下、スタンバイ番号）であり、フェイルオーバー先となる優先順位に相当する。本実施形態では、ＳＣ（Ｓ）が２つであるため、冗長化グループ毎に、ＳＣ（Ｓ１）とＳＣ（Ｓ２）が存在する。各冗長化グループについて、ＳＣ（Ｓ１）及びＳＣ（Ｓ２）が正常な２つのストレージノードに存在する場合、ＳＣ（Ｓ１）が、最先の優先順位のＳＣ（Ｓ）、つまり、フェイルオーバー先のＳＣ（Ｓ）である。各冗長化グループについて、ＳＣ（Ｓ２）が存在するストレージノードには障害が生じていないがＳＣ（Ｓ１）が存在するストレージノードに障害が生じている場合（すなわち、ＳＣ（Ｓ１）がフェイルオーバー先になれない場合）、ＳＣ（Ｓ２）が最先の優先順位のＳＣ（Ｓ）である。このように、各冗長化グループについて、ＳＣ（Ｓ）のスタンバイ番号は、当該ＳＣ（Ｓ）がフェイルオーバー先となる優先順位の一例に相当する。

図５は、本実施形態でのＳＣ配置方式を示す。

本実施形態での配置方式によれば、ＳＣ－Ｘ（Ａ）とＳＣ－Ｙ（Ｓ１）がストレージノードＰに配置されている時、ＳＣ－Ｘ（Ｓ１）が配置されているストレージノードＱ以外のストレージノード１３０にＳＣ－Ｙ（Ｓ２）が配置される。

また、本実施形態でのフェイルオーバー先スタンバイ選択方式によれば、各冗長化グループにおいて、動作中のＳＣ（Ｓ）（すなわち、正常なストレージノードに存在するＳＣ（Ｓ））のうちスタンバイ番号が最も若いＳＣ（Ｓ）がフェイルオーバー先として選択される。

このような配置方式とフェイルオーバー先スタンバイ選択方式を採ることにより、どのような順で２台のストレージノード１３０に障害が起きたとしても、ＳＣ（Ａ）が３つ以上同じストレージノード１３０で動作しない状態を、事前及び／又は事後のＳＣの移動を伴わずに維持可能である。

図６は、ＳＣ配置の一例を示している。以降の説明では、ｍｏｄは除算の余りを得る記号である。また、ストレージノード１３０には、識別番号としてノード番号ｈ（ｈは整数且つ通し番号（０，１，…））が割り振られているとする。また、冗長化グループには、識別番号としてグループ番号ｎ（ｎは整数且つ通し番号（０，１，…））が割り振られているとする。構成情報５１は、ストレージノードの数（又は、各ストレージノードのノード番号ｈ）と、冗長化グループの数（又は、各冗長化グループのグループ番号ｎ）と、各冗長化グループのＳＣ（Ｓ）の数（本実施形態では、ＳＣ（Ｓ）の数は２）とを表す情報を含む。

配置制御部５３が、構成情報５１を基に、ＳＣ－ｎ（Ａ）をノード番号ｎ（ｈ＝ｎ）のストレージノードに配置する。次に、配置制御部５３が、構成情報５１を基に、ＳＣ－ｎ（Ｓ１）をノード番号（（ｎ＋１）ｍｏｄ４）のストレージノードに配置し、ＳＣ－ｎ（Ｓ２）をノード番号（（ｎ－１）ｍｏｄ４）のストレージノードに配置する。これにより、図６に例示のＳＣ配置が実現される。この段落において、「ｍｏｄ４」の“４”は、ストレージノードの数の一例である。

図７～図１０は、図６に示す配置例における、２台のノード障害のパターンを示している。どの順で２台のノード障害が起きても、３つ以上のＳＣ（Ａ）が１つのストレージノードで動作しない状態を、事前又は事後のＳＣの移動を伴わずに維持できていることが示される。

図７は、障害が生じた１台目のストレージノードがストレージノード１であるケースを示す。ＳＣ－１（Ａ）は、ストレージノード１の障害によって、残る２つのＳＣ－１（Ｓ１）及びＳＣ－１（Ｓ２）うち、若いスタンバイ番号が割り振られているＳＣ－１（Ｓ１）にＳＣ－１（Ａ）からのフェイルオーバーが行われる（ＳＣ（Ｓｉ）の状態がスタンバイモードからアクティブモードに変わり、同じ冗長化グループに属するＳＣ（Ａ）の処理を引き継ぐことを、「ＳＣ（Ｓｉ）にフェイルオーバーする」と表現することができる）。この時点で、ストレージノード２には、元から動作していたＳＣ２（Ａ）と、新たにモードが切り替わったＳＣ－１（Ａ）が動作する。

図８～図１０は、障害が生じた２台目のストレージノードがストレージノード０，２又は３であるケースを示す。いずれのケースでも、動作中のＳＣ（Ｓ）の中で最も若いスタンバイ番のＳＣ（Ｓ）に対して処理が引き継がられるフェイルオーバーが行われるが、それぞれのストレージノードで動作するＳＣ（Ａ）の数は最大２である。この段落において、「最大２」の“２”は、１つのストレージノードに存在することが許容されるＳＣ（Ａ）の上限の一例である。

図１１は、本実施形態の一比較例を示す。

この比較例では、ストレージノードｎ（ｈ＝ｎ）にＳＣ－ｎ（Ａ）が配置される点、及び、ＳＣ－ｎ（Ｓ１）がノード番号（（ｎ＋１）ｍｏｄ４）のストレージノードに配置される点は、図６に示す例と同じである。

しかし、ＳＣ－ｎ（Ｓ２）が、ノード番号（（ｎ＋２）ｍｏｄ４）のストレージノードに配置されている。すなわち、この比較例では、ＳＣ－０（Ａ）とＳＣ－３（Ｓ１）が同ストレージノード０に配置され、かつ、ＳＣ－０（Ｓ１）とＳＣ－３（Ｓ２）が同ストレージノード１に配置されている。別の観点から言えば、フェイルオーバー元となるストレージノードとフェイルオーバー先となるストレージノードとのノードペアが同じであり冗長化グループがそれぞれ異なる複数のＳＣペアが存在する。「ＳＣペア」は、フェイルオーバー元のＳＣとフェイルオーバー先のＳＣとのペアであり、具体的には、ＳＣ（Ａ）とＳＣ（Ｓ１）とのペアと、ＳＣ（Ｓｉ）とＳＣ（Ｓ（ｉ＋１））とのペアである。図１２の例によれば、冗長化グループ１におけるＳＣ－１（Ａ）とＳＣ－１（Ｓ１）とのペアと、冗長化グループ０におけるＳＣ－０（Ｓ１）とＳＣ－０（Ｓ２）とのペアが、それぞれ冗長化グループが異なりノードペアが同じ（いずれもストレージノード１がフェイルオーバー元となりストレージノード２がフェイルオーバー先となるノードペアである）ＳＣペアである。

このため、この比較例では、２台目のストレージノードに障害が生じると同ストレージノードに３つのＳＣ（Ａ）が動作するケースが存在する。図１２～図１３は、そのケースの例を示している。すなわち、ストレージノード１がまず障害となり（図１２）、次にストレージノード０が障害となると（図１３）、ストレージノード２にＳＣ（Ａ）が３つ動作することになる。具体的には、ストレージノード１に障害が生じた場合にＳＣ－１（Ａ）からＳＣ－１（Ｓ１）へのフェイルオーバーが行われることで、ストレージノード２において、ＳＣ－１（Ｓ１）がＳＣ－１（Ａ）となり、結果として、ストレージノード２に２つのＳＣ（Ａ）が存在する。その後、ストレージノード０に障害が生じた場合に、ＳＣ－０（Ｓ１）が障害ノード１に存在するのでＳＣ－０（Ａ）からＳＣ－０（Ｓ２）へのフェイルオーバーが行われ、ストレージノード２において、ＳＣ－０（Ｓ２）がＳＣ－０（Ａ）となり、結果として、ストレージノード２に３つのＳＣ（Ａ）が存在する。このため、１台目のストレージノード１に障害が生じた後または２台目のストレージノード０に障害が生じた後にＳＣ（Ａ）を移動しなければ、１つのストレージノード２に３つのＳＣ（Ａ）が動作する問題（すなわち、メモリ量のようなリソース消費が大きい過負荷が生じること）を回避することができない。

一方、図６～図１０を参照して説明した本実施形態のＳＣ配置方法は、ストレージノード数が４以上の任意のストレージノード数で有効である。図１４は、ノード数６の場合のＳＣ配置の例を示す。この例では、まずストレージノードｎ（ｈ＝ｎ）にＳＣ－ｎ（Ａ）が配置される。また、ＳＣ－ｎ（Ｓ１）が、ノード番号（（ｎ＋１）ｍｏｄ６）のストレージノードに配置され、ＳＣ－ｎ（Ｓ２）が、ノード番号（（ｎ－１）ｍｏｄ６）のストレージノードに配置される。

別の観点から言えば、ノードに配置された複数のＳＣを引き継ぐことが可能なＳＣがそれぞれ別のノードに配置される。例えば、冗長化グループがそれぞれ異なりフェイルオーバー元のＳＣが配置されるノードが同じ複数のＳＣペアにおいて、フェイルオーバー先のＳＣが配置されるノードがそれぞれ異なる。図６～図１０を例に取ると、ＳＣ－１（Ａ）とＳＣ－１（Ｓ１）とのペアと、ＳＣ－０（Ｓ１）とＳＣ－０（Ｓ２）とのペアは、フェイルオーバー元のＳＣはいずれもストレージノード１に配置されるが、フェイルオーバー先のＳＣは、ストレージノード２及び３にそれぞれ配置される。図６～図１０及び図１４に示すＳＣ配置例をより一般的に表現すると、例えば下記の通りである。下記において、Ｃは、ストレージノード数である。
・ＳＣ－ｎ（Ａ）が、ストレージノードｎ（ｈ＝ｎ）に配置される。
・ＳＣ－ｎ（Ｓ１）がノード番号（（ｎ＋Ｘ_１）ｍｏｄＣ）のストレージノードに配置され、ＳＣ－ｎ（Ｓ２）がノード番号（（ｎ＋Ｘ_２）ｍｏｄＣ）のストレージノードに配置される。上述の例では、Ｘ_１＝１であり、Ｘ_２＝－１である。

本実施形態によるＳＣ配置方法の例は、上述の例に限られない。例えば、図１５は、Ｘ_１＝１且つＸ_２＝３の例を示し、図１６は、Ｘ_１＝２且つＸ_２＝１の例を示す。いずれも、図５を参照して説明した配置条件が、ストレージノード数Ｃ＝４以上のケースにおいて満たされている。

本実施形態によるＳＣ配置方法の効果の一例を、図５を参照して説明する。まず１台目のノード障害がノードＰで発生した時、ノードＰに存在するＳＣ－Ｘ（Ａ）からノードＱに存在するＳＣ－Ｘ（Ｓ１）へのフェイルオーバーが行われる。このため、ノードＱにはＳＣ（Ａ）が２つ存在する状態となる。この状態において、本情報処理システムの全ノードの中で、ノードＰとノードＱのいずれかに存在するＳＣ（Ｓ）へのフェイルオーバーは不可である。なぜなら、ノードＰは障害を起こしており、ノードＱに存在するＳＣ（Ａ）の数は上限（許容数）“２”に達しているためである（この例では、ＳＣ（Ａ）の数の上限は、“（Ｋ－１）”（Ｋは、１つのストレージノードに配置されるＳＣの数）である）。ノードＰ及びＱ以外のノードにおけるＳＣ（Ｓ）へのフェイルオーバーは可能である。従って、各冗長化グループについて、ストレージノードＰ及びＱ以外のストレージノードに１つでもＳＣ（Ｓ）があればよい。

本実施形態によるＳＣ配置方式によれば、１台目のノード障害が生じたストレージノードＰにＳＣ（Ａ）がある冗長化グループＸ以外の各冗長化グループである冗長化グループＹでは、ストレージノードＰ及びＱ以外のストレージノードにＳＣ－Ｙ（Ｓ）が配置されているため、１台目の障害後に残存するＳＣ－Ｙスタンバイにフェイルオーバー可能な状態が維持される。
（２）第２の実施の形態

第２の実施形態を説明する。その際、第１の実施形態との相違点を主に説明し、第１の実施形態との共通点については説明を省略又は簡略する。

本実施形態では、各冗長化グループが四重化されたＳＣで構成されている。すなわち、本実施形態では、１つのＳＣ（Ａ）と３つのＳＣ（Ｓ）から冗長化グループが構成されている。

図１７は、第２の実施形態によるストレージノード１０３の論理構成例を示す。図３と異なるのは、各ＳＣは４つからなる冗長化グループを構成する点である。各ノードには４つのＳＣが存在する。

ここで、各ＳＣに対して、次の「影響ノード」の概念を定義する。以下、ＮはＳＣ（Ｓ）の数である。本実施形態では、Ｎ＝３である。また、以下、ｍは、スタンバイ番号である。α又はβ＝Ｘ、Ｙ、Ｚ、…である。
・ＳＣ－α（Ａ）が配置されたストレージノードが、ＳＣ－αの０次影響ノードである。
・ＳＣ－α（Ｓｍ）が配置されたストレージノードが、ＳＣ－αのｍ次影響ノードである。
・ストレージノードＰがＳＣ－αのｍ次影響ノード（ただしｍ＜Ｎ）である場合、ストレージノードＰにＳＣ（Ａ）が存在するＳＣ－β（Ｓｋ）（ただし１≦ｋ≦（Ｎ－ｍ））が配置されたストレージノードが、ＳＣ－αの（ｍ＋ｋ）次影響ノードである。

本実施形態によるＳＣ配置方法では、各冗長化グループについて、当該冗長化グループαのうちのｋ個のＳＣ－α（Ｓ）は、当該冗長化グループαにとっての全ての冗長化グループβについてのｋ次以下の影響ノードには高々ｋ個しかスタンバイが配置されない。

図１８は、本実施形態における影響ノードの概念と、ＳＣ配置方法の例とを示す。

ＳＣ－Ｘの影響ノードは４つである。すなわち、ＳＣ－Ｘ（Ａ）が配置されるノードＰが、ＳＣ－Ｘの０次影響ノードである。ＳＣ－Ｘ（Ｓ１）が配置されるノードＱが、ＳＣ－Ｘの１次影響ノードである。冗長化グループＹ（ＳＣ－Ｘの１次影響ノードＱにＳＣ（Ａ）が配置される冗長化グループ）のＳＣ－Ｙ（Ｓ）（例としてＳＣ－Ｙ（Ｓ１））が配置されるノードＲが、ＳＣ－Ｘの２次影響ノードである。ＳＣ－Ｘ（Ｓ２）が配置されるノードＳも同じくＳＣ－Ｘの２次影響ノードである。本実施形態によるＳＣ配置方法によれば、すべてのＳＣ－Ｚは、ＳＣ－Ｘの上述の４つの影響ノードＰ、Ｑ、Ｒ及びＳに、０以上２以下のＳＣ－Ｚ（Ｓ）が配置される。

本実施形態の効果の一例を説明する。ＳＣ－Ｘの１次影響ノードは、ＳＣ－Ｘの０次影響ノード（すなわち、ＳＣ－Ｘ（Ａ）が配置されたノード）に障害が生じた場合にＳＣ（Ａ）２つ以上となる可能性のあるノードである。ＳＣ－Ｘの２次影響ノードは、ＳＣ－Ｘの１次影響ノードに障害があった場合に、ＳＣ（Ａ）が２つ以上になる可能性のあるノードである。一般化して表現すると、ＳＣ－Ｘのｋ次影響ノードは、ＳＣ－Ｘの（ｋ－１）次影響ノードの障害によりＳＣ（Ａ）が２つ以上になる可能性のあるノードである。

次に、障害ルートノードの概念を定義する。ノード障害が生じたストレージノードが１台目であればその障害ノードを１次障害ルートノードとする。ノード障害が生じたストレージノードＰが既に存在するｋ次障害ルートノードＱのｋ次以下の影響ノードであった場合は、ノードＰは障害ルートノードにはせず、代わりにそのｋ次障害ルートノードＱの次数を上げ、（ｋ＋１）次障害ルートノードに変える。ノード障害時、そのノードがいずれの障害ルートノードの影響ノードでもない場合は、このノードを１次障害ルートノードとする。

各障害ルートノードと、その障害ルートノードの次数をｓとしたときのｓ次以下の影響ノードは、障害ノードである可能性もしくはＳＣ（Ａ）が２つ存在するノードである可能性があり、フェイルオーバー不可である可能性がある。

情報処理システムにおけるｔ台目のノード障害後、当該システム内には複数の障害ルートノードが存在し、これらの障害ルートノードの次数の合計はｔである。ここで、それぞれの障害ルートノードについて、その次数をｓとすると、この障害ルートノードのｓ次以下の影響ノードに配置されるＳＣ（Ｓ）の数は、全ＳＣについて、ｓ個である。よってシステム合計では、ＳＣ（Ｓ）はｔ個である。よって、全ＳＣについて、障害ルートノードの影響ノードに配置されフェイルオーバー不可である可能性があるＳＣ（Ｓ）の数はｔ個である。よって、障害ノードの数が（Ｎ－１）以下であれば、各冗長化グループについて、（Ｎ－障害ノード数）分のフェイルオーバー可能なＳＣ（Ｓ）が残っていることが保証される。

図１９～図２１は、本実施形態における具体的な配置例である。第１の実施形態と同様に、ＳＣ（Ｓ）の配置先ノード番号は、ノード数をＣとした場合、例えば下記のような一般的な表現が可能である。
・ＳＣ－ｎ（Ａ）の配置先は、ノード番号ｎ（ｈ＝ｎ）のストレージノードである。
・ＳＣ－ｎ（Ｓｉ）の配置先は、ノード番号（（ｎ＋Ｘ_ｉ）ｍｏｄＣ）のストレージノードである。

図１９は、Ｘ_１＝１，Ｘ_２＝３，Ｘ_３＝５の例である。図２０は、一例としてノード２が２次障害ルートノードとなった場合を示している。円が付されているＳＣは、障害が生じるノードにあるＳＣ（Ａ）、もしくは、そのフェイルオーバー先となるＳＣ（Ｓ）を示している。円の付されたＳＣ（Ｓ）が存在するストレージノードに配置された円の付されていないＳＣ（Ｓ）はフェイルオーバー不可のＳＣ（Ｓ）となる可能性がある。冗長化グループ２（ＳＣ－２）を例に取ると、ストレージノード２，３，４及び５が、冗長化グループ２についての影響ノードとなる。この４ノードにＳＣ（Ｓ）が３つ以上配置された冗長化グループは無いため、本実施形態でのＳＣ配置条件が満たされている。図１９に示した配置方法は５重化以上にも一般化可能で、Ｘ_ｉの値をXi＝i*2-1とすることで本実施形態の配置条件が満たされる。

図２１は、Ｘ_１＝３，Ｘ_２＝２，Ｘ_３＝１の例を示す。図２２は、ノード２が２次障害ルートノードとなった場合を示している（円が付されているＳＣの意味は、図２０と同様である）。冗長化グループ２（ＳＣ－２）を例に取ると、ストレージノード２，４，５及び８が、冗長化グループ２についての影響ノードとなる。この４ノードにＳＣ（Ｓ）が３つ以上配置された冗長化グループは無いため、本実施形態でのＳＣ配置条件が満たされている。
（３）第３の実施の形態

第３の実施形態を説明する。その際、第１及び第２の実施形態との相違点を主に説明し、第１及び第２の実施形態との共通点については説明を省略又は簡略する。

第３の実施形態では、五重化されている冗長化グループが採用される。

図２３は、第３の実施形態によるＳＣ配置の例を示す。ＳＣ（Ｓ）は４つあり、図２３の例によれば、Ｘ_１＝４，Ｘ_２＝３，Ｘ_３＝２，Ｘ_４＝１である。図２４は、ノード２が３次障害ルートノードとなった場合の例を示す。その影響ノードは７ノード（ノード１，２，４，５，６，９及び１０）であり、この７ノードにＳＣ（Ｓ）が４つ以上配置された冗長化グループは無いため、本実施形態でのＳＣ配置条件が満たされている。図２１及び２３に示した配置方法はＮ重化に一般化可能で、Ｘ_ｉの値をXi=N-i+1とすることで実施形態の配置条件が満たされる。

以上の説明の総括の一例として、次のような表現が可能である。すなわち、複数のストレージノードと、記憶装置とが備えられる。それぞれが多重化されたＳＣで構成された複数の冗長化グループが、複数のストレージノードに配置されている。各冗長化グループについて、次の通りである。
・当該冗長化グループを構成しストレージ制御を行う多重化されたＳＣである３つ以上のＳＣは、複数のストレージノードのうちのそれぞれ異なるストレージノードに配置されている。
・当該多重化されたＳＣのうち、１つ以上のＳＣが、ＳＣ（Ａ）であり、残りの２つ以上のＳＣの各々が、ＳＣ（Ａ）のフェイルオーバー先となるＳＣ（Ｓ）である。
・当該２つ以上のＳＣ（Ｓ）の各々には、ＳＣ（Ａ）のフェイルオーバー先として決定される優先順位が関連付けられている。
・ＳＣ（Ａ）が配置されているストレージノードに障害が生じた場合に当該ＳＣ（Ａ）から優先順位に基づいてＳＣ（Ｓ）への当該冗長化グループ内でのフェイルオーバーが行われるようになっている。
・同一のストレージノードに配置されている複数の冗長化グループにおけるＳＣ（Ａ）とフェイルオーバーによりアクティブに変化するＳＣ（Ｓ）とを含む複数のＳＣについて、それぞれのＳＣをフェイルオーバー先となりうるＳＣ（Ｓ）がそれぞれ異なるノードに配置されている。

以上、幾つかの実施形態を説明したが、これらは本発明の説明のための例示であって、本発明の範囲をこれらの実施形態にのみ限定する趣旨ではない。例えば、ストレージノードに代えて他の物理リソースが採用されてもよいし、ＳＣに代えて他の論理リソースが採用されてもよい。例えば、複数のドライブ上にデータを冗長化し、それらのうち一方をアクセスするアクティブ、他方をアクティブの障害時のみアクセスするスタンバイとし、これら同じデータのコピーであるアクティブとスタンバイからなる冗長化グループが構成されてもよい。または、複数のネットワークスイッチや回線などの経路を複数束ねて冗長化し、通信主体によって普段アクセスする経路をアクティブ、他をスタンバイとする冗長化グループが採用されもよい。

１０３…ストレージノード

Claims

それぞれメモリ、及びプロセッサを有する複数のストレージノードと、記憶装置と、を備え、
それぞれが多重化されたストレージ制御プログラムで構成された複数の冗長化グループを、前記複数のストレージノードに配置しており、
各冗長化グループについて、
当該冗長化グループを構成しそれぞれプロセッサに実行されストレージ制御を行う多重化されたストレージ制御プログラムである３つ以上のストレージ制御プログラムを、前記複数のストレージノードのうちのそれぞれ異なるストレージノードに配置しており、
当該多重化されたストレージ制御プログラムのうち、１つ以上のストレージ制御プログラムが、アクティブのストレージ制御プログラムであるアクティブプログラムであり、
残りの２つ以上のストレージ制御プログラムの各々が、前記アクティブのストレージ制御プログラムのフェイルオーバー先となるスタンバイのストレージ制御プログラムであるスタンバイプログラムであり、
当該２つ以上のスタンバイプログラムの各々には、アクティブプログラムのフェイルオーバー先として決定される優先順位が関連付けられており、
アクティブプログラムが配置されているストレージノードに障害が生じた場合に当該アクティブプログラムから優先順位に基づいてスタンバイプログラムへの当該冗長化グループ内でのフェイルオーバーが行われるようになっており、
同一のストレージノードに配置されている複数の冗長化グループにおけるアクティブプログラムとフェイルオーバーによりアクティブに変化するスタンバイプログラムとを含む複数のストレージ制御プログラムについて、前記アクティブプログラムのフェイルオーバー先となりうるスタンバイプログラムと前記フェイルオーバーによりアクティブに変化するスタンバイプログラムのフェイルオーバー先となりうるスタンバイプログラムとをそれぞれ異なるストレージノードに配置している、
記憶システム。
前記冗長化グループは、アクティブプログラムと、第１のスタンバイプログラムと、第２のスタンバイプログラムと、を含み、
前記第１のスタンバイプログラムは、第２のスタンバイプログラムより優先して前記フェイルオーバー先としてフェイルオーバーが行われ、
第１のストレージノードに、第１の冗長化グループのアクティブプログラムと、第２の冗長化グループの第１のスタンバイプログラムと、を配置するとともに、
前記第１の冗長化グループの第１のスタンバイプログラムと、前記第１の冗長化グループの第２のスタンバイプログラムと、前記第２の冗長化グループの第２のスタンバイプログラムとを、前記第１のストレージノードとは異なるストレージノードであり、それぞれ異なるストレージノードに配置する、
請求項１に記載の記憶システム。
前記第２の冗長化グループのアクティブプログラムを、前記第１のストレージノードとは異なるストレージノードであり、前記第２の冗長化グループの第２のスタンバイプログラムとは異なるストレージノードに配置する、
請求項２に記載の記憶システム。
前記第１のストレージノードに、第３の冗長化グループの第２のスタンバイプログラムを配置し、
前記第３の冗長化グループのアクティブプログラムと、第１のスタンバイプログラムとを、前記第１のストレージノードとは異なるストレージノード、及び前記第２の冗長化グループのアクティブプログラムが配置されるストレージノードとは異なり、それぞれ異なるストレージノードに配置する、
請求項３に記載の記憶システム。
コンピュータが、それぞれメモリ、及びプロセッサを有する複数のストレージノードに、それぞれが多重化されたストレージ制御プログラムで構成された複数の冗長化グループを、下記の通りに配置する、
各冗長化グループについて、
当該冗長化グループを構成しそれぞれプロセッサに実行されストレージ制御を行う多重化されたストレージ制御プログラムである３つ以上のストレージ制御プログラムを、前記複数のストレージノードのうちのそれぞれ異なるストレージノードに配置し、
当該多重化されたストレージ制御プログラムのうち、１つ以上のストレージ制御プログラムが、アクティブのストレージ制御プログラムであるアクティブプログラムであり、残りの２つ以上のストレージ制御プログラムの各々が、前記アクティブのストレージ制御プログラムのフェイルオーバー先となるスタンバイのストレージ制御プログラムであるスタンバイプログラムであり、
当該２つ以上のスタンバイプログラムの各々には、アクティブプログラムのフェイルオーバー先として決定される優先順位が関連付けられており、
アクティブプログラムが配置されているストレージノードに障害が生じた場合に当該アクティブプログラムから優先順位に基づいてスタンバイプログラムへの当該冗長化グループ内でのフェイルオーバーが行われるようになっており、
同一のストレージノードに配置されている複数の冗長化グループにおけるアクティブプログラムとフェイルオーバーによりアクティブに変化するスタンバイプログラムとを含む複数のストレージ制御プログラムについて、前記アクティブプログラムのフェイルオーバー先となりうるスタンバイプログラムと前記フェイルオーバーによりアクティブに変化するスタンバイプログラムのフェイルオーバー先となりうるスタンバイプログラムとをそれぞれ異なるストレージノードに配置している、
記憶システム構築方法。