JP2022110245A

JP2022110245A - 仮想的なストレージシステムを提供するストレージクラスタを備えたストレージシステム

Info

Publication number: JP2022110245A
Application number: JP2021005516A
Authority: JP
Inventors: 真理井上; Mari Inoue; 明久永見; Akihisa Nagami; 浩二渡辺; Koji Watanabe; 敬史荒川; Takashi Arakawa
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2022-07-29
Also published as: US20220229598A1

Abstract

【課題】ヘテロ構成になり得るストレージクラスタが提供するストレージサービスのサービス品質を維持することができる。【解決手段】ストレージクラスタに新規ノード（交換後又は新規追加のストレージノード）が追加される場合、ストレージシステムが、新規ノードのスペックと、新規ノード以外の少なくとも一つの既存ノードのスペックとを比較する。新規ノードのスペックが既存ノードのスペックよりも高い場合、ストレージシステムは、いずれかの既存ノードに第１ボリューム（第１の優先度よりも高い優先度が関連付けられているボリューム）があれば、当該第１ボリュームの移行先を、新規ノードに決定する。【選択図】図１

Description

本発明は、概して、仮想的なストレージシステムを提供するストレージクラスタにおけるボリューム配置を制御する技術に関する。

仮想的なストレージシステムを提供するストレージクラスタ（二つ以上のストレージノードで構成されたクラスタ）からユーザへ提供されるストレージサービスのサービス品質がユーザ所望のサービス品質に維持することが望まれる。サービス品質の維持のための機能として、ＱｏＳ（Quality of Service）機能が知られている。

ＱｏＳ機能が適用された技術は、例えば特許文献１に開示されている。特許文献１によれば、優先度がユーザＶＭ（Virtual Machine）に付与され、ネットワークスケジューリングモジュールが、ユーザＶＭの優先度に応じた制御を行う。

US9,424,059

ストレージクラスタにおける全ストレージノードのスペックが同一であることが、ストレージサービスのサービス品質の維持のための管理又は保守の点で好ましいと考えられる。しかし、ストレージノードの交換又は増設により新たにストレージクラスタのメンバとなるストレージノードを、ストレージクラスタにおける他のストレージノードのスペックと同じスペックのストレージノードとすることは、必ずしも容易ではない。その理由の一つとして、ストレージノードの交換又は増設の時点において、他のストレージノードと同じストレージノード（或いは、他のストレージノードのスペックと同じスペックのストレージノード）の製造販売が中止されていることがある。

このため、ストレージクラスタは、スペックの異なる複数のストレージノードで構成されたクラスタ、つまり、いわゆるヘテロ構成のストレージクラスタとなることがある。ストレージクラスタがヘテロ構成であると、サービス品質の維持が困難になる。例えば、下記のうちの少なくとも一つが考えられる。
・サービス品質の優先度（レベル）の高いボリュームが、高いスペックのストレージノードに配置されていても、このストレージノードのスペックが、経年劣化又は相対的に低下した場合、このストレージノードは、優先度の高いボリュームの配置先として不適切となる。
・サービス品質の優先度の異なる複数のボリュームがストレージノードに混在している場合、当該ストレージノードにアクセスが集中して、ストレージサービスの期待されるサービス品質が低下することがある。

ストレージシステムが、仮想的なストレージシステムを提供するストレージクラスタを構成する二つ以上のストレージノードを含んだ複数のストレージノードを備える。二つ以上のストレージノードに一つ又は複数のボリュームが配置されている。一つ又は複数のボリュームの各々には、当該ボリュームを利用したストレージサービスのサービス品質に従う優先度が関連付けられている。ストレージサービスのサービス品質が高い程、当該ストレージサービスに利用されるボリュームに関連付けられる優先度は高い傾向にある。ストレージクラスタにおけるいずれかのストレージノードが交換される又はストレージクラスタにストレージノードが増設されることにより交換後又は増設対象のストレージノードである新規ノードが追加される場合、処理ノード（複数のストレージノードにおけるいずれかのストレージノード）が、下記を行う。
・新規ノードのスペックを表す情報である新規スペック情報と、ストレージクラスタのうち新規ノード以外の少なくとも一つの既存ノードのスペックを表す情報である既存スペック情報とを取得する。
・新規スペック情報が表すスペックである新規スペックと、既存スペック情報が表すスペックである既存スペックとを比較する。
・新規スペックが既存スペックよりも高い場合、いずれかの既存ノードに第１ボリューム（第１の優先度以上に高い優先度が関連付けられているボリューム）があれば、当該第１ボリュームの移行先を、新規ノードに決定する。

本発明によれば、ヘテロ構成になり得るストレージクラスタが提供するストレージサービスのサービス品質を維持することができる。

本発明の実施の形態に係るシステム全体構成の一例を示す。ボリューム配置の一例を示す。ストレージノードのメモリに格納される情報及びプログラムの一例を示す。ノード管理テーブルの構成例を示す。ボリューム管理テーブルの構成例を示す。クラスタ管理テーブルの構成例を示す。ＡＬＵＡ管理テーブルの構成例を示す。新規ノード追加処理の一例の概要の一部を示す。新規ノード追加処理の一例の概要の残りを示す。新規ノード追加時の処理のフローを示す。クラスタ管理テーブル更新処理（図９のＳ２）のフローを示す。ＣＰＵ性能比較処理（図９のＳ３）のフローを示す。ドライブ種別判別処理（図９のＳ５）のフローを示す。ＤＩＭＭ性能比較処理（図９のＳ７）のフローを示す。ＮＩＣ性能比較処理（図９のＳ９）のフローを示す。リバランス実施可否判定処理（図９のＳ１４）のフローを示す。

以下の説明では、「インターフェース装置」は、一つ以上のインターフェースデバイスでよい。当該一つ以上のインターフェースデバイスは、下記のうちの少なくとも一つでよい。
・一つ以上のＩ／Ｏ（Input/Output）インターフェースデバイス。Ｉ／Ｏ（Input/Output）インターフェースデバイスは、Ｉ／Ｏデバイスと遠隔の表示用計算機とのうちの少なくとも一つに対するインターフェースデバイスである。表示用計算機に対するＩ／Ｏインターフェースデバイスは、通信インターフェースデバイスでよい。少なくとも一つのＩ／Ｏデバイスは、ユーザインターフェースデバイス、例えば、キーボード及びポインティングデバイスのような入力デバイスと、表示デバイスのような出力デバイスとのうちのいずれでもよい。
・一つ以上の通信インターフェースデバイス。一つ以上の通信インターフェースデバイスは、一つ以上の同種の通信インターフェースデバイス（例えば一つ以上のＮＩＣ（Network Interface Card））であってもよいし二つ以上の異種の通信インターフェースデバイス（例えばＮＩＣとＨＢＡ（Host Bus Adapter））であってもよい。

また、以下の説明では、「メモリ」は、一つ以上の記憶デバイスの一例である一つ以上のメモリデバイスであり、典型的には主記憶デバイスでよい。メモリにおける少なくとも一つのメモリデバイスは、揮発性メモリデバイスであってもよいし不揮発性メモリデバイスであってもよい。

また、以下の説明では、「永続記憶装置」は、一つ以上の記憶デバイスの一例である一つ以上の永続記憶デバイスでよい。永続記憶デバイスは、典型的には、不揮発性の記憶デバイス（例えば補助記憶デバイス）でよく、具体的には、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＮＶＮＥ（Non-Volatile Memory Express）ドライブ、又は、ＳＣＭ（Storage Class Memory）でよい。

また、以下の説明では、「記憶装置」は、メモリと永続記憶装置の少なくともメモリでよい。

また、以下の説明では、「プロセッサ」は、一つ以上のプロセッサデバイスでよい。少なくとも一つのプロセッサデバイスは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサデバイスでよいが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサデバイスでもよい。少なくとも一つのプロセッサデバイスは、シングルコアでもよいしマルチコアでもよい。少なくとも一つのプロセッサデバイスは、プロセッサコアでもよい。少なくとも一つのプロセッサデバイスは、処理の一部又は全部を行うハードウェア記述言語によりゲートアレイの集合体である回路（例えばＦＰＧＡ（Field-Programmable Gate Array）、ＣＰＬＤ（Complex Programmable Logic Device）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサデバイスでもよい。

また、以下の説明では、「ｘｘｘテーブル」といった表現にて、入力に対して出力が得られる情報を説明することがあるが、当該情報は、どのような構造のデータでもよいし（例えば、構造化データでもよいし非構造化データでもよいし）、入力に対する出力を発生するニューラルネットワーク、遺伝的アルゴリズムやランダムフォレストに代表されるような学習モデルでもよい。従って、「ｘｘｘテーブル」を「ｘｘｘ情報」と言うことができる。また、以下の説明において、各テーブルの構成は一例であり、一つのテーブルは、二つ以上のテーブルに分割されてもよいし、二つ以上のテーブルの全部又は一部が一つのテーブルであってもよい。

また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶装置及び／又はインターフェース装置を用いながら行うため、処理の主語が、プロセッサ（或いは、そのプロセッサを有する装置又はシステム）とされてもよい。プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記録媒体（例えば非一時的な記録媒体）であってもよい。また、以下の説明において、二つ以上のプログラムが一つのプログラムとして実現されてもよいし、一つのプログラムが二つ以上のプログラムとして実現されてもよい。

また、要素の識別番号は、要素の識別情報（ＩＤ）の一例であり、要素の識別情報は、要素を識別するための情報であれば、識別番号に限らず、他種の符号が用いられたどのような情報でもよい。

以下、本発明の実施の形態を図面に基づいて説明する。

図１は、本発明の実施の形態に係るシステム全体の構成例を示す。

複数（又は一つ）のホストコンピュータ１０に、ネットワーク（例えば、一つ以上のスイッチ２０）を介してストレージクラスタ３０が接続される。ホストコンピュータ１０は、ストレージクラスタ３０に対してＩ／Ｏ（Input/Output）の要求を送信したり、Ｉ／Ｏ対象のデータを送受信したりする計算機である。

ストレージクラスタ３０は、一つの仮想的なストレージシステムを提供する複数のストレージノード４０を備える。ストレージノード（以下、単に「ノード」）４０は、汎用的な計算機でよい。各ノードが所定のソフトウェアを実行することにより、複数のノード４０がＳＤｘ（Software-Defined anything）を一つの仮想的なストレージシステムとして提供してよい。ＳＤｘとしては、例えば、ＳＤＳ（Software-Defined Storage）又はＳＤＤＣ（Software-defined Datacenter）を採用することができる。ホストコンピュータ１０は無くてもよく、少なくとも一つのノードが、Ｉ／Ｏ要求に応答して論理ボリュームにＩ／Ｏ対象のデータを入出力するストレージ機能と、ストレージ機能に対してＩ／Ｏ要求を発行するホスト機能の両方を有していてもよい。

ノード４０は、ＮＩＣ（Network Interface Card）５０と、メモリ６０と、ＤＫＡ（ディスクアダプタ）８０と、それらに接続されたＣＰＵ７０と、ＤＫＡ８０に接続されたドライブ群９０とを有する。ＮＩＣ５０及びＤＫＡ８０が、インターフェース装置の一例である。ドライブ群９０が、永続記憶装置の一例である。ＭＰ７０が、プロセッサの一例である。

ＮＩＣ５０は、スイッチ２０を介してホストコンピュータ１０と通信を行うインターフェースデバイスであり、フロントエンドのインターフェースデバイスの一例である。ＤＫＡ８０は、ドライブ群９０に対するデータの入出力を制御するインターフェースデバイスであり、バックエンドのインターフェースデバイスの一例である。

ドライブ群９０は、一つ以上のドライブである。ドライブは、永続記憶デバイスの一例であり、例えば、ＨＤＤ又はＳＳＤでよい。

メモリ６０は、プログラムやデータを記憶する。ＭＰ７０は、メモリ６０に格納されたプログラムを実行することで、ボリュームに対するデータの入出力といったストレージサービスを提供する。

本実施形態に係るシステムは、レベニューシェア型契約が採用される環境に適用されてよい。すなわち、本実施形態では、ストレージクラスタ３０を提供するストレージベンダと、ストレージクラスタ３０に基づきストレージサービスを提供するサービスプロバイダと、ストレージサービスを利用するエンドユーザが存在してよい。サービスプロバイダは、エンドユーザからストレージサービスの利用金額を受け、サービス対価をストレージベンダに支払ってよい。サービス対価は、エンドユーザが満足するサービス品質の維持というサービスに対する対価を含んでよい。

ストレージサービスのサービス品質は、Ｉ／Ｏ性能に依存し、Ｉ／Ｏ性能は、ボリューム配置に依存する。

図２は、ボリューム配置の一例を示す。

ボリュームは、ホスト側に提供される論理的な記憶領域である。ボリュームは、実体的なボリューム（ＲＶＯＬ）であってもよいし、仮想的なボリューム（ＶＶＯＬ）であってもよい。「ＲＶＯＬ」は、ドライブ群９０に基づくＶＯＬでよく、「ＶＶＯＬ」は、容量仮想化技術（典型的にはThin Provisioning）に従うボリュームでよい。本実施形態では、各ノード４０において、ボリュームは、ＶＶＯＬ２００であり、ＶＶＯＬ２００は、プール３００に関連付けられる。プール３００は、一つ以上のプールボリュームで構成される。プールボリュームは、ＲＶＯＬでよい。ノード４０は、ライト要求を受け付け、ライト要求で指定された仮想領域（ＶＶＯＬ２００内の領域）に実領域（プール３００内の領域）が関連付けられていない場合、当該仮想領域（例えば、仮想ページ）に、当該仮想領域を有するＶＶＯＬ２００が関連付けられているプール３００から、空きの実領域（例えば、空き実ページ）を割り当て、当該実領域に、ライト対象のデータを書き込む。

サービス品質の優先度（例えば、ＳＬＡ（Service Level Agreement））は、例えば、“Ｈｉｇｈ”、“Ｍｉｄｄｌｅ”及び“Ｌｏｗ”の３段階である。ＶＶＯＬ２００に、いずれかの優先度が関連付けられている。

なお、ＶＶＯＬ２００に格納されたデータの冗長化は、任意の方法により実現されてよい。例えば、データの冗長化は、下記のうちのいずれかにより実現されてよい。
・ドライブ群９０が、一つ以上のＲＡＩＤ（Redundant Array of Independent (or Inexpensive) Disks）グループである。実領域（プールボリューム）が、ＲＡＩＤグループに基づく記憶領域である。従って、実領域に格納されたデータは、当該実領域の基になっているＲＡＩＤグループのＲＡＩＤレベルに従い冗長化される。
・後述の複数の冗長化グループがある。冗長化グループは、アクティブのノードと一つ以上のスタンバイのノードで構成される。アクティブのノードが、ＶＶＯＬ２００に対するライト要求を受け、ライト先の仮想領域に対して、当該アクティブのノードにおける実領域の他に、同一冗長化グループにおけるスタンバイのノードにおける実領域を割り当て、それらの実領域に、データを格納する。

図３は、ノード４０のメモリ６０に格納される情報及びプログラムの一例を示す。

メモリ６０は、管理情報６１と、処理プログラム６２とを格納する。

管理情報６１は、ノード管理テーブル４００と、ボリューム管理テーブル５００と、クラスタ管理テーブル６００と、ＡＬＵＡ管理テーブル７００とを含む（ＡＬＵＡは、Asymmetric Logical Unit Accessの略）。ノード管理テーブル４００は、ノード４０を管理するためのテーブルである。ボリューム管理テーブル５００は、ボリュームを管理するためのテーブルである。クラスタ管理テーブル６００は、ストレージクラスタ３０を管理するためのテーブルである。ＡＬＵＡ管理テーブル７００は、ノード４０とホストコンピュータ１０とを結ぶ最短パスのターゲットをボリューム毎に管理するためのテーブルである。

処理プログラム６２は、クラスタ管理プログラム８００と、ノード管理プログラム８１０と、ボリューム管理プログラム８２０と、リバランス処理プログラム８３０と、性能取得プログラム８４０と、ＱｏＳ提供プログラム８５０とを含む。クラスタ管理プログラム８００は、ストレージクラスタ３０を管理するプログラムである。ノード管理プログラム８１０は、ノード４０を管理するプログラムである。ボリューム管理プログラム８２０は、ボリュームを管理するプログラムである。リバランス処理プログラム８３０は、ボリュームを再配置するプログラムである。性能取得プログラム８４０は、各種の性能を取得するプログラムである。ＱｏＳ提供プログラム８５０は、ボリュームの優先度に応じたサービス品質を維持するためのＱｏＳ制御を行うプログラムである。

本実施形態では、各ノード４０が、処理プログラム６２を有するため、各ノード４０が、ボリュームを再配置する機能を有する。これに代えて又は加えて、ストレージクラスタ３０の管理システム（例えば、ストレージクラスタ３０における少なくとも一つのノード４０に通信可能に接続された一つ以上の物理計算機又は当該一つ以上の物理計算機上で実現されるシステム）が、管理情報６１の少なくとも一部を記憶し、処理プログラム６２の少なくとも一部を実行してもよい。つまり、管理システムが、ボリュームの再配置を行ってもよい。

以下、幾つかのテーブルを説明する。なお、以下の説明において、識別番号が“ｎ”の要素ＡＡＡを、「ＡＡＡ＃ｎ」と表記することがある。例えば、識別番号“１”のノード４０を「ノード＃ｎ」と表記することがある。

図４は、ノード管理テーブル４００の構成例を示す。

ノード管理テーブル４００は、ノード毎にエントリを有する。各エントリは、ノード番号４０１と、ＣＰＵ世代４０２と、コア数４０３と、クロック周波数４０４と、ドライブ種別４０５と、ＤＩＭＭ規格４０６と、ＤＩＭＭ容量４０７と、ＮＩＣリンク速度４０８といった情報を保持する。本実施形態では、ノード４０のスペックは、ＣＰＵ世代、コア数、クロック周波数、ドライブ種別、ＤＩＭＭ規格、ＤＩＭＭ容量及びＮＩＣリンク速度のうちの少なくとも一つに依存する。一つのノード４０を例に取る（図４の説明において「対象ノード４０」）。

ノード番号４０１は、対象ノード４０の識別番号を表す。ＣＰＵ世代４０２は、対象ノード４０が有するＣＰＵ７０の世代を表す。コア数４０３は、対象ノード４０が有するＣＰＵ７０のコアの数を表す。クロック周波数４０４は、対象ノード４０が有するＣＰＵ７０のクロック周波数を表す。ドライブ種別４０５は、対象ノード４０が有するドライブ群９０におけるドライブの種別を表す。ＤＩＭＭ規格４０６は、対象ノード４０が有するメモリ６０におけるＤＩＭＭ（Dual Inline Memory Module）の規格を表す。ＤＩＭＭ容量４０７は、対象ノード４０が有するメモリ６０におけるＤＩＭＭの容量を表す。ＮＩＣリンク速度４０８は、対象ノード４０が有するＮＩＣ５０のリンク速度を表す。

図５は、ボリューム管理テーブル５００の構成例を示す。

ボリューム管理テーブル５００は、ボリューム（ＶＶＯＬ２００）毎にエントリを有する。各エントリは、ボリューム番号５０１と、ＱｏＳ状態５０２と、アクティブノード番号５０３と、スタンバイノード番号５０４と、プール番号５０５といった情報を保持する。一つのボリュームを例に取る（図５の説明において「対象ボリューム」）。

ボリューム番号５０１は、対象ボリュームの識別番号を表す。ＱｏＳ状態５０２は、対象ボリュームの優先度を表す。本実施形態では、ボリュームの優先度（サービス品質のレベル）は、“Ｈｉｇｈ”、“Ｍｉｄｄｌｅ”及び“Ｌｏｗ”の３段階であるが、優先度の段階は、３段階よりも多くても少なくてもよい。優先度“Ｈｉｇｈ”が、最も高いサービス品質（例えば、最もレスポンス性能に優れていること）が求められる。優先度“Ｍｉｄｄｌｅ”が、次に高いサービス品質が求められる。

ストレージクラスタ３０において、いずれかのノード４０に障害が生じた場合、当該ノード４０がアクティブのノード４０であれば、当該ノード４０から、当該ノード４０にとっての一つ以上のスタンバイのノード４０のいずれかに（例えば、フェイルオーバー先となる優先順位の最も高いノード４０に）、フェイルオーバーが行われる。アクティブのノード４０と一つ以上のスタンバイのノード４０との組は、「冗長化グループ」と呼ばれてよい。冗長化グループは、任意の単位で用意されてよい。例えば、各ノード４０が、複数の制御プログラム（例えば、処理プログラム６２のうちの少なくとも一つの所定のプログラム）を有していて、異なる二つ以上のノード４０がそれぞれ有する二つ以上の制御プログラムの組である制御プログラムグループが、冗長化グループに相当してよい。制御プログラムグループ毎に、アクセス可能な記憶領域が決まっていてよい。ここで言う「アクセス可能な記憶領域」は、ボリュームでもよいし、ボリュームを構成する複数の仮想領域のうちの一つ以上の仮想領域でもよい。本実施形態では、ボリューム（ＶＶＯＬ２００）毎に冗長化グループが定められる。

すなわち、アクティブノード番号５０３は、対象ボリュームが配置されるアクティブのノード４０の識別番号を表す。スタンバイノード番号５０４は、フェイルオーバーの際の対象ボリュームの移行先となるスタンバイのノード４０の識別番号を表す。

プール番号５０５は、対象ボリュームが関連付けられるプール３００の識別番号を表す。プール番号５０５は、アクティブノード番号５０３及びスタンバイノード番号５０４で共通であるが、これは、対象ボリュームが、フェイルオーバーにおいてスタンバイのノード４０に移行された場合には、アクティブのノード４０において関連付けられていたプール３００と同じプール番号のプール３００に関連付けられることを意味する。なお、フェイルオーバーにおいて対象ボリュームがスタンバイのノード４０において関連付けられるプール３００のプール番号は、必ずしもアクティブのノード４０におけるプール３００のプール番号と同じでなくてもよい。また、本実施形態において「ボリューム」は、ＶＶＯＬであるが、本発明は、ＶＶＯＬ以外のタイプのボリュームの再配置にも適用できる。

図６は、クラスタ管理テーブル６００の構成例を示す。

クラスタ管理テーブル６００は、冗長化グループ毎にエントリを有する。各エントリは、アクティブノード番号６０１と、スタンバイノード番号６０２と、メイン／レプリカ６０３と、リバランス番号６０４といった情報を保持する。一つの冗長化グループを例に取る（図６の説明において「対象冗長化グループ」）。本実施形態では、一つの冗長化グループにつき、スタンバイのノード４０は一つであるが、スタンバイのノード４０は二つ以上存在してもよい。

アクティブノード番号６０１は、対象冗長化グループにおけるアクティブのノード４０の識別番号を表す。スタンバイノード番号６０２は、対象冗長化グループにおけるスタンバイのノード４０の識別番号を表す。

メイン／レプリカ６０３は、対象冗長化グループにおけるアクティブのノード４０がメインノードであるかレプリカノードであるかを表す。メインノードは、ストレージクラスタ３０におけるリソースの構成変更（例えば、ボリュームの作成）を指示できるノードである。いずれかのメインのノードが閉塞した場合に、いずれかのレプリカノードがメインノードとなる。図６が示す例によれば、例えば、以下の通りである。
・アクティブのノード＃１からスタンバイのノード＃３へのフェイルオーバーが行われると、ノード＃３がアクティブとなる。
・その結果、メインノードの数が所定数未満となった場合、いずれかのレプリカノード（例えば、ノード＃４）が、メインノードになる。

リバランス番号６０４は、対象冗長化グループにおけるアクティブのノード４０（この段落において「対象ノード４０」）のリバランス番号（リバランス種別の識別番号）を表す。リバランス番号６０４の値として、“２”、“１”及び“０”の三つがある。それらは、下記の通りである。
・“２”は、対象ノード４０が、移行対象ノードであること、すなわち、ボリュームの移行先となるノードであることを意味する。
・“１”は、対象ノード４０が、移行許容ノードであること、すなわち、ボリュームの移行元となるノードであることを意味する。
・“０”は、対象ノード４０が、デフォルトのノードであること、すなわち、ボリュームの移行先とも移行元ともならないノードであることを意味する。

図７は、ＡＬＵＡ管理テーブル７００の構成例を示す。

ＡＬＵＡ管理テーブル７００は、ボリューム（ＶＶＯＬ２００）毎にエントリを有する。各エントリは、ボリューム番号７０１と、ノード番号７０２と、アクティブ最適ターゲット番号７０３、及びアクティブ非最適ターゲット番号７０４といった情報を保持する。一つのボリュームを例に取る（図７の説明において「対象ボリューム」）。

ボリューム番号７０１は、対象ボリュームの識別番号を表す。ノード番号７０２は、対象ボリュームが配置されているノード４０（アクティブのノード４０）の識別番号を表す。

アクティブ最適ターゲット番号７０３及びアクティブ非最適ターゲット番号７０４は、対象ボリュームへの最短パスの識別番号を表す。これらの識別番号は、対象ボリュームへのアクセス元（本実施形態ではホストコンピュータ１０）に提供され、アクセス元により、対象ボリュームへのアクセスのために使用される。図７が示す例によれば、最短パスとして、メインのパス（アクティブ最適ターゲット番号７０３が表すパス）と交替パス（アクティブ非最適ターゲット番号７０４が表すパス）とが用意されていて、パスの負荷或いはその他の情報を基に、アクセス元によりいずれかの最短パスが選択されてよい。最短パスは、ボリュームに関連付けられるリソースであるため、ボリュームの再配置に付随して、最短パスの再配置が行われる。

図８Ａ及び図８Ｂは、新規ノード追加処理の一例の概要を示す。なお、以下の説明において、用語の定義は、下記の通りである。
・「新規ノード」とは、交換後のノード４０又は増設対象のノード４０である。従って、「新規ノード追加」とは、ノード４０の交換又は増設を意味する。
・「処理ノード」とは、ボリュームの再配置を行うノード（又は上述の管理システム）を意味する。例えば、処理ノードは、ストレージクラスタ３０においてメインと定義されたノードであるメインノードでよい。メインノードが障害等により閉塞した場合、いずれかのレプリカのノードが新たにメインノードとなってよい。

Ｓ１において、ストレージクラスタ３０は、ノード＃１～＃５（以下、既存ノード＃１～＃５）で構成されており、各ノード４０のＱｏＳ機能（ＱｏＳ提供プログラム８５０）が有効化されている状態である。ノード＃４に、優先度“Ｌｏｗ”のボリュームが配置され、ノード＃５に、優先度“Ｍｉｄｄｌｅ”のボリュームが配置されている。

Ｓ２において、既存ノード＃４及び＃５が、新規ノード＃４及び＃５に交換されたとする。この場合、処理ノードが、既存ノード＃４及び＃５に配置されていたボリュームがそれぞれ既存ノード＃１～＃３のいずれかに退避される。図８Ａが示す例によれば、ノード＃４に配置されていた優先度“Ｌｏｗ”のボリュームがノード＃１に退避され、ノード＃５に配置されていた優先度“Ｍｉｄｄｌｅ”のボリュームがノード＃２に退避される。処理ノードは、ボリューム管理テーブル５００及びクラスタ管理テーブル６００のうちの少なくとも一つを基に、退避対象ボリュームの優先度（ＱｏＳ状態）と、各既存ノードにおけるボリュームの優先度とに基づいて、複数のメインの冗長化グループにおけるいずれかのアクティブのストレージノードを、退避先に選択してよい。

その後、Ｓ３の通り、既存ノード＃４及び＃５に代えて新規ノード＃４及び＃５が追加され、処理ノードが、既存ノード＃３における優先度“Ｈｉｇｈ”のボリュームの再配置先に新規ノード＃４又は＃５が適合するか否かを判定する。例えば、処理ノードは、新規ノードスペック情報（例えば、図４を参照して説明した情報４０２～４０８を新規ノード＃４又は＃５について含んだ情報）と既存ノードスペック情報（既存ノード＃３についてノード管理テーブル４００に記録されている情報）とを比較する。情報４０２～４０８によれば、性能項目として、ＣＰＵ性能、ドライブ性能、ＤＩＭＭ性能、及びＮＩＣ性能がある。つまり、ノードスペックに影響する性能項目（スペック項目）の数Ｎは、本実施形態では、Ｎ＝４である。性能項目の数Ｎは、４よりも多くても少なくてもよい。処理ノードは、新規ノード＃４又は＃５のスペックが既存ノード＃３のスペックよりも優れていると判断した場合（例えば、新規ノードの方が優れていると判断された性能項目の数がα（α≦Ｎ）を超えた場合）、新規ノード＃４又は＃５を、既存ノード＃３における優先度“Ｈｉｇｈ”のボリュームの配置先とする。図８Ｂが示す例によれば、Ｓ４の通り、既存ノード＃３における一つの優先度“Ｈｉｇｈ”のボリュームの再配置先が新規ノード＃４とされ、既存ノード＃３におけるもう一つの優先度“Ｈｉｇｈ”のボリュームの再配置先が新規ノード＃５とされる。

なお、これにより、既存ノード＃３にリソース（例えば、ＣＰＵリソースやドライブリソース）の余裕が生まれたので、処理ノードが、次に優先度の高い“Ｍｉｄｄｌｅ”のボリュームの再配置先を決定してよい。例えば、処理ノードは、既存ノード＃３のスペックが既存ノード＃２のスペックよりも優れていると判断した場合、優先度“Ｍｉｄｄｌｅ”のボリュームを既存ノード＃２から既存ノード＃３に再配置してよい。

図９は、新規ノード追加時の処理のフローを示す。なお、図９を参照した説明では、適宜、下記が例として採用される。
・ストレージクラスタ３０が、既存ノード＃１～＃３で構成されている。既存ノード＃１～＃３のうち、既存ノード＃３が最も高スペックであり、既存ノード＃２が次に高スペックである。このため、既存ノード＃３のリバランス番号６０４が“２”であり（つまり、既存ノード＃３が移行対象ノードであり）、既存ノード＃２のリバランス番号６０４が“１”であり（つまり、既存ノード＃２が移行許容ノードであり）、既存ノード＃１のリバランス番号６０４が“０”（つまり、既存ノード＃１がデフォルトのノードである）。
・ここで新規ノード＃４が追加される。なお、この時点では、クラスタ管理テーブル６００には、新規ノード＃４の情報は記録されず、図９が示す処理の中で、新規ノード＃４の情報がクラスタ管理テーブル６００に記録される。

新規ノード＃４の追加時に、処理ノードのノード管理プログラム８１０は、新規ノード＃４の情報を、例えば、処理ノード及び新規ノード＃４の性能取得プログラム８４０を通じて取得し、取得した情報を含んだエントリをノード管理テーブル４００に追加する（Ｓ１）。

次に、処理ノードのクラスタ管理プログラム８００は、ノード管理テーブル４００に新規ノード＃４の情報を追加したことに伴って、クラスタ管理テーブル６００の情報を更新する（Ｓ２）。

次に、処理ノードのクラスタ管理プログラム８００は、新規ノード＃４のＣＰＵ性能と既存ノード＃１～＃３のＣＰＵ性能とを比較し（Ｓ３）、新規ノード＃４のＣＰＵ性能が既存ノード＃１～＃３のＣＰＵ性能よりも高いか否かを判定する（Ｓ４）。

Ｓ４の判定結果が真の場合（Ｓ４：Ｙｅｓ）、処理ノードのクラスタ管理プログラム８００は、新規ノード＃４のドライブ種別を判別する（Ｓ５）。処理ノードのクラスタ管理プログラム８００は、新規ノード＃４のドライブ種別を基に、新規ノード＃４のドライブ性能が既存ノード＃１～＃３のドライブ性能よりも高いか否かを判定する（Ｓ６）。

Ｓ６の判定結果が真の場合（Ｓ６：Ｙｅｓ）、処理ノードのクラスタ管理プログラム８００は、新規ノード＃４のＤＩＭＭ性能と既存ノード＃１～＃３のＤＩＭＭ性能とを比較し（Ｓ７）、新規ノード＃４のＤＩＭＭ性能が既存ノード＃１～＃３のＤＩＭＭ性能よりも高いか否かを判定する（Ｓ８）。

Ｓ８の判定結果が真の場合（Ｓ８：Ｙｅｓ）、処理ノードのクラスタ管理プログラム８００は、新規ノード＃４のＮＩＣ性能と既存ノード＃１～＃３のＮＩＣ性能とを比較し（Ｓ９）、新規ノード＃４のＮＩＣ性能が既存ノード＃１～＃３のＮＩＣ性能よりも高いか否かを判定する（Ｓ１０）。

Ｓ１０の判定結果が真の場合（Ｓ１０：Ｙｅｓ）、処理ノードのクラスタ管理プログラム８００は、新規ノード＃４を移行対象ノードとした情報をクラスタ管理テーブル６００に追加する（Ｓ１１）。つまり、ここで追加された情報において、新規ノード＃４に対応したリバランス番号６０４が“２”である。そして、新規ノード＃４よりもスペックが劣る既存ノード＃３のリバランス番号６０４は、“２”から“１”に格下げされ、更にスペックが劣る既存ノード＃２のリバランス番号６０４が“１”から“０”に格下げされる。また、新規ノード＃４はレプリカノードとして登録される。

Ｓ１０又はＳ８の判定結果が偽の場合（Ｓ１０：Ｎｏ、又は、Ｓ８：Ｎｏ）、処理ノードのクラスタ管理プログラム８００は、新規ノード＃４を移行許容ノードとした情報をクラスタ管理テーブル６００に追加する（Ｓ１２）。つまり、ここで追加された情報において、新規ノード＃４に対応したリバランス番号６０４が“１”である。

Ｓ４又はＳ６の判定結果が偽の場合（Ｓ４：Ｎｏ、又は、６：Ｎｏ）、処理ノードのクラスタ管理プログラム８００は、新規ノードをデフォルトノードとした情報をクラスタ管理テーブル６００に追加する（Ｓ１３）。つまり、ここで追加された情報において、新規ノード＃４に対応したリバランス番号６０４が“０”である。

Ｓ１１、Ｓ１２又はＳ１３の後、処理ノードのクラスタ管理プログラム８００は、リバランス実施の可否を判定する（Ｓ１４）。

図９が示す例によれば、ＣＰＵ性能、ドライブ性能、ＤＩＭＭ性能、及びＮＩＣ性能の４つの判定項目の全てについて肯定的な判定結果が得られたことを条件に、新規ノード＃４が移行対象ノードとして設定される。４つの判定項目のうちの一部の判定項目（ＤＩＭＭ性能及びＮＩＣ性能）のうちの少なくとも一つについて否定的な判定結果が得られたことを条件に、新規ノード＃４が移行許容ノードとして設定される。つの判定項目のうちの残りの判定項目（ＣＰＵ性能及びドライブ性能）の少なくとも一つについて否定的な判定結果が得られたことを条件に、新規ノード＃４がデフォルトノードとして設定される。その後、新規ノード＃４について、リバランス実施の可否が判定される。ノードのＲｅａｄ／Ｗｒｉｔｅ性能に最も影響する判定項目として、ＣＰＵ性能が最も高く次にドライブ性能が高いと考えられるため、本実施形態では、ＣＰＵ性能が最も重視され次にドライブ性能が重視される。このような観点で新規ノードが移行対象ノード、移行許容ノード及びデフォルトノードのいずれの属性に該当するか決定されるため、新規ノードに最適な属性を関連付けることができ、以って、最適なボリューム再配置が期待される。

図１０は、クラスタ管理テーブル更新処理（図９のＳ２）のフローを示す。

処理ノードのクラスタ管理プログラム８００は、クラスタ管理テーブル６００を取得し（Ｓ２１）、取得したクラスタ管理テーブル６００を参照し、移行対象ノードがあるか否か（リバランス番号６０４“２”があるか否か）を判定する（Ｓ２２）。

Ｓ２２の判定結果が真の場合（Ｓ２２：Ｙｅｓ）、処理ノードのクラスタ管理プログラム８００は、既存ノード＃３のリバランス番号６０４“２”を“１”に変更する（Ｓ２３）。また、処理ノードのクラスタ管理プログラム８００は、既存ノード＃２のリバランス番号６０４“１”を“０”に変更する（Ｓ２５）。

Ｓ２２の判定結果が否定の場合（Ｓ２２：Ｎｏ）、処理ノードのクラスタ管理プログラム８００は、移行許容ノードがあるか否か（リバランス番号６０４“１”があるか否か）を判定する（Ｓ２４）。Ｓ２２の判定結果が否定の場合（Ｓ２２：Ｎｏ）、本処理が終了する。

Ｓ２４の判定結果が真の場合（Ｓ２４：Ｙｅｓ）、処理ノードのクラスタ管理プログラム８００は、リバランス番号６０４“１”を“０”に変更する（Ｓ２５）。

本処理により、移行対象ノードとしての既存ノード＃３は、移行対象ノードから移行許容ノードに格下げされる。同様に、移行許容ノードとしての既存ノード＃２は、移行許容ノードからデフォルトノードに格下げされる。このように、図１０が示す例によれば、新規ノードが追加された場合、図９のＳ２（図１０の処理）において、新規ノードのスペックが既存ノードのスペックよりも高いか否かに関わらず、移行対象ノード又は移行許容ノードに該当するノードがあれば、当該ノードが一つ格下げされる。その後、ＣＰＵ性能、ドライブ性能、ＤＩＭＭ性能、及びＮＩＣ性能の４つの判定項目の少なくとも一つ（図９が示す例では少なくともＣＰＵ性能）について判定が行われる。新規ノードの情報を含んだエントリをノード管理テーブル４００に追加した後にＣＰＵ性能等の判定を経て必要な情報（リバランス番号６０４）を更新する処理とすることで、プログラム的にトレースがし易いことが期待される。

図１１は、ＣＰＵ性能比較処理（図９のＳ３）のフローを示す。

処理ノードのクラスタ管理プログラム８００は、新規ノード＃４のＣＰＵ性能を表す情報（以下、新規ＣＰＵ性能情報）を、例えば、新規ノード＃４及び処理ノードの性能取得プログラム８４０を通じて特定する（Ｓ３１）。

この後、クラスタ管理プログラム８００は、Ｓ３２～Ｓ３４を各既存ノードについて行う。一つの既存ノードを例に取る。なお、クラスタ管理テーブル６００に、リバランス番号６０４“１”がある場合（つまり、移行許容ノードがある場合）、比較される既存ノード（Ｓ３２～Ｓ３４が行われる既存ノード）は移行許容ノードのみでよい。移行許容ノードが、新規ノードを除きストレージクラスタ３０において最もスペックが高いノードであるためである。

処理ノードのクラスタ管理プログラム８００は、ノード管理テーブル４００から既存ノードのＣＰＵ性能を表す情報（以下、既存ＣＰＵ性能情報）を取得し（Ｓ３２）、Ｓ３１で取得した新規ＣＰＵ性能情報とＳ３２で取得した既存ＣＰＵ性能情報とを比較し、新規ＣＰＵ性能が既存ＣＰＵ性能よりも高いか否かを判定する（Ｓ３３）。例えば、新規ＣＰＵ性能情報も既存ＣＰＵ性能情報も、ＣＰＵ世代４０２、コア数４０３、クロック周波数４０４を含む。ＣＰＵがより高性能であると判断する判断基準は、ＣＰＵ世代４０２、コア数４０３及びクロック周波数４０４のうちのいずれがより優れているかでよい。情報４０２～４０４の優先度は、例えば、高い方から順に、ＣＰＵ世代４０２、コア数４０３及びクロック周波数４０４でよい。このため、例えば、ＣＰＵ世代４０２がより優れていれば、コア数４０３がより少なくても、ＣＰＵ性能はより優れていると判定されてよい。

処理ノードのクラスタ管理プログラム８００は、Ｓ３３の判定結果が真の場合（Ｓ３３：Ｙｅｓ）、すなわち、新規ＣＰＵ性能が既存ＣＰＵ性能よりも高い場合、当該既存ノードについての戻り値（本処理の戻り値）を更新する（Ｓ３４）。Ｓ３４により、戻り値は、新規ＣＰＵ性能が高いことを表す値に更新される。言い換えれば、戻り値の初期値は、既存ＣＰＵ性能が優れていることを表す値である。

本処理の後、各既存ノードについて戻り値が得られる。全既存ノードの戻り値が、新規ＣＰＵ性能が高いことを表す値の場合、図９のＳ４の判定結果が真である。

図１２は、ドライブ種別判別処理（図９のＳ５）のフローを示す。

処理ノードのクラスタ管理プログラム８００は、新規ノード＃４のドライブ種別を表す情報（以下、新規ドライブ種別情報）を、例えば、新規ノード＃４及び処理ノードの性能取得プログラム８４０を通じて特定する（Ｓ４１）。

処理ノードのクラスタ管理プログラム８００は、Ｓ４１で取得した新規ドライブ種別情報が表す新規ドライブ種別が“ＳＳＤ”又は“ＮＶＭｅ”であるか否かを判定する（Ｓ４２）。

処理ノードのクラスタ管理プログラム８００は、Ｓ４３の判定結果が真の場合（Ｓ４３：Ｙｅｓ）、戻り値（本処理の戻り値）を更新する（Ｓ４４）。Ｓ４４により、戻り値は、新規ドライブ性能が高いことを表す値に更新される。

本処理の後、戻り値が得られる。戻り値が、新規ドライブ性能が高いことを表す値の場合、図９のＳ６の判定結果が真である。

図１３は、ＤＩＭＭ性能比較処理（図９のＳ７）のフローを示す。

処理ノードのクラスタ管理プログラム８００は、新規ノード＃４のＤＩＭＭ性能を表す情報（以下、新規ＤＩＭＭ性能情報）を、例えば、新規ノード＃４及び処理ノードの性能取得プログラム８４０を通じて特定する（Ｓ５１）。

この後、クラスタ管理プログラム８００は、Ｓ５２～Ｓ５５を各既存ノードについて行う。一つの既存ノードを例に取る。なお、クラスタ管理テーブル６００に、リバランス番号６０４“１”がある場合（つまり、移行許容ノードがある場合）、比較される既存ノード（Ｓ５２～Ｓ５５が行われる既存ノード）は移行許容ノードのみでよい。移行許容ノードが、新規ノードを除きストレージクラスタ３０において最もスペックが高いノードであるためである。

処理ノードのクラスタ管理プログラム８００は、ノード管理テーブル４００から既存ノードのＤＩＭＭ性能を表す情報（以下、既存ＤＩＭＭ性能情報）を取得する（Ｓ５２）。新規ＤＩＭＭ性能情報も既存ＤＩＭＭ性能情報も、ＤＩＭＭ規格４０６及びＤＩＭＭ容量４０７を含む。新規ＤＩＭＭ性能情報のうちの情報４０６及び４０７が表す規格及び容量を「新規ＤＩＭＭ規格」及び「新規ＤＩＭＭ容量」と言い、既存ＤＩＭＭ性能情報のうちの情報４０６及び４０７が表す規格及び容量を「既存ＤＩＭＭ規格」及び「既存ＤＩＭＭ容量」と言う。

処理ノードのクラスタ管理プログラム８００は、新規ＤＩＭＭ規格が既存ＤＩＭＭ性能と同じ又はそれより高いか否かを判定する（Ｓ５３）。Ｓ５３の判定結果が真の場合（Ｓ５３：Ｙｅｓ）、処理ノードのクラスタ管理プログラム８００は、新規ＤＩＭＭ容量が既存ＤＩＭＭ容量より大きいか否かを判定する（Ｓ５４）。

処理ノードのクラスタ管理プログラム８００は、Ｓ５４の判定結果が真の場合（Ｓ５４：Ｙｅｓ）、すなわち、新規ＤＩＭＭ性能が既存ＤＩＭＭ性能よりも高い場合、当該既存ノードについての戻り値（本処理の戻り値）を更新する（Ｓ５５）。Ｓ５５により、戻り値は、新規ＤＩＭＭ性能が高いことを表す値に更新される。言い換えれば、戻り値の初期値は、既存ＤＩＭＭ性能が優れていることを表す値である。

本処理の後、各既存ノードについて戻り値が得られる。全既存ノードの戻り値が、新規ＤＩＭＭ性能が高いことを表す値の場合、図９のＳ８の判定結果が真である。

図１４は、ＮＩＣ性能比較処理（図９のＳ９）のフローを示す。

処理ノードのクラスタ管理プログラム８００は、新規ノード＃４のＮＩＣ性能を表す情報（以下、新規ＮＩＣ性能情報）を、例えば、新規ノード＃４及び処理ノードの性能取得プログラム８４０を通じて特定する（Ｓ６１）。

この後、クラスタ管理プログラム８００は、Ｓ６２～Ｓ６４を各既存ノードについて行う。一つの既存ノードを例に取る。なお、クラスタ管理テーブル６００に、リバランス番号６０４“１”がある場合（つまり、移行許容ノードがある場合）、比較される既存ノード（Ｓ６２～Ｓ６４が行われる既存ノード）は移行許容ノードのみでよい。移行許容ノードが、新規ノードを除きストレージクラスタ３０において最もスペックが高いノードであるためである。

処理ノードのクラスタ管理プログラム８００は、ノード管理テーブル４００から既存ノードのＮＩＣ性能を表す情報（以下、既存ＮＩＣ性能情報）を取得し（Ｓ６２）、Ｓ６１で取得した新規ＮＩＣ性能情報とＳ６２で取得した既存ＮＩＣ性能情報とを比較し、新規ＮＩＣ性能が既存ＮＩＣ性能よりも高いか否かを判定する（Ｓ６３）。例えば、新規ＮＩＣ性能情報も既存ＮＩＣ性能情報も、ＮＩＣリンク速度４０８を含む。ＮＩＣリンク速度４０８がより早い速度であれば、ＮＩＣリンク性能はより高い。

処理ノードのクラスタ管理プログラム８００は、Ｓ６３の判定結果が真の場合（Ｓ６３：Ｙｅｓ）、すなわち、新規ＮＩＣ性能が既存ＮＩＣ性能よりも高い場合、当該既存ノードについての戻り値（本処理の戻り値）を更新する（Ｓ６４）。Ｓ６４により、戻り値は、新規ＮＩＣ性能が高いことを表す値に更新される。言い換えれば、戻り値の初期値は、既存ＮＩＣ性能が優れていることを表す値である。

本処理の後、各既存ノードについて戻り値が得られる。全既存ノードの戻り値が、新規ＮＩＣ性能が高いことを表す値の場合、図９のＳ１０の判定結果が真である。

図１５は、リバランス実施可否判定処理（図９のＳ１４）のフローを示す。

本処理は、図９のＳ１１～Ｓ１３のいずれかの後に実施される処理である。このため、クラスタ管理テーブル６００は、新規ノード＃４の情報（新規ノード＃４のリバランス番号６０４を含んだ情報）を有している。

処理ノードのクラスタ管理プログラム８００は、当該クラスタ管理テーブル６００を取得する（Ｓ７１）。この後、Ｓ７２～Ｓ８１までの処理が、取得されたクラスタ管理テーブル別に行われる。本実施形態では、一つのストレージクラスタが存在するため、クラスタ管理テーブルも一つであるが、一つのストレージシステムが、一つ以上のストレージクラスタを含んでいてもよい。

処理ノードのクラスタ管理プログラム８００は、Ｓ７１で取得したクラスタ管理テーブル６００を参照し、移行対象ノード（リバランス番号６０４“２”）が存在するか否かを判定する（Ｓ７２）。

Ｓ７２の判定結果が真の場合（Ｓ７２：Ｙｅｓ）、処理ノードのクラスタ管理プログラム８００は、リバランス番号６０４“２”に対応したアクティブノード番号６０１を取得する（Ｓ７３）。また、処理ノードのクラスタ管理プログラム８００は、ボリューム管理テーブル５００を参照し（Ｓ７４）、ＱｏＳ状態５０２“Ｈｉｇｈ”に対応したアクティブノード番号５０３を取得する（Ｓ７５）。処理ノードのクラスタ管理プログラム８００は、Ｓ７３で特定したアクティブノード番号６０１（つまり、移行対象ノードのノード番号）と、Ｓ７５で取得したアクティブノード番号５０３（つまり、優先度“Ｈｉｇｈ”のボリュームが配置されているノード４０のノード番号）が一致しているか否かを判定する（Ｓ８０）。Ｓ８０の判定結果が偽の場合（Ｓ８０：Ｎｏ）、処理ノードのクラスタ管理プログラム８００は、移行元ノードとして、優先度“Ｈｉｇｈ”のボリュームが配置されているノード４０のノード番号を設定し、移行対象ボリュームとして、優先度“Ｈｉｇｈ”のボリュームのボリューム番号を設定し、移行対象パスとして、当該ボリュームに関連付いている最短パスの番号（ＡＬＵＡ管理テーブル７００から特定可能なアクティブ最適ターゲット番号）を設定し、移行先ノードとして、移行対象ノードのノード番号を設定する（Ｓ８１）。これにより、処理ノード（又は、移行元ノード及び移行先ノード）のリバランス処理プログラム８３０が、移行対象ボリューム（及び、当該ボリュームに関連付いている最短パス）を移行元ノードから移行先ノードに再配置する。これにより、移行対象ノードとしての新規ノード＃４に、優先度“Ｈｉｇｈ”のボリューム（及び、当該ボリュームに関連付いている最短パス）が再配置される。

Ｓ７２の判定結果が偽の場合（Ｓ７２：Ｎｏ）、処理ノードのクラスタ管理プログラム８００は、Ｓ７１で取得したクラスタ管理テーブル６００を参照し、移行許容ノード（リバランス番号６０４“１”）が存在するか否かを判定する（Ｓ７６）。

Ｓ７６の判定結果が真の場合（Ｓ７６：Ｙｅｓ）、処理ノードのクラスタ管理プログラム８００は、リバランス番号６０４“１”に対応したアクティブノード番号６０１を取得する（Ｓ７７）。また、処理ノードのクラスタ管理プログラム８００は、ボリューム管理テーブル５００を参照し（Ｓ７８）、ＱｏＳ状態５０２“Ｍｉｄｄｌｅ”に対応したアクティブノード番号５０３を取得する（Ｓ７９）。処理ノードのクラスタ管理プログラム８００は、Ｓ７７で特定したアクティブノード番号６０１（つまり、移行許容ノードのノード番号）と、Ｓ７９で取得したアクティブノード番号５０３（つまり、優先度“Ｍｉｄｄｌｅ”のボリュームが配置されているノード４０のノード番号）が一致しているか否かを判定する（Ｓ８０）。Ｓ８０の判定結果が偽の場合（Ｓ８０：Ｎｏ）、処理ノードのクラスタ管理プログラム８００は、移行元ノードとして、優先度“Ｍｉｄｄｌｅ”のボリュームが配置されているノード４０のノード番号を設定し、移行対象ボリュームとして、優先度“Ｍｉｄｄｌｅ”のボリュームのボリューム番号を設定し、移行対象パスとして、当該ボリュームに関連付いている最短パスの番号（ＡＬＵＡ管理テーブル７００から特定可能なアクティブ最適ターゲット番号）を設定し、移行先ノードとして、移行許容ノードのノード番号を設定する（Ｓ８１）。これにより、処理ノード（又は、移行元ノード及び移行先ノード）のリバランス処理プログラム８３０が、移行対象ボリューム（及び、当該ボリュームに関連付いている最短パス）を移行元ノードから移行先ノードに再配置する。これにより、移行許容ノードとしての既存ノード＃３に、優先度“Ｍｉｄｄｌｅ”のボリューム（及び、当該ボリュームに関連付いている最短パス）が再配置される。

本実施形態によれば、新規ノードのスペックが最も高い場合には、優先度“Ｈｉｇｈ”のボリュームが既存ノードから新規ノードに配置されるため、優先度“Ｈｉｇｈ”のボリュームが利用されるストレージサービスのサービス品質を維持することが期待できる。

また、本実施形態によれば、新規ノードの追加の直前に最もスペックの高かった既存ノードである移行許容ノードが存在していれば、優先度“Ｍｉｄｄｌｅ”のボリュームが移行許容ノードに配置される。

以上のようなボリューム再配置を実現できるため、レベニューシェア型契約が採用される環境においてもストレージサービスのサービス品質を維持することが期待できる。例えば、エンドユーザのボリューム用途をストレージベンダ及びサービスプロバイダのいずれも知らなくても、エンドユーザ所望のサービス品質がわかれば、当該サービス品質に従う優先度をエンドユーザにより利用されるボリュームに関連付けておくことができる。結果として、当該サービス品質の維持に最適なノードにボリュームが再配置され、以って、サービスプロバイダからのストレージサービスのサービス品質の維持が期待できる。

なお、本発明は前述した実施の形態に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。例えば、前述した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに本発明は限定されない。

また、上述の説明を、例えば下記のように総括することができる。なお、下記の総括は、上述の説明の変形例を含んでもよい。

ストレージクラスタに新規ノードが追加される場合、処理ノード（又は上述の管理システム）が、新規ノードのスペックを表す情報である新規スペック情報と、新規ノード以外の少なくとも一つの既存ノードのスペックを表す情報である既存スペック情報とを取得し、新規スペック（新規スペック情報が表すスペック）と既存スペック（既存スペック情報が表すスペック）とを比較する。新規スペックが既存スペックよりも高い場合、処理ノード（又は管理システム）が、いずれかの既存ノードに第１ボリューム（一例が、優先度“Ｈｉｇｈ”のボリューム）があれば、当該第１ボリュームの移行先を、新規ノードに決定する。これにより、第１ボリュームの配置先を最も高スペックのノードに維持できるため、以って、ヘテロ構成になり得るストレージクラスタが提供するストレージサービスのサービス品質を維持することができる。

処理ノード（又は管理システム）は、新規ノードが追加された場合に、移行対象ノード（第１ボリュームの移行先ノード）として管理されている既存ノードがあれば、当該既存ノードを、移行許容ノード（第１ボリュームの移行元ノード）として管理してよい。処理ノード（又は管理システム）は、新規スペックが既存スペックよりも高い場合、新規ノードを、移行対象ノードとして管理し、移行許容ノードとして管理されている既存ノードから、新規ノードに、第１ボリュームを移行することを決定してよい。これにより、新規スペックが既存スペックよりも高い場合、新規ノードが追加される前まで最も高スペックであったために第１ボリュームが配置されていることが期待される既存ノードから新規ノードへ第１ボリュームが移行するといったボリューム再配置が可能である。また、新規ノードが追加された場合に移行対象ノードであったノードが移行許容ノードに変わることにより、新規ノードが移行対象ノードにならない限り移行対象ノードが存在しない。このため、第１ボリュームが配置されているノードよりも高スペックなノードが新たに追加されること無しに第１ボリュームの再配置が行われることを避けることができる。

処理ノード（又は管理システム）は、移行許容ノードとして管理されている既存ノード以外のいずれかの既存ノードに、第１の優先度よりも低く第２の優先度以上に高い優先度が関連付けられているボリュームである第２ボリューム（一例が、優先度“Ｍｉｄｄｌｅ”のボリューム）があれば、当該第２ボリュームの移行先を、移行許容ノードとして管理されている既存ノードに決定してよい。これにより、第１ボリュームが移行対象ノードに配置されることによりリソースに余裕が生じる移行許容ノードに第２ボリュームが移行するといったボリューム再配置が可能である。

３０ストレージクラスタ
４０ストレージノード

Claims

仮想的なストレージシステムを提供するストレージクラスタを構成する二つ以上のストレージノードを含んだ複数のストレージノードを備え、
前記二つ以上のストレージノードに一つ又は複数のボリュームが配置されており、
前記一つ又は複数のボリュームの各々には、当該ボリュームを利用したストレージサービスのサービス品質に従う優先度が関連付けられており、
ストレージサービスのサービス品質が高い程、当該ストレージサービスに利用されるボリュームに関連付けられる優先度は高い傾向にあり、
前記ストレージクラスタにおけるいずれかのストレージノードが交換される又は前記ストレージクラスタにストレージノードが増設されることにより交換後又は増設対象のストレージノードである新規ノードが追加される場合、前記複数のストレージノードにおけるいずれかのストレージノードである処理ノードが、
前記新規ノードのスペックを表す情報である新規スペック情報と、前記ストレージクラスタのうち前記新規ノード以外の少なくとも一つの既存ノードのスペックを表す情報である既存スペック情報とを取得し、
前記新規スペック情報が表すスペックである新規スペックと、前記既存スペック情報が表すスペックである既存スペックとを比較し、
前記新規スペックが前記既存スペックよりも高い場合、いずれかの既存ノードに第１ボリュームがあれば、当該第１ボリュームの移行先を、前記新規ノードに決定し、
第１ボリュームは、第１の優先度以上に高い優先度が関連付けられているボリュームである、
ストレージシステム。
前記処理ノードは、
前記新規ノードが追加された場合に、第１ボリュームの移行先ノードである移行対象ノードとして管理されている既存ノードがあれば、当該既存ノードを、第１ボリュームの移行元ノードである移行許容ノードとして管理し、
前記新規スペックが前記既存スペックよりも高い場合、前記新規ノードを、移行対象ノードとして管理し、前記移行許容ノードとして管理されている既存ノードから、前記新規ノードに、第１ボリュームを移行することを決定する、
請求項１に記載のストレージシステム。
前記処理ノードは、移行許容ノードとして管理されている既存ノード以外のいずれかの既存ノードに、第１の優先度よりも低く第２の優先度以上に高い優先度が関連付けられているボリュームである第２ボリュームがあれば、当該第２ボリュームの移行先を、移行許容ノードとして管理されている既存ノードに決定する、
請求項２に記載のストレージシステム。
ストレージノードのスペックの高さは、Ｎの判定項目（Ｎは２以上の整数）に依存し、
前記処理ノードは、
Ｎの判定項目について新規スペックの方が高ければ、前記新規ノードを移行対象ノードと判定し、
Ｎの判定項目のうち所定の一部の判定項目の少なくとも一つについて新規スペックの方が低ければ、前記新規ノードを移行許容ノードと判定する、
請求項３に記載のストレージシステム。
仮想的なストレージシステムを提供し二つ以上のストレージノードで構成されたストレージクラスタにおけるいずれかのストレージノードが交換される又は前記ストレージクラスタにストレージノードが増設されることにより交換後又は増設対象のストレージノードである新規ノードが追加される場合、いずれかのストレージノードである処理ノード、又は、少なくとも一つのノードに接続されたシステムである管理システムが、下記の（ａ）乃至（ｃ）を行う、
（ａ）前記新規ノードのスペックを表す情報である新規スペック情報と、前記ストレージクラスタのうち前記新規ノード以外の少なくとも一つの既存ノードのスペックを表す情報である既存スペック情報とを取得する、
前記二つ以上のストレージノードに一つ又は複数のボリュームが配置されている、
前記一つ又は複数のボリュームの各々には、当該ボリュームを利用したストレージサービスのサービス品質に従う優先度が関連付けられている、
ストレージサービスのサービス品質が高い程、当該ストレージサービスに利用されるボリュームに関連付けられる優先度は高い傾向にあり、
（ｂ）前記新規スペック情報が表すスペックである新規スペックと、前記既存スペック情報が表すスペックである既存スペックとを比較する、
（ｃ）前記新規スペックが前記既存スペックよりも高い場合、いずれかの既存ノードに第１ボリュームがあれば、当該第１ボリュームの移行先を、前記新規ノードに決定し、
第１ボリュームは、第１の優先度以上に高い優先度が関連付けられているボリュームである、
ボリューム配置制御方法。
前記処理ノード又は前記管理システムは、
前記新規ノードが追加された場合に、第１ボリュームの移行先ノードである移行対象ノードとして管理されている既存ノードがあれば、当該既存ノードを、第１ボリュームの移行元ノードである移行許容ノードとして管理し、
前記新規スペックが前記既存スペックよりも高い場合、前記新規ノードを、移行対象ノードとして管理し、前記移行許容ノードとして管理されている既存ノードから、前記新規ノードに、第１ボリュームを移行することを決定する、
請求項５に記載のボリューム配置制御方法。
前記処理ノード又は前記管理システムは、移行許容ノードとして管理されている既存ノード以外のいずれかの既存ノードに、第１の優先度よりも低く第２の優先度以上に高い優先度が関連付けられているボリュームである第２ボリュームがあれば、当該第２ボリュームの移行先を、移行許容ノードとして管理されている既存ノードに決定する、
請求項６に記載のボリューム配置制御方法。
ストレージノードのスペックの高さは、Ｎの判定項目（Ｎは２以上の整数）に依存し、
前記処理ノード又は前記管理システムは、
Ｎの判定項目について新規スペックの方が高ければ、前記新規ノードを移行対象ノードと判定し、
Ｎの判定項目のうち所定の一部の判定項目の少なくとも一つについて新規スペックの方が低ければ、前記新規ノードを移行許容ノードと判定する、
請求項７に記載のボリューム配置制御方法。