JP2021099624A

JP2021099624A - ストレージシステム及びストレージシステムのリビルド処理方法

Info

Publication number: JP2021099624A
Application number: JP2019230631A
Authority: JP
Inventors: 翔澤田; Sho Sawada; 鈴木　秀典; Shusuke Suzuki; 秀典鈴木; 栄寿葛城; Eiju Katsuragi; 信太郎井上; Shintaro Inoue; 裕大藤井; Yuudai Fujii
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-12-20
Filing date: 2019-12-20
Publication date: 2021-07-01
Also published as: US11379327B2; US20210191828A1

Abstract

【課題】分散ＲＡＩＤ構成のストレージシステムにおいて、障害が生じたドライブに格納されたデータの復元速度を速めることを可能にする。【解決手段】ストレージシステム１０のストレージコントローラ１００は、少なくとも二つのドライブ２００に障害が生じた際に、優先的にリビルドする優先リビルドデータの復元のためにデータを読み出す読み出しドライブ２００と復元した優先リビルドデータを書き込む書き込みドライブ２００とを特定してリビルド処理を行う優先リビルド処理と、通常リビルドデータに対して読み出しドライブ２００と書き込みドライブ２００とを特定してリビルド処理を行う通常リビルド処理とを並行して行う。【選択図】図１

Description

本発明は、ストレージシステム及びストレージシステムのリビルド処理方法に関する。

複数のディスクドライブを用いてＲＡＩＤ（Redundant Arrays of Independent (or Inexpensive) Disks）を構成するストレージシステムにおいて、少なくとも１台のドライブに障害が生じた際に外付けのスペアドライブにデータを復元するかわりに、各々のドライブにスペア領域を設け、このスペア領域にデータを復元（リビルド）する分散ＲＡＩＤ（Distributed RAID）という技術が知られている。

また、分散ＲＡＩＤを構成するストレージシステムにおいて、リビルド処理の際に優先度の高いデータを選定し、優先度の高いデータを他のデータに優先してリビルド処理をする優先リビルド処理と呼ばれる技術も知られている。

本技術分野の背景技術として、特開２０１５−１５８７６８号（特許文献１）がある。この公報には、「データが格納される第１の記憶領域及び第１の記憶領域に格納された一部のデータと同じデータが格納される第２の記憶領域をそれぞれが有し、同じ管理単位に属する複数のデータが分散して格納される複数の記憶装置と、管理単位毎に設定された優先度に基づき、複数の記憶装置が有する第２の記憶領域について管理単位毎の使用割合を設定する制御部と、を有する、ストレージ装置が提供される。」と記載されている（要約参照）。

特開２０１５−１５８７６８号公報

上述した背景技術において優先リビルド処理が行われている間、それ以外のリビルド処理は行われない。このため、障害が生じたドライブに格納されたデータを最終的に復元するまでの時間を長く要していた。

本発明は上記の課題に鑑みてなされたもので、分散ＲＡＩＤ構成のストレージシステムにおいて、障害が生じたドライブに格納されたデータの復元速度を速めることが可能なストレージシステム及びストレージシステムのリビルド処理方法を提供することにある。

上記課題を解決すべく、本発明の一つの観点に従うストレージシステムは、複数のドライブと、これら複数のドライブにより分散ＲＡＩＤを構成させるプロセッサとを有し、プロセッサは、少なくとも二つのドライブに障害が生じた際に、障害が生じたドライブに格納されているデータを他のドライブに復元させるリビルド処理を行うとき、優先的にリビルドする優先リビルドデータを選定し、この優先リビルドデータの復元のためにデータを読み出す読み出しドライブと復元した優先リビルドデータを書き込む書き込みドライブとを特定してリビルド処理を行う優先リビルド処理と、優先リビルドデータ以外のデータである通常リビルドデータに対して読み出しドライブと書き込みドライブとを特定してリビルド処理を行う通常リビルド処理とを並行して行う。

本発明によれば、分散ＲＡＩＤ構成のストレージシステムにおいて、障害が生じたドライブに格納されたデータの復元速度を速めることが可能なストレージシステム及びストレージシステムのリビルド処理方法を実現することができる。

実施例１に係るストレージシステムのハードウェア構成を示す図である。実施例１に係るストレージシステムのストレージコントローラのメモリの構成の一例を示す図である。実施例１に係るストレージシステムのリビルド管理テーブルの一例を示す図である。実施例１に係るストレージシステムの分散ＲＧマッピング管理テーブルの一例を示す図である。実施例１に係るストレージシステムのデータマッピングテーブルの一例を示す図である。実施例１に係るストレージシステムのパーセルグループ冗長度管理テーブルの一例を示す図である。実施例１に係るストレージシステムのマッピングイメージの一例を示す図である。実施例１に係るストレージシステムのスペアマッピングイメージの一例を示す図である。実施例１に係るストレージシステムの優先リビルド中ビットマップの一例を示す図である。一般的なストレージシステムにおけるリビルド処理の流れの一例を説明するための図である。一般的なストレージシステムにおけるリビルド処理の流れの別の例を説明するための図である。一般的なストレージシステムにおけるリビルド処理の流れのさらに別の例を説明するための図である。一般的なストレージシステムにおけるリビルド処理の流れのまたさらに別の例を説明するための図である。実施例１に係るストレージシステムにおけるリビルド処理の流れの一例を説明するための図である。実施例１に係るストレージシステムにおけるリビルド処理の流れの別の例を説明するための図である。実施例１の変形例に係るストレージシステムにおけるリビルド処理の流れの一例を説明するための図である。実施例１に係るストレージシステムのコレクションコピー起動処理の一例を説明するためのフローチャートである。実施例１に係るストレージシステムの優先リビルド前処理の一例を説明するためのフローチャートである。実施例１に係るストレージシステムの優先リビルド処理の一例を説明するためのフローチャートである。実施例１に係るストレージシステムの優先リビルド後処理の一例を示すフローチャートである。実施例１に係るストレージシステムの通常リビルド前処理の一例を説明するためのフローチャートである。実施例１に係るストレージシステムの通常リビルド処理の一例を説明するためのフローチャートである。実施例１に係るストレージシステムの通常リビルド後処理の一例を示すフローチャートである。実施例２に係るストレージシステムにおけるリビルド処理の流れの一例を説明するための図である。実施例２に係るストレージシステムの優先リビルド前処理の一例を説明するためのフローチャートである。実施例２に係るストレージシステムの優先リビルド処理の一例を説明するためのフローチャートである。実施例２に係るストレージシステムの優先リビルド後処理の一例を示すフローチャートである。実施例２に係るストレージシステムの通常リビルド対象パーセルグループ選択処理の一例を示すフローチャートである。実施例３に係るストレージシステムにおけるリビルド処理の流れの一例を説明するための図である。実施例３に係るストレージシステムの通常リビルド対象パーセルグループ選択処理の一例を示すフローチャートである。

以下、図面を参照して本発明の実施形態を説明する。以下の記載および図面は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施する事が可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。

なお、実施例を説明する図において、同一の機能を有する箇所には同一の符号を付し、その繰り返しの説明は省略する。

図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。

以下の説明では、「テーブル」、「リスト」、「キュー」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「ＸＸテーブル」、「ＸＸリスト」等を「ＸＸ情報」と呼ぶことがある。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ＩＤ」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。

また、以下の説明において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部又は一部が１つのテーブルであってもよい。

同一あるいは同様な機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。ただし、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。

また、以下の説明では、プログラムを実行して行う処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ、ＧＰＵ）によって実行されることで、定められた処理を、適宜に記憶資源（例えばメモリ）および／またはインターフェースデバイス（例えば通信ポート）等を用いながら行うため、処理の主体がプロセッサとされてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路（例えばＦＰＧＡやＡＳＩＣ）を含んでいてもよい。

また、以下の説明において、「プロセッサ（部）」は、１以上のプロセッサである。少なくとも１つのプロセッサは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサであるが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサでもよい。少なくとも１つのプロセッサは、シングルコアでもよいしマルチコアでもよい。

また、少なくとも１つのプロセッサは、処理の一部又は全部を行うハードウェア回路（例えばＦＰＧＡ（Field-Programmable Gate Array）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサでもよい。

以下の説明において、「インターフェース部」は、１以上のインターフェースでよい。この１以上のインターフェースは、１以上の同種の通信インターフェースデバイス（例えば１以上のＮＩＣ（Network Interface Card））であってもよいし、２以上の異種の通信インターフェースデバイス（例えばＮＩＣとＨＢＡ（Host Bus Adapter））であってもよい。

また、以下の説明において、「メモリ部」は、１以上のメモリであり、典型的には主記憶デバイスでよい。メモリ部における少なくとも１つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。

プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

本開示において、ストレージデバイスは、１台のＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の１台のストレージドライブ、複数台のストレージドライブを含むＲＡＩＤ装置、及び複数のＲＡＩＤ装置を含む。また、ドライブがＨＤＤである場合には、例えば、ＳＡＳ（ＳｅｒｉａｌＡｔｔａｃｈｅｄＳＣＳＩ）ＨＤＤを含んでもよく、ＮＬ−ＳＡＳ（ニアラインＳＡＳ）ＨＤＤを含んでもよい。

以下、本明細書に用いる用語について説明する。
・パーセル：分散ＲＧのデータを管理する単位。ＬＢＡ（Logical Block Addressing）が連続する所定数のストライプで構成される。
・パーセルグループ：ＬＢＡが連続する所定数のストライプ列で構成されるパーセル列。２Ｄ＋２ＰのＲＡＩＤ構成の場合、４つのパーセルで構成される。図７では、リピテーショングループ内の同じ数字のパーセルが同じパーセルグループに属することを示している。
・リピテーショングループ：マッピングを繰り返す単位。図７では、図５に示している１０×１２のデータマッピングテーブルをリピテーショングループの単位としている。
・分散ＲＧ（Raid Group）のマッピング：分散ＲＧはドライブ容量に応じて、同一パターンを繰り返すことでマッピングを行う。図７では、図５に示している１０×１２のデータマッピングテーブルのパターンを繰り返すことでマッピングを行っている。

以下、図面を参照して、実施例１を説明する。

図1は、実施例１に係るストレージシステムのハードウェア構成を示す図である。
実施例１に係るストレージシステム１０は、ホスト計算機（以下、ホスト）２０が接続されて構成される。ストレージシステム１０とホスト２０とは、ネットワーク３０を介して通信可能である。ネットワーク３０は、例えば、ＳＡＮ（Storage Area Network）、ＬＡＮ（Local Area Network）などである。

ストレージシステム１０は、ストレージ装置４０と、ストレージ装置４０に接続されたストレージコントローラ１００とを有する。ストレージ装置４０は複数のストレージデバイス２００を有する。複数のストレージデバイス２００は、例えば図略のスイッチを介して相互に接続されており、ストレージデバイス２００間でＥｎｄ−ｔｏ−Ｅｎｄ通信が可能である。複数のストレージデバイス２００のそれぞれは、図略のスイッチを介してストレージコントローラ１００と接続される。

ストレージコントローラ１００は、ホスト２０と通信を行うデバイスであるホストインターフェイス１１０、ストレージシステム１０全体の動作制御を行うＣＰＵ（Central Processing Unit）１２０、ＣＰＵ１２０がデータ転送時に使用するストレージ管理情報やホスト２０からライトされるデータやストレージデバイス２００からリードされたデータを一時的に記憶するローカルメモリ１３０、ストレージデバイス２００と通信を行うデバイスであるストレージインターフェイス１４０、キャッシュメモリ１５０を有し、これらは内部バス（例えば、ＰＣＩ−Ｅｘｐｒｅｓｓ（ＰＣＩｅ）バス、ＡＸＩ（Advanced eXtensible Interface）バス）１６０を通じて互いに接続されている。ここでは、全ての内部バス１６０には同一の記号が付されているが、それらの内部バスは、同一のバス規格のバスで構成されていてもよいし、異なるバス規格のバスを含んでいてもよい。また、ストレージコントローラ１００内のストレージインターフェイス１４０は、ＰＣＩｅバス１７０を介して複数のストレージデバイス２００と接続される。

本実施形態では、後に詳述するように、１２台のストレージデバイス２００に基づいてＲＡＩＤ６（２Ｄ＋２Ｐ）のＲＡＩＤグループが構成されているものとする。

ＲＡＩＤには、いくつかのレベル（以下、「ＲＡＩＤレベル」という）がある。例えば、ＲＡＩＤ５では、ＲＡＩＤ５に対応したホストコンピュータから指定されたライト対象のデータは、所定サイズのデータ（以下、便宜上「データ単位」という）に分割される。各データ単位は、複数のデータ要素に分割される。複数のデータ要素は、同一のストライプ列内の複数のストライプにそれぞれ書き込まれる。

ＲＡＩＤ５では、ストレージデバイス２００に障害が発生したことにより、そのストレージデバイス２００から読み出せなくなったデータ要素を復元（リビルド）するために、各データ単位に対して、“パリティ”と呼ばれる冗長な情報（以下、「冗長コード」）が生成される。冗長コードも、複数のデータ要素と同一のストライプ列内のストライプに書き込まれる。

例えば、ＲＡＩＤ５のＲＡＩＤグループを構成するストレージデバイス２００の数が４である場合、そのうちの３個のストレージデバイス２００に対応する３個のストライプに、データ単位を構成する３個のデータ要素が書き込まれ、残りの一つのストレージデバイス２００に対応するストライプに、冗長コードが書き込まれる。

例えば、ＲＡＩＤストライプ０では、データ０とデータ１とデータ２に基づいてパリティ０が生成されている。パリティ０は、データ０とデータ１とデータ２の排他的論理和演算（以下、ＸＯＲ演算）により生成される。データ０、データ１、データ２、パリティ０は、ストレージデバイス２００に１つずつ分散格納される。ストレージデバイス２００の障害等によりデータ１が読み出せなくなった場合、データ０とデータ２とパリティ０のＸＯＲ演算によりデータ１が復元される。

ＲＡＩＤ６では、各データ単位に対して、２種類の冗長コード（Ｐパリティ、Ｑパリティという）が生成されて、それぞれの冗長コードが同一のストライプ列内のストライプに書き込まれる。これにより、データ単位を構成する複数のデータ要素のうちの２個のデータ要素を読み出すことができない場合に、これら２個のデータ要素を復元することができる。

上記に説明した以外にもＲＡＩＤレベルは存在する（例えばＲＡＩＤ１〜４）。データの冗長化技術として、３重ミラー（Triplication）や、パリティを３個用いたトリプルパリティ技術等もある。冗長コードの生成技術についても、ガロア演算を用いたＲｅｅｄ−ｓｏｌｏｍｏｎ符号や、ＥＶＥＮ−ＯＤＤ等さまざまな技術が存在する。以下においては、主にＲＡＩＤ６について説明するが、冗長化技術を上述した方法に置き換え可能である。

図２は、実施例１に係るストレージシステム１０のストレージコントローラ１００のローカルメモリ１３０の構成の一例を示す図であり、より詳細には、ローカルメモリ１３０内のプログラム及び管理情報の例を示す図である。

ローカルメモリ１３０には、ホストインターフェイス処理プログラム１３１、リビルド処理プログラム１３２、コピーバック処理プログラム１３３、パリティ処理プログラム１３４が格納されている。

ホストインターフェイス処理プログラム１３１は、ストレージコントローラ１００とホスト２０との通信処理を行うプログラムである。リビルド処理プログラム１３２は、後述する本実施例の特徴であるリビルド処理を含めたリビルド処理を行うプログラムである。コピーバック処理プログラム１３３は、リビルド処理プログラム１３２によるリビルド処理の後、ストレージデバイス２００交換後にスペア領域のデータから新しいストレージデバイス２００へのコピー処理を行う。本処理の実行完了後、ストレージ装置４０の状態は、正常状態となる。パリティ処理プログラム１３４は、上述したパリティを生成してストレージデバイス２００の所定の位置にパリティを書き込む。また、他、図示していないプログラムもローカルメモリ１３０に格納される。

また、ローカルメモリ１３０には、管理情報としてリビルド管理テーブル１３５、分散ＲＧマッピング管理テーブル１３６、データマッピングテーブル１３７、パーセルグループ冗長度管理テーブル１３８が格納されている。

次に、管理情報である各テーブルの構成例を説明する。

図３は、実施例１に係るストレージシステム１０のリビルド管理テーブル１３５の一例を示す図である。

リビルド管理テーブル１３５は、リビルド処理に関する情報を保持する。リビルド管理テーブル１３５は、分散ＲＧ毎にエントリを有する。各エントリは、対象分散ＲＧの番号の情報である分散ＲＧ＃３０１、ドライブ（ストレージデバイス２００）の番号の情報であるドライブ＃３０２、テーブル有効フラグに関する情報であるテーブル有効フラグ（ＦＬＧ）３０３、通常リビルド処理におけるコピー位置のポインタ情報である通常コピーポインタ３０４、優先リビルド処理におけるコピー位置のポインタ情報である優先コピーポインタ３０５、優先リビルド中ビットマップの情報である優先リビルド中ビットマップ３０６、優先リビルド済ビットマップの情報である優先リビルド済ビットマップ３０７である。優先リビルド中ビットマップ及び優先リビルド済ビットマップの詳細については後述する。

図４は、実施例１に係るストレージシステム１０の分散ＲＧマッピング管理テーブル１３６の一例を示す図である。

分散ＲＧマッピング管理テーブル１３６は、分散ＲＧのマッピングに関する情報を保持する。分散ＲＧマッピング管理テーブル１３６は、分散ＲＧ毎にエントリを有する。各エントリは、対象分散ＲＧの番号の情報である分散ＲＧ＃４０１、データマッピングに関する情報であるデータマッピング４０２、スペアマッピングに関する情報であるスペアマッピング４０３である。

図５は、実施例１に係るストレージシステム１０のデータマッピングテーブル１３７の一例を示す図である。

既に説明したように、本実施例のストレージシステム１０はＲＡＩＤレベルがＲＡＩＤ６（２Ｄ＋２Ｐ）であり、１２台のストレージデバイス２００により構成されている。その際のデータマッピングテーブル１３７を図５に示す。なお、本実施例では、リビルド処理の際に各ストレージデバイス２００のリードパーセル数ができるだけ均等化されるようにデータがマッピングされている。

図６は、実施例１に係るストレージシステム１０のパーセルグループ冗長度管理テーブル１３８の一例を示す図である。

パーセルグループ冗長度管理テーブル１３８は、各々のパーセルグループの冗長度に関する情報を保持する。パーセルグループ冗長度管理テーブル１３８は、分散ＲＧ毎にエントリを有する。各エントリは、対象分散ＲＧの番号の情報である分散ＲＧ＃５０１、パーセルグループの番号の情報であるパーセルグループ＃５０２、冗長度の情報である冗長度５０３である。

図７は、実施例１に係るストレージシステム１０のマッピングイメージの一例を示す図である。

既に説明したように、本実施例のストレージシステム１０はＲＡＩＤレベルがＲＡＩＤ６（２Ｄ＋２Ｐ）であり、１２台（図中＃０〜＃１１で示す）のストレージデバイス２００により構成されている。ストレージデバイス２００に書き込まれるデータは所定サイズのデータ単位に分割され、各データ単位は、複数のデータ要素に分割される。複数のデータ要素は、同一のストライプ列内の複数のストライプにそれぞれ書き込まれる。本実施例では、４つのストライプが１つのストライプ列を構成している。１つのストライプ列はデータＤを格納する２つのストライプと、データＤに基づくＰパリティを格納する１つのストライプと、データＤに基づくＱパリティを格納する１つのストライプで構成されている。以下、ＬＢＡが連続する複数のストライプで構成される単位を「パーセル」と称し、ＬＢＡが連続する複数のストライプ列で構成されるパーセル列を「パーセルグループ」と称する。図７において同じ番号で示されたパーセルは同じパーセルグループに属することを示す。また、各々のストレージデバイス２００にはスペア領域（図中「Ｓ」で示している）が設けられている。スペア領域は後述するリビルド処理の際に用いられ、通常はデータが格納されていない。

図８は、実施例１に係るストレージシステム１０のスペアマッピングイメージの一例を示す図である。

既に説明したように、本実施例のストレージシステム１０はＲＡＩＤレベルがＲＡＩＤ６（２Ｄ＋２Ｐ）であり、１２台のストレージデバイス２００により構成されている。図８は、ストレージデバイス２００のうち＃０、＃１のストレージデバイスに障害が発生した場合にリビルド処理がスペア領域に書き込むデータのマッピングを示す。スペアマッピングは、リビルドするパーセルが属するパーセルグループの冗長度を維持するため、リビルドするパーセルが属するパーセルグループのパーセルが格納されていないストレージデバイス２００に、リビルド処理がリビルドするパーセルを書き込むようにマッピングされる。本実施例では、リビルド処理がストレージデバイス２００の＃０に格納されているパーセルグループ＃１のパーセルをリビルドし、ストレージデバイス２００の＃２のスペア領域にリビルドしたパーセルを書き込む。

図９は、実施例１に係るストレージシステム１０の優先リビルド中ビットマップ３０６の一例を示す図である。

優先リビルド中ビットマップ３０６は、パーセルグループ冗長度管理テーブル１３８から生成される。優先リビルド中ビットマップ３０６はそれぞれのパーセルグループが優先リビルド処理の対象であるか否かを表すビットマップである。優先リビルド中ビットマップ３０６は１６進数の所定桁の数字である。例えば、図に示す優先リビルド中ビットマップの１桁目はパーセルグループ＃０〜＃３に対応する。

本実施例では、冗長度０のパーセルグループを優先リビルド処理の対象とする。図９に示すパーセルグループ冗長度管理テーブル１３８は、ストレージデバイス２００のうち＃０及び＃１に障害が生じた際の冗長度に基づいたものである。パーセルグループ＃０〜＃３において冗長度０のパーセルグループは＃０のみである。従って、優先リビルド中ビットマップの１桁目を構成する数字は２進数で０００１であるので、１６進数でこれを表すと「１」となる。これ以外の桁についても同様にして優先リビルド中ビットマップが生成される。

次に、本実施例のストレージシステム１０におけるリビルド処理の概要について説明する。まず、一般的なストレージシステムにおけるリビルド処理の流れを図１０〜図１３を用いて説明する。

図１０〜図１３は、一般的なストレージシステムにおけるリビルド処理の流れの一例を説明するための図である。図示する一般的なストレージシステムは、実施例１のストレージシステム１０と同様に、ＲＡＩＤレベルがＲＡＩＤ６（２Ｄ＋２Ｐ）であり、１２台のストレージデバイスにより構成されているものとする。

図１０の上部に示す図が、ストレージデバイスに障害が起きていない状態を示し、図１０の下部に示す図が、ストレージデバイスのうち＃０、＃１のストレージデバイスに障害が発生した状態を示す図である。

ストレージデバイスのうち＃０、＃１のストレージデバイスに障害が発生したことをストレージシステムが検出したら、図１１の上部に示す図のように、まず、ストレージシステムは優先リビルド処理を開始する。図１１の上部に示す図では、＃０のストレージデバイスについて優先リビルド処理を開始ししている。

図示では、パーセルグループ＃０（「０」で示されるパーセルからなるパーセルグループ）について、＃２、＃３のストレージデバイスに格納されているパーセルを用いて、＃４のストレージデバイスのスペア領域にデータをリビルドし、パーセルグループ＃４について、＃５、＃７のストレージデバイスに格納されているパーセルを用いて、＃６のストレージデバイスのスペア領域にデータをリビルドしている。これらパーセルグループ＃０、＃４はストレージデバイス＃０、＃１の双方に格納されているパーセルに係るグループであり、冗長度０であることから、優先リビルド処理の対象となる。この結果、図１１の下部に示す図のように、優先リビルド処理が終了し、データがリビルドされる。

優先リビルド処理を終了したら、ストレージシステムは次に、図１２の上部に示す図のように、＃０のストレージデバイスについて通常リビルド処理を行う。この結果、図１２の下部に示す図のように、＃０のストレージデバイスについて通常リビルド処理が終了する。最終的に、図１３に示すように、優先リビルド処理と通常リビルド処理とを経て、＃０のストレージデバイスについてリビルド処理が完了する。

しかしながら、一般的なストレージシステムにおいては、上述したように、優先リビルド処理が終了してから通常リビルド処理を行っている。このため、図１３に示すように最終的にリビルド処理が終了するまでの時間に長時間を要していた。

そこで、実施例１のストレージシステム１０では、優先リビルド処理を行っている際にパーセルの読み出し及び書き込みを行っているストレージデバイス２００である読み出しドライブ及び書き込みドライブ以外にパーセルの読み出しも書き込みも行っていないストレージデバイス２００があれば、このストレージデバイス２００（ドライブ）に格納されている通常リビルド対象パーセルを用いて通常リビルド処理を行う。これにより、リビルド処理全体にかかる時間の短縮を図っている。

具体的には、図１４の上部に示す図のように、優先リビルド処理を行っている際に読み出しドライブとして用いられているストレージデバイス２００＃２、＃３、＃５、＃７及び書き込みドライブとして用いられているストレージデバイス２００＃４、＃６以外のストレージデバイス２００で、通常リビルド処理の対象となり得るパーセルグループ＃１０については、このパーセルグループ＃１０に属するパーセルが格納されたストレージデバイス２００＃８、＃１０は優先リビルド処理において読み出しドライブとしても書き込みドライブとしても用いられていない。さらに、パーセルグループ＃１０に属するパーセルを用いてリビルドしたデータを書き込むストレージデバイス２００＃９も、優先リビルド処理において読み出しドライブとしても書き込みドライブとしても用いられていない。そこで、ストレージコントローラ１００は、優先リビルド処理と並行して、通常リビルド対象パーセルのうち、優先リビルド処理において読み出しドライブとしても書き込みドライブとしても用いられていないストレージデバイス２００に格納されている通常リビルド対象パーセルを用いて通常リビルド処理を行う。この結果、図１４の下部に示す図のように、優先リビルド対象パーセルが属するパーセルグループと通常リビルド対象パーセルが属するパーセルグル―プのうち一部のパーセルグループのリビルド処理が終了する。

その後、ストレージコントローラ１００は、図１４においてリビルド処理の対象とならなかったパーセルグループについて、図１５の上部に示す図のように、通常リビルド処理を行う。その結果、図１５の下部に示す図のように、通常リビルド処理が終了する。

次に、図１７〜図２３のフローチャートを参照して、本実施例のストレージシステム１０の動作について説明する。

図１７は、実施例１に係るストレージシステム１０のコレクションコピー起動処理の一例を説明するためのフローチャートである。

まず、ストレージコントローラ１００のリビルド処理プログラム１３２は、スペアマッピングの生成の要否を判定する（ステップＳ１００）。その結果、生成が必要と判定したら（ステップＳ１００においてＹＥＳ）、リビルド処理プログラム１３２はスペアマッピング生成処理を行い（ステップＳ１０１）、生成が不要と判定したら（ステップＳ１００においてＮＯ）ステップＳ１０２に移行する。

次に、リビルド処理プログラム１３２は、障害が生じたドライブ（ストレージデバイス２００）の最小冗長度が０であるか否かを判定する（ステップＳ１０２）。その結果、ドライブの最小冗長度が０であると判定したら（ステップＳ１０２においてＹＥＳ）、リビルド処理プログラム１３２は優先リビルド前処理を実行し（ステップＳ１０３）、さらに、優先コピーポインタが最終ＬＢＡに達するまで（ステップＳ１０５においてＹＥＳ）優先リビルド処理を実行する（ステップＳ１０４）。その後、リビルド処理プログラム１３２は優先リビルド後処理を行う（ステップＳ１０６）。優先リビルド前処理、優先リビルド処理及び優先リビルド後処理の詳細については後述する。

一方、ドライブの最小冗長度が０でない（１以上である）と判定したら（ステップＳ１０２においてＮＯ）、リビルド処理プログラム１３２は通常リビルド前処理を実行し（ステップＳ１０７）、さらに、通常コピーポインタが最終ＬＢＡに達するまで（ステップＳ１０９においてＹＥＳ）通常リビルド処理を実行する（ステップＳ１０８）。その後、リビルド処理プログラム１３２は通常リビルド後処理を行う（ステップＳ１１０）。通常リビルド前処理、通常リビルド処理及び通常リビルド後処理の詳細については後述する。

その後、リビルド処理プログラム１３２は冗長度の更新処理を行う（ステップＳ１１１）。

図１８は、実施例１に係るストレージシステム１０の優先リビルド前処理の一例を説明するためのフローチャートである。図１８に示すフローチャートは、図１７のフローチャートにおけるステップＳ１０３の処理の詳細を示すものである。

まず、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先コピーポインタ３０５を初期化する（ステップＳ２００）。次いで、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先リビルド中ビットマップ３０６を初期化する（ステップＳ２０１）。

次いで、リビルド処理プログラム１３２は、パーセルグループ冗長度管理テーブル１３８を参照して、優先リビルド処理の対象となるパーセルグループ＃を取得する（ステップＳ２０２）。さらに、リビルド処理プログラム１３２は、ステップＳ２０２で取得したパーセルグループ＃に基づいて、リビルド管理テーブル１３５の優先リビルド中ビットマップ３０６を更新する（ステップＳ２０３）。

さらに、リビルド処理プログラム１３２は、優先リビルド処理の対象を含まないドライブ（ストレージデバイス２００）をリビルド対象とするために、分散ＲＧマッピング管理テーブル１３６とパーセルグループ冗長度管理テーブル１３８を参照し、優先リビルド処理の対象を含まないドライブ（ストレージデバイス２００）をリビルド対象にするパーセルグループ＃を取得する（ステップＳ２０４）。そして、リビルド処理プログラム１３２は、ステップＳ２０４で取得したパーセルグループ＃に基づいて、リビルド管理テーブル１３５の優先リビルド中ビットマップ３０６を更新する（ステップＳ２０５）。

図１９は、実施例１に係るストレージシステム１０の優先リビルド処理の一例を説明するためのフローチャートである。図１９に示すフローチャートは、図１７のフローチャートにおけるステップＳ１０４の処理の詳細を示すものである。

まず、リビルド処理プログラム１３２は、リビルド管理テーブル１３５を参照して、優先リビルド中ビットマップ３０６がＯＮになっているパーセルグループ＃をこの優先リビルド中ビットマップ３０６から取得する（ステップＳ３００）。

次いで、リビルド処理プログラム１３２は、パーセルコピージョブの多重度を決定する（ステップＳ３０１）。そして、リビルド処理プログラム１３２は、ステップＳ３０１で決定したパーセルコピージョブの多重度の数の分のコピー対象パーセルを決定する（ステップＳ３０２）。そして、リビルド処理プログラム１３２は、ステップＳ３０２で決定したコピー対象パーセルに対して、リビルド処理を多重起動する（ステップＳ３０３）。ステップＳ３０３の処理は、対象パーセル内の全ストライプの回復処理が終了するまで（ステップＳ３０４においてＹＥＳ）繰り返される。

この後、リビルド処理プログラム１３２は、リピテーショングループ内の全対象パーセルについて回復処理を完了したかどうかを判定し（ステップＳ３０５）、判定が肯定されたら（ステップＳ３０５においてＹＥＳ）、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先コピーポインタ３０５を次のリピテーショングループの先頭に移動させる（ステップＳ３０６）。一方、判定が否定されたら（ステップＳ３０５においてＮＯ）、処理をステップＳ３０２に戻す。

図２０は、実施例１に係るストレージシステム１０の優先リビルド後処理の一例を示すフローチャートである。図２０に示すフローチャートは、図１７のフローチャートにおけるステップＳ１０６の処理の詳細を示すものである。

まず、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先リビルド済ビットマップ３０７を更新する（ステップＳ４００）。優先リビルド済ビットマップ３０７の更新は、優先リビルド中ビットマップ３０６とのＯＲを取ればよい。次いで、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先リビルド中ビットマップ３０６の値に無効値を設定する（ステップＳ４０１）。

この後、リビルド処理プログラム１３２は、スペアマッピング再生成不要フラグをＯＮに設定し（ステップＳ４０２）、登録先キューに通常リビルドキューを設定し（ステップＳ４０３）、エンキュー処理を行う（ステップＳ４０４）。

図２１は、実施例１に係るストレージシステム１０の通常リビルド前処理の一例を説明するためのフローチャートである。図２１に示すフローチャートは、図１７のフローチャートにおけるステップＳ１０７の処理の詳細を示すものである。

リビルド処理プログラム１３２は、リビルド管理テーブル１３５の通常コピーポインタ３０４を初期化する（ステップＳ５００）。

図２２は、実施例１に係るストレージシステム１０の通常リビルド処理の一例を説明するためのフローチャートである。図２２に示すフローチャートは、図１７のフローチャートにおけるステップＳ１０８の処理の詳細を示すものである。

まず、リビルド処理プログラム１３２は、リビルド管理テーブル１３５を参照して、優先リビルド中ビットマップ３０６がＯＦＦになっているパーセルグループ＃をこの優先リビルド中ビットマップ３０６から取得する（ステップＳ６００）。

次いで、リビルド処理プログラム１３２は、パーセルコピージョブの多重度を決定する（ステップＳ６０１）。そして、リビルド処理プログラム１３２は、ステップＳ６０１で決定したパーセルコピージョブの多重度の数の分のコピー対象パーセルを決定する（ステップＳ６０２）。そして、リビルド処理プログラム１３２は、ステップＳ６０２で決定したコピー対象パーセルに対して、リビルド処理を多重起動する（ステップＳ６０３）。ステップＳ６０３の処理は、対象パーセル内の全ストライプの回復処理が終了するまで（ステップＳ６０４においてＹＥＳ）繰り返される。

この後、リビルド処理プログラム１３２は、リピテーショングループ内の全対象パーセルについて回復処理を完了したかどうかを判定し（ステップＳ６０５）、判定が肯定されたら（ステップＳ６０５においてＹＥＳ）、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の通常コピーポインタ３０４を次のリピテーショングループの先頭に移動させる（ステップＳ６０６）。一方、判定が否定されたら（ステップＳ６０５においてＮＯ）、処理をステップＳ６０２に戻す。

図２３は、実施例１に係るストレージシステム１０の通常リビルド後処理の一例を示すフローチャートである。図２３に示すフローチャートは、図１７のフローチャートにおけるステップＳ１１０の処理の詳細を示すものである。

リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先リビルド済ビットマップ３０７に無効値を設定する（ステップＳ７００）。

このように構成される本実施例によれば、ストレージコントローラ１００は、少なくとも二つのドライブ（ストレージデバイス２００）に障害が生じた際に、障害が生じたドライブに格納されているデータを他のドライブに復元させるリビルド処理を行うとき、優先的にリビルドする優先リビルドデータを選定し、この優先リビルドデータの復元のためにデータを読み出す読み出しドライブと復元した優先リビルドデータを書き込む書き込みドライブとを特定してリビルド処理を行う優先リビルド処理と、優先リビルドデータ以外のデータである通常リビルドデータに対して読み出しドライブと書き込みドライブとを特定してリビルド処理を行う。

従って、本実施例によれば、優先リビルド処理を行っているときに、優先リビルド処理に並行して通常リビルド処理を行うことができる。これにより、分散ＲＡＩＤ構成のストレージシステムにおいて、障害が生じたドライブに格納されたデータの復元速度を速めることが可能となる。

また、ストレージコントローラ１００は、優先リビルド処理が終了したら、これら優先リビルド処理及び通常リビルド処理で復元されなかったデータのリビルド処理を行うので、障害が生じたドライブのリビルド処理を早期にかつ確実に行うことができる。

また、ストレージコントローラ１００は、データの冗長度に基づいて優先リビルドデータを選定し、特に、障害が生じたドライブに格納されたデータのうち、より冗長度が低いデータを優先リビルドデータとして優先リビルド処理を行い、優先リビルドデータより冗長度が高いデータを通常リビルドデータとして通常リビルド処理を行うので、データの消失という最悪の事態を未然にかつ確実に防ぎつつリビルド処理を行うことができる。

さらに、ストレージコントローラ１００は、通常リビルド処理において、書き込みドライブ及び読み出しドライブとして優先リビルド処理で特定された書き込みドライブ及び読み出しドライブの双方を特定しないようにしてリビルド処理を行うので、優先リビルド処理を行っているときに、優先リビルド処理に影響を及ぼさない範囲で通常リビルド処理を行うことができる。これにより、分散ＲＡＩＤ構成のストレージシステムにおいて、障害が生じたドライブに格納されたデータの復元速度を速めることが可能となる。

＜実施例１の変形例＞
ここで、実施例１のストレージシステム１０はＲＡＩＤレベルがＲＡＩＤ６（２Ｄ＋２Ｐ）であり、４つのパーセルによりパーセルグループが構成されている。従って、障害が生じたドライブ（ストレージデバイス２００）にパーセルグループのうち１つのパーセルが含まれており、このパーセルグループについてリビルド処理を行うに当たって、少なくとも２つのパーセルが読み出せればリビルド処理を行うことができる。

そこで、実施例１の変形例では、同一のパーセルグループに属する３つのパーセルのうち、優先リビルド処理を行っている際に２つのパーセルの読み出し及び書き込みを行っているストレージデバイス２００である読み出しドライブ及び書き込みドライブ以外にパーセルの読み出しも書き込みも行っていないストレージデバイス２００があれば、このストレージデバイス２００（ドライブ）に格納されている通常リビルド対象パーセルを用いて通常リビルド処理を行う。

具体的には、図１６に示すように、パーセルグループ＃１０に属するパーセルが格納されているドライブのうち、ドライブ＃３は優先リビルド処理の読み出しドライブとして用いられているが、ドライブ＃８、＃１０は優先リビルド処理の読み出しドライブとしても書き込みドライブとしても用いられていない。従って、ストレージコントローラ１００は、ドライブ＃８、＃１０に格納されたパーセルを用いて通常リビルド処理を行う。この際、書き込みドライブも、スペアマッピングに従って、優先リビルド処理の読み出しドライブとしても書き込みドライブとしても用いられていないドライブ＃９にする。

これにより、優先リビルド処理と並列に行う際の通常リビルド処理に用いられるドライブの選択肢を広げることができ、障害が生じたドライブに格納されたデータの復元速度をより速めることが可能となる。

実施例２のストレージシステム１０はＲＡＩＤレベルがＲＡＩＤ６（２Ｄ＋２Ｐ）であり、１２台のドライブ（ストレージデバイス２００）により構成されている。その際のデータマッピングテーブル１３７（図５）は、リビルド処理の際に各ドライブのリードパーセル数ができるだけ均等化されるようにデータがマッピングされている。これにより、リビルド処理の際の各ドライブのリードパーセル数の偏りによるドライブの性能のボトルネックが解消されることで、リビルド処理時間を短縮できる。

しかしながら、一般的なストレージシステムにおいては、優先リビルド処理は優先リビルド対象パーセルが格納されているドライブのみを選定してリビルド処理を行うため、優先リビルド処理の際に各ドライブのリードパーセル数が偏り、ドライブの性能のボトルネックにより全体のリビルド処理時間が延長される。

そこで、実施例２のストレージシステム１０では、優先リビルド処理を行っている際にパーセルの読み出し及び書き込みを行っているストレージデバイス２００である読み出しドライブ及び書き込みドライブのうち、最大のパーセル数を読み出すドライブのリードパーセル数及び最大のパーセル数を書き込むドライブのライトパーセル数を取得する。そして、各ドライブのリードパーセル数及びライトパーセル数が、取得した最大のリードパーセル数及び最大のライトパーセル数を超えない範囲でリビルドができる通常リビルド対象パーセルを選定し、選定した通常リビルド対象パーセルを用いて優先リビルド処理と並列に通常リビルド処理を行う。これにより、リビルド処理の際の各ドライブのリードパーセル数の偏りによるドライブの性能のボトルネックが解消されることで、リビルド処理全体にかかる時間のさらなる短縮を図っている。

具体的には、図２４の上部に示す図において、優先リビルド処理は読み出しドライブとしてドライブ＃２、＃３、＃５、＃７を使用しており、１つの読み出しドライブから最大で１つのパーセルを読み出している。さらに、優先リビルド処理は書き込みドライブとしてドライブ＃４、＃６を使用しており、１つの書き込みドライブに最大で１つのパーセルを書き込む。そこで、ストレージコントローラ１００は、リードパーセル数が１つ以下のドライブであるドライブ＃９、＃１０に格納されているパーセルグループ＃１のパーセルを読み出してリビルドを行い、リビルドしたパーセルをライトパーセル数が１つ以下のドライブである＃２に書き込む。

図２５は、実施例２に係るストレージシステム１０の優先リビルド前処理の一例を説明するためのフローチャートである。

まず、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先コピーポインタ３０５を初期化する（ステップＳ８００）。次いで、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先リビルド中ビットマップ３０６を初期化する（ステップＳ８０１）。

次いで、リビルド処理プログラム１３２は、パーセルグループ冗長度管理テーブル１３８を参照して、優先リビルド処理の対象となるパーセルグループ＃を取得する（ステップＳ８０２）。さらに、リビルド処理プログラム１３２は、ステップＳ８０２で取得したパーセルグループ＃に基づいて、リビルド管理テーブル１３５の優先リビルド中ビットマップ３０６を更新する（ステップＳ８０３）。

さらに、リビルド処理プログラム１３２は、通常リビルド対象パーセルグループを選択する（ステップＳ８０４）。通常リビルド対象パーセルグループ選択処理の詳細については後述する。

図２６は、実施例２に係るストレージシステム１０の優先リビルド処理の一例を説明するためのフローチャートである。

まず、リビルド処理プログラム１３２は、リビルド管理テーブル１３５を参照して、優先リビルド中ビットマップ３０６がＯＮになっているパーセルグループ＃をこの優先リビルド中ビットマップ３０６から取得する（ステップＳ９００）。

次いで、リビルド処理プログラム１３２は、パーセルコピージョブの多重度を決定する（ステップＳ９０１）。そして、リビルド処理プログラム１３２は、ステップＳ９０１で決定したパーセルコピージョブの多重度の数の分のコピー対象パーセルを決定する（ステップＳ９０２）。そして、リビルド処理プログラム１３２は、ステップＳ９０２で決定したコピー対象パーセルに対して、リビルド処理を多重起動する（ステップＳ９０３）。ステップＳ９０３の処理は、対象パーセル内の全ストライプの回復処理が終了するまで（ステップＳ９０４においてＹＥＳ）繰り返される。

この後、リビルド処理プログラム１３２は、リピテーショングループ内の全対象パーセルについて回復処理を完了したかどうかを判定し（ステップＳ９０５）、判定が肯定されたら（ステップＳ９０５においてＹＥＳ）、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先コピーポインタ３０５を次のリピテーショングループの先頭に移動させる（ステップＳ９０６）。一方、判定が否定されたら（ステップＳ９０５においてＮＯ）、処理をステップＳ９０２に戻す。

図２７は、実施例２に係るストレージシステム１０の優先リビルド後処理の一例を示すフローチャートである。

まず、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先リビルド済ビットマップ３０７を更新する（ステップＳ１０００）。優先リビルド済ビットマップ３０７の更新は、優先リビルド中ビットマップ３０６とのＯＲを取ればよい。次いで、リビルド処理プログラム１３２は、リビルド管理テーブル１３５の優先リビルド中ビットマップ３０６の値に無効値を設定する（ステップＳ１００１）。

この後、リビルド処理プログラム１３２は、スペアマッピング再生成不要フラグをＯＮに設定し（ステップＳ１００２）、登録先キューに通常リビルドキューを設定し（ステップＳ１００３）、エンキュー処理を行う（ステップＳ１００４）。

図２８は、実施例２に係るストレージシステム１０の通常リビルド対象パーセルグループ選択処理の一例を示すフローチャートである。図２８に示すフローチャートは、図２５のフローチャートにおけるステップＳ８０４の処理の詳細を示すものである。

まず、リビルド処理プログラム１３２は、優先リビルド処理時における優先リビルド処理の対象となっているドライブのうち、最大のパーセル数を読み出すドライブのリードパーセル数及び最大のパーセル数を書き込むドライブのライトパーセル数を取得する（ステップＳ１１００）。

次いで、リビルド処理プログラム１３２は、パーセルグループ冗長度管理テーブル１３８から、通常リビルド処理の対象となっているパーセルグループ＃を取得する（ステップＳ１１０１）。

次いで、リビルド処理プログラム１３２は、ステップＳ１１０１で取得したパーセルグループ＃のうち、対象パーセルグループ＃のリビルドを実施した場合のデータを読み出すドライブ＃（ストレージデバイス２００）及びデータを書き込むドライブ＃を取得する（ステップＳ１１０２）。

次いで、リビルド処理プログラム１３２は、対象パーセルグループのリビルドを実施した場合、優先リビルド処理においてステップＳ１１００で取得した最大リードパーセル数及び最大ライトパーセル数を超過するドライブがあるか否かを判定する（ステップＳ１１０３）。

そして、判定が肯定されたら（ステップＳ１１０３においてＹＥＳ）、プログラムはステップＳ１１０５に移行する。一方、判定が否定されたら（ステップＳ１１０３においてＮＯ）、対象パーセルグループのデータを読み出すドライブ＃、データを書き込むドライブ＃を基に各ドライブのリードパーセル数、ライトパーセル数を更新する（ステップＳ１１０４）。さらに、対象となっているパーセルグループ＃に基づいて優先リビルド中ビットマップ３０６を更新する（ステップＳ１１０５）。この後、プログラムはステップＳ１１０６に移行する。

ステップＳ１１０６では、対象となっている全ての通常リビルド処理についてステップＳ１１０３に示す判定を終了したか否かが判定され、判定が肯定されると図２８のフローチャートを終了し、判定が否定されるとステップＳ１１０２に戻る。

実施例３のストレージシステム１０では、ドライブ負荷という概念を用いて優先リビルド処理と並行して行う通常リビルド処理の読み出しドライブ及び書き込みドライブを選定している。一般的に、ドライブ（ストレージデバイス２００）に与える負荷は、データ読み出し動作とデータ書き込み動作とで異なる。そこで、次式に示すように、ドライブ負荷を定義する。

ドライブ負荷＝（リードパーセル数×α）＋（ライトパーセル数×β）

ここで、α、βはドライブの種別毎に異なる値を取る定数である。従って、定数α、βを予め定めておく必要がある。以下の説明では、α＝１、β＝２とする。そして、このドライブ負荷が優先リビルド処理のみを行った際の最大ドライブ負荷を超えない範囲で読み出しドライブ及び書き込みドライブを選択して、優先リビルド処理に並行して通常リビルドデータの通常リビルド処理を行う。これにより、ドライブに与える影響を平準化できるので、ドライブ負荷の偏りによるドライブの性能のボトルネックが解消されて、リビルド処理全体にかかる時間のさらなる短縮を図っている。

具体的には、図２９の上部に示す図において、パーセルグループ＃０、＃４が優先リビルド処理の対象となっている。そして、優先リビルド処理のみを行った際の最大ドライブ負荷は２となっている。ドライブ負荷が２を超えない範囲でのパーセルの読み出しまたは書き込みを許容することから、同一のドライブにおいて２つのパーセルを同時に読み出すことはできるが、書き込みは１つのパーセルに限られる。

そこで、図２９の上部の図に示すように、例えばドライブ＃２においては優先リビルド処理としてパーセルグループ＃０に属するパーセルを読み出す一方、パーセルグループ＃１８に属するパーセルを同時に読み出すことができる。一方、リビルドしたデータ書き込みについてはパーセルグループ＃０に属するパーセルはドライブ＃４のスペア領域に、パーセルグループ＃１８に属するパーセルについてはドライブ＃１１のスペア領域にそれぞれ分散して書き込む。

そして、優先リビルド処理が終了したら、図２９の下部に示す図のように通常リビルド処理を行う。図２９には参考までに優先リビルド処理及び通常リビルド処理を行っている際のドライブ負荷を示している。図２９に示すように、通常リビルド処理を単独で行っている際には、優先リビルド処理のみを行った際の最大ドライブ負荷を超えてもよいものとしている。

図３０は、実施例３に係るストレージシステム１０の通常リビルド対象パーセルグループ選択処理の一例を示すフローチャートである。

まず、リビルド処理プログラム１３２は、優先リビルド処理時における優先リビルド処理の対象となっている各ドライブのリードパーセル数及びライトパーセル数を取得する（ステップＳ１２００）。

次いで、リビルド処理プログラム１３２は、優先リビルド処理のみを行った際の最大ドライブ負荷を算出する（ステップＳ１２０１）。

次いで、リビルド処理プログラム１３２は、パーセルグループ冗長度管理テーブル１３８から、通常リビルド処理の対象となっているパーセルグループ＃を取得する（ステップＳ１２０２）。

次いで、リビルド処理プログラム１３２は、ステップＳ１２０２で取得したパーセルグループのうち、対象パーセルグループ＃のリビルドを実施した場合のデータを読み出すドライブ＃（ストレージデバイス２００）及びデータを書き込むドライブ＃を取得する（ステップＳ１２０３）。

次いで、リビルド処理プログラム１３２は、対象パーセルグループのリビルドを実施した場合、優先リビルド処理のみを行った際の最大ドライブ負荷を超過するドライブがあるか否かを判定する（ステップＳ１２０４）。

そして、判定が肯定されたら（ステップＳ１２０４においてＹＥＳ）、プログラムはステップＳ１２０６に移行する。一方、判定が否定されたら（ステップＳ１２０４においてＮＯ）、対象パーセルグループのデータを読み出すドライブ＃、データを書き込むドライブ＃を基に各ドライブのリードパーセル数、ライトパーセル数を更新する（ステップＳ１２０５）。さらに、対象となっているパーセルグループに基づいて優先リビルド中ビットマップ３０６を更新する（ステップＳ１２０６）。この後、プログラムはステップＳ１２０７に移行する。

ステップＳ１２０７では、対象となっている全ての通常リビルド処理についてステップＳ１２０４に示す判定を終了したか否かが判定され、判定が肯定されると図３０のフローチャートを終了し、判定が否定されるとステップＳ１２０３に戻る。

なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、ＳＳＤ（Solid State Drive）、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１０…ストレージシステム、４０…ストレージ装置、１００…ストレージコントローラ、１１０…ホストインターフェイス、１２０…ＣＰＵ、１３０…ローカルメモリ、１３２…リビルド処理プログラム、１３５…リビルド管理テーブル、１３７…データマッピングテーブル、１３８…パーセルグループ冗長度管理テーブル、１４０…ストレージインターフェイス

Claims

複数のドライブと、これら複数のドライブにより分散ＲＡＩＤを構成させるプロセッサとを有するストレージシステムにおいて、
前記プロセッサは、少なくとも二つの前記ドライブに障害が生じた際に、障害が生じた前記ドライブに格納されているデータを他の前記ドライブに復元させるリビルド処理を行うとき、優先的にリビルドする優先リビルドデータを選定し、この優先リビルドデータの復元のために前記データを読み出す読み出しドライブと復元した前記優先リビルドデータを書き込む書き込みドライブとを特定してリビルド処理を行う優先リビルド処理と、前記優先リビルドデータ以外の前記データである通常リビルドデータに対して前記読み出しドライブと前記書き込みドライブとを特定してリビルド処理を行う通常リビルド処理とを並行して行うことを特徴とするストレージシステム。
前記プロセッサは、前記優先リビルド処理が終了したら、前記優先リビルド処理及び前記通常リビルド処理で復元されなかった前記データのリビルド処理を行うことを特徴とする請求項１に記載のストレージシステム。
前記プロセッサは、前記データの冗長度に基づいて前記優先リビルドデータを選定することを特徴とする請求項１に記載のストレージシステム。
前記プロセッサは、障害が生じた前記ドライブに格納された前記データのうち、より冗長度が低い前記データを前記優先リビルドデータとして前記優先リビルド処理を行い、前記優先リビルドデータより冗長度が高い前記データを前記通常リビルドデータとして前記通常リビルド処理を行うことを特徴とする請求項３に記載のストレージシステム。
前記ドライブにはスペア領域が設けられ、
前記プロセッサは、リビルド処理を行う際に前記スペア領域に前記データを書き込むことを特徴とする請求項１に記載のストレージシステム。
前記ドライブに格納されるデータは、前記ストレージシステムの外部にあるホストコンピュータから書き込み指示がされたユーザデータとこのユーザデータに基づいて生成される冗長データとの組からなり、
前記プロセッサは前記ユーザデータと前記冗長データとの組単位で前記リビルド処理を行う
ことを特徴とする請求項１に記載のストレージシステム。
前記プロセッサは、前記通常リビルド処理において、前記書き込みドライブ及び前記読み出しドライブとして前記優先リビルド処理で特定された前記書き込みドライブ及び前記読み出しドライブの双方を特定しないようにしてリビルド処理を行うことを特徴とする請求項１に記載のストレージシステム。
同一のパーセルグループに属するパーセルが複数の前記ドライブに格納されており、
前記プロセッサは、前記通常リビルド処理において、前記書き込みドライブとして前記優先リビルド処理で特定された前記書き込みドライブに同一の前記パーセルグループに属する前記パーセルのうち少なくとも一つの前記パーセルが格納されているとき、前記優先リビルド処理で特定された前記書き込みドライブ以外の前記ドライブに格納されている同一の前記パーセルグループに属する前記パーセルを用いてリビルド処理を行う
ことを特徴とする請求項１に記載のストレージシステム。
同一のパーセルグループに属するパーセルが複数の前記ドライブに格納されており、
前記プロセッサは、前記優先リビルド処理において最大のパーセル数を読み出す前記読み出しドライブのパーセル数及び最大のパーセル数を書き込む前記書き込みドライブのパーセル数を超えない範囲で前記通常リビルド処理が行えるパーセルを選定して前記通常リビルド処理を行う
ことを特徴とする請求項１に記載のストレージシステム。
前記プロセッサは、前記通常リビルド処理において、予め定められた前記書き込みドライブと前記読み出しドライブとのドライブ負荷率に基づいて前記書き込みドライブと前記読み出しドライブとを特定してリビルド処理を行うことを特徴とする請求項１に記載のストレージシステム。
複数のドライブと、これら複数のドライブにより分散ＲＡＩＤを構成させるプロセッサとを有するストレージシステムにおけるリビルド処理方法であって、
少なくとも二つの前記ドライブに障害が生じた際に、障害が生じた前記ドライブに格納されているデータを他の前記ドライブに復元させるリビルド処理を行うとき、優先的にリビルドする優先リビルドデータを選定し、この優先リビルドデータの復元のために前記データを読み出す読み出しドライブと復元した前記優先リビルドデータを書き込む書き込みドライブとを特定してリビルド処理を行う優先リビルド処理と、前記優先リビルドデータ以外の前記データである通常リビルドデータに対して前記読み出しドライブと前記書き込みドライブとを特定してリビルド処理を行う通常リビルド処理とを並行して行う
ことを特徴とするストレージシステムにおけるリビルド処理方法。