JP2021105871A

JP2021105871A - ストレージシステム

Info

Publication number: JP2021105871A
Application number: JP2019237236A
Authority: JP
Inventors: 貴大山本; Takahiro Yamamoto; 山本　彰; Akira Yamamoto; 山本　　彰; 匡邦揚妻; Masakuni Agetsuma; 良徳大平; Yoshinori Ohira; 寛人江原; Hiroto Ebara
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-12-26
Filing date: 2019-12-26
Publication date: 2021-07-26
Anticipated expiration: 2039-12-26
Also published as: US11467907B2; JP7405608B2; US20210200639A1

Abstract

【課題】障害に係る記憶デバイスを適切にリビルドし得るストレージシステムを提供する。【解決手段】コントローラは、アクセス要求があったデータを修復して、アクセス要求元に応答するとともに、修復したデータを格納し、アクセス要求のないデータについて、優先度に基づく順序で、リビルド管理単位の記憶領域のリビルドを行い、リビルドを行う優先度は、第１の期間でのアクセス頻度と、第１の期間より短い第２の期間でのアクセス頻度と、に基づいて変更するようにした。【選択図】図１

Description

本発明は、ストレージシステムに関し、例えば、リビルドを行うストレージシステムに適用して好適なものである。

ユーザは、ストレージシステムに障害があってもサービスに影響を与えないように、障害時を考慮してシステムを設計する。この際、障害時の性能低下が大きいと余剰なハードウェアをより多く準備しておく必要があり、導入および運用のコストが増加する。

障害からデータを保護する方式として、例えば、ミラーリング方式（ＲＡＩＤ１）とパリティ方式（ＲＡＩＤ５／６）とがある。

ミラーリング方式は、障害が生じてもミラーデータを読み出してホスト装置に応答すればよいため、障害時における性能低下の影響が小さい。ただし、容量効率が低いという欠点がある。

一方、パリティ方式でデータを保護すると容量効率は、ミラーリング方式よりも高いが、障害部位にアクセスする場合、データの修復処理（コレクションアクセス）が必要になるため、ストレージシステムの性能がミラーリング方式と比べて低下するという欠点がある。

この点、Thin-proプールから提供された仮想ボリュームに対して、ページが割り当てられた領域と未割当の領域とで優先度付けし、さらにページが割り当てられた領域に対して、予めモニタしたアクセスの頻度情報から優先度付けし、優先度付けした順番に従って、リビルドする技術が開示されている（特許文献１参照）。

米国特許出願公開第２０１１／６６８０３号明細書

特許文献１に記載の技術では、予め一定期間のモニタ結果により決められたアクセス頻度に基づいてリビルドを行う領域の優先度付けをするため、リビルドの開始後、突発的にＩ／Ｏパタン（空間の局所性）が変化した場合、変化後のＩ／Ｏパタンに対する高アクセス頻度の領域を効果的に優先度付けができない。このため、障害によりストレージシステムの性能が低下する期間が長期化してしまうおそれがある。

本発明は、以上の点を考慮してなされたもので、障害に係る記憶デバイスを適切にリビルドし得るストレージシステムを提案しようとするものである。

かかる課題を解決するため本発明においては、データを記憶する複数の記憶デバイスと、前記記憶デバイスに入出力するデータを処理するコントローラと、を備え、前記コントローラは、前記記憶デバイスに障害が発生した場合に、前記障害が発生した記憶デバイスに記憶したデータを、他の複数の記憶デバイスに記憶したデータ及び冗長データに基づいて復元するリビルドを行うストレージシステムにおいて、前記コントローラは、アクセス要求があったデータを修復して、アクセス要求元に応答するとともに、修復したデータを格納し、アクセス要求のないデータについて、優先度に基づく順序で、リビルド管理単位の記憶領域のリビルドを行い、前記リビルドを行う優先度は、第１の期間でのアクセス頻度と、前記第１の期間より短い第２の期間でのアクセス頻度と、に基づいて変更するようにした。

上記構成では、リビルドを行う優先度は、第１の期間でのアクセス頻度と、第１の期間より短い第２の期間でのアクセス頻度と、に基づいて変更されるので、例えば、突発的なＩ／Ｏの変化に応じてリビルドの順序を変更してリビルドを実行することができる。このように、リビルドの順序を変更することで、リビルドの順序が適切でないことによりストレージシステムの性能が低下してしまう事態を回避することができる。

本発明によれば、信頼性の高いストレージシステムを実現することができる。

第１の実施の形態による計算機システムに係る構成の一例を示す図である。第１の実施の形態によるストレージシステムに係る物理構成の一例を示す図である。第１の実施の形態によるストレージシステムに係る論理構成の一例を示す図である。第１の実施の形態によるメモリ内の情報の一例を示す図である。第１の実施の形態によるクラスタ管理テーブルの一例を示す図である。第１の実施の形態によるストレージプール管理テーブルの一例を示す図である。第１の実施の形態によるパリティグループ管理テーブルの一例を示す図である。第１の実施の形態によるキャッシュグループ管理テーブルの一例を示す図である。第１の実施の形態によるモニタ管理テーブルの一例を示す図である。第１の実施の形態によるリビルド管理テーブルの一例を示す図である。第１の実施の形態によるリード処理に係るフローチャートの一例を示す図である。第１の実施の形態によるライト処理に係るフローチャートの一例を示す図である。第１の実施の形態による短周期モニタ更新処理に係るフローチャートの一例を示す図である。第１の実施の形態による短周期モニタ確定処理に係るフローチャートの一例を示す図である。第１の実施の形態による長周期モニタ更新処理に係るフローチャートの一例を示す図である。第１の実施の形態による長周期モニタ確定処理に係るフローチャートの一例を示す図である。第１の実施の形態によるキャッシュ判定処理に係るフローチャートの一例を示す図である。第１の実施の形態によるキャッシュ登録処理に係るフローチャートの一例を示す図である。第１の実施の形態によるキャッシュ解除処理に係るフローチャートの一例を示す図である。第１の実施の形態によるリビルド処理に係るフローチャートの一例を示す図である。第１の実施の形態によるリビルド順序初期化処理に係るフローチャートの一例を示す図である。第１の実施の形態によるユーザ指定リオーダ処理に係るフローチャートの一例を示す図である。第１の実施の形態による短周期リオーダ処理に係るフローチャートの一例を示す図である。第１の実施の形態による長周期リオーダ処理に係るフローチャートの一例を示す図である。第１の実施の形態によるリビルドの順序の並べ替えを説明するための図である。第１の実施の形態による設定画面の一例を示す図である。第１の実施の形態による設定画面の一例を示す図である。第２の実施の形態による短周期モニタ確定処理に係るフローチャートの一例を示す図である。第２の実施の形態による短周期リオーダ処理に係るフローチャートの一例を示す図である。第２の実施の形態によるリード処理に係るフローチャートの一例を示す図である。第３の実施の形態によるライト処理に係るフローチャートの一例を示す図である。第４の実施の形態による計算機システムに係る構成の一例を示す図である。第４の実施の形態によるリード処理に係るフローチャートの一例を示す図である。第４の実施の形態によるフロントエンドライト処理に係るフローチャートの一例を示す図である。第４の実施の形態によるバックエンドライト処理に係るフローチャートの一例を示す図である。

以下図面について、本発明の一実施の形態を詳述する。

なお、以下の説明では、同種の要素を区別しないで説明する場合には、枝番を含む参照符号のうちの共通部分（枝番を除く部分）を使用し、同種の要素を区別して説明する場合は、枝番を含む参照符号を使用することがある。例えば、物理領域を特に区別しないで説明する場合には、「物理領域１２１」と記載し、個々の領域を区別して説明する場合には、「物理領域１２１−１」、「物理領域１２１−２」のように記載することがある。

（１）第１の実施の形態
図１において、１００は全体として第１の実施の形態による計算機システムを示す。

図１は、計算機システム１００に係る構成の一例を示す図である。計算機システム１００は、ストレージシステム１０１とアプリケーションシステム１０２とを含んで構成される。ストレージシステム１０１とアプリケーションシステム１０２とは、通信可能に接続されている。

ストレージシステム１０１では、１以上の物理領域１１１（例えば、後述のメモリ２１２、ドライブ２１４等に確保された物理領域）を利用してキャッシュグループ１１０が組まれ、１以上の物理領域１２１（例えば、後述のドライブ２１４上に確保された物理領域）を利用してパリティグループ１２０が組まれている。なお、パリティグループ１２０の物理領域１２１は、複数の後述のノード２１０（サーバ計算機）に跨っていてもよいし、図２２に示すように、複数の後述のプロセッサパッケージ２１３から接続されるドライブボックス内にまとまっていてもよい。

ストレージシステム１０１は、アプリケーションシステム１０２に提供される仮想ボリューム１３０の所定の領域１３１毎に、当該領域１３１にアクセス（読込みおよび／または書込み）があった頻度（アクセス頻度）をモニタ（監視）する。なお、所定の領域１３１は、後述のページ３３１であってもよいし、後述のリビルド対象領域１３３であってもよいし、データに対応するブロックであってもよいし、その他のまとまりであってもよい。

ストレージシステム１０１は、モニタした結果をアクセスモニタ情報１４０として管理する。また、ストレージシステム１０１は、障害が発生した際、復旧する領域１３１の優先度を領域１３１単位のエントリとして管理するキュー１５０を備える。そして、ストレージシステム１０１は、アプリケーションシステム１０２からデータ処理要求を受信したことに応じて（アクセスモニタ情報１４０の更新に基づいて）、キュー１５０におけるエントリをアクセス頻度の高い順に変更し、更新後のキュー１５０に従ってリビルドを管理する単位（リビルド管理単位）であるリビルド対象領域１３３毎にリビルドを実行する。

図１では、物理領域１２１−１に障害が発生し、データの復旧（リビルド）が行われている際に、物理領域１２１−１に記憶されているデータ１３２−１１がアプリケーションシステム１０２からリード（参照）されるケースを例に挙げて、ストレージシステム１０１の概要について説明する。

ストレージシステム１０１は、アプリケーションシステム１０２からデータ処理要求を受信すると、データ１３２−１１を復旧するためのデータ１３２−２１，１３２−３１，１３２−４１を物理領域１２１−２，１２１−３，１２１−４から読み出し、データ１３２−１１の復元であるデータ１３２−５１を生成する。以下では、復元したデータを「修復データ」と記すことがある。

ストレージシステム１０１は、生成したデータ１３２−５１をキャッシュグループ１１０の物理領域１１１に記憶する。また、ストレージシステム１０１は、キャッシュグループ１１０の物理領域１１１を監視し、アクセスモニタ情報１４０における、リード対象のデータ１３２−１１に対応する仮想ボリューム１３０の領域１３１のアクセス頻度を更新する。

また、ストレージシステム１０１は、データ１３２−５１についてリビルドを実行する際、リビルド対象領域１３３のデータとするために、データ１３２−５２，１３５−５３を生成する。より具体的には、ストレージシステム１０１は、データ１３２−２２，１３２−３２，１３２−４２を物理領域１２１−２，１２１−３，１２１−４から読み出し、データ１３２−１２の復元であるデータ１３２−５２を生成する。また、ストレージシステム１０１は、データ１３２−２３，１３２−３３，１３２−４３を物理領域１２１−２，１２１−３，１２１−４から読み出し、データ１３２−１３の復元であるデータ１３２−５３を生成する。

そして、ストレージシステム１０１は、キャッシュグループ１１０の物理領域１１１に記憶されているデータ１３２−５１を読み出し、読み出したデータ１３２−５１と、生成したデータ１３２−５２，１３２−５３とをまとめてリビルド先の物理領域１２１−５に記憶する。

なお、アプリケーションシステム１０２の一部または全部は、ストレージシステム１０１に含まれる構成であってもよい。

図２は、ストレージシステム１０１に係る物理構成の一例を示す図である。

ストレージシステム１０１には、１以上のサイト２０１が設けられてもよい。各サイト２０１は、ネットワーク２０２を介して通信可能に接続される。ネットワーク２０２は、例えば、ＷＡＮ（Wide Area Network）であるが、ＷＡＮに限定するものではない。

サイト２０１は、データセンタ等であり、１以上のノード２１０を含んで構成される。

ノード２１０は、一般的なサーバ計算機の構成を備えてよい。ノード２１０は、例えば、プロセッサ２１１、メモリ２１２等を含む１以上のプロセッサパッケージ２１３、１以上のドライブ２１４、１以上のポート２１５を含んで構成される。各構成要素は、内部バス２１６を介して接続されている。

プロセッサ２１１は、例えば、ＣＰＵ（Central Processing Unit）であり、各種の処理を行う。

メモリ２１２は、ノード２１０の機能を実現する上で必要な制御用の情報を格納したり、データを格納したりする。また、メモリ２１２は、例えば、プロセッサ２１１により実行されるプログラムを格納する。メモリ２１２は、揮発性のＤＲＡＭ（Dynamic Random Access Memory）であってもよいし、不揮発のＳＣＭ（Storage Class Memory）であってもよいし、その他の記憶デバイスであってもよい。

ドライブ２１４は、各種のデータ、プログラム等を記憶する。ドライブ２１４は、ＳＡＳ（Serial Attached SCSI）またはＳＡＴＡ（Serial Advanced Technology Attachment）接続のＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）、ＮＶＭｅ（Non-Volatile Memory Express）接続のＳＳＤの他、ＳＣＭ等であってもよく、記憶デバイスの一例である。

ポート２１５は、ネットワーク２２０に接続され、サイト２０１内の他のノード２１０と通信可能に接続されている。ネットワーク２２０は、例えば、ＬＡＮ（Local Area Network）であるが、ＬＡＮに限定するものではない。

ストレージシステム１０１に係る物理構成は、上述の内容に限定されるものではない。例えば、ネットワーク２０２，２２０については、冗長化されていてもよい。また、例えば、ネットワーク２２０は、管理用のネットワークとストレージ用のネットワークとで分離してもよく、接続規格は、Ethernet（登録商標）、Infiniband、無線でもよく、接続トポロジも図２に示す構成に限定しない。

図３は、ストレージシステム１０１に係る論理構成の一例を示す図である。

ノード２１０は、ストレージプログラム３６０を備える。ストレージプログラム３６０は、キャッシュグループ３００を構成する。キャッシュグループ３００は、データを一時的に記憶（キャッシュ）するためのグループであり、１以上のキャッシュ領域３０１を備える。キャッシュ領域３０１は、メモリ２１２が備える物理領域およびドライブ２１４が備える物理領域のうちの全部または一部の領域であり、連続した領域である。以下では、キャッシュ領域３０１に書き込まれたデータを「キャッシュデータ」と記す。

また、ストレージプログラム３６０は、パリティグループ３１０を構成する。パリティグループ３１０は、複数のノード２１０のドライブ２１４の物理チャンク３１１から構成される。パリティグループ３１０は、データをノード２１０間に跨り保護するグループであり、例えば、データ保護ポリシが２Ｄ１Ｐである場合、異なるノード２１０のドライブ２１４から確保した３つの物理チャンク３１１でパリティグループ３１０が構成される。データ保護ポリシとしては、二重化、ＥＣ（Erasure Coding）、ＭＥＣ（Multi-stage Erasure Coding）等がある。物理チャンク３１１は、ドライブ２１４が備える物理領域のうちの全部または一部の領域であり、連続した領域である。物理チャンク３１１は、データを記憶する物理領域（データ領域）と、パリティを記憶する物理領域（パリティ領域）とを含んで構成される。パリティは、データを障害から復号するための冗長符号である。

図３では、データ３１３−１とデータ３１３−２とパリティ３１３−３とで１つのストライプが組まれている例が示されている。また、ホストノード３５０のアプリケーション３５１から、障害が発生したノード２１０のデータが要求された場合、当該データと同じストライプを組むデータ３１２−１およびパリティ３１２−２から修復データ３６１が生成され、キャッシュ領域３０１に記憶されるとともに、当該アプリケーション３５１に応答されることが示されている。ホストノード３５０のアプリケーション３５１が修復データ３６１を次回以降に読み込む場合、ストレージプログラム３６０は、データの修復処理は実行せず、キャッシュに格納したデータ３６１を応答する。これにより、障害が発生したノード２１０のデータの２回目以降の読み込みオーバヘッドを削減し、スループットとレスポンスを向上させる。

パリティグループ３１０からは、論理チャンク３２１が切り出される。論理チャンク３２１は、各ノード２１０のストレージプール３２０に容量を割り当てる単位であり、パリティ領域を除いたデータ領域に対応する領域である。１つのパリティグループ３１０から１つの論理チャンク３２１が切り出されてもよいし、複数の論理チャンク３２１が切り出されてよい。

また、ストレージプログラム３６０は、ストレージプール３２０を構成する。ストレージプール３２０は、複数の論理チャンク３２１を含んで構成され、ストレージシステム１０１全体の容量を仮想化する。ストレージプール３２０からは、アプリケーション３５１により利用される仮想ボリューム３３０が切り出される。つまり、ストレージプログラム３６０は、利用者の要求に応じた容量を、ドライブ２１４に割り当てず、仮想ボリューム３３０として割り当てる。

例えば、ストレージプログラム３６０は、アプリケーション３５１からライト処理要求を受信した場合、新規のライトであるときは、仮想ボリューム３３０のページ３３１（より詳細には、ページ３３１に紐づく物理チャンク３１１の物理領域）を割り当てる。なお、ページ３３１には、ストレージプール３２０のページ３２２が対応付けられている。更新のライトであるときは、ストレージプログラム３６０は、割り当てたページ３３１に紐づく物理チャンク３１１の物理領域を特定してデータを更新する。なお、ライト処理要求のデータ（または後述の中間データ）は、データの冗長化に係る他のノード２１０に転送されてパリティが更新される。

このように、ストレージプログラム３６０は、ドライブ２１４を共有のストレージプール３２０として管理し、仮想ボリューム３３０に書き込まれたデータ量に応じてドライブ２１４に容量を割り当てる。これにより、使用されないドライブ２１４の無駄をなくし、効率的な運用が行わる。

なお、データにアクセスするアプリケーション３５１は、ホストノード３５０に設けられて動作するものであってもよいし、ストレージプログラム３６０と同一ノード２１０に設けられて動作するものであってもよいし、別のノード２１０に設けられて動作するものであってもよい。また、リビルド先については、障害が発生したノード２１０内でも、障害が発生したノード２１０外でも構わない。

図４は、メモリ２１２内の情報（ドライブ２１４からメモリ２１２に読み出される情報）の一例を示す図である。なお、制御情報テーブル４１０、各種のプログラム（ストレージプログラム３６０等）は、実行中はメモリ２１２上に展開されるが、停電等に備えてドライブ２１４等の不揮発な領域に格納されている。

制御情報テーブル４１０には、クラスタ管理テーブル４１１、ストレージプール管理テーブル４１２、パリティグループ管理テーブル４１３、キャッシュグループ管理テーブル４１４、モニタ管理テーブル４１５、およびリビルド管理テーブル４１６が含まれる。各テーブルについては、図５〜図１０を用いて後述する。

ストレージプログラム３６０は、リード処理プログラム４２１、ライト処理プログラム４２２、キャッシュ処理プログラム４２３、モニタ処理プログラム４２４、リビルド処理プログラム４２５、および優先順位変更処理プログラム４２６を備える。

ノード２１０の機能（リード処理プログラム４２１、ライト処理プログラム４２２、キャッシュ処理プログラム４２３、モニタ処理プログラム４２４、リビルド処理プログラム４２５、および優先順位変更処理プログラム４２６等）は、例えば、プロセッサ２１１がドライブ２１４に格納されたプログラムをメモリ２１２に読み出して実行すること（ソフトウェア）により実現されてもよいし、専用の回路等のハードウェアにより実現されてもよいし、ソフトウェアとハードウェアとが組み合わされて実現されてもよい。また、ノード２１０の機能の一部は、ノード２１０と通信可能な他のコンピュータにより実現されてもよい。

図５は、クラスタ管理テーブル４１１の一例を示す図である。

クラスタ管理テーブル４１１は、サイト２０１、ノード２１０、ドライブ２１４の構成を管理するための情報を格納する。

クラスタ管理テーブル４１１は、サイト構成管理テーブル５１０、ノード構成管理テーブル５２０、およびドライブ構成管理テーブル５３０を含んで構成される。なお、ストレージシステム１０１は、サイト構成管理テーブル５１０を管理し、サイト２０１は、サイト２０１内の複数のノード構成管理テーブル５２０を管理し、ノード２１０は、ノード２１０内の複数のドライブ構成管理テーブル５３０を管理する。

サイト構成管理テーブル５１０は、サイト２０１に係る構成（サイト２０１とノード２１０との関係等）を示す情報を格納する。より具体的には、サイト構成管理テーブル５１０は、サイト番号５１１と、状態５１２と、ノード番号リスト５１３とが対応付けられた情報を格納する。

サイト番号５１１は、サイト２０１を識別可能な識別情報である。状態５１２は、サイト２０１の状態を示す状態情報（ＮＯＲＭＡＬ、ＷＡＲＮＩＮＧ、ＦＡＩＬＵＲＥ等）である。ノード番号リスト５１３は、サイト２０１に設けられるノード２１０を識別可能な識別情報である。

ノード構成管理テーブル５２０は、サイト２０１ごとに設けられ、サイト２０１に設けられるノード２１０に係る構成（ノード２１０とドライブ２１４との関係等）を示す情報を格納する。より具体的には、ノード構成管理テーブル５２０は、ノード番号５２１と、状態５２２と、ドライブ番号リスト５２３とが対応付けられた情報を格納する。

ノード番号５２１は、ノード２１０を識別可能な識別情報である。状態５２２は、ノード２１０の状態を示す状態情報（ＮＯＲＭＡＬ、ＷＡＲＮＩＮＧ、ＦＡＩＬＵＲＥ等）である。ドライブ番号リスト５２３は、ノード２１０に設けられるドライブ２１４を識別可能な識別情報である。

ドライブ構成管理テーブル５３０は、ノード２１０ごとに設けられ、ノード２１０に設けられるドライブ２１４に係る構成を示す情報を格納する。より具体的には、ドライブ構成管理テーブル５３０は、ドライブ番号５３１と、状態５３２と、サイズ５３３（ブロック）とが対応付けられた情報を格納する。

ドライブ番号５３１は、ドライブ２１４を識別可能な識別情報である。状態５３２は、ドライブ２１４の状態を示す状態情報（ＮＯＲＭＡＬ、ＷＡＲＮＩＮＧ、ＦＡＩＬＵＲＥ等）である。サイズ５３３は、ドライブ２１４の容量を示す情報（例えば、ブロックの数）である。例えば、ブロックは、固定サイズ（５１２ｂｙｔｅ等）である。

図６は、ストレージプール管理テーブル４１２の一例を示す図である。

ストレージプール管理テーブル４１２は、ストレージプール３２０が提供するシンプロビジョニング機能のための制御情報を格納する。

ストレージプール管理テーブル４１２は、ストレージプール情報テーブル６１０、仮想ボリューム管理テーブル６２０、およびページマッピングテーブル６３０を含んで構成される。

ストレージプール情報テーブル６１０は、ストレージプール３２０に係る情報を格納する。より具体的には、ストレージプール情報テーブル６１０は、ストレージプール番号６１１と、総容量６１２（ブロック）と、消費容量６１３（ブロック）とが対応付けられた情報を格納する。

ストレージプール番号６１１は、ストレージプール３２０を識別可能な識別情報である。総容量６１２は、ストレージプール３２０の総容量を示す情報（例えば、ブロックの数）である。消費容量６１３は、ストレージプール３２０で消費されている容量を示す情報（例えば、ブロックの数）である。

仮想ボリューム管理テーブル６２０は、仮想ボリューム３３０に係る情報（仮想ボリューム３３０と仮想ボリューム３３０を割り当てたストレージプール３２０との対応関係を示す情報等）を格納する。より具体的には、仮想ボリューム管理テーブル６２０は、仮想ボリューム番号６２１、サイズ６２２（ブロック）、およびストレージプール番号６２３が対応付けられた情報を格納する。

仮想ボリューム番号６２１は、仮想ボリューム３３０を識別可能な識別情報である。サイズ６２２（ブロック）は、仮想ボリューム３３０の容量を示す情報（例えば、ブロックの数）である。ストレージプール番号６２３は、仮想ボリューム３３０が属するストレージプール３２０を識別可能な識別情報である。

ページマッピングテーブル６３０は、仮想ボリューム３３０に割り当てたページ３３１に係る情報（ページ３３１と論理チャンク３２１との対応関係を示す情報等）を格納する。より具体的には、ページマッピングテーブル６３０は、ページ番号６３１、仮想ボリューム番号６３２、ＬＢＡ（Logical Block Address）６３３、サイズ６３４（ブロック）、論理チャンク番号６３５、およびＬＢＡ６３６が対応付けられた情報を格納する。

ページ番号６３１は、ページ３３１を識別可能な識別情報である。仮想ボリューム番号６３２は、ページ３３１が割り当てられている仮想ボリューム３３０を識別可能な識別情報である。ＬＢＡ６３３は、仮想ボリューム３３０におけるページ３３１の位置を特定可能な情報であり、例えば、仮想ボリューム３３０の最初のページ３３１から何番目であるかを示す情報である。なお、ページ３３１は、ストレージプログラム３６０が仮想ボリューム３３０にアクセスする単位である。サイズ６３４（ブロック）は、ページ３３１の容量を示す情報（ブロックの数）である。論理チャンク番号６３５は、ページ３３１に対応する論理チャンク３２１を識別可能な識別情報である。ＬＢＡ６３６は、ストレージプール３２０における論理チャンク３２１の位置を特定可能な情報であり、例えば、ストレージプール３２０の最初の論理チャンク３２１から何番目であるかを示す情報である。

なお、サイズ６３４は、全てのページ３３１で同じであってもよいし、ページ３３１ごとに異なっていてもよい。

付言するならば、ストレージプログラム３６０は、仮想ボリューム３３０のアドレスからストレージプール３２０のアドレスへの変換を行う際にページマッピングテーブル６３０を参照する。また、ストレージプログラム３６０は、新規ライトを受領する度に、ページ３３１の割当て（ページマッピングテーブル６３０へのレコードの追加）を行う。

図７は、パリティグループ管理テーブル４１３の一例を示す図である。

パリティグループ管理テーブル４１３は、物理チャンク３１１と複数の物理チャンク３１１を組み合わせて構成したパリティグループ３１０（冗長化グループ）の構成を管理するための制御情報を格納する。

パリティグループ管理テーブル４１３は、論理チャンク管理テーブル７１０、パリティグループ管理テーブル７２０、および物理チャンク管理テーブル７３０を含んで構成される。

論理チャンク管理テーブル７１０は、パリティグループ３１０から切り出された論理チャンク３２１に係る情報（論理チャンク情報）を格納する。より具体的には、論理チャンク管理テーブル７１０は、論理チャンク番号７１１と、サイズ７１２（ブロック）と、パリティグループ番号７１３とが対応付けられた情報を格納する。

論理チャンク番号７１１は、パリティグループ３１０から切り出された論理チャンク３２１を識別可能な識別情報である。サイズ７１２は、論理チャンク３２１の容量を示す情報（例えば、ブロックの数）である。パリティグループ番号７１３は、論理チャンク３２１が属するパリティグループ３１０を識別可能な識別情報である。

パリティグループ管理テーブル７２０は、パリティグループ３１０に係る情報（パリティグループ情報）を格納する。より具体的には、パリティグループ管理テーブル７２０は、パリティグループ番号７２１と、データ保護設定７２２と、物理チャンク番号７２３とが対応付けられた情報を格納する。

パリティグループ番号７２１は、パリティグループ３１０を識別可能な識別情報である。データ保護設定７２２は、パリティグループ３１０のデータ保護設定である。物理チャンク番号７２３は、パリティグループ３１０に割り当てられた物理チャンク３１１を識別可能な識別情報である。

物理チャンク管理テーブル７３０は、物理チャンク３１１に係る情報（開始オフセットからサイズ分だけドライブ２１４の物理領域を切り出して物理チャンク３１１として管理するための情報）を格納する。より具体的には、物理チャンク管理テーブル７３０は、物理チャンク番号７３１と、開始オフセット７３２と、サイズ７３３（ブロック）と、サイト番号/ノード番号/ドライブ番号７３４とが対応付けられた情報を格納する。

物理チャンク番号７３１は、物理チャンク３１１を識別可能な識別情報である。開始オフセット７３２は、ドライブ２１４から物理チャンク３１１を切り出すときの開始位置を示す情報である。サイズ７３３（ブロック）は、物理チャンク３１１の容量を示す情報（ブロックの数）である。サイト番号/ノード番号/ドライブ番号７３４は、物理チャンク３１１が切り出されている記憶資源を識別可能な識別情報（物理チャンク３１１がどのサイト２０１のどのノード２１０のどのドライブ２１４から切り出されているかを示す情報）である。

図８は、キャッシュグループ管理テーブル４１４の一例を示す図である。

キャッシュグループ管理テーブル４１４は、キャッシュ領域３０１とキャッシュデータとを管理するためのするための制御情報を格納する。

キャッシュグループ管理テーブル４１４は、キャッシュ構成管理テーブル８１０、フリーキャッシュ管理テーブル８２０、およびキャッシュ情報管理テーブル８３０を含んで構成される。

キャッシュ構成管理テーブル８１０は、キャッシュ領域３０１を構成する記憶デバイス（本例では、メモリ２１２またはドライブ２１４）の種別とキャッシュグループ３００に割り当てる物理領域とを管理するための情報（キャッシュ領域情報）を格納する。なお、キャッシュ構成管理テーブル８１０に登録された物理領域は、キャッシュグループ３００に属する領域となる。より具体的には、キャッシュ構成管理テーブル８１０は、キャッシュ領域番号８１１と、タイプ８１２と、サイズ８１３（ブロック）と、デバイス番号８１４と、開始オフセット８１５とが対応付けられた情報を格納する。

キャッシュ領域番号８１１は、キャッシュ領域３０１を識別可能な識別情報である。タイプ８１２は、キャッシュ領域３０１が割り当てられる記憶領域を備える記憶デバイスの種別を識別するための識別情報である。キャッシュ領域３０１がメモリ２１２の物理領域である場合、「メモリ」が格納され、キャッシュ領域３０１がドライブ２１４の物理領域である場合、「ドライブ」が格納される。サイズ８１３は、キャッシュ領域３０１の容量を示す情報（例えば、ブロックの数）である。デバイス番号８１４は、キャッシュ領域３０１が割り当てられる記憶領域を備える記憶デバイスを識別可能な識別情報である。なお、本例では、メモリ２１２が１つである例であるため、「Ｎｕｌｌ」を格納している。開始オフセット８１５は、キャッシュ領域３０１を割り当てるときの記憶デバイスにおける開始位置を示す情報である。

フリーキャッシュ管理テーブル８２０は、各キャッシュ領域３０１の未使用の物理領域を管理するための情報を格納する。キャッシュ領域３０１は、所定のサイズの物理領域（エントリ）から構成されている。より具体的には、フリーキャッシュ管理テーブル８２０は、キャッシュ領域番号８２１と、フリーエントリ８２２とが対応付けられた情報を格納する。なお、キャッシュ領域３０１にデータが書き込まれる際、フリーキャッシュ管理テーブル８２０が参照されて未使用のエントリが確保される。

キャッシュ領域番号８２１は、キャッシュ領域３０１を識別可能な識別情報である。フリーエントリ８２２は、キャッシュ領域３０１のうち未使用のエントリを特定可能な情報である。フリーエントリ８２２には、未使用のエントリ毎にエントリ情報（本例では、オフセットおよびサイズ）が含まれる。なお、エントリのサイズ（容量）は、一定であってもよいし、エントリ毎に異なっていてもよい。例えば、複数種類のサイズが設けられる場合は、サイズごとにフリーエントリ８２２が設けられてもよい。

キャッシュ情報管理テーブル８３０は、キャッシュデータの情報を管理するための情報を格納する。例えば、キャッシュ情報管理テーブル８３０は、仮想ボリューム３３０のどの領域のデータをキャッシュしているかを示す情報と、当該データが記憶されているキャッシュ領域３０１を示す情報を格納する。より具体的には、キャッシュ情報管理テーブル８３０は、仮想ボリューム番号８３１と、ＬＢＡ８３２と、キャッシュ領域番号８３３と、エントリ情報８３４とが対応付けられた情報を格納する。

仮想ボリューム番号８３１は、仮想ボリューム３３０を識別可能な識別情報である。ＬＢＡ８３２は、仮想ボリューム３３０におけるデータの位置を特定可能な情報（例えば、アドレス）である。キャッシュ領域番号８３３は、キャッシュ領域３０１を識別可能な識別情報であり、仮想ボリューム３３０のデータが記憶されているキャッシュ領域３０１を特定可能な情報である。エントリ情報８３４は、仮想ボリューム３３０のデータがキャッシュ領域３０１において記憶されているエントリを特定可能な情報である。

仮想ボリューム３３０のデータがキャッシュされているか否かの判定では、キャッシュ情報管理テーブル８３０が参照され、当該データの仮想ボリューム番号およびＬＡＢに対応するレコードが登録されているか否かが確認される。この点、レコードを検索する際、キャッシュ情報管理テーブル８３０のレコードを最初から確認していては時間を要するため、仮想ボリューム番号８３１およびＬＢＡ８３２をキーとしたハッシュテーブルでエントリ情報８３４を管理してもよい。ハッシュテーブルによれば、エントリ情報８３４の検索を高速化することができる。

図９は、モニタ管理テーブル４１５の一例を示す図である。

モニタ管理テーブル４１５は、仮想ボリューム３３０のページ３３１に対するアクセス頻度を管理するためのするための制御情報を格納する。

モニタ管理テーブル４１５は、長周期モニタ情報テーブル９１０、短周期モニタ情報テーブル９２０、および度数分布テーブル９３０を含んで構成される。

長周期モニタ情報テーブル９１０は、長周期のページ３３１へのアクセス頻度の情報を格納する。より具体的には、長周期モニタ情報テーブル９１０は、ページ番号９１１と、リードカウンタ９１２と、ライトカウンタ９１３と、モニタ開始時刻９１４と、アクセス頻度確定値９１５とが対応付けられた情報を格納する。

ページ番号９１１は、仮想ボリューム３３０におけるページ３３１を識別可能な識別情報である。リードカウンタ９１２は、当該ページ３３１がリードされた回数を管理するための情報である。ライトカウンタ９１３は、当該ページ３３１に対してライトされた回数を管理するための情報である。モニタ開始時刻９１４は、当該ページ３３１に対するアクセスの監視が開始された時間を示す情報である。アクセス頻度確定値９１５は、当該ページ３３１に対するアクセス頻度の確定値（長周期モニタ確定値）を示す情報である。長周期モニタ確定値は、例えば、下記の（式１）により算出される。

（式１）
長周期モニタ確定値
＝（リードカウント＋ライトカウント）／（モニタ確定時刻−モニタ開始時刻）

短周期モニタ情報テーブル９２０は、短周期のページ３３１へのアクセス頻度の情報を格納する。より具体的には、短周期モニタ情報テーブル９２０は、ページ番号９２１と、リードカウンタ９２２と、ライトカウンタ９２３と、モニタ開始時刻９２４と、最終アクセス時刻９２５と、アクセス頻度確定値９２６とが対応付けられた情報を格納する。

ページ番号９２１は、仮想ボリューム３３０におけるページ３３１を識別可能な識別情報である。リードカウンタ９２２は、当該ページ３３１がリードされた回数を管理するための情報である。ライトカウンタ９２３は、当該ページ３３１に対してライトされた回数を管理するための情報である。モニタ開始時刻９２４は、当該ページ３３１に対するアクセスの監視が開始された時間を示す情報である。最終アクセス時刻９２５は、当該ページ３３１に対して最後にアクセスされた時間を示す情報である。

アクセス頻度確定値９２６は、当該ページ３３１に対するアクセス頻度の確定値（短周期モニタ確定値）を示す情報である。短周期モニタ確定値は、例えば、上記の（式１）により算出されてもよいし、下記の（式２）により算出されてもよい。下記の（式２）により算出される場合は、アクセスの回数（例えば、リードカウントとライトカウントとの合計）が所定の値（モニタ確定のカウンタ値）に達したときに算出が行われる。

（式２）
短周期モニタ確定値
＝（モニタ確定のカウンタ値）／（モニタ確定時刻−モニタ終了時刻）

なお、長周期モニタ情報テーブル９１０において最終アクセス時刻を管理するように構成し、長周期モニタ確定値についても（式２）により算出されるようにしてもよい。

度数分布テーブル９３０は、長周期モニタ確定値および短周期モニタ確定値に従ってアクセス頻度の高い順にページ３３１を並べ替えた情報を格納する。度数分布テーブル９３０に従ってリビルドの優先順位が決定される。より具体的には、度数分布テーブル９３０は、プール番号９３１と、負荷レベル９３２（ＩＯＰＳ：Input / Output Per Second）と、ページ数９３３と、ページ番号リスト９３４とが対応付けられた情報を格納する。

プール番号９３１は、ストレージプール３２０を識別可能な識別情報である。負荷レベル９３２は、アクセス頻度を分類するための情報であり、例えば、設計時に設定されるパラメタである。ページ数９３３は、負荷レベル９３２に属するページ３３１の数を示す情報である。ページ番号リスト９３４は、負荷レベル９３２に属するページ３３１を識別可能な識別情報である。

図１０は、リビルド管理テーブル４１６の一例を示す図である。

リビルド管理テーブル４１６は、リビルドの進捗とリビルドの順序とを管理するためのするための制御情報を格納する。

リビルド管理テーブル４１６は、リビルド進捗管理テーブル１０１０およびリビルド順序管理テーブル１０２０を含んで構成される。

リビルド進捗管理テーブル１０１０は、障害が発生（例えば、破損）しているドライブ２１４の物理領域について、リビルドが完了したかどうかを示す情報（リビルド進捗情報）を格納する。リビルド進捗情報は、例えば、ビットマップ表で管理される。より具体的には、リビルド進捗管理テーブル１０１０は、サイト番号１０１１と、ノード番号１０１２と、ドライブ番号１０１３と、リビルド進捗情報１０１４とが対応付けられた情報を格納する。

サイト番号１０１１は、リビルド対象のサイト２０１を識別可能な識別情報である。ノード番号１０１２は、リビルド対象のノード２１０を識別可能な識別情報である。ドライブ番号１０１３は、リビルド対象のドライブ２１４を識別可能な識別情報である。リビルド進捗情報１０１４は、リビルド対象のドライブ２１４においてリビルド管理単位（リビルド対象領域毎）にリビルドが完了したか否かを示す情報である。本実施の形態では、ビットマップ形式で進捗情報が管理される。ビットマップは、先頭のビットがリビルド対象のドライブ２１４の先頭のリビルド対象領域に対応し、１ビットで１つのリビルド対象領域のリビルドの進捗が示される。本例では、ビット値「１」は、リビルドが未完了であることを示している。

リビルド順序管理テーブル１０２０は、優先レベル毎に、リビルド順序キュー１０２２の情報を格納する。リビルド時は、優先度の高いリビルド順序キュー１０２２の先頭から順にリビルドが進められる。より具体的には、リビルド順序管理テーブル１０２０は、優先レベル１０２１とリビルド順序キュー１０２２とが対応付けられた情報を格納する。

優先レベル１０２１は、リビルドの優先度を示す情報である。なお、優先レベル１０２１は、アクセス頻度と、ユーザにより指定された対象とが加味されて決定される。リビルド順序キュー１０２２は、リビルドの順序を決定するための情報である。リビルド順序キュー１０２２では、リビルド領域情報（リビルド対象のサイト番号１０１１、リビルド対象のノード番号１０１２、リビルド対象のドライブ番号１０１３、リビルド対象領域の位置を示すオフセット）がリスト形式で管理されている。

なお、リビルド領域情報については、検索を高速化するため、ハッシュテーブルを使い管理することもできる。

次に、ストレージシステム１０１が実行する処理について説明する。

図１１は、リード処理に係るフローチャートの一例を示す図である。リード処理では、アプリケーション３５１からのデータのリード処理要求を受けて、自ノード２１０のドライブ２１４からデータが読み出される。なお、リード処理要求では、リード先（例えば、ＬＵＮ（Logical Unit Number）のような仮想ボリューム番号、ＬＢＡのようなアドレス等）が指定されている。アクセス先（ドライブ２１４等）が障害状態である場合、冗長データからリード対象のデータが修復されて応答される。以下、詳細について説明する。

ステップＳ１１０１では、リード処理プログラム４２１は、アプリケーション３５１からリード理要求を受信する。

ステップＳ１１０２では、リード処理プログラム４２１は、リード処理要求のデータについて、ストレージプール３２０にページ３３１が未割当てであるか否かを判定する。リード処理プログラム４２１は、未割当てであると判定した場合、ステップＳ１１０３に処理を移し、未割当てでないと判定した場合、ステップＳ１１０４に処理を移す。

ステップＳ１１０３では、リード処理プログラム４２１は、データがないことを示す０データをアプリケーション３５１に返却し、リード処理を終了する。

ステップＳ１１０４では、リード処理プログラム４２１は、アクセス先（割当先）のアドレスを取得する。

ステップＳ１１０５では、リード処理プログラム４２１は、排他取得を行う。排他取得では、アクセス先のＬＢＡに対して、ミューテクス等の排他アルゴリズムを用いて、複数の処理が同時に同じ領域へアクセスしないように制御する。以降の排他処理についても同様の処理を行う。

ステップＳ１１０６では、リード処理プログラム４２１は、アクセス先のドライブ２１４が障害状態であるか否かを判定する。リード処理プログラム４２１は、アクセス先のドライブ２１４が障害状態であると判定した場合、ステップＳ１１０７に処理を移し、アクセス先のドライブ２１４が障害状態でないと判定した場合、ステップＳ１１２２に処理を移す。

ステップＳ１１０７では、リード処理プログラム４２１は、モニタ処理プログラム４２４に短周期モニタ更新処理を行うように指示する。短周期モニタ更新処理では、例えば、リードカウンタ９２２またはライトカウンタ９２３が更新される。なお、短周期モニタ更新処理については、図１３Ａを用いて後述する。

ステップＳ１１０８では、リード処理プログラム４２１は、モニタ処理プログラム４２４に短周期モニタ確定処理を行うように指示する。短周期モニタ確定処理では、例えば、アクセス頻度確定値９２６が更新され得る。なお、短周期モニタ確定処理については、図１３Ｂを用いて後述する。

ステップＳ１１０９では、リード処理プログラム４２１は、キャッシュ処理プログラム４２３にキャッシュ判定処理を行うように指示する。キャッシュ判定処理では、例えば、リード処理要求のデータがキャッシュ領域３０１に格納されているか否かの判定が行われ、リード処理要求のデータがキャッシュ領域３０１に格納されていると判定れた場合、キャッシュヒットが応答される。なお、キャッシュ判定処理については、図１４Ａを用いて後述する。

ステップＳ１１１０では、リード処理プログラム４２１は、キャッシュ判定処理の結果がキャッシュヒットであるか否かを判定する。リード処理プログラム４２１は、キャッシュ判定処理の結果がキャッシュヒットであると判定した場合、ステップＳ１１２３に処理を移し、キャッシュ判定処理の結果がキャッシュヒットでないと判定した場合、ステップＳ１１１１に処理を移す。

ステップＳ１１１１では、リード処理プログラム４２１は、リード処理要求のデータのパリティを有する冗長化先のノード２１０にデータの修復を行う要求（データ修復要求）を送信する。

ステップＳ１１１２では、冗長化先のノード２１０のリード処理プログラム４２１（冗長化先リード処理プログラム）は、データ修復要求を受信する。

ステップＳ１１１３では、冗長化先リード処理プログラムは、排他取得を行う。

ステップＳ１１１４では、冗長化先リード処理プログラムは、修復に必要なデータのリード要求を送信する。なお、図示は省略しているが、ここでノード２１０間の通信を発生させて、修復が必要なデータ（障害データ）と同じストライプを組むデータを有する他のノード２１０から当該データを読み出す。

ステップＳ１１１５では、冗長化先リード処理プログラムは、修復に必要なパリティを読み出す。

ステップＳ１１１６では、冗長化先リード処理プログラムは、修復に必要なデータを受信する。

ステップＳ１１１７では、冗長化先リード処理プログラムは、データとパリティとから障害データを修復する（修復データを生成する）。

ステップＳ１１１８では、冗長化先リード処理プログラムは、修復データを、データ修復要求の送信元のリード処理プログラム４２１に送信する。

ステップＳ１１１９では、冗長化先リード処理プログラムは、排他解除を行う。

ステップＳ１１２０では、リード処理プログラム４２１は、修復データを受信する。

ステップＳ１１２１では、リード処理プログラム４２１は、キャッシュ処理プログラム４２３にキャッシュ登録処理を行うように指示する。キャッシュ登録処理では、例えば、修復データのキャッシュ領域３０１への登録が行われる。なお、キャッシュ登録処理については、図１４Ｂを用いて後述する。

ステップＳ１１２２では、リード処理プログラム４２１は、自ノード２１０のドライブ２１４（ローカルドライブ）からデータを読み出す。

ステップＳ１１２３では、リード処理プログラム４２１は、排他解放を行う。

ステップＳ１１２４では、リード処理プログラム４２１は、リード処理要求のデータを要求元に応答（アプリケーション３５１、ライト処理プログラム４２２等に送信）する。

ステップＳ１１２５では、リード処理プログラム４２１は、リード対象のページ３３１に対して長期モニタ更新処理を行うようにキャッシュ処理プログラム４２３に指示し、リード処理を終了する。長期モニタ更新処理では、例えば、リード対象のページ３３１のリードカウンタ９１２またはライトカウンタ９１３が更新される。なお、長期モニタ更新処理については、図１３Ｃを用いて後述する。

図１２は、ライト処理に係るフローチャートの一例を示す図である。ライト処理では、アプリケーション３５１からのライト処理要求を受けて、自ノード２１０のドライブ２１４にデータが書き込まれ、さらに他ノード２１０のドライブ２１４に冗長データ（パリティ）が書き込まれる。なお、ライト処理要求では、ライト先（例えば、ＬＵＮのような仮想ボリューム番号、ＬＢＡのようなアドレス等）が指定されている。以下、詳細について説明する。

ステップＳ１２０１では、ライト処理プログラム４２２は、アプリケーション３５１からライト処理要求を受信する。

ステップＳ１２０２では、ライト処理プログラム４２２は、ライト処理要求のデータについて、ストレージプール３２０にページ３３１が未割当てであるか否かを判定する。ライト処理プログラム４２２は、未割当てであると判定した場合、ステップＳ１２０３に処理を移し、未割当てでないと判定した場合、ステップＳ１２０４に処理を移す。

ステップＳ１２０３では、ライト処理プログラム４２２は、自ノード２１０のドライブ２１４の物理チャンク３１１が関連付けられている論理チャンク３２１（自系プールボリューム）にページ３３１を割り当てる。

ステップＳ１２０４では、ライト処理プログラム４２２は、アクセス先（割当先）のアドレスを取得する。

ステップＳ１２０５では、ライト処理プログラム４２２は、排他取得を行う。

ステップＳ１２０６では、ライト処理プログラム４２２は、書込み前のデータ（旧データ）を読み込む（より具体的には、旧データについて図１１に示すリード処理が行われる）。

ステップＳ１２０７では、ライト処理プログラム４２２は、中間データを生成する。中間データは、データを部分的に更新するときに作成する一時的なデータであり、新旧の差分を示すデータである。例えば、旧データのストライプが「Ａ１−Ａ２−ＡＰ」である場合、中間データは、次のように求められる。
ＡＰ（旧パリティ）＝Ａ１（旧データ）ＸＯＲＡ２（旧データ）
Ａ１（新データ）ＸＯＲＡ１（旧データ）＝Ｍ（中間データ）
なお、新パリティについては、次のように求められる。
ＡＰ（旧パリティ）ＸＯＲＭ（中間データ）＝ＡＰ（新パリティ）

ステップＳ１２０８では、ライト処理プログラム４２２は、冗長化先のノード２１０に中間データ（パリティ更新要求）を送信する。なお、ライト処理プログラム４２２は、冗長度に応じて（冗長度が２以上である場合、２以上のノード２１０に）中間データを転送する。

ステップＳ１２０９では、冗長化先のノード２１０のライト処理プログラム４２２（冗長化先ライト処理プログラム）は、中間データを受信する。

ステップＳ１２１０では、冗長化先ライト処理プログラムは、排他取得を行う。

ステップＳ１２１１では、冗長化先ライト処理プログラムは、アクセス先のドライブ２１４が障害状態であり、かつ、リビルドが実行前であるか否かを判定する。冗長化先ライト処理プログラムは、アクセス先のドライブ２１４が障害状態であり、かつ、リビルドが実行前であると判定した場合、ステップＳ１２１５に処理を移し、アクセス先のドライブ２１４が障害状態でない、または、リビルドが実行前でないと判定した場合、ステップＳ１２１２に処理を移す。

ステップＳ１２１２では、冗長化先ライト処理プログラムは、自ノード２１０のドライブ２１４から旧パリティを読み出す。

ステップＳ１２１３では、冗長化先ライト処理プログラムは、中間データと旧パリティとから新パリティを計算する。

ステップＳ１２１４では、冗長化先ライト処理プログラムは、自ノード２１０のドライブ２１４に新パリティを書き込む。

ステップＳ１２１５では、冗長化先ライト処理プログラムは、排他解放を行う。

ステップＳ１２１６では、冗長化先ライト処理プログラムは、パリティ更新要求元のライト処理プログラム４２２に書込み応答を送信する。

ステップＳ１２１７では、ライト処理プログラム４２２は、アクセス先のドライブ２１４が障害状態であり、かつ、リビルドが実行前であるか否かを判定する。ライト処理プログラム４２２は、アクセス先のドライブ２１４が障害状態であり、かつ、リビルドが実行前であると判定した場合、ステップＳ１２１８に処理を移し、アクセス先のドライブ２１４が障害状態でない、または、リビルドが実行前でないと判定した場合、ステップＳ１２１９に処理を移す。

ステップＳ１２１８では、ライト処理プログラム４２２は、キャッシュ処理プログラム４２３にキャッシュ登録処理を行うように指示する。キャッシュ登録処理では、例えば、ライト処理要求のデータ（新データ）のキャッシュ領域３０１への登録が行われる。なお、キャッシュ登録処理については、図１４Ｂを用いて後述する。

ステップＳ１２１９では、ライト処理プログラム４２２は、自ノード２１０のドライブ２１４に新データを書き込む。

ステップＳ１２２０では、ライト処理プログラム４２２は、冗長化先のノード２１０から書込み応答を受信する。

ステップＳ１２２１では、ライト処理プログラム４２２は、排他解放を行う。

ステップＳ１２２２では、ライト処理プログラム４２２は、要求元に応答（例えば、アプリケーション３５１に書込みが完了したこと示す情報を送信）する。

図１３Ａは、短周期モニタ更新処理に係るフローチャートの一例を示す図である。

ステップＳ１３０１では、モニタ処理プログラム４２４は、アクセス対象のページ３３１（アクセス対象領域）に係るカウント値が「０」であるか否かを判定する。アクセス対象領域は、リード処理要求に起因して短周期モニタ更新処理が行われる場合は、リード対象のページ３３１であり、ライト処理要求に起因して短周期モニタ更新処理が行われる場合は、ライト対象のページ３３１である。アクセス対象領域に係るカウント値は、例えば、アクセス対象領域のリードカウンタ９２２とライトカウンタ９２３とを加算した値である。なお、後述するように長周期モード１８１１または短周期モード１８１２がＯＦＦに設定された場合には、該当するモニタの更新と確定に関する処理は実行せず、スキップする。図１３Ｂにおいても同様である。モニタ処理プログラム４２４は、カウント値が「０」であると判定した場合、ステップＳ１３０２に処理を移し、カウント値が「０」でないと判定した場合、ステップＳ１３０３に処理を移す。

ステップＳ１３０２では、モニタ処理プログラム４２４は、モニタ開始時刻９２４を更新（例えば、現在の時刻を設定）する。

ステップＳ１３０３では、モニタ処理プログラム４２４は、アクセス対象領域のアクセスカウンタを加算する。より具体的には、モニタ処理プログラム４２４は、リード処理要求に起因して短周期モニタ更新処理が行われる場合は、リード対象のページ３３１のリードカウンタ９２２を加算し、ライト処理要求に起因して短周期モニタ更新処理が行われる場合は、ライト対象のページ３３１のライトカウンタ９２３を加算する。

ステップＳ１３０４では、モニタ処理プログラム４２４は、アクセス対象領域の最終アクセス時刻９２５を更新（例えば、現在の時刻を設定）し、短周期モニタ更新処理を終了する。

図１３Ｂは、短周期モニタ確定処理に係るフローチャートの一例を示す図である。

ステップＳ１３１１では、モニタ処理プログラム４２４は、カウント値がモニタ確定のカウンタ値（短周期確定閾値）を超過しているか否かを判定する。モニタ処理プログラム４２４は、カウント値が短周期確定閾値を超過していると判定した場合、ステップＳ１３１２に処理を移し、カウント値が短周期確定閾値を超過していないと判定した場合、短周期モニタ確定処理を終了する。

ステップＳ１３１２では、モニタ処理プログラム４２４は、上述した（式２）を用いて短周期モニタ確定値を算出する。

ステップＳ１３１３では、モニタ処理プログラム４２４は、算出した短周期モニタ確定値を記録（アクセス頻度確定値９２６に設定）する。

ステップＳ１３１４では、モニタ処理プログラム４２４は、アクセス対象領域のカウント値を「０」に更新する。例えば、モニタ処理プログラム４２４は、アクセス対象領域のリードカウンタ９２２とライトカウンタ９２３との値をそれぞれ「０」に更新する。

ステップＳ１３１５では、モニタ処理プログラム４２４は、短周期リオーダ処理を行う。短周期リオーダ処理では、例えば、リビルドの順序が更新され得る。なお、短周期リオーダ処理については、図１６Ｃを用いて後述する。

図１３Ｃは、長周期モニタ更新処理に係るフローチャートの一例を示す図である。

ステップＳ１３２１では、モニタ処理プログラム４２４は、アクセス対象のページ３３１（アクセス対象領域）のアクセスカウンタを加算し、長周期モニタ更新処理する。アクセス対象領域は、リード処理要求に起因して長周期モニタ更新処理が行われる場合は、リード対象のページ３３１であり、ライト処理要求に起因して長周期モニタ更新処理が行われる場合は、ライト対象のページ３３１である。図１３Ｄにおいても同様である。換言するならば、モニタ処理プログラム４２４は、リード処理要求に起因して長周期モニタ更新処理が行われる場合は、リード対象のページ３３１のリードカウンタ９１２を加算し、ライト処理要求に起因して長周期モニタ更新処理が行われる場合は、ライト対象のページ３３１のライトカウンタ９１３を加算する。

図１３Ｄは、長周期モニタ確定処理に係るフローチャートの一例を示す図である。

ステップＳ１３３１では、モニタ処理プログラム４２４は、モニタ期間（現在の時刻からモニタ開始時刻９１４を減算した値）が長周期確定閾値（予め設定された値であって、１日、１週間等）を超過しているか否かを判定する。モニタ処理プログラム４２４は、モニタ期間が長周期確定閾値を超過していると判定した場合、ステップＳ１３３２に処理を移し、モニタ期間が長周期確定閾値を超過していないと判定した場合、長周期モニタ確定処理を終了する。

ステップＳ１３３２では、モニタ処理プログラム４２４は、現在の時刻をモニタ終了時刻として取得する。

ステップＳ１３３３では、モニタ処理プログラム４２４は、上述した（式１）を用いて長周期モニタ確定値を算出する。

ステップＳ１３３４では、モニタ処理プログラム４２４は、算出した長周期モニタ確定値を記録（アクセス頻度確定値９１５に設定）する。

ステップＳ１３３５では、モニタ処理プログラム４２４は、アクセス対象領域のアクセスカウンタの値（カウント値）を「０」に更新する。例えば、モニタ処理プログラム４２４は、アクセス対象領域のリードカウンタ９１２とライトカウンタ９１３との値をそれぞれ「０」に更新する。

ステップＳ１３３６では、モニタ処理プログラム４２４は、リビルド順序管理テーブル１０２０を参照し、リビルドが実行中であるか否かを判定する。モニタ処理プログラム４２４は、リビルドが実行中であると判定した場合、ステップＳ１３３７に処理を移し、リビルドが実行中でないと判定した場合、ステップＳ１３３８に処理を移す。

ステップＳ１３３７では、モニタ処理プログラム４２４は、長周期リオーダ処理を行う。長周期リオーダ処理では、例えば、リビルドの順序が更新され得る。なお、長周期リオーダ処理については、図１６Ｄを用いて後述する。

ステップＳ１３３８では、モニタ処理プログラム４２４は、モニタ開始時刻９１４を更新（現在の時刻に設定）し、長周期モニタ確定処理を終了する。

図１４Ａは、キャッシュ判定処理に係るフローチャートの一例を示す図である。

ステップＳ１４０１では、キャッシュ処理プログラム４２３は、キャッシュ情報管理テーブル８３０を参照し、判定対象データ（例えば、リード処理要求のデータ、後述のリビルド対象領域のデータ）がキャッシュ領域３０１に登録済みであるか否かを判定する。キャッシュ処理プログラム４２３は、判定対象データがキャッシュ領域３０１に登録済みであると判定した場合、ステップＳ１４０２に処理を移し、判定対象データがキャッシュ領域３０１に登録済みでないと判定した場合、ステップＳ１４０６に処理を移す。

ステップＳ１４０２では、キャッシュ処理プログラム４２３は、キャッシュ構成管理テーブル８１０およびキャッシュ情報管理テーブル８３０を参照し、判定対象データがメモリ２１２のキャッシュ領域３０１（メモリキャッシュ領域）に存在するか否かを判定する。キャッシュ処理プログラム４２３は、判定対象データがメモリキャッシュ領域に存在すると判定した場合、ステップＳ１４０３に処理を移し、判定対象データがメモリキャッシュ領域に存在しないと判定した場合、ステップＳ１４０４に処理を移す。

ステップＳ１４０３では、キャッシュ処理プログラム４２３は、メモリキャッシュ領域からデータをコピーする。

ステップＳ１４０４では、キャッシュ処理プログラム４２３は、ドライブ２１４のキャッシュ領域３０１（ドライブキャッシュ領域）からデータを読み出す。

ステップＳ１４０５では、キャッシュ処理プログラム４２３は、呼出元（リード処理プログラム４２１またはリビルド処理プログラム４２５）にキャッシュヒットを応答し、キャッシュ判定処理を終了する。

ステップＳ１４０６では、キャッシュ処理プログラム４２３は、呼出元（リード処理プログラム４２１またはリビルド処理プログラム４２５）にキャッシュミスを応答し、キャッシュ判定処理を終了する。

図１４Ｂは、キャッシュ登録処理に係るフローチャートの一例を示す図である。キャッシュ登録処理では、リード処理要求のデータまたはライト処理要求のデータがキャッシュ領域３０１に未登録である場合に登録される。以下では、キャッシュ領域３０１に登録する対象となるリード処理要求のデータまたはライト処理要求のデータを「登録対象データ」と記し、登録対象データに対応する前のデータがキャッシュ領域３０１に登録されている場合、当該データを「登録済みデータ」と記す。以下、詳細について説明する。

ステップＳ１４１１では、キャッシュ処理プログラム４２３は、登録対象データに係る仮想ボリューム番号およびＬＢＡでキャッシュ情報管理テーブル８３０を検索することにより、登録対象データがキャッシュ領域３０１に登録済みであるか否かを判定する。キャッシュ処理プログラム４２３は、登録対象データがキャッシュ領域３０１に登録済みであると判定した場合、ステップＳ１４１２に処理を移し、登録対象データがキャッシュ領域３０１に登録済みでないと判定した場合、ステップＳ１４１４に処理を移す。

ステップＳ１４１２では、キャッシュ処理プログラム４２３は、登録対象データと登録済みデータとが同値であるか否かを判定する。キャッシュ処理プログラム４２３は、登録対象データと登録済みデータとが同値であると判定した場合、キャッシュ登録処理を終了し、登録対象データと登録済みデータとが同値でないと判定した場合、ステップＳ１４１３に処理を移す。例えば、登録対象データについて、既に読込みが行われていた場合に、今回も読込みが行われるときには、登録対象データと登録済みデータとが同値となり、今回は書込みが行われるときには、登録対象データと登録済みデータとが同値とならない。

ステップＳ１４１３では、キャッシュ処理プログラム４２３は、キャッシュ領域３０１の登録済みデータを登録対象データに更新（キャッシュエントリを更新）し、キャッシュ登録処理を終了する。

ステップＳ１４１４では、キャッシュ処理プログラム４２３は、キャッシュ構成管理テーブル８１０およびフリーキャッシュ管理テーブル８２０を参照し、登録対象データを登録可能な空き容量がメモリ２１２のキャッシュ領域３０１にあるか否か（メモリキャッシュ領域に空きがあるか否か）を判定する。キャッシュ処理プログラム４２３は、メモリキャッシュ領域に空きがあると判定した場合、ステップＳ１４１５に処理を移し、メモリキャッシュ領域に空きがないと判定した場合、ステップＳ１４１６に処理を移す。

ステップＳ１４１５では、キャッシュ処理プログラム４２３は、メモリ２１２のキャッシュ領域３０１を確保する。より具体的には、キャッシュ処理プログラム４２３は、登録対象データの登録に必要な容量分のメモリ２１２のフリーエントリ８２２のエントリ情報をキャッシュ情報管理テーブル８３０に登録し、当該エントリ情報をフリーキャッシュ管理テーブル８２０から削除する。

ステップＳ１４１６では、キャッシュ処理プログラム４２３は、キャッシュ構成管理テーブル８１０およびフリーキャッシュ管理テーブル８２０を参照し、登録対象データを登録可能な空き容量がドライブ２１４のキャッシュ領域３０１にあるか否か（ドライブキャッシュ領域に空きがあるか否か）を判定する。キャッシュ処理プログラム４２３は、ドライブキャッシュ領域に空きがあると判定した場合、ステップＳ１４１７に処理を移し、ドライブキャッシュ領域に空きがないと判定した場合、ステップＳ１４１８に処理を移す。

ステップＳ１４１７では、キャッシュ処理プログラム４２３は、ドライブ２１４のキャッシュ領域３０１を確保する。より具体的には、キャッシュ処理プログラム４２３は、登録対象データの登録に必要な容量分のドライブ２１４のフリーエントリ８２２のエントリ情報をキャッシュ情報管理テーブル８３０に登録し、当該エントリ情報をフリーキャッシュ管理テーブル８２０から削除する。

ステップＳ１４１８では、キャッシュ処理プログラム４２３は、ページマッピングテーブル６３０および度数分布テーブル９３０を参照し、未処理のページ３３１のうち最もアクセス頻度が少ないページ３３１の仮想ボリューム番号６３２、ＬＢＡ６３３およびサイズ６３４（解除対象データ）を特定し、キャッシュ解除処理を行い、ステップＳ１４１１に処理を移す。なお、キャッシュ解除処理については、図１４Ｃを用いて後述する。

図１４Ｃは、キャッシュ解除処理に係るフローチャートの一例を示す図である。

ステップＳ１４２１では、キャッシュ処理プログラム４２３は、キャッシュ情報管理テーブル８３０を参照し、キャッシュ領域３０１に解除対象データが登録済みであるか否かを判定する。キャッシュ処理プログラム４２３は、キャッシュ領域３０１に解除対象データが登録済みであると判定した場合、ステップＳ１４２２に処理を移し、キャッシュ領域３０１に解除対象データが登録済みでないと判定した場合、キャッシュ解除処理を終了する。

ステップＳ１４２２では、キャッシュ処理プログラム４２３は、キャッシュ領域３０１に登録されている解除対象データのエントリ情報をフリーエントリ８２２に登録し、当該エントリ情報のレコードをキャッシュ情報管理テーブル８３０から削除する。

図１５は、リビルド処理に係るフローチャートの一例を示す図である。リビルド処理は、ノード２１０またはドライブ２１４の障害が検出された際、実行される。なお、リビルド先は、リビルド後の使用容量、Ｉ／Ｏ負荷等がノード２１０またはドライブ２１４間で平準化されるように決められる。リビルド処理では、優先レベルが高いリビルド順序キュー１０２２からリビルドが実行されていき、全ての障害部位のリビルドが完了するまで処理が繰り返される。以下、詳細について説明する。

ステップＳ１５０１では、リビルド処理プログラム４２５は、リビルド進捗情報１０１４を初期化する。リビルド処理プログラム４２５は、リビルド進捗情報１０１４を進捗０％に更新する。例えば、リビルド処理プログラム４２５は、リビルド進捗情報１０１４のビットマップテーブルを全て「１」（未リビルド状態）に更新する。

ステップＳ１５０２では、リビルド処理プログラム４２５は、リビルド順序初期化処理を行う。リビルド順序初期化処理では、リビルドの順序が初期化される。なお、リビルド順序初期化処理については、図１６Ａを用いて後述する。

ステップＳ１５０３では、リビルド処理プログラム４２５は、処理する対象の優先レベル１０２１（対象優先レベル）を最高値（本実施の形態では、「０」）に設定する。

ステップＳ１５０４では、リビルド処理プログラム４２５は、リビルド順序管理テーブル１０２０を参照し、対象優先レベルにエントリが存在するか否かを判定する。リビルド処理プログラム４２５は、対象優先レベルにエントリが存在すると判定した場合、ステップＳ１５０６に処理を移し、対象優先レベルにエントリが存在しないと判定した場合、ステップＳ１５０５に処理を移す。

ステップＳ１５０５では、リビルド処理プログラム４２５は、対象優先レベルを１つ下げ、ステップＳ１５０４に処理を移す。

ステップＳ１５０６では、リビルド処理プログラム４２５は、対象優先レベルのリビルド順序キュー１０２２から、次にリビルドする物理領域（リビルド対象領域）を取得する。

ステップＳ１５０７では、リビルド処理プログラム４２５は、キャッシュ処理プログラム４２３にキャッシュ判定処理を行うように指示する。キャッシュ判定処理では、リビルド対象領域のデータがキャッシュ領域３０１に格納されているか否かの判定が行われる。

ステップＳ１５０８では、リビルド処理プログラム４２５は、キャッシュ判定処理の結果がキャッシュヒットであるか否かを判定する。リビルド処理プログラム４２５は、キャッシュ判定処理の結果がキャッシュヒットであると判定した場合、ステップＳ１５０９に処理を移し、キャッシュ判定処理の結果がキャッシュヒットでないと判定した場合、ステップＳ１５１１に処理を移す。

ステップＳ１５０９では、リビルド処理プログラム４２５は、キャッシュデータがリビルド管理単位と一致しているか否かを判定する。リビルド処理プログラム４２５は、キャッシュデータがリビルド管理単位と一致していると判定した場合、ステップＳ１５１５に処理を移し、キャッシュデータがリビルド管理単位と一致していないと判定した場合、ステップＳ１５１０に処理を移す。

ステップＳ１５１０では、リビルド処理プログラム４２５は、キャッシュデータがないリビルド対象領域の物理領域を修復対象領域に設定し、ステップＳ１５１２に処理を移す。

ステップＳ１５１１では、リビルド処理プログラム４２５は、リビルド対象領域全体を修復対象領域に設定する。

ステップＳ１５１２では、リビルド処理プログラム４２５は、修復対象領域についてリード処理を行うようにリード処理プログラム４２１に指示を行う。リード処理では、修復対象領域のデータ（修復データ）が読み出される。

ステップＳ１５１３では、リビルド処理プログラム４２５は、ステップＳ１５１０の処理を行ったか否か（キャッシュヒットルートであるか否か）を判定する。リビルド処理プログラム４２５は、キャッシュヒットルートであると判定した場合、ステップＳ１５１４に処理を移し、キャッシュヒットルートでないと判定した場合、ステップＳ１５１５に処理を移す。

ステップＳ１５１４では、リビルド処理プログラム４２５は、キャッシュデータと修復データとをマージし、リビルド対象領域の修復データとする。

ステップＳ１５１５では、リビルド処理プログラム４２５は、リビルド先に修復データを書き込む。

ステップＳ１５１６では、リビルド処理プログラム４２５は、リビルド進捗情報１０１４を更新する。

ステップＳ１５１７では、リビルド処理プログラム４２５は、リビルド進捗情報１０１４を参照し、障害が発生した全てのドライブ２１４のデータ（障害データ）のリビルドが完了したか否かを判定する。リビルド処理プログラム４２５は、障害データのリビルドが完了したと判定した場合、リビルド処理を終了し、障害データのリビルドが完了していないと判定した場合、ステップＳ１５０３に処理を移す。

なお、リビルド処理を高速化するため、リビルド処理を複数、並列に動作させてもよい。

図１６Ａは、リビルド順序初期化処理に係るフローチャートの一例を示す図である。リビルド順序初期化処理では、リビルド順序キュー１０２２にリビルド領域情報がＬＢＡ順に挿入される。その後、ユーザ指定リオーダ処理および長周期モニタ確定処理に従い並べ替えが実行される。以下、詳細について説明する。

ステップＳ１６０１では、優先順位変更処理プログラム４２６は、後述のステップＳ１６０２およびステップＳ１６０３を行っていない障害状態のドライブ２１４のドライブ番号（次の障害状態のドライブ番号）を取得する。以下では、ステップＳ１６０１で取得されたドライブ番号のドライブ２１４を「処理対象ドライブ」と記す。

ステップＳ１６０２では、優先順位変更処理プログラム４２６は、リビルド順序キュー１０２２に登録を行っていない処理対象ドライブにおけるリビルド対象領域のアドレス（次のリビルド対象領域のアドレス）を取得する。以下では、取得したアドレスのリビルド対象領域を「処理対象領域」と記す。

ステップＳ１６０３では、優先順位変更処理プログラム４２６は、リビルド順序キュー１０２２に処理対象領域の情報（リビルド領域情報）をＬＢＡ順に登録する。

ステップＳ１６０４では、優先順位変更処理プログラム４２６は、処理対象ドライブの全てのリビルド対象領域に対してリビルド順序キュー１０２２への登録が完了したか否かを判定する。優先順位変更処理プログラム４２６は、登録が完了したと判定した場合、ステップＳ１６０５に処理を移し、登録が完了していないと判定した場合、ステップＳ１６０２に処理を移す。

ステップＳ１６０５では、優先順位変更処理プログラム４２６は、リビルド対象の全てのドライブ２１４に対してリビルド順序キュー１０２２への登録が完了したか否かを判定する。優先順位変更処理プログラム４２６は、登録が完了したと判定した場合、ステップＳ１６０６に処理を移し、登録が完了していないと判定した場合、ステップＳ１６０１に処理を移す。

ステップＳ１６０６では、優先順位変更処理プログラム４２６は、ユーザ指定リオーダ処理を行う。

ステップＳ１６０７では、優先順位変更処理プログラム４２６は、長周期モニタ確定処理を行い、リビルド順序初期化処理を終了する。

図１６Ｂは、ユーザ指定リオーダ処理に係るフローチャートの一例を示す図である。ユーザ指定リオーダ処理は、リビルドが未実行である場合、リビルドの開始時（例えば、リビルド順序初期化処理）にて実行され、リビルドの実行中にユーザ指定（例えば、後述の仮想ボリューム設定画面１８２０による設定）があった場合、即座に実行される。

上述したように、ストレージシステム１０１では、アクセス頻度の高いデータを優先的に回復するといったようにデータを格納するブロック（例えば、ページ３３１）へのアクセスの特性に応じて、データを回復する優先度が決定される。しかしながら、一方で、アクセス頻度は低いが、ユーザにとっては重要なデータである場合もある。その場合、ブロックのアクセス特性だけから回復の優先度を判断してしまうと、アクセス頻度は低いがユーザにとっては重要なデータの回復が後回しにされ、データの回復中にさらに障害が生じた場合、それらのデータをロストしてしまう可能性がある。

このため，アクセス頻度にかかわらず、ユーザにとって重要なデータについては、優先的にデータを回復させる必要がある。この課題を解決するため、ブロックへのアクセス特性だけでは判断できない重要データについては、ユーザによりデータが格納される領域を指定してもらうことで、それらのデータを優先的に回復させる。また、ユーザが指定できる回復の優先度には、複数のレベルを設け、ユーザにとっての重要なデータの中でも優先度付けができるようにすることが好ましい。

ステップＳ１６１１では、優先順位変更処理プログラム４２６は、ユーザ指定された優先して回復する仮想ボリューム３３０（優先回復仮想ボリューム）が存在しているか否かを判定する。優先順位変更処理プログラム４２６は、優先回復仮想ボリュームが存在していると判定した場合、ステップＳ１６１２に処理を移し、優先回復仮想ボリュームが存在していないと判定した場合、ユーザ指定リオーダ処理を終了する。

ステップＳ１６１２では、優先順位変更処理プログラム４２６は、ユーザ指定の優先回復仮想ボリュームの仮想ボリューム番号を取得する。

ステップＳ１６１３では、優先順位変更処理プログラム４２６は、後述の仮想ボリューム設定画面１８２０で設定されたユーザ指定の優先回復領域を取得する。

ステップＳ１６１４では、優先順位変更処理プログラム４２６は、後述の仮想ボリューム設定画面１８２０で設定されたユーザ指定の優先レベルに該当するリビルド順序キュー１０２２を取得する。

ステップＳ１６１５では、優先順位変更処理プログラム４２６は、取得した優先回復領域をＬＢＡ順に、取得したリビルド順序キュー１０２２に挿入する。

図１６Ｃは、短周期リオーダ処理に係るフローチャートの一例を示す図である。

ステップＳ１６２１では、優先順位変更処理プログラム４２６は、短周期モニタ確定処理にて確定されたページ３３１に係る情報（短周期モニタ確定値、ページ３３１に係るリビルド対象領域等）を取得する。

ステップＳ１６２２では、優先順位変更処理プログラム４２６は、当該ページ３３１のアクセス頻度確定値９１５（長周期モニタ確定値）を取得する。

ステップＳ１６２３では、優先順位変更処理プログラム４２６は、短周期モニタ確定値が長周期モニタ確定値より大きいか否かを判定する。優先順位変更処理プログラム４２６は、短周期モニタ確定値が長周期モニタ確定値より大きいと判定した場合、ステップＳ１６２４に処理を移し、短周期モニタ確定値が長周期モニタ確定値より大きくないと判定した場合、短周期リオーダ処理を終了する。

ステップＳ１６２４では、優先順位変更処理プログラム４２６は、設定された優先レベル１０２１（対象優先レベル）に該当するリビルド順序キュー１０２２を取得する。

ステップＳ１６２５では、優先順位変更処理プログラム４２６は、短周期モニタ確定値が高い順に、当該ページ３３１に係るリビルド対象領域が並ぶように、リビルド対象領域をリビルド順序キュー１０２２に挿入し、短周期リオーダ処理を終了する。

図１６Ｄは、長周期リオーダ処理に係るフローチャートの一例を示す図である。

ステップＳ１６３１では、優先順位変更処理プログラム４２６は、長周期モニタ確定値が存在しているか否かを判定する。優先順位変更処理プログラム４２６は、長周期モニタ確定値が存在していると判定した場合、ステップＳ１６３２に処理を移し、長周期モニタ確定値が存在していないと判定した場合、長周期リオーダ処理を終了する。

ステップＳ１６３２では、優先順位変更処理プログラム４２６は、設定された優先レベル１０２１（対象優先レベル）に該当するリビルド順序キュー１０２２を取得する。

ステップＳ１６３３では、優先順位変更処理プログラム４２６は、長周期モニタ確定値が高い順に、リビルド順序キュー１０２２のエントリ（リビルド領域情報）を並べ替え、長周期リオーダ処理を終了する。

図１７は、リビルドの順序の並べ替えを説明するための図である。

まず、長周期モニタの結果１７１１に従って度数分布が計算される。例えば、グラフ１７１０に示すように、ページ３３１単位で算出した長周期モニタ確定値を高い順に並べて得られる分布が計算される。

次に、短周期モニタの結果１７１２に従って度数分布が短い周期で（例えば、ホストＩ／Ｏ同期）で更新されていく。例えば、グラフ１７２０に示すように、得られた短周期モニタ確定値が当該ページ３３１の長周期モニタ確定値を超過した場合、短周期モニタ確定値に基づいて度数分布が並べ替えられる。

図１８Ａは、設定画面（ＧＵＩ）の一例（リビルド設定画面１８１０）を示す図である。リビルド設定画面１８１０は、所定の装置（例えば、後述の管理ノード２２２０等）に出力される。

リビルド設定画面１８１０は、長周期モード１８１１、短周期モード１８１２、優先度決定アルゴリズム１８１３、モニタ確定のカウンタ値１８１４、優先付け閾値１８１５、モニタ対象１８１６、および優先レベル１８１７の情報を設定可能に構成される。

長周期モード１８１１は、長周期モニタ確定値によるリビルドの順序の並べ替え（リオーダ）を行うか否かを設定可能な項目である。短周期モード１８１２は、短周期モニタ確定値によるリオーダを行うか否かを設定可能な項目である。

短周期モード１８１２が「ＯＮ」である場合、短周期の詳細設定として、優先度決定アルゴリズム１８１３、モニタ確定のカウンタ値１８１４および優先付け閾値１８１５が設定可能である。

優先度決定アルゴリズム１８１３は、リビルドの順序（優先度）を決定するためのアルゴリズムを選択可能な項目である。本実施の形態では、「モニタ比較モード」が選択された場合について説明している。なお、「アクセス順モード」については、第２の実施の形態で説明し、「ピギーバックモード」については、第３の実施の形態で説明する。

モニタ確定のカウンタ値１８１４は、モニタ確定のカウンタ値を設定可能な項目である。優先付け閾値１８１５は、リオーダを行う対象を設定可能な項目である。例えば、優先付け閾値１８１５としてＩＯＰＨ「１００」が設定された場合、ＩＯＰＨ「１００」を超過したページ３３１だけがリオーダの対象となる。

モニタ対象１８１６は、モニタの対象とするＩＯタイプ（Read / Write）を設定可能な項目である。モニタ対象１８１６によれば、アプリケーション３５１の特性に合わせてモニタの対象とするＩＯタイプを設定することができる。優先レベル１８１７は、自動での優先度付け制御の優先レベルを設定可能な項目である。

図１８Ｂは、設定画面（ＧＵＩ）の一例（仮想ボリューム設定画面１８２０）を示す図である。仮想ボリューム設定画面１８２０は、所定の装置（例えば、後述の管理ノード２２２０等）に出力される。

仮想ボリューム設定画面１８２０は、仮想ボリューム３３０毎の設定が行われる画面である。仮想ボリューム設定画面１８２０は、優先回復１８２１、開始オフセット１８２２、サイズ１８２３、および優先レベル１８２４の情報を設定可能に構成される。

優先回復１８２１は、当該仮想ボリューム３３０を優先的に回復させるか否かを設定可能な項目である。優先回復１８２１によれば、ユーザは、仮想ボリューム３３０単位で優先的に回復させることができる。

優先回復１８２１が「ＯＮ」である場合、当該仮想ボリューム３３０において優先的に回復させる領域（優先回復領域）の詳細設定として、開始オフセット１８２２、サイズ１８２３、および優先レベル１８２４が設定可能である。開始オフセット１８２２は、優先回復領域の開始アドレスを設定可能な項目である。サイズ１８２３は、優先回復領域のサイズを設定可能な項目である。優先レベル１８２４は、優先回復領域の優先レベルを設定可能な項目である。

優先回復領域については、ユーザは、追加ボタン１８２５により、任意の数だけ設定することができる。

仮想ボリューム設定画面１８２０による設定によれば、ストレージシステム１０１は、指定された仮想ボリューム３３０を優先的にリビルドすることができる。

更に、ストレージシステム１０１は、ユーザから指定された仮想ボリューム３３０の指定領域を優先的にリビルドすることを特徴とする。

更に、ストレージシステム１０１では、ユーザが任意の仮想ボリューム３３０の任意の領域に優先回復の属性を設定することができる。

更に、ストレージシステム１０１は、障害が発生している物理領域の回復の順序を決定するための優先レベルを複数有しており、優先レベルが高く設定された領域から順番にリビルドすることを特徴とする。

更に、ストレージシステム１０１では、ユーザが任意の仮想ボリューム３３０毎の任意の領域に優先回復の属性を設定でき、これらの設定に対して、任意の優先レベルを設定することができる。

更に、ストレージシステム１０１は、当該ストレージシステム１０１が自動で設定するリビルド処理にユーザが優先レベルを設定でき、当該ストレージシステム１０１が自動で設定する優先度とユーザが指定した優先度とを比較し、より優先度の高い領域からリビルドすることを特徴とする。

本実施の形態によれば、信頼性の高いストレージシステム１０１を提供することができる。

（２）第２の実施の形態
第１の実施の形態では、優先度決定アルゴリズム１８１３として、「モニタ比較モード」が選択されたケースについて説明したが、本実施の形態では、「アクセス順モード」が選択されたケースについて説明する。本実施の形態では、最近にアクセスした領域の同じ優先レベル帯において、最近にアクセスした領域の優先度が最も高くなるように並べ替えられる。このため、アクセスが１回でも生じれば、当該領域のエントリがリビルド順序キューの先頭に移動される。

本実施の形態では、第１の実施の形態と異なる構成（短周期モニタ確定処理および短周期リオーダ処理）について主に説明する。

図１９Ａは、短周期モニタ確定処理に係るフローチャートの一例を示す図である。

ステップＳ１９０１では、モニタ処理プログラム４２４は、リード処理要求またはライト処理要求によりアクセスされた物理領域が属するリビルド対象領域の情報（サイト番号、ノード番号、ドライブ番号、オフセット等）を取得する。

ステップＳ１９０２では、モニタ処理プログラム４２４は、図１９Ｂに示す短周期リオーダ処理を行い、短周期モニタ確定処理を終了する。

図１９Ｂは、短周期リオーダ処理に係るフローチャートの一例を示す図である。

ステップＳ１９１１では、モニタ処理プログラム４２４は、設定された優先レベル（対象優先レベル）に該当するリビルド順序キュー１０２２を取得する。

ステップＳ１９１２では、モニタ処理プログラム４２４は、リビルド順序キュー１０２２からリビルド対象領域に該当するエントリ（リビルド領域情報）を取得する。

ステップＳ１９１３では、モニタ処理プログラム４２４は、取得したエントリをリビルド順序キュー１０２２の先頭に移動し、短周期リオーダ処理を終了する。

本実施の形態によれば、アクセスの頻度にかかわりなく、アクセスのあった物理領域のリビルドの順序を最も高くすることができる。

（３）第３の実施の形態
第１の実施の形態では、優先度決定アルゴリズム１８１３として、「モニタ比較モード」が選択されたケースについて説明したが、本実施の形態では、「ピギーバックモード」が選択されたケースについて説明する。本実施の形態では、ホストＩ／Ｏ処理（リード処理またはライト処理）の延長でアクセスの生じた物理領域を含むリビルド対象領域が回復される。

本実施の形態では、第１の実施の形態と異なる構成（リード処理およびライト処理）について主に説明する。

本実施の形態のストレージシステム１０１では、優先度決定アルゴリズム１８１３として「ピギーバックモード」が選択されたとき、リード処理またはライト処理が本実施の形態のリード処理またはライト処理に切り替えられる。ただし、「ピギーバックモード」が動作する要件として、リビルドが開始済みであることが要件となる。リビルドの開始前は、第１の実施の形態のリード処理またはライト処理が行われる。

ストレージシステム１０１は、障害部位にアクセスする場合、アクセス領域がリビルド管理単位と一致しないとき、リビルド管理単位にアクセス領域を拡張してアクセスする。そして、ストレージシステム１０１は、アプリケーション３５１に応答後、アクセス時に修復データをリビルド先に書き込み、リビルド進捗情報を更新する。

図２０は、リード処理に係るフローチャートの一例を示す図である。第１の実施の形態のリード処理と同じ内容については、同じ符号を付して説明を省略する。

ステップＳ２００１では、リード処理プログラム４２１は、アクセス対象がリビルド管理単位と一致するか否かを判定する。

リード処理プログラム４２１は、アクセス対象がリビルド管理単位と一致しないと判定した場合、アクセス先のパラメタをリビルド管理単位まで拡張する（ステップＳ２００２）。リード処理プログラム４２１は、ステップＳ１１２４で要求元にデータを応答する。この時、リード処理プログラム４２１は、リビルド管理単位まで拡張して読み出した修復データのうち、要求元が要求するデータブロックのみを応答する。

ステップＳ２００３では、リード処理プログラム４２１は、リビルド先に修復データを書き込む。

ステップＳ２００４では、リード処理プログラム４２１は、リビルド進捗情報１０１４を更新する。

図２１は、ライト処理に係るフローチャートの一例を示す図である。第１の実施の形態のライト処理と同じ内容については、同じ符号を付して説明を省略する。

ステップＳ２１０１では、ライト処理プログラム４２２は、アクセス対象がリビルド管理単位と一致するか否かを判定する。

ライト処理プログラム４２２は、アクセス対象がリビルド管理単位と一致しないと判定した場合、アクセス先のパラメタをリビルド管理単位まで拡張する（ステップＳ２１０２）。

ステップＳ２１０３では、ライト処理プログラム４２２は、リビルド進捗情報１０１４を更新する。

本実施の形態によれば、リビルドを所定の順序で実行しつつ、ホストＩ／Ｏ処理の延長でリビルドを実行することで、リビルドを効率よく実行することができる。

（４）第４の実施の形態

本実施の形態では、リビルドの順序の再決定を共有型ストレージシステムに適用した場合について説明する。本実施の形態では、第１の実施の形態と異なる構成について主に説明する。

図２２は、本実施の形態の計算機システム２２００に係る構成の一例を示す図である。第１の実施の形態と同じ構成については、同じ符号を用いて説明を省略する。

計算機システム２２００は、ストレージシステム２２１０と、管理ノード２２２０と、ホストノード３５０とを含んで構成される。ストレージシステム２２１０と、管理ノード２２２０と、ホストノード３５０とは、ネットワーク２２３０を介して通信可能に接続される。なお、ネットワーク２２３０は、ＳＡＮ(Storage Area Network)、Ethernet等により構成される。

ストレージシステム２２１０は、プロセッサ２１１、メモリ２１２等を含む１以上のプロセッサパッケージ２１３、１以上のドライブ２１４、１以上のポート２１５、キャッシュメモリ２２１１、共有メモリ２２１２、および管理Ｉ／Ｆ２２１３を含んで構成される。各構成要素は、内部バス２１６を介して接続されている。

キャッシュメモリ２２１１は、ストレージシステム２２１０のＩ／Ｏ処理のスループット、レスポンス等を向上させるために、データを一時的なキャッシュデータとして格納するための高速アクセスが可能なメモリである。

共有メモリ２２１２は、プロセッサ２１１がリード命令、ライト命令等を処理し、ストレージの機能（仮想ボリューム３３０のコピー機能等）を実行する上で、必要な制御用の情報を格納するメモリである。また、共有メモリ２２１２は、複数のプロセッサパッケージ２１３間のプロセッサ２１１で共有している情報を格納するメモリである。

管理Ｉ／Ｆ２２１３は、ネットワーク２２３０に接続され、管理ノード２２２０と通信可能に接続されている。

ストレージシステム２２１０では、障害からデータを保護するために、複数のドライブ２１４が使用されてパリティグループ２２１４が組まれている。

管理ノード２２２０は、ネットワーク２２３０を介して、ストレージシステム２２１０の管理Ｉ／Ｆ２２１３またはポート２１５に接続される。ストレージ管理者が管理ノード２２２０を用いて、ストレージシステム２２１０に対して、ストレージシステム２２１０を運用する上で必要な各種設定、管理のための命令等を送信する。

図２３は、リード処理に係るフローチャートの一例を示す図である。第１の実施の形態のリード処理と同じ内容については、同じ符号を付して説明を省略する。

ステップＳ２３０１では、リード処理プログラム４２１は、冗長化先のドライブ２１４から、修復に必要なデータとパリティとを読み出す。

ステップＳ２３０２では、リード処理プログラム４２１は、読み出したデータとパリティとから障害データを修復する（修復データを生成する）。

なお、本実施の形態のリード処理では、正常時でもキャッシュ制御が動作するため、障害状態かどうかに依存せずキャッシュ判定処理が実施される。これにより、リードのスループットおよび応答の性能を高めることができる。また、本ストレージシステム２２１０では、キャッシュ領域３０１としてキャッシュメモリ２２１１あるいはデータを格納するドライブ２１４よりも高速等ライブ（図示は省略）が使用される。

図２４Ａは、フロントエンドライト処理に係るフローチャートの一例を示す図である。第１の実施の形態のライト内容と同じ処理については、同じ符号を付して説明を省略する。

フロントエンドライト処理では、ステップＳ１２０１〜ステップＳ１２０４、ステップＳ１２１８およびステップＳ１２２２の処理が行われ、書き込むデータがキャッシュメモリ２２１１に登録され、要求元に応答される。また、ステップＳ２４０１では、ライト処理プログラム４２２は、ライト対象のページ３３１に対して長期モニタ更新処理を行うようにキャッシュ処理プログラム４２３に指示し、フロントエンドライト処理を終了する。

図２４Ｂは、バックエンドライト処理に係るフローチャートの一例を示す図である。バックエンドライト処理は、ドライブ２１４に未反映のデータがキャッシュメモリ２２１１上にある場合に実行され、未反映のデータがドライブ２１４に書き込まれる。

ステップＳ２４１１では、ライト処理プログラム４２２は、キャッシュメモリ２２１１に未反映のデータが存在するか否かを判定する。ライト処理プログラム４２２は、キャッシュメモリ２２１１に未反映のデータが存在すると判定した場合、ステップＳ２４１２に処理を移し、キャッシュメモリ２２１１に未反映のデータが存在しないと判定した場合、バックエンドライト処理を終了する。

ステップＳ２４１２では、ライト処理プログラム４２２は、排他取得を行う。

ステップＳ２４１３では、ライト処理プログラム４２２は、書込み前のデータ（旧データ）を読込む（より具体的には、旧データについて図１１に示すリード処理が行われる）。

ステップＳ２４１４では、ライト処理プログラム４２２は、中間データを生成する。

ステップＳ２４１５では、ライト処理プログラム４２２は、排他取得を行う。

ステップＳ２４１６では、ライト処理プログラム４２２は、パリティが格納されている物理領域（パリティ領域）が障害状態であり、かつ、リビルドが実行前であるか否かを判定する。ライト処理プログラム４２２は、パリティ領域が障害状態であり、かつ、リビルドが実行前であると判定した場合、ステップＳ２４２０に処理を移し、パリティ領域が障害状態でない、または、リビルドが実行前でないと判定した場合、ステップＳ２４１７に処理を移す。

ステップＳ２４１７では、ライト処理プログラム４２２は、ドライブ２１４から旧パリティを読み出す。

ステップＳ２４１８では、ライト処理プログラム４２２は、中間データと旧パリティとから新パリティを計算する。

ステップＳ２４１９では、ライト処理プログラム４２２は、ドライブ２１４に新パリティを書き込む。

ステップＳ２４２０では、ライト処理プログラム４２２は、排他解放を行う。

ステップＳ２４２１では、ライト処理プログラム４２２は、データが格納されている物理領域（データ領域）が障害状態であり、かつ、リビルドが実行前であるか否かを判定する。ライト処理プログラム４２２は、データ領域が障害状態であり、かつ、リビルドが実行前であると判定した場合、ステップＳ２４２３に処理を移し、データ領域が障害状態でない、または、リビルドが実行前でないと判定した場合、ステップＳ２４２２に処理を移す。

ステップＳ２４２２では、ライト処理プログラム４２２は、ドライブ２１４に新データを書き込む。

ステップＳ２４２３では、ライト処理プログラム４２２は、排他解放を行い、バックエンドライト処理を終了する。

本実施の形態によれば、物理領域の状態に依存することなく、キャッシュ制御が実施されるので、リードのスループットおよび応答の性能を高めることができる。

（５）他の実施の形態
なお、上述の実施の形態においては、本発明をストレージシステムに適用するようにした場合について述べたが、本発明はこれに限らず、この他種々のシステム、装置、方法、プログラム、プログラムを記録する記録媒体に広く適用することができる。

また、上述の実施の形態においては、ステップＳ１６２５では、リビルド対象領域を対象として並べ替える場合について述べたが、本発明はこれに限らず、ステップＳ１６２４で取得されたリビルド順序キュー１０２２の全てのエントリを対象として並べ替えるようにしてもよい。この場合、短周期モニタ確定値と長周期モニタ確定値とを比較して高い方の値をエントリの頻度としてもよい。

また、上述の実施の形態においては、モニタ処理プログラム４２４がアクセスの監視をする単位をページ３３１とする場合について述べたが、本発明はこれに限らず、ノード２１０単位、ドライブ２１４単位、物理チャンク３１１単位、リビルド管理単位、アクセス要求に対応するデータのデータ単位等、その他の単位で監視するようにしてもよい。

また、上述の実施の形態において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部または一部が１つのテーブルであってもよい。

また、上述の実施の形態において、説明の便宜上、ＸＸテーブルを用いて各種のデータを説明したが、データ構造は限定されるものではなく、ＸＸ情報などと表現してもよい。

また、上記の説明において、各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記憶装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

上述した実施の形態は、例えば、以下の特徴的な構成を有する。

データを記憶する複数の記憶デバイス（例えば、ドライブ２１４）と、上記記憶デバイスに入出力するデータを処理するコントローラ（例えば、プロセッサ２１１、プロセッサパッケージ２１３）と、を備え、上記コントローラは、上記記憶デバイスに障害が発生した場合に、上記障害が発生した記憶デバイスに記憶したデータを、他の複数の記憶デバイスに記憶したデータ及び冗長データに基づいて復元するリビルドを行うストレージシステム（例えば、ストレージシステム１０１）において、上記コントローラは、アクセス要求（例えば、リード処理要求、ライト処理要求等）があったデータ（例えば、ページ３３１）を修復して、アクセス要求元に応答するとともに、修復したデータを格納し、アクセス要求のないデータについて、優先度に基づく順序で、リビルド管理単位の記憶領域のリビルドを行い、上記リビルドを行う優先度は、第１の期間でのアクセス頻度（例えば、アクセス頻度確定値９１５）と、上記第１の期間より短い第２の期間でのアクセス頻度（例えば、アクセス頻度確定値９２６）と、に基づいて変更するようにしてもよい。

上記第１の期間は、上記リビルド開始前の期間を含み（例えば、アクセス先が障害状態である場合もない場合も長周期モニタ更新処理が行われてアクセスカウンタが更新され）、上記第２の期間は、上記リビルド開始後の期間であってもよい（例えば、アクセス先が障害状態である場合に短周期モニタ更新処理が行われてアクセスカウンタが更新される）。

上記第１の期間でのアクセス頻度に基づいて、上記リビルドの順序を決定し、上記第２に期間のアクセス頻度が所定の値を超えた場合に、上記リビルドの順序を変更するようにしてもよい（例えば、リビルド順序初期化処理において、長周期モニタ確定処理（長周期リオーダ処理）が行われ、障害があるときは、短周期モニタ確定処理（短周期リオーダ処理）が行われる）。

上記コントローラは、上記修復したデータをキャッシュ領域（例えば、キャッシュ領域３０１）に格納し、アクセス要求を受けた場合に、キャッシュ領域のデータを検索し、データが見つからなかった場合に、上記データの修復を行い、上記第２の期間のアクセス頻度は、上記キャッシュ領域のデータへのアクセスを監視したものであってもよい。

上記構成によれば、アクセス要求を受けた場合に、キャッシュ領域のデータを検索するので、例えば、リードのスループットおよび応答の性能を高めることができる。

上記コントローラは、アクセス要求を受けた場合、アクセス要求を受けたデータとともに、当該データと同じリビルド管理単位の記憶領域のデータを修復するようにしてもよい（例えば、図２０に示すリード処理、図２１に示すライト処理）。

上記構成では、アクセス要求を受けた場合、アクセス要求を受けたデータとともに、当該データと同じリビルド管理単位の記憶領域のデータが修復されるので、リビルドを効率よく実行することができる。また、上記構成では、リビルド管理単位の記憶領域のデータが修復され、デバイスに書き込む回数が減らされるので、例えば、ストレージシステムの性能が低下してしまう事態を回避することができる。

上記記憶デバイスと、上記コントローラを有し、互いにネットワーク（例えば、ネットワーク２０２、ネットワーク２２０）で接続されたノード（例えば、ノード２１０）を備え、上記データを修復するための複数のデータ及び冗長データは、少なくとも二つ以上のノードの記憶デバイスに格納され、上記記憶デバイスの障害は、ノードの障害であり、上記ノードの障害が発生した場合に、障害が発生していないノードのコントローラが、複数のノードからデータ及び冗長データを集めてデータ修復するようにしてもよい。

また上述した構成については、本発明の要旨を超えない範囲において、適宜に、変更したり、組み替えたり、組み合わせたり、省略したりしてもよい。

１０１……ストレージシステム、１１１……物理領域、１２１……物理領域。

Claims

データを記憶する複数の記憶デバイスと、前記記憶デバイスに入出力するデータを処理するコントローラと、を備え、
前記コントローラは、前記記憶デバイスに障害が発生した場合に、前記障害が発生した記憶デバイスに記憶したデータを、他の複数の記憶デバイスに記憶したデータ及び冗長データに基づいて復元するリビルドを行うストレージシステムにおいて、
前記コントローラは、
アクセス要求があったデータを修復して、アクセス要求元に応答するとともに、修復したデータを格納し、
アクセス要求のないデータについて、優先度に基づく順序で、リビルド管理単位の記憶領域のリビルドを行い、
前記リビルドを行う優先度は、第１の期間でのアクセス頻度と、前記第１の期間より短い第２の期間でのアクセス頻度と、に基づいて変更する
ストレージシステム。
前記第１の期間は、前記リビルド開始前の期間を含み、
前記第２の期間は、前記リビルド開始後の期間である
請求項１に記載のストレージシステム。
前記第１の期間でのアクセス頻度に基づいて、前記リビルドの順序を決定し、
前記第２に期間のアクセス頻度が所定の値を超えた場合に、前記リビルドの順序を変更する
請求項２に記載のストレージシステム。
前記コントローラは、
前記修復したデータをキャッシュ領域に格納し、
アクセス要求を受けた場合に、キャッシュ領域のデータを検索し、データが見つからなかった場合に、前記データの修復を行い、
前記第２の期間のアクセス頻度は、前記キャッシュ領域のデータへのアクセスを監視したものである
請求項１に記載のストレージシステム。
前記コントローラは、アクセス要求を受けた場合、アクセス要求を受けたデータとともに、当該データと同じリビルド管理単位の記憶領域のデータを修復する
請求項１に記載のストレージシステム。
前記記憶デバイスと、前記コントローラを有し、互いにネットワークで接続されたノードを備え、
前記データを修復するための複数のデータ及び冗長データは、少なくとも二つ以上のノードの記憶デバイスに格納され、
前記記憶デバイスの障害は、ノードの障害であり、
前記ノードの障害が発生した場合に、障害が発生していないノードのコントローラが、複数のノードからデータ及び冗長データを集めてデータ修復する
請求項１に記載のストレージシステム。
データを記憶する複数の記憶デバイスと、前記記憶デバイスに入出力するデータを処理するコントローラと、を備え、
前記コントローラは、前記記憶デバイスに障害が発生した場合に、前記障害が発生した記憶デバイスに記憶したデータを、他の複数の記憶デバイスに記憶したデータ及び冗長データに基づいて復元するリビルドを行うストレージシステムにおけるデータ処理方法であって、
前記コントローラは、
アクセス要求があったデータを修復して、アクセス要求元に応答するとともに、修復したデータを格納し、
アクセス要求のないデータについて、優先度に基づく順序で、リビルド管理単位の記憶領域のリビルドを行い、
前記リビルドを行う優先度は、第１の期間でのアクセス頻度と、前記第１の期間より短い第２の期間でのアクセス頻度と、に基づいて変更する
データ処理方法。