JP7137612B2

JP7137612B2 - 分散型ストレージシステム、データ復旧方法、及びデータ処理プログラム

Info

Publication number: JP7137612B2
Application number: JP2020215659A
Authority: JP
Inventors: 和希水上; 裕章宮田
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-12-24
Filing date: 2020-12-24
Publication date: 2022-09-14
Anticipated expiration: 2040-12-24
Also published as: US11640337B2; US20220206897A1; JP2022101208A

Description

本発明は、分散型ストレージシステム、データ復旧方法、及びデータ処理プログラムに関し、ユーザデータ及び冗長コードを分散して格納し、障害の発生時に冗長コードを利用してデータを復旧する分散型ストレージシステム、データ復旧方法、及びデータ処理プログラムに適用して好適なものである。

従来、ユーザデータ及び当該ユーザデータの冗長コードを複数の計算機ノードに分散して格納することによってデータを保護する分散型ストレージシステムが知られている。このような分散型ストレージシステムでは、障害が発生した計算機ノードからデータを復旧する際、障害が発生した計算機ノード上のデータを、冗長コードから復元した後、生存している他の各計算機ノードに分散して格納する。

そして特許文献１には、上記のようにユーザデータ及び冗長コードを分散して格納する分散型ストレージシステムにおける性能の向上を図る技術が開示されている。詳しくは、特許文献１に開示された計算機システムは、ユーザデータと冗長コードとを分散して格納する計算機システムにおいて、複数の計算機におけるユーザデータ領域及び冗長コード領域の位置を示すグループ情報を生成し、各計算機は、ライトデータのライト要求を受けた場合、ローカルの記憶デバイスへライトデータを書込み、グループ情報に基づいて他の計算機から転送先計算機を選択し、ライトデータに基づく転送データを転送先計算機へ送信し、各計算機は、複数の他の計算機から複数の転送データをそれぞれ受信した場合、グループ情報に基づいて複数の転送データから冗長コードを生成し、ローカルの記憶デバイスへ冗長コードを書込み、複数の計算機の構成が変更される場合、各計算機は、変更された構成に基づいてグループ情報を変更する。

特許第６５４７０５７号公報

しかし、上述した特許文献１は、２つの計算機ノードにおいて障害が発生した２点障害発生の際に二次冗長コードを用いてデータを復元する手順について、原理的な説明が開示されるに留まっている。分散型ストレージシステムの実装化にあたっては、複数の計算機ノードの障害時でも大量のリード要求に対して高速でデータを復元しリードすることが求められるが、特許文献１には、このような実装化に対応した冗長コードの配置、並びに復元処理の制御方法について開示されていなかった。具体的には例えば、特許文献１に開示されたストライプのマッピングテーブル（ストライプマップ）を用いて分散型ストレージシステムを実装した場合、二次冗長コードのストレージデバイスまで閉塞する２点障害発生時のリード要求時に、コレクションリードの要求数が１点障害発生時の数倍発生する可能性があり、ノード障害によって冗長度が低下した状態において性能が大幅に低下するおそれがあった。

本発明は以上の点を考慮してなされたもので、ユーザデータ及び冗長コードを分散して格納する分散型ストレージシステムにおいて、障害発生によって冗長度が低下した場合でも性能の低下を抑制しながらデータを読み出すことができる分散型ストレージシステム、データ復旧方法、及びプログラムを提案しようとするものである。

かかる課題を解決するため本発明においては、ネットワークを介して接続された複数のノードがデータを分散して保存する分散型ストレージシステムであって、前記複数のノードの各ノードは、データＩＯを制御するプロセッサと、データを格納するキャッシュ及びストレージデバイスと、を有し、前記複数のノードのうちの第１のノードは、ホストからライト要求を受信した場合、前記ライト要求とともに受信した複数のユーザデータに基づいて１次冗長コードを生成し、前記生成した１次冗長コードと、当該１次冗長コードの生成に用いた前記複数のユーザデータとを、前記複数のノードのうちのそれぞれ異なる他のノードに送信するとともに、前記受信した複数のユーザデータを自ノードの前記ストレージデバイスに格納し、前記複数のノードのうちの第２のノードは、前記複数のノードにおける複数の前記他のノードからそれぞれ受信した前記複数のユーザデータ及び前記１次冗長コードに基づいて２次冗長コードを生成し、前記生成した２次冗長コードを自ノードの前記ストレージデバイスに格納するとともに、当該２次冗長コードの生成に用いた前記１次冗長コードを自ノードの前記キャッシュに保存し、前記複数のノードの各ノードが、前記第１のノード及び前記第２のノードとしての機能を有し、前記第１のノードは、自ノードの前記ストレージデバイスが閉塞しているときにホストから前記ユーザデータのリード要求を受信した場合、前記リード要求の対象データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第１のコレクションリード要求を実行し、前記対象データの少なくとも一部が、前記第１のコレクションリード要求による復元に失敗した場合には、復元に失敗した対象データを前記１次冗長コードを用いて復元するために必要な複数のデータのうち、前記第１のコレクションリード要求で復元済みのデータを除く１以上の不足データについて、前記不足データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第２のコレクションリード要求を実行する、分散型ストレージシステムが提供される。

また、かかる課題を解決するため本発明においては、ネットワークを介して接続された複数のノードがデータを分散して保存する分散型ストレージシステムによるデータ復旧方法であって、前記複数のノードの各ノードは、データＩＯを制御するプロセッサと、データを格納するキャッシュ及びストレージデバイスと、を有し、前記複数のノードのうちの第１のノードは、ホストからライト要求を受信した場合、前記ライト要求とともに受信した複数のユーザデータに基づいて１次冗長コードを生成し、前記生成した１次冗長コードと、当該１次冗長コードの生成に用いた前記複数のユーザデータとを、前記複数のノードのうちのそれぞれ異なる他のノードに送信するとともに、前記受信した複数のユーザデータを自ノードの前記ストレージデバイスに格納し、前記複数のノードのうちの第２のノードは、前記複数のノードにおける複数の前記他のノードからそれぞれ受信した前記複数のユーザデータ及び前記１次冗長コードに基づいて２次冗長コードを生成し、前記生成した２次冗長コードを自ノードの前記ストレージデバイスに格納するとともに、当該２次冗長コードの生成に用いた前記１次冗長コードを自ノードの前記キャッシュに保存し、前記複数のノードの各ノードが、前記第１のノード及び前記第２のノードとしての機能を有し、前記第１のノードは、自ノードの前記ストレージデバイスが閉塞しているときにホストから前記ユーザデータのリード要求を受信した場合、前記リード要求の対象データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第１のコレクションリード要求を実行し、前記対象データの少なくとも一部が、前記第１のコレクションリード要求による復元に失敗した場合には、復元に失敗した対象データを前記１次冗長コードを用いて復元するために必要な複数のデータのうち、前記第１のコレクションリード要求で復元済みのデータを除く１以上の不足データについて、前記不足データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第２のコレクションリード要求を実行する、データ復旧方法が提供される。

また、かかる課題を解決するため本発明においては、ネットワークを介して接続された複数のノードがデータを分散して保存する分散型ストレージシステムにおいて前記複数のノードに実行させるデータ処理プログラムであって、前記複数のノードの各ノードは、データＩＯを制御するプロセッサと、データを格納するキャッシュ及びストレージデバイスと、を有し、前記複数のノードのうちの第１のノードに、ホストからライト要求を受信した場合に、前記ライト要求とともに受信した複数のユーザデータに基づいて１次冗長コードを生成し、前記生成した１次冗長コードと、当該１次冗長コードの生成に用いた前記複数のユーザデータとを、前記複数のノードのうちのそれぞれ異なる他のノードに送信するとともに、前記受信した複数のユーザデータを自ノードの前記ストレージデバイスに格納する、処理を実行させ、前記複数のノードのうちの第２のノードに、前記複数のノードにおける複数の前記他のノードからそれぞれ受信した前記複数のユーザデータ及び前記１次冗長コードに基づいて２次冗長コードを生成し、前記生成した２次冗長コードを自ノードの前記ストレージデバイスに格納するとともに、当該２次冗長コードの生成に用いた前記１次冗長コードを自ノードの前記キャッシュに保存する、処理を実行させ、前記第１のノードに、自ノードの前記ストレージデバイスが閉塞しているときにホストから前記ユーザデータのリード要求を受信した場合に、前記リード要求の対象データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第１のコレクションリード要求を実行し、前記対象データの少なくとも一部が、前記第１のコレクションリード要求による復元に失敗した場合には、復元に失敗した対象データを前記１次冗長コードを用いて復元するために必要な複数のデータのうち、前記第１のコレクションリード要求で復元済みのデータを除く１以上の不足データについて、前記不足データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第２のコレクションリード要求を実行する、処理を実行させる、データ処理プログラムが提供される。

本発明によれば、ユーザデータ及び冗長コードを分散して格納する分散型ストレージシステムにおいて、障害発生によって冗長度が低下した場合でも性能の低下を抑制しながらデータを読み出すことができる。

本発明の一実施形態に係る分散型ストレージシステムの構成例を示すブロック図である。メモリ１５０に格納されるデータを示すブロック図である。ストライプマップ及びチャンクグループのデータ配置例を説明する図である。２Ｄ２Ｐ構成のストライプマップの一例を示す図である。ライトデータのデータ保護のイメージを説明する図である。リード要求を受信したノード１００によるデータ処理の処理手順例を示すフローチャートである。２点障害時にブロックに跨るリード要求を受信した際のデータ処理の遷移を説明する図（その１）である。２点障害時にブロックに跨るリード要求を受信した際のデータ処理の遷移を説明する図（その２）である。２点障害時にブロックに跨るリード要求を受信した際のデータ処理の遷移を説明する図（その３）である。２点障害時にブロックに跨るリード要求を受信した際のデータ処理の遷移を説明する図（その４）である。２点障害時にブロックに跨るリード要求を受信した際のデータ処理の遷移を説明する図（その５）である。２点障害時にブロックに跨るリード要求を受信した際のデータ処理の遷移を説明する図（その６）である。２点障害時にブロックに跨るリード要求を受信した際のデータ処理の遷移を説明する図（その７）である。データ処理において第１のリード要求範囲パターンを用いた場合のデータの読出範囲を説明する図（その１）である。データ処理において第１のリード要求範囲パターンを用いた場合のデータの読出範囲を説明する図（その２）である。データ処理において第１のリード要求範囲パターンを用いた場合のデータの読出範囲を説明する図（その３）である。データ処理において第２のリード要求範囲パターンを用いた場合のデータの読出範囲を説明する図である。

以下、図面を参照して、本発明の実施形態を詳述する。

なお、以下の説明では、「テーブル」や「リスト」等の表現によって各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されてもよい。データ構造に依存しないことを示すために「ＸＸテーブル」、「ＸＸリスト」等を「ＸＸ情報」と呼ぶことがある。各情報の内容を説明する際に、「識別情報」、「識別子」、「名」、「ＩＤ」、「番号」等の表現を用いるが、これらは互いに置換可能である。また、同種の要素を区別せずに説明する場合には、共通する符号を用いて説明し、同種の要素を区別して説明する場合には、上記共通する符号に異なる添字を付して説明することがある。

また、以下の説明では、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサ（例えばＣＰＵ（Central Processing Unit））によって実行されることによって、適宜、記憶資源（例えばメモリ）及び／またはインタフェースデバイス（例えば通信ポート）等を用いながら、定められた処理を行うことから、プロセッサによる処理としてもよい。プログラムを主語として説明される処理は、プロセッサ、またはそのプロセッサを有する装置やシステムが行う処理としてもよい。また、プロセッサは、処理の一部または全部を行うハードウェア回路を含んでもよい。プログラムは、プログラムソースから計算機のような装置にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサ（例えばＣＰＵ）と記憶資源を含み、記憶資源はさらに配布プログラムと配布対象であるプログラムとを記憶してよい。そして、プログラム配布サーバのプロセッサが配布プログラムを実行することで、プログラム配布サーバのプロセッサは配布対象のプログラムを他の計算機に配布してよい。また、以下の説明においては、２以上のプログラムが１のプログラムとして実現されてもよいし、１のプログラムが２以上のプログラムとして実現されてもよい。

（１）システム構成
図１は、本発明の一実施形態に係る分散型ストレージシステムの構成例を示すブロック図である。分散型ストレージシステム１は、それぞれがストレージデバイス（ドライブ１２０）を含む複数の計算機ノード１００から構成される。複数の計算機ノード１００は、ネットワーク２１０，２２０によって互いに接続され、通信を行う。分散型ストレージシステム１は、複数の計算機ノード１００のストレージデバイス（ドライブ１２０）によってストレージプールを作成し、ストレージプールを用いて仮想的なストレージシステムを実現する。

本実施形態の分散型ストレージシステム１において、１以上の任意の計算機ノード１００は、それぞれ計算機ドメイン２００を形成する。計算機ドメイン２００は、例えば地理的な地域と対応させてもよいし、仮想的または物理的なバックエンドネットワーク（ネットワーク２２０）のトポロジと対応させてもよい。それぞれの計算機ドメイン２００は、外部ネットワーク（ネットワーク２１０）によって接続される。以下において、各計算機ドメイン２００は、地理的に互いに離れた複数のサイトの一つに対応付けられているとする。

計算機ノード１００は、例えば一般的なサーバ計算機の構成を有するが、そのハードウェア構成は特に限定されない。計算機ノード１００は、バックエンドネットワーク（ネットワーク２２０）を介して、他の計算機ノード１００とバックエンドポート１３０を通じて接続する。図１の場合、計算機ノード１００は、プロセッサパッケージ１１０、ドライブ１２０、及びバックエンドポート１３０を備え、これらは内部ネットワーク（ネットワーク２３０）を介して互いに接続される。

プロセッサパッケージ１１０は、プロセッサ１４０（例えばＣＰＵ）及びメモリ１５０を含む。メモリ１５０は、プロセッサ１４０が実行するプログラムを格納する。メモリ１５０は、揮発性のＤＲＡＭ（Dynamic Random Access Memory）であってもよいし、不揮発のＳＣＭ（Storage Class Memory）等でもよい。メモリ１５０に格納されるデータについては、図２を参照しながら後述する。

ドライブ１２０は、ストライプ等のデータを格納するストレージデバイスである。ドライブ１２０は、各計算機ノード１００のローカルドライブとしてデータを格納する他に、前述したように、１以上の計算機ノード１００に跨る１または複数のドライブ１２０によってストレージプールに記憶領域を提供する。ドライブ１２０は、具体的には例えば、ＦＣ（Fibre Channel）、ＳＡＳ（Serial Attached SCSI）、またはＳＡＴＡ（Serial Advanced Technology Attachment）等のインタフェースを持つＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等である。ドライブ１２０は、ＮＡＮＤ、ＰＲＡＭ（Parameter RAM）、ＲｅＲＡＭ（Resistive RAM）等のＳＣＭを用いてもよいし、揮発性のメモリを用いてもよい。ドライブ１２０に揮発性メモリを使用する場合は、バッテリによってストレージデバイスを不揮発化してもよい。

なお、本実施形態において、ストレージデバイスは、１以上のＨＤＤやＳＳＤ等によって構成されるストレージドライブでもよいし、複数台のストレージドライブを含むＲＡＩＤ装置、または複数のＲＡＩＤ装置であってもよい。

ストライプ（ストライプデータ）は、データ保護のための冗長コードの生成の元となるデータユニットである。ストライプは、冗長コードと区別するためにユーザデータと呼ぶことがある。ストライプは、計算機ノード１００内のストレージデバイス（ドライブ１２０）に格納されるとともに、他の計算機ノード１００における冗長コードの生成に使用される。なお、以降の説明では、簡略のため、「計算機ノード」を「ノード」と称することがある。

図２は、メモリ１５０に格納されるデータを示すブロック図である。図２には、メモリ１５０に格納されるデータ（プログラムを含む）のうち、分散型ストレージシステム１の制御のための情報を示す。メモリ１５０は、図２に示した管理情報１５１、処理プログラム１５２、及びキャッシュ情報１５３に加え、ＯＳ（Operation System）やインタフェースプログラムを含む各種プログラムを格納する。さらに、メモリ１５０は、業務を実行するアプリケーションプログラムを格納することがある。

管理情報１５１は、データ保護を管理するための情報であり、ストライプのマッピングを管理するストライプマップ１５４を含む。処理プログラム１５２は、ドライブ１２０へのストレージＩ／Ｏを管理するためのストレージプログラムである。処理プログラム１５２は、例えば、ハードウェア資源であるドライブ１２０を束ねて仮想化し、仮想ボリュームとして、ハイパーバイザを介し、他の仮想マシンに提供する機能を実現する。また例えば、処理プログラム１５２は、仮想ボリュームをハイパーバイザにｉＳＣＳＩターゲット（ドライブ１２０）として認識させることで、ハイパーバイザ上に当該仮想ボリュームをマウントし、他の仮想マシンへ当該ドライブ（仮想ボリューム）を提供する。また例えば、処理プログラム１５２は、ホストや他の計算機ノード１００上で動作する処理プログラム１５２との間で、ネットワークパスを介して通信し、例えば、データ保護やデータ移行といったストレージの機能を実現する。処理プログラム１５２は、このようなストレージの機能を実現する１つのプログラムとして、コレクションリードを実行するコレクションリード処理プログラム１５５を有する。詳細な処理手順は後述するが、コレクションリードは、冗長コードを格納するノードがデータの復元に必要なライトデータを他ノードから読出し、自身が保持する冗長コードを用いてデータを復元する処理である。そして、キャッシュ情報１５３は、処理プログラム１５２のキャッシュに関する情報である。

分散型ストレージシステム１では、ホストからライト要求やリード要求を受信した計算機ノード１００において、所定の処理プログラム１５２が実行されてストレージＩ／Ｏが行われる。ホストは、計算機ノード１００、当該計算機ノード１００で動作するプロセッサ、または当該プロセッサが実行するアプリケーションプログラムである。

（２）データの保護方式
以下では、分散型ストレージシステム１におけるデータの保護方式について具体例を挙げて説明する。

図３は、ストライプマップ及びチャンクグループのデータ配置例を説明する図である。図３には、上段にストライプマップ３１０が示され、下段にノード１００のローカルドライブ（ドライブ１２０）に格納される物理チャンク３２０のイメージが示されている。

分散型ストレージシステム１では、例えば図３のストライプマップ３１０に示したように、チャンクグループをカラム及びロウにより１ブロック単位で分割し、マッピングする。すなわち、ストライプマップ３１０において、各列（ロウ）はそれぞれノード１００に相当し、各行（カラム）は各ノード１００における１ブロック単位の記憶ブロックに相当する。

ストライプマップ３１０は、ノードＡ１～Ａ６の６ノードを有する分散型ストレージシステム１が、４つのユーザデータ（Ｄ１～Ｄ４）から１次、２次の冗長データ（Ｃ１、Ｃ２）を生成する構成でデータを保護するデータマッピングである。すなわち、データ数（ストライプ数）をＤ、パリティ数（冗長コード数）をＰで表すと、図３に示したデータ保護の構成は、４Ｄ２Ｐ構成と言える。分散型ストレージシステム１は、２Ｐの冗長構成を有することにより、１ノード障害時（１点障害時）だけでなく、２ノード障害時（２点障害時）でも全てのデータを回復できる冗長性（２冗長）を実現する。

ストライプマップ３１０において、Ｄ１～Ｄ４は、ユーザデータを格納する領域（データ部）であって、４個のストライプサイズを有する。一方、冗長コードを格納する領域としては、１次パリティ（１次符号、１次冗長コード）を格納するＣ１（１次符号部）と、２次パリティ（２次符号、２次冗長コード）を格納するＣ２（２次符号部）とがある。２次パリティは、後述するように例えばＥＣ（Erasure Coding）演算によって生成されるが、ＥＣ演算の結果は２ブロック分程度のサイズとなることから、Ｐ，Ｑに分割して格納されるとしている。そのため、Ｃ２は、Ｐ，Ｑという２つのストライプサイズを有する。Ｃ１はキャッシュ（バッファ）に記憶されるため、物理チャンク３２０には図示されない。そして、ローカルドライブ（ドライブ１２０）では、物理チャンク３２０に示すように、データ部（Ｄ１～Ｄ４）及び２次符号部（Ｐ，Ｑ）がそれぞれ、プールボリュームアドレスに対してサイクル数ごとに繰り返されて記憶される。

ストライプタイプは、冗長コードを生成するストライプのクラスである。ストライプタイプ内の複数のストライプから１または複数の冗長コードが生成される。ストライプは、予め定められたサイズのデータユニットである。例えば、図３のストライプマップ３１０の場合、１つのライトデータは、６つのデータブロックのユーザデータ（例えばＳ１～Ｓ６）に分割され、そのうちの４つがＤ１～Ｄ４として１つのノード１００に格納される。また、２つの冗長コードＣ１，Ｃ２が生成され、それぞれは異なるノード１００に格納される。

本実施形態に係る分散型ストレージシステム１では、同一ノードに複数の同一ストライプタイプが配置されないことを条件として、ストライプの数と冗長コードの数は、任意に設計することができる。１次冗長コードＣ１は、例えば、同一カラム（同一ノード）のＤ１～Ｄ４をＸＯＲして生成される。また、２次冗長コードＣ２は、例えば、同一ストライプのデータＤ１～Ｄ４と１次冗長コードＣ１に対してＥＣ演算を行うことによって生成される。

以上に説明したデータ配置の特徴を踏まえ、４Ｄ２Ｐ構成のストライプマップ３１０では、例えばノードＡ１におけるマッピングは、データ部（Ｄ１～Ｄ４）にＳ１，Ｓ６，Ｓ５，Ｓ４、１次符号部Ｃ１にＳ３、２次符号部Ｃ２（Ｐ，Ｑ）にＳ２となっている。そして、物理チャンク３２０に示すように、ノードＡ１のドライブ１２０には、データ部のストライプが１サイクル単位で連続して格納され、別途、２次符号部（パリティ部）のストライプも１サイクル単位で連続して格納される。

次に、上述した４Ｄ２Ｐ構成よりも単純な２Ｄ２Ｐ構成を例として、分散型ストレージシステム１におけるライト要求に応じた冗長化処理について、図４及び図５を参照しながら説明する。

図４は、２Ｄ２Ｐ構成のストライプマップの一例を示す図である。図４に示したストライプマップ３３０の構成において図３に示したストライプマップ３１０と異なる点は、データの分散先とされるノードの数がＡ１～Ａ４の４つであること、及びデータ部のストライプサイズが２個（Ｄ１，Ｄ２）であることである。したがって、ストライプマップ３３０によれば、分散型ストレージシステム１は、１つのライトデータを、４つのデータブロックのユーザデータＳ１～Ｓ４に分割して、４つのノードＡ１～Ａ４に配置する。各ノードでは、４つのユーザデータのうちの２つがデータ部（Ｄ１，Ｄ２）に格納され、さらに１次冗長コードが１次符号部（Ｃ１）に格納され、２次冗長コードが２次符号部（Ｃ２）に格納される。また、各ノードでは、同一ノードに複数の同一ストライプタイプが配置されないことを条件としている。

図５は、ライトデータのデータ保護のイメージを説明する図である。図５では、分散型ストレージシステム１が、ノードＡ１～Ａ４の４ノードを有するときに、図４のストライプマップ３３０に基づいて、ライトデータを２Ｄ２Ｐの２冗長構成で保護する例を示している。

例えば図５のように、ノードＡ１がデータ長の長いライトデータを受信した場合、ノードＡ１（プロセッサ１４０）は、ライトデータを２つのブロックのユーザデータＤ１，Ｄ２に分割する。このとき、ストライプマップ３３０によれば、具体的には、ノードＡ１のユーザデータＤ１は「Ｓ１」であり、ノードＡ１のユーザデータＤ２は「Ｓ４」である。なお、以降は、ストライプマップにおけるカラム及びロウと格納データとの関係性を「Ａ１Ｄ１：Ｓ１」や「Ａ１Ｄ２：Ｓ４」のように簡略化して表記することがある。さらに、ノードＡ１は、ユーザデータＤ１，Ｄ２をＸＯＲして１次冗長コードＣ１を生成する。次に、ノードＡ１は、ユーザデータＤ１，Ｄ２及び１次冗長コードＣ１を、他のノードＡ２～Ａ４のキャッシュ（バッファ）に分散コピーする。データユニットは、１または複数のデータブロックの組み合わせである。

図５の例において、具体的には、ノードＡ１は、受信したライトデータを２つのデータブロックのユーザデータＤ１（Ａ１Ｄ１：Ｓ１），Ｄ２（Ａ１Ｄ２：Ｓ４）に分割し、それらのユーザデータから１次冗長コードＣ１（Ａ１Ｃ１：Ｓ３）を生成する。同様に、ノードＡ２は、受信したライトデータを２つのデータブロックのユーザデータＤ１（Ａ２Ｄ１：Ｓ２），Ｄ２（Ａ２Ｄ２：Ｓ１）に分割し、それらのユーザデータから１次冗長コードＣ１（Ａ２Ｃ１：Ｓ４）を生成する。同様に、ノードＡ３は、受信したライトデータを２つのデータブロックのユーザデータＤ１（Ａ３Ｄ１：Ｓ３），Ｄ２（Ａ３Ｄ２：Ｓ２）に分割し、それらのユーザデータから１次冗長コードＣ１（Ａ３Ｃ１：Ｓ１）を生成する。同様に、ノードＡ４は、受信したライトデータを２つのデータブロックのユーザデータＤ１（Ａ４Ｄ１：Ｓ４），Ｄ２（Ａ４Ｄ２：Ｓ３）に分割し、それらのユーザデータから１次冗長コードＣ１（Ａ４Ｃ１：Ｓ２）を生成する。

そして、各ノードＡ１～Ａ４は、分割したユーザデータＤ１，Ｄ２を自身のローカルドライブ（ドライブ１２０）に書き込むとともに、３つのデータＤ１，Ｄ２，Ｃ１を他の３つのノードのキャッシュ（バッファ）３４０にそれぞれ分散コピーする。このとき、各ノードＡ１～Ａ４のキャッシュには、同じストライプのデータ（例えば、ノードＡ１であればＳ２）が集約されるように分散コピーする。この結果、各ノードＡ１～Ａ４は、他の３つのノードから、同一ストライプのデータブロックＤ１，Ｄ２，Ｃ１をキャッシュに格納することになる。また、各ノードＡ１～Ａ４は、自身が生成した１次冗長コードＣ１を、キャッシュ３４０とは別のキャッシュ領域に格納する。このキャッシュ領域は、２次冗長データの生成後も解放されない。

次に、ノードＡ１～Ａ４はそれぞれ、非同期的に、他の３つのノードからキャッシュ３４０に集約したデータブロックに対してＥＣ演算を行うことによって、２次冗長データＣ２を生成し、これをローカルドライブ（ドライブ１２０）に書き込む。前述したように、２次冗長データＣ２は２ブロック程度の長さになるため、Ｐ，Ｑに分割されてローカルドライブに書き込まれる。各ノードＡ１～Ａ４は、自ノードにおいて２次冗長データを生成してローカルドライブに書き込んだ後は、キャッシュ３４０を解放する。

図５の例において、具体的には例えば、ノードＡ１は、ノードＡ２のＤ１（Ａ２Ｄ１：Ｓ２）と、ノードＡ３のＤ２（Ａ３Ｄ２：Ｓ２）と、ノードＡ４のＣ１（Ａ４Ｃ１：Ｓ２）とをキャッシュ３４０に集約し、これらのデータブロックをＥＣ演算することによってＣ２（Ａ１Ｃ２：Ｓ２）を生成し、これをＰ，Ｑに分割してローカルドライブに書き込み、キャッシュ３４０を解放する。以上の結果、ノードＡ１においては、ローカルドライブ（ドライブ１２０）に、ノードＡ１で分割したＤ１（Ａ１Ｄ１：Ｓ１）及びＤ２（Ａ１Ｄ２：Ｓ４）と、ノードＡ１のキャッシュ３４０で生成した２次冗長データＣ２（Ａ１Ｃ２：Ｓ２）とが格納され、キャッシュに、ノードＡ１で生成した１次冗長データＣ１（Ａ１Ｃ１：Ｓ３）が格納される。詳細は省略するが、ノードＡ２～Ａ４でも同様のデータ処理が行われ、ストライプマップ３３０に示すマッピングでデータが分散して配置される。

上記のデータ配置の処理は、以下のようにも言える。ライトデータを受信したノードＡ１は、ライトデータを分割した複数のユーザデータから１次冗長コード（１次符号）を生成し、生成した１次冗長コードと、この１次冗長コードの生成に用いたユーザデータとを、それぞれ異なる他のノードに送信する。また、１次冗長コードの生成に用いたユーザデータは、ノードＡ１のローカルなドライブ１２０に格納する。また、ノードＡ１は、他の複数のノードからそれぞれ受信した複数のユーザデータ及び１次冗長コードに基づいて、２次冗長コード（２次符号）を生成し、これをノードＡ１のドライブ１２０に格納する。また、２次冗長コードの生成に用いた１次冗長コードは、ノードＡ１のキャッシュに格納する。このようなノードＡ１における処理を他のノード（ノードＡ２～Ａ４）でも同様に行うことにより、分散型ストレージシステム１の各ノードでは、あるユーザデータと、当該ユーザデータに対応する１次冗長コードと、当該ユーザデータに対応する２次冗長コードとが、異なるノードに分散して格納される。

以上のようなライトデータのデータ保護が実行されることにより、ノードＡ１～Ａ４はそれぞれ、同一ノードに複数の同一ストライプタイプが配置されないように、ユーザデータ、１次冗長コード、及び２次冗長コードが分散配置されるため、２ノード障害時に全てのデータを回復できる冗長性を有する。なお、４Ｄ２Ｐ構成の場合も、ストライプマップ３１０のマッピングに従ってデータ配置が行われることにより、２Ｄ２Ｐ構成の場合と同様に、２ノード障害時のデータ回復（２冗長）を実現することができる。

（３）リード要求時のデータ処理
上述したように、本実施形態に係る分散型ストレージシステム１では、２ノードまでの障害時には、データ回復を行うことができる。これは言い換えれば、２ノード障害時でもデータのリード要求に応えることができることを意味する。そこで、以下では、本実施形態に係る分散型ストレージシステム１において、ホストからリード要求がなされた場合にノード１００が実行するデータ処理について、図６以降の図面を参照しながら、詳しく説明する。

図６は、リード要求を受信したノード１００によるデータ処理の処理手順例を示すフローチャートである。

図６によればまず、計算機ノード１００が、ホストからリード要求を受信する（ステップＳ１０１）。なお、ステップＳ１０１で受信するリード要求には、リード範囲が複数のブロックに跨るリード要求を含むことができる。

次に、処理プログラム１５２は、リード対象のデータを格納しているローカルなストレージデバイス（ドライブ１２０）が閉塞状態であるか否かを確認する（ステップＳ１０２）。ステップＳ１０２においてリード対象のローカルデバイスが閉塞していない場合（ステップＳ１０２のＮＯ）、処理プログラム１５２は、リード対象のローカルデバイスから対象データを読み出し（ステップＳ１０３）、ホストにリード要求を応答し（ステップＳ１０９）、読み出したデータを送信してデータ処理を終了する。

一方、ステップＳ１０２においてリード対象のローカルデバイスが閉塞していた場合は（ステップＳ１０２のＹＥＳ）、ステップＳ１０４に進む。なお、図示は省略したが、ステップＳ１０２でＹＥＳと判定する場合に、許容できるローカルデバイスの閉塞数は最大２までとする。分散型ストレージシステム１は３ノード以上の障害時にはデータ復旧ができないため、３以上の対象のローカルデバイスが閉塞していた場合は、処理プログラム１５２は、ステップＳ１０４の処理を行うことなく、リード要求に対するエラーの応答をホストに返し、データ処理を終了する。

ステップＳ１０４では、処理プログラム１５２が、閉塞状態のリード対象領域に対応する２次符号を格納している各ノード１００に、コレクションリード要求を発行する。コレクションリード要求を受信した各ノード１００では、コレクションリード処理プログラム１５５によって、２次符号からデータを復元するためのコレクションリードが行われ、コレクションリードに成功して対象データが復元されると、復元された対象データは要求元のノード１００に送信されてリード用バッファに保持される。

次に、処理プログラム１５２は、ステップＳ１０４の処理が行われた結果、２次符号からのコレクションリードに失敗した箇所が有るか判定する（ステップＳ１０５）。ステップＳ１０５において、２次符号からのコレクションリードの失敗箇所がなかった場合は（ステップＳ１０５のＮＯ）、各ノード１００から受信してリード用バッファに保持した２次符号を用いてリード対象データを復元する。その後、ホストにリード要求を応答し（ステップＳ１０９）、復元したデータを送信してデータ処理を終了する。

一方、ステップＳ１０５において、２次符号からのコレクションリードの失敗箇所があった場合は（ステップＳ１０５のＹＥＳ）、ステップＳ１０６に進み、１次符号を利用したデータ復元に切り替える。本実施形態において、１次符号を利用したデータ復元におけるデータ操作は、１点障害発生時のコレクションリードによるデータ操作と同様となる。ステップＳ１０６において、処理プログラム１５２は、２次符号からのコレクションリードの失敗箇所を１次符号から復元するために必要なデータが、既にコレクションリード済みであるか否かを判定する。コレクションリード済みでないデータが存在する場合は（ステップＳ１０６のＮＯ）、ステップＳ１０７に進み、既にコレクションリード済みである場合は（ステップＳ１０６のＹＥＳ）、ステップＳ１０８に進む。

ステップＳ１０７では、処理プログラム１５２が、１次符号を利用したデータ復元に必要なデータ（コレクションリード済みでない必要データ）を格納しているノード１００に、コレクションリードを発行する。コレクションリード要求を受信したノード１００では、コレクションリード処理プログラム１５５によって、１次符号から対象データを復元するためのコレクションリードが行われ、コレクションリードに成功して対象データが復元されると、復元された対象データは要求元のノード１００に送信されてリード用バッファに保持される。ステップＳ１０７の終了後はステップＳ１０８に進む。

そしてステップＳ１０８において、処理プログラム１５２は、これまでの処理でリード用バッファに集められたデータを用いて、１次符号を利用したリード対象データの復元を行う。その後、ホストにリード要求を応答し（ステップＳ１０９）、ステップＳ１０８までの処理で読み出しまたは復元されたリード対象データをホストに送信して、データ処理を終了する。

以上のようなデータ処理を行うことにより、分散型ストレージシステム１では、２ノードまでの障害発生時において、複数ブロックに跨るリード要求が行われた場合に、２次符号からのデータ復元を行い、２次符号からのデータ復元ができないものについては１次符号からのデータ復元を行うことにより、リード要求の対象データを要求元に渡すことができる。

なお、図６のようなデータ処理を実行する分散型ストレージシステム１では、ブロックに跨るリード要求を受信した場合の処理において、２冗長の冗長性を有する従来の分散型ストレージシステムと比べて、コレクションリードの要求数を低減することができるため、冗長度が低下した状態でも、コレクションリードによるレスポンス性能の低下を抑制しながらデータを読み出す（復旧する）ことができる。この点について、以下では、具体的な処理例を参照しながら説明する。

図７～図１３は、２点障害時にブロックに跨るリード要求を受信した際のデータ処理の遷移を説明する図（その１～その７）である。

まず、図７には、４Ｄ２Ｐ構成のストライプマップ３５０が示されている。ストライプマップ３５０のマッピングは、図３で説明したストライプマップ３１０のマッピングと同一である。図７では、ノードＡ１及びノードＡ６に対応するデバイスが２次符号部まで閉塞しているとき（２点障害時）に、ノードＡ１がホストからのリード要求を受信した状態が示されている。なお、図７に示したように、上記リード要求は、ブロックに跨るリード要求であり、その対象範囲は、Ａ１Ｄ１の半ばからＡ１Ｄ３まで（データとしてはＳ１の後半部とＳ６とＳ５）となっている。

図７の状態は、図６のデータ処理のステップＳ１０１～Ｓ１０２に相当する。ステップＳ１０２では、リード対象のローカルデバイスであるノードＡ１のデバイスが閉塞状態であることから、ＹＥＳと判定されて、ステップＳ１０４に進む。

図６で説明したように、ステップＳ１０４では、リード要求を受信したノードが、閉塞状態のリード対象領域に対応する２次符号を格納している他ノードに対して、コレクションリード要求を発行する。図８はステップＳ１０４のコレクションリード要求の処理を示したものである。具体的には、図８に示したように、ノードＡ１が、リード対象領域（Ａ１Ｄ１，Ａ１Ｄ２，Ａ１Ｄ３）に対応する２次符号Ｓ１，Ｓ６，Ｓ５を格納しているノードＡ６，Ａ５，Ａ４に対して、それぞれ２次符号によるコレクションリード要求を発行する。

図９は、ノードＡ１からノードＡ５，Ａ４に要求されたコレクションリードの処理遷移を説明する図である。図９のストライプマップ３５０には、Ａ１Ｄ２のユーザデータＳ６を２次符号から復元するための、ノードＡ５に対するコレクションリード要求に伴うデータ処理の流れが、矢印付きの実線で示されている。ノードＡ１から２次符号Ｓ６によるコレクションリード要求を受けたノードＡ５は、ノードＡ２，Ａ３から復元用データとなるユーザデータＳ６（Ａ２Ｄ３：Ｓ６，Ａ３Ｄ４：Ｓ６）を読み出し、ノードＡ４から１次符号Ｓ６（Ａ４Ｃ１：Ｓ６）を読み出す。ノードＡ５は、他ノードから読み出したこれらのデータを、自身の２次符号部に格納されている２次符号Ｓ６（Ａ５Ｃ２：Ｓ６）とともに、ノードＡ５のリード用バッファ３６５に保持する。なお、２次符号はＰ，Ｑの２ブロック分のサイズを持つことから、図９のリード用バッファ３６５では、２次符号Ｓ６が２つのデータブロックで表されている（他図でも同様）。そして、ノードＡ５のコレクションリード処理プログラム１５５は、リード用バッファ３６５に保持された５ブロックのデータから、ユーザデータＳ６を復元する。また、２次符号Ｓ５によるコレクションリード要求を受けたノードＡ４でも同様にコレクションリードが行われ、ノードＡ４のリード用バッファ３６４に保持された５ブロックのデータ（Ａ２Ｄ５：Ｓ５、Ａ５Ｄ１：Ｓ５、Ａ３Ｃ１：Ｓ５、Ａ４Ｃ２：Ｓ５）から、ユーザデータＳ５が復元される。そして、ノードＡ５で，Ａ４でそれぞれ復元されたユーザデータＳ６，Ｓ５は、ノードＡ１に送信され、ノードＡ１のリード用バッファ３６１に保持される。

図１０は、ノードＡ１からノードＡ６に要求されたコレクションリードの処理遷移を説明する図である。図１０に示したように、ノードＡ１からノードＡ６に対して２次符号によるコレクションリードが要求されるが、ノードＡ６はノードＡ１と同様にデバイスが閉塞状態にあることから、２次符号をリードすることができず、コレクションリードは失敗する。この場合、図６のフローチャートでは、ステップＳ１０５でＮＯと判定され、ステップＳ１０６の処理に進むことになる。なお、図１０の時点でノードＡ１は、ノードＡ６もデバイス閉塞である（２点障害が発生している）ことを認識する。

また、図７に示したように、リード要求におけるユーザデータＳ１の対象範囲（リード範囲）はブロック全体ではなく部分的であることから、本例の場合、図１０に示したノードＡ１からノードＡ６に対するコレクションリード要求は、リード範囲のユーザデータＳ１に対応する「部分的な２次符号Ｓ１」を対象として実行される。コレクションリード要求における２次符号Ｓ１の部分的なリード要求範囲は、例えば、リード要求の対象範囲のＳ１側の一端におけるオフセットを基準として決定する等すればよい。

図６で説明したように、ステップＳ１０６以降の処理では、ユーザデータＳ１に対する１次符号からの復元が行われる。図１１には、２次符号からの復元ができなかったユーザデータＳ１について、１次符号からの復元に切り替えるときの処理イメージが示されている。図１１のストライプマップ３５０に破線で囲ったように、ノードＡ１においてユーザデータＳ１を１次符号から復元するために必要なデータは、ユーザデータＳ６，Ｓ５，Ｓ４、及び１次符号Ｓ３である。ユーザデータＳ６，Ｓ５は、図９で説明したコレクションリードによってノードＡ１のリード用バッファ３６１に既に保持されているが、ユーザデータＳ４、及び１次符号Ｓ３は、まだリード用バッファ３６１に保持されておらず、ユーザデータＳ１を１次符号から復元するために不足しているデータとなる。

そこで、図６のステップＳ１０７では、ユーザデータＳ１を１次符号から復元するために不足しているデータ（Ａ１Ｄ４：Ｓ４，Ａ１Ｃ１：Ｓ３）のコレクションリードが行われる。図１２は、このようなコレクションリードの処理遷移を説明する図である。図１２のストライプマップ３５０には、ユーザデータＳ４を２次符号Ｓ４から復元するための、ノードＡ３に対するコレクションリード要求に伴うデータ処理の流れが、矢印付きの実線で示されている。

図１２に示したように、ユーザデータＳ４のコレクションリード要求を受けたノードＡ３は、ノードＡ４，Ａ５から復元用データとなるユーザデータＳ４（Ａ４Ｄ１：Ｓ４，Ａ５Ｄ２：Ｓ４）を読み出し、ノードＡ２から１次符号Ｓ４（Ａ２Ｃ１：Ｓ４）を読み出す。ノードＡ３は、他ノードから読み出したこれらのデータを、自身の２次符号部に格納されている２次符号Ｓ４（Ａ３Ｃ２：Ｓ４）とともに、ノードＡ３のリード用バッファ３６３に保持し、これらの保持データからユーザデータＳ４を復元する。そして復元されたユーザデータＳ４は、ノードＡ１に送信され、ノードＡ１のリード用バッファ３６１に保持される。また、１次符号Ｓ３のコレクションリード要求を受けたノードＡ２においても、上記と同様にコレクションリードが行われ、ノードＡ２のリード用バッファ３６２に保持されたデータ（Ａ３Ｄ１：Ｓ３，Ａ４Ｄ２：Ｓ３，Ａ５Ｄ３：Ｓ３，Ａ２Ｃ２：Ｓ３）から１次符号Ｓ３が復元され、復元された１次符号Ｓ３はノードＡ１に送信され、ノードＡ１のリード用バッファ３６１に保持される。

なお、前述したようにリード要求におけるユーザデータＳ１の対象範囲（リード範囲）はブロック全体ではなく部分的であることから、本例では、ユーザデータＳ４及び１次符号Ｓ３のコレクションリードで要求されるデータの読み出し範囲は、ブロック全体ではなく、部分的としている（例えばオフセットを揃える）。このような部分的な対象データを視覚的に表すため、図１２の各リード用バッファでは、ブロック単位で復元されたユーザデータＳ６，Ｓ５に比べて、その他のデータの表示サイズが小サイズで表示されている。

図１３は、図１２に続く処理遷移を説明する図である。図１２を参照して説明したコレクションリードの結果として、ノードＡ１のリード用バッファ３６１には、既に格納されていたユーザデータＳ５，Ｓ６に加えて、ユーザデータＳ４及び１次符号Ｓ３が保持される。そこで、図１３に示したように、ノードＡ１は、リード用バッファ３６１に保持されたこれらのデータを用いて１次符号によるデータ復元を行うことにより、ユーザデータＳ１を復元することができる（図６のステップＳ１０８）。復元されたユーザデータは、リード用バッファ３６１に保持される。そして、以上の結果、ノードＡ１のリード用バッファ３６１には、リード要求の対象データ（復元済みのユーザデータＳ１，Ｓ６，Ｓ５）が保持されるため、ノードＡ１はホストにこれらのデータを送信して、リード要求に応答する。

以上、図７～図１３を参照しながら説明したように、本実施形態に係る分散型ストレージシステム１では、図６のデータ処理のフローチャートに沿ってデータ処理を行うことにより、２ノード障害時の複数ブロックに跨るリード要求に対して、リード要求対象のデータの格納先デバイスが閉塞していたとしても、コレクションリードを利用してデータを復元し、リード要求に応えることができる。

（４）コレクションリードのリード要求範囲
図６に示したように、本実施形態におけるリード要求に対するデータ処理では、２次符号による（２次符号部への）コレクションリード要求として、２次符号からのデータ復元のための１回目のコレクションリード要求（ステップＳ１０４）と、１次符号からのデータ復元のための２回目のコレクションリード要求（ステップＳ１０７：２回目の要求）と、が実行される可能性がある。分散型ストレージシステム１は、ホストからのリード要求を受信したノード１００（例えばノードＡ１）の処理プログラム１５２が、リード要求範囲を指定してこれら２回のコレクションリード要求を発行するが、このときのリード要求範囲について、２つのパターン（第１及び第２のリード要求範囲パターン）を用意することができる。以下では、図１４～図１７を参照しながら、それぞれのリード要求範囲パターンによる特徴及びその効果について説明する。

図１４～図１６は、データ処理において第１のリード要求範囲パターンを用いた場合のデータの読出範囲を説明する図（その１～その３）である。詳しくは、図１４は、複数ブロックに跨るリード要求の対象範囲の一端がブロックの途中である場合のイメージを示しており、図７～図１３を参照して説明した具体例の処理と対応している。また、図１５は、複数ブロックに跨るリード要求の対象範囲がブロック単位である場合のイメージを示し、図１６は、複数ブロックに跨るリード要求の対象範囲の両端がブロックの途中である場合のイメージを示している。

第１のリード要求範囲パターンは、図７～図１３を参照した具体例のなかで前述したように、リード要求の対象範囲に対応するリード要求範囲を指定して、１回目のコレクションリード要求を行うものである。

例えば、図１４を参照すると、リード要求の対象範囲（リード範囲）はＤ１～Ｄ３に跨っており、Ｄ２，Ｄ３はブロック全体を対象とするのに対して、Ｄ１はブロック単位未満の部分的な範囲が指定されている。この場合、２次符号部への１回目のコレクションリード要求（図６のステップＳ１０４）は、リード要求の対象範囲と同様の範囲をリード要求範囲として実行される。前述したように、図１４の場合は、１回目のコレクションリード要求ではＤ１を読み出す（復元する）ことができず、１次符号からのデータ復元のために２回目のコレクションリード要求（図６のステップＳ１０７）が実行される。第１のリード要求範囲パターンを採用する場合、この２回目のコレクションリード要求においても、部分的なユーザデータＤ１を復元するためのデータが要求されるため、具体的には、ユーザデータＤ４や１次符号Ｃ１が部分的な範囲でリードされる。そして、１回目のコレクションリード要求で得られたブロック全体のユーザデータＤ２，Ｄ３の「対応する一部分」と、２回目のコレクションリード要求によって得られた部分的なユーザデータＤ４及び１次符号Ｃ１と、を用いて１次符号によるデータ復旧が行われることにより、部分的なＤ１を復旧することができる。

図１４のようなケースでは、一連のデータ処理を通じて、最大５回のコレクションリードを実行して、複数ブロックに跨るリード要求に応えることができる。また、１回目のＤ１に対するコレクションリード要求、及び２回目のＤ４，Ｃ１に対するコレクションリード要求を、リード要求の対象範囲に応じた要求範囲で実行することから、余分なデータ領域に対するコレクションリードが発生せず、処理負荷を低減することができる。すなわち、複数ブロックに跨るリード要求の対象範囲の一端がブロックの途中である場合は、第１のリード要求範囲パターンを採用してデータ処理を行うことによって、コレクションリードによるレスポンス性能の低下を抑制しながらデータを読み出す（復旧する）ことができるといえる。

また、図１５のケースは、リード要求の対象範囲がブロック単位の場合であるが、この場合は、部分的なリード範囲について注意する必要がない。結果として、図１５のケースも、図１４のケースと同様に、最大５回のコレクションリードを実行して、複数ブロックに跨るリード要求に応えることができ、コレクションリードによるレスポンス性能の低下を抑制しながらデータを読み出す（復旧する）ことができる。なお、リード要求の対象範囲がブロック単位の場合は、後述する第２のリード要求範囲パターンを採用しても、結果的には全体的な処理は同じとなる。

図１６のケースは、複数ブロックに跨るリード要求の対象範囲の両端がブロックの途中に掛かっている場合であり、具体的には図１６によれば、Ｄ１～Ｄ３の複数ブロックに跨ったリード要求において、Ｄ１は後半部分、Ｄ３は前半部分が対象範囲（リード範囲）となっている。このときに第１のリード要求範囲パターンを採用してデータ処理を行うと、１回目のコレクションリード要求では、部分的なＤ１，Ｄ３に対応する範囲がリード要求範囲として指定される。１回目のコレクションリード要求の結果、ユーザデータＤ２はブロック全体が復元され、ユーザデータＤ３は前半部分だけが復元され、ユーザデータＤ１は復元できない。そこで、後半部分のユーザデータＤ１を復元するために、２回目のコレクションリード要求が行われることになる。ここで、ユーザデータＤ３は前半部分しか復元されていない（少なくともＤ１のリード範囲である後半部分の全体をカバーできるだけの復元はされていない）ことから、２回目のコレクションリード要求では、後半部分（あるいは、必要な後半部分の復元済み部分との差分）のＤ３に対しても、リード要求範囲に指定して、改めて後半部分のユーザデータＤ３を取得する必要がでてくる。

すなわち、図１６のようなケースでは、リード要求の対象範囲に対応したリード要求範囲を指定して１回目のコレクションリード要求を実行したために、１次符号からのデータ復元に必要なデータ（具体的にはユーザデータＤ３の後半部分）が、図１４のケースよりも余分に不足することが想定される。この結果、２回目のコレクションリード要求の実行回数が増加し、最大６回のコレクションリードを経て、複数ブロックに跨るリード要求に応えることになる。したがって、複数ブロックに跨るリード要求の対象範囲の両端がブロックの途中である場合に、第１のリード要求範囲パターンを採用してデータ処理を行うと、コレクションリードによる処理負荷がやや高くなるおそれがある。分散型ストレージシステム１では、このような問題を解消する方法として、第２のリード要求範囲パターンを採用することができる。

図１７は、データ処理において第２のリード要求範囲パターンを用いた場合のデータの読出範囲を説明する図である。詳しくは、図１７は、図１６と同じく、複数ブロックに跨るリード要求の対象範囲の両端がブロックの途中である場合のイメージを示している。

第２のリード要求範囲パターンは、１回目のコレクションリード要求では、ブロック単位でリード要求範囲を指定し、２回目のコレクションリード要求では、リード要求の対象範囲に対応するリード要求範囲を指定するものである。

図１７を参照すると、リード要求の対象範囲（リード範囲）はＤ１～Ｄ３に跨っており、図１６と同じく、Ｄ１は後半部分、Ｄ３は前半部分が対象範囲となっている。ここで第２のリード要求範囲パターンを採用すると、１回目のコレクションリード要求では、Ｄ１，Ｄ２，Ｄ３全てについて、各ブロックの全体がリード要求範囲に指定される。この結果、ユーザデータＤ１は復元できないが、ユーザデータＤ２，Ｄ３はブロック全体が復旧される。そして、リード範囲とされた部分的な（後半部分の）ユーザデータＤ１を１次符号から復元するために、２回目のコレクションリード要求が実行される。この２回目のコレクションリード要求においては、リード範囲に対応するリード要求範囲が指定されるため、後半部分のユーザデータＤ４及び１次符号Ｃ１が復元される。このとき、図１６のケースとは異なり、ユーザデータＤ３はブロック全体が復元済みであることから、２回目のコレクションリード要求の対象に含める必要がない。そして、１回目のコレクションリード要求で得られたブロック全体のユーザデータＤ２，Ｄ３の「対応する一部分」と、２回目のコレクションリード要求によって得られた部分的なユーザデータＤ４及び１次符号Ｃ１と、を用いて１次符号によるデータ復元が行われることにより、部分的なユーザデータＤ１を復元することができる。

以上のように、図１７のケースでは、一連のデータ処理を通じて、最大５回のコレクションリードを実行して、複数ブロックに跨るリード要求に応えることができる。第２のリード要求範囲パターンは、１回目のコレクションリード要求におけるリード要求範囲をブロック全体とすることで、第１のリード要求範囲パターンと比べると、リード要求の対象範囲以上のデータ領域に対してコレクションリードを少なくとも１回は実行する分だけ、処理負荷の増加が想定される。しかし、その一方で、２回目のコレクションリード要求では、１回目のコレクションリード要求で復旧できたデータブロックに対する再度のコレクションリードを行わないため、全体としては、コレクションリードの実行回数の増加を抑制することができる。すなわち、複数ブロックに跨るリード要求の対象範囲の両端がブロックの途中に掛かる場合には、第２のリード要求範囲パターンでデータ処理を行うことによって、コレクションリードによるレスポンス性能の低下を抑制しながらデータを読み出す（復旧する）ことができるといえる。

以上のように、本実施形態に係る分散型ストレージシステム１は、複数ブロックに跨るリード要求を受信したときに、第１のリード要求範囲パターンまたは第２のリード要求範囲パターンで図６のデータ処理を実行することにより、２ノード障害発生時でも、コレクションリードによるレスポンス性能の低下を抑制しながら、データを復旧して読み出すことができる。なお、第１のリード要求範囲パターンと第２のリード要求範囲パターンの何れを採用するかは、予め設定しておいてもよいし、リード要求を受信したノード１００の処理プログラム１５２が、リード要求のリード範囲に応じて好適な方を選択するようにしてもよい。詳しくは、リード要求の対象範囲の一端がブロックの途中に掛かる場合、あるいはリード要求の対象範囲がブロック全体である場合には、第１のリード要求範囲パターンを採用することが好ましく、リード要求の対象範囲の両端がブロックの途中に掛かる場合には、第２のリード要求範囲パターンを採用することが好ましい。

本実施形態に係る分散型ストレージシステム１は、例えば、任意の汎用サーバをソフトウェアによって結び付け、１つのストレージプールを作り出し、ユーザがストレージプールから任意の容量を切り出して利用することができる分散型ストレージシステム製品であって、ミッションクリティカルな用途では使われにくく、特に大規模なデータ分析に使用される等、高いＩＯ性能が求められる分散型ストレージシステム製品に適用すると好適である。このような分散型ストレージシステム製品では、サーバ台数が比較的多いことから冗長度が低下しやすいが、ミッションクリティカルな用途で使われないことから冗長度が低下した状態でもすぐに保守が行われずに稼働が続けられやすい傾向が想定される。本実施形態に係る分散型ストレージシステム１は、このような特徴を有する分散型ストレージシステム製品において、実装化を考慮したユーザデータ及び冗長コード（１次符号、２次符号）の配置を行うことにより、２点障害発生のように冗長度が低下した状態でも、リード要求時にコレクションリードによるレスポンス性能の低下を抑制しながらデータを読み出すことができるため、実用的な性能を維持してデータの読み出しや復旧を実現することが可能である。

なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（Solid State Drive）等の記録装置、または、ＩＣカード、ＳＤカード、ＤＶＤ等の記録媒体に置くことができる。

また、図面において制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。

１分散型ストレージシステム
１００計算機ノード（ノード）
１１０プロセッサパッケージ
１２０ドライブ
１３０バックエンドポート
１４０プロセッサ
１５０メモリ
１５１管理情報
１５２処理プログラム
１５３キャッシュ情報
１５４ストライプマップ
１５５コレクションリード処理プログラム
２００計算機ドメイン
２１０，２２０，２３０ネットワーク

Claims

ネットワークを介して接続された複数のノードがデータを分散して保存する分散型ストレージシステムであって、
前記複数のノードの各ノードは、データＩＯを制御するプロセッサと、データを格納するキャッシュ及びストレージデバイスと、を有し、
前記複数のノードのうちの第１のノードは、ホストからライト要求を受信した場合、
前記ライト要求とともに受信した複数のユーザデータに基づいて１次冗長コードを生成し、
前記生成した１次冗長コードと、当該１次冗長コードの生成に用いた前記複数のユーザデータとを、前記複数のノードのうちのそれぞれ異なる他のノードに送信するとともに、前記受信した複数のユーザデータを自ノードの前記ストレージデバイスに格納し、
前記複数のノードのうちの第２のノードは、
前記複数のノードにおける複数の前記他のノードからそれぞれ受信した前記複数のユーザデータ及び前記１次冗長コードに基づいて２次冗長コードを生成し、
前記生成した２次冗長コードを自ノードの前記ストレージデバイスに格納するとともに、当該２次冗長コードの生成に用いた前記１次冗長コードを自ノードの前記キャッシュに保存し、
前記複数のノードの各ノードが、前記第１のノード及び前記第２のノードとしての機能を有し、
前記第１のノードは、自ノードの前記ストレージデバイスが閉塞しているときにホストから前記ユーザデータのリード要求を受信した場合、
前記リード要求の対象データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第１のコレクションリード要求を実行し、
前記対象データの少なくとも一部が、前記第１のコレクションリード要求による復元に失敗した場合には、復元に失敗した対象データを前記１次冗長コードを用いて復元するために必要な複数のデータのうち、前記第１のコレクションリード要求で復元済みのデータを除く１以上の不足データについて、前記不足データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第２のコレクションリード要求を実行する
ことを特徴とする分散型ストレージシステム。
前記リード要求の対象範囲が複数のデータブロックに跨る場合、
前記リード要求を受信した前記第１のノードは、各前記データブロックごとに前記対象データを復元するように、前記第１のコレクションリード要求を実行する
ことを特徴とする請求項１に記載の分散型ストレージシステム。
対象範囲が前記複数のデータブロックに跨る前記リード要求において、前記対象範囲に部分的なデータブロックが含まれる場合、
前記リード要求を受信した前記第１のノードは、
前記部分的なデータブロックに相当する前記対象データの復元について、当該部分に対応する要求範囲を指定して、前記第２のコレクションリード要求を実行する
ことを特徴とする請求項２に記載の分散型ストレージシステム。
対象範囲が前記複数のデータブロックに跨る前記リード要求において、前記対象範囲の一端がデータブロックの途中に掛かる場合、
前記リード要求を受信した前記第１のノードは、
前記部分的なデータブロックに相当する前記対象データの復元について、当該部分に対応する要求範囲を指定して、前記第１のコレクションリード要求を実行する
ことを特徴とする請求項３に記載の分散型ストレージシステム。
対象範囲が前記複数のデータブロックに跨る前記リード要求において、前記対象範囲の両端がデータブロックの途中に掛かる場合、
前記リード要求を受信した前記第１のノードは、
前記部分的なデータブロックに相当する前記対象データの復元についても、当該データブロックの全体を要求範囲に指定して、前記第１のコレクションリード要求を実行する
ことを特徴とする請求項３に記載の分散型ストレージシステム。
前記第１のノードは、自ノードの前記ストレージデバイスが閉塞していないときにホストからデータのリード要求を受信した場合、
前記リード要求の対象データを自ノードの前記ストレージデバイスから読み出して応答する
ことを特徴とする請求項１に記載の分散型ストレージシステム。
ネットワークを介して接続された複数のノードがデータを分散して保存する分散型ストレージシステムによるデータ復旧方法であって、
前記複数のノードの各ノードは、データＩＯを制御するプロセッサと、データを格納するキャッシュ及びストレージデバイスと、を有し、
前記複数のノードのうちの第１のノードは、ホストからライト要求を受信した場合、
前記ライト要求とともに受信した複数のユーザデータに基づいて１次冗長コードを生成し、
前記生成した１次冗長コードと、当該１次冗長コードの生成に用いた前記複数のユーザデータとを、前記複数のノードのうちのそれぞれ異なる他のノードに送信するとともに、前記受信した複数のユーザデータを自ノードの前記ストレージデバイスに格納し、
前記複数のノードのうちの第２のノードは、
前記複数のノードにおける複数の前記他のノードからそれぞれ受信した前記複数のユーザデータ及び前記１次冗長コードに基づいて２次冗長コードを生成し、
前記生成した２次冗長コードを自ノードの前記ストレージデバイスに格納するとともに、当該２次冗長コードの生成に用いた前記１次冗長コードを自ノードの前記キャッシュに保存し、
前記複数のノードの各ノードが、前記第１のノード及び前記第２のノードとしての機能を有し、
前記第１のノードは、自ノードの前記ストレージデバイスが閉塞しているときにホストから前記ユーザデータのリード要求を受信した場合、
前記リード要求の対象データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第１のコレクションリード要求を実行し、
前記対象データの少なくとも一部が、前記第１のコレクションリード要求による復元に失敗した場合には、復元に失敗した対象データを前記１次冗長コードを用いて復元するために必要な複数のデータのうち、前記第１のコレクションリード要求で復元済みのデータを除く１以上の不足データについて、前記不足データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第２のコレクションリード要求を実行する
ことを特徴とするデータ復旧方法。
ネットワークを介して接続された複数のノードがデータを分散して保存する分散型ストレージシステムにおいて前記複数のノードに実行させるデータ処理プログラムであって、
前記複数のノードの各ノードは、データＩＯを制御するプロセッサと、データを格納するキャッシュ及びストレージデバイスと、を有し、
前記複数のノードのうちの第１のノードに、
ホストからライト要求を受信した場合に、
前記ライト要求とともに受信した複数のユーザデータに基づいて１次冗長コードを生成し、
前記生成した１次冗長コードと、当該１次冗長コードの生成に用いた前記複数のユーザデータとを、前記複数のノードのうちのそれぞれ異なる他のノードに送信するとともに、前記受信した複数のユーザデータを自ノードの前記ストレージデバイスに格納する、
処理を実行させ、
前記複数のノードのうちの第２のノードに、
前記複数のノードにおける複数の前記他のノードからそれぞれ受信した前記複数のユーザデータ及び前記１次冗長コードに基づいて２次冗長コードを生成し、
前記生成した２次冗長コードを自ノードの前記ストレージデバイスに格納するとともに、当該２次冗長コードの生成に用いた前記１次冗長コードを自ノードの前記キャッシュに保存する、
処理を実行させ、
前記第１のノードに、
自ノードの前記ストレージデバイスが閉塞しているときにホストから前記ユーザデータのリード要求を受信した場合に、
前記リード要求の対象データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第１のコレクションリード要求を実行し、
前記対象データの少なくとも一部が、前記第１のコレクションリード要求による復元に失敗した場合には、復元に失敗した対象データを前記１次冗長コードを用いて復元するために必要な複数のデータのうち、前記第１のコレクションリード要求で復元済みのデータを除く１以上の不足データについて、前記不足データに対応する前記２次冗長コードを前記ストレージデバイスに格納している１以上の前記他のノードに対して、前記２次冗長コードからのデータの復元を要求する第２のコレクションリード要求を実行する、
処理を実行させる
ことを特徴とするデータ処理プログラム。