JP2022504790A

JP2022504790A - データブロックのイレイジャーコーディングコンテンツ主導分散

Info

Publication number: JP2022504790A
Application number: JP2021520165A
Authority: JP
Inventors: デヴィッドマッカーシー，ダニエル; リーケイソン，クリストファー
Original assignee: ネットアップ，インコーポレイテッド
Priority date: 2018-10-15
Filing date: 2019-10-15
Publication date: 2022-01-13
Also published as: EP3867758A1; CN112889034A; WO2020081491A1; US20200117362A1

Abstract

技術は、クラスタのストレージノードにより提供されるデータブロックのコンテンツ主導分散の複製及びイレイジャーコーディング等のデータ保護を提供するように構成されている。複製（冗長）の形態のデータ保護を提供する場合、ストレージノードのスライスサービスは、クラスタ上に記憶するためにデータブロックの１つ以上のコピー又はレプリカを生成する。各複製されたデータブロックは、ストレージデバイス上での記憶のために、ノードのブロックサービスにより維持されるビン内で例示的にまとめられる。イレイジャーコーディングの形態でデータ保護を提供する場合、ブロックサービスはイレイジャーコーディングすべきデータブロックを選択し得る。そして、イレイジャーコーディングのための一群のデータブロックが共にグループ化されて書き込みグループを形成され得る。この技術によれば、ＥＣグループメンバーシップは、データが故障に耐性を有するようにビングループを変化させることによりガイドされる。ストレージノードのスライスサービスは、異なるビンのデータブロック及びレプリカを書き込みグループに割り当てる。

Description

本開示は、クラスタのストレージノードによって提供されるデータの保護に関し、より具体的には、クラスタのストレージノードによって提供されるコンテンツ主導分散データブロックのイレイジャーコーディングに関する。

クラスタとしてまとめられた複数のストレージノードは、クラスタの１つ以上のクライアントにより発行されたストレージ要求（storage request）に応えるように構成された分散ストレージアーキテクチャを提供し得る。ストレージ要求は、クラスタのストレージノードのうちの１つ以上に連結されたストレージデバイス上に記憶されたデータに対するものである。ストレージノードによって提供されるデータは、ハードディスクドライブ、ソリッドステートドライブ、フラッシュメモリシステム又は他のストレージデバイス等の永続ストレージデバイスとして具現化された複数のストレージユニットにわたって分散され得る。ストレージノードは、デバイスに記憶されたデータを論理ユニット（ＬＵＮ）としてアクセス可能なボリュームとして論理的にまとめられ得る。各ボリュームは、該ボリュームのためのデータを記憶するデータブロックやボリュームのデータを記述するメタデータブロック等の一連のデータ構造として実施され得る。例えば、メタデータは、データのためのデバイス上の記憶場所を記述、例えば特定し得る。各ボリュームのデータはデータブロックに分割され得る。データブロックは、クラスタ全体にわたってストレージ使用状況及び入出力（Ｉ／Ｏ）負荷を均等にするために、クラスタのノード全体にわたってコンテンツ主導な方法で分散され得る。データの耐久性の向上をサポートするために、データブロックがストレージノード間で複製され得る。

記憶容量をさらに改善するために、イレイジャーコーディング（erasure coding）等の二重化（duplication）以外のデータ冗長方法（data redundancy method）が用いられ得る。データが符号化されず、データブロックの１つ以上のコピーが非故障ノード（non-failed node）から得られるデータ二重化とは異なり、データの一部がイレイジャーコーディングで符号化され、ノード故障の場合に再構成のために用いられる。しかしながら、コンテンツ主導的に分散されたデータのためのクラスタ内でデータ冗長のイレイジャーコーディング法をサポートするためには、符号化及び非符号化データの追跡に加えて、データ回復の提供及びデータブロックが変化した場合のデータの再符号化のために特定の技術が必要である。

本明細書における実施形態の上記の及びさらなる利点は、添付の図面と共に下記の説明を参照することによって、より理解され得る。添付の図面において、同様の参照番号は同一の又は機能的に同様の要素を示す。
図１は、ストレージクラスタとして相互接続された複数のストレージノードのブロック図である。図２はストレージノードのブロック図である。図３Ａはストレージノードのストレージサービスのブロック図である。図３Ｂはストレージサービスの例示の実施形態のブロック図である。図４はストレージノードの書き込みパスを示す図である。図５は、ブロック識別子の詳細を示すブロック図である。図６は、データブロックのイレイジャーコーディングに関するデータ保護スキームのための例示のワークフローを示す。図７は、符号化されたブロックの生成及び記憶に関するイレイジャコーディングベースのデータ保護スキームのための例示のワークフローを示す。図８は、データブロックの記憶及びイレイジャーコーディングのための方法の動作を説明するフローチャートである。図９は、イレイジャーコーディングシステムにおけるデータブロックの読み取り方法の動作を説明するフローチャートである。

概要
本明細書に記載の実施形態は、クラスタのストレージノードにより提供される論理ボリューム（「ボリューム」）のデータブロックのコンテンツ主導分散のために、複製及びイレイジャーコーディング等のデータ保護を提供するように構成された技術に関する。例示として、ノードのストレージサービスに割り振られた（すなわち割り当てられた）ビンに関連するデータブロックの暗号学的ハッシュ関数を用いて、データブロックがクラスタ内で分散される。暗号学的ハッシュ関数は、例示的に、クラスタのノード内でデータブロックが均等に分散され得るようにビットの満足なランダム分散を提供する。各ボリュームは、ボリュームのデータを記憶するデータブロックやボリュームのデータを記述するメタデータブロック等の一連のデータ構造として実施され得る。各ノードで実施されるストレージサービスは、メタデータを処理及び記憶するように構成された１つ以上のメタデータ（スライス）サービスを有するメタデータ層と、ノードのストレージデバイス上でデータを処理及び記憶するように構成された１つ以上のブロックサービスを有するブロックサーバ層とを含む。

複製（冗長）形式のデータ保護を提供する場合、ストレージノードのスライスサービスはクラスタ上に記憶するためにデータブロックの１つ以上のコピー又はレプリカを生成する。例えば、データの３重複製保護を提供する場合、スライスサービスは、クラスタ内の追加ストレージノードを永続的に記憶するためにデータブロックを同期して複製することにより、データブロックの３つのレプリカ（すなわち、オリジナルレプリカ０、「一次」レプリカ１及び「二次」レプリカ２）を生成する。複製されたデータブロックのそれぞれは、ストレージデバイス上での記憶のために各ノードのブロックサービスにより維持される割り当てられたビン内で例示的に整理される。スライスサービスは、データブロックの暗号学的ハッシュに基づいてデータブロックのための対応するビン番号を計算し、データブロックが書き込まれるストレージノードを特定するためにビン割り当てテーブルを参照する。このようにして、ビン割り当てテーブルは、クラスタ内のデータブロックのコピーを追跡する。次いで、ストレージノードのスライスサービスは、特定されたストレージデバイスに関連するブロックサービスにデータブロックのコピーを非同期にフラッシュするストレージ要求を発行する。とりわけ、ビンは、同じストレージノード又はストレージデバイス上にあるか等の関連性に基づいてビングループに編成され得る。

ブロックサービスは、イレイジャーコーディングの形態でデータ保護を提供する場合、イレイジャーコーディングすべきデータブロックを選択し得る。次に、一組のデータブロックをグループ化してイレイジャーコーディングのための書き込みグループを形成し得る。この技術によれば、書き込みグループのメンバーシップは、データが故障に対して耐性を有するようビングループを変化させることにより、例えば、ビン識別子内のビットのサブセットを変化させることに基づく割り当てによりガイドされる。スライスサービスは、異なるビンの（例えば、異なるビングループを有する）データブロック及びレプリカをそれらの関連するブロックサービスにルーティングする。実施は、展開のために選択されるＥＣスキームにより変化する（例えば、４＋２ＥＣと呼ばれる、４つのデータブロック及び訂正のための２つの符号化されたブロック）。ブロックサービスは、暗号学的ハッシュに従ってデータブロックをビンに割り当て、展開されたＥＣスキームに基づいて複数の異なるビンを共にグループ化する。例えば、４つのビンが４＋２ＥＣスキームで共にグループ化（すなわち、４つの符号化されていないデータブロック＋訂正情報を含む２つの符号化されたブロック）され、８つのビンが８＋１ＥＣスキームで共にグループ化され得る。異なるビンからのブロックの書き込みグループは、ビンに従って一時的にスプールされるデータブロックから選択され得る。すなわち、書き込みグループの異なるビンのデータブロックは、ビン単位で（by bin）一時的にスプールされたブロックのプールからビンに従って選択され（すなわち、選ばれ）、データ損失に対して耐性を有する異なる故障ドメインを有する広範なビンを表す。なお、データブロック（すなわち、符号化されていないブロック）だけがビンへの割り当てが必要であるのに対して、符号化されたブロックは、書き込みグループのデータブロックの参照により単に書き込みグループに関連付けられ得る。

例示として、ビンは、イレイジャーコーディングプロセスを効率化するやり方でビングループに割り当てられる。例えば、三重複製データ保護スキームの場合、各ビンの３つのレプリカのバージョン（オリジナルレプリカ０、一次レプリカ１及び二次レプリカ２）が生成され、ビングループ内のビンは、複数の異なるブロックサービスにわたってビンのオリジナルレプリカ０のバージョンが割り当てられ、ビンの一次レプリカ１のバージョンが異なるブロックサービスに割り当てられ、二次レプリカ２のバージョンがさらに別の異なるブロックサービスに割り当てられるように割り当てられる。データブロックは、選択されたイレイジャーコーディングの展開のために十分な数のブロックが利用可能になるまで、複製ベースのデータ保護スキームに従ってビンに記憶され得る。異なるブロックサービスのうちのマスターレプリカとして機能する１つ（マスターレプリカブロックサービス）はイレイジャーコーディングプロセスを調整し、各ビンからイレイジャーコーディングの候補となるデータブロックを選択する。マスターレプリカブロックサービスはデータブロックと書き込みグループを形成し、１つ以上の符号化された訂正（すなわち、パリティ）ブロック（例えば、一次及び二次パリティブロック）を生成する。符号化されたパリティブロックは、符号化されたブロックを生成するために用いられる各データブロックのためのブロック識別子と共に記憶される（すなわち、各パリティブロックは、それぞれのパリティブロックを生成するために用いられるデータブロックへの参照を含む）。各レプリカブロックサービスはストレージデバイス上の符号化されたデータブロック（例えば、一次及び二次パリティブロック）の位置を向くようにデータブロックの符号化されていないコピーのためのそのメタデータマッピングを更新し、データブロックに対する任意の読み取り要求が符号化されたブロックを返すことができる。符号化されたブロックのマッピングを記憶及び更新した後、マスターレプリカブロックサービスは、書き込みグループ内のデータブロックの符号化されていないコピーによって占有されていた記憶領域を解放し得る。

さらに、データブロックが非アクティブ、例えば削除されたとしてマークされる場合、削除されたデータブロックと同じビンに割り当てられた別のデータブロックが代替として割り当てられ、各レプリカブロックサービスのメタデータマッピングが置き換えられたブロックを参照するように更新され、適切なパリティブロックが再計算され得る。代替ブロックは、ビン単位で一時的にスプールされた一連のブロックから選択され得る。

説明
ストレージクラスタ
図１は、ストレージクラスタ１００として相互接続され、情報（すなわち、クラスタのストレージデバイス上でまとめられた記憶されたデータ及びメタデータ）のためのストレージサービスを提供するように構成された複数のストレージノード２００のブロック図である。ストレージノード２００はクラスタスイッチ１１０により相互接続され、クラスタ１００の分散型スケールアウト記憶アーキテクチャを提供するために協働する機能コンポーネントを含み得る。各ストレージノード２００のコンポーネントはハードウェア及びソフトウェア機能を含む。ノードがコンピュータネットワーク１３０を介して１つ以上のクライアント１２０に接続されてサービスを提供し、ストレージのストレージアレイ１５０に接続されて、ストレージサービスを分散記憶アーキテクチャに従ったものにする。

各クライアント１２０は、情報配信のクライアント／サーバモデルに従ってストレージノード２００とやり取りするように構成された汎用コンピュータとして具現化され得る。すなわち、クライアント１２０は、ネットワーク１３０を介してパケットを交換することにより、ノード２００のサービスを要求することができ、ノードはクライアントによって要求されたサービスの結果を返し得る。クライアントは、ファイル及びディレクトリ等のストレージオブジェクトの形態のストレージノード上の情報にアクセスする場合に、伝送制御プロトコル／インターネットプロトコル（ＴＣＰ／ＩＰ）を介したネットワークファイルシステム（ＮＦＳ）及び共通インターネットファイルシステム（ＣＩＦＳ）プロトコル等のファイルベースアクセスプロトコルを含むパケットを発行し得る。しかしながら、一実施形態では、クライアント１２０は、論理ユニット（ＬＵＮ）等のストレージオブジェクトの形態の情報にアクセスする場合、ＴＣＰカプセル化スモールコンピュータシステムインターフェイス（ＳＣＳＩ）プロトコル（ｉＳＣＳＩ）やＦＣカプセル化ＳＣＳＩ（ＦＣＰ）等のブロックベースのアクセスプロトコルを含むパケットを例示的に発行する。

図２は、システムバス２８０によって相互接続された１つ以上のプロセッサユニット（プロセッサ）２１０、メインメモリ２２０、不揮発性ランダムアクセスメモリ（ＮＶＲＡＭ）２３０、ネットワークインターフェイス２４０、１つ以上のストレージコントローラ２５０及びクラスターインターフェイス２６０を有するコンピュータシステムとして例示的に実施されたストレージノード２００のブロック図である。ネットワークインターフェイス２４０は、ポイントツーポイントリンク、ワイドエリアネットワーク、公衆ネットワーク（インターネット）又は共有ローカルエリアネットワークを介して実施される仮想プライベートネットワークを含み得るコンピュータネットワーク１３０を介してストレージノード２００をクライアント１２０に連結するように適合された１つ以上のポートを含み得る。そのため、ネットワークインターフェイス２４０は、ストレージノードをイーサネット又はファイバチャネル（ＦＣ）ネットワークを具現化し得るネットワーク１３０に接続するために必要な機械的、電気的及び信号回路を含む。

メインメモリ２２０は、本明細書に記載の実施形態に関連するソフトウェアプログラム及びデータ構造を記憶するために、プロセッサ２１０によってアドレス指定可能な記憶場所を含み得る。同様に、プロセッサ２１０は、ストレージサービス３００の１つ以上のメタデータサービス３２０ａ～ｎ及びブロックサービス６１０～６６０等のソフトウェアプログラムを実行し、データ構造を操作するように構成された処理要素及び／又は論理回路を含み得る。その一部がメモリ２２０内に通常常駐し(インコア)、処理要素（例えば、プロセッサ２１０）により実行されるオペレーティングシステム２２５は、ノードにより実施されるストレージサービス３００をサポート動作をとりわけ起動することによりストレージノードを機能的に組織化する。好適なオペレーティングシステム２２５は、ＵＮＩＸ（登録商標）シリーズ又はマイクロソフトＷｉｎｄｏｗｓ（登録商標）シリーズのオペレーティングシステム等の汎用オペレーティングシステム又はマイクロカーネル及び埋め込みカーネル等の設定可能な機能を有するオペレーティングシステムを含み得る。しかしながら、本明細書に記載の実施形態では、オペレーティングシステムは例示的にＬｉｎｕｘ（登録商標）オペレーティングシステムである。当業者であれば、本明細書の実施形態に関連するプログラム命令を記憶及び実行するために、様々なコンピュータ読み取り可能媒体を含む他の処理及び記憶手段が用いられ得ることが明らかであろう。

ストレージコントローラ２５０は、ストレージノード２００上で実施されるストレージサービス３００と協働して、クライアント１２０により要求された情報にアクセスする。情報は、フラッシュストレージデバイスとして例示的に具現化された内部ソリッドステートドライブ（ＳＳＤ）２７０等のストレージデバイスに加えて外部ストレージアレイ１５０のＳＳＤ（すなわち、ノードに取り付けられた追加のストレージアレイ）に記憶されることが好ましい。一実施形態では、フラッシュストレージデバイスは、ＮＡＮＤフラッシュコンポーネント（例えば単層セル（ＳＬＣ）フラッシュ、多層セル（ＭＬＣ）フラッシュ又は三層セル（ＴＬＣ）フラッシュ）に基づくブロック指向デバイス（すなわち、ブロックとしてアクセスされるドライブ）であり得るが、他のブロック指向の非揮発性ソリッドステート電子デバイス（例えば、ストレージクラスメモリコンポーネントに基づくドライブ）も本明細書に記載の実施形態と共に有利に用いられ得ることを当業者は理解するであろう。ストレージコントローラ２５０は、従来のシリアル接続ＳＣＳＩトポロジー及びシリアルＡＴＡトポロジー等のＩ／Ｏ相互接続構成を介してＳＳＤ２７０に連結されるＩ／Ｏインターフェイス回路を有する１つ以上のポートを含み得る。

クラスターインターフェイス２６０は、ストレージノード２００をクラスタ１００の他のノードに連結するように構成された1つ以上のポートを含み得る。一実施形態では、デュアル１０Ｇｂｐｓイーサネットポートがノード間通信に用いられ得るが、本明細書に記載の実施形態内で他の種類のプロトコル及び相互接続が利用され得ることは当業者に明らかであろう。ＮＶＲＡＭ２３０は、ストレージノード及びクラスタ環境の障害に照らしてデータを維持することができるバックアップバッテリ又は他のビルトインラストステート保持能力（built-in last-state retention capability）(例えば、ストレージクラスメモリ等の不揮発性半導体メモリ)を含み得る。

ストレージサービス
図３Ａは、ストレージクラスタ１００の各ストレージノード２００により実施されるストレージサービス３００のブロック図である。ストレージサービス３００は、クラスタ１００の分散型ストレージアーキテクチャを提供するために、ノード２００の他の機能コンポーネントと協働する１つ以上のソフトウェアモジュール又は層として例示的に構成される。一実施形態では、分散型ストレージアーキテクチャはコンポーネント（例えば、ネットワーク、メモリ及びコンピュータリソース）を集約及び仮想化して、大きなストレージプール、すなわちクラスタ１００全体のためのノード２００の内部ＳＳＤ２７０及び外部ストレージアレイ１５０を含む全てのストレージを有する単一ストレージシステムの抽象化を提示する。すなわち、アーキテクチャは、クラスタ全体のストレージを統合して、（それぞれが、４０９６バイト（４ＫＢ）又は５１２バイトのいずれかの論理ブロックサイズを有する１つ以上の論理ボリューム（「ボリューム」）に割り当てられ得る）ＬＵＮのストレージを可能にする。各ボリュームは、サイズ（ストレージ容量）及びパフォーマンス設定（サービスの品質）等の特性に加えてアクセス制御が設定され、その後、クライアントがブロックストレージプールとして好ましくはｉＳＣＳＩ及び／又はＦＣＰを介してアクセス可能（すなわち、エクスポート可能）となり得る。そして、クラスタ１００に対してノード２００のネットワーク、メモリ及びコンピュータリソースを拡大（加える）することにより、ストレージ容量及びパフォーマンスの双方が「スケールアウト」され得る。

各クライアント１２０は、ストレージノード２００により提供されるボリュームのデータにアクセスするために、入出力（Ｉ／Ｏ）要求、すなわちストレージ要求としてパケットを発行し得る。ストレージ要求は、ボリューム上に記憶するためのデータ（すなわち、書き込み要求）又はボリュームから取り出すためのデータ（すなわち、読み取り要求）に加えて、ボリュームの論理ブロックの大きさ及び長さに基づくボリューム内への論理ブロックアドレス（ＬＢＡ）又はインデックスの形態でのクライアントアドレス指定を含み得る。クライアントアドレス指定はメタデータとして具現化され、クラスタ内の各ノードがメタデータ及びデータをノードに連結されたストレージの異なるストレージデバイス（例えば、データをＳＳＤ２７０ａ～ｎ上に及びメタデータをＳＳＤ２７０ｘ上に）に記憶し得るように分散型ストレージアーキテクチャ内のデータから分離される。そのために、各ノード２００内で実装されるストレージサービス３００は、メタデータを処理して、例えばＳＳＤ２７０ｘ上に記憶するように構成された１つ以上のメタデータサービス３２０ａ～ｎを有するメタデータ層３１０と、データを処理して、例えばＳＳＤ２７０ａ～ｎ上に記憶するように構成された１つ以上のブロックサービス６１０～６６０を有するブロックサーバ層３３０を含む。例えば、メタデータサービス３２０ａ～ｎは、ボリューム上のデータにアクセスするのにクライアントが用いるクライアントアドレス指定（例えば、ＬＢＡインデックス）と、例えば、ＳＳＤのボリューム上にデータを記憶及び／又はボリューム上からデータを取り出しするためにブロックサービス６１０～６６０により用いられるブロックアドレス指定（例えば、ブロック識別子）との間でマップされる。

図３Ｂは、ストレージサービス３００の代替的な実施形態のブロック図である。ストレージノードに対してストレージ要求を発行する場合、通常、クライアント１２０はノードにより（例えば、インデックス又はＬＢＡを介して）エクスポートされたボリュームに接続する。効率的な実施を提供するために、メタデータ層３１０は代替的に１つ以上のボリュームサービス３５０ａ～ｎとして構造化され得る。各ボリュームサービス３５０はボリュームの粒度でメタデータサービス３２０の機能を行い得る、すなわち、ボリュームのためにメタデータを処理、記憶し得る。しかしながら、ボリュームのためのメタデータは、単一のボリュームサービス３５０が処理及び記憶するには大きすぎる場合がある。したがって、複数のスライスサービス３６０ａ～ｎが各ボリュームサービス３５０に関連付けられ得る。そのため、ボリュームのためのメタデータはスライスに分割され、メタデータのスライスは各スライスサービス３６０上に記憶され、各スライスサービス３６０上で処理され得る。ボリュームに対するストレージ要求に応答して、ボリュームサービス３５０は、そのボリュームのためのメタデータをどのスライスサービス３６０ａ～ｎが含むかを判定し、適切なスライスサービス３６０に該要求を転送する。

図４は、ストレージアレイ１５０のボリューム上にデータを記憶するためのストレージノード２００の書き込みパス４００を示す。一実施形態では、クライアント１２０により発行され、クラスタ１００のストレージノード２００（例えば、一次ノード２００ａ）で受信される例示の書き込み要求は次のような形態を有し得る。

書き込み（ボリューム、ＬＢＡ、データ）

ここで、ボリュームは書き込むべき論理ボリュームを指定し、ＬＢＡは書き込むべき論理ブロックアドレスであり、データは書き込むべきデータの論理ブロックサイズである。例示として、ストレージノード２００ａのスライスサービス３６０ａにより受信されたデータは４ＫＢのブロックサイズに分割される。ボックス４０２で、各４ＫＢデータブロックは、（データブロックのブロック識別子として記録される）１２８ビット（１６Ｂ）ハッシュ値を生成するために従来の暗号学的ハッシュ関数を用いてハッシュされ、内部ＳＳＤ２７０及び外部ストレージアレイ１５０上のデータをアドレス指定（特定）するためにブロックＩＤが例示的に用いられる。そのため、ブロックＩＤはデータブロックの内容に基づいて生成されるデータブロックの識別子である。従来の暗号学的ハッシュ関数、例えば、Ｓｋｅｉｎアルゴリズムは、この技術により用いられる１６Ｂハッシュ値／ブロックＩＤ内で満足のいくビットのランダム分散を提供する。ボックス４０４で、データブロックは従来の圧縮アルゴリズム、例えばＬＺＷ（Ｌｅｍｐｅｌ－Ｚｉｆ－Ｗｅｌｃｈ）を用いて圧縮され、圧縮されたデータブロックはボックス４０６ａでＮＶＲＡＭ２３０に記憶される。なお、一実施形態では、ＮＶＲＡＭ２３０は書き込みキャッシュとして具現化される。そして、圧縮されたデータブロックのそれぞれは、データ保護のためにクラスタ１００内の１つ以上の追加のストレージノード（例えば、二次ストレージノード２００ｂ）のＮＶＲＡＭ２３０に同期的に複製される（ボックス４０６ｂ）。クラスタ１００の複数のストレージノード２００ａ、ｂのＮＶＲＡＭ２３０ａ、ｂにデータブロックが無事に且つ永続的に記憶された場合に、確認応答がクライアントに返される。

図５はブロック識別子の詳細を示すブロック図である。一実施形態では、データブロックのためのコンテンツ５０２がストレージサービス３００により受信される。上述したように、受信されたデータはブロック識別子５０６を特定するために、ハッシュ関数５０４を用いて処理され得るコンテンツ５０２を有するデータブロックに分割される。すなわち、データは４ＫＢのデータブロックに分割され、各データブロックは、データブロックのブロックＩＤ５０６として記録される１６Ｂのハッシュ値を生成するためにハッシュされる。例示として、ブロックＩＤ５０６はストレージアレイ１５０の１つ以上のストレージデバイス２７０上のデータを特定するために用いられる。例示として、データは、ストレージデバイス上に記憶のために、ブロックサービス６１０～６６０によって維持されるビン内でまとめられる。ビンは、ブロックＩＤ５０６から所定数のビットを抽出することにより対応するデータブロックを記憶するために、ブロックＩＤから得られてもよい。

一実施形態では、ブロックＩＤから抽出された所定数のビットを拡大することにより、ビンをバケット又は「サブリスト」に分割され得る。例えば、ブロックＩＤのビンフィールド５０８は、ビンを特定する０～６５５３５の間（用いられる１６ビットの数に依る）のビンの番号（識別子）を生成するために用いられるブロックＩＤ５０６の第１の２つ（例えば、最上位）のバイト（２Ｂ）を含み得る。ビン識別子は特定のブロックサービス６１０～６６０及び関連するＳＳＤ２７０を特定するためにも用いられ得る。そして、サブリストフィールド５１０は、ビンを有するサブリストを特定する０～２５５の間（用いられる８ビットの数に依る）のサブリスト識別子を生成するのに用いられるブロックＩＤの次のバイト（１Ｂ）を含み得る。ビンをサブリストに分割することにより、ストレージノードの障害又はクラッシュが起きた場合にブロックサービス間でのデータのネットワーク転送（又は同期）がとりわけ容易になる。サブリスト識別子のために用いられるビットの数は初期値に設定されてもよく、必要に応じて後で調整してもよい。各ブロックサービス６１０～６６０は、ブロックＩＤと、その関連するストレージデバイス／ＳＳＤ、すなわちブロックサービスドライブ（ＢＳＤ）との間のマッピングを維持する。

例示として、ブロックＩＤ(ハッシュ値)は、ＳＳＤの容量に従ってビンの間でデータブロックを均等均衡（分散）配置（evenly balanced (distributed) arrangement）で分散するのに用いられ得る。均衡配置はＳＳＤ間の「連結」に基づく。すなわち、各ノード／ＳＳＤは、クラスタの同一の故障ドメイン、すなわち保護ドメインにない他のノード／ＳＳＤとほぼ同じ数のビンを共有する。その結果、データブロックはコンテンツに基づいてクラスタのノード全体に分散される（すなわち、データブロックのコンテンツ主導分散）。これは、故障が起きた場合にデータを再構築するのに有利である（すなわち、再構築）。クラスタのストレージノードの全てのＳＳＤ間で作業を均等に分散することにより、全てのＳＳＤがほぼ同じ量の作業（例えば、データの読み込み／書き込み）を行って素早く且つ効率的な再構築を可能にする。一実施形態では、各ブロックサービスは、ノードに連結されたストレージデバイス（例えば、内部ＳＳＤ２７０及び外部ストレージアレイ１５０）上のデータブロックの場所へのブロックＩＤのマッピングを維持する。

例示として、ビン割り当ては、クラスタ全体にわたる分散キー値ストア（distributed key value store）に記憶され得る。再び図４を参照して、分散キー値ストレージは、例えば、ビン割り当て（例えば、ビン割り当てテーブル）及びクラスタの全てのノードにわたって一貫した構成情報を記憶するのに用いられる分散された無共有の（すなわち、単一の争点及び単一点障害がない（no single point contention and failure））データベースを提供するように構成された「ズーキーパ（zoo keeper）」データベース４５０として具現化され得る。一実施形態では、１つ以上のノード２００ｃは、データ構造、例えばビン割り当てテーブル４７０に関連してビン割り当て（すなわち、マッピング）を維持するように構成されたズーキーパデータベース４５０に関連するサービス／プロセスを有する。例示として、分散ズーキーパは、例えば、クラスタ内の５つの選択されたノードに常駐し、他の全てのノードは選択されたノードのうちの１つに接続してビン割り当て情報を得る。そのため、これらの選択された「ズーキーパ」ノードは、クラスタ内のノードの異なる故障ドメインの間で分散された、複製されたズーキーパデータベースイメージを有するため、ズーキーパデータベースの単一点障害は存在しない。すなわち、他のノードは、現在のビン割り当てを得るためにそれらに最も近いズーキーパデータベースイメージ（ズーキーパノード）に対してズーキーパ要求を発行し、これはアクセス時間を改善するためにノードでキャッシュされ得る。

ＮＶＲＡＭ２３０ａ、ｂで受信及び記憶された各データブロックについて、スライスサービス３６０ａ、ｂは対応するビン番号を計算し、ビン割り当てテーブル４７０を参照してデータブロックが書き込まれるＳＳＤ２７０ａ、ｂを特定する。ボックス４０８ａ、ｂで、ストレージノード２００ａ、ｂのスライスサービス３６０ａ、ｂは、特定されたＳＳＤに関連する（例示的に６１０、６２０と表記された）ブロックサービスに対して、圧縮データブロックのコピーを非同期にフラッシュするストレージ要求を発行する。各スライスサービス３６０ａ、ｂによって発行され、各ブロックサービス６１０、６２０で受信される例示のストレージ要求は次のような形態を有し得る。

記憶（ブロックＩＤ、圧縮データ）

各ＳＳＤ２７０ａ、ｂ（又は外部ストレージアレイ１５０のストレージデバイス）のためのブロックサービス６１０、６２０は、データブロックのコピーをそれが以前記憶したかどうかを判定する。記憶していない場合、ブロックサービス６１０、６２０はブロックＩＤに関連する圧縮データブロックをＳＳＤ２７０ａ、ｂ上に記憶する。なお、集約されたＳＳＤのブロックストレージプールは、（データが何時書き込まれたか又は何処に由来するものかではなく）ブロックＩＤのコンテンツによりまとめられるため、クラスタの「コンテンツアドレス可能（content-addressable）」な分散ストレージアーキテクチャが提供される。そのようなコンテンツアドレス可能なアーキテクチャは、クラスタの少なくとも２つのＳＳＤ上に記憶された各データブロックの少なくとも２つのコピーを除き、ＳＳＤレベルでの（すなわち「ただで」で(for “free”)）「自動的な」データの重複排除を促進する。すなわち、分散ストレージアーキテクチャは、データのさらなるコピーのインライン重複排除を伴うデータの単一の複製を利用する。すなわち、ハードウェアの故障の場合に冗長性の目的のためにデータのコピーが少なくとも２つ存在する。

データブロックのコンテンツ主導分散のイレイジャーコーディング
本明細書に記載の実施形態は、クラスタのストレージノードにより提供されるボリュームのデータブロックのコンテンツ主導分散のデータ保護（例えば、複製及びイレイジャーコーディング）を提供するように構成された技術に関する。前述したように、データブロックは、ノードのストレージサービスに割り当てられた（すなわち、アサインされた）ビンに関連するデータブロックの暗号学的ハッシュ関数を用いてクラスタ内で分散され得る。暗号学的ハッシュ関数は、データブロックがクラスタのノード内で均等に分散されるように、十分なビットのランダム分散を提供する。各ボリュームは、ボリュームのためにデータを記憶するデータブロック及びボリュームのデータを記述するメタデータブロック等の一連のデータ構造として実施され得る。各ノードで実施されるストレージサービスは、メタデータを処理及び記憶するように構成された１つ以上のメタデータ（スライス）サービスを有するメタデータ層と、ノードのストレージデバイス上のデータを処理及び記憶するように構成された１つ以上のブロックサービスを有するブロックサーバ層とを含む。

データの耐久性を高めるために、ストレージノードは、ボリュームのデータブロックのために複製等のデータ保護を実施し得る。複製（冗長）の形態でデータ保護を提供する場合、ストレージノードはデータのブロックを複製し、複製したデータブロックを追加のストレージデバイスに送信する。ストレージノードのスライスサービスは、上述したようにクラスタ上に記憶するためにデータブロックの１つ以上のコピー又はレプリカを生成する。例えば、データの３重複製保護を提供する場合、スライスサービスは、クラスタ内の追加ストレージノードの永続的な記憶のためにデータブロックを同期的に複製することにより、データブロックの３つのレプリカ（すなわち、オリジナルレプリカ０、「一次」レプリカ１及び「二次」レプリカ２）を生成する。各複製されたデータブロックは、例示として、ストレージデバイス上に記憶のために、各ノードのブロックサービスにより維持される割り当てられたビン内で整理される。スライスサービスは、データブロックの暗号学的ハッシュに基づいてデータブロックのための対応するビン番号を計算し、ビン割り当てテーブルを参照してデータブロックが書き込まれるストレージノードのストレージデバイスを特定する。そして、ストレージノードのスライスサービスは、特定されたストレージデバイスに関連するブロックサービスに対して、データブロックのコピーを非同期的にフラッシュするための記憶要求を発行する。とりわけ、ビンは、同じストレージノード又はストレージデバイス上にある等の関連に基づいてビングループにまとめられ得る。

イレイジャーコーディングの形態でデータ保護を提供する場合、データブロックに加えて符号化ブロックをアルゴリズム的に生成するためにイレイジャーコードが用いられる。一般に、ＲｅｅｄＳｏｌｏｍｏｎ等のイレイジャーコードアルゴリズムは、ｎ個のブロックを用いてｋ個の追加のブロック（ｎ＋ｋ）を生成する（ここで、ｋはデータ保護のために用いられる冗長又は「パリティ」の符号化されたブロックの数である）。イレイジャーコード化されたデータにより、ｎ＋ｋブロックのうちの任意のｎ個のブロックから欠落ブロックを再構築することができる。例えば、８＋３イレイジャーコーディングスキーム（すなわち、ｎ＝８及びｋ＝３）は、８個のデータブロックを１１個のデータ／パリティブロックに変換する。そして、読み取り要求に応答して、１１個のブロックのうちの任意の８個からデータが再構築され得る。

一実施形態では、ブロックサービスは、イレイジャーコード化すべきデータブロックを選択し得る。そして、一群のデータブロックを共にグループ化して、イレイジャーコーディング（ＥＣ）グループが形成され得る。この技術によれば、書き込みグループのメンバーシップはビングループを変化させることにより、例えば、ビン識別子内のビットのサブセット（例えば、１６ビット識別子の上位１４ビット）を変化させることに基づく割り当てによりガイドされる。スライスサービスは、（例えば、異なるビングループを有する）異なるビンのデータブロック及びレプリカを、それらの関連するブロックサービスにルーティングする。実施は、展開のために選択されたＥＣスキーム（例えば、４＋２ＥＣと呼ばれる、４つのデータブロック＋訂正のための２つの符号化されたブロック）によって異なる。ブロックサービスは、それらが割り当てられたビンに従って（すなわち、各ブロックの暗号学的ハッシュに従ったビン割り当てテーブルに基づいて）データブロックをまとめて、展開されたＥＣスキームに基づいて複数の異なるビンを共にグループ化（すなわち、書き込みグループを形成）し得る。例えば、４＋２ＥＣスキームで４つのビンがグループ化され(すなわち、４つの符号化されていないデータブロック＋訂正情報を有する２つの符号化されたブロック)、８＋１ＥＣスキームで８つのビンが共にグループ化され得る。異なるビンからのブロックの書き込みグループは、ビンに従って一時的にスプールされたデータブロックから選択され得る。すなわち、書き込みグループの異なるビンのデータブロックは、ビン単位で一時的にスプールされたブロックのプールからビンに従って選択され（すなわち、選ばれ）、データ損失に対して耐性を有する異なる故障ドメインの広範なビンを表す。なお、データブロック(すなわち、符号化されていないブロック)だけビンに割り当てる必要があるのに対して、符号化されたブロックは、書き込みグループのデータブロックの参照により、単に書き込みグループに関連付けられ得る。とりわけ、複製は、スライスサービスがブロックサービスにデータブロック及びそれらの複製をルーティングすることによって実質的に行われるのに対して、ブロックサービスは、符号化（例えば、パリティ）されたブロックを有する書き込みグループをまとめることにより、スライスサービスから受信したデータブロックをイレイジャーコーディングされ得る。

例示として、ビンは、イレイジャーコーディングプロセスを合理化するやり方でビングループに割り当てられる。本明細書で用いられるように、ビングループは、イレイジャーコーディングを用いたデータ保護のためにデータブロックを選択すべきビンを特定する。例えば、各ビンの３つのレプリカバージョン（オリジナルレプリカ０、一次レプリカ１及び二次レプリカ２）が生成される三重複製データ保護の場合、ビンのオリジナルレプリカ０のバージョンが複数の異なるブロックサービスにわたって割り当てられ、ビンの一次レプリカ１のバージョンが異なるブロックサービスに割り当てられ、二次レプリカ２のバージョンがさらに別の異なるブロックサービスに割り当てられるようにビングループ内のビンが割り当てられる。データブロックは、選択されたイレイジャーコーディング展開のために十分な数のブロックが利用可能になるまで、複製ベースのデータ保護スキームに従ってビンに記憶され得る。

異なるブロックサービスのうちのマスターレプリカとして機能する１つ（マスターレプリカブロックサービス）はイレイジャーコーディングプロセスを調整し、各ビン（すなわち、書き込みグループ）からイレイジャーコーディングの候補となるデータブロックを選択する。マスターレプリカブロックサービスはデータブロックと書き込みグループを形成し、１つ以上の符号化された訂正（すなわち、パリティ）ブロック（例えば、一次及び二次パリティブロック）を生成する。符号化されたパリティブロックは、符号化されたブロックを生成するために用いられる各データブロックのためのブロック識別子と共に記憶される（すなわち、各パリティブロックは、それぞれのパリティブロックを生成するために用いられるデータブロックへの参照を含む）。マスターレプリカブロックサービスは、ストレージデバイス上の符号化されたデータブロック（例えば、一次及び二次パリティブロック）の位置を向くように（すなわち、参照するように）データブロックの符号化されていないコピーのためのそのメタデータマッピングを更新し、データブロックに対する任意の読み取り要求が符号化されたブロックを返すことができる。符号化されたブロックのマッピングを記憶及び更新した後、マスターレプリカブロックサービスは、書き込みグループ内のデータブロックの符号化されていないコピーによって占有されていた領域を解放し得る。

図６及び図７は、データブロックのイレイジャーコーディングに関するデータ保護スキームのための例示のワークフローを示す。なお、ワークフローには、動作のステージを表す一連の文字Ａ～Ｇを付す。ステージはワークフローのために順序付けられているものの、開示の理解を助けるための一例を示すものであり、特許請求の範囲を限定するために用いられるべきではない。特許請求の範囲に含まれる主題は、順序及び動作の一部に関して変化し得る。

図６のワークフロー６００を参照して、ブロックサービス６１０～６６０は、クラスタ１００の自身のストレージノード２００上でそれぞれ実行してもよいし、全てが同じノード上で実行してもよいし又はこれらの任意の組み合わせであってもよい。ブロックサービス６１０、ブロックサービス６２０、ブロックサービス６３０及びブロックサービス６４０は、ビンがそれらに対応するブロックサービスに割り当てられ且つ管理されるようにビン０、ビン１、ビン２、及びビン３（「ビン」と総称する）をそれぞれ維持（「ホスト」）する。なお、各ブロックサービスには追加のビンがさらに割り当てられ、それらを管理し得る。

ステージＡで、ブロックサービス６５０は、ビングループを指定するビングループ割り当て６０５を受信する。ビングループ割り当ては、クラスタ内でブロックを分散するのに用いられる暗号学的ハッシュから計算されたブロックＩＤのビットのサブセットに基づき得る。例えば、ブロックＩＤの下位ビットｎは、ＥＣスキームで用いられる複数の２^ｎ入力データブロックに従って用いられ得る。すなわち、ビングループ内のビンの数は、イレイジャーコーディングスキームのための複数の入力データブロックに対応し、例えば、（ワークフロー６００に記載の）４＋２ＥＣスキームは４つのビンを用いる。そのため、ビングループ割り当て６０５は、ビン０、ビン１、ビン２及びビン３という４つのビン（例えば、２^２＝４のデータブロックとして、ブロックＩＤの下位２ビット）を指定する。ビングループ割り当て６０５は、一次（マスター）レプリカブロックサービス６５０及び二次レプリカブロックサービス６６０が各ビンについてレプリカを記憶ように指定する。割り当て「６５０：１」及び「６６０：２」により示されるように、レプリカ１をホスティングするブロックサービスは、ビングループ内の各ビンのためにマスターブロックサービス６５０と指定され、二次レプリカブロックサービス６６０は、ビングループ内の各ビンのためにレプリカ２をホストする。ビングループ割り当て６０５はクラスター１００のマスター／マネージャー（「クラスターマスター／マネージャー」）又はビン割り当てを取り扱う他のサービス(図示せず)により生成され得る。

クラスタ１００は、クラスタ１００によってサポートされるデータ保護スキームに応じて各ビンの複数のバージョン又はコピーを含み得る。例えば、三重複製及び４＋２イレイジャーコーディングスキームの場合、クラスタ１００は様々なブロックサービスによってホストされるレプリカ０、レプリカ１及びレプリカ２と呼ばれる各ビンの３つのバージョンを含む。イレイジャーコーディングに基づく保護スキームをサポートするために、ビン割り当てサービスは、（ｉ）ビングループのために選択されたビンの各オリジナルレプリカ０のバージョンが異なるブロックサービスに割り当てられる（例えば、ビン０～３がブロックサービス６１０～６４０にわたって割り当てられる）こと、（ｉｉ）ビンの一次レプリカ1のバージョンが同じブロックサービスに割り当てられる（例えば、レプリカ１の全てがマスターレプリカブロックサービス６５０に割り当てられる）こと及び（ｉｉｉ）ビンの二次レプリカ２のバージョンが同じブロックサービスに割り当てられる（例えば、レプリカ２の全てが二次レプリカブロックサービス６６０に割り当てられる）ことを確実にする。

ビン割り当てサービスは、ビンが異なる障害ドメインにわたって位置するようにビンを割り当ててもよい。例えば、各ビンは、異なるソリッドステートドライブ（ＳＳＤ）、異なるストレージノード及び／又は異なるシャーシに割り当てられてられるか又はそれらから選択され得る。さらに、ビン割り当てサービスは、ストレージデバイスが同じビングループ（すなわち、書き込みグループ）から１つのブロックしか記憶しないことを確実にするために、ブロックサービスホストが同じのビンのためのブロックのレプリカをホストしないよう確実にし得る。ビン割り当てサービスは、一次レプリカブロックサービス６５０及び二次レプリカブロックサービス６６０を含む全てのブロックサービスにビングループ割り当て６０５が利用可能になるようにする。上述したように、ブロックサービス６５０は一次符号化レプリカをホストするため、イレイジャーコーディングプロセスを調整するためにビングループ割り当て６０５を用いるマスターレプリカブロックサービス６５０として機能するのに対して、ブロックサービス６６０は二次符号化レプリカをホストし、二次レプリカブロックサービス６６０として機能する。

ステージＢでは、データブロックＡ～Ｄは、データブロックのレプリカ０コピーのためのビンをホストするブロックサービス（例えば、それぞれビン０、ビン１、ビン２、ビン３をホスト）にフラッシュ(「書き込み」)される。例えば、ブロックＡは第１のボリュームからのデータの一部であり、ブロックＢは第２のボリュームからのデータであり得る。加えて、データブロックは、記憶される前に圧縮又は暗号化され得る。データブロックは、ブロックサービスのそれぞれに割り当てられたビンにわたって記憶される。上述したように、データブロックは、ブロックＩＤ５０６のビンフィールド５０８の「先頭」ビットに基づいて、（ビン番号により特定される）ビンに割り当てられ且つ記憶され得る。例えば、ブロックＡは、ビンフィールド５０８内の先頭ビット０を有するビン番号に基づいてビン０に割り当てられ得る。

重複排除の結果、データブロックは、複製及び／又はイレイジャーコーディングスキーム等の異なるデータ保護スキームを有する複数ボリュームにより用いられるデータを含むことができる。この技術によれば、各データブロックは、データブロックを用いるボリュームのうちの任意の１つにより設定される最高レベルの保護スキーム（すなわち、要求される最高の故障耐性（highest required failure tolerance））で保護される。図６のワークフロー６００では、各データブロックは、４＋２イレイジャーコーディングスキームで構成された少なくとも１つのボリュームに属する。

ステージＣ及びＤで、データブロックは、レプリカブロックサービス６５０及び６６０によりホストされるビンのレプリカに書き込まれる。ワークフロー６００のステージは、各ブロックがブロックサービスに書き込まれるか又はフラッシュされる順序を概して示すが、ステージＢ及びＣは並行して起こり得る。しかしながら、ステージＤは、データブロックがブロックサービス６５０で受信された場合に、データブロックが他のブロックサービスによって正常に記憶されることマスタレプリカブロックサービス６５０が確実にできるように、ステージＢ及びＣの後に起こる。例えば、ブロックＡは先ずブロックサービス６１０にフラッシュされ、ステージＢでビン０に書き込まれ、ステージＣでは、ブロックＡは、二次レプリカブロックサービス６６０によってビン０の二次レプリカに書き込まれる。最後に、ステージＤで、ブロックＡは、マスターレプリカブロックサービス６５０によりビン０のマスターレプリカに書き込まれる。データブロックのそれぞれはこの順番で書き込まれることが好ましい。ブロックサービス６５０は、イレイジャーコーディングプロセスを調整するように構成されたマスターレプリカブロックサービスであるため、ブロックサービス６５０がイレイジャーコーディングプロセスを開始する前に、データブロックが全てのブロックサービスにわたって完全に複製されることを確実にするために、データブロックは最後にマスターレプリカブロックサービス６５０に書き込まれる。データブロックが受信され、ビングループの各ビンから利用可能になると、マスターレプリカブロックサービス６５０は、図７に記載されるようにイレイジャーコーディングプロセスを開始できる。

しかしながら、一部の実施形態では、イレイジャーコーディングの前に、ステージＣ及びＤでレプリカブロックサービス６５０及び６６０にデータブロックを書き込むことは必要でない。例えば、マスターレプリカブロックサービス６５０は、データブロックが最初に複製されることなく、ブロックサービス６１０～６４０からデータブロックを読み取って図６に示すように符号化されたブロックを生成し得る。しかしながら、イレイジャーコーディングの前にデータブロックを書き込むことは、イレイジャーコーディングプロセスが保留中である間に、設定されたボリューム（データ）保護スキーム又はデータ保護に関連するサービスレベルアグリーメント（ＳＬＡ）が満たされることが確実になる。上述したように、データブロックは異なる時に書き込まれ得る。例えば、ブロックＡが書き込まれる時間とブロックＤが書き込まれる時間との間で有意な時間が経過し得る。したがって、ブロックＡ及び他のデータブロックが、ボリュームのデータ保護スキーム又はＳＬＡによって要求されるように、２つの故障を許容できることが確実になるように、データブロックは３重に重複され、イレイジャーコーディングプロセスが完了するまで３重に重複されたまま留まる。

図７のワークフロー７００は、ワークフロー６００（図６）の続きであり、符号化されたブロックの生成及び記憶を示す。ステージＥで、マスターレプリカブロックサービス６５０は、データブロックＡ、Ｂ、Ｃ、及びＤを有する書き込みグループを特定及び形成する。書き込みグループを形成する場合、マスターレプリカブロックサービス６５０は、ビングループ割り当て６０５で特定される各ビンから１つのブロックを選択する。ブロックは、同様のサイズのブロックを選択すること等、様々なヒューリスティクスに従って選択され得る。

ステージＦで、マスターレプリカブロックサービス６５０は符号化されたパリティブロックＰを生成してそれ自身の記憶装置に、例えばＢＳＤ内に記憶し、符号化されたパリティブロックＱを生成し、符号化されたブロックＱと共に書き込みコマンドを二次レプリカブロックサービス６６０に送信してそれ自身のＢＳＤに記憶させる。マスターレプリカブロックサービス６５０は、データブロックＡ、Ｂ、Ｃ及びＤのそのレプリカを読み取り、イレイジャーコーディングアルゴリズムを用いてそれらを処理して、符号化されたパリティブロックＰ及び符号化されたパリティブロックＱを生成する。一部の場合では、イレイジャーコーディングスキームのために十分なブロックがない場合、例えば、３つのブロックしか利用可能でない場合、マスターレプリカブロックサービス６５０は、実際のデータブロックの代替として０又は１のブロックを用いるように構成できる。マスターレプリカブロックサービス６５０は、データブロックが閾値となる期間の間符号化されていない場合又は前に符号化され削除されたブロックを置換するために上記のように構成され得る。

一部の実施では、符号化されたパリティブロックＱを生成する代わりに、マスターレプリカブロックサービス６５０は、書き込みグループ内のデータブロックのためのブロック識別子（ブロックＩＤ）を第２のレプリカブロックサービス６６０に送信し、第２のレプリカブロックサービス６６０が符号化されたパリティブロックＱを生成する。例示として、データブロックＡ、Ｂ、Ｃ及びＤのそれぞれのためのブロックＩＤと共に符号化されたパリティブロックが記憶される。例えば、ブロックＩＤが符号化されたパリティブロックに付加されるか又は先頭に付加され得る。マスターレプリカブロックサービス６５０は、データブロックＡ、Ｂ、Ｃ及びＤのための例えば、各マップフラグメントのメタデータエントリをデータブロックのための既存の位置マッピングに加えて、ブロックサービス６５０のＢＳＤ上の符号化されたパリティブロックＰを指し示すマッピングを用いて更新する。二次レプリカブロックサービス６６０は、ブロックサービス６６０のＢＳＤ上の符号化されたパリティブロックＱの位置を含むようにデータブロックのためのそのマッピングを同様に更新する。

一実施形態では、一部のイレイジャーコーディングアルゴリズムは、ブロックが同じサイズであることを必要とする。データブロックのいずれかのサイズが異なる場合、データブロックは最大データブロックのサイズまで最大でパディングされるか又はビット（０又は１）が埋め込まれ得る。各データブロックの元の長さは、符号化されたパリティブロックＰ及び符号化されたパリティブロックＱと共に記憶されるため、データブロックに加えられたパディングを復号の後に取り除くことができる。加えて、データブロックは、異なる圧縮アルゴリズムを用いて圧縮され得る。データブロックに対して用いられる圧縮アルゴリズムは、バックグラウンド再圧縮（background recompression）等の記憶最適化が行われるのにつれて変化し得る。符号化されたパリティブロックが作成された時にデータブロックに適用される圧縮アルゴリズムも、符号化されたブロックと共に記憶される。復号化処理の間、元の圧縮アルゴリズム（すなわち、符号化時に適用されるアルゴリズム）は、復号化処理で用いられる符号化されていないデータブロックの現在の圧縮アルゴリズムと比較される。圧縮アルゴリズムが一致しない場合、データブロックは伸長され、その後に復号化の前の元の圧縮アルゴリズムを用いて再圧縮される。

符号化されたパリティブロックＰ及びＱが作成されているため、データブロックＡ、Ｂ、Ｃ及びＤは４＋２イレイジャーコーディングスキームで保護され、２つの故障の後でも読み取ることができる。その結果、記憶領域を解放することができるためにデータブロックの符号化されていないコピーを削除され得る。したがって、ステージＧで、マスターレプリカブロックサービス６５０は、データブロックＡ、Ｂ、Ｃ及びＤの符号化されていないコピーを非アクティブとしてマークし、それらのマークされたデータブロックのコピーをその記憶装置（ＢＳＤ）から削除する。同様に、二次レプリカブロックサービス６６０は、データブロックＡ、Ｂ、Ｃ及びＤを（非アクティブとして）マークし、その後にそれらのマークしたデータブロックのコード化されていないコピーをその記憶装置（ＢＳＤ）から削除する。データブロックの削除は、ブロックのためのブロック識別子をメタデータから削除すること又はデータブロックにより消費される記憶領域をフリーとして示すことを含み得る。

一部の実施では、レプリカブロックサービス６５０及び６６０は、データブロックＡ、Ｂ、Ｃ及びＤの符号化されていないコピーを残し、データブロックＡ、Ｂ、Ｃ及びＤのそれぞれのために２つ（又は３つ）のマッピングを含むようメタデータを更新し得る。一般に、メタデータは、所定のブロック識別子のための複数のエントリを有し、そのエントリは、所定の要求に対して最適な結果を返すことができるようにメタデータの同じ領域（例えば、マップフラグメント）で例示的に維持される。場合によっては、データブロックの符号化されていないコピーを用いた方がリクエストに良好に応えることができる場合がある一方、他のリクエストはブロックの符号化されたパリティコピーを必要とし得る。そのような実施では、ガーベジコレクション及び／又はリサイクル処理が実行されるまで、符号化されていないデータブロックは（読み取り動作を介して）読み出しのために利用可能な状態で留まる。ガーベジコレクション及び／又はリサイクルプロセスは、記憶領域が必要な場合にデータブロックを削除し得る。一部の場合では、ガーベジコレクション及び／又はリサイクルプロセスは、記憶領域を取り戻す必要がないと判断し、データブロックを記憶されたままにし得る。

上述したものと同様の動作を異なるイレイジャーコーディングスキームのために利用できる。本明細書に記載のワークフロー６００及び７００では４＋２イレイジャーコーディングスキームが利用されるため、４つのビン及び各ビンの２つのレプリカ（すなわち、データブロックの３つの全コピー）を含むビングループが生成される。すなわち、ＥＣ及び複製符号化データ冗長スキームとの間で一貫したレベルの冗長性を維持するために、ＥＣスキームの符号化された（すなわち、訂正）ブロックの数に等しい数の複製が用いられる。

図８は、ストレージサービス３００におけるデータブロック（ブロック８００）の記憶及びイレイジャーコーディングのための方法の動作を示すフローチャートである。大まかに言うと、この動作はイレイジャーコーディングのためにデータブロックを記憶及び選択ことに加えて、符号化されたパリティブロックを生成するための動作及びデータブロックの符号化されていないコピーにより以前占有されていた記憶領域の解放を可能にする記帳（bookkeeping）動作に関する。ブロック８０２で、ストレージサービスは、本明細書で記載したように、選択されたイレイジャーコーディングスキームが合理化されるようなやり方でビングループ割り当てを生成、すなわち、ビングループにビンを割り当てる。異なるビンからのブロックのビングループは、一時的にスプールされたブロックのプールのデータブロックから選択され得る。すなわち、ビングループの異なるビンのデータブロックは、ビン単位で一時的にスプールされたブロックのプールからビンに従って選択され得る。とりわけ、データブロック（すなわち、符号化されていないブロック）だけビンに割り当てる必要があるのに対して、符号化されたブロックは書き込みグループのデータブロックへの参照により単に書き込みグループに関連付けられ得る。

ブロック８０４で、各（符号化されていない）データブロックは、ビングループ割り当てに従って記憶され、判定ブロック８０６で、イレイジャーコーディングのために十分な数のデータブロックが利用可能であるかどうか判定される。イレイジャーコーディングスキームのために十分なデータブロックが存在しないと判定された場合、ストレージサービス（例えば、ブロックサービス）は、実際のデータブロックの代替として０又は１のデータブロックを作成し、その代替ブロックをビングループ割り当てに従って記憶する（ブロック８０４）。さもなければ、ブロック８０８で、選択されたイレイジャーコーディングスキームに従って十分な数のデータブロックを有する書き込みグループが形成される。ブロック８１０で、書き込みグループ内の（符号化されていない）データブロックに基づいて符号化されたパリティブロックが生成され、ブロック８１２で、符号化されたパリティブロックが割り当てられた（レプリカ）ブロックサービスに記憶され、適切なメタデータマッピングが更新される。ブロック８１４で、書き込みグループ内のデータブロックの（符号化されていない）コピーが非アクティブとしてマークされ、その後に、記憶領域を解放するために必要に応じて削除される。この方法はブロック８１６で終了する。さらに、データブロックが不活動（inaction）に、例えば削除された場合、削除されたデータブロックと同じビンに割り当てられた別のデータブロックが代替として割り当てられ、各レプリカブロックサービスのメタデータマッピングが置き換えられたブロックを参照するように更新され、適切なパリティブロックが再計算され得る。代替ブロックは一時的にスプールされたブロックのプールから選択され得る。

図９は、ストレージサービス３００のイレイジャーコーディングスキーム（ブロック９００）においてデータブロックを読み取るための方法の動作を示すフローチャートである。大まかに言うと、動作は、イレイジャーコーディングスキームにより保護されているデータブロックを読み取ることに加えて、書き込みグループ内の他のデータブロック及び１つ以上のイレイジャーコーディングされたブロックを用いてデータブロックを再作成することに関する。図９は、ターゲットブロックを読み出すために、劣化した読み取り、例えば、レプリカ０のために記憶されたデータブロックがもはや利用可能でない場合の読み取り動作で取られる方法ステップも示す。この動作は、ターゲットブロックの符号化されていないバージョンの有無のために、他のブロックサービス、例えば、ビンのレプリカ１及びレプリカ２のバージョンをホストする一次及び二次ブロックサービスを確認すること及びターゲットブロックの符号化されたコピーを復号化する目的で、書き込みグループ内の他のデータブロックを読み取ることを含むことができる。

ブロック９０２で、第１のデータブロックの符号化されていないコピーをホストするブロックサービスに読み取り要求が送信される。判定ブロック９０４で、ブロックサービスが第１のデータブロックを返したしたかどうか判定される。そうである場合は、読み取り要求に応答して第１のデータブロックが供給され（ブロック９２０）、その方法はブロック９２２で終了する。さもなければ、第１のデータブロックのための一次レプリカをホストするマスターレプリカブロックサービスに読み取り要求が送信される（ブロック９０６）。判定ブロック９０８で、マスターレプリカブロックサービスが第１のデータブロック又は第１のブロックの符号化されたパリティバージョンを返したかどうか判定される。第１のデータブロックが返された場合、読み取り要求に応答してデータブロックが供給され（ブロック９２０）、方法はブロック９２２で終了する。さもなければ、データブロックをイレイジャーコーディング（ブロック９１０）するために用いられるデータブロックのためにブロック識別子が読み取られ、ブロック９１２で、特定されたデータブロック及び第１のデータブロックのための二次レプリカをホストするブロックサービスに対して読み取り要求が発行される。判定ブロック９１４で、いずれかのブロックサービスが第１のデータブロックを返したかどうかを判定し、返している場合には、応答としてそのブロックがブロック９２０で提供される。さもなければ、返されたブロックの圧縮は、符号化されたパリティブロックにおいて特定される適切な圧縮アルゴリズムに合致するように（必要に応じて）変更され（ブロック９１６）、第１のデータブロックは、返されたブロックを用いて復号される（ブロック９１８）。そして、第１のデータブロックが応答として供給され（ブロック９２０）、本方法はブロック９２２で終了する。

前述の説明は特定の実施形態に関するものである。しかしながら、説明した実施形態に、それらの利点の一部又は全部の実現を伴って他の変更及び修正が加えられ得ることは明らかであろう。例えば、本明細書に記載のコンポーネント及び／又は要素は、コンピュータ、ハードウェア、ファームウェア又はそれらの組み合わせ上で実行されるプログラム命令を有する有形の（非一時的な）コンピュータ読み取り可能媒体（例えば、ディスク、電子メモリ及び／又はＣＤ）上に符号化されたソフトウェアとして実施できることが明確に企図される。したがって、本説明は一例にすぎず、本明細書の実施形態の範囲を限定するものではない。したがって、添付の特許請求の範囲の目的は、本明細書の実施形態の真の精神及び範囲内にある全てのそのような変更及び修正をカバーすることである。

Claims

クラスタ内のストレージノードの一連のブロックサービスにわたって記憶された一群のデータブロックを選択するステップであって、前記クラスタにわたって前記ブロックサービスにビンが割り当てられ、前記一群のデータブロックのそれぞれは、前記データブロックのそれぞれの内容から計算されるブロック識別子（ブロックＩＤ）のフィールドに基づいて対応するビンに割り当てられ、前記一群のデータブロックのそれぞれは、前記一連のブロックサービスにわたって少なくとも１回複製されている、ステップと、
前記一群のデータブロックに基づいて第１の符号化されたパリティブロックを生成するステップと、
前記第１の符号化されたパリティブロックを第１のブロックサービス上に記憶するステップであって、前記第１の符号化されたパリティブロックは符号化されたレプリカとして示されている、ステップと、
前記一群のデータブロックのそれぞれの少なくとも１つの複製を削除のためにマークするステップと、
を含む方法。
前記第１の符号化されたパリティブロックの場所への参照を前記第１のブロックサービスにより維持するステップをさらに含む、請求項１に記載の方法。
前記第１の符号化されたパリティブロックと共に前記一群のデータブロック内の前記データブロックのそれぞれのためのブロックＩＤを記憶するステップをさらに含む、請求項１に記載の方法。
前記一群のデータブロックのうちの第１のデータブロックを読み取れないと判定するステップと、
前記符号化されたパリティブロック及び前記一群のデータブロックのうちの残りの読み取り可能なデータブロックから前記第１のデータブロックを復号化するステップと、
をさらに含む、請求項１に記載の方法。
前記一群のデータブロックに基づいて前記第１の符号化されたパリティブロックを生成するステップは、
前記一群のデータブロックのサイズに合致するように第１のデータブロックをパディングすることをさらに含む、請求項１に記載の方法。
前記一群のデータブロックのそれぞれに関連するブロックサービスの識別子（ＢＳＩＤ）を有するとともに、前記一群のデータブロックの少なくとも１つの複製のそれぞれに関連する識別子を有するテーブルを維持するステップをさらに含む、請求項１に記載の方法。
前記一群のデータブロックのブロックＩＤを第２のブロックサービスに送信するステップと、
前記ブロックＩＤに基づいて、前記第２のブロックサービスにより第２の符号化されたパリティブロックを生成するステップと、
前記第２のブロックサービス上に前記第２の符号化されたパリティブロックを記憶するステップと、
をさらに含む、請求項１に記載の方法。
前記一連のブロックサービスにわたって記憶された一群のデータブロックを選択するステップは、一時的にスプールされたデータブロックのプールから前記一群のデータブロックを選択することをさらに含む、請求項１に記載の方法。
前記一群のデータブロックのうちの第１のデータブロックが削除のためにマークされていると判定するステップと、
前記第１のデータブロックのための代替データブロックを一時的にスプールされたデータブロックのプールから選択するステップであって、該代替データブロックは前記第１のデータブロックと同じビン識別子に関連し、該同じビン識別子は前記データブロックのそれぞれのブロックＩＤのフィールドから決定される、ステップと、
をさらに含む、請求項１に記載の方法。
前記第１のブロックサービスは、前記一群のデータブロックの各ブロックの少なくとも１つの複製を含む、請求項１に記載の方法。
それぞれが１つ以上のストレージデバイスに連結されるノードのクラスタを含むシステムであって、前記クラスタの各ノードはプロセッサ及びメモリを含み、該メモリは、
前記ノードの一連のブロックサービスにわたって記憶された一群のデータブロックを選択するように構成されたプログラム命令であって、前記クラスタにわたって前記ブロックサービスにビンが割り当てられ、前記一群のデータブロックのそれぞれは、前記データブロックのそれぞれの内容から計算されるブロック識別子（ブロックＩＤ）のフィールドに基づいて対応するビンに割り当てられ、前記一群のデータブロックのそれぞれは、前記一連のブロックサービスにわたって少なくとも１回複製されている、プログラム命令と、
前記一群のデータブロックに基づいて第１の符号化されたパリティブロックを生成するように構成されたブログラム命令と、
前記第１の符号化されたパリティブロックを第１のブロックサービス上に記憶するように構成されたプログラム命令であって、前記第１の符号化されたパリティブロックは符号化されたレプリカとして示される、プログラム命令と、
前記一群のデータブロックのそれぞれの少なくとも１つの複製を削除のためにマークするように構成されたプログラム命令と、
を含む、システム。
プログラム命令を有する前記メモリは、前記第１の符号化されたパリティブロックの場所への参照を前記第１のブロックサービスにより維持するように構成されたプログラム命令をさらに含む、請求項１１に記載のシステム。
前記第１の符号化されたパリティブロックと共に前記一群のデータブロック内の前記データブロックのそれぞれのためのブロックＩＤを記憶するように構成されたプログラム命令をさらに含む、請求項１１に記載のシステム。
プログラム命令を有する前記メモリは、
前記一群のデータブロックのうちの第１のデータブロックを読み取れないと判定するように構成されたプログラム命令と、
前記符号化されたパリティブロック及び前記一群のデータブロックのうちの残りの読み取り可能なデータブロックから前記第１のデータブロックを復号化するように構成されたプログラム命令と、
をさらに含む、請求項１１に記載のシステム。
前記一群のデータブロックに基づいて前記第１の符号化されたパリティブロックを生成するように構成されたプログラム命令を有する前記メモリは、前記一群のデータブロックのサイズに合致するように第１のデータブロックをパディングするように構成されたプログラム命令をさらに含む、請求項１１に記載のシステム。
プログラム命令を有する前記メモリは、前記一群のデータブロックのそれぞれに関連するブロックサービスの識別子（ＢＳＩＤ）を有するとともに、前記一群のデータブロックの少なくとも１つの複製のそれぞれに関連する識別子を有するテーブルを維持するように構成されたプログラム命令をさらに含む、請求項１１に記載のシステム。
プログラム命令を有する前記メモリは、
前記一群のデータブロックのブロックＩＤを第２のブロックサービスに送信するように構成されたプログラム命令と、
前記ブロックＩＤに基づいて、前記第２のブロックサービスにより第２の符号化されたパリティブロックを生成するように構成されたプログラム命令と、
前記第２のブロックサービス上に前記第２の符号化されたパリティブロックを記憶するように構成されたプログラム命令と、
をさらに含む、請求項１１に記載のシステム。
一連のブロックサービスにわたって記憶された一群のデータブロックを選択するように構成されたプログラム命令を有する前記メモリは、一時的にスプールされたデータブロックのプールから前記一群のデータブロックを選択するように構成されたプログラム命令を含む、請求項１１に記載のシステム。
前記第１のブロックサービスは、前記一群のデータブロックの各ブロックの少なくとも１つの複製を含む、請求項１１に記載のシステム。
１つ以上のプロセッサ上にプログラム命令を含む非一時的なコンピュータ読み取り可能媒体であって、該プログラム命令は
クラスタ内のストレージノードの一連のブロックサービスにわたって記憶された一群のデータブロックを選択することであって、前記クラスタにわたって前記ブロックサービスにビンが割り当てられ、前記一群のデータブロックのそれぞれは、前記データブロックのそれぞれの内容から計算されるブロック識別子（ブロックＩＤ）のフィールドに基づいて対応するビンに割り当てられ、前記一群のデータブロックのそれぞれは、前記一連のブロックサービスにわたって少なくとも１回複製されている、ことと、
前記一群のデータブロックに基づいて第１の符号化されたパリティブロックを生成することと、
前記第１の符号化されたパリティブロックを第１のブロックサービス上に記憶することであって、前記第１の符号化されたパリティブロックは符号化されたレプリカとして示されている、ことと、
前記一群のデータブロックのそれぞれの少なくとも１つの複製を削除のためにマークすることと、
を行うように構成されている、非一時的なコンピュータ読み取り可能媒体。