JP7355616B2

JP7355616B2 - 分散ストレージシステムおよび分散ストレージシステムのパリティ更新方法

Info

Publication number: JP7355616B2
Application number: JP2019213354A
Authority: JP
Inventors: 和志仲川; 光雄早坂; 悠冬鴨生
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2019-11-26
Filing date: 2019-11-26
Publication date: 2023-10-03
Anticipated expiration: 2039-11-26
Also published as: JP2021086289A; US20210157676A1; US11467908B2

Description

本発明は、分散ストレージシステムおよび分散ストレージシステムのパリティ更新方法に関する。

データ分析およびＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）で扱われるデータには、ＩＴ（ＩｎｆｏｒｍａｔｉｏｎＴｅｃｈｎｏｌｏｇｙ）とＯＴ（ＯｐｅｒａｔｉｏｎａｌＴｅｃｈｎｏｌｏｇｙ）のデータがある。ＩＴまたはＯＴのデータは、例えば、センサデータ、ログファイル、画像、動画、音声およびオフィスドキュメントファイルなど、多岐にわたる。そのようなデータを一元的に保存するストレージは、データレイクと呼ばれる。

データレイクは、複数のサーバノードで構成され、データが分散配置された分散ストレージで実現されることで、スケーラビリティとノード間の負荷平準化が図られる。また、分散ストレージは、イレイジャーコーディング（ＥｒａｓｕｒｅＣｏｄｉｎｇ：ＥＣ）によりデータを保護する。ＥＣとは、誤り訂正符号によってノード障害時にもデータを復元可能とするデータ保護技術であり、原理的にはサーバ内のドライブ障害時のデータ保護に使われてきたＲＡＩＤ５／６技術をノード間で格納されるデータの保護に適用した技術である。

特許文献１には、分散ストレージシステムにおいて、ストレージデバイス障害時に第１のデータ保護スキーマでリカバリ不可である場合、第２のデータ保護スキーマで他ノードの第２のデータチャンクからリカバリする方法が開示されている。

特許文献２には、分散ストレージにおいて、データへのアクセス頻度を参照して、リカバリコストの低いＥＣまたはストレージコストの低いＥＣを適応的に選択する方法が開示されている。

米国特許出願公開第２０１７／００９７８７５号明細書米国特許出願公開第２０１７／００７７９６１号明細書

しかしながら、分散ストレージシステムにおいて、データ保護に用いられるＥＣには更新ライト性能に課題がある。ＥＣ化したデータを更新する場合、パリティの再計算が必要となり、更新性能が低下する。特に、更新サイズが小さい場合、オリジナルデータとパリティデータの両方でリードモディファイライト（Ｒｅａｄ－Ｍｏｄｉｆｙ－Ｗｒｉｔｅ：ＲＭＷ）が発生する。このＲＭＷは、ノード間で大量のネットワーク通信を発生させる。

特許文献１および特許文献２には、ＥＣ化したデータの更新時におけるライト性能の改善方法についての開示はない。

本発明は、上記事情に鑑みなされたものであり、その目的は、イレイジャーコーディングが適用されたデータの更新時におけるライト性能を向上させることが可能な分散ストレージシステムおよび分散ストレージシステムのパリティ更新方法を提供することにある。

上記目的を達成するため、第１の観点に係る分散ストレージシステムは、プロセッサと、記憶ドライブを有するノードを複数備え、データユニットとそれを修復するためのパリティユニットでストライプを構成し、ストライプを構成する各ユニットをそれぞれの別のノードの記憶ドライブに格納する分散ストレージシステムにおいて、前記プロセッサは、前記データユニットを更新ライトした場合に、同じストライプ内のパリティユニットを更新し、前記更新ライト後のストライプ内の全部のデータユニットに基づいて、前記パリティユニットを計算して更新する第１のパリティ更新方法と、更新ライトを行ったデータユニットと、前記更新ライト前のデータユニットと、パリティユニットと、に基づいて、前記パリティユニットを計算して更新する第２のパリティ更新方法と、を実行可能であり、前記パリティ更新にかかる前記ノード間のデータ通信量に基づいて、前記第１のパリティ更新方法と、第２のパリティ更新方法とを切り替える。

本発明によれば、イレイジャーコーディングが適用されたデータの更新時におけるライト性能を向上させることができる。

図１は、実施形態に係る分散ストレージシステムの構成例を示すブロック図である。図２は、図１のストレージノードの構成例を示すブロック図である。図３は、図２のＥＣ情報の一例を示す図である。図４は、図２のマップ情報の一例を示す図である。図５は、実施形態に係る分散ストレージシステムのパリティ計算切替方法を示すフローチャートである。図６は、実施形態に係る分散ストレージシステムの全ストライプによるパリティ計算時のネットワーク転送量の算出方法の一例を示すブロック図である。図７は、実施形態に係る分散ストレージシステムのＲＭＷによるパリティ計算時のネットワーク転送量の算出方法の一例を示すブロック図である。図８は、実施形態に係る分散ストレージシステムのＲＭＷによるパリティ計算時のネットワーク転送量の算出方法のその他の例を示すブロック図である。図９は、実施形態に係る分散ストレージシステムのＲＭＷによるパリティ計算時のネットワーク転送量の算出方法のさらにその他の例を示すブロック図である。図１０は、実施形態に係る分散ストレージシステムのデータ配置条件、パリティ計算方法およびパリティ計算ノードの変更したときのネットワーク転送量の一覧を示す図である。図１１は、実施形態に係る分散ストレージシステムの中間パリティ使用時のデータ配置条件およびパリティ計算ノードの変更したときのネットワーク転送量の一覧を示す図である。図１２は、実施形態に係る分散ストレージシステムのパリティ計算方法の切替条件の一覧を示す図である。図１３は、実施形態に係る分散ストレージシステムの中間パリティ使用時のパリティ計算方法の切替条件の一覧を示す図である。図１４は、実施形態に係る分散ストレージシステムのパリティ計算ノードの切替条件の一覧を示す図である。図１５は、実施形態に係る分散ストレージシステムの中間パリティ使用時のパリティ計算ノードの切替条件の一覧を示す図である。

実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また、実施形態の中で説明されている諸要素およびその組み合わせの全てが発明の解決手段に必須であるとは限らない。

図１は、実施形態に係る分散ストレージシステムの構成例を示すブロック図である。
図１において、分散ストレージシステム１００は、１又は複数のクライアント１１０と、分散ストレージ１３０と、フロントエンドネットワーク１２０とを備える。クライアント１１０と分散ストレージ１３０は、フロントエンドネットワーク１２０を介して接続されている。クライアント１１０は、分散ストレージ１３０にＩ／Ｏ要求（データのリード要求またはライト要求）を実施し、分散ストレージ１３０は、クライアント１１０からのＩ／Ｏ要求を処理する。クライアント１１０は、例えば、ホストサーバである。

分散ストレージ１３０は、分散配置された複数のストレージノード１４０～１７０と、バックエンドネットワーク１８０を備える。ストレージノード１４０～１７０は、例えば、分散ＦＳ（ＤｉｓｔｒｉｂｕｔｅｄＦｉｌｅＳｙｓｔｅｍ）サーバである。分散ストレージ１３０は、複数のストレージノード１４０～１７０をバックエンドネットワーク１８０により接続してクラスタ構成をとる。複数のストレージノード１４０～１７０は、分散ファイルシステムを構成し、クライアント１１０にファイルシステム機能を提供することができる。

分散ストレージ１３０を構成するいずれかのストレージノード１４０～１７０は、クライアント１１０からのＩ／Ｏ要求をＩ／Ｏ受付ノードとして受け付けてＩ／Ｏ処理を行う。Ｉ／Ｏ処理に際して、ストレージノード１４０～１７０間のデータおよび制御データの移動は、バックエンドネットワーク１８０を介して行われる。

フロントエンドネットワーク１２０とバックエンドネットワーク１８０は、インターネットなどのＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）であってもよいし、ＷｉＦｉまたはＥｔｈｅｒｎｅｔ（登録商標）などのＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）であってもよいし、ＷＡＮとＬＡＮが混在していてもよい。フロントエンドネットワーク１２０とバックエンドネットワーク１８０は、共通化した構成をとってもよい。

ここで、分散ストレージ１３０は、イレイジャーコーディング（ＥＣとも言う）によりデータを保護する。ＥＣでは、データを分割したストライプを構成するデータユニットとパリティユニットがストレージノード１４０～１７０に分散配置される。なお、データユニットとパリティユニットは、ファイルデータ毎のストライプに応じて、異なるストレージノードに格納されてよい。

このとき、分散ストレージ１３０は、更新ライト時におけるストレージノード１４０～１７０間のデータ通信量（以下、ネットワーク転送量と言うことがある）に基づいて、ストライプを構成する全てのデータユニットに基づいてパリティを計算する方法（以下、全ストライプによるパリティ計算方法と言うことがある）と、ストライプを構成する一部のデータユニットに基づいてパリティを計算する方法（以下、ＲＭＷによるパリティ計算方法と言うことがある）とを切り替える。

この際、分散ストレージ１３０は、ネットワーク転送量を最小化するように、全ストライプによるパリティ計算方法またはＲＭＷによるパリティ計算方法を選択することができる。これにより、ＥＣ化されたデータの更新ライト時におけるネットワーク使用帯域を削減することができ、ＥＣ化されたデータの更新時におけるライト性能を向上させることが可能となる。

図２は、図１のストレージノードの構成例を示すブロック図である。なお、図２では、図１のストレージノード１４０を例にとるが、他のストレージノード１５０～１７０についても同様に構成することができる。

図２において、ストレージノード１４０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）２１０と、フロントエンドＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）２１５と、バックエンドＮＩＣ２２０と、システムドライブ２２５と、１または複数のデータドライブ２３０と、メモリ２３５とを備える。

ＣＰＵ２１０は、プログラムをメモリ２３５上に展開して実行し、フロントエンドＮＩＣ２１５とバックエンドＮＩＣ２２０を介して他のストレージノード１５０～１７０およびクライアント１１０と、ＥｔｈｅｒｎｅｔまたはＩｎｆｉｎｉｂａｎｄ（商標登録）等により通信する。

システムドライブ２２５は、ＯＳ（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ）２４０、制御プログラムおよび制御情報テーブルを格納し、データドライブ２３０は、ファイルデータを格納する。なお、分散ストレージ１３０にファイルデータとして制御情報テーブルを保存してもよい。ドライブは、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）などであり、ＳＡＳ（ＳｅｒｉａｌＡｔｔａｃｈｅｄＳＣＳＩ）、ＳＡＴＡ（ＳｅｒｉａｌＡｄｖａｎｃｅｄＴｅｃｈｎｏｌｏｇｙＡｔｔａｃｈｍｅｎｔ）またはＰＣＩｅのインターフェース等によりＣＰＵ２１０と接続する。

メモリ２３５には、ＯＳ２４０、メタデータサーバデーモン２４５、ストレージデーモン２５０、監視デーモン２５５、ＮＦＳ／ＣＩＦＳサーバーデーモン２６０およびゲートウェイ２６３等の制御プログラムと、クラスタ制御情報２６５、マップ情報２７０およびＥＣ情報２７５等の制御情報テーブルが展開される。

メタデータサーバデーモン２４５は、分散ストレージ１３０がファイルサーバ機能を提供するために必要となるファイルメタデータを管理するプロセスである。ストレージデーモン２５０は、データドライブ２３０を管理し、そのドライブからのデータの読み出しおよび書き込みを実行するプロセスである。監視デーモン２５５は、複数のストレージノードからなるクラスタ構成情報を管理するプロセスである。ＮＦＳ／ＣＩＦＳサーバーデーモンは、ＮＦＳ（ＮｅｔｗｏｒｋＦｉｌｅＳｙｓｔｅｍ）またはＣＩＦＳ（ＣｏｍｍｏｎＩｎｔｅｒｎｅｔＦｉｌｅＳｙｓｔｅｍ）プロトコルによるネットワークファイル共有サービスを提供するプロセスである。

ゲートウェイ２６３は、クライアント１１０からのＩ／Ｏ要求を受け付けて、自ストレージノード１４０や他ストレージノード１５０～１７０のストレージデーモン２５０と通信しながら当該Ｉ／Ｏ要求を処理し、クライアント１１０へ応答を返すプロセスである。

クラスタ制御情報２６５は、クラスタを構成するストレージノードのＩＰアドレス（あるいはドメインネーム）、ストレージデーモン２５０等の制御プロセスと通信するためのＩＰアドレス、ポート番号等の構成情報およびストレージノード間の通信に必要な認証情報等である。マップ情報２７０は、分散ストレージ１３０内のファイルデータの格納位置を示す制御情報テーブルである。ＥＣ情報２７５は、格納ファイルデータに関する誤り訂正符号化種別等のＥＣに関する制御情報テーブルである。

分散ストレージ１３０を構成する複数のストレージノード１４０～１７０のいずれかの１つのストレージノードがクライアント１１０からライト要求を受信すると、当該ストレージノードは当該ライト要求のＩ／Ｏ受付ノードとなる。ライト要求は、ライト対象のファイルデータとファイルの格納位置を示すパス情報を含む。

ゲートウェイ２６３は、ファイルデータのライト要求を受け付けると、ファイルデータを複数のデータユニットに分割し、そのデータユニットからパリティユニットを生成し、それらのデータユニットとパリティユニットを複数のストレージノード１４０～１７０に分散して格納する。

ゲートウェイ２６３は、パリティユニットを生成する場合、ネットワーク転送量に基づいて、全ストライプによるパリティ計算方法とＲＭＷによるパリティ計算方法とを切り替える。

全ストライプによるパリティ計算方法では、例えば、ゲートウェイ２６３は、新規のファイルデータのライト要求を受け付けた場合、当該ファイルデータを４つのデータユニットに分割し、そのデータユニットを新Ｄ１、新Ｄ２、新Ｄ３および新Ｄ４とし、新たに計算したパリティユニットを新Ｐ１および新Ｐ２とした場合、ＲＳ[新Ｄ１、新Ｄ２、新Ｄ３、新Ｄ４]の計算によって新Ｐ１および新Ｐ２を計算する。ここでＲＳ[]は、代表的にはリードソロモン符号等の誤り訂正符号化を意味するものとし、その他の符号化方式であってもよい。そして、ゲートウェイ２６３は、新Ｄ１、新Ｄ２、新Ｄ３、新Ｄ４、新Ｐ１および新Ｐ２を複数のストレージノード１４０～１７０に分散して格納する。

また、全ストライプによるパリティ計算のもう一例では、ゲートウェイ２６３は、既存のファイルデータの一部更新ライトを受け付けた場合、当該一部更新データを新Ｄ１とすると、ストライプを構成する残りの更新されていないＤ２、Ｄ３、Ｄ４を読み出して、ＲＳ[新Ｄ１、Ｄ２、Ｄ３、Ｄ４]の計算によって新Ｐ１および新Ｐ２を計算する。そして、ゲートウェイ２６３は、新Ｄ１、新Ｐ１および新Ｐ２に基づいて、旧Ｄ１、旧Ｐ１および旧Ｐ２を更新する。

このように、全ストライプによるパリティ計算方法では、一部更新ライトの場合、ストライプを構成する残りの更新されていないデータユニット（未更新データユニット、または更新対象外データユニットと言うことがある）の読み出しが発生し、ストレージノード１４０～１７０間で大量のネットワーク通信を発生させることがある。

また、ゲートウェイ２６３は、ストレージノード１４０～１７０に格納された既存のファイルの上書き更新のためのライト要求（更新ライト要求と言うことがある）を受け付けた場合、ＲＭＷによるパリティ計算方法では、更新前の旧データユニットと旧パリティユニットと新データユニットから、新パリティユニットを生成し、当該新データユニットと新パリティユニットを更新して格納する。例えば、ゲートウェイ２６３は、旧データユニットを旧Ｄ１、旧パリティユニットを旧Ｐ１および旧Ｐ２、新データユニットを新Ｄ１とすると、ＲＳ[新Ｄ１、旧Ｄ１、旧Ｐ１、旧Ｐ２]の計算によって新Ｐ１および新Ｐ２を計算する。そして、ゲートウェイ２６３は、新Ｄ１、新Ｐ１および新Ｐ２に基づいて、旧Ｄ１、旧Ｐ１および旧Ｐ２をそれぞれ更新する。

このように、ＲＭＷによるパリティ計算方法では、旧データユニットと旧パリティユニットを読み出して新パリティユニットを計算する。このため、オリジナルデータとパリティデータの両方でＲＭＷが発生し、ストレージノード１４０～１７０間で大量のネットワーク通信を発生させることがある。

ここで、定性的には、更新ライト時の更新サイズが小さい場合（更新データユニット数が少ない場合）、全ストライプによるパリティ計算方法では、未更新データユニット数が相対的に増えるため、ＲＭＷによるパリティ計算方法に比較して、ネットワーク転送量が増大する。そのため、更新サイズが小さい場合は、ＲＭＷによるパリティ計算方法に切り替えることにより、全ストライプによるパリティ計算方法に比較してネットワーク転送量を減らすことができる。また、更新ライト時の更新サイズが大きい場合、ＲＭＷによるパリティ計算方法では、読み出す旧データユニットと旧パリティユニットの数が相対的に増えるため、全ストライプによるパリティ計算方法に切り替えることにより、ＲＭＷによるパリティ計算方法に比較してネットワーク転送量を減らすことができる。

図３は、図２のＥＣ情報の一例を示す図である。
図３において、ＥＣ情報テーブル２７５は、ファイル名と、ＰｌａｃｅｍｅｎｔＧｒｏｕｐと、ストライプのデータユニット数と、ストライプのパリティユニット数と、誤り訂正符号種別のエントリを含む。

ファイル名は、ファイルの名称であり、ファイルのパス情報を含む。ＰｌａｃｅｍｅｎｔＧｒｏｕｐは、当該ファイルのストレージノードデータ配置に関する情報である。ＰｌａｃｅｍｅｎｔＧｒｏｕｐは、例えば、ファイル名のハッシュ値またはファイルのｉ－ｎｏｄｅ番号などから生成された値であり、ストライプのノードデータ配置をグループ化するグループ番号に相当する。誤り訂正符号種別は、リードソロモン符号または水平垂直パリティ等の符号化情報である。ＥＣ情報２７５は、ファイル単位、ディレクトリ単位またはファイルシステム単位で保持してもよい。

図４は、図２のマップ情報の一例を示す図である。
図４において、マップ情報テーブル２７０には、ＰｌａｃｅｍｅｎｔＧｒｏｕｐと、当該ＰｌａｃｅｍｅｎｔＧｒｏｕｐに所属するファイルデータのデータ配置情報の対応関係が記載される。マップ情報テーブル２７０は、ＰｌａｃｅｍｅｎｔＧｒｏｕｐと、データ配置情報のエントリを含む。

データ配置情報は、ストレージノード番号とストレージノード内のドライブ番号の情報、あるいはストレージデーモンの識別番号であり、ファイルデータのデータユニットとパリティユニットがどこに配置されているかを示す。

図５は、実施形態に係る分散ストレージシステムのパリティ計算切替方法を示すフローチャートである。
図５において、図１のストレージノード１４０が、クライアント１１０からのＩ／Ｏ要求をＩ／Ｏ受付ノードとして受け付けたものとする。このとき、図２のゲートウェイ２６３は、ライト対象データのＥＣ情報２７５を検索して特定する（３１０）。

次に、ゲートウェイ２６３は、全ストライプによるパリティ計算方法とＲＭＷによるパリティ計算方法とを切り替える判定式をＥＣ情報２７５から決定する（３１３）。この判定式は、更新ライト時の全ストライプによるパリティ計算に必要なネットワーク転送量と、更新ライト時のＲＭＷによるパリティ計算に必要なネットワーク転送量の比較結果に基づいて求めることができる。ネットワーク転送量は、更新ライト要求を受け付けるＩ／Ｏ受付ノードのデータ配置条件に応じて変化する。このため、判定式は、データ配置条件ごとに求めることができる。また、各データ配置条件において、ネットワーク転送量は、パリティを計算するストレージノードに応じて変化する。このため、判定式は、パリティを計算するストレージノードごとに求めことができる。なお、ファイルデータ毎のストライプに応じて、そのデータユニットやパリティユニットの格納ノードが異なるため、ファイルデータ毎にデータ配置条件が異なる。

また、ＲＭＷによるパリティ計算において、中間パリティを使用した場合は、中間パリティを使用しない場合に比べて、ネットワーク転送量を低減できる。このため、中間パリティを使用可能な場合、パリティ計算方法を切り替える判定式として、中間パリティを使用した判定式を用いることができる。

次に、ゲートウェイ２６３は、マップ情報テーブル２７０およびＥＣ情報２７５からデータ配置条件を特定する（３１５）。

次に、ゲートウェイ２６３は、３１３で決定した判定式に基づいて、全ストライプによるパリティ計算方法およびＲＭＷによるパリティ計算方法のどちらに切り替えるかを判定する（３２０）。このとき、ゲートウェイ２６３は、ストレージノード１４０～１７０間のネットワーク転送量が少ない方法を選択する。当該判定の結果、全ストライプによるパリティ計算と判定した場合、ストライプを構成するすべてのデータユニットからパリティユニットを計算する（３２５）。

一方、ゲートウェイ２６３は、３２０での判定の結果、ＲＭＷによるパリティ計算と判定した場合、ＲＭＷによるパリティ計算をどのストレージノードで実施するのかを判定する（３３０）。このとき、ゲートウェイ２６３は、ストレージノード１４０～１７０間のネットワーク転送量が少ないストレージノードでのパリティ計算を選択する。

Ｉ／Ｏ受付ノードでパリティ計算すると判定された場合、Ｉ／Ｏ受付ノードでＲＭＷによるパリティ計算を実施する（３３５）。

一方、旧データユニット格納ノードまたは旧パリティユニット格納ノードでパリティ計算すると判定された場合は、旧データユニット格納ノードまたは旧パリティユニット格納ノードでＲＭＷによるパリティ計算を実施する（３４０）。

以下、ストレージノード間でのネットワーク転送量の算出方法のいくつかの例について具体的に説明する。

図６は、実施形態に係る分散ストレージシステムの全ストライプによるパリティ計算時のネットワーク転送量の算出方法の一例を示すブロック図である。
図６において、複数のストレージノード４００～４０９からクラスタが構成され、ストレージノード４００がＩ／Ｏ受付ノードであるものとする。また、ストレージノード４０１～４０３が、当該ライトＩ／Ｏ要求に関連する旧データユニット（旧Ｄ）４３０～４３２を格納し、ストレージノード４０４～４０６が当該ライトＩ／Ｏ要求に関連する旧パリティユニット（旧Ｐ）４４０～４４２を格納し、ストレージノード４０７～４０９が、当該ライトＩ／Ｏ要求に関連する更新対象外データユニット（未更新Ｄ）４５０～４５２を格納しているものとする。図６では、当該ライトＩ／Ｏ要求に関連しないストレージノードは図示していない。

また、Ｉ／Ｏ受付ノードであるストレージノード４００には、旧データユニット、旧パリティユニットおよび更新対象外データユニットは含まれていないものとする。更新対象外データユニットは、ストライプを構成するデータユニットのうち、ライトＩ／Ｏ要求で更新されないデータユニットである。１つのストライプは、ｋ（ｋは正の整数）個のデータユニットおよびｍ（ｍは正の整数）個のパリティユニットから構成されるものとし、当該ライトＩ／Ｏ要求としてｗ（ｗは正の整数）個のデータユニット（新Ｄ）４２０の更新ライトが発行されたものとする。このとき、更新対象外データユニットは、（ｋ－ｗ）個ある。ここで、Ｉ／Ｏ受付ノードであるストレージノード４００がパリティを計算するストレージノードであるものとする。ストレージノード４００は、符号化器４１０を備える。

ストレージノード４００は、ストライプのＥＣ情報とデータ配置条件を特定し、全ストライプによるパリティ計算と判定した場合、以下のようにＩ／Ｏ処理する。

（Ｐ１１）（ｋ－ｗ）個の更新対象外データユニット４０７～４０９をＩ／Ｏ受付ノードに転送する。
（Ｐ１２）符号化器４１０にて、ｗ個の新データユニット４２０と、（ｋ－ｗ）個の更新対象外データユニット４０７～４０９を合わせた全ストライプから、ｍ個の新パリティユニット（新Ｐ）４２５を計算する。
（Ｐ１３）ｗ個の新データユニット４２０と、ｍ個の新パリティユニット４２５をそれぞれの格納ノードに転送して更新する。

データユニット１個分のデータ量を１とすると、（ｋ－ｗ）個の更新対象外データユニット４０７～４０９のネットワーク転送量は（ｋ－ｗ）、新データユニット４２０のネットワーク転送量はｗ、新パリティユニット４２５のネットワーク転送量はｍとなる。このため、上記のＩ／Ｏ処理によってストレージノード４００～４０９間のネットワークを流れるネットワーク転送量の合計は、（ｋ－ｗ）＋ｗ＋ｍ＝ｋ＋ｍとなる。

図７は、実施形態に係る分散ストレージシステムのＲＭＷによるパリティ計算時のネットワーク転送量の算出方法の一例を示すブロック図である。
図７において、図６のストレージノード４００～４０９と同様のデータ配置条件で、Ｉ／Ｏ受付ノードがＲＭＷによるパリティ計算を実施するものとする。このとき、ストレージノード４００は、以下のようにＩ／Ｏ処理する。

（Ｐ２１）ｗ個の旧データユニット４３０～４３２と、ｍ個の旧パリティユニット４４０～４４２をＩ／Ｏ受付ノードに転送する。
（Ｐ２２）符号化器４１０にて、ｗ個の新データユニット４２０と、ｗ個の旧データユニット４３０～４３２と、ｍ個の旧パリティユニット４４０～４４２から、ｍ個の新パリティユニット４２５を計算する。
（Ｐ２３）ｗ個の新データユニット４２０と、ｍ個の新パリティユニット４２５をそれぞれの格納ノードに転送して更新する。

データユニット１個分のデータ量を１とすると、旧データユニット４３０～４３２のネットワーク転送量はｗ、旧パリティユニット４４０～４４２のネットワーク転送量はｍ、新データユニット４２０のネットワーク転送量はｗ、新パリティユニット４２５のネットワーク転送量はｍとなる。このため、上記のＩ／Ｏ処理によってストレージノード４００～４０６間のネットワークを流れるネットワーク転送量の合計は、ｗ＋ｍ＋ｗ＋ｍ＝２ｗ＋２ｍとなる。

図８は、実施形態に係る分散ストレージシステムのＲＭＷによるパリティ計算時のネットワーク転送量の算出方法のその他の例を示すブロック図である。
図８において、図６のストレージノード４００～４０９と同様のデータ配置条件で、旧データユニット格納ノードがＲＭＷによるパリティ計算を実施するものとする。旧データユニット格納ノードであるストレージノード４０１は、符号化器４１１を備える。このとき、ストレージノード４０１は、以下のようにＩ／Ｏ処理する。

（Ｐ３１）ｗ個の新データユニット４２０と、（ｗ－１）個の旧データユニット４３１～４３２と、ｍ個の旧パリティユニット４４０～４４２をストレージノード４０１に転送する。ここで、ストレージノード４０１に格納されている１個分の旧データユニット４３０は、ストレージノード４０１のローカルドライブからの読み出しとするためネットワーク転送は不要である。
（Ｐ３２）符号化器４１１にて、ｗ個の新データユニット４２０と、（ｗ－１）個の旧データユニット４３０～４３２と、ｍ個の旧パリティユニット４４０～４４２から、ｍ個の新パリティユニット４２５を計算する。
（Ｐ３３）（ｗ－１）個の新データユニット４２０と、ｍ個の新パリティユニット４２５をそれぞれの格納ノードに転送して更新する。ここで、旧データユニット４３０に対応する新データユニット１個分は、ストレージノード４０１のローカルドライブへの書き込みとするためネットワーク転送は不要となる。

データユニット１個分のデータ量を１とすると、上記のＩ／Ｏ処理によってストレージノード４００～４０６間のネットワークを流れるデータ量の合計は、ｗ＋（ｗ－１）＋ｍ＋（ｗ－１）＋ｍ＝３ｗ＋２ｍ－２である。

図９は、実施形態に係る分散ストレージシステムのＲＭＷによるパリティ計算時のネットワーク転送量の算出方法のさらにその他の例を示すブロック図である。
図９において、図６のストレージノード４００～４０９と同様のデータ配置条件で、Ｉ／Ｏ受付ノードが中間パリティ７２５を計算し、旧パリティユニット格納ノードが中間パリティ７２５を使ってＲＭＷによるパリティ計算を実施するものとする。旧パリティユニット格納ノードである各ストレージノード４０４～４０６は、符号化器４１４～４１６を備える。

中間パリティは、新データユニットと旧データユニットを符号化したデータである。例えば、中間パリティは、ＲＳ[新Ｄ１、旧Ｄ１]の計算で得られる。この中間パリティを中Ｐとすると、ＲＳ[中Ｐ、旧Ｐ]の計算により新Ｐが得られる。このとき、ストレージノード４００、４０４は、以下のようにＩ／Ｏ処理する。

（Ｐ４１）ｗ個の旧データユニット４３０～４３２をＩ／Ｏ受付ノードに転送する。
（Ｐ４２）符号化器４１１にて、ｗ個の新データユニット４２０と、ｗ個の旧データユニット４３０～４３２から、ｍ個の中間パリティユニット７２５を計算する。
（Ｐ４３）ｍ個の中間パリティユニットをそれぞれ対応する旧パリティユニット格納ノードに転送する。
（Ｐ４４）それぞれの旧パリティユニット格納ノードの符号化器４１４～４１６にて、ｍ個の旧パリティユニット４４０～４４２と、中間パリティユニット７２５から、ｍ個の新パリティユニット４２５を計算して更新する。また、ｗ個の新データユニット４２０をそれぞれの旧データユニット格納ノードに転送して更新する。

データユニット１個分のデータ量を１とすると、上記のＩ／Ｏ処理によってストレージノード４００～４０６間のネットワークを流れるデータ量の合計は、ｗ＋ｍ＋ｗ＝２ｗ＋ｍである。中間パリティユニット７２５を使うことにより、ｍ個の旧パリティユニット４４０～４４２のネットワーク転送をしないため、中間パリティユニット７２５を使わない場合に比べて、全体のネットワーク転送量を少なくすることができる。

中間パリティを使用可能な条件は、複数のパリティユニットがそれぞれ独立して計算できる誤り訂正符号であること、あるいはパリティユニットが１個（ｍ＝１）であることである。例えば、複数のパリティユニットが独立して計算できる誤り訂正符号としては、水平垂直パリティなどであり、１つ目のパリティを排他的論理和ＸＯＲにより生成し、２つ目のパリティをＣＲＣ（ＣｙｃｌｉｃＲｅｄｕｎｄａｎｃｙＣｈｅｃｋ）により生成することで、２つのパリティを独立して生成できる場合である。

なお、新データユニットと新パリティユニットの更新タイミングは、電源障害などによるデータ破壊を防ぐために、２フェーズコミットなどにより厳密なタイミングで実施することができる。

図１０は、実施形態に係る分散ストレージシステムのデータ配置条件、パリティ計算方法およびパリティ計算ノードの変更したときのネットワーク転送量の一覧を示す図である。
図１０において、ストレージノードに分散配置済のデータユニットおよびパリティユニットをそれぞれ旧Ｄおよび旧Ｐ、更新ライト時のＩ／Ｏ受付ノードで受け付けられたデータユニットを新Ｄ、更新対象外データユニットを未更新Ｄとすると、Ｉ／Ｏ受付ノードでのデータ配置条件は、（Ａ）旧Ｄなし、かつ旧Ｐなし、かつ未更新Ｄなしの場合、（Ｂ）旧Ｄありの場合、（Ｃ）旧Ｐありの場合、（Ｄ）未更新Ｄの場合の４通りある。

また、パリティ計算ノードは、（１）Ｉ／Ｏ受付ノード、（２）旧データユニット格納ノード、（３）旧パリティユニット格納ノード、（４）更新対象外データユニット格納ノードおよび（５）それ以外のノードの５通りある。

テーブル１０００は、これらのデータ配置条件およびパリティ計算ノードの全ての組み合わせについて、全ストライプによるパリティ計算の場合とＲＭＷによるパリティ計算の場合のそれぞれについてネットワーク転送量を示す。

ここで、テーブル１０００の（Ａ）（Ａ－１）の場合のネットワーク転送量は、図６の方法で計算できる。テーブル１０００の（Ａ）（ａ－１）の場合のネットワーク転送量は、図７の方法で計算できる。テーブル１０００の（Ａ）（ａ－２）の場合のネットワーク転送量は、図８の方法で計算できる。これら以外の場合についても、同様に計算することができる。

図１１は、実施形態に係る分散ストレージシステムの中間パリティ使用時のデータ配置条件およびパリティ計算ノードの変更したときのネットワーク転送量の一覧を示す図である。
図１１において、テーブル１１００は、テーブル１０００と同様のデータ配置条件およびパリティ計算ノードの全ての組み合わせについて、中間パリティ使用時のＲＭＷによるパリティ計算についてネットワーク転送量を示す。ここで、テーブル１１００の（Ａ）（ａ－１－ｉｎｔ．Ｐ）の場合のネットワーク転送量は、図９の方法で計算できる。この方法以外の場合についても、同様に計算することができる。

分散ストレージ１３０は、図１０と図１１に示すネットワーク転送量が最小となるようなパリティ計算方法に切り替える。一方で、明らかにネットワーク転送量が最小とならない場合が存在しているため、切り替え判定を簡単化して判定式化することができる。

判定式は、例えば、データ配置条件として、Ｉ／Ｏ受付ノードに旧データユニットなし、旧パリティユニットなし、更新対象外データユニットなしとした（Ａ）の場合、テーブル１０００の（ａ－１）、（ａ－２）、（ａ－３）および（Ａ－１）の４つの場合から最小のネットワーク転送量となる場合を決定すればよい。

ただし、（ａ－２）と（ａ－３）の場合は、ネットワーク転送量が３ｗ＋２ｍ－２で同一であるため、ここでは３つのネットワーク転送量を比較すればよく、全ストライプによるパリティ計算（Ａ－１）への切り替え条件式は、
２ｗ＋２ｍ＞ｋ＋ｍかつ３ｗ＋２ｍ－２＞ｋ＋ｍ
となる。

この条件式の左辺がｗになるように変形すると、
ｗ＞（ｋ－ｍ）／２かつｗ＞（ｋ－ｍ＋２）／３
という式が得られる。上記の式から、図１０のテーブル１０００の（Ａ）の場合について、ｋ－ｍ＞＝４のときｗ＞（ｋ－ｍ）／２
ｋ－ｍ＜４のときｗ＞（ｋ－ｍ＋２）／３
という切り替え判定式が得られる。

図１２は、実施形態に係る分散ストレージシステムのパリティ計算方法の切替条件の一覧を示す図である。
図１２において、切り替え判定式１２００は、図１０のテーブル１０００の（Ａ）、（Ｂ）、（Ｃ）および（Ｄ）の場合について、全ストライプによるパリティ計算へ切り替える条件を示す。

切り替え判定式１２００は、更新ライトのデータユニット数ｗが、ストライプのデータユニット数ｋおよびストライプのパリティユニット数ｍから計算される値より大きい場合、全ストライプによるパリティ計算方法に切り替えることを示す。

図１３は、実施形態に係る分散ストレージシステムの中間パリティ使用時のパリティ計算方法の切替条件の一覧を示す図である。
図１３において、切り替え判定式１３００は、図１１のテーブル１１００の（Ａ）、（Ｂ）、（Ｃ）および（Ｄ）の場合について、中間パリティを使った場合における全ストライプによるパリティ計算への切り替え条件を示す。

切り替え判定式１３００は、ＲＭＷによるパリティ計算時に中間パリティを使った場合において、更新ライトのデータユニット数ｗが、ストライプのデータユニット数ｋから計算される値より大きい場合、全ストライプによるパリティ計算方法に切り替えることを示す。

また、ＲＭＷによるパリティ計算におけるパリティ計算ノードの位置判定は、判定式化することができる。例えば、図１０のテーブル１０００の（Ａ）の場合、（ａ－１）、（ａ－２）および（ａ－３）の３つの場合から最小のネットワーク転送量となる場合を決定すればよい。ただし、（ａ－２）と（ａ－３）の場合は、ネットワーク転送量が３ｗ＋２ｍ－２で同一であるため、ここでは２つの転送量を比較すればよく、パリティ計算ノード位置判定で（ａ－１）の場合へのノード位置判定式は、
３ｗ＋２ｍ－２＞＝２ｗ＋２ｍ
となる。この判定式の左辺がｗとなるように変形すると、ｗ＞＝２となる。ｗは１以上であるため、（ａ－２）あるいは（ａ－３）の場合と判定されるのはｗ＝１という条件となる。

図１４は、実施形態に係る分散ストレージシステムのパリティ計算ノードの切替条件の一覧を示す図である。
図１４において、ノード位置判定式１４００は、図１０のテーブル１０００の（Ａ）、（Ｂ）、（Ｃ）および（Ｄ）の場合について、ＲＭＷによるパリティ計算におけるパリティ計算ノード位置を示す。

図１５は、実施形態に係る分散ストレージシステムの中間パリティ使用時のパリティ計算ノードの切替条件の一覧を示す図である。
図１５において、ノード位置判定式１５００は、図１１のテーブル１１００の（Ａ）、（Ｂ）、（Ｃ）および（Ｄ）の場合について、中間パリティを使った場合のＲＭＷによるパリティ計算におけるパリティ計算ノード位置を示す。

図１の分散ストレージ１３０は、図５のパリティ計算切替処理において、図１２の切り替え判定式１２００、図１３の切り替え判定式１３００、図１４のノード位置判定式１４００および図１５のノード位置判定式１５００を適宜用いる。切り替え判定式１２００、切り替え判定式１３００、ノード位置判定式１４００およびノード位置判定式１５００は、図２のゲートウェイ２６３の処理を実現するプログラムに記述することができる。

具体的には、ストレージノード上で動作するゲートウェイ２６３は、クライアント１１０からのライトＩ／Ｏ要求を受け付けると、当該ライトＩ／Ｏ要求に関するＩ／Ｏ受付ノードとしてＩ／Ｏ処理フローを開始する。

次に、ゲートウェイ２６３は、当該ライトＩ／Ｏ要求のライト対象データに関するＥＣ情報２７５を参照し、誤り訂正符号化種別とパリティユニット数を特定する（３１０）。

次に、ゲートウェイ２６３は、訂正符号化種別が複数のパリティユニットを独立して計算可能な訂正符号の場合、あるいは、パリティユニット数が１（ｍ＝１）の場合は、以後の切り替え判定において、中間パリティを使った場合の判定式と決定し、それ以外の場合は、通常の判定式を使用すると決定する（３１３）。

次に、ゲートウェイ２６３は、ＥＣ情報２７５とマップ情報２７０を参照し、ＰｌａｃｅｍｅｎｔＧｒｏｕｐをキーとして一致するかどうかを検索し、当該ライトデータに関するデータ配置情報を特定する（３１５）。

次に、ゲートウェイ２６３は、データ配置情報とデータユニット数ｋおよびパリティユニット数ｍを基に、図１２の通常の切り替え判定式１２００または図１３の中間パリティを使った場合の切り替え判定式１３００を使って、最小のネットワーク転送量となるのが全ストライプによるパリティ計算かどうかを判定する（３２０）。

次に、ゲートウェイ２６３は、３２０の判定の結果、全ストライプによるパリティ計算がネットワーク転送量が最小と判定された場合は、全ストライプによるパリティ計算処理を実行する（３２５）。

一方、ゲートウェイ２６３は、ＲＭＷによるパリティ計算の場合、図１４の通常のノード位置判定式１４００または図１５の中間パリティを使った場合のノード位置判定式１５００を使って、パリティ計算をどのノードで実行するかの判定を実行する（３３０）。

次に、ゲートウェイ２６３は、３３０の判定の結果、Ｉ／Ｏ受付ノードでパリティ計算するのがネットワーク転送量が最小と判定された場合は、Ｉ／Ｏ受付ノードにてＲＭＷによるパリティ計算を実行する（３３５）。

それ以外の場合、ゲートウェイ２６３は、旧データユニット格納ノードまたは旧パリティユニット格納ノードにてＲＭＷによるパリティ計算を実行する（３４０）。

以上説明したように、上述した実施形態によれば、データ配置条件とＥＣ条件に応じて判定式により、ネットワーク転送量が最小となるパリティ計算方法を決定することができる。

上述した実施形態は、ファイルデータを前提として説明したが、本発明はデータの形式に依存するものではなく、オブジェクトデータおよびブロックデータなどでも適用可能である。また、上述した実施形態では、代表的なケースのデータフロー、ネットワーク転送量および判定式の導出過程を示したが、他のケースでも同様に導出できる。

上述した実施形態では、ライトＩ／Ｏ処理フローについて説明したが、本実施形態を適用した場合であっても、リードＩ／Ｏ処理フローに変更は発生せず、リード性能に悪影響を与えない。

上述した実施形態では、フラットなネットワークモデルを想定してネットワーク転送コストを最小化する方式を示したが、ネットワークトポロジー情報を参照して、例えば、ラックをまたがってネットワークスイッチがカスケード接続された構成でノード間が接続されている場合、当該ノード間のネットワーク転送量の算出には、補正係数をかけて算出してもよい。これにより、より高度なネットワーク転送コストの最小化を達成することができる。

さらに、パリティ計算ノードの切り替え判定において、各ノードの空きメモリ量情報とＣＰＵの負荷情報を収集して、その値に応じて補正して判定してもよい。これにより、例えば、空きメモリ量が多いノードまたはＣＰＵ利用率が低いノードをパリティ計算ノードとするように判定することができ、分散ストレージの各種リソース利用の最適化を図ることができる。

なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。

１００分散ストレージシステム、１１０クライアント、１２０フロントエンドネットワーク、１３０分散ストレージ、１４０～１７０ストレージノード、１８０バックエンドネットワーク

Claims

プロセッサと、記憶ドライブと、を有するノードを複数備え、
データユニットとそれを修復するためのパリティユニットでストライプを構成し、
ストライプを構成する各ユニットをそれぞれの別のノードの記憶ドライブに格納する分散ストレージシステムにおいて、
前記プロセッサは、
前記データユニットを更新ライトした場合に、同じストライプ内のパリティユニットを更新し、
前記更新ライト後のストライプ内の全部のデータユニットに基づいて、前記パリティユニットを計算して更新する第１のパリティ更新方法と、
更新ライトを行ったデータユニットと、前記更新ライト前のデータユニットと、前記更新ライト前のパリティユニットと、に基づいて、前記更新ライト後のパリティユニットを計算して更新する第２のパリティ更新方法と、
を実行可能であり、
前記更新ライト後のパリティユニットの計算と、前記更新ライト後のデータユニットの格納と、前記更新ライト後のパリティユニットの格納とにかかる前記ノード間のデータ通信量に基づいて、前記第１のパリティ更新方法と、第２のパリティ更新方法とを切り替える分散ストレージシステム。
前記ストライプのデータユニット数、前記ストライプのパリティユニット数、前記ストライプ内の更新ライトのデータユニット数、及び、更新ライト要求を受信したノードが有している前記ユニットの種類に基づいて、前記データ通信量を計算する請求項１に記載の分散ストレージシステム。
前記データ通信量に基づいて、前記第１のパリティ更新方法と前記第２のパリティ更新方法とを切り替えるとともに、前記パリティユニットを計算するノードを選択する請求項２に記載の分散ストレージシステム。
前記更新ライト要求を受信したノードが有している前記ユニットの種類は、更新ライト対象のデータユニット、更新ライト非対象のデータユニット、パリティユニット、及び、これらをいずれも有しない、を含む請求項２に記載の分散ストレージシステム。
前記パリティユニットを計算するノードは、前記更新ライト要求を受付けたノード、前記更新ライトの対象となるデータユニットが格納されたストレージノードおよび前記パリティユニットが格納されたストレージノードの中から選択する請求項３に記載の分散ストレージシステム。
さらに中間パリティの使用の可否に基づいて、前記パリティ更新を切り替える請求項１に記載の分散ストレージシステム。
前記中間パリティが使用可能な場合、
前記第２のパリティ更新方法におけるデータ通信量の計算方法は、中間パリティの使用可否で変更される
請求項６記載の分散ストレージシステム。
前記更新ライトを受信したノードが、前記データ通信量を計算して前記パリティ更新方法を切り替える請求項１記載の分散ストレージシステム。
前記ストライプに応じて、そのデータユニット及びパリティユニットを格納するノードが異なっており、
前記ストライプごとに前記パリティ更新方法を選択する請求項８記載の分散ストレージシステム。
プロセッサと、記憶ドライブと、を有するノードを複数備え、
データユニットとそれを修復するためのパリティユニットでストライプを構成し、
ストライプを構成する各ユニットをそれぞれの別のノードの記憶ドライブに格納する分散ストレージシステムのパリティ更新方法において、
前記プロセッサは、
前記データユニットを更新ライトした場合に、同じストライプ内のパリティユニットを更新し、
前記更新ライト後のストライプ内の全部のデータユニットに基づいて、前記パリティユニットを計算して更新する第１のパリティ更新方法と、
更新ライトを行ったデータユニットと、前記更新ライト前のデータユニットと、前記更新ライト前のパリティユニットと、に基づいて、前記更新ライト後のパリティユニットを計算して更新する第２のパリティ更新方法と、
を実行可能であり、
前記更新ライト後のパリティユニットの計算と、前記更新ライト後のデータユニットの格納と、前記更新ライト後のパリティユニットの格納とにかかる前記ノード間の通信量に基づいて、前記第１のパリティ更新方法と、第２のパリティ更新方法とを切り替える分散ストレージシステムのパリティ更新方法。