JP2021189624A

JP2021189624A - 分散ストレージ装置および分散ストレージ装置におけるデータ管理方法

Info

Publication number: JP2021189624A
Application number: JP2020092660A
Authority: JP
Inventors: 征之兒玉; Masayuki Kodama; 光雄早坂; Mitsuo Hayasaka; 悠冬鴨生; Yuto Komo
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-05-27
Filing date: 2020-05-27
Publication date: 2021-12-13
Anticipated expiration: 2040-05-27
Also published as: US20210374105A1; JP7102460B2; US11520745B2

Abstract

【課題】ノード間重複排除におけるノード間通信の回数を低減し、性能安定性と高い容量効率を両立する。【解決手段】ストレージノード２００、２１０のストレージドライブには複数のストレージノード２００、２１０において重複排除されていないファイル３３０、３４０と、重複排除された重複データが格納された重複データ格納ファイル３５０、３５１と、他のストレージノードに格納された重複データのキャッシュデータが格納されたキャッシュデータ格納ファイル３６０、３６１とが格納され、ストレージノード２００、２１０のプロセッサは、キャッシュデータのリードアクセス要求を受けた際に、キャッシュデータをキャッシュデータ格納ファイルに格納している場合にはキャッシュデータを読み出し、キャッシュデータを破棄している場合には他のストレージノードに要求してキャッシュデータにかかる重複データを読み出す。【選択図】図３

Description

本発明は、分散ストレージ装置および分散ストレージ装置におけるデータ管理方法に関する。

ＡＩ（ＡｒｔｉｆｉｃｉａｌＩｎｔｅｌｌｉｇｅｎｃｅ）などのデータ分析で用いる大量のデータを保存するために、スケールアウト型の分散ストレージが広く用いられている。大量のデータを効率よく格納するため、スケールアウト型の分散ストレージでは、重複排除や圧縮などの容量削減技術が必要とされている。

分散ストレージの容量削減技術として、ノード間重複排除がある。これはストレージ内で重複したデータを排除する重複排除技術を分散ストレージ向けに拡張した技術である。ノード間重複排除では、分散ストレージを構成する一つのストレージノード内で重複しているデータだけでなく、複数のストレージノード間で重複しているデータを削減することが可能となり、より効率的にデータを格納することが可能となる。

分散ストレージでは、データを分割し分散ストレージを構成する複数のノードに分散配置することで、アクセスの平準化を行い性能安定化を図っている。

しかし、分散ストレージへノード間重複排除技術を適用すると、重複データを持つノードへのアクセス集中が発生し、分散ストレージの性能が不安定化する。

このアクセス集中による性能不安定化を回避するため、特許文献１に開示されている、ノード間でデータをキャッシュし、相互に参照する技術を適用することが可能である。

米国特許出願公開第２０１４／０２８０６６４号明細書

特許文献１に開示された技術のように、ノード間で相互にデータをキャッシュする方式では、自ノードにデータが存在しない場合、近傍で同一データをキャッシュしているノードからデータを受領し、実データを持つノードへのアクセス集中を回避する。

この方式で性能向上をするためには、近傍ノードや実データを保持したノードへのアクセス回数を抑制する必要があり、そのためには自ノードのキャッシュを大きくし、他ノードから受領したデータもできる限りキャッシュすることで実現することができる。

しかし、これはキャッシュ容量に限りがあるにもかかわらず、同一データを複数ノードでキャッシュすることとなり、分散ストレージ全体としてはキャッシュ効率が下がるという状態に陥る。これによりキャッシュミス率が上がり、結果としてキャッシュミスした実データを保持したノードへのアクセス集中が起き、性能不安定化を回避できない。

本発明は、上記事情に鑑みなされたものであり、その目的は、ノード間重複排除における容量効率と性能安定性を両立可能な分散ストレージ装置および分散ストレージ装置におけるデータ管理方法を提供することにある。

上記課題を解決すべく、本発明の一つの観点に従う分散ストレージ装置は、複数のストレージノードを有する分散ストレージ装置であって、ストレージノードはストレージデバイスとプロセッサとを有し、複数のストレージノードは、ストレージノード間にて重複排除する重複排除機能を有し、ストレージデバイスには、複数のストレージノードにおいて重複排除されていないファイルと、重複排除された重複データが格納された重複データ格納ファイルと、他のストレージノードに格納された重複データのキャッシュデータが格納されたキャッシュデータ格納ファイルとが格納され、プロセッサは、所定の条件を満たした場合に、キャッシュデータを破棄し、キャッシュデータのリードアクセス要求を受けた際に、キャッシュデータをキャッシュデータ格納ファイルに格納している場合には当該キャッシュデータを読み出し、キャッシュデータを破棄している場合には他のストレージノードに要求してキャッシュデータにかかる重複データを読み出す。

本発明によれば、ノード間重複排除におけるノード間通信の回数を低減し、性能安定性と高い容量効率を両立することができる。

実施形態に係る分散ストレージシステムの概略構成を示すブロック図である。実施形態に係る分散ストレージシステムのハードウェア構成例を示すブロック図である。実施形態に係る分散ストレージシステムの論理構成例を示すブロック図である。実施形態に係る分散ストレージシステムの更新管理テーブルの構成を示す図である。実施形態に係る分散ストレージシステムのポインタ管理テーブルの構成を示す図である。実施形態に係る分散ストレージシステムのハッシュテーブルの構成を示す図である。実施形態に係る分散ストレージシステムのリード処理を示すフローチャートである。実施形態に係る分散ストレージシステムのキャッシュデータ更新処理を示すフローチャートである。実施形態に係る分散ストレージシステムのインライン重複排除ライト処理を示すフローチャートである。実施形態に係る分散ストレージシステムの重複データ更新処理を示すフローチャートである。実施形態に係る分散ストレージシステムのインライン重複排除処理を示すフローチャートである。実施形態に係る分散ストレージシステムのキャッシュデータ解放処理を示すフローチャートである。実施形態に係る分散ストレージシステムのポストプロセス重複排除ライト処理を示すフローチャートである。実施形態に係る分散ストレージシステムのポストプロセス重複排除処理を示すフローチャートである。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

本実施例の分散ストレージシステム（分散ストレージ装置）は、例えば以下の構成を有する。すなわち、分散ストレージシステムにおいて、インライン重複排除ライト処理もしくはポストプロセス重複排除ライト処理を行った際、各ノードの空き容量を重複データのキャッシュとして割り当てる。分散ストレージシステムのリード処理の際に、前記キャッシュデータに必要な重複データが存在する場合は、キャッシュデータを優先的に読み出すことで、ノード間通信を削減し、高速にデータ応答する。また、空き容量が不足している場合は、自ノードがデータ保持ノードになっている重複データを優先的にキャッシュに残しつつキャッシュ領域を解放する制御を行う。

なお、以下の説明において、「メモリ」は、１以上のメモリであり、典型的には主記憶デバイスでよい。メモリ部における少なくとも１つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。

また、以下の説明において、「プロセッサ」は、１以上のプロセッサである。少なくとも１つのプロセッサは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサであるが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサでもよい。少なくとも１つのプロセッサは、シングルコアでもよいしマルチコアでもよい。

また、少なくとも１つのプロセッサは、処理の一部又は全部を行うハードウェア回路（例えばＦＰＧＡ（Field-Programmable Gate Array）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサでもよい。

また、以下の説明において、「ｘｘｘテーブル」といった表現により、入力に対して出力が得られる情報を説明することがあるが、この情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「ｘｘｘテーブル」を「ｘｘｘ情報」と言うことができる。

また、以下の説明において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部又は一部が１つのテーブルであってもよい。

また、以下の説明において、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶資源（例えば、メモリ）及び／又は通信インターフェースデバイス（例えば、ポート）を用いながら行うため、処理の主語がプログラムとされてもよい。プログラムを主語として説明された処理は、プロセッサまたはそのプロセッサを有する計算機が行う処理としてもよい。

プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読み取り可能な（例えば非一時的な）記録媒体にあってもよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

また、以下の説明において、同種の要素を区別しないで説明する場合には、参照符号（又は、参照符号のうちの共通符号）を使用し、同種の要素を区別して説明する場合は、要素の識別番号（又は参照符号）を使用することがある。

図１は、実施形態に係る分散ストレージシステムの概略構成を示すブロック図である。

図１において、分散ストレージシステムＳは、分散配置された複数のストレージノード１００〜１１０およびクライアントサーバ１２０を備える。

ストレージノード１００〜１１０は、協調して分散ストレージを構成する。図１で示されているストレージノード１００〜１１０は２台だが、２台より多くのストレージノードで分散ストレージシステムＳを構成してもよい。分散ストレージシステムＳを構成するストレージノード１００〜１１０の台数は、何台でもよい。

また、ストレージノード１００〜１１０は、それぞれ重複排除データを格納するボリューム１０１〜１１１を備える。重複排除データは、ストレージノード１００〜１１０間で重複している重複データ（重複排除対象データ）について、ストレージノード１００〜１１０から重複排除されたデータである。重複排除データは、分散ストレージシステムＳを構成する一つのストレージノード１００〜１１０内で重複している重複データについて、その一つのストレージノード１００〜１１０から重複排除されたデータを含んでいてもよい。

さらに、ストレージノード１００〜１１０は、それぞれ重複データをキャッシュするボリューム１０２〜１１２を備える。キャッシュデータは、重複データとして各ストレージノードから削除されるデータを、キャッシュとして残存させたデータである。このボリューム１０２〜１１２には重複データ以外のキャッシュデータを含んでいてもよい。

分散ストレージシステムＳは、クライアントサーバ１２０からのＩＯリクエスト（データのリード要求またはライト要求）をストレージノード１００〜１１０のいずれかが受領し、ネットワークを介してストレージノード１００〜１１０間で互いに通信し、ストレージノード１００〜１１０同士で協調してＩＯ処理を実行する。ストレージノード１００〜１１０は、ストレージノード１００〜１１０間で重複している重複データに対して重複排除処理を実行し、ボリューム１０１〜１１１に重複データを、ボリューム１０２〜１１２にキャッシュデータを保存する。

ここで、例えばストレージノード１００は、クライアントサーバ１２０からリード要求された重複データが自ノード１００に保存されている場合は、ボリューム１０１から読み込むことができる。一方、重複データが他ノードに保存されている場合（例えばストレージノード１１０のボリューム１１１に保存されている場合）においても、自ノード１００にキャッシュデータが保存されている場合は、ボリューム１０２から読み込むことができる。このため、各ストレージノード１００〜１１０は、クライアントサーバ１２０からリード要求された重複データを自ノードが保存していない場合においても、キャッシュデータとして重複データを保持している場合は、重複データを読み込むためのノード間通信の回数を低減することができる。

図２は、実施形態に係る分散ストレージシステムのハードウェア構成例を示すブロック図である。

図２において、分散ストレージシステムＳは、分散配置された複数のストレージノード２００〜２１０およびクライアントサーバ２２０を備える。ストレージノード２００〜２１０は、分散ストレージプログラム３００〜３１０（図３参照）を実行して一体となって動作し、分散ストレージシステムＳを構成する。図２で示されているストレージノード２００〜２１０は２台だが、２台より多くのストレージノード２００〜２１０で分散ストレージを構成してもよい。分散ストレージシステムＳを構成するストレージノード２００〜２１０の台数は、何台でもよい。

各ストレージノード２００〜２１０は、回線２４２〜２４３を介してＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）２４０に接続され、クライアントサーバ２２０は、回線２４１を介してＬＡＮ２４０に接続され、管理サーバ２３０は、回線２４４を介してＬＡＮ２４０に接続されている。

ストレージノード２００は、プロセッサ２０２、メモリ２０３、ドライブ２０４およびＮＩＣ（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ）２０５を備える。プロセッサ２０２、メモリ２０３、ドライブ２０４およびＮＩＣ２０５は、バス２０１を介して互いに接続されている。

メモリ２０３は、プロセッサ２０２が読み書き可能な主記憶装置である。メモリ２０３は、例えば、ＳＲＡＭまたはＤＲＡＭなどの半導体メモリである。メモリ２０３には、プロセッサ２０２が実行中のプログラムを格納したり、プロセッサ２０２がプログラムを実行するためのワークエリアを設けたりすることができる。

ドライブ２０４は、プロセッサ２０２が読み書き可能な二次記憶装置である。ドライブ２０４は、例えば、ハードディスク装置またはＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）である。ドライブ２０４には、各種プログラムの実行ファイルやプログラムの実行に用いられるデータや重複データを格納するボリューム、キャッシュデータを格納するボリュームを保持することができる。

なお、ドライブ２０４は、ＲＡＩＤ（ＲｅｄｕｎｄａｎｔＡｒｒａｙｓｏｆＩｎｄｅｐｅｎｄｅｎｔＤｉｓｋｓ）技術などを用いて複数のハードディスク装置やＳＳＤから構成されていてもよい。

プロセッサ２０２は、ドライブ２０４上に格納されている分散ストレージプログラム３００（図３参照）をメモリ２０３上に読み込んで実行する。プロセッサ２０２は、バス２０１を介してＮＩＣ２０５と接続し、ＬＡＮ２４０および回線２４１〜２４３を介して、他のストレージノードおよびクライアントサーバ２２０とデータを送受信することができる。

ストレージノード２１０は、プロセッサ２１２、メモリ２１３、ドライブ２１４およびＮＩＣ２１５を備える。プロセッサ２１２、メモリ２１３、ドライブ２１４およびＮＩＣ２１５は、バス２１１を介して互いに接続されている。

メモリ２１３は、プロセッサ２１２が読み書き可能な主記憶装置である。メモリ２１３は、例えば、ＳＲＡＭまたはＤＲＡＭなどの半導体メモリである。メモリ２１３には、プロセッサ２１２が実行中のプログラムを格納したり、プロセッサ２１２がプログラムを実行するためのワークエリアを設けたりすることができる。

ドライブ２１４は、プロセッサ２１２が読み書き可能な二次記憶装置である。ドライブ２１４は、例えば、ハードディスク装置またはＳＳＤである。ドライブ２１４には、各種プログラムの実行ファイルやプログラムの実行に用いられるデータや重複データを格納するボリューム、キャッシュデータを格納するボリュームを保持することができる。
なお、ドライブ２１４は、ＲＡＩＤ技術などを用いて複数のハードディスク装置やＳＳＤから構成されていてもよい。

プロセッサ２１２は、ドライブ２１４上に格納されている分散ストレージプログラム３１０（図３参照）をメモリ２１３上に読み込んで実行する。プロセッサ２１２は、バス２１１を介してＮＩＣ２１５と接続し、ＬＡＮ２４０および回線２４１〜２４３を介して、他のストレージノードおよびクライアントサーバ２２０とデータを送受信することができる。

管理サーバ２３０は、ＬＡＮ２４０および回線２４４を介して、分散ストレージを構成するストレージノード２００〜２１０と接続し、ストレージノード２００〜２１０を管理する。

図３は、実施形態に係る分散ストレージシステムの論理構成例を示すブロック図である。

図３において、ストレージノード２００上で実行される分散ストレージプログラム３００と、ストレージノード２１０上で実行される分散ストレージプログラム３１０と、その他のストレージノード上で動作する分散ストレージプログラム（図では省略）は、協調して動作し、分散ストレージシステムＳを構成する。

分散ストレージシステムＳは、各ストレージノード２００〜２１０のドライブ上に作成されたボリューム３０２〜３１２にまたがって分散ファイルシステム３２０を構成する。分散ストレージシステムＳは、データをファイル３３０、３４０という単位で管理する。クライアントサーバ２２０は、分散ストレージプログラム３００〜３１０を介し、分散ファイルシステム３２０上の各ファイル３３０、３４０にデータを読み書きすることができる。

分散ファイルシステム３２０上の各ファイル３３０、３４０は、複数のファイル（分割ファイル）に分割され、各ストレージノード２００〜２１０の持つボリューム３０２〜３１２に分散配置される。

ファイル３３０は、分割ファイル３３１、３３４に分割され、各ストレージノード２００〜２１０の持つボリューム３０２〜３１２に分散配置されている。例えば、分割ファイル３３１は、ストレージノード２００の持つボリューム３０２に配置され、分割ファイル３３４は、ストレージノード２１０の持つボリューム３１２に配置される。図３には示していないが、ファイル３３０は、より多くの分割ファイルに分割されてもよい。

また、ファイル３４０は、分割ファイル３４１、３４４に分割され、各ストレージノード２００〜２１０の持つボリューム３０２〜３１２に分散配置されている。例えば、分割ファイル３４１は、ストレージノード２００の持つボリューム３０２に配置され、分割ファイル３４４は、ストレージノード２１０の持つボリューム３１２に配置される。図３には示していないが、ファイル３４０は、より多くの分割ファイルに分割されてもよい。

どのストレージノードに割り当てられたボリュームにどの分割ファイルを格納するかは、任意のアルゴリズムで決定される。アルゴリズムの例として、ＣＲＵＳＨ（ＣｏｎｔｒｏｌｌｅｄＲｅｐｌｉｃａｔｉｏｎＵｎｄｅｒＳｃａｌａｂｌｅＨａｓｈｉｎｇ）が挙げられる。各分割ファイル３４１、３４４は、各分割ファイル３４１、３４４を格納するボリューム３０２〜３１２を持つストレージノード２００〜２１０によって管理される。

分散ファイルシステム３２０上の各ファイル３３０、３４０は、分割ファイルの他、更新管理テーブルと、ポインタ管理テーブルを保持する。更新管理テーブルは、分割ファイルの更新状況を管理する。ポインタ管理テーブルは、重複データへのポインタ情報を管理する。更新管理テーブルとポインタ管理テーブルは、分割ファイルごとに存在する。

図３の例では、分割ファイル３３１に対応する更新管理テーブル３３２およびポインタテーブル３３３がボリューム３０２に格納され、分割ファイル３３４に対応する更新管理テーブル３３５およびポインタテーブル３３６がボリューム３１２に格納されている。また、分割ファイル３４１に対応する更新管理テーブル３４２およびポインタテーブル３４３がボリューム３０２に格納され、分割ファイル３４４に対応する更新管理テーブル３４５およびポインタテーブル３４６がボリューム３１２に格納されている。

また、分散ストレージシステムＳは、ストレージノード２００〜２１０の持つボリューム３０２〜３１２上に、ファイルシステム３２１〜３２２を構成する。ファイルシステム３２１〜３２２は、重複データ格納ファイル３５０〜３５１、キャッシュデータ格納ファイル３６０〜３６１を保持する。

そして、分散ストレージシステムＳは、分散ファイルシステム３２０で重複している重複データを分散ファイルシステム３２０から排除し、分散ファイルシステム３２０から排除した重複データを、重複排除データとしてファイルシステム３２１〜３２２上の重複データ格納ファイル３５０〜３５１に格納する。重複データ格納ファイル３５０〜３５１は複数作成され、それぞれ各ストレージノード２００〜２１０が使用する。分散ファイルシステム３２０で重複している重複データは、分割ファイル３４１、３４４間で重複している重複データであってもよいし、各分割ファイル３４１、３４４内で重複している重複データであってもよい。

さらに、分散ストレージシステムＳは、分散ファイルシステム３２０から排除される重複データのうち、自ノードに重複排除データとしてファイルシステム３２１〜３２２上の重複データ格納ファイル３５０〜３５１に格納されない重複データを、キャッシュデータ格納ファイル３６０〜３６１に格納する。キャッシュデータ格納ファイル３６０〜３６１は、それぞれ各ストレージノード２００〜２１０が使用する。分散ファイルシステム３２０で重複している重複データは、分割ファイル３４１、３４４間で重複している重複データであってもよいし、各分割ファイル３４１、３４４内で重複している重複データであってもよい。

図３の例では、重複データ格納ファイル３５０およびキャッシュデータ格納ファイル３６０が、ストレージノード２００に使用され、重複データ格納ファイル３５１およびキャッシュデータ格納ファイル３６１が、ストレージノード２１０に使用されている。

また、図３の例では、分散ファイルシステム３２０とファイルシステム３２１〜３２２が同一のボリューム３０２〜３１２を使用しているが、異なるボリュームを使用してもよい。

同様に、図３の例では、重複データ格納ファイル３５０〜３５１とキャッシュデータ格納ファイル３６０〜３６１がそれぞれ同一のファイルシステム３２１〜３２２上に格納されているが、異なるボリュームの異なるファイルシステム上、もしくは、同一のボリュームの異なるファイルシステム上に格納されてもよい。

また、図３の例では、重複データ格納ファイルおよびキャッシュデータ格納ファイルは、各ストレージノードに１つずつ存在しているが、それぞれ複数存在してもよい。

各分散ストレージプログラム３００〜３１０は、重複データを管理するためのテーブルとしてハッシュテーブル３０１〜３１１を保持する。図３の例では、分散ストレージプログラム３００がハッシュテーブル３０１を保持し、分散ストレージプログラム３１０がハッシュテーブル３１１を保持している。各ストレージノード２００〜２１０が保持するハッシュ値は、ハッシュ値の範囲で区切って各ストレージノード２００〜２１０に分散配置することができる。

図４は、図３の更新管理テーブルの構成を示す図である。

図４において、更新管理テーブル４００は、分割ファイルの更新状況を管理するために用いられる。更新管理テーブル４００は、分割ファイルごとに存在し、分割ファイルを格納するボリュームに分割ファイルとセットで保存される。分割ファイルが更新された場合、更新部位の先頭のオフセット値がカラム４０１に、更新サイズがカラム４０２に記録される。

図５は、図３のポインタ管理テーブルの構成を示す図である。

図５において、ポインタ管理テーブル５００は、重複データへのポインタ情報とキャッシュデータへのポインタ情報を管理するために用いられる。このポインタ情報は、それぞれ重複データもしくはキャッシュデータにアクセスするためのアクセス情報として用いることができる。

ポインタ管理テーブル５００は、分割ファイルごとに存在し、分割ファイルを格納するボリュームに分割ファイルとセットで保存される。カラム５０１には、分割ファイルのうち、重複データである部分の先頭のオフセット値が記録される。カラム５０２には、当該重複データを格納する重複データ格納ファイルのシステム上のパスが記録される。このパス情報にはノード識別子などの情報を含んでよい。カラム５０３には、重複データ格納ファイルにおいて、当該重複データを格納する部分の先頭のオフセット値が記録される。カラム５０４には、当該重複データのサイズが記録される。このサイズは、当該重複データのキャッシュデータが有効な場合、キャッシュデータのサイズとしても使用する。カラム５０５には、当該重複データのキャッシュデータを格納するキャッシュデータ格納ファイルのファイルシステム上のパスが記録される。キャッシュデータが当該ノードに存在しない場合は無効に設定される。カラム５０６には、キャッシュデータ格納ファイルにおいて、当該重複データのキャッシュデータを格納する部分の先頭のオフセット値が記録される。キャッシュデータが当該ノードに存在しない場合は無効に設定される。

図６は、図３のハッシュテーブルの構成を示す図である。

図６において、ハッシュテーブル６００は、分散ストレージ上に書き込まれたデータを管理するために用いられる。カラム６０１には、分散ストレージ上のファイルに書き込まれたデータのハッシュ値を記録する。カラム６０２には、当該データを格納するファイルのシステム上のパスが記録される。このパス情報にはノード識別子などの情報を含んでよい。このパスが指し示すファイルは、分割ファイルもしくは重複データ格納ファイルとなりうる。カラム６０３には、当該データを格納するファイルにおいて、当該データを格納する部分の先頭のオフセット値が記録される。カラム６０４には、当該データのサイズが記録される。カラム６０５には、当該データの参照カウントが記録される。当該データが重複データである場合、参照カウントが２以上となる。一方、当該データが重複データでない場合、参照カウントは１になる。

ハッシュテーブル６００は、各ストレージノード上のメモリに保存される。各ストレージノードが管理するハッシュ値の範囲は予め決められており、管理するデータのハッシュ値に応じて、どのストレージノードのハッシュテーブルに情報が記録されるかが決まる。

図７は、実施形態に係る分散ストレージシステムＳのリード処理を示すフローチャートである。図７では、分散ストレージシステムＳ上に格納されたファイルのデータをクライアントサーバ２２０が読み込む際のリード処理を示す。

図７において、ストレージノードＡは、クライアントサーバ２２０からの要求を受け付けるリクエスト受領ノード、ストレージノードＢは、クライアントサーバ２２０からの要求に対応する分割ファイルを格納している分割ファイル格納ノード、ストレージノードＣは、クライアントサーバ２２０からの要求に対応する分割ファイルの重複データを格納している重複データ格納ノードであるものとする。

そして、クライアントサーバ２２０が、分散ストレージを構成するいずれかのストレージノードＡの分散ストレージプログラムに対し、リード要求を送信した時点でリード処理が開始される。リード要求を受信したストレージノードＡの分散ストレージプログラムは、リード要求に含まれる情報（データを読み込むファイルのパス、オフセットおよびサイズ）により、当該データを格納する分割ファイルと、当該分割ファイルを格納する分割ファイル格納ノード（ストレージノードＢ）を特定する（７１０）。なお、処理７１０において分割ファイル格納ノードを特定するには、例えばＧｌｕｓｔｅｒＦＳ、Ｃｅｐｈと呼ばれるファイルシステムに依拠する手法が挙げられる。

次に、ストレージノードＡの分散ストレージプログラムは、当該分割ファイルを管理するストレージノードＢの分散ストレージプログラムに対し、リード要求を転送する（７１１）。リード要求されたデータが、複数の分割ファイルにまたがる場合、ストレージノードＡの分散ストレージプログラムは、複数のストレージノードの分散ストレージプログラムに対し、リード要求を転送する。

リクエストを転送されたストレージノードＢの分散ストレージプログラムは、当該分割ファイルのポインタ管理テーブルを参照し（７２０）、リード要求データに重複排除済みの重複データが含まれているか確認する（７２１）。

リード要求データが重複データを含まない場合、ストレージノードＢの分散ストレージプログラムは、分割ファイルから要求されたデータを読み込み（７２７）、読み込んだデータを、リード要求を受領したストレージノードＡに送信する（７２８）。

一方、リード要求データが重複データを含む場合、ストレージノードＢの分散ストレージプログラムは、ポインタ管理テーブルを参照し、カラム５０５〜５０６が有効かどうか、つまりキャッシュデータがキャッシュデータ格納ファイルに格納されているかを判定し（７２２）、カラム５０５〜５０６が有効であった場合は、カラム５０４〜５０６の情報を使ってキャッシュデータ格納ファイルから重複データを読み込む（７２３）。

しかし、カラム５０５〜５０６が無効であった場合、ストレージノードＢの分散ストレージプログラムは、ストレージノードＣの分散ストレージプログラムに対して、カラム５０２〜５０４の情報を使って重複データを読み出す要求を送信する（７２４）。要求を受けたストレージノードＣの分散ストレージプログラムは、指定されたデータを自ノードの重複データ格納ファイルから読み込み（７３０）、ストレージノードＢの分散ストレージプログラムにデータを送信する（７３１）。ストレージノードＢの分散ストレージプログラムは、データを受信（７２５）した後、受領したデータをもとにキャッシュデータ更新処理（８００）を実行する。

次に、ストレージノードＢの分散ストレージプログラムは、リード要求に重複排除されていない通常データが含まれているか確認する（７２６）。リード要求に重複排除されていない通常データが含まれていない場合、ストレージノードＢの分散ストレージプログラムは、読み込んだデータを、リード要求を受領したストレージノードＡに送信する（７２８）。

一方、リード要求に重複排除されていない通常データが含まれている場合、ストレージノードＢの分散ストレージプログラムは、当該データを分割ファイルから読み込み（７２７）、処理７２２〜７２５で読み込んだデータと共に、リード要求を受領したストレージノードＡに送信する（７２８）。

次に、データを受領したストレージノードＡの分散ストレージプログラムは、リクエストを転送した全てのノードからデータを受領したか確認する（７１２）。ストレージノードＡの分散ストレージプログラムは、全てのストレージノードからデータを受領していたら、クライアントサーバ２２０にデータを送信し、処理を終了する。全てのストレージノードからデータを受領していない場合、処理７１２に戻り、確認処理を繰り返す。

図８は、図７のキャッシュデータ更新処理（８００）を示すフローチャートである。図８は、自ノードのキャッシュデータ格納ファイルに格納されていない重複データを、キャッシュデータ格納ファイルに格納する際の処理を示す。

分散ストレージプログラムは、自ノードの空き容量が枯渇していないかを確認（８０１）する。枯渇に代えて、空き容量が所定量あるかを確認してもよい。枯渇していない場合は、キャッシュデータ格納ファイルに重複データを追記して格納（８０４）し、格納されたキャッシュデータに対応するポインタ管理テーブルのカラム５０５〜５０６を更新する（８０５）。この時、キャッシュデータ格納ファイルが存在しない場合は、新規に作成することができる。

一方、自ノードの空き容量が枯渇していた場合、分散ストレージプログラムは、キャッシュデータ格納ファイルが存在するかを確認する（８０２）。キャッシュデータ格納ファイルが存在しない場合、キャッシュデータのキャッシュデータ格納ファイルへの格納は行わず終了する。しかし、キャッシュデータ格納ファイルが存在していた場合、キャッシュデータ格納ファイルの一部もしくは全部を破棄（８０３）し、解放された領域に重複データを格納（８０４）し、破棄されたキャッシュデータおよび格納されたキャッシュデータに対応するポインタ管理テーブルのカラム５０５〜５０６を更新する（８０５）。

このキャッシュデータ格納ファイルの一部もしくは全部を破棄（８０３）する際、例えばＣＲＵＳＨのような分割ファイルの格納ノード決定アルゴリズムにより、自ノードがデータ保持ノードになっている分割データに含まれる重複データを優先的にキャッシュデータ格納ファイルに残すようにする。また、キャッシュデータを開放する際に、破棄することが決定したキャッシュデータと同一のファイルのためにキャッシュされたキャッシュデータをまとめて破棄してもよい。この分割ファイル格納ノード決定アルゴリズムは、分散ファイルシステムに合わせて選択することができる。また、一般的なＬＲＵ（ＬｅａｓｔＲｅｃｅｎｔｌｙＵｓｅｄ）のようなキャッシュ入れ替えアルゴリズムも併用してよい。

次に説明するライト処理では、分散ストレージシステムＳは、データの書き込み時に重複排除を実行するインライン重複排除と、任意のタイミングで重複排除を実行するポストプロセス重複排除の双方をサポートする。

図９は、実施形態に係る分散ストレージシステムＳのインライン重複排除ライト処理を示すフローチャートである。図９では、インライン重複排除時に、クライアントサーバ２２０が、分散ストレージシステムＳ上に格納されたファイルにデータを書き込む際のライト処理を示す。

図９において、ストレージノードＡは、クライアントサーバ２２０からの要求を受け付けるリクエスト受領ノード、ストレージノードＢは、クライアントサーバ２２０からの要求に対応する分割ファイルを格納している分割ファイル格納ノードであるものとする。

そして、クライアントサーバ２２０が、分散ストレージシステムＳを構成するいずれかのストレージノードＡの分散ストレージプログラムに対し、ライト要求を送信した時点でライト処理が開始される。ライト要求を受信したストレージノードＡの分散ストレージプログラムは、ライト要求に含まれる情報（データを書き込むファイルのパス、オフセットおよびサイズ）により、ライト対象の分割ファイルと、当該分割ファイルを格納する分割ファイル格納ノード（ストレージノードＢ）を特定する（９１０）。なお、処理９１０において分割ファイル格納ノードを特定するには、処理７１０と同様に、例えばＧｌｕｓｔｅｒＦＳ、Ｃｅｐｈと呼ばれるファイルシステムに依拠する手法が挙げられる。

次に、ストレージノードＡの分散ストレージプログラムは、当該分割ファイルを管理するストレージノードＢの分散ストレージプログラムに対し、ライト要求を転送する（９１１）。ライト要求されたデータが、複数の分割ファイルにまたがる場合、ストレージノードＡの分散ストレージプログラムは、複数のストレージノードの分散ストレージプログラムに対し、ライト要求を転送する。

リクエストを転送されたストレージノードＢの分散ストレージプログラムは、当該分割ファイルのポインタ管理テーブルを参照し（９２０）、ライト要求データに重複排除済みの重複データが含まれているか確認する（９２１）。

ライト要求データが重複データを含む場合、ストレージノードＢの分散ストレージプログラムは、重複データ更新処理を実行してから（１０００）、インライン重複排除処理を実行する（１１００）。

一方、ライト要求データが重複データを含まない場合、ストレージノードＢの分散ストレージプログラムは、インライン重複排除処理を実行する（１１００）。

次に、ストレージノードＢの分散ストレージプログラムは、インライン重複排除処理後の処理結果を、ライト要求を受領したストレージノードＡの分散ストレージプログラムに通知する（９２２）。

次に、ストレージノードＢから処理結果を受領したストレージノードＡの分散ストレージプログラムは、リクエストを転送した全てのストレージノードから処理結果を受領したか確認する（９１２）ストレージノードＡの分散ストレージプログラムは、全てのストレージノードから処理結果を受領していたら、クライアントサーバ２２０にライト処理の結果を送信し（９１３）、処理を終了する。全てのストレージノードから処理結果を受領していない場合、処理９１２に戻り、確認処理を繰り返す。

図１０は、図９の重複データ更新処理（１０００）を示すフローチャートである。

図１０において、ストレージノードＢは、クライアントサーバ２２０からの要求に対応する分割ファイルを格納している分割ファイル格納ノード、ストレージノードＣは、クライアントサーバ２２０からの要求に対応する重複データのハッシュ値を管理するハッシュテーブル管理ノード、ストレージノードＤは、クライアントサーバ２２０からの要求に対応する分割ファイルの重複データを格納している重複データ格納ノードであるものとする。

まず、図９の重複データ更新処理を実行するストレージノードＢの分散ストレージプログラムは、データを書き込む分割ファイルのポインタ管理テーブルを参照する（１０１０）。

次に、ストレージノードＢの分散ストレージプログラムは、ポインタ管理テーブルを参照し、カラム５０５〜５０６が有効かどうか、つまりキャッシュデータがキャッシュデータ格納ファイルに格納されているかを判定し（１０１１）、カラム５０５〜５０６が有効であった場合は、カラム５０４〜５０６の情報を使ってキャッシュデータ格納ファイルから重複データを読み込み（１０１２）、その後、キャッシュデータ格納ファイルに格納されている当該重複データを破棄する（１０１３）。

一方、カラム５０５〜５０６が無効であった場合、ストレージノードＢの分散ストレージプログラムは、ストレージノードＤの分散ストレージプログラムに対して、カラム５０２〜５０４の情報を使って重複データを読み出す要求を送信する（１０１４）。要求を受けたストレージノードＤの分散ストレージプログラムは、指定されたデータを自ノードの重複データ格納ファイルから読み込み（１０３０）、ストレージノードＢの分散ストレージプログラムにデータを送信し（１０３１）、ストレージノードＢの分散ストレージプログラムは、データを受信（１０１５）する。

次に、ストレージノードＢの分散ストレージプログラムは、ポインタ管理テーブルから該当の重複データのエントリを削除する（１０１６）。なお、当該重複データのエントリに、有効なキャッシュデータ格納ファイルの参照情報（カラム５０５〜５０６）がある場合は、こちらも削除する。

次に、ストレージノードＢの分散ストレージプログラムは、処理１０１１〜１０１５で読み込んだ重複データのハッシュ値を計算し（１０１７）、当該重複データを管理するハッシュテーブルを持つストレージノードＣに重複データの情報を送信する（１０１８）。

次に、重複データの情報を受信したストレージノードＣの分散ストレージプログラムは、自身のハッシュテーブルに記録されている当該データのエントリを検索し、当該データの参照カウントを減算する（１０２０）。

ストレージノードＣの分散ストレージプログラムは、当該データの参照カウントが０でない場合は、そのまま処理を終了する。

一方、ストレージノードＣの分散ストレージプログラムは、参照カウントが０になった場合は、ハッシュテーブルから当該データのエントリを削除し（１０２２）、ストレージノードＤに重複データの削除要求を送信する（１０２３）。削除要求を受領したストレージノードＤの分散ストレージプログラムは、指定された重複データを削除し（１０３２）、重複データの削除完了を通知する（１０３３）。ストレージノードＣの分散ストレージプログラムは、この通知を受け取った後（１０２４）、処理を終了する。

図１１は、図９のインライン重複排除処理（１１００）を示すフローチャートである。

図１１において、ストレージノードＢは、クライアントサーバ２２０からの要求に対応する分割ファイルを格納している分割ファイル格納ノード、ストレージノードＣは、クライアントサーバ２２０からの要求に対応する重複データのハッシュ値を管理するハッシュテーブル管理ノード、ストレージノードＤは、重複排除対象データと重複しているデータを保持する重複データ格納ノードであるものとする。

インライン重複排除処理を実行するストレージノードＢの分散ストレージプログラムは、ライト処理で書き込むデータのハッシュ値を計算する（１１１０）。このとき、ストレージノードＢの分散ストレージプログラムは、重複排除対象のデータごとにハッシュ値を計算する。例えば、書き込むデータが１０００バイトで、そのうち重複排除対象のデータが、書き込むデータの先頭から２０バイト目から１００バイトと、先頭から５４０バイト目から４００バイトの場合、処理１１１０は、２回実行される。

次に、ストレージノードＢの分散ストレージプログラムは、計算したハッシュ値をもとに、重複排除対象データを管理するハッシュテーブルを持つストレージノードＣに、重複排除対象データの情報（ハッシュ値、重複排除対象データを格納する分割ファイルのパス、オフセットおよびサイズ）を送信する（１１１１）。

情報を受領したストレージノードＣの分散ストレージプログラムは、ハッシュテーブルを検索し（１１２０）、重複排除対象データのエントリがハッシュテーブルに存在するか確認する（１１２１）。

ストレージノードＣの分散ストレージプログラムは、ハッシュテーブルにエントリがなければ、ハッシュテーブルに重複排除対象データの情報（ハッシュ値、重複排除対象データを格納する分割ファイルのパス、オフセットおよびサイズ）を登録し、参照カウントを１にする（１１２２）。

次に、ストレージノードＣの分散ストレージプログラムは、インライン重複排除処理を実行するストレージノードＢに処理終了を通知する（１１２３）。
処理終了の通知を受け取ったストレージノードＢの分散ストレージプログラムは、キャッシュデータ解放処理（１２００）を行った後、重複排除対象のデータを分割ファイルに書き込む（１０１２）。

次に、ストレージノードＢの分散ストレージプログラムは、全重複排除対象データの処理が終了したか確認し（１１１４）、全重複排除対象データの処理が終了していなければ、処理１１１０から処理を繰り返す。全重複排除対象データの処理が終了していれば、キャッシュデータ解放処理（１２００）を行った後、重複排除対象外のデータも分割ファイルに書き込む（１１１５）。この後、すべての重複排除対象外データの処理が終了したかを確認し（１１１６）、終了していればインライン重複排除処理を終了し、そうでなければ、処理１２００、１１１５から処理を繰り返す。

一方、処理１１２１において、ストレージノードＣの分散ストレージプログラムは、ハッシュテーブルにエントリあれば、当該エントリの参照カウントが１か確認し（１１２４）、１でなければ（参照カウントが２以上であれば）、重複データとみなし、当該エントリの参照カウントを１増やす（１１２５）。

次に、ストレージノードＣの分散ストレージプログラムは、当該エントリに記録されている情報（重複データを格納する重複データ格納ファイルのパス、オフセットおよびサイズ）をポインタ情報としてインライン重複排除処理を実行するストレージノードＢに通知する（１１２６）。

次に、ポインタ情報を受け取ったストレージノードＢの分散ストレージプログラムは、重複排除対象データを格納するはずだった分割ファイルのポインタ管理テーブルに、受け取ったポインタ情報を書き込む（１１１３）。さらに、ストレージノードＢの分散ストレージプログラムは、重複データを自ノードのキャッシュデータ格納ファイルに格納するためにキャッシュデータ更新処理（８００）を実行する。

そして、ストレージノードＢの分散ストレージプログラムは、全重複排除対象データの処理が終了したか確認し（１１１４）、全重複排除対象データの処理が終了していなければ、処理１１１０から処理を繰り返す。全重複排除対象データの処理が終了していれば、キャッシュデータ解放処理（１２００）を行った後、重複排除対象外のデータも分割ファイルに書き込む（１１１５）。この後、すべての重複排除対象外データの処理が終了したかを確認し（１１１６）、終了していればインライン重複排除処理を終了し、そうでなければ、処理１２００、１１１５から処理を繰り返す。

一方、処理１１２４において、ストレージノードＣの分散ストレージプログラムは、参照カウントが１であった場合、ハッシュテーブルのエントリの情報をもとに、重複排除対象データと重複しているデータを保持しているストレージノードＤに、当該エントリに記録されている情報（重複データを格納する分割ファイルのパス、オフセットおよびサイズ）を通知する（１１２７）。

通知を受けたストレージノードＤの分散ストレージプログラムは、自身のボリュームに格納されている重複データを、分割ファイルから重複データ格納ファイルに移動する（１１３０）。このとき、ストレージノードＤの分散ストレージプログラムは、重複排除対象データと重複データが本当に重複するかバイト比較を行ってもよい。ストレージノードＤの分散ストレージプログラムは、このデータ移動にあわせてポインタ管理テーブルを更新し（１１３１）、このポインタ情報（重複データを格納する重複データ格納ファイルのパス、オフセットおよびサイズ）をストレージノードＣの分散ストレージプログラムに通知する（１１３２）。

ポインタ情報を受け取ったストレージノードＣの分散ストレージプログラムは、ハッシュテーブルにおける重複データのエントリのパス、オフセットおよびサイズを、重複データ格納ファイルに格納された重複データのパス、オフセットおよびサイズに対応するように上書きする（１１２８）。

次に、ストレージノードＣの分散ストレージプログラムは、重複データのポインタ情報（重複データを格納する重複データ格納ファイルのパス、オフセットおよびサイズ）を、インライン重複排除処理を実行するストレージノードＢに通知する（１１２９）。

次に、ポインタ情報を受け取ったストレージノードＢの分散ストレージプログラムは、重複排除対象データを格納するはずだった分割ファイルのポインタ管理テーブルに、受け取ったポインタ情報を書き込む（１１１３）。さらに、ストレージノードＢの分散ストレージプログラムは、重複データを自ノードのキャッシュデータ格納ファイルに格納するためにキャッシュデータ更新処理（８００）を実行する。
そして、ストレージノードＢの分散ストレージプログラムは、全重複排除対象データの処理が終了したか確認し（１１１４）、全重複排除対象データの処理が終了していなければ、処理１１１０から処理を繰り返す。全重複排除対象データの処理が終了していれば、キャッシュデータ解放処理（１２００）を行った後、重複排除対象外のデータも分割ファイルに書き込む（１１１５）。この後、すべての重複排除対象外データの処理が終了したかを確認し（１１１６）、終了していればインライン重複排除処理を終了し、そうでなければ、処理１２００、１１１５から処理を繰り返す。

図１２は、図１１のキャッシュデータ解放処理（１２００）を示すフローチャートである。図１２は、自ノードの持つボリュームの空き容量を確認し、空き容量が枯渇している場合は、キャッシュデータを破棄して空き容量を確保する際の処理を示す。

分散ストレージプログラムは、自ノードの空き容量が枯渇していないかを確認（１２０１）し、枯渇していない場合は、キャッシュデータの破棄を行わずに終了する。

一方、自ノードの空き容量が枯渇していた場合、分散ストレージプログラムは、キャッシュデータ格納ファイルが存在するかを確認する（１２０２）。キャッシュデータ格納ファイルが存在しない場合、キャッシュデータの破棄は行わずに終了する。しかし、キャッシュデータ格納ファイルが存在していた場合、キャッシュデータ格納ファイルの一部もしくは全部を破棄して領域を解放し（１２０３）、格納されていたキャッシュデータに対応するポインタ管理テーブルのカラム５０５〜５０６を無効にする（１２０４）。

このキャッシュデータ格納ファイルの一部もしくは全部を破棄して領域を解放（１２０３）する際、例えばＣＲＵＳＨのような分割ファイルの格納ノード決定アルゴリズムにより、自ノードがデータ保持ノードになっている分割データに含まれる重複データを優先的にキャッシュデータ格納ファイルに残すようにする。また、キャッシュデータを開放する際に、破棄することが決定したキャッシュデータと同一のファイルのためにキャッシュされたキャッシュデータをまとめて破棄してもよい。この分割ファイル格納ノード決定アルゴリズムは、分散ファイルシステムに合わせて選択することができる。また、一般的なＬＲＵ（ＬｅａｓｔＲｅｃｅｎｔｌｙＵｓｅｄ）のようなキャッシュ入れ替えアルゴリズムも併用してよい。

図１３は、実施形態に係る分散ストレージシステムＳのポストプロセス重複排除ライト処理を示すフローチャートである。図１３では、ポストプロセス重複排除時に、クライアントサーバ２２０が、分散ストレージシステムＳ上に格納されたファイルにデータを書き込む際のライト処理を示す。

図１３において、クライアントサーバ２２０が、分散ストレージシステムＳを構成するいずれかのストレージノードＡの分散ストレージプログラムに対し、ライト要求を送信した時点でライト処理が開始される。ライト要求を受信したストレージノードＡの分散ストレージプログラムは、ライト要求に含まれる情報（データを書き込むファイルのパス、オフセットおよびサイズ）により、ライト処理の実行対象の分割ファイルと、当該分割ファイルを格納する分割ファイル格納ノード（ストレージノードＢ）を特定する（１３１０）。なお、処理１３１０において分割ファイル格納ノードを特定するには、処理７１０、９１０と同様に、例えばＧｌｕｓｔｅｒＦＳ、Ｃｅｐｈと呼ばれるファイルシステムに依拠する手法が挙げられる。

次に、ストレージノードＡの分散ストレージプログラムは、当該分割ファイルを管理するストレージノードＢの分散ストレージプログラムに対し、ライト要求を転送する（１３１１）。ライト要求されたデータが、複数の分割ファイルにまたがる場合、ストレージノードＡの分散ストレージプログラムは、複数のストレージノードの分散ストレージプログラムに対し、ライト要求を転送する。

リクエストを転送されたストレージノードＢの分散ストレージプログラムは、当該分割ファイルのポインタ管理テーブルを参照し（１３２０）、ライト要求データに重複排除済みの重複データが含まれているか確認する（１３２１）。

ライト要求データが重複データを含む場合、ストレージノードＢの分散ストレージプログラムは、重複データ更新処理１０００と、キャッシュデータ解放処理１２００を実行してから、当該分割ファイルにデータを書き込む（１３２２）。

一方、処理１３２１において、ライト要求データが重複データを含まない場合は、ストレージノードＢの分散ストレージプログラムは、キャッシュデータ解放処理１２００を実行してから、当該分割ファイルにデータを書き込む（１３２２）。

次に、ストレージノードＢの分散ストレージプログラムは、当該分割ファイルの更新管理テーブルに対して、データを書き込んだ部位の先頭オフセットとサイズを記録する（１３２３）。

次に、ストレージノードＢの分散ストレージプログラムは、ライト要求を受領したストレージノードＡの分散ストレージプログラムに処理結果を通知する（１３２４）。

次に、ストレージノードＢから処理結果を受領したストレージノードＡの分散ストレージプログラムは、リクエストを転送した全てのストレージノードから処理結果を受領したか確認する（１３１２）。ストレージノードＡの分散ストレージプログラムは、全てのストレージノードから処理結果を受領していたら、クライアントサーバ２２０にライト処理の結果を送信し、処理を終了する。全てのストレージノードから処理結果を受領していない場合、処理１３１２に戻り、確認処理を繰り返す。

図１４は、実施形態に係る分散ストレージシステムＳのポストプロセス重複排除処理を示すフローチャートである。

図１４において、ストレージノードＢは、クライアントサーバ２２０からの要求に対応する分割ファイルを格納している分割ファイル格納ノード、ストレージノードＣは、クライアントサーバ２２０からの要求に対応する重複データのハッシュ値を管理するハッシュテーブル管理ノード、ストレージノードＤは、重複排除対象データと重複しているデータを保持する重複データ格納ノードであるものとする。

図１４において、ポストプロセス重複排除処理を実行するストレージノードＢの分散ストレージプログラムは、自身が管理する分割ファイルの更新管理テーブルを参照する（１４１０）。

次に、ストレージノードＢの分散ストレージプログラムは、分割ファイルに格納されたデータのうち、更新されているデータを読み込み、ハッシュ値を計算する（１４１１）。このとき、ストレージノードＢの分散ストレージプログラムは、重複排除対象のデータごとにハッシュ値を計算する。例えば、読み込んだ更新データが１０００バイトで、そのうち重複排除対象のデータが、書き込むデータの先頭から２０バイト目から１００バイトと、先頭から５４０バイト目から４００バイトの場合、処理１２１１は、２回実行される。

次に、ストレージノードＢの分散ストレージプログラムは、計算したハッシュ値をもとに、重複排除対象データを管理するハッシュテーブルを持つストレージノードＣに、重複排除対象データの情報（ハッシュ値、重複排除対象データを格納する分割ファイルのパス、オフセットおよびサイズ）を送信する（１４１２）。

情報を受領したストレージノードＣの分散ストレージプログラムは、ハッシュテーブルを検索し（１４２０）、重複排除対象データのエントリがハッシュテーブルに存在するか確認する（１４２１）。

ストレージノードＣの分散ストレージプログラムは、ハッシュテーブルにエントリがなければ、ハッシュテーブルに重複排除対象データの情報（ハッシュ値、重複排除対象データを格納する分割ファイルのパス、オフセットおよびサイズ）を登録し、参照カウントを１にする（１４２２）。

次に、ストレージノードＣの分散ストレージプログラムは、ポストプロセス重複排除処理を実行するストレージノードＢに処理終了を通知する（１４２３）。
処理終了の通知を受け取ったストレージノードＢの分散ストレージプログラムは、全重複排除対象データの処理が終了したか確認し（１４１５）、全重複排除対象データの処理が終了していれば、更新管理テーブルから処理した更新データのエントリを削除し（１４１６）、全更新データを処理したか確認する（１４１７）。

ストレージノードＢの分散ストレージプログラムは、全更新データを処理していれば、ポストプロセス重複排除処理を終了し、そうでなければ、処理１４１０から処理を繰り返す。

一方、ストレージノードＢの分散ストレージプログラムは、処理１４１５において、全重複排除対象データの処理が終了していなければ、処理１４１１以降の処理を繰り返し実行する。

一方、処理１４２１において、ストレージノードＣの分散ストレージプログラムは、ハッシュテーブルにエントリあれば、当該エントリの参照カウントが１か確認し（１４２４）、１でなければ（参照カウントが２以上であれば）、重複データとみなし、当該エントリの参照カウントを１増やす（１４２５）。

次に、ストレージノードＣの分散ストレージプログラムは、当該エントリに記録されている情報（重複データを格納する重複データ格納ファイルのパス、オフセットおよびサイズ）をポインタ情報としてポストプロセス重複排除処理を実行するストレージノードＢに通知する（１４２６）。

次に、ポインタ情報を受け取ったストレージノードＢの分散ストレージプログラムは、重複排除対象データを格納するはずだった分割ファイルのポインタ管理テーブルに、受け取ったポインタ情報を書き込む（１４１３）。さらに、ストレージノードＢの分散ストレージプログラムは、キャッシュデータ更新処理（８００）を実行した後、分割ファイルに格納されているローカルの重複データを削除する（１４１４）。

次に、ストレージノードＢの分散ストレージプログラムは、全重複排除対象データの処理が終了したか確認し（１４１５）、全重複排除対象データの処理が終了していれば、更新管理テーブルから処理した更新データのエントリを削除し（１４１６）、全更新データを処理したか確認する（１４１７）。

一方、処理１１２４において、ストレージノードＣの分散ストレージプログラムは、参照カウントが１であった場合、ハッシュテーブルのエントリの情報をもとに、重複排除対象データと重複しているデータを保持しているストレージノードＤに、当該エントリに記録されている情報（重複データを格納する分割ファイルのパス、オフセットおよびサイズ）を通知する（１４２７）。

通知を受けたストレージノードＤの分散ストレージプログラムは、自身のボリュームに格納されている重複データを、分割ファイルから重複データ格納ファイルに移動する（１４３０）。このとき、ストレージノードＤの分散ストレージプログラムは、重複排除対象データと重複データが本当に重複するかバイト比較を行ってもよい。ストレージノードＤの分散ストレージプログラムは、このデータ移動にあわせてポインタ管理テーブルを更新し（１４３１）、このポインタ情報（重複データを格納する重複データ格納ファイルのパス、オフセットおよびサイズ）をストレージノードＣの分散ストレージプログラムに通知する（１４３２）。

ポインタ情報を受け取ったストレージノードＣの分散ストレージプログラムは、ハッシュテーブルにおける重複データのエントリのパス、オフセットおよびサイズを、重複データ格納ファイルに格納された重複データのパス、オフセットおよびサイズに対応するように上書きする（１４２８）。

次に、ストレージノードＣの分散ストレージプログラムは、重複データのポインタ情報（重複データを格納する重複データ格納ファイルのパス、オフセットおよびサイズ）を、ポストプロセス重複排除処理を実行するストレージノードＢに通知する（１４２９）。

次に、ポインタ情報を受け取ったストレージノードＢの分散ストレージプログラムは、重複排除対象データを格納するはずだった分割ファイルのポインタ管理テーブルに、受け取ったポインタ情報を書き込む（１４１３）。さらに、ストレージノードＢの分散ストレージプログラムは、重複データを自ノードのキャッシュデータ格納うファイルに格納するためにキャッシュデータ更新処理（８００）を実行した後、分割ファイルに格納されているローカルの重複データを削除する（１４１４）。
次に、ストレージノードＢの分散ストレージプログラムは、全重複排除対象データの処理が終了したか確認し（１４１５）、全重複排除対象データの処理が終了していれば、更新管理テーブルから処理した更新データのエントリを削除し（１４１６）、全更新データを処理したか確認する（１４１７）。

このように構成される本実施例によれば、ノード間重複排除における容量効率と性能安定性を両立可能な分散ストレージシステムＳおよび分散ストレージシステムにおけるデータ管理方法を実現することができる。

より詳細には、以上の動作フローにより、インライン重複排除ライト処理もしくはポストプロセス重複排除ライト処理において、空き容量を重複データのキャッシュとして割り当て、また容量枯渇時にはキャッシュ領域を解放することで、ノード間重複排除を用いた高容量効率の分散ストレージを実現しつつ、リード処理の際にキャッシュデータを利用した高性能を安定的に供給することができる。

また、全ストレージノードの分割ファイルサイズ、重複データ格納ファイル、キャッシュデータ格納ファイルの容量を合算することで、ノード間重複排除適用前の容量を算出し、ストレージ管理者等に提供することができる。

さらに、各ストレージノードにドライブなどを増設し、ボリューム容量を追加することで、キャッシュデータ格納ファイルに利用可能な容量を増やし、性能を向上することができる。

なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ、ハードディスク、ＳＳＤ（Solid State Drive）、光ディスク、光磁気ディスク、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

Ｓ…分散ストレージシステム、１００、１１０…ストレージノード、１２０…クライアントサーバ、１０１、１１１…重複排除データ、１０２、１１２…キャッシュデータ、３００、３１０…分散ストレージプログラム、３２０…分散ファイルシステム、３５０、３５１…重複データ格納ファイル、３６０、３６１…キャッシュデータ格納ファイル、４００…更新管理テーブル、５００…ポインタ管理テーブル、６００…ハッシュテーブル

Claims

複数のストレージノードを有する分散ストレージ装置であって、
前記ストレージノードはストレージデバイスとプロセッサとを有し、
前記複数のストレージノードは、ストレージノード間にて重複排除する重複排除機能を有し、
前記ストレージデバイスには、複数の前記ストレージノードにおいて重複排除されていないファイルと、重複排除された重複データが格納された重複データ格納ファイルと、他のストレージノードに格納された重複データのキャッシュデータが格納されたキャッシュデータ格納ファイルとが格納され、
前記プロセッサは、
所定の条件を満たした場合に、前記キャッシュデータを破棄し、
前記キャッシュデータのリードアクセス要求を受けた際に、前記キャッシュデータを前記キャッシュデータ格納ファイルに格納している場合には当該キャッシュデータを読み出し、前記キャッシュデータを破棄している場合には前記他のストレージノードに要求して前記キャッシュデータにかかる前記重複データを読み出す
ことを特徴とする分散ストレージ装置。
請求項１記載の分散ストレージ装置において、
前記所定の条件は、前記ストレージノード内のストレージデバイスの空き容量が少ないことである
ことを特徴とする分散ストレージ装置。
請求項１記載の分散ストレージ装置において、
前記プロセッサは、前記キャッシュデータ格納ファイルの前記キャッシュデータの一部もしくは全部を破棄して、前記他のストレージノードから読み出した前記リードアクセス要求にかかる前記重複データを前記キャッシュデータ格納ファイルに格納する
ことを特徴とする分散ストレージ装置。
請求項３記載の分散ストレージ装置において、
前記所定の複数のファイルがサーバからのアクセス単位となっており、前記アクセス単位内の所定の複数のファイルは複数のストレージノードに分散して格納されるとともに、前記ファイルを格納する担当がストレージノードに定められており、
前記プロセッサは、前記キャッシュデータ格納ファイルを破棄する際、自身の前記ストレージノードが担当となっているファイルにかかる前記重複データの前記キャッシュデータを優先的に前記キャッシュデータ格納ファイルに残す
ことを特徴とする分散ストレージ装置。
請求項３記載の分散ストレージ装置において、
前記所定の複数のファイルがサーバからのアクセス単位となっており、前記アクセス単位内の所定の複数のファイルは複数のストレージノードに分散して格納されるとともに、前記ファイルを格納する担当がストレージノードに定められており、
前記プロセッサは、前記キャッシュデータを破棄する際、破棄する前記キャッシュデータがあるアクセス単位の一部分を構成しているファイルである場合に、前記ファイルと同一のアクセス単位を構成する別のファイルの前記キャッシュデータを破棄する
ことを特徴とする分散ストレージ装置。
請求項１記載の分散ストレージ装置において、
前記プロセッサは、ライトアクセス要求を受けた際に、ライトアクセス要求にかかるデータがいずれかのデータと重複していることを検出した場合、重複排除を行うとともに、このライトアクセス要求にかかるデータを前記キャッシュデータ格納ファイルに格納する
ことを特徴とする分散ストレージ装置。
請求項６記載の分散ストレージ装置において、
前記プロセッサは、前記キャッシュデータ格納ファイルの前記キャッシュデータの一部もしくは全部を破棄し、前記ライトアクセス要求にかかる前記データの中に検出された前記重複データを前記キャッシュデータ格納ファイルに格納する
ことを特徴とする分散ストレージ装置。
請求項７記載の分散ストレージ装置において、
前記所定の複数のファイルがサーバからのアクセス単位となっており、前記アクセス単位内の所定の複数のファイルは複数のストレージノードに分散して格納されるとともに、前記ファイルを格納する担当がストレージノードに定められており、
前記プロセッサは、前記キャッシュデータ格納ファイルを破棄する際、自身の前記ストレージノードが担当となっているファイルにかかる前記重複データの前記キャッシュデータを優先的に前記キャッシュデータ格納ファイルに残す
ことを特徴とする分散ストレージ装置。
請求項７記載の分散ストレージ装置において、
前記所定の複数のファイルがサーバからのアクセス単位となっており、前記アクセス単位内の所定の複数のファイルは複数のストレージノードに分散して格納されるとともに、前記ファイルを格納する担当がストレージノードに定められており、
前記プロセッサは、前記キャッシュデータを破棄する際、破棄する前記キャッシュデータがあるアクセス単位の一部分を構成しているファイルである場合に、前記ファイルと同一のアクセス単位を構成する別のファイルの前記キャッシュデータを破棄する
ことを特徴とする分散ストレージ装置。
請求項１記載の分散ストレージ装置において、
前記プロセッサは、ライトアクセス要求を受けて前記重複排除されていないファイルに書き込みした後、任意のタイミングで重複判定を行い、書き込まれたデータの中に重複しているデータを検出した場合、この重複しているデータを前記キャッシュデータ格納ファイルに保存する
ことを特徴とする分散ストレージ装置。
請求項１０記載の分散ストレージ装置において、
前記プロセッサは、前記キャッシュデータ格納ファイルの前記キャッシュデータの一部もしくは全部を破棄し、前記ライトアクセス要求にかかる前記データの中に検出された前記重複データを前記キャッシュデータ格納ファイルに格納する
ことを特徴とする分散ストレージ装置。
請求項１１記載の分散ストレージ装置において、
前記所定の複数のファイルがサーバからのアクセス単位となっており、前記アクセス単位内の所定の複数のファイルは複数のストレージノードに分散して格納されるとともに、前記ファイルを格納する担当がストレージノードに定められており、
前記プロセッサは、前記キャッシュデータ格納ファイルを破棄する際、自身の前記ストレージノードが担当になっているファイルにかかる前記重複データの前記キャッシュデータを優先的に前記キャッシュデータ格納ファイルに残す
ことを特徴とする分散ストレージ装置。
請求項１１記載の分散ストレージ装置において、
前記所定の複数のファイルがサーバからのアクセス単位となっており、前記アクセス単位内の所定の複数のファイルは複数のストレージノードに分散して格納されるとともに、前記ファイルを格納する担当がストレージノードに定められており、
前記プロセッサは、前記キャッシュデータを破棄する際、破棄する前記キャッシュデータがあるアクセス単位の一部分を構成しているファイルである場合に、前記ファイルと同一のアクセス単位を構成する別のファイルの前記キャッシュデータを破棄する
ことを特徴とする分散ストレージ装置。
複数のストレージノードを有する分散ストレージ装置におけるデータ管理方法であって、
前記ストレージノードはストレージデバイスとプロセッサとを有し、
前記複数のストレージノードは、ストレージノード間にて重複排除する重複排除機能を有し、
前記ストレージデバイスには、複数の前記ストレージノードにおいて重複排除されていないファイルと、重複排除された重複データが格納された重複データ格納ファイルと、他のストレージノードに格納された重複データのキャッシュデータが格納されたキャッシュデータ格納ファイルとが格納され、
所定の条件を満たした場合に、前記キャッシュデータを破棄し、
前記キャッシュデータのリードアクセス要求を受けた際に、前記キャッシュデータを前記キャッシュデータ格納ファイルに格納している場合には当該キャッシュデータを読み出し、前記キャッシュデータを破棄している場合には他のストレージノードに要求して前記キャッシュデータにかかる前記重複データを読み出す
ことを特徴とする分散ストレージ装置におけるデータ管理方法。