WO2014155653A1

WO2014155653A1 - データ重複検出システムおよびデータ重複検出システムの制御方法

Info

Publication number: WO2014155653A1
Application number: PCT/JP2013/059462
Authority: WO
Inventors: 雅之岸
Original assignee: 株式会社日立製作所; 株式会社日立情報通信エンジニアリング
Priority date: 2013-03-29
Filing date: 2013-03-29
Publication date: 2014-10-02
Also published as: US20150220554A1; US9239844B2

Abstract

　正確かつ効率的にデータの重複を検出すること。　ストレージシステム１の有するデータ重複判定部１Ａは、受信データに含まれる対象チャンクデータが記憶済みであると第２管理テーブルＴ２が示す場合であって、かつ、対象チャンクデータの同一性を保証するデータ（フィンガープリント：ＦＰ）が第３管理テーブルＴ３に記憶されていない場合に、対象チャンクデータをプール４に一時保存する。重複判定部１Ａは、対象チャンクと異なる他の対象チャンクデータが記憶済みであると第２管理テーブルが示す場合であって、かつ、他の対象チャンクデータのＦＰが第３管理テーブルに記憶されていると判定した場合に、プールに保存されているチャンクデータが記憶済みであるか再判定する。

Description

データ重複検出システムおよびデータ重複検出システムの制御方法

　本発明は、データ重複検出システムおよびデータ重複検出システムの制御方法に関する。

　情報処理システムが取り扱うデータ量は年々増大するため、それらデータをバックアップするためのストレージシステムも年々大容量化している。バックアップデータは、ストレージシステムに記憶済みのデータと同一のデータを含んでいることが多い。このため、バックアップデータの中から重複データを排除すれば、ストレージシステムの有する記憶資源を有効に利用することができる。

　システム内に同一セグメントが存在するかを調べるために、（１）Memory Buffer IndexにSegment Finger Printが含まれているか、（２）Bloom Filter fo IndexにSegment Finger Printが含まれているか、（３）IndexにSegment Finger Printが含まれているか、という３段階で検索する従来技術が知られている（特許文献１）。

米国特許出願公開第２０１１／０２２５１９１号明細書

　全てのチャンクデータのFinger Printをチャンクインデックスに含めてしまうと、チャンクインデックスが管理するFinger Printの数が増えるため、検索に時間がかかる。

　検索時間を短縮するために、全てのチャンクデータのFinger Printを管理するのではなく、代表チャンクデータについてのFinger Printだけを管理する方法も考えられる。しかし、その場合は、或る一つの代表チャンクデータと他の一つの代表チャンクデータとの間に存在するチャンクデータについてデータの同一性を正確に判定することができない。つまり、代表チャンクデータ間のチャンクデータであって、Finger Printを管理していないチャンクデータについては、そのチャンクデータと同一のデータが存在する場合であっても、同一データであると判別することができない。従って、代表チャンクデータのFinger Printだけをチャンクインデックスで管理する方法では、処理速度が向上する代わりに、重複データの検出率、重複データの排除率が低下する。

　本発明は、上記問題に鑑みてなされたもので、その目的は、重複データを精度良く検出することのできるデータ重複検出システムおよびデータ重複検出システムの制御方法を提供することにある。

　上記課題を解決すべく、本発明に従うデータ重複検出システムは、データの重複を検出するためのデータ重複検出システムであって、受信データを分割して形成される複数のチャンクデータのそれぞれについて、記憶済みのチャンクデータと重複するかを判定するデータ重複判定部と、データ重複判定部によって重複しないと判定されたチャンクデータを記憶する記憶部と、記憶部に記憶されている各チャンクデータについて、データの同一性を示す同一性保証データとデータの格納先を示す格納先情報とを対応付けて管理する第１管理テーブルと、記憶部に記憶されている各チャンクデータの同一性保証データに基づいて作成される第２管理テーブルであって、チャンクデータが記憶部に記憶されていることを所定の信頼性の下で示す第２管理テーブルと、記憶部に記憶されている各チャンクデータをグループ化して形成される複数のチャンクデータセットを管理する第３管理テーブルであって、複数のチャンクデータセットをそれぞれ代表する所定のチャンクデータについての同一性保証データを管理する第３管理テーブルとを備え、データ重複判定部は、受信データに含まれる対象チャンクデータが記憶部に記憶されていると第２管理テーブルが示す場合であって、かつ、対象チャンクデータの同一性保証データが第３管理テーブルに記憶されていないと判定した場合に、対象チャンクデータを一時的に保存するための一時保存部に保存し、対象チャンクと異なる他の対象チャンクデータが記憶部に記憶されていると第２管理テーブルが示す場合であって、かつ、他の対象チャンクデータの同一性保証データが第３管理テーブルに記憶されていると判定した場合に、一時保存部に保存された対象チャンクデータの同一性保証データが第１管理テーブルに記憶されているか判定し、一時的保存部に保存された対象チャンクデータの同一性保証データが第１管理テーブルに記憶されていると判定した場合、一時的保存部に保存された対象チャンクデータは記憶部に記憶済みであると判定し、一時的保存部に保存された対象チャンクデータの同一性保証データが第１管理テーブルに記憶されていないと判定した場合、一時的保存に保存された対象チャンクデータは記憶部に記憶されていないと判定する。

　第１管理テーブルは複数のチャンクデータセット毎に用意してもよく、データ重複判定部は、他の対象チャンクデータが第３管理テーブルに記憶されていると判定した場合、複数のチャンクデータセット毎の第１管理テーブルのうち他の対象チャンクデータの属するチャンクデータセットに対応する第１管理テーブルに、一時保存部に保存された対象チャンクデータについての同一性保証データが記憶されているかを判定してもよい。

　本発明の更なる特徴は、本明細書の記述および添付図面から明らかになるであろう。また、本発明の様態は、要素、多様な要素の組み合わせ、以降の詳細な記述などから達成され、実現される。

　本明細書の記述は典型的な例示に過ぎず、本発明の特許請求の範囲又は適用例を如何なる意味に於いても限定するものではないことを理解する必要がある。

図１は、本発明の実施形態の概要を示す説明図である。図２は、情報処理システムの全体構成図である。図３は、テーブル構造を示す説明図である。図４は、データ重複を判定する方法の概要を模式的に示す説明図である。図５は、データ重複を判定する処理の全体図である。図６は、データ重複を判定する処理の詳細を示すフローチャートである。図７は、代表チャンクをチャンクインデックス等に登録する処理を示すフローチャートである。図８は、ホスト計算機からのリードコマンドに応じてデータを再構成する処理を示すフローチャートである。

　以下、図面に基づいて、本発明の実施の形態を説明する。添付図面では、機能的に同じ要素を同じ番号で表示する場合がある。添付図面は、本発明の原理に則った具体的な実施形態と実施例とを示している。それらの実施形態及び実施例は、本発明の理解のためのものであり、本発明を限定的に解釈するために用いてはならない。

　本実施形態では、当業者が本発明を実施するのに十分かつ詳細にその説明がなされているが、他の実施例または形態も可能である。本発明の技術的思想の範囲と精神を逸脱することなく、構成または構造の変更、多様な要素の置き換えが可能であることを理解する必要がある。従って、以降の記述を、これに限定して解釈してはならない。

　さらに、本発明の実施形態は、後述するように、汎用コンピュータ上で稼動するソフトウェアで実装しても良いし、専用ハードウェアで実装してもよいし、またはソフトウェアとハードウェアの組み合わせで実装しても良い。

　以後の説明では、管理用の情報をテーブル形式で説明するが、管理用の情報は必ずしもテーブルによるデータ構造で表現されていなくても良く、リスト、ＤＢ、キュー等のデータ構造やそれ以外で表現されていても良い。そのため、データ構造に依存しないことを示すために「テーブル」、「リスト」、「ＤＢ」、「キュー」等について単に「情報」と呼ぶことがある。

　以下では「プログラム」を主語（動作主体）として本発明の実施形態における各処理について説明を行う場合がある。プログラムはプロセッサによって実行されることで定められた処理をメモリ及び通信ポート（通信制御装置）を用いながら行うため、プロセッサを主語とした説明としてもよい。プログラムの一部または全ては専用ハードウェアで実現してもよく、また、モジュール化されていても良い。各種プログラムはプログラム配布サーバや記憶メディアによって各計算機にインストールされてもよい。

　図１は、本実施形態の概要を示す説明図である。情報処理システムは、少なくとも一つのストレージシステム１と、少なくとも一つのホスト計算機２を備えている。ストレージシステム１とホスト計算機２とは、例えば、ＩＰ（Internet Protocol）ネットワーク、ＬＡＮ（Local Area Network）、ＦＣ－ＳＡＮ（Fibre Channel - Storage Area Network）等を用いた通信経路で接続してもよい。

　先にホスト計算機２について説明する。ホスト計算機２は、例えばバックアップサーバのように構成されており、バックアッププログラム２Ａとバックアップデータ２Ｂを備えている。バックアッププログラム２Ａは、定期的にまたは不定期にバックアップデータ２Ｂのバックアップを作成するためのコンピュータプログラムである。

　ストレージシステム１の構成を説明する。図１に示すストレージシステム１は、例えば、データ重複を判定するためのデータ重複判定部１Ａと、記憶部１Ｂを備える。データ重複判定部１Ａは、複数の判定部Ｊ１～Ｊ４と、複数のテーブルＴ１Ｃ～Ｔ３と、プール４を備える。

　ストレージシステム１は、ホスト計算機２から受領するバックアップデータ（ユーザデータ、またはユーザファイルとも呼ぶ）２Ｂを複数のチャンクに分けて管理する。チャンクのデータサイズは可変であり、データパターンに応じてチャンクサイズが適切に設定される。

　チャンクのデータを所定のハッシュ関数に入力することで、ハッシュ値を得ることができる。本実施形態では、そのハッシュ値を、チャンクデータの同一性を保証するための同一性保証データの一例として使用する。以下、同一性保証データをフィンガープリントとも呼び、ＦＰと略記することもある。或るデータのＦＰと他のデータのＦＰとが一致する場合、両方のデータは同一であると判定することができる。

　図１の下側に示すように、ストレージシステム１は、複数のチャンクをグループ化することで、チャンクデータセットＤＳを生成する。ストレージシステム１は、チャンクデータセットの単位でチャンクデータを管理する。ストレージシステム１は、複数のチャンクデータセットに分散しているチャンクデータを所定の順序で結合することで、ユーザデータ（バックアップデータ）を再構築することができる。

　第１管理テーブルＴ１は、記憶部１Ｂに記憶されている各チャンクデータについて、そのＦＰとデータ格納先を示す格納先情報とを対応付けて管理する。第１管理テーブルＴ１は、チャンクデータセット毎に用意されており、記憶部１Ｂに格納されている。チャンクデータセット毎に用意される第１管理テーブルＴ１のうち、最近使用された第１管理テーブルＴ１は記憶部１Ｂからメモリに転送されて記憶される。以下の説明では、データ重複判定部１Ａの使用するメモリ（例えばキャッシュメモリ、システムメモリ）に第１管理テーブルＴ１Ｃを転送して記憶することを、「第１管理テーブルＴ１をキャッシュする」と表現する場合がある。データ重複判定部１Ａは、メモリに置かれた第１管理テーブルＴ１Ｃを用いて、後述する第１判定Ｊ１を実行する。

　第２管理テーブルＴ２は、記憶部１Ｂに記憶されている各チャンクデータのＦＰに基づいて作成されるテーブルであって、チャンクデータが記憶部１Ｂに記憶されていることを所定の信頼性の下で示す。

　第２管理テーブルＴ２は、ブルームフィルタのように構成することができる。記憶部１Ｂに記憶されるチャンクデータを所定数のハッシュ関数にそれぞれ入力してハッシュ値を求め、それらハッシュ値の示す位置のビットをオンにすることで、ブルームフィルタを生成することができる。例えば、３つのハッシュ値”１”、”３”、”４”を有するチャンクデータをブルームフィルタに登録すると、ブルームフィルタは初期値「０００００００・・・」から「１０１１０００・・・」と変化する。このように、ブルームフィルタのビット列のうち各チャンクデータのハッシュ値に対応する位置のビットをオンにすることで、チャンクデータの存在を判別するためのブルームフィルタを得ることができる。

　ブルームフィルタにおいて、調査対象のチャンクデータの各ハッシュ値（ＦＰ）に対応するビットが全てオンになっている場合は、その調査対象のチャンクデータが記憶部１Ｂに存在する可能性が一定値以上ある。その可能性の確からしさは、ハッシュ関数の数およびブルームフィルタのビット数から算出できる。調査対象のチャンクデータが存在すると判定しながらその判定が誤っている場合の確率、つまり擬陽性は数パーセントないし十数パーセント程度である。

　これに対し、ブルームフィルタにおいて、調査対象のチャンクデータの各ハッシュ値に対応するビットのうちいずれか一つでもオンになっていないビットが有る場合、その調査対象のチャンクデータは記憶部１Ｂに記憶されていない。その場合、調査対象のチャンクデータが記憶部１Ｂに存在しない確率は１００％である。

　第３管理テーブルＴ３は、記憶部１Ｂに記憶されている各チャンクデータをグループ化して形成される複数のチャンクデータセットＤＳを管理するテーブルである。第３管理テーブルＴ３は、チャンクデータセットを代表する所定のチャンクデータについてのＦＰを管理する。第３管理テーブルＴ３には、例えば、ユーザファイルの先頭の２つのチャンク、チャンクデータセット（コンテナとも呼ぶ）の先頭の２つのチャンク、直前の代表チャンクから数えてｎ番目のチャンクなどを、代表チャンクとして登録できる。図１の下側に太い黒枠で示す「Ａ」、「Ｂ」は代表チャンクの例である。

　データ重複判定部１Ａは、重複判定の対象となるデータを受信すると、以下に述べる複数段階Ｊ１～Ｊ４で判定する。

　第１判定部Ｊ１は、メモリに記憶されている第１管理テーブルＴ１Ｃに、受信データに含まれる対象チャンクデータのＦＰが記憶されているか判定する。第１判定部Ｊ１は、対象チャンクデータのＦＰが第１管理テーブルＴ１Ｃに記憶されていると判定した場合、対象チャンクデータは記憶部１Ｂに記憶されていると判定する。記憶済みのデータであるとの判定結果を、図１中では「既存」と表す。第１判定部Ｊ１の判定結果が「無し」である場合、つまり対象チャンクデータのＦＰが第１管理テーブルＴ１Ｃに記憶されていない場合は、第２の判定Ｊ２に移る。なお、以下の説明では、チャンクデータのＦＰがテーブル等に記憶されていることを、「チャンクデータのＦＰがテーブル等に登録されている」と表現する場合がある。

　第２判定部Ｊ２は、対象チャンクデータが記憶部１Ｂに記憶されていることを第２管理テーブルが示しているか判定する。対象チャンクデータが記憶部１Ｂに記憶されていることを第２管理テーブルＴ２が示していない場合、対象チャンクデータは新規なチャンクデータであると判定される。新規なチャンクデータは記憶部１Ｂに記憶され、各管理テーブルＴ１～Ｔ３の所定の項目の値が更新される。

　第２管理テーブルＴ２が、対象チャンクデータが記憶部１Ｂに記憶されている可能性があることを示した場合、第３の判定Ｊ３に移る。

　第３判定部Ｊ３は、対象チャンクデータのＦＰが記憶部１Ｂに記憶されていることを第２管理テーブルが示す場合、対象チャンクデータのＦＰが第３管理テーブルＴ３に記憶されているか判定する。上述の通り、第３管理テーブルＴ３には、チャンクデータセット内の各チャンクのうち所定のチャンク（代表チャンク）のＦＰのみが記憶されている。対象チャンクデータのＦＰが第３管理テーブルＴ３に記憶されている場合、対象チャンクデータは記憶部１Ｂに記憶されていると判定できる。

　これに対し、対象チャンクデータのＦＰが第３管理テーブルＴ３に記憶されていないと判定した場合、重複データの有無について判断を一時保留し、対象チャンクデータ（保留チャンクデータと呼んでもよい）をプール４に記憶する。

　対象チャンクデータと同一データの存在が第２管理テーブルＴ２によって示されているにもかかわらず、対象チャンクデータのＦＰが第３管理テーブルＴ３内に見当たらないということは、対象チャンクが代表チャンク以外のチャンクであることを示している可能性が高い。そこで、この場合、本実施形態では、対象チャンクデータが新規チャンクデータであると判定するのを一時保留し、再検査の機会を待つことにしている。

　第４判定部Ｊ４は、プール４に記憶された対象チャンクデータについて、同一データが存在するかを再度判定する。第４判定部Ｊ４の起動タイミングは、他の対象チャンクデータについてのデータ重複判定時である。

　他の対象チャンクデータのＦＰが第３管理テーブルＴ３に記憶されていると第３判定部Ｊ３が判定した場合、データ重複判定部１Ａは、他の対象チャンクデータに対応する第１管理テーブルをメモリに転送して記憶する。

　第４判定部Ｊ４は、他の対象チャンクデータのＦＰが第３管理テーブルＴ３に記憶されていると第３判定部Ｊ３が判定した場合、プール４に一時的に記憶された対象チャンクデータのＦＰがメモリ上の第１管理テーブルＴ１Ｃに記憶されているか判定する。

　つまり、他の対象チャンクデータについてのデータ重複判定によりメモリ上の第１管理テーブルＴ１Ｃが更新された場合、新たにメモリに記憶された第１管理テーブルＴ１Ｃに基づいて、判断を保留していた対象チャンクデータについて最終判定を行う。

　対象チャンクデータのＦＰが第１管理テーブルＴ１Ｃに記憶されていると第４判定部Ｊ４が判定すると、データ重複判定部１Ａは、プール４の対象チャンクデータをプール４から削除する。これに対し、対象チャンクデータのＦＰが第１管理テーブルＴ１Ｃに記憶されていないと第４判定部Ｊ４が判定した場合、プール４に一時的に記憶された対象チャンクデータは記憶部１Ｂに記憶されていない新規チャンクデータであると判定される。データ重複判定部１Ａは、対象チャンクデータを記憶部１Ｂに記憶し、対象チャンクデータをプール４から削除する。

　なお、データ重複判定部１Ａは、プール４の使用量が所定の上限値に達した場合、プール４に一時的に記憶されている対象チャンクデータを新規チャンクデータとして扱い、記憶部１Ｂに記憶する。記憶部１Ｂに記憶された対象チャンクデータは、プール４から削除される。

　このように構成される本実施形態によれば、チャンクデータセットの代表チャンクのＦＰのみを第３管理テーブルＴ３に記憶することで、データ重複判定を高速に行うことができる。さらに、本実施形態によれば、第３管理テーブルＴ３にＦＰが記憶されていない対象チャンクデータを直ちに新規チャンクデータと判定するのではなく、いったんプール４に保存する。そして、本実施形態では、メモリ上の第１管理テーブルＴ１Ｃが更新された場合に、その第１管理テーブルＴ１Ｃを用いて、プール４内の対象チャンクデータと同一データが存在するか判定する。従って、本実施形態によれば、データ重複判定処理の高速性と正確性とを両立させることができる。

　本実施形態では、メモリ上の第１管理テーブルＴ１Ｃに記憶されているＦＰに基づいて対象チャンクデータが記憶済みデータであるか判定する（Ｊ１）。さらに、本実施形態では、メモリ上の第１管理テーブルＴ１Ｃに対象チャンクデータのＦＰが記憶されていない場合、ブルームフィルタとして構成される第２管理テーブルＴ２を用いて、対象チャンクデータが記憶済みであるかを判定する（Ｊ２）。本実施形態の第２管理テーブルＴ２には、代表チャンクのＦＰだけでなく、それら以外のチャンクのＦＰも反映される。

　本実施形態では、全チャンクデータについて存在可能性を示すことのできる第２管理テーブルＴ２を得ることができる。本実施形態では、第２管理テーブルＴ２によって対象チャンクデータと同一データの存在が示された場合、対象チャンクデータのＦＰが第３管理テーブルＴ３に記憶されているか判定する（Ｊ３）。

　判定Ｊ１、Ｊ２は、テーブルサイズが比較的小さく、かつ、メモリ上に存在するため、高速に行うことができる。第３管理テーブルＴ３には代表チャンクのＦＰだけを登録するため、全てのチャンクデータのＦＰを第３管理テーブルＴ３に登録する場合に比べて、第３管理テーブルＴ３のサイズを小さくできる。このため、第３判定部Ｊ３の処理を高速に行うことができる。従って、本実施形態では、データの重複判定の処理速度を高くすることができる。

　さらに本実施形態では、対象チャンクが代表チャンクではない場合、対象チャンクデータの判断を一時保留して、プール４に記憶する。そして、本実施形態では、メモリ上の第１管理テーブルＴ１Ｃが更新されるのを待ち、更新された第１管理テーブルＴ１Ｃを用いて、プール４内の対象チャンクデータが記憶済みであるか判定する。本実施形態では、このように、一時判断を保留した対象チャンクデータについて、別のタイミングで再マッチング処理（記憶部１Ｂに記憶済みのデータと対象チャンクデータを比較する処理）を実行する。従って、記憶済みのデータを精度良く検出することができ、重複したデータを排除することができる。

　さらに、本実施形態では、最初の判定Ｊ１において新規データであると判定されたチャンクデータのうち、第２管理テーブルＴ２によって同一データの存在が示されたチャンクデータだけをプール４に記憶して、再判定の機会を与える。換言すれば、第２判定Ｊ２により、重複データが存在する可能性の無い対象チャンクデータを除去するため、プール４を効率的に使用することができ、無駄な再判定が実行されるのを抑制できる。

　本実施形態では、プール４の使用量が上限値に達した場合、プール４に蓄積された対象チャンクデータを新規データとして扱い、記憶部１Ｂに記憶する。従って、データ重複判定が必要以上に遅れるのを防止し、限られたサイズのプール４を有効に利用して、データ重複の排除効率を高めることができる。以下、本実施形態の一例を説明する。以下の説明ではチャンクデータをデータと略記する場合がある。

　図２～図８を用いて第１実施例を説明する。先に図１に示す実施形態との対応関係を説明する。ストレージシステム１０はストレージシステム１に、ホスト計算機２０はホスト計算機２に、通信経路ＣＮは通信経路３に、記憶部１２０は記憶部１Ｂに、「一時保存部」としてのチャンクプール１３４はプール４に、チャンクデータセットインデックス１３２は第１管理テーブルＴ１に、ブルームフィルタ１３３は第２管理テーブルＴ２に、チャンクインデックス１３６は第３管理テーブルＴ３に、チャンクデータセット１３７はチャンクデータセットＤＳに、対応する。

　図２に示す情報処理システムは、図１で述べたと同様に、少なくとも一つのストレージシステム１０と、少なくとも一つのホスト計算機２０を備える。ストレージシステム１０とホスト計算機２０は、通信経路ＣＮによって双方向通信可能に接続される。

　ホスト計算機２０は、例えばバックアップサーバのように構成される。
ホスト計算機２０は、バックアップアプリケーション２１およびバックアップデータ２２を記憶するための記憶装置と、バックアップアプリケーション２１を実行するためのマイクロプロセッサと、ストレージシステム１０と通信するための通信装置（いずれも不図示）を備える。なお、アプリケーションとはアプリケーションプログラムの略である。

　ストレージシステム１０は、ホスト計算機２０のバックアップデータを保存するためのシステムであり、バックアップデータの保存に際して重複データを検出して取り除く機能を有する。ストレージシステム１０は、例えば、複数のノード１１０と、複数のノード１１０により共同で使用される少なくとも一つの記憶部１２０を有する。重複したデータを検出して排除する機能は、図２に示すようにストレージシステム１０内に設けてもよいし、ストレージシステム１０とは別の装置に設けてもよい。

　先に記憶部１２０の構成を説明する。記憶部１２０は、ストレージシステム１０に記憶領域を提供するものである。記憶部１２０は、複数の記憶装置１２１と、それら複数の記憶装置１２１を制御するための少なくとも一つの制御装置１２２を備える。制御装置１２２は、少なくとも一つの通信ポート１２３を備えている。制御装置１２２は、通信ポート１２３を介して、少なくとも一つのノード１１０に双方向通信可能に接続される。換言すれば、各ノード１１０はそれぞれ異なる通信経路を介して複数の制御装置１２２と通信することができる。従って、各ノード１１０は、一方の通信経路または一方の制御装置１２２に障害が発生した場合でも、他方の通信経路および他方の制御装置１２２を用いて記憶部１２０内の記憶装置１２１にアクセスすることができる。

　記憶装置としては、例えば、ハードディスクデバイス、半導体メモリデバイス、光ディスクデバイス、光磁気ディスクデバイス等のデータを読み書き可能な種々の記憶装置を利用可能である。

　記憶装置としてハードディスクデバイスを用いる場合、例えば、ＦＣ（Fibre Channel）ディスク、ＳＣＳＩ（Small Computer System Interface）ディスク、ＳＡＴＡディスク、ＡＴＡ（AT Attachment）ディスク、ＳＡＳ（Serial Attached SCSI）ディスク等を用いることができる。

　また、例えば、フラッシュメモリ、ＦｅＲＡＭ（Ferroelectric Random Access Memory）、ＭＲＡＭ（MagnetoresistiveRandom Access Memory）、相変化メモリ（Ovonic Unified Memory）、ＲＲＡＭ（登録商標）等の種々の記憶装置を用いることもできる。さらに、例えば、フラッシュメモリデバイスとハードディスクデバイスのように、種類の異なる記憶装置を混在させる構成でもよい。

　一つまたは複数の記憶装置１２１の有する物理的記憶領域を用いて、論理的記憶領域である論理ボリュームを任意サイズで作成することができる。論理ボリュームには、例えばＲＡＩＤ（Redundant Arrays of Inexpensive Disks）１、ＲＡＩＤ５、ＲＡＩＤ６のような冗長構成でデータを記憶することができる。

　例えば複数の記憶装置１２１により形成される記憶領域には、ファイルシステム１２４が設けられている。ファイルシステム１２４には、例えば、コンテンツ管理テーブル１３５、チャンクインデックス１３６、チャンクデータセットインデックス１３２、チャンクデータセット１３７、スタブファイル１３８等が格納される。

　ノード１１０の構成を説明する。ノード１１０は、例えば、マイクロプロセッサ１１１と、メモリ１１２と、通信ポート１１３を含むコンピュータ装置である。図中に示すメモリ１１２は、システムメモリ、キャッシュメモリ、補助記憶装置などを含む。

　メモリ１１２には、例えば、ファイルシステム管理部１３０、重複排除プログラム１３１、チャンクデータセットインデックス１３２Ｃ、ブルームフィルタ１３３、チャンクプール１３４等が記憶される。

　ファイルシステム管理部１３０は、ファイルシステム１２４を管理するコンピュータプログラムである。重複排除プログラム１３１は、受信データ（入力データ）と記憶部１２０に記憶済みのデータとが一致するかを検出し、重複するデータは排除し、新規データを記憶部１２０に記憶させるコンピュータプログラムである。重複排除プログラム１３１は、図１に示す重複排除部１Ａの主要部に相当する。

　図３を用いて、データ管理構造を説明する。ホスト計算機２０から受領するバックアップデータとしてのユーザファイルは、コンテンツ識別子により識別される。ユーザファイルは、ファイルシステム１２４内でスタブファイル１３８として管理されている。スタブファイル１３８はコンテンツ識別子を有し、ファイルシステム１２４内に分散して記憶されたチャンクデータから構成される。

　コンテンツ管理テーブル１３５は、スタブファイル１３８毎に設けられており、スタブファイルと一対一で対応する。コンテンツ管理テーブル１３５はスタブ化されたユーザファイルを特定するためのコンテンツ識別子を有しており、そのユーザファイルを構成する各チャンクを管理するためのデータを含む。

　各チャンクの管理用データは、例えば、コンテンツオフセット値（Ｏｆｆｓｅｔ）、チャンク長（Ｌｅｎｇｔｈ）、チャンクデータセット識別子（ＣＤＳ　ＩＤ）、フィンガープリント（ＦＰ）を備える。

　コンテンツオフセット値は、ユーザファイルにおけるチャンクの位置を示す。チャンク長は、そのチャンクのデータサイズを示す。チャンクデータセット識別子は、チャンクをグループ化して管理するチャンクデータセットを識別するための情報である。フィンガープリント（ＦＰ）は、チャンクデータセット識別子で特定されるチャンクデータセット内のチャンクを特定するための情報である。コンテンツ管理テーブル１３５を用いることで、ユーザファイルがどのチャンクデータセットで管理されているチャンクから構成されているかを把握できる。

　チャンクデータセット（ＣＤＳ）１３７は、チャンクデータをグループ化して管理しており、チャンクデータセットを識別するための識別子を有する。チャンクデータセット１３７は、複数のチャンクを収容するコンテナと呼ぶこともできる。チャンクデータセット１３７は、例えばチャンクデータ長（Ｌｅｎｇｔｈ）とチャンクデータとの組から特定されるチャンクを複数含んでいる。

　チャンクデータセットインデックス（ＣＤＳ　ＩＤＸ）１３２は、チャンクデータセット１３７を管理するための情報であり、チャンクデータセット識別子を有する。ＣＤＳ　ＩＤＸ１３２は、チャンクデータセット毎に設けられ、チャンクデータセット１３７と一対一で対応する。ＣＤＳ　ＩＤＸ１３２は、チャンクデータセットに含まれる各チャンクデータ毎に、チャンクデータのＦＰと、チャンクデータセットにおけるチャンクデータの位置を示すオフセット値と、チャンクデータ長とを対応付けて管理する。

　チャンクインデックス１３６は、ストレージシステム１０で管理される全チャンクデータのうち所定基準で選択される代表チャンクデータを管理する情報である。チャンクインデックス１３６は、代表チャンク毎に、代表チャンクデータのＦＰと、その代表チャンクが属するチャンクデータセット１３７を特定するためのチャンクデータセット識別子とを対応付けて管理する。

　受信データに含まれるチャンクデータ（処理対象のチャンクデータ）のＦＰがチャンクインデックス１３６に存在する場合、処理対象のチャンクデータは代表チャンクとしてチャンクインデックス１３６に登録されていることを意味する。代表チャンクに対応付けられたチャンクデータセット識別子に基づいてＣＤＳ　ＩＤＸ１３２を参照することで、代表チャンクの属するチャンクデータセット１３７に含まれている他の全てのチャンクデータを検出することができる。

　図４を用いて、重複データの検出方法の概略を説明する。図４では、ホスト計算機２０から受領した第１世代のバックアップデータを全て記憶部１２０に記憶した後、ホスト計算機２０から第２世代のバックアップデータを受信した場合を説明する。ストレージシステム１０は、第２世代のバックアップデータのうち第１世代のバックアップデータと共通するデータ以外のデータを記憶部１２０に記憶する。第２世代のバックアップデータのうち第１世代のバックアップデータと共通するデータは、その共通データにアクセスするためのチャンクデータセット識別子およびＦＰで置換できる。

　図４の第１行目Ｌ１に、第１世代のバックアップデータを示す。第１世代のバックアップデータは、「Ａ」から「Ｘ」までの複数のチャンクから構成されており、各チャンクのデータはストレージシステム１０にとって新規データであるとする。従って、第１世代のバックアップデータは全てストレージシステム１０の記憶部１２０に記憶される。

　第２行目Ｌ２に、第１世代のバックアップデータを２つのチャンクデータセット１３７に分けてストレージシステム１０に格納する様子を示す。第１のチャンクデータセットＣＤＳ１は、チャンク「Ａ」～「Ｌ」までのデータを収容する。第２のチャンクデータセットＣＤＳ２は、第１のチャンクデータセットに収容されたチャンクに続くチャンク「Ｍ」～「Ｘ」までのデータを収容する。

　第２行目Ｌ２および第３行目Ｌ３に太い黒枠で示すように、各チャンクデータセットＣＤＳ１、ＣＤＳ２において、代表チャンクが複数ずつ選択される。第１のチャンクデータセットＣＤＳ１では、先頭の２つのチャンク「Ａ」および「Ｂ」と、直前の代表チャンク「Ｂ」から数えて所定値（例えば５個）のチャンク「Ｇ」と、さらにチャンク「Ｇ」から数えて所定値のチャンク「Ｌ」とが、代表チャンクとして選択される。第２のチャンクデータセットＣＤＳ２でも前記同様の基準に従って、「Ｍ」、「Ｎ」、「Ｓ」および「Ｘ」が代表チャンクとして選択される。

　第４行目Ｌ４に、チャンクインデックス１３６の設定内容を示す。第２行目Ｌ２、第３行目Ｌ３で選択された各代表チャンクのＦＰは、該各代表チャンクの属するチャンクデータセットの識別子に対応付けられてチャンクインデックス１３６に登録される。チャンクインデックス１３６には、例えば、代表チャンク「Ａ」のＦＰに第１チャンクデータセットＣＤＳ１を特定する識別子「Ｃ１」を対応付けて記憶される。同様に、代表チャンク「Ｂ」、「Ｇ」、「Ｌ」のＦＰと第１チャンクデータセットＣＤＳ１の識別子「Ｃ１」とを対応付けて、チャンクインデックス１３６に記憶する。

　第２チャンクデータセットＣＤＳ２の代表チャンクについても同様に、各代表チャンク「Ｍ」、「Ｎ」、「Ｓ」、「Ｘ」のＦＰと第２チャンクデータセットＣＤＳ２の識別子「Ｃ２」を対応付けて、チャンクインデックス１３６に記憶する。

　第５行目Ｌ５は、ブルームフィルタ１３３へのチャンクデータの登録状況を示す。ブルームフィルタ１３３において、全てのチャンクデータからそれぞれ得られる所定数のハッシュ値に対応するビットがオンされる。つまり、ブルームフィルタ１３３には、ストレージシステム１０で管理する全てのチャンクデータが反映される。

　第６行目Ｌ６に、第２世代のバックアップデータを示す。図４に示す第２世代のバックアップデータは、第１世代のバックアップデータと共通するチャンク「Ａ」～「Ｅ」、「Ｈ」～「Ｌ」、「Ｏ」～「Ｓ」、「Ｖ」～「Ｘ」を含む。さらに、第２世代のバックアップデータは、白い矢印で示すように、第１世代のバックアップデータとは異なる新規チャンクデータ「ｆ」、「ｇ」、「ｍ」、「ｎ」、「ｔ」、「ｕ」も含む。

　第２世代バックアップデータのうち前半部分のチャンクデータ「Ａ」～「Ｌ」と後半部分のチャンクデータ「ｍ」～「Ｘ」とに分けて、重複データの検出を説明する。第２世代バックアップデータの先頭チャンクデータ「Ａ」が最初の対象チャンクデータとなり、重複データが存在するか否か判定される。

　対象チャンクデータ「Ａ」のＦＰは、代表チャンクとしてチャンクインデックス１３６に記憶されている。また、対象チャンクデータ「Ａ」の存在はブルームフィルタ１３３に記憶されている。従って、メモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃに対象チャンクデータ「Ａ」のＦＰが記憶されていなくても、ストレージシステム１０は、チャンクインデックス１３６を用いることで対象チャンクデータ「Ａ」が記憶済みであると判定できる。

　ストレージシステム１０は、対象チャンクデータ「Ａ」のＦＰに対応付けられているチャンクデータセット識別子（ＣＤＳ　ＩＤ）をチャンクインデックス１３６から取得する。ストレージシステム１０は、そのチャンクデータセット識別子を有するチャンクデータセットをメモリ１１２に記憶させる。

　最初の対象チャンクデータ「Ａ」の属するＣＤＳ　ＩＤＸ１３２Ｃがメモリ１１２に記憶される。従って、ストレージシステム１０は、ＣＤＳ　ＩＤＸ１３２Ｃを用いることで、最初の対象チャンクデータ「Ａ」と同一のチャンクデータセットＣＤＳ１に属する他のチャンクデータ「Ｂ」～「Ｅ」が記憶済みであると判定できる。

　チャンクデータ「Ｅ」が記憶済みであると判定した後、ストレージシステム１０は、次のチャンクデータ「ｆ」を処理対象のチャンクデータとして選択する。

　対象チャンクデータ「ｆ」のＦＰは、メモリ１１２上のチャンクデータインデックス１３２Ｃに記憶されておらず、ブルームフィルタ１３３からもチャンクデータ「ｆ」の存在は窺えない。さらに、対象チャンクデータ「ｆ」は代表チャンクでもないので、対象チャンクデータ「ｆ」のＦＰはチャンクインデックス１３６に記憶されていない。

　従って、対象チャンクデータ「ｆ」は新規チャンクデータであると判定されて、図示せぬ新たなチャンクデータセットに格納され、記憶部１２０に記憶される。対象チャンクデータ「ｆ」を記憶するに際して、対象チャンクデータ「ｆ」のＦＰはチャンクデータセット１３７に記憶される。さらに、対象チャンクデータ「ｆ」は、ブルームフィルタ１３３にも反映される。ブルームフィルタ１３３において、対象チャンクデータ「ｆ」から得られる複数のハッシュ値に対応する位置のビットがオンにされる。

　チャンクデータ「ｆ」に続いて、チャンクデータ「ｇ」が対象チャンクデータとして選択される。対象チャンクデータ「ｇ」についても、チャンクデータ「ｆ」と同様に処理されるため、説明を省略する。

　ストレージシステム１０は、チャンクデータ「ｇ」を新規チャンクデータであると判定して記憶した後、チャンクデータ「Ｈ」を対象チャンクデータとして選択し、重複の有無を判定する。

　チャンクデータ「Ｈ」の属するチャンクデータセット１３７に関するＣＤＳ　ＩＤＸ１３２Ｃがメモリ１１２上に存在するため、ストレージシステム１０は、対象チャンクデータ「Ｈ」は記憶済みであると判定する。チャンクデータ「Ｈ」に続く他のチャンクデータ「Ｉ」、「Ｊ」、「Ｋ」、「Ｌ」についても、チャンクデータ「Ｈ」の処理について述べたと同様、ＣＤＳ　ＩＤＸ１３２Ｃによって記憶済みであると判定される。

　チャンクデータセットの境界ＣＢを越えた対象チャンクデータ「ｍ」のＦＰは、最初の対象チャンクデータ「Ａ」の属するチャンクデータセットに記憶されていない。対象チャンクデータ「ｍ」のＦＰは、他のＣＤＳ　ＩＤＸ１３２にもチャンクインデックス１３６にも記憶されていないし、ブルームフィルタ１３３にもチャンクデータ「ｍ」の存在は登録されていない。

　従って、ストレージシステム１０は、対象チャンクデータ「ｍ」を新規チャンクデータであると判定し、記憶部１２０に記憶する。ストレージシステム１０は、対象チャンクデータ「ｍ」についてＣＤＳ　ＩＤＸ１３２、ブルームフィルタ１３３、チャンクインデックス１３６を更新する。チャンクデータ「ｍ」に続くチャンクデータ「ｎ」が対象チャンクデータとして選択された場合も、チャンクデータ「ｍ」で述べたように処理される。

　チャンクデータ「ｎ」に続くチャンクデータ「Ｏ」が対象チャンクデータとして選択された場合を説明する。メモリ１１２に記憶されているＣＤＳ　ＩＤＸ１３２Ｃは、第１チャンクデータセットＣＤＳ１についてのＣＤＳ　ＩＤＸ１３２Ｃである。従って、メモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃに、対象チャンクデータ「Ｏ」のＦＰは記憶されていない。

　しかし、対象チャンクデータ「Ｏ」は第３行目Ｌ３で示したように、第１世代のバックアップデータの一部として記憶部１２０に記憶されている。ストレージシステム１０で管理する全てのチャンクデータは、ブルームフィルタ１３３に反映されている。

　従って、ブルームフィルタ１３３は、対象チャンクデータ「Ｏ」がストレージシステム１０内に存在することを所定値以上の確からしさで示す。対象チャンクデータ「Ｏ」が記憶済みであることをブルームフィルタ１３３が示しているにもかかわらず、対象チャンクデータ「Ｏ」のＦＰは、チャンクインデックス１３６に登録されていない。

　この場合、対象チャンクデータ「Ｏ」のＦＰは、記憶部１２０内のＣＤＳ　ＩＤＸ１３２に記憶されている可能性が高い。つまり、対象チャンクデータ「Ｏ」は代表チャンクとして選ばれなかったためにチャンクインデックス１３６に登録されていないが、通常のチャンクデータとしてＣＤＳ　ＩＤＸ１３２には登録されている可能性が高い。

　そこで、本実施例では、対象チャンクデータ「Ｏ」をチャンクプール１３４に一時的に格納し、最終的な判断を保留する。

　第７行目Ｌ７に示すように、チャンクデータ「Ｏ」に続くチャンクデータ「Ｐ」、「Ｑ」、「Ｒ」についても、チャンクデータ「Ｏ」について述べたと同様の処理が行われて、チャンクプール１３４に格納される。

　チャンクプール１３４に格納されたチャンクデータ「Ｒ」に続いて、チャンクデータ「Ｓ」が対象チャンクデータとして選択される。対象チャンクデータ「Ｓ」のＦＰも、メモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃには記憶されていない。対象チャンクデータ「Ｓ」は、第２のチャンクデータセットＣＤＳ２に属するチャンクデータであり、第２のチャンクデータセットＣＤＳ２に対応するＣＤＳ　ＩＤＸ１３２はメモリ１１２に未だ転送されていないためである。

　ストレージシステム１０の管理する全てのチャンクデータの存在が反映されているブルームフィルタ１３３は、対象チャンクデータ「Ｓ」が記憶済みであることを一定の確からしさで示す。

　第３行目Ｌ３、第４行目Ｌ４で示すように、対象チャンクデータ「Ｓ」は第２のチャンクデータセットＣＤＳ２の所定位置にあるため、代表チャンクとして選ばれている。チャンクインデックス１３６には、対象チャンクデータ「Ｓ」のＦＰが記憶されている。ストレージシステム１０は、チャンクインデックス１３６を参照することで、対象チャンクデータ「Ｓ」が記憶部１２０に記憶されている既存データであることを知る。

　本実施例では、チャンクインデックス１３６に記憶されている代表チャンクデータのＦＰと同一ＦＰの対象チャンクデータが検出された場合、その代表チャンクデータの属するチャンクデータセット１３７に関するＣＤＳ　ＩＤＸ１３２がメモリ１１２に転送されて記憶される。

　ストレージシステム１０は、メモリ１１２上のＣＤＳ　ＩＤＸ１３２の更新をトリガとして、チャンクプール１３４に格納された判断保留中のチャンクデータについて、記憶済みであるか否かを判定する。

　対象チャンクデータ「Ｓ」の処理時にメモリ１１２に転送されたＣＤＳ　ＩＤＸ１３２Ｃには、チャンクプール１３４内のチャンクデータ「Ｏ」～「Ｒ」のＦＰが記憶されている。従って、ストレージシステム１０は、チャンクプール１３４内のチャンクデータ「Ｏ」～「Ｒ」を記憶済みのチャンクデータであると判断する。

　チャンクデータ「Ｓ」に続くチャンクデータ「ｔ」、「ｕ」は、チャンクデータ「ｍ」で述べたように、新規なチャンクデータであると判定されてチャンクデータセットに記憶される。

　チャンクデータ「ｕ」に続くチャンクデータ「Ｖ」～「Ｘ」は、それらのＦＰがメモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃに記憶されているため、既存のチャンクデータであると判定される。

　第８行目Ｌ８は、ストレージシステム１０によるデータ重複の判定結果を示す。判定結果「Ｔ」は、既存データと重複するデータであることを示す。判定結果「Ｆ」は、既存データと重複しないデータであることを示す。チャンクプール１３４に格納されたチャンクデータ「Ｏ」～「Ｒ」以外のチャンクデータについての判定結果は問題がないため、説明を省略する。

　チャンクプール１３４に格納されたチャンクデータ「Ｏ」～「Ｒ」については、それらのＦＰがチャンクインデックス１３６に記憶されていないと判定した時点で、新規チャンクデータであるとして取り扱うことも可能である。その場合の判定結果は、第８行目Ｌ８に点線で囲った「Ｆ」となる。

　しかし、実際には、チャンクプール１３４に格納されたチャンクデータ「Ｏ」～「Ｒ」は、ストレージシステム１０に記憶済みのデータであり、「Ｆ」という判定結果は誤っている。

　本実施例では、上述のように、ブルームフィルタ１３３が存在の可能性を示していながらチャンクインデックス１３６では見つからなかった対象チャンクデータについては、重複判定を誤る可能性があると判断して、データ重複の判断を保留する。そして、本実施例では、メモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃが更新された場合に、チャンクプール１３４に格納したチャンクデータが記憶済みであるか否かを、新たなＣＤＳ　ＩＤＸ１３２Ｃを用いて判定する。従って、本実施例では、記憶済みデータを新規データであると誤判定するのを防止し、重複したデータを排除することができる。

　図５は、データ重複判定の処理方法の概略を示す。データ重複判定処理を実行する主体は、ストレージシステム１０に設けられたノード１１０内の重複排除プログラム１３１であり、その重複排除プログラム１３１はマイクロプロセッサ１１１が実行する。従って、データ重複判定処理の主体として、ストレージシステム、ノード、マイクロプロセッサ、プログラムのいずれであってもよい。ここでは、重複排除プログラム１３１を動作主体として説明する。

　ノード１１０がデータを受信すると本処理が開始する（Ｓ１）。プログラム１３１は、受信データに含まれる対象チャンクデータについて、まず最初に、対象チャンクデータのＦＰがメモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃに存在するか検索する（Ｓ２）。

　プログラム１３１は、対象チャンクデータのＦＰがＣＤＳ　ＩＤＸ１３２Ｃに記憶されていると判定した場合（Ｓ２：存在する）、対象チャンクデータは記憶済みの既存チャンクデータであるを判定する（Ｓ３）。ステップＳ３での判定結果は確定である。

　プログラム１３１は、対象チャンクデータのＦＰがメモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃに存在しないと判定した場合（Ｓ２：存在しない）、対象チャンクデータの存在についてブルームフィルタ１３３を検索する（Ｓ４）。

　プログラム１３１は、ブルームフィルタ１３３が対象チャンクデータの存在を示していないと判定した場合（Ｓ４：存在しない）、対象チャンクデータはストレージシステム１０に記憶されていないと判定する（Ｓ５）。この判定結果は確定である。

　プログラム１３１は、ブルームフィルタ１３３が対象チャンクデータの存在を示していると判定した場合（Ｓ４：存在するかもしれない）、代表チャンクのＦＰを管理しているチャンクインデックス１３６を検索する（Ｓ６）。

　プログラム１３１は、対象チャンクデータのＦＰがチャンクインデックス１３６に記憶されていないと判定した場合（Ｓ６：存在しない）、対象チャンクデータの判断を保留し（Ｓ７）、チャンクプール１３４に格納する（Ｓ８）。換言すれば、プログラム１３１は、対象チャンクデータを一応新規チャンクデータであるとして扱うが、その判定は確定ではなく、新規チャンクデータである場合の処理（記憶部１２０への記憶、テーブル類の更新など）はステップＳ７、Ｓ８の時点では未だ行わない。

　プログラム１３１は、チャンクインデックス１３６に対象チャンクデータのＦＰが記憶されていると判定した場合（Ｓ６：存在する）、対象チャンクデータは既存チャンクデータであると判定する（Ｓ９）。この判定結果は確定である。

　プログラム１３１は、対象チャンクデータのＦＰがチャンクインデックス１３６に存在すると判定した場合（Ｓ９）、対象チャンクデータの属するチャンクデータセット１３７に対応するＣＤＳ　ＩＤＸ１３２をメモリ１１２に転送して記憶させる（Ｓ１０）。

　プログラム１３１が、チャンクプール１３４に格納された対象チャンクデータとは異なる他のチャンクデータを対象チャンクデータとして処理している最中に、ステップＳ９で既存チャンクデータであると判定した場合に、他のチャンクデータに関連するＣＤＳ　ＩＤＸ１３２がメモリ１１２に転送されて、メモリ１１２上に存在するＣＤＳ　ＩＤＸ１３２Ｃが更新される（Ｓ１０）。

　プログラム１３１は、更新されたＣＤＳ　ＩＤＸ１３２Ｃに、チャンクプール１３４に格納されている対象チャンクデータのＦＰが記憶されているか検索する（Ｓ１１）。

　プログラム１３１は、更新されたＣＤＳ　ＩＤＸ１３２Ｃにチャンクプール１３４内の対象チャンクデータのＦＰが記憶されていると判定した場合（Ｓ１１：存在する）、その対象チャンクデータは既存チャンクデータであると判定する（Ｓ１２）。この判断は確定である。

　プログラム１３１は、更新されたＣＤＳ　ＩＤＸ１３２Ｃにチャンクプール１３４内の対象チャンクデータのＦＰが記憶されていないと判定した場合（Ｓ１１：存在しない）、その対象チャンクデータは新規チャンクデータであると判定する（Ｓ１３）。この判断は確定である。

　プログラム１３１は、ステップＳ５またはステップＳ１３で新規データ（新規チャンクデータ）であると判定した場合、新規チャンクデータをチャンクデータセット１３７に格納する。さらに、プログラム１３１は、ＣＤＳ　ＩＤＸ１３２、ブルームフィルタ１３３およびチャンクインデックス１３６を最新値に更新する（Ｓ１４）。

　図６および図７を用いて、図４に示した処理の詳細を説明する。図６は、データの重複を判定する処理のフローチャートである。

　先に図４との対応関係を述べる。ステップＳ２１はステップＳ１に、ステップＳ２２はステップＳ２に、ステップＳ２３での判定”ＹＥＳ”はステップＳ３に、ステップＳ２４はステップＳ４に、ステップＳ２５での判定”ＹＥＳ”はステップＳ５に、ステップＳ２６およびＳ２７はステップＳ１４に、ステップＳ２８はステップＳ６に、ステップＳ２９での判定”ＮＯ”はステップＳ７に、ステップＳ３７はステップＳ８に、ステップＳ２９での判定”ＹＥＳ”はステップＳ９に、ステップＳ３０はステップＳ１０に、ステップＳ３１～Ｓ３６はステップＳ１１に、ステップＳ３３での判定”ＹＥＳ”はステップＳ１２に、ステップＳ３３での判定”ＮＯ”はステップＳ１３に、それぞれ対応する。

　データ重複の判定対象であるデータをノード１１０が受信すると、プログラム１３１は本処理を開始する（Ｓ２１）。プログラム１３１は、対象チャンクデータのＦＰを取得し、そのＦＰでメモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃを検索し（Ｓ２２）、対象チャンクデータのＦＰがメモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃに存在するか否か判定する（Ｓ２３）。プログラム１３１は、対象チャンクデータのＦＰがＣＤＳ　ＩＤＸ１３２Ｃに存在すると判定すると（Ｓ２３：ＹＥＳ）、本処理を終了する。

　プログラム１３１は、対象チャンクデータのＦＰがＣＤＳ　ＩＤＸ１３２Ｃに存在しないと判定した場合（Ｓ２３：ＮＯ）、ブルームフィルタ１３３を検索し（Ｓ２４）、ブルームフィルタ１３３が対象チャンクデータの存在を示すか否か判定する（Ｓ２５）。

　上述の通り、ブルームフィルタ１３３は、チャンクデータを複数のハッシュ関数に入力して得られる複数のハッシュ値に対応する所定ビットをオンにする。従って、対象チャンクデータがストレージシステム１０内に存在するのであれば、必ず全ての所定ビットがオンになっている。複数の所定ビットのうちいずれか１つでもオフになっている場合、対象チャンクデータはストレージシステム１０内に存在しない。

　これに対し、一方のチャンクデータに関する複数の所定ビットの全てがオンになっている場合であっても、一方のチャンクデータがストレージシステム１０内に存在することが確定するわけではない。一方のチャンクデータについての複数の所定ビットのうちの一つまたは複数が他のチャンクデータについての所定ビットと偶々一致している場合、その一致した所定ビットが両方のチャンクデータに関してオンになっているのか、それともいずれか一つのチャンクデータのみに関してオンになっているのか、区別がつかない。

　従って、ブルームフィルタ１３３が対象チャンクデータの存在を示す場合、それは存在の可能性を所定の確率で示すことになる。対象チャンクデータの存在を示していながら、実際には存在していないことを意味する擬陽性は、ブルームフィルタ１３３の構成等によっても異なるが、例えば数パーセント～十数パーセント程度である。従って、上記の所定の確率とは、（１－擬陽性の率）である。

　プログラム１３１は、対象チャンクデータの存在をブルームフィルタ１３３が示していない場合（Ｓ２５：ＹＥＳ）、つまり対象チャンクデータが新規なチャンクデータであると判定した場合、後述する代表チャンク登録処理を実行する（Ｓ２６）。プログラム１３１は、コンテンツ管理テーブル１３５に対象チャンクデータを登録した後（Ｓ２７）、本処理を終了する。

　プログラム１３１は、対象チャンクデータの存在の可能性をブルームフィルタ１３３が示している場合（Ｓ２５：ＮＯ）、対象チャンクデータのＦＰがチャンクインデックス１３６に登録されているか検索する（Ｓ２８）。プログラム１３１は、対象チャンクデータのＦＰがチャンクインデックス１３６に登録されているか判定する（Ｓ２９）。

　プログラム１３１は、対象チャンクデータのＦＰがチャンクインデックス１３６に登録されていると判定すると（Ｓ２９：ＹＥＳ）、対象チャンクデータの属するＣＤＳ１３７に対応するＣＤＳ　ＩＤＸ１３２Ｃを記憶部１２０からメモリ１１２に転送して、メモリ１１２に記憶させる（Ｓ３０）。

　プログラム１３１は、チャンクプール１３４内の重複判断を保留されている対象チャンクデータの全てについて、下記ステップＳ３２～Ｓ３５を実行する（Ｓ３１）。

　プログラム１３１は、チャンクプール１３４内の対象チャンクデータのＦＰでＣＤＳ　ＩＤＸ１３２Ｃを検索し（Ｓ３２）、対象チャンクデータのＦＰがメモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃに登録されているか判定する（Ｓ３３）。

　プログラム１３１は、対象チャンクデータのＦＰがＣＤＳ　ＩＤＸ１３２Ｃに登録されていないと判定すると（Ｓ３３：ＮＯ）、後述の代表チャンク登録処理（Ｓ３４）を実行する。ステップＳ３４に示す処理とステップＳ２６に示す処理とは同一である。

　プログラム１３１は、対象チャンクデータをコンテンツ管理テーブル１３５に登録し（Ｓ３５）、チャンクプール１３４内の他のチャンクデータを対象チャンクデータとして選択する。プログラム１３１は、チャンクプール１３４内の全てのチャンクデータについて判定した後、それらのチャンクデータをチャンクプール１３４から削除し、チャンクプール１３４内の記憶領域を解放し（Ｓ３６）、本処理を終了する。

　このようにして、プログラム１３１は、チャンクプール１３４に一時的に保存されていた対象チャンクデータのそれぞれについて、重複データであるか否かを再判定し、新規チャンクデータの場合は記憶部１２０に記憶する。

　一方、プログラム１３１は、対象チャンクデータのＦＰがチャンクインデックス１３６に登録されていないと判定すると（Ｓ２９：ＮＯ）、チャンクプール１３４が満杯であるか判定する（Ｓ３８）。チャンクプール１３４が満杯であるとは、チャンクプール１３４の記憶領域を所定の上限値まで使用したことを意味する。チャンクプール１３４が満杯ではないと判定した場合（Ｓ３８：ＮＯ）、プログラム１３１は本処理を終了する。

　プログラム１３１は、チャンクプール１３４が満杯であると判定すると（Ｓ３８：ＹＥＳ）、チャンクプール１３４内に格納されている各チャンクデータについて以下のステップＳ４０～Ｓ４３を実行する（Ｓ３９）。プログラム１３１は、以下のステップＳ４０～Ｓ４３において、チャンクプール１３４内のチャンクデータを新規チャンクデータであると判定して、記憶部１２０に記憶させる。

　プログラム１３１は、チャンクプール１３４内の対象チャンクデータをブルームフィルタ１３３に登録し（Ｓ４０）、ＣＤＳ１３７に格納する（Ｓ４１）。プログラム１３１は、対象チャンクデータをＣＤＳ　ＩＤＸ１３２に登録し（Ｓ４２）、さらにコンテンツ管理テーブル１３５にも登録する（Ｓ４３）。プログラム１３１は、チャンクプール１３４内の全てのチャンクデータを記憶部１２０に記憶させ、かつ、所定のテーブル類を更新した後、チャンクプール１３４内のチャンクデータを削除し、チャンクプール１３４の記憶領域を解放する（Ｓ４４）。

　図７は、図６の代表チャンク登録処理（Ｓ２６、Ｓ３４）の詳細を示すフローチャートである。本処理は、新規チャンクデータを記憶部１２０に記憶する際に実行する。

　プログラム１３１は、新規チャンクデータをブルームフィルタ１３３に登録し（Ｓ５１）、ＣＤＳ１３７に格納する（Ｓ５２）。

　プログラム１３１は、記憶した対象チャンクデータが代表チャンクとしての所定条件を満たすか判定する（Ｓ５３）。代表チャンクとなる所定条件としては、例えば、ユーザファイルの先頭から２番目までのチャンクである、または、ＣＤＳ１３７の先頭から２番目までのチャンクである、または、直前の代表チャンクから数えて所定数番目のチャンクである、という条件を挙げることができる。

　プログラム１３１は、対象チャンクデータが代表チャンクデータの条件を満たすと判定すると（Ｓ５３：ＹＥＳ）、対象チャンクデータをＣＤＳ　ＩＤＸ１３２に登録する（Ｓ５４）。

　図８のフローチャートを用いてホスト計算機２０からリードコマンドを受領した場合の処理を説明する。

　ノード１１０はホスト計算機２０からリードコマンドを受信すると（Ｓ６１：ＹＥＳ）、そのリードコマンドで指定されたファイルが重複排除処理済みであるかを判定する（Ｓ６２）。リードコマンドで指定されたファイルがスタブファイルである場合、重複処理済みであると判定することができる。

　ノード１１０は、リードコマンドで指定されたファイルが重複排除処理を受けていないと判定すると（Ｓ６２：ＮＯ）、リードコマンドで指定されたファイルを記憶部１２０から読み出してメモリ１１２に転送する（Ｓ６３）。その後、ノード１１０は、リードコマンドで指定されたファイルをホスト計算機２０に送信して、本処理を終了する。

　これに対し、ノード１１０は、リードコマンドで指定されたファイルが重複排除処理済みであると判定すると（Ｓ６２：ＹＥＳ）、リードコマンド指定されたファイル（スタブファイル）に対応するコンテンツ管理テーブル１３５を参照する（Ｓ６４）。

　ノード１１０は、リードコマンドで指定されたファイルを構築する複数のチャンクデータを特定し、記憶部１２０からメモリ１１２に転送させる（Ｓ６５）。ノード１１０は、メモリ１１２上に集めた各チャンクデータからファイルを再構築し（Ｓ６６）、再構築したファイルをホスト計算機２０に送信して、本処理を終了する。

　本実施例によれば、代表チャンクのＦＰのみをチャンクインデックス１３６に記憶することで、データ重複判定を高速に行うことができる。

　本実施例によれば、チャンクインデックス１３６にＦＰが記憶されていない対象チャンクデータを直ちに新規チャンクデータと判定するのではなく、いったんチャンクプール１３４に保存する。本実施例では、メモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃが更新された場合に、そのＣＤＳ　ＩＤＸ１３２Ｃを用いて、チャンクプール１３４内の対象チャンクデータについて重複の有無を再度判定する。従って、本実施例によれば、データ重複判定処理の高速性と正確性とを両立させることができる。

　さらに本実施例では、メモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃを用いた判定では存在しないとされたがブルームフィルタ１３３は存在を示している対象チャンクデータが、代表チャンクではない場合、対象チャンクデータの判断を一時保留して、チャンクプール１３４に記憶する。本実施例では、メモリ１１２上のＣＤＳ　ＩＤＸ１３２Ｃが更新されるのを待ち、更新されたＣＤＳ　ＩＤＸ１３２Ｃを用いて、チャンクプール１３４内の対象チャンクデータが記憶済みであるか判定する。

　本実施例では、一時判断を保留した対象チャンクデータについて、別のタイミングで再判定する。従って、データの重複の有無を精度良く検出して排除できる。

　本実施例では、ブルームフィルタ１３３によって同一データの存在が否定された対象チャンクデータ以外のデータ、つまり、ブルームフィルタ１３３が存在可能性を示した対象チャンクデータだけを一時的に保存する。従って、チャンクプール１３４を効率的に使用することができる。

　本実施例では、チャンクプール１３４の使用量が上限値に達した場合、チャンクプール１３４内のチャンクデータを新規データとして扱い、記憶部１２０に記憶する。従って、データ重複判定が必要以上に遅れるのを防止し、限られたサイズのチャンクプール１３４を有効に利用して、データ重複の排除効率を高めることができる。

　１：ストレージシステム、１Ａ：重複排除部、１Ｂ：記憶部、Ｔ１、Ｔ１Ｃ：第１管理テーブル、Ｔ２：第２管理テーブル、Ｔ３：第３管理テーブル、ＤＳ：データセット、２：ホスト計算機、１０：ストレージシステム、２０：ホスト計算機、１１０：ノード、１１２：メモリ、１２０：記憶部、１３１：重複排除プログラム、１３２：チャンクデータセットインデックス（ＣＤＳ　ＩＤＸ）、１３３：ブルームフィルタ、１３４：チャンクプール、１３５：コンテンツ管理テーブル、１３６：チャンクインデックス

Claims

　データの重複を検出するためのデータ重複検出システムであって、
　受信データを分割して形成される複数のチャンクデータのそれぞれについて、記憶済みのチャンクデータと重複するかを判定するデータ重複判定部と、
　前記データ重複判定部によって重複しないと判定されたチャンクデータを記憶する記憶部と、
　前記記憶部に記憶されている各チャンクデータについて、データの同一性を示す同一性保証データとデータの格納先を示す格納先情報とを対応付けて管理する第１管理テーブルと、
　前記記憶部に記憶されている前記各チャンクデータの前記同一性保証データに基づいて作成される第２管理テーブルであって、チャンクデータが前記記憶部に記憶されていることを所定の信頼性の下で示す第２管理テーブルと、
　前記記憶部に記憶されている前記各チャンクデータをグループ化して形成される複数のチャンクデータセットを管理する第３管理テーブルであって、前記複数のチャンクデータセットをそれぞれ代表する所定のチャンクデータについての前記同一性保証データを管理する第３管理テーブルとを
備え、
　前記データ重複判定部は、
　　受信データに含まれる対象チャンクデータが前記記憶部に記憶されていると前記第２管理テーブルが示す場合であって、かつ、前記対象チャンクデータの同一性保証データが前記第３管理テーブルに記憶されていないと判定した場合に、前記対象チャンクデータを一時的に保存するための一時保存部に保存し、
　　前記対象チャンクと異なる他の対象チャンクデータが前記記憶部に記憶されていると前記第２管理テーブルが示す場合であって、かつ、前記他の対象チャンクデータの同一性保証データが前記第３管理テーブルに記憶されていると判定した場合に、前記一時保存部に保存された前記対象チャンクデータの前記同一性保証データが前記第１管理テーブルに記憶されているか判定し、
　　前記一時的保存部に保存された前記対象チャンクデータの前記同一性保証データが前記第１管理テーブルに記憶されていると判定した場合、前記一時的保存部に保存された前記対象チャンクデータは前記記憶部に記憶済みであると判定し、
　　前記一時的保存部に保存された前記対象チャンクデータの前記同一性保証データが前記第１管理テーブルに記憶されていないと判定した場合、前記一時的保存に保存された前記対象チャンクデータは前記記憶部に記憶されていないと判定する、
データ重複検出システム。
　前記第１管理テーブルは前記一つまたは複数のチャンクデータセット毎に用意されており、
　前記データ重複判定部は、前記他の対象チャンクデータが前記第３管理テーブルに記憶されていると判定した場合、前記一つまたは複数のチャンクデータセット毎の前記第１管理テーブルのうち前記他の対象チャンクデータの属するチャンクデータセットに対応する第１管理テーブルに、前記一時保存部に保存された前記対象チャンクデータについての前記同一性保証データが記憶されているかを判定する、
請求項１に記載のデータ重複検出システム。
　前記データ重複判定部は、前記一時保存部に保存された前記対象チャンクデータが前記記憶部に記憶されていないと判定した場合、前記対象チャンクデータを新規チャンクデータとして前記記憶部に記憶し、さらに前記第１管理テーブルと前記第２管理テーブルおよび前記第３管理テーブルを更新する、
請求項２に記載のデータ重複検出システム。
　前記データ重複判定部は、前記一時保存部に保存された前記対象チャンクデータを前記新規チャンクデータとして前記記憶部に記憶する場合、前記一時保存部に記憶されている前記新規チャンクデータとしての前記対象チャンクデータを破棄し、前記一時保存部の記憶領域を解放する、
請求項３に記載のデータ重複検出システム。
　前記データ重複判定部は、前記一時保存部の使用量が所定の上限値に達した場合、前記一時保存部に保存されている前記対象チャンクデータを前記新規チャンクデータとして前記記憶部に記憶する、
請求項４に記載のデータ重複検出システム。
　前記データ重複判定部はメモリを使用することができ、
　前記一つまたは複数のチャンクデータセット毎の前記第１管理テーブルは前記記憶部に記憶されており、
　前記他の対象チャンクデータの属する前記チャンクデータセットに対応する前記第１管理テーブルが前記記憶部から前記メモリに転送されて記憶される、
請求項５に記載のデータ重複検出システム。
　データ重複判定部は、
　　データを受信した場合、まず最初に、前記メモリ上の前記第１管理テーブルを用いて、前記受信したデータに含まれる前記対象チャンクデータの同一性保証データが前記記憶部に記憶されているかを判定し、
　　前記対象チャンクデータの前記同一性保証データが前記メモリ上の前記第１管理テーブルに記憶されていないと判定した場合、前記対象チャンクデータが前記記憶部に記憶されていることを前記第２管理テーブルが示しているかを判定し、
　　前記対象チャンクデータが前記記憶部に記憶されていることを前記第２管理テーブルが示している場合、前記対象チャンクデータの前記同一性保証データが前記第３管理テーブルに記憶されているか判定し、
　　前記対象チャンクデータの前記同一性保証データが前記第３管理テーブルに記憶されていないと判定した場合、前記対象チャンクデータを前記時保存部に保存する、
請求項６に記載のデータ重複検出システム。
　ホスト計算機および前記記憶部に通信可能に接続され、マイクロプロセッサおよびメモリを有するコンピュータ装置を備えており、
　前記メモリに予め記憶されている所定のデータ重複判定プログラムを前記マイクロプロセッサが実行することで、前記データ重複判定部が実現されるようになっており、
　前記データ重複判定部は、第１判定部、第２判定部、第３判定部および第４判定部を備えており、
　前記第１判定部は、前記一つまたは複数のチャンクデータセット毎の前記第１管理テーブルのうち前記メモリに記憶されている第１管理テーブルに、前記受信データに含まれる前記対象チャンクデータの前記同一性保証データが記憶されているか判定し、前記同一性保証データが前記メモリ上の前記第１管理テーブルに記憶されていると判定した場合、前記対象チャンクデータは前記記憶部に記憶されていると判定し、
　前記第２判定部は、前記対象チャンクデータの前記同一性保証データが前記メモリ上の前記第１管理テーブルに記憶されていないと前記第１判定部が判定した場合、前記対象チャンクデータが前記記憶部に記憶されていることを前記第２管理テーブルが示しているか判定し、前記対象チャンクデータが前記記憶部に記憶されていない新規チャンクデータであると判定して前記記憶部に記憶し、
　前記第３判定部は、前記対象チャンクデータの前記同一性保証データが前記記憶部に記憶されていることを前記第２管理テーブルが示す場合、前記対象チャンクデータの前記同一性保証データが前記第３管理テーブルに記憶されているか判定し、前記対象チャンクデータの前記同一性保証データが前記第３管理テーブルに記憶されていると判定した場合、前記対象チャンクデータは前記記憶部に記憶されていると判定し、前記対象チャンクデータの前記同一性保証データが前記第３管理テーブルに記憶されていないと判定した場合、前記対象チャンクデータを前記一時保存部に保存し、
　前記第４判定部は、前記対象チャンクと異なる他の対象チャンクデータの前記同一性保証データが前記第３管理テーブルに記憶されていると前記第３判定部が判定した場合、前記他の対象チャンクデータの属する前記チャンクデータセットに対応する前記第１管理テーブルを前記メモリに転送して記憶し、前記一時保存部に保存された前記対象チャンクデータの前記同一性保証データが前記メモリ上の前記第１管理テーブルに記憶されているか判定し、
　前記対象チャンクデータの前記同一性保証データが前記メモリ上の前記第１管理テーブルに記憶されていると判定した場合、前記一時保存部に保存された前記対象チャンクデータは前記記憶部に記憶済みであると判定して前記一時保存部から削除し、
　前記対象チャンクデータの前記同一性保証データが前記メモリ上の前記第１管理テーブルに記憶されていないと判定した場合、前記一時保存部に保存された前記対象チャンクデータは前記記憶部に記憶されていない新規チャンクデータであると判定して前記記憶部に記憶し、前記対象チャンクデータを前記一時保存部から削除し、
　前記一時保存部の使用量が所定の上限値に達した場合、前記一時保存部に保存されている前記対象チャンクデータを前記新規チャンクデータとして前記記憶部に記憶する、
請求項１に記載のデータ重複検出システム。
　データの重複を検出するデータ重複検出システムを制御する方法であって、
　前記データ重複検出システムは、
　　受信データを分割して形成される複数のチャンクデータのそれぞれについて、記憶済みのチャンクデータと重複するかを判定するデータ重複判定部と、
　　前記データ重複判定部によって重複しないと判定されたチャンクデータを記憶する記憶部と、
　　前記記憶部に記憶されている各チャンクデータについて、データの同一性を示す同一性保証データとデータの格納先を示す格納先情報とを対応付けて管理するための第１管理テーブルと、
　　前記記憶部に記憶されている前記各チャンクデータの前記同一性保証データに基づいて作成される第２管理テーブルであって、チャンクデータが前記記憶部に記憶されていることを所定の信頼性の下で示す第２管理テーブルと、
　　前記記憶部に記憶されている前記各チャンクデータをグループ化して形成される複数のチャンクデータセットを管理する第３管理テーブルであって、前記複数のチャンクデータセットをそれぞれ代表する所定のチャンクデータについての前記同一性保証データを管理する第３管理テーブルとを
備えており、
　前記データ重複判定部は、
　　受信データに含まれる対象チャンクデータが前記記憶部に記憶されていると前記第２管理テーブルが示す場合であって、かつ、前記対象チャンクデータの同一性保証データが前記第３管理テーブルに記憶されていないと判定した場合に、前記対象チャンクデータを一時的に保存するための一時保存部に保存し、
　　前記対象チャンクと異なる他の対象チャンクデータが前記記憶部に記憶されていると前記第２管理テーブルが示す場合であって、かつ、前記他の対象チャンクデータの同一性保証データが前記第３管理テーブルに記憶されていると判定した場合に、前記一時保存部に保存された前記対象チャンクデータの前記同一性保証データが前記第１管理テーブルに記憶されているか判定し、
　　前記一時的保存部に保存された前記対象チャンクデータの前記同一性保証データが前記第１管理テーブルに記憶されていると判定した場合、前記一時的保存部に保存された前記対象チャンクデータは前記記憶部に記憶済みであると判定し、
　　前記一時的保存部に保存された前記対象チャンクデータの前記同一性保証データが前記第１管理テーブルに記憶されていないと判定した場合、前記一時的保存に保存された前記対象チャンクデータは前記記憶部に記憶されていないと判定する、
データ重複検出システムの制御方法。
　前記第１管理テーブルは前記一つまたは複数のチャンクデータセット毎に用意されており、
　前記データ重複判定部は、前記他の対象チャンクデータが前記第３管理テーブルに記憶されていると判定した場合、前記一つまたは複数のチャンクデータセット毎の前記第１管理テーブルのうち前記他の対象チャンクデータの属するチャンクデータセットに対応する第１管理テーブルに、前記一時保存部に保存された前記対象チャンクデータについての前記同一性保証データが記憶されているかを判定する、
請求項９に記載のデータ重複検出システムの制御方法。
　前記データ重複判定部は、前記一時保存部に保存された前記対象チャンクデータが前記記憶部に記憶されていないと判定した場合、前記対象チャンクデータを新規チャンクデータとして前記記憶部に記憶し、さらに前記第１管理テーブルと前記第２管理テーブルおよび前記第３管理テーブルを更新する、
請求項１０に記載のデータ重複検出システムの制御方法。
　前記データ重複判定部は、前記一時保存部に保存された前記対象チャンクデータを前記新規チャンクデータとして前記記憶部に記憶する場合、前記一時保存部に記憶されている前記新規チャンクデータとしての前記対象チャンクデータを破棄し、前記一時保存部の記憶領域を解放する、
請求項１１に記載のデータ重複検出システムの制御方法。
　前記データ重複判定部は、前記一時保存部の使用量が所定の上限値に達した場合、前記一時保存部に保存されている前記対象チャンクデータを前記新規チャンクデータとして前記記憶部に記憶する、
請求項１２に記載のデータ重複検出システムの制御方法。