JP2021092950A

JP2021092950A - データ処理装置およびデータ処理プログラム

Info

Publication number: JP2021092950A
Application number: JP2019222855A
Authority: JP
Inventors: 知寛宇納; Tomohiro Uno; 智徳古田; Tomonori Furuta
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-12-10
Filing date: 2019-12-10
Publication date: 2021-06-17
Anticipated expiration: 2039-12-10
Also published as: US11372576B2; JP7323804B2; US20210173581A1; EP3835971A1

Abstract

【課題】データ要素数の減少に応じたブルームフィルタのビット削減に伴う偽陽率の増加を抑止する。【解決手段】ビット列３０は、第１分類条件に合致するデータ要素を含むデータサブセット２１−１に対応付けられたブルームフィルタ３１−１と、第２分類条件に合致するデータ要素を含むデータサブセット２１−２に対応付けられたブルームフィルタ３１−２とを含む。処理部１２は、入力されたデータ要素が第１分類条件に合致する場合、ブルームフィルタ３１−１を用いてデータサブセット２１−１における存否判定を行い、第２分類条件に合致する場合、ブルームフィルタ３１−２を用いてデータサブセット２１−２における存否判定を行う。処理部１２は、データサブセット２１−１内の全データ要素が削除されると、ビット列３０からブルームフィルタ３１−１を削除する。【選択図】図１

Description

本発明は、データ処理装置およびデータ処理プログラムに関する。

ブルームフィルタは、複数のデータ要素を含むデータ集合の中に検索対象のデータが含まれるかを判定するために用いられるデータ構造である。また、ブルームフィルタの応用例として、複数階層のブルームフィルタを有する階層型ブルームフィルタも提案されている。

このようなブルームフィルタの一般的な特徴として、管理対象のデータ集合から一部のデータ要素が削除されても、ブルームフィルタのビット数を削減することができない、という特徴がある。これに対し、次のようなデータ処理装置が提案されている。

このデータ処理装置は、データ要素を削除する際に、ブルームフィルタの上位側から、削除されるデータ要素数に応じたビット数のビット列を削除する。また、データ処理装置は、検索対象のデータ要素が入力されると、ビット列が削除されたブルームフィルタの上位側に、削除されたビット列と同じビット数を有し、かつ、すべてのビット値が「１」であるビット列を一時的に付加する。そして、データ処理装置は、ビット列が付加されたブルームフィルタを用いて、検索対象のデータ要素がデータ集合に含まれるかを判定する。これにより、偽陰性を発生させることなく、ビット列が削除されたブルームフィルタを用いてデータ要素の存否判定を行うことができる。

特開２０１１−１８６９５４号公報特開２０１９−９５９８６号公報

しかしながら、上記のデータ処理装置では、ビット列が削除されたブルームフィルタを用いてデータ要素の存否判定を行うと、ビット列の削除前より偽陽率が高くなってしまうという問題がある。

１つの側面では、本発明は、データ要素数の減少に応じたブルームフィルタのビット削減に伴う偽陽率の増加を抑止したデータ処理装置およびデータ処理プログラムを提供することを目的とする。

１つの案では、記憶部と処理部とを有する次のようなデータ処理装置が提供される。このデータ処理装置において、記憶部は、第１データセットに含まれるデータ要素のうち第１分類条件に合致するデータ要素を含む第１データサブセットに対応付けられた第１ブルームフィルタと、第１データセットに含まれるデータ要素のうち第２分類条件に合致するデータ要素を含む第２データサブセットに対応付けられた第２ブルームフィルタと、を含む第１ビット列を記憶する。処理部は、検索対象の第１データ要素が入力されたとき、第１データ要素が第１分類条件に合致する場合、第１ブルームフィルタを用いて第１データ要素と同一のデータ要素が第１データサブセットに存在するかを判定し、第１データ要素が第２分類条件に合致する場合、第２ブルームフィルタを用いて第１データ要素と同一のデータ要素が第２データサブセットに存在するかを判定する。また、処理部は、第１データサブセットに含まれるすべてのデータ要素が削除されたとき、第１ビット列から第１ブルームフィルタを削除する。

また、１つの案では、上記のデータ処理装置と同様の処理をコンピュータに実行させるデータ処理プログラムが提供される。

１つの側面では、データ要素数の減少に応じたブルームフィルタのビット削減に伴う偽陽率の増加を抑止できる。

第１の実施の形態に係るデータ処理装置の構成例および処理例を示す図である。第２の実施の形態に係る情報処理システムの構成例を示す図である。クラウドストレージゲートウェイのハードウェア構成例を示すブロック図である。クラウドストレージゲートウェイが備える処理機能の構成例を示すブロック図である。管理テーブルの構成例を示す図である。階層型ブルームフィルタの構成例を示す図である。ブルームフィルタを用いた処理例を示す図である。階層型ブルームフィルタにおけるビット数削減処理の比較例を示す図である。ビット数が削減されたブルームフィルタを用いた検索処理の比較例を示す図である。階層型ブルームフィルタの内部構成例を示す図である。フィルタ管理テーブルの構成例を示す図である。検索テーブルの構成例を示す図である。検索テーブルにハッシュキーが追加される場合の処理例を示す図である。ハッシュキーの存否判定の処理例を示す図である。チャンク削除時の第１の処理例を示す図である。チャンク削除時の第２の処理例を示す図である。ファイル書き込み処理の手順を示すフローチャートの例（その１）である。ファイル書き込み処理の手順を示すフローチャートの例（その２）である。重複判定処理の手順を示すフローチャートの例である。ブルームフィルタの更新処理の手順を示すフローチャートの例である。ファイル削除処理の手順を示すフローチャートの例である。デフラグ処理の手順を示すフローチャートの例（その１）である。デフラグ処理の手順を示すフローチャートの例（その２）である。第１の変形例におけるフィルタ管理テーブルの構成例を示す図である。第２の変形例における階層型ブルームフィルタの内部構成例を示す図である。

以下、本発明の実施の形態について図面を参照して説明する。
〔第１の実施の形態〕
図１は、第１の実施の形態に係るデータ処理装置の構成例および処理例を示す図である。図１に示すデータ処理装置１０は、記憶部１１と処理部１２とを有する。

記憶部１１は、例えば、データ処理装置１０が備える図示しない記憶装置の記憶領域として実現される。記憶部１１には、複数のデータ要素を含むデータセット２０と、データセット２０におけるデータ要素の存否判定に用いられるビット列３０とが記憶される。なお、データセット２０は、必ずしもデータ処理装置１０の内部に記憶されている必要はない。例えば、データセット２０に含まれる一部のデータ要素が、データ処理装置１０の内部にキャッシュされていてもよい。

処理部１２は、例えば、データ処理装置１０が備える図示しないプロセッサとして実現される。処理部１２は、検索対象のデータ要素が入力されたとき、入力されたデータ要素と同じデータ要素がデータセット２０に存在するかを、ビット列３０を用いて判定する。

以下、図１を用いて、データセット２０およびビット列３０についてさらに説明する。データセット２０に含まれるデータ要素は、Ｎ種類の互いに異なる分類条件にしたがって、Ｎ個のデータサブセット２１−１，２１−２，・・・，２１−Ｎに分類されている（Ｎは２以上の整数）。例えば、データサブセット２１−１（第１データサブセット）は、データセット２０に含まれるデータ要素のうち、第１の分類条件に合致するデータ要素を含む。また、データサブセット２１−２（第２データサブセット）は、データセット２０に含まれるデータ要素のうち、第２の分類条件に合致するデータ要素を含む。

分類条件としては、例えば、データ要素のビット列における所定範囲のビット値が用いられる。例えば、データ要素の上位２ビットの値が用いられる場合、上位２ビットの値が「００」、「０１」、「１１」のいずれかという３つの分類条件が適用される。この場合、例えば上位２ビットの値が「００」のデータ要素はある１つのデータサブセットに分類され、上位２ビットの値が「０１」のデータ要素は他のデータサブセットに分類され、上位２ビットの値が「１１」のデータ要素はさらに他のデータサブセットに分類される。

一方、ビット列３０は、Ｎ個の同じサイズの部分ビット列に分割されており、各部分ビット列はそれぞれ個別のブルームフィルタとして使用される。すなわち、ビット列３０は、ブルームフィルタ３１−１，３１−２，・・・，３１−Ｎを含んでいる。ブルームフィルタ３１−１，３１−２，・・・，３１−Ｎは、それぞれデータサブセット２１−１，２１−２，・・・，２１−Ｎに対応付けられている。

そして、ブルームフィルタ３１−１，３１−２，・・・，３１−Ｎは、それぞれ対応するデータサブセット２１−１，２１−２，・・・，２１−Ｎにおけるデータ要素の存否判定に使用される。したがって、ブルームフィルタ３１−１，３１−２，・・・，３１−Ｎには、それぞれ対応するデータサブセット２１−１，２１−２，・・・，２１−Ｎに含まれるデータ要素を用いた所定の計算により、ビット値が設定される。例えば、ブルームフィルタ３１−１の各ビットのビット値は、データサブセット２１−１に含まれる各データ要素を用いた所定の計算によって設定される。また、ブルームフィルタ３１−２の各ビットのビット値は、データサブセット２１−２に含まれる各データ要素を用いた所定の計算によって設定される。

検索対象のデータ要素（「入力データ要素」とする）が入力されたとき、処理部１２は、次のようにしてデータセット２０に入力データ要素と同じデータ要素が存在するかを判定する。処理部１２は、入力データ要素がどの分類条件に合致するかを判定する。そして、処理部１２は、入力データ要素がある分類条件に合致する場合、その分類条件に対応するブルームフィルタを用いて、そのブルームフィルタに対応するデータサブセットに入力データ要素と同じデータ要素が存在するかを判定する。

例えば、入力データ要素がデータサブセット２１−１に対応する第１分類条件に合致する場合、処理部１２は、ブルームフィルタ３１−１を用いて、データサブセット２１−１に入力データ要素と同じデータ要素が存在するかを判定する。また、入力データ要素がデータサブセット２１−１に対応する第２分類条件に合致する場合、処理部１２は、ブルームフィルタ３１−２を用いて、データサブセット２１−２に入力データ要素と同じデータ要素が存在するかを判定する。

次に、データセット２０に含まれるデータ要素が削除される場合について説明する。処理部１２は、あるデータサブセットに含まれるデータ要素がすべて削除された場合、そのデータサブセットに対応するブルームフィルタをビット列３０から削除する。これは、データセット２０から、ある分類条件に合致するデータ要素がすべて削除された場合、その分類条件に対応するブルームフィルタをビット列３０から削除できることを意味する。

例えば図１に示すように、データセット２０から上記の第１分類条件に合致するデータ要素がすべて削除された場合、すなわち、データサブセット２１−１に含まれるデータ要素がすべて削除された場合には、処理部１２は、ビット列３０からブルームフィルタ３１−１を削除する。

このような削除処理により、データセット２０における入力データ要素の存否判定における偽陽率を増加させずに、ブルームフィルタとして用いられるビット列３０のビット数を削減できる。例えば、ブルームフィルタ３１−１が上記手順で削除されても、ブルームフィルタ３１−２，・・・，３１−Ｎを用いてそれぞれデータサブセット２１−２，・・・，２１−Ｎについての存否判定が行われた場合、偽陽性の発生確率に変化はない。また、ブルームフィルタ３１−１が上記手順で削除された状態で、第１分類条件に合致する入力データ要素が入力された場合、処理部１２は、第１分類条件に対応するブルームフィルタ３１−１が存在しないことから、入力データ要素と同じデータ要素がデータセット２０に存在しないと正しく判定できる。この場合、ブルームフィルタ３１−１の削除前と比較して偽陰率も偽陽率も変化しない。

したがって、第１の実施の形態に係るデータ処理装置１０によれば、データ要素数の減少に応じたブルームフィルタのビット削減に伴う偽陽率の増加を抑止できる。
データ要素数の削減に伴ってビット列３０のビット数を削減する方法としては、次のような方法も考えられる。例えば、ビット列３０の全体を１つのブルームフィルタとして用いて、このブルームフィルタによってデータセット２０全体についての存否判定を行う。データセット２０に含まれる一部のデータ要素が削除されたとき、その削除数に応じてビット列３０のビット数を削減し、ビット数削減後のビット列３０の全ビット値をリセットする。そして、データセット２０に残っているすべてのデータ要素を用いて、ビット削減後のビット列３０に対するビット値の設定をあらためて行う。

この方法でも、偽陽率を増加させずにビット列３０のビット数を削減できる。ただし、ビット削減後のビット列３０に対してビット値を再設定するために計算が必要になり、ビット数削減時の処理負荷が高くなる。第１の実施の形態に係るデータ処理装置１０によれば、ビット列３０のビット数削減時にこのような計算が必要にならず、ビット数削減時の処理負荷を抑制できる。

ところで、上記のビット列３０を階層型ブルームフィルタの各ノードに適用することで、データ要素の削除に伴うビット列３０のビット数削減を、偽陽性の増加を抑止しながら複数階層にわたって実施できるようになる。そこで、以下の第２の実施の形態では、このような階層型ブルームフィルタを備える情報処理システムの一例について説明する。

〔第２の実施の形態〕
図２は、第２の実施の形態に係る情報処理システムの構成例を示す図である。図２に示す情報処理システムは、クラウドストレージゲートウェイ１００、ＮＡＳ（Network Attached Storage）クライアント２１０およびストレージシステム２２０を有する。クラウドストレージゲートウェイ１００は、ネットワーク２３１を介してＮＡＳクライアント２１０と接続され、また、ネットワーク２３２を介してストレージシステム２２０と接続されている。ネットワーク２３１は、例えばＬＡＮ（Local Area Network）であり、ネットワーク２３２は、例えばＷＡＮ（Wide Area Network）である。

ストレージシステム２２０は、ネットワーク２３２を介してクラウドストレージサービスを提供する。以下の説明では、ストレージシステム２２０が提供するクラウドストレージサービスによってサービス利用者（ここではクラウドストレージゲートウェイ１００）が利用可能な記憶領域を、「クラウドストレージ」と記載する場合がある。

また、本実施の形態では例として、ストレージシステム２２０は、データがオブジェクト単位で管理されるオブジェクトストレージによって実現される。例えば、ストレージシステム２２０は、制御サーバ２２１ａとストレージ装置２２１ｂとをそれぞれ含むストレージノード２２１を複数有する、分散型のストレージシステムとして実現される。この場合、各ストレージノード２２１において、制御サーバ２２１ａはストレージ装置２２１ｂに対するアクセスを制御し、ストレージ装置２２１ｂの記憶領域によってクラウドストレージの一部が実現される。また、サービス利用者（クラウドストレージゲートウェイ１００）からのオブジェクトの格納先とされるストレージノード２２１は、オブジェクト固有の情報に基づいて決定される。

一方、ＮＡＳクライアント２１０は、クラウドストレージゲートウェイ１００を、ファイルシステムによって管理される記憶領域を提供するＮＡＳサーバとして認識する。この記憶領域とは、ストレージシステム２２０によって提供されるクラウドストレージによる記憶領域である。そして、ＮＡＳクライアント２１０は、例えばＮＦＳ（Network File System）プロトコルやＣＩＦＳ（Common Internet File System）プロトコルにしたがって、クラウドストレージゲートウェイ１００に対してファイル単位でデータの読み書きを要求する。すなわち、ＮＡＳクライアント２１０は、クラウドストレージゲートウェイ１００のＮＡＳサーバ機能により、クラウドストレージを大容量の仮想的なネットワークファイルシステムとして利用できるようになる。

ＮＡＳクライアント２１０は、例えば、データバックアップのためのバックアップソフトウェアを実行する。この場合ＮＡＳクライアント２１０は、ＮＡＳクライアント２１０に記憶されたファイル、またはＮＡＳクライアント２１０に接続されたサーバ（例えば業務サーバ）に記憶されたファイルを、ＮＡＳサーバから提供される記憶領域にバックアップする。

クラウドストレージゲートウェイ１００は、図１に示したデータ処理装置１０の一例である。クラウドストレージゲートウェイ１００は、ＮＡＳクライアント２１０とクラウドストレージとの間で転送されるデータを中継する。

例えば、クラウドストレージゲートウェイ１００は、ＮＡＳサーバ機能により、ＮＡＳクライアント２１０からファイルの書き込み要求を受信し、書き込みが要求されたファイルを内部にキャッシュする。クラウドストレージゲートウェイ１００は、書き込みが要求されたファイルをチャンク単位に分割し、チャンク内の実データ（チャンクデータ）をクラウドストレージに格納する。このとき、所定個数のチャンクデータがグループ化されてオブジェクトが生成され、生成されたオブジェクトがクラウドストレージに転送される。

また、クラウドストレージゲートウェイ１００は、ＮＡＳクライアント２１０からのファイルをキャッシュする時点で、ファイルをチャンク単位に分割し、同一内容のチャンクデータが重複して保存されないようにする「重複排除」を行う。さらに、チャンクデータは圧縮された状態で格納されてもよい。例えば、クラウドストレージサービスでは、格納されるデータ量に応じて課金が行われる場合がある。重複排除やデータ圧縮を行うことで、クラウドストレージに格納されるデータ量を削減し、サービス利用コストを抑制することができる。

図３は、クラウドストレージゲートウェイのハードウェア構成例を示すブロック図である。クラウドストレージゲートウェイ１００は、例えば、図３に示すようなコンピュータとして実現される。

クラウドストレージゲートウェイ１００は、プロセッサ１０１、ＲＡＭ（Random Access Memory）１０２、ＨＤＤ（Hard Disk Drive）１０３、グラフィックインタフェース（Ｉ／Ｆ）１０４、入力インタフェース（Ｉ／Ｆ）１０５、読み取り装置１０６および通信インタフェース（Ｉ／Ｆ）１０７を備える。

プロセッサ１０１は、クラウドストレージゲートウェイ１００全体を統括的に制御する。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＰＬＤ（Programmable Logic Device）である。また、プロセッサ１０１は、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤのうちの２以上の要素の組み合わせであってもよい。

ＲＡＭ１０２は、クラウドストレージゲートウェイ１００の主記憶装置として使用される。ＲＡＭ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、プロセッサ１０１による処理に必要な各種データが格納される。

ＨＤＤ１０３は、クラウドストレージゲートウェイ１００の補助記憶装置として使用される。ＨＤＤ１０３には、ＯＳプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、ＳＳＤ（Solid State Drive）などの他の種類の不揮発性記憶装置を使用することもできる。

グラフィックインタフェース１０４には、表示装置１０４ａが接続されている。グラフィックインタフェース１０４は、プロセッサ１０１からの命令にしたがって、画像を表示装置１０４ａに表示させる。表示装置としては、液晶ディスプレイや有機ＥＬ（Electroluminescence）ディスプレイなどがある。

入力インタフェース１０５には、入力装置１０５ａが接続されている。入力インタフェース１０５は、入力装置１０５ａから出力される信号をプロセッサ１０１に送信する。入力装置１０５ａとしては、キーボードやポインティングデバイスなどがある。ポインティングデバイスとしては、マウス、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

読み取り装置１０６には、可搬型記録媒体１０６ａが脱着される。読み取り装置１０６は、可搬型記録媒体１０６ａに記録されたデータを読み取ってプロセッサ１０１に送信する。可搬型記録媒体１０６ａとしては、光ディスク、半導体メモリなどがある。

通信インタフェース１０７は、ネットワーク１０７ａを介して他の装置との間でデータの送受信を行う。
以上のようなハードウェア構成によって、クラウドストレージゲートウェイ１００の処理機能を実現することができる。なお、ＮＡＳクライアント２１０や制御サーバ２２１ａも、図３と同様のハードウェア構成を有するコンピュータとして実現可能である。

図４は、クラウドストレージゲートウェイが備える処理機能の構成例を示すブロック図である。クラウドストレージゲートウェイ１００は、記憶部１１０、ファイル入出力部１２０、重複排除処理部１３０およびクラウド通信部１４０を備える。

なお、記憶部１１０は、例えば、ＲＡＭ１０２やＨＤＤ１０３など、クラウドストレージゲートウェイ１００が備える記憶装置の記憶領域として実現される。また、ファイル入出力部１２０、重複排除処理部１３０およびクラウド通信部１４０の処理は、例えば、プロセッサ１０１が所定のプログラムを実行することで実現される。

記憶部１１０には、ディレクトリテーブル１１１、チャンクマップテーブル１１２、チャンク管理テーブル１１３、ハッシュキー管理データ１１４、オブジェクト管理テーブル１１５およびブルームフィルタデータ１１６が記憶される。また、記憶部１１０の記憶領域の一部は、データキャッシュ１１７として利用される。

ディレクトリテーブル１１１は、ファイルシステムにおけるディレクトリ構造を表現するための管理情報である。ディレクトリテーブル１１１には、ディレクトリ構造上のディレクトリ（フォルダ）、またはディレクトリ内のファイルに対応するレコードが登録される。各レコードには、ディレクトリまたはファイルを識別するためのｉｎｏｄｅ番号が登録されている。また、例えば、各レコードに親ディレクトリのｉｎｏｄｅ番号が登録されることで、ディレクトリ間、およびディレクトリとファイルとの関係が表現される。

チャンクマップテーブル１１２は、ファイルと重複排除されたチャンクとの対応関係を管理するための管理情報である。チャンク管理テーブル１１３は、チャンクとオブジェクトとの対応関係や、チャンクの参照数を管理するための管理情報である。

ハッシュキー管理データ１１４は、チャンクに対応するハッシュキーを管理するための管理情報である。ハッシュキー管理データ１１４では、後述するように、階層型ブルームフィルタにおける最下層ノードごとにハッシュキーが分類されて管理される。

オブジェクト管理テーブル１１５は、オブジェクトごとに、オブジェクトに含まれるチャンクのうち有効なチャンクを示す有効チャンク数と無効なチャンクを示す無効チャンク数とを管理するための管理情報である。オブジェクト管理テーブル１１５は、クラウドストレージ２４０に格納されたオブジェクトについてのデフラグの実行要否を判定するために利用される。

ブルームフィルタデータ１１６は、階層型ブルームフィルタに関するデータを管理するための管理情報である。ブルームフィルタデータ１１６は、階層型ブルームフィルタの構成を示す管理情報や、ブルームフィルタの実体であるビット列を含む。この階層型ブルームフィルタは、チャンクの重複判定のために利用される。

データキャッシュ１１７は、重複排除されたチャンクをキャッシュするための記憶領域である。ＮＡＳクライアント２１０から書き込みが要求されたファイルに対応するチャンクのデータは、重複排除された上で一旦データキャッシュ１１７に格納された後、オブジェクトに組み込まれてクラウドストレージ２４０に格納される。また、チャンクの格納によりデータキャッシュ１１７の容量が少なくなると、クラウドストレージ２４０に格納済みで、かつ、ＮＡＳクライアント２１０からのアクセス頻度が低いチャンクは、データキャッシュ１１７から削除される。

ファイル入出力部１２０は、ＮＡＳサーバとしてのインタフェース処理を実行する。例えば、ファイル入出力部１２０は、ＮＡＳクライアント２１０からのファイルの読み書き要求を受け付け、要求された内容に応じた処理を重複排除処理部１３０に依頼して、ＮＡＳクライアント２１０に応答する。

クラウド通信部１４０は、重複排除処理部１３０からの要求に応じてクラウドストレージ２４０との間の通信処理を実行する。例えば、重複排除処理部１３０は、オブジェクトストレージであるクラウドストレージ２４０との間でオブジェクトの送受信を行う。重複排除処理部１３０は、ＰＵＴコマンドによりオブジェクトをクラウドストレージ２４０にアップロードする。また、重複排除処理部１３０は、ＧＥＴコマンドによりオブジェクトをクラウドストレージ２４０から取得する。また、重複排除処理部１３０は、ＤＥＬＥＴＥコマンドによりクラウドストレージ２４０上のオブジェクトを削除する。

重複排除処理部１３０は、ファイルの実データを重複を排除した状態で格納するための処理を実行する。重複排除処理部１３０は、重複判定部１３１、チャンク管理部１３２およびデフラグ処理部１３３を備える。

重複判定部１３１は、書き込みが要求されたファイルの実データをチャンク単位に分割し、分割された実データを重複を排除しながらデータキャッシュ１１７に格納する。重複判定部１３１は、ブルームフィルタ処理部１３１ａと二分木探索処理部１３１ｂを備える。

ブルームフィルタ処理部１３１ａおよび二分木探索処理部１３１ｂは、チャンク管理テーブル１１３に登録済みのチャンク（格納済みチャンク）の中から、ファイルから分割されたチャンクと同一のチャンクを検索する処理を実行する。ブルームフィルタ処理部１３１ａは、ファイルから分割されたチャンクと同一のチャンクが含まれているチャンク群を、階層型ブルームフィルタを用いて絞り込む。二分木探索処理部１３１ｂは、絞り込まれたチャンク群の中から、ファイルから分割されたチャンクと同一のチャンクを、二分木探索により検索する。

チャンク管理部１３２は、重複判定部１３１によってデータキャッシュ１１７に格納されたチャンクを、適切なサイズになるように複数まとめてオブジェクトを生成し、クラウド通信部１４０を介してクラウドストレージ２４０に格納する。本実施の形態では例として、所定個数のチャンクによってオブジェクトが生成される。

デフラグ処理部１３３は、ファイルの更新や削除の要求に伴って参照されなくなったチャンク（無効チャンク）を監視し、その監視結果に基づいてデフラグを実行する。デフラグとは、発生した無効チャンクをクラウドストレージ２４０から削除して、クラウドストレージ２４０の使用容量を削減するための処理である。デフラグでは、例えば、無効チャンクを含むオブジェクトがクラウドストレージ２４０から取得され、無効チャンクデータを削除した残りのチャンクによってオブジェクトが再構築されて、再構築されたオブジェクトがクラウドストレージ２４０に格納される。

図５は、管理テーブルの構成例を示す図である。図５では、記憶部１１０に記憶される管理テーブルのうち、チャンクマップテーブル１１２、チャンク管理テーブル１１３およびオブジェクト管理テーブル１１５について示す。

チャンクマップテーブル１１２は、ファイルと格納済みチャンクとの対応関係を管理するための管理情報である。図５に示すように、チャンクマップテーブル１１２には、ファイル番号、オフセット、サイズおよびチャンク番号の各項目を有するレコードが登録される。各レコードは、ファイルの実データを分割して生成された１つのチャンクに対応付けられている。

ファイル番号は、ファイルの識別番号を示す。オフセットは、ファイルの先頭からチャンクの先頭までのオフセット量を示す。サイズは、チャンクのサイズを示す。オフセットおよびサイズの値によって、ファイルにおけるチャンクの領域が特定される。

チャンク番号は、ファイル上のチャンクに対応する格納済みチャンクの識別番号を示す。あるファイル上の第１のチャンクと、それと同じファイルまたは他のファイル上の第２のチャンクとの間でデータの内容が同じ場合、第１のチャンクに対応するレコードと第２のチャンクに対応するレコードには同じチャンク番号が登録される。例えば図５では、ファイル番号「ｆ１」およびオフセット「ｏ１」で識別されるチャンクのレコードと、ファイル番号「ｆ２」およびオフセット「ｏ１４」で識別されるチャンクのレコードとには、同じチャンク番号「ｃｋ１」が登録されている。これは、前者のチャンクと後者のチャンクとの間ではデータの内容が同じであり、このデータがチャンク番号「ｃｋ１」のチャンクとしてデータキャッシュ１１７やクラウドストレージ２４０に格納されていることを示す。

なお、チャンク番号は、重複していないユニークなチャンクが出現し、データキャッシュ１１７に格納された順に付与される。したがって、チャンク番号は、重複排除されたチャンクの出現順や格納順を示す。

チャンク管理テーブル１１３は、格納済みチャンクとオブジェクトとの対応関係や、格納済みチャンクの参照数を管理するための管理情報である。図５に示すように、チャンク管理テーブル１１３には、チャンク番号、オブジェクト番号、オフセット、サイズおよび参照数の各項目を有するレコードが登録される。各レコードは、１つの格納済みチャンクに対応付けられている。

オブジェクト番号は、チャンクが属するオブジェクトの識別番号を示す。オフセットは、オブジェクトの先頭からチャンクの先頭までのオフセット量を示す。サイズは、チャンクのサイズを示す。オフセットおよびサイズの値によって、オブジェクトにおけるチャンクの領域が特定される。参照数は、チャンク番号が示す格納済みチャンクが、ファイルを分割して生成されたチャンクのうちのいくつから参照されているかを示す。すなわち、参照数は、チャンク番号が示す格納済みチャンクがファイル上のいくつのチャンクの間で重複しているかを示す。例えば、あるチャンク番号に対応する参照数が「２」の場合、同じチャンク番号の値が登録された２つのレコードがチャンクマップテーブル１１２に存在することになる。

ここで、図５のチャンクマップテーブル１１２の例では、ファイル番号「ｆ１」のファイルは２つのチャンクに分割されており、ファイル番号「ｆ２」のファイルは４つのチャンクに分割されている。また、図５のチャンク管理テーブル１１３の例では、前者のファイルに含まれる２つのチャンクのデータと、後者のファイルに含まれるチャンクのうち先頭から２つのチャンクのデータとが、オブジェクト番号「ｏｂ１」のオブジェクトに属するチャンクとしてクラウドストレージ２４０に格納されている。

本実施の形態では、所定数のチャンクによって１つのオブジェクトが形成される。ファイルの書き込みに伴って新たなチャンク（格納済みチャンク）が出現すると、そのチャンクにはオブジェクト番号が割り当てられる。あるオブジェクトに含まれるチャンクが所定個数に達しない状態では、そのオブジェクトは「アクティブ」な状態として管理される。アクティブなオブジェクトには、新たに出現するチャンクが順次割り当てられていく。そして、オブジェクトに含まれるチャンクが所定個数に達すると、そのオブジェクトは「非アクティブ」とされて、クラウドストレージ２４０に格納可能な状態となる。オブジェクトには、生成順にオブジェクト番号が付与される。また、１つのオブジェクトには、連続するチャンク番号を有するチャンクが割り当てられる。

オブジェクトについての他の生成方法として、例えば、オブジェクトに割り当てられたチャンクの合計サイズが所定サイズを超えた場合に、そのオブジェクトが非アクティブ化されてもよい。

次に、図５に示すように、オブジェクト管理テーブル１１５には、オブジェクト番号に対して有効チャンク数および無効チャンク数が対応付けて登録される。有効チャンク数は、オブジェクトに含まれるチャンクのうち、有効なチャンク（参照数が１以上のチャンク）の数を示す。無効チャンク数は、オブジェクトに含まれるチャンクのうち、無効なチャンク（参照数が０のチャンク）の数を示す。このオブジェクト管理テーブル１１５は、デフラグの実行要否を判定するために利用される。

次に、ブルームフィルタ処理部１３１ａの処理で利用される階層型ブルームフィルタについて説明する。
図６は、階層型ブルームフィルタの構成例を示す図である。図６に示す階層型ブルームフィルタ１１８は、ブルームフィルタとして動作するビット列が各ノードに割り当てられた木構造により実現される。これにより、複数階層のブルームフィルタを備える階層型のブルームフィルタが形成されている。ただし、詳しくは後述するが、各ノードのビット列は同じ数で分割されており、分割された各ビット列が個別のブルームフィルタとして動作する。

本実施の形態では、最上位の第１階層のノードには、ｎビットのビット列ＢＡ１が配置される。ビット数「ｎ」は、検索対象の最大要素数（すなわち、記憶部１１０のチャンク管理テーブル１１３に登録されるチャンクの最大数）に応じて決定される。

また、１つ下の階層には、上位階層の（１／ｄ）のビット数をそれぞれ有するビット列が、上位階層のｄ倍の数だけ配置される。換言すると、あるノードに対する１つ下の階層にはｄ個のノードが接続され、下位階層の各ノードのビット列は、上位階層の（１／ｄ）のビット数を有する。したがって、各階層に含まれるビット列（ブルームフィルタ）の合計ビット数はいずれもｎビットであり、階層型ブルームフィルタ１１８は、階層数のｎ倍のビット数に対応する記憶領域を占有する。

本実施の形態では例として、階層型ブルームフィルタ１１８の階層数は「３」であるものとする。この場合、図６に示すように、第２階層には、ｄ個のビット列ＢＡ２−１，ＢＡ２−２，・・・，ＢＡ２−ｄが配置される。ビット列ＢＡ２−１，ＢＡ２−２，・・・，ＢＡ２−ｄのビット数は、いずれも（ｎ／ｄ）ビットである。

また、第３階層には、第２階層の各ビット列の下層にそれぞれｄ個のビット列が配置される。例えば、ビット列ＢＡ２−１の下層には、ｄ個のビット列ＢＡ３−１−１，ＢＡ３−１−２，・・・，ＢＡ３−１−ｄが形成される。ビット列ＢＡ２−２の下層には、ｄ個のビット列ＢＡ３−２−１，ＢＡ３−２−２，・・・，ＢＡ３−２−ｄが形成される。ビット列ＢＡ２−ｄの下層には、ｄ個のビット列ＢＡ３−ｄ−１，ＢＡ３−ｄ−２，・・・，ＢＡ３−ｄ−ｄが形成される。したがって、第３階層には、合計でｄ²個のビット列が配置される。これらのビット列のビット数は、いずれも（ｎ／ｄ²）ビットである。

第３階層の各ノードのビット列には、検索対象となるチャンク群がそれぞれ割り当てられる。ただし、実際の検索は、チャンクのデータに基づいて算出されるハッシュ値であるハッシュキーを用いて行われる。そして、本実施の形態では、第３階層の各ノードのビット列についての検索対象は、各チャンクに基づくハッシュキーが登録された検索テーブルとして与えられる。

例えば、ビット列ＢＡ３−１−１，ＢＡ３−１−２，・・・，ＢＡ３−１−ｄには、それぞれ検索テーブルＴＢ１−１，ＴＢ１−２，・・・，ＴＢ１−ｄが、検索対象として割り当てられる。ビット列ＢＡ３−２−１，ＢＡ３−２−２，・・・，ＢＡ３−２−ｄには、それぞれ検索テーブルＴＢ２−１，ＴＢ２−２，・・・，ＴＢ２−ｄが、検索対象として割り当てられる。ビット列ＢＡ３−ｄ−１，ＢＡ３−ｄ−２，・・・，ＢＡ３−ｄ−ｄには、それぞれ検索テーブルＴＢｄ−１，ＴＢｄ−２，・・・，ＴＢｄ−ｄが、検索対象として割り当てられる。これらの検索テーブルは、例えば、最大で２０個のオブジェクトに属するチャンクデータを含む。

また、第２階層の各ノードのビット列についての検索対象は、そのビット列の下層に配置された各ビット列の検索対象となっているすべての検索テーブルとなる。例えば、ビット列ＢＡ２−１の検索対象は、検索テーブルＴＢ１−１，ＴＢ１−２，・・・，ＴＢ１−ｄとなる。また、同様に、第１階層のビット列ＢＡ１の検索対象は、ビット列ＢＡ１の下層に配置されたビット列ＢＡ２−１，ＢＡ２−２，・・・，ＢＡ２−ｄの検索対象となっているすべての検索テーブルとなる。したがって、第１階層のビット列ＢＡ１の検索対象は、チャンク管理テーブル１１３に登録されたすべてのチャンクとなる。

検索テーブルには、非アクティブのオブジェクトが出現するたびに、そのオブジェクトに属するチャンクに対応するハッシュキーが追加されていく。例えば、非アクティブのオブジェクトが最初に出現すると、そのオブジェクトに属するチャンクに基づくハッシュキーが、１つ目の検索テーブルＴＢ１−１に追加される。その後、非アクティブのオブジェクトの出現に伴って、２０個のオブジェクトに対応するハッシュキーが検索テーブルＴＢ１−１に追加されていく。そして、２１個目の非アクティブのオブジェクトが出現すると、そのオブジェクトに属するチャンクに対応するハッシュキーは、次の検索テーブルＴＢ１−２に追加される。このようにして、各検索テーブルには、最大２０個のオブジェクトに対応するハッシュキーが含められる。

ここで、図６に示した階層型ブルームフィルタ１１８における各ノードのビット列が、それぞれ単独のブルームフィルタとして用いられる場合の処理例を、比較例として図７〜図９を用いて説明する。この場合、階層型ブルームフィルタ１１８は、単にブルームフィルタが多層化された一般的な構成の階層型ブルームフィルタとなる。

まず、図７は、ブルームフィルタを用いた処理例を示す図である。図７に示すブルームフィルタＢＦは、いずれかのノードのブルームフィルタを示す。なお、階層型ブルームフィルタに含まれるすべてのブルームフィルタの各ビットの値は、検索対象のデータ群に対してデータが挿入される前の初期状態では、すべて「０」に設定される。

まず、ブルームフィルタＢＦに検索対象として割り当てられたデータ群ＤＧ（ハッシュキーの集合）に対して、ハッシュキーＨＫ１を追加する場合について説明する。この場合、ハッシュキーＨＫ１に対してｋ種類のハッシュ関数をそれぞれ用いた計算を行うことでｋ個のハッシュ値が算出される。そして、算出されたｋ個のハッシュ値に基づいて、ビット値を「１」にするｋ個のビットの位置が特定される。

図７では例として、ｋ＝３とする。そして、ハッシュキーＨＫ１からそれぞれ３種類のハッシュ関数を用いて算出された値を、ブルームフィルタＢＦのビット数で除算した値の余り値が、ビット値を「１」にするビット番号として特定される。図７の例では、ビットＢ１，Ｂ２，Ｂ３が特定されたものとすると、ビットＢ１，Ｂ２，Ｂ３の各値が「１」に設定される。

次に、あるファイルから分割されたチャンクに基づくハッシュキーＨＫ２が、データ群ＤＧに含まれているかを判定する場合について説明する。この場合、上記と同様の手順で、ハッシュキーＨＫ２からｋ種類のハッシュ関数を用いてそれぞれ算出されたハッシュ値に基づいて、ビット値が「１」となるビット位置が特定される。図７の例では、ビットＢ２，Ｂ３，Ｂ４が特定されたものとすると、ブルームフィルタＢＦからビットＢ２，Ｂ３，Ｂ４の各値が取得される。

ここで、ビットＢ２，Ｂ３，Ｂ４のすべての値が「１」の場合、データ群ＤＧにハッシュキーＨＫ２が含まれている可能性がある、と判定される。ただし、データ群ＤＧにハッシュキーＨＫ２が確実に含まれることが保証される訳ではない（偽陽性）。一方、ビットＢ２，Ｂ３，Ｂ４の少なくとも１つの値が「０」の場合、データ群ＤＧにはハッシュキーＨＫ２が含まれていない、と判定される。

以上がブルームフィルタを用いた基本的な処理である。次に、図６に示した階層型ブルームフィルタ１１８における各ノードのビット列が、それぞれ単独のブルームフィルタとして用いられる場合の処理例について説明する。

階層型ブルームフィルタでは、ハッシュキーの追加時においては、最下層のブルームフィルタから上層に対して順に、ブルームフィルタに対するビット値「１」の設定が行われていく。例えば、図６において、検索テーブルＴＢ１−１にハッシュキーを追加する場合、まず、第３階層において検索テーブルＴＢ１−１に割り当てられたビット列ＢＡ３−１−１（ブルームフィルタ）に対して、３つのビット値を「１」に設定する処理が行われる。次に、その上層のビット列ＢＡ２−１（ブルームフィルタ）に対して、３つのビット値を「１」に設定する処理が行われる。さらに、その上層のビット列ＢＡ１（ブルームフィルタ）に対して、３つのビット値を「１」に設定する処理が行われる。

一方、ハッシュキーの存否判定時においては、最上層のビット列ＢＡ１（ブルームフィルタ）から下層に対して順に、ビット値が参照されていく。すなわち、まず第１階層のビット列ＢＡ１（ブルームフィルタ）が参照され、ハッシュ計算により特定された３つのビット値がすべて「１」であるかが判定される。３つのビット値がすべて「１」である場合、次に、第２階層のビット列ＢＡ２−１，ＢＡ２−２，・・・，ＢＡ２−ｄ（ブルームフィルタ）のそれぞれについて、ハッシュ計算により特定された３つのビット値がすべて「１」であるかが判定される。

ここで、例えば、ビット列ＢＡ２−１（ブルームフィルタ）において、特定された３つのビット値がすべて「１」であったとする。この場合、ビット列ＢＡ２−１（ブルームフィルタ）の下層に属するビット列ＢＡ３−１−１，ＢＡ３−１−２，・・・，ＢＡ３−１−ｄ（ブルームフィルタ）のそれぞれについて、ハッシュ計算により特定された３つのビット値がすべて「１」であるかが判定される。

ここで、例えば、ビット列ＢＡ３−１−１（ブルームフィルタ）において、特定された３つのビット値がすべて「１」であったとする。この場合、ビット列ＢＡ３−１−１（ブルームフィルタ）に割り当てられた検索テーブルＴＢ１−１に、所望のハッシュキーが存在する可能性がある、と判定される。

ところで、階層型ブルームフィルタの各ブルームフィルタのビット数は、検索対象の要素数（すなわち、チャンク管理テーブル１１３に登録されるチャンク数）に応じて決まる。検索対象の要素数が多くなるほど、各ブルームフィルタのビット数も多くなるので、階層型ブルームフィルタを構成するデータが占有する記憶領域も大きくなる。

一方、一般的なブルームフィルタの性質として、検索対象の要素数が減少した場合でも、ブルームフィルタのビット数を削減できない、という性質がある。これは、ブルームフィルタのビットから、削除された要素に基づく計算によってビット値が「１」となるビットを削除したとしても、そのビットは、他の要素に基づく計算によってビット値が「１」となる可能性があるからである。もしそうである場合、ビットの削除後のブルームフィルタを用いた検索処理では、偽陰性が生じてしまう。

このような問題に対し、以下の図８、図９に示すようなビット数削減方法が考えられている。
図８は、階層型ブルームフィルタにおけるビット数削減処理の比較例を示す図である。

図８に示すチャンク群ＣＧは、例として、図６に示した検索テーブルＴＢ１−１に対応する。すなわち、検索テーブルＴＢ１−１には、チャンク群ＣＧに含まれる各チャンクに基づくハッシュキーが登録されている。そして、図８では例として、チャンク群ＣＧに含まれるチャンクの数が、オブジェクトのデフラグ処理によって減少した場合を想定する。なお、デフラグ処理とは、チャンク群ＣＧに含まれるチャンクのうち、断片化された有効チャンク（参照数が「１」以上のチャンク）をまとめて記憶領域に格納し直すことで、無効チャンク（参照数が「０」のチャンク）の記憶領域を解放するための処理である。

また、図８に示すブルームフィルタＢＦ３−１−１は、図６に示したビット列ＢＡ３−１−１全体を用いたブルームフィルタであり、チャンク群ＣＧ（検索テーブルＴＢ１−１）の検索に用いられる。また、図８に示すブルームフィルタＢＦ２−１は、図６に示したビット列ＢＡ２−１全体を用いたブルームフィルタであり、図８に示すブルームフィルタＢＦ１は、図６に示したビット列ＢＡ１全体を用いたブルームフィルタである。

図８では例として、デフラグ処理によってチャンク群ＣＧに含まれるチャンク数が１／３に減少したとする。この場合、まず、階層型ブルームフィルタにおける最下層（第３階層）のブルームフィルタのうち、チャンク群ＣＧ（検索テーブルＴＢ１−１）を検索対象とするブルームフィルタＢＦ３−１−１のビット数が削減される。この処理では、ブルームフィルタＢＦ３−１−１のうち下位側の１／３のビット列がそのまま残され、上位側の残りの２／３のビット列が記憶領域から削除される。このとき、ブルームフィルタＢＦ３−１−１からｍビットのビット列が削除されたものとする。

次に、ブルームフィルタＢＦ３−１−１の上位に位置するブルームフィルタＢＦ２−１のビット数が削減される。この処理では、ブルームフィルタＢＦ２−１のうち上位側のｍビットのビット列が記憶領域から削除され、残りのビット列がそのまま残される。なお、第２階層に含まれる他のブルームフィルタについては、ビット数の削減は行われない。

次に、ブルームフィルタＢＦ２−１の上位に位置するブルームフィルタＢＦ１のビット数が削減される。この処理では、第２階層と同様に、ブルームフィルタＢＦ１のうち上位側のｍビットのビット列が記憶領域から削除され、残りのビット列がそのまま残される。

以上の手順により、チャンク群ＣＧの記憶領域の削減に応じて、階層型ブルームフィルタの記憶領域も削減される。
図９は、ビット数が削減されたブルームフィルタを用いた検索処理の比較例を示す図である。この図９では、図８のような手順でブルームフィルタＢＦ１，ＢＦ２−１，ＢＦ３−１−１のビット数が削減された状態において、ファイルから分割されたチャンクＣＫ１の検索が要求された場合について示す。

この場合、まず、第１階層のブルームフィルタＢＦ１を用いて、チャンクＣＫ１の存否が判定される。このとき、ブルームフィルタＢＦ１の上位側に、削除されたビット数と同じｍビットのビット列ＢＳ１が仮想的に付加される。付加されるビット列ＢＳ１では、すべてのビットの値が「１」に設定される。そして、ビット列ＢＳ１が付加されたブルームフィルタＢＦ１を用いて、検索対象のチャンク群にチャンクＣＫ１が含まれているかが判定される。

この判定により、検索対象のチャンク群にチャンクＣＫ１が含まれている可能性がある、と判定されると、第２階層の各ブルームフィルタ（ビット列ＢＡ２−１，ＢＡ２−２，・・・，ＢＡ２−ｄに対応）をそれぞれ用いて、チャンクＣＫ１の存否が判定される。ここで、ブルームフィルタＢＦ２−１を用いた処理では、ブルームフィルタＢＦ２−１の上位側に、削除されたビット数と同じｍビットのビット列ＢＳ２が仮想的に付加される。ビット列ＢＳ１と同様に、付加されるビット列ＢＳ２では、すべてのビットの値が「１」に設定される。そして、ビット列ＢＳ２が付加されたブルームフィルタＢＦ２−１を用いて、検索対象のチャンク群にチャンクＣＫ１が含まれているかが判定される。

ここで、ブルームフィルタＢＦ２−１を用いた判定処理により、検索対象のチャンク群にチャンクＣＫ１が含まれている可能性がある、と判定されたとする。この場合、次に、ブルームフィルタＢＦ２−１の下層に配置された各ブルームフィルタ（ビット列ＢＡ３−１−１，ＢＡ３−１−２，・・・，ＢＡ３−１−ｄに対応）をそれぞれ用いて、チャンクＣＫ１の存否が判定される。ここで、ブルームフィルタＢＦ３−１−１を用いた処理では、ブルームフィルタＢＦ３−１−１の上位側に、削除されたビット数と同じｍビットのビット列ＢＳ３が仮想的に付加される。ビット列ＢＳ１，ＢＳ２と同様に、付加されるビット列ＢＳ３では、すべてのビットの値が「１」に設定される。そして、ビット列ＢＳ３が付加されたブルームフィルタＢＦ３−１−１を用いて、検索対象のチャンク群ＣＧにチャンクＣＫ１が含まれているかが判定される。

以上の比較例では、ビット数が削減されたブルームフィルタを用いて検索を行う際には、削減されたビット数と同じビット数を有し、かつ、全ビットの値が「１」であるビット列が、ブルームフィルタの上位側に仮想的に付加される。そして、このようにビット列が付加されたブルームフィルタを用いて、検索が行われる。これにより、記憶領域に記憶されるブルームフィルタの実データ量を削減して、記憶領域の利用効率を高めながらも、検索処理における決定的な誤判定（すなわち、集合内に存在する要素を存在しないと判定すること）の発生を防止できる。

しかしながら、この比較例の方法では、ビット値がすべて「１」のビット列を一時的に付加して存否判定を行うことから、ビット削減前と比較して、偽陽性による誤判定（すなわち、集合内に存在しない要素を存在すると判定すること）の発生確率（偽陽率）が増加してしまうという問題がある。

また、例えば、最下層のブルームフィルタＢＦ３−１−１については、検索対象のチャンク群ＣＧにおけるチャンク数の減少に伴ってブルームフィルタＢＦ３−１−１を再作成することで、ビット数を削減する方法が考えられる。この再作成では、元のブルームフィルタＢＦ３−１−１よりビット数の少ないブルームフィルタ（ビット値がすべて「０」のビット列）が作成される。そして、チャンク群ＣＧに残ったチャンクのそれぞれについて、ハッシュキーを用いてｋ種類のハッシュ関数によるハッシュ計算が行われて、新規のブルームフィルタにおけるｋ個のビットが「１」に設定される。

このような再作成により、ブルームフィルタＢＦ３−１−１を単体で見たときには、偽陽率の増加を招かずにビット数を削減できる。しかし、このように最下層のブルームフィルタＢＦ３−１−１を再作成したとしても、それより上位のブルームフィルタでの偽陽率の増加により、最下層のブルームフィルタＢＦ３−１−１での偽陽率も、ビット削減前よりも増加してしまう。

このような課題に対し、第２の実施の形態の階層型ブルームフィルタ１１８は、次のような構成を有している。階層型ブルームフィルタ１１８における各ノードのビット列は、同数のビット列に均等分割され、分割されたビット列がそれぞれ個別のブルームフィルタとして利用される。１つのビット列に含まれる各ブルームフィルタは、インデックスにより識別される。

各ノードのビット列に含まれる複数のブルームフィルタは、それぞれ異なる分類条件によって分類されるハッシュキーの検索に用いられる。すなわち、あるブルームフィルタは、ある分類条件に合致するハッシュキーの集合の中に、同じ分類条件に合致するハッシュキーが存在するかの判定に用いられる。また、ビット列内で同じインデックスで識別されるブルームフィルタには、同じ分類条件が対応付けられる。そして、あるブルームフィルタについての検索対象のハッシュキーがすべて削除されると、そのブルームフィルタは該当ノードのビット列から削除される。これにより、階層型ブルームフィルタ１１８におけるビット数削減が実現される。

さらに、同じ上位ノードの配下に位置する各ノードのブルームフィルタのうち、同じインデックスで識別されるすべてのブルームフィルタが削除された場合、上位ノードにおける同じインデックスで識別されるブルームフィルタも削除可能になる。このようにして、削除可能なブルームフィルタの位置が下位階層から上位階層に伝播される。

このような構成により、偽陽率を増加させずに、階層型ブルームフィルタ１１８のビット数を複数階層のブルームフィルタにわたって削除できるようになる。
以下、第２の実施の形態の階層型ブルームフィルタ１１８の詳細について説明する。

図１０は、階層型ブルームフィルタの内部構成例を示す図である。なお、図１０では、説明を簡単にするために、１つのノードに接続される仮想ノードの数を「２」としている（すなわち、ｄ＝２としている）。

前述のように、階層型ブルームフィルタ１１８における各ノードのビット列は、同数のビット列に均等分割され、分割されたビット列がそれぞれ個別のブルームフィルタとして利用される。１つのビット列に含まれる各ブルームフィルタは、インデックスにより識別される。図１０の例では、ビット列内のブルームフィルタには「０ｘ００」から「０ｘＦＦ」までのインデックスが付与されている。

各ノードのビット列に含まれる複数のブルームフィルタは、それぞれ異なる分類条件によって分類されるハッシュキーの検索に用いられる。すなわち、「０ｘ００」から「０ｘＦＦ」までのインデックスのそれぞれには、互いに異なる分類条件が対応付けられている。本実施の形態では、例として、ハッシュキーのビット値のうち、上位１バイトのビット値が分類条件として使用される。そして、上位１バイトが「０ｘ００」のハッシュキーの検索にはインデックス「０ｘ００」のブルームフィルタが用いられ、上位１バイトが「０ｘ０１」のハッシュキーの検索にはインデックス「０ｘ０１」のブルームフィルタが用いられる、というように、インデックスの値が分類条件のビット値と同じになっている。

ブルームフィルタと検索対象のハッシュキーとの関係は、例えば次のようになる。第３階層（最下層）において、ビット列ＢＡ３−１−１のブルームフィルタのうち、インデックス「０ｘ００」のブルームフィルタの検索対象は、検索テーブルＴＢ１−１に登録されたハッシュキーのうち、上位１バイトが「０ｘ００」のハッシュキーとなる。また、ビット列ＢＡ３−１−１のブルームフィルタのうち、インデックス「０ｘ０１」のブルームフィルタの検索対象は、検索テーブルＴＢ１−１に登録されたハッシュキーのうち、上位１バイトが「０ｘ０１」のハッシュキーとなる。

第２階層において、ビット列ＢＡ２−１のブルームフィルタのうち、インデックス「０ｘ００」のブルームフィルタの検索対象は、検索テーブルＴＢ１−１，ＴＢ１−２に登録されたハッシュキーのうち、上位１バイトが「０ｘ００」のハッシュキーとなる。また、ビット列ＢＡ２−１のブルームフィルタのうち、インデックス「０ｘ０１」のブルームフィルタの検索対象は、検索テーブルＴＢ１−１，ＴＢ１−２に登録されたハッシュキーのうち、上位１バイトが「０ｘ０１」のハッシュキーとなる。

第１階層において、ビット列ＢＡ１のブルームフィルタのうち、インデックス「０ｘ００」のブルームフィルタの検索対象は、検索テーブルＴＢ１−１，ＴＢ１−２，ＴＢ２−１，ＴＢ２−２に登録されたハッシュキーのうち、上位１バイトが「０ｘ００」のハッシュキーとなる。また、ビット列ＢＡ１のブルームフィルタのうち、インデックス「０ｘ０１」のブルームフィルタの検索対象は、検索テーブルＴＢ１−１，ＴＢ１−２，ＴＢ２−１，ＴＢ２−２に登録されたハッシュキーのうち、上位１バイトが「０ｘ０１」のハッシュキーとなる。

図１１は、フィルタ管理テーブルの構成例を示す図である。記憶部１１０内のブルームフィルタデータ１１６には、階層型ブルームフィルタ１１８の構成を示す管理情報や、ブルームフィルタの実体であるビット列が登録される。図１１に示すフィルタ管理テーブル１１６ａは、前者の例である。

フィルタ管理テーブル１１６ａは、階層型ブルームフィルタ１１８のノードごとのレコードを備える。各レコードには、ノードを識別するノード番号が登録される。また、各レコードには、インデックスごとのフィルタアドレスと、ブルームフィルタのサイズを示すフィルタサイズと、ノードの下層に配置される子ノードを識別する子ノード番号とが登録される。フィルタアドレスは、インデックスに対応するブルームフィルタの実体であるビット列の、記憶部１１０における先頭アドレスを示す。フィルタアドレスとフィルタサイズによって、インデックスに対応するブルームフィルタにアクセスできるようになる。また、ノード番号と子ノード番号との対応関係によって階層型ブルームフィルタ１１８の木構造が特定される。

図１２は、検索テーブルの構成例を示す図である。検索テーブルＴＢ−１，ＴＢ−２，・・・は、ハッシュキー管理データ１１４の中に登録される。検索テーブルＴＢ−１，ＴＢ−２，・・・のそれぞれには、最下層のノードを示すノード番号が割り当てられている。また、検索テーブルＴＢ−１，ＴＢ−２，・・・のそれぞれには、ハッシュキーと、ハッシュキーの計算元となったチャンクを示すチャンク番号とが登録される。検索テーブルＴＢ−１，ＴＢ−２，・・・のそれぞれにおいては、ハッシュキーをキーとし、チャンク番号をバリューとするキー・バリュー方式のデータベースが形成されている。

次に、図１３〜図１６を用いて、本実施の形態の階層型ブルームフィルタを用いた処理について説明する。
図１３は、検索テーブルにハッシュキーが追加される場合の処理例を示す図である。図１３では、検索テーブルＴＢ１−２に対してハッシュキーＨＫ３が追加される場合について例示する。

ハッシュキーＨＫ３の上位１バイトが「０ｘ０１」であったとすると、重複排除処理部１３０は、使用されるブルームフィルタを示すインデックスを「０ｘ０１」と判定する。そして、重複排除処理部１３０は、まず、検索テーブルＴＢ１−２を検索対象とする最下位ノードのビット列ＢＡ３−１−２から、インデックス「０ｘ０１」のブルームフィルタ（「ＢＦ１１」とする）を特定する。

重複排除処理部１３０は、ハッシュキーＨＫ３に対してｋ種類のハッシュ関数をそれぞれ用いた計算を行って、ｋ個のハッシュ値を算出する。重複排除処理部１３０は、算出したｋ個のハッシュ値を、特定したブルームフィルタＢＦ１１のビット数で除算し、それらの除算によるｋ個の余り値を、ビット値を「１」にするビット番号として特定する。重複排除処理部１３０は、ブルームフィルタＢＦ１１のビットのうち、特定したビット番号のビットを「１」に設定する。

次に、重複排除処理部１３０は、ビット列ＢＡ３−１−２の上位に配置されたビット列ＢＡ２−１を参照し、ビット列ＢＡ２−１からインデックス「０ｘ０１」のブルームフィルタ（「ＢＦ１２」とする）を特定する。重複排除処理部１３０は、ハッシュキーＨＫ３を基に算出したｋ個のハッシュ値を、特定したブルームフィルタＢＦ１２のビット数で除算し、それらの除算によるｋ個の余り値を、ビット値を「１」にするビット番号として特定する。重複排除処理部１３０は、ブルームフィルタＢＦ１２のビットのうち、特定したビット番号のビットを「１」に設定する。

次に、重複排除処理部１３０は、ビット列ＢＡ２−１の上位に配置されたビット列ＢＡ１を参照し、ビット列ＢＡ１からインデックス「０ｘ０１」のブルームフィルタ（「ＢＦ１３」とする）を特定する。重複排除処理部１３０は、ハッシュキーＨＫ３を基に算出したｋ個のハッシュ値を、特定したブルームフィルタＢＦ１３のビット数で除算し、それらの除算によるｋ個の余り値を、ビット値を「１」にするビット番号として特定する。重複排除処理部１３０は、ブルームフィルタＢＦ１３のビットのうち、特定したビット番号のビットを「１」に設定する。

このような処理により、階層型ブルームフィルタ１１８のブルームフィルタに対するビット設定が行われる。
図１４は、ハッシュキーの存否判定の処理例を示す図である。図１４では、ハッシュキーＨＫ４の存否判定が行われる場合について例示する。

ハッシュキーＨＫ４の上位１バイトが「０ｘ００」であったとすると、重複排除処理部１３０は、使用されるブルームフィルタを示すインデックスを「０ｘ００」と判定する。そして、重複排除処理部１３０は、まず、最上位ノードのビット列ＢＡ１からインデックス「０ｘ００」のブルームフィルタ（「ＢＦ２１」とする）を特定する。

重複排除処理部１３０は、ハッシュキーＨＫ４に対してｋ種類のハッシュ関数をそれぞれ用いた計算を行って、ｋ個のハッシュ値を算出する。重複排除処理部１３０は、算出したｋ個のハッシュ値を、特定したブルームフィルタＢＦ２１のビット数で除算し、それらの除算によるｋ個の余り値を、比較対象とするビット番号として特定する。

重複排除処理部１３０は、ブルームフィルタＢＦ２１から、特定したビット番号のビット値を取得して、それらがすべて「１」か否かを判定する。重複排除処理部１３０は、取得したビット値がすべて「１」の場合、ハッシュキーＨＫ４と同じ値のハッシュキーが検索テーブルＴＢ１−１，ＴＢ１−２，ＴＢ２−１，ＴＢ２−２のいずれかに存在すると判定する。一方、重複排除処理部１３０は、取得したビット値のうち１つでも「０」がある場合、ハッシュキーＨＫ４と同じ値のハッシュキーが検索テーブルＴＢ１−１，ＴＢ１−２，ＴＢ２−１，ＴＢ２−２のいずれにも存在しないと判定する。

図１４では例として、取得したビット値がすべて「１」であったとする。この場合、重複排除処理部１３０は、下層ノードのビット列ＢＡ２−１からインデックス「０ｘ００」のブルームフィルタ（「ＢＦ２２」とする）を特定する。これとともに、重複排除処理部１３０は、下層ノードのビット列ＢＡ２−２からインデックス「０ｘ００」のブルームフィルタ（「ＢＦ２３」とする）を特定する。そして、重複排除処理部１３０は、特定したブルームフィルタＢＦ２２，ＢＦ２３を用いて存否判定を行う。

具体的には、重複排除処理部１３０は、ハッシュキーＨＫ４を基に算出したｋ個のハッシュ値を、ブルームフィルタＢＦ２２のビット数で除算し、除算によるｋ個のハッシュ値を比較対象とするビット番号として特定する。そして、重複排除処理部１３０は、ブルームフィルタＢＦ２２から、特定したビット番号のビット値を取得して、それらがすべて「１」か否かを判定する。

これとともに、重複排除処理部１３０は、ハッシュキーＨＫ４を基に算出したｋ個のハッシュ値を、ブルームフィルタＢＦ２３のビット数で除算し、除算によるｋ個のハッシュ値を比較対象とするビット番号として特定する。そして、重複排除処理部１３０は、ブルームフィルタＢＦ２３から、特定したビット番号のビット値を取得して、それらがすべて「１」か否かを判定する。

図１４では例として、ブルームフィルタＢＦ２２から取得したビット値がすべて「１」であったとする。この場合、ハッシュキーＨＫ４と同じ値のハッシュキーが検索テーブルＴＢ１−１，ＴＢ１−２のいずれかに存在すると判定される。すると、重複排除処理部１３０は、下層ノードのビット列ＢＡ３−１−１からインデックス「０ｘ００」のブルームフィルタ（「ＢＦ２４」とする）を特定する。これとともに、重複排除処理部１３０は、下層ノードのビット列ＢＡ３−１−２からインデックス「０ｘ００」のブルームフィルタ（「ＢＦ２５」とする）を特定する。そして、重複排除処理部１３０は、特定したブルームフィルタＢＦ２４，ＢＦ２５を用いて、上記と同様の手順で存否判定を行う。

図１４では例として、ブルームフィルタＢＦ２５から取得したビット値がすべて「１」であったとする。この場合、ハッシュキーＨＫ４と同じ値のハッシュキーが検索テーブルＴＢ１−２に存在すると判定される。これにより、重複するハッシュキーの検索範囲が検索テーブルＴＢ１−２に絞り込まれる。

図１５は、チャンク削除時の第１の処理例を示す図である。図１５では、デフラグ処理の実行により、検索テーブルＴＢ１−１に登録されたハッシュキーのうち、先頭１バイトが「０ｘ０１」のハッシュキーがすべて削除されたとする。

この場合、重複排除処理部１３０は、削除対象のブルームフィルタを示すインデックスを「０ｘ０１」と判定する。そして、重複排除処理部１３０は、検索テーブルＴＢ１−１を検索対象とする最下位ノードのビット列ＢＡ３−１−１から、インデックス「０ｘ０１」のブルームフィルタ（「ＢＦ３１」とする）を削除する。これにより、階層型ブルームフィルタ１１８のビット数が削減される。

次に、重複排除処理部１３０は、ビット列ＢＡ３−１−１と同じ親ノード（上位ノードのビット列ＢＡ２−１）を持つ他のビット列ＢＡ３−１−２を参照し、インデックス「０ｘ０１」のブルームフィルタが存在するかを判定する。図１５の例では、ビット列３−１−２にはインデックス「０ｘ０１」のブルームフィルタＢＦ１１が存在しているので、重複排除処理部１３０はビット削減処理を終了する。

図１６は、チャンク削除時の第２の処理例を示す図である。図１６では、図１５のようにビット削減が行われた状態から、デフラグ処理の実行により、検索テーブルＴＢ１−２に登録されたハッシュキーのうち、先頭１バイトが「０ｘ０１」のハッシュキーがすべて削除されたとする。

この場合、重複排除処理部１３０は、削除対象のブルームフィルタを示すインデックスを「０ｘ０１」と判定する。そして、重複排除処理部１３０は、検索テーブルＴＢ１−２を検索対象とする最下位ノードのビット列ＢＡ３−１−２から、インデックス「０ｘ０１」のブルームフィルタＢＦ１１を削除する。これにより、階層型ブルームフィルタ１１８のビット数が削減される。

次に、重複排除処理部１３０は、ビット列ＢＡ３−１−２と同じ親ノード（上位ノードのビット列ＢＡ２−１）を持つ他のビット列ＢＡ３−１−１を参照し、インデックス「０ｘ０１」のブルームフィルタが存在するかを判定する。図１６の例では、ビット列ＢＡ３−１−１においてはインデックス「０ｘ０１」のブルームフィルタＢＦ３１が削除済みである。この場合、重複排除処理部１３０は、上位ノードのビット列ＢＡ２−１から、インデックス「０ｘ０１」のブルームフィルタＢＦ１２を削除する。このようにして、削除可能なブルームフィルタの位置が下位階層から上位階層に伝播され、階層型ブルームフィルタ１１８のビット数を複数階層のブルームフィルタにわたって削除できるようになる。

また、ブルームフィルタが削除されても、偽陽率は変化しない。例えば、図１５のようにブルームフィルタＢＦ３１が削除された後に、上位１バイトが「０ｘ０１」のハッシュキー（「入力ハッシュキー」と記載する）の存否判定が行われるとする。そして、上位ノードでの判定結果に基づいて、ビット列ＢＡ３−１−１を用いた存否判定が行われるとする。この場合、重複排除処理部１３０は、ビット列ＢＡ３−１−１にインデックス「０ｘ０１」のブルームフィルタＢＦ３１が存在しないことから、検索テーブルＴＢ１−１には入力ハッシュキーと同じ値のハッシュキーは存在しないと判定する。

また、この状態で、上位１バイトが「０ｘ０１」以外の入力ハッシュキーが入力されて、ビット列ＢＡ３−１−１を用いた存否判定が行われる場合でも、ブルームフィルタＢＦ３１の削除とは関係なく存否判定が行われる。したがって、ブルームフィルタＢＦ３１が削除されたビット列ＢＡ３−１−１のノードを含む、階層型ブルームフィルタ１１８のすべてのノードでの存否判定でも、偽陽率はブルームフィルタＢＦ３１の削除前から変化しない。

また、例えば、図１６のようにブルームフィルタＢＦ１１，ＢＦ１２が削除された後に、上位１バイトが「０ｘ０１」の入力ハッシュキーの存否判定が行われるとする。そして、上位ノードでの判定結果に基づいて、ビット列ＢＡ２−１を用いた存否判定が行われるとする。この場合、重複排除処理部１３０は、ビット列ＢＡ２−１にインデックス「０ｘ０１」のブルームフィルタＢＦ１２が存在しないことから、検索テーブルＴＢ１−１，ＴＢ１−２のいずれにも入力ハッシュキーと同じ値のハッシュキーは存在しないと判定する。

また、この状態で、上位１バイトが「０ｘ０１」以外の入力ハッシュキーが入力されて、ビット列ＢＡ２−１を用いた存否判定が行われる場合でも、ブルームフィルタＢＦ１２の削除とは関係なく存否判定が行われる。したがって、ブルームフィルタＢＦ１２が削除されたビット列ＢＡ２−１のノードを含む、階層型ブルームフィルタ１１８のすべてのノードでの存否判定でも、偽陽率はブルームフィルタＢＦ１２の削除前から変化しない。

このように、各ノードの一部のビット列を形成するブルームフィルタが削除されても、階層型ブルームフィルタ１１８のいずれのノードでの存否判定における偽陽率は変化しない。このため、階層型ブルームフィルタ１１８全体での偽陽率も変化しない。したがって、偽陽率を増加させずに、階層型ブルームフィルタ１１８のビット数を複数階層のブルームフィルタにわたって削除できるようになる。

なお、存否判定に使用するブルームフィルタのインデックスを決定するための分類条件としては、上記のようにハッシュキーの上位１バイトの値を用いる方法に限定されない。例えば、ハッシュキーまたは対応するチャンクの値または属性に応じた様々な分類条件を用いることができる。例えば、上位１バイトに限らず、ハッシュキーのビット列における所定範囲（下位１バイトなど）のビット値を、分類条件として用いることができる。この場合、インデックスの値を分類条件として用いたビット値の値と共通にすることができ、ハッシュキーに基づくインデックスの特定処理が容易になる。

また、例えば、ハッシュキーの算出元のチャンクのビット列における所定範囲のビット値が、分類条件として用いられてもよい。さらに、ハッシュキーまたはチャンクの属性を用いた例としては、ＮＡＳクライアント２１０から複数の論理記憶領域に属するファイルの書き込みが要求される場合、分類条件として、チャンクの分割元ファイルが属する論理記憶領域の識別番号が用いられてもよい。

次に、クラウドストレージゲートウェイ１００の処理について、フローチャートを用いて説明する。
図１７、図１８は、ファイル書き込み処理の手順を示すフローチャートの例である。

［ステップＳ１１］ファイル入出力部１２０は、ＮＡＳクライアント２１０からファイルの書き込み要求およびファイルのデータを受信する。重複排除処理部１３０の重複判定部１３１は、書き込みが要求されたファイルのデータを取得し、ディレクトリテーブル１１１に、そのファイルのディレクトリ情報を示すレコードを追加する。このとき、ファイルにファイル番号が付与される。また、重複判定部１３１は、ファイルのデータを可変長のチャンクに分割する。

［ステップＳ１２］重複判定部１３１は、ファイルの先頭側から順に、処理対象のチャンクを１つ選択する。また、重複判定部１３１は、チャンクマップテーブル１１２にレコードを追加し、このレコードに次のような情報を登録する。ファイル番号の項目には、書き込みが要求されたファイルのファイル番号が登録され、オフセットおよびサイズの項目には、処理対象のチャンクについての情報が登録される。

［ステップＳ１３］重複判定部１３１は、重複判定処理を実行する。この重複判定処理では、ステップＳ１２で選択されたチャンクと同じ内容のチャンクがすでに格納済みか（重複しているか）が判定される。なお、重複判定処理の詳細については、後の図１９において説明する。

［ステップＳ１４］重複判定部１３１は、ステップＳ１３の重複判定処理における判定結果を取得する。重複判定部１３１は、重複判定処理において、ステップＳ１２で選択されたチャンクと同じ内容のチャンクがすでに格納済み（重複している）と判定された場合、処理をステップＳ１５に進め、格納済みでない（重複していない）と判定された場合、処理を図１８のステップＳ２１に進める。

［ステップＳ１５］重複判定部１３１は、ステップＳ１３の重複判定処理で重複すると判定された格納済みチャンクのチャンク番号を、ステップＳ１２でチャンクマップテーブル１１２に追加したレコードに登録する。

［ステップＳ１６］重複判定部１３１は、重複判定部１３１は、チャンク管理テーブル１１３のレコードのうち、ステップＳ１６でレコードに追加したチャンク番号を含むレコードを参照し、このレコードに登録されている参照数をカウントアップする。

［ステップＳ１７］重複判定部１３１は、ステップＳ１１で分割されたすべてのチャンクについて処理済みかを判定する。重複判定部１３１は、未処理のチャンクがある場合は処理をステップＳ１２に進め、未処理のチャンクを先頭側から１つ選択して処理を継続する。一方、重複判定部１３１は、すべてのチャンクを処理済みの場合、ファイル書き込みが完了したことをファイル入出力部１２０に通知する。通知を受けたファイル入出力部１２０は、ＮＡＳクライアント２１０に対してファイル書き込みの完了を示す応答情報を送信する。

以下、図１８を用いて説明を続ける。
［ステップＳ２１］重複判定部１３１は、ステップＳ１２で選択されたチャンクについての新たなチャンク番号を算出する。このチャンク番号は、チャンク管理テーブル１１３に登録されているチャンク番号の最大値に「１」を加算した値とされる。重複判定部１３１は、チャンク管理テーブル１１３に新たなレコードを追加し、このレコードに対し、算出された新たなチャンク番号と、チャンクのサイズと、参照数「１」とを登録する。

また、重複判定部１３１は、ステップＳ１２で選択されたチャンクのデータをデータキャッシュ１１７に格納する。このとき、データの格納位置とチャンク番号との対応付けが行われる。

［ステップＳ２２］重複判定部１３１は、ステップＳ２１で算出された新たなチャンク番号を、ステップＳ１２でチャンクマップテーブル１１２に追加したレコードに登録する。

［ステップＳ２３］チャンク管理部１３２は、クラウドストレージ２４０に対して未送信のチャンク数が所定の閾値（「ＴＨ」とする）に達したかを判定する。未送信のチャンク数とは、アクティブ状態のオブジェクトに含まれるチャンクの数である。また、閾値ＴＨは、例えば１００００個程度に設定される。チャンク管理部１３２は、未送信のチャンク数が閾値ＴＨに達した場合、ステップＳ２４に処理を進め、未送信のチャンク数が閾値ＴＨに達していない場合、ステップＳ２６に処理を進める。

［ステップＳ２４］チャンク管理部１３２は、未送信のＴＨ個のチャンクを結合して生成したオブジェクトをクラウドストレージ２４０にアップロードするように、クラウド通信部１４０に依頼する。これにより、当該オブジェクトは非アクティブの状態となる。クラウド通信部１４０は、ＰＵＴコマンドによりオブジェクトをクラウドストレージ２４０にアップロードする。

［ステップＳ２５］チャンク管理部１３２は、ステップＳ１２で選択されたチャンクに新たなオブジェクト番号を割り当てる。このオブジェクト番号は、ステップＳ２４でアップロードされたオブジェクトのオブジェクト番号に「１」を加算した値とされる。チャンク管理部１３２は、ステップＳ２１でチャンク管理テーブル１１３に追加されたレコードに、新たなオブジェクト番号と、オフセット「０」とを登録する。新たなオブジェクト番号に対応するオブジェクトは、アクティブ状態となる。また、チャンク管理部１３２は、オブジェクト管理テーブル１１５に新たなレコードを追加し、このレコードに新たなオブジェクト番号を登録する。

［ステップＳ２６］チャンク管理部１３２は、ステップＳ１２で選択されたチャンクに、既存の最大のオブジェクト番号を割り当てる。このオブジェクト番号は、ステップＳ２３で判定の対象となった未送信のチャンクに割り当てられているオブジェクト番号である。したがって、ステップＳ２６では、これらのチャンクに割り当てられている未送信のオブジェクト（アクティブ状態のオブジェクト）に対して、ステップＳ１２で選択されたチャンクがさらに割り当てられる。

チャンク管理部１３２は、ステップＳ２１でチャンク管理テーブル１１３に追加されたレコードに、割り当てられたオブジェクト番号と、対応するオブジェクトにおけるオフセットとを登録する。登録されるオフセットは、１つ前のレコードに登録されたオフセットとサイズとから算出される。

［ステップＳ２７］チャンク管理部１３２は、オブジェクト管理テーブル１１５に対して、有効チャンク数の登録または更新を行う。ステップＳ２５が実行された場合、チャンク管理部１３２は、ステップＳ２５でオブジェクト管理テーブル１１５に追加したレコードに、有効チャンク数としてＴＨを登録する。一方、ステップＳ２６が実行された場合、チャンク管理部１３２は、オブジェクト管理テーブル１１５からステップＳ２６で割り当てられたオブジェクト番号を含むレコードを特定し、特定したレコードに登録された有効チャンク数にＴＨを加算する。

［ステップＳ２８］チャンク管理部１３２は、ブルームフィルタの更新処理を実行する。この処理では、階層型ブルームフィルタ１１８に含まれるブルームフィルタのうち、新規に登録されたチャンクに関連するブルームフィルタについてのビット設定が行われる。なお、ブルームフィルタの更新処理の詳細については、後の図２０において説明する。

以上のステップＳ２８の処理が完了すると、処理が図１７のステップＳ１７に進められる。
図１９は、重複判定処理の手順を示すフローチャートの例である。この図１９の処理は、図１７のステップＳ１３の処理に対応する。

［ステップＳ３１］重複判定部１３１は、図１７のステップＳ１２で選択されたチャンクに基づいてハッシュキーを算出する。
［ステップＳ３２］ブルームフィルタ処理部１３１ａは、算出されたハッシュキーに基づいて、重複判定に使用するブルームフィルタのインデックスを特定する。例えば、図１３〜図１６の例のように、ハッシュキーの上位１バイトの値がインデックスの値として特定される。

［ステップＳ３３］ブルームフィルタ処理部１３１ａは、ブルームフィルタデータ１１６に基づき、階層型ブルームフィルタ１１８における最上位のノードを処理対象として選択する。

［ステップＳ３４］ブルームフィルタ処理部１３１ａは、直近に実行されたステップＳ３３またはステップＳ４０で選択されたノードのビット列を特定する。ステップＳ４０の後では複数のノードが選択されるので、各ノードに対応するビット列が特定される。ブルームフィルタ処理部１３１ａは、特定された各ビット列から、ステップＳ３２で特定されたインデックスに対応するブルームフィルタを特定する。このとき、記憶部１１０における該当するブルームフィルタのビット列範囲は、フィルタ管理テーブル１１６ａに基づいて特定される。

［ステップＳ３５］ブルームフィルタ処理部１３１ａは、ステップＳ３４で特定された各ブルームフィルタについて、比較対象とするビット番号を特定する。例えば、ブルームフィルタ処理部１３１ａは、ステップＳ３１で算出されたハッシュキーに対してｋ種類のハッシュ関数をそれぞれ用いた計算を行って、ｋ個のハッシュ値を算出する。ブルームフィルタ処理部１３１ａは、ブルームフィルタごとに、算出したｋ個のハッシュ値をブルームフィルタのビット数で除算し、それらの除算によるｋ個の余り値を、比較対象とするビット番号として特定する。

［ステップＳ３６］ブルームフィルタ処理部１３１ａは、ステップＳ３４で特定された各ブルームフィルタを用いて、ステップＳ３１で算出されたハッシュキーの存否判定を行う。例えば、選択されたノードのビット列に該当するブルームフィルタが存在しない場合、そのブルームフィルタの配下にある検索テーブルには同じ値のハッシュキーが存在しないと判定される。また、該当するブルームフィルタが存在する場合、ステップＳ３５で特定された各ビット番号のビット値がすべて「１」であれば、そのブルームフィルタの配下にある検索テーブルには同じ値のハッシュキーが存在すると判定される。一方、該当するブルームフィルタが存在する場合、ステップＳ３５で特定された各ビット番号のビット値のうち１つでも「０」であれば、そのブルームフィルタの配下にある検索テーブルには同じ値のハッシュキーが存在しないと判定される。

［ステップＳ３７］ブルームフィルタ処理部１３１ａは、ステップＳ３６の存否判定で、いずれか１つのブルームフィルタに基づいてハッシュキーが存在すると判定された場合、処理をステップＳ３８に進める。一方、ブルームフィルタ処理部１３１ａは、ステップＳ３６におけるいずれのブルームフィルタを用いた存否判定でもハッシュキーが存在しないと判定された場合、重複判定処理を終了して、処理を図１７のステップＳ１４に進める。後者の場合、ステップＳ１２で選択されたチャンクと同じ値のチャンクは、格納済みでない（重複していない）と判定される。

［ステップＳ３８］ブルームフィルタ処理部１３１ａは、現在処理対象のノードが階層型ブルームフィルタ１１８における最下層のノードかを判定する。ブルームフィルタ処理部１３１ａは、最下層のノードの場合、処理をステップＳ３９に進め、最下層のノードでない場合、処理をステップＳ４０に進める。

［ステップＳ３９］二分木探索処理部１３１ｂは、ステップＳ３６でハッシュキーが存在すると判定されたブルームフィルタに対応付けられている検索テーブルを特定する。二分木探索処理部１３１ｂは、特定された検索テーブルに登録されたハッシュキーのうち、ステップＳ３１で算出されたハッシュキーが合致している分類条件に合致しているハッシュキーを検索対象として、算出されたハッシュキーと同じ値のハッシュキーを二分木探索により検索する。すなわち、ステップＳ３８までの処理では、階層型ブルームフィルタ１１８を用いた処理により、特定された検索テーブルの範囲まで検索範囲が絞り込まれ、ステップＳ３９では、絞り込まれた検索範囲に対して二分木探索によって検索が行われる。

ステップＳ３９での検索により、算出されたハッシュキーと同じ値のハッシュキーが特定された場合、特定されたハッシュキーに対応するチャンクのチャンク番号が出力され、ステップＳ１２で選択されたチャンクと同じ値のチャンクが格納済みである（重複している）と判定される。一方、算出されたハッシュキーと同じ値のハッシュキーが特定されなかった場合、ステップＳ１２で選択されたチャンクと同じ値のチャンクが格納済みでない（重複していない）と判定される。ステップＳ３９の完了により重複排除処理が終了し、処理が図１７のステップＳ１４に進められる。

［ステップＳ４０］ブルームフィルタ処理部１３１ａは、ステップＳ３６でハッシュキーが存在すると判定されたブルームフィルタが属するノードの下層に配置されたノードを処理対象としてすべて選択し、処理をステップＳ３４に進める。

図２０は、ブルームフィルタの更新処理の手順を示すフローチャートの例である。この図２０の処理は、図１８のステップＳ２８の処理に対応する。
［ステップＳ４１］チャンク管理部１３２は、図１９のステップＳ３１で算出されたハッシュキーの登録先となる検索テーブルを特定し、特定された検索テーブルにハッシュキーを登録する。

［ステップＳ４２］チャンク管理部１３２は、階層型ブルームフィルタ１１８における最下層のノードの中から、ハッシュキーの登録先の検索テーブルに対応付けられたノードを処理対象として選択する。

［ステップＳ４３］チャンク管理部１３２は、直近のステップＳ４２またはステップＳ４８で処理対象として選択されたノードのビット列を特定し、特定されたビット列に使用対象のブルームフィルタが存在するかを判定する。使用対象のブルームフィルタとは、検索テーブルに登録したハッシュキーから特定されるインデックスに対応するブルームフィルタである。また、使用対象のブルームフィルタの存否は、フィルタ管理テーブル１１６ａにおける処理対象のノードに対応するレコードにおいて、当該インデックスに対応するフィルタアドレスが登録されているか否かによって判定される。チャンク管理部１３２は、使用対象のブルームフィルタが存在する場合、処理をステップＳ４５に進め、存在しない場合、処理をステップＳ４４に進める。

［ステップＳ４４］チャンク管理部１３２は、使用対象のブルームフィルタを再登録する。この処理では、ブルームフィルタを示すビット列が記憶部１１０に記録され、そのビット列の記憶領域の先頭アドレスがフィルタ管理テーブル１１６ａの該当する項目に登録される。また、再登録されたブルームフィルタの各ビットのビット値は初期値「０」とされる。

［ステップＳ４５］チャンク管理部１３２は、使用対象のブルームフィルタのビットのうち、「１」に設定するビットのビット番号を特定する。この処理では、検索テーブルに登録されたハッシュキーに対してｋ種類のハッシュ関数をそれぞれ用いた計算を行うことで、ｋ個のハッシュ値が算出される。そして、算出されたｋ個のハッシュ値が使用対象のブルームフィルタのビット数で除算され、それらの除算によるｋ個の余り値が「１」に設定するビット番号として特定される。

［ステップＳ４６］チャンク管理部１３２は、使用対象のブルームフィルタのビットのうち、特定されたビット番号のビットの値を「１」に設定する。
［ステップＳ４７］チャンク管理部１３２は、現在処理対象のノードが階層型ブルームフィルタ１１８における最上層のノードかを判定する。チャンク管理部１３２は、最上層のノードでない場合、処理をステップＳ４８に進め、最上層のノードである場合、ブルームフィルタの更新処理を終了して、処理を図１７のステップＳ１７に進める。

［ステップＳ４８］チャンク管理部１３２は、使用対象のブルームフィルタが属するノードに対する上層のノードを処理対象として選択する。この後、処理はステップＳ４３に進められる。

図２１は、ファイル削除処理の手順を示すフローチャートの例である。
［ステップＳ５１］ファイル入出力部１２０は、ＮＡＳクライアント２１０からファイルの削除要求を受信する。重複排除処理部１３０のチャンク管理部１３２は、削除が要求されたファイルのファイル番号をディレクトリテーブル１１１に基づいて特定する。

［ステップＳ５２］チャンク管理部１３２は、ステップＳ５１で特定されたファイル番号が登録されたレコードをチャンクマップテーブル１１２から特定して、特定されたレコードの１つを選択する。これにより、削除が要求されたファイルから生成されたチャンクの１つが選択される。

［ステップＳ５３］チャンク管理部１３２は、ステップＳ５２で選択されたレコードからチャンク番号を取得する。チャンク管理部１３２は、チャンク管理テーブル１１３において、取得されたチャンク番号に対応付けられた参照数を「１」だけカウントダウンする。

［ステップＳ５４］チャンク管理部１３２は、カウントダウン後の参照数が「０」かを判定する。重複判定部１３１は、参照数が「０」の場合、処理をステップＳ５５に進め、参照数が「０」でない場合（「１」以上の場合）、処理をステップＳ６０に進める。

［ステップＳ５５］このケースでは、ステップＳ５２で選択されたチャンクが無効になっている。チャンク管理部１３２は、チャンク管理テーブル１１３から、ステップＳ５３で取得されたチャンク番号に対応付けられたオブジェクト番号を特定する。チャンク管理部１３２は、オブジェクト管理テーブル１１５を参照して、特定されたオブジェクト番号に対応付けられた無効チャンク数に「１」を加算し、当該オブジェクト番号に対応付けられた有効チャンク数から「１」を減算する。

［ステップＳ５６］チャンク管理部１３２は、ステップＳ５５での有効チャンク数の減算により、オブジェクト管理テーブル１１５の該当レコードに登録された有効チャンク数が「０」になったかを判定する。チャンク管理部１３２は、有効チャンク数が「０」の場合、処理をステップＳ５７に進め、有効チャンク数が「０」でない場合（「１」以上の場合）、処理をステップＳ５８に進める。

［ステップＳ５７］このケースでは、ステップＳ５２で選択されたチャンクが属するオブジェクトについて、オブジェクト内の全チャンクが無効になっている。このため、このオブジェクトが不要である。そこで、チャンク管理部１３２は、このオブジェクトを削除するようにクラウド通信部１４０に依頼する。クラウド通信部１４０は、ＤＥＬＥＴＥコマンドによりクラウドストレージ２４０に対してオブジェクトの削除を要求する。これにより、クラウドストレージ２４０からオブジェクトが削除される。

また、チャンク管理部１３２は、削除されたオブジェクト内の各チャンクに基づくハッシュキーが登録されている検索テーブルを特定する。チャンク管理部１３２は、特定された検索テーブルから、削除されたオブジェクト内の各チャンクに基づくハッシュキーを削除する。検索テーブルからは、該当するハッシュキーが含まれるレコードが削除される。

［ステップＳ５８］チャンク管理部１３２は、ステップＳ５２で選択されたチャンクのチャンク番号が登録されている検索テーブルを特定する。チャンク管理部１３２は、特定された検索テーブルに登録されているチャンク番号から、これらのチャンク番号に対応するチャンクが属するオブジェクトをすべて特定する。これにより、無効チャンクが発生したオブジェクトを含む、同一の検索テーブルに対応付けられたオブジェクト群が特定される。

チャンク管理部１３２は、オブジェクト管理テーブル１１５を参照して、特定されたオブジェクト群に含まれる全チャンク数（有効チャンク数と無効チャンク数との合計数）に対する無効チャンク数の割合を算出する。チャンク管理部１３２は、無効チャンク数の割合が所定の閾値を超えた場合、処理をステップＳ５９に進め、閾値以下である場合、処理をステップＳ６０に進める。

［ステップＳ５９］ステップＳ５８で無効チャンク数の割合が閾値を超えた場合、ステップＳ５２で選択されたチャンクが属するオブジェクト群について、デフラグによるデータ削減効果が高いと判断される。この場合、チャンク管理部１３２は、このオブジェクト群をデフラグ対象に設定する。

なお、本実施の形態では、ステップＳ５８，Ｓ５９に示すように、１つの検索テーブルに対応するオブジェクト群を単位としてデフラグの要否が判定されるが、デフラグの要否の判定単位はこの例に限定されない。例えば、オブジェクト単位でデフラグの要否が判定されてもよい。この場合、ステップＳ５６で「Ｎｏ」と判定されたときに、該当オブジェクトがデフラグ対象に設定される。また、例えば、検索テーブルに対応するオブジェクト群に含まれるチャンクのうち、対応するチャンクキーが合致する分類条件が、ステップＳ５２で選択されたチャンクに基づくチャンクキーが合致する分類条件と同じであるチャンクの集合を単位として、デフラグの要否が判定されてもよい。

［ステップＳ６０］チャンク管理部１３２は、ステップＳ５２で特定された全レコードに対応するチャンク（すなわち、削除が要求されたファイルから生成されたすべてのチャンク）について処理済みかを判定する。チャンク管理部１３２は、未処理のチャンクがある場合は処理をステップＳ５２に進め、未処理のチャンクを１つ選択して処理を継続する。一方、チャンク管理部１３２は、すべてのチャンクを処理済みの場合、ファイル削除が完了したことをファイル入出力部１２０に通知する。通知を受けたファイル入出力部１２０は、ＮＡＳクライアント２１０に対してファイル削除の完了を示す応答情報を送信する。

図２２、図２３は、デフラグ処理の手順を示すフローチャートの例である。
［ステップＳ６１］重複排除処理部１３０のデフラグ処理部１３３は、図２１のステップＳ５９でデフラグ対象に設定されたオブジェクト群を１つ選択する。デフラグ処理部１３３は、選択されたオブジェクト群に属するすべてのオブジェクトを取得するように、クラウド通信部１４０に依頼する。クラウド通信部１４０は、ＧＥＴコマンドにより該当する全オブジェクトをクラウドストレージ２４０からダウンロードし、デフラグ処理部１３３に受け渡す。

なお、ステップＳ６１では、オブジェクト群に含まれるオブジェクトのうち、オブジェクト内の全チャンク数に対する無効チャンク数の割合が所定値を超えているオブジェクトだけがダウンロードされてもよい。

［ステップＳ６２］デフラグ処理部１３３は、取得した各オブジェクトについて、オブジェクトに含まれる有効チャンクのみを結合してオブジェクトを再構築する。デフラグ処理部１３３は、再構築された各オブジェクトのアップロードをクラウド通信部１４０に依頼する。クラウド通信部１４０は、ＰＵＴコマンドにより各オブジェクトをクラウドストレージ２４０にアップロードする。実際には、ステップＳ６１でダウンロードされた元のオブジェクトが削除された後、再構築されたオブジェクトがアップロードされる。

［ステップＳ６３］デフラグ処理部１３３は、オブジェクト管理テーブル１１５のレコードのうち、ステップＳ６１で取得した各オブジェクトに対応するレコードに登録された無効チャンク数を「０」にリセットする。

［ステップＳ６４］デフラグ処理部１３３は、ステップＳ６１で取得した各オブジェクト内のチャンクに基づくハッシュキーが登録されている検索テーブルを、これ以後の処理対象として選択する。デフラグ処理部１３３は、特定された検索テーブルから、無効チャンクに基づくハッシュキー（ステップＳ６２でオブジェクトから除去されたチャンクに基づくハッシュキー）が登録されているレコードを削除する。

以下、図２３を用いて説明を続ける。図２３に示す処理では、ステップＳ６４で選択された検索テーブルに対応するブルームフィルタのビット削減処理が実行される。
［ステップＳ７１］デフラグ処理部１３３は、インデックスを１つ選択する。

［ステップＳ７２］デフラグ処理部１３３は、処理対象の検索テーブルに、選択されたインデックスによって分類されるハッシュキーがあるかを判定する。例えば、インデックス「０ｘ００」が選択された場合、先頭１バイトが「０ｘ００」のハッシュキーの有無が判定される。デフラグ処理部１３３は、該当するハッシュキーが１つでもある場合、処理をステップＳ７８に進め、該当するハッシュキーが１つもない場合、処理をステップＳ７３に進める。

［ステップＳ７３］デフラグ処理部１３３は、階層型ブルームフィルタ１１８の最下層ノードのうち、処理対象の検索テーブルに対応付けられたノードを選択する。デフラグ処理部１３３は、選択されたノードのビット列の中から、ステップＳ７１で選択されたインデックスに対応するブルームフィルタを特定する。

［ステップＳ７４］デフラグ処理部１３３は、直近のステップＳ７３またはステップＳ７７で特定されたブルームフィルタを削除する。具体的には、デフラグ処理部１３３は、フィルタ管理テーブル１１６ａから該当ブルームフィルタのフィルタアドレスを削除し、記憶部１１０における該当ブルームフィルタの記憶領域を解放する。

［ステップＳ７５］デフラグ処理部１３３は、直近のステップＳ７３またはステップＳ７７で特定されたブルームフィルタが属するノードが、階層型ブルームフィルタ１１８の最上層ノードかを判定する。デフラグ処理部１３３は、最上層ノードの場合、処理をステップＳ７８に進め、最上層ノードでない場合、処理をステップＳ７６に進める。

［ステップＳ７６］デフラグ処理部１３３は、直近のステップＳ７３またはステップＳ７７で特定されたブルームフィルタが属するノードと同じ階層の他のノードをすべて選択する。デフラグ処理部１３３は、選択した他のノードの各ビット列に、ステップＳ７１で選択されたインデックスに対応するブルームフィルタがあるかを判定する。この判定では、フィルタ管理テーブル１１６ａにおける該当ブルームフィルタに対応するフィルタアドレスの項目にアドレスが登録されている場合、該当ブルームフィルタがあると判定される。一方、この項目にアドレスが登録されていない場合（ＮＵＬＬが登録されている場合）、該当ブルームフィルタがないと判定される。

デフラグ処理部１３３は、他のすべてのノードのビット列に該当ブルームフィルタがない場合、処理をステップＳ７７に進める。この場合、これらのノードの上層ノードにおける同じインデックスのブルームフィルタを削除できると判定される。一方、デフラグ処理部１３３は、他の少なくとも１つのノードのビット列に該当ブルームフィルタがある場合、上層ノードのブルームフィルタを削除できないと判定して、処理をステップＳ７８に進める。

［ステップＳ７７］デフラグ処理部１３３は、ステップＳ７４でブルームフィルタが削除されたノードに対する上層ノードを選択する。デフラグ処理部１３３は、選択された上層ノードのビット列の中から、ステップＳ７１で選択されたインデックスに対応するブルームフィルタを特定する。この後、処理がステップＳ７４に進められ、特定されたブルームフィルタが削除される。

［ステップＳ７８］デフラグ処理部１３３は、すべてのインデックスを処理済みかを判定する。デフラグ処理部１３３は、未処理のインデックスがある場合、処理をステップＳ７１に進め、未処理のインデックスの中から１つを選択して処理を継続する。一方、デフラグ処理部１３３は、すべてのインデックスを処理済みの場合、デフラグ処理を終了する。

次に、第２の実施の形態に係るクラウドストレージゲートウェイ１００の処理の一部を変形した変形例について説明する。
＜第１の変形例＞
上記の第２の実施の形態では、図１１に示したフィルタ管理テーブル１１６ａにより、各ノードのビット列におけるブルームごとに記憶部１１０における格納先アドレスが管理されていた。このため、重複排除処理部１３０は、フィルタ管理テーブル１１６ａからフィルタアドレスとフィルタサイズとを読み込むことで、所望のノードにおける所望のインデックスに対応するブルームフィルタにアクセスすることが可能になっていた。しかし、他の方法として、各ノードのビット列を常に連続した記憶領域に格納し、ビット列の先頭アドレスからのオフセット量によって所望のブルームフィルタにアクセスできるようにしてもよい。以下の図２４には、この場合のフィルタ管理テーブルについて例示する。

図２４は、第１の変形例におけるフィルタ管理テーブルの構成例を示す図である。図２４に示すフィルタ管理テーブル１１６ａ１は、インデックスごとのブルームフィルタのアドレスを保持する代わりに、ビット列の先頭アドレスをフィルタアドレスの項目に保持する点で、図１１のフィルタ管理テーブル１１６ａとは異なる。

さらに、フィルタ管理テーブル１１６ａ１は、各レコードにビットマップを保持する。ビットマップは、各インデックスに対応するビットを備え、各ビットの値は、インデックスに対応するブルームフィルタが存在するか否かを示す。ここでは例として、ブルームフィルタが存在する場合はビット値「１」が設定され、存在しない（削除された場合）はビット値「０」が設定される。したがって、初期状態ではビットマップの各ビット値は「１」に設定される。

このフィルタ管理テーブル１１６ａ１を用いた場合、重複排除処理部１３０は、ノードに対応するレコードを特定し、レコード内のフィルタアドレス、フィルタサイズおよびビットマップに基づいて、所望のブルームフィルタにアクセスできる。例えば、ビット列内のいずれのブルームフィルタも削除されていない状態で、インデックス「０ｘ０３」のブルームフィルタにアクセスする場合、重複排除処理部１３０は、フィルタアドレスの項目に登録された先頭アドレスから、フィルタサイズの３倍のオフセット位置を、該当ブルームフィルタの先頭アドレスと特定できる。

また、図２３のステップＳ７４でビット列内のブルームフィルタが削除されたときには、残りのビット列がまとめられて記憶部１１０内の別の記憶領域に格納し直され、それに伴ってフィルタ管理テーブル１１６ａ１のフィルタアドレスも更新される。また、ビットマップにおいては、削除されたブルームフィルタのインデックスに対応するビット値が「０」に更新される。

例えば、ビット列内のインデックス「０ｘ０１」のブルームフィルタが削除された状態で、インデックス「０ｘ０３」のブルームフィルタにアクセスする場合、重複排除処理部１３０は、対応するビットマップからインデックス「０ｘ０１」のブルームフィルタが削除されていることを認識する。そして、重複排除処理部１３０は、フィルタアドレスの項目に登録された先頭アドレスから、フィルタサイズの２倍のオフセット位置を、該当ブルームフィルタの先頭アドレスと特定できる。

さらに、ビットマップは、図２３のステップＳ７６で、同じ階層の他のビット列に、削除したブルームフィルタと同じインデックスのブルームフィルタがあるかを判定するために用いることもできる。すなわち、ビットマップにおいて、該当するインデックスに対応するビット値が「１」の場合はブルームフィルタがあると判定され、「０」の場合はブルームフィルタがない（削除されている）と判定される。

以上の第１の変形例では、第２の実施の形態と比較して、各ブルームフィルタの格納位置を管理するための管理データ（フィルタ管理テーブル）のデータサイズを縮小でき、記憶部１１０の記憶領域の利用効率を高めることができる。その一方、ブルームフィルタが削除されたときに残りのビット列をまとめて別の記憶領域に格納し直すので、ブルームフィルタ削除時における処理負荷は第２の実施の形態と比較して高くなる。

＜第２の変形例＞
階層型ブルームフィルタ１１８の構成を、次の図２５のように変形することもできる。
図２５は、第２の変形例における階層型ブルームフィルタの内部構成例を示す図である。図２５に示す階層型ブルームフィルタ１１８ａは、最下層ノードのビット列ＢＡ３−１−１，ＢＡ３−１−２，ＢＡ３−２−１，ＢＡ３−２−２が、それぞれ一体のブルームフィルタとして使用される点で、図１０に示した階層型ブルームフィルタ１１８の構成と異なる。

図２５の構成では、最下層ノードのビット列の各ビット値は、対応する検索テーブルに登録されたすべてのハッシュキーを用いて設定される。例えば、ビット列ＢＡ３−１−１のビット列は、検索テーブルＴＢ１−１に登録されたすべてのハッシュキーを用いて、ｋ種類のハッシュ関数を用いた計算を行うことで設定される。一方、下位から２番目以上のノードのビット列は、第２の実施の形態と同様にインデックスごとに分割されたブルームフィルタとして利用される。

図２５の構成では、ある検索テーブルからハッシュキーが削除された場合、対応する最下層のノードのブルームフィルタが再作成される。例えば、検索テーブルＴＢ１−１からある個数のハッシュキーが削除された場合、対応するビット列ＢＡ３−１−１については、削除されたハッシュキーの個数に応じてビット数が削減され、全ビット値が「０」にリセットされる。そして、検索テーブルＴＢ１−１に残っているすべてのハッシュキーを用いて、ビット数削減後のビット列ＢＡ３−１−１に対するビット値の設定があらためて行われる。

ただし、この方法では、重複排除処理部１３０は、下位から２番目のノードについてブルームフィルタを削減できるかを判定する際に、最下位の各ノードに該当ブルームフィルタがあるか否かを確認できない。そこで、第２の変形例では、フィルタ管理テーブルのレコードのうち少なくとも最下位の各ノードに対応するレコードに、図２４に示したビットマップを登録しておく。そして、重複排除処理部１３０は、最下位ノードの１つに対応する検索テーブルにおいて、あるインデックスに対応するハッシュキーがすべて削除された場合、該当ノードに対応するビットマップのビットのうち、そのインデックスに対応するビットの値を「０」に更新する。これにより、重複排除処理部１３０は、図２３のステップＳ７６で、最下位階層の他のビット列に上記インデックスのブルームフィルタがあるかを、ビットマップに基づいて判定することができる。

ここで、第２の実施の形態では、インデックス数や、検索テーブルに格納される同じインデックスに対応するハッシュキーの数に依存して、最下位ノードのビット列についてのビット数削減率が変化する。一方、第２の変形例では、インデックスに関係なく、検索テーブル内のハッシュキーの減少数に応じて、最下位ノードのビット列のビット数を削減できる。そのため、第２の変形例によれば、第２の実施の形態と比較してブルームフィルタの空間効率を向上できる可能性が高まる。

なお、上記の各実施の形態に示した装置（例えば、データ処理装置１０、クラウドストレージゲートウェイ１００）の処理機能は、コンピュータによって実現することができる。その場合、各装置が有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置（ＨＤＤ）、磁気テープなどがある。光ディスクには、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク（Blu-ray Disc：ＢＤ、登録商標）などがある。光磁気記録媒体には、ＭＯ（Magneto-Optical disk）などがある。

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムにしたがった処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムにしたがった処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムにしたがった処理を実行することもできる。

以上の各実施の形態に関し、さらに以下の付記を開示する。
（付記１）第１データセットに含まれるデータ要素のうち第１分類条件に合致するデータ要素を含む第１データサブセットに対応付けられた第１ブルームフィルタと、前記第１データセットに含まれるデータ要素のうち第２分類条件に合致するデータ要素を含む第２データサブセットに対応付けられた第２ブルームフィルタと、を含む第１ビット列を記憶する記憶部と、
検索対象の第１データ要素が入力されたとき、前記第１データ要素が前記第１分類条件に合致する場合、前記第１ブルームフィルタを用いて前記第１データ要素と同一のデータ要素が前記第１データサブセットに存在するかを判定し、前記第１データ要素が前記第２分類条件に合致する場合、前記第２ブルームフィルタを用いて前記第１データ要素と同一のデータ要素が前記第２データサブセットに存在するかを判定し、
前記第１データサブセットに含まれるすべてのデータ要素が削除されたとき、前記第１ビット列から前記第１ブルームフィルタを削除する、処理部と、
を有するデータ処理装置。

（付記２）前記処理部は、前記第１データ要素が入力され、前記第１データ要素が前記第１分類条件に合致したとき、前記第１ブルームフィルタが削除済みの場合には、前記第１データセットに前記第１データ要素が存在しないと判定する、
付記１記載のデータ処理装置。

（付記３）前記記憶部は、前記第１ビット列を複数記憶するとともに、第３ブルームフィルタと第４ブルームフィルタとを含む第２ビット列をさらに記憶し、
複数の前記第１ビット列には、それぞれ個別の前記第１データセットが対応付けられ、
複数の前記第１ビット列にそれぞれ含まれる前記第１ブルームフィルタは、対応する前記第１データセットに含まれる前記第１データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
複数の前記第１ビット列にそれぞれ含まれる前記第２ブルームフィルタは、対応する前記第１データセットに含まれる前記第２データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
前記第３ブルームフィルタは、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットに含まれる前記第１データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
前記第４ブルームフィルタは、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットに含まれる前記第２データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
前記処理部は、
複数の前記第１ビット列のうち一のビット列に対応付けられた前記第１データセットに含まれる前記第１データサブセットにおいて、すべてのデータ要素が削除されたとき、前記一のビット列から前記第１ブルームフィルタを削除するととともに、前記複数の前記第１ビット列のうち前記一のビット列以外の他のビット列のすべてにおいて、前記第１ブルームフィルタが削除済みかを判定し、
前記他のビット列のすべてにおいて前記第１ブルームフィルタが削除済みの場合、前記第２ビット列から前記第３ブルームフィルタを削除する、
付記１または２記載のデータ処理装置。

（付記４）前記処理部は、
前記第１データ要素が入力されたとき、前記第１データ要素が前記第１分類条件に合致する場合、前記第３ブルームフィルタを用いて、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットに含まれる前記第１データサブセットに、前記第１データ要素と同一のデータ要素が存在するかを判定し、
存在すると判定された場合、複数の前記第１ビット列にそれぞれ含まれる前記第１ブルームフィルタを用いて、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットのうち、どの前記第１データセットに含まれる前記第１データサブセットに、前記第１データ要素と同一のデータ要素が存在するかを判定する、
付記３記載のデータ処理装置。

（付記５）前記第１分類条件および前記第２分類条件は、データ要素の値または属性に基づく条件である、
付記１乃至４のいずれか１つに記載のデータ処理装置。

（付記６）前記第１分類条件は、データ要素における特定の位置のビット値が第１の値であることを示し、
前記第２分類条件は、前記ビット値が第２の値であることを示す、
付記１乃至４のいずれか１つに記載のデータ処理装置。

（付記７）コンピュータに、
検索対象の第１データ要素が入力されたとき、第１データセットに含まれるデータ要素のうち第１分類条件に合致するデータ要素を含む第１データサブセットに対応付けられた第１ブルームフィルタと、前記第１データセットに含まれるデータ要素のうち第２分類条件に合致するデータ要素を含む第２データサブセットに対応付けられた第２ブルームフィルタと、を含む第１ビット列を記憶する記憶部を参照して判定処理を実行し、前記判定処理は、前記第１データ要素が前記第１分類条件に合致する場合、前記第１ブルームフィルタを用いて前記第１データ要素と同一のデータ要素が前記第１データサブセットに存在するかを判定し、前記第１データ要素が前記第２分類条件に合致する場合、前記第２ブルームフィルタを用いて前記第１データ要素と同一のデータ要素が前記第２データサブセットに存在するかを判定する処理を含み、
前記第１データサブセットに含まれるすべてのデータ要素が削除されたとき、前記第１ビット列から前記第１ブルームフィルタを削除する、
処理を実行させるデータ処理プログラム。

（付記８）前記判定処理では、前記第１データ要素が入力され、前記第１データ要素が前記第１分類条件に合致したとき、前記第１ブルームフィルタが削除済みの場合には、前記第１データセットに前記第１データ要素が存在しないと判定する、
付記７記載のデータ処理プログラム。

（付記９）前記記憶部は、前記第１ビット列を複数記憶するとともに、第３ブルームフィルタと第４ブルームフィルタとを含む第２ビット列をさらに記憶し、
複数の前記第１ビット列には、それぞれ個別の前記第１データセットが対応付けられ、
複数の前記第１ビット列にそれぞれ含まれる前記第１ブルームフィルタは、対応する前記第１データセットに含まれる前記第１データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
複数の前記第１ビット列にそれぞれ含まれる前記第２ブルームフィルタは、対応する前記第１データセットに含まれる前記第２データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
前記第３ブルームフィルタは、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットに含まれる前記第１データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
前記第４ブルームフィルタは、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットに含まれる前記第２データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
前記削除では、
複数の前記第１ビット列のうち一のビット列に対応付けられた前記第１データセットに含まれる前記第１データサブセットにおいて、すべてのデータ要素が削除されたとき、前記一のビット列から前記第１ブルームフィルタを削除するととともに、前記複数の前記第１ビット列のうち前記一のビット列以外の他のビット列のすべてにおいて、前記第１ブルームフィルタが削除済みかを判定し、
前記他のビット列のすべてにおいて前記第１ブルームフィルタが削除済みの場合、前記第２ビット列から前記第３ブルームフィルタを削除する、
付記７または８記載のデータ処理プログラム。

（付記１０）前記判定処理では、
前記第１データ要素が入力されたとき、前記第１データ要素が前記第１分類条件に合致する場合、前記第３ブルームフィルタを用いて、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットに含まれる前記第１データサブセットに、前記第１データ要素と同一のデータ要素が存在するかを判定し、
存在すると判定された場合、複数の前記第１ビット列にそれぞれ含まれる前記第１ブルームフィルタを用いて、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットのうち、どの前記第１データセットに含まれる前記第１データサブセットに、前記第１データ要素と同一のデータ要素が存在するかを判定する、
付記９記載のデータ処理プログラム。

（付記１１）前記第１分類条件および前記第２分類条件は、データ要素の値または属性に基づく条件である、
付記７乃至１０のいずれか１つに記載のデータ処理プログラム。

（付記１２）前記第１分類条件は、データ要素における特定の位置のビット値が第１の値であることを示し、
前記第２分類条件は、前記ビット値が第２の値であることを示す、
付記７乃至１０のいずれか１つに記載のデータ処理プログラム。

１０データ処理装置
１１記憶部
１２処理部
２０データセット
２１−１，２１−２，・・・，２１−Ｎデータサブセット
３０ビット列
３１−１，３１−２，・・・，３１−Ｎブルームフィルタ

Claims

第１データセットに含まれるデータ要素のうち第１分類条件に合致するデータ要素を含む第１データサブセットに対応付けられた第１ブルームフィルタと、前記第１データセットに含まれるデータ要素のうち第２分類条件に合致するデータ要素を含む第２データサブセットに対応付けられた第２ブルームフィルタと、を含む第１ビット列を記憶する記憶部と、
検索対象の第１データ要素が入力されたとき、前記第１データ要素が前記第１分類条件に合致する場合、前記第１ブルームフィルタを用いて前記第１データ要素と同一のデータ要素が前記第１データサブセットに存在するかを判定し、前記第１データ要素が前記第２分類条件に合致する場合、前記第２ブルームフィルタを用いて前記第１データ要素と同一のデータ要素が前記第２データサブセットに存在するかを判定し、
前記第１データサブセットに含まれるすべてのデータ要素が削除されたとき、前記第１ビット列から前記第１ブルームフィルタを削除する、処理部と、
を有するデータ処理装置。
前記処理部は、前記第１データ要素が入力され、前記第１データ要素が前記第１分類条件に合致したとき、前記第１ブルームフィルタが削除済みの場合には、前記第１データセットに前記第１データ要素が存在しないと判定する、
請求項１記載のデータ処理装置。
前記記憶部は、前記第１ビット列を複数記憶するとともに、第３ブルームフィルタと第４ブルームフィルタとを含む第２ビット列をさらに記憶し、
複数の前記第１ビット列には、それぞれ個別の前記第１データセットが対応付けられ、
複数の前記第１ビット列にそれぞれ含まれる前記第１ブルームフィルタは、対応する前記第１データセットに含まれる前記第１データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
複数の前記第１ビット列にそれぞれ含まれる前記第２ブルームフィルタは、対応する前記第１データセットに含まれる前記第２データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
前記第３ブルームフィルタは、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットに含まれる前記第１データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
前記第４ブルームフィルタは、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットに含まれる前記第２データサブセットに、検索対象のデータ要素が含まれるかの判定に用いられ、
前記処理部は、
複数の前記第１ビット列のうち一のビット列に対応付けられた前記第１データセットに含まれる前記第１データサブセットにおいて、すべてのデータ要素が削除されたとき、前記一のビット列から前記第１ブルームフィルタを削除するととともに、前記複数の前記第１ビット列のうち前記一のビット列以外の他のビット列のすべてにおいて、前記第１ブルームフィルタが削除済みかを判定し、
前記他のビット列のすべてにおいて前記第１ブルームフィルタが削除済みの場合、前記第２ビット列から前記第３ブルームフィルタを削除する、
請求項１または２記載のデータ処理装置。
前記処理部は、
前記第１データ要素が入力されたとき、前記第１データ要素が前記第１分類条件に合致する場合、前記第３ブルームフィルタを用いて、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットに含まれる前記第１データサブセットに、前記第１データ要素と同一のデータ要素が存在するかを判定し、
存在すると判定された場合、複数の前記第１ビット列にそれぞれ含まれる前記第１ブルームフィルタを用いて、複数の前記第１ビット列にそれぞれ対応付けられた前記第１データセットのうち、どの前記第１データセットに含まれる前記第１データサブセットに、前記第１データ要素と同一のデータ要素が存在するかを判定する、
請求項３記載のデータ処理装置。
前記第１分類条件および前記第２分類条件は、データ要素の値または属性に基づく条件である、
請求項１乃至４のいずれか１項に記載のデータ処理装置。
前記第１分類条件は、データ要素における特定の位置のビット値が第１の値であることを示し、
前記第２分類条件は、前記ビット値が第２の値であることを示す、
請求項１乃至４のいずれか１項に記載のデータ処理装置。
コンピュータに、
検索対象の第１データ要素が入力されたとき、第１データセットに含まれるデータ要素のうち第１分類条件に合致するデータ要素を含む第１データサブセットに対応付けられた第１ブルームフィルタと、前記第１データセットに含まれるデータ要素のうち第２分類条件に合致するデータ要素を含む第２データサブセットに対応付けられた第２ブルームフィルタと、を含む第１ビット列を記憶する記憶部を参照して判定処理を実行し、前記判定処理は、前記第１データ要素が前記第１分類条件に合致する場合、前記第１ブルームフィルタを用いて前記第１データ要素と同一のデータ要素が前記第１データサブセットに存在するかを判定し、前記第１データ要素が前記第２分類条件に合致する場合、前記第２ブルームフィルタを用いて前記第１データ要素と同一のデータ要素が前記第２データサブセットに存在するかを判定する処理を含み、
前記第１データサブセットに含まれるすべてのデータ要素が削除されたとき、前記第１ビット列から前記第１ブルームフィルタを削除する、
処理を実行させるデータ処理プログラム。