JP2022099948A

JP2022099948A - ストレージシステムおよびストレージシステムにおけるデータ量削減方法

Info

Publication number: JP2022099948A
Application number: JP2020214037A
Authority: JP
Inventors: 鎮平野村; Shimpei Nomura; 光雄早坂; Mitsuo Hayasaka; 悠冬鴨生; Yuto Komo
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2020-12-23
Filing date: 2020-12-23
Publication date: 2022-07-05
Also published as: US20220197527A1

Abstract

【課題】差分圧縮処理を行うにあたって類似データの検索作業を不要とし、処理負担の軽減を図る。【解決手段】ストレージシステムは、重複する複数のデータに対して重複排除を行う重複排除機能と、類似する複数のデータの差分を格納する差分圧縮機能とを有し、ストレージシステムのプロセッサ１１０は、格納しているデータを更新するライト要求を受信すると、ライト要求よる更新前のデータが重複排除を行われており、更新後のデータが他のデータと重複しない場合に、更新前のデータと更新後のデータとの差分を生成して格納する差分圧縮を行う。【選択図】図１

Description

本発明は、ストレージシステムおよびストレージシステムにおけるデータ量削減方法に関する。

データの増大に伴い、ストレージシステムの容量削減技術の需要が高まっている。そのため、データセンターに設置されるストレージシステムのみならず、ユーザに近い位置に配置されるエッジサーバにおいても、データ圧縮や重複排除などの容量削減機能を提供し、ユーザのデータ格納コストの低減を図っている。

容量削減技術の一つとして、差分符号化処理（差分圧縮処理、Delta-Compression、以下、「差分圧縮処理」に統一する）がある。この技術では、格納するデータに対して、ストレージシステム内に類似データが存在する場合、格納するデータと類似データの間での差分データのみをストレージシステムに格納することで、データ容量を削減することができる。データ圧縮や重複排除と合わせて差分圧縮処理を用いることにより、より大きなデータ削減効果が見込まれる。

差分圧縮処理によりデータ量削減を図るストレージシステムとして、特許文献１に開示されている技術がある。この特許文献１では、重複排除機能を持つストレージシステムにおいて、格納するデータに対する重複データが見つからなかった場合に、類似データを検索して差分圧縮処理を適用している。

米国特許第８７５１４６２号明細書

特許文献１に開示された技術を含む、差分圧縮処理における類似データの検索は、データから算出されるスケッチと呼ばれる値を比較して行う。類似データの検索のためにストレージシステムの各データから算出したスケッチを集めてテーブルに記録していくと、このテーブルはメモリ上に乗り切らない大きさとなる。

そのため、テーブル検索ではディスクアクセスが頻発し、類似データ検索に要する時間は非常に大きなものとなることから、実際にストレージシステムの格納データの中から類似データを見つけることは現実的でない。結果として、差分圧縮処理の効果を得ることができなくなる。また、たとえ類似データが見つかったとしても、類似度が低い場合には差分圧縮処理を実施しても容量が削減できないケースも存在する。

本発明は、上記事情に鑑みなされたものであり、その目的は、差分圧縮処理を行うにあたって類似データの検索作業を不要とし、処理負担の軽減を図ることが可能なストレージシステムおよびストレージシステムにおけるデータ量削減方法を提供することにある。

上記課題を解決すべく、本発明の一つの観点に従うストレージシステムは、データを格納するストレージデバイスと、前記ストレージデバイスに格納するデータを処理するプロセッサとを備えたストレージシステムであって、重複する複数のデータに対して重複排除を行う重複排除機能と、類似する複数のデータの差分を格納する差分圧縮機能と、を有し、プロセッサは、格納しているデータを更新するライト要求を受信すると、ライト要求よる更新前のデータが重複排除を行われており、更新後のデータが他のデータと重複しない場合に、更新前のデータと更新後のデータとの差分を生成して格納する差分圧縮を行うことを特徴とする。

本発明によれば、差分圧縮処理を行うにあたって類似データの検索作業を不要とし、処理負担の軽減を図ることができる。

実施例１に係るストレージシステムの概略構成を示すブロック図である。実施例１に係るストレージシステムに格納されるデータの構成の一例を示す図である。チャンクの差分圧縮処理の一例を説明するための図である。実施例１に係るストレージシステムのコンテンツ管理表の構成の一例を示す図である。実施例１に係るストレージシステムの重複チャンク管理表の構成の一例を示す図である。実施例１に係るストレージシステムの重複チャンク判定表の構成の一例を示す図である。実施例１に係るストレージシステムのコンテンツデータ削減処理の一例を示すフローチャートである。実施例１に係るストレージシステムのチャンクデータ削減処理の一例を示すフローチャートである。実施例１に係るストレージシステムのチャンク重複排除処理を示すフローチャートである。実施例１に係るストレージシステムのチャンク差分圧縮処理の一例を示すフローチャートである。実施例１に係るストレージシステムの非データ削減チャンク処理の一例を示すフローチャートである。実施例１に係るストレージシステムのチャンクリード処理の一例を示すフローチャートである。実施例１に係るストレージシステムのチャンク更新処理の一例を示すフローチャートである。実施例２に係るストレージシステムのコンテンツデータ削減処理の一例を示すフローチャートである。実施例２に係るストレージシステムのチャンクデータ削減処理の一例を示すフローチャートである。実施例２に係るストレージシステムの更新前チャンク選定処理の一例を示すフローチャートである。実施例２に係るストレージシステムのチャンク重複排除処理を示すフローチャートである。実施例２に係るストレージシステムのチャンク差分圧縮処理の一例を示すフローチャートである。実施例３に係るストレージシステムの重複チャンク管理表の構成の一例を示す図である。実施例３に係るストレージシステムの新規作成コンテンツデータ削減処理の一例を示すフローチャートである。実施例３に係るストレージシステムの更新前コンテンツ選定処理の一例を示すフローチャートである。実施例３に係るストレージシステムのチャンク重複排除処理を示すフローチャートである。実施例３に係るストレージシステムの重複チャンク格納コンテンツチャンク移動処理を示すフローチャートである。実施例４に係るストレージシステムの概略構成を示すブロック図である。実施例４に係るストレージシステムに格納されるデータの構成の一例を示す図である。ブロックデータの差分圧縮処理の一例を説明するための図である。実施例４に係るストレージシステムのアドレス変換表の構成の一例を示す図である。実施例４に係るストレージシステムのブロック管理表の構成の一例を示す図である。実施例４に係るストレージシステムの重複ブロック判定表の構成の一例を示す図である。実施例４に係るストレージシステムのブロックデータ削減処理の一例を示すフローチャートである。実施例４に係るストレージシステムのブロック重複排除処理を示すフローチャートである。実施例４に係るストレージシステムのブロック差分圧縮処理の一例を示すフローチャートである。実施例４に係るストレージシステムの非データ削減ブロック処理の一例を示すフローチャートである。実施例４に係るストレージシステムのブロックリード処理の一例を示すフローチャートである。実施例４に係るストレージシステムのブロック更新処理の一例を示すフローチャートである。実施例５に係るストレージシステムの概略構成を示すブロック図である。実施例５に係るストレージシステムに格納されるデータの構成の一例を示す図である。実施例５に係るストレージシステムのコンテンツ管理表の構成の一例を示す図である。実施例５に係るストレージシステムの特殊ライトコマンドの構成の一例を示す図である。実施例５に係るストレージシステムのＮＡＳブロック更新処理の一例を示すフローチャートである。実施例５に係るストレージシステムのブロック差分圧縮処理の一例を示すフローチャートである。

以下、本発明の実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

本実施例のストレージシステムは、例えば以下の構成を有する。すなわち、差分圧縮処理は、複製したファイル（データ）へ更新を加えていくようなケースへ適用することで高いデータ削減効果を生み出すと考えられる。そこで、本実施例のストレージシステムでは、更新前には重複排除が効いていたが、部分更新により重複排除が効かなくなったチャンクに対して、更新前のチャンクとの間で差分圧縮処理をすることで、類似データの検索作業をすることなくデータ容量を削減することができる。

一例として、ファイルの構造管理データ（詳細は後述）から、このファイルが更新前に参照していたチャンクを特定し、これらチャンクとの間で差分圧縮処理を行うことでデータ削減を図っている。つまり、（１）対象チャンクに対して重複排除処理を行う、（２）（１）において対象チャンクが非重複データであった場合、構造管理データから更新前チャンクが重複チャンクかどうかを確認する、（３）更新前チャンクが非重複チャンクの場合、上書きする、（４）更新前チャンクが重複チャンクの場合、新旧データで差分圧縮処理を適用する、（５）差分圧縮処理により元データよりもデータ量が削減された場合には、差分圧縮処理したデータをストレージデバイスに格納する。データ量が削減されなかった場合は、元データストレージデバイスに格納する。

なお、以下の説明において、「メモリ」は、１以上のメモリであり、典型的には主記憶デバイスでよい。メモリ部における少なくとも１つのメモリは、揮発性メモリであってもよいし不揮発性メモリであってもよい。

また、以下の説明において、「プロセッサ」は、１以上のプロセッサである。少なくとも１つのプロセッサは、典型的には、ＣＰＵ（Central Processing Unit）のようなマイクロプロセッサであるが、ＧＰＵ（Graphics Processing Unit）のような他種のプロセッサでもよい。少なくとも１つのプロセッサは、シングルコアでもよいしマルチコアでもよい。

また、少なくとも１つのプロセッサは、処理の一部又は全部を行うハードウェア回路（例えばＦＰＧＡ（Field-Programmable Gate Array）又はＡＳＩＣ（Application Specific Integrated Circuit））といった広義のプロセッサでもよい。

本開示において、ストレージデバイスは、１台のＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）等の１台のストレージドライブ、複数台のストレージドライブを含むＲＡＩＤ装置、及び複数のＲＡＩＤ装置を含む。また、ドライブがＨＤＤである場合には、例えば、ＳＡＳ（ＳｅｒｉａｌＡｔｔａｃｈｅｄＳＣＳＩ）ＨＤＤを含んでもよく、ＮＬ－ＳＡＳ（ニアラインＳＡＳ）ＨＤＤを含んでもよい。

また、以下の説明において、「ｘｘｘテーブル」といった表現により、入力に対して出力が得られる情報を説明することがあるが、この情報は、どのような構造のデータでもよいし、入力に対する出力を発生するニューラルネットワークのような学習モデルでもよい。従って、「ｘｘｘテーブル」を「ｘｘｘ情報」と言うことができる。

また、以下の説明において、各テーブルの構成は一例であり、１つのテーブルは、２以上のテーブルに分割されてもよいし、２以上のテーブルの全部又は一部が１つのテーブルであってもよい。

また、以下の説明において、「プログラム」を主語として処理を説明する場合があるが、プログラムは、プロセッサによって実行されることで、定められた処理を、適宜に記憶資源（例えば、メモリ）及び／又は通信インターフェースデバイス（例えば、ポート）を用いながら行うため、処理の主語がプログラムとされてもよい。プログラムを主語として説明された処理は、プロセッサまたはそのプロセッサを有する計算機が行う処理としてもよい。

プログラムは、計算機のような装置にインストールされてもよいし、例えば、プログラム配布サーバ又は計算機が読み取り可能な（例えば非一時的な）記録媒体にあってもよい。また、以下の説明において、２以上のプログラムが１つのプログラムとして実現されてもよいし、１つのプログラムが２以上のプログラムとして実現されてもよい。

また、以下の説明において、同種の要素を区別しないで説明する場合には、参照符号（又は、参照符号のうちの共通符号）を使用し、同種の要素を区別して説明する場合は、要素の識別番号（又は参照符号）を使用することがある。

図１は、実施例に係るストレージシステムの一例であるＮＡＳ（Network Attached Storage）１０の概略構成の一例を示す図である。

ＮＡＳ１０はコントローラとしてのＮＡＳヘッド１００とストレージシステム２００とを有する。

ＮＡＳヘッド１００は、ＮＡＳヘッド１００及びＮＡＳ１０全体の動作制御を行うプロセッサ１１０、プロセッサ１１０の動作制御に用いられるプログラム及びデータを一時的に記憶するメモリ１２０、クライアント１１からネットワーク１２を介してライトされるデータやストレージシステム２００からリードされたデータを一時的に格納するキャッシュ１３０、クライアント１１との間でネットワーク１２を介して通信を行うネットワークインターフェース（Ｉ／Ｆ）１４０及びストレージシステム２００との間での通信を行うストレージインターフェース（Ｉ／Ｆ）１５０を有する。これらプロセッサ１１０、メモリ１２０、キャッシュ１３０、ネットワークＩ／Ｆ１４０及びストレージＩ／Ｆ１５０はバス１６０により互いに接続されている。

ストレージシステム２００も、ストレージシステム２００の動作制御を行うプロセッサ２１０、プロセッサ２１０の動作制御に用いられるプログラム及びデータを一時的に記憶するメモリ２２０、ＮＡＳヘッド１００からライトされるデータや記憶デバイス２４０からリードされたデータを一時的に格納するキャッシュ２３０、データが格納される記憶デバイス２４０、及びＮＡＳヘッド１００との間での通信を行うストレージインターフェース（Ｉ／Ｆ）２５０を有する。これらプロセッサ２１０、メモリ２２０、キャッシュ２３０、記憶デバイス２４０及びストレージＩ／Ｆ２５０はバス２６０により互いに接続されている。

メモリ１２０には、ネットワークストレージプログラム１２１、ローカルファイルシステムプログラム１２２、及びコンテンツ容量削減プログラム１２３が格納されている。

ネットワークストレージプログラム１２１は、クライアント１１からの各種要求を受領し、この要求に含まれるプロトコルを処理する。ローカルファイルシステムプログラム１２２は、クライアント１１に対してファイルシステムを提供する。

コンテンツ容量削減プログラム１２３は、本実施例のストレージシステム（ＮＡＳ１０）の特徴となるプログラムであり、ストレージシステム２００に格納されたコンテンツに対して容量削減処理を行う。コンテンツ容量削減プログラム１２３の動作の詳細については後述する。

記憶デバイス２４０には、コンテンツ管理表５００、重複チャンク管理表６００、重複チャンク判定表７００及びチャンク４１０、４２０、４４０が格納されている。

図２は、実施例１に係るＮＡＳ１０に格納されるデータの構成の一例を示す図である。

本実施例のＮＡＳ１０では、クライアント１１がＮＡＳ１０に対して操作を行うデータの単位であるファイル、すなわちコンテンツ３１０を複数のデータ単位に分割してストレージシステム２００に格納している。実施例１（及び後述する実施例２、３）においては、コンテンツ３１０は、データ長が可変長であるチャンク４１０、４２０、４４０に分割されてストレージシステム２００に格納されている。この際、コンテンツ容量削減プログラム１２３は、チャンク４１０、４２０、４４０に対して重複排除処理及び差分圧縮処理を行う。

より詳細には、コンテンツ容量削減プログラム１２３は、複数のコンテンツ３１０においてデータが重複するチャンク（以降、重複チャンク４２０と称する）については１つの重複チャンク４２０のみストレージシステム２００、より詳細には記憶デバイス２４０に格納する（重複排除処理）。また、重複チャンク４２０に類似するチャンクについては差分圧縮対象チャンク４３０として特定し、重複チャンク４２０と差分圧縮対象チャンク４３０との差分である差分チャンク４４０を記憶デバイス２４０に格納する（差分圧縮処理）。そして、重複排除処理及び差分圧縮処理のいずれの対象にもならないチャンクは非重複チャンク４１０として記憶デバイス２４０に格納される。以降、実体として１つの重複チャンク４２０を有するコンテンツを重複チャンク格納コンテンツ３２０と称する。

図３は、チャンクの差分圧縮処理の一例を説明するための図である。

コンテンツ容量削減プログラム１２３は、ベースチャンク（これは重複チャンクでもある）４２０に個々のデータ単位で非常に類似している差分圧縮対象チャンク４３０を検出する。図３に示す例では、ベースチャンク４２０と差分圧縮対象チャンク４３０との間では、データ単位で数バイト程度（図示例では１６進数表示をしている）の差しかない。従って、コンテンツ容量削減プログラム１２３は、これらベースチャンク４２０と差分圧縮対象チャンク４３０との間で差分を取り、どの位置でデータが異なるかというポインタ（例えば［０：８］とはチャンクの先頭から８個のデータは共通するということ）とともに差分チャンク４４０として生成し、ベースチャンク４２０と差分チャンク４４０を記憶デバイス２４０に格納する。以下、その状態を特定しないで説明する際には、重複チャンク４２０の符号でチャンク４２０を代表して説明する。

図４は、実施例１に係るＮＡＳ１０のコンテンツ管理表５００の構成の一例を示す図である。

コンテンツ管理表５００は、コンテンツ３１０の構造管理データの一例であり、コンテンツ３１０単位に作成される。

コンテンツＩＤ５１０には、個々のコンテンツ３１０を特定するＩＤが格納される。コンテンツ内オフセット５２０には、コンテンツ３１０を構成するチャンク４２０のコンテンツ３１０内でのオフセット、つまり、個々のチャンク４２０がどの位置からスタートするかを示す値が格納される。チャンクサイズ５２１には、チャンク４２０のサイズを示す値が格納される。データ削減処理済みフラグ５２２には、このチャンク４２０が既にデータ量削減処理がされたか否かを示すフラグ（Ｔｒｕｅであればデータ量削減処理済み、Ｆａｌｓｅであればデータ量削減未処理）が格納される。このデータ削減処理済みフラグ５２２は、後述するチャンク更新処理において更新されるので、データ削減処理済みフラグ５２２に示すフラグは、チャンク４２０の更新後の状態を示している。

コンテンツ管理表５００には、前回データ削減処理時チャンク情報５３０として、チャンク状態５３１、差分圧縮後チャンク長５３２、チャンク格納コンテンツＩＤ５３３、参照オフセット５３４、チャンク内オフセット５３５、サイズ５３６、参照先５３７、参照チャンク内オフセット５３８を有する。前回データ削減処理時チャンク情報５３０は、前回のコンテンツ容量削減プログラム１２３による容量削減処理が行われた際の情報である。

チャンク状態５３１には、前回のデータ削減処理が行われた結果としてのチャンク４２０の状態を示す値が格納される。差分圧縮後チャンク長５３２は、差分圧縮が行われたチャンク４２０のチャンク長を示す値が格納される。チャンク格納コンテンツＩＤ５３３には、重複排除処理または差分圧縮処理がされたチャンク４２０において参照すべき実体のチャンク４２０が格納されているコンテンツ３１０のＩＤが格納される。この実体のチャンク４２０を、以降、ベースチャンク、ベースデータと称する。参照オフセット５３４には、チャンク格納コンテンツＩＤ５３３に示されるコンテンツ３１０においてベースチャンク４２０がどの位置にあるかを示すオフセットが格納される。

チャンク内オフセット５３５、サイズ５３６、参照先５３７、参照チャンク内オフセット５３８は差分圧縮処理がされたチャンク４２０についての値が格納される。チャンク内オフセット５３５は、チャンク４２０においてどの部分がベースチャンク４２０で構成され、どの部分が差分チャンク４４０で構成されるかを示すオフセットが格納される。サイズ５３６は、参照先であるベースチャンク４２０、差分チャンク４４０の部分のデータサイズを示す値が格納される。参照先５３７は参照すべきチャンクがベースチャンク４２０であるのか差分チャンク４４０であるのかの値が格納される。参照チャンク内オフセット５３８は、参照されるベースチャンク４２０、差分チャンク４４０の参照位置を示すオフセットが格納される。

図５は、実施例１に係るＮＡＳ１０の重複チャンク管理表６００の構成の一例を示す図である。重複チャンク管理表６００は、図２に示す重複チャンク格納コンテンツ３２０単位に作成される。

コンテンツＩＤ６１０には、重複チャンク格納コンテンツ３２０を特定するＩＤが格納される。オフセット６２０には、重複チャンク格納コンテンツ３２０を構成するチャンク４２０のオフセット、つまりどの位置からスタートするかを示す値が格納される。チャンクサイズ６２１には、チャンク４２０のサイズを示す値が格納される。参照数６２２には、チャンク４２０（図２に示すように、重複チャンク格納コンテンツ３２０には重複チャンク４２０が格納される）がどれだけの数参照されているかを示す数が格納される。

図６は、実施例１に係るＮＡＳ１０の重複チャンク判定表７００の構成の一例を示す図である。

フィンガプリント７１０は、個々のチャンク４２０のデータから求められた固定長のハッシュ値であり、このフィンガプリント７１０を用いればチャンク４２０を一意に特定することができる。コンテンツＩＤ７１１には、チャンク４２０が含まれるコンテンツ３１０のＩＤが格納される。オフセット７１２には、コンテンツ３１０においてチャンク４２０がどの位置からスタートするかを示す値が格納される。チャンクサイズ７１３にはチャンク４２０のサイズを示す値が格納される。チャンク状態７１４には、データ削減処理が行われた結果としてのチャンク４２０の状態を示す値が格納される。

図７は、実施例１に係るＮＡＳ１０のコンテンツデータ削減処理の一例を示すフローチャートである。

図７に示すコンテンツデータ削減処理は、コンテンツ３１０単位でポストプロセス時に実行される。実行されるタイミングは任意であるが、一例として、ＮＡＳ１０のプロセッサ１１０がコンテンツ３１０の操作ログを適宜取得し、この操作ログから更新処理がされたコンテンツ３１０を特定し、更新に係るコンテンツ３１０について図７に示すコンテンツデータ削減処理を行う例が挙げられる。あるいは、コンテンツ３１０単位で更新処理がされたら状態が変化する更新フラグを設けておき、この更新フラグから更新処理がされたコンテンツ３１０を特定し、更新に係るコンテンツ３１０について図７に示すコンテンツデータ削減処理を行う例が挙げられる。

図７において、コンテンツ容量削減プログラム１２３は、コンテンツデータ削減処理がされるコンテンツ３１０に含まれるチャンク４２０について、どのチャンク４２０に対してコンテンツデータ削減処理を行うかを特定する変数ｉを初期化する（Ｓ１０２）。

次いで、コンテンツ容量削減プログラム１２３は、変数ｉにより特定されるチャンク４２０がデータ削減処理済であるか否かを、コンテンツ管理表５００のデータ削減処理済みフラグ５２２を参照して判定する（Ｓ１０３）。そして、既にデータ削減処理済であると判定したら（Ｓ１０３においてＹＥＳ）Ｓ１０４に進み、データ量削減処理がされていない（この場合はコンテンツ３１０の更新処理後においてということ）と判定したら（Ｓ１０３においてＮＯ）サブルーチンＳ２００に進む。サブルーチンＳ２００（チャンクデータ削減処理）の詳細については後述する。

Ｓ１０４では、コンテンツ容量削減プログラム１２３が、コンテンツデータ削減処理を行う対象チャンク４２０を特定する変数ｉが、コンテンツ３１０を構成するチャンク４２０の総数ｎを下回っているか否かを判定する。そして、下回っていると判定したら（Ｓ１０４においてＹＥＳ）Ｓ１０５に進み、下回っていない（この場合はｉ＝ｎという判定である）と判定したら（Ｓ１０４においてＮＯ）、図７のフローチャートに示す処理を終了する。

Ｓ１０５では、コンテンツ容量削減プログラム１２３が変数ｉを１つインクリメントする。その後、処理はＳ１０３に戻る。

図８は、実施例１に係るＮＡＳ１０のチャンクデータ削減処理の一例を示すフローチャートである。

まず、コンテンツ容量削減プログラム１２３は、対象となるチャンク４２０の分割点、つまり、コンテンツ３１０における対象チャンク４２０のオフセットを計算する（Ｓ２０２）。これは、図７に示すコンテンツデータ削減処理がコンテンツ３１０の更新処理をトリガとしているので、チャンク４２０の分割点に変更がないかどうかを確認するためである。

次いで、コンテンツ容量削減プログラム１２３は、サブルーチンＳ３００（チャンク重複排除処理）を実行する。チャンク重複排除処理の詳細については後述する。次いで、コンテンツ容量削減プログラム１２３は、対象となるチャンク４２０（図７のコンテンツデータ削減処理において特定された、ということ）が重複排除処理されているか否かを、重複チャンク判定表７００のチャンク状態７１４を参照して判定する（Ｓ２０３）。そして、重複排除処理がされていると判定したら（Ｓ２０３においてＹＥＳ）Ｓ２０７に進み、重複排除処理がされていないと判定したら（Ｓ２０３においてＮＯ）Ｓ２０４に進む。

Ｓ２０４では、コンテンツ容量削減プログラム１２３が、更新前の対象チャンク４２０が重複排除済みまたは差分圧縮済みであるか否かを、コンテンツ管理表５００のチャンク状態５３１を参照して判定する。そして、更新前の対象チャンク４２０が重複排除済みまたは差分圧縮済みであると判定したら（Ｓ２０４においてＹＥＳ）、サブルーチンＳ４００（チャンク差分圧縮処理）を実行し、更新前の対象チャンク４２０が重複排除済みでもなく差分圧縮済みでもないと判定したら（Ｓ２０４においてＮＯ）サブルーチンＳ５００（非データ削減チャンク処理）を実行する。チャンク差分圧縮処理及び非データ削減チャンク処理の詳細については後述する。

サブルーチンＳ４００の処理が終わったら、コンテンツ容量削減プログラム１２３は、サブルーチンＳ４００による差分圧縮処理でチャンク４２０の容量が削減できたか否かを判定する（Ｓ２０５）。そして、チャンク４２０の容量が削減できたと判定したら（Ｓ２０５においてＹＥＳ）Ｓ２０６に進み、チャンク４２０の容量が削減できなかったと判定したら（Ｓ２０６においてＮＯ）サブルーチンＳ５００を実行する。

Ｓ２０６では、コンテンツ容量削減プログラム１２３が、Ｓ２０２での算出結果に基づいて、対象チャンク４２０のチャンク分割点に変更があったかどうかを判定する。そして、チャンク分割点に変更があったと判定したら（Ｓ２０６においてＹＥＳ）、次のチャンク４２０についてサブルーチンＳ２００を実行し、チャンク分割点に変更がなかったと判定したら（Ｓ２０６においてＮＯ）、図８のフローチャートに示す処理を終了する。

図９は、実施例１に係るＮＡＳ１０のチャンク重複排除処理を示すフローチャートである。

まず、コンテンツ容量削減プログラム１２３は、対象チャンク４２０のフィンガプリントを算出する（Ｓ３０２）。次いで、コンテンツ容量削減プログラム１２３は、Ｓ３０２で算出したフィンガプリントに一致するフィンガプリントが存在するか否かを、重複チャンク判定表７００のフィンガプリント７１０を参照して検索する（Ｓ３０３）。そして、一致するフィンガプリントがあると判定したら（Ｓ３０３においてＹＥＳ）、重複するチャンク４２０が存在している（存在していた場合も含む）ので、一致したチャンク４２０に対してサブルーチンＳ６００（チャンクリード処理）を実行する。チャンクリード処理の詳細については後述する。一方、一致するフィンガプリントがないと判定したら（Ｓ３０３においてＮＯ）、重複するチャンク４２０が存在していないので、図９のフローチャートに示す処理を終了する。

サブルーチンＳ６００の処理の終了後、コンテンツ容量削減プログラム１２３は、サブルーチンＳ６００において読み出した（リードした）チャンクのフィンガプリントを計算する（Ｓ３０４）。そして、コンテンツ容量削減プログラム１２３は、Ｓ３０４で算出したフィンガプリントが対象チャンク４２０のフィンガプリントと一致するか否かを判定する（Ｓ３０５）。そして、Ｓ３０４で算出したフィンガプリントが対象チャンク４２０のフィンガプリントと一致すると判定したら（Ｓ３０５においてＹＥＳ）Ｓ３０６に進み、Ｓ３０４で算出したフィンガプリントが対象チャンク４２０のフィンガプリントに一致しないと判定したら（Ｓ３０６においてＮＯ）、図９のフローチャートに示す処理を終了する。

Ｓ３０６において、コンテンツ容量削減プログラム１２３は、フィンガプリントが一致するチャンクは既に重複チャンク４２０であるか否かを、重複チャンク判定表７００のチャンク状態７１４を参照して判定する。そして、フィンガプリントが一致するチャンクが既に重複チャンク４２０であると判定したら（Ｓ３０６においてＹＥＳ）、このチャンクは既に重複チャンク４２０として管理されているので、Ｓ３０７に進む。一方、フィンガプリントが一致するチャンクが重複チャンク４２０でないと判定したら（Ｓ３０６においてＮＯ）、対象チャンク４２０が重複排除処理されていないので、対象チャンク４２０を重複チャンク格納コンテンツ３２０に移動する処理を行うため、Ｓ３１０に進む。

Ｓ３０７では、コンテンツ容量削減プログラム１２３が、重複チャンク管理表６００から一致する重複チャンク４２０の参照数６２２を１だけ加算する。次いで、コンテンツ容量削減プログラム１２３は、コンテンツ３１０内の対象チャンク４２０を削除する（Ｓ３０８）。そして、コンテンツ容量削減プログラム１２３は、対象チャンク４２０を含むコンテンツ管理表５００を更新し（Ｓ３０９）、図９のフローチャートに示す処理を終了する。

一方、Ｓ３１０において、コンテンツ容量削減プログラム１２３は、対象チャンク４２０を重複チャンク格納コンテンツ３２０に追記する。次いで、コンテンツ容量削減プログラム１２３は、追記したチャンク４２０の情報を重複チャンク管理表６００に追加する（Ｓ３１１）。さらに、コンテンツ容量削減プログラム１２３は、一致するチャンク４２０を含む情報に基づいて、コンテンツ管理表５００を更新する（Ｓ３１２）。

次いで、コンテンツ容量削減プログラム１２３は、重複チャンク判定表７００のチャンク状態７１４を参照して、一致するチャンク４２０が差分圧縮対象チャンク４３０であるか否かを判定する（Ｓ３１３）。その結果、一致するチャンク４２０が差分圧縮対象チャンク４３０であると判定したら（Ｓ３１３においてＹＥＳ）Ｓ３１４に進み、一致するチャンク４２０が差分圧縮対象チャンク４３０でないと判定したら（Ｓ３１３においてＮＯ）Ｓ３１６に進む。

Ｓ３１４において、コンテンツ容量削減プログラム１２３は、一致するチャンク４２０を含むコンテンツ３１０から差分チャンク４４０を削除する。次いで、コンテンツ容量削減プログラム１２３は、重複チャンク管理表６００から、一致するチャンク４２０のベースチャンク４２０の参照数６２２を１だけ減算する（Ｓ３１５）。

Ｓ３１６において、コンテンツ容量削減プログラム１２３は、一致するチャンク４２０を含んでいたコンテンツ３１０から、この一致するチャンク４２０を削除する。そして、コンテンツ容量削減プログラム１２３は、重複チャンク判定表７００から一致するチャンク４２０の情報を更新し（Ｓ３１７）、図９のフローチャートに示す処理を終了する。

図１０は、実施例１に係るＮＡＳ１０のチャンク差分圧縮処理の一例を示すフローチャートである。

まず、コンテンツ容量削減プログラム１２３は、更新前の対象チャンク４２０が重複排除済みであるか否かを、コンテンツ管理表５００のチャンク状態５３１を参照して判定する（Ｓ４０２）。そして、更新前の対象チャンク４２０が重複排除済みであると判定したら（Ｓ４０２においてＹＥＳ）Ｓ４０３に進み、更新前の対象チャンク４２０が重複排除済みでないと判定したら（Ｓ４０２においてＮＯ）、更新前の対象チャンク４２０は既に重複排除済みまたは差分圧縮済みであると判定されており（Ｓ２０４においてＹＥＳ）、従って、更新前の対象チャンク４２０は差分圧縮済みであるので、Ｓ４０８に進む。

Ｓ４０３では、コンテンツ容量削減プログラム１２３が更新前の対象チャンク４２０を読み出す。次いで、コンテンツ容量削減プログラム１２３は、更新前の対象チャンク４２０と対象チャンク４２０との間で差分圧縮処理を行う（Ｓ４０４）。

Ｓ４０４における差分圧縮処理の結果、差分チャンク４４０が対象チャンク４２０より容量が少なくなった（小さくなった）か否かを、コンテンツ容量削減プログラム１２３が判定する（Ｓ４０５）。そして、差分チャンク４４０が対象チャンク４２０より小さくなったと判定したら（Ｓ４０５においてＹＥＳ）Ｓ４０６に進み、差分チャンク４４０が対象チャンク４２０より小さくならないと判定したら（Ｓ４０５においてＮＯ）、図１０のフローチャートに示す処理を終了する。

Ｓ４０６では、コンテンツ容量削減プログラム１２３が、差分チャンク４４０をコンテンツ３１０の対象チャンク４２０の領域に書き込む。次いで、コンテンツ容量削減プログラム１２３は、重複チャンク管理表６００の更新前の対象チャンク４２０の参照数６２２を１だけ加算する（Ｓ４０７）。さらに、コンテンツ容量削減プログラム１２３はコンテンツ管理表５００を更新し（Ｓ４１３）、重複チャンク判定表７００に対象チャンク４２０の情報を登録する（Ｓ４１４）。この後、図１０のフローチャートに示す処理を終了する。

一方、Ｓ４０８では、コンテンツ容量削減プログラム１２３が更新前の対象チャンク４２０のベースチャンク４２０を読み出す。次いで、コンテンツ容量削減プログラム１２３は、更新前の対象チャンク４２０のベースチャンク４２０と対象チャンク４２０との間で差分圧縮処理を行う（Ｓ４０９）。

Ｓ４０９における差分圧縮処理の結果、差分チャンク４４０が対象チャンク４２０より容量が少なくなった（小さくなった）か否かを、コンテンツ容量削減プログラム１２３が判定する（Ｓ４１０）。そして、差分チャンク４４０が対象チャンク４２０より小さくなったと判定したら（Ｓ４１０においてＹＥＳ）Ｓ４１１に進み、差分チャンク４４０が対象チャンク４２０より小さくならないと判定したら（Ｓ４１０においてＮＯ）、図１０のフローチャートに示す処理を終了する。

Ｓ４１１では、コンテンツ容量削減プログラム１２３が、差分チャンク４４０をコンテンツ３１０の対象チャンク４２０の領域に書き込む。次いで、コンテンツ容量削減プログラム１２３は、重複チャンク管理表６００の更新前の対象チャンク４２０のベースチャンク４２０の参照数６２２を１だけ加算する（Ｓ４０７）。この後、Ｓ４１３に進む。

図１１は、実施例１に係るＮＡＳ１０の非データ削減チャンク処理の一例を示すフローチャートである。

まず、コンテンツ容量削減プログラム１２３はコンテンツ管理表５００を更新する（Ｓ５０２）。次いで、コンテンツ容量削減プログラム１２３は、重複チャンク管理表６００に対象チャンク４２０の情報を登録し（Ｓ５０３）、図１１のフローチャートに示す処理を終了する。

図１２は、実施例１に係るＮＡＳ１０のチャンクリード処理の一例を示すフローチャートである。図１２にフローチャートに示すチャンクリード処理は、クライアント１１からのコンテンツ３１０のリード要求をトリガとする。

まず、コンテンツ容量削減プログラム１２３は、リード要求の対象でもある対象チャンク４２０が重複排除済みであるか否かを、重複チャンク判定表７００のチャンク状態７１４を参照して判定する（Ｓ６０２）。そして、対象チャンク４２０が重複排除済みであると判定したら（Ｓ６０２においてＹＥＳ）Ｓ６０３に進み、対象チャンク４２０が重複排除済みでないと判定したら（Ｓ６０２においてＮＯ）Ｓ６０４に進む。

Ｓ６０３では、コンテンツ容量削減プログラム１２３が、重複チャンク格納コンテンツ３２０から対象チャンク４２０を読み出し、図１２のフローチャートに示す処理を終了する。

一方、Ｓ６０４では、コンテンツ容量削減プログラム１２３が、リード要求の対象となっている対象チャンク４２０が差分圧縮済みであるか否かを、重複チャンク判定表７００のチャンク状態７１４を参照して判定する。そして、対象チャンク４２０が差分圧縮済みであると判定したら（Ｓ６０４においてＹＥＳ）Ｓ６０５に進み、対象チャンク４２０が差分圧縮済みでないと判定したら（Ｓ６０４においてＮＯ）Ｓ６０８に進む。

Ｓ６０５では、コンテンツ容量削減プログラム１２３が、重複チャンク格納コンテンツ３２０からベースチャンク４２０を読み出す。次いで、コンテンツ容量削減プログラム１２３は、コンテンツ３１０内の対象領域から差分チャンク４４０を読み出す（Ｓ６０８）。さらに、コンテンツ容量削減プログラム１２３は、ベースチャンク４２０と差分チャンク４４０から差分圧縮対象チャンク４３０を復元し（Ｓ６０７）、図１２のフローチャートに示す処理を終了する。

Ｓ６０８では、対象チャンク４２０は重複チャンク４２０でも差分チャンク４４０でもないので、コンテンツ容量削減プログラム１２３は、コンテンツ３１０内の対象領域から対象チャンク４２０を読み出し、図１２のフローチャートに示す処理を終了する。

図１３は、実施例１に係るＮＡＳ１０のチャンク更新処理の一例を示すフローチャートである。図１３にフローチャートに示すチャンク更新処理は、クライアント１１からのコンテンツ３１０のライト要求をトリガとする。

まず、コンテンツ容量削減プログラム１２３は、ライト要求の対象でもある対象チャンク４２０が重複チャンク４２０または差分圧縮対象チャンク４３０であるか否かを、重複チャンク判定表７００のチャンク状態７１４を参照して判定する（Ｓ７０２）。そして、対象チャンク４２０が重複チャンク４２０または差分圧縮対象チャンク４３０であると判定したら（Ｓ７０２においてＹＥＳ）対象チャンク４２０についてサブルーチンＳ６００においてリード処理を行い、対象チャンク４２０が重複チャンク４２０または差分圧縮対象チャンク４３０でないと判定したら（Ｓ７０２においてＮＯ）Ｓ７０７に進む。

対象チャンク４２０についてチャンクリード処理を行った後、コンテンツ容量削減プログラム１２３は、サブルーチンＳ６００においてリードしたチャンク４２０をコンテンツ３１０の対象領域に書き込む（Ｓ７０３）。

次いで、コンテンツ容量削減プログラム１２３は、対象チャンク４２０が重複チャンク４２０であるか否かを、重複チャンク判定表７００のチャンク状態７１４を参照して判定する（Ｓ７０４）。そして、対象チャンク４２０が重複チャンク４２０であると判定したら（Ｓ７０４においてＹＥＳ）Ｓ７０５に進み、対象チャンク４２０が重複チャンク４２０でないと判定したら（Ｓ７０１においてＮＯ）Ｓ７０６に進む。

Ｓ７０５では、コンテンツ容量削減プログラム１２３が重複チャンク管理表６００から重複チャンク４２０の参照数６２２を１だけ減算する。一方、Ｓ７０６では、コンテンツ容量削減プログラム１２３が重複チャンク管理表６００からベースチャンク４２０の参照数６２２を１だけ減算する。

Ｓ７０７では、コンテンツ容量削減プログラム１２３が更新内容をコンテンツ３１０の対象領域に反映させる。そして、コンテンツ容量削減プログラム１２３は、コンテンツ管理表５００において対象チャンク４２０のデータ削減処理済みフラグ５２２をＦａｌｓｅに変更することで、対象チャンク４２０がデータ削減処理前であることを明示し（Ｓ７０８）、図１３のフローチャートに示す処理を終了する。

このように構成される本実施例によれば、差分圧縮処理を行う際に差分圧縮処理における類似データの検索作業を不要にすることができる。これにより、処理負担の軽減を図ることが可能なストレージシステムを実現することができる。さらには、処理負担の増加を危惧して差分圧縮処理を行っていなかったストレージシステムにおいても差分圧縮処理によるデータ削減処理を行うことができ、さらなるデータ削減処理を行うことができる。

実施例１及び実施例２が適用されるストレージシステム（ＮＡＳ１０）は、更新前のデータ削減状況によって差分圧縮処理の対象となるチャンク４２０を変更しているが、データ削減処理中においてもコンテンツ３１０及びチャンク４２０は適宜更新されうる。このため、本実施例では、対象となるチャンク４２０の更新前の状態を適切に把握し、適切なデータ削減処理を行うものである。

ここで、実施例２が適用されるＮＡＳ１０は実施例１のそれと同様である。従って、以下の説明において、同様の構成要素については同一の符号を付し、その説明を簡略化する。また、図示しない各種処理については、既に説明した実施例の各種処理が行われる。

図１４は、実施例２に係るストレージシステム（ＮＡＳ１０）のコンテンツデータ削減処理の一例を示すフローチャートである。図１４に示すコンテンツデータ削減処理は、実施例１の図７に示すコンテンツデータ削減処理とほぼ同一である。

異なる点は、コンテンツ容量削減プログラム１２３が、コンテンツデータ削減処理を行うに先立って、対象となるコンテンツ３１０のコンテンツ管理表５００を複製して更新前のコンテンツ管理表５００としてメモリ１２０またはキャッシュ１３０に残す（Ｓ８０２）ことと、全てのチャンク４２０に対してチャンクデータ削減処理（サブルーチンＳ９００）を行った後に、複製して残していた更新前のコンテンツ管理表５００を削除する（Ｓ８０６）ことである。

図１５は、実施例２に係るＮＡＳ１０のチャンクデータ削減処理の一例を示すフローチャートである。図１５に示すチャンクデータ削減処理は、実施例１の図８に示すチャンクデータ削減処理とほぼ同じである。

異なる点は、サブルーチンＳ１１００（サブルーチンＳ１５００は実施例３において参照する）におけるチャンク重複排除処理の詳細が異なる（これについては後に詳述する）ことと、Ｓ９０４において、コンテンツ容量削減プログラム１２３が、更新前の対象チャンク４２０が重複排除済みまたは差分圧縮済みであるか否かを、コンテンツ管理表５００のチャンク状態５３１を参照して判定する処理に先立って、サブルーチンＳ１０００（更新前チャンク選定処理）を行うことである。更新前チャンク選定処理の詳細については後述する。

図１６は、実施例２に係るＮＡＳ１０の更新前チャンク選定処理の一例を示すフローチャートである。

まず、コンテンツ容量削減プログラム１２３は、基準チャンク４２０が設定されているか否かを判定する（Ｓ１００２）。基準チャンク４２０は、後述するチャンク重複排除処理Ｓ１１００のＳ１１０９、またはチャンク差分圧縮処理Ｓ１２００のＳ１２１５において設定される。設定情報はＮＡＳ１０のメモリ１２０またはキャッシュ１３０に一時的に格納される。そして、基準チャンク４２０が設定されていると判定したら（Ｓ１００２においてＹＥＳ）Ｓ１００３に進み、基準チャンク４２０が設定されていないと判定したら（Ｓ１００２においてＮＯ）Ｓ１００６に進む。

Ｓ１００３では、コンテンツ容量削減プログラム１２３が、対象となるチャンク４２０と設定された基準チャンク４２０との間に未更新のチャンク４２０があるか否かを判定する。この判定は、コンテンツ容量削減プログラム１２３によるコンテンツデータ削減処理Ｓ８００の動作中に、基準チャンク４２０以降においてチャンク４２０の挿入、削除があったため、コンテンツ管理表５００に示す情報にズレが生じたか否かの判定である。

そして、対象となるチャンク４２０と設定された基準チャンク４２０との間に未更新のチャンク４２０がない（つまりズレがない）と判定したら（Ｓ１００３においてＹＥＳ）Ｓ１００４に進み、対象となるチャンク４２０と設定された基準チャンク４２０との間に未更新のチャンク４２０がある（つまりズレがない）と判定したら（Ｓ１００３においてＮＯ）Ｓ１００６に進む。

Ｓ１００４では、コンテンツ容量削減プログラム１２３が、更新中（つまり現在記憶デバイス２４０に格納されている）のコンテンツ管理表５００において、対象チャンク４２０と基準チャンク４２０との間の距離を、チャンク数として数える。次いで、コンテンツ容量削減プログラム１２３は、更新前の（Ｓ８０２において保存した）コンテンツ管理表５００において、基準チャンク４２０からＳ１００４で求めた距離分だけ後方のチャンク４２０の前回データ削減処理時チャンク情報５３０を、更新前の対象チャンク４２０の情報として設定し（Ｓ１００５）、図１６のフローチャートに示す処理を終了する。

一方、Ｓ１００６では、コンテンツ容量削減プログラム１２３が、更新中（つまり現在記憶デバイス２４０に格納されている）のコンテンツ管理表５００における前回データ削減処理時チャンク情報５３０を、更新前の対象チャンク４２０の情報として設定し（Ｓ１００５）、図１６のフローチャートに示す処理を終了する。

図１７は、実施例２に係るＮＡＳ１０のチャンク重複排除処理を示すフローチャートである。図１７に示すチャンク重複排除処理は、実施例１の図９に示すチャンクデータ削減処理とほぼ同じである。

異なる点は、Ｓ１１０８及びＳ１１０９が、コンテンツ容量削減プログラム１２３が、重複チャンク管理表６００から一致する重複チャンク４２０の参照数６２２を１だけ加算する（Ｓ１１０７）処理の後に追加された点である。

すなわち、Ｓ１１０７において、コンテンツ容量削減プログラム１２３は、更新前の（Ｓ８０２において保存した）コンテンツ管理表５００においても、フィンガプリントが一致する重複チャンク４２０を参照しているか否かを判定する。そして、更新前のコンテンツ管理表５００においても、フィンガプリントが一致する重複チャンク４２０を参照していると判定したら（Ｓ１１０７においてＹＥＳ）Ｓ１１０８に進み、更新前のコンテンツ管理表５００ではフィンガプリントが一致する重複チャンク４２０を参照していないと判定したら（Ｓ１１０７においてＮＯ）Ｓ１１１８に進む。

Ｓ１１０８では、コンテンツ容量削減プログラム１２３が、更新前のコンテンツ管理表５００においてフィンガプリントが一致するチャンク４２０を参照するチャンク４２０と対象チャンク４２０とを基準チャンク４２０に設定する。この後、Ｓ１１１８に進む。

図１８は、実施例２に係るＮＡＳ１０のチャンク差分圧縮処理の一例を示すフローチャートである。図１８に示すチャンク差分圧縮処理は、図９に示す実施例１のチャンク差分圧縮処理とほぼ同じである。

異なる点は、重複チャンク判定表７００に対象チャンク４２０の情報を登録した（Ｓ１２１４）後、Ｓ１２１５の処理を行う点である。

すなわち、Ｓ１２１５において、コンテンツ容量削減プログラム１２３は、更新前の（Ｓ８０２において保存した）コンテンツ管理表５００における更新前のチャンク４２０と対象チャンク４２０とを基準チャンク４２０に設定する。

従って、本実施例によっても、上述した実施例１と同様の効果を奏することができる。

クライアント１１がコンテンツ３１０を新規に作成して記憶デバイス２４０に格納する（ライト要求をする）場合、既に記憶デバイス２４０に格納されている他のコンテンツ３１０を複製して新規コンテンツ３１０を作成することがある。本実施例は、このような他のコンテンツ３１０を複製して作成された新規コンテンツ３１０についても適切な更新前チャンク４２０を簡易に検索できるものである。

ここで、実施例３が適用されるＮＡＳ１０も実施例１のそれと同様である。また、図示しない各種処理については、既に説明した実施例１及び実施例２の各種処理が行われる。

図１９は、実施例３に係るＮＡＳ１０の重複チャンク管理表６０１の構成の一例を示す図である。図１９に示す本実施例の重複チャンク管理表６０１には、実施例１の重複チャンク管理表６００に、逆引き代表コンテンツＩＤ６１１及び代表コンテンツ参照数６１２が追加されている。

逆引き代表コンテンツＩＤ６１１には、重複チャンク格納コンテンツ３２０において最も多く参照されているコンテンツ３１０のＩＤが格納される。代表コンテンツ参照数６１２は、逆引き代表コンテンツＩＤ６１１において特定されたコンテンツ３１０が参照されている数である。これら逆引き代表コンテンツＩＤ６１１及び代表コンテンツ参照数６１２は事前に入力されており、後述する処理において適宜更新されうる。

図２０は、実施例３に係るＮＡＳ１０の新規作成コンテンツデータ削減処理の一例を示すフローチャートである。図２０のフローチャートに示す新規作成コンテンツデータ削減処理は、クライアント１１によりコンテンツ３１０が新規に作成されて記憶デバイス２４０に格納されたことをトリガとして開始される。

まず、コンテンツ容量削減プログラム１２３は、新規作成されたコンテンツ３１０をチャンク４２０に分割する（Ｓ１３０２）。チャンク４２０に分割する手法は既知であるのでここでの説明は省略する。

次いで、コンテンツ容量削減プログラム１２３は、新規作成されたコンテンツ３１０に含まれるチャンク４２０について、どのチャンク４２０に対して重複排除処理を行うかを特定する変数ｉを初期化し（Ｓ１３０３）、対象となるチャンク４２０についてサブルーチンＳ１５００を実行することで、対象チャンク４２０の重複排除処理を行う。

サブルーチンＳ１５００による重複排除処理の後、コンテンツ容量削減プログラム１２３は、重複排除処理を行う対象チャンク４２０を特定する変数ｉが、コンテンツ３１０を構成するチャンク４２０の総数ｎを下回っているか否かを判定する（Ｓ１３０４）。そして、下回っていると判定したら（Ｓ１３０４においてＹＥＳ）Ｓ１３０５に進み、下回っていない（この場合はｉ＝ｎという判定である）と判定したら（Ｓ１３０４においてＮＯ）、サブルーチンＳ１４００に示す更新前コンテンツ選定処理を実行する。更新前コンテンツ選定処理は、できるだけ重複するチャンク４２０との間で差分圧縮処理を行うためのものである。

Ｓ１３０５では、コンテンツ容量削減プログラム１２３が変数ｉを１つインクリメントする。その後、処理はサブルーチンＳ１５００に戻る。

サブルーチンＳ１４００による更新前コンテンツ選定処理の後、コンテンツ容量削減プログラム１２３は、どのチャンク４２０に対して差分圧縮処理等を行うかを特定する変数ｉを初期化し（Ｓ１３０６）、次いで、変数ｉにより特定される対象チャンク４２０が重複排除済みであるか否かを判定する（Ｓ１３０７）。そして、対象チャンク４２０が重複排除済みであると判定したら（Ｓ１３０７においてＹＥＳ）、サブルーチンＳ１０００に示す更新前チャンク選定処理を行い、対象チャンク４２０が重複排除済みでないと判定したら（Ｓ１３０７においてＮＯ）Ｓ１３１０に進む。

サブルーチンＳ１０００による更新前チャンク選定処理の後、コンテンツ容量削減プログラム１２３は、更新前の対象チャンク４２０が重複排除済みまたは差分圧縮済みであるか否かを判定する（Ｓ１３０８）。そして、更新前の対象チャンク４２０が重複排除済みまたは差分圧縮済みであると判定したら（Ｓ１３０８においてＹＥＳ）サブルーチンＳ１２００に示すチャンク差分圧縮処理（図１８参照）を実行し、更新前の対象チャンク４２０が重複排除済み及び差分圧縮済みのいずれでもないと判定したら（Ｓ１３０８においてＮＯ）、サブルーチンＳ６００に示す非データ削減チャンク処理（図１１参照）を実行する。

サブルーチンＳ１２００によるチャンク差分圧縮処理の実行の後、コンテンツ容量削減プログラム１２３は、対象チャンク４２０が差分圧縮済みであるか否かを判定する（Ｓ１０９）。そして、対象チャンク４２０が差分圧縮済みであると判定したら（Ｓ１３０９においてＹＥＳ）Ｓ１３１０に進み、対象チャンク４２０が差分圧縮処理をされていないと判定したら（Ｓ１３０９においてＮＯ）サブルーチンＳ６００に示す非データ削減チャンク処理を実行する。サブルーチンＳ６００に示す非データ削減チャンク処理の実行後は、Ｓ１３１０に進む。

Ｓ１３１０において、コンテンツ容量削減プログラム１２３は、差分圧縮処理等を行う対象チャンク４２０を特定する変数ｉが、コンテンツ３１０を構成するチャンク４２０の総数ｎを下回っているか否かを判定する。そして、下回っていると判定したら（Ｓ１３１０においてＹＥＳ）Ｓ１３１１に進み、コンテンツ容量削減プログラム１２３が変数ｉを１つインクリメントする。その後、処理はＳ１３０７に戻る。一方、下回っていない（この場合はｉ＝ｎという判定である）と判定したら（Ｓ１３１０においてＮＯ）、コンテンツ容量削減プログラム１２３は、複製して残していたコンテンツ管理表５００を削除し（Ｓ１３１２）、図２０のフローチャートに示す処理を終了する。

図２１は、実施例３に係るＮＡＳ１０の更新前コンテンツ選定処理の一例を示すフローチャートである。

まず、コンテンツ容量削減プログラム１２３は、対象コンテンツ３１０内において重複排除済みのチャンク４２０が最も多く参照する重複チャンク格納コンテンツ３２０を特定する（Ｓ１４０２）。次に、コンテンツ容量削減プログラム１２３は、重複チャンク管理表６０１を参照し、Ｓ１４０２において特定した重複チャンク格納コンテンツ３２０の逆引き代表コンテンツＩＤ６１１を取得する（Ｓ１４０３）。そして、コンテンツ容量削減プログラム１２３は、取得した逆引き代表コンテンツＩＤ６１１により特定されるコンテンツ３１０のコンテンツ管理表５００から、前回データ削減処理時チャンク情報５３０を利用する（Ｓ１４０４）。

図２２は、実施例３に係るＮＡＳ１０のチャンク重複排除処理を示すフローチャートである。図２２のフローチャートに示すチャンク重複排除処理は、図１７のフローチャートに示す実施例２のチャンク重複排除処理に、新規作成コンテンツデータを重複チャンク格納コンテンツ３２０に移動する作業を追加したものである。

図２２のフローチャートにおいて、Ｓ１５０２～Ｓ１５０６は、図１７のフローチャートのＳ１１０２～Ｓ１１０６と共通する。なお、Ｓ１５０６において、フィンガプリントが一致するチャンク４２０が既に重複チャンク４２０であるか否かの判定は、既に発生した重複チャンク４２０が重複チャンク格納コンテンツ３２０に移動済みであるか（Ｓ１５０６においてＹＥＳ）、あるいはまだ移動していないか（Ｓ１５０６においてＮＯ）の判定である。

フィンガプリントが一致するチャンク４２０が既に重複チャンク４２０である（Ｓ１５０６においてＹＥＳ）と判定したら、コンテンツ容量削減プログラム１２３は、対象チャンク４２０を含むコンテンツ３１０が重複チャンク格納コンテンツ３２０のチャンク参照数において代表コンテンツ３１０の代表コンテンツ参照数６１２を超えるか否かを判定する（Ｓ１５０８）。そして、超えると判定したら（Ｓ１５０８においてＹＥＳ）Ｓ１５０９に進み、超えないと判定したら（Ｓ１５０８においてＮＯ）Ｓ１５１０に進む。

一方、フィンガプリントが一致するチャンク４２０は既に重複チャンク４２０でない（Ｓ１５０６においてＮＯ）と判定したら、サブルーチンＳ１５５０（重複チャンク格納コンテンツチャンク移動処理）に進む。

Ｓ１５０９において、コンテンツ容量削減プログラム１２３は、重複チャンク管理表６０１の逆引き代表コンテンツＩＤ６１１と参照数６２２とを、対象チャンク４２０を含むコンテンツ３１０のＩＤ及び参照数で更新する。Ｓ１５１０～Ｓ１５１２は、図１７のＳ１１０８～Ｓ１１０９及びＳ１１１８～Ｓ１１１９と共通する。

図２３は、実施例３に係るＮＡＳ１０の重複チャンク格納コンテンツチャンク移動処理を示すフローチャートである。図２３のフローチャートに示す重複チャンク格納コンテンツチャンク移動処理は、図１７のフローチャートに示すチャンク重複排除処理のうち、Ｓ１１１０～Ｓ１１１７とほぼ同じである。

異なるのは、Ｓ１５５２、Ｓ１５５５及びＳ１５５６である。すなわち、コンテンツ容量削減プログラム１２３は、対象チャンク４２０を含むコンテンツ３１０と一致するチャンク４２０を含むコンテンツ３１０から最も多く参照する重複チャンク格納コンテンツ３２０を、チャンク４２０の追記先として選択する（Ｓ１５５２）。つまり、できるだけ参照数が多い重複チャンク格納コンテンツ３２０にまとめる作業を行う。

また、コンテンツ容量削減プログラム１２３は、対象チャンク４２０を含む、または一致するチャンク４２０を含むコンテンツ３１０が、重複チャンク格納コンテンツ３２０のチャンク参照数において代表コンテンツ３１０の代表コンテンツ参照数６１２を超えるか否かを判定する（Ｓ１５５５）。そして、超えると判定したら（Ｓ１５５５においてＹＥＳ）Ｓ１５５６に進み、超えないと判定したら（Ｓ１５５５においてＮＯ）Ｓ１５５７に進む。

Ｓ１５５６において、コンテンツ容量削減プログラム１２３は、重複チャンク管理表６０１の逆引き代表コンテンツＩＤ６１１と参照数６２２とを、対象チャンク４２０を含む、または一致するチャンク４２０を含むコンテンツ３１０のＩＤ及び参照数で更新する。

従って、本実施例によっても、上述した実施例２と同様の効果を奏することができる。

図２４は、実施例４に係るストレージシステムの概略構成を示すブロック図である。

本実施例はいわゆるブロックストレージシステムに適用される。ホスト２１はＳＡＮ（Storage Area Network）２２を介してストレージシステム２００にアクセスする。

ストレージシステム２００の概略の構成は実施例１のストレージシステム２００と略同一である。本実施例においては、データ削減プログラム２２２がストレージシステム２００のメモリ２２０内にあるブロックストレージプログラム２２１に含まれている。また、ストレージシステム２００の記憶デバイス２４０には、アドレス変換表１０００、ブロック管理表１１００、重複ブロック判定表１２００及びブロック９００、９１０が格納されている。アドレス変換表１０００、ブロック管理表１１００及び重複ブロック判定表１２００の詳細については後述する。

図２５は、実施例４に係るストレージシステム２００に格納されるデータの構成の一例を示す図である。

本実施例のストレージシステム２００では、ホスト２１がストレージシステム２００に対して操作を行うデータの単位であるファイルを複数のデータ単位に分割してストレージシステム２００に格納している。実施例４（及び後述する実施例５）においては、ファイルは、データ長が固定長であるブロック９００に分割されてストレージシステム２００に格納されている。この際、データ削減プログラム２２２は、ブロック９００、９１０に対して重複排除処理及び差分圧縮処理を行う。

ブロックストレージプログラム２２１は、ホスト２１に対して論理アドレス空間８１０を提供し、ホスト２１はこの論理アドレス空間８１０においてファイルの操作を行う。ファイルの実体は物理アドレス空間８２０にある。ファイルは固定長のブロック９００に分割されている。論理アドレス空間８１０上のブロック９００と物理アドレス空間８２０上のブロック９００とは後述する変換テーブルにより対応付けられている。

本実施例のストレージシステム２００においてもデータ削減プログラム２２２は重複排除処理及び差分圧縮処理を行うことでデータ削減処理をしている。物理アドレス空間８２０上にあるブロック９００は、論理アドレス空間８１０上において複数のブロック９００により参照されることがあり、これにより重複排除処理がされている。また、論理アドレス空間８１０上の差分圧縮対象ブロック９１０は、物理アドレス空間８２０上においてブロック９００と差分圧縮処理の結果である差分ブロック９２０とに対応付けられている。

図２６は、ブロックデータの差分圧縮処理の一例を説明するための図である。

ベースブロック９００と差分圧縮対象ブロック９１０との間でＸＯＲ（排他的論理和）演算が行われる。ベースブロック９００と差分圧縮対象ブロック９１０とでビット単位で共通する部分はＸＯＲ演算の結果として０が出力されるので、適切な圧縮処理を行うことで差分ブロック９２０のデータ容量を削減することができる。

図２７は、実施例４に係るストレージシステム２００のアドレス変換表１０００の構成の一例を示す図である。

アドレス変換表１０００は、ファイルの構造管理データの一例であり、アドレス変換表１０００の各行が論理アドレス空間８１０上における個々のブロック９００に対応している。

ＬＢＡ（Logical Block Address）１０１０にはそれぞれのブロック９００の論理アドレス空間８１０上におけるアドレス値が格納される。データ削減処理済みフラグ５２２には、このブロック９００が既にデータ量削減処理がされたか否かを示すフラグ（Ｔｒｕｅであればデータ量削減処理済み、Ｆａｌｓｅであればデータ量削減未処理）が格納される。

アドレス変換表１０００には、データ削減処理前ブロック情報１０２０としてＰＢＡ（Physical Block Address）１０２１を有する。ＰＢＡ１０２１には、ＬＢＡ１０１０により特定されるブロック９００の物理アドレス空間８２０上における物理アドレスが格納される。

また、アドレス変換表１０００には、前回データ削減処理時ブロック情報１０３０として、差分圧縮フラグ１０３１、ＰＢＡ１０３２、及びブロック内オフセット１０３３が格納される。前回データ削減処理時ブロック情報１０３０は、前回のデータ削減プログラム２２２による容量削減処理が行われた際の情報である。

差分圧縮フラグ１０３１は、前回の容量削減処理においてデータ削減プログラム２２２により差分圧縮処理がされたか否かを示すフラグであり、差分圧縮処理がされていればＴｒｕｅ、差分圧縮処理がされていなければＦａｌｓｅが格納される。ＰＢＡ１０３２には、ＬＢＡ１０１０により特定されるブロック９００の物理アドレス空間８２０上における物理アドレスが格納される。ブロック内オフセット１０３３には、差分圧縮対象ブロック９１０において差分ブロック９２０がどの位置にあるかを示すオフセットが格納される。

図２８は、実施例４に係るストレージシステム２００のブロック管理表１１００の構成の一例を示す図である。ブロック管理表１１００は、物理アドレス空間８２０上のブロック９００、９２０単位に作成される。

ＰＢＡ１１１０には、ブロック９００の物理アドレス空間８２０上における物理アドレスが格納される。参照数１１１１には、ＰＢＡ１１１０により特定されるブロック９００が論理アドレス空間８１０上のブロック９００からどれだけの数参照されているかを示す数が格納される。差分圧縮フラグ１１１２は、ＰＢＡ１１１０により特定されるブロック９００が差分圧縮処理されているか否かを示すフラグであり、差分圧縮処理がされていればＴｒｕｅ、差分圧縮処理がされていなければＦａｌｓｅが格納される。

ブロック内オフセット１１１３、差分圧縮後サイズ１１１４、ベースブロック情報１１２０は差分ブロック９２０にのみ適用されるカラムであり、ブロック内オフセット１０３３には、差分ブロック９２０を構成する差分圧縮データがどの位置から開始するかを示すオフセットが格納される。差分圧縮後サイズ１１１４には、差分ブロック９２０を構成する差分圧縮データの差分圧縮処理後のサイズを示す値が格納される。ベースブロック情報１１２０は、差分ブロック９２０が差分圧縮処理された対象となるベースブロック９００に関する値が格納され、ＰＢＡにはベースブロック９００の物理アドレスが、ブロック内オフセットにはベースブロック９００のオフセットが格納される。

図２９は、実施例４に係るストレージシステム２００の重複ブロック判定表１２００の構成の一例を示す図である。重複ブロック判定表１２００は、物理アドレス空間８２０上のブロック９００単位に作成される。

フィンガプリント１２１０は、個々のブロック９００のデータから求められた固定長のハッシュ値であり、このフィンガプリント１２１０を用いればブロック９００を一意に特定することができる。差分圧縮フラグ１２１１は、ＰＢＡ１２１２により特定されるブロック９００が差分圧縮処理されているか否かを示すフラグであり、差分圧縮処理がされていればＴｒｕｅ、差分圧縮処理がされていなければＦａｌｓｅが格納される。ＰＢＡ１２１２には、ブロック９００の物理アドレス空間８２０上における物理アドレスが格納される。オフセット１２１３にはブロック９００のオフセットが格納される。

図３０は、実施例４に係るストレージシステム２００のブロックデータ削減処理の一例を示すフローチャートである。

本実施例及び後述する実施例５において、図３０に示すブロックデータ削減処理は、ブロック９００単位でポストプロセス時に実行される。データ削減プログラム２２２はブロック９００単位でデータ削減処理を行う。実行されるタイミングは任意であるが、一例として、ストレージシステム２００のプロセッサ２１０がファイルの操作ログを適宜取得し、この操作ログから更新処理がされたファイルを特定し、更新に係るブロック９００について図３０に示すブロックデータ削減処理を行う例が挙げられる。あるいは、ファイル単位で更新処理がされたら状態が変化する更新フラグを設けておき、この更新フラグから更新処理がされたファイルを特定し、更新に係るブロック９００について図３０に示すファイルデータ削減処理を行う例が挙げられる。

まず、データ削減プログラム２２２は、サブルーチンＳ１７００（ブロック重複排除処理）を実行する。ブロック重複排除処理の詳細については後述する。次いで、データ削減プログラム２２２は、対象となるブロック９００が重複排除処理されたか否かを、ブロック管理表１１００の参照数１１１１を参照して判定する（Ｓ１６０２）。そして、重複排除処理がされたと判定したら（Ｓ１６０２においてＹＥＳ）図３０フローチャートに示す処理を終了し、重複排除処理がされなかったと判定したら（Ｓ１６０２においてＮＯ）Ｓ１６０３に進む。

Ｓ２０４では、データ削減プログラム２２２が、更新前の対象ブロック９００が重複排除済みまたは差分圧縮済みであったか否かを、アドレス変換表１０００を参照して判定する。そして、更新前の対象ブロック９００が重複排除済みまたは差分圧縮済みであったと判定したら（Ｓ１６０３においてＹＥＳ）、サブルーチンＳ１８００（ブロック差分圧縮処理）を実行し、更新前の対象ブロック９００が重複排除済みでもなく差分圧縮済みでもなかったと判定したら（Ｓ１６０３においてＮＯ）サブルーチンＳ１９００（非データ削減ブロック処理）を実行する。ブロック差分圧縮処理及び非データ削減ブロック処理の詳細については後述する。

サブルーチンＳ１８００の処理が終わったら、データ削減プログラム２２２は、サブルーチンＳ１８００による差分圧縮処理でブロック９００の容量が削減できたか否かを判定する（Ｓ１６０５）。そして、ブロック９００の容量が削減できたと判定したら（Ｓ１６０５においてＹＥＳ）図３０フローチャートに示す処理を終了し、ブロック９００の容量が削減できなかったと判定したら（Ｓ１６０５においてＮＯ）サブルーチンＳ１９００を実行する。その後、図３０のフローチャートに示す処理を終了する。

図３１は、実施例４に係るストレージシステム２００のブロック重複排除処理を示すフローチャートである。

まず、データ削減プログラム２２２は、対象ブロック９００のフィンガプリントを算出する（Ｓ１７０２）。次いで、データ削減プログラム２２２は、Ｓ１７０２で算出したフィンガプリントに一致するフィンガプリントが存在するか否かを、重複ブロック判定表１２００のフィンガプリント１２１０を参照して検索する（Ｓ１７０３）。そして、一致するフィンガプリントがあると判定したら（Ｓ１７０３においてＹＥＳ）、重複するブロック９００が存在しているので、一致したブロック９００に対してサブルーチンＳ２０００（ブロックリード処理）を実行する。ブロックリード処理の詳細については後述する。一方、一致するフィンガプリントがないと判定したら（Ｓ１７０３においてＮＯ）、重複するブロック９００が存在していないので、図３１のフローチャートに示す処理を終了する。

サブルーチンＳ２０００の処理の終了後、データ削減プログラム２２２は、サブルーチンＳ２０００において読み出した（リードした）ブロック９００のフィンガプリントを計算する（Ｓ１７０４）。そして、データ削減プログラム２２２は、Ｓ１７０４で算出したフィンガプリントが対象ブロック９００のフィンガプリントと一致するか否かを判定する（Ｓ１７０５）。そして、Ｓ１７０４で算出したフィンガプリントが対象ブロック９００のフィンガプリントと一致すると判定したら（Ｓ１７０５においてＹＥＳ）Ｓ１７０６に進み、Ｓ１７０４で算出したフィンガプリントが対象ブロック９００のフィンガプリントに一致しないと判定したら（Ｓ１７０６においてＮＯ）、図３１のフローチャートに示す処理を終了する。

Ｓ１７０６では、データ削減プログラム２２２が、ブロック管理表１１００から一致する重複ブロック９００の参照数１１１１を１だけ加算する。次いで、データ削減プログラム２２２は、データ削減処理前の対象ブロック９００を削除する（Ｓ１７０７）。そして、データ削減プログラム２２２は、対象ブロック９００についてのアドレス変換表１０００を更新し（Ｓ１７０８）、図９のフローチャートに示す処理を終了する。

図３２は、実施例４に係るストレージシステム２００のブロック差分圧縮処理の一例を示すフローチャートである。

まず、データ削減プログラム２２２は、更新前の対象ブロック９００が重複排除済みであるか否かを、アドレス変換表１０００のデータ削減処理済みフラグ１０１１を参照して判定する（Ｓ１８０２）。そして、更新前の対象ブロック９００が重複排除済みであると判定したら（Ｓ１８０２においてＹＥＳ）Ｓ１８０３に進み、更新前の対象ブロック９００が重複排除済みでないと判定したら（Ｓ１８０２においてＮＯ）、更新前の対象ブロック９００は既に重複排除済みまたは差分圧縮済みであったと判定されており（Ｓ１６０３においてＹＥＳ）、従って、更新前の対象ブロック９００は差分圧縮済みであるので、Ｓ１８０８に進む。

Ｓ１８０３では、データ削減プログラム２２２が更新前の対象ブロック９００を読み出す。次いで、データ削減プログラム２２２は、更新前の対象ブロック９００と対象ブロック９００との間で差分圧縮処理を行う（Ｓ１８０４）。

Ｓ１８０４における差分圧縮処理の結果、差分ブロック９２０が対象ブロック９００より容量が少なくなった（小さくなった）か否かを、データ削減プログラム２２２が判定する（Ｓ１８０５）。そして、差分ブロック９２０が対象ブロック９００より小さくなったと判定したら（Ｓ１８０５においてＹＥＳ）Ｓ１８０６に進み、差分ブロック９２０が対象ブロック９００より小さくならないと判定したら（Ｓ１８０５においてＮＯ）、図３２のフローチャートに示す処理を終了する。

Ｓ１８０６では、データ削減プログラム２２２が、差分ブロック９２０を記憶デバイス２４０の空き領域に書き込む。次いで、データ削減プログラム２２２は、ブロック管理表１１００において更新前の対象ブロック９００の参照数１１１１を１だけ加算する（Ｓ１８０７）。さらに、データ削減プログラム２２２はアドレス変換表１０００を更新し（Ｓ１８１３）、重複ブロック判定表１２００に対象ブロック９００の情報を登録する（Ｓ１８１４）。この後、図１０のフローチャートに示す処理を終了する。

一方、Ｓ１８０８では、データ削減プログラム２２２が更新前の対象ブロック９００のベースブロック９００を読み出す。次いで、データ削減プログラム２２２は、更新前の対象ブロック９００のベースブロック９００と対象ブロック９００との間で差分圧縮処理を行う（Ｓ１８０９）。

Ｓ１８０９における差分圧縮処理の結果、差分ブロック９２０が対象ブロック９００より容量が少なくなった（小さくなった）か否かを、データ削減プログラム２２２が判定する（Ｓ１８１０）。そして、差分ブロック９２０が対象ブロック９００より小さくなったと判定したら（Ｓ１８１０においてＹＥＳ）Ｓ１８１１に進み、差分ブロック９２０が対象ブロック９００より小さくならないと判定したら（Ｓ１８１０においてＮＯ）、図３２のフローチャートに示す処理を終了する。

Ｓ１８１１では、データ削減プログラム２２２が、差分ブロック９２０を記憶デバイス２４０の空き領域に書き込む。次いで、データ削減プログラム２２２は、ブロック管理表１１００においてベースブロック９００の参照数１１１１を１だけ加算する（Ｓ１８１２）。この後、Ｓ１８１３に進む。

図３３は、実施例４に係るストレージシステム２００の非データ削減ブロック処理の一例を示すフローチャートである。

まず、データ削減プログラム２２２はアドレス変換表１０００を更新する（Ｓ１９０２）。次いで、データ削減プログラム２２２は、重複ブロック判定表１２００に対象ブロック９００の情報を登録し（Ｓ１９０３）、図３３のフローチャートに示す処理を終了する。

図３４は、実施例４に係るストレージシステム２００のブロックリード処理の一例を示すフローチャートである。図３４にフローチャートに示すブロックリード処理は、ホスト２１からのファイルのリード要求をトリガとする。

まず、データ削減プログラム２２２は、リード要求の対象となっている対象ブロック９００が差分圧縮済みであるか否かを、ブロック管理表１１００の差分圧縮フラグ１１１２を参照して判定する（Ｓ２００２）。そして、対象ブロック９００が差分圧縮済みであると判定したら（Ｓ２００２においてＹＥＳ）Ｓ２００３に進み、対象ブロック９００が差分圧縮済みでないと判定したら（Ｓ２００２においてＮＯ）Ｓ２００６に進む。

Ｓ２００３では、データ削減プログラム２２２がベースブロック９００を読み出す。次いで、データ削減プログラム２２２は、記憶デバイス２４０の対象領域から差分ブロック９２０を読み出す（Ｓ２００４）。さらに、データ削減プログラム２２２は、ベースブロック９００と差分ブロック９２０から差分圧縮対象ブロック９１０を復元し（Ｓ２００５）、図３４のフローチャートに示す処理を終了する。

Ｓ２００６では、対象ブロック９００は重複ブロック９００でも差分ブロック９２０でもないので、データ削減プログラム２２２は、記憶デバイス２４０の対象領域から対象ブロック９００を読み出し、図３４のフローチャートに示す処理を終了する。

図３５は、実施例４に係るストレージシステム２００のブロック更新処理の一例を示すフローチャートである。図３５にフローチャートに示すブロック更新処理は、ホスト２１からのファイルのライト要求をトリガとする。

まず、データ削減プログラム２２２は、ライト要求の対象でもある対象ブロック９００が重複排除済みまたは差分圧縮済みであるか否かを、アドレス変換表１０００を参照して判定する（Ｓ２１０２）。そして、対象ブロック９００が重複排除済みまたは差分圧縮済みであると判定したら（Ｓ２１０２においてＹＥＳ）、更新後のブロック９００を記憶デバイス２４０の対象領域に書き込み（Ｓ２１０３）、重複排除済みでも差分圧縮済みでもないと判定したら（Ｓ２１０２においてＮＯ）Ｓ２１０５に進む。

Ｓ２１０３の後、データ削減プログラム２２２はブロック管理表１１００から更新前のブロック９００の参照数１１１１を１だけ減算する（Ｓ２１０４）。一方、Ｓ２１０５では、データ削減プログラム２２２が更新後のブロック９００を上書きする。

そして、データ削減プログラム２２２は、アドレス変換表１０００の対象ブロック９００の情報を更新し、図３５のフローチャートに示す処理を終了する。

図３６は、実施例５に係るＮＡＳ１０の概略構成を示すブロック図である。

本実施例のストレージシステムであるＮＡＳ１０は、実施例１に示したＮＡＳヘッド１００と実施例４に示したストレージシステム２００とを有する。このとき、データ削減処理を行うプログラムは、ストレージシステム２００のメモリ２２０内に格納されているデータ削減プログラム２２２である。また、ストレージシステム２００の記憶デバイス２４０には、実施例４の記憶デバイス２４０に格納された各種データに加えて、コンテンツ管理表５０１が格納される。

本実施例の基本的な動作は実施例４と共通し、図示しない各種処理については、既に説明した実施例４の各種処理が行われる。以下、実施例４と異なる動作をする点を中心に説明する。

本実施例では、ブロックデータ更新に係る情報をＮＡＳヘッド１００がストレージシステム２００に提供し、ストレージシステム２００のデータ削減プログラム２２２がデータ削減処理を行う。

図３７は、実施例５に係るＮＡＳ１０に格納されるデータの構成の一例を示す図である。

図３７に示すように、本実施例のＮＡＳ１０において、ローカルファイルシステムプログラム１２２が提供するファイルシステムにより、ホスト２１はコンテンツ単位で操作を行う。実施例４と同様に、ストレージシステム２００の論理アドレス空間８１０には複数の固定長のブロック９００が存在し、少なくとも一つのブロック９００によりコンテンツが構成されている。

図３８は、実施例５に係るストレージシステム２００のコンテンツ管理表の構成の一例を示す図である。

コンテンツ管理表５０１はコンテンツ単位に作成される。コンテンツＩＤ５１０には、個々のコンテンツを特定するＩＤが格納される。コンテンツ内ブロック番号５４０には、コンテンツを構成するブロックを特定する番号が格納される。ＬＢＡ５４１には、コンテンツ内ブロック番号５４０により特定されるブロック９００の論理アドレスが格納される。

図３９は、実施例５に係るＮＡＳ１０の特殊ライトコマンドの構成の一例を示す図である。図３９に示す特殊ライトコマンドは、ＮＡＳヘッド１００からストレージシステム２００へのライト要求の際に発行される。

特殊ライトコマンドは、オペレーションコード、ネームスペース、データポインタ、書き込み先ＬＢＡ、及び更新前ＬＢＡを有する。本実施例の特殊ライトコマンドは、通常のライトコマンドに加えて、ブロックデータの更新前のＬＢＡを特定する更新前ＬＢＡを有する。

図４０は、実施例５に係るＮＡＳ１０のＮＡＳブロック更新処理の一例を示すフローチャートである。図４０のＮＡＳブロック更新処理は、クライアント１１からのファイルのライト要求をトリガとし、ＮＡＳヘッド１００のプロセッサ１１０により実行される。

まず、プロセッサ１１０は、ブロックストレージであるストレージシステム２００からライト要求の対象となる対象ブロック９００を読み出す（Ｓ２２０２）。次に、プロセッサ１１０は、Ｓ２２０２でリードしたブロックへ更新内容を反映する（Ｓ２２０３）。次いで、プロセッサ１１０は、更新したブロック９００の書き込み先ＬＢＡを決定する（Ｓ２２０４）。さらに、プロセッサ１１０は、ストレージシステム２００に対して、特殊ライトコマンドを用いて更新前ブロック９００のＬＢＡと更新後（つまり書き込み先）ブロック９００のＬＢＡを通知して、ライト処理を依頼する。

その後、ストレージシステム２００は、図３５に示すサブルーチンＳ２１００（ブロック更新処理）を実行し、ライト完了通知をＮＡＳヘッド１００に通知する。プロセッサ１１０は、ストレージシステム２００からライト完了通知を受領し（Ｓ２２０６）、図４０に示す処理を終了する。

図４１は、実施例５に係るストレージシステム２００のブロック差分圧縮処理の一例を示すフローチャートである。図４１のフローチャートに示すブロック差分圧縮処理は、図３２のフローチャートに示す実施例４のブロック差分圧縮処理に、ＮＡＳヘッド１００から通知された更新前ブロックのＬＢＡを用いて更新前ブロック９００を特定する作業を追加したものである。

すなわち、データ削減プログラム２２２は、ＮＡＳヘッド１００からのブロック更新処理のリクエスト時に更新前ブロック９００のＬＢＡが通知されているか否かを判定する（Ｓ２３０２）。そして、更新前ブロック９００のＬＢＡが通知されていると判定したら（Ｓ２３０２においてＹＥＳ）Ｓ２３０３に進み、更新前ブロック９００のＬＢＡが通知されていないと判定したら（Ｓ２３０２においてＮＯ）Ｓ２３０４に進む。Ｓ２３０３では、データ削減プログラム２２２が、通知されたＬＢＡのブロック９００を更新前ブロック９００として設定する。

Ｓ２３０４以降は、図３５のＳ１８０２～Ｓ１８１４と同一の処理を行う。

従って、本実施例によっても、上述した実施例４と同様の効果を奏することができる。

なお、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（Solid State Drive）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｊａｖａ（登録商標）、Ｐｙｔｈｏｎ等の広範囲のプログラム又はスクリプト言語で実装できる。

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

１１…クライアント１２…ネットワーク２１…ホスト１００…ＮＡＳヘッド１１０…プロセッサ１２０…メモリ１２３…コンテンツ容量削減プログラム２００…ストレージシステム２１０…プロセッサ２２０…メモリ２２２…データ削減プログラム２３０…キャッシュ２４０…記憶デバイス３１０…コンテンツ３２０…重複チャンク格納コンテンツ４１０…非重複チャンク４２０…重複チャンク４３０…差分圧縮対象チャンク４４０…差分チャンク５００、５０１…コンテンツ管理表６００、６０１…重複チャンク管理表７００…重複チャンク判定表９００…ブロック９１０…差分圧縮対象ブロック９２０…差分ブロック１０００…アドレス変換表１１００…ブロック管理表１２００…重複ブロック判定表

Claims

データを格納するストレージデバイスと、前記ストレージデバイスに格納する前記データを処理するプロセッサとを備えたストレージシステムにおいて、
重複する複数の前記データに対して重複排除を行う重複排除機能と、類似する複数の前記データの差分を格納する差分圧縮機能と、を有し、
前記プロセッサは、格納している前記データを更新するライト要求を受信すると、
前記ライト要求よる更新前の前記データが前記重複排除を行われており、前記更新後の前記データが他の前記データと重複しない場合に、前記更新前の前記データと前記更新後の前記データとの差分を生成して格納する前記差分圧縮を行う
ことを特徴とするストレージシステム。
前記更新後の前記データについて重複判定を行い、
他の前記データと重複している場合には、前記他のデータと重複排除を行い、
他の前記データと重複しておらず、前記更新前の前記データが重複データである場合に、前記差分圧縮を行う
ことを特徴とする請求項１に記載のストレージシステム。
更新後の前記データが他の前記データと重複しておらず、前記更新前のデータが重複データではない場合に、前記更新後の前記データを前記ストレージデバイスに格納する
ことを特徴とする請求項２に記載のストレージシステム。
前記プロセッサは、前記差分圧縮を行った更新データを再更新するライト要求を受信すると、
前記再更新後の前記データについて重複判定を行い、
他の前記データと重複している場合には、前記他のデータと重複排除を行い、
他の前記データと重複していない場合、前記更新前のデータとの前記差分圧縮を行う
ことを特徴とする請求項１に記載のストレージシステム。
前記ライト要求よる更新前の前記データが前記重複排除を行われており、前記更新後の前記データが他の前記データと重複しない場合に、前記差分圧縮を行った場合の差分データ量と、前記差分圧縮を行わない場合の更新後データ量と、を比較し、データ量が小さい方の形態にて前記データを格納する
ことを特徴とする請求項１に記載のストレージシステム。
前記ストレージデバイス内の前記更新前データは、前記ライト要求による前記データの更新前及び更新後において、前記重複排除機能により他の前記データから参照されており、前記データの更新後に削除されずに前記ストレージデバイス内に格納される
ことを特徴とする請求項１に記載のストレージシステム。
複数の前記データを順番を並べてデータ列でファイルを構成し、
前記ファイルの更新は、前記データ列への前記データの挿入及び前記データの削除を含み、
前記ファイルを更新した場合に、前記更新前のファイルと前記更新後のファイルとで前記データの重複判定を行い、重複判定に基づいて前記データの挿入及び前記データの削除を検知して前記差分圧縮の基準データを変更することを特徴とする請求項１に記載のストレージシステム。
複数の前記データでファイルを構成し、
前記プロセッサは、
前記ファイル内の前記データが前記重複排除及び差分圧縮にて参照する参照先データの数に基づいて、代表ファイルを特定し、
前記代表ファイルを基準として差分圧縮を行う
ことを特徴とする請求項１に記載のストレージシステム。
前記ストレージシステムは上位管理システムを有し、
前記上位管理システムからの通知により前記更新前データを特定する
ことを特徴とする請求項１に記載のストレージシステム。
データを格納するストレージデバイスと、前記ストレージデバイスに格納するデータを処理するプロセッサとを備えたストレージシステムにおけるデータ量削減方法であって、
重複する複数のデータに対して重複排除を行う重複排除機能と、類似する複数のデータの差分を格納する差分圧縮機能と、を有し、
格納しているデータを更新するライト要求を受信すると、
前記ライト要求よる更新前のデータが前記重複排除を行われており、前記更新後のデータが他のデータと重複しない場合に、前記更新前のデータと前記更新後のデータとの差分を生成して格納する前記差分圧縮を行う
ことを特徴とするストレージシステムにおけるデータ量削減方法。