JP6337507B2

JP6337507B2 - ストレージシステム

Info

Publication number: JP6337507B2
Application number: JP2014032590A
Authority: JP
Inventors: 悠永田
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2014-02-24
Filing date: 2014-02-24
Publication date: 2018-06-06
Anticipated expiration: 2034-02-24
Also published as: JP2015158765A

Description

本発明は、ストレージシステムにかかり、特に、重複記憶排除機能を有するストレージシステムに関する。

近年、コンピュータの発達及び普及に伴い、種々の情報がデジタルデータ化されている。このようなデジタルデータを保存しておく装置として、磁気テープや磁気ディスクなどの記憶装置がある。そして、保存すべきデータは日々増大し、膨大な量となるため、大容量なストレージシステムが必要となっている。また、記憶装置に費やすコストを削減しつつ、信頼性も必要とされる。これに加えて、後にデータを容易に取り出すことが可能であることも必要である。その結果、自動的に記憶容量や性能の増大を実現できると共に、重複記憶を排除して記憶コストを削減し、さらには、冗長性の高いストレージシステムが望まれている。

このような状況に応じて、近年では、特許文献１に示すように、コンテンツアドレスストレージシステムが開発されている。このコンテンツアドレスストレージシステムは、データを分散して複数の記憶装置に記憶すると共に、このデータの内容に応じて特定される固有のコンテンツアドレスによって、当該データを格納した格納位置が特定される。

このように、コンテンツアドレスは、データの内容に応じて固有となるよう生成されるため、重複データであれば、同じ格納位置のデータを参照することで、同一内容のデータを取得することができる。従って、重複データを別々に格納する必要がなく、重複記録を排除し、データ容量の削減を図ることができる。つまり、コンテンツアドレスストレージシステムでは、同一内容のデータが記憶されていない場合だけ、新たなデータが記憶されるという重複排除機能を有している。

また、ストレージシステムでは、所定容量のブロックデータであるチャンクを複数のフラグメントデータに分割すると共に、冗長データとなるフラグメントをさらに付加して、これら複数のフラグメントデータをそれぞれ複数の記憶装置にそれぞれ格納している。そして、後にコンテンツアドレスを指定することにより、当該コンテンツアドレスにて特定される格納位置に格納されているフラグメントデータを読み出し、複数のフラグメントデータから分割前のチャンクを復元することができる。

このように、ストレージシステムは、冗長データとなるフラグメントデータを付加しているため、付加した冗長データのフラグメント数以下のフラグメントデータが失われた場合でも、元のチャンクを再生成することができる。

特開２０１３−１８２４７６

ここで、近年では、ＳＳＤ（Solid State Drive）など小Ｉ／Ｏにおいても十分に高速なデバイスが大容量化し、一般的に利用されることが予想される。このようなデバイスでは、デフラグの必要性が低下し、フラグメント化したファイルシステムイメージがバックアップされる可能性が高まる。ところが、このようなファイルシステムのＲＡＷバックアップは、重複排除ストレージシステムを利用して重複排除の効率を高めることが難しい。

例えば、ＳＡＮ（Storage Area Network）ストレージ上に作成されているファイルシステムを重複排除ストレージにＲＡＷバックアップする際に、ファイルシステムのフラグメント化が進んでいると、一部のファイルの更新で重複率が大きく低下する。これは、ファイルシステムイメージ上にファイルは連続して配置されていないため、同じデータを持つファイルが存在していたとしても、重複することが出来なくなるためである。

このため、本発明の目的は、上述した課題である、ＲＡＷバックアップを行うことによる重複記憶排除の効率が低下する、ということを解決することにある。

本発明の一形態であるストレージシステムは、
ＲＡＷバックアップの対象となるＲＡＷイメージデータを解析するイメージ解析手段と、
前記ＲＡＷイメージデータを、重複記憶を排除して記憶装置に記憶してＲＡＷバックアップを行うバックアップ手段と、
を備え、
前記イメージ解析手段は、前記ＲＡＷイメージデータを解析して、当該ＲＡＷイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
という構成をとる。

また、本発明の一形態であるプログラムは、
情報処理装置に、
ＲＡＷバックアップの対象となるＲＡＷイメージデータを解析するイメージ解析手段と、
前記ＲＡＷイメージデータを、重複記憶を排除して記憶装置に記憶してＲＡＷバックアップを行うバックアップ手段と、
を実現させると共に、
前記イメージ解析手段は、前記ＲＡＷイメージデータを解析して、当該ＲＡＷイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ことを実現させる、
という構成をとる。

また、本発明の一形態であるバックアップ方法は、
ＲＡＷバックアップの対象となるＲＡＷイメージデータを解析し、
前記ＲＡＷイメージデータを、重複記憶を排除して記憶装置に記憶してＲＡＷバックアップを行い、
前記ＲＡＷイメージデータの解析の際に、当該ＲＡＷイメージデータから所定のグループに分類できるデータを抽出し、
前記ＲＡＷバックアップの際に、前記ＲＡＷイメージデータの解析で抽出されたデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
という構成をとる。

本発明は、以上のように構成されることにより、ＲＡＷイメージデータのＲＡＷバックアップの際にも重複記憶排除の効率の低下を抑制することができる。

本発明の重複排除ストレージ装置を含む情報処理システムの全体構成を示すブロック図である。図１に開示したＳＡＮ装置の構成を示す機能ブロック図である。図１に開示した重複排除ストレージ装置の構成を示す機能ブロック図である。図３に開示した重複排除ストレージ装置によるデータを記憶するときの様子を示す図である。図１に開示した情報処理システムの動作を示すフローチャートである。図１に開示した情報処理システムの動作を示すフローチャートである。図３に開示した重複排除ストレージ装置の他の構成例を示す図である。図３に開示した重複排除ストレージ装置によるデータ書き込み時の様子を示す図である。図３に開示した重複排除ストレージ装置によるデータ書き込み時の様子を示す図である。図３に開示した重複排除ストレージ装置によるデータを記憶するときの他の様子を示す図である。本発明の付記１におけるストレージシステムの構成を示す図である。

＜実施形態１＞
本発明の第１の実施形態を、図１乃至図１０を参照して説明する。図１は、情報処理システムの全体構成を示すブロック図である。図２は、ＳＡＮ装置の構成を示す機能ブロック図であり、図３は、重複排除ストレージ装置の構成を示す機能ブロック図である。図４は、重複排除ストレージ装置によるＲＡＷイメージデータをＲＡＷバックアップするときの処理の様子を示す図である。図５乃至図６は、情報処理システムの動作を示すフローチャートである。図７乃至図９は、重複排除ストレージ装置によるデータ書き込み時の様子を示す図である。図１０は、重複排除ストレージ装置によるＲＡＷイメージデータをＲＡＷバックするときの他の処理の様子を示す図である。

［構成］
図１に示すように、情報処理システムは、ＳＡＮ（Storage Area Network）装置１、重複排除ストレージ装置２、業務サーバ装置３、を備えている。そして、これらはそれぞれ通信路によって接続されている。この通信路としては、例えば、Ethernet（登録商標）やFibre Channelなどで接続されたネットワークである。そして、本実施形態では、業務サーバ装置３がＳＡＮ装置２上のボリュームを使用しており、このボリュームをＳＡＮ装置１から重複排除ストレージ装置２にバックアップする場合を想定して説明する。

ＳＡＮ装置１は、図２に示すように、通信部１０、差分マップ取得部１１、ペアリング部１２、レプリケート部１３、セパレート部１４、差分情報蓄積部１５、を備えている。これら各部は、専用の回路によって構成されていたり、演算装置にプログラムが組み込まれることで構築されている。

また、ＳＡＮ装置１は、装備する記憶装置に、差分マップ情報１６を記憶する。また、ＳＡＮ装置１は、記憶装置に、バックアップ対象となるデータを記憶するボリュームであるＭＶ（Master Volume）１７と、ＲＶ（Replica Volume）１８とを備えている。

上記ペアリング部１２、レプリケート部１３、セパレート部１４は、ＭＶ１７のデータを更新したり読み込んだりする業務サーバ装置３にて通信路から利用することができる。ペアリング部１２を用いて、ＭＶ１７とＲＶ１８とをペアリングすることができる。その後、レプリケート部１３によって、ＭＶ１７からＲＶ１８にデータをコピーできる。また、セパレート部１４を用いることで、ＭＶ１７とＲＶ１８とのペアリングを解除することができる。差分情報蓄積部１５は、上記ペアリング解除によるセパレートが実施された直後からＭＶ１７に発生したデータ更新による更新ブロックを、差分マップ情報１６として記録する。そして、重複排除ストレージ装置２は、通信路からＳＡＮ装置１の差分マップ取得部１１を使用して、差分マップ情報１６を取得することができる。

重複排除ストレージ装置２は、通信部２０、ＲＡＷバックアップ部２１、ＲＡＷイメージリストア部２２、フラグメント化判断部２６、ＲＡＷイメージ解析部２７、抽出ブロック決定部２８、ファイル瞬間コピー部２９、を備えている。これら各部は、専用の回路によって構成されていたり、演算装置にプログラムが組み込まれることで構築されている。

また、重複排除ストレージ装置２は、装備する記憶装置に、ＲＡＷイメージ構成情報２５を記憶する。さらに、重複排除ストレージ装置２は、演算装置にプログラムが組み込まれることで構築されたファイル管理機能と記憶装置とにより形成された、ＦＧファイルシステム２３と、ＢＧファイルシステム２４と、を備えている。

ＲＡＷバックアップ部２１（バックアップ手段）は、まず、フラグメント化判断部２６（分散判断手段）を使用して、バックアップ対象となるＲＡＷイメージデータ内の所定単位のデータが、所定基準に基づいてフラグメント化つまり分散して記憶されているか、を判断する。また、ＲＡＷバックアップ部２１は、フラグメント化判断部２６による判断に基づいて、ＲＡＷイメージデータを分解してＢＧファイルシステム２４に記録する。このとき、ＲＡＷバックアップ部２１は、既に記憶されているデータの重複記憶を排除して、記憶データをＢＧファイルシステム２４に記憶する。さらに、ＲＡＷバックアップ部２１は、ＢＧファイルシステム２４に記憶したＲＡＷイメージデータを元のファイルに戻すための構成情報を、ＲＡＷイメージ構成情報２５として記録する。

抽出ブロック決定部２６（イメージ解析手段、バックアップ手段）は、ＲＡＷイメージデータから分割されたブロックデータから、別ファイルとして記憶するデータを抽出する。例えば、大きなファイルは大きな重複率を得られ、容量効率を改善できる可能性があるため、このようなファイルを構成するブロックデータを抽出して別ファイルして記録するように決定する。具体的には、容量が設定された閾値を超えるファイルを構成するブロックデータを抽出する。

ＲＡＷイメージ解析部２７（イメージ解析手段）は、上述したブロックデータの抽出を行うために、フラグメント化判断部２６と抽出ブロック決定部２８から使用される。ＲＡＷイメージ解析部２７は、例えば、ＲＡＷイメージデータがファイルシステムであった場合、ＲＡＷイメージデータ中に含まれるファイルの大きさ（容量）や、当該ファイルを構成するブロックの配置位置を解析し、その情報を抽出ブロック決定部２６に提供することができる。

ＦＧファイルシステム２３（データ出力手段）は、ＢＧファイルシステム２４に記録されている後述するように分割されたＲＡＷイメージデータと、ＲＡＷイメージ構成情報２５とを基に、元のＲＡＷイメージデータとして見せるための透過的なファイルシステムである。

ＲＡＷイメージリストア部２２（データ出力手段）は、ＦＧファイルシステム２３からＲＡＷイメージデータを読み込むことで、分割される前のＲＡＷイメージデータを、ＳＡＮ装置１にリストアすることができる。

ファイル瞬間コピー部２９は、メタデータのコピーのみでファイルのコピーを作成する機能である。重複排除ストレージ装置２で実施していることから、コビーを作成しても重複排除されるため、実際にディスク容量が消費されることはないという特徴を持つ。

［動作］
次に、上記構成の情報処理システムの動作を、図４の説明図、図５乃至図６のフローチャート、さらには、図７乃至図９の説明図を参照して説明する。以下では、業務サーバ装置３からＭＶ１７のバックアップを取ることとして説明する。

まず、業務サーバ装置３からＭＶ１７とＲＶ１８のペアリングを実施する（ステップＳ１）。そして、ＭＶ１７のデータをＲＶ１８にコピーするためにレプリケートを実施する（ステップＳ２）。もし、静止点を取ったバックアップが必要な場合には（ステップＳ３：Ｙｅｓ）、業務を停止して静止点を作り（ステップＳ４）、その後、セパレートを実施する（ステップＳ５）。セパレートを実施すると、差分情報蓄積部１５によってＭＶ１７への更新情報（更新ブロック）が差分マップ情報１６に記録開始される（ステップＳ６）。

その後、重複排除ストレージ装置２のＲＡＷバックアップ部２１は、差分マップ取得部１１を使用して、セパレートが実施される直前までの差分マップ情報１６を取得する（ステップＳ７）。この取得した差分マップ情報１６を用いて、ＲＡＷバックアップ部２１は、重複排除ストレージ装置２へＲＶ１８のデータをバックアップする（ステップＳ８）。

図５のステップＳ８における重複排除ストレージ装置２へのＲＶ１８のデータのバックアップ処理を、図６を参照して詳述する。まず、ＲＡＷバックアップ部２１は、フラグメント化判断部２６を使用して、差分マップ情報１６からＲＡＷイメージデータがフラグメント化しているか判断する。つまり、フラグメント化判断部２６は、Dynamic Data Replication間又はスナップショット間の差分情報である差分マップ情報１６を解析して、ＲＡＷイメージデータ内におけるデータの分散度合いつまりフラグメント化の度合いを推定する。

例えば、図６のステップＳ１１及びステップＳ１２に示すように、サイズが規定値以下の連続する更新ブロックが規定位置以上存在し（ステップＳ１１：Ｙｅｓ）、かつ、更新ブロックの終端と次の更新ブロックの開始位置までのオフセットが規定値以下となる箇所が規定値以上存在する場合は（ステップＳ１２：Ｙｅｓ）、前世代のデータに対する差分が大きいと考えられ、データがＲＡＷイメージデータ内においてフラグメント化されていると判断する（ステップＳ１３）。この結果を基に、以下に説明するように、ＲＡＷイメージデータからファイルを抜き出す処理を実施する必要があるか判断する。

なお、上記では、フラグメント化判断部２６は、差分マップ情報１６内の更新ブロックといった所定単位のデータの容量や配置状況に応じて、ＲＡＷイメージデータ内におけるデータがフラグメント化しているか否かを判断したが、他の基準によりフラグメント化しているか否かを判断してもよい。

続いて、フラグメント化していると判断した場合には、前世代のバックアップが存在する確認する（ステップＳ１５）。前世代のバックアップが存在する場合には（ステップＳ１５：Ｙｅｓ）、前世代のバックアップイメージと、ＳＡＮ装置１から取得した差分マップ情報１６によって更新されたことが示されているＳＡＮ装置１上の差分データと、を用いて、ＲＡＷバックアップを実施する（ステップＳ１７）。このとき、前世代のバックアップイメージと差分データとによるＲＡＷイメージデータのメタデータを解析し、容量が閾値を超える大きいファイルを抽出し、抽出されたファイルと抽出されなかったデータとを、それぞれ重複排除を実施しながらＲＡＷバックアップを行う。

ここで、上述したファイルの抽出処理について、図４を参照して説明する。図４の「BK_A」は、ＳＡＮ装置１のボリューム全体のＲＡＷイメージデータを示している。まず、このＲＡＷイメージデータを固定長のブロックデータに分割し、それぞれにＲＡＷイメージデータ上における位置を表すオフセット情報を割り当てる。そして、「BK_A」のＲＡＷイメージデータの解析の結果、容量が閾値を超える大きなファイル「ｆ１」を抽出した際には、そのオフセット情報をＲＡＷイメージ構成情報２５内に「f1 index」として格納しておく。ここでは、ファイル「ｆ１」を構成するブロックデータとして、「f1(1)」〜「f1(6)」が抽出されたとする。また、抽出しなかったブロックデータについても、そのオフセット情報をＲＡＷイメージ構成情報２５内に「Rem index」として格納しておく。

そして、ＢＧファイルシステム２４には、図４に示すように、抽出されたブロックデータを１つにまとめたファイル「ｆ１」と、抽出されなかったブロックデータを１つにまとめた残りのデータとが、それぞれ格納される。このとき、後述するように重複記憶排除処理を行って格納されるため、特にファイル「ｆ１」については、重複排除効率が高まる。なお、図４の例では、１つのファイルしか抽出されていないが、複数のファイルが抽出された場合には、ブロックデータをファイル毎にまとめて、当該ファイル毎にＢＧファイルシステム２４に格納される。

また、ＦＧファイルシステム２３では、上記ＲＡＷイメージ構成情報２５内のオフセット情報とＢＧファイルシステム２４上のデータを基にして、１つの元のＲＡＷイメージデータとして見せる。例えば、図４に示すＢＧファイルシステム２４上の各ブロックデータを、それぞれＲＡＷイメージ構成情報のオフセット情報にて示される位置に復元して、元のＲＡＷイメージデータ「BK_A」として見せる。

ここで、図６のステップＳ１５に戻り、前世代バックアップが存在しない場合には（ステップＳ１５：Ｎｏ）、差分マップ情報１６を基にした差分バックアップは行えないため、ＲＡＷイメージデータのフルバックアップになる。この場合、ＲＡＷバックアップ部２１は、ＳＡＮ装置１のＲＡＷイメージデータのメタデータ部分を解析し、上述同様に容量が閾値を超える大きなファイルを抽出して、当該抽出されたファイルと抽出されなかったデータとをそれぞれ重複排除を行ってバックアップを行う（ステップＳ１８）。

また、図６のステップＳ１１及びステップＳ１２で共に「Ｎｏ」となった場合には、前世代のデータに対する差分は大きくないと考えられ、データがＲＡＷイメージデータ内においてフラグメント化されていないと判断する（ステップＳ１４）。続いて、前世代のバックアップが存在するか確認する（ステップＳ１６）。前世代のバックアップが存在する場合には（ステップＳ１６：Ｙｅｓ）、ＢＧファイルシステム２４上にある前世代のバックアップをファイル瞬間コピー部２９によってコピーする。さらに、ＳＡＮ装置１から取得した差分マップ情報１６によって更新されたことが示されているＳＡＮ装置１上の差分データを用いて、コピー後のバックアップイメージの該当箇所を更新データで上書きする（ステップＳ１９）。このように、フラグメント化されていないと判断され、前世代のバックアップが存在する場合には、上述したようなファイルの抽出は行わずにバックアップを行う。

一方、フラグメント化していないと判断された場合であっても（ステップＳ１４）、前世代のバックアップが存在しない場合は（ステップＳ１６：Ｎｏ）、ＲＡＷイメージデータのフルバックアップになる。このため、上述同様に、ＳＡＮ装置１のＲＡＷイメージデータのメタデータ部分を解析し、容量が閾値を超える大きなファイルを抽出して、当該抽出されたファイルと抽出されなかったデータとをそれぞれ重複排除を行ってバックアップする（ステップＳ１８）。

なお、ＲＡＷイメージリストア部２２は、ＲＡＷイメージ構成情報２５の情報を基にＢＧファイルシステム２４のデータを読み込み、１つのＲＡＷイメージデータとしてＳＡＮ装置１にデータをリストアできる。

ここで、上述した重複排除ストレージ装置２による重複記憶を排除したデータの書き込み処理の一例を、図７乃至図９を参照して説明する。例えば、重複排除ストレージ装置２は、図７に示すように、ストレージ装置２自体における記憶再生動作を制御するサーバコンピュータである複数のアクセスノード５と、データを格納する記憶装置を備えたサーバコンピュータである複数のストレージノード６と、を備えている。なお、アクセスノード５の数とストレージノード６の数は、図７に示したものに限定されず、さらに多くの各ノード５，６が接続されて構成されていてもよい。あるいは、重複排除ストレージ装置２は、１台のコンピュータで構成されていてもよい。

また、重複排除ストレージ装置２は、データを分割及び冗長化し、分散して複数の記憶装置に記憶すると共に、記憶するデータの内容に応じて設定される固有のコンテンツアドレスによって、当該データを格納した格納位置を特定するコンテンツアドレスストレージシステムである。

重複排除ストレージ装置２による書き込み処理は、まず、図８及び図９の矢印Ｙ１に示すように、記憶データであるファイルＡを受信することで開始される。このファイルＡは、例えば、図４に開示した、抽出されたブロックデータをまとめたファイル「ｆ１」、及び、抽出されなかったブロックデータをまとめたデータ、である。

続いて、重複排除ストレージ装置２は、図８及び図９の矢印Ｙ２に示すように、ファイルＡを所定容量（例えば、６４ＫＢ）のブロックであるチャンクＤに分割する。そして、分割されたチャンクＤのデータ内容に基づいて、当該データ内容を代表する固有のハッシュ値Ｈを算出する（図９の矢印Ｙ３）。例えば、ハッシュ値Ｈは、予め設定されたハッシュ関数を用いて、チャンクＤのデータ内容から算出する。

続いて、ファイルＡのチャンクＤのハッシュ値Ｈを用いて、当該チャンクＤが既に格納されているか否かを調べる。このとき、既に格納されているチャンクＤは、そのハッシュ値Ｈと格納位置を表すコンテンツアドレスＣＡとが関連付けられて記憶されたＭＦＩ（ＭａｉｎＦｒａｇｍｅｎｔＩｎｄｅｘ）ファイルに登録されている。従って、格納前に算出したチャンクＤのハッシュ値ＨがＭＦＩファイル内に存在している場合には、既に同一内容のチャンクＤが格納されていると判断できる。この場合には、格納前のチャンクＤのハッシュ値Ｈと一致したＭＦＩ内のハッシュ値Ｈに関連付けられているコンテンツアドレスＣＡを、当該ＭＦＩファイルから取得する。そして、このコンテンツアドレスＣＡを、書き込み要求されたチャンクＤのコンテンツアドレスＣＡとして返却する。

そして、返却されたコンテンツアドレスＣＡが参照する既に格納されているデータを、書き込み要求されたチャンクＤとして使用する。つまり、書き込み要求されたチャンクＤの格納先として、返却されたコンテンツアドレスＣＡが参照する領域を指定することで、当該書き込み要求されたチャンクＤを記憶したこととする。このように、書き込み要求にかかるチャンクＤが重複していると判断された場合、実際にデータ自体の書き込みを行うことなく、書き込み完了となる。

一方、書き込み要求にかかるチャンクＤが重複しておらず、まだ記憶されていないと判断された場合には、以下のようにしてチャンクＤの書き込みを行う。まず、チャンクＤを圧縮して、図９の矢印Ｙ５に示すように、複数の所定の容量のフラグメントデータに分割する。例えば、図８の符号Ｄ１〜Ｄ９に示すように、チャンクＤを９つのフラグメントデータ（分割データＦ１）に分割する。そしてさらに、分割したフラグメントデータのうちいくつかが欠けた場合であっても、元となるチャンクＤを復元可能なよう冗長データを生成し、上記分割したフラグメントデータＦ１に追加する。例えば、図８の符号Ｄ１０〜Ｄ１２に示すように、３つのフラグメントデータ（冗長データＦ２）を追加する。これにより、９つの分割データＦ１と、３つの冗長データＦ２とにより構成される１２個のフラグメントデータからなるデータセットを生成する。

続いて、上述したように生成されたデータセットを構成する各フラグメントデータを、複数の記憶装置に分散して格納する。このとき、各フラグメントデータは、各記憶装置に配置されたコンポーネント（符号０１〜１２）と呼ばれるデータ格納領域にそれぞれ格納される（図９の矢印Ｙ６参照）。

続いて、上述したように格納したフラグメントデータＤ１〜Ｄ１２の格納位置、つまり、当該フラグメントデータＤ１〜Ｄ１２にて復元されるチャンクＤの格納位置を表すコンテンツアドレスＣＡを生成して管理する。具体的には、格納したチャンクＤの内容に基づいて算出したハッシュ値Ｈの一部（ショートハッシュ）（例えば、ハッシュ値Ｈの先頭８Ｂ（バイト））と、論理格納位置を表す情報と、を組み合わせて、コンテンツアドレスＣＡを生成する。そして、このコンテンツアドレスＣＡをファイルシステムサービスに返却し（図９の矢印Ｙ７）、記憶した対象となるデータのファイル名などの識別情報と、コンテンツアドレスＣＡとを関連付けて上述したＭＦＩファイルにて管理する（図９の矢印Ｙ８）。

以上のように、本実施形態における情報処理システムでは、ＲＡＷイメージデータからファイルを抽出して、当該ファイルとそれ以外の部分とを別々にバックアップすることで、重複記憶排除率の向上を図ることができる。つまり、データがフラグメント化されたＲＡＷイメージデータのＲＡＷバックアップであっても、抜き出したファイルを別に記憶しているため、かかるファイルの重複率が高まり、高い重複排除率でバックアップを行うことができる。

そして、上述したようにＲＡＷバックアップで高い重複排除率を得られるため、ファイルシステムのデフラグ処理を行う必要がない。また、ユーザはフラグメントの程度を意識する必要もない。ここで、仮に、あるバックアップ世代においてデフラグを実施したとしても、過去世代のバックアップと重複することができる。

また、異なるストレージデバイスからのバックアップであっても、ファイルシステムイメージに類似したファイルが含まれている場合、それらのＲＡＷバックアップ同士が重複排除ストレージ内で重複する可能性が高まり、さらなる重複排除効率の向上を図ることができる。このため、バックアップサーバを使ったファイル毎のバックアップと同程度の重複排除率を得ることができる。換言すると、別途バックアップサーバやバックアップソフトウェアを必要とせずに高い重複排除率を得られるため、コストの低減を図ることができる。

なお、上記では、ＲＡＷイメージデータから抽出するファイルの基準として、容量が閾値を超える、という基準を採用しているが、他の基準でファイルを抽出してもよい。また、抽出するデータは、ファイルであることに限定されず、他の基準により所定のグループに分類できるようなデータを抽出してもよい。例えば、データを更新時期つまり更新された世代で分類し、ある世代のデータを抽出して１つにまとめてバックアップを行ってもよい。この具体例を、図１０を参照して説明する。

まず、重複排除ストレージ装置２内において、ＲＡＷイメージデータとして、所定単位のデータとなるブロック毎に、更新された世代を記憶しておく。そして、バックアップ世代が増えてきたときに、長期間（設定された期間）に渡って更新が行われていないブロックを抽出し、これら抽出したブロックを１つのデータにまとめる。また、抽出されていないブロックも１つのデータにまとめる。図１０では、第３世代のブロックを抽出して１つのデータにまとめ、その他の世代のブロックも１つのデータにまとめた例を示している。そして、これらまとめたデータをそれぞれ、重複排除してバックアップを行う。

ここで、更新が行われていない世代のブロックは、今後も更新する可能性が低いと考えられる。このため、かかる世代のブロックをまとめて１つのデータとして格納することで、バックアップ世代間で重複する可能性が高まり、重複排除率の向上を図ることができる。なお、上記では、長期間更新が行われていない世代のデータを抽出しているが、他の基準で所定の世代のデータを抽出してもよい。

また、上記では、ＲＡＷイメージデータをブロックデータに分割して、ある基準を満たすデータを抽出しているが、ブロックデータに分割することなく、他の解析方法により、上述したファイルやある世代のデータといったグループに分類可能なデータを抽出してもよい。

＜付記＞
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明におけるストレージシステム（図１１参照）、プログラム、バックアップ方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。

（付記１）
ＲＡＷバックアップの対象となるＲＡＷイメージデータを解析するイメージ解析手段１０１と、
前記ＲＡＷイメージデータを、重複記憶を排除して記憶装置１１０に記憶してＲＡＷバックアップを行うバックアップ手段１０２と、
を備え、
前記イメージ解析手段１０１は、前記ＲＡＷイメージデータを解析して、当該ＲＡＷイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段１０２は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ストレージシステム１００。

（付記２）
付記１に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータを所定容量のブロックデータに分割して、当該ブロックデータを前記グループに分類して抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたブロックデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったブロックデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ストレージシステム。

（付記３）
付記１又は２に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、前記グループとして設定された所定基準を満たすファイルに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記ファイル毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
ストレージシステム。

（付記４）
付記５に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、前記グループとして設定された容量が閾値を超える前記ファイルに分類できるデータを抽出する、
ストレージシステム。

（付記５）
付記１又は２に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、前記グループとして設定されたデータの更新時期が所定基準を満たすデータ群に分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記データ群毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
ストレージシステム。

（付記６）
付記５に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、前記グループとして設定されたデータの更新時期が同一である前記データ群に分類できるデータを抽出する、
ストレージシステム。

（付記７）
付記１乃至６のいずれかに記載のストレージシステムであって、
前記バックアップ手段は、前記各記憶データにまとめた各データの前記ＲＡＷイメージデータ内における位置情報を記憶し、
記憶されている前記各記憶データ及び前記位置情報に基づいて、１つの前記ＲＡＷイメージデータとして出力するデータ出力手段を備えた、
ストレージシステム。

（付記８）
付記１乃至７のいずれかに記載のストレージシステムであって、
前記ＲＡＷイメージデータ内における所定単位のデータの容量及び配置状況に応じて、前記ＲＡＷイメージデータ内におけるデータの分散状況を判断する分散判断手段を備え、
前記分散判断手段による判断結果に応じて、前記イメージ解析手段及び前記バックアップ手段が作動するよう構成されている、
ストレージシステム。

上記発明によると、まず、イメージ解析手段は、ＲＡＷイメージデータを解析して、ＲＡＷイメージデータからグループに分類できるデータを抽出する。例えば、容量が閾値以上のファイルを構成するデータを抽出したり、しばらく更新されていないと判断できる世代のデータを抽出する。このとき、ＲＡＷイメージデータを所定容量のブロックデータに分割して、所定の基準を満たすファイルや世代といったグループに分類するとよい。そして、バックアップ手段は、イメージ解析手段にて抽出されたデータと、抽出されなかったデータとを、それぞれ記憶データとしてまとめる。例えば、抽出されたデータを分類されたファイル毎や世代毎にまとめて、記憶データとしてまとめる。そして、抽出されまとめられた記憶データ、及び、抽出されずにまとめられた記憶データを、それぞれ記憶装置内に、重複記憶排除を行いつつ記憶してＲＡＷバックアップを行う。このように、ＲＡＷバックアップであっても、容量が大きなファイルや更新されてない世代のデータなどをまとめて記憶するため、重複記憶排除の効率を高めることができる。

（付記９）
情報処理装置に、
ＲＡＷバックアップの対象となるＲＡＷイメージデータを解析するイメージ解析手段と、
前記ＲＡＷイメージデータを、重複記憶を排除して記憶装置に記憶してＲＡＷバックアップを行うバックアップ手段と、
を実現させると共に、
前記イメージ解析手段は、前記ＲＡＷイメージデータを解析して、当該ＲＡＷイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ことを実現させるためのプログラム。

（付記９．１）
付記９に記載のプログラムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータを所定容量のブロックデータに分割して、当該ブロックデータを前記グループに分類して抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたブロックデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったブロックデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
プログラム。

（付記９．２）
付記９又は９．１に記載のプログラムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、前記グループとして設定された所定基準を満たすファイルに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記ファイル毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
プログラム。

（付記９．３）
付記９又は９．１に記載のプログラムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、前記グループとして設定されたデータの更新時期が所定基準を満たすデータ群に分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記データ群毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
プログラム。

（付記１０）
ＲＡＷバックアップの対象となるＲＡＷイメージデータを解析し、
前記ＲＡＷイメージデータを、重複記憶を排除して記憶装置に記憶してＲＡＷバックアップを行い、
前記ＲＡＷイメージデータの解析の際に、当該ＲＡＷイメージデータから所定のグループに分類できるデータを抽出し、
前記ＲＡＷバックアップの際に、前記ＲＡＷイメージデータの解析で抽出されたデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
バックアップ方法。

（付記１０．１）
付記１０に記載のバックアップ方法であって、
前記ＲＡＷイメージデータの解析の際に、当該ＲＡＷイメージデータを所定容量のブロックデータに分割して、当該ブロックデータを前記グループに分類して抽出し、
前記ＲＡＷバックアップの際に、前記ＲＡＷイメージデータの解析で抽出されたブロックデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったブロックデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
バックアップ方法。

（付記１０．２）
付記１０又は１０．１に記載のバックアップ方法であって、
前記ＲＡＷイメージデータの解析の際に、当該ＲＡＷイメージデータから、前記グループとして設定された所定基準を満たすファイルに分類できるデータを抽出し、
前記ＲＡＷバックアップの際に、前記ＲＡＷイメージデータの解析で抽出されたデータを、分類された前記ファイル毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
バックアップ方法。

（付記１０．３）
付記１０又は１０．１に記載のバックアップ方法であって、
前記ＲＡＷイメージデータの解析の際に、当該ＲＡＷイメージデータから、前記グループとして設定されたデータの更新時期が所定基準を満たすデータ群に分類できるデータを抽出し、
前記ＲＡＷバックアップの際に、前記ＲＡＷイメージデータの解析で抽出されたデータを、分類された前記データ群毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
バックアップ方法。

なお、上述したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。

以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。

１ＳＡＮ装置
１０通信部
１１差分マップ取得部
１２ペアリング部
１３レプリケート部
１４セパレート部
１５差分情報蓄積部
１６差分マップ情報
１７ＭＶ
１８ＲＶ
２重複排除ストレージ装置
２０通信部
２１ＲＡＷバックアップ部
２２ＲＡＷイメージリストア部
２３ＦＧファイルシステム
２４ＢＧファイルシステム
２５ＲＡＷイメージ構成情報
２６フラグメント化判断部
２７ＲＡＷイメージ解析部
２８抽出ブロック決定部
２９ファイル瞬間コピー部
３業務サーバ装置
１００ストレージシステム
１０１イメージ解析手段
１０２バックアップ手段
１１０記憶装置

Claims

ＲＡＷバックアップの対象となるＲＡＷイメージデータを解析するイメージ解析手段と、
前記ＲＡＷイメージデータを、重複記憶を排除して記憶装置に記憶してＲＡＷバックアップを行うバックアップ手段と、
を備え、
前記イメージ解析手段は、前記ＲＡＷイメージデータを解析して、当該ＲＡＷイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ストレージシステム。
請求項１に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータを所定容量のブロックデータに分割して、当該ブロックデータを前記グループに分類して抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたブロックデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったブロックデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ストレージシステム。
請求項１又は２に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、前記グループとして設定された所定基準を満たすファイルに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記ファイル毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
ストレージシステム。
請求項３に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、容量が閾値を超える前記ファイルに分類できるデータを抽出する、
ストレージシステム。
請求項１又は２に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、データの更新時期が所定基準を満たす前記グループに分類できるデータを抽出する、
ストレージシステム。
請求項５に記載のストレージシステムであって、
前記イメージ解析手段は、前記ＲＡＷイメージデータから、データの更新時期が同一である前記グループに分類できるデータを抽出する、
ストレージシステム。
請求項１乃至６のいずれかに記載のストレージシステムであって、
前記バックアップ手段は、前記各記憶データにまとめた各データの前記ＲＡＷイメージデータ内における位置情報を記憶し、
前記記憶装置に記憶されている前記各記憶データ及び前記位置情報に基づいて、前記記憶装置に記憶されている前記記憶データを１つの前記ＲＡＷイメージデータとして出力するデータ出力手段を備えた、
ストレージシステム。
請求項１乃至７のいずれかに記載のストレージシステムであって、
前記ＲＡＷイメージデータ内における所定単位のデータの容量及び配置状況に応じて、前記ＲＡＷイメージデータ内におけるデータの分散状況を判断する分散判断手段を備え、
前記分散判断手段による判断結果に応じて、前記イメージ解析手段及び前記バックアップ手段が作動するよう構成されている、
ストレージシステム。
情報処理装置に、
ＲＡＷバックアップの対象となるＲＡＷイメージデータを解析するイメージ解析手段と、
前記ＲＡＷイメージデータを、重複記憶を排除して記憶装置に記憶してＲＡＷバックアップを行うバックアップ手段と、
を実現させると共に、
前記イメージ解析手段は、前記ＲＡＷイメージデータを解析して、当該ＲＡＷイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ことを実現させるためのプログラム。
情報処理装置が、ＲＡＷバックアップの対象となるＲＡＷイメージデータを解析し、
前記情報処理装置が、前記ＲＡＷイメージデータを、重複記憶を排除して記憶装置に記憶してＲＡＷバックアップを行い、
さらに、前記情報処理装置が、前記ＲＡＷイメージデータの解析の際に、当該ＲＡＷイメージデータから所定のグループに分類できるデータを抽出し、
前記情報処理装置が、前記ＲＡＷバックアップの際に、前記ＲＡＷイメージデータの解析で抽出されたデータを、分類された前記グループ毎にそれぞれ１つの記憶データとしてまとめると共に、抽出されなかったデータを１つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
バックアップ方法。