JP6337507B2 - ストレージシステム - Google Patents

ストレージシステム Download PDF

Info

Publication number
JP6337507B2
JP6337507B2 JP2014032590A JP2014032590A JP6337507B2 JP 6337507 B2 JP6337507 B2 JP 6337507B2 JP 2014032590 A JP2014032590 A JP 2014032590A JP 2014032590 A JP2014032590 A JP 2014032590A JP 6337507 B2 JP6337507 B2 JP 6337507B2
Authority
JP
Japan
Prior art keywords
data
storage
backup
raw image
raw
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2014032590A
Other languages
English (en)
Other versions
JP2015158765A (ja
Inventor
悠 永田
悠 永田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2014032590A priority Critical patent/JP6337507B2/ja
Publication of JP2015158765A publication Critical patent/JP2015158765A/ja
Application granted granted Critical
Publication of JP6337507B2 publication Critical patent/JP6337507B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、ストレージシステムにかかり、特に、重複記憶排除機能を有するストレージシステムに関する。
近年、コンピュータの発達及び普及に伴い、種々の情報がデジタルデータ化されている。このようなデジタルデータを保存しておく装置として、磁気テープや磁気ディスクなどの記憶装置がある。そして、保存すべきデータは日々増大し、膨大な量となるため、大容量なストレージシステムが必要となっている。また、記憶装置に費やすコストを削減しつつ、信頼性も必要とされる。これに加えて、後にデータを容易に取り出すことが可能であることも必要である。その結果、自動的に記憶容量や性能の増大を実現できると共に、重複記憶を排除して記憶コストを削減し、さらには、冗長性の高いストレージシステムが望まれている。
このような状況に応じて、近年では、特許文献1に示すように、コンテンツアドレスストレージシステムが開発されている。このコンテンツアドレスストレージシステムは、データを分散して複数の記憶装置に記憶すると共に、このデータの内容に応じて特定される固有のコンテンツアドレスによって、当該データを格納した格納位置が特定される。
このように、コンテンツアドレスは、データの内容に応じて固有となるよう生成されるため、重複データであれば、同じ格納位置のデータを参照することで、同一内容のデータを取得することができる。従って、重複データを別々に格納する必要がなく、重複記録を排除し、データ容量の削減を図ることができる。つまり、コンテンツアドレスストレージシステムでは、同一内容のデータが記憶されていない場合だけ、新たなデータが記憶されるという重複排除機能を有している。
また、ストレージシステムでは、所定容量のブロックデータであるチャンクを複数のフラグメントデータに分割すると共に、冗長データとなるフラグメントをさらに付加して、これら複数のフラグメントデータをそれぞれ複数の記憶装置にそれぞれ格納している。そして、後にコンテンツアドレスを指定することにより、当該コンテンツアドレスにて特定される格納位置に格納されているフラグメントデータを読み出し、複数のフラグメントデータから分割前のチャンクを復元することができる。
このように、ストレージシステムは、冗長データとなるフラグメントデータを付加しているため、付加した冗長データのフラグメント数以下のフラグメントデータが失われた場合でも、元のチャンクを再生成することができる。
特開2013−182476
ここで、近年では、SSD(Solid State Drive)など小I/Oにおいても十分に高速なデバイスが大容量化し、一般的に利用されることが予想される。このようなデバイスでは、デフラグの必要性が低下し、フラグメント化したファイルシステムイメージがバックアップされる可能性が高まる。ところが、このようなファイルシステムのRAWバックアップは、重複排除ストレージシステムを利用して重複排除の効率を高めることが難しい。
例えば、SAN(Storage Area Network)ストレージ上に作成されているファイルシステムを重複排除ストレージにRAWバックアップする際に、ファイルシステムのフラグメント化が進んでいると、一部のファイルの更新で重複率が大きく低下する。これは、ファイルシステムイメージ上にファイルは連続して配置されていないため、同じデータを持つファイルが存在していたとしても、重複することが出来なくなるためである。
このため、本発明の目的は、上述した課題である、RAWバックアップを行うことによる重複記憶排除の効率が低下する、ということを解決することにある。
本発明の一形態であるストレージシステムは、
RAWバックアップの対象となるRAWイメージデータを解析するイメージ解析手段と、
前記RAWイメージデータを、重複記憶を排除して記憶装置に記憶してRAWバックアップを行うバックアップ手段と、
を備え、
前記イメージ解析手段は、前記RAWイメージデータを解析して、当該RAWイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
という構成をとる。
また、本発明の一形態であるプログラムは、
情報処理装置に、
RAWバックアップの対象となるRAWイメージデータを解析するイメージ解析手段と、
前記RAWイメージデータを、重複記憶を排除して記憶装置に記憶してRAWバックアップを行うバックアップ手段と、
を実現させると共に、
前記イメージ解析手段は、前記RAWイメージデータを解析して、当該RAWイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ことを実現させる、
という構成をとる。
また、本発明の一形態であるバックアップ方法は、
RAWバックアップの対象となるRAWイメージデータを解析し、
前記RAWイメージデータを、重複記憶を排除して記憶装置に記憶してRAWバックアップを行い、
前記RAWイメージデータの解析の際に、当該RAWイメージデータから所定のグループに分類できるデータを抽出し、
前記RAWバックアップの際に、前記RAWイメージデータの解析で抽出されたデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
という構成をとる。
本発明は、以上のように構成されることにより、RAWイメージデータのRAWバックアップの際にも重複記憶排除の効率の低下を抑制することができる。
本発明の重複排除ストレージ装置を含む情報処理システムの全体構成を示すブロック図である。 図1に開示したSAN装置の構成を示す機能ブロック図である。 図1に開示した重複排除ストレージ装置の構成を示す機能ブロック図である。 図3に開示した重複排除ストレージ装置によるデータを記憶するときの様子を示す図である。 図1に開示した情報処理システムの動作を示すフローチャートである。 図1に開示した情報処理システムの動作を示すフローチャートである。 図3に開示した重複排除ストレージ装置の他の構成例を示す図である。 図3に開示した重複排除ストレージ装置によるデータ書き込み時の様子を示す図である。 図3に開示した重複排除ストレージ装置によるデータ書き込み時の様子を示す図である。 図3に開示した重複排除ストレージ装置によるデータを記憶するときの他の様子を示す図である。 本発明の付記1におけるストレージシステムの構成を示す図である。
<実施形態1>
本発明の第1の実施形態を、図1乃至図10を参照して説明する。図1は、情報処理システムの全体構成を示すブロック図である。図2は、SAN装置の構成を示す機能ブロック図であり、図3は、重複排除ストレージ装置の構成を示す機能ブロック図である。図4は、重複排除ストレージ装置によるRAWイメージデータをRAWバックアップするときの処理の様子を示す図である。図5乃至図6は、情報処理システムの動作を示すフローチャートである。図7乃至図9は、重複排除ストレージ装置によるデータ書き込み時の様子を示す図である。図10は、重複排除ストレージ装置によるRAWイメージデータをRAWバックするときの他の処理の様子を示す図である。
[構成]
図1に示すように、情報処理システムは、SAN(Storage Area Network)装置1、重複排除ストレージ装置2、業務サーバ装置3、を備えている。そして、これらはそれぞれ通信路によって接続されている。この通信路としては、例えば、Ethernet(登録商標)やFibre Channelなどで接続されたネットワークである。そして、本実施形態では、業務サーバ装置3がSAN装置2上のボリュームを使用しており、このボリュームをSAN装置1から重複排除ストレージ装置2にバックアップする場合を想定して説明する。
SAN装置1は、図2に示すように、通信部10、差分マップ取得部11、ペアリング部12、レプリケート部13、セパレート部14、差分情報蓄積部15、を備えている。これら各部は、専用の回路によって構成されていたり、演算装置にプログラムが組み込まれることで構築されている。
また、SAN装置1は、装備する記憶装置に、差分マップ情報16を記憶する。また、SAN装置1は、記憶装置に、バックアップ対象となるデータを記憶するボリュームであるMV(Master Volume)17と、RV(Replica Volume)18とを備えている。
上記ペアリング部12、レプリケート部13、セパレート部14は、MV17のデータを更新したり読み込んだりする業務サーバ装置3にて通信路から利用することができる。ペアリング部12を用いて、MV17とRV18とをペアリングすることができる。その後、レプリケート部13によって、MV17からRV18にデータをコピーできる。また、セパレート部14を用いることで、MV17とRV18とのペアリングを解除することができる。差分情報蓄積部15は、上記ペアリング解除によるセパレートが実施された直後からMV17に発生したデータ更新による更新ブロックを、差分マップ情報16として記録する。そして、重複排除ストレージ装置2は、通信路からSAN装置1の差分マップ取得部11を使用して、差分マップ情報16を取得することができる。
重複排除ストレージ装置2は、通信部20、RAWバックアップ部21、RAWイメージリストア部22、フラグメント化判断部26、RAWイメージ解析部27、抽出ブロック決定部28、ファイル瞬間コピー部29、を備えている。これら各部は、専用の回路によって構成されていたり、演算装置にプログラムが組み込まれることで構築されている。
また、重複排除ストレージ装置2は、装備する記憶装置に、RAWイメージ構成情報25を記憶する。さらに、重複排除ストレージ装置2は、演算装置にプログラムが組み込まれることで構築されたファイル管理機能と記憶装置とにより形成された、FGファイルシステム23と、BGファイルシステム24と、を備えている。
RAWバックアップ部21(バックアップ手段)は、まず、フラグメント化判断部26(分散判断手段)を使用して、バックアップ対象となるRAWイメージデータ内の所定単位のデータが、所定基準に基づいてフラグメント化つまり分散して記憶されているか、を判断する。また、RAWバックアップ部21は、フラグメント化判断部26による判断に基づいて、RAWイメージデータを分解してBGファイルシステム24に記録する。このとき、RAWバックアップ部21は、既に記憶されているデータの重複記憶を排除して、記憶データをBGファイルシステム24に記憶する。さらに、RAWバックアップ部21は、BGファイルシステム24に記憶したRAWイメージデータを元のファイルに戻すための構成情報を、RAWイメージ構成情報25として記録する。
抽出ブロック決定部26(イメージ解析手段、バックアップ手段)は、RAWイメージデータから分割されたブロックデータから、別ファイルとして記憶するデータを抽出する。例えば、大きなファイルは大きな重複率を得られ、容量効率を改善できる可能性があるため、このようなファイルを構成するブロックデータを抽出して別ファイルして記録するように決定する。具体的には、容量が設定された閾値を超えるファイルを構成するブロックデータを抽出する。
RAWイメージ解析部27(イメージ解析手段)は、上述したブロックデータの抽出を行うために、フラグメント化判断部26と抽出ブロック決定部28から使用される。RAWイメージ解析部27は、例えば、RAWイメージデータがファイルシステムであった場合、RAWイメージデータ中に含まれるファイルの大きさ(容量)や、当該ファイルを構成するブロックの配置位置を解析し、その情報を抽出ブロック決定部26に提供することができる。
FGファイルシステム23(データ出力手段)は、BGファイルシステム24に記録されている後述するように分割されたRAWイメージデータと、RAWイメージ構成情報25とを基に、元のRAWイメージデータとして見せるための透過的なファイルシステムである。
RAWイメージリストア部22(データ出力手段)は、FGファイルシステム23からRAWイメージデータを読み込むことで、分割される前のRAWイメージデータを、SAN装置1にリストアすることができる。
ファイル瞬間コピー部29は、メタデータのコピーのみでファイルのコピーを作成する機能である。重複排除ストレージ装置2で実施していることから、コビーを作成しても重複排除されるため、実際にディスク容量が消費されることはないという特徴を持つ。
[動作]
次に、上記構成の情報処理システムの動作を、図4の説明図、図5乃至図6のフローチャート、さらには、図7乃至図9の説明図を参照して説明する。以下では、業務サーバ装置3からMV17のバックアップを取ることとして説明する。
まず、業務サーバ装置3からMV17とRV18のペアリングを実施する(ステップS1)。そして、MV17のデータをRV18にコピーするためにレプリケートを実施する(ステップS2)。もし、静止点を取ったバックアップが必要な場合には(ステップS3:Yes)、業務を停止して静止点を作り(ステップS4)、その後、セパレートを実施する(ステップS5)。セパレートを実施すると、差分情報蓄積部15によってMV17への更新情報(更新ブロック)が差分マップ情報16に記録開始される(ステップS6)。
その後、重複排除ストレージ装置2のRAWバックアップ部21は、差分マップ取得部11を使用して、セパレートが実施される直前までの差分マップ情報16を取得する(ステップS7)。この取得した差分マップ情報16を用いて、RAWバックアップ部21は、重複排除ストレージ装置2へRV18のデータをバックアップする(ステップS8)。
図5のステップS8における重複排除ストレージ装置2へのRV18のデータのバックアップ処理を、図6を参照して詳述する。まず、RAWバックアップ部21は、フラグメント化判断部26を使用して、差分マップ情報16からRAWイメージデータがフラグメント化しているか判断する。つまり、フラグメント化判断部26は、Dynamic Data Replication間又はスナップショット間の差分情報である差分マップ情報16を解析して、RAWイメージデータ内におけるデータの分散度合いつまりフラグメント化の度合いを推定する。
例えば、図6のステップS11及びステップS12に示すように、サイズが規定値以下の連続する更新ブロックが規定位置以上存在し(ステップS11:Yes)、かつ、更新ブロックの終端と次の更新ブロックの開始位置までのオフセットが規定値以下となる箇所が規定値以上存在する場合は(ステップS12:Yes)、前世代のデータに対する差分が大きいと考えられ、データがRAWイメージデータ内においてフラグメント化されていると判断する(ステップS13)。この結果を基に、以下に説明するように、RAWイメージデータからファイルを抜き出す処理を実施する必要があるか判断する。
なお、上記では、フラグメント化判断部26は、差分マップ情報16内の更新ブロックといった所定単位のデータの容量や配置状況に応じて、RAWイメージデータ内におけるデータがフラグメント化しているか否かを判断したが、他の基準によりフラグメント化しているか否かを判断してもよい。
続いて、フラグメント化していると判断した場合には、前世代のバックアップが存在する確認する(ステップS15)。前世代のバックアップが存在する場合には(ステップS15:Yes)、前世代のバックアップイメージと、SAN装置1から取得した差分マップ情報16によって更新されたことが示されているSAN装置1上の差分データと、を用いて、RAWバックアップを実施する(ステップS17)。このとき、前世代のバックアップイメージと差分データとによるRAWイメージデータのメタデータを解析し、容量が閾値を超える大きいファイルを抽出し、抽出されたファイルと抽出されなかったデータとを、それぞれ重複排除を実施しながらRAWバックアップを行う。
ここで、上述したファイルの抽出処理について、図4を参照して説明する。図4の「BK_A」は、SAN装置1のボリューム全体のRAWイメージデータを示している。まず、このRAWイメージデータを固定長のブロックデータに分割し、それぞれにRAWイメージデータ上における位置を表すオフセット情報を割り当てる。そして、「BK_A」のRAWイメージデータの解析の結果、容量が閾値を超える大きなファイル「f1」を抽出した際には、そのオフセット情報をRAWイメージ構成情報25内に「f1 index」として格納しておく。ここでは、ファイル「f1」を構成するブロックデータとして、「f1(1)」〜「f1(6)」が抽出されたとする。また、抽出しなかったブロックデータについても、そのオフセット情報をRAWイメージ構成情報25内に「Rem index」として格納しておく。
そして、BGファイルシステム24には、図4に示すように、抽出されたブロックデータを1つにまとめたファイル「f1」と、抽出されなかったブロックデータを1つにまとめた残りのデータとが、それぞれ格納される。このとき、後述するように重複記憶排除処理を行って格納されるため、特にファイル「f1」については、重複排除効率が高まる。なお、図4の例では、1つのファイルしか抽出されていないが、複数のファイルが抽出された場合には、ブロックデータをファイル毎にまとめて、当該ファイル毎にBGファイルシステム24に格納される。
また、FGファイルシステム23では、上記RAWイメージ構成情報25内のオフセット情報とBGファイルシステム24上のデータを基にして、1つの元のRAWイメージデータとして見せる。例えば、図4に示すBGファイルシステム24上の各ブロックデータを、それぞれRAWイメージ構成情報のオフセット情報にて示される位置に復元して、元のRAWイメージデータ「BK_A」として見せる。
ここで、図6のステップS15に戻り、前世代バックアップが存在しない場合には(ステップS15:No)、差分マップ情報16を基にした差分バックアップは行えないため、RAWイメージデータのフルバックアップになる。この場合、RAWバックアップ部21は、SAN装置1のRAWイメージデータのメタデータ部分を解析し、上述同様に容量が閾値を超える大きなファイルを抽出して、当該抽出されたファイルと抽出されなかったデータとをそれぞれ重複排除を行ってバックアップを行う(ステップS18)。
また、図6のステップS11及びステップS12で共に「No」となった場合には、前世代のデータに対する差分は大きくないと考えられ、データがRAWイメージデータ内においてフラグメント化されていないと判断する(ステップS14)。続いて、前世代のバックアップが存在するか確認する(ステップS16)。前世代のバックアップが存在する場合には(ステップS16:Yes)、BGファイルシステム24上にある前世代のバックアップをファイル瞬間コピー部29によってコピーする。さらに、SAN装置1から取得した差分マップ情報16によって更新されたことが示されているSAN装置1上の差分データを用いて、コピー後のバックアップイメージの該当箇所を更新データで上書きする(ステップS19)。このように、フラグメント化されていないと判断され、前世代のバックアップが存在する場合には、上述したようなファイルの抽出は行わずにバックアップを行う。
一方、フラグメント化していないと判断された場合であっても(ステップS14)、前世代のバックアップが存在しない場合は(ステップS16:No)、RAWイメージデータのフルバックアップになる。このため、上述同様に、SAN装置1のRAWイメージデータのメタデータ部分を解析し、容量が閾値を超える大きなファイルを抽出して、当該抽出されたファイルと抽出されなかったデータとをそれぞれ重複排除を行ってバックアップする(ステップS18)。
なお、RAWイメージリストア部22は、RAWイメージ構成情報25の情報を基にBGファイルシステム24のデータを読み込み、1つのRAWイメージデータとしてSAN装置1にデータをリストアできる。
ここで、上述した重複排除ストレージ装置2による重複記憶を排除したデータの書き込み処理の一例を、図7乃至図9を参照して説明する。例えば、重複排除ストレージ装置2は、図7に示すように、ストレージ装置2自体における記憶再生動作を制御するサーバコンピュータである複数のアクセスノード5と、データを格納する記憶装置を備えたサーバコンピュータである複数のストレージノード6と、を備えている。なお、アクセスノード5の数とストレージノード6の数は、図7に示したものに限定されず、さらに多くの各ノード5,6が接続されて構成されていてもよい。あるいは、重複排除ストレージ装置2は、1台のコンピュータで構成されていてもよい。
また、重複排除ストレージ装置2は、データを分割及び冗長化し、分散して複数の記憶装置に記憶すると共に、記憶するデータの内容に応じて設定される固有のコンテンツアドレスによって、当該データを格納した格納位置を特定するコンテンツアドレスストレージシステムである。
重複排除ストレージ装置2による書き込み処理は、まず、図8及び図9の矢印Y1に示すように、記憶データであるファイルAを受信することで開始される。このファイルAは、例えば、図4に開示した、抽出されたブロックデータをまとめたファイル「f1」、及び、抽出されなかったブロックデータをまとめたデータ、である。
続いて、重複排除ストレージ装置2は、図8及び図9の矢印Y2に示すように、ファイルAを所定容量(例えば、64KB)のブロックであるチャンクDに分割する。そして、分割されたチャンクDのデータ内容に基づいて、当該データ内容を代表する固有のハッシュ値Hを算出する(図9の矢印Y3)。例えば、ハッシュ値Hは、予め設定されたハッシュ関数を用いて、チャンクDのデータ内容から算出する。
続いて、ファイルAのチャンクDのハッシュ値Hを用いて、当該チャンクDが既に格納されているか否かを調べる。このとき、既に格納されているチャンクDは、そのハッシュ値Hと格納位置を表すコンテンツアドレスCAとが関連付けられて記憶されたMFI(Main Fragment Index)ファイルに登録されている。従って、格納前に算出したチャンクDのハッシュ値HがMFIファイル内に存在している場合には、既に同一内容のチャンクDが格納されていると判断できる。この場合には、格納前のチャンクDのハッシュ値Hと一致したMFI内のハッシュ値Hに関連付けられているコンテンツアドレスCAを、当該MFIファイルから取得する。そして、このコンテンツアドレスCAを、書き込み要求されたチャンクDのコンテンツアドレスCAとして返却する。
そして、返却されたコンテンツアドレスCAが参照する既に格納されているデータを、書き込み要求されたチャンクDとして使用する。つまり、書き込み要求されたチャンクDの格納先として、返却されたコンテンツアドレスCAが参照する領域を指定することで、当該書き込み要求されたチャンクDを記憶したこととする。このように、書き込み要求にかかるチャンクDが重複していると判断された場合、実際にデータ自体の書き込みを行うことなく、書き込み完了となる。
一方、書き込み要求にかかるチャンクDが重複しておらず、まだ記憶されていないと判断された場合には、以下のようにしてチャンクDの書き込みを行う。まず、チャンクDを圧縮して、図9の矢印Y5に示すように、複数の所定の容量のフラグメントデータに分割する。例えば、図8の符号D1〜D9に示すように、チャンクDを9つのフラグメントデータ(分割データF1)に分割する。そしてさらに、分割したフラグメントデータのうちいくつかが欠けた場合であっても、元となるチャンクDを復元可能なよう冗長データを生成し、上記分割したフラグメントデータF1に追加する。例えば、図8の符号D10〜D12に示すように、3つのフラグメントデータ(冗長データF2)を追加する。これにより、9つの分割データF1と、3つの冗長データF2とにより構成される12個のフラグメントデータからなるデータセットを生成する。
続いて、上述したように生成されたデータセットを構成する各フラグメントデータを、複数の記憶装置に分散して格納する。このとき、各フラグメントデータは、各記憶装置に配置されたコンポーネント(符号01〜12)と呼ばれるデータ格納領域にそれぞれ格納される(図9の矢印Y6参照)。
続いて、上述したように格納したフラグメントデータD1〜D12の格納位置、つまり、当該フラグメントデータD1〜D12にて復元されるチャンクDの格納位置を表すコンテンツアドレスCAを生成して管理する。具体的には、格納したチャンクDの内容に基づいて算出したハッシュ値Hの一部(ショートハッシュ)(例えば、ハッシュ値Hの先頭8B(バイト))と、論理格納位置を表す情報と、を組み合わせて、コンテンツアドレスCAを生成する。そして、このコンテンツアドレスCAをファイルシステムサービスに返却し(図9の矢印Y7)、記憶した対象となるデータのファイル名などの識別情報と、コンテンツアドレスCAとを関連付けて上述したMFIファイルにて管理する(図9の矢印Y8)。
以上のように、本実施形態における情報処理システムでは、RAWイメージデータからファイルを抽出して、当該ファイルとそれ以外の部分とを別々にバックアップすることで、重複記憶排除率の向上を図ることができる。つまり、データがフラグメント化されたRAWイメージデータのRAWバックアップであっても、抜き出したファイルを別に記憶しているため、かかるファイルの重複率が高まり、高い重複排除率でバックアップを行うことができる。
そして、上述したようにRAWバックアップで高い重複排除率を得られるため、ファイルシステムのデフラグ処理を行う必要がない。また、ユーザはフラグメントの程度を意識する必要もない。ここで、仮に、あるバックアップ世代においてデフラグを実施したとしても、過去世代のバックアップと重複することができる。
また、異なるストレージデバイスからのバックアップであっても、ファイルシステムイメージに類似したファイルが含まれている場合、それらのRAWバックアップ同士が重複排除ストレージ内で重複する可能性が高まり、さらなる重複排除効率の向上を図ることができる。このため、バックアップサーバを使ったファイル毎のバックアップと同程度の重複排除率を得ることができる。換言すると、別途バックアップサーバやバックアップソフトウェアを必要とせずに高い重複排除率を得られるため、コストの低減を図ることができる。
なお、上記では、RAWイメージデータから抽出するファイルの基準として、容量が閾値を超える、という基準を採用しているが、他の基準でファイルを抽出してもよい。また、抽出するデータは、ファイルであることに限定されず、他の基準により所定のグループに分類できるようなデータを抽出してもよい。例えば、データを更新時期つまり更新された世代で分類し、ある世代のデータを抽出して1つにまとめてバックアップを行ってもよい。この具体例を、図10を参照して説明する。
まず、重複排除ストレージ装置2内において、RAWイメージデータとして、所定単位のデータとなるブロック毎に、更新された世代を記憶しておく。そして、バックアップ世代が増えてきたときに、長期間(設定された期間)に渡って更新が行われていないブロックを抽出し、これら抽出したブロックを1つのデータにまとめる。また、抽出されていないブロックも1つのデータにまとめる。図10では、第3世代のブロックを抽出して1つのデータにまとめ、その他の世代のブロックも1つのデータにまとめた例を示している。そして、これらまとめたデータをそれぞれ、重複排除してバックアップを行う。
ここで、更新が行われていない世代のブロックは、今後も更新する可能性が低いと考えられる。このため、かかる世代のブロックをまとめて1つのデータとして格納することで、バックアップ世代間で重複する可能性が高まり、重複排除率の向上を図ることができる。なお、上記では、長期間更新が行われていない世代のデータを抽出しているが、他の基準で所定の世代のデータを抽出してもよい。
また、上記では、RAWイメージデータをブロックデータに分割して、ある基準を満たすデータを抽出しているが、ブロックデータに分割することなく、他の解析方法により、上述したファイルやある世代のデータといったグループに分類可能なデータを抽出してもよい。
<付記>
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明におけるストレージシステム(図11参照)、プログラム、バックアップ方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
(付記1)
RAWバックアップの対象となるRAWイメージデータを解析するイメージ解析手段101と、
前記RAWイメージデータを、重複記憶を排除して記憶装置110に記憶してRAWバックアップを行うバックアップ手段102と、
を備え、
前記イメージ解析手段101は、前記RAWイメージデータを解析して、当該RAWイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段102は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ストレージシステム100。
(付記2)
付記1に記載のストレージシステムであって、
前記イメージ解析手段は、前記RAWイメージデータを所定容量のブロックデータに分割して、当該ブロックデータを前記グループに分類して抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたブロックデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったブロックデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ストレージシステム。
(付記3)
付記1又は2に記載のストレージシステムであって、
前記イメージ解析手段は、前記RAWイメージデータから、前記グループとして設定された所定基準を満たすファイルに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記ファイル毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
ストレージシステム。
(付記4)
付記5に記載のストレージシステムであって、
前記イメージ解析手段は、前記RAWイメージデータから、前記グループとして設定された容量が閾値を超える前記ファイルに分類できるデータを抽出する、
ストレージシステム。
(付記5)
付記1又は2に記載のストレージシステムであって、
前記イメージ解析手段は、前記RAWイメージデータから、前記グループとして設定されたデータの更新時期が所定基準を満たすデータ群に分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記データ群毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
ストレージシステム。
(付記6)
付記5に記載のストレージシステムであって、
前記イメージ解析手段は、前記RAWイメージデータから、前記グループとして設定されたデータの更新時期が同一である前記データ群に分類できるデータを抽出する、
ストレージシステム。
(付記7)
付記1乃至6のいずれかに記載のストレージシステムであって、
前記バックアップ手段は、前記各記憶データにまとめた各データの前記RAWイメージデータ内における位置情報を記憶し、
記憶されている前記各記憶データ及び前記位置情報に基づいて、1つの前記RAWイメージデータとして出力するデータ出力手段を備えた、
ストレージシステム。
(付記8)
付記1乃至7のいずれかに記載のストレージシステムであって、
前記RAWイメージデータ内における所定単位のデータの容量及び配置状況に応じて、前記RAWイメージデータ内におけるデータの分散状況を判断する分散判断手段を備え、
前記分散判断手段による判断結果に応じて、前記イメージ解析手段及び前記バックアップ手段が作動するよう構成されている、
ストレージシステム。
上記発明によると、まず、イメージ解析手段は、RAWイメージデータを解析して、RAWイメージデータからグループに分類できるデータを抽出する。例えば、容量が閾値以上のファイルを構成するデータを抽出したり、しばらく更新されていないと判断できる世代のデータを抽出する。このとき、RAWイメージデータを所定容量のブロックデータに分割して、所定の基準を満たすファイルや世代といったグループに分類するとよい。そして、バックアップ手段は、イメージ解析手段にて抽出されたデータと、抽出されなかったデータとを、それぞれ記憶データとしてまとめる。例えば、抽出されたデータを分類されたファイル毎や世代毎にまとめて、記憶データとしてまとめる。そして、抽出されまとめられた記憶データ、及び、抽出されずにまとめられた記憶データを、それぞれ記憶装置内に、重複記憶排除を行いつつ記憶してRAWバックアップを行う。このように、RAWバックアップであっても、容量が大きなファイルや更新されてない世代のデータなどをまとめて記憶するため、重複記憶排除の効率を高めることができる。
(付記9)
情報処理装置に、
RAWバックアップの対象となるRAWイメージデータを解析するイメージ解析手段と、
前記RAWイメージデータを、重複記憶を排除して記憶装置に記憶してRAWバックアップを行うバックアップ手段と、
を実現させると共に、
前記イメージ解析手段は、前記RAWイメージデータを解析して、当該RAWイメージデータから所定のグループに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
ことを実現させるためのプログラム。
(付記9.1)
付記9に記載のプログラムであって、
前記イメージ解析手段は、前記RAWイメージデータを所定容量のブロックデータに分割して、当該ブロックデータを前記グループに分類して抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたブロックデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったブロックデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
プログラム。
(付記9.2)
付記9又は9.1に記載のプログラムであって、
前記イメージ解析手段は、前記RAWイメージデータから、前記グループとして設定された所定基準を満たすファイルに分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記ファイル毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
プログラム。
(付記9.3)
付記9又は9.1に記載のプログラムであって、
前記イメージ解析手段は、前記RAWイメージデータから、前記グループとして設定されたデータの更新時期が所定基準を満たすデータ群に分類できるデータを抽出し、
前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記データ群毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
プログラム。
(付記10)
RAWバックアップの対象となるRAWイメージデータを解析し、
前記RAWイメージデータを、重複記憶を排除して記憶装置に記憶してRAWバックアップを行い、
前記RAWイメージデータの解析の際に、当該RAWイメージデータから所定のグループに分類できるデータを抽出し、
前記RAWバックアップの際に、前記RAWイメージデータの解析で抽出されたデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
バックアップ方法。
(付記10.1)
付記10に記載のバックアップ方法であって、
前記RAWイメージデータの解析の際に、当該RAWイメージデータを所定容量のブロックデータに分割して、当該ブロックデータを前記グループに分類して抽出し、
前記RAWバックアップの際に、前記RAWイメージデータの解析で抽出されたブロックデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったブロックデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
バックアップ方法。
(付記10.2)
付記10又は10.1に記載のバックアップ方法であって、
前記RAWイメージデータの解析の際に、当該RAWイメージデータから、前記グループとして設定された所定基準を満たすファイルに分類できるデータを抽出し、
前記RAWバックアップの際に、前記RAWイメージデータの解析で抽出されたデータを、分類された前記ファイル毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
バックアップ方法。
(付記10.3)
付記10又は10.1に記載のバックアップ方法であって、
前記RAWイメージデータの解析の際に、当該RAWイメージデータから、前記グループとして設定されたデータの更新時期が所定基準を満たすデータ群に分類できるデータを抽出し、
前記RAWバックアップの際に、前記RAWイメージデータの解析で抽出されたデータを、分類された前記データ群毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
バックアップ方法。
なお、上述したプログラムは、記憶装置に記憶されていたり、コンピュータが読み取り可能な記録媒体に記録されている。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
以上、上記実施形態等を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明の範囲内で当業者が理解しうる様々な変更をすることができる。
1 SAN装置
10 通信部
11 差分マップ取得部
12 ペアリング部
13 レプリケート部
14 セパレート部
15 差分情報蓄積部
16 差分マップ情報
17 MV
18 RV
2 重複排除ストレージ装置
20 通信部
21 RAWバックアップ部
22 RAWイメージリストア部
23 FGファイルシステム
24 BGファイルシステム
25 RAWイメージ構成情報
26 フラグメント化判断部
27 RAWイメージ解析部
28 抽出ブロック決定部
29 ファイル瞬間コピー部
3 業務サーバ装置
100 ストレージシステム
101 イメージ解析手段
102 バックアップ手段
110 記憶装置

Claims (10)

  1. RAWバックアップの対象となるRAWイメージデータを解析するイメージ解析手段と、
    前記RAWイメージデータを、重複記憶を排除して記憶装置に記憶してRAWバックアップを行うバックアップ手段と、
    を備え、
    前記イメージ解析手段は、前記RAWイメージデータを解析して、当該RAWイメージデータから所定のグループに分類できるデータを抽出し、
    前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
    ストレージシステム。
  2. 請求項1に記載のストレージシステムであって、
    前記イメージ解析手段は、前記RAWイメージデータを所定容量のブロックデータに分割して、当該ブロックデータを前記グループに分類して抽出し、
    前記バックアップ手段は、前記イメージ解析手段にて抽出されたブロックデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったブロックデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
    ストレージシステム。
  3. 請求項1又は2に記載のストレージシステムであって、
    前記イメージ解析手段は、前記RAWイメージデータから、前記グループとして設定された所定基準を満たすファイルに分類できるデータを抽出し、
    前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記ファイル毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データを記憶する、
    ストレージシステム。
  4. 請求項に記載のストレージシステムであって、
    前記イメージ解析手段は、前記RAWイメージデータから、容量が閾値を超える前記ファイルに分類できるデータを抽出する、
    ストレージシステム。
  5. 請求項1又は2に記載のストレージシステムであって、
    前記イメージ解析手段は、前記RAWイメージデータから、データの更新時期が所定基準を満たす前記グループに分類できるデータを抽出する、
    ストレージシステム。
  6. 請求項5に記載のストレージシステムであって、
    前記イメージ解析手段は、前記RAWイメージデータから、データの更新時期が同一である前記グループに分類できるデータを抽出する、
    ストレージシステム。
  7. 請求項1乃至6のいずれかに記載のストレージシステムであって、
    前記バックアップ手段は、前記各記憶データにまとめた各データの前記RAWイメージデータ内における位置情報を記憶し、
    前記記憶装置に記憶されている前記各記憶データ及び前記位置情報に基づいて、前記記憶装置に記憶されている前記記憶データを1つの前記RAWイメージデータとして出力するデータ出力手段を備えた、
    ストレージシステム。
  8. 請求項1乃至7のいずれかに記載のストレージシステムであって、
    前記RAWイメージデータ内における所定単位のデータの容量及び配置状況に応じて、前記RAWイメージデータ内におけるデータの分散状況を判断する分散判断手段を備え、
    前記分散判断手段による判断結果に応じて、前記イメージ解析手段及び前記バックアップ手段が作動するよう構成されている、
    ストレージシステム。
  9. 情報処理装置に、
    RAWバックアップの対象となるRAWイメージデータを解析するイメージ解析手段と、
    前記RAWイメージデータを、重複記憶を排除して記憶装置に記憶してRAWバックアップを行うバックアップ手段と、
    を実現させると共に、
    前記イメージ解析手段は、前記RAWイメージデータを解析して、当該RAWイメージデータから所定のグループに分類できるデータを抽出し、
    前記バックアップ手段は、前記イメージ解析手段にて抽出されたデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
    ことを実現させるためのプログラム。
  10. 情報処理装置が、RAWバックアップの対象となるRAWイメージデータを解析し、
    前記情報処理装置が、前記RAWイメージデータを、重複記憶を排除して記憶装置に記憶してRAWバックアップを行い、
    さらに、前記情報処理装置が、前記RAWイメージデータの解析の際に、当該RAWイメージデータから所定のグループに分類できるデータを抽出し、
    前記情報処理装置が、前記RAWバックアップの際に、前記RAWイメージデータの解析で抽出されたデータを、分類された前記グループ毎にそれぞれ1つの記憶データとしてまとめると共に、抽出されなかったデータを1つの記憶データとしてまとめ、これらまとめた各記憶データをそれぞれ記憶する、
    バックアップ方法。
JP2014032590A 2014-02-24 2014-02-24 ストレージシステム Active JP6337507B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014032590A JP6337507B2 (ja) 2014-02-24 2014-02-24 ストレージシステム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014032590A JP6337507B2 (ja) 2014-02-24 2014-02-24 ストレージシステム

Publications (2)

Publication Number Publication Date
JP2015158765A JP2015158765A (ja) 2015-09-03
JP6337507B2 true JP6337507B2 (ja) 2018-06-06

Family

ID=54182717

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014032590A Active JP6337507B2 (ja) 2014-02-24 2014-02-24 ストレージシステム

Country Status (1)

Country Link
JP (1) JP6337507B2 (ja)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5660617B2 (ja) * 2011-03-29 2015-01-28 日本電気株式会社 ストレージ装置

Also Published As

Publication number Publication date
JP2015158765A (ja) 2015-09-03

Similar Documents

Publication Publication Date Title
US9904601B2 (en) Synchronization of storage using comparisons of fingerprints of blocks
US10162555B2 (en) Deduplicating snapshots associated with a backup operation
JP5434705B2 (ja) ストレージ装置、ストレージ装置制御プログラムおよびストレージ装置制御方法
US8924354B2 (en) Block level data replication
JP5407430B2 (ja) ストレージシステム
US8578112B2 (en) Data management system and data management method
US10656860B2 (en) Tape drive library integrated memory deduplication
US9858287B2 (en) Storage system
JP5533888B2 (ja) ストレージ装置
JP5517224B2 (ja) ストレージ装置
JP5660617B2 (ja) ストレージ装置
JP6337982B1 (ja) ストレージシステム
CN104484402B (zh) 一种删除重复数据的方法及装置
US9575679B2 (en) Storage system in which connected data is divided
JP6337507B2 (ja) ストレージシステム
JP2017142664A (ja) データ処理装置、データ処理システム、データ処理方法及びデータ処理プログラム
JP2015148919A (ja) ストレージシステム
JP5751041B2 (ja) ストレージ装置、ストレージ方法およびプログラム
JP5891842B2 (ja) ストレージシステム
CN105573862A (zh) 一种恢复文件系统的方法和设备
US12105976B2 (en) Journals for data cloning operations
US20220391118A1 (en) Journals for data cloning operations
WO2015040711A1 (ja) ストレージ装置、ストレージ装置におけるデータの制御方法、及びストレージシステム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170112

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171011

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20171031

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171225

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180410

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180423

R150 Certificate of patent or registration of utility model

Ref document number: 6337507

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150