JP2011509459A - コンピュータ・システムの重複除外コンピュータ・ファイル・システムのバックアップのための方法、システム、およびコンピュータ・プログラム - Google Patents

コンピュータ・システムの重複除外コンピュータ・ファイル・システムのバックアップのための方法、システム、およびコンピュータ・プログラム Download PDF

Info

Publication number
JP2011509459A
JP2011509459A JP2010541046A JP2010541046A JP2011509459A JP 2011509459 A JP2011509459 A JP 2011509459A JP 2010541046 A JP2010541046 A JP 2010541046A JP 2010541046 A JP2010541046 A JP 2010541046A JP 2011509459 A JP2011509459 A JP 2011509459A
Authority
JP
Japan
Prior art keywords
computer
separate storage
data
storage media
partitions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2010541046A
Other languages
English (en)
Other versions
JP5398739B2 (ja
Inventor
ドリューズ、クレメンズ
スミス、マーク、アンドリュー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Publication of JP2011509459A publication Critical patent/JP2011509459A/ja
Application granted granted Critical
Publication of JP5398739B2 publication Critical patent/JP5398739B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 コンピュータ・システムの重複除外コンピュータ・ファイル・システムをバックアップするための方法およびシステムを提供する。
【解決手段】 例示的実施形態では、この方法およびシステムは、(1)ファイル・システムを区画に分割すること、および(2)それぞれの区画を別々のストレージ・メディア上に格納することを含む。
【選択図】 図6

Description

本発明はコンピュータ・システムに関し、具体的には、コンピュータ・システムの重複除外(de-duplicated)コンピュータ・ファイル・システムをバックアップする方法およびシステムに関する。
コンピュータ・システムは、通常、コンピュータ・ファイル・システムを含む。このファイル・システムは重複除外ファイル・システムとすることができる。
コンピュータ・システム(たとえばサーバ・コンピュータ・システム)は、データに対して効率的なデータ重複除外を実行する機能を必要とする。コンピュータ・ファイル・システムのためのバックアップ・ソリューションは、これまで、何らかの形のデータ「重複除外」またはデータ「冗長性削除」のアルゴリズムを含んできた。これらのアルゴリズムは、ファイル全体またはサブファイル・レベルで使用可能である。
サブファイルの重複除外のための最も一般的な手法の1つが、第1に、ラビン指紋法(fingerprinting)などのデータ指紋法アルゴリズムを使用して、データ・ストリーム(ファイル)をチャンク(chunk)に分割することである。データ指紋法アルゴリズムは、アルゴリズムのパラメータに基づく「予測サイズ」のチャンクを生成するように設定することができる。ファイルがチャンクに分けられると、ハッシュ・アルゴリズムを使用して、それらのチャンクそれぞれのコンテンツが固有に識別される。次にこれらの固有識別子は、照会可能インデックス内に配置される。ファイル・システム内にすでに存在するチャンクが見つかった(インデックスの照会、または挿入の試行および衝突によって見つかった)場合、そのチャンクは、そのチャンクへの参照に置き換えることが可能であり、「重複除外」が発生する。チャンクに分けられたそれぞれのファイルについて、ファイルをその構成部分からどのように再構築するかを識別する、「青図面(blueprint)」またはチャンク・リストが生成される。
この種の重複除外ファイル・システムに伴う1つの問題は、ストレージ・メディア(たとえばテープ・システム)を外すためにバックアップする際に、データ・ストレージ・フォーマットが、この重複除外状態の維持を非常に困難にすることである。データの相互接続性(オブジェクトの「青図面」が複数のチャンクを参照し、重複除外されたチャンクが複数のオブジェクトを逆に指示する)により、ストレージ・メディアを外すために重複除外システムをバックアップすることは困難である。単一オブジェクトの読み取りには、そのオブジェクトに関するデータを読み取るために複数のストレージ・メディアを取り付ける必要がある。
従って、ストレージ・メディアを外すために重複除外ファイル・システムをバックアップするための従来技術のシステムは、データの参照局所性が維持されるように、データを再重複させる。しかしながらこうしたシステムは、従来技術の図1に示されるように、ファイル・システムの重複除外状態を維持しながら、および参照局所性を維持しながら、重複除外ファイル・システムを取り外しメディアにバックアップすることができない。現在のところ、従来技術のシステムは、すべての重複除外ファイル・データにアクセスするために、独立ストレージ・メディアの取り外し/再取り付けを必要とする。
したがって、重複除外コンピュータ・ファイル・システムをバックアップするための方法およびシステムが望ましい。
したがって本発明は、第1の態様において、ファイル・システムを区画に分割すること、および、それぞれの区画を別々のストレージ・メディア上に格納することを含む、コンピュータ・システムの重複除外コンピュータ・ファイル・システムをバックアップする方法を提供する。分割することは、グラフ区分アルゴリズムを使用することを含む。使用することは、ファイル・システムを相互接続性のないサブグラフに区分することを含む。区分することは、サブグラフ内のあるサブグラフを別々のストレージ・メディア上に完全に格納できない場合、サブグラフを接続させることになるデータを識別すること、および、サブグラフを接続させることになるデータを再重複させることを含む。この方法は、再重複されたデータを、すべての参照グラフ区画と共に保存することを含む。
好ましくは、識別することは、サブグラフを接続させることになるデータ・チャンクの最小セットを発見することを含む。
好ましくは、識別することは、高い参照カウントを伴うデータ・チャンクを選択することを含む。
好ましくは、格納することは、各メディアが満杯になるまで、別々のストレージ・メディア上の区画を組み合わせることを含む。
好ましくは、格納することは、最低量の区画間のグラフ相互接続性を伴い、別々のストレージ・メディア上で区画を保存することを含む。
好ましくは、保存することは、コンピュータ・システム上に同時に取り付け可能な別々のストレージ・メディアの数を調節すること、ならびに、別々のストレージ・メディアの取り外しおよび再取り付けのための性能ペナルティを考慮することを含む。
第2の態様において、コンピュータ・システムの重複除外コンピュータ・ファイル・システムをバックアップするシステムが提供され、システムは、ファイル・システムを区画に分割するように構成された分割モジュールと、それぞれの区画を別々のストレージ・メディア上に格納するように構成された格納モジュールと備える。分割モジュールは、グラフ区分アルゴリズムを使用するように構成された使用モジュールを備える。使用モジュールは、ファイル・システムを相互接続性のないサブグラフに区分するように構成された区分モジュールを備える。区分モジュールは、サブグラフ内のあるサブグラフを別々のストレージ・メディア上に完全に格納できない場合、サブグラフを接続させることになるデータを識別するように構成された識別モジュールと、サブグラフを接続させることになるデータを再重複させるように構成された再重複モジュールとを備える。システムは、再重複されたデータを、すべての参照グラフ区画と共に保存するように構成された保存モジュールをさらに備える。
好ましくは、識別モジュールは、サブグラフを接続させることになるデータ・チャンクの最小セットを発見するように構成された発見モジュールを備える。
好ましくは、識別モジュールは、高い参照カウントを伴うデータ・チャンクを選択するように構成された選択モジュールを備える。
好ましくは、格納モジュールは、各メディアが満杯になるまで、別々のストレージ・メディア上の区画を組み合わせるように構成された組み合わせモジュールを備える。
好ましくは、格納モジュールは、最低量の区画間のグラフ相互接続性を伴い、別々のストレージ・メディア上で区画を保存するように構成された保存モジュールを備える。
好ましくは、保存モジュールは、コンピュータ・システム上に同時に取り付け可能な別々のストレージ・メディアの数を調節するように構成された調節モジュールと、別々のストレージ・メディアの取り外しおよび再取り付けのための性能ペナルティを考慮するように構成された考慮モジュールとを備える。
第3の態様において、コンピュータ・システムにロードされ、そこで実行された場合に、第1の態様に従った方法のすべてのステップをコンピュータ・システムに実行させるためのコンピュータ・プログラム・コードを備える、コンピュータ・プログラムが提供される。
コンピュータ・プログラムは、コンピュータ・システムの重複除外コンピュータ・ファイル・システムをバックアップする、内部で実施される読み取り可能プログラム・コードを有する、プログラマブル・コンピュータと共に使用可能なコンピュータ・プログラム製品として実施可能であり、コンピュータ・プログラム製品は、ファイル・システムを区画に分割するためのコンピュータ読み取り可能コードと、別々のストレージ・メディア上に各区画を格納するためのコンピュータ読み取り可能コードとを備える。
本発明は、コンピュータ・システムの重複除外コンピュータ・ファイル・システムを伝送するシステム内で実施可能であり、システムは、ファイル・システムを区画に分割すること、およびそれぞれの区画を別々の伝送チャネルについてアセンブルすることを含む。
本発明は、コンピュータ・システムの重複除外コンピュータ・ファイル・システムを伝送するシステム内で実施可能であり、システムは、ファイル・システムを区画に分割するように構成された分割モジュールと、それぞれの区画を別々の伝送チャネルについてアセンブルするように構成されたアセンブル・モジュールとを備える。
本発明の諸実施形態は、コンピュータ・システムの重複除外コンピュータ・ファイル・システムをバックアップする方法およびシステムを提供する。例示的実施形態では、方法およびシステムは、(1)ファイル・システムを区画に分割すること、および(2)それぞれの区画を別々のストレージ・メディア上に格納することを含む。
例示的実施形態では、分割することは、グラフ区分アルゴリズムを使用することを含む。例示的実施形態では、使用することは、ファイル・システムを相互接続性のないサブグラフに区分することを含む。
例示的実施形態では、区分することは、サブグラフ内のあるサブグラフを別々のストレージ・メディア上に完全に格納できない場合、(a)サブグラフを接続させることになるデータを識別すること、および、(b)サブグラフを接続させることになるデータを再重複させることを含む。例示的実施形態では、区分することは、再重複されたデータを、すべての参照グラフ区画と共に保存することをさらに含む。
例示的実施形態では、識別することは、サブグラフを接続させることになるデータ・チャンクの最小セットを発見することを含む。例示的実施形態では、識別することは、高い参照カウントを伴うデータ・チャンクを選択することを含む。
例示的実施形態では、格納することは、各メディアが満杯になるまで、別々のストレージ・メディア上の区画を組み合わせることを含む。例示的実施形態では、格納することは、最低量の区画間のグラフ相互接続性を伴い、別々のストレージ・メディア上で区画を保存することを含む。例示的実施形態では、保存することは、(a)コンピュータ・システム上に同時に取り付け可能な別々のストレージ・メディアの数を調節すること、ならびに、(b)別々のストレージ・メディアの取り外しおよび再取り付けのための性能ペナルティを考慮することを含む。
本発明は、コンピュータ・システムの重複除外コンピュータ・ファイル・システムをバックアップする、内部で実施される読み取り可能プログラム・コードを有する、プログラマブル・コンピュータと共に使用可能なコンピュータ・プログラム製品も提供する。例示的実施形態では、コンピュータ・プログラム製品は、(1)ファイル・システムを区画に分割するためのコンピュータ読み取り可能コードと、(2)別々のストレージ・メディア上に各区画を格納するためのコンピュータ読み取り可能コードとを備える。
次に、本発明の好ましい実施形態について、添付の図面を参照しながら単なる例として説明する。
従来技術を示す流れ図である。 本発明の例示的実施形態に従った流れ図である。 本発明の例示的実施形態に従った分割ステップを示す流れ図である。 本発明の例示的実施形態に従った使用ステップを示す流れ図である。 重複除外システムを示す図である。 本発明の例示的実施形態に従った、バックアップされた重複除外システムを示す図である。 本発明の例示的実施形態に従った、区分ステップを示す流れ図である。 本発明の他の実施形態に従った、区分ステップを示す流れ図である。 重複除外システムを示す図である。 本発明の例示的実施形態に従った、バックアップされた重複除外システムを示す図である。 本発明の例示的実施形態に従った、識別ステップを示す流れ図である。 本発明の例示的実施形態に従った、識別ステップを示す流れ図である。 本発明の例示的実施形態に従った、格納ステップを示す流れ図である。 本発明の例示的実施形態に従った、格納ステップを示す流れ図である。 本発明の例示的実施形態に従った、保存ステップを示す流れ図である。 本発明の例示的実施形態に従った流れ図である。
本発明の好ましい諸実施形態は、コンピュータ・システムの重複除外コンピュータ・ファイル・システムをバックアップする方法およびシステムを提供する。例示的実施形態では、方法およびシステムは、(1)ファイル・システムを区画に分割すること、および(2)それぞれの区画を別々のストレージ・メディア上に格納することを含む。
図2を参照すると、例示的実施形態において、本発明は、ファイル・システムを区画に分割するステップ212と、それぞれの区画を別々のストレージ・メディア上に格納するステップ214とを含む。本発明は、ファイル・システムの重複除外状態を可能な限り多く維持する。ファイル・システムはオブジェクト(たとえばコンピュータ・ファイル)を格納する。各オブジェクトは、少なくとも1つのデータ・チャンクを含む。ストレージ・メディアは、磁気ストレージ・メディア(たとえばテープ)または光ストレージ・メディア(たとえばDVD)とすることができる。例示的実施形態では、格納ステップ214は、他のストレージ・メディア上のデータ片を参照する必要がない。
ファイル・システムの分割
図3を参照すると、例示的実施形態において、分割ステップ212は、グラフ区分アルゴリズムを使用するステップ312を含む。たとえば本発明は、ダイクストラのアルゴリズムを使用することができる。本発明は、オブジェクトがそれらの構成チャンクに接続され、チャンクがそれらのメンバ・オブジェクトに逆に接続される、2部(2レベル)グラフとして、重複除外ファイル・システムに注目する。
相互接続性のないサブグラフ
図4を参照すると、例示的実施形態において、使用ステップ312は、ファイル・システムを相互接続性のないサブグラフに区分するステップ322を含む。例示的実施形態では、サブグラフは区画である。
図5を参照すると、たとえば重複除外ファイル・システムは、チャンク1および2(それぞれアイテム331および332)を含むオブジェクト1(アイテム330)、チャンク3、4、および1(それぞれアイテム351、352、および353)を含むオブジェクト3(アイテム350)、チャンク5、6、および7(それぞれアイテム341、342、および343)からなるオブジェクト2(アイテム340)、ならびに、チャンク6、7、および8(それぞれアイテム361、362、および363)からなるオブジェクト4(アイテム360)を含む。図5に示されるように、重複除外ファイル・システムは、アイテム331および353によって参照されるチャンク1(アイテム371)、アイテム332によって参照されるチャンク2(アイテム372)、アイテム351によって参照されるチャンク3(アイテム373)、アイテム352によって参照されるチャンク4(アイテム374)、アイテム341によって参照されるチャンク5(アイテム381)、アイテム342および361によって参照されるチャンク6(アイテム382)、アイテム343および362によって参照されるチャンク7(アイテム383)、ならびに、アイテム363によって参照されるチャンク8(アイテム384)を含む。図6を参照すると、例示的実施形態では、区分ステップ322は、図5に示された重複除外ファイル・システムを区画1(アイテム370)(サブグラフ)および区画2(アイテム380)(他のサブグラフ)に区分するため、結果として区画1(アイテム370)および区画2(アイテム380)には相互接続性がない。
相互接続性のあるサブグラフ
図7を参照すると、例示的実施形態では、区分ステップ322は、サブグラフ内のあるサブグラフを別々のストレージ・メディア上に完全に格納できない場合、サブグラフを接続させることになるデータを識別するステップ412、および、サブグラフを接続させることになるデータを再重複させるステップ414を含む。例示的実施形態では、サブグラフは、別々のストレージ・メディア上に収めることが可能な場合、十分に小さい。完全に分割できないか、または別々のストレージ・メディア上に収めるほど十分に小さくないグラフの場合、グラフのサブグラフを接続させることになるデータ片を識別し、各参照グラフ区画でストレージ用に再重複させることができる。
図8を参照すると、例示的実施形態では、区分ステップ322は、再重複されたデータを、すべての参照グラフ区画と共に保存するステップ422をさらに含む。例示的実施形態では、本発明は、再重複されたデータをバックアップ・ターゲットに保存する。各グラフ区画は、別々のメディア(たとえば個々の磁気ストレージ・メディア(たとえばテープ)または個々の光ストレージ・メディア(たとえばDVD))上に格納可能であり、各グラフ区画は、そのグラフ区画が常駐する別々のメディア片上に含まれるデータのみを参照することになる。
図9を参照すると、たとえば重複除外ファイル・システムは、チャンク1および2(それぞれアイテム431および432)を含むオブジェクト1(アイテム430)、チャンク3、4、および1(それぞれアイテム451、452、および453)を含むオブジェクト3(アイテム450)、チャンク5、6、および7(それぞれアイテム441、442、および443)からなるオブジェクト2(アイテム440)、ならびに、チャンク3、6、7、および8(それぞれアイテム461、462、463、および464)からなるオブジェクト4(アイテム460)を含む。図9に示されるように、重複除外ファイル・システムは、アイテム431および453によって参照されるチャンク1(アイテム471)、アイテム432によって参照されるチャンク2(アイテム472)、アイテム451および461(インスタンス相互接続性)によって参照されるチャンク3(アイテム473)、アイテム452によって参照されるチャンク4(アイテム474)、アイテム441によって参照されるチャンク5(アイテム481)、アイテム442および462によって参照されるチャンク6(アイテム482)、アイテム443および463によって参照されるチャンク7(アイテム483)、ならびに、アイテム464によって参照されるチャンク8(アイテム484)を含む。図10を参照すると、例示的実施形態では、たとえ図9の重複除外ファイル・システムが、チャンク3(アイテム473)がアイテム451および461の両方によって参照されている結果として生じる、相互接続性のインスタンスを含むとしても、区分ステップ322は、図9に示された重複除外ファイル・システムを区画1(アイテム470)(サブグラフ)および区画2(アイテム480)(他のサブグラフ)に区分するため、結果として、区画1(アイテム470)および区画2(アイテム480)は、アイテム473をチャンク3(アイテム485)内に再重複させることおよびチャンク3(アイテム485)をアイテム461によって参照可能にすることにより、相互接続性を持たないことになる。
データの識別
図11を参照すると、例示的実施形態では、識別ステップ412は、サブグラフを接続させることになるデータ・チャンクの最小セットを発見するステップ512を含む。本発明は、最小カットを発見するために標準のグラフ・アルゴリズムを使用することによって、この発見ステップを実行することができる。本発明は、再重複させることが必要な最低量のデータを発見するために最小カット・グラフ区分アルゴリズムを使用することによって、この発見ステップを実行することができる。図12を参照すると、例示的実施形態では、識別ステップ412は、高い参照カウントを伴うデータ・チャンクを選択するステップ522を含む。特定のデータ・チャンクに関する参照カウントとは、そのチャンクがファイル・システム内のオブジェクトによって参照される回数のカウントである。特定のデータ・チャンクに関する参照カウントとは、そのチャンクを参照するファイル・システム内のファイル数のカウントでもある。
各区画の格納
図13を参照すると、例示的実施形態では、格納ステップ214は、各メディアが満杯になるまで、別々のストレージ・メディア上の区画を組み合わせるステップ610を含む。グラフ区画は、メディアが満杯になるまで別々のメディアの単一のインスタンス上で組み合わせることができるが、部分的な区画が別々のメディア片上に格納されることはない。
図14を参照すると、例示的実施形態では、格納ステップ214は、最低量の区画間のグラフ相互接続性を伴い、別々のストレージ・メディア上で区画を保存するステップ712を含む。図15を参照すると、例示的実施形態では、保存ステップ712は、コンピュータ・システム上に同時に取り付け可能な別々のストレージ・メディアの数を調節するステップ722、ならびに、別々のストレージ・メディアの取り外しおよび再取り付けのための性能ペナルティを考慮するステップ724を含む。本発明は、(i)同時に取り付け可能な取り外しメディアの数と、(ii)別々のメディアの取り外しあるいは再取り付けまたはその両方のための性能ペナルティとに依存して、最低量のグラフ相互接続性を許容することができる。
伝送
本発明は、コンピュータ・システムの重複除外コンピュータ・ファイル・システムを伝送する方法およびシステムも提供する。例示的実施形態では、方法およびシステムは、(1)ファイル・システムを区画に分割すること、および(2)それぞれの区画を別々の伝送チャネルについてアセンブルすることを含む。図16を参照すると、例示的実施形態では、本発明は、ファイル・システムを区画に分割するステップ812、および、それぞれの区画を別々の伝送チャネルについてアセンブルするステップ814を含む。
概要
本発明は、完全にハードウェア実施形態、完全にソフトウェア実施形態、またはハードウェアおよびソフトウェアの両方の要素を含む実施形態の、形を取ることができる。例示的実施形態では、本発明は、ファームウェア、常駐ソフトウェア、およびマイクロコードを含むがこれらに限定されない、ソフトウェア内で実装される。
さらに本発明は、コンピュータ・システムまたは任意の命令実行システムによる使用のため、またはそれらに関連して、プログラム・コードを提供する、コンピュータ使用可能またはコンピュータ読み取り可能メディアからアクセス可能な、コンピュータ・プログラム製品の形を取ることができる。コンピュータ・プログラム製品は、本発明の方法を実装する命令を含む。コンピュータ使用可能またはコンピュータ読み取り可能メディアは、命令実行システム、装置、またはデバイスによる使用のため、またはそれらに関連して、プログラムを含むこと、格納すること、通信すること、伝搬すること、または移送することが可能な、任意の装置とすることができる。メディアは、電子、磁気、光、電磁、赤外線、または半導体のシステム(あるいは装置またはデバイス)、あるいは伝搬メディアとすることができる。コンピュータ読み取り可能メディアの例には、半導体またはソリッドステート・メモリ、磁気テープ、取り外し可能コンピュータ・ディスケット、ランダム・アクセス・メモリ(RAM)、読み取り専用メモリ(ROM)、剛性磁気ディスク、および光ディスクが含まれる。現行の光ディスクの例には、コンパクト・ディスク読み取り専用メモリ(CD−ROM)、コンパクト・ディスク読み取り/書き込み(CD−R/W)、およびDVDが含まれる。
プログラム・コードの格納あるいは実行またはその両方に好適なコンピュータ・システムは、システム・バスを介してメモリ要素に直接または間接的に結合された、少なくとも1つのプロセッサを含む。メモリ要素は、プログラム・コードの実際の実行中に使用されるローカル・メモリと、大容量ストレージと、実行中に大容量ストレージからコードが取り出される回数を減らすために少なくとも一部のプログラム・コードの一時ストレージを提供するキャッシュ・メモリとを含む。入力/出力(I/O)デバイス(キーボード、ディスプレイ、ポインティング・デバイスなどを含むがこれらには限定されない)を、直接、または介在するI/Oコントローラを介して、コンピュータ・システムに結合することができる。コンピュータ・システムを、介在する専用または公衆ネットワークを介して他のコンピュータ・システムあるいはリモートのプリンタまたはストレージ・デバイスに結合できるようにするために、ネットワーク・アダプタをコンピュータ・システムに結合することもできる。モデム、ケーブル・モデム、およびイーサネット・カードは、現在使用可能なネットワーク・アダプタのタイプのうちのいくつかに過ぎない。コンピュータ・システムは、オペレーティング・システムおよびコンピュータ・ファイル・システムも含むことができる。

Claims (13)

  1. グラフ区分アルゴリズムを使用してファイル・システムを区画に分割するステップと、
    前記ファイル・システムを相互接続性のないサブグラフに区分するステップと、
    それぞれの前記区画を別々のストレージ・メディア上に格納するステップと、
    を含む、コンピュータ・システムの重複除外コンピュータ・ファイル・システムをバックアップする方法であって、前記区分するステップが、前記サブグラフ内のあるサブグラフを前記別々のストレージ・メディア上に完全に格納できない場合、
    前記サブグラフを接続させることになるデータを識別するステップと、
    前記サブグラフを接続させることになるデータを再重複させるステップと、
    前記再重複されたデータを、すべての参照グラフ区画と共に保存するステップと、
    を含む、方法。
  2. 前記識別するステップが、前記サブグラフを接続させることになるデータ・チャンクの最小セットを発見するステップを含む、請求項1に記載の方法。
  3. 前記識別するステップが、高い参照カウントを伴う前記データ・チャンクを選択するステップを含む、請求項1または2に記載の方法。
  4. 前記格納するステップが、各前記メディアが満杯になるまで、別々のストレージ・メディア上の前記区画を組み合わせるステップを含む、前記請求項のいずれか一項に記載の方法。
  5. 前記格納するステップが、最低量の前記区画間のグラフ相互接続性を伴い、別々のストレージ・メディア上で前記区画を保存するステップを含む、前記請求項のいずれか一項に記載の方法。
  6. 前記保存するステップが、
    前記コンピュータ・システム上に同時に取り付け可能な別々のストレージ・メディアの数を調節するステップと、
    前記別々のストレージ・メディアの取り外しおよび再取り付けのための性能ペナルティを考慮するステップと、
    を含む、請求項5に記載の方法。
  7. ファイル・システムを区画に分割するように構成されたグラフ区分アルゴリズムを使用するように構成された使用モジュールを備える、分割モジュールと、
    前記ファイル・システムを相互接続性のないサブグラフに区分するように構成された区分モジュールと、
    それぞれの前記区画を別々のストレージ・メディア上に格納するように構成された格納モジュールと、
    を備える、コンピュータ・システムの重複除外コンピュータ・ファイル・システムをバックアップするシステムであって、
    前記区分モジュールが、前記サブグラフ内のあるサブグラフを前記別々のストレージ・メディア上に完全に格納できない場合、
    前記サブグラフを接続させることになるデータを識別するように構成された識別モジュールと、
    前記サブグラフを接続させることになるデータを再重複させるように構成された再重複モジュールと、
    前記再重複されたデータを、すべての参照グラフ区画と共に保存するように構成された保存モジュールと、
    を備える、システム。
  8. 前記識別モジュールが、前記サブグラフを接続させることになるデータ・チャンクの最小セットを発見するように構成された発見モジュールを備える、請求項7に記載のシステム。
  9. 前記識別モジュールが、高い参照カウントを伴う前記データ・チャンクを選択するように構成された選択モジュールを備える、請求項7または8に記載のシステム。
  10. 前記格納モジュールが、各前記メディアが満杯になるまで、別々のストレージ・メディア上の前記区画を組み合わせるように構成された組み合わせモジュールを備える、請求項7から9のいずれか一項に記載のシステム。
  11. 前記格納モジュールが、最低量の前記区画間のグラフ相互接続性を伴い、別々のストレージ・メディア上で前記区画を保存するように構成された保存モジュールを備える、請求項10に記載のシステム。
  12. 前記保存モジュールが、
    前記コンピュータ・システム上に同時に取り付け可能な別々のストレージ・メディアの数を調節するように構成された調節モジュールと、
    前記別々のストレージ・メディアの取り外しおよび再取り付けのための性能ペナルティを考慮するように構成された考慮モジュールと、
    を備える、請求項11に記載のシステム。
  13. コンピュータ・システム内にロードされ、そこで実行された場合、請求項1から6のいずれか一項に記載の方法のすべてのステップを前記コンピュータ・システムに実行させるための、コンピュータ・プログラム・コードを備える、コンピュータ・プログラム。
JP2010541046A 2008-01-04 2008-12-17 コンピュータ・システムの重複除外コンピュータ・ファイル・システムのバックアップのための方法、システム、およびコンピュータ・プログラム Active JP5398739B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US11/969,517 2008-01-04
US11/969,517 US8447938B2 (en) 2008-01-04 2008-01-04 Backing up a deduplicated filesystem to disjoint media
PCT/EP2008/067724 WO2009087028A1 (en) 2008-01-04 2008-12-17 Backing up a de-duplicated computer file-system of a computer system

Publications (2)

Publication Number Publication Date
JP2011509459A true JP2011509459A (ja) 2011-03-24
JP5398739B2 JP5398739B2 (ja) 2014-01-29

Family

ID=40394373

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010541046A Active JP5398739B2 (ja) 2008-01-04 2008-12-17 コンピュータ・システムの重複除外コンピュータ・ファイル・システムのバックアップのための方法、システム、およびコンピュータ・プログラム

Country Status (6)

Country Link
US (1) US8447938B2 (ja)
EP (1) EP2240855A1 (ja)
JP (1) JP5398739B2 (ja)
KR (1) KR101369048B1 (ja)
CN (1) CN101911020B (ja)
WO (1) WO2009087028A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013080464A1 (en) * 2011-11-30 2013-06-06 International Business Machines Corporation Optimizing migration/copy of de-duplicated data
JP2015513741A (ja) * 2012-02-29 2015-05-14 ネットアップ,インコーポレイテッド 重複排除のオペレーションを実行するためのフラグメンテーションのコントロール
JP2016122480A (ja) * 2010-12-17 2016-07-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation バックアップ・デバイスからデータ・オブジェクトを復元するためのプログラム

Families Citing this family (30)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2409936T3 (es) 2003-01-31 2013-06-28 Good Technology Corporation Recuperación asíncrona de datos en tiempo real
US8108446B1 (en) * 2008-06-27 2012-01-31 Symantec Corporation Methods and systems for managing deduplicated data using unilateral referencing
US8660373B2 (en) * 2008-07-22 2014-02-25 Xerox Corporation PDF de-chunking and object classification
US8621166B1 (en) * 2009-02-09 2013-12-31 American Megatrends, Inc. Efficient backup of multiple versions of a file using data de-duplication
US8645334B2 (en) * 2009-02-27 2014-02-04 Andrew LEPPARD Minimize damage caused by corruption of de-duplicated data
US8140491B2 (en) 2009-03-26 2012-03-20 International Business Machines Corporation Storage management through adaptive deduplication
GB2471715A (en) * 2009-07-10 2011-01-12 Hewlett Packard Development Co Determining the data chunks to be used as seed data to restore a database, from manifests of chunks stored in a de-duplicated data chunk store.
US20110060882A1 (en) * 2009-09-04 2011-03-10 Petros Efstathopoulos Request Batching and Asynchronous Request Execution For Deduplication Servers
US8762338B2 (en) * 2009-10-07 2014-06-24 Symantec Corporation Analyzing backup objects maintained by a de-duplication storage system
US8689045B2 (en) * 2009-11-10 2014-04-01 Lenovo (Singapore) Pte. Ltd. Apparatus and method for reloading software images
US8407193B2 (en) * 2010-01-27 2013-03-26 International Business Machines Corporation Data deduplication for streaming sequential data storage applications
US8370297B2 (en) * 2010-03-08 2013-02-05 International Business Machines Corporation Approach for optimizing restores of deduplicated data
WO2011116087A2 (en) * 2010-03-16 2011-09-22 Copiun, Inc. Highly scalable and distributed data de-duplication
US9053032B2 (en) 2010-05-05 2015-06-09 Microsoft Technology Licensing, Llc Fast and low-RAM-footprint indexing for data deduplication
US8935487B2 (en) 2010-05-05 2015-01-13 Microsoft Corporation Fast and low-RAM-footprint indexing for data deduplication
US20110276744A1 (en) 2010-05-05 2011-11-10 Microsoft Corporation Flash memory cache including for use with persistent key-value store
CN103229161B (zh) 2010-08-24 2016-01-20 科派恩股份有限公司 连续接入网关和去重数据缓存服务器
US8682873B2 (en) 2010-12-01 2014-03-25 International Business Machines Corporation Efficient construction of synthetic backups within deduplication storage system
US9218343B2 (en) * 2010-12-20 2015-12-22 International Business Machines Corporation Partition file system for virtual machine memory management
US9110936B2 (en) 2010-12-28 2015-08-18 Microsoft Technology Licensing, Llc Using index partitioning and reconciliation for data deduplication
US9823981B2 (en) * 2011-03-11 2017-11-21 Microsoft Technology Licensing, Llc Backup and restore strategies for data deduplication
US8538929B2 (en) 2011-07-07 2013-09-17 International Business Machines Corporation Archiving de-duplicated data on tape storage media using graph partitions
WO2013051129A1 (ja) * 2011-10-06 2013-04-11 株式会社 日立製作所 格納データの重複排除方法、格納データの重複排除装置、及び重複排除プログラム
US9575978B2 (en) 2012-06-26 2017-02-21 International Business Machines Corporation Restoring objects in a client-server environment
US20140250078A1 (en) * 2013-03-01 2014-09-04 Storagecraft Technology Corporation Multiphase deduplication
US9575680B1 (en) 2014-08-22 2017-02-21 Veritas Technologies Llc Deduplication rehydration
US10423495B1 (en) 2014-09-08 2019-09-24 Veritas Technologies Llc Deduplication grouping
KR102547126B1 (ko) * 2018-04-30 2023-06-23 아마존 테크놀로지스, 인크. 블록 스토리지 시스템들을 위한 분산된 복제본
US11702207B2 (en) 2018-11-29 2023-07-18 Safran Seats Usa Llc Business class seats for a passenger vehicle
US11922042B2 (en) * 2021-10-29 2024-03-05 Scality, S.A. Data placement in large scale object storage system

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524243A (ja) * 2000-02-18 2003-08-12 アヴァマー テクノロジーズ インコーポレイテッド 共通性ファクタリングシステムに用いられるハッシュファイルシステムおよび方法
JP2007001168A (ja) * 2005-06-24 2007-01-11 Canon Inc 画像処理装置
JP2007001199A (ja) * 2005-06-24 2007-01-11 Fuji Xerox Co Ltd 積層体、電子写真感光体、画像形成装置及びプロセスカートリッジ
WO2007089502A1 (en) * 2006-01-26 2007-08-09 Network Appliance, Inc. Content addressable storage array element
US20080288482A1 (en) * 2007-05-18 2008-11-20 Microsoft Corporation Leveraging constraints for deduplication

Family Cites Families (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3140906B2 (ja) * 1994-04-12 2001-03-05 株式会社エヌ・ティ・ティ・データ システムファイルの更新及び復元方法
EP2270687A2 (en) * 1995-04-11 2011-01-05 Kinetech, Inc. Identifying data in a data processing system
US5987506A (en) * 1996-11-22 1999-11-16 Mangosoft Corporation Remote access and geographically distributed computers in a globally addressable storage environment
US6047297A (en) * 1997-01-13 2000-04-04 Microsoft Corporation Method and system for editing actual work records
JP3563907B2 (ja) * 1997-01-30 2004-09-08 富士通株式会社 並列計算機
US6374363B1 (en) * 1998-02-24 2002-04-16 Adaptec, Inc. Method for generating a footprint image file for an intelligent backup and restoring system
US6047294A (en) 1998-03-31 2000-04-04 Emc Corp Logical restore from a physical backup in a computer storage system
US6542975B1 (en) * 1998-12-24 2003-04-01 Roxio, Inc. Method and system for backing up data over a plurality of volumes
US6856993B1 (en) * 2000-03-30 2005-02-15 Microsoft Corporation Transactional file system
US6675177B1 (en) * 2000-06-21 2004-01-06 Teradactyl, Llc Method and system for backing up digital data
US6788302B1 (en) * 2000-08-03 2004-09-07 International Business Machines Corporation Partitioning and load balancing graphical shape data for parallel applications
US6781144B2 (en) * 2000-11-20 2004-08-24 Konica Corporation Radiation image radiographing cassette and radiation image reading apparatus
US7222132B2 (en) * 2001-03-20 2007-05-22 Swsoft Holdings, Ltd. Common template file system tree for virtual environments and virtual servers
US6985914B2 (en) * 2002-02-20 2006-01-10 Emc Corporation Cluster meta file system of file system cells managed by respective data movers of a network file server
US20040015522A1 (en) * 2002-06-13 2004-01-22 International Business Machines Corporation Apparatus, system and method of providing a stackable private write file system
CN1656455A (zh) * 2002-09-05 2005-08-17 八十岛广至 管理文件的方法、操作对象显示限制程序和记录介质
US7155465B2 (en) * 2003-04-18 2006-12-26 Lee Howard F Method and apparatus for automatically archiving a file system
US7222143B2 (en) * 2003-11-24 2007-05-22 Lenovo (Singapore) Pte Ltd. Safely restoring previously un-backed up data during system restore of a failing system
US20070088702A1 (en) * 2005-10-03 2007-04-19 Fridella Stephen A Intelligent network client for multi-protocol namespace redirection
US8539481B2 (en) * 2005-12-12 2013-09-17 Microsoft Corporation Using virtual hierarchies to build alternative namespaces
US20070204011A1 (en) * 2006-02-28 2007-08-30 Maven Networks, Inc. Systems and methods for offline access to video content of a web-site
US8190742B2 (en) * 2006-04-25 2012-05-29 Hewlett-Packard Development Company, L.P. Distributed differential store with non-distributed objects and compression-enhancing data-object routing
US8862841B2 (en) * 2006-04-25 2014-10-14 Hewlett-Packard Development Company, L.P. Method and system for scaleable, distributed, differential electronic-data backup and archiving
US7689566B1 (en) * 2006-12-12 2010-03-30 Sun Microsystems, Inc. Method for defining non-native operating environments
US7672981B1 (en) * 2007-02-28 2010-03-02 Emc Corporation Object classification and indexing of very large name spaces using grid technology
US7873809B2 (en) * 2007-03-29 2011-01-18 Hitachi, Ltd. Method and apparatus for de-duplication after mirror operation
US8315984B2 (en) * 2007-05-22 2012-11-20 Netapp, Inc. System and method for on-the-fly elimination of redundant data
US20090132616A1 (en) * 2007-10-02 2009-05-21 Richard Winter Archival backup integration
US7797279B1 (en) * 2007-12-31 2010-09-14 Emc Corporation Merging of incremental data streams with prior backed-up data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003524243A (ja) * 2000-02-18 2003-08-12 アヴァマー テクノロジーズ インコーポレイテッド 共通性ファクタリングシステムに用いられるハッシュファイルシステムおよび方法
JP2007001168A (ja) * 2005-06-24 2007-01-11 Canon Inc 画像処理装置
JP2007001199A (ja) * 2005-06-24 2007-01-11 Fuji Xerox Co Ltd 積層体、電子写真感光体、画像形成装置及びプロセスカートリッジ
WO2007089502A1 (en) * 2006-01-26 2007-08-09 Network Appliance, Inc. Content addressable storage array element
US20080288482A1 (en) * 2007-05-18 2008-11-20 Microsoft Corporation Leveraging constraints for deduplication

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016122480A (ja) * 2010-12-17 2016-07-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation バックアップ・デバイスからデータ・オブジェクトを復元するためのプログラム
WO2013080464A1 (en) * 2011-11-30 2013-06-06 International Business Machines Corporation Optimizing migration/copy of de-duplicated data
US9489133B2 (en) 2011-11-30 2016-11-08 International Business Machines Corporation Optimizing migration/copy of de-duplicated data
US9524102B2 (en) 2011-11-30 2016-12-20 International Business Machines Corporation Optimizing migration/copy of de-duplicated data
JP2015513741A (ja) * 2012-02-29 2015-05-14 ネットアップ,インコーポレイテッド 重複排除のオペレーションを実行するためのフラグメンテーションのコントロール

Also Published As

Publication number Publication date
US20090177855A1 (en) 2009-07-09
CN101911020A (zh) 2010-12-08
US8447938B2 (en) 2013-05-21
CN101911020B (zh) 2013-10-02
KR101369048B1 (ko) 2014-02-28
WO2009087028A1 (en) 2009-07-16
KR20100099231A (ko) 2010-09-10
JP5398739B2 (ja) 2014-01-29
EP2240855A1 (en) 2010-10-20

Similar Documents

Publication Publication Date Title
JP5398739B2 (ja) コンピュータ・システムの重複除外コンピュータ・ファイル・システムのバックアップのための方法、システム、およびコンピュータ・プログラム
US10152268B1 (en) System and methods for replication resource management in asymmetric secure multi-tenancy deployments in protection storage
US8983952B1 (en) System and method for partitioning backup data streams in a deduplication based storage system
US9275067B2 (en) Apparatus and method to sequentially deduplicate data
AU2011312036B2 (en) Automatic replication and migration of live virtual machines
US20110225130A1 (en) Storage device, and program and method for controlling storage device
US11221992B2 (en) Storing data files in a file system
US10187256B2 (en) Configuration replication across distributed storage systems
US8538929B2 (en) Archiving de-duplicated data on tape storage media using graph partitions
US8521692B1 (en) Storage system and method for controlling storage system
JP2008257716A (ja) 重複除外記憶装置から非重複除外記憶装置にデータを直接エクスポートするシステム及び方法
JP2008515114A (ja) インデックス処理
US8239390B2 (en) Filtered remote journal
US8886606B2 (en) File system based exchange between disk-based network attached storage and tape
US20190369890A1 (en) Embedded object data storage determined by object size information
JP6269140B2 (ja) アクセス制御プログラム、アクセス制御方法、およびアクセス制御装置
CN112685223A (zh) 基于文件类型的文件备份
US9734171B2 (en) Intelligent redistribution of data in a database
US9557932B1 (en) Method and system for discovering snapshot information based on storage arrays
US8914324B1 (en) De-duplication storage system with improved reference update efficiency
US9646017B2 (en) Efficient video data deduplication
CN107436761B (zh) 基于uefi主板的uefi系统与传统系统共存的管理方法
US20200142995A1 (en) Intelligently Scheduling Resynchronization Jobs in a Distributed Object-Based Storage System
JP5494817B2 (ja) ストレージシステム、データ管理装置、方法及びプログラム
US9529812B1 (en) Timestamp handling for partitioned directories

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20111011

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20130515

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130702

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130909

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131001

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20131022

R150 Certificate of patent or registration of utility model

Ref document number: 5398739

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150