JP5423896B2 - ストレージシステム - Google Patents
ストレージシステム Download PDFInfo
- Publication number
- JP5423896B2 JP5423896B2 JP2012528162A JP2012528162A JP5423896B2 JP 5423896 B2 JP5423896 B2 JP 5423896B2 JP 2012528162 A JP2012528162 A JP 2012528162A JP 2012528162 A JP2012528162 A JP 2012528162A JP 5423896 B2 JP5423896 B2 JP 5423896B2
- Authority
- JP
- Japan
- Prior art keywords
- sub
- block data
- data
- storage device
- block
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000003379 elimination reaction Methods 0.000 claims description 17
- 230000010365 information processing Effects 0.000 claims description 15
- 230000008030 elimination Effects 0.000 claims description 13
- 238000003672 processing method Methods 0.000 claims description 12
- 230000007717 exclusion Effects 0.000 claims description 9
- 238000004422 calculation algorithm Methods 0.000 description 70
- 238000012545 processing Methods 0.000 description 42
- 239000012634 fragment Substances 0.000 description 28
- 230000002902 bimodal effect Effects 0.000 description 23
- 238000000034 method Methods 0.000 description 19
- 238000006243 chemical reaction Methods 0.000 description 18
- 238000013459 approach Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 238000002474 experimental method Methods 0.000 description 11
- 238000013467 fragmentation Methods 0.000 description 11
- 238000006062 fragmentation reaction Methods 0.000 description 11
- 230000009466 transformation Effects 0.000 description 11
- 230000000694 effects Effects 0.000 description 10
- 230000006872 improvement Effects 0.000 description 9
- 238000013500 data storage Methods 0.000 description 8
- 230000008859 change Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000000844 transformation Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 230000007423 decrease Effects 0.000 description 5
- 238000011156 evaluation Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000002829 reductive effect Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 238000013519 translation Methods 0.000 description 4
- 230000014616 translation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000001514 detection method Methods 0.000 description 2
- 230000000670 limiting effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 239000007787 solid Substances 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 101001000302 Homo sapiens Max-interacting protein 1 Proteins 0.000 description 1
- 101000957259 Homo sapiens Mitotic spindle assembly checkpoint protein MAD2A Proteins 0.000 description 1
- 241000243251 Hydra Species 0.000 description 1
- 102100035880 Max-interacting protein 1 Human genes 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000004581 coalescence Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- QRXWMOHMRWLFEY-UHFFFAOYSA-N isoniazide Chemical compound NNC(=O)C1=CC=NC=C1 QRXWMOHMRWLFEY-UHFFFAOYSA-N 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 230000036961 partial effect Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000004088 simulation Methods 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000010561 standard procedure Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
- G06F11/1453—Management of the data involved in backup or backup restore using de-duplication of the data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F12/00—Accessing, addressing or allocating within memory systems or architectures
- G06F12/02—Addressing or allocation; Relocation
- G06F12/0223—User address space allocation, e.g. contiguous or non contiguous base addressing
- G06F12/023—Free address space management
- G06F12/0253—Garbage collection, i.e. reclamation of unreferenced memory
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
- G06F16/1752—De-duplication implemented within the file system, e.g. based on file segments based on file chunks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/067—Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
データストリームを任意の容量に分割したブロックデータを、当該ブロックデータのデータ内容に基づくアドレスデータにて参照して記憶装置に格納すると共に、記憶装置に既に記憶されている前記ブロックデータと同一のデータ内容の他のブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記ブロックデータを前記他のブロックデータとして参照する前記アドレスデータを記憶装置に格納して前記ブロックデータの重複記憶排除を行うブロックデータ重複排除部と、
前記ブロックデータをさらに複数に分割した各サブブロックデータを、当該各サブブロックデータの各データ内容に基づく各サブアドレスデータにて参照して記憶装置に記憶すると共に、前記各サブアドレスデータからなるサブアドレスデータ群を所定の記憶装置に記憶し、記憶装置に既に記憶されている前記サブブロックデータと同一のデータ内容の他のサブブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記サブブロックデータを前記他のサブブロックデータとして参照する前記サブアドレスデータを前記所定の記憶装置に格納して前記サブブロックデータの重複記憶排除を行うサブブロックデータ重複排除部と、を備えた、
という構成をとる。
情報処理装置に、
データストリームを任意の容量に分割したブロックデータを、当該ブロックデータのデータ内容に基づくアドレスデータにて参照して記憶装置に格納すると共に、記憶装置に既に記憶されている前記ブロックデータと同一のデータ内容の他のブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記ブロックデータを前記他のブロックデータとして参照する前記アドレスデータを記憶装置に格納して前記ブロックデータの重複記憶排除を行うブロックデータ重複排除部と、
前記ブロックデータをさらに複数に分割した各サブブロックデータを、当該各サブブロックデータの各データ内容に基づく各サブアドレスデータにて参照して記憶装置に記憶すると共に、前記各サブアドレスデータからなるサブアドレスデータ群を所定の記憶装置に記憶し、記憶装置に既に記憶されている前記サブブロックデータと同一のデータ内容の他のサブブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記サブブロックデータを前記他のサブブロックデータとして参照する前記サブアドレスデータを前記所定の記憶装置に格納して前記サブブロックデータの重複記憶排除を行うサブブロックデータ重複排除部と、
を実現させるためのプログラムを記憶した記憶媒体である。
データストリームを任意の容量に分割したブロックデータを、当該ブロックデータのデータ内容に基づくアドレスデータにて参照して記憶装置に格納すると共に、記憶装置に既に記憶されている前記ブロックデータと同一のデータ内容の他のブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記ブロックデータを前記他のブロックデータとして参照する前記アドレスデータを記憶装置に格納して前記ブロックデータの重複記憶排除を行い、
前記ブロックデータをさらに複数に分割した各サブブロックデータを、当該各サブブロックデータの各データ内容に基づく各サブアドレスデータにて参照して記憶装置に記憶すると共に、前記各サブアドレスデータからなるサブアドレスデータ群を所定の記憶装置に記憶し、記憶装置に既に記憶されている前記サブブロックデータと同一のデータ内容の他のサブブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記サブブロックデータを前記他のサブブロックデータとして参照する前記サブアドレスデータを前記所定の記憶装置に格納して前記サブブロックデータの重複記憶排除を行う、
という構成をとる。
本実施形態では、ストレージシステムにおける重複排除の効率化を図るより良い方法を提案する。つまり、複数のバックアップにおいて、長期間に渡って変化しない長い一連のデータがあり、このようなデータには大きなサイズのチャンクの方が良い。その中に、変化のある領域が複数分散されており、これらは小さなサイズのチャンクの方が良い。
[システムモデル]
本願のストレージシステムは、非特許文献9に挙げたHYDRAstorをモデルとして作成されている。HYDRAstorは、ファイルシステム抽象化(abstraction)をエクスポートするアクセスノード(ANs)のフロントエンド構造と、多様なサイズのコンテンツアドレスブロックを保持するマルチノードブロックストレージ(store)としてのバックエンド構造と、により構成される。本願では、チャンクとデータのブロックとを区別する。チャンクは通常、連続する1つのユーザデータストリームであり、重複排除を最大限機能させるためにチャンク分割手段(chunker)によって定められる境界線を持つ。ブロックは、バックエンドにより格納される基本ユニットである。ブロックは、このブロックのチャンクである1つのユーザデータと、関連付けられたバックエンドレベルのブロックメタデータを含む。ただし、チャンクも、他のブロックへのポインタを含むことができる。ポインタはハッシュアドレスとして表され、ファイルシステム構成を維持するツリーの構築を促進する。
複数のチャンクサイズを使用する重複排除に関する過去の2つの研究が、本願における研究の直接的な動機となった。
本発明における「アンカー駆動型サブチャンク重複排除」という新たなアルゴリズムは、上記の従来のアプローチの欠点を解決する。
サブチャンクを含むバックアップストリームの重複排除を行う際、これまでに生成されたすべてのサブチャンクにアクセスする必要はない。その代わりに、このバックアップの以前のバージョンからのサブチャンクであって、バックアップストリーム内で現在の位置に「近接する」サブチャンクにアクセスすればよい。この観測を用いることによって、アクセスノード上に、サブチャンク重複排除コンテキストを、そのサブチャンクからコンテナチャンクへの変換を保持するローカルキャッシュとして構築する。
基本システムでは、チャンク全体が圧縮されて冗長符号化される。サブチャンク重複排除では、個々のサブチャンクを読み出すことが可能でなければならない。そのためには、コンテナブロック全体を読み出して所望するサブチャンクを抽出すればよい。しかし、これはあまり効率的ではないため、個々のサブチャンクを圧縮して冗長符号化することを提案する。その結果、新たな「フラグメント」には、あるチャンクのすべてのサブチャンクのフラグメントが含まれる。そしてブロックメタデータを拡張し、チャンクフラグメント内のすべてのサブチャンクのフラグメントのオフセットを記憶する。
ここでは、以下に記載する3つのデータ群を用いて、本願で提案するサブチャンクアルゴリズム(以下「サブチャンク」と言う)を、上述したCDCおよびバイモーダル手法と対比させて評価する。
図3に示す3つのデータ群に基づいて実験を行った。
Wikiデータ群は、英語版ウィキペディアの5つの正式なXMLスナップショットで構成される。ファイルには通常のページの最新バージョンしか含まれず、変更履歴、特別ページ、画像などは含まれない。スナップショットが作成されるのは稀で、平均月1回である。バックアップの間隔が長く、バックアップ数が少ないこと、またwikiデータの特徴(細かく頻繁に変更がある)により、このデータ群について測定される重複排除率は非常に低い。実DERは、選択するアルゴリズムによって1.06〜1.52となる。
全てのアルゴリズムについて、考えられる様々な構成でテストを行った。最初のアルゴリズムであるCDCについては、4KBから256KBまでのすべての2の乗数に設定された想定チャンクサイズでテストを行った。予想通り、CDCでは想定チャンクサイズ付近のサイズのチャンクが生成された。
図4は、平均ブロックサイズに対するデータのみのDERを示す。これは3つのデータ群とすべてのアルゴリズムに関するものである。各グラフは個別のデータ群を表し、各曲線は個別のアルゴリズム、各点は個別の構成(異なる想定チャンクサイズ)を表している。これらの表示は、望ましい重複排除アルゴリズムは高いDERを達成できるだけでなく大きな平均ブロックサイズが維持できるべきであるとの考えに基づくものである。これは、メタデータのオーバーヘッドとパフォーマンスのオーバーヘッドを許容されるレベルに維持するために必要である。平均ブロックサイズとは、システム内に格納されるすべてのユニークなブロックのサイズの合計を、ブロック数で割った値である(多くのバックアップストリームに単一のブロックがある場合でも1つとかぞえる)。これは後に詳細に説明する平均チャンクサイズとは異なる統計値である。
あらゆる種類のメタデータが含まれる場合、状況は著しく異なる。上記で説明したシステムモデルでは、各ブロックは冗長符号化され、12個のフラグメントとして格納される。ほとんどのデータは、オリジナルのフラグメントが9個で、冗長フラグメントが3個であるが、ポインタ付きのブロックは12個のコピーに保存される。圧縮レベルはブロックサイズの対数の線形関数としてグローバルに予測される(64KBのブロックについては約0.77、8KBのブロックについては約0.80)。格納される各ブロックは、それに関連付けられる124バイトのメタデータを含む。高いパフォーマンスと障害からの復元力を持つために、メタデータはすべて12個のコピーに格納されるため、メタデータのオーバーヘッドは1ブロック当たり1344バイトとなる。実際のシステムでは、ポインタ付きのブロックも重複排除されるため、(特に小さなブロックでは)メタデータのオーバーヘッドは少なくなるが、このモデルでは、ポインタ付きブロックは重複排除されないという最悪のシナリオのみをエミュレートする。そのため、バックアップストリーム内の各チャンクにはポインタがなければならない(このチャンクが重複しているかどうかは関係ない)。また、すべてのポインタも12個のコピーに格納される。
バックアップデータの重複排除を行うと、連続するストリームではなく、データが多数の小さなチャンクとしてシステム全体に散らばって格納される場合がある。このようなフラグメント化された状態では、読み出す際のディスク動作(検索)が多くなる。
ここでは、サブチャンクアルゴリズムの基本構成(上記で説明した想定チャンクサイズ64KB)からパラメータを1つ変更することによって、実DERにどのような影響を与えるのかについて説明する。プロットを簡略化するために、合計のデータ群についてのみ述べる。通常、各データ群に関する結果もほぼ同じである。その結果を、図9の実DERと様々なパラメータの関係に示す。
前述のfingerdiffとバイモーダルのチャンク分割に加えて、重複排除全般、特にチャンク分割に関連する様々な論文がある。
RedFS分散型ファイルシステム(非特許文献4)は、ファイルグループに対する局所的重複排除と、レプリカと言われるグループのベクトルに基づく類似するファイルグループの検索とを組み合わせて、分散されたレプリカ間でのデータ転送を最小限にする。
本願では、動的にプリフェッチされる限られたサイズのサブチャンク重複排除コンテキストによって駆動されるサブチャンク重複排除アルゴリズムを提案した。このコンテキストは、サブチャンクレベルでの効果的な重複排除に必要なほとんどの変換を提供する。さらに、コンテキスト入力変換は、あまり重要でないメタデータとして、つまり復元力の低いオーバーヘッドとして、格納することができる。また、この新たなアルゴリズムは、可能な場合はすべてのチャンクを使用することによって有効なメタデータのオーバーヘッドを削減し、同じチャンクに属するサブチャンク間でほとんどのメタデータを共有する。その結果、多量のメタデータのオーバーヘッドを含むシステムでは、サブチャンクアルゴリズムは従来のCDCまたはバイモーダル等の他のアプローチと比べて実DERが優れており、また平均ブロックサイズおよびチャンクサイズが非常に大きい。同時に、標準的なバックアップトレースについては、この新たなアルゴリズムはフラグメント化が少ない。それ以外のデータストリームについては、フラグメントが多くなる場合もあるが、これは重複排除率を改善するためのコストである。
本発明の第2の実施形態を、図10乃至図18を参照して説明する。図10は、システム全体の構成を示すブロック図である。図11は、ストレージシステムの概略を示すブロック図であり、図12は、構成を示す機能ブロック図である。図13乃至図18は、ストレージシステムの動作を説明するための説明図である。
上記実施形態の一部又は全部は、以下の付記のようにも記載されうる。以下、本発明におけるストレージシステム(図19参照)、プログラムを記憶した記憶媒体、情報処理方法の構成の概略を説明する。但し、本発明は、以下の構成に限定されない。
データストリームを任意の容量に分割したブロックデータを、当該ブロックデータのデータ内容に基づくアドレスデータにて参照して記憶装置に格納すると共に、記憶装置に既に記憶されている前記ブロックデータと同一のデータ内容の他のブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記ブロックデータを前記他のブロックデータとして参照する前記アドレスデータを記憶装置に格納して前記ブロックデータの重複記憶排除を行うブロックデータ重複排除部101と、
前記ブロックデータをさらに複数に分割した各サブブロックデータを、当該各サブブロックデータの各データ内容に基づく各サブアドレスデータにて参照して記憶装置に記憶すると共に、前記各サブアドレスデータからなるサブアドレスデータ群を所定の記憶装置に記憶し、記憶装置に既に記憶されている前記サブブロックデータと同一のデータ内容の他のサブブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記サブブロックデータを前記他のサブブロックデータとして参照する前記サブアドレスデータを前記所定の記憶装置に格納して前記サブブロックデータの重複記憶排除を行うサブブロックデータ重複排除部102と、を備えた、
ストレージシステム100。
付記1に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記ブロックデータ重複排除部にて重複記憶排除されない前記他のブロックデータを複数に分割した前記各サブブロックデータに対して前記サブブロックデータの重複記憶排除を行う、
ストレージシステム。
付記1に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記データストリーム内の一部の前記ブロックデータから当該ブロックデータのデータ内容に基づいて検出した特徴値が設定条件を満たす場合に、当該設定条件を満たす特徴値が検出された前記ブロックデータに隣接する別の前記ブロックデータを分割した前記各サブブロックデータを参照する前記サブアドレスデータ群を、前記設定条件を満たす特徴値に関連付けて前記所定の記憶装置に記憶する、
ストレージシステム。
付記3に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記データストリーム内の一部の前記ブロックデータから検出した前記特徴値が前記所定の記憶装置に既に記憶されている場合に、当該特徴値に関連付けられて既に記憶されている前記サブアドレスデータ群と、前記特徴値が検出された前記ブロックデータに隣接する別の前記ブロックデータを形成する前記各サブブロックデータを参照する前記サブアドレスデータ群と、を比較して、前記サブブロックデータの重複記憶排除を行う、
ストレージシステム。
付記4に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記サブアドレスデータ群の比較により、記憶装置に記憶されていない前記サブブロックデータが複数存在する場合に、当該複数のサブブロックデータをまとめて記憶装置に記憶する、
ストレージシステム。
付記3に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記設定条件を満たす特徴値に、複数の前記サブアドレスデータ群を関連付けて前記所定の記憶装置に記憶する、
ストレージシステム。
付記2に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記設定条件を満たす特徴値に関連付けた前記サブアドレスデータ群を、前記ブロックデータ及び前記サブブロックデータを記憶する記憶装置よりも読み書き速度が速い前記所定の記憶装置に記憶する、
ストレージシステム。
情報処理装置に、
データストリームを任意の容量に分割したブロックデータを、当該ブロックデータのデータ内容に基づくアドレスデータにて参照して記憶装置に格納すると共に、記憶装置に既に記憶されている前記ブロックデータと同一のデータ内容の他のブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記ブロックデータを前記他のブロックデータとして参照する前記アドレスデータを前記記憶装置に格納して前記ブロックデータの重複記憶排除を行うブロックデータ重複排除部と、
前記ブロックデータをさらに複数に分割した各サブブロックデータを、当該各サブブロックデータの各データ内容に基づく各サブアドレスデータにて参照して記憶装置に記憶すると共に、前記各サブアドレスデータからなるサブアドレスデータ群を所定の記憶装置に記憶し、記憶装置に既に記憶されている前記サブブロックデータと同一のデータ内容の他のサブブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記サブブロックデータを前記他のサブブロックデータとして参照する前記サブアドレスデータを前記所定の記憶装置に格納して前記サブブロックデータの重複記憶排除を行うサブブロックデータ重複排除部と、
を実現させるためのプログラムを記憶した記憶媒体。
付記8に記載のプログラムを記憶した記憶媒体であって、
前記サブブロックデータ重複排除部は、前記ブロックデータ重複排除部にて重複記憶排除されない前記他のブロックデータを複数に分割した前記各サブブロックデータに対して前記サブブロックデータの重複記憶排除を行う、
ことを実現させるためのプログラムを記憶した記憶媒体。
付記8に記載のプログラムを記憶した記憶媒体であって、
前記サブブロックデータ重複排除部は、前記データストリーム内の一部の前記ブロックデータから当該ブロックデータのデータ内容に基づいて検出した特徴値が設定条件を満たす場合に、当該設定条件を満たす特徴値が検出された前記ブロックデータに隣接する別の前記ブロックデータを分割した前記各サブブロックデータを参照する前記サブアドレスデータ群を、前記設定条件を満たす特徴値に関連付けて前記所定の記憶装置に記憶する、
ことを実現させるためのプログラムを記憶した記憶媒体。
データストリームを任意の容量に分割したブロックデータを、当該ブロックデータのデータ内容に基づくアドレスデータにて参照して記憶装置に格納すると共に、記憶装置に既に記憶されている前記ブロックデータと同一のデータ内容の他のブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記ブロックデータを前記他のブロックデータとして参照する前記アドレスデータを前記記憶装置に格納して前記ブロックデータの重複記憶排除を行い、
前記ブロックデータをさらに複数に分割した各サブブロックデータを、当該各サブブロックデータの各データ内容に基づく各サブアドレスデータにて参照して記憶装置に記憶すると共に、前記各サブアドレスデータからなるサブアドレスデータ群を所定の記憶装置に記憶し、記憶装置に既に記憶されている前記サブブロックデータと同一のデータ内容の他のサブブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記サブブロックデータを前記他のサブブロックデータとして参照する前記サブアドレスデータを前記所定の記憶装置に格納して前記サブブロックデータの重複記憶排除を行う、
情報処理方法。
付記11に記載の情報処理方法であって、
重複記憶排除されない前記他のブロックデータを複数に分割した前記各サブブロックデータに対して前記サブブロックデータの重複記憶排除を行う、
情報処理方法。
付記12に記載の情報処理方法であって、
前記データストリーム内の一部の前記ブロックデータから当該ブロックデータのデータ内容に基づいて検出した特徴値が設定条件を満たす場合に、当該設定条件を満たす特徴値が検出された前記ブロックデータに隣接する別の前記ブロックデータを分割した前記各サブブロックデータを参照する前記サブアドレスデータ群を、前記設定条件を満たす特徴値に関連付けて前記所定の記憶装置に記憶する、
情報処理方法。
Claims (13)
- データストリームを任意の容量に分割したブロックデータを、当該ブロックデータのデータ内容に基づくアドレスデータにて参照して記憶装置に格納すると共に、記憶装置に既に記憶されている前記ブロックデータと同一のデータ内容の他のブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記ブロックデータを前記他のブロックデータとして参照する前記アドレスデータを記憶装置に格納して前記ブロックデータの重複記憶排除を行うブロックデータ重複排除部と、
前記ブロックデータをさらに複数に分割した各サブブロックデータを、当該各サブブロックデータの各データ内容に基づく各サブアドレスデータにて参照して記憶装置に記憶すると共に、前記各サブアドレスデータからなるサブアドレスデータ群を所定の記憶装置に記憶し、記憶装置に既に記憶されている前記サブブロックデータと同一のデータ内容の他のサブブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記サブブロックデータを前記他のサブブロックデータとして参照する前記サブアドレスデータを前記所定の記憶装置に格納して前記サブブロックデータの重複記憶排除を行うサブブロックデータ重複排除部と、を備えた、
ストレージシステム。 - 請求項1に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記ブロックデータ重複排除部にて重複記憶排除されない前記他のブロックデータを複数に分割した前記各サブブロックデータに対して前記サブブロックデータの重複記憶排除を行う、
ストレージシステム。 - 請求項1又は2に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記データストリーム内の一部の前記ブロックデータから当該ブロックデータのデータ内容に基づいて検出した特徴値が設定条件を満たす場合に、当該設定条件を満たす特徴値が検出された前記ブロックデータに隣接する別の前記ブロックデータを分割した前記各サブブロックデータを参照する前記サブアドレスデータ群を、前記設定条件を満たす特徴値に関連付けて前記所定の記憶装置に記憶する、
ストレージシステム。 - 請求項3に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記データストリーム内の一部の前記ブロックデータから検出した前記特徴値が前記所定の記憶装置に既に記憶されている場合に、当該特徴値に関連付けられて既に記憶されている前記サブアドレスデータ群と、前記特徴値が検出された前記ブロックデータに隣接する別の前記ブロックデータを形成する前記各サブブロックデータを参照する前記サブアドレスデータ群と、を比較して、前記サブブロックデータの重複記憶排除を行う、
ストレージシステム。 - 請求項4に記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記サブアドレスデータ群の比較により、記憶装置に記憶されていない前記サブブロックデータが複数存在する場合に、当該複数のサブブロックデータをまとめて記憶装置に記憶する、
ストレージシステム。 - 請求項3乃至5のいずれかに記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記設定条件を満たす特徴値に、複数の前記サブアドレスデータ群を関連付けて前記所定の記憶装置に記憶する、
ストレージシステム。 - 請求項3乃至6のいずれかに記載のストレージシステムであって、
前記サブブロックデータ重複排除部は、前記設定条件を満たす特徴値に関連付けた前記サブアドレスデータ群を、前記ブロックデータ及び前記サブブロックデータを記憶する記憶装置よりも読み書き速度が速い前記所定の記憶装置に記憶する、
ストレージシステム。 - 情報処理装置に、
データストリームを任意の容量に分割したブロックデータを、当該ブロックデータのデータ内容に基づくアドレスデータにて参照して記憶装置に格納すると共に、記憶装置に既に記憶されている前記ブロックデータと同一のデータ内容の他のブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記ブロックデータを前記他のブロックデータとして参照する前記アドレスデータを記憶装置に格納して前記ブロックデータの重複記憶排除を行うブロックデータ重複排除部と、
前記ブロックデータをさらに複数に分割した各サブブロックデータを、当該各サブブロックデータの各データ内容に基づく各サブアドレスデータにて参照して記憶装置に記憶すると共に、前記各サブアドレスデータからなるサブアドレスデータ群を所定の記憶装置に記憶し、記憶装置に既に記憶されている前記サブブロックデータと同一のデータ内容の他のサブブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記サブブロックデータを前記他のサブブロックデータとして参照する前記サブアドレスデータを前記所定の記憶装置に格納して前記サブブロックデータの重複記憶排除を行うサブブロックデータ重複排除部と、
を実現させるためのプログラム。 - 請求項8に記載のプログラムであって、
前記サブブロックデータ重複排除部は、前記ブロックデータ重複排除部にて重複記憶排除されない前記他のブロックデータを複数に分割した前記各サブブロックデータに対して前記サブブロックデータの重複記憶排除を行う、
ことを実現させるためのプログラム。 - 請求項8に記載のプログラムであって、
前記サブブロックデータ重複排除部は、前記データストリーム内の一部の前記ブロックデータから当該ブロックデータのデータ内容に基づいて検出した特徴値が設定条件を満たす場合に、当該設定条件を満たす特徴値が検出された前記ブロックデータに隣接する別の前記ブロックデータを分割した前記各サブブロックデータを参照する前記サブアドレスデータ群を、前記設定条件を満たす特徴値に関連付けて前記所定の記憶装置に記憶する、
ことを実現させるためのプログラム。 - データストリームを任意の容量に分割したブロックデータを、当該ブロックデータのデータ内容に基づくアドレスデータにて参照して記憶装置に格納すると共に、記憶装置に既に記憶されている前記ブロックデータと同一のデータ内容の他のブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記ブロックデータを前記他のブロックデータとして参照する前記アドレスデータを記憶装置に格納して前記ブロックデータの重複記憶排除を行い、
前記ブロックデータをさらに複数に分割した各サブブロックデータを、当該各サブブロックデータの各データ内容に基づく各サブアドレスデータにて参照して記憶装置に記憶すると共に、前記各サブアドレスデータからなるサブアドレスデータ群を所定の記憶装置に記憶し、記憶装置に既に記憶されている前記サブブロックデータと同一のデータ内容の他のサブブロックデータを記憶装置に格納する場合に、当該記憶装置に既に記憶されている前記サブブロックデータを前記他のサブブロックデータとして参照する前記サブアドレスデータを前記所定の記憶装置に格納して前記サブブロックデータの重複記憶排除を行う、
情報処理方法。 - 請求項11に記載の情報処理方法であって、
重複記憶排除されない前記他のブロックデータを複数に分割した前記各サブブロックデータに対して前記サブブロックデータの重複記憶排除を行う、
情報処理方法。 - 請求項11に記載の情報処理方法であって、
前記データストリーム内の一部の前記ブロックデータから当該ブロックデータのデータ内容に基づいて検出した特徴値が設定条件を満たす場合に、当該設定条件を満たす特徴値が検出された前記ブロックデータに隣接する別の前記ブロックデータを分割した前記各サブブロックデータを参照する前記サブアドレスデータ群を、前記設定条件を満たす特徴値に関連付けて前記所定の記憶装置に記憶する、
情報処理方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US37882010P | 2010-08-31 | 2010-08-31 | |
US61/378,820 | 2010-08-31 | ||
PCT/JP2011/004718 WO2012029258A1 (en) | 2010-08-31 | 2011-08-25 | Storage system |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013514558A JP2013514558A (ja) | 2013-04-25 |
JP5423896B2 true JP5423896B2 (ja) | 2014-02-19 |
Family
ID=45772385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012528162A Active JP5423896B2 (ja) | 2010-08-31 | 2011-08-25 | ストレージシステム |
Country Status (6)
Country | Link |
---|---|
US (1) | US9201891B2 (ja) |
EP (1) | EP2612246A4 (ja) |
JP (1) | JP5423896B2 (ja) |
CN (1) | CN103098035B (ja) |
CA (1) | CA2809224C (ja) |
WO (1) | WO2012029258A1 (ja) |
Families Citing this family (69)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8099401B1 (en) * | 2007-07-18 | 2012-01-17 | Emc Corporation | Efficiently indexing and searching similar data |
US9122641B1 (en) | 2010-11-30 | 2015-09-01 | Symantec Corporation | On-premise data deduplication for cloud environments |
US8521705B2 (en) | 2011-07-11 | 2013-08-27 | Dell Products L.P. | Accelerated deduplication |
US8620886B1 (en) | 2011-09-20 | 2013-12-31 | Netapp Inc. | Host side deduplication |
US9489133B2 (en) * | 2011-11-30 | 2016-11-08 | International Business Machines Corporation | Optimizing migration/copy of de-duplicated data |
US9026503B2 (en) * | 2012-02-29 | 2015-05-05 | Netapp, Inc. | Fragmentation control for performing deduplication operations |
US20130282672A1 (en) * | 2012-04-18 | 2013-10-24 | Hitachi Computer Peripherals Co., Ltd. | Storage apparatus and storage control method |
CN103593256B (zh) * | 2012-08-15 | 2017-05-24 | 阿里巴巴集团控股有限公司 | 一种基于多层排重的虚机快照备份方法和系统 |
IN2012KO01022A (ja) * | 2012-09-05 | 2015-06-05 | Indian Inst Technology Kharagpur | |
WO2014076731A1 (en) * | 2012-11-13 | 2014-05-22 | Hitachi, Ltd. | Storage system, storage system control method, and storage control device |
US9424285B1 (en) * | 2012-12-12 | 2016-08-23 | Netapp, Inc. | Content-based sampling for deduplication estimation |
US9465808B1 (en) | 2012-12-15 | 2016-10-11 | Veritas Technologies Llc | Deduplication featuring variable-size duplicate data detection and fixed-size data segment sharing |
US9703794B2 (en) * | 2013-01-02 | 2017-07-11 | International Business Machines Corporation | Reducing fragmentation in compressed journal storage |
US9235475B1 (en) | 2013-03-05 | 2016-01-12 | Emc Corporation | Metadata optimization for network replication using representative of metadata batch |
US10133502B2 (en) | 2013-07-15 | 2018-11-20 | International Business Machines Corporation | Compatibility and inclusion of similarity element resolutions |
US10073853B2 (en) * | 2013-07-17 | 2018-09-11 | International Business Machines Corporation | Adaptive similarity search resolution in a data deduplication system |
CN105051724B (zh) | 2013-08-19 | 2018-09-28 | 华为技术有限公司 | 一种数据对象处理方法与装置 |
US9632720B2 (en) | 2013-08-29 | 2017-04-25 | International Business Machines Corporation | Data de-duplication |
WO2015040711A1 (ja) * | 2013-09-19 | 2015-03-26 | 株式会社日立製作所 | ストレージ装置、ストレージ装置におけるデータの制御方法、及びストレージシステム |
US9720608B2 (en) | 2013-11-07 | 2017-08-01 | Hitachi, Ltd. | Storage system |
US20150134625A1 (en) * | 2013-11-13 | 2015-05-14 | Netapp, Inc. | Pruning of server duplication information for efficient caching |
US9355118B2 (en) | 2013-11-15 | 2016-05-31 | International Business Machines Corporation | System and method for intelligently categorizing data to delete specified amounts of data based on selected data characteristics |
US20160291877A1 (en) * | 2013-12-24 | 2016-10-06 | Hitachi, Ltd. | Storage system and deduplication control method |
KR102218732B1 (ko) | 2014-01-23 | 2021-02-23 | 삼성전자주식회사 | 저장 장치 및 그것의 동작 방법 |
US20150213047A1 (en) * | 2014-01-24 | 2015-07-30 | Netapp Inc. | Coalescing sequences for host side deduplication |
CN103812939B (zh) * | 2014-02-17 | 2017-02-08 | 大连云动力科技有限公司 | 一种大数据存储系统 |
US9946724B1 (en) * | 2014-03-31 | 2018-04-17 | EMC IP Holding Company LLC | Scalable post-process deduplication |
CN103916483A (zh) * | 2014-04-28 | 2014-07-09 | 中国科学院成都生物研究所 | 一种针对编码冗余存储系统的自适应数据存储与重构方法 |
CN105094688B (zh) * | 2014-05-14 | 2019-11-22 | 卡米纳利欧技术有限公司 | 存储系统中的去重方法和系统以及计算机可读介质 |
US10242020B2 (en) | 2014-06-17 | 2019-03-26 | International Business Machines Corporation | Placement of data fragments generated by an erasure code in distributed computational devices based on a deduplication factor |
US20160036883A1 (en) * | 2014-07-30 | 2016-02-04 | Qualcomm Incorporated | Systems and methods for selective transport accelerator operation |
US10079711B1 (en) * | 2014-08-20 | 2018-09-18 | Pure Storage, Inc. | Virtual file server with preserved MAC address |
WO2016072988A1 (en) * | 2014-11-06 | 2016-05-12 | Hewlett Packard Enterprise Development Lp | Data chunk boundary |
US9864658B1 (en) * | 2014-12-01 | 2018-01-09 | Vce Company, Llc | Automation of deduplication storage capacity sizing and trending analysis |
US9753814B1 (en) * | 2014-12-19 | 2017-09-05 | EMC IP Holding Company LLC | Application level support for selectively accessing files in cloud-based storage |
US10095710B1 (en) | 2014-12-19 | 2018-10-09 | EMC IP Holding Company LLC | Presenting cloud based storage as a virtual synthetic |
US10120765B1 (en) | 2014-12-19 | 2018-11-06 | EMC IP Holding Company LLC | Restore process using incremental inversion |
US10235463B1 (en) | 2014-12-19 | 2019-03-19 | EMC IP Holding Company LLC | Restore request and data assembly processes |
US10095707B1 (en) | 2014-12-19 | 2018-10-09 | EMC IP Holding Company LLC | Nearline cloud storage based on FUSE framework |
CN104484480B (zh) | 2014-12-31 | 2018-06-05 | 华为技术有限公司 | 基于重复数据删除的远程复制方法及装置 |
JPWO2016178312A1 (ja) * | 2015-05-07 | 2018-03-15 | 日本電気株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10185500B1 (en) | 2015-06-26 | 2019-01-22 | EMC IP Holding Company LLC | Dynamic parallelism |
US10452641B1 (en) * | 2015-06-30 | 2019-10-22 | EMC IP Holding Company LLC | Snapshot conscious internal file data modification for network-attached storage |
US10152527B1 (en) | 2015-12-28 | 2018-12-11 | EMC IP Holding Company LLC | Increment resynchronization in hash-based replication |
US10324782B1 (en) | 2016-03-24 | 2019-06-18 | Emc Corporation | Hiccup management in a storage array |
US10705907B1 (en) | 2016-03-24 | 2020-07-07 | EMC IP Holding Company LLC | Data protection in a heterogeneous random access storage array |
US10101934B1 (en) | 2016-03-24 | 2018-10-16 | Emc Corporation | Memory allocation balancing for storage systems |
US10482062B1 (en) * | 2016-03-30 | 2019-11-19 | Amazon Technologies, Inc. | Independent evictions from datastore accelerator fleet nodes |
US10467195B2 (en) | 2016-09-06 | 2019-11-05 | Samsung Electronics Co., Ltd. | Adaptive caching replacement manager with dynamic updating granulates and partitions for shared flash-based storage system |
US10455045B2 (en) | 2016-09-06 | 2019-10-22 | Samsung Electronics Co., Ltd. | Automatic data replica manager in distributed caching and data processing systems |
US10223008B1 (en) | 2016-09-30 | 2019-03-05 | EMC IP Holding Company LLC | Storage array sizing for compressed applications |
US10255172B1 (en) | 2016-09-30 | 2019-04-09 | EMC IP Holding Company LLC | Controlled testing using code error injection |
US10152371B1 (en) * | 2016-09-30 | 2018-12-11 | EMC IP Holding Company LLC | End-to-end data protection for distributed storage |
US10209892B2 (en) * | 2016-11-28 | 2019-02-19 | Hewlett Packard Enterprise Development Lp | Storage of format-aware filter format tracking states |
EP3613183B1 (en) | 2017-04-18 | 2023-08-16 | Telefonaktiebolaget LM Ericsson (publ) | Content based byte-range caching using a dynamically adjusted chunk size |
US10289566B1 (en) | 2017-07-28 | 2019-05-14 | EMC IP Holding Company LLC | Handling data that has become inactive within stream aware data storage equipment |
US10592149B1 (en) * | 2017-10-06 | 2020-03-17 | EMC IP Holding Company LLC | Dynamic de-duplication methodologies for efficient resource utilization on de-duplication system |
US10572172B2 (en) * | 2018-04-20 | 2020-02-25 | EMC IP Holding Company LLC | Multi-granular data reduction for remote data replication |
US10795861B2 (en) | 2018-06-20 | 2020-10-06 | International Business Machines Corporation | Online measurement of potential deduplication efficiency |
US10649855B2 (en) * | 2018-07-12 | 2020-05-12 | EMC IP Holding Company LLC | Network configuration method to allow access to the backup and restores to Mtrees on a clustered backup appliance |
US10860555B2 (en) * | 2018-08-27 | 2020-12-08 | Dell Products, L.P. | Method and apparatus for two tier data deduplication using weighted graphs |
US10776029B2 (en) | 2018-12-21 | 2020-09-15 | Dell Products, L.P. | System and method for dynamic optimal block size deduplication |
US11221778B1 (en) | 2019-04-02 | 2022-01-11 | Pure Storage, Inc. | Preparing data for deduplication |
CN112544038B (zh) * | 2019-07-22 | 2024-07-05 | 华为技术有限公司 | 存储系统数据压缩的方法、装置、设备及可读存储介质 |
US11119995B2 (en) | 2019-12-18 | 2021-09-14 | Ndata, Inc. | Systems and methods for sketch computation |
US10938961B1 (en) | 2019-12-18 | 2021-03-02 | Ndata, Inc. | Systems and methods for data deduplication by generating similarity metrics using sketch computation |
CN113031851B (zh) * | 2019-12-25 | 2024-06-11 | 阿里巴巴集团控股有限公司 | 数据快照方法、装置及设备 |
CN111522630B (zh) * | 2020-04-30 | 2021-04-06 | 北京江融信科技有限公司 | 基于批次调度中心的计划任务执行方法以及系统 |
US20230216690A1 (en) * | 2021-12-30 | 2023-07-06 | Gm Cruise Holdings Llc | Data transfer acceleration via content-defined chunking |
Family Cites Families (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5990810A (en) * | 1995-02-17 | 1999-11-23 | Williams; Ross Neil | Method for partitioning a block of data into subblocks and for storing and communcating such subblocks |
US6810398B2 (en) | 2000-11-06 | 2004-10-26 | Avamar Technologies, Inc. | System and method for unorchestrated determination of data sequences using sticky byte factoring to determine breakpoints in digital sequences |
CN100511183C (zh) * | 2004-06-30 | 2009-07-08 | 深圳市朗科科技股份有限公司 | 减少存储介质中的数据冗余的方法 |
US7949824B2 (en) | 2006-04-11 | 2011-05-24 | Emc Corporation | Efficient data storage using two level delta resemblance |
US8412682B2 (en) * | 2006-06-29 | 2013-04-02 | Netapp, Inc. | System and method for retrieving and using block fingerprints for data deduplication |
US8214517B2 (en) * | 2006-12-01 | 2012-07-03 | Nec Laboratories America, Inc. | Methods and systems for quick and efficient data management and/or processing |
US20080243769A1 (en) * | 2007-03-30 | 2008-10-02 | Symantec Corporation | System and method for exporting data directly from deduplication storage to non-deduplication storage |
JP5026213B2 (ja) * | 2007-09-28 | 2012-09-12 | 株式会社日立製作所 | ストレージ装置及びデータ重複排除方法 |
US7870105B2 (en) * | 2007-11-20 | 2011-01-11 | Hitachi, Ltd. | Methods and apparatus for deduplication in storage system |
US8108353B2 (en) * | 2008-06-11 | 2012-01-31 | International Business Machines Corporation | Method and apparatus for block size optimization in de-duplication |
US7992037B2 (en) | 2008-09-11 | 2011-08-02 | Nec Laboratories America, Inc. | Scalable secondary storage systems and methods |
US8082228B2 (en) * | 2008-10-31 | 2011-12-20 | Netapp, Inc. | Remote office duplication |
US8060715B2 (en) * | 2009-03-31 | 2011-11-15 | Symantec Corporation | Systems and methods for controlling initialization of a fingerprint cache for data deduplication |
US8407186B1 (en) | 2009-03-31 | 2013-03-26 | Symantec Corporation | Systems and methods for data-selection-specific data deduplication |
US8442942B2 (en) * | 2010-03-25 | 2013-05-14 | Andrew C. Leppard | Combining hash-based duplication with sub-block differencing to deduplicate data |
US8244992B2 (en) * | 2010-05-24 | 2012-08-14 | Spackman Stephen P | Policy based data retrieval performance for deduplicated data |
-
2011
- 2011-08-25 WO PCT/JP2011/004718 patent/WO2012029258A1/en active Application Filing
- 2011-08-25 EP EP11821282.8A patent/EP2612246A4/en not_active Withdrawn
- 2011-08-25 US US13/819,568 patent/US9201891B2/en active Active
- 2011-08-25 JP JP2012528162A patent/JP5423896B2/ja active Active
- 2011-08-25 CN CN201180041801.7A patent/CN103098035B/zh active Active
- 2011-08-25 CA CA2809224A patent/CA2809224C/en active Active
Also Published As
Publication number | Publication date |
---|---|
CN103098035A (zh) | 2013-05-08 |
EP2612246A1 (en) | 2013-07-10 |
CA2809224C (en) | 2016-05-17 |
WO2012029258A1 (en) | 2012-03-08 |
US9201891B2 (en) | 2015-12-01 |
JP2013514558A (ja) | 2013-04-25 |
EP2612246A4 (en) | 2014-04-09 |
CA2809224A1 (en) | 2012-03-08 |
CN103098035B (zh) | 2016-04-27 |
US20130212074A1 (en) | 2013-08-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5423896B2 (ja) | ストレージシステム | |
US9880746B1 (en) | Method to increase random I/O performance with low memory overheads | |
Shilane et al. | Wan-optimized replication of backup datasets using stream-informed delta compression | |
Bhagwat et al. | Extreme binning: Scalable, parallel deduplication for chunk-based file backup | |
US8954710B2 (en) | Variable length encoding in a storage system | |
US11954373B2 (en) | Data structure storage and data management | |
Romański et al. | Anchor-driven subchunk deduplication | |
JP5500257B2 (ja) | ストレージシステム | |
JP5445682B2 (ja) | ストレージシステム | |
US9904480B1 (en) | Multiplexing streams without changing the number of streams of a deduplicating storage system | |
US11372576B2 (en) | Data processing apparatus, non-transitory computer-readable storage medium, and data processing method | |
US10229127B1 (en) | Method and system for locality based cache flushing for file system namespace in a deduplicating storage system | |
Zhang et al. | A high-performance post-deduplication delta compression scheme for packed datasets | |
Song et al. | Exploiting fingerprint prefetching to improve the performance of data deduplication | |
Bansal et al. | Classification criteria for data deduplication methods | |
Nam et al. | Reliability-aware deduplication storage: Assuring chunk reliability and chunk loss severity | |
Chernov et al. | Survey on deduplication techniques in flash-based storage | |
US11429286B2 (en) | Information processing apparatus and recording medium storing information processing program | |
Agrawal et al. | Clustered outband deduplication on primary data | |
CN113366463A (zh) | 用于消除计算机存储器中的副本和值冗余的系统、方法和设备 | |
Tan et al. | Multi-objective metrics to evaluate deduplication approaches | |
Kaurav | An Investigation on Data De-duplication Methods And it’s Recent Advancements | |
Phyu et al. | Using Efficient Deduplication Method in Large-scale Distributed Storage System | |
Tan et al. | Multi-objective Based Performance Evaluation of Deduplication Approaches | |
Ganesan | Read performance enhancement in data deduplication for secondary storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130625 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130730 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131029 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131111 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5423896 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313113 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |