JP5571786B2 - ソースおよびターゲットを含む分散型環境におけるデータを重複排除する方法、システム、及びプログラム - Google Patents
ソースおよびターゲットを含む分散型環境におけるデータを重複排除する方法、システム、及びプログラム Download PDFInfo
- Publication number
- JP5571786B2 JP5571786B2 JP2012519989A JP2012519989A JP5571786B2 JP 5571786 B2 JP5571786 B2 JP 5571786B2 JP 2012519989 A JP2012519989 A JP 2012519989A JP 2012519989 A JP2012519989 A JP 2012519989A JP 5571786 B2 JP5571786 B2 JP 5571786B2
- Authority
- JP
- Japan
- Prior art keywords
- deduplication
- data
- target
- computing system
- source
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 75
- 238000007726 management method Methods 0.000 claims description 47
- 230000008569 process Effects 0.000 claims description 44
- 230000000694 effects Effects 0.000 claims description 40
- 238000013501 data transformation Methods 0.000 claims description 7
- 230000006835 compression Effects 0.000 claims description 4
- 238000007906 compression Methods 0.000 claims description 4
- 238000004891 communication Methods 0.000 claims description 3
- 230000004044 response Effects 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 238000012545 processing Methods 0.000 description 10
- 238000004590 computer program Methods 0.000 description 9
- 230000008901 benefit Effects 0.000 description 7
- 238000013459 approach Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 5
- 238000013500 data storage Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 238000013523 data management Methods 0.000 description 1
- 230000006837 decompression Effects 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1448—Management of the data involved in backup or backup restore
- G06F11/1453—Management of the data involved in backup or backup restore using de-duplication of the data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/14—Error detection or correction of the data by redundancy in operation
- G06F11/1402—Saving, restoring, recovering or retrying
- G06F11/1446—Point-in-time backing up or restoration of persistent data
- G06F11/1458—Management of the backup or restore process
- G06F11/1464—Management of the backup or restore process for networked environments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
- G06F16/1752—De-duplication implemented within the file system, e.g. based on file segments based on file chunks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Human Computer Interaction (AREA)
Description
データをターゲットに転送する前にデータのソースで重複排除アクティビティを実施する利点の一部には、ネットワークの省力、データ・ストレージの省力、ターゲットよりむしろソースのハードウェア上でCPUサイクルを消費することが含まれる。不利点の一部には、修復不能なデータをもたらすハッシュ衝突の可能性、ソース・ハードウェアが他の用途に使われている場合またはターゲットが利用可能なサイクルを有する場合であってもソースでCPUサイクルを消費する必要があること、および、ターゲット記憶サーバに既に保管されているレガシー・データを重複排除に使用できないことが含まれる。
データのターゲットで(すなわち、記憶サーバで)重複排除アクティビティを実施する利点の一部には、記憶サーバでのデータ・ストレージの省力、および、ソースよりむしろターゲット・ハードウェア上でCPUサイクルを消費することが含まれる。不利点の一部には、データをターゲットに送信する際に、冗長で重複したデータをネットワークを介して送らなければならないこと、および、ソース上でCPUサイクルの利用が可能な場合であっても、ターゲット上でCPUサイクルが消費されることが含まれる。
ターゲット記憶サーバで、WAN重複排除または記憶装置ベースの重複排除を実施できるアプライアンスが存在する。本明細書での使用において、アプライアンスとは、一般に、記憶ネットワークに亘ってデータ管理オペレーションを実施するためのソフトウェアを運用する、特殊化されたスタンドアロン型システムをいう。通常、アプライアンスは、そのアプライアンスが記憶ネットワークに加えられた後、ターゲット記憶サーバに保管されたデータの重複排除を開始するよう構成される。例えば、アプライアンスは、一組のバーチャル・テープ上でデータを重複排除するバーチャル・テープ・ライブラリを維持することができる。
ターゲット側での重複排除は、重複排除またはバイト単位の比較を実施する前にデータのコピーを作るなどの技法を介して、検出されないハッシュ衝突に起因するデータ喪失のリスクを軽減することができる。これに対し、ソース側での重複排除は、データがクライアントによって取り込まれるときの検出されないハッシュ衝突に起因するデータ喪失の影響を受けやすくなる可能性がある。このリスクが容認できなければ、リスクを軽減するための適切な方法(例えば、重複排除に先立ってデータをコピー記憶プールにコピーするなど)を使って、サーバ側で重複排除をするのが望ましいことになる。例としては、企業の方針で、機密eメールはサーバで重複排除することが指示されているなどのケースがあろう。
作業負荷のバランス保持に対する基本的アプローチは、ネットワークおよびCPUの利用をバランスさせるために、どこで重複排除を実施するかについて最適化された決定をできるようにすることである。ネットワークがボトルネックである場合、クライアントの重複排除が最適に実施され、そうでない場合は、サーバで重複排除を実施すべきである。これはランタイム決定とすることもでき、またはスケジュールすることもできる。例えば、ネットワークのトラフィックが多くない週末には、サーバ側重複排除を利用すべきである。平日の間は、ネットワークがパフォーマンス上のボトルネックになる可能性があり、クライアントが最適に重複排除を実施できよう。過去のデータを使って、重複排除を何時クライアントで、何時サーバで展開するかを決めることができる。他の関連するルールには、例えば、ファイル・サイズが5GBより大きい場合などは、クライアントでの重複排除はバックアップ速度を低下させバックアップ・ウィンドウを失うおそれがあるので、大きなファイルはサーバだけで重複排除することを含めることができる。
最適には、重複排除ではデータのフォーマットを因子分解する(factor)ことになる。本発明の各種実施形態において、このメカニズムは、外部による対処法と対照的に、クライアント−サーバのバックアップ製品の一部となる。バックアップ製品との統合によって、データ重複排除を最適化するためその製品の情報(すなわち、データ・フォーマット)を使う能力が得られる。データ・フォーマットの情報は、ファイル・タイプに基づく最適化を可能にし、特定のファイル・タイプに対し最適化された各種の重複排除アルゴリズムを用いることができる。例えば、ラビン−カープ・アルゴリズムをベース・アルゴリズムとして使用することができ、特定のファイル・タイプに対して他のフィンガープリント処理アルゴリズムがより良好に機能する場合は、それを使うことができる。別の例に、MP3およびPDFファイルのような圧縮データの重複排除があり、これらは、サーバだけで重複排除すると規定することができる。
サーバに既に保管されているレガシー・データは、サーバ側重複排除を用いて最適に重複排除することができ、新規のバックアップは、サーバもしくはクライアント側重複排除のどちらかの利点を取ることができる。こういったことは既存のシステムでは可能でなく、既存システムでは、クライアント側重複排除は、進行中のものに展開する能力だけを有し、従って、クライアント側のレガシー・データには重複排除を適用することができない。本発明の各種実施形態は、クライアント側重複排除が、サーバで重複排除されたレガシー・データとの共通のチャンクを共用することを可能にする。これは、レガシー・データがその場所に関わらず重複排除できるので、クライアント単独の対処法にない利点である。
Claims (21)
- 分散型記憶管理システム中のソースおよびターゲット場所の各々でデータ・ファイルの重複排除ができるようにする方法であって、前記記憶管理システムは、ターゲット・コンピューティング・システムに接続されたソース・コンピューティング・システムと、前記ターゲット・コンピューティング・システム内に配置されたターゲット・データ・ストアとを包含し、前記方法は、
前記ターゲット・データ・ストア内に保管された重複排除されたデータ・チャンクを追跡するための共有インデックスを維持するステップと、
重複排除された形で前記ターゲット・データ・ストア内に保管されることになるデータ・チャンクの重複排除のための、重複排除プロセスを提供するステップと、
前記ターゲット・コンピューティング・システムによる重複排除命令の実行、および前記ソース・コンピューティング・システムによる重複排除命令の実行を可能にするステップと、
前記重複排除プロセスを使って、データ・ファイルを重複排除されたデータ・チャンクのセットに重複排除するステップであって、前記重複排除プロセスは、前記ソース・コンピューティング・システムまたは前記ターゲット・コンピューティング・システムのいずれかによって実行される重複排除命令のセットを含む、前記重複排除するステップと、
前記重複排除されたデータ・チャンクのセットを前記ターゲット・データ・ストアに保管するステップと、
前記共有インデックス内の、前記重複排除されたデータ・チャンクのセットについての重複排除情報を更新するステップと、
を含む、前記方法。 - 前記重複排除命令は、前記ソース・コンピューティング・システムおよび前記ターゲット・コンピューティング・システムの各々において重複排除のために使われる、可変サイズ・ブロックのハッシュ処理アルゴリズムを含む、請求項1に記載の方法。
- 前記重複排除命令は、前記ソース・コンピューティング・システム上で実行される重複排除アクティビティのために使われる、フィンガープリント処理およびハッシュ処理アルゴリズムの第一セットと、前記ターゲット・コンピューティング・システム上で実行される重複排除アクティビティのために使われる、フィンガープリント処理およびハッシュ処理アルゴリズムの第二セットとを含む、請求項1または2のいずれかに記載の方法。
- 前記重複排除されたデータ・チャンクのセットを前記ソースに向けて復元するステップをさらに含む、先行いずれかの請求項に記載の方法。
- フィンガープリント処理およびハッシュ識別の後でデータ変換を実施するステップをさらに含み、前記フィンガープリント処理およびハッシュ識別は前記重複排除プロセスの中で行われる、先行いずれかの請求項に記載の方法。
- 前記データ変換は、圧縮および暗号化の一つ以上を包含する、請求項5に記載の方法。
- 前記ソース・コンピューティング・システムに前記重複排除されたデータ・チャンクのセットを復元するのに応じて、各チャンクに対し、前記ソース・コンピューティング・システムによって前記データ変換を元に戻すステップをさらに含む、請求項5または6のいずれかに記載の方法。
- 前記ソース・コンピューティング・システムに向け前記重複排除されたデータ・チャンクのセットを復元するのに先立って、前記ターゲット・コンピューティング・システムによって前記変換を元に戻すステップをさらに含む、請求項5〜7のいずれかに記載の方法。
- 前記共有インデックスは、前記ソース・コンピューティング・システムおよび前記ターゲット・コンピューティング・システムの各々がアクセス可能な、前記記憶管理システム内のデータベースとして共有される、先行いずれかの請求項に記載の方法。
- 前記共有インデックスは、前記ソースとターゲットとの間でデータ・チャンク情報の通信を可能にするクライアント−サーバ・プロトコルを介して、アクセスが可能である、先行いずれかの請求項に記載の方法。
- 分散型記憶管理システム中の選択されたソースもしくはターゲット場所でデータ・ファイルの重複排除ができるようにする方法であって、前記記憶管理システムは、ターゲット・コンピューティング・システムに接続されたソース・コンピューティング・システムと、前記ターゲット・コンピューティング・システム内に配置されたターゲット・データ・ストアとを包含し、前記方法は、
前記ターゲット・データ・ストア内に保管された重複排除済みのデータ・チャンクに対する重複排除情報を追跡するステップと、
前記ターゲット・データ・ストア内に保管されることになるデータ・ファイルの重複排除のための重複排除プロセスを提供するステップと、
前記ソース・コンピューティング・システムまたは前記ターゲット・コンピューティング・システムのどちらかに前記重複排除プロセスの実行のための場所を決定するため、複数の定義されたポリシーから選択されたポリシーを適用するステップと、
前記決定された場所において、前記重複排除プロセスを実行して前記データ・ファイルを重複排除するステップと、
前記データ・ファイルに対する前記追跡された重複排除情報を更新するステップと、
を含む、前記方法。 - 前記選択されるポリシーは、時間、システム負荷、ファイル特性、クライアント・ノード、およびポリシー・ドメインの一つ以上に基づいて選択される、請求項11に記載の方法。
- ソース・コンピューティング・システムと、
前記ソース・コンピューティング・システムに接続されたターゲット・コンピューティング・システムと、
前記ターゲット・コンピューティング・システム内に配置されたターゲット・データ・ストアと、
記憶管理システム内の少なくとも一つのプロセッサと、
前記記憶管理システム内の少なくとも一つメモリと、
を含む前記記憶管理システムであって、
前記メモリは、前記少なくとも一つのプロセッサを使って作動可能な、前記記憶管理システム中のソースおよびターゲット場所の各々においてデータ・ファイルの重複排除ができるようにするための命令を格納し、前記命令は、
前記ターゲット・データ・ストア内に保管された重複排除済みのデータ・チャンクを追跡するための共有インデックスを維持するステップと、
重複排除された形で前記ターゲット・データ・ストア内に保管されることになるデータ・チャンクの重複排除のための、重複排除プロセスを提供するステップと、
前記ターゲット・コンピューティング・システムによる重複排除命令の実行、および前記ソース・コンピューティング・システムによる重複排除命令の実行を可能にするステップと、
前記重複排除プロセスを使って、データ・ファイルを重複排除されたデータ・チャンクのセットに重複排除するステップであって、前記重複排除プロセスは、前記ソース・コンピューティング・システムまたは前記ターゲット・コンピューティング・システムのいずれかによって実行される重複排除命令のセットを含む、前記重複排除するステップと、
前記重複排除されたデータ・チャンクのセットを前記ターゲット・データ・ストアに保管するステップと、
前記共有インデックス内の、前記重複排除されたデータ・チャンクのセットについての重複排除情報を更新するステップと、
のために実行される、前記記憶管理システム。 - 前記重複排除命令は、前記ソース・コンピューティング・システムおよび前記ターゲット・コンピューティング・システムの各々において重複排除のために使われる、可変サイズ・ブロックのハッシュ処理アルゴリズムを含む、請求項13に記載の記憶管理システム。
- 前記重複排除命令は、前記ソース・コンピューティング・システム上で実行される重複排除アクティビティのため使われる、フィンガープリント処理およびハッシュ処理アルゴリズムの第一セットと、前記ターゲット・コンピューティング・システム上で実行される重複排除アクティビティのため使われる、フィンガープリント処理およびハッシュ処理アルゴリズムの第二セットとを含む、請求項13または14のいずれかに記載の記憶管理システム。
- 前記重複排除されたデータ・チャンクのセットを前記ソースに向けて復元するステップのため実行される命令をさらに含む、請求項13〜15のいずれかに記載の記憶管理システム。
- フィンガープリント処理およびハッシュ識別の後でデータ変換を実施するステップのため実行される命令をさらに含み、前記フィンガープリント処理およびハッシュ識別は前記重複排除プロセスの中で行われ、前記データ変換は圧縮および暗号化の一つ以上を包含する、請求項13〜16のいずれかに記載の記憶管理システム。
- 前記共有インデックスは、前記ソース・コンピューティング・システムおよび前記ターゲット・コンピューティング・システムの各々がアクセス可能な、前記記憶管理システム内のデータベースとして共有される、請求項13〜17のいずれかに記載の記憶管理システム。
- ソース・コンピューティング・システムと、
前記ソース・コンピューティング・システムに接続されたターゲット・コンピューティング・システムと、
前記ターゲット・コンピューティング・システム内に配置されたターゲット・データ・ストアと、
記憶管理システム内の少なくとも一つのプロセッサと、
前記記憶管理システム内の少なくとも一つメモリと、
を含む前記記憶管理システムであって、
前記メモリは、前記少なくとも一つのプロセッサを使って作動可能な、前記記憶管理システム中の選択されたソースもしくはターゲット場所においてデータ・ファイルの重複排除ができるようにするための命令を格納し、前記命令は、
前記ターゲット・データ・ストア内に保管された重複排除済みのデータ・チャンクに対する重複排除情報を追跡するステップと、
前記ターゲット・データ・ストア内に保管されることになるデータ・ファイルの重複排除のための、重複排除プロセスを提供するステップと、
前記ソース・コンピューティング・システムまたは前記ターゲット・コンピューティング・システムのどちらかに前記重複排除プロセスの実行のための場所を決定するため、複数の定義されたポリシーから選択されたポリシーを適用するステップと、
前記決定された場所において、前記重複排除プロセスを実行して前記データ・ファイルを重複排除するステップと、
前記データ・ファイルに対する前記追跡された重複排除情報を更新するステップと、
のために実行される、前記記憶管理システム。 - 前記選択されるポリシーは、時間、システム負荷、ファイル特性、クライアント・ノード、およびポリシー・ドメインの一つ以上に基づいて選択される、請求項19に記載の記憶管理システム。
- 請求項1〜12のいずれかに記載のステップをコンピュータに実行させるプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US12/504,083 | 2009-07-16 | ||
US12/504,083 US9058298B2 (en) | 2009-07-16 | 2009-07-16 | Integrated approach for deduplicating data in a distributed environment that involves a source and a target |
PCT/EP2010/059965 WO2011006859A1 (en) | 2009-07-16 | 2010-07-12 | An integrated approach for deduplicating data in a distributed environment that involves a source and a target |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012533126A JP2012533126A (ja) | 2012-12-20 |
JP5571786B2 true JP5571786B2 (ja) | 2014-08-13 |
Family
ID=42751627
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012519989A Active JP5571786B2 (ja) | 2009-07-16 | 2010-07-12 | ソースおよびターゲットを含む分散型環境におけるデータを重複排除する方法、システム、及びプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US9058298B2 (ja) |
JP (1) | JP5571786B2 (ja) |
CN (1) | CN102473127B (ja) |
DE (1) | DE112010002938B4 (ja) |
GB (1) | GB2484019B (ja) |
WO (1) | WO2011006859A1 (ja) |
Families Citing this family (111)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8938595B2 (en) * | 2003-08-05 | 2015-01-20 | Sepaton, Inc. | Emulated storage system |
US9405894B2 (en) * | 2008-04-21 | 2016-08-02 | Syngrafii Inc. | System, method and computer program for conducting transactions remotely with an authentication file |
US8959062B2 (en) * | 2009-08-13 | 2015-02-17 | Hitachi Solutions, Ltd. | Data storage device with duplicate elimination function and control device for creating search index for the data storage device |
US8037349B2 (en) * | 2009-08-28 | 2011-10-11 | International Business Machines Corporation | Data replication based on capacity optimization |
US8572163B1 (en) * | 2009-08-31 | 2013-10-29 | Symantec Corporation | Systems and methods for deduplicating data based on performance of a deduplication system |
US8458144B2 (en) * | 2009-10-22 | 2013-06-04 | Oracle America, Inc. | Data deduplication method using file system constructs |
US8825969B2 (en) * | 2009-11-30 | 2014-09-02 | Netapp, Inc. | Eliminating duplicate data by sharing file system extents |
US8495312B2 (en) * | 2010-01-25 | 2013-07-23 | Sepaton, Inc. | System and method for identifying locations within data |
US8401185B1 (en) * | 2010-02-01 | 2013-03-19 | Symantec Corporation | Systems and methods for securely deduplicating data owned by multiple entities |
JP5434705B2 (ja) * | 2010-03-12 | 2014-03-05 | 富士通株式会社 | ストレージ装置、ストレージ装置制御プログラムおよびストレージ装置制御方法 |
US20120011101A1 (en) * | 2010-07-12 | 2012-01-12 | Computer Associates Think, Inc. | Integrating client and server deduplication systems |
GB2470498B (en) * | 2010-07-19 | 2011-04-06 | Quantum Corp | Establishing parse scope |
US10394757B2 (en) | 2010-11-18 | 2019-08-27 | Microsoft Technology Licensing, Llc | Scalable chunk store for data deduplication |
US9442806B1 (en) * | 2010-11-30 | 2016-09-13 | Veritas Technologies Llc | Block-level deduplication |
US9824091B2 (en) | 2010-12-03 | 2017-11-21 | Microsoft Technology Licensing, Llc | File system backup using change journal |
US8849898B2 (en) * | 2010-12-09 | 2014-09-30 | Jeffrey Vincent TOFANO | Adaptive collaborative de-duplication |
US20120150824A1 (en) * | 2010-12-10 | 2012-06-14 | Inventec Corporation | Processing System of Data De-Duplication |
US8620894B2 (en) | 2010-12-21 | 2013-12-31 | Microsoft Corporation | Searching files |
US8886901B1 (en) | 2010-12-31 | 2014-11-11 | Emc Corporation | Policy based storage tiering |
US10049116B1 (en) * | 2010-12-31 | 2018-08-14 | Veritas Technologies Llc | Precalculation of signatures for use in client-side deduplication |
US9280550B1 (en) * | 2010-12-31 | 2016-03-08 | Emc Corporation | Efficient storage tiering |
US8688651B2 (en) * | 2011-01-25 | 2014-04-01 | Sepaton, Inc. | Dynamic deduplication |
US8527472B2 (en) * | 2011-03-29 | 2013-09-03 | Kaseya International Limited | Method and apparatus of securely processing data for file backup, de-duplication, and restoration |
US8539008B2 (en) | 2011-04-29 | 2013-09-17 | Netapp, Inc. | Extent-based storage architecture |
US8812450B1 (en) | 2011-04-29 | 2014-08-19 | Netapp, Inc. | Systems and methods for instantaneous cloning |
US8745338B1 (en) | 2011-05-02 | 2014-06-03 | Netapp, Inc. | Overwriting part of compressed data without decompressing on-disk compressed data |
US8612392B2 (en) * | 2011-05-09 | 2013-12-17 | International Business Machines Corporation | Identifying modified chunks in a data set for storage |
US8868882B2 (en) * | 2011-06-08 | 2014-10-21 | Microsoft Corporation | Storage architecture for backup application |
CN108664555A (zh) * | 2011-06-14 | 2018-10-16 | 慧与发展有限责任合伙企业 | 分布式文件系统中的去重复 |
US8600949B2 (en) * | 2011-06-21 | 2013-12-03 | Netapp, Inc. | Deduplication in an extent-based architecture |
US9229818B2 (en) | 2011-07-20 | 2016-01-05 | Microsoft Technology Licensing, Llc | Adaptive retention for backup data |
US8965856B2 (en) * | 2011-08-29 | 2015-02-24 | Hitachi, Ltd. | Increase in deduplication efficiency for hierarchical storage system |
US20130054919A1 (en) * | 2011-08-30 | 2013-02-28 | International Business Machines Corporation | Methods and physical computer storage media for transferring de-duplicated data organized in virtual volumes to a target set of physical media |
JP5780067B2 (ja) * | 2011-09-01 | 2015-09-16 | 富士通株式会社 | ストレージシステム、ストレージ制御装置およびストレージ制御方法 |
US8990171B2 (en) * | 2011-09-01 | 2015-03-24 | Microsoft Corporation | Optimization of a partially deduplicated file |
US20140156607A1 (en) * | 2011-10-18 | 2014-06-05 | Hewlett-Packard Developement Company, L.P. | Index for deduplication |
US9047304B2 (en) | 2011-11-28 | 2015-06-02 | International Business Machines Corporation | Optimization of fingerprint-based deduplication |
CN103262071A (zh) * | 2011-12-08 | 2013-08-21 | 华为技术有限公司 | 一种在分布式存储系统中删除数据的方法、装置及系统 |
EP2810171B1 (en) | 2012-02-02 | 2019-07-03 | Hewlett-Packard Enterprise Development LP | Systems and methods for data chunk deduplication |
US8805797B2 (en) * | 2012-02-22 | 2014-08-12 | International Business Machines Corporation | Optimizing wide area network (WAN) traffic by providing home site deduplication information to a cache site |
US20150088840A1 (en) * | 2012-05-01 | 2015-03-26 | Kave Eshghi | Determining segment boundaries for deduplication |
EP2688000A1 (en) * | 2012-05-04 | 2014-01-22 | Huawei Technologies Co., Ltd | Data deduplication method and device |
US9086819B2 (en) * | 2012-07-25 | 2015-07-21 | Anoosmar Technologies Private Limited | System and method for combining deduplication and encryption of data |
US20150142755A1 (en) * | 2012-08-24 | 2015-05-21 | Hitachi, Ltd. | Storage apparatus and data management method |
DK2765524T3 (en) * | 2012-12-12 | 2017-05-22 | Huawei Tech Co Ltd | PROCEDURE FOR DATA PROCESSING AND FITTING IN A CLUSTER SYSTEM |
US8954392B2 (en) * | 2012-12-28 | 2015-02-10 | Futurewei Technologies, Inc. | Efficient de-duping using deep packet inspection |
CN103049391B (zh) * | 2012-12-29 | 2014-05-07 | 华为技术有限公司 | 数据处理方法和设备 |
US20140214775A1 (en) * | 2013-01-29 | 2014-07-31 | Futurewei Technologies, Inc. | Scalable data deduplication |
US9766832B2 (en) | 2013-03-15 | 2017-09-19 | Hitachi Data Systems Corporation | Systems and methods of locating redundant data using patterns of matching fingerprints |
US9639577B1 (en) * | 2013-03-27 | 2017-05-02 | Symantec Corporation | Systems and methods for determining membership of an element within a set using a minimum of resources |
US10339112B1 (en) * | 2013-04-25 | 2019-07-02 | Veritas Technologies Llc | Restoring data in deduplicated storage |
WO2014185918A1 (en) * | 2013-05-16 | 2014-11-20 | Hewlett-Packard Development Company, L.P. | Selecting a store for deduplicated data |
EP2997496B1 (en) | 2013-05-16 | 2022-01-19 | Hewlett Packard Enterprise Development LP | Selecting a store for deduplicated data |
US9256611B2 (en) | 2013-06-06 | 2016-02-09 | Sepaton, Inc. | System and method for multi-scale navigation of data |
US9552370B1 (en) * | 2013-06-27 | 2017-01-24 | EMC IP Holding Company LLC | Signaling impending out of storage condition from a virtual tape drive |
US9244830B2 (en) | 2013-07-15 | 2016-01-26 | Globalfoundries Inc. | Hierarchical content defined segmentation of data |
US9594766B2 (en) | 2013-07-15 | 2017-03-14 | International Business Machines Corporation | Reducing activation of similarity search in a data deduplication system |
US10296598B2 (en) | 2013-07-15 | 2019-05-21 | International Business Machines Corporation | Digest based data matching in similarity based deduplication |
US9268786B2 (en) | 2013-07-15 | 2016-02-23 | International Business Machines Corporation | Applying a minimum size bound on content defined segmentation of data |
US9286314B2 (en) | 2013-07-15 | 2016-03-15 | International Business Machines Corporation | Applying a maximum size bound on content defined segmentation of data |
US10789213B2 (en) | 2013-07-15 | 2020-09-29 | International Business Machines Corporation | Calculation of digest segmentations for input data using similar data in a data deduplication system |
US10229131B2 (en) | 2013-07-15 | 2019-03-12 | International Business Machines Corporation | Digest block segmentation based on reference segmentation in a data deduplication system |
US10339109B2 (en) | 2013-07-15 | 2019-07-02 | International Business Machines Corporation | Optimizing hash table structure for digest matching in a data deduplication system |
US9922042B2 (en) | 2013-07-15 | 2018-03-20 | International Business Machines Corporation | Producing alternative segmentations of data into blocks in a data deduplication system |
US10133502B2 (en) | 2013-07-15 | 2018-11-20 | International Business Machines Corporation | Compatibility and inclusion of similarity element resolutions |
US9892127B2 (en) | 2013-07-15 | 2018-02-13 | International Business Machines Corporation | Global digests caching in a data deduplication system |
US10229132B2 (en) | 2013-07-15 | 2019-03-12 | International Business Machines Corporation | Optimizing digest based data matching in similarity based deduplication |
US9892048B2 (en) | 2013-07-15 | 2018-02-13 | International Business Machines Corporation | Tuning global digests caching in a data deduplication system |
US10296597B2 (en) | 2013-07-15 | 2019-05-21 | International Business Machines Corporation | Read ahead of digests in similarity based data deduplicaton |
US9891857B2 (en) | 2013-07-15 | 2018-02-13 | International Business Machines Corporation | Utilizing global digests caching in similarity based data deduplication |
US9836474B2 (en) | 2013-07-15 | 2017-12-05 | International Business Machines Corporation | Data structures for digests matching in a data deduplication system |
US10073853B2 (en) | 2013-07-17 | 2018-09-11 | International Business Machines Corporation | Adaptive similarity search resolution in a data deduplication system |
US9916112B1 (en) * | 2013-09-30 | 2018-03-13 | EMC IP Holding Company LLC | Efficient file copy that avoids data duplication |
US9678973B2 (en) | 2013-10-15 | 2017-06-13 | Hitachi Data Systems Corporation | Multi-node hybrid deduplication |
CN104572788B (zh) * | 2013-10-29 | 2017-10-17 | 上海征途信息技术有限公司 | 一种游戏用户数据的数据存储方法 |
KR102187127B1 (ko) | 2013-12-03 | 2020-12-04 | 삼성전자주식회사 | 데이터 연관정보를 이용한 중복제거 방법 및 시스템 |
US20150207742A1 (en) * | 2014-01-22 | 2015-07-23 | Wipro Limited | Methods for optimizing data for transmission and devices thereof |
US9514000B2 (en) * | 2014-01-31 | 2016-12-06 | Western Digital Technologies, Inc. | Backup of baseline installation |
US10374807B2 (en) | 2014-04-04 | 2019-08-06 | Hewlett Packard Enterprise Development Lp | Storing and retrieving ciphertext in data storage |
CN104978239B (zh) * | 2014-04-08 | 2019-02-19 | 重庆邮电大学 | 一种实现多备份数据动态更新的方法、装置及系统 |
US9659047B2 (en) | 2014-12-03 | 2017-05-23 | Netapp, Inc. | Data deduplication utilizing extent ID database |
WO2016115663A1 (en) * | 2015-01-19 | 2016-07-28 | Nokia Technologies Oy | Method and apparatus for heterogeneous data storage management in cloud computing |
WO2016122593A1 (en) * | 2015-01-30 | 2016-08-04 | Hewlett Packard Enterprise Development Lp | Data encryption |
US10621143B2 (en) * | 2015-02-06 | 2020-04-14 | Ashish Govind Khurange | Methods and systems of a dedupe file-system garbage collection |
US10650014B2 (en) | 2015-04-09 | 2020-05-12 | International Business Machines Corporation | Data ingestion process |
US9552384B2 (en) | 2015-06-19 | 2017-01-24 | HGST Netherlands B.V. | Apparatus and method for single pass entropy detection on data transfer |
US10152389B2 (en) | 2015-06-19 | 2018-12-11 | Western Digital Technologies, Inc. | Apparatus and method for inline compression and deduplication |
CN105069111B (zh) * | 2015-08-10 | 2018-09-18 | 广东工业大学 | 云存储中基于相似性的数据块级数据去重方法 |
DE102015117353A1 (de) * | 2015-10-12 | 2017-04-13 | Turgay Coruh | Optimierte Übertragung elektronischer Dokumente mittels verteilter Netzwerk-Ressourcen |
CN105681273B (zh) * | 2015-12-17 | 2018-11-20 | 西安电子科技大学 | 客户端重复数据删除方法 |
US10235396B2 (en) | 2016-08-29 | 2019-03-19 | International Business Machines Corporation | Workload optimized data deduplication using ghost fingerprints |
US11025600B1 (en) * | 2017-11-08 | 2021-06-01 | Massachusetts Institute Of Technology | System for de-duplicating network coded distributed storage and related techniques |
US10719251B2 (en) * | 2018-01-31 | 2020-07-21 | Nutanix, Inc. | System and method for recursive de-duplication |
JP7075077B2 (ja) * | 2018-03-13 | 2022-05-25 | Necソリューションイノベータ株式会社 | バックアップサーバ、バックアップ方法、プログラム、ストレージシステム |
US11263087B2 (en) * | 2018-07-05 | 2022-03-01 | EMC IP Holding Company LLC | Methods and systems for serverless data deduplication |
US11042519B2 (en) | 2019-01-15 | 2021-06-22 | Cisco Technology, Inc. | Reinforcement learning for optimizing data deduplication |
US11221778B1 (en) | 2019-04-02 | 2022-01-11 | Pure Storage, Inc. | Preparing data for deduplication |
US11989124B2 (en) | 2019-04-26 | 2024-05-21 | EMC IP Holding Company LLC | Garbage collection for a deduplicated cloud tier with encrypted segments |
US11580015B2 (en) * | 2019-05-03 | 2023-02-14 | EMC IP Holding Company LLC | Garbage collection for a deduplicated cloud tier using functions |
US11836267B2 (en) | 2019-08-19 | 2023-12-05 | International Business Machines Corporation | Opaque encryption for data deduplication |
CN110941598A (zh) * | 2019-12-02 | 2020-03-31 | 北京锐安科技有限公司 | 一种数据去重方法、装置、终端及存储介质 |
CN111177082B (zh) * | 2019-12-03 | 2023-06-09 | 世强先进(深圳)科技股份有限公司 | 一种pdf文件去重存储方法及系统 |
US11893109B2 (en) * | 2020-01-21 | 2024-02-06 | Exagrid Systems, Inc. | Protection and recovery of backup storage systems from ransomware attacks |
CN112380197A (zh) * | 2020-10-29 | 2021-02-19 | 中科热备(北京)云计算技术有限公司 | 一种基于前端重复数据删除的方法 |
CN112527521B (zh) * | 2020-12-03 | 2023-07-04 | 中国联合网络通信集团有限公司 | 消息处理方法及设备 |
US20220245097A1 (en) * | 2021-02-02 | 2022-08-04 | Maxlinear, Inc. | Hashing with differing hash size and compression size |
US11606277B2 (en) | 2021-02-10 | 2023-03-14 | Cohesity, Inc. | Reducing the impact of network latency during a restore operation |
US20220374401A1 (en) * | 2021-05-18 | 2022-11-24 | International Business Machines Corporation | Determining domain and matching algorithms for data systems |
CN113468509B (zh) * | 2021-07-05 | 2024-01-30 | 曙光信息产业(北京)有限公司 | 一种用户认证的迁移方法、装置、设备及存储介质 |
CN113709510A (zh) * | 2021-08-06 | 2021-11-26 | 联想(北京)有限公司 | 高速率数据实时传输方法及装置、设备、存储介质 |
US20230350763A1 (en) * | 2022-04-27 | 2023-11-02 | Cohesity, Inc. | Utilizing fixed-sized and variable-length data chunks to perform source side deduplication |
Family Cites Families (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
DE60123442D1 (de) | 2000-08-31 | 2006-11-09 | Ontrack Data Internat Inc | System und verfahren für datenverwaltung |
AU2002304842A1 (en) | 2001-08-20 | 2003-03-10 | Datacentertechnologies N.V. | File backup system and method |
US8412682B2 (en) | 2006-06-29 | 2013-04-02 | Netapp, Inc. | System and method for retrieving and using block fingerprints for data deduplication |
US8214517B2 (en) | 2006-12-01 | 2012-07-03 | Nec Laboratories America, Inc. | Methods and systems for quick and efficient data management and/or processing |
US7840537B2 (en) | 2006-12-22 | 2010-11-23 | Commvault Systems, Inc. | System and method for storing redundant information |
US20080243769A1 (en) | 2007-03-30 | 2008-10-02 | Symantec Corporation | System and method for exporting data directly from deduplication storage to non-deduplication storage |
US8166012B2 (en) | 2007-04-11 | 2012-04-24 | Emc Corporation | Cluster storage using subsegmenting |
JP2009019441A (ja) | 2007-07-13 | 2009-01-29 | Nippon Adox Kk | コンクリートの補修方法 |
CN101415016A (zh) * | 2007-10-17 | 2009-04-22 | 深圳市亚贝电气技术有限公司 | 一种数据复制方法、系统和存储服务器 |
US8782368B2 (en) * | 2007-10-25 | 2014-07-15 | Hewlett-Packard Development Company, L.P. | Storing chunks in containers |
US7870105B2 (en) * | 2007-11-20 | 2011-01-11 | Hitachi, Ltd. | Methods and apparatus for deduplication in storage system |
US8452731B2 (en) * | 2008-09-25 | 2013-05-28 | Quest Software, Inc. | Remote backup and restore |
US20100088296A1 (en) * | 2008-10-03 | 2010-04-08 | Netapp, Inc. | System and method for organizing data to facilitate data deduplication |
US8140491B2 (en) * | 2009-03-26 | 2012-03-20 | International Business Machines Corporation | Storage management through adaptive deduplication |
US8479304B1 (en) * | 2009-03-31 | 2013-07-02 | Symantec Corporation | Selectively protecting against chosen plaintext attacks in untrusted storage environments that support data deduplication |
US8612702B1 (en) * | 2009-03-31 | 2013-12-17 | Symantec Corporation | Systems and methods for performing optimized backups of multiple volumes |
US8412848B2 (en) * | 2009-05-29 | 2013-04-02 | Exagrid Systems, Inc. | Method and apparatus for content-aware and adaptive deduplication |
US8285681B2 (en) * | 2009-06-30 | 2012-10-09 | Commvault Systems, Inc. | Data object store and server for a cloud storage environment, including data deduplication and data management across multiple cloud storage sites |
-
2009
- 2009-07-16 US US12/504,083 patent/US9058298B2/en active Active
-
2010
- 2010-07-12 WO PCT/EP2010/059965 patent/WO2011006859A1/en active Application Filing
- 2010-07-12 CN CN201080030039.8A patent/CN102473127B/zh active Active
- 2010-07-12 DE DE112010002938.5T patent/DE112010002938B4/de active Active
- 2010-07-12 GB GB1119845.4A patent/GB2484019B/en active Active
- 2010-07-12 JP JP2012519989A patent/JP5571786B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
GB2484019B (en) | 2016-09-28 |
GB201119845D0 (en) | 2011-12-28 |
GB2484019A (en) | 2012-03-28 |
JP2012533126A (ja) | 2012-12-20 |
DE112010002938B4 (de) | 2018-02-01 |
US9058298B2 (en) | 2015-06-16 |
CN102473127A (zh) | 2012-05-23 |
CN102473127B (zh) | 2015-05-27 |
DE112010002938T5 (de) | 2012-09-20 |
WO2011006859A1 (en) | 2011-01-20 |
US20110016095A1 (en) | 2011-01-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5571786B2 (ja) | ソースおよびターゲットを含む分散型環境におけるデータを重複排除する方法、システム、及びプログラム | |
US12093386B2 (en) | Ransomware detection and data pruning management | |
US11416452B2 (en) | Determining chunk boundaries for deduplication of storage objects | |
AU2014218837B2 (en) | Deduplication storage system with efficient reference updating and space reclamation | |
US9792306B1 (en) | Data transfer between dissimilar deduplication systems | |
US10656858B1 (en) | Deduplication featuring variable-size duplicate data detection and fixed-size data segment sharing | |
US20190109870A1 (en) | Ransomware detection and intelligent restore | |
US9626518B2 (en) | Avoiding encryption in a deduplication storage | |
US9128948B1 (en) | Integration of deduplicating backup server with cloud storage | |
US8650162B1 (en) | Method and apparatus for integrating data duplication with block level incremental data backup | |
US10983867B1 (en) | Fingerprint change during data operations | |
US8806062B1 (en) | Adaptive compression using a sampling based heuristic | |
US20150046398A1 (en) | Accessing And Replicating Backup Data Objects | |
US10248656B2 (en) | Removal of reference information for storage blocks in a deduplication system | |
US9965487B2 (en) | Conversion of forms of user data segment IDs in a deduplication system | |
WO2012079967A2 (en) | Replicating data | |
CN113728303B (zh) | 用于重复数据删除云分层的垃圾收集 | |
US8655841B1 (en) | Selection of one of several available incremental modification detection techniques for use in incremental backups | |
US8914324B1 (en) | De-duplication storage system with improved reference update efficiency | |
US10761945B2 (en) | Dynamically directing data in a deduplicated backup system | |
US11163748B1 (en) | Fingerprint backward compatibility in deduplication backup systems | |
CN113728302B (zh) | 用于删除重复的云分层的垃圾收集 | |
US10592527B1 (en) | Techniques for duplicating deduplicated data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130305 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131210 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20140307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140610 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140626 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5571786 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |