JP6320432B2 - データ重複排除における、類似性探索に基づくダイジェスト検索 - Google Patents
データ重複排除における、類似性探索に基づくダイジェスト検索 Download PDFInfo
- Publication number
- JP6320432B2 JP6320432B2 JP2015562432A JP2015562432A JP6320432B2 JP 6320432 B2 JP6320432 B2 JP 6320432B2 JP 2015562432 A JP2015562432 A JP 2015562432A JP 2015562432 A JP2015562432 A JP 2015562432A JP 6320432 B2 JP6320432 B2 JP 6320432B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- digest
- repository
- similarity
- value
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 claims description 90
- 238000005096 rolling process Methods 0.000 claims description 33
- 238000012545 processing Methods 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 15
- 238000005192 partition Methods 0.000 claims description 13
- 238000000638 solvent extraction Methods 0.000 claims description 9
- 230000008569 process Effects 0.000 description 21
- 238000004364 calculation method Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 15
- 238000013500 data storage Methods 0.000 description 14
- 238000004891 communication Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 10
- 239000000835 fiber Substances 0.000 description 9
- 239000004744 fabric Substances 0.000 description 7
- 238000013459 approach Methods 0.000 description 6
- 238000004422 calculation algorithm Methods 0.000 description 6
- 230000008901 benefit Effects 0.000 description 5
- 239000000872 buffer Substances 0.000 description 5
- 238000003491 array Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 230000011218 segmentation Effects 0.000 description 2
- 101100217298 Mus musculus Aspm gene Proteins 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000013467 fragmentation Methods 0.000 description 1
- 238000006062 fragmentation reaction Methods 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002085 persistent effect Effects 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 230000002441 reversible effect Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
Claims (22)
- コンピューティング環境で、プロセッサ・デバイスを用いるデータ重複排除システムにおける効率的な重複排除処理のため、類似性探索に基づいてダイジェストを検索する方法であって、
データ重複排除システムが、
入力データをデータ・チャンクに区分化するステップと、
前記データ・チャンクの各々に対し、類似性要素およびダイジェスト値を計算するステップと、
類似性要素を包含する探索構造体中で、整合する類似性要素を探索するステップと、
データのリポジトリ中の類似するデータの位置を見出すステップと、
前記類似するデータの前記位置を用いて、前記リポジトリ中の前記類似するデータの格納されたダイジェスト値を探し出し、メモリ中にロードするステップと、
データの整合を調べるために、前記入力データの前記ダイジェスト値と、前記メモリ中にロードされた前記格納されたダイジェスト値とを照合するステップと、
を実行することを含む方法。 - 前記入力データを固定サイズのデータ・チャンクに区分化するステップをさらに含む、請求項1に記載の方法。
- 前記データ・チャンクの各々に対し、ローリング・ハッシュ値を計算するステップをさらに含み、ローリング・ハッシュ値はバイト・オフセット中のバイト群の各連続ウィンドウに対して生成される、請求項1に記載の方法。
- 前記類似性要素として、特定のローリング・ハッシュ値と前記特定のローリング・ハッシュ値の関連位置とを選択するステップをさらに含む、請求項3に記載の方法。
- 前記ローリング・ハッシュ値に基づいてダイジェスト・ブロック境界を計算するステップ、および前記ダイジェスト・ブロックに対応するダイジェスト値を計算するステップをさらに含む、請求項3に記載の方法。
- データの前記リポジトリ中に格納されたデータ・チャンクの前記類似性要素を包含するための前記探索構造体を決めるステップをさらに含む、請求項1に記載の方法。
- 前記ダイジェストを、前記データ中のそれらの出現に対応する形で前記リポジトリ中に格納するステップをさらに含む、請求項1に記載の方法。
- データの特定区間の前記リポジトリ中の位置およびサイズに基づいて、前記リポジトリ中で、データの前記特定区間に対応するダイジェストを探し出すステップをさらに含む、請求項7に記載の方法。
- 入力ダイジェスト値と、前記メモリ中にロードされた格納されたダイジェスト値とが一致する場合に、データの同一性を記録するステップをさらに含み、前記データの同一性は、前記整合する入力ダイジェストと格納されたダイジェストとによってそれぞれカバーされた、前記入力データおよびリポジトリ・データの中の前記データを含む、請求項1に記載の方法。
- コンピューティング環境のデータ重複排除システムにおける効率的な重複排除処理のため、類似性探索に基づいてダイジェストを検索するためのシステムであって、前記システムは、
前記データ重複排除システムと、
前記データ重複排除システム中で作動するリポジトリと、
前記データ重複排除システム中のメモリと、
前記データ重複排除システム中の前記メモリに関連付けられた探索構造体と、
前記データ重複排除システムを制御するための、前記コンピューティング・ストレージ環境中で動作可能な少なくとも一つのプロセッサ・デバイスと、
を含み、前記少なくとも一つのプロセッサ・デバイスは、
入力データをデータ・チャンクに区分化し、
前記データ・チャンクの各々に対し、類似性要素およびダイジェスト値を計算し、
類似性要素を包含する前記探索構造体中で、整合する類似性要素を探索し、
データのリポジトリ中の類似するデータの位置を見出し、
前記類似するデータの前記位置を用いて、前記リポジトリ中の前記類似するデータの格納されたダイジェスト値を探し出し、前記メモリ中にロードし、
データの整合を調べるために、前記入力データの前記ダイジェスト値と、前記メモリ中にロードされた前記格納されたダイジェスト値とを照合する、
システム。 - 前記少なくとも一つのプロセッサ・デバイスが、前記入力データを固定サイズのデータ・チャンクに区分化する、請求項10に記載のシステム。
- 前記少なくとも一つのプロセッサ・デバイスが、前記データ・チャンクの各々に対し、ローリング・ハッシュ値を計算し、ローリング・ハッシュ値はバイト・オフセット中のバイト群の各連続ウィンドウに対して生成される、請求項10に記載のシステム。
- 前記少なくとも一つのプロセッサ・デバイスが、前記類似性要素として、特定のローリング・ハッシュ値と前記特定のローリング・ハッシュ値の関連位置とを選択する、請求項12に記載のシステム。
- 前記少なくとも一つのプロセッサ・デバイスが、前記ローリング・ハッシュ値に基づいてダイジェスト・ブロック境界を計算し、前記ダイジェスト・ブロックに対応するダイジェスト値を計算する、請求項12に記載のシステム。
- 前記探索構造体が、データの前記リポジトリ中に格納されたデータ・チャンクの前記類似性要素を包含する、請求項10に記載のシステム。
- 前記少なくとも一つのプロセッサ・デバイスが、前記ダイジェストを、前記データ中のそれらの出現に対応する形で前記リポジトリ中に格納する、請求項10に記載のシステム。
- 前記少なくとも一つのプロセッサ・デバイスが、データの特定区間の前記リポジトリ中の位置およびサイズに基づいて、前記リポジトリ中で、データの前記特定区間に対応するダイジェストを探し出す、請求項16に記載のシステム。
- 入力ダイジェスト値と、前記メモリ中にロードされた格納されたダイジェスト値とが一致する場合に、前記少なくとも一つのプロセッサ・デバイスがデータの同一性を記録し、前記データの同一性は、前記整合する入力ダイジェストと格納されたダイジェストとによってそれぞれカバーされた、前記入力データおよびリポジトリ・データの中の前記データを含む、請求項10に記載のシステム。
- コンピューティング環境で、プロセッサ・デバイスを用いるデータ重複排除システムにおける効率的な重複排除処理のため、類似性探索に基づいてダイジェストを検索するためのコンピュータ・プログラムであって、
入力データをデータ・チャンクに区分化する第一実行可能部分と、
前記データ・チャンクの各々に対し、類似性要素およびダイジェスト値を計算する第二実行可能部分と、
類似性要素を包含する探索構造体中で、整合する類似性要素を探索する第三実行可能部分と、
データのリポジトリ中の類似するデータの位置を見出す第四実行可能部分と、
前記類似するデータの前記位置を用いて、前記リポジトリ中の前記類似するデータの格納されたダイジェスト値を探し出し、前記メモリ中にロードする第五実行可能部分と、
データの整合を調べるために、前記入力データの前記ダイジェスト値と、前記メモリ中にロードされた前記格[されたダイジェスト値とを照合する第六実行可能部分と、
を含む、コンピュータ・プログラム。 - 前記入力データを固定サイズのデータ・チャンクに区分化する第七実行可能部分をさらに含む、請求項19に記載のコンピュータ・プログラム。
- 前記データ・チャンクの各々に対し、ローリング・ハッシュ値を計算する第七実行可能部分をさらに含み、ローリング・ハッシュ値はバイト・オフセット中のバイト群の各連続ウィンドウに対して生成される、請求項19に記載のコンピュータ・プログラム。
- 前記類似性要素として、特定のローリング・ハッシュ値と前記特定のローリング・ハッシュ値の関連位置とを選択する第八実行可能部分をさらに含む、請求項21に記載のコンピュータ・プログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US13/839,581 US9547662B2 (en) | 2013-03-15 | 2013-03-15 | Digest retrieval based on similarity search in data deduplication |
US13/839,581 | 2013-03-15 | ||
PCT/IB2014/058936 WO2014140958A1 (en) | 2013-03-15 | 2014-02-12 | Digest retrieval based on similarity search in data deduplication |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016511478A JP2016511478A (ja) | 2016-04-14 |
JP6320432B2 true JP6320432B2 (ja) | 2018-05-09 |
Family
ID=51533010
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015562432A Expired - Fee Related JP6320432B2 (ja) | 2013-03-15 | 2014-02-12 | データ重複排除における、類似性探索に基づくダイジェスト検索 |
Country Status (4)
Country | Link |
---|---|
US (1) | US9547662B2 (ja) |
JP (1) | JP6320432B2 (ja) |
DE (1) | DE112014000448T5 (ja) |
WO (1) | WO2014140958A1 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9678975B2 (en) | 2013-03-15 | 2017-06-13 | International Business Machines Corporation | Reducing digest storage consumption in a data deduplication system |
US9244937B2 (en) | 2013-03-15 | 2016-01-26 | International Business Machines Corporation | Efficient calculation of similarity search values and digest block boundaries for data deduplication |
US9116941B2 (en) | 2013-03-15 | 2015-08-25 | International Business Machines Corporation | Reducing digest storage consumption by tracking similarity elements in a data deduplication system |
US10296597B2 (en) * | 2013-07-15 | 2019-05-21 | International Business Machines Corporation | Read ahead of digests in similarity based data deduplicaton |
US9678977B1 (en) * | 2015-11-25 | 2017-06-13 | International Business Machines Corporation | Similarity based deduplication of snapshots data |
US10031937B2 (en) * | 2015-11-25 | 2018-07-24 | International Business Machines Corporation | Similarity based data deduplication of initial snapshots of data sets |
US10255288B2 (en) * | 2016-01-12 | 2019-04-09 | International Business Machines Corporation | Distributed data deduplication in a grid of processors |
US10545832B2 (en) * | 2016-03-01 | 2020-01-28 | International Business Machines Corporation | Similarity based deduplication for secondary storage |
US10437684B2 (en) | 2016-03-29 | 2019-10-08 | International Business Machines Corporation | Similarity based deduplication for secondary storage |
US11327948B1 (en) * | 2016-06-30 | 2022-05-10 | EMC IP Holding Company LLC | Managing deduplication of data in storage systems |
CN111222774B (zh) * | 2019-12-30 | 2020-08-18 | 广州博士信息技术研究院有限公司 | 企业数据分析方法、装置及服务器 |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8725705B2 (en) | 2004-09-15 | 2014-05-13 | International Business Machines Corporation | Systems and methods for searching of storage data with reduced bandwidth requirements |
US7840537B2 (en) | 2006-12-22 | 2010-11-23 | Commvault Systems, Inc. | System and method for storing redundant information |
US7870409B2 (en) | 2007-09-26 | 2011-01-11 | Hitachi, Ltd. | Power efficient data storage with data de-duplication |
JP5237661B2 (ja) * | 2008-03-24 | 2013-07-17 | 日本放送協会 | ファイル同期装置、ファイル同期方法及びファイル同期プログラム |
US8527482B2 (en) * | 2008-06-06 | 2013-09-03 | Chrysalis Storage, Llc | Method for reducing redundancy between two or more datasets |
US8452731B2 (en) | 2008-09-25 | 2013-05-28 | Quest Software, Inc. | Remote backup and restore |
WO2010045262A1 (en) | 2008-10-14 | 2010-04-22 | Wanova Technologies, Ltd. | Storage-network de-duplication |
US8375182B2 (en) | 2009-02-10 | 2013-02-12 | Hewlett-Packard Development Company, L.P. | System and method for segmenting a data stream |
US8489612B2 (en) | 2009-03-24 | 2013-07-16 | Hewlett-Packard Development Company, L.P. | Identifying similar files in an environment having multiple client computers |
US20100318759A1 (en) | 2009-06-15 | 2010-12-16 | Microsoft Corporation | Distributed rdc chunk store |
US9280609B2 (en) * | 2009-09-08 | 2016-03-08 | Brocade Communications Systems, Inc. | Exact match lookup scheme |
US20120143715A1 (en) | 2009-10-26 | 2012-06-07 | Kave Eshghi | Sparse index bidding and auction based storage |
US8321648B2 (en) | 2009-10-26 | 2012-11-27 | Netapp, Inc | Use of similarity hash to route data for improved deduplication in a storage server cluster |
GB2471056B (en) | 2010-03-09 | 2011-02-16 | Quantum Corp | Controlling configurable variable data reduction |
US8250325B2 (en) | 2010-04-01 | 2012-08-21 | Oracle International Corporation | Data deduplication dictionary system |
US8694703B2 (en) | 2010-06-09 | 2014-04-08 | Brocade Communications Systems, Inc. | Hardware-accelerated lossless data compression |
US8463797B2 (en) * | 2010-07-20 | 2013-06-11 | Barracuda Networks Inc. | Method for measuring similarity of diverse binary objects comprising bit patterns |
CN103080910B (zh) | 2010-09-09 | 2016-06-01 | 日本电气株式会社 | 存储系统 |
US8682873B2 (en) * | 2010-12-01 | 2014-03-25 | International Business Machines Corporation | Efficient construction of synthetic backups within deduplication storage system |
JP5485866B2 (ja) * | 2010-12-28 | 2014-05-07 | 株式会社日立ソリューションズ | 情報管理方法、及び情報提供用計算機 |
US9639543B2 (en) | 2010-12-28 | 2017-05-02 | Microsoft Technology Licensing, Llc | Adaptive index for data deduplication |
US9110936B2 (en) | 2010-12-28 | 2015-08-18 | Microsoft Technology Licensing, Llc | Using index partitioning and reconciliation for data deduplication |
GB2477607B (en) | 2011-01-17 | 2011-12-28 | Quantum Corp | Sampling based data de-duplication |
US20120185612A1 (en) * | 2011-01-19 | 2012-07-19 | Exar Corporation | Apparatus and method of delta compression |
US8612392B2 (en) | 2011-05-09 | 2013-12-17 | International Business Machines Corporation | Identifying modified chunks in a data set for storage |
US8805796B1 (en) | 2011-06-27 | 2014-08-12 | Emc Corporation | Deduplicating sets of data blocks |
US8825626B1 (en) | 2011-08-23 | 2014-09-02 | Emc Corporation | Method and system for detecting unwanted content of files |
US8990171B2 (en) | 2011-09-01 | 2015-03-24 | Microsoft Corporation | Optimization of a partially deduplicated file |
US8484170B2 (en) | 2011-09-19 | 2013-07-09 | International Business Machines Corporation | Scalable deduplication system with small blocks |
CN103034659B (zh) | 2011-09-29 | 2015-08-19 | 国际商业机器公司 | 一种重复数据删除的方法和系统 |
US9047304B2 (en) | 2011-11-28 | 2015-06-02 | International Business Machines Corporation | Optimization of fingerprint-based deduplication |
US8914338B1 (en) | 2011-12-22 | 2014-12-16 | Emc Corporation | Out-of-core similarity matching |
US20140115182A1 (en) | 2012-10-24 | 2014-04-24 | Brocade Communications Systems, Inc. | Fibre Channel Storage Area Network to Cloud Storage Gateway |
US9069478B2 (en) | 2013-01-02 | 2015-06-30 | International Business Machines Corporation | Controlling segment size distribution in hash-based deduplication |
US9244937B2 (en) | 2013-03-15 | 2016-01-26 | International Business Machines Corporation | Efficient calculation of similarity search values and digest block boundaries for data deduplication |
US9116941B2 (en) | 2013-03-15 | 2015-08-25 | International Business Machines Corporation | Reducing digest storage consumption by tracking similarity elements in a data deduplication system |
US9678975B2 (en) | 2013-03-15 | 2017-06-13 | International Business Machines Corporation | Reducing digest storage consumption in a data deduplication system |
US10366072B2 (en) | 2013-04-05 | 2019-07-30 | Catalogic Software, Inc. | De-duplication data bank |
-
2013
- 2013-03-15 US US13/839,581 patent/US9547662B2/en active Active
-
2014
- 2014-02-12 WO PCT/IB2014/058936 patent/WO2014140958A1/en active Application Filing
- 2014-02-12 JP JP2015562432A patent/JP6320432B2/ja not_active Expired - Fee Related
- 2014-02-12 DE DE112014000448.0T patent/DE112014000448T5/de not_active Ceased
Also Published As
Publication number | Publication date |
---|---|
DE112014000448T5 (de) | 2015-10-15 |
WO2014140958A1 (en) | 2014-09-18 |
US20140279951A1 (en) | 2014-09-18 |
US9547662B2 (en) | 2017-01-17 |
JP2016511478A (ja) | 2016-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6320432B2 (ja) | データ重複排除における、類似性探索に基づくダイジェスト検索 | |
US9600515B2 (en) | Efficient calculation of similarity search values and digest block boundaries for data deduplication | |
US10013202B2 (en) | Utilizing global digests caching in similarity based data deduplication | |
US10007672B2 (en) | Global digests caching in a data deduplication system | |
US10339109B2 (en) | Optimizing hash table structure for digest matching in a data deduplication system | |
US9116941B2 (en) | Reducing digest storage consumption by tracking similarity elements in a data deduplication system | |
US9678975B2 (en) | Reducing digest storage consumption in a data deduplication system | |
US10007610B2 (en) | Tuning global digests caching in a data deduplication system | |
US20150019815A1 (en) | Utilizing global digests caching in data deduplication of workloads | |
US10657104B2 (en) | Data structures for digests matching in a data deduplication system | |
US10255288B2 (en) | Distributed data deduplication in a grid of processors | |
US10229132B2 (en) | Optimizing digest based data matching in similarity based deduplication | |
US10296598B2 (en) | Digest based data matching in similarity based deduplication | |
US10671569B2 (en) | Reducing activation of similarity search in a data deduplication system | |
US10229131B2 (en) | Digest block segmentation based on reference segmentation in a data deduplication system | |
US10789213B2 (en) | Calculation of digest segmentations for input data using similar data in a data deduplication system | |
US9922042B2 (en) | Producing alternative segmentations of data into blocks in a data deduplication system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170207 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171222 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20180226 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20180313 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20180403 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6320432 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |