JP6807395B2 - プロセッサ・グリッド内の分散データ重複排除 - Google Patents
プロセッサ・グリッド内の分散データ重複排除 Download PDFInfo
- Publication number
- JP6807395B2 JP6807395B2 JP2018534948A JP2018534948A JP6807395B2 JP 6807395 B2 JP6807395 B2 JP 6807395B2 JP 2018534948 A JP2018534948 A JP 2018534948A JP 2018534948 A JP2018534948 A JP 2018534948A JP 6807395 B2 JP6807395 B2 JP 6807395B2
- Authority
- JP
- Japan
- Prior art keywords
- processor
- data
- ingesting
- similarity
- deduplication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
200:データストレージシステム
300:シェアードナッシング型アーキテクチャ
400:シェアードナッシング型プロセッサ・グリッド内のグローバル分散データ重複排除のためのアーキテクチャ
500:シェアードナッシング型アーキテクチャにおけるグローバル分散データ重複排除のための例示的な方法
600:データ重複排除メタデータ・スライスに対する代表値のコンシステント・マッピング
Claims (10)
- プロセッサ・グリッド内の分散データ重複排除のための方法であって、
インジェスティング・プロセッサ上で入力データを受け取り、前記入力データを複数の類似性ユニットに分割することと、
前記類似性ユニットの1つに対して、対応する重複排除メタデータ・スライス及びプロセッサを計算することと、
前記類似性ユニットの代表値及び対応するダイジェスト値を前記プロセッサへ送ることと、
前記プロセッサを用いて、前記対応する重複排除メタデータ・スライス内で前記代表値について検索することと、
前記プロセッサを用いて、計算された同一データセクションの仕様及び所有プロセッサを前記インジェスティング・プロセッサへ送ることと、
前記インジェスティング・プロセッサを用いて、前記計算された同一データセクションの名目情報を、前記計算された同一データセクションの前記所有プロセッサへ送ることと、
前記計算された同一データセクションの前記所有プロセッサを用いて、前記インジェスティング・プロセッサに、前記同一データセクションを格納しているストレージブロックの情報を応答することと、
を含む、方法であって、
前記類似性ユニットの前記代表値及び前記対応するダイジェスト値を、同じプロセッサにマッピングされた複数の類似性ユニットのいくつかに対する単一のメッセージを用いて前記プロセッサへ送ることをさらに含む、方法。 - 前記プロセッサによって、
複数のダイジェスト値の各々であって、前記複数の類似性ユニットのそれら各々の代表値に対応するダイジェスト値をダイジェスト・キャッシュ内にロードすること、及び
前記インジェスティング・プロセッサから受け取った及び前記ダイジェスト・キャッシュ内に収容されたダイジェスト値でダイジェストマッチング手順を行って、前記同一データセクションを計算すること、
のうちの少なくとも1つを行うことをさらに含む、請求項1に記載の方法。 - 計算された同一データセクションの複数の所有プロセッサにわたる、前記計算された同一データセクションの仕様及び所有プロセッサを送ることをさらに含む、請求項1に記載の方法。
- 前記プロセッサによって、前記類似性ユニットの前記代表値及びダイジェスト値を前記重複排除メタデータ・スライス内に格納することをさらに含む、請求項1に記載の方法。
- 前記インジェスティング・プロセッサのアイデンティティを前記類似性ユニットの前記ダイジェスト値と共に記録することをさらに含む、請求項4に記載の方法。
- 前記インジェスティング・プロセッサによって接触された前記計算された同一データセクションの前記所有プロセッサは、複数の所有プロセッサのサブセットであり、前記方法は、前記サブセットを、前記複数の所有プロセッサのうち最高値を提供するものとして選択することをさらに含む、請求項1に記載の方法。
- 前記サブセットを、
前記複数の所有プロセッサのうち、前記複数の所有プロセッサの中で最高量の計算された同一データセクションを有するものを選択すること、
前記複数の所有プロセッサのうち、所定の閾値を上回る量の計算された同一データセクションを有するものを選択すること、
前記複数の所有プロセッサのうち、前記インジェスティング・プロセッサによって生成されるその後の要求を効率的に処理して前記同一データセクションを提供することが可能なものを選択すること、
のうち少なくとも1つによって選択することをさらに含む、請求項6に記載の方法。 - 前記計算された同一データセクションの前記所有プロセッサは、前記同一データセクションを格納しているストレージブロックの参照カウントを増加する、請求項1に記載の方法。
- 前記インジェスティング・プロセッサによって、
一致しないデータをローカル・ストレージブロックに格納すること、及び
前記計算された同一データセクションの前記所有プロセッサによってその情報が提供される前記ストレージブロックに対する参照を追加すること、
のうちの少なくとも1つを行うことをさらに含む、請求項1に記載の方法。 - プロセッサ・グリッド内の分散データ重複排除のためのシステムであって、
インジェスティング・プロセッサと、
前記インジェスティング・プロセッサと通信するプロセッサと、
前記プロセッサ・グリッド内で前記プロセッサ及び前記プロセッサと通信する、計算された同一データセクションの所有プロセッサと、
を含み、
前記インジェスティング・プロセッサは、
入力データを受け取り、前記入力データを複数の類似性ユニットに分割し、
前記類似性ユニットの1つに対して、対応する重複排除メタデータ・スライス及び前記プロセッサを計算し、
前記類似性ユニットの代表値及び対応するダイジェスト値を前記プロセッサへ送るように適合され、
前記プロセッサは、
前記対応する重複排除メタデータ・スライス内で前記代表値について検索し、
計算された同一データセクションの仕様及び前記所有プロセッサを前記インジェスティング・プロセッサへ送るように適合され、
前記所有プロセッサは、
前記インジェスティング・プロセッサによって送られた前記計算された同一データセクションの名目情報を受け取り、
前記インジェスティング・プロセッサに、前記同一データセクションを格納しているストレージブロックの情報を応答するように適合された、
システムであって、
前記インジェスティング・プロセッサは、前記類似性ユニットの前記代表値及び前記対応するダイジェスト値を、同じプロセッサにマッピングされた複数の類似性ユニットのいくつかに対する単一のメッセージを用いて前記プロセッサへ送ることをさらに含む、システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US14/993,225 | 2016-01-12 | ||
US14/993,225 US10255288B2 (en) | 2016-01-12 | 2016-01-12 | Distributed data deduplication in a grid of processors |
PCT/IB2017/050020 WO2017122101A1 (en) | 2016-01-12 | 2017-01-04 | Distributed data deduplication in grid of processors |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019506667A JP2019506667A (ja) | 2019-03-07 |
JP6807395B2 true JP6807395B2 (ja) | 2021-01-06 |
Family
ID=59275613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018534948A Active JP6807395B2 (ja) | 2016-01-12 | 2017-01-04 | プロセッサ・グリッド内の分散データ重複排除 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10255288B2 (ja) |
JP (1) | JP6807395B2 (ja) |
CN (1) | CN108431815B (ja) |
DE (1) | DE112017000167B4 (ja) |
GB (1) | GB2562008B (ja) |
WO (1) | WO2017122101A1 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11010300B2 (en) | 2017-05-04 | 2021-05-18 | Hewlett Packard Enterprise Development Lp | Optimized record lookups |
US10997153B2 (en) | 2018-04-20 | 2021-05-04 | Hewlett Packard Enterprise Development Lp | Transaction encoding and transaction persistence according to type of persistent storage |
US11243703B2 (en) | 2018-04-27 | 2022-02-08 | Hewlett Packard Enterprise Development Lp | Expandable index with pages to store object records |
US11237743B2 (en) * | 2019-04-29 | 2022-02-01 | EMC IP Holding Company LLC | Sub-block deduplication using sector hashing |
CN111177137B (zh) * | 2019-12-30 | 2023-10-13 | 广州酷狗计算机科技有限公司 | 数据去重的方法、装置、设备及存储介质 |
CN113448491B (zh) * | 2020-03-26 | 2024-05-17 | 伊姆西Ip控股有限责任公司 | 存储系统的数据迁移 |
Family Cites Families (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004104838A1 (ja) * | 2003-05-21 | 2004-12-02 | Fujitsu Limited | データアクセス応答システム、ストレージシステム、クライアント装置、キャッシュ装置、およびデータアクセス応答システムへのアクセス方法 |
CA2433377A1 (en) | 2003-06-25 | 2004-12-25 | Ibm Canada Limited - Ibm Canada Limitee | Computing frequent value statistics in a partitioned relational database |
US7139772B2 (en) | 2003-08-01 | 2006-11-21 | Oracle International Corporation | Ownership reassignment in a shared-nothing database system |
ATE413765T1 (de) | 2006-07-07 | 2008-11-15 | Alcatel Lucent | Verteilter hashing-mechanismus für selbstorganisierende netzwerke |
US8166012B2 (en) | 2007-04-11 | 2012-04-24 | Emc Corporation | Cluster storage using subsegmenting |
US8060614B2 (en) | 2008-06-19 | 2011-11-15 | Microsoft Corporation | Streaming operator placement for distributed stream processing |
US8321648B2 (en) * | 2009-10-26 | 2012-11-27 | Netapp, Inc | Use of similarity hash to route data for improved deduplication in a storage server cluster |
US8375047B2 (en) | 2010-03-31 | 2013-02-12 | Emc Corporation | Apparatus and method for query prioritization in a shared nothing distributed database |
US8250325B2 (en) * | 2010-04-01 | 2012-08-21 | Oracle International Corporation | Data deduplication dictionary system |
US8402004B2 (en) * | 2010-11-16 | 2013-03-19 | Actifio, Inc. | System and method for creating deduplicated copies of data by tracking temporal relationships among copies and by ingesting difference data |
US8682873B2 (en) | 2010-12-01 | 2014-03-25 | International Business Machines Corporation | Efficient construction of synthetic backups within deduplication storage system |
US8380681B2 (en) | 2010-12-16 | 2013-02-19 | Microsoft Corporation | Extensible pipeline for data deduplication |
US9110936B2 (en) | 2010-12-28 | 2015-08-18 | Microsoft Technology Licensing, Llc | Using index partitioning and reconciliation for data deduplication |
US8825720B1 (en) * | 2011-04-12 | 2014-09-02 | Emc Corporation | Scaling asynchronous reclamation of free space in de-duplicated multi-controller storage systems |
US8484170B2 (en) | 2011-09-19 | 2013-07-09 | International Business Machines Corporation | Scalable deduplication system with small blocks |
CN102323958A (zh) * | 2011-10-27 | 2012-01-18 | 上海文广互动电视有限公司 | 重复数据删除方法 |
KR102031392B1 (ko) * | 2011-11-15 | 2019-11-08 | 아브 이니티오 테크놀로지 엘엘시 | 후보 쿼리들에 기반한 데이터 클러스터링 |
CN102495894A (zh) * | 2011-12-12 | 2012-06-13 | 成都市华为赛门铁克科技有限公司 | 重复数据查找方法、装置及系统 |
US8682869B2 (en) | 2012-04-05 | 2014-03-25 | International Business Machines Corporation | Increased in-line deduplication efficiency |
US9336223B2 (en) | 2012-09-24 | 2016-05-10 | International Business Machines Corporation | Selective erasure of expired files or extents in deduplicating virtual media for efficient file reclamation |
US8799284B2 (en) | 2012-11-30 | 2014-08-05 | Futurewei Technologies, Inc. | Method for automated scaling of a massive parallel processing (MPP) database |
US9471586B2 (en) * | 2013-01-10 | 2016-10-18 | International Business Machines Corporation | Intelligent selection of replication node for file data blocks in GPFS-SNC |
US9479587B2 (en) | 2013-01-23 | 2016-10-25 | Nexenta Systems, Inc. | Scalable object storage using multicast transport |
US8938417B2 (en) | 2013-02-22 | 2015-01-20 | International Business Machines Corporation | Integrity checking and selective deduplication based on network parameters |
US9195673B2 (en) | 2013-03-15 | 2015-11-24 | International Business Machines Corporation | Scalable graph modeling of metadata for deduplicated storage systems |
US9547662B2 (en) * | 2013-03-15 | 2017-01-17 | International Business Machines Corporation | Digest retrieval based on similarity search in data deduplication |
US10180951B2 (en) | 2013-03-15 | 2019-01-15 | Amazon Technologies, Inc. | Place snapshots |
JP5444506B1 (ja) * | 2013-03-29 | 2014-03-19 | 株式会社東芝 | データの重複をハッシュテーブルに基づいて排除するためのストレージシステム |
GB2514555A (en) | 2013-05-28 | 2014-12-03 | Ibm | Deduplication for a storage system |
-
2016
- 2016-01-12 US US14/993,225 patent/US10255288B2/en active Active
-
2017
- 2017-01-04 GB GB1812619.3A patent/GB2562008B/en active Active
- 2017-01-04 JP JP2018534948A patent/JP6807395B2/ja active Active
- 2017-01-04 DE DE112017000167.6T patent/DE112017000167B4/de active Active
- 2017-01-04 WO PCT/IB2017/050020 patent/WO2017122101A1/en active Application Filing
- 2017-01-04 CN CN201780005643.7A patent/CN108431815B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
US10255288B2 (en) | 2019-04-09 |
DE112017000167T5 (de) | 2018-06-28 |
CN108431815B (zh) | 2022-10-11 |
DE112017000167B4 (de) | 2020-12-31 |
CN108431815A (zh) | 2018-08-21 |
WO2017122101A1 (en) | 2017-07-20 |
JP2019506667A (ja) | 2019-03-07 |
GB201812619D0 (en) | 2018-09-19 |
GB2562008A (en) | 2018-10-31 |
GB2562008B (en) | 2019-04-03 |
US20170199891A1 (en) | 2017-07-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11775392B2 (en) | Indirect replication of a dataset | |
US20230359644A1 (en) | Cloud-based replication to cloud-external systems | |
US10761758B2 (en) | Data aware deduplication object storage (DADOS) | |
JP6807395B2 (ja) | プロセッサ・グリッド内の分散データ重複排除 | |
US10261946B2 (en) | Rebalancing distributed metadata | |
US9678977B1 (en) | Similarity based deduplication of snapshots data | |
US9454476B2 (en) | Logical sector mapping in a flash storage array | |
US10242021B2 (en) | Storing data deduplication metadata in a grid of processors | |
US9817865B2 (en) | Direct lookup for identifying duplicate data in a data deduplication system | |
JP6320432B2 (ja) | データ重複排除における、類似性探索に基づくダイジェスト検索 | |
US10657103B2 (en) | Combining data matches from multiple sources in a deduplication storage system | |
US10031937B2 (en) | Similarity based data deduplication of initial snapshots of data sets | |
US11030198B2 (en) | Reducing resource consumption of a similarity index in data deduplication | |
US10394481B2 (en) | Reducing application input/output operations from a server having data stored on de-duped storage |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20181127 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190621 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200825 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201117 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20201201 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20201207 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6807395 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |