JP5842768B2 - 重複除去装置、重複除去方法及び重複除去プログラム - Google Patents
重複除去装置、重複除去方法及び重複除去プログラム Download PDFInfo
- Publication number
- JP5842768B2 JP5842768B2 JP2012183085A JP2012183085A JP5842768B2 JP 5842768 B2 JP5842768 B2 JP 5842768B2 JP 2012183085 A JP2012183085 A JP 2012183085A JP 2012183085 A JP2012183085 A JP 2012183085A JP 5842768 B2 JP5842768 B2 JP 5842768B2
- Authority
- JP
- Japan
- Prior art keywords
- bloom filter
- data
- storage device
- nth
- deduplication
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0628—Interfaces specially adapted for storage systems making use of a particular technique
- G06F3/0638—Organizing or formatting or addressing of data
- G06F3/064—Management of blocks
- G06F3/0641—De-duplication techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0602—Interfaces specially adapted for storage systems specifically adapted to achieve a particular effect
- G06F3/0608—Saving storage space on storage systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/06—Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
- G06F3/0601—Interfaces specially adapted for storage systems
- G06F3/0668—Interfaces specially adapted for storage systems adopting a particular infrastructure
- G06F3/0671—In-line storage system
- G06F3/0673—Single storage device
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
第1乃至第N(≧3)のブルームフィルタと、
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が前記第Nのブルームフィルタに登録されていることを見出すまで、前記第1乃至第Nのブルームフィルタについて順次行い、前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置内に存在することを示す情報を前記未登録ブルームフィルタに登録する計数部と、
前記計数部により前記未登録ブルームフィルタが見出された場合には、前記格納対象データを前記記憶装置に格納し、前記計数部によりに前記情報が前記第Nのブルームフィルタに登録されていることが見出された場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する重複除去部と、
を備える。
コンピュータを、
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が第Nのブルームフィルタに登録されていることを見出すまで、第1乃至第Nのブルームフィルタについて順次行い、
前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置
内に存在することを示す情報を前記未登録ブルームフィルタに登録すると共に、前記格納対象データを前記記憶装置に格納し、
前記情報が前記第Nのブルームフィルタに登録されていることを見出した場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する。
コンピュータを、
第1乃至第N(≧3)のブルームフィルタと、
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が前記第Nのブルームフィルタに登録されていることを見出すまで、前記第1乃至第Nのブルームフィルタについて順次行い、前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置内に存在することを示す情報を前記未登録ブルームフィルタに登録する計数部と、
前記計数部により前記未登録ブルームフィルタが見出された場合には、前記格納対象データを前記記憶装置に格納し、前記計数部によりに前記情報が前記第Nのブルームフィルタに登録されていることが見出された場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する重複除去部と、
を備える装置として動作させる。
0、すなわち、計数部20と重複除去部25とを備えた重複除去装置10として動作させるプログラムである。
理ブロックアドレスが送信されてきた場合に、当該格納対象データを記憶装置30内に格納するユニット(機能ブロック)である。また、重複除去部25は、計数部20からインデックス情報格納指示情報と共に格納対象データ及びその論理ブロックアドレスが送信されてきた場合に、当該格納対象データを記憶装置30内の同内容のデータに対応づけるためのインデックス情報を記憶装置30内に格納するユニットともなっている。
納指示情報、格納対象データ及びその論理ブロックアドレスを送信(ステップS106)してから、この計数処理を終了する。
データ数によっては、カウントアップするデータの検索に時間が掛かるものなのであるから、本実施形態に係る重複除去装置10は、N(≧3)個目の重複データからの重複除去が、効率的に(メモリサイズに合わせた、重複除去の管理データの格納が可能な形で)行える装置となっていると言うことが出来る。
上記した重複除去装置10は、各種の変形を行えるものである。例えば、重複除去装置10を、ビット数が同一のN個のBF22を備えた装置に変形することが出来る。ただし、上記手順の処理により、第j(≧2)のBF22にて管理されることになるデータの個数は、第i-1のBF22で管理されることになるデータの個数より常に小さくなる。従
って、メモリの記憶容量が無駄に使用されないようにするために、BF22のビット数は、後段側のBF22のビット数の方が小さくなるようにしておくことが好ましいのであるが、例えば、第NのBF22のみのビット数を少なくしておくことも出来る。
以上、開示した技術に関し、更に以下の付記を開示する。
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が前記第Nのブルームフィルタに登録されていることを見出すまで、前記第1乃至第Nのブルームフィルタについて順次行い、前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置内に存在することを示す情報を前記未登録ブルームフィルタに登録する計数部と、
前記計数部により前記未登録ブルームフィルタが見出された場合には、前記格納対象データを前記記憶装置に格納し、前記計数部によりに前記情報が前記第Nのブルームフィルタに登録されていることが見出された場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する重複除去部(25)と、
を備えることを特徴とする重複除去装置。
ことを特徴とする付記1に記載の重複除去装置。
ことを特徴とする付記1に記載の重複除去装置。
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が第Nのブルームフィルタに登録されていることを見出すまで、第1乃至第Nのブルームフィルタについて順次行い、
前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置内に存在することを示す情報を前記未登録ブルームフィルタに登録すると共に、前記格納対象データを前記記憶装置に格納し、
前記情報が前記第Nのブルームフィルタに登録されていることを見出した場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する
ことを特徴とする重複除去方法。
第1乃至第N(≧3)のブルームフィルタと、
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が前記第Nのブルームフィルタに登録されていることを見出すまで、前記第1乃至第Nのブルームフィルタについて順次行い、前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置内に存在することを示す情報を前記未登録ブルームフィルタに登録する計数部と、
前記計数部により前記未登録ブルームフィルタが見出された場合には、前記格納対象データを前記記憶装置に格納し、前記計数部によりに前記情報が前記第Nのブルームフィルタに登録されていることが見出された場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する重複除去部と、
を備える装置として動作させることを特徴とする重複除去プログラム。
第1乃至第N(≧3)のブルームフィルタと、
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が前記第Nのブルームフィルタに登録されていることを見出すまで、前記第1乃至第Nのブルームフィルタについて順次行い、前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置内に存在することを示す情報を前記未登録ブルームフィルタに登録する計数部と、
前記計数部により前記未登録ブルームフィルタが見出された場合には、前記格納対象データを前記記憶装置に格納し、前記計数部によりに前記情報が前記第Nのブルームフィルタに登録されていることが見出された場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する重複除去部と、
を備える装置として動作させる重複除去プログラムを記録したコンピュータ可読媒体。
11 CPU
12 メモリ
13 HDD
18 重複除去スプログラム
20 計数部
22 ブルームフィルタ
25 重複除去部
30 記憶装置
50 コンピュータ
100 ホスト
Claims (5)
- 第1乃至第N(≧3)のブルームフィルタと、
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が前記第Nのブルームフィルタに登録されていることを見出すまで、前記第1乃至第Nのブルームフィルタについて順次行い、前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置内に存在することを示す情報を前記未登録ブルームフィルタに登録する計数部と、
前記計数部により前記未登録ブルームフィルタが見出された場合には、前記格納対象データを前記記憶装置に格納し、前記計数部によりに前記情報が前記第Nのブルームフィルタに登録されていることが見出された場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する重複除去部と、
を備えることを特徴とする重複除去装置。 - 第1のブルームフィルタのビット長が、第Nのブルームフィルタのビット長よりも長い
ことを特徴とする請求項1に記載の重複除去装置。 - 各ブルームフィルタのビット数が、第1乃至第Nのブルームフィルタの順に小さくなる
ことを特徴とする請求項1に記載の重複除去装置。 - コンピュータが、
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が第Nのブルームフィルタに登録されていることを見出すまで、第1乃至第Nのブルームフィルタについて順次行い、
前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置内に存在することを示す情報を前記未登録ブルームフィルタに登録すると共に、前記格納対象データを前記記憶装置に格納し、
前記情報が前記第Nのブルームフィルタに登録されていることを見出した場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する
ことを特徴とする重複除去方法。 - コンピュータを、
第1乃至第N(≧3)のブルームフィルタと、
格納対象データと同内容のデータが記憶装置内に存在することを示す情報が各ブルームフィルタに登録されているか否かを判断する処理を、当該情報が登録されていない未登録ブルームフィルタを見出すか、当該情報が前記第Nのブルームフィルタに登録されていることを見出すまで、前記第1乃至第Nのブルームフィルタについて順次行い、前記未登録ブルームフィルタを見出した場合には、前記格納対象データが前記記憶装置内に存在することを示す情報を前記未登録ブルームフィルタに登録する計数部と、
前記計数部により前記未登録ブルームフィルタが見出された場合には、前記格納対象データを前記記憶装置に格納し、前記計数部によりに前記情報が前記第Nのブルームフィルタに登録されていることが見出された場合には、前記格納対象データを前記記憶装置内の同内容のデータに対応づけるインデックス情報を前記記憶装置に格納する重複除去部と、
を備える装置として動作させることを特徴とする重複除去プログラム。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012183085A JP5842768B2 (ja) | 2012-08-22 | 2012-08-22 | 重複除去装置、重複除去方法及び重複除去プログラム |
US13/958,668 US9122407B2 (en) | 2012-08-22 | 2013-08-05 | Deduplication device and deduplication method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012183085A JP5842768B2 (ja) | 2012-08-22 | 2012-08-22 | 重複除去装置、重複除去方法及び重複除去プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014041452A JP2014041452A (ja) | 2014-03-06 |
JP5842768B2 true JP5842768B2 (ja) | 2016-01-13 |
Family
ID=50148946
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012183085A Expired - Fee Related JP5842768B2 (ja) | 2012-08-22 | 2012-08-22 | 重複除去装置、重複除去方法及び重複除去プログラム |
Country Status (2)
Country | Link |
---|---|
US (1) | US9122407B2 (ja) |
JP (1) | JP5842768B2 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105993094B (zh) * | 2014-06-18 | 2017-10-24 | 皇家飞利浦有限公司 | 用于控制电池组的多个电池的设备和方法 |
US9634992B1 (en) * | 2015-02-28 | 2017-04-25 | Palo Alto Networks, Inc. | Probabilistic duplicate detection |
CN106649346B (zh) * | 2015-10-30 | 2020-09-22 | 北京国双科技有限公司 | 数据重复性校验方法及装置 |
JP6724534B2 (ja) | 2016-05-09 | 2020-07-15 | 富士通株式会社 | 情報処理装置、重複除去プログラム、及び重複除去方法 |
US10162554B2 (en) | 2016-08-03 | 2018-12-25 | Samsung Electronics Co., Ltd. | System and method for controlling a programmable deduplication ratio for a memory system |
US11429587B1 (en) * | 2017-06-29 | 2022-08-30 | Seagate Technology Llc | Multiple duration deduplication entries |
CN110933149A (zh) * | 2019-11-18 | 2020-03-27 | 湖南警察学院 | 一种云存储安全去重方法和系统 |
US11809378B2 (en) | 2021-10-15 | 2023-11-07 | Morgan Stanley Services Group Inc. | Network file deduplication using decaying bloom filters |
US11874801B2 (en) | 2022-02-14 | 2024-01-16 | Seagate Technology Llc | Deduplication in multiple-tiered storage systems |
CN115454983B (zh) * | 2022-09-13 | 2023-07-14 | 浪潮卓数大数据产业发展有限公司 | 一种基于布隆过滤器的海量Hbase数据去重方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0916607A (ja) | 1995-06-26 | 1997-01-17 | Hitachi Ltd | データベース管理システムにおけるインデクス管理方法 |
US6928526B1 (en) * | 2002-12-20 | 2005-08-09 | Datadomain, Inc. | Efficient data storage system |
WO2008151674A1 (en) | 2007-06-15 | 2008-12-18 | Telefonaktiebolaget Lm Ericsson (Publ) | Method of discovering overlapping cells |
JP2011171995A (ja) | 2010-02-18 | 2011-09-01 | Nippon Telegr & Teleph Corp <Ntt> | データ判別装置、データ判別方法およびデータ判別プログラム |
US9639543B2 (en) * | 2010-12-28 | 2017-05-02 | Microsoft Technology Licensing, Llc | Adaptive index for data deduplication |
JP2014130549A (ja) * | 2012-12-28 | 2014-07-10 | Fujitsu Ltd | ストレージ装置、制御方法、および制御プログラム |
US9558199B2 (en) * | 2013-03-07 | 2017-01-31 | Jive Software, Inc. | Efficient data deduplication |
-
2012
- 2012-08-22 JP JP2012183085A patent/JP5842768B2/ja not_active Expired - Fee Related
-
2013
- 2013-08-05 US US13/958,668 patent/US9122407B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
US20140059016A1 (en) | 2014-02-27 |
US9122407B2 (en) | 2015-09-01 |
JP2014041452A (ja) | 2014-03-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5842768B2 (ja) | 重複除去装置、重複除去方法及び重複除去プログラム | |
US10620869B2 (en) | Storage control device, storage control method, and recording medium | |
JP5881859B2 (ja) | ストレージ装置 | |
US9851917B2 (en) | Method for de-duplicating data and apparatus therefor | |
EP2770446A1 (en) | Data processing method and device | |
US8255406B2 (en) | Data management using multi-state bloom filter | |
JP2005122702A5 (ja) | ||
WO2014157244A1 (ja) | ストレージ制御装置、ストレージ制御方法、およびストレージ制御プログラム | |
US10007436B2 (en) | Storage control apparatus and control method of storage control apparatus | |
JP2017084338A (ja) | フラッシュメモリのフラッシングを改善する方法およびシステム | |
US8782375B2 (en) | Hash-based managing of storage identifiers | |
CN107122130A (zh) | 一种数据重删方法及装置 | |
JP2017049806A (ja) | ストレージ制御装置およびストレージ制御プログラム | |
WO2011019029A1 (ja) | データ処理装置、データ記録方法、データ記録プログラム | |
CN111638925A (zh) | 一种接口方法表生成方法、函数指针查询方法及装置 | |
JP5729479B2 (ja) | 仮想テープ装置及び仮想テープ装置の制御方法 | |
JP5849969B2 (ja) | データ管理装置、システム、プログラム、および、方法 | |
US8341376B1 (en) | System, method, and computer program for repartitioning data based on access of the data | |
US9858179B2 (en) | Data sort using memory-intensive exosort | |
JP6112193B2 (ja) | アクセス制御プログラム、ディスク装置及びアクセス制御方法 | |
KR101341995B1 (ko) | 공유 데이터 저장소 관리 장치 및 방법 | |
JP2007004326A (ja) | データアクセス方法及びそのプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20150203 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20151014 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20151020 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20151102 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5842768 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |