CN106611035A - 一种云存储中重复数据删除的检索算法 - Google Patents
一种云存储中重复数据删除的检索算法 Download PDFInfo
- Publication number
- CN106611035A CN106611035A CN201610411080.9A CN201610411080A CN106611035A CN 106611035 A CN106611035 A CN 106611035A CN 201610411080 A CN201610411080 A CN 201610411080A CN 106611035 A CN106611035 A CN 106611035A
- Authority
- CN
- China
- Prior art keywords
- file
- data
- files
- cloud storage
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003252 repetitive effect Effects 0.000 title abstract 7
- 238000005070 sampling Methods 0.000 claims abstract description 18
- 238000000034 method Methods 0.000 claims abstract description 15
- 238000004364 calculation method Methods 0.000 claims abstract description 7
- 238000004220 aggregation Methods 0.000 claims 1
- 230000002776 aggregation Effects 0.000 claims 1
- 238000000638 solvent extraction Methods 0.000 claims 1
- 238000012217 deletion Methods 0.000 abstract description 7
- 230000037430 deletion Effects 0.000 abstract description 7
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000002950 deficient Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 230000007306 turnover Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1748—De-duplication implemented within the file system, e.g. based on file segments
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提出了一种云存储中重复数据删除的检索算法,要进行重复数据的删除,首先要检索出新写入文件在整个存储系统中与哪一个文件相似,并且达到阈值;然后在对两个文件进行精确对比,舍弃重复的数据,只保留不同的数据和索引信息。采用抽样的方式,随机抽取一定量的文件指纹数据,考虑抽样方法与抽样数量,结合样本相似度构建文件重复率函数,通过重复率阈值设定,对冗余文件进行舍弃,从而达到重复文件删除,节省存入空间,方法具有计算速度快,删除率高的特性,比较适用于大数据和云存储环境中。
Description
技术领域
计算机存储、云存储中重复数据的删除及检索
背景技术
随着信息技术和网络技术的发展,大数据与海量数据已经成为数据中心的主要业务,而重复数据删除与压缩是可以节约大量数据存储的技术。只有备份还不够;重复数据删除与压缩即将成为主存储的必备功能。重复数据删除是一种压缩技术,通过识别重复内容,进行去重,并在对应的存储位置留下指针来最小化数据量;这个指针通过给定大小的数据模式进行哈希创建。目前只有少数主存储阵列提供重复数据删除作为产品的附加功能;对于租用云空间的用户来说,大量重复数据充斥在云空间内,不仅对检索造成麻烦,还浪费了宝贵的云资源,产生额外开销,据报道,只有不到5%的磁盘阵列真正支持在线重复数据删除与压缩,通过数据去重节约的空间十分可观。要进行重复数据的删除,首先要检索出新写入文件在整个存储系统中与哪一个文件相似,从而输出相似度,已决定是否进行精细对比,这种做法对系统的开销极大,同时随着存储空间内文件的增加,运算将越来越耗时,不利于大量文件的周转,而且,仅仅用相似度作为判断依据是有缺陷的,因为相似度还会受到抽样方法和抽样大小的影响。为解决这种需求,本发明提出一种云存储中重复数据删除的检索算法,解决了抽样对相似度的影响。
发明内容
针对重复数据在云空间中,对检索造成麻烦,还浪费了宝贵的云资源,产生额外开销以及为了解决抽样对相似度的影响,本发明提出了一种云存储中重复数据删除的检索算法。
本发明为了实现上述目的所采用的技术方案:对存储空间内的文件进行分块,并随机抽取部分数据块作为样本,对样本数据进行哈希,提取指纹特征,计算不同文件样本之间的相似度,相似度结合抽样大小,建立系统文件之间重复率函数,通过重复率设定的阈值来判断文件之间的重复情况,选取对比文件,对其余文件冗余的数据块进行删除处理,建立索引并进行存储,在提取文件时候依据索引和对比文件,重构出数据。
本发明的有益效果:本发明对系统开销较小,运行时间短,并且维持较高的重复删除率。更适用于大量数据存储和云存储环境下使用。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚,以下是本发明技术方案的具体计算步骤过程:
步骤1.指纹数据值得是文件分块后,对每一个文件块哈希,对应的哈希值即为指纹。
步骤2.计算不同文件样本之间的相似度,其具体求解过程如下:
设在存储空间中有文件P将他们按照字长分为n个文件块,对每一个文件块进行哈希,输出哈希值的集合AP,AP=(aP1,aP2,…,aPn);同理,对于文件Q则有:AQ=(aQ1,aQ2,…,aQn)
如果:APi=aQi,表示两个文件块相同,那么在文件P/Q中,具有相同块的数量可以表示为:∑imin(APi,aQi)两个文件的总块数为:∑imax(APi,aQi),那么令r表示两个文件之间的相似度,则:
但是,如果这样去判定,在大数据环境和云存储环境下,明显是不可行的,因为计算量太大,引起的系统开销大,而且耗时长。
所以在相似度的计算上,本发明采用抽样处理:在文件P哈希值的集合AP=(aP1,aP2,…,aPn),随机抽取u个样本放入集合U中UP=(aP1,aP2,…,aPu),1<u<n,对文件Q做同样处理,可以得到样本的相似度为:
步骤3.相似度结合抽样大小,建立系统文件之间重复率函数,其具体求解过程如下:
由于抽样计算,系统的运算时间和占用率都大为缩小,但是r并不能准确表示表示文件Q,P之间的相似性。由此,文件P在分为n个文件块,哈希后得到n个哈希值,也就是n个文件指纹,设m表示冗余块,k是从n个文件指纹中抽取出来的样品文件指纹数,当从文件块中抽取一定数目的哈希时,有概率(c)抽取到冗余块,那么抽取到冗余数据块的概率符合离散型随机变量分布规律,故抽取到冗余块的期望(E)为:
由此可得样本冗余度为t:
抽样样本相似度r:
在理想状态下,抽样数目最大可以等于文件总数,此时冗余度和相似度为
所以,而文件之间的重复率f(k,r),则有:
f(k,r)=E/m=(2k·r)/((r+1)·m)
在本发明方法中,是以文件为单位抽样的,分别从每个文件中抽取部分块的哈希指纹以实现相似度检测,在运行实际中,数据集中每个文件的大小不同,假设系统中共有l个文件在对第j个文件进行抽样的时候则有:
fj(k,rj)=E/m=(2k·rj)/((rj+1)·mj)
所以,对于整个系统则有:
其中,1≤j≤l
步骤4.通过重复率设定的阈值来判断文件之间的重复情况以及通过对比文件来重构数据,其具体描述过程如下:
系统文件之间重复率函数计算的是写入文件与存储空间内的文件或者是存储空间内文件之间的重复率,重复率越大,则说明两个文件之间的冗余越多。
在初次运行程序时候,会在存储空间所有文件之间进行一次对比,设定一个重复率的阈值δ,0≤δ≤1,对于两两重复率值都大于δ的,则认为几个文件之间重复率大,需要进行删重处理,选取其中一个文件作为基准文件,然后对其他文件遍历所有指纹块,快速找出冗余块,重复的数据直接舍弃,只记录下索引信息。在首次运行时候,受文件的多少影响,首次运行时间花费大于后续写入文件。
后续写入新文件时候,只需要抽样查找新文件与系统中文件的指纹信息,计算重复性,在与某个文件的f值大于δ时候停下,然后精确对比,舍弃新写入文件的冗余部分,只将索引信息和不同的信息块上传至云空间或者其他存储空间。
提取信息的时候,只需要根据索引文件和对比文件,快速恢复文件。
Claims (5)
1.一种云存储中重复数据删除的检索算法,该方法涉及计算机存储、云存储中
重复数据的删除及检索领域,其特征是,包括如下步骤,
步骤1.先对存储空间内的文件进行分块,并随机抽取部分数据块作为样本,对样本数据进行哈希,提取指纹特征
步骤2.计算不同文件样本之间的相似度
步骤3.相似度结合抽样大小,建立系统文件之间重复率函数
步骤4. 根据阔值判定文件重复率以及通过文件对比来达到重构数据的目的。
2.根据权利要求1中所述的一种云存储中重复数据删除的检索算法,其特征是,所述的步骤1中提取指纹特征,指纹数据值是文件分块后,对每一个文件块哈希,对应的哈希值即为指纹。
3.根据权利要求1中所述的一种云存储中重复数据删除的检索算法,其特征是,
所述的步骤2中计算不同文件样本之间的相似度,其具体求解过程如下:
设在存储空间中有文件P将他们按照字长分为n个文件块,对每一个文件块进行哈希,输出哈希值的集合,;同理,对于文件Q则有:如果:,表示两个文件块相同,那么在文件P/Q中,具有相同块的数量可以表示为:两个文件的总块数为:,那么令r表示两个文件之间的相似度,则:
但是,如果这样去判定,在大数据环境和云存储环境下,明显是不可行的,因为计算量太大,引起的系统开销大,而且耗时长
所以在相似度的计算上,本发明采用抽样处理:在文件P哈希值的集合
,随机抽取u个样本放入集合U中
,1<u<n,对文件Q做同样处理,可以得到样本的相似度为:
。
4.根据权利要求1中所述的一种云存储中重复数据删除的检索算法,其特征是,
所述的步骤3中建立系统文件之间重复率函数为:
其中,,表示重复率,其值,是第j个文件的样品相似度,m表示冗余块,k是从n个文件指纹中抽取出来的样品文件指纹数。
5.根据权利要求1中所述一种云存储中重复数据删除的检索算法,其特征是,所
述的步骤4中根据阔值判定文件重复率以及通过文件对比来达到重构数据的目的,其具体描述过程如下:
设定一个重复率的阈值,,对于两两重复率值都大于的,选取其中一个文件作为基准文件,然后对其它文件遍历所有指纹块,快速找出冗余块,重复的数据直接舍弃,只记录下索引信息;后续写入新文件时候,抽样查找新文件与系统中文件的指纹信息,计算重复率,在与某个文件的值大于时候停下,然后精确对比,舍弃新写入文件的冗余部分,只将索引信息和不同的信息块上传至云空间或者其他存储空间。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610411080.9A CN106611035A (zh) | 2016-06-12 | 2016-06-12 | 一种云存储中重复数据删除的检索算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610411080.9A CN106611035A (zh) | 2016-06-12 | 2016-06-12 | 一种云存储中重复数据删除的检索算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106611035A true CN106611035A (zh) | 2017-05-03 |
Family
ID=58615045
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610411080.9A Pending CN106611035A (zh) | 2016-06-12 | 2016-06-12 | 一种云存储中重复数据删除的检索算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106611035A (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256003A (zh) * | 2017-12-29 | 2018-07-06 | 天津南大通用数据技术股份有限公司 | 一种根据分析数据重复率提高union运算效率的方法 |
CN108280628A (zh) * | 2018-02-01 | 2018-07-13 | 泰康保险集团股份有限公司 | 基于区块链技术的核赔方法、装置、介质及电子设备 |
CN109165202A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种多源异构大数据的预处理方法 |
CN110134547A (zh) * | 2019-04-28 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种基于中间件的重复数据删除方法和相关装置 |
CN111522502A (zh) * | 2019-02-01 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 数据去重方法、装置、电子设备及计算机可读存储介质 |
CN112181584A (zh) * | 2019-07-02 | 2021-01-05 | 国际商业机器公司 | 优化用于容器仓库的镜像重构 |
CN112667144A (zh) * | 2019-10-16 | 2021-04-16 | 北京白山耘科技有限公司 | 数据块构建及比较方法、装置、介质及设备 |
CN113064556A (zh) * | 2021-04-29 | 2021-07-02 | 山东英信计算机技术有限公司 | 一种bios的数据存储方法、装置、设备及存储介质 |
WO2021226875A1 (en) * | 2020-05-13 | 2021-11-18 | Paypal, Inc. | Customized data scanning in heterogeneous data storage environment |
CN113672170A (zh) * | 2021-07-23 | 2021-11-19 | 复旦大学附属肿瘤医院 | 一种冗余数据标记及去除方法 |
CN113849807A (zh) * | 2021-08-18 | 2021-12-28 | 北京市大数据中心 | 基于私有云的数据安全开放沙箱 |
CN114138414A (zh) * | 2021-12-02 | 2022-03-04 | 国汽大有时空科技(安庆)有限公司 | 一种容器镜像的增量压缩方法及系统 |
CN114154998A (zh) * | 2021-10-25 | 2022-03-08 | 深圳劲嘉集团股份有限公司 | 一种包装二维码处理方法、系统及存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103714123A (zh) * | 2013-12-06 | 2014-04-09 | 西安工程大学 | 企业云存储分块对象重复数据删除和重组版本控制方法 |
CN105487818A (zh) * | 2015-11-27 | 2016-04-13 | 清华大学 | 针对云存储系统中重复冗余数据的高效去重方法 |
US9336260B2 (en) * | 2013-10-16 | 2016-05-10 | Netapp, Inc. | Technique for global deduplication across datacenters with minimal coordination |
-
2016
- 2016-06-12 CN CN201610411080.9A patent/CN106611035A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9336260B2 (en) * | 2013-10-16 | 2016-05-10 | Netapp, Inc. | Technique for global deduplication across datacenters with minimal coordination |
CN103714123A (zh) * | 2013-12-06 | 2014-04-09 | 西安工程大学 | 企业云存储分块对象重复数据删除和重组版本控制方法 |
CN105487818A (zh) * | 2015-11-27 | 2016-04-13 | 清华大学 | 针对云存储系统中重复冗余数据的高效去重方法 |
Non-Patent Citations (1)
Title |
---|
杨磊等: "云存储中一种基于文件相似度的抽样重删索引算法", 《小型微型计算机系统》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108256003A (zh) * | 2017-12-29 | 2018-07-06 | 天津南大通用数据技术股份有限公司 | 一种根据分析数据重复率提高union运算效率的方法 |
CN108280628A (zh) * | 2018-02-01 | 2018-07-13 | 泰康保险集团股份有限公司 | 基于区块链技术的核赔方法、装置、介质及电子设备 |
CN109165202A (zh) * | 2018-07-04 | 2019-01-08 | 华南理工大学 | 一种多源异构大数据的预处理方法 |
CN111522502B (zh) * | 2019-02-01 | 2022-04-29 | 阿里巴巴集团控股有限公司 | 数据去重方法、装置、电子设备及计算机可读存储介质 |
CN111522502A (zh) * | 2019-02-01 | 2020-08-11 | 阿里巴巴集团控股有限公司 | 数据去重方法、装置、电子设备及计算机可读存储介质 |
CN110134547A (zh) * | 2019-04-28 | 2019-08-16 | 平安科技(深圳)有限公司 | 一种基于中间件的重复数据删除方法和相关装置 |
CN110134547B (zh) * | 2019-04-28 | 2023-08-18 | 平安科技(深圳)有限公司 | 一种基于中间件的重复数据删除方法和相关装置 |
CN112181584A (zh) * | 2019-07-02 | 2021-01-05 | 国际商业机器公司 | 优化用于容器仓库的镜像重构 |
CN112181584B (zh) * | 2019-07-02 | 2024-09-10 | 国际商业机器公司 | 优化用于容器仓库的镜像重构 |
CN112667144A (zh) * | 2019-10-16 | 2021-04-16 | 北京白山耘科技有限公司 | 数据块构建及比较方法、装置、介质及设备 |
WO2021226875A1 (en) * | 2020-05-13 | 2021-11-18 | Paypal, Inc. | Customized data scanning in heterogeneous data storage environment |
US11755571B2 (en) | 2020-05-13 | 2023-09-12 | Paypal, Inc. | Customized data scanning in a heterogeneous data storage environment |
CN113064556A (zh) * | 2021-04-29 | 2021-07-02 | 山东英信计算机技术有限公司 | 一种bios的数据存储方法、装置、设备及存储介质 |
CN113672170A (zh) * | 2021-07-23 | 2021-11-19 | 复旦大学附属肿瘤医院 | 一种冗余数据标记及去除方法 |
CN113849807A (zh) * | 2021-08-18 | 2021-12-28 | 北京市大数据中心 | 基于私有云的数据安全开放沙箱 |
CN114154998A (zh) * | 2021-10-25 | 2022-03-08 | 深圳劲嘉集团股份有限公司 | 一种包装二维码处理方法、系统及存储介质 |
CN114138414A (zh) * | 2021-12-02 | 2022-03-04 | 国汽大有时空科技(安庆)有限公司 | 一种容器镜像的增量压缩方法及系统 |
CN114138414B (zh) * | 2021-12-02 | 2023-08-15 | 国汽大有时空科技(安庆)有限公司 | 一种容器镜像的增量压缩方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106611035A (zh) | 一种云存储中重复数据删除的检索算法 | |
US9727573B1 (en) | Out-of core similarity matching | |
US11627207B2 (en) | Systems and methods for data deduplication by generating similarity metrics using sketch computation | |
CN108089816B (zh) | 一种基于负载均衡的查询式重复数据删除方法及装置 | |
US20120303595A1 (en) | Data restoration method for data de-duplication | |
US9183218B1 (en) | Method and system to improve deduplication of structured datasets using hybrid chunking and block header removal | |
US10838923B1 (en) | Poor deduplication identification | |
US8756249B1 (en) | Method and apparatus for efficiently searching data in a storage system | |
CN108804661B (zh) | 一种云存储系统中基于模糊聚类的重复数据删除方法 | |
CN108415671B (zh) | 一种面向绿色云计算的重复数据删除方法及系统 | |
CN106980680B (zh) | 数据存储方法及存储设备 | |
CN110569245A (zh) | 重复数据删除系统中基于强化学习的指纹索引预取方法 | |
CN114281989B (zh) | 基于文本相似度的数据去重方法、装置及存储介质和服务器 | |
US11995050B2 (en) | Systems and methods for sketch computation | |
CN106990914B (zh) | 数据删除方法及装置 | |
US20210191640A1 (en) | Systems and methods for data segment processing | |
Viji et al. | Comparative analysis for content defined chunking algorithms in data deduplication | |
Kumar et al. | Genetic optimized data deduplication for distributed big data storage systems | |
Sharma et al. | File-level Deduplication by using text files–Hive integration | |
Vikraman et al. | A study on various data de-duplication systems | |
CN111177092A (zh) | 一种基于纠删码的重复数据删除方法及装置 | |
CN110647585A (zh) | 一种起到自动筛选和备份功能的数据部署系统 | |
Abdulsalam et al. | Evaluation of Two Thresholds Two Divisor Chunking Algorithm Using Rabin Finger print, Adler, and SHA1 Hashing Algorithms | |
Jehlol et al. | Enhancing Deduplication Efficiency Using Triple Bytes Cutters and Multi Hash Function. | |
Majed et al. | Cloud based industrial file handling and duplication removal using source based deduplication technique |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170503 |
|
WD01 | Invention patent application deemed withdrawn after publication |