CN106227901A - 一种基于重删与压缩并行的空间节省方法 - Google Patents

一种基于重删与压缩并行的空间节省方法 Download PDF

Info

Publication number
CN106227901A
CN106227901A CN201610830385.3A CN201610830385A CN106227901A CN 106227901 A CN106227901 A CN 106227901A CN 201610830385 A CN201610830385 A CN 201610830385A CN 106227901 A CN106227901 A CN 106227901A
Authority
CN
China
Prior art keywords
data block
verification
heavily
saving
weak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610830385.3A
Other languages
English (en)
Inventor
吴丙涛
王志华
徐艳秋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou Yunhai Information Technology Co Ltd
Original Assignee
Zhengzhou Yunhai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou Yunhai Information Technology Co Ltd filed Critical Zhengzhou Yunhai Information Technology Co Ltd
Priority to CN201610830385.3A priority Critical patent/CN106227901A/zh
Publication of CN106227901A publication Critical patent/CN106227901A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于重删与压缩并行的空间节省方法,其具体实现过程为:首先对数据文件划分成数据块,对数据块进行弱校验;弱校验相同后再进行强校验,对强校验相同数据块做重删处理;对弱校验相同、强校验不同的数据块合并后进行压缩处理。该一种基于重删与压缩并行的空间节省方法与现有技术相比,通过弱校验,强校验对相同/相似数据块进行删除/压缩处理,有效降低了后端存储空间,提高了对存储硬盘的利用率,实用性强,适用范围广泛,易于推广。

Description

一种基于重删与压缩并行的空间节省方法
技术领域
本发明涉及计算机数据存储技术领域,具体地说是一种实用性强、基于重删与压缩并行的空间节省方法。
背景技术
大数据时代信息数据迅速的增长趋势,需要更多的后端存储空间,无形的增加了企业的运营成本。这么大的数据量大部分来自于数据冗余,这些数据占用了大量的磁盘空间,当进行数据备份或者数据库归档时,会产生大量的重复数据,这些重复数据会导致存储空间急速上升,同时也会影响系统的传输带宽。传统的重删软件大多数是对相同的数据块或者文件进行删除,而忽略了对相似的数据块或文件的处理。
针对上述问题,本发明设计了一种基于重删与压缩并行的空间节省方法,其主要功能为在原有的相同数据块删除的基础上,对相似的数据块进行合并压缩,弥补了传统重删系统对相似数据块的处理短板。
发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、基于重删与压缩并行的空间节省方法。
一种基于重删与压缩并行的空间节省方法,其具体实现过程为:
步骤一、首先对数据文件划分成数据块,对数据块进行弱校验;
步骤二、弱校验相同后再进行强校验,对强校验相同数据块做重删处理;
步骤三、对弱校验相同、强校验不同的数据块合并后进行压缩处理。
所述步骤一的具体过程为:
首先将数据文件按照m大小划分成多个块,这里的m取值范围为4K-1M;
然后创建n个不同的hash弱校验函数以及n大小的位图,这里的n取值范围为3-10;
创建n个线程,每个线程对数据块进行hash弱校验,匹配成功将位图的对应位置为1,否则置为0。
所述步骤二的具体过程为:
对弱校验匹配都成功的数据块,进行MD5强校验,对强校验匹配成功数据块进行重删处理,同时记录重删后数据块物理位置,方便以后根据该位置重定位原来数据块。
循环匹配所有的数据块,重删完所有MD5强校验匹配成功的数据块。
所述步骤三的具体过程为:
当存在至少一个弱校验匹配成功、强校验匹配不成功的数据块时,对其进行合并处理,同时记录好每个数据块相对合并后数据块的偏移量,对合并后数据块进行压缩处理,同时记录压缩后数据块物理位置,方便以后根据该位置以及偏移量重定位原来数据块。
本发明的一种基于重删与压缩并行的空间节省方法,具有以下优点:
本发明的一种基于重删与压缩并行的空间节省方法,通过弱校验,强校验对相同/相似数据块进行删除/压缩处理,有效降低了后端存储空间,提高了对存储硬盘的利用率,在原有的相同数据块删除的基础上,对相似的数据块进行合并压缩,弥补了传统重删系统对相似数据块的处理短板,又避免了采用全部压缩、反压缩占用大量CPU、内存的缺陷,从而有效的提高了存储空间利用率,降低了对资源的占用率,节省了企业运营成本,实用性强,适用范围广泛,易于推广。
附图说明
附图1为本发明的实现流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步说明。
如附图1所示,本发明提出本发明提出一种基于重删与压缩并行的空间节省方法,其主要功能为在原有的相同数据块删除的基础上,对相似的数据块进行合并压缩,弥补了传统重删系统对相似数据块的处理短板,又避免了采用全部压缩、反压缩占用大量CPU、内存的缺陷,从而有效的提高了存储空间利用率,降低了对资源的占用率,节省了企业运营成本。
其具体实现过程为:
步骤一、首先对数据文件划分成数据块,对数据块进行弱校验;
步骤二、弱校验相同后再进行强校验,对强校验相同数据块做重删处理;
步骤三、对弱校验相同、强校验不同的数据块合并后进行压缩处理。
所述步骤一的具体过程为:
首先将数据文件按照m大小划分成多个块,这里的m取值范围为4K-1M;
然后创建n个不同的hash弱校验函数以及n大小的位图,这里的n取值范围为3-10;
创建n个线程,每个线程对数据块进行hash弱校验,匹配成功将位图的对应位置为1,否则置为0。
所述步骤二的具体过程为:
对弱校验匹配都成功的数据块,进行MD5强校验,对强校验匹配成功数据块进行重删处理,同时记录重删后数据块物理位置,方便以后根据该位置重定位原来数据块。
循环匹配所有的数据块,重删完所有MD5强校验匹配成功的数据块。
所述步骤三的具体过程为:
当存在至少一个弱校验匹配成功、强校验匹配不成功的数据块时,对其进行合并处理,同时记录好每个数据块相对合并后数据块的偏移量,对合并后数据块进行压缩处理,同时记录压缩后数据块物理位置,方便以后根据该位置以及偏移量重定位原来数据块。
本发明提供的方法支持文件块级别的重删、压缩来实现空间的节省;对于相同数据块进行重删处理;对于相似数据块合并后,进行压缩处理,实用性强。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种基于重删与压缩并行的空间节省方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。

Claims (4)

1.一种基于重删与压缩并行的空间节省方法,其特征在于,其具体实现过程为:
步骤一、首先对数据文件划分成数据块,对数据块进行弱校验;
步骤二、弱校验相同后再进行强校验,对强校验相同数据块做重删处理;
步骤三、对弱校验相同、强校验不同的数据块合并后进行压缩处理。
2.根据权利要求1所述的一种基于重删与压缩并行的空间节省方法,其特征在于,所述步骤一的具体过程为:
首先将数据文件按照m大小划分成多个块,这里的m取值范围为4K-1M;
然后创建n个不同的hash弱校验函数以及n大小的位图,这里的n取值范围为3-10;
创建n个线程,每个线程对数据块进行hash弱校验,匹配成功将位图的对应位置为1,否则置为0。
3.根据权利要求1所述的一种基于重删与压缩并行的空间节省方法,其特征在于,所述步骤二的具体过程为:
对弱校验匹配都成功的数据块,进行MD5强校验,对强校验匹配成功数据块进行重删处理,同时记录重删后数据块物理位置,方便以后根据该位置重定位原来数据块;
循环匹配所有的数据块,重删完所有MD5强校验匹配成功的数据块。
4.根据权利要求1所述的一种基于重删与压缩并行的空间节省方法,其特征在于,所述步骤三的具体过程为:
当存在至少一个弱校验匹配成功、强校验匹配不成功的数据块时,对其进行合并处理,同时记录好每个数据块相对合并后数据块的偏移量,对合并后数据块进行压缩处理,同时记录压缩后数据块物理位置,方便以后根据该位置以及偏移量重定位原来数据块。
CN201610830385.3A 2016-09-19 2016-09-19 一种基于重删与压缩并行的空间节省方法 Pending CN106227901A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610830385.3A CN106227901A (zh) 2016-09-19 2016-09-19 一种基于重删与压缩并行的空间节省方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610830385.3A CN106227901A (zh) 2016-09-19 2016-09-19 一种基于重删与压缩并行的空间节省方法

Publications (1)

Publication Number Publication Date
CN106227901A true CN106227901A (zh) 2016-12-14

Family

ID=58075735

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610830385.3A Pending CN106227901A (zh) 2016-09-19 2016-09-19 一种基于重删与压缩并行的空间节省方法

Country Status (1)

Country Link
CN (1) CN106227901A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107508602A (zh) * 2017-09-01 2017-12-22 郑州云海信息技术有限公司 一种数据压缩方法、系统及其cpu处理器
CN108574787A (zh) * 2017-03-09 2018-09-25 柯尼卡美能达株式会社 图像形成装置
CN109032990A (zh) * 2018-07-27 2018-12-18 郑州云海信息技术有限公司 一种pcie芯片及pcie系统
CN110018985A (zh) * 2017-11-08 2019-07-16 阿里巴巴集团控股有限公司 快照删除方法、装置及系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102156727A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种采用双指纹哈希校验的重复数据删除方法
US8078794B2 (en) * 2000-01-06 2011-12-13 Super Talent Electronics, Inc. Hybrid SSD using a combination of SLC and MLC flash memory arrays
CN102460371A (zh) * 2009-04-30 2012-05-16 网络存储技术公司 基于闪存的数据档案存储系统
CN103034659A (zh) * 2011-09-29 2013-04-10 国际商业机器公司 一种重复数据删除的方法和系统
CN103970852A (zh) * 2014-05-06 2014-08-06 浪潮电子信息产业股份有限公司 一种备份服务器的数据重删方法
CN105162855A (zh) * 2015-08-18 2015-12-16 浪潮(北京)电子信息产业有限公司 增量数据同步方法和装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8078794B2 (en) * 2000-01-06 2011-12-13 Super Talent Electronics, Inc. Hybrid SSD using a combination of SLC and MLC flash memory arrays
CN102460371A (zh) * 2009-04-30 2012-05-16 网络存储技术公司 基于闪存的数据档案存储系统
CN102156727A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种采用双指纹哈希校验的重复数据删除方法
CN103034659A (zh) * 2011-09-29 2013-04-10 国际商业机器公司 一种重复数据删除的方法和系统
CN103970852A (zh) * 2014-05-06 2014-08-06 浪潮电子信息产业股份有限公司 一种备份服务器的数据重删方法
CN105162855A (zh) * 2015-08-18 2015-12-16 浪潮(北京)电子信息产业有限公司 增量数据同步方法和装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
马浩: "海量数据快速查找算法及优化", 《电脑开发与应用》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108574787A (zh) * 2017-03-09 2018-09-25 柯尼卡美能达株式会社 图像形成装置
CN107508602A (zh) * 2017-09-01 2017-12-22 郑州云海信息技术有限公司 一种数据压缩方法、系统及其cpu处理器
CN110018985A (zh) * 2017-11-08 2019-07-16 阿里巴巴集团控股有限公司 快照删除方法、装置及系统
CN110018985B (zh) * 2017-11-08 2022-10-28 阿里巴巴集团控股有限公司 快照删除方法、装置及系统
CN109032990A (zh) * 2018-07-27 2018-12-18 郑州云海信息技术有限公司 一种pcie芯片及pcie系统

Similar Documents

Publication Publication Date Title
CN104932841B (zh) 一种云存储系统中节约型重复数据删除方法
CN106227901A (zh) 一种基于重删与压缩并行的空间节省方法
CN101595459B (zh) 用于快速且有效数据管理和/或处理的方法和系统
CN102332029B (zh) 一种基于Hadoop 的海量可归类小文件关联存储方法
US20120303595A1 (en) Data restoration method for data de-duplication
CN103714123B (zh) 企业云存储分块对象重复数据删除和重组版本控制方法
CN103279532B (zh) 多集合元素去重并标识所属集合的过滤系统及其方法
CN109213738B (zh) 一种云存储文件级重复数据删除检索系统及方法
US8719237B2 (en) Method and apparatus for deleting duplicate data
US20150169658A1 (en) Static sorted index replication
WO2013051129A1 (ja) 格納データの重複排除方法、格納データの重複排除装置、及び重複排除プログラム
CN102033924B (zh) 一种数据存储方法和系统
CN110998537B (zh) 一种过期备份处理方法及备份服务器
CN102456059A (zh) 重复数据删除的处理系统
US20130067237A1 (en) Providing random access to archives with block maps
CN101968796B (zh) 一种双向并发执行的文件级可变长数据分块方法
CN105376277A (zh) 一种数据同步方法及装置
WO2014000458A1 (zh) 小文件处理方法及装置
CN102999605A (zh) 一种通过优化数据放置来减少数据碎片的方法和装置
CN104125163A (zh) 一种数据处理方法、装置及终端
CN105893169A (zh) 一种基于纠删码的文件存储方法和系统
CN105824846A (zh) 数据迁移方法及装置
CN105493080B (zh) 基于上下文感知的重复数据删除的方法和装置
CN106990914B (zh) 数据删除方法及装置
US10621158B2 (en) Transaction log tracking

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20161214