CN102156727A - 一种采用双指纹哈希校验的重复数据删除方法 - Google Patents

一种采用双指纹哈希校验的重复数据删除方法 Download PDF

Info

Publication number
CN102156727A
CN102156727A CN 201110082513 CN201110082513A CN102156727A CN 102156727 A CN102156727 A CN 102156727A CN 201110082513 CN201110082513 CN 201110082513 CN 201110082513 A CN201110082513 A CN 201110082513A CN 102156727 A CN102156727 A CN 102156727A
Authority
CN
China
Prior art keywords
data block
data
fingerprint
backed
weak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 201110082513
Other languages
English (en)
Inventor
周可
王桦
黄志刚
金津
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN 201110082513 priority Critical patent/CN102156727A/zh
Publication of CN102156727A publication Critical patent/CN102156727A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Collating Specific Patterns (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提出了一种采用双指纹哈希校验的重复数据删除方法,包括将待备份对象划分成等长的待备份数据块;判断其中一个待备份数据块的弱指纹与服务器中任意一个数据块的弱指纹是否相同,若不同,则对该数据块进行备份;若相同,则判断该数据块的强指纹与服务器中任意一个数据块的强指纹是否相同,若不同,则对该数据块进行备份;对所有待备份数据块均进行上述操作。本发明所述的重复数据删除方法首先采用计算量低的哈希函数对每个数据块进行弱校验,再采用计算量大的哈希函数进行强校验,从而避免全部数据都采用计算量大的哈希函数来校验,大大降低了校验过程中的指纹计算量,提升系列性能,为基于海量数据存储的数据备份提供可观的传输性能。

Description

一种采用双指纹哈希校验的重复数据删除方法
技术领域
本发明属于计算机存储技术和数据备份技术领域,具体涉及一种采用双指纹哈希校验的重复数据删除方法。
背景技术
随着计算机信息化程度的提高,人类社会已经进入信息时代,计算机已深入到社会的各行各业,越来越多的应用和计算机结合起来,人们的工作、生活对于网络的信赖性也越来越强,从而使网络系统及其数据的安全性显得越发重要。同时互联网的无限扩展更加使得数据信息呈几何级数爆炸性增长,图灵奖得主Jim Gray指出:网络环境下每18个月新增的数据量等于有史以来数据量的总和。而企业的一切经营活动几乎都以这些数据为基础的,如此庞大的数据量对海量信息存储系统的可靠性提出了很大的要求。而确保数据安全的最佳途径是进行数据备份,现在的主流备份软件也陆续以服务的形式向用户提供备份恢复功能,因此在线数据备份服务成为存储领域的一个热点话题。
调查中发现,云备份作为针对海量信息存储系统的一种备份服务,用户最为关注这种服务的四个方面,那就是安全性、备份速度、经济成本以及操作简便性四个方面。其中的备份速度最能体现用户对这种服务的直观感受,因此设计高效的数据传输机制显得尤为重要。而本发明所提出的双指纹哈希校验的重复数据删除机制着眼于指纹计算方面,能够显著提高系统性能。
对基于PB乃至EB级的海量数据备份来说,如何达到可观的、用户可以接受的备份速度是非常重要的。考虑到如此庞大的数据,必然会存在一定的重复数据,因此会考虑重复数据删除技术(De-duplication),它是一种目前比较流行的存储技术,可对存储容量进行有效优化,它通过删除数据集中重复的数据,只保留其中一份,从而消除冗余数据。
数据指纹是数据块的本质特征,理想状态是每个唯一数据块具有唯一的数据指纹,不同的数据块具有不同的数据指纹。数据块本身往往较大,因此数据指纹的目标是期望以较小的数据表示(如16、32、64、128字节)来区别不同数据块。数据指纹通常是对数据块内容进行相关数学运算获得,从当前研究成果来看Hash函数比较接近于理想目标,比如MD5、SHA1、SHA-256、SHA-512等。另外,还有许多字符串Hash函数也可以用来计算数据块指纹。然而,遗憾的是这些指纹函数都存在碰撞问题,即不同数据块可能会产生相同的数据指纹。相对来说,MD5和SHA1系列的HASH函数具有非常低的碰撞概率,这种概率几乎小于硬盘损坏的概率,因此通常被采用作为指纹计算方法。其中,MD5是128位的,SHA1是160位的,SHA-X(X表示位数)则具有更低的碰撞发生概率,但同时计算量也会大大增加。因此实际操作中,必须在性能和数据安全性两个指标中做一个权衡,因为指纹的位数越多,计算量就越大,相对的指纹碰撞的概率就越低。
从纯数学角度看,如果两个数据块指纹不同,则这两个数据块肯定不同。然而,如果两个数据块指纹相同,则不能断定这两个数据块是相同的,因为Hash函数会产生碰撞。针对这种问题,目前主要有两种解决路径:一是对数据指纹相同的块进行字节级比对,这种情况能百分百防止碰撞,但是花在比对上的开销是最大的;二是最大可能降低碰撞产生的概率,即采用更优的Hash函数(如MD5-128、SHA-512、SHA-1024),它可以对一段任意长度的数据/信息产生一个同定比特位(128bits、512bits、1024bits)的信息摘要,这在理论上已经证明是非常安全的,但是它的计算量也比较庞大,特别是对于海量数据存储系统来说,对所有数据块采用这种校验方式,将会耗费大量时间。
对基于定长分块的重复数据删除技术来说,传统的技术是采用单一函数进行哈希运算,得出一个同定长度的指纹。若是指纹位数较小,则数据块检索时发生碰撞的概率就很高;若是指纹位数较大,相应的发生碰撞的概率就低,也就会花费更多的运算量。并且对基于KB级别的定长分块来说,块的数量是很庞大的,进而导致更加复杂的运算量。实际应用中,为达到较低的碰撞概率,会选用计算量较高的哈希函数进行指纹运算以降低数据块检索碰撞的概率,同时这也大大增加了数据块指纹的计算量。
发明内容
本发明提出了一种采用双指纹哈希校验的重复数据删除方法,目的在于在备份过程中从整体上减少数据指纹的计算量,提升系列性能,为基于海量数据存储的数据备份提供可观的传输性能。
本发明提供了一种采用双指纹哈希校验的重复数据删除方法,包括以下步骤:
(1)将待备份对象划分成等长的待备份数据块;
(2)选取一个待备份数据块;
(3)判断该待备份数据块的弱指纹与服务器中任意一个数据块的弱指纹是否相同,若相同,则进入步骤(4);若不同,则对该数据块进行备份,转入步骤(5);
(4)判断该待备份数据块的强指纹与服务器中任意一个数据块的强指纹是否相同,若相同,则进入步骤(5);若不同,则对该数据块进行备份,进入步骤(5);
(5)重复步骤(2)到(4),遍历步骤(1)中划分的所有待备份数据块。
进一步的,所述弱指纹为使用第一个哈希函数计算待备份数据块得到的结果,所述强指纹为使用第二个哈希函数计算待备份数据块得到的结果,第一个哈希函数的计算量低于第二个哈希函数的计算量。
进一步的,所述步骤(3)中首先判断服务器的索引表中是否存在任意一条记录的主索引与该待备份数据块的弱指纹相同,若存在,直接进入步骤(4);若不存在,则将该待备份数据块备份到服务器,在索引表中添加该待备份数据块的记录,并标记该待备份数据块的主索引为该弱指纹,次索引为空,转入步骤(5)。
进一步的,步骤(4)包括以下过程:
(4.1)判断服务器的索引表中是否存在任意一条记录的主索引与待备份数据块的弱指纹相同且次索引为空,若存在,使用第二个哈希函数计算该条记录所对应的数据块,并将计算结果标记为该条记录的次索引,进入步骤(4.2);若不存在,直接进入步骤(4.2);
(4.2)判断服务器的索引表中是否存在任意一条记录的主索引与该待备份数据块的弱指纹相同且次索引与该待备份数据块的强指纹相同,若存在,则在索引表中添加该待备份数据块的记录,标记该待备份数据块为重复数据,主索引为弱指纹,次索引为强指纹,进入步骤(5);若不存在,则将该待备份数据块备份到服务器,在索引表中添加该待备份数据块的记录,并标记该待备份数据块的主索引为弱指纹,次索引为强指纹,进入步骤(5)。
本发明采用运算量相差较大的两个哈希函数,首先采用计算量低的第一个哈希函数对每个数据块进行校验,很快的判断出哪些数据块是重复数据,哪些数据块不是重复数据;其次对于上述步骤判断出的重复数据,再采用计算量大的第二个哈希函数来判断其是否真正为重复数据,从而避免全部数据都采用计算量大的第二个哈希函数来校验,大大降低了校验过程中的指纹计算量。本发明所述的方法特别适用于重复数据比例不高的场合,能更好的达到节省计算开销的目的。
附图说明
图1为本发明涉及的备份系统的架构图;
图2为本发明涉及的备份系统数据备份过程图;
图3为本发明所述的重复数据删除方法流程图。
具体实施方式
本发明基于双指纹校验的备份机制,在数据定长分块的基础上,利用重复数据局部存在的特性,加入双指纹哈希校验,对重复数据进行删除,从而减少数据指纹的计算量。双指纹哈希校验旨在对指纹计算做出优化,即采用弱校验(计算量低)和强校验(计算量高),先利用前者进行筛选,发生碰撞以后再利用后者进行计算。所谓弱校验是可能不同的数据块会得到相同的校验值,强校验就是保证不同的数据块一定得不到相同的校验值,通过弱校验计算出的校验值称为弱指纹,通过强校验计算出的校验值称为强指纹。这里弱校验只是一个过滤器,将大部分不可能匹配的数据块过滤掉,以阻挡没有意义的强校验值计算。从而通过弱校验,非重复数据只需要花很少的时间计算一个弱指纹,而对于重复数据,则需要计算弱、强两个指纹。
本发明所述的重复数据删除方法,涉及客户端与服务器,客户端发起向服务器备份数据的请求,服务器以数据块的弱指纹和/或强指纹为索引来保存数据块。服务器建立索引表来存储数据块的信息,其中包括主索引、次索引和地址三个最主要的属性信息。主索引存储数据块的弱指纹,次索引存储数据块的强指纹,地址保存数据块的存储地址。在首次进行数据备份之前,索引表为空,即主索引、次索引、地址等均为空,在数据备份过程中,每处理一个数据块,在索引表中添加一条记录,并标记该数据块的主索引和次索引。在重复数据删除过程中,首先将数据文件分割成多个等长数据块,为每个数据块计算指纹,然后以指纹为关键字进行查找,匹配则表示该数据块在服务器中为重复数据块,此时仅存储该数据块的索引,不对该数据块进行备份,若不匹配,则表示该数据块是一个新的数据块,对该数据块进行备份并保存该数据块的索引。通过此方法,一个数据块在存储系统就对应一个逻辑标识,该逻辑标识即为该数据块的索引。由此可以看出,重复数据删除方法的主要过程包括文件数据块切分、数据块指纹计算和数据块检索等。
对于同等规模的数据量N(PB~EB级别)(重复数据+非重复数据),做如下假设:强校验算法时间复杂度O(m),弱校验算法的时间复杂度O(r),重复数据占整个数据量的比例为x(0<x<1),则没有加入双哈希校验之前的计算量为:N*O(m),加入双哈希校验之后的计算量为:
x*N*(O(m)+O(r))+(1-x)*N*O(r)
则双哈希要想达到效果,则必须满足:
x*N*(O(m)+O(r))+(1-x)*N*O(r)<N*O(m)
解这个不等式得出:
x<(m-r)/m
也就是说,只有当x<(m-r)/m的时候,双指纹哈希校验才真正起到减小计算量的作用,即采用双指纹哈希校验的计算量小于单独采用强校验的计算量。从这个公式可以看出,如果弱校验的算法复杂度是强校验的算法复杂度的一半,即m=2r,则当x<50%时,双指纹哈希校验能够起到减小计算量的作用;如果弱校验的算法复杂度是强校验的算法复杂度的三分之一,即m=3r,则当x<60%时,双指纹哈希校验能够起到减小计算量的作用;由此可见,如果弱校验的算法复杂度与强校验的算法复杂度相差越大,则重复数据比例可以越大,即此双指纹哈希校验的适用范围更宽。事实证明,数据备份中固然存在重复,但全量备份的数据量远大于增量备份的数据量,也就是说不同的数据占大部分,即冲突概率本身就是比较低的,并且在数据分块比较大的情况下,这种概率会更低。本发明提出的双指纹哈希查找的方法也正是基于这样一个事实才提出的。
下面通过具体实施例更加详细的说明本发明的技术方案,本实施例采用的备份存储系统B-Cloud的整体框架如图2所示。该系统的主要组成模块包括存储服务器、备份客户机端、调度服务器、用户控制平台与管理员控制终端五大部分,其中调度服务器主要是负责备份客户机端与存储服务器之间的命令流交互,起总控制台的作用,监控及维护两者之间的通讯;而备份客户机端主要的功能就是接收用户控制平台的命令对本地机器进行操作、进而与存储服务器进行数据备份恢复操作;本发明做的性能优化主要是针对备份客户机端进行。
在该备份存储系统中,通过备份客户机端、调度服务器、存储服务器之间的命令与数据通讯,实现了数据的备份。具体过程如图3所示。当备份客户机端收到用户指定的备份任务命令时,备份客户机端内部会启用三个线程来准备数据传输,分别是生产者线程、消费者线程、进度线程。其中生产线程会从指定的备份对象中读取数据块到缓冲区;消费者线程从缓冲区取数据块,进行双纹哈希校验并判断是否是重复数据,若是重复数据,则只需在已存储的数据块中作相关属性标记;若不是重复数据,则将数据块传输备份到存储服务器;进度线程则时刻记录当前传输的文件及当前所传输的数据块的信息,并及时与调度服务器交互,便于调度服务器实时监控整个备份过程。
本备份系统弱校验采用32位的Adler32校验(定义部分),强校验采用128位的MD5算法,二者的算法复杂度相差3倍以上,代入x<(m-r)/m得到x<66%,即只要备份对象中的重复数据少于66%,本发明所述的重复数据删除方法就可以起到减少计算量的目的。
本系统采用双指纹哈希校验方法后,开始进行数据备份,用户指定备份对象,备份客户机启动两个线程,生产者线程与消费者线程。其中生产者线程以同定长度1MB从备份对象中读取数据块到缓冲区,只要缓冲区未满,生产者线程不会结束;消费者线程从缓冲区取出数据进行重复数据删除,只要缓冲区不为空,消费者线程就不退出。
重复数据删除的过程如图3所示,步骤如下;
(1)备份客户机将用户指定的备份对象按照1MB大小切分成若干个等长的待备份数据块到,待备份数据块划分的越小,本方法所带来的效果就越明显,即可节省更多的计算开销。
(2)选择第一哈希函数Adler32和第二哈希函数MD5。
(3)任意取其中一个待备份数据块,利用Adler32函数对其计算,得出弱指纹。
(4)备份客户机将弱指纹发送到存储服务器,存储服务器利用弱指纹在所有主索引中查找,即判断索引表中是否存在任意一条记录的主索引与该弱指纹相同,若查找失败,则该数据块为非重复数据,备份客户机将该数据块备份到存储服务器,存储服务器在索引表中添加该待数据块的记录,并标记该待数据块的主索引为该弱指纹,次索引为空,转入步骤(8);若查找成功,则进入步骤(5)。
(5)存储服务器将查找成功的消息发送给备份客户机,备份客户机收到消息后,利用MD5函数对该数据块计算强指纹。
(6)备份客户机将强指纹发送到存储服务器,存储服务器在主索引与该数据块的弱指纹相同的所有数据块中判断是否有数据块的次索引为空,若为空,则由存储服务器利用MD5函数对该数据块进行计算,将计算结果标记为该数据块的次索引,进入步骤(7);若不为空,直接进入步骤(7)。
(7)存储服务器利用备份客户机发送的强指纹在主索引相同的次索引中进行查找,即判断索引表中是否存在任意一条记录的主索引与该数据块的弱指纹相同且次索引与该数据块的强指纹相同,若查找失败,则此数据块为非重复数据,备份客户机将此数据块备份到存储服务器,存储服务器在索引表中添加该数据块的记录,并标记该数据块的主索引为弱指纹,次索引为强指纹;若查找成功,则此数据块为重复数据,不对其进行备份,存储服务器在索引表中添加该数据块的记录,标记该数据块为重复数据,主索引为弱指纹,次索引为强指纹。
(8)重复步骤(3)到(7),遍历步骤(1)中划分的所有数据块。
采用上述数据删除方法,大部分数据块只需要经过弱指纹哈希校验就可以直接判定是否为重复数据,即(1-x)*N大小的数据量只须计算弱指纹,而x*N大小的数据量还需要计算强指纹,通常情况下重复数据相对较小,则x较小,因此大部分数据可以直接备份到存储服务器,避免进行强指纹的运算。
表1记录了以数据块的大小为1KB、256KB、512KB、1MB、2MB和4MB作为输入,采用Adler32和MD5算法对各数据块进行指纹计算,各数据块的计算时间。
表1Adler32算法与MD5算法的运行时间(单位:us)
  数据分块   1KB   256KB   512KB   1MB   2MB   4MB
  Adler32   6026.5   10585   13241.9   22049.6   34600.5   62877.4
  MD5   14109.7   18525   21870.6   36416.5   51696.7   91481.7
从表中可以看出,随着数据块的增大,两个算法的计算时间也随之增加,并且,两个算法的运行时间的差距越来越小。这个测试说明了,在数据分块越小的情况下,弱校验算法Adler32与强校验算法MD5运行时间相差越大,也就更适合用本发明所述的数据删除方法。
本发明不仅局限于上述具体实施方式,本领域一般技术人员根据本发明公开的内容,可以采用其它多种具体实施方式实施本发明,因此,凡是采用本发明的设计结构和思路,做一些简单的变化或更改的设计,都落入本发明保护的范围。

Claims (4)

1.一种采用双指纹哈希校验的重复数据删除方法,包括以下步骤:
(1)将待备份对象划分成等长的待备份数据块;
(2)选取一个待备份数据块;
(3)判断该待备份数据块的弱指纹与服务器中任意一个数据块的弱指纹是否相同,若相同,则进入步骤(4);若不同,则对该数据块进行备份,转入步骤(5); 
(4)判断该待备份数据块的强指纹与服务器中任意一个数据块的强指纹是否相同,若相同,则进入步骤(5);若不同,则对该数据块进行备份,进入步骤(5); 
(5)重复步骤(2)到(4),遍历步骤(1)中划分的所有待备份数据块。
2.根据权利要求1所述的重复数据删除方法,其特征在于,所述弱指纹为使用第一个哈希函数计算待备份数据块得到的结果,所述强指纹为使用第二个哈希函数计算待备份数据块得到的结果,第一个哈希函数的计算量低于第二个哈希函数的计算量。
3.根据权利要求1或2所述的重复数据删除方法,其特征在于,所述步骤(3)中首先判断服务器的索引表中是否存在任意一条记录的主索引与该待备份数据块的弱指纹相同,若存在,直接进入步骤(4);若不存在,则将该待备份数据块备份到服务器,在索引表中添加该待备份数据块的记录,并标记该待备份数据块的主索引为该弱指纹,次索引为空,转入步骤(5)。
4.根据权利要求1或2所述的重复数据删除方法,其特征在于,步骤(4)包括以下过程:
(4.1)判断服务器的索引表中是否存在任意一条记录的主索引与待备份数据块的弱指纹相同且次索引为空,若存在,使用第二个哈希函数计算该条记录所对应的数据块,并将计算结果标记为该条记录的次索引,进入步骤(4.2);若不存在,直接进入步骤(4.2);
(4.2)判断服务器的索引表中是否存在任意一条记录的主索引与该待备份数据块的弱指纹相同且次索引与该待备份数据块的强指纹相同,若存在,则在索引表中添加该待备份数据块的记录,标记该待备份数据块为重复数据,主索引为弱指纹,次索引为强指纹,进入步骤(5);若不存在,则将该待备份数据块备份到服务器,在索引表中添加该待备份数据块的记录,并标记该待备份数据块的主索引为弱指纹,次索引为强指纹,进入步骤(5)。
CN 201110082513 2011-04-01 2011-04-01 一种采用双指纹哈希校验的重复数据删除方法 Pending CN102156727A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201110082513 CN102156727A (zh) 2011-04-01 2011-04-01 一种采用双指纹哈希校验的重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201110082513 CN102156727A (zh) 2011-04-01 2011-04-01 一种采用双指纹哈希校验的重复数据删除方法

Publications (1)

Publication Number Publication Date
CN102156727A true CN102156727A (zh) 2011-08-17

Family

ID=44438226

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201110082513 Pending CN102156727A (zh) 2011-04-01 2011-04-01 一种采用双指纹哈希校验的重复数据删除方法

Country Status (1)

Country Link
CN (1) CN102156727A (zh)

Cited By (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102629258A (zh) * 2012-02-29 2012-08-08 浪潮(北京)电子信息产业有限公司 重复数据删除方法和装置
CN102982122A (zh) * 2012-11-13 2013-03-20 浪潮电子信息产业股份有限公司 一种适用于海量存储系统的重复数据删除方法
WO2013080077A1 (en) * 2011-11-28 2013-06-06 International Business Machines Corporation Fingerprint-based data deduplication
CN103152430A (zh) * 2013-03-21 2013-06-12 河海大学 一种缩减数据占用空间的云存储方法
CN103259729A (zh) * 2012-12-10 2013-08-21 上海德拓信息技术有限公司 基于零碰撞散列算法的网络数据精简传输方法
WO2013159582A1 (en) * 2012-04-23 2013-10-31 International Business Machines Corporation Preserving redundancy in data deduplication systems by encryption
CN103428242A (zh) * 2012-05-18 2013-12-04 阿里巴巴集团控股有限公司 一种增量同步的方法、装置及系统
CN103930890A (zh) * 2013-10-30 2014-07-16 华为技术有限公司 数据处理方法、装置及重删处理器
GB2510545A (en) * 2011-11-28 2014-08-06 Ibm Fingerprint-based data deduplication
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
CN104636369A (zh) * 2013-11-07 2015-05-20 北京安码科技有限公司 一种可证明文件所有权的重复数据删除方法
WO2015192452A1 (zh) * 2014-06-17 2015-12-23 深圳市中兴微电子技术有限公司 一种表头压缩方法、解压方法及装置
US9262428B2 (en) 2012-04-23 2016-02-16 International Business Machines Corporation Preserving redundancy in data deduplication systems by designation of virtual address
CN105426413A (zh) * 2015-10-31 2016-03-23 华为技术有限公司 一种编码方法及装置
CN105608235A (zh) * 2016-03-25 2016-05-25 上海爱数信息技术股份有限公司 Oracle数据库中备份数据块的重复数据删除方法及系统
CN105653209A (zh) * 2015-12-31 2016-06-08 浪潮(北京)电子信息产业有限公司 一种对象存储数据传输方法及装置
CN105808169A (zh) * 2016-03-14 2016-07-27 联想(北京)有限公司 用于数据去重的方法、装置和系统
CN105897921A (zh) * 2016-05-27 2016-08-24 重庆大学 一种结合指纹抽样和减少数据碎片的数据块路由方法
CN106227901A (zh) * 2016-09-19 2016-12-14 郑州云海信息技术有限公司 一种基于重删与压缩并行的空间节省方法
CN106293996A (zh) * 2015-05-20 2017-01-04 腾讯科技(深圳)有限公司 数据同步方法、主设备、备份设备和系统
US9547709B2 (en) 2012-04-16 2017-01-17 Hewlett-Packard Development Company, L.P. File upload based on hash value comparison
CN106775452A (zh) * 2016-11-18 2017-05-31 郑州云海信息技术有限公司 一种数据监管方法及系统
CN107066601A (zh) * 2017-04-20 2017-08-18 北京古盘创世科技发展有限公司 文件对比管理方法及系统
US9779103B2 (en) 2012-04-23 2017-10-03 International Business Machines Corporation Preserving redundancy in data deduplication systems
CN107346271A (zh) * 2016-05-05 2017-11-14 华为技术有限公司 备份数据块的方法和灾备端设备
CN107704472A (zh) * 2016-08-09 2018-02-16 华为技术有限公司 一种查找数据块的方法及装置
CN108304503A (zh) * 2018-01-18 2018-07-20 阿里巴巴集团控股有限公司 一种数据的处理方法、装置及设备
CN108415671A (zh) * 2018-03-29 2018-08-17 上交所技术有限责任公司 一种面向绿色云计算的重复数据删除方法及系统
US10133747B2 (en) 2012-04-23 2018-11-20 International Business Machines Corporation Preserving redundancy in data deduplication systems by designation of virtual device
CN109074226A (zh) * 2016-09-28 2018-12-21 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
CN109213738A (zh) * 2018-11-20 2019-01-15 武汉理工光科股份有限公司 一种云存储文件级重复数据删除检索系统及方法
CN111124939A (zh) * 2018-10-31 2020-05-08 深信服科技股份有限公司 一种基于全闪存阵列的数据压缩方法及系统
CN111338581A (zh) * 2020-03-27 2020-06-26 尹兵 基于云计算的数据存储方法、装置、云服务器及系统
US10789003B1 (en) 2019-03-28 2020-09-29 Western Digital Technologies, Inc. Selective deduplication based on data storage device controller status and media characteristics
US10877945B1 (en) * 2013-12-20 2020-12-29 EMC IP Holding Company LLC Optimized block storage for change block tracking systems
CN113535706A (zh) * 2021-08-03 2021-10-22 重庆赛渝深科技有限公司 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法
CN113627132A (zh) * 2021-08-27 2021-11-09 北京智慧星光信息技术有限公司 数据去重标记码生成方法、系统、电子设备及存储介质
CN113674840A (zh) * 2021-08-24 2021-11-19 平安国际智慧城市科技股份有限公司 医学影像共享方法、装置、电子设备及存储介质
CN114691430A (zh) * 2022-04-24 2022-07-01 北京科技大学 一种cad工程数据文件的增量备份方法及系统
CN115052264A (zh) * 2022-08-11 2022-09-13 中国铁道科学研究院集团有限公司电子计算技术研究所 基于多路径筛选的铁路客站无线网络通信方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991779A (zh) * 2005-12-30 2007-07-04 联想(北京)有限公司 基于安全芯片的防病毒方法
CN101136934A (zh) * 2006-11-27 2008-03-05 中兴通讯股份有限公司 异步传输模式适配层类型的自动识别系统
CN101989929A (zh) * 2010-11-17 2011-03-23 中兴通讯股份有限公司 容灾数据备份的方法及系统

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1991779A (zh) * 2005-12-30 2007-07-04 联想(北京)有限公司 基于安全芯片的防病毒方法
CN101136934A (zh) * 2006-11-27 2008-03-05 中兴通讯股份有限公司 异步传输模式适配层类型的自动识别系统
CN101989929A (zh) * 2010-11-17 2011-03-23 中兴通讯股份有限公司 容灾数据备份的方法及系统

Cited By (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2510545A (en) * 2011-11-28 2014-08-06 Ibm Fingerprint-based data deduplication
US11416452B2 (en) 2011-11-28 2022-08-16 International Business Machines Corporation Determining chunk boundaries for deduplication of storage objects
WO2013080077A1 (en) * 2011-11-28 2013-06-06 International Business Machines Corporation Fingerprint-based data deduplication
US10565166B2 (en) 2011-11-28 2020-02-18 International Business Machines Corporation Determining chunk boundaries for deduplication of storage objects in a network computing environment
US10474639B2 (en) 2011-11-28 2019-11-12 International Business Machines Corporation Determining chunk boundaries for deduplication of storage objects
US9047304B2 (en) 2011-11-28 2015-06-02 International Business Machines Corporation Optimization of fingerprint-based deduplication
CN102629258A (zh) * 2012-02-29 2012-08-08 浪潮(北京)电子信息产业有限公司 重复数据删除方法和装置
CN102629258B (zh) * 2012-02-29 2013-12-18 浪潮(北京)电子信息产业有限公司 重复数据删除方法和装置
US9547709B2 (en) 2012-04-16 2017-01-17 Hewlett-Packard Development Company, L.P. File upload based on hash value comparison
US9798734B2 (en) 2012-04-23 2017-10-24 International Business Machines Corporation Preserving redundancy in data deduplication systems by indicator
US9779103B2 (en) 2012-04-23 2017-10-03 International Business Machines Corporation Preserving redundancy in data deduplication systems
US8990581B2 (en) 2012-04-23 2015-03-24 International Business Machines Corporation Preserving redundancy in data deduplication systems by encryption
US8996881B2 (en) 2012-04-23 2015-03-31 International Business Machines Corporation Preserving redundancy in data deduplication systems by encryption
US10152486B2 (en) 2012-04-23 2018-12-11 International Business Machines Corporation Preserving redundancy in data deduplication systems by designation of virtual device
US9824228B2 (en) 2012-04-23 2017-11-21 International Business Machines Corporation Preserving redundancy in data deduplication systems by encryption
WO2013159582A1 (en) * 2012-04-23 2013-10-31 International Business Machines Corporation Preserving redundancy in data deduplication systems by encryption
US9792450B2 (en) 2012-04-23 2017-10-17 International Business Machines Corporation Preserving redundancy in data deduplication systems by encryption
US10133747B2 (en) 2012-04-23 2018-11-20 International Business Machines Corporation Preserving redundancy in data deduplication systems by designation of virtual device
US9262428B2 (en) 2012-04-23 2016-02-16 International Business Machines Corporation Preserving redundancy in data deduplication systems by designation of virtual address
US9268785B2 (en) 2012-04-23 2016-02-23 International Business Machines Corporation Preserving redundancy in data deduplication systems by designation of virtual address
US9767113B2 (en) 2012-04-23 2017-09-19 International Business Machines Corporation Preserving redundancy in data deduplication systems by designation of virtual address
US10691670B2 (en) 2012-04-23 2020-06-23 International Business Machines Corporation Preserving redundancy in data deduplication systems by indicator
CN103428242B (zh) * 2012-05-18 2016-12-14 阿里巴巴集团控股有限公司 一种增量同步的方法、装置及系统
CN103428242A (zh) * 2012-05-18 2013-12-04 阿里巴巴集团控股有限公司 一种增量同步的方法、装置及系统
CN102982122A (zh) * 2012-11-13 2013-03-20 浪潮电子信息产业股份有限公司 一种适用于海量存储系统的重复数据删除方法
CN103259729A (zh) * 2012-12-10 2013-08-21 上海德拓信息技术有限公司 基于零碰撞散列算法的网络数据精简传输方法
CN103259729B (zh) * 2012-12-10 2018-03-02 上海德拓信息技术股份有限公司 基于零碰撞散列算法的网络数据精简传输方法
CN103152430A (zh) * 2013-03-21 2013-06-12 河海大学 一种缩减数据占用空间的云存储方法
CN103152430B (zh) * 2013-03-21 2016-06-08 河海大学 一种缩减数据占用空间的云存储方法
CN103930890B (zh) * 2013-10-30 2015-09-23 华为技术有限公司 数据处理方法、装置及重删处理器
WO2015061995A1 (zh) * 2013-10-30 2015-05-07 华为技术有限公司 数据处理方法、装置及重删处理器
CN103930890A (zh) * 2013-10-30 2014-07-16 华为技术有限公司 数据处理方法、装置及重删处理器
CN104636369A (zh) * 2013-11-07 2015-05-20 北京安码科技有限公司 一种可证明文件所有权的重复数据删除方法
US10877945B1 (en) * 2013-12-20 2020-12-29 EMC IP Holding Company LLC Optimized block storage for change block tracking systems
CN104010042A (zh) * 2014-06-10 2014-08-27 浪潮电子信息产业股份有限公司 一种云服务的重复数据删除的备份机制
WO2015192452A1 (zh) * 2014-06-17 2015-12-23 深圳市中兴微电子技术有限公司 一种表头压缩方法、解压方法及装置
CN106293996B (zh) * 2015-05-20 2019-11-08 腾讯科技(深圳)有限公司 数据同步方法、主设备、备份设备和系统
CN106293996A (zh) * 2015-05-20 2017-01-04 腾讯科技(深圳)有限公司 数据同步方法、主设备、备份设备和系统
CN105426413A (zh) * 2015-10-31 2016-03-23 华为技术有限公司 一种编码方法及装置
WO2017071431A1 (zh) * 2015-10-31 2017-05-04 华为技术有限公司 一种编码方法及装置
US10305512B2 (en) 2015-10-31 2019-05-28 Huawei Technologies, Co., Ltd. Encoding method and apparatus
CN105426413B (zh) * 2015-10-31 2018-05-04 华为技术有限公司 一种编码方法及装置
CN105653209A (zh) * 2015-12-31 2016-06-08 浪潮(北京)电子信息产业有限公司 一种对象存储数据传输方法及装置
CN105808169A (zh) * 2016-03-14 2016-07-27 联想(北京)有限公司 用于数据去重的方法、装置和系统
CN105608235A (zh) * 2016-03-25 2016-05-25 上海爱数信息技术股份有限公司 Oracle数据库中备份数据块的重复数据删除方法及系统
CN105608235B (zh) * 2016-03-25 2018-12-14 上海爱数信息技术股份有限公司 Oracle数据库中备份数据块的重复数据删除方法及系统
CN107346271A (zh) * 2016-05-05 2017-11-14 华为技术有限公司 备份数据块的方法和灾备端设备
CN105897921B (zh) * 2016-05-27 2019-02-26 重庆大学 一种结合指纹抽样和减少数据碎片的数据块路由方法
CN105897921A (zh) * 2016-05-27 2016-08-24 重庆大学 一种结合指纹抽样和减少数据碎片的数据块路由方法
CN107704472B (zh) * 2016-08-09 2020-07-24 华为技术有限公司 一种查找数据块的方法及装置
CN107704472A (zh) * 2016-08-09 2018-02-16 华为技术有限公司 一种查找数据块的方法及装置
CN106227901A (zh) * 2016-09-19 2016-12-14 郑州云海信息技术有限公司 一种基于重删与压缩并行的空间节省方法
CN109074226A (zh) * 2016-09-28 2018-12-21 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
CN109074226B (zh) * 2016-09-28 2020-03-20 华为技术有限公司 一种存储系统中重复数据删除方法、存储系统及控制器
CN106775452A (zh) * 2016-11-18 2017-05-31 郑州云海信息技术有限公司 一种数据监管方法及系统
CN107066601A (zh) * 2017-04-20 2017-08-18 北京古盘创世科技发展有限公司 文件对比管理方法及系统
CN108304503A (zh) * 2018-01-18 2018-07-20 阿里巴巴集团控股有限公司 一种数据的处理方法、装置及设备
CN108415671B (zh) * 2018-03-29 2021-04-27 上交所技术有限责任公司 一种面向绿色云计算的重复数据删除方法及系统
CN108415671A (zh) * 2018-03-29 2018-08-17 上交所技术有限责任公司 一种面向绿色云计算的重复数据删除方法及系统
CN111124939A (zh) * 2018-10-31 2020-05-08 深信服科技股份有限公司 一种基于全闪存阵列的数据压缩方法及系统
CN109213738B (zh) * 2018-11-20 2022-01-25 武汉理工光科股份有限公司 一种云存储文件级重复数据删除检索系统及方法
CN109213738A (zh) * 2018-11-20 2019-01-15 武汉理工光科股份有限公司 一种云存储文件级重复数据删除检索系统及方法
US10789003B1 (en) 2019-03-28 2020-09-29 Western Digital Technologies, Inc. Selective deduplication based on data storage device controller status and media characteristics
CN111338581A (zh) * 2020-03-27 2020-06-26 尹兵 基于云计算的数据存储方法、装置、云服务器及系统
CN113535706B (zh) * 2021-08-03 2023-05-23 佛山赛思禅科技有限公司 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法
CN113535706A (zh) * 2021-08-03 2021-10-22 重庆赛渝深科技有限公司 两阶段布谷鸟过滤器及基于两阶段布谷鸟过滤器的重复数据删除方法
CN113674840A (zh) * 2021-08-24 2021-11-19 平安国际智慧城市科技股份有限公司 医学影像共享方法、装置、电子设备及存储介质
CN113674840B (zh) * 2021-08-24 2023-11-03 深圳平安智慧医健科技有限公司 医学影像共享方法、装置、电子设备及存储介质
CN113627132A (zh) * 2021-08-27 2021-11-09 北京智慧星光信息技术有限公司 数据去重标记码生成方法、系统、电子设备及存储介质
CN113627132B (zh) * 2021-08-27 2024-04-02 智慧星光(安徽)科技有限公司 数据去重标记码生成方法、系统、电子设备及存储介质
CN114691430A (zh) * 2022-04-24 2022-07-01 北京科技大学 一种cad工程数据文件的增量备份方法及系统
CN115052264B (zh) * 2022-08-11 2022-11-22 中国铁道科学研究院集团有限公司电子计算技术研究所 基于多路径筛选的铁路客站无线网络通信方法及装置
CN115052264A (zh) * 2022-08-11 2022-09-13 中国铁道科学研究院集团有限公司电子计算技术研究所 基于多路径筛选的铁路客站无线网络通信方法及装置

Similar Documents

Publication Publication Date Title
CN102156727A (zh) 一种采用双指纹哈希校验的重复数据删除方法
CN101814045B (zh) 一种用于备份服务的数据组织方法
CN101989929B (zh) 容灾数据备份的方法及系统
EP2666111B1 (en) Storing data on storage nodes
CN102222085B (zh) 一种基于相似性与局部性结合的重复数据删除方法
CN104077380B (zh) 一种重复数据删除方法、装置及系统
US20130262412A1 (en) Method and System For Database Transaction Log Compression On SQL Server
CN101963982A (zh) 基于位置敏感哈希的删冗存储系统元数据管理方法
CN103916459A (zh) 一种大数据归档存储系统
CN105354246A (zh) 一种基于分布式内存计算的数据去重方法
US8655847B2 (en) Mirroring data changes in a database system
KR20130048595A (ko) 제한된 리소스 환경에서의 안정적인 중복 데이터 제거 장치 및 방법
CN102467572A (zh) 支持重复数据删除程序的数据区块查询方法
US11836067B2 (en) Hyper-converged infrastructure (HCI) log system
CN104504147A (zh) 一种数据库集群的资源协调方法、装置及系统
CN105095027A (zh) 一种数据备份方法及装置
CN110069670A (zh) 数据归集方法、装置、设备及计算机可读存储介质
CN109947712A (zh) 计算框架内自动合并文件的方法、系统、设备及介质
CN104375905A (zh) 一种基于数据块的增量备份的方法和系统
CN114281989A (zh) 基于文本相似度的数据去重方法、装置及存储介质和服务器
CN104035822A (zh) 一种低开销的高效内存去冗余方法及系统
CN106980618B (zh) 基于MongoDB分布式集群架构的文件存储方法和系统
CN112528327B (zh) 数据脱敏方法及装置、数据还原方法及装置
US20160275134A1 (en) Nosql database data validation
CN103207916A (zh) 元数据处理的方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20110817