CN105630834A - 一种实现重复数据删除的方法及装置 - Google Patents

一种实现重复数据删除的方法及装置 Download PDF

Info

Publication number
CN105630834A
CN105630834A CN201410623909.2A CN201410623909A CN105630834A CN 105630834 A CN105630834 A CN 105630834A CN 201410623909 A CN201410623909 A CN 201410623909A CN 105630834 A CN105630834 A CN 105630834A
Authority
CN
China
Prior art keywords
heavily
data
delete
storage
data block
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410623909.2A
Other languages
English (en)
Other versions
CN105630834B (zh
Inventor
鲁飞
刘煌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201410623909.2A priority Critical patent/CN105630834B/zh
Priority to PCT/CN2015/073136 priority patent/WO2016070529A1/zh
Publication of CN105630834A publication Critical patent/CN105630834A/zh
Application granted granted Critical
Publication of CN105630834B publication Critical patent/CN105630834B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Abstract

本申请公开了一种实现重复数据删除的方法及装置,包括:在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘,并根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。本发明通过在完成内存中数据重删表的重删查找后,或预设时长内未完成完整的数据重删表的查找时、建立临时数据重删表,进行后处理重删,避免了数据重删表的全盘查找,减少了实时I/O时延,提高了数据重删的工作效率。

Description

一种实现重复数据删除的方法及装置
技术领域
本申请涉及数据存储技术,尤指一种实现数据删除的方法及装置。
背景技术
随着计算机信息化程度的提高,人类已经进入了信息时代。计算机以及互联网已经深入各行各业,这也使得信息数据量呈几个级数增长。而在这海量的数据中,存在大量的冗余数据。为了保证数据的安全,需要不断对数据进行备份,而在备份过程中,大量的冗余数据会随之产生。
针对冗余数据进行处理的方法被称为重复数据删除。根据对数据的处理时机不同,重复数据删除分为带内和带外两种;其中,带内是一种嵌入在整个输入/输出(I/O)流程中的处理方式,也称为实时重复数据删除。实时重复数据删除是数据在写入存储介质时分析是否有重复,并对重复的数据直接进行删除处理,以实现在第一时间减少空间占用,不过其更耗资源,但这有可能会影响写入的性能。带外是先正常写入数据,之后再在某个时刻对磁盘上的数据进行重删,也称为后处理重复数据删除。后处理重复数据删除是在数据写入磁盘后再进行重复数据删除操作,其技术优势在于其不会影响写入性能,但要求有足够的磁盘空间来存储所有数据,直到业务非高峰时刻时进行的重复数据删除操作。
无论是带内方式还是带外方式的重复数据删除,首先都要找到重复数据,由于需要处理的数据量可能是非常大的,从大量的数据中找到相同内容的数据块是非常费时的。尽管现有技术中通过对数据块内容的数据指纹(哈希值),在被称为数据重删表的重删信息索引表中实现重复数据查找,但是,记录重复数据信息数据重删表的数据量也非常的大,基于数据重删表的数据量大,因此其信息不能被全部放入内存,内存只能作为磁盘上数据重删表的缓冲(cache),所以在通过数据指纹进行查找时,需要在内存和磁盘中混合查找,因此,对数据重删表的检索成为重复数据重删系统的主要性能瓶颈。目前,对数据重删表的检索也提出了许多优化方法,例如散列表、分级索引和机制等,但通常对于一个数据存储节点,数据重删表仍然同时保存在内存和磁盘中,实时重删系统在检索到磁盘部分的数据重删表时,需要完整的数据重删表的查找,比较费时,对I/O性能造成影响。
发明内容
为了解决上述问题,本发明提供一种实现重复数据删除的方法及装置,无需进行完整数据重删表的查找,减少进行数据重删的时间消耗,降低对I/O性能的影响。
为了达到本发明的目的,本申请提供一种实现数据重删的方法;包括:
在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘;
根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。
进一步地,在执行实时数据重删之前,该方法还包括:
获取所述存储数据块的哈希值指纹,作为删除重复数据的关键字KEY;
通过布鲁姆过滤器判断KEY是否记录在所述数据重删表中,当未记录在所述数据重删表中时,进行所述存储数据块的存储并将KEY和存储地址更新到所述数据重删表中;否则,执行实时数据重删。
进一步地,通过预设的策略对所述临时数据重删表中记录的存储数据块进行后处理重删具体包括:
设置所述临时数据重删表的处理时长阈值,在处理时长到达阈值时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删;或者,
设置所述临时数据重删表的存储量阈值,当临时数据重删表达到存储量阈值时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删;或者,
查询到系统空闲时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删。
进一步地,该方法还包括:将完成后处理重删的所述临时数据重删表并入到数据重删表中;具体包括:
对后处理重删过程中,对非重复的写入磁盘的所述存储数据块,将其在所述临时数据重删表的信息加入到数据重删表;对重复的存储数据块,将其在临时数据重删表的信息删除后,修改数据重删表中重复的存储数据块对应的引用次数信息。
另一方面,本申请还提供一种实现重复数据删除的装置,包括:写入单元和临时数据重删处理单元;其中,
写入单元,用于在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘;
临时数据重删处理单元,用于根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。
进一步地,该装置还包括获取单元和查找处理单元;其中,
获取单元,用于在写入单元执行实时数据重删之前,从存储数据块中获取存储数据块的哈希值指纹,作为删除重复数据的关键字KEY;
查找处理单元,用于通过布鲁姆过滤器判断KEY是否记录在数据重删表中,当未记录在数据重删表中时,进行存储数据块的存储并将KEY和存储地址更新到数据重删表中;否则,执行实时数据重删。
进一步地,临时数据重删处理单元具体用于,根据存储数据块的写入建立临时数据重删表;
设置所述临时数据重删表的处理时长阈值,在处理时长到达阈值时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删;或者,
设置临时数据重删表的存储量阈值,当临时数据重删表达到存储量阈值时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删;或者,
查询到系统空闲时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删。
进一步地,临时数据重删处理单元还用于,在后处理重删后,将临时数据重删表并入到数据重删表中;具体的,
对后处理重删过程中,对非重复的写入磁盘的所述存储数据块,将其在所述临时数据重删表的信息加入到数据重删表;对重复的存储数据块,将其在临时数据重删表的信息删除后,修改数据重删表中重复的存储数据块对应的引用次数信息,以实现将后处理重删的临时数据重删表并入到数据重删表中。
与现有技术相比,本发明提供的技术方案,包括:在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对内存的数据重删表完成存储数据块的重删完成查找和对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘,并根据存储数据块的写入建立临时数据重删表,根据预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。本发明通过在完成内存中数据重删表的重删查找后,或预设时长内未完成完整的数据重删表的查找时、建立临时数据重删表,进行后处理重删,避免了数据重删表的全盘查找,减少了实时I/O时延,提高了数据重删的工作效率。进一步的,通过布鲁姆过滤器进行数据重删表的快速判断,减少了实时数据重删所要处理的存储数据块。
附图说明
附图用来提供对本申请技术方案的进一步理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。
图1为本发明实现重复数据删除的方法的流程图;
图2为本发明实现重复数据删除的装置的结构框图;
图3为本发明第一实施例的方法的流程图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,下文中将结合附图对本申请的实施例进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
为了清楚的陈述本发明的内容,对布鲁姆过滤器(Bloomfilter)做简要介绍,布鲁姆过滤器是一种空间效率很高的随机数据结构,它利用位数组很简洁地表示一个集合,并能判断一个元素是否属于这个集合。
图1为本发明实现重复数据删除的方法的流程图,如图1所示,包括:
步骤100、在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘;
需要说明的是,实时数据重删过程是指:按照现有的删除重复数据的方法执行方法流程,一般的包括:计算存储数据块的哈希值;根据哈希值在数据重删表中进行重删数据的匹配查找,一般的按照先内存中的数据重删表中进行查找,再到磁盘中进行数据重删表中进行;内存和磁盘中的数据重删表的查找是实时数据重删流程的完整过程,在查找过程中,查找到重复数据,则进行重复数据的去重处理;否则,将存储数据块的数据写入磁盘,并更新数据重删表。本步骤中,在对磁盘的数据重删表进行重删查找之前,必须完成对内存中数据重删表的查找,预设时长一般指本领域技术人员根据经验获得的大于完成内存中的数据重删表的存储数据块的重删查找所需的时间,即预设时长按照数据重删的处理过程,必定完成了内存中的数据重删表的重删查找,进行了部分磁盘中的数据重删表的查找。另外,建立临时数据重删表指按照数据重删表的格式和内容建立的记录表项。
步骤101、根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。
本步骤中,根据预设的策略对临时数据重删表中记录的存储数据块进行后处理重删具体包括:
设置临时数据重删表的处理时长阈值,在处理时长到达阈值时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删;或者,
设置临时数据重删表的存储量阈值,当临时数据重删表达到存储量阈值时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删;或者,
查询到系统空闲时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删。
通过在完成内存中数据重删表的重删查找后,或预设时长内未完成完整的数据重删表的查找时、建立临时数据重删表,进行后处理重删,避免了数据重删表的全盘查找,减少了实时I/O时延,提高了数据重删的工作效率。
本发明方法之前还包括:获取存储数据块的哈希值指纹,作为删除重复数据的关键字(KEY);
通过布鲁姆过滤器判断KEY是否记录在数据重删表中,当未记录在数据重删表中时,进行存储数据块的存储并将KEY和存储地址更新到数据重删表中;否则,执行实时数据重删。
需要说明的是,获取存储数据块的哈希值指纹为现有方法,属于本领域技术人员的惯用技术手段。布鲁姆过滤器可以快速的判断记录中未记录在数据重删表的部分;对无法确认的部分,由于快速查找的布鲁姆过滤器存在:在判断一个元素是否属于某个集合时,有可能会把不属于这个集合的元素误认为属于这个集合(falsepositive)的问题。因此,Bloomfilter不适合那些“零错误”的应用场合。在能容忍低错误率的应用场合下,Bloomfilter通过极少的错误换取了存储空间的极大节省。对于无法确定是否记录在数据重删表和判断出记录在数据重删表的部分的存储数据块需要执行实时数据重删。
通过Bloomfilter将存储数据块的KEY,在数据重删表中的查询,可以快速的确定存储数据块在数据重删表中不存在的部分,结合Bloom过滤器提升了实时数据重删的效率,避免了实时数据重删对数据重删表进行整表查找所带来的开销。
进一步地,对数据重删表不存在的存储数据块进行存储处理后,对于除无记录在数据重删表以外的部分采用实时数据重删流程进行处理,存储数据块的数量大大降低,避免了对I/O性能的影响。
在完成后处理重删后,本发明方法还包括:将完成后处理重删的临时数据重删表并入到数据重删表中。具体包括:
对后处理重删过程中,对非重复的写入磁盘的存储数据块,将其在临时数据重删表的信息加入到数据重删表;对重复的存储数据块,将其在临时数据重删表的信息删除后,修改数据重删表中重复的存储数据块对应的引用次数信息。
本发明通过布鲁姆过滤器进行数据重删表的快速判断,对数据重删表中不存在的存储数据块进行处理;使实时数据重删所要处理的存储数据块大大减少,也避免了实时数据重删对I/O性能的影响,提高了数据重删的工作效率。进一步地,通过对实时数据重删对内存中的数据重删表进行重删查找,或基于预设时长进行重删查找后,通过建立临时数据重删表,对数据重删按照预设策略进行调整,并根据预设策略进行数据重删表的更新,使数据重删过程效率对系统影响降低,数据重删效率得到提高。
图2为本发明实现重复数据删除的装置的结构框图,如图2所示,包括:写入单元和临时数据重删处理单元;其中,
写入单元,用于在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘;
临时数据重删处理单元,用于根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。
临时数据重删处理单元具体用于,根据存储数据块的写入建立临时数据重删表;
设置临时数据重删表的处理时长阈值,在处理时长到达阈值时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删;或者,
设置临时数据重删表的存储量阈值,当临时数据重删表达到存储量阈值时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删;或者,
查询到系统空闲时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删。
临时数据重删处理单元还用于,在后处理重删后,将临时数据重删表并入到数据重删表中;具体的,
对后处理重删过程中,对非重复的写入磁盘的存储数据块,将其在临时数据重删表的信息加入到数据重删表;对重复的存储数据块,将其在临时数据重删表的信息删除后,修改数据重删表中重复的存储数据块对应的引用次数信息,以实现将后处理重删的临时数据重删表并入到数据重删表中。
本发明装置还包括获取单元和查找处理单元;其中,
获取单元,用于在写入单元执行实时数据重删之前,从存储数据块中获取存储数据块的哈希值指纹,作为删除重复数据的关键字(KEY);
查找处理单元,用于通过布鲁姆过滤器判断KEY是否记录在数据重删表中,当未记录在数据重删表中时,进行存储数据块的存储并将KEY和存储地址更新到数据重删表中;否则,执行实时数据重删。
需要说明的是,查找处理单元和临时数据重删处理单元,在确定对存储数据块的处理之后,按照现有的方法进行删除或写入处理,具体实现时,通过给相应的存储数据块一个通知(或指令),使存储数据块根据通知执行相应的写入磁盘或删除的操作。
为清楚陈述本发明,以下通过具体实施例,对本发明进行详细说明,实施例只为清楚说明本发明,并不用于限制本发明的保护内容。
实施例1
在实际应用中,对数据进行重删处理时,首先会对数据进行分块处理,生成存储数据块,通过对存储数据块执行数据重删表的查找,实现数据重删的处理。假设直接采用实时数据重删,由于数据重删表可能非常大,对存储数据块进行数据重删表的查找(也可以说是检索)需要消耗较长的时间,特别是如果无法在内存中缓存的数据重删表中找不到数据,而需要查找磁盘中的数据重删表时,那么消耗的时间就非常多了,对I/O性能的影响非常的大。
图3为本发明第一实施例的方法的流程图,如图3所示,包括:
步骤300、获取存储数据块的哈希值指纹,作为删除重复数据的关键字(KEY);
步骤301、通过布鲁姆过滤器判断KEY是否记录在数据重删表中,当未记录数据重删表中时,进行存储数据块的存储并将KEY和存储地址更新到数据重删表中;否则,执行实时数据重删。
通过实验测试,经本地实际测试,使用zfs作为本地文件系统,在zfs的pool中已经有少量数据(3.4G)的情况下(ddt数据重删表中存在少量记录)写入大量的存储数据块(新数据)(11G),对比不启用Bloom过滤器和启用Bloom过滤器的写入速度,发现启用Bloom过滤器的写入效率大概提高了14%左右。在这基础上对这些已经写入的数据再进行一次写入(重拷旧数据),发现启用了Bloom过滤器的写入速度提升了大概18%。
由于理论上ddt的数据重删表中的记录越多,那么查找ddt数据重删表就越耗时,那么启用Bloom过滤器后的效果会更加的明显。因此后续又进行了一次数据量较大的测试。在zfs的pool中已经有25G大小存储数据块的情况下,再往pool中写入45G左右大小的存储数据块,对比不开启Bloom过滤器和开启Bloom过滤器的情况,发现启用了Bloom过滤器情况下存储数据块的写入速度提升了大概110%,这个写入速度的提升就相当明显了。
步骤302、在执行实时数据重删时,在对内存的数据重删表完成存储数据块的重删查找后;或在预设时长内,对内存的数据重删表完成存储数据块的重删查找后和磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘;
步骤303、根据存储数据块的写入建立临时数据重删表,根据预设的策略,启用独立线程对临时数据重删表中记录的存储数据块进行后处理重删;
步骤304、完成后处理重删时,将完成后处理重删的临时数据重删表并入到数据重删表中。
按照预设的策略,启用独立线程主要包括:设置临时数据重删表的处理时长阈值,在处理时长到达阈值时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删;或者,
设置临时数据重删表的存储量阈值,当临时数据重删表达到存储量阈值时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删;或者,
查询到系统空闲时,启用独立线程,对临时数据重删表中记录的存储数据块进行后处理重删。
具体启用独立线程的工作过程如下:
首先,进程的初始状态为“等待外部唤醒”状态。
当在实时重删系统建立临时数据重删表时,通过临时数据重删表,会发出对独立线程的唤醒信号。
在唤醒状态在执行流程中,当临时数据重删表达到存储量阈值时,直接进入后处理重删,开始重删;如果临时数据重删表未达到存储量阈值,根据设置临时数据重删表的处理时长阈值进入计时等待,计时到达时,直接进入后处理重删,开始重删;如果查询到系统空闲,则直接进入后处理重删,开始重删。
进入重删处理时,清除处理时长阈值的计时器。完成重删处理后回到初始状态。
虽然本申请所揭露的实施方式如上,但所述的内容仅为便于理解本申请而采用的实施方式,并非用以限定本申请,如本发明实施方式中的具体的实现方法。任何本申请所属领域内的技术人员,在不脱离本申请所揭露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本申请的专利保护范围,仍须以所附的权利要求书所界定的范围为准。

Claims (8)

1.一种实现重复数据删除的方法,其特征在于,包括:
在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘;
根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。
2.根据权利要求1所述的方法,其特征在于,在执行实时数据重删之前,该方法还包括:
获取所述存储数据块的哈希值指纹,作为删除重复数据的关键字KEY;
通过布鲁姆过滤器判断KEY是否记录在所述数据重删表中,当未记录在所述数据重删表中时,进行所述存储数据块的存储并将KEY和存储地址更新到所述数据重删表中;否则,执行实时数据重删。
3.根据权利要求1或2所述的方法,其特征在于,所述通过预设的策略对所述临时数据重删表中记录的存储数据块进行后处理重删具体包括:
设置所述临时数据重删表的处理时长阈值,在处理时长到达阈值时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删;或者,
设置所述临时数据重删表的存储量阈值,当临时数据重删表达到存储量阈值时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删;或者,
查询到系统空闲时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删。
4.根据权利要求1或2所述的方法,其特征在于,该方法还包括:将完成后处理重删的所述临时数据重删表并入到数据重删表中;具体包括:
对后处理重删过程中,对非重复的写入磁盘的所述存储数据块,将其在所述临时数据重删表的信息加入到数据重删表;对重复的存储数据块,将其在临时数据重删表的信息删除后,修改数据重删表中重复的存储数据块对应的引用次数信息。
5.一种实现重复数据删除的装置,其特征在于,包括:写入单元和临时数据重删处理单元;其中,
写入单元,用于在执行实时数据重删过程中,在对内存的数据重删表完成存储数据块的重删查找后;或,在预设时长内,对磁盘的数据重删表未完成存储数据块的重删查找时,将存储数据块写入磁盘;
临时数据重删处理单元,用于根据存储数据块的写入建立临时数据重删表,通过预设的策略对临时数据重删表中记录的存储数据块进行后处理重删。
6.根据权利要求5所述的装置,其特征在于,该装置还包括获取单元和查找处理单元;其中,
获取单元,用于在写入单元执行实时数据重删之前,从存储数据块中获取存储数据块的哈希值指纹,作为删除重复数据的关键字KEY;
查找处理单元,用于通过布鲁姆过滤器判断KEY是否记录在数据重删表中,当未记录在数据重删表中时,进行存储数据块的存储并将KEY和存储地址更新到数据重删表中;否则,执行实时数据重删。
7.根据权利要求5或6所述的装置,其特征在于,所述临时数据重删处理单元具体用于,根据存储数据块的写入建立临时数据重删表;
设置所述临时数据重删表的处理时长阈值,在处理时长到达阈值时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删;或者,
设置所述临时数据重删表的存储量阈值,当临时数据重删表达到存储量阈值时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删;或者,
查询到系统空闲时,启用独立线程,对所述临时数据重删表中记录的存储数据块进行后处理重删。
8.根据权利要求5或6所述的装置,其特征在于,所述临时数据重删处理单元还用于,在后处理重删后,将临时数据重删表并入到数据重删表中;具体的,
对后处理重删过程中,对非重复的写入磁盘的所述存储数据块,将其在所述临时数据重删表的信息加入到数据重删表;对重复的存储数据块,将其在临时数据重删表的信息删除后,修改数据重删表中重复的存储数据块对应的引用次数信息,以实现将后处理重删的临时数据重删表并入到数据重删表中。
CN201410623909.2A 2014-11-07 2014-11-07 一种实现重复数据删除的方法及装置 Active CN105630834B (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201410623909.2A CN105630834B (zh) 2014-11-07 2014-11-07 一种实现重复数据删除的方法及装置
PCT/CN2015/073136 WO2016070529A1 (zh) 2014-11-07 2015-02-15 一种实现重复数据删除的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410623909.2A CN105630834B (zh) 2014-11-07 2014-11-07 一种实现重复数据删除的方法及装置

Publications (2)

Publication Number Publication Date
CN105630834A true CN105630834A (zh) 2016-06-01
CN105630834B CN105630834B (zh) 2021-07-20

Family

ID=55908460

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410623909.2A Active CN105630834B (zh) 2014-11-07 2014-11-07 一种实现重复数据删除的方法及装置

Country Status (2)

Country Link
CN (1) CN105630834B (zh)
WO (1) WO2016070529A1 (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108256003A (zh) * 2017-12-29 2018-07-06 天津南大通用数据技术股份有限公司 一种根据分析数据重复率提高union运算效率的方法
CN108572789A (zh) * 2017-03-13 2018-09-25 阿里巴巴集团控股有限公司 磁盘存储方法和装置、消息推送方法和装置及电子设备
CN108762680A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种控制ddp模块开关的方法及其相关装置
CN109416681A (zh) * 2016-08-29 2019-03-01 国际商业机器公司 使用幽灵指纹进行工作负载优化的重复数据删除
CN113760187A (zh) * 2021-07-29 2021-12-07 苏州浪潮智能科技有限公司 基于vdbench的重删IO线程生成方法、系统、终端及存储介质
CN113961549A (zh) * 2021-09-22 2022-01-21 李凤杰 基于数据仓库的医疗数据整合方法及系统
WO2023070462A1 (zh) * 2021-10-28 2023-05-04 华为技术有限公司 一种文件去重方法、装置和设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107301351A (zh) * 2017-06-22 2017-10-27 北京北信源软件股份有限公司 一种扫描与清除网络访问记录的方法与装置
CN114356212A (zh) * 2021-11-23 2022-04-15 阿里巴巴(中国)有限公司 数据处理方法、系统及计算机可读存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747584B1 (en) * 2006-08-22 2010-06-29 Netapp, Inc. System and method for enabling de-duplication in a storage system architecture
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
CN102810107A (zh) * 2011-06-01 2012-12-05 英业达股份有限公司 重复数据的处理方法
CN102833298A (zh) * 2011-06-17 2012-12-19 英业达集团(天津)电子技术有限公司 分布式的重复数据删除系统及其处理方法
CN102915278A (zh) * 2012-09-19 2013-02-06 浪潮(北京)电子信息产业有限公司 重复数据删除方法
WO2014063062A1 (en) * 2012-10-18 2014-04-24 Netapp, Inc. Selective deduplication
WO2014068617A1 (en) * 2012-10-31 2014-05-08 Hitachi, Ltd. Storage apparatus and method for controlling storage apparatus
CN103970744A (zh) * 2013-01-25 2014-08-06 华中科技大学 一种可扩展的重复数据检测方法
CN104077380A (zh) * 2014-06-26 2014-10-01 深圳信息职业技术学院 一种重复数据删除方法、装置及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8732403B1 (en) * 2012-03-14 2014-05-20 Netapp, Inc. Deduplication of data blocks on storage devices
US20130282672A1 (en) * 2012-04-18 2013-10-24 Hitachi Computer Peripherals Co., Ltd. Storage apparatus and storage control method

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7747584B1 (en) * 2006-08-22 2010-06-29 Netapp, Inc. System and method for enabling de-duplication in a storage system architecture
CN102222085A (zh) * 2011-05-17 2011-10-19 华中科技大学 一种基于相似性与局部性结合的重复数据删除方法
CN102810107A (zh) * 2011-06-01 2012-12-05 英业达股份有限公司 重复数据的处理方法
CN102833298A (zh) * 2011-06-17 2012-12-19 英业达集团(天津)电子技术有限公司 分布式的重复数据删除系统及其处理方法
CN102915278A (zh) * 2012-09-19 2013-02-06 浪潮(北京)电子信息产业有限公司 重复数据删除方法
WO2014063062A1 (en) * 2012-10-18 2014-04-24 Netapp, Inc. Selective deduplication
WO2014068617A1 (en) * 2012-10-31 2014-05-08 Hitachi, Ltd. Storage apparatus and method for controlling storage apparatus
CN103970744A (zh) * 2013-01-25 2014-08-06 华中科技大学 一种可扩展的重复数据检测方法
CN104077380A (zh) * 2014-06-26 2014-10-01 深圳信息职业技术学院 一种重复数据删除方法、装置及系统

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109416681A (zh) * 2016-08-29 2019-03-01 国际商业机器公司 使用幽灵指纹进行工作负载优化的重复数据删除
CN109416681B (zh) * 2016-08-29 2022-03-18 国际商业机器公司 使用幽灵指纹进行工作负载优化的重复数据删除
CN108572789A (zh) * 2017-03-13 2018-09-25 阿里巴巴集团控股有限公司 磁盘存储方法和装置、消息推送方法和装置及电子设备
CN108572789B (zh) * 2017-03-13 2022-01-28 阿里巴巴集团控股有限公司 磁盘存储方法和装置、消息推送方法和装置及电子设备
CN108256003A (zh) * 2017-12-29 2018-07-06 天津南大通用数据技术股份有限公司 一种根据分析数据重复率提高union运算效率的方法
CN108762680A (zh) * 2018-05-30 2018-11-06 郑州云海信息技术有限公司 一种控制ddp模块开关的方法及其相关装置
CN113760187A (zh) * 2021-07-29 2021-12-07 苏州浪潮智能科技有限公司 基于vdbench的重删IO线程生成方法、系统、终端及存储介质
CN113760187B (zh) * 2021-07-29 2023-08-18 苏州浪潮智能科技有限公司 重删io线程生成方法、系统、终端及存储介质
CN113961549A (zh) * 2021-09-22 2022-01-21 李凤杰 基于数据仓库的医疗数据整合方法及系统
WO2023070462A1 (zh) * 2021-10-28 2023-05-04 华为技术有限公司 一种文件去重方法、装置和设备

Also Published As

Publication number Publication date
CN105630834B (zh) 2021-07-20
WO2016070529A1 (zh) 2016-05-12

Similar Documents

Publication Publication Date Title
CN105630834A (zh) 一种实现重复数据删除的方法及装置
CN104978151B (zh) 基于应用感知的重复数据删除存储系统中的数据重构方法
US11531482B2 (en) Data deduplication method and apparatus
US8108446B1 (en) Methods and systems for managing deduplicated data using unilateral referencing
CN103488709B (zh) 一种索引建立方法及系统、检索方法及系统
CN107391774B (zh) 基于重复数据删除的日志文件系统的垃圾回收方法
CN111399777A (zh) 一种基于数据值分类的差异化键值数据存储方法
WO2016086819A1 (zh) 将数据写入叠瓦状磁记录smr硬盘的方法及装置
US20120158674A1 (en) Indexing for deduplication
CN105988723A (zh) 一种快照处理方法及装置
CN104077380B (zh) 一种重复数据删除方法、装置及系统
JP2006172458A (ja) 不揮発性保存装置にマルチメディアデータをブロック単位で保存する方法及び装置
CN104360914B (zh) 增量快照方法和装置
CN104239443B (zh) 一种序列化数据操作日志的存储方法
CN102591864B (zh) 比对系统中的数据更新方法及装置
US10649682B1 (en) Focused sanitization process for deduplicated storage systems
CN107135662B (zh) 一种差异数据备份方法、存储系统和差异数据备份装置
TW201702860A (zh) 自主空間壓縮之儲存裝置以及方法
CN104462388B (zh) 一种基于级联式存储介质的冗余数据清理方法
CN102024034A (zh) 一种面向高清媒体的嵌入式文件系统的碎片处理方法
CN102147798A (zh) 处理哈希查找冲突问题的方法和装置
CN103229164A (zh) 数据访问方法和装置
CN106547477B (zh) 用于在线地减少缓存设备的方法和装置
CN107037988B (zh) 一种基于文件级粒度的闪存安全删除方法及系统
US20160124984A1 (en) Storage and compression of an aggregation file

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant