CN103970875B - 一种并行重复数据删除方法和系统 - Google Patents

一种并行重复数据删除方法和系统 Download PDF

Info

Publication number
CN103970875B
CN103970875B CN201410204599.0A CN201410204599A CN103970875B CN 103970875 B CN103970875 B CN 103970875B CN 201410204599 A CN201410204599 A CN 201410204599A CN 103970875 B CN103970875 B CN 103970875B
Authority
CN
China
Prior art keywords
data block
client
module
pba
back end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410204599.0A
Other languages
English (en)
Other versions
CN103970875A (zh
Inventor
曹强
万胜刚
林川
黄国强
谢长生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201410204599.0A priority Critical patent/CN103970875B/zh
Publication of CN103970875A publication Critical patent/CN103970875A/zh
Application granted granted Critical
Publication of CN103970875B publication Critical patent/CN103970875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • G06F16/1767Concurrency control, e.g. optimistic or pessimistic approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种并行重复数据删除方法,包括以下步骤:客户端先对要重删的数据进行分块,然后通过哈希函数计算出每个分块的哈希指纹,然后把哈希指纹发送到不同的重删服务器节点上进行指纹的查重工作。如果某个指纹经过对比,确认是重复的指纹,则只用更新查询服务器上元数据和重删服务器节点上的指纹计数器。如果某个指纹经过对比,确认是一个新的数据块,则传输该数据块到重删服务器并且更新指纹库和查询服务器上的元数据。本发明具重删节点可扩展性,可根据不同的需求扩展不同的节点来满足性能的需求,而且利用了多节点之间的并行性,有效的提升了重删系统的性能,提供高效可靠的服务。

Description

一种并行重复数据删除方法和系统
技术领域
本发明属于计算机存储技术领域,更具体地,涉及一种并行重复数据删除方法。
背景技术
随着信息技术的发展和科技的进步,海量信息的保存对存储系统提出了严峻的挑战,PB级别甚至EB级别的信息存储对数据中心的压力也越来越大。由于海量数据中有很多重复数据,如果直接存储这些重复数据,不但会加重存储系统的负担,而且还会占用宝贵的网络带宽。重复数据删除技术可以消除数据中的重复部分,只保留数据的唯一副本,从而减少了数据所需求的物理存储空间,提高了存储效率,减少传输重复数据对网络带宽的占用。
目前很多的重复数据删除系统都是基于单节点的,虽然可以用高配置的服务器来一定程度上缓解重删对性能的需求,但是对于海量数据的重删来说,单节点系统会存在以下缺点:首先,重复数据删除由于进行了分块和哈希指纹计算,会占用CPU资源,而且哈希指纹存放在内存中几乎要占用全部的内存资源,而且指纹库不能完全放入内存的时候还有一部分指纹库必须放入磁盘,这样查找比较哈希指纹的时候也会带来瓶颈;其次,基于单节点的系统的扩展性有限,无法随着系统规模的扩大而线性的扩展;第三,基于单节点的系统还会受限于网络传输的带宽限制;最后,该系统同时也牺牲了一些重复数据删除率,没有做到100%重复数据删除,使得重复数据删除过后的数据中仍然有重复的数据。同时也牺牲了一些重删率,没有做到100%重删,使得重删过后的数据中仍然有重复的数据。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种并行重复数据删除方法,其目的在于,解决现有单节点重复数据系统中存在的重删处理性能瓶颈、扩展性有限从而无法随着系统规模的扩大而线性的扩展、受限于网络传输的带宽限制、不能实现100%重复数据删除的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种并行重复数据删除方法,包括:
写过程,包括以下步骤:
(1)客户端将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
(2)客户端设置计数器i=1;
(3)客户端利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
(4)数据节点在其指纹库中查询该哈希指纹值是否命中,如果命中则转到步骤(5),否则转到步骤(8);
(5)数据节点将<第i个数据块ID,PBA>二元组传送到查询节点;
(6)查询节点根据<第i个数据块ID,PBA>二元组更新其地址映射表;
(7)客户端判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回步骤(3);
(8)客户端将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
(9)查询节点为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
(10)数据节点根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
(11)客户端根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
(12)数据节点保存第i个数据块,并返回步骤(7);
读过程,包括以下步骤:
(1’)客户端向查询节点发送地址映射表读请求;
(2’)查询节点根据地址映射表读请求将其地址映射表发送到客户端;
(3’)查询节点设置计数器j=1;
(4’)客户端根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
(5’)对应的数据节点根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
(6’)客户端判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回步骤(4’)。
优选地,每个数据块ID包括文件ID和LBA,且每个数据块的大小是4KB至2MB。
优选地,哈希算法包括SHA-1、SHA-2、以及MD5算法。
优选地,步骤(3)是采用DHT算法对哈希指纹值进行计算,以得到节点ID。
按照本发明的另一方面,提供了一种并行重复数据删除系统,包括:
第一模块,其设置于客户端中,用于将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
第二模块,其设置于客户端中,用于设置计数器i=1;
第三模块,其设置于客户端中,用于利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
第四模块,其设置于数据节点中,用于在其指纹库中查询该哈希指纹值是否命中,如果命中则转到第五模块,否则转到第八模块;
第五模块,其设置于数据节点中,用于将<第i个数据块ID,PBA>二元组传送到查询节点;
第六模块,其设置于查询节点中,用于根据<第i个数据块ID,PBA>二元组更新其地址映射表;
第七模块,其设置于客户端中,用于判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回第三模块;
第八模块,其设置于客户端中,用于将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
第九模块,其设置于查询节点中,用于为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
第十模块,其设置于数据节点中,用于根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
第十一模块,其设置于客户端中,用于根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
第十二模块,其设置于数据节点中,用于保存第i个数据块,并返回第七模块;
第十三模块,其设置于客户端中,用于向查询节点发送地址映射表读请求;
第十四模块,其设置于查询节点中,用于根据地址映射表读请求将其地址映射表发送到客户端;
第十五模块,其设置于查询节点中,用于设置计数器j=1;
第十六模块,其设置于客户端中,用于根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
第十七模块,其设置于数据节点中,用于根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
第十八模块,其设置于客户端中,用于判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回第十六模块。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了多台数据节点实现并行性重复数据删除,从而解决了单节点重复数据删除系统中存在的处理性能瓶颈问题;
(2)由于本发明数据节点的数量可以根据需要灵活配置,因此可以实现良好的可扩展性,以满足不同的性能需求;
(3)由于本发明的多数据节点拥有更大的总内存容量、更多的CPU资源和更大的网络传输总带宽,因此能满足大规模系统的需求,并克服网络传输带宽的瓶颈限制;
(4)本发明采用多数据节点的并行性方式,不用牺牲复删除率来保证性能,从而可以实现100%重复数据删除,并将现有资源利用率最大化。
附图说明
图1是本发明并行重复数据删除方法的系统架构图。
图2是本发明并行重复数据删除方法写过程的流程图。
图3是本发明并行重复数据删除方法读过程的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明的计算机集群包括多台客户端、查询节点和多个数据节点,其中客户端、查询节点和数据节点通过交换机相连接,三者之间可以互相通信。
如图2所示,本发明的并行重复数据删除方法包括:
一、写过程,包括以下步骤:
(1)客户端将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个块ID(Block Id),每个块ID包括文件ID和逻辑块地址(Logical BlockAddress,简称LBA);具体而言,每个数据块的大小是4KB至2MB,并可由客户端自由设定;
(2)客户端设置计数器i=1;
(3)客户端利用哈希算法对第i个数据块进行处理,以生成哈希指纹值;具体而言,本发明中的哈希算法包括SHA-1、SHA-2、MD5算法;
(4)客户端根据哈希指纹值生成对应的节点ID;具体而言,采用分布式哈希表(简称Distributed Hash Table,简称DHT)算法对哈希指纹值进行计算,得到的结果就是节点ID;
(5)客户端将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
(6)数据节点在其指纹库中查询该哈希指纹值是否命中,如果命中则转到步骤(7),否则转到步骤(10);
(7)数据节点将<第i个数据块ID,物理块地址(Physical Block Address,简称PBA>二元组传送到查询节点;
(8)查询节点根据<第i个数据块ID,PBA>二元组更新其地址映射表;
(9)客户端判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回步骤(3);
(10)客户端将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
(11)查询节点为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点。
(12)数据节点根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
(13)客户端根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
(14)数据节点保存第i个数据块,并返回步骤(9);
二、读过程,包括以下步骤:
(1’)客户端向查询节点发送地址映射表读请求;
(2’)查询节点根据地址映射表读请求将其地址映射表发送到客户端;
(3’)查询节点设置计数器j=1;
(4’)客户端根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
(5’)对应的数据节点根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
(6’)客户端判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回步骤(4’)。
本发明的并行重复数据删除系统包括:
第一模块,其设置于客户端中,用于将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
第二模块,其设置于客户端中,用于设置计数器i=1;
第三模块,其设置于客户端中,用于利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
第四模块,其设置于数据节点中,用于在其指纹库中查询该哈希指纹值是否命中,如果命中则转到第五模块,否则转到第八模块;
第五模块,其设置于数据节点中,用于将<第i个数据块ID,PBA>二元组传送到查询节点;
第六模块,其设置于查询节点中,用于根据<第i个数据块ID,PBA>二元组更新其地址映射表;
第七模块,其设置于客户端中,用于判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回第三模块;
第八模块,其设置于客户端中,用于将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
第九模块,其设置于查询节点中,用于为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
第十模块,其设置于数据节点中,用于根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
第十一模块,其设置于客户端中,用于根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
第十二模块,其设置于数据节点中,用于保存第i个数据块,并返回第七模块;
第十三模块,其设置于客户端中,用于向查询节点发送地址映射表读请求;
第十四模块,其设置于查询节点中,用于根据地址映射表读请求将其地址映射表发送到客户端;
第十五模块,其设置于查询节点中,用于设置计数器j=1;
第十六模块,其设置于客户端中,用于根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
第十七模块,其设置于数据节点中,用于根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
第十八模块,其设置于客户端中,用于判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回第十六模块。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种并行重复数据删除方法,其特征在于,包括:
写过程,包括以下步骤:
(1)客户端将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
(2)客户端设置计数器i=1;
(3)客户端利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
(4)数据节点在其指纹库中查询该哈希指纹值是否命中,如果命中则转到步骤(5),否则转到步骤(8);
(5)数据节点将<第i个数据块ID,PBA>二元组传送到查询节点;
(6)查询节点根据<第i个数据块ID,PBA>二元组更新其地址映射表;
(7)客户端判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回步骤(3);
(8)客户端将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
(9)查询节点为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
(10)数据节点根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
(11)客户端根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
(12)数据节点保存第i个数据块,并返回步骤(7);
读过程,包括以下步骤:
(1’)客户端向查询节点发送地址映射表读请求;
(2’)查询节点根据地址映射表读请求将其地址映射表发送到客户端;
(3’)查询节点设置计数器j=1;
(4’)客户端根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
(5’)对应的数据节点根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
(6’)客户端判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回步骤(4’)。
2.根据权利要求1所述的并行重复数据删除方法,其特征在于,每个数据块ID包括文件ID和LBA,且每个数据块的大小是4KB至2MB。
3.根据权利要求1所述的并行重复数据删除方法,其特征在于,哈希算法包括SHA-1、SHA-2、以及MD5算法。
4.根据权利要求1所述的并行重复数据删除方法,其特征在于,步骤(3)是采用DHT算法对哈希指纹值进行计算,以得到节点ID。
5.一种并行重复数据删除系统,其特征在于,包括:
第一模块,其设置于客户端中,用于将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
第二模块,其设置于客户端中,用于设置计数器i=1;
第三模块,其设置于客户端中,用于利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
第四模块,其设置于数据节点中,用于在其指纹库中查询该哈希指纹值是否命中,如果命中则转到第五模块,否则转到第八模块;
第五模块,其设置于数据节点中,用于将<第i个数据块ID,PBA>二元组传送到查询节点;
第六模块,其设置于查询节点中,用于根据<第i个数据块ID,PBA>二元组更新其地址映射表;
第七模块,其设置于客户端中,用于判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回第三模块;
第八模块,其设置于客户端中,用于将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
第九模块,其设置于查询节点中,用于为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
第十模块,其设置于数据节点中,用于根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
第十一模块,其设置于客户端中,用于根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
第十二模块,其设置于数据节点中,用于保存第i个数据块,并返回第七模块;
第十三模块,其设置于客户端中,用于向查询节点发送地址映射表读请求;
第十四模块,其设置于查询节点中,用于根据地址映射表读请求将其地址映射表发送到客户端;
第十五模块,其设置于查询节点中,用于设置计数器j=1;
第十六模块,其设置于客户端中,用于根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
第十七模块,其设置于数据节点中,用于根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
第十八模块,其设置于客户端中,用于判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回第十六模块。
CN201410204599.0A 2014-05-15 2014-05-15 一种并行重复数据删除方法和系统 Active CN103970875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410204599.0A CN103970875B (zh) 2014-05-15 2014-05-15 一种并行重复数据删除方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410204599.0A CN103970875B (zh) 2014-05-15 2014-05-15 一种并行重复数据删除方法和系统

Publications (2)

Publication Number Publication Date
CN103970875A CN103970875A (zh) 2014-08-06
CN103970875B true CN103970875B (zh) 2017-02-15

Family

ID=51240372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410204599.0A Active CN103970875B (zh) 2014-05-15 2014-05-15 一种并行重复数据删除方法和系统

Country Status (1)

Country Link
CN (1) CN103970875B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10897362B2 (en) * 2014-12-18 2021-01-19 Nokia Technologies Oy De-duplication of encrypted data
CN105242881B (zh) * 2015-10-12 2018-02-16 创新科软件技术(深圳)有限公司 分布式存储系统及其数据读写方法
CN106250781B (zh) * 2016-07-31 2019-05-07 山东大学 一种基于虚拟机增量镜像的用户信息保护方法
CN107220002B (zh) * 2017-05-26 2020-08-21 苏州浪潮智能科技有限公司 一种支持内存快照重复数据删除的存储方法和装置
CN107193503B (zh) * 2017-05-27 2020-05-29 杭州宏杉科技股份有限公司 一种数据重删方法及存储设备
CN107391034B (zh) * 2017-07-07 2019-05-10 华中科技大学 一种基于局部性优化的重复数据检测方法
CN108243256B (zh) * 2018-01-19 2020-08-04 网宿科技股份有限公司 一种数据存储方法、编码设备及解码设备
US10671306B2 (en) * 2018-06-06 2020-06-02 Yingquan Wu Chunk-based data deduplication
CN110442601B (zh) * 2019-06-29 2022-04-22 苏州浪潮智能科技有限公司 一种Openstack镜像数据并行加速的方法和装置
CN114442931A (zh) * 2021-12-23 2022-05-06 天翼云科技有限公司 一种数据重删方法及系统、电子设备、存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495894A (zh) * 2011-12-12 2012-06-13 成都市华为赛门铁克科技有限公司 重复数据查找方法、装置及系统
CN103139300A (zh) * 2013-02-05 2013-06-05 杭州电子科技大学 一种基于重复数据删除的虚拟机镜像管理的优化方法
CN103473266A (zh) * 2013-08-09 2013-12-25 记忆科技(深圳)有限公司 固态硬盘及其删除重复数据的方法
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和系统及存储装置
CN103678158A (zh) * 2013-12-26 2014-03-26 中国科学院信息工程研究所 一种数据布局优化方法及系统

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8086799B2 (en) * 2008-08-12 2011-12-27 Netapp, Inc. Scalable deduplication of stored data
US8442942B2 (en) * 2010-03-25 2013-05-14 Andrew C. Leppard Combining hash-based duplication with sub-block differencing to deduplicate data

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102495894A (zh) * 2011-12-12 2012-06-13 成都市华为赛门铁克科技有限公司 重复数据查找方法、装置及系统
CN103139300A (zh) * 2013-02-05 2013-06-05 杭州电子科技大学 一种基于重复数据删除的虚拟机镜像管理的优化方法
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和系统及存储装置
CN103473266A (zh) * 2013-08-09 2013-12-25 记忆科技(深圳)有限公司 固态硬盘及其删除重复数据的方法
CN103678158A (zh) * 2013-12-26 2014-03-26 中国科学院信息工程研究所 一种数据布局优化方法及系统

Also Published As

Publication number Publication date
CN103970875A (zh) 2014-08-06

Similar Documents

Publication Publication Date Title
CN103970875B (zh) 一种并行重复数据删除方法和系统
US12045254B2 (en) Randomized data distribution in highly parallel database management system
US10761758B2 (en) Data aware deduplication object storage (DADOS)
US9715434B1 (en) System and method for estimating storage space needed to store data migrated from a source storage to a target storage
US10949312B2 (en) Logging and update of metadata in a log-structured file system for storage node recovery and restart
US9268502B2 (en) Dense tree volume metadata organization
US8949208B1 (en) System and method for bulk data movement between storage tiers
US8996797B1 (en) Dense tree volume metadata update logging and checkpointing
US8799601B1 (en) Techniques for managing deduplication based on recently written extents
CN103902623B (zh) 用于在存储系统上存取文件的方法和系统
CN106066896B (zh) 一种应用感知的大数据重复删除存储系统及方法
US20200326877A1 (en) Storage system with efficient detection and clean-up of stale data for sparsely-allocated storage in replication
CN103345472B (zh) 基于有限二叉树布隆过滤器的去冗文件系统及其构建方法
US20200117362A1 (en) Erasure coding content driven distribution of data blocks
CN104408111B (zh) 一种删除重复数据的方法及装置
CN105302744B (zh) 高速缓存器的无效数据区
US8131688B2 (en) Storage system data compression enhancement
US10585611B2 (en) Inline deduplication
US20160077746A1 (en) Optimized segment cleaning technique
US20150134616A1 (en) Snapshots and clones of volumes in a storage system
CN105683898A (zh) 对储存系统中数据高效存储与检索的组相关哈希表组织
CN109445702B (zh) 一种块级数据去重存储系统
US20120030477A1 (en) Scalable segment-based data de-duplication system and method for incremental backups
CN101504670A (zh) 数据操作方法、系统、客户端和数据服务器
US9842114B2 (en) Peer to peer network write deduplication

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant