CN103970875A - 一种并行重复数据删除方法 - Google Patents

一种并行重复数据删除方法 Download PDF

Info

Publication number
CN103970875A
CN103970875A CN201410204599.0A CN201410204599A CN103970875A CN 103970875 A CN103970875 A CN 103970875A CN 201410204599 A CN201410204599 A CN 201410204599A CN 103970875 A CN103970875 A CN 103970875A
Authority
CN
China
Prior art keywords
data block
client
module
pba
back end
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201410204599.0A
Other languages
English (en)
Other versions
CN103970875B (zh
Inventor
曹强
万胜刚
林川
黄国强
谢长生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN201410204599.0A priority Critical patent/CN103970875B/zh
Publication of CN103970875A publication Critical patent/CN103970875A/zh
Application granted granted Critical
Publication of CN103970875B publication Critical patent/CN103970875B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/176Support for shared access to files; File sharing support
    • G06F16/1767Concurrency control, e.g. optimistic or pessimistic approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/174Redundancy elimination performed by the file system
    • G06F16/1748De-duplication implemented within the file system, e.g. based on file segments
    • G06F16/1752De-duplication implemented within the file system, e.g. based on file segments based on file chunks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/18File system types
    • G06F16/182Distributed file systems
    • G06F16/1824Distributed file systems implemented using Network-attached Storage [NAS] architecture
    • G06F16/183Provision of network file services by network file servers, e.g. by using NFS, CIFS

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种并行重复数据删除方法,包括以下步骤:客户端先对要重删的数据进行分块,然后通过哈希函数计算出每个分块的哈希指纹,然后把哈希指纹发送到不同的重删服务器节点上进行指纹的查重工作。如果某个指纹经过对比,确认是重复的指纹,则只用更新查询服务器上元数据和重删服务器节点上的指纹计数器。如果某个指纹经过对比,确认是一个新的数据块,则传输该数据块到重删服务器并且更新指纹库和查询服务器上的元数据。本发明具重删节点可扩展性,可根据不同的需求扩展不同的节点来满足性能的需求,而且利用了多节点之间的并行性,有效的提升了重删系统的性能,提供高效可靠的服务。

Description

一种并行重复数据删除方法
技术领域
本发明属于计算机存储技术领域,更具体地,涉及一种并行重复数据删除方法。
背景技术
随着信息技术的发展和科技的进步,海量信息的保存对存储系统提出了严峻的挑战,PB级别甚至EB级别的信息存储对数据中心的压力也越来越大。由于海量数据中有很多重复数据,如果直接存储这些重复数据,不但会加重存储系统的负担,而且还会占用宝贵的网络带宽。重复数据删除技术可以消除数据中的重复部分,只保留数据的唯一副本,从而减少了数据所需求的物理存储空间,提高了存储效率,减少传输重复数据对网络带宽的占用。
目前很多的重复数据删除系统都是基于单节点的,虽然可以用高配置的服务器来一定程度上缓解重删对性能的需求,但是对于海量数据的重删来说,单节点系统会存在以下缺点:首先,重复数据删除由于进行了分块和哈希指纹计算,会占用CPU资源,而且哈希指纹存放在内存中几乎要占用全部的内存资源,而且指纹库不能完全放入内存的时候还有一部分指纹库必须放入磁盘,这样查找比较哈希指纹的时候也会带来瓶颈;其次,基于单节点的系统的扩展性有限,无法随着系统规模的扩大而线性的扩展;第三,基于单节点的系统还会受限于网络传输的带宽限制;最后,该系统同时也牺牲了一些重复数据删除率,没有做到100%重复数据删除,使得重复数据删除过后的数据中仍然有重复的数据。同时也牺牲了一些重删率,没有做到100%重删,使得重删过后的数据中仍然有重复的数据。
发明内容
针对现有技术的以上缺陷或改进需求,本发明提供了一种并行重复数据删除方法,其目的在于,解决现有单节点重复数据系统中存在的重删处理性能瓶颈、扩展性有限从而无法随着系统规模的扩大而线性的扩展、受限于网络传输的带宽限制、不能实现100%重复数据删除的技术问题。
为实现上述目的,按照本发明的一个方面,提供了一种并行重复数据删除方法,包括:
写过程,包括以下步骤:
(1)客户端将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
(2)客户端设置计数器i=1;
(3)客户端利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
(4)数据节点在其指纹库中查询该哈希指纹值是否命中,如果命中则转到步骤(5),否则转到步骤(8);
(5)数据节点将<第i个数据块ID,PBA)>二元组传送到查询节点;
(6)查询节点根据<第i个数据块ID,PBA>二元组更新其地址映射表;
(7)客户端判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回步骤(1);
(8)客户端将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
(9)查询节点为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
(10)数据节点根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
(11)客户端根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
(12)数据节点保存第i个数据块,并返回步骤(7);
读过程,包括以下步骤:
(1’)客户端向查询节点发送地址映射表读请求;
(2’)查询节点根据地址映射表读请求将其地址映射表发送到客户端;
(3’)查询节点设置计数器j=1;
(4’)客户端根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
(5’)对应的数据节点根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
(6’)客户端判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回步骤(2’)。
优选地,每个数据块ID包括文件ID和LBA,且每个数据块的大小是4KB至2MB。
优选地,哈希算法包括SHA-1、SHA-2、以及MD5算法。
优选地,步骤(3)是采用DHT算法对哈希指纹值进行计算,以得到节点ID。
按照本发明的另一方面,提供了一种并行重复数据删除系统,包括:
第一模块,其设置于客户端中,用于将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
第二模块,其设置于客户端中,用于设置计数器i=1;
第三模块,其设置于客户端中,用于利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
第四模块,其设置于数据节点中,用于在其指纹库中查询该哈希指纹值是否命中,如果命中则转到第五模块,否则转到第八模块;
第五模块,其设置于数据节点中,用于将<第i个数据块ID,PBA)>二元组传送到查询节点;
第六模块,其设置于查询节点中,用于根据<第i个数据块ID,PBA>二元组更新其地址映射表;
第七模块,其设置于客户端中,用于判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回第一模块;
第八模块,其设置于客户端中,用于将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
第九模块,其设置于查询节点中,用于为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
第十模块,其设置于数据节点中,用于根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
第十一模块,其设置于客户端中,用于根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
第十二模块,其设置于数据节点中,用于保存第i个数据块,并返回第七模块;
第十三模块,其设置于客户端中,用于向查询节点发送地址映射表读请求;
第十四模块,其设置于查询节点中,用于根据地址映射表读请求将其地址映射表发送到客户端;
第十五模块,其设置于查询节点中,用于设置计数器j=1;
第十六模块,其设置于客户端中,用于根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
第十七模块,其设置于数据节点中,用于根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
第十八模块,其设置于客户端中,用于判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回第十四模块。
总体而言,通过本发明所构思的以上技术方案与现有技术相比,能够取得下列有益效果:
(1)由于本发明采用了多台数据节点实现并行性重复数据删除,从而解决了单节点重复数据删除系统中存在的处理性能瓶颈问题;
(2)由于本发明数据节点的数量可以根据需要灵活配置,因此可以实现良好的可扩展性,以满足不同的性能需求;
(3)由于本发明的多数据节点拥有更大的总内存容量、更多的CPU资源和更大的网络传输总带宽,因此能满足大规模系统的需求,并克服网络传输带宽的瓶颈限制;
(4)本发明采用多数据节点的并行性方式,不用牺牲复删除率来保证性能,从而可以实现100%重复数据删除,并将现有资源利用率最大化。
附图说明
图1是本发明并行重复数据删除方法的系统架构图。
图2是本发明并行重复数据删除方法写过程的流程图。
图3是本发明并行重复数据删除方法读过程的流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明的计算机集群包括多台客户端、查询节点和多个数据节点,其中客户端、查询节点和数据节点通过交换机相连接,三者之间可以互相通信。
如图2所示,本发明的并行重复数据删除方法包括:
一、写过程,包括以下步骤:
(1)客户端将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个块ID(Block Id),每个块ID包括文件ID和逻辑块地址(Logical Block Address,简称LBA);具体而言,每个数据块的大小是4KB至2MB,并可由客户端自由设定;
(2)客户端设置计数器i=1;
(3)客户端利用哈希算法对第i个数据块进行处理,以生成哈希指纹值;具体而言,本发明中的哈希算法包括SHA-1、SHA-2、MD5算法;
(4)客户端根据哈希指纹值生成对应的节点ID;具体而言,采用分布式哈希表(简称Distributed Hash Table,简称DHT)算法对哈希指纹值进行计算,得到的结果就是节点ID;
(5)客户端将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
(6)数据节点在其指纹库中查询该哈希指纹值是否命中,如果命中则转到步骤(7),否则转到步骤(10);
(7)数据节点将<第i个数据块ID,物理块地址(Physical BlockAddress,简称PBA)>二元组传送到查询节点;
(8)查询节点根据<第i个数据块ID,PBA>二元组更新其地址映射表;
(9)客户端判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回步骤(1);
(10)客户端将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
(11)查询节点为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点。
(12)数据节点根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块。;
(13)客户端根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
(14)数据节点保存第i个数据块,并返回步骤(9);
二、读过程,包括以下步骤:
(1’)客户端向查询节点发送地址映射表读请求;
(2’)查询节点根据地址映射表读请求将其地址映射表发送到客户端;
(3’)查询节点设置计数器j=1;
(4’)客户端根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
(5’)对应的数据节点根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
(6’)客户端判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回步骤(2’)。
本发明的并行重复数据删除系统包括:
第一模块,其设置于客户端中,用于将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
第二模块,其设置于客户端中,用于设置计数器i=1;
第三模块,其设置于客户端中,用于利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
第四模块,其设置于数据节点中,用于在其指纹库中查询该哈希指纹值是否命中,如果命中则转到第五模块,否则转到第八模块;
第五模块,其设置于数据节点中,用于将<第i个数据块ID,PBA)>二元组传送到查询节点;
第六模块,其设置于查询节点中,用于根据<第i个数据块ID,PBA>二元组更新其地址映射表;
第七模块,其设置于客户端中,用于判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回第一模块;
第八模块,其设置于客户端中,用于将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
第九模块,其设置于查询节点中,用于为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
第十模块,其设置于数据节点中,用于根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
第十一模块,其设置于客户端中,用于根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
第十二模块,其设置于数据节点中,用于保存第i个数据块,并返回第七模块;
第十三模块,其设置于客户端中,用于向查询节点发送地址映射表读请求;
第十四模块,其设置于查询节点中,用于根据地址映射表读请求将其地址映射表发送到客户端;
第十五模块,其设置于查询节点中,用于设置计数器j=1;
第十六模块,其设置于客户端中,用于根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
第十七模块,其设置于数据节点中,用于根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
第十八模块,其设置于客户端中,用于判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回第十四模块。
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种并行重复数据删除方法,其特征在于,包括:
写过程,包括以下步骤:
(1)客户端将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
(2)客户端设置计数器i=1;
(3)客户端利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
(4)数据节点在其指纹库中查询该哈希指纹值是否命中,如果命中则转到步骤(5),否则转到步骤(8);
(5)数据节点将<第i个数据块ID,PBA)>二元组传送到查询节点;
(6)查询节点根据<第i个数据块ID,PBA>二元组更新其地址映射表;
(7)客户端判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回步骤(1);
(8)客户端将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
(9)查询节点为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
(10)数据节点根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
(11)客户端根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
(12)数据节点保存第i个数据块,并返回步骤(7);
读过程,包括以下步骤:
(1’)客户端向查询节点发送地址映射表读请求;
(2’)查询节点根据地址映射表读请求将其地址映射表发送到客户端;
(3’)查询节点设置计数器j=1;
(4’)客户端根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
(5’)对应的数据节点根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
(6’)客户端判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回步骤(2’)。
2.根据权利要求1所述的并行重复数据删除方法,其特征在于,每个数据块ID包括文件ID和LBA,且每个数据块的大小是4KB至2MB。
3.根据权利要求1所述的并行重复数据删除方法,其特征在于,哈希算法包括SHA-1、SHA-2、以及MD5算法。
4.根据权利要求1所述的并行重复数据删除方法,其特征在于,步骤(3)是采用DHT算法对哈希指纹值进行计算,以得到节点ID。
5.一种并行重复数据删除系统,其特征在于,包括:
第一模块,其设置于客户端中,用于将虚拟机镜像文件划分为多个相同大小的数据块,并且为每一个数据块分配一个数据块ID;
第二模块,其设置于客户端中,用于设置计数器i=1;
第三模块,其设置于客户端中,用于利用哈希算法对第i个数据块进行处理,以生成哈希指纹值,根据哈希指纹值生成对应的节点ID,并将<第i个数据块ID,哈希指纹值>二元组传送到哈希指纹值对应的节点ID所对应的数据节点进行哈希指纹查询;
第四模块,其设置于数据节点中,用于在其指纹库中查询该哈希指纹值是否命中,如果命中则转到第五模块,否则转到第八模块;
第五模块,其设置于数据节点中,用于将<第i个数据块ID,PBA)>二元组传送到查询节点;
第六模块,其设置于查询节点中,用于根据<第i个数据块ID,PBA>二元组更新其地址映射表;
第七模块,其设置于客户端中,用于判断是否虚拟机镜像文件中的所有数据块都已处理完毕,如果是,则过程结束,否则设置i=i+1,并返回第一模块;
第八模块,其设置于客户端中,用于将第i个数据块ID传送到查询节点,并向该查询节点请求分配新的PBA;
第九模块,其设置于查询节点中,用于为第i个数据块分配新的PBA,更新其地址映射表,并将<哈希指纹值,PBA>二元组发回到数据节点;
第十模块,其设置于数据节点中,用于根据<哈希指纹值,PBA>二元组更新其指纹库,将<第i个数据块ID,PBA>二元组发给客户端,并通知客户端发送第i个数据块;
第十一模块,其设置于客户端中,用于根据<第i个数据块ID,PBA>二元组发送第i个数据块到数据节点;
第十二模块,其设置于数据节点中,用于保存第i个数据块,并返回第七模块;
第十三模块,其设置于客户端中,用于向查询节点发送地址映射表读请求;
第十四模块,其设置于查询节点中,用于根据地址映射表读请求将其地址映射表发送到客户端;
第十五模块,其设置于查询节点中,用于设置计数器j=1;
第十六模块,其设置于客户端中,用于根据地址映射表将虚拟机镜像文件的第j个数据块的PBA发送到对应的数据节点;
第十七模块,其设置于数据节点中,用于根据PBA在其指纹库中读取对应的第j个数据块,并将该数据块发回客户端;
第十八模块,其设置于客户端中,用于判断是否虚拟机镜像文件的所有数据块均处理完毕,若是则过程结束,否则设置j=j+1,并返回第十四模块。
CN201410204599.0A 2014-05-15 2014-05-15 一种并行重复数据删除方法和系统 Active CN103970875B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410204599.0A CN103970875B (zh) 2014-05-15 2014-05-15 一种并行重复数据删除方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410204599.0A CN103970875B (zh) 2014-05-15 2014-05-15 一种并行重复数据删除方法和系统

Publications (2)

Publication Number Publication Date
CN103970875A true CN103970875A (zh) 2014-08-06
CN103970875B CN103970875B (zh) 2017-02-15

Family

ID=51240372

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410204599.0A Active CN103970875B (zh) 2014-05-15 2014-05-15 一种并行重复数据删除方法和系统

Country Status (1)

Country Link
CN (1) CN103970875B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105242881A (zh) * 2015-10-12 2016-01-13 创新科软件技术(深圳)有限公司 分布式存储系统及其数据读写方法
CN106250781A (zh) * 2016-07-31 2016-12-21 山东大学 一种基于虚拟机增量镜像的用户信息保护方法
CN107113164A (zh) * 2014-12-18 2017-08-29 诺基亚技术有限公司 加密数据的重复删除
CN107193503A (zh) * 2017-05-27 2017-09-22 杭州宏杉科技股份有限公司 一种数据重删方法及存储设备
CN107220002A (zh) * 2017-05-26 2017-09-29 郑州云海信息技术有限公司 一种支持内存快照重复数据删除的存储方法和装置
CN107391034A (zh) * 2017-07-07 2017-11-24 华中科技大学 一种基于局部性优化的重复数据检测方法
CN108243256A (zh) * 2018-01-19 2018-07-03 网宿科技股份有限公司 一种数据存储方法、编码设备及解码设备
CN110442601A (zh) * 2019-06-29 2019-11-12 苏州浪潮智能科技有限公司 一种Openstack镜像数据并行加速的方法和装置
CN112470140A (zh) * 2018-06-06 2021-03-09 吴英全 基于块的重复数据删除
CN114442931A (zh) * 2021-12-23 2022-05-06 天翼云科技有限公司 一种数据重删方法及系统、电子设备、存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042790A1 (en) * 2008-08-12 2010-02-18 Netapp, Inc. Scalable deduplication of stored data
US20110238635A1 (en) * 2010-03-25 2011-09-29 Quantum Corporation Combining Hash-Based Duplication with Sub-Block Differencing to Deduplicate Data
CN102495894A (zh) * 2011-12-12 2012-06-13 成都市华为赛门铁克科技有限公司 重复数据查找方法、装置及系统
CN103139300A (zh) * 2013-02-05 2013-06-05 杭州电子科技大学 一种基于重复数据删除的虚拟机镜像管理的优化方法
CN103473266A (zh) * 2013-08-09 2013-12-25 记忆科技(深圳)有限公司 固态硬盘及其删除重复数据的方法
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和系统及存储装置
CN103678158A (zh) * 2013-12-26 2014-03-26 中国科学院信息工程研究所 一种数据布局优化方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100042790A1 (en) * 2008-08-12 2010-02-18 Netapp, Inc. Scalable deduplication of stored data
US20110238635A1 (en) * 2010-03-25 2011-09-29 Quantum Corporation Combining Hash-Based Duplication with Sub-Block Differencing to Deduplicate Data
CN102495894A (zh) * 2011-12-12 2012-06-13 成都市华为赛门铁克科技有限公司 重复数据查找方法、装置及系统
CN103139300A (zh) * 2013-02-05 2013-06-05 杭州电子科技大学 一种基于重复数据删除的虚拟机镜像管理的优化方法
CN103514250A (zh) * 2013-06-20 2014-01-15 易乐天 一种全局重复数据删除的方法和系统及存储装置
CN103473266A (zh) * 2013-08-09 2013-12-25 记忆科技(深圳)有限公司 固态硬盘及其删除重复数据的方法
CN103678158A (zh) * 2013-12-26 2014-03-26 中国科学院信息工程研究所 一种数据布局优化方法及系统

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107113164A (zh) * 2014-12-18 2017-08-29 诺基亚技术有限公司 加密数据的重复删除
CN105242881A (zh) * 2015-10-12 2016-01-13 创新科软件技术(深圳)有限公司 分布式存储系统及其数据读写方法
CN105242881B (zh) * 2015-10-12 2018-02-16 创新科软件技术(深圳)有限公司 分布式存储系统及其数据读写方法
CN106250781A (zh) * 2016-07-31 2016-12-21 山东大学 一种基于虚拟机增量镜像的用户信息保护方法
CN107220002A (zh) * 2017-05-26 2017-09-29 郑州云海信息技术有限公司 一种支持内存快照重复数据删除的存储方法和装置
CN107220002B (zh) * 2017-05-26 2020-08-21 苏州浪潮智能科技有限公司 一种支持内存快照重复数据删除的存储方法和装置
CN107193503A (zh) * 2017-05-27 2017-09-22 杭州宏杉科技股份有限公司 一种数据重删方法及存储设备
CN107193503B (zh) * 2017-05-27 2020-05-29 杭州宏杉科技股份有限公司 一种数据重删方法及存储设备
CN107391034B (zh) * 2017-07-07 2019-05-10 华中科技大学 一种基于局部性优化的重复数据检测方法
CN107391034A (zh) * 2017-07-07 2017-11-24 华中科技大学 一种基于局部性优化的重复数据检测方法
WO2019140732A1 (zh) * 2018-01-19 2019-07-25 网宿科技股份有限公司 一种数据存储方法、编码设备及解码设备
CN108243256A (zh) * 2018-01-19 2018-07-03 网宿科技股份有限公司 一种数据存储方法、编码设备及解码设备
CN108243256B (zh) * 2018-01-19 2020-08-04 网宿科技股份有限公司 一种数据存储方法、编码设备及解码设备
CN112470140A (zh) * 2018-06-06 2021-03-09 吴英全 基于块的重复数据删除
CN110442601A (zh) * 2019-06-29 2019-11-12 苏州浪潮智能科技有限公司 一种Openstack镜像数据并行加速的方法和装置
CN110442601B (zh) * 2019-06-29 2022-04-22 苏州浪潮智能科技有限公司 一种Openstack镜像数据并行加速的方法和装置
CN114442931A (zh) * 2021-12-23 2022-05-06 天翼云科技有限公司 一种数据重删方法及系统、电子设备、存储介质

Also Published As

Publication number Publication date
CN103970875B (zh) 2017-02-15

Similar Documents

Publication Publication Date Title
US10866760B2 (en) Storage system with efficient detection and clean-up of stale data for sparsely-allocated storage in replication
CN103970875A (zh) 一种并行重复数据删除方法
US11093159B2 (en) Storage system with storage volume pre-copy functionality for increased efficiency in asynchronous replication
US10691355B2 (en) Apparatus, method and computer program product for controlled ordering of data pages for migration from source storage system into target storage system
US11010078B2 (en) Inline deduplication
US10929050B2 (en) Storage system with deduplication-aware replication implemented using a standard storage command protocol
US10831735B2 (en) Processing device configured for efficient generation of a direct mapped hash table persisted to non-volatile block memory
US10817385B2 (en) Storage system with backup control utilizing content-based signatures
US8930648B1 (en) Distributed deduplication using global chunk data structure and epochs
US11287994B2 (en) Native key-value storage enabled distributed storage system
US10826990B2 (en) Clustered storage system configured for bandwidth efficient processing of writes at sizes below a native page size
US9244623B1 (en) Parallel de-duplication of data chunks of a shared data object using a log-structured file system
US9842114B2 (en) Peer to peer network write deduplication
US10929042B2 (en) Data storage system, process, and computer program for de-duplication of distributed data in a scalable cluster system
CN104408111A (zh) 一种删除重复数据的方法及装置
CN107193503B (zh) 一种数据重删方法及存储设备
CN109144406A (zh) 分布式存储系统中元数据存储方法、系统及存储介质
CN109597903A (zh) 图像文件处理装置和方法、文件存储系统及存储介质
US10909001B1 (en) Storage system with snapshot group split functionality
US10747474B2 (en) Online cluster expansion for storage system with decoupled logical and physical capacity
US20200142627A1 (en) Storage system with storage volume undelete functionality
US10929239B2 (en) Storage system with snapshot group merge functionality
US11003629B2 (en) Dual layer deduplication for application specific file types in an information processing system
US11429517B2 (en) Clustered storage system with stateless inter-module communication for processing of count-key-data tracks
US11144229B2 (en) Bandwidth efficient hash-based migration of storage volumes between storage systems

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant