CN104932841B - 一种云存储系统中节约型重复数据删除方法 - Google Patents

一种云存储系统中节约型重复数据删除方法 Download PDF

Info

Publication number
CN104932841B
CN104932841B CN201510339033.3A CN201510339033A CN104932841B CN 104932841 B CN104932841 B CN 104932841B CN 201510339033 A CN201510339033 A CN 201510339033A CN 104932841 B CN104932841 B CN 104932841B
Authority
CN
China
Prior art keywords
data
data block
mrow
node
file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510339033.3A
Other languages
English (en)
Other versions
CN104932841A (zh
Inventor
徐小龙
涂群
李涛
徐佳
朱洁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ciic Yunfu Hangzhou Medical Technology Co Ltd
Original Assignee
Nanjing Post and Telecommunication University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing Post and Telecommunication University filed Critical Nanjing Post and Telecommunication University
Priority to CN201510339033.3A priority Critical patent/CN104932841B/zh
Publication of CN104932841A publication Critical patent/CN104932841A/zh
Application granted granted Critical
Publication of CN104932841B publication Critical patent/CN104932841B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Abstract

本发明公开了一种云存储系统中节约型重复数据删除方法,所述云存储系统由进行文件操作的客户端、存放文件系统元数据信息的元数据服务器、同步备份元数据的镜像文件和操作日志的二级元数据服务器、存储数据块的存储节点共同构成,其方法五个步骤针对云存储系统中数据的动态性,考虑数据本身的特性,将数据分为热点数据和非热点数据,对于不同的数据采用不同的重删时机,以保证系统的性能更佳,对于系统响应时间的降低效果会更好。

Description

一种云存储系统中节约型重复数据删除方法
技术领域
本发明涉及计算机数据存储领域,尤其涉及一种云存储系统中节约型重复数据删除方法。
背景技术
近年来,云计算、移动计算、物联网等技术的日益普及使得目前数据呈爆炸式增长,云存储技术应运而生。据国际数据公司IDC统计,2011年全球数据总量已达到1.8ZB(1ZB=109TB),预计到2020年全球产生的信息总量将达到35ZB。系统的存储压力也与日俱增。IDC调查还发现信息系统中有近75%的重复冗余数据,大量的重复性冗余数据浪费了大量的存储资源,而重复数据删除技术可以有效地缩减数据。
重复数据删除技术通过比对指纹值,保留唯一的数据,并用指向唯一数据的指针代替其它重复的数据。重复数据删除技术现已广泛应用于备份和归档系统,其中较为成熟的重复数据删除策略有基于文件语义感知的多层源端重复数据方法(Semantic-awareMultiered Deduplication,SAM-Dedupe)、基于因果关系的重复数据删除方法(Causality-Based Deduplication,CABdedupe)、基于应用感知的重复数据删除方法(Application-aware Deduplication,AA-Dedupe)等。它们各有优缺点,SAM-Dedupe通过对文件大小,文件位置,文件类型,文件时间戳的认知不断缩小指纹比对范围;CABdedupe通过捕获与记录备份数据集在多个时间点之间的因果关系,挖掘未修改的数据实施重删;AA-Dedupe通过对不同类型文件应用采用不同分块算法和指纹提取技术以获得最佳的重删效果,如静态应用数据或虚拟机镜像采用FSC(Fixed-Sized Chunking)算法分块和MD5算法提取指纹。这些策略以备份系统为环境,致使处理的数据相对比较静态,即上传到存储端后,用户不会对存储端中的数据直接进行修改,因此简单移植这些方法并不适用于云存储系统。目前,云存储系统中也有一些研究成果,侧重于系统安全性,或基于代理加密的重复数据删除机制,或基于交互式的PoW(Proof of Ownership)的重复数据删除机制,或基于数据流行度的安全重复数据删除机制。重复数据删除方法致使同一数据块被多个用户所共享,而用户对数据的修改呈多样性,如何保证数据的可用性和安全性是必要的。
现有技术普遍面向数据相对比较静态的备份和归档系统,从源端避免重复数据上传后并不考虑存储系统中的数据是否会被修改,而云存储系统中数据被多用户所共享,多用户修改数据导致数据的动态性增强,因此并不适用云存储系统。
发明内容
为解决上述技术问题,本发明采用的技术方案如下:
一种云存储系统中节约型重复数据删除方法,所述云存储系统由进行文件操作的客户端、存放文件系统元数据信息的元数据服务器、同步备份元数据的镜像文件和操作日志的二级元数据服务器、存储数据块的存储节点共同构成,该方法包括如下步骤:
步骤一:每个客户端对本地待上传文件进行预处理,进行文件级和数据块级的局部重复数据删除操作以防重复数据的再次上传,然后将待上传文件的元数据信息上传到元数据服务器;
步骤二:元数据服务器接收到来自不同客户端的元数据信息,依次读取文件指纹、数据块指纹,然后比对内存、硬盘和写缓存区的指纹索引信息,最后将未上传过的指纹值信息返回到各个客户端。
步骤三:客户端将未上传过的新数据上传到存储端,存储端对新数据进行存储,并更新存储端的元数据信息表。
步骤四:客户端发出要修改数据的请求,通过元数据服务器获取待修改数据所在的存储节点号,然后连接存储节点并直接对存储端的数据进行修改操作。
步骤五:存储端对修改后的数据块进行检测,当修改后的数据块通过比对指纹值发现已经在本节点上,直接对其进行重删;当修改后的数据块不在本节点上,则先保存到本节点上,再通过元数据服务器的比对发现在其他节点上,对该数据块采用延迟重删;当修改后的数据块通过比对本节点和元数据服务器上的指纹索引,发现既不在本节点上,又不在其他节点上,除了将该数据块保存到本节点上,元数据服务器还需要为该数据块创建副本。
所述的云存储系统其特征在于:元数据服务器上还含有过滤模块以及更新模块,过滤模块用于过滤不同客户端的重复数据信息,更新模块用于更新存储端全局数据元数据信息,即直接更新重复数据块的元数据信息,等接收到存储节点反馈的信息后才更新非重复数据块的元数据信息。
所述客户端有文件预处理模块、局部重删模块、元数据管理模块和数据传输模块,其中文件预处理模块依据文件的类型进行文件分类,然后交给局部重删模块进行文件级重删,经过文件级重删后的非重复文件再返还给文件预处理模块进行过滤,过滤掉小于64MB的非重复文件,最后再由局部重删模块进行数据块级重删。元数据管理模块用于记录客户端已上传数据块的指纹值信息,以避免本地重复数据的上传;数据传输模块则是客户端连接元数据服务器和存储节点的接口,即负责将待上传文件的元数据信息上传到元数据服务器,将非重复数据块上传到存储节点上。
所述存储节点包括存储模块、元数据管理模块、自检报告模块和延迟重删模块,其中存储模块负责数据块的存储,分配数据块的物理地址;元数据管理模块记录本节点上的数据块的元数据信息;自检报告模块是检测数据块的修改所带来的重复数据,交给延迟重删模块进行热点重复数据块的判断与相应的处理并将修改的元数据信息反馈给自检报告模块,然后报告给元数据服务器。
所述步骤一中文件级重复数据删除:利用MD5算法计算文件指纹值,比对大小和类型相等的文件指纹值,然后再与本地的元数据信息表进行比对,确定重复文件和非重复文件;
所述步骤一所述的数据块级重复数据删除如下:对于已经过滤掉小于64MB的非重复文件,利用定长分块算法进行分块,块长设为64MB,利用MD5算法计算数据块的指纹值,比对块长相等的数据块确定重复数据块。
所述步骤二中比对文件指纹时,若发现指纹值已存在,则不再比对数据块的指纹,否则还要比对构成文件的数据块指纹。
所述步骤三中每个存储端都保存着其上的数据块指纹及其存储地址的映射关系,通过数据块指纹,即可确定数据块存放的物理地址。
所述步骤四中客户端多个用户对数据块的修改会引入新的重复数据块,并且现有存储系统暂不考虑这些重复的数据块。备份系统中用户在本地对数据修改后再进行备份,备份的过程中过滤掉未作修改的部分;而云存储给用户带来的云端体验如同在本地,用户获取到想要修改的数据的地址,直接对数据进行修改。这正是云存储与备份系统的不同。
所述步骤五中延迟重删包含对热点重复数据块和非热点重复数据块两方面的操作,判断方法采用如下公式:
式中,节点i上某一数据块发生修改,并确定该数据块在节点i上不重复,在节点j上有重复数据块;表示在tp+1-tp时间段内某一个数据块在存储节点端除了节点i的平均访问次数;α是一个阈值,表示成为热点数据块单位时间内最少的访问次数;Aj(tp)和Aj(tp+1)分别表示tp和tp+1时刻节点j上某一数据块的访问次数;Z为数据块B所在节点的编号集合。
对于热点重复数据块则延迟重删以降低系统的访问响应时间;对于非热点重复数据块,则选择非热点重复数据块所在存储节点剩余容量相对较少的节点上的删除以实现负载均衡。
有益效果
1.现有的重复数据删除主要面向数据相对比较静态的备份和归档系统,并不适用云存储系统,而云存储系统中数据被多用户所共享,多用户修改数据导致数据的动态性增强。本发明针对云存储系统中数据的动态性,考虑数据本身的特性,将数据分为热点数据和非热点数据,对于不同的数据采用不同的重删时机,以保证系统的性能更佳。
2.本发明相比于云存储中现有的重复数据删除策略,结合副本管理机制,在保证数据可用性的前提下,采用延迟删除重复的热点数据块(暂将其视为副本),在一定时间内缓解了用户对热点数据块的访问压力,因此对于系统响应时间的降低效果会更好。
3.本发明将重复的非热点数据块也视为一个副本,比对所有副本所在节点的存储负载较大的节点上的副本删除,以实现存储负载更加均衡。
附图说明
图1为云存储重复数据删除系统的体系架构图
图2为延迟重复数据删除的过程图
图3为存储端对数据块修改的处理示意图
具体实施方式
为了方便描述,本发明给出了云存储重复数据删除系统的架构图,如附图1所示。该系统由m个客户端(Client),1个元数据服务器(Metadata Server,MS),1个二级元数据服务器(Secondary Metadata Server,SMS)和n个存储节点(Storage Node,Snode)共同构成。其中,客户端主要是发起文件上传、访问、修改、删除等操作的对象;元数据服务器主要存放文件系统的所有元数据信息,提供存取控制和全局重删的依据,它相当于整个系统架构的中枢。二级元数据服务器主要承担同步备份元数据的镜像文件和操作日志的工作;存储节点则负责存储实际的数据块。此外,系统中各个构成部分之间有着紧密的联系,相互协作。客户端与元数据服务器之间只进行元数据信息的交互,以减轻元数据的传输带宽负载。当客户端要上传数据时,通过元数据服务器以确定非重复的数据信息;当客户端要访问(包括修改)数据时,通过元数据服务器以确定数据所在节点信息。客户端与存储节点间会进行数据传输。存储节点也会与元数据服务器进行交互,比如存储节点上被修改的数据的元数据信息也要与元数据服务器交互,以确定是否为重复数据。同时,元数据服务器也会根据存储节点上数据访问的情况为其创建一定的副本以降低访问负载。对于只有一个元数据服务器的架构,一旦其出现故障,整个系统就会瘫痪,因此元数据服务器和二级元数据服务器之间为主备的关系。
客户端主要有文件预处理模块、局部重删模块、元数据管理模块和数据传输模块,其中文件预处理模块依据文件的类型进行文件分类,后期进行数据块级重删时过滤掉小于64MB的非重复文件;局部重删模块从文件级和数据块级两个角度进行重删操作;元数据管理模块主要记录客户端已上传数据块的指纹值信息,以避免本地重复数据的上传;数据传输模块负责将待上传文件的元数据信息上传到元数据服务器,将非重复数据块上传到存储节点上。各模块之间有着一定的联系,文件预处理模块处理后的文件交给局部重删模块进行文件级的重删,经过文件级重删后的非重复文件再返还给文件预处理模块进行过滤,最后再由局部重删模块进行数据块级的重删。整个过程中涉及到元数据信息的部分都要与元数据管理模块进行交互,数据传输模块则是客户端连接元数据服务器和存储节点的接口。
元数据服务器上有过滤模块和更新模块,其中过滤模块通过元数据服务器上的索引表(分布在内存和磁盘上)和写缓存区内的元数据信息过滤掉来自不同客户端的重复数据信息。对于重复的数据块,直接通过更新模块更新对应数据块的元数据信息;对于非重复的数据块,更新模块则在接收到存储节点反馈的信息后才将其元数据信息更新到磁盘上的索引表中。当存储节点的数据发生修改时,也会与元数据服务器进行交互,从而触发更新模块对元数据服务器上索引表的更新。
存储节点主要包括存储模块、元数据管理模块、自检报告模块和延迟重删模块,其中存储模块主要负责数据块的存储,记录数据块的物理地址;元数据管理模块记录本节点上的数据块的元数据信息;自检报告模块主要是检测数据块的修改所带来的重复数据,交给延迟重删模块,并将修改的元数据信息报告给元数据服务器;延迟重删模块对于检测到的重复数据块,则判断重复数据块是否为热点重复数据块,对于热点重复数据块延迟重删,对于非热点重复数据块则选择合适的节点上的相同数据块删除,此模块中涉及到元数据信息的部分需要与元数据管理模块和自检报告模块进行交互。
本发明按照以下各步骤进行重复数据删除:
步骤一:每个客户端对本地待上传文件进行预处理,进行文件级和数据块级的局部重复数据删除操作以防重复数据的再次上传,然后将待上传文件的元数据信息(包括待上传文件的指纹值及其所有数据块的指纹值)上传到元数据服务器。上传重复数据块的指纹值是为了更新元数据服务器中的数据块引用次数。其中,局部重复数据删除操作的具体描述如下:
①文件级重复数据删除:利用MD5算法计算文件指纹值,比对大小和类型相等的文件指纹值,然后再与本地的元数据信息表进行比对,确定重复文件和非重复文件;
②数据块级重复数据删除:对于非重复文件(已过滤掉小于64MB的文件),利用定长分块算法进行分块,块长设为64MB,利用MD5算法计算数据块的指纹值,比对块长相等的数据块确定重复数据块。
步骤二:元数据服务器接收到来自不同客户端的元数据信息,依次读取文件指纹、数据块指纹,然后比对内存、硬盘和写缓存区的指纹索引信息,最后将未上传过的指纹值信息返回到各个客户端。
比对文件指纹时,若发现指纹值已存在,则不再比对数据块的指纹,否则还要比对构成文件的数据块指纹。指纹索引表分布在内存和硬盘中,主要是因为内存的空间十分有限,故大部分指纹索引表存放在硬盘中。此外,写缓存区中也有部分数据块指纹值信息,这是因为存储端还未完成对客户端发送过来的新数据块的存储工作,而新数据的指纹值也不能写入硬盘中。
在指纹值比对的过程中,本发明通过牺牲文件分类、大小排序的时间,利用“类型和大小相同的文件极有可能为相似文件”和“不同类型文件共享的相同数据块几乎可以忽略”来不断缩小比对范围。
步骤三:客户端将未上传过的新数据上传到存储端,存储端对新数据进行存储,并更新存储端的元数据信息表。
对于重复的数据,客户端通过步骤一和步骤二已更新了其在元数据服务器上的信息,而对于非重复的数据,客户端将其直接上传到存储端。而每个存储端都保存着其上的数据块指纹及其存储地址的映射关系。通过数据块指纹,即可确定数据块存放的物理地址。
步骤四:客户端发出要修改数据的请求,通过元数据服务器获取待修改数据所在的存储节点号,然后连接存储节点并直接对存储端的数据进行修改操作。
客户端对数据的修改因用户而异,即享有同一数据块的用户修改的方式不同,而不同的数据也有可能会被修改成相同的数据,这便是云存储数据的动态性,也是云存储与备份系统的不同之处。备份系统是用户在本地对数据修改后再进行备份,备份的过程中过滤掉未作修改的部分,而云存储给用户带来的云端体验如同在本地,用户获取到想要修改的数据的地址,直接对数据进行修改。
步骤五:存储端对修改后的数据块进行检测,并判断修改后的数据块属于表1中的哪种情况并采取相应的措施,具体的方法原理如附图2所示。
表1数据块修改后的三种情况以及相应操作
对于修改后的数据块需要重新计算其指纹值,并比对本节点上的元数据信息进行判断,若发现该数据块已经在本节点上,则直接对其进行重删;若发现修改后的数据块不在本节点上,则先保存到本节点上,再比对元数据服务器发现在其他节点上,则进行延迟重删;若发现修改后的数据块在比对本节点和元数据服务器上的指纹索引后,既不在本节点上,又不在其他节点上,则元数据服务器还需要为该数据块创建副本。延迟重删包含对热点重复数据块和非热点重复数据块两方面的操作,判断方法采用公式(1),对于热点重复数据块则延迟重删以降低系统的访问响应时间;对于非热点重复数据块,则选择非热点重复数据块所在存储节点剩余容量相对较少的节点上的删除以实现负载均衡。
为了便于理解,补充定义一些概念:
热点数据块:一段时间内平均访问频率达到一定阈值的数据块,即满足公式(1)。不满足该条件的数据块,称为非热点数据块。
热点重复数据块:修改后的数据块A’在本节点上未发现,但在其他节点上发现与之相同的数据块A,并且该数据块A为热点数据块,则称A’为热点重复数据块。
非热点重复数据块:修改后的数据块B’在本节点上未发现,但但在其他节点上发现与之相同的数据块B,并且该数据块B为非热点数据块,则称B’为非热点重复数据块。
本发明还针对所述步骤五结合附图3给出了用户修改存储节点i(i=1,2,3,……,n)上的数据块,存储端进行处理的具体实现步骤,如下:
①Request请求修改:节点i接到来自客户端对某一数据块(记为A)的修改请求后,复制读取数据块A到内存中;
②Modify作出修改:节点i在内存中对数据块A进行修改(修改后的数据块记为B)则A的引用次数做减1操作,并利用MD5算法计算B的指纹值;
③Check重复检测:节点i快速在本地查找B的指纹值是否已经存在,以避免重复数据的存储。若无则跳到步骤⑤,否则记节点i上与数据块B相同的数据块为B’,并进行下一步;
④Deduplicate重复删除:删除数据块B,并使用指向数据块B’的指针替换数据块B的存储;
⑤Store存储:将修改后的新数据块B存储在节点i上,并更新节点i本地的元数据信息表;
⑥Check重复检测:节点i定期将更新的元数据信息发送到元数据服务器上,由元数据服务器判断其它节点j(j≠i)上是否有相同数据块。若找到则跳到步骤⑧,否则下一步;
⑦Replica创建副本:由元数据服务器为新数据块B创建副本;
⑧分类处理:元数据服务器判断重复数据块B是否为热点重复数据块,如公式(1),若是,则跳到步骤⑩,否则下一步;
式中,tp+1时刻节点i上某一数据块发生修改,并确定该数据块在节点i上不重复,在节点j上有重复数据块;表示在tp+1-tp时间段内某一个数据块在存储节点端(除了节点i)的平均访问次数;α是一个阈值,表示成为热点数据块单位时间内最少的访问次数;Aj(tp)和Aj(tp+1)分别表示tp和tp+1时刻节点j上某一数据块的访问次数;Z为数据块B所在节点的编号集合。
⑨贪心删除:tp+1时刻,比较非热点重复数据块B所在节点k(k∈Z)的剩余容量Sk(tp+1)和的大小,始终选择剩余容量相对较少的节点上的数据块B删除。更新元数据服务器。其中tp+1时刻存储端平均剩余容量的求取如公式(2)所示,
式中,Sm(tp+1)为tp+1时刻节点m的存储空间剩余容量,n为存储端的节总点数。
⑩延迟删除:tp+1时刻不删除热点数据块B,并同步数据块B的元数据到节点j上,等到下一时刻tp+2继续步骤⑧。

Claims (10)

1.一种云存储系统中节约型重复数据删除方法,所述云存储系统由进行文件操作的客户端、存放文件系统元数据信息的元数据服务器、同步备份元数据的镜像文件和操作日志的二级元数据服务器、存储数据块的存储节点共同构成,该方法包括如下步骤:
步骤一:每个客户端对本地待上传文件进行预处理,进行文件级和数据块级的局部重复数据删除操作以防重复数据的再次上传,然后将待上传文件的元数据信息上传到元数据服务器;
步骤二:元数据服务器接收到来自不同客户端的元数据信息,依次读取文件指纹、数据块指纹,然后比对内存、硬盘和写缓存区的指纹索引信息,最后将未上传过的指纹值信息返回到各个客户端;
步骤三:客户端将未上传过的新数据上传到存储端,存储端对新数据进行存储,并更新存储端的元数据信息表;
步骤四:客户端发出要修改数据的请求,通过元数据服务器获取待修改数据所在的存储节点号,然后连接存储节点并直接对存储端的数据进行修改操作;
步骤五:存储端对修改后的数据块进行检测,当修改后的数据块通过比对指纹值发现已经在本节点上,直接对其进行重删;当修改后的数据块不在本节点上,则先保存到本节点上,再通过元数据服务器的比对发现在其他节点上,对该数据块采用延迟重删;当修改后的数据块通过比对本节点和元数据服务器上的指纹索引,发现既不在本节点上,又不在其他节点上,除了将该数据块保存到本节点上,元数据服务器还需要为该数据块创建副本。
2.根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所述元数据服务器上还含有过滤模块以及更新模块,过滤模块用于过滤不同客户端的重复数据信息,更新模块用于更新存储端全局数据元数据信息,即直接更新重复数据块的元数据信息,等接收到存储节点反馈的信息后才更新非重复数据块的元数据信息。
3.根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所述客户端有文件预处理模块、局部重删模块、元数据管理模块和数据传输模块,其中文件预处理模块依据文件的类型进行文件分类,然后交给局部重删模块进行文件级重删,经过文件级重删后的非重复文件再返还给文件预处理模块进行过滤,过滤掉小于64MB的非重复文件,最后再由局部重删模块进行数据块级重删,元数据管理模块用于记录客户端已上传数据块的指纹值信息,以避免本地重复数据的上传;数据传输模块则是客户端连接元数据服务器和存储节点的接口,即负责将待上传文件的元数据信息上传到元数据服务器,将非重复数据块上传到存储节点上。
4.根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所述存储节点包括存储模块、元数据管理模块、自检报告模块和延迟重删模块,其中存储模块负责数据块的存储,分配数据块的物理地址;元数据管理模块记录本节点上的数据块的元数据信息;自检报告模块是检测数据块的修改所带来的重复数据,交给延迟重删模块进行热点重复数据块的判断与相应的处理并将修改的元数据信息反馈给自检报告模块,然后报告给元数据服务器。
5.根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所述步骤一中文件级重复数据删除:利用MD5算法计算文件指纹值,比对大小和类型相等的文件指纹值,然后再与本地的元数据信息表进行比对,确定重复文件和非重复文件。
6.根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所述步骤一所述的数据块级重复数据删除如下:对于已经过滤掉小于64MB的非重复文件,利用定长分块算法进行分块,块长设为64MB,利用MD5算法计算数据块的指纹值,比对块长相等的数据块确定重复数据块。
7.根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所述步骤二中比对文件指纹时,若发现指纹值已存在,则不再比对数据块的指纹,否则还要比对构成文件的数据块指纹。
8.根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所述步骤三中每个存储端都保存着其上的数据块指纹及其存储地址的映射关系,通过数据块指纹,即可确定数据块存放的物理地址。
9.根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所述步骤四中客户端多个用户对数据块的修改会引入新的重复数据块,并且现有存储系统暂不考虑这些重复的数据块,备份系统中用户在本地对数据修改后再进行备份,备份的过程中过滤掉未作修改的部分;而云存储给用户带来的云端体验如同在本地,用户获取到想要修改的数据的地址,直接对数据进行修改,这正是云存储与备份系统的不同。
10.根据权利要求1所述的一种云存储系统中节约型重复数据删除方法,其特征在于所述步骤五中延迟重删包含对热点重复数据块和非热点重复数据块两方面的操作,判断方法采用如下公式:
<mrow> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mrow> <msub> <mover> <mi>f</mi> <mo>&amp;OverBar;</mo> </mover> <mrow> <mi>a</mi> <mi>c</mi> <mi>c</mi> <mi>e</mi> <mi>s</mi> <mi>s</mi> </mrow> </msub> <mo>&gt;</mo> <mi>&amp;alpha;</mi> </mrow> </mtd> </mtr> <mtr> <mtd> <mrow> <msub> <mover> <mi>f</mi> <mo>&amp;OverBar;</mo> </mover> <mrow> <mi>a</mi> <mi>c</mi> <mi>c</mi> <mi>e</mi> <mi>s</mi> <mi>s</mi> </mrow> </msub> <mo>=</mo> <munder> <mo>&amp;Sigma;</mo> <mrow> <mi>j</mi> <mo>&amp;Element;</mo> <mi>Z</mi> </mrow> </munder> <mfrac> <mrow> <msub> <mi>A</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mrow> <mi>p</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> <mo>-</mo> <msub> <mi>A</mi> <mi>j</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>t</mi> <mi>p</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>t</mi> <mrow> <mi>p</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>-</mo> <msub> <mi>t</mi> <mi>p</mi> </msub> </mrow> </mfrac> <mo>,</mo> <mi>j</mi> <mo>&amp;NotEqual;</mo> <mi>i</mi> <mo>,</mo> <mi>j</mi> <mo>&amp;Element;</mo> <mi>Z</mi> <mo>,</mo> <msub> <mi>t</mi> <mrow> <mi>p</mi> <mo>+</mo> <mn>1</mn> </mrow> </msub> <mo>&gt;</mo> <msub> <mi>t</mi> <mi>p</mi> </msub> </mrow> </mtd> </mtr> </mtable> </mfenced> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>
式中,节点i上某一数据块发生修改,并确定该数据块在节点i上不重复,在节点j上有重复数据块;表示在tp+1-tp时间段内某一个数据块在存储节点端除了节点i的平均访问次数;α是一个阈值,表示成为热点数据块单位时间内最少的访问次数;Aj(tp)和Aj(tp+1)分别表示tp和tp+1时刻节点j上某一数据块的访问次数;Z为数据块B所在节点的编号集合;
对于热点重复数据块则延迟重删以降低系统的访问响应时间;对于非热点重复数据块,则选择非热点重复数据块所在存储节点剩余容量相对较少的节点上的删除以实现负载均衡。
CN201510339033.3A 2015-06-17 2015-06-17 一种云存储系统中节约型重复数据删除方法 Expired - Fee Related CN104932841B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510339033.3A CN104932841B (zh) 2015-06-17 2015-06-17 一种云存储系统中节约型重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510339033.3A CN104932841B (zh) 2015-06-17 2015-06-17 一种云存储系统中节约型重复数据删除方法

Publications (2)

Publication Number Publication Date
CN104932841A CN104932841A (zh) 2015-09-23
CN104932841B true CN104932841B (zh) 2018-05-08

Family

ID=54120022

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510339033.3A Expired - Fee Related CN104932841B (zh) 2015-06-17 2015-06-17 一种云存储系统中节约型重复数据删除方法

Country Status (1)

Country Link
CN (1) CN104932841B (zh)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105242881B (zh) * 2015-10-12 2018-02-16 创新科软件技术(深圳)有限公司 分布式存储系统及其数据读写方法
CN105302920B (zh) * 2015-11-23 2020-01-03 上海爱数信息技术股份有限公司 一种云存储数据的优化管理方法和系统
CN107239474B (zh) * 2016-03-29 2021-05-04 创新先进技术有限公司 一种数据记录方法及装置
CN106326035A (zh) * 2016-08-13 2017-01-11 南京叱咤信息科技有限公司 一种基于文件元数据的增量备份方法
CN106649556A (zh) * 2016-11-08 2017-05-10 深圳市中博睿存科技有限公司 基于分布式文件系统的多层重复数据删除方法及装置
CN106789180A (zh) * 2016-11-30 2017-05-31 郑州云海信息技术有限公司 一种元数据服务器的服务控制方法及装置
CN108243207B (zh) * 2016-12-23 2019-03-15 中科星图股份有限公司 一种网络云盘的数据存储方法
CN106713465B (zh) * 2016-12-27 2020-11-17 北京锐安科技有限公司 一种分布式存储系统
CN108334277B (zh) * 2017-05-10 2019-06-28 中兴通讯股份有限公司 一种日志写入及同步方法、装置、系统、计算机存储介质
US11113153B2 (en) * 2017-07-27 2021-09-07 EMC IP Holding Company LLC Method and system for sharing pre-calculated fingerprints and data chunks amongst storage systems on a cloud local area network
CN108008918A (zh) * 2017-11-30 2018-05-08 联想(北京)有限公司 数据处理方法、存储节点及分布式存储系统
CN107977168B (zh) * 2017-12-15 2021-01-01 安徽长泰信息安全服务有限公司 一种基于云存储的数据分散存储系统
CN110908589B (zh) * 2018-09-14 2023-06-27 阿里巴巴集团控股有限公司 数据文件的处理方法、装置、系统和存储介质
CN109344121A (zh) * 2018-09-27 2019-02-15 郑州云海信息技术有限公司 一种镜像文件的处理方法和装置
CN109522283B (zh) * 2018-10-30 2021-09-21 深圳先进技术研究院 一种重复数据删除方法及系统
US10977217B2 (en) * 2018-10-31 2021-04-13 EMC IP Holding Company LLC Method and system to efficiently recovering a consistent view of a file system image from an asynchronously remote system
CN109213738B (zh) * 2018-11-20 2022-01-25 武汉理工光科股份有限公司 一种云存储文件级重复数据删除检索系统及方法
CN109597798A (zh) * 2018-12-04 2019-04-09 平安科技(深圳)有限公司 网络文件删除方法、装置、计算机设备及存储介质
US10893090B2 (en) 2019-02-14 2021-01-12 International Business Machines Corporation Monitoring a process on an IoT device
KR102367733B1 (ko) * 2019-11-11 2022-02-25 한국전자기술연구원 정책기반 멀티레벨 PreChecker에 의한 고속 블록 중복 제거 및 전송 방법
CN111104381A (zh) * 2019-11-30 2020-05-05 北京浪潮数据技术有限公司 一种日志管理方法、装置、设备及计算机可读存储介质
CN111061790A (zh) * 2019-12-13 2020-04-24 江苏智谋科技有限公司 一种用于客户数据管理的信息采集系统及方法
CN111309794A (zh) * 2020-01-17 2020-06-19 青梧桐有限责任公司 一种数据存储引擎
CN111580755B (zh) * 2020-05-09 2022-07-05 杭州海康威视系统技术有限公司 分布式数据处理系统、分布式数据处理方法
CN113640321B (zh) * 2020-05-11 2024-04-02 同方威视技术股份有限公司 安检延迟优化方法以及设备
CN111787070B (zh) * 2020-06-10 2022-07-12 俞力奇 一种设备端资源管理方法
CN114115696A (zh) * 2020-08-25 2022-03-01 华为技术有限公司 内存重删方法、装置及存储介质
CN112000523A (zh) * 2020-08-25 2020-11-27 浪潮云信息技术股份公司 一种云备份的系统及方法
CN112511612A (zh) * 2020-11-19 2021-03-16 中国联合网络通信集团有限公司 云存储数据存储方法、装置、系统、设备及存储介质
CN112637153B (zh) * 2020-12-14 2024-02-20 航天壹进制(江苏)信息科技有限公司 一种存储加密去重的方法和系统
CN113326003B (zh) * 2021-05-25 2024-03-26 北京计算机技术及应用研究所 一种分布式存储系统元数据访问智能加速方法
CN113625961A (zh) * 2021-07-07 2021-11-09 暨南大学 一种基于贪心选择的自适应阈值重复数据删除方法
CN113590535B (zh) * 2021-09-30 2021-12-17 中国人民解放军国防科技大学 一种用于去重存储系统的高效数据迁移方法和装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103154950A (zh) * 2012-05-04 2013-06-12 华为技术有限公司 重复数据删除方法及装置
CN103186652A (zh) * 2011-12-28 2013-07-03 英业达股份有限公司 分布式的重复数据删除系统及其方法
CN103714123A (zh) * 2013-12-06 2014-04-09 西安工程大学 企业云存储分块对象重复数据删除和重组版本控制方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8874523B2 (en) * 2010-02-09 2014-10-28 Google Inc. Method and system for providing efficient access to a tape storage system

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103186652A (zh) * 2011-12-28 2013-07-03 英业达股份有限公司 分布式的重复数据删除系统及其方法
CN103154950A (zh) * 2012-05-04 2013-06-12 华为技术有限公司 重复数据删除方法及装置
CN103714123A (zh) * 2013-12-06 2014-04-09 西安工程大学 企业云存储分块对象重复数据删除和重组版本控制方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种云存储系统中重复数据删除机制;毕朝国;《计算机应用研究》;20141031;第31卷(第10期);第1节,2.1-2.5节 *

Also Published As

Publication number Publication date
CN104932841A (zh) 2015-09-23

Similar Documents

Publication Publication Date Title
CN104932841B (zh) 一种云存储系统中节约型重复数据删除方法
KR101956236B1 (ko) 데이터베이스 관리 시스템에서의 데이터 복제 기법
CN102591946B (zh) 使用索引划分和协调来进行数据去重复
JP5732536B2 (ja) 重複排除に基づくストレージシステムにおけるスケーラブル参照管理のためのシステム、方法及び非一時的なコンピュータ可読ストレージ媒体
He et al. Data deduplication techniques
CN103095843B (zh) 一种基于版本矢量的数据备份方法及客户端
US10025808B2 (en) Compacting change logs using file content location identifiers
US9773042B1 (en) Method and system for accelerating data movement using change information concerning difference between current and previous data movements
CN103714123B (zh) 企业云存储分块对象重复数据删除和重组版本控制方法
CN103118104B (zh) 一种基于版本矢量的数据还原方法及服务器
CN108255647B (zh) 一种samba服务器集群下的高速数据备份方法
KR101922044B1 (ko) 데이터베이스 이중화 무중단 정합성 복구 기법
CN107423426A (zh) 一种区块链块数据的数据归档方法及电子设备
US9547706B2 (en) Using colocation hints to facilitate accessing a distributed data storage system
CN103116615B (zh) 一种基于版本矢量的数据索引方法及服务器
US9965505B2 (en) Identifying files in change logs using file content location identifiers
CN104077380B (zh) 一种重复数据删除方法、装置及系统
JP6841024B2 (ja) データ処理装置,データ処理プログラムおよびデータ処理方法
CN104133882A (zh) 一种基于hdfs的小文件处理方法
CN109522283A (zh) 一种重复数据删除方法及系统
CN103227818A (zh) 终端、服务器、文件传输方法、文件存储管理系统和方法
CN107958079A (zh) 聚合文件删除方法、系统、装置及可读存储介质
US11210211B2 (en) Key data store garbage collection and multipart object management
CN108415671A (zh) 一种面向绿色云计算的重复数据删除方法及系统
CN103501319A (zh) 一种低延迟的面向小文件的分布式存储系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20150923

Assignee: Nanjing Nanyou Information Industry Technology Research Institute Co. Ltd.

Assignor: Nanjing Post & Telecommunication Univ.

Contract record no.: 2018320000285

Denomination of invention: Saving type duplicated data deleting method in cloud storage system

Granted publication date: 20180508

License type: Common License

Record date: 20181101

EE01 Entry into force of recordation of patent licensing contract
TR01 Transfer of patent right

Effective date of registration: 20200515

Address after: 310000 Room 215, gate 1, building 3, beishangxincheng, Xiacheng District, Hangzhou City, Zhejiang Province

Patentee after: CIIC Yunfu (Hangzhou) Medical Technology Co., Ltd

Address before: The city of Nanjing city of Jiangsu Province, 210003 Yuen Road Xianlin University No. 9

Patentee before: NANJING UNIVERSITY OF POSTS AND TELECOMMUNICATIONS

TR01 Transfer of patent right
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180508

Termination date: 20210617

CF01 Termination of patent right due to non-payment of annual fee