CN101908077A - 一种适用于云备份的重复数据删除方法 - Google Patents

一种适用于云备份的重复数据删除方法 Download PDF

Info

Publication number
CN101908077A
CN101908077A CN2010102639331A CN201010263933A CN101908077A CN 101908077 A CN101908077 A CN 101908077A CN 2010102639331 A CN2010102639331 A CN 2010102639331A CN 201010263933 A CN201010263933 A CN 201010263933A CN 101908077 A CN101908077 A CN 101908077A
Authority
CN
China
Prior art keywords
data
file
backup
cryptographic hash
backed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102639331A
Other languages
English (en)
Other versions
CN101908077B (zh
Inventor
冯丹
谭玉娟
田磊
许蔚
晏志超
周国惠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huazhong University of Science and Technology
Original Assignee
Huazhong University of Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huazhong University of Science and Technology filed Critical Huazhong University of Science and Technology
Priority to CN2010102639331A priority Critical patent/CN101908077B/zh
Publication of CN101908077A publication Critical patent/CN101908077A/zh
Application granted granted Critical
Publication of CN101908077B publication Critical patent/CN101908077B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Storage Device Security (AREA)

Abstract

本发明提出一种适用于云备份的重复数据删除方法,主要包括三层次的重复数据删除:第一层根据文件的修改时间和备份时间进行初步重复文件删除,第二层是全局的基于文件级的重复数据删除,第三层是局部的基于块级的重复数据删除。本发明重复数据删除方法层层递进,在数据压缩率和重复数据的查找开销之间达到了很好的平衡,有着很高的数据压缩率/查找开销的比值,在很短的时间内删除了大量的重复数据,减少了备份数据的传输和存储,解决了云备份系统中备份窗口过大和存储开销过大的问题。

Description

一种适用于云备份的重复数据删除方法
技术领域
本发明属于计算机信息存储技术领域,具体涉及一种适用于云备份的重复数据删除方法。
背景技术
随着云计算的兴起,将备份作为一种服务的方式提供给广大客户使用越来越受用户的欢迎,这种备份服务就叫做云备份。和传统的备份相比,云备份有着诸多优点。首先,云备份的安装、使用、维护都比传统的备份软件更简便。通常用户只需要在数据机安装精巧的客户端或插件,经过设置任务后,就可以按照每天或者每周的备份间隔来备份文件数据。其次,作为一种网络服务,云备份本身解决了数据的异地容灾问题,解决了用户自行构建容灾备份系统的技术难题。同时,与一般的备份相比,云备份更注重数据传输和数据存储的安全性。数据通常在传输的过程加密,已备份的数据由专业服务厂商负责维护其存储和访问安全性。另外,用户仅根据所索取的备份服务进行付费,在用户空闲不需要服务时,不必支付浪费额外的硬件和软件费用,并且服务的伸缩性很强,用户可以在不同的时候请求不同的服务,而不必担心软硬件的升级问题,这些问题由专业的服务厂商管理和维护,用户仅根据服务进行付费即可。
不过,目前的云备份系统还存在着一些挑战。其中最大的问题是备份数据的网络传输问题。由于云备份在广域网中传输备份数据,而广域网本身具有传输带宽很低,网络延迟很长的特点,用户每一次备份任务都需要很长的时间来传输备份数据,由此导致备份任务的备份窗口很大,以致用户难以接受。另外,随着用户备份数据的不断增加,备份服务提供方需要在数据中心提供巨大的存储空间和高昂的数据管理费用来保存和管理这些备份数据,给备份服务提供方的带来很大的存储开销。因此,无论是备份数据的网络传输问题,还是备份数据的存储开销问题,都需要一个很好的压缩算法来减少备份数据的传输和存储,以此来改善云备份系统的性能。
目前在云备份系统中用的最多的数据压缩方法是基于源端的重复数据删除方法。基于源端的重复数据删除法是指在备份数据到达备份目的地之前,将重复的数据在源端进行删除,消除重复数据的传输和存储。在现有的云备份系统中,主要源端重复数据删除的方法有两种:全局的基于块级的源端重复数据删除方法和局部的基于块级的源端重复数据删除方法。前者消除全局的所有重复数据块,而后者仅仅消除同一个用户的重复数据块。不过,由于内存容量有限,大部分的数据块指纹(数据块的唯一标识)都存放在磁盘上,因此,在鉴别某一个数据块是否已经存在时,需要查询和比对所有已存放在磁盘上的数据块指纹,这样会引入大量的磁盘访问。近年来,一些学者发现,基于块级的重复数据删除技术有着很高的这种数据块指纹的磁盘查找开销,会严重影响重复数据删除的性能和备份的性能。在全局的基于块级的源端重复数据删除方法中,由于要删除所有的重复数据块,需要在全局查询比对所有的数据块指纹,引入大规模的数据块指纹的磁盘查找,会导致重复数据删除的延时很长,致使备份窗口加大。而在局部的基于块级的源端重复数据删除方法中,由于只删除同一个用户的重复数据块,仅仅需要查询和比对同一个用户的数据块指纹,这种指纹的磁盘查找开销会比较小,不过,由于删除的重复数据变少,压缩率降低,广域网上传输的备份数据就会增多,同样会导致很大的备份窗口。
发明内容
本发明提出一种适用于云备份的重复数据删除方法,减少重复数据删除过程中重复数据的查找开销,加快重复数据删除的速度,减少备份数据的传输和存储,解决现有的云备份系统中备份窗口过大和存储开销过大的问题。
一种适用于云备份的重复数据删除方法,具体为:
(1)本地客户端接受用户备份任务请求,备份任务请求携带的信息有待备份文件内容信息、文件数据量、文件类型、最近一次修改时间和最近一次备份时间;
(2)若最近一次修改时间晚于最近一次的备份时间,进入步骤(3),否则,结束;
(3)实施全局的基于文件级的重复数据删除:
(3.1)本地客户端使用哈希函数计算待备份文件的文件哈希值;
(3.2)若待备份文件的数据量大于传送阈值,则本地客户端将文件哈希值传送给主服务器,进入步骤(3.3),否则,进入步骤(4);
(3.3)主服务器查询是否存有该文件哈希值,若存在,则结束,否则,记录该文件哈希值,并返回备份确认信息给本地客户端,进入步骤(4);
(4)实施局部的基于块级的重复数据删除:
(4.1)本地客户端对待备份文件进行分块;
(4.2)本地客户端使用哈希函数计算步骤(4.1)得到的每个数据块的哈希值;
(4.3)若待备份文件类型为压缩文件,则将所有数据块标记为待备份数据块;若待备份文件类型为非压缩文件,则对于每一个数据块,本地客户端查询是否存有其对应的哈希值,若不存有,则将该数据块标记为待备份数据块,并记录其对应的哈希值;
(5)本地客户端将步骤(4.3)标记的待备份数据块传送给存储服务器,存储服务器对这些数据块进行存储。
本发明的适用于云备份的重复数据删除方法包括三层,第一层为本地增量备份,本地增量备份通过判断文件的最近一次修改时间,来过滤最近一次备份后完全没有修改过的文件。第二层为全局的基于文件级的重复数据删除,在主服务器过滤已经备份过的重复文件,同时通过忽略小文件和利用重复文件的空间局部性来减少重复文件的查找空间,降低重复文件的查找开销。第三层为局部的基于块级的重复数据删除,在第二层的全局重复文件删除后,本地客户端将待备份文件进行分块,过滤此用户已经备份过的重复数据块,同时通过忽略压缩文件来降低重复数据块的查找开销。任何一次备份任务开始后,本地客户端的待备份文件将依次经过本地增量备份,全局的基于文件级的重复数据删除和局部的基于块级的重复数据删除这三层进行重复数据的删除。经过这三层处理之后,剩下没有备份过的数据块就是本次备份任务真正要备份的数据。
本发明具有如下的特点:
(1)本发明将文件级的重复数据删除技术和块级的重复数据删除技术结合,在数据压缩率和重复数据的查找开销之间达到了一个很好的平衡。文件级的重复数据删除达到的数据压缩率有限,但其重复数据的查找以文件为单位,查找开销相对于数据块级的查找开销较少。块级的重复数据删除能够达到很好的数据压缩率,但其重复数据块的查找开销很大。经过将文件级的重复数据删除技术和块级的重复数据删除技术这两者相结合,可以在数据压缩率和重复数据的查找开销之间达到了一个很好的平衡。
(2)本发明将全局的基于文件级重复数据删除和局部的基于块级重复数据删除结合,能够达到一个很高的数据压缩率/重复数据查找开销的比值。从全局的所有数据来看,全局的重复文件占主导地位,在重复文件之外的重复数据块很少,同时,由于重复文件的查找开销要小于重复数据块的查找开销,因此在全局使用基于文件级的重复数据删除能够以很小的重复数据查找开销换取很高的数据压缩率。而从局部的数据来看,通过使用增量备份过滤掉重复文件之后,重复的数据块占主导地位,使用局部的基于块级的重复数据删除能够达到很高的数据压缩率。
(3)本发明在本地增量备份时,通过判断文件的最近一次修改时间和最近一次备份时间,就可以快速判断出哪些文件没有进行修改过,而不需要使用文件级的重复数据删除或块级的重复数据删除方法来消除这些重复文件。
(4)本发明在全局的基于文件级的重复数据删除时,通过忽略小文件,大大减少了重复数据的查找开销,同时也提高了数据压缩率/重复数据查找开销的比值。在文件系统中,小文件的数量很大,拥有的数据量和占用的空间却非常少,通过忽略这些小文件,牺牲的很小压缩率来换取减少很大的重复文件的查找空间,大大减少了重复文件的查找开销。
(5)本发明在全局的基于文件级的重复数据删除时,通过利用重复文件的局部性,大大减少了重复文件的查找开销。由于重复文件的出现具有空间局部性,即当一个文件是重复文件时,与其相邻的其他文件都很有可能是重复文件。利用重复文件的这种空间局部性,当发现一个文件是重复文件时,将磁盘上与其相邻存储的其他文件哈希值预取到内存,以此来减少重复文件的磁盘查找开销。
(6)本发明在局部的基于块级的重复数据删除时,通过忽略压缩文件,大大减少了重复数据块的查找开销。压缩文件一般具有两个很强的特性:一是压缩文件很大,对压缩文件分块后其数据块非常多;二是压缩文件之间几乎很少重复的数据块。利用压缩文件的这种特性,通过忽略压缩文件,牺牲很小的数据压缩率来换取减少很大的重复数据块的查找空间,大大减少了重复数据块的查找开销。
综上所述,本发明通过将全局的基于文件级的重复数据删除和局部的基于块级的重复数据删除结合起来,同时通过考虑多种文件语义信息,如文件的修改时间,文件的大小,文件的类型及重复文件的局部性等,减少重复数据的查找空间,在数据压缩率和重复数据的查找开销之间达到了很好的平衡,有着很高的数据压缩率/重复数据查找开销的比值,在很短的时间内删除了大量的重复数据,减少了备份数据的传输和存储,解决了云备份系统中备份窗口过大和存储开销过大的问题。
附图说明
图1为本发明整体流程示意图;
图2为本发明中全局的基于文件级的重复数据删除示意图;
图3为本发明中局部的基于块级的重复数据删除示意图;
图4为本发明中主服务器文件哈希值查询的流程示意图。
具体实施方式
本发明涉及的主体有本地客户端,处于数据中心的主服务器和存储服务器。处于数据中心的主服务器和存储服务器构成云备份服务的提供方,本地客户端为云备份服务的使用方。本地客户端的数据通过广域网络备份到数据中心的存储服务器。
图1为本发明整体流程示意图,具体为:
(1)本地客户端接受用户备份任务请求,备份任务请求携带有待备份文件的相关信息,包括文件的内容、文件的数据量,文件的类型,最近一次修改时间和最近一次备份时间等;
(2)本地客户端查询待备份文件,若该文件最近一次的修改时间晚于该文件最近一次的备份时间,则表明此文件刚被修改过,需要重新备份,进入步骤(3),否则表明此文件没有进行最新修改,不需要再次备份,结束。
(3)实施全局的基于文件级的重复数据删除,详细流程见图2,
具体方式如下:
(3.1)本地客户端使用哈希函数计算待备份文件的文件哈希值,用文件哈希值对文件进行命名,文件哈希值为文件的唯一标识,任何具有相同文件哈希值的两个文件被认为是相同的文件;
(3.2)本地客户端将文件哈希值发送给主服务器;为了减少主服务器的负担,本地客户端只将大文件的文件哈希值发送给主服务器,即本地客户端只向主服务器询问大文件的文件哈希值是否已经备份过,小文件不参与此询问过程,直接进入步骤(4)进行局部的基于块级的重复数据删除。这里忽略小文件是因为本地客户端的小文件的数量很大,拥有的数据量和占用的空间确非常少,通过忽略这些小文件,可以牺牲的很小压缩率来换取主服务器查询开销的大大减少。若文件的数据量大于传送阈值,则认为其是大文件,否则,则认为其是小文件。传送阈值的大小由用户自行确定,可参考备份文件集的特征来确定。
(3.3)主服务器接收本地客户端发送过来的文件哈希值,查询是否存在该哈希值,若存在,则表明其对应文件已经备份过(被此用户或其他用户备份过),则无需再次备份,结束;若不存在,表明其对应文件没有备份过,记录该文件哈希值,并返回备份确认信息给本地客户端,告知本地客户端具有该文件哈希值的文件需要备份。
另外,由于主服务器的内存容量有限,大部分已经备份过的文件哈希值存储在磁盘上。当主服务器查询本地客户端发送过来的文件哈希值是否已经备份过时,需要访问磁盘上存储的文件哈希值,会引入大量的磁盘访问操作。为了减少查询过程中的磁盘访问操作,本发明利用重复文件的局部性(即当某一个文件已经备份过,和此文件相邻的其他文件也很可能已经备份过),将相邻的文件哈希值预取到内存中,使相邻文件哈希值的查询可以在内存中进行,从而减少对磁盘的访问。主服务器的文件哈希值查询的详细流程见图4:主服务器首先在内存中查需是否存在该文件哈希值,若存在,则表明该文件无须备份,结束;否则,进入磁盘继续查询是否存在该文件哈希值,若存在,则无须备份,但需将磁盘中与该文件哈希值存储位置相邻的哈希值调入内存(具体相邻界定范围由用户确定,推荐相邻5000~20000个文件哈希值),为下一个待备份文件的哈希值查询做好准备,结束,否则表明其对应文件需要备份,向本地服务器返回备份确认信息。
(4)实施局部的基于块级的重复数据删除,参考图3,具体方式如下;
(4.1)本地客户端使用变长分块算法,如基于指纹的分块算法(Rabin Fingerprint algorithm),对待备份文件进行分块。不局限于此分块方式,其它分块方式均可采用。
(4.2)本地客户端使用哈希函数计算每个数据块的哈希值,得到的数据块哈希值称为数据块指纹,使用数据指纹对每个数据块命名;数据块指纹为数据块的唯一标识,任何具有相同数据块指纹的两个数据块被认为是相同的数据块。
(4.3)本地客户端查询这些数据块指纹是否已经存在,若不存在,表明其对应数据块没有备份过,则将数据块指纹对应的数据块标记为待备份数据块,并记录该数据块指纹。为了减少本地客户端查询数据块指纹的开销,本地客户端只查询非压缩文件的数据块指纹,而对于压缩文件(比如音频文件,视频文件,图片文件,等等)的数据块,本地客户端将其全部标记为待备份数据块。这里忽略压缩文件主要是因为压缩文件具有两个很强的特性:一是压缩文件很大,对压缩文件分块后数据块非常多,二是压缩文件之间几乎很少重复的数据块。利用压缩文件的这种特性,通过忽略压缩文件,可以牺牲很小的数据压缩率来换取重复数据块的查询开销的大大减少。
(5)本地客户端将待备份数据块传送给存储服务器,存储服务器对这些数据块进行存储。

Claims (2)

1.一种适用于云备份的重复数据删除方法,具体为:
(1)本地客户端接受用户备份任务请求,备份任务请求携带的信息有待备份文件内容信息、文件数据量、文件类型、最近一次修改时间和最近一次备份时间;
(2)若最近一次修改时间晚于最近一次的备份时间,进入步骤(3),否则,结束;
(3)实施全局的基于文件级的重复数据删除:
(3.1)本地客户端使用哈希函数计算待备份文件的哈希值;
(3.2)若待备份文件的数据量大于传送阈值,则本地客户端将文件哈希值传送给主服务器,进入步骤(3.3),否则,进入步骤(4);
(3.3)主服务器查询是否存有该文件哈希值,若存在,则结束,否则,记录该文件哈希值,并返回备份确认信息给本地客户端,进入步骤(4);
(4)实施局部的基于块级的重复数据删除:
(4.1)本地客户端对待备份文件进行分块;
(4.2)本地客户端使用哈希函数计算步骤(4.1)得到的每个数据块的哈希值;
(4.3)若待备份文件类型为压缩文件,则将所有数据块标记为待备份数据块;若待备份文件类型为非压缩文件,则对于每一个数据块,本地客户端查询是否存有其对应的哈希值,若不存有,则将该数据块标记为待备份数据块,并记录其对应的哈希值;
(5)本地客户端将步骤(4.3)标记的待备份数据块传送给存储服务器,存储服务器对这些数据块进行存储。
2.根据权利要求1所述的重复数据删除方法,其特征在于,所述步骤(3.3)首先在内存中查询是否存在该文件哈希值,若存在,则结束;否则进入磁盘继续查询是否存在,若存在,则将磁盘中与该文件哈希值存储位置相邻的哈希值调入内存,为下一个待备份文件的哈希值查询做好准备,否则向本地客户端返回备份确认信息。
CN2010102639331A 2010-08-27 2010-08-27 一种适用于云备份的重复数据删除方法 Active CN101908077B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2010102639331A CN101908077B (zh) 2010-08-27 2010-08-27 一种适用于云备份的重复数据删除方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2010102639331A CN101908077B (zh) 2010-08-27 2010-08-27 一种适用于云备份的重复数据删除方法

Publications (2)

Publication Number Publication Date
CN101908077A true CN101908077A (zh) 2010-12-08
CN101908077B CN101908077B (zh) 2012-11-21

Family

ID=43263536

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2010102639331A Active CN101908077B (zh) 2010-08-27 2010-08-27 一种适用于云备份的重复数据删除方法

Country Status (1)

Country Link
CN (1) CN101908077B (zh)

Cited By (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102082791A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 数据备份实现方法、客户端和服务器及系统
CN102184218A (zh) * 2011-05-05 2011-09-14 华中科技大学 一种基于因果关系的重复数据删除方法
CN102185889A (zh) * 2011-03-28 2011-09-14 北京邮电大学 基于iSCSI的重复数据删除方法
CN102467514A (zh) * 2010-11-04 2012-05-23 英业达股份有限公司 重复数据删除系统
CN102495894A (zh) * 2011-12-12 2012-06-13 成都市华为赛门铁克科技有限公司 重复数据查找方法、装置及系统
CN102541683A (zh) * 2010-12-31 2012-07-04 北大方正集团有限公司 一种数据文件备份方法及装置
WO2012171244A1 (zh) * 2011-06-13 2012-12-20 北京卓微天成科技咨询有限公司 块级虚拟化存储设备上实现重复数据删除的方法及系统
WO2013040993A1 (en) * 2011-09-19 2013-03-28 International Business Machines Corporation Scalable deduplication system with small blocks
CN103020317A (zh) * 2013-01-10 2013-04-03 曙光信息产业(北京)有限公司 基于重复数据删除的数据压缩方法和装置
CN103049508A (zh) * 2012-12-13 2013-04-17 华为技术有限公司 一种数据处理方法及装置
CN103095843A (zh) * 2013-01-28 2013-05-08 刘海峰 一种基于版本矢量的数据备份方法及客户端
CN103116615A (zh) * 2013-01-28 2013-05-22 袁华强 一种基于版本矢量的数据索引方法及服务器
CN103227818A (zh) * 2013-03-27 2013-07-31 福建伊时代信息科技股份有限公司 终端、服务器、文件传输方法、文件存储管理系统和方法
CN103309975A (zh) * 2013-06-09 2013-09-18 华为技术有限公司 一种重复数据删除方法和设备
WO2013136339A1 (en) * 2012-03-15 2013-09-19 Hewlett-Packard Development Company, L.P. Regulating replication operation
CN103379021A (zh) * 2012-04-24 2013-10-30 中兴通讯股份有限公司 实现分布式消息队列的方法及系统
CN103412929A (zh) * 2013-08-16 2013-11-27 蓝盾信息安全技术股份有限公司 一种海量数据的存储方法
WO2014005552A1 (zh) * 2012-07-06 2014-01-09 中兴通讯股份有限公司 一种联合云盘客户端、服务器、系统和联合云盘服务方法
CN103731423A (zh) * 2013-12-25 2014-04-16 北京安码科技有限公司 一种安全的重复数据删除方法
CN103873438A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 压缩包上传去重系统及方法
CN104270474A (zh) * 2014-11-02 2015-01-07 佛山美阳瓴电子科技有限公司 一种在网络中分享信息的装置和方法
CN104380287A (zh) * 2012-06-14 2015-02-25 英派尔科技开发有限公司 数据去重管理
CN104503864A (zh) * 2014-11-20 2015-04-08 北京世纪高蓝科技有限公司 一种基于局域网的文件备份方法和装置
CN104636369A (zh) * 2013-11-07 2015-05-20 北京安码科技有限公司 一种可证明文件所有权的重复数据删除方法
CN104778095A (zh) * 2015-01-20 2015-07-15 成都携恩科技有限公司 一种云平台数据管理方法
CN105487819A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于任务策略的内存级数据快速存储方法
CN105740124A (zh) * 2016-02-01 2016-07-06 南京邮电大学 一种面向云计算监控系统的冗余数据过滤方法
CN105786655A (zh) * 2016-03-08 2016-07-20 成都云祺科技有限公司 一种虚拟机备份数据重复数据删除方法
CN105912622A (zh) * 2016-04-05 2016-08-31 重庆大学 一种针对无损压缩文件的数据去重方法
CN106610792A (zh) * 2016-07-28 2017-05-03 四川用联信息技术有限公司 云存储中一种重复数据删除算法
CN106921701A (zh) * 2015-12-25 2017-07-04 株式会社日立制作所 在物联网平台和物联网设备间传递监控结果的方法和装置
CN107037988A (zh) * 2017-04-06 2017-08-11 华中科技大学 一种基于文件级粒度的闪存安全删除方法及系统
CN107480267A (zh) * 2017-08-17 2017-12-15 无锡清华信息科学与技术国家实验室物联网技术中心 一种利用局部性提高文件差分同步速度的方法
CN108415671A (zh) * 2018-03-29 2018-08-17 上交所技术有限责任公司 一种面向绿色云计算的重复数据删除方法及系统
WO2018205471A1 (zh) * 2017-05-10 2018-11-15 深圳大普微电子科技有限公司 基于特征分析的数据存取方法、存储设备及存储系统
US10496490B2 (en) 2013-05-16 2019-12-03 Hewlett Packard Enterprise Development Lp Selecting a store for deduplicated data
US10592347B2 (en) 2013-05-16 2020-03-17 Hewlett Packard Enterprise Development Lp Selecting a store for deduplicated data
CN111538465A (zh) * 2020-07-07 2020-08-14 南京云信达科技有限公司 一种基于Linux高性能数据重删方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005004719A (ja) * 2003-06-12 2005-01-06 Hitachi Ltd ロールバックによるデータレプリケーション方式
US7103608B1 (en) * 2002-05-10 2006-09-05 Oracle International Corporation Method and mechanism for storing and accessing data
CN101075241A (zh) * 2006-12-26 2007-11-21 腾讯科技(深圳)有限公司 缓存处理方法以及缓存处理系统
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法
US20100153774A1 (en) * 2008-12-12 2010-06-17 Bizcon Solutions Limited Data storage system, method and data storage and backkup system

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7103608B1 (en) * 2002-05-10 2006-09-05 Oracle International Corporation Method and mechanism for storing and accessing data
JP2005004719A (ja) * 2003-06-12 2005-01-06 Hitachi Ltd ロールバックによるデータレプリケーション方式
CN101075241A (zh) * 2006-12-26 2007-11-21 腾讯科技(深圳)有限公司 缓存处理方法以及缓存处理系统
US20100153774A1 (en) * 2008-12-12 2010-06-17 Bizcon Solutions Limited Data storage system, method and data storage and backkup system
CN101706825A (zh) * 2009-12-10 2010-05-12 华中科技大学 一种基于文件内容类型的重复数据删除方法

Cited By (56)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102467514A (zh) * 2010-11-04 2012-05-23 英业达股份有限公司 重复数据删除系统
CN102082791A (zh) * 2010-12-31 2011-06-01 成都市华为赛门铁克科技有限公司 数据备份实现方法、客户端和服务器及系统
CN102541683A (zh) * 2010-12-31 2012-07-04 北大方正集团有限公司 一种数据文件备份方法及装置
CN102541683B (zh) * 2010-12-31 2015-07-15 北大方正集团有限公司 一种数据文件备份方法及装置
CN102185889A (zh) * 2011-03-28 2011-09-14 北京邮电大学 基于iSCSI的重复数据删除方法
CN102185889B (zh) * 2011-03-28 2014-01-22 北京邮电大学 基于iSCSI的重复数据删除方法
CN102184218A (zh) * 2011-05-05 2011-09-14 华中科技大学 一种基于因果关系的重复数据删除方法
CN102184218B (zh) * 2011-05-05 2012-11-21 华中科技大学 一种基于因果关系的重复数据删除方法
WO2012171244A1 (zh) * 2011-06-13 2012-12-20 北京卓微天成科技咨询有限公司 块级虚拟化存储设备上实现重复数据删除的方法及系统
US9747055B2 (en) 2011-09-19 2017-08-29 International Business Machines Corporation Scalable deduplication system with small blocks
US9081809B2 (en) 2011-09-19 2015-07-14 International Business Machines Corporation Scalable deduplication system with small blocks
US9075842B2 (en) 2011-09-19 2015-07-07 International Business Machines Corporation Scalable deduplication system with small blocks
GB2508325A (en) * 2011-09-19 2014-05-28 Ibm Scalable deduplication system with small blocks
US8478730B2 (en) 2011-09-19 2013-07-02 International Business Machines Corporation Scalable deduplication system with small blocks
US8484170B2 (en) 2011-09-19 2013-07-09 International Business Machines Corporation Scalable deduplication system with small blocks
WO2013040993A1 (en) * 2011-09-19 2013-03-28 International Business Machines Corporation Scalable deduplication system with small blocks
CN102495894A (zh) * 2011-12-12 2012-06-13 成都市华为赛门铁克科技有限公司 重复数据查找方法、装置及系统
US9824131B2 (en) 2012-03-15 2017-11-21 Hewlett Packard Enterprise Development Lp Regulating a replication operation
WO2013136339A1 (en) * 2012-03-15 2013-09-19 Hewlett-Packard Development Company, L.P. Regulating replication operation
CN103379021A (zh) * 2012-04-24 2013-10-30 中兴通讯股份有限公司 实现分布式消息队列的方法及系统
CN103379021B (zh) * 2012-04-24 2017-02-15 中兴通讯股份有限公司 实现分布式消息队列的方法及系统
CN104380287B (zh) * 2012-06-14 2018-01-26 英派尔科技开发有限公司 数据去重管理
CN104380287A (zh) * 2012-06-14 2015-02-25 英派尔科技开发有限公司 数据去重管理
WO2014005552A1 (zh) * 2012-07-06 2014-01-09 中兴通讯股份有限公司 一种联合云盘客户端、服务器、系统和联合云盘服务方法
CN103873438A (zh) * 2012-12-12 2014-06-18 鸿富锦精密工业(深圳)有限公司 压缩包上传去重系统及方法
TWI594138B (zh) * 2012-12-12 2017-08-01 鴻海精密工業股份有限公司 壓縮包上傳去重系統及方法
CN103049508A (zh) * 2012-12-13 2013-04-17 华为技术有限公司 一种数据处理方法及装置
CN103020317A (zh) * 2013-01-10 2013-04-03 曙光信息产业(北京)有限公司 基于重复数据删除的数据压缩方法和装置
CN103095843B (zh) * 2013-01-28 2018-01-30 刘海峰 一种基于版本矢量的数据备份方法及客户端
CN103116615A (zh) * 2013-01-28 2013-05-22 袁华强 一种基于版本矢量的数据索引方法及服务器
CN103095843A (zh) * 2013-01-28 2013-05-08 刘海峰 一种基于版本矢量的数据备份方法及客户端
CN103227818A (zh) * 2013-03-27 2013-07-31 福建伊时代信息科技股份有限公司 终端、服务器、文件传输方法、文件存储管理系统和方法
US10496490B2 (en) 2013-05-16 2019-12-03 Hewlett Packard Enterprise Development Lp Selecting a store for deduplicated data
US10592347B2 (en) 2013-05-16 2020-03-17 Hewlett Packard Enterprise Development Lp Selecting a store for deduplicated data
CN103309975A (zh) * 2013-06-09 2013-09-18 华为技术有限公司 一种重复数据删除方法和设备
CN103412929A (zh) * 2013-08-16 2013-11-27 蓝盾信息安全技术股份有限公司 一种海量数据的存储方法
CN104636369A (zh) * 2013-11-07 2015-05-20 北京安码科技有限公司 一种可证明文件所有权的重复数据删除方法
CN103731423A (zh) * 2013-12-25 2014-04-16 北京安码科技有限公司 一种安全的重复数据删除方法
CN104270474A (zh) * 2014-11-02 2015-01-07 佛山美阳瓴电子科技有限公司 一种在网络中分享信息的装置和方法
CN104503864A (zh) * 2014-11-20 2015-04-08 北京世纪高蓝科技有限公司 一种基于局域网的文件备份方法和装置
CN104778095B (zh) * 2015-01-20 2017-11-17 成都携恩科技有限公司 一种云平台数据管理方法
CN104778095A (zh) * 2015-01-20 2015-07-15 成都携恩科技有限公司 一种云平台数据管理方法
CN105487819A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于任务策略的内存级数据快速存储方法
CN106921701A (zh) * 2015-12-25 2017-07-04 株式会社日立制作所 在物联网平台和物联网设备间传递监控结果的方法和装置
CN106921701B (zh) * 2015-12-25 2020-08-14 株式会社日立制作所 在物联网平台和物联网设备间传递监控结果的方法和装置
CN105740124B (zh) * 2016-02-01 2018-05-08 南京邮电大学 一种面向云计算监控系统的冗余数据过滤方法
CN105740124A (zh) * 2016-02-01 2016-07-06 南京邮电大学 一种面向云计算监控系统的冗余数据过滤方法
CN105786655A (zh) * 2016-03-08 2016-07-20 成都云祺科技有限公司 一种虚拟机备份数据重复数据删除方法
CN105912622A (zh) * 2016-04-05 2016-08-31 重庆大学 一种针对无损压缩文件的数据去重方法
CN106610792A (zh) * 2016-07-28 2017-05-03 四川用联信息技术有限公司 云存储中一种重复数据删除算法
CN107037988A (zh) * 2017-04-06 2017-08-11 华中科技大学 一种基于文件级粒度的闪存安全删除方法及系统
CN107037988B (zh) * 2017-04-06 2019-08-30 华中科技大学 一种基于文件级粒度的闪存安全删除方法及系统
WO2018205471A1 (zh) * 2017-05-10 2018-11-15 深圳大普微电子科技有限公司 基于特征分析的数据存取方法、存储设备及存储系统
CN107480267A (zh) * 2017-08-17 2017-12-15 无锡清华信息科学与技术国家实验室物联网技术中心 一种利用局部性提高文件差分同步速度的方法
CN108415671A (zh) * 2018-03-29 2018-08-17 上交所技术有限责任公司 一种面向绿色云计算的重复数据删除方法及系统
CN111538465A (zh) * 2020-07-07 2020-08-14 南京云信达科技有限公司 一种基于Linux高性能数据重删方法

Also Published As

Publication number Publication date
CN101908077B (zh) 2012-11-21

Similar Documents

Publication Publication Date Title
CN101908077B (zh) 一种适用于云备份的重复数据删除方法
CN103324552B (zh) 两阶段单实例去重数据备份方法
US9959280B1 (en) Garbage collection of data tiered to cloud storage
US8082262B2 (en) Methods, systems, and devices supporting data access in a data processing system
US9588977B1 (en) Data and metadata structures for use in tiering data to cloud storage
CN101334797B (zh) 一种分布式文件系统及其数据块一致性管理的方法
CN101278540B (zh) 用于保持旨在与大型数据库对接的多层软件系统中的缓存内容的一致性的系统和方法
CN104123359B (zh) 一种分布式对象存储系统的资源管理方法
CN103548003B (zh) 用于提高去重复系统备份性能的客户端侧指纹缓存的方法和系统
US9727470B1 (en) Using a local cache to store, access and modify files tiered to cloud storage
CN102629247B (zh) 一种数据处理方法、装置和系统
CN104932956A (zh) 一种面向大数据的云容灾备份方法
CN103984640B (zh) 实现数据预取方法及装置
JP6841024B2 (ja) データ処理装置,データ処理プログラムおよびデータ処理方法
CN104813276A (zh) 从备份系统流式恢复数据库
CN104133882A (zh) 一种基于hdfs的小文件处理方法
US10042763B2 (en) Write back coordination node for cache latency correction
CN104520822A (zh) 数据存储应用编程界面
JP2003522360A (ja) 分散型メディアネットワーク及びメタデータサーバを含んだシステム
CN103198361B (zh) 基于多种优化机制的xacml策略评估引擎系统
CN110188080A (zh) 基于客户端高效缓存的远程文件数据访问性能优化方法
CN112788139A (zh) 一种区块链存储容量优化方法及系统
CN100498766C (zh) 基于数据库的海量文件管理系统与方法
CN103501339A (zh) 元数据处理方法及元数据服务器
CN115510072A (zh) 一种基于多租户SaaS应用平台的主数据引擎

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant