CN105302669B - 一种云备份过程中数据去重的方法和系统 - Google Patents

一种云备份过程中数据去重的方法和系统 Download PDF

Info

Publication number
CN105302669B
CN105302669B CN201510697536.8A CN201510697536A CN105302669B CN 105302669 B CN105302669 B CN 105302669B CN 201510697536 A CN201510697536 A CN 201510697536A CN 105302669 B CN105302669 B CN 105302669B
Authority
CN
China
Prior art keywords
data
backed
cloud backup
database
gas
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201510697536.8A
Other languages
English (en)
Other versions
CN105302669A (zh
Inventor
蒋晓宁
赵文文
甘志刚
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Gongshang University
Original Assignee
Zhejiang Gongshang University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Gongshang University filed Critical Zhejiang Gongshang University
Priority to CN201510697536.8A priority Critical patent/CN105302669B/zh
Publication of CN105302669A publication Critical patent/CN105302669A/zh
Application granted granted Critical
Publication of CN105302669B publication Critical patent/CN105302669B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用于数据处理领域,提供了一种云备份过程中数据去重的方法,所述方法包括:云备份客户端对待备份数据进行分类处理;云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块;云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端;云备份服务器端根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,并根据检索结果进行后续处理。实施本发明实施例可以提高数据去重的效率。

Description

一种云备份过程中数据去重的方法和系统
技术领域
本发明属于数据处理领域,尤其涉及一种云备份过程中数据去重的方法和系统。
背景技术
随着大数据时代的快速到来,信息世界的数据量呈现爆发式的增长,数据的呈现PB、EB,甚至ZB级别的增长。研究指出,到2020年全球数据量将达到40ZB。伴随着数据的增长,数据管理中心所面临的问题也越来越多,存储介质的消耗、维护工作越来越困难,普通的一些小公司和个人已经无法单独进行数据管理工作。他们更多的将目光投向当前市场上备受关注的云存储技术,这种技术可以大大降低公司和个人的数据管理成本,同时云存储技术也为这些公司和个人提供了一些更加便捷的获取数据的方式。在这种需求的驱动下,云环境下的文件去重问题的研究变的十分重要。
目前大多数备份系统采用的去重方式是整文件去重,没有细分到进行文件块级去重,因此系统整体去重率偏低,大多数备份软件都是对所有文件采用同一种去重方法,而不同类型的文件其内部数据重复率不一样,因此单一的去重算法使得系统去重效率偏低。
发明内容
本发明实施例的目的在于提供一种云备份过程中数据去重的方法和系统,以解决现有技术去重效率低下的问题。
本发明实施例是这样实现的,一种云备份过程中数据去重的方法,所述方法包括:
云备份客户端对待备份数据进行分类处理;
云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块;
云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端,所述子数据库根据所述待备份数据的类型建立;
云备份服务器端根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,如果所述数据库中有相同的数据块,则通知所述云备份客户端终止上传所述待备份数据,如果所述数据库中没有相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。
本发明实施例还提供了一种云备份过程中数据去重的系统,所述系统包括:
云备份客户端,用于对待备份数据进行分类处理,对所述经过分类的待备份数据使用预设的切块算法进行切块,使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端,所述子数据库根据所述待备份数据的类型建立。
云备份服务器端,用于接收所述云备份客户端发送的指纹信息,根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,如果所述数据库中有相同的数据块,则通知所述云备份客户端终止上传所述待备份数据,如果所述数据库中没有相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。
本发明实施例,云备份客户端对待备份数据进行分类处理,对经过分类的待备份数据使用预设的切块算法进行切块,使用子数据库和主数据库存储经过切块的待备份数据的指纹信息,并将指纹信息发送到云备份服务器端,云备份服务器端根据指纹信息对云备份服务器端本地的数据库进行全局检索,根据检索结果进行后续处理,使得云备份过程中去重效率得到提升。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的云备份过程中数据去重方法的流程图;
图2为本发明实施例提供的切块过程的示意图;
图3为本发明实施例提供的存储指纹信息的示意图;
图4为本发明实施例提供的过滤数据块的示意图;
图5为本发明实施例提供的云备份过程中数据去重系统的结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
为了说明本发明所述的技术方案,下面通过具体实施例来进行说明。
实施例一
如图1所示为本发明实施例提供的云备份过程中数据去重方法的流程图,所述方法包括以下步骤:
步骤S101,云备份客户端对待备份数据进行分类处理。
在本发明实施例中,云备份客户端首先对待备份的数据进行分类处理,将待备份的数据分类为以下类别中的一种或多种:
1、FSCF(Fixed-Size Chunk File,简称:定长块文件),FSCF是指文件内容一次成型,变动小,内部有冗余的文件,该类文件包括:系统镜像文件、虚拟机文件等;
2、DSCF(Dynamic-Size Chunk File,简称:动长块文件),DSCF是指文件内容频繁变更,内部有冗余的文件,该类文件包括:word文件、报表文件等;
3、NNCF(No Need Cut File,简称:无需切分文件),NNCF是指内部冗余极少,去重成本高于完整存储文件成本的文件,该类文件包括:视频文件、音频文件等;
4、SCF(Structural Chunk File,简称:结构块文件),SCF是指具有固定结构类型的文件,该类文件包括:Html文件、邮件文件等。
步骤S102,云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块。
在本发明实施例中,云备份客户端在将待备份数据分类了之后,使用预设的切块算法对待备份数据进行备份,其中,切块算法包括多种不同的切块算法。所述云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块的步骤,包括:
1、使用定长切分算法FSP对FSCF进行切块;和/或,
2、使用基于内容的切块算法CDC对DSCF和SCF进行切块;和/或,
3、使用基于文件的切块算法WFD对NNCF进行切块。
其中,FSP(Fixed-Size Partition,简称:定长切分算法)切分出的数据块的大小是固定的,块的大小一般是4kb~10mb;CDC(Content-Defined Chunking,简称:基于内容的切块算法)切分出的数据块的大小是非固定的,其对DSCF和SCF的切块效率很高;WFD(WholeFile Detection,简称:基于文件的切块算法)无法检测出文件内部的冗余,其只是文件间的切块。
通过该步骤,云备份客户端可以建立切块以后的数据与指纹一一对应的集合。
如图2所示为本发明实施例提供的切块过程的示意图。
步骤S103,云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端,所述子数据库根据所述待备份数据的类型建立。
在本发明实施例中,待备份数据在备份过程中会产生数量巨大的文件快,这些文件块的索引效率是影响去重性能的重要因素,为了提高文件快的去重效率,采用多个子数据库和一个主数据库的方式来存储文件快的指纹信息,所述子数据库根据待备份数据的类型建立。所述云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,包括:
1、根据数据块的类型进行所述子数据库检索。
在本发明实施例中,相同类型的文件出现相同数据块的概率远大于不同类型的文件出现相同数据块的概率,因此优先对子数据库进行检索,如果子数据库中存在相同的数据块,则直接丢弃待备份数据。
2、如果在所述子数据库中没有检索到相同的数据块,则对所述主数据库进行检索。
在本发明实施例中,如果在子数据库中没有检索到相同的数据块,则对主数据库进行检索,如果在主数据库中检索到相同的数据块,则将检索的相同数据块的索引插入其类型对应的子数据库中,并丢弃待备份数据。
3、如果在所述主数据库中没有检索到相同的数据块,则在所述子数据库和所述主数据库分别存储所述待备份数据的指纹信息。
在本发明实施例中,如果在主数据库中也没有检索到与待备份数据相同的数据块,则表示待备份数据是新的数据,将待备份数据的指纹信息分别存储到主数据库和对应的子数据库。
如图3所示为本发明实施例提供的存储指纹信息的示意图。
步骤S104,云备份服务器端根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,如果所述数据库中有相同的数据块,则通知所述云备份客户端终止上传所述待备份数据,如果所述数据库中没有相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。
在本发明实施例中,云备份客户端将待备份数据的指纹信息发送到云备份服务器端,云备份服务器端对指纹信息进行全局检索,根据检索结果进行后续处理,包括:
如果检索到相同的指纹信息,表示云备份服务器端存储有相同的数据块,云,则通知云备份客户端终止上传待备份数据;或者,
如果没有检索到相同的指纹信息,表示云备份服务器端没有存储相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。
本发明实施例,云备份客户端对待备份数据进行分类处理,对经过分类的待备份数据使用预设的切块算法进行切块,使用子数据库和主数据库存储经过切块的待备份数据的指纹信息,并将指纹信息发送到云备份服务器端,云备份服务器端根据指纹信息对云备份服务器端本地的数据库进行全局检索,根据检索结果进行后续处理,使得云备份过程中去重效率得到提升。
作为本发明的一个可选实施例,在所述云备份客户端对待备份数据进行分类处理的步骤之后,所述方法还包括以下步骤:
云备份客户端根据预设的大小阈值对所述经过分类处理的待备份数据进行过滤,并将小于所述大小阈值的待备份数据合并为大于所述大小阈值的待备份数据。
在本发明实施例中,在数据中存在一种大小不超过10kb的微小数据,这种微小数据会增加备份过程中系统的I/O操作次数,因此需要根据预设的文件大小阈值对待备份数据进行过滤,小于大小阈值的数据可以确定为微小数据,并将微小数据合并为大于大小阈值的非微小数据。
需要指出的是,为了保证微小数据可以恢复,在将微小数据合并为非微小数据的过程中,需要建立一个key-value表来记录微小数据合并的相关信息,其中,key表示微小数据的指纹,value表示合并后的非微小数据的指纹。
如图4所示为本发明实施例提供的过滤数据块的示意图。
实施例二
如图5所示为本发明实施例提供的云备份过程中数据去重系统的结构图,为了便于说明,仅示出与本发明实施例相关的部分,包括:
云备份客户端501,用于对待备份数据进行分类处理,对所述经过分类的待备份数据使用预设的切块算法进行切块,使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端502,所述子数据库根据所述待备份数据的类型建立。
云备份服务器端502,用于接收所述云备份客户端501发送的指纹信息,根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,如果所述数据库中有相同的数据块,则通知所述云备份客户端终止上传所述待备份数据,如果所述数据库中没有相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。
在本发明实施例中,云备份客户端首先对待备份的数据进行分类处理,将待备份的数据分类为以下类别中的一种或多种:
1、FSCF(Fixed-Size Chunk File,简称:定长块文件),FSCF是指文件内容一次成型,变动小,内部有冗余的文件,该类文件包括:系统镜像文件、虚拟机文件等;
2、DSCF(Dynamic-Size Chunk File,简称:动长块文件),DSCF是指文件内容频繁变更,内部有冗余的文件,该类文件包括:word文件、报表文件等;
3、NNCF(No Need Cut File,简称:无需切分文件),NNCF是指内部冗余极少,去重成本高于完整存储文件成本的文件,该类文件包括:视频文件、音频文件等;
4、SCF(Structural Chunk File,简称:结构块文件),SCF是指具有固定结构类型的文件,该类文件包括:Html文件、邮件文件等。
云备份客户端在将待备份数据分类了之后,使用预设的切块算法对待备份数据进行备份,其中,切块算法包括多种不同的切块算法。所述云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块的步骤,包括:
1、使用定长切分算法FSP对FSCF进行切块;以及,
2、使用基于内容的切块算法CDC对DSCF和SCF进行切块;以及,
3、使用基于文件的切块算法WFD对NNCF进行切块。
其中,FSP(Fixed-Size Partition,简称:定长切分算法)切分出的数据块的大小是固定的,块的大小一般是4kb~10mb;CDC(Content-Defined Chunking,简称:基于内容的切块算法)切分出的数据块的大小是非固定的,其对DSCF和SCF的切块效率很高;WFD(WholeFile Detection,简称:基于文件的切块算法)无法检测出文件内部的冗余,其只是文件间的切块。
通过该步骤,云备份客户端可以建立切块以后的数据与指纹一一对应的集合。
待备份数据在备份过程中会产生数量巨大的文件快,这些文件块的索引效率是影响去重性能的重要因素,为了提高文件快的去重效率,采用多个子数据库和一个主数据库的方式来存储文件快的指纹信息,所述子数据库根据待备份数据的类型建立。所述云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,包括:
1、根据数据块的类型进行所述子数据库检索。
在本发明实施例中,相同类型的文件出现相同数据块的概率远大于不同类型的文件出现相同数据块的概率,因此优先对子数据库进行检索,如果子数据库中存在相同的数据块,则直接丢弃待备份数据。
2、如果在所述子数据库中没有检索到相同的数据块,则对所述主数据库进行检索。
在本发明实施例中,如果在子数据库中没有检索到相同的数据块,则对主数据库进行检索,如果在主数据库中检索到相同的数据块,则将检索的相同数据块的索引插入其类型对应的子数据库中,并丢弃待备份数据。
3、如果在所述主数据库中没有检索到相同的数据块,则在所述子数据库和所述主数据库分别存储所述待备份数据的指纹信息。
在本发明实施例中,如果在主数据库中也没有检索到与待备份数据相同的数据块,则表示待备份数据是新的数据,将待备份数据的指纹信息分别存储到主数据库和对应的子数据库。
云备份客户端将待备份数据的指纹信息发送到云备份服务器端,云备份服务器端对指纹信息进行全局检索,根据检索结果进行后续处理,包括:
如果检索到相同的指纹信息,表示云备份服务器端存储有相同的数据块,云,则通知云备份客户端终止上传待备份数据;或者,
如果没有检索到相同的指纹信息,表示云备份服务器端没有存储相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。
本发明实施例,云备份客户端对待备份数据进行分类处理,对经过分类的待备份数据使用预设的切块算法进行切块,使用子数据库和主数据库存储经过切块的待备份数据的指纹信息,并将指纹信息发送到云备份服务器端,云备份服务器端根据指纹信息对云备份服务器端本地的数据库进行全局检索,根据检索结果进行后续处理,使得云备份过程中去重效率得到提升。
作为本发明的一个可选实施例,所述云备份客户端还用于:根据预设的大小阈值对所述经过分类处理的待备份数据进行过滤,并将小于所述大小阈值的待备份数据合并为大于所述大小阈值的待备份数据。
在本发明实施例中,在数据中存在一种大小不超过10kb的微小数据,这种微小数据会增加备份过程中系统的I/O操作次数,因此需要根据预设的文件大小阈值对待备份数据进行过滤,小于大小阈值的数据可以确定为微小数据,并将微小数据合并为大于大小阈值的非微小数据。
需要指出的是,为了保证微小数据可以恢复,在将微小数据合并为非微小数据的过程中,需要建立一个key-value表来记录微小数据合并的相关信息,其中,key表示微小数据的指纹,value表示合并后的非微小数据的指纹。
本领域普通技术人员还可以理解,实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,所述的程序可以在存储于一计算机可读取存储介质中,所述的存储介质,包括ROM/RAM、磁盘、光盘等。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种云备份过程中数据去重的方法,其特征在于,所述方法包括:
云备份客户端对待备份数据进行分类处理;
云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块;
云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端,所述子数据库根据所述待备份数据的类型建立;所述云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,包括:根据数据块的类型进行所述子数据库检索;如果在所述子数据库中没有检索到相同的数据块,则对所述主数据库进行检索;如果在所述主数据库中没有检索到相同的数据块,则在所述子数据库和所述主数据库分别存储所述待备份数据的指纹信息;
云备份服务器端根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,如果本地的数据库中有相同的数据块,则通知所述云备份客户端终止上传所述待备份数据,如果本地的数据库中没有相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。
2.如权利要求1所述的方法,其特征在于,所述待备份数据块的类型包括以下类型中的一种或多种:
定长块文件FSCF;和/或,
动长块文件DSCF;和/或,
无需切分文件NNCF;和/或,
结构块文件SCF。
3.如权利要求2所述的方法,其特征在于,所述云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块的步骤,包括:
使用定长切分算法FSP对FSCF进行切块;和/或,
使用基于内容的切块算法CDC对DSCF和SCF进行切块;和/或,
使用基于文件的切块算法WFD对NNCF进行切块。
4.如权利要求1~3任一项所述的方法,其特征在于,在所述云备份客户端对待备份数据进行分类处理的步骤之后,所述方法还包括以下步骤:
云备份客户端根据预设的大小阈值对所述经过分类处理的待备份数据进行过滤,并将小于所述大小阈值的待备份数据合并为大于所述大小阈值的待备份数据。
5.一种云备份过程中数据去重的系统,其特征在于,所述系统包括:
云备份客户端,用于对待备份数据进行分类处理,对所述经过分类的待备份数据使用预设的切块算法进行切块,使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,并将所述指纹信息发送到云备份服务器端,所述子数据库根据所述待备份数据的类型建立;所述云备份客户端使用子数据库和主数据库存储所述经过切块的待备份数据的指纹信息,包括:根据数据块的类型进行所述子数据库检索;如果在所述子数据库中没有检索到相同的数据块,则对所述主数据库进行检索;如果在所述主数据库中没有检索到相同的数据块,则在所述子数据库和所述主数据库分别存储所述待备份数据的指纹信息;
云备份服务器端,用于接收所述云备份客户端发送的指纹信息,根据所述指纹信息对云备份服务器端本地的数据库进行全局检索,如果本地的数据库中有相同的数据块,则通知所述云备份客户端终止上传所述待备份数据,如果本地的数据库中没有相同的数据块,将所述指纹信息写入云备份服务器端的数据库,并通知所述云备份客户端上传所述待备份数据。
6.如权利要求5所述的系统,其特征在于,所述待备份数据块的类型包括以下类型中的一种或多种:
定长块文件FSCF;和/或,
动长块文件DSCF;和/或,
无需切分文件NNCF;和/或,
结构块文件SCF。
7.如权利要求6所述的系统,其特征在于,所述云备份客户端对所述经过分类的待备份数据使用预设的切块算法进行切块的步骤,包括:
使用定长切分算法FSP对FSCF进行切块;和/或,
使用基于内容的切块算法CDC对DSCF和SCF进行切块;和/或,
使用基于文件的切块算法WFD对NNCF进行切块。
8.如权利要求5~7任一项所述的系统,其特征在于,所述云备份客户端还用于:
根据预设的大小阈值对所述经过分类处理的待备份数据进行过滤,并将小于所述大小阈值的待备份数据合并为大于所述大小阈值的待备份数据。
CN201510697536.8A 2015-10-23 2015-10-23 一种云备份过程中数据去重的方法和系统 Expired - Fee Related CN105302669B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510697536.8A CN105302669B (zh) 2015-10-23 2015-10-23 一种云备份过程中数据去重的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510697536.8A CN105302669B (zh) 2015-10-23 2015-10-23 一种云备份过程中数据去重的方法和系统

Publications (2)

Publication Number Publication Date
CN105302669A CN105302669A (zh) 2016-02-03
CN105302669B true CN105302669B (zh) 2019-04-30

Family

ID=55199961

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510697536.8A Expired - Fee Related CN105302669B (zh) 2015-10-23 2015-10-23 一种云备份过程中数据去重的方法和系统

Country Status (1)

Country Link
CN (1) CN105302669B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930865B (zh) * 2016-04-18 2020-06-05 重庆市勘测院 城市建设用地分类提取及评估方法
CN107249035B (zh) * 2017-06-28 2020-05-26 重庆大学 一种等级动态可变的共享重复数据存储和读取方法
CN108984343B (zh) * 2018-07-10 2021-12-14 西北工业大学 一种基于内容分析的虚拟机备份及存储管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930060A (zh) * 2012-11-27 2013-02-13 孙振辉 一种数据库快速索引的方法及装置
CN103324552A (zh) * 2013-06-06 2013-09-25 西安交通大学 两阶段单实例去重数据备份方法
CN104902010A (zh) * 2015-04-30 2015-09-09 浙江工商大学 一种云端存储文件的方法和系统
CN104932956A (zh) * 2015-06-19 2015-09-23 华南理工大学 一种面向大数据的云容灾备份方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949197B2 (en) * 2011-10-31 2015-02-03 Oracle International Corporation Virtual full backups

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930060A (zh) * 2012-11-27 2013-02-13 孙振辉 一种数据库快速索引的方法及装置
CN103324552A (zh) * 2013-06-06 2013-09-25 西安交通大学 两阶段单实例去重数据备份方法
CN104902010A (zh) * 2015-04-30 2015-09-09 浙江工商大学 一种云端存储文件的方法和系统
CN104932956A (zh) * 2015-06-19 2015-09-23 华南理工大学 一种面向大数据的云容灾备份方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于相同数据检测的去重技术在存储系统中的应用与实现;杨复勇;《中国优秀硕士学位论文全文数据库》;20150415(第4期);第18页第1段、图3-1 *

Also Published As

Publication number Publication date
CN105302669A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
US9223794B2 (en) Method and apparatus for content-aware and adaptive deduplication
US7433869B2 (en) Method and apparatus for document clustering and document sketching
US8898138B2 (en) Efficiently indexing and searching similar data
CN103034659B (zh) 一种重复数据删除的方法和系统
US8332404B2 (en) Data processing apparatus and method of processing data
CN105069111B (zh) 云存储中基于相似性的数据块级数据去重方法
CN106611035A (zh) 一种云存储中重复数据删除的检索算法
CN105511812A (zh) 一种存储系统大数据优化方法及装置
CN107515931B (zh) 一种基于聚类的重复数据检测方法
CN105302669B (zh) 一种云备份过程中数据去重的方法和系统
CN103955530A (zh) 一种在线重复数据删除系统的数据重建优化方法
CN106990914B (zh) 数据删除方法及装置
Tan et al. Improving restore performance in deduplication-based backup systems via a fine-grained defragmentation approach
CN113672170A (zh) 一种冗余数据标记及去除方法
CN114610708A (zh) 一种向量数据处理方法及装置、电子设备及存储介质
CN117493340A (zh) 一种面向公共安全领域的多模态数据一体化融合分析系统
Zhang et al. Improving the performance of deduplication-based backup systems via container utilization based hot fingerprint entry distilling
Thwel et al. An efficient indexing mechanism for data deduplication
Chen et al. A duplicate image deduplication approach via Haar wavelet technology
CN106909623B (zh) 一种支持高效海量数据分析和检索的数据装置及数据存储方法
Zhou et al. Adaptive subspace symbolization for content-based video detection
KR101545273B1 (ko) 클러스터링 및 해싱을 이용하여 빅데이터 텍스트의 중복여부를 검출하는 중복문서 검출장치 및 방법
CN109697197B (zh) 一种雕复Access数据库文件的方法
CN111177092A (zh) 一种基于纠删码的重复数据删除方法及装置
CN111159125B (zh) 一种用于数据存储及数据灾备的块重删技术

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20190430

CF01 Termination of patent right due to non-payment of annual fee