CN111459928B - 应用于集群范围内数据备份场景的数据去重方法及应用 - Google Patents

应用于集群范围内数据备份场景的数据去重方法及应用 Download PDF

Info

Publication number
CN111459928B
CN111459928B CN202010230330.5A CN202010230330A CN111459928B CN 111459928 B CN111459928 B CN 111459928B CN 202010230330 A CN202010230330 A CN 202010230330A CN 111459928 B CN111459928 B CN 111459928B
Authority
CN
China
Prior art keywords
data
fingerprint
cluster
physical
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010230330.5A
Other languages
English (en)
Other versions
CN111459928A (zh
Inventor
董倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eisoo Information Technology Co Ltd
Original Assignee
Shanghai Eisoo Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eisoo Information Technology Co Ltd filed Critical Shanghai Eisoo Information Technology Co Ltd
Priority to CN202010230330.5A priority Critical patent/CN111459928B/zh
Publication of CN111459928A publication Critical patent/CN111459928A/zh
Application granted granted Critical
Publication of CN111459928B publication Critical patent/CN111459928B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0628Interfaces specially adapted for storage systems making use of a particular technique
    • G06F3/0638Organizing or formatting or addressing of data
    • G06F3/064Management of blocks
    • G06F3/0641De-duplication techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/06Digital input from, or digital output to, record carriers, e.g. RAID, emulated record carriers or networked record carriers
    • G06F3/0601Interfaces specially adapted for storage systems
    • G06F3/0668Interfaces specially adapted for storage systems adopting a particular infrastructure
    • G06F3/067Distributed or networked storage systems, e.g. storage area networks [SAN], network attached storage [NAS]
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明涉及一种应用于集群范围内数据备份场景的数据去重方法及应用,该方法通过构建的物理指纹库存储已备份数据块的指纹信息,基于所述指纹信息对待备份数据块进行重复性检测,根据检测结果实现数据去重处理,所述集群范围内具有多个集群节点,所述物理指纹库设有多个,所述物理指纹库和集群节点间具有节点指纹库映射关系,基于该节点指纹库映射关系实现所述重复性检测。与现有技术相比,本发明具有重复数据检测精度高等优点。

Description

应用于集群范围内数据备份场景的数据去重方法及应用
技术领域
本发明涉及重复数据删除技术领域,尤其是涉及一种应用于集群范围内数据备份场景的数据去重方法及应用。
背景技术
随着信息技术的不断发展,人们对于计算机技术的依赖逐渐增加,计算机需要存储的数据量也在迅速增加,待保护的数据将会占据越来越多的物理空间。海量数据的保护成为了存储厂商所面临的巨大挑战,为了解决存储数据过多的难题,各大厂商纷纷采用了分布式存储以便存放更多数据,同时分布式系统也可以支撑更多数据量的并发处理,提升保护效率。
重复数据删除技术主要是通过比较当前需要备份的数据是否已经备份过,并只存储未备份过的数据,从而减少数据的存储量,降低网络的带宽,节省资源的占用。重复删除技术可以在一定范围内识别出更多的重复数据从而能够节省更多物理空间及网络带宽。但目前在分布式场备份场景中还存在重复数据检测精度不高的问题。
发明内容
本发明的目的在于克服上述现有技术存在的缺陷而提供一种重复数据检测精度高的应用于集群范围内数据备份场景的数据去重方法。
本发明的目的可以通过以下技术方案来实现:
一种应用于集群范围内数据备份场景的数据去重方法,该方法通过构建的物理指纹库存储已备份数据块的指纹信息,基于所述指纹信息对待备份数据块进行重复性检测,根据检测结果实现数据去重处理,
所述集群范围内具有多个集群节点,所述物理指纹库设有多个,所述物理指纹库和集群节点间具有节点指纹库映射关系,基于该节点指纹库映射关系实现所述重复性检测。
进一步地,所述指纹信息包括数据块指纹及数据块位置。
进一步地,所述物理指纹库基于用户逻辑指纹库构建指令自动建立,所述逻辑指纹库存储于分布式数据库中。
进一步地,所述集群范围内集群节点发生增加或减少时,重新分配多个所述物理指纹库,迁移各物理指纹库的分配位置,更新所述节点指纹库映射关系。
进一步地,所述重复性检测具体为:
1)获取所述节点指纹库映射关系;
2)获取待备份数据流,对所述待备份数据流进行滑动块数据切片;
3)计算切片后每一待备份数据块的数据块指纹;
4)基于所述节点指纹库映射关系将每一所述数据块指纹并发在各集群节点中进行重复数据查询,判断是否存在相同数据块指纹,若是,则执行步骤5),若否,则执行步骤6);
5)仅记录待备份数据块的存储位置信息;
6)备份存储待备份数据块,并该待备份数据块的指纹信息插入对应物理指纹库,并对相应集群节点进行数据块存储。
进一步地,所述滑动块数据切片的切片范围为KB级别。
进一步地,所述滑动块数据切片为32KB-128KB的切片。
进一步地,通过哈希映射方式获得每一数据块指纹对应的物理指纹库,在该物理指纹库所在集群节点进行重复数据查询。
进一步地,通过删除所述逻辑指纹库实现物理指纹库的删除。
本发明还提供一种集群范围内数据备份方法,在备份过程中,采用所述的数据去重方法进行数据去重处理。
与现有技术相比,本发明具有如下有益效果:
1、本发明通过物理指纹库以及节点指纹库映射关系实现指纹数据的比对检测,能够更方便地获取数据重复信息,在分布式场备份场景中的重复数据检测精度高。
2、本发明充分利用分布式场景中多节点的计算资源及内存资源优势,在分布式场景中实现任务进行中的并发去重,能在集群范围查询重复数据,效率高。
3、本发明通过指纹库的设计,使得在横向扩展节点编辑指纹库后仍能识别出重复数据,可靠性高。
4、本发明可有效减少磁盘上冗余数据,同时也可以减少网络中传输的数据量,提高重删率。
5、本发明可以在查重过程中同时使用集群中物理节点所提供的的内存及CPU资源,可以支撑更大数据量去重,提升备份效率。
附图说明
图1为本发明的原理示意图;
图2为本发明在集群节点增加时的物理指纹库迁移过程示意图,其中,(a)为集群节点增加前的物理指纹库与集群节点的映射关系示意图,(b)为迁移过程示意图,(c)为集群节点增加后的物理指纹库与集群节点的映射关系示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
实施例1
本实施例提供一种应用于集群范围内数据备份场景的数据去重方法,该方法通过构建的物理指纹库存储已备份数据块的指纹信息,基于所述指纹信息对待备份数据块进行重复性检测,根据检测结果实现数据去重处理,所述集群范围内具有多个集群节点,所述物理指纹库设有多个,所述物理指纹库和集群节点间具有节点指纹库映射关系,基于该节点指纹库映射关系实现所述重复性检测。所述指纹信息包括数据块指纹及数据块位置chunkid。
物理指纹库基于用户逻辑指纹库构建指令自动建立,所述逻辑指纹库存储于分布式数据库中,节点指纹库映射关系也存储于所述分布式数据库中。
1、指纹库设计
指纹库是用于存放数据块指纹和数据块位置chunkid的容器,通过在指纹库中查询指纹是否存在,可以识别出该数据块是否存在,可以根据chunkid查询到数据块存放位置;本实施例在分布式系统中指纹库的设计和普遍出现的单机指纹库的设计有所不同:在集群中的指纹库分为逻辑指纹库和物理指纹库,逻辑指纹库是用户创建的指纹库,本实施例中,一个逻辑指纹库包含32个物理指纹库;物理指纹库也可称为节点指纹库,每个物理指纹库都有一个编号进行区分,这些物理指纹库基本平均分配在集群范围内的集群节点上,物理指纹库是实际存放指纹的指纹库,物理指纹库对用户来说是透明的,用户对指纹库的一切操作都通过逻辑指纹库进行。
对指纹库的操作包括:
1)新建指纹库:新建一个逻辑指纹库,后台会建立32个物理指纹库,32个物理指纹库平均分配在分布式物理节点上,并通过分布式数据库记录物理节点ip和物理指纹库编号,用于后续去重建立节点指纹库映射关系。
2)编辑指纹库:通常在集群节点增加或者减少时需要编辑指纹库,编辑指纹库的主要目的是使集群中节点变更不影响下次备份去重效果,如图2所示,指纹库编辑过程为:
a.重建物理指纹库和节点关系,将物理指纹库重新分配。
b.物理指纹库迁移至各个分配节点
c.在数据库中更新物理指纹库和节点ip映射关系,以便下次备份建立正确的映射关系。
3)删除指纹库:在分布式数据库中删除逻辑指纹库,再删除分布式数据库中的物理指纹库id和节点映射关系,最后去每个节点物理磁盘中删除指纹库。
2、备份去重过程
在备份时对待备份数据块进行重复性检测,如图1所示,所述重复性检测具体为:
1)连接至集群中主节点,获取所述节点指纹库映射关系;
2)获取待备份数据流,对所述待备份数据流进行滑动块数据切片,切片范围为KB级别;
3)使用MD5哈希算法计算切片后每一待备份数据块的数据块指纹,作为数据块的唯一标识;
4)基于所述节点指纹库映射关系将每一所述数据块指纹并发在各集群节点中进行重复数据查询,具体是通过哈希映射方式获得每一数据块指纹对应的物理指纹库,在该物理指纹库所在集群节点进行重复数据查询,并获取到查询结果,判断是否存在相同数据块指纹,若是,则执行步骤5),若否,则执行步骤6);
5)仅记录待备份数据块的存储位置信息;
6)备份存储待备份数据块,并该待备份数据块的指纹信息插入对应物理指纹库,并基于节点指纹库映射关系对相应集群节点进行数据块存储,备份查重结束。
本实施例在一个具有5个集群节点的集群环境中,通过一个客户端实现对1T数据源的备份。该实施例中,首先建立逻辑指纹库,自动新建32个物理指纹库,平均分配至5个集群节点。
首次备份:
1.选择客户端数据源进行备份,首次备份获取到数据流,进行去重备份。
1.1.客户端首先会进行连接初始化获取物理指纹库和节点对应关系;
1.2.客户端对获取到的数据流进行32KB-128KB的滑动切片;
1.3.对每一个数据片进行指纹计算;
1.4对每一个指纹进行与物理指纹库的哈希映射并发送至物理节点上进行指纹查询。
2.获取到查询结果
2.1查询到重复的指纹,将chunkid发送给存储;
2.2.查询到不重复的指纹,将数据块发送至存储进行保存,并记录存储位置chunkid;
2.3将2.2获取到的存储存储位置chunkid和指纹发送至对应物理指纹库进行保存。
3.通知指纹库备份完成将指纹刷写至磁盘
二次备份:
1.选择和首次备份同样的数据源进行备份
1.1.客户端首先会进行连接初始化获取物理指纹库和节点对应关系;
1.2.客户端对获取到的数据流进行32KB-128KB的滑动切片;
1.3.对每一个数据片进行指纹计算;
1.4对每一个指纹进行与物理指纹库的哈希映射并发送至物理节点上进行指纹查询。
2.获取到查询结果应均为重复数据,保留数据存储位置chunkid。
3.检查二次备份重删率为100%。
实施例2
本实施例提供一种集群范围内数据备份方法,在备份过程中,采用如实施例1所述的数据去重方法进行数据去重处理。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由本发明所确定的保护范围内。

Claims (8)

1.一种应用于集群范围内数据备份场景的数据去重方法,其特征在于,该方法通过构建的物理指纹库存储已备份数据块的指纹信息,基于所述指纹信息对待备份数据块进行重复性检测,根据检测结果实现数据去重处理,
所述集群范围内具有多个集群节点,所述物理指纹库设有多个,所述物理指纹库和集群节点间具有节点指纹库映射关系,基于该节点指纹库映射关系实现所述重复性检测;
所述重复性检测具体为:
1)获取所述节点指纹库映射关系;
2)获取待备份数据流,对所述待备份数据流进行滑动块数据切片;
3)计算切片后每一待备份数据块的数据块指纹;
4)基于所述节点指纹库映射关系将每一所述数据块指纹并发在各集群节点中进行重复数据查询,判断是否存在相同数据块指纹,若是,则执行步骤5),若否,则执行步骤6);
5)仅记录待备份数据块的存储位置信息;
6)备份存储待备份数据块,并将该待备份数据块的指纹信息插入对应物理指纹库,并对相应集群节点进行数据块存储;
所述集群范围内集群节点发生增加或减少时,重新分配多个所述物理指纹库,迁移各物理指纹库的分配位置,更新所述节点指纹库映射关系。
2.根据权利要求1所述的应用于集群范围内数据备份场景的数据去重方法,其特征在于,所述指纹信息包括数据块指纹及数据块位置。
3.根据权利要求1所述的应用于集群范围内数据备份场景的数据去重方法,其特征在于,所述物理指纹库基于用户逻辑指纹库构建指令自动建立。
4.根据权利要求1所述的应用于集群范围内数据备份场景的数据去重方法,其特征在于,所述滑动块数据切片的切片范围为KB级别。
5.根据权利要求4所述的应用于集群范围内数据备份场景的数据去重方法,其特征在于,所述滑动块数据切片为32KB-128KB的切片。
6.根据权利要求1所述的应用于集群范围内数据备份场景的数据去重方法,其特征在于,通过哈希映射方式获得每一数据块指纹对应的物理指纹库,在该物理指纹库所在集群节点进行重复数据查询。
7.根据权利要求3所述的应用于集群范围内数据备份场景的数据去重方法,其特征在于,通过删除所述逻辑指纹库实现物理指纹库的删除。
8.一种集群范围内数据备份方法,其特征在于,在备份过程中,采用如权利要求1所述的数据去重方法进行数据去重处理。
CN202010230330.5A 2020-03-27 2020-03-27 应用于集群范围内数据备份场景的数据去重方法及应用 Active CN111459928B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010230330.5A CN111459928B (zh) 2020-03-27 2020-03-27 应用于集群范围内数据备份场景的数据去重方法及应用

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010230330.5A CN111459928B (zh) 2020-03-27 2020-03-27 应用于集群范围内数据备份场景的数据去重方法及应用

Publications (2)

Publication Number Publication Date
CN111459928A CN111459928A (zh) 2020-07-28
CN111459928B true CN111459928B (zh) 2023-07-07

Family

ID=71678390

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010230330.5A Active CN111459928B (zh) 2020-03-27 2020-03-27 应用于集群范围内数据备份场景的数据去重方法及应用

Country Status (1)

Country Link
CN (1) CN111459928B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105487942A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于重复数据删除的备份与远程复制方法
CN108415669A (zh) * 2018-03-15 2018-08-17 深信服科技股份有限公司 存储系统的数据去重方法及装置、计算机装置及存储介质
CN108427539A (zh) * 2018-03-15 2018-08-21 深信服科技股份有限公司 缓存设备数据的离线去重压缩方法、装置及可读存储介质
CN109101365A (zh) * 2018-08-01 2018-12-28 南京壹进制信息技术股份有限公司 一种基于源端数据重删的数据备份和恢复方法
CN109800218A (zh) * 2019-01-04 2019-05-24 平安科技(深圳)有限公司 分布式存储系统、存储节点设备和数据去重方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105487942A (zh) * 2015-11-30 2016-04-13 上海爱数信息技术股份有限公司 一种基于重复数据删除的备份与远程复制方法
CN108415669A (zh) * 2018-03-15 2018-08-17 深信服科技股份有限公司 存储系统的数据去重方法及装置、计算机装置及存储介质
CN108427539A (zh) * 2018-03-15 2018-08-21 深信服科技股份有限公司 缓存设备数据的离线去重压缩方法、装置及可读存储介质
CN109101365A (zh) * 2018-08-01 2018-12-28 南京壹进制信息技术股份有限公司 一种基于源端数据重删的数据备份和恢复方法
CN109800218A (zh) * 2019-01-04 2019-05-24 平安科技(深圳)有限公司 分布式存储系统、存储节点设备和数据去重方法

Also Published As

Publication number Publication date
CN111459928A (zh) 2020-07-28

Similar Documents

Publication Publication Date Title
US10282121B2 (en) Apparatus and method for insertion and deletion in multi-dimensional to linear address space translation
US11023448B2 (en) Data scrubbing method and apparatus, and computer readable storage medium
CN107003935B (zh) 用于优化数据库去重的装置、方法和计算机介质
US8224875B1 (en) Systems and methods for removing unreferenced data segments from deduplicated data systems
JP5539683B2 (ja) 拡張可能な2次ストレージシステムと方法
US10303797B1 (en) Clustering files in deduplication systems
US8108446B1 (en) Methods and systems for managing deduplicated data using unilateral referencing
CN110720088A (zh) 集成到大容量存储设备的可访问快速耐久存储
US10452491B2 (en) Scalable log partitioning system
CN110851401B (zh) 用于管理数据存储的方法、装置和计算机可读介质
US11513996B2 (en) Non-disruptive and efficient migration of data across cloud providers
CN110908589B (zh) 数据文件的处理方法、装置、系统和存储介质
CN116601596A (zh) 使用数据相似度来选择分段进行垃圾收集
KR102119258B1 (ko) 데이터베이스 관리 시스템에서의 변경 데이터 캡쳐 구현 기법
CN105574217A (zh) 分布式关系型数据库的数据同步方法和装置
CN111930716A (zh) 一种数据库扩容方法、装置及系统
WO2023179077A1 (zh) 一种数据一致性检测和修复的方法、装置及介质
CN111522502A (zh) 数据去重方法、装置、电子设备及计算机可读存储介质
US20220398220A1 (en) Systems and methods for physical capacity estimation of logical space units
CN111459928B (zh) 应用于集群范围内数据备份场景的数据去重方法及应用
US20210089401A1 (en) Method, Server, and Computer Readable Medium for Index Recovery Using Index Redo Log
WO2023050856A1 (zh) 数据处理方法及存储系统
US9053100B1 (en) Systems and methods for compressing database objects
CN109241011B (zh) 一种虚拟机文件处理方法及装置
KR102214697B1 (ko) 데이터베이스 관리 시스템에서 데이터 저장을 위한 공간 관리를 제공하는 컴퓨터 프로그램

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant