CN114371959A - 一种基于重复数据删除的数据备份上云和恢复系统及方法 - Google Patents

一种基于重复数据删除的数据备份上云和恢复系统及方法 Download PDF

Info

Publication number
CN114371959A
CN114371959A CN202111646391.0A CN202111646391A CN114371959A CN 114371959 A CN114371959 A CN 114371959A CN 202111646391 A CN202111646391 A CN 202111646391A CN 114371959 A CN114371959 A CN 114371959A
Authority
CN
China
Prior art keywords
data
cloud
information
fingerprint
local
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111646391.0A
Other languages
English (en)
Inventor
白建强
赵瑞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Eisoo Information Technology Co Ltd
Original Assignee
Shanghai Eisoo Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Eisoo Information Technology Co Ltd filed Critical Shanghai Eisoo Information Technology Co Ltd
Priority to CN202111646391.0A priority Critical patent/CN114371959A/zh
Publication of CN114371959A publication Critical patent/CN114371959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • G06F11/1453Management of the data involved in backup or backup restore using de-duplication of the data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1458Management of the backup or restore process
    • G06F11/1464Management of the backup or restore process for networked environments
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/06Protocols specially adapted for file transfer, e.g. file transfer protocol [FTP]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种基于重复数据删除的数据备份上云和恢复系统及方法,系统包括设置于本地的备份代理模块和备份服务模块,备份服务模块与云端通讯连接,其中,该备份代理模块被配置为:读取需要备份的业务应用数据,对业务应用数据进行分片和指纹计算,获取数据分片及其指纹信息;获取需要恢复的数据对象信息;该备份服务模块中维护有本地指纹数据库、本地对象指纹库和本地索引数据库,其被配置为:基于接收到的指纹信息和本地指纹数据库判断是否为重复数据;基于需要恢复的数据对象信息查询本地索引数据库和本地对象指纹库,从云端下载指定的数据分片并合并。与现有技术相比,本发明具有保障数据可靠性、减少对网络带宽和云存储空间的占用等优点。

Description

一种基于重复数据删除的数据备份上云和恢复系统及方法
技术领域
本发明涉及数据备份恢复技术领域,尤其是涉及一种基于重复数据删除的数据备份上云和恢复系统及方法。
背景技术
在传统的数据备份恢复领域都是把应用端的数据如文件、目录、数据库等备份到磁盘或磁带、光盘等介质。当应用端数据损坏时,可以通过备份的副本进行数据恢复。数据备份通常有三种类型:完全备份、增量备份和差异备份。完全备份是备份选中的所有数据内容,增量备份是备份上一次备份后所有增加或发生变化的内容,差异备份是备份上一次的完全备份后发生变化的所有内容。
无论是哪种备份类型,在备份介质中总是充斥着大量的冗余数据。为了节省更多的空间和带宽,重复删除技术成为关注的焦点。重复删除技术降低了备份所需的存储空间,实现了更快和更频繁的备份,有利于数据保护和更快的修复。
重复数据删除技术可以分为文件级和块级的重复数据删除。文件级的重复数据删除保证文件不重复,该技术对每个文件生成散列值,通过比较不同文件的散列值来判断文件的内容是否相同,对内容相同的文件不再进行重复存储,而是通过指针来指向重复的文件,这样就达到了基本的重复数据删除的目的。但这种基于文件散列值的去重只能对文件内容完全相同的文件才有用,如果文件内容只存在少量的差别,则没有办法对文件中存在的大量重复内容去重。块级重复数据删除则是对数据进行分块比较,通过对不同分块计算散列值,来比较和判断哪些分块的内容是相同的,对于散列值相同的分块不再重复存储。块级重删根据切分数据块方法的不同,又可分为定长块和变长块的重复数据删除技术。变长块的重复数据删除,数据块的长度是变动的。定长块的重复数据删除,数据块的长度是固定的。在实际的备份系统中,由于备份对象类型很多比如数据库、图片、视频、文档等,采用变长的块级重复数据删除比文件级的重复数据删除有着更高的重删率,可以更加有效地去除冗余的数据。
随着互联网的快速发展,云技术的落地,现在越来越多的应用选择了将数据备份到云端。将数据备份到云有免维护、易扩展、高效可靠等优点。但云备份也会受到带宽和容量的限制,大多数云存储是按实际使用容量收费,备份上云的数据量越大,则费用越高。而结合重复删除技术无疑可以降低云存储空间的占用和流量费用,节省数据保护成本。
但是传统的重复删除技术需要通过指纹库来记录数据的指纹和存储位置等信息,在进行数据恢复时会依赖指纹库的信息,如果本地指纹库损坏就会导致数据无法恢复。这就需要将指纹库的信息也上传到云端,但指纹库的大小会随着备份数据量的增加越来越大,而且当数据过期清理时其中的内容也会发生删除和更新,导致指纹库上云的数据量和频率会很大,反而影响了上云的性能,这些都是数据备份上云结合重复数据删除技术当前面临的难题。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种保障数据可靠性、减少对网络带宽和云存储空间的占用的基于重复数据删除技术的数据备份上云和恢复系统及方法。
本发明的目的可以通过以下技术方案来实现:
一种基于重复数据删除的数据备份上云和恢复系统,用于与云端进行数据交互,包括设置于本地的备份代理模块和备份服务模块,所述备份服务模块与云端通讯连接,其中,
该备份代理模块被配置为:读取需要备份的业务应用数据,对所述业务应用数据进行分片和指纹计算,获取数据分片及其指纹信息;获取需要恢复的数据对象信息;
该备份服务模块中维护有本地指纹数据库、本地对象指纹库和本地索引数据库,其中,所述本地指纹数据库存储已备份至云端的数据分片指纹信息、数据分片对应的云端数据对象名以及其在数据对象上的偏移信息,所述本地对象指纹库与云端存储的数据对象一一对应,用于存储所述数据对象的数据分片信息,所述本地索引数据库存储所述数据对象的元数据信息;
该备份服务模块被配置为:基于接收到的指纹信息和所述本地指纹数据库判断是否为重复数据,若是,则更新该重复数据在云端的备份状态,若否,则将对应的数据分片合并后上传到云端,同步更新本地对象指纹库和本地索引数据库;基于需要恢复的数据对象信息查询所述本地索引数据库和本地对象指纹库,从云端下载指定的数据分片并合并。
进一步地,所述备份代理模块包括应用单元、重删客户端单元和代理传输单元,该应用单元用于读取需要备份的业务应用数据或者需要恢复的数据对象信息;
该重删客户端单元用于对所述业务应用数据进行分片和指纹计算,获取数据分片及其指纹信息;
该代理传输单元用于实现数据分片和指纹信息或者需要恢复的数据对象信息的传输。
进一步地,所述备份服务模块包括服务传输单元、重删服务单元、元数据管理单元、数据管理单元和上云网关单元,其中,
该服务传输单元用于接收数据分片和指纹信息或者需要恢复的数据对象信息;
该重删服务单元用于基于接收到的指纹信息查询本地指纹数据库,若查询到,则调用该指纹信息对应的数据分片在云端存储的数据对象名和偏移信息,发送至元数据管理单元,否则将数据分片发送至数据管理单元;
该元数据管理单元用于查询并维护所述本地对象指纹库和本地索引数据库,基于需要恢复的数据对象信息查找到需要恢复的数据分片在云端的数据对象名、偏移和长度;
该数据管理单元用于将接收到的数据分片合并为数据对象;
该上云网关单元用于实现与云端的数据交互,包括数据对象上云或云端的数据分片下载。
进一步地,所述备份代理模块和备份服务模块通过socket通讯。
进一步地,所述备份服务模块和云端通过S3接口通讯。
进一步地,所述数据分片信息包括云端数据对象中数据分片存储的偏移、长度以及数据分片引用计数。
进一步地,所述元数据信息包括数据对象对应的所有数据分片的指纹信息、数据分片在原数据对象的偏移、数据分片的长度以及数据分片上传到云端存储的数据对象名。
本发明还提供一种采用如上所述的基于重复数据删除的数据备份上云和恢复系统的数据备份上云方法,包括以下步骤:
A1、读取业务应用数据,对所述业务应用业务数据进行分片并计算其指纹,获取数据分片及其指纹信息;
A2、在本地指纹数据库中查找所述指纹信息,若查找到,则调用该指纹信息对应的数据分片在云端存储的数据对象名和偏移信息,执行步骤A4,否则执行步骤A3;
A3、将接收到的数据分片合并成数据对象,当合并的数据对象达到设定大小时,将合并的数据对象上传到云端的数据桶中,记录数据对象名和各数据分片对应的偏移,更新所述本地指纹数据库;
A4、创建和云端数据对象名相同名字的本地对象指纹库,递增更新其版本号;
A5、在一本地索引数据库中存储数据对象的元数据信息并递增其版本号;
A6、将本地对象指纹库及其版本信息和本地索引数据库及其版本信息上传到云端的元数据桶。
本发明还提供一种采用如上所述的基于重复数据删除的数据备份上云和恢复系统的数据恢复方法,包括以下步骤:
B1、获取需要恢复的数据对象信息;
B2、比较本地索引数据库和云端元数据桶中的索引数据库版本是否一致,如果不一致则从云端下载索引数据库覆盖本地索引数据库的信息;
B3、查询本地索引数据库,获取需要恢复的数据对象的元数据信息;
B4、通过数据对象的元数据信息获取数据分片在云端存储的数据对象名,通过该数据对象名查找本地对象指纹库,比较本地对象指纹库和云端元数据桶中的对象指纹库版本是否一致,如果不一致则从云端下载对象指纹库覆盖本地对象指纹库的信息;
B5、通过数据对象的元数据信息获取数据分片的指纹信息,通过该指纹信息查询本地对象指纹库,获取数据分片在云端数据对象的偏移和长度;
B6、根据所述数据对象名、数据分片在云端数据对象的偏移和长度信息,从云端数据桶的相应的数据对象中下载指定的数据分片;
B7、将所述数据发片进行合并组合成原始对象数据,实现恢复。
进一步地,所述步骤B7具体包括:
B71、将下载的数据分片存到缓存区;
B72、根据获取到的数据对象的元数据信息,查询数据分片在原数据对象的偏移和长度;
B73、通过各个数据分片在原数据对象的偏移和长度,将缓存区的数据片组合成原始对象数据。
与现有技术相比,本发明具有以下有益效果:
1、本发明采用对数据进行分块,采用变长块的重复数据删除技术,比文件级的重复数据删除技术有着更高的重删率,可以有效去除重复的数据。
2、本发明通过设置重删服务单元、元数据管理单元、数据管理单元将重删的本地指纹库信息、本地的元数据和对象指纹库、数据分开进行管理。重删的本地指纹库信息保证了备份时的高效查重,这个本地的指纹库不需要上传到云端,不会对云端的带宽和容量造成影响。本地对象指纹库会上传到云端的元数据桶,与云端的数据对象相对应,一个云端数据对象对应一个同名的对象指纹库,这个对象指纹库中只记录相对应的云端数据对象中的数据分片信息,所以占用空间很小,上传和查询速度都很快,减少了对网络带宽和云存储空间的占用。
3、本发明在数据恢复时不依赖于本地的重删指纹库信息,所以当本地重删指纹库损坏或删除后也不会影响云上数据的恢复。
4、本发明结合本地重删指纹库和云端的对象指纹库,即保证了冗余数据的有效去重,提高了备份上云的性能,又保证了恢复的可靠和高效。
附图说明
图1为本发明基于重复数据删除的数据备份上云和恢复系统的结构示意图;
图2为本发明数据对象指纹库的结构示意图;
图3为本发明基于重复数据删除的数据备份上云恢复方法流程示意图。
具体实施方式
下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本发明的保护范围不限于下述的实施例。
如图1所示,本实施例提供一种基于重复数据删除的数据备份上云和恢复系统,用于与云端进行数据交互,包括设置于本地的备份代理模块100和备份服务模块200,备份服务模块100与云端通讯连接,其中,备份代理模块100被配置为:读取需要备份的业务应用数据,对所述业务应用数据进行分片和指纹计算,获取数据分片及其指纹信息;获取需要恢复的数据对象信息;备份服务模块200中维护有本地指纹数据库、本地对象指纹库和本地索引数据库,其中,所述本地指纹数据库存储已备份至云端的数据分片指纹信息、数据分片对应的云端数据对象名以及其在数据对象上的偏移信息,所述本地对象指纹库与云端存储的数据对象一一对应,用于存储所述数据对象的数据分片信息,所述本地索引数据库存储所述数据对象的元数据信息;备份服务模块200被配置为:基于接收到的指纹信息和所述本地指纹数据库判断是否为重复数据,若是,则更新该重复数据在云端的备份状态,若否,则将对应的数据分片合并后上传到云端,同步更新本地对象指纹库和本地索引数据库;基于需要恢复的数据对象信息查询所述本地索引数据库和本地对象指纹库,从云端下载指定的数据分片并合并。
在具体的实施方式中,备份代理模块100包括应用单元101、重删客户端单元102和代理传输单元103,应用单元101用于读取需要备份的业务应用数据或者需要恢复的数据对象信息;重删客户端单元102用于对所述业务应用数据进行变长分片和指纹计算,获取数据分片及其指纹信息;代理传输单元103用于实现数据分片和指纹信息或者需要恢复的数据对象信息的传输。
在具体的实施方式中,备份服务模块200包括服务传输单元201、重删服务单元202、元数据管理单元203、数据管理单元204和上云网关单元205,其中,服务传输单元201用于接收数据分片和指纹信息或者需要恢复的数据对象信息,通过socket与通讯备份代理模块100的代理传输单元103通讯;重删服务单元202用于基于接收到的指纹信息查询本地指纹数据库,若查询到,则调用该指纹信息对应的数据分片在云端存储的数据对象名和偏移信息,发送至元数据管理单元,否则将数据分片发送至数据管理单元;元数据管理单元203用于查询并维护所述本地对象指纹库和本地索引数据库,基于需要恢复的数据对象信息查找到需要恢复的数据分片在云端的数据对象名、偏移和长度;数据管理单元204用于将接收到的数据分片合并为数据对象,合并后的大的数据对象的名字可以数据桶序号加上下划线以及从0递增的对象序号组成;上云网关单元205通过S3接口实现与云端的数据交互,包括数据对象上云或云端的数据分片下载。
重删服务单元202处理的本地指纹数据库,不需要上传到云端,不会对云端的带宽和容量造成影响,同时保证了备份时的高效查重。
元数据管理单元203管理本地对象指纹库和本地索引数据库,其中,本地对象指纹库存储的数据分片信息包括云端数据对象中数据分片存储的偏移、长度以及数据分片引用计数。所述的引用计数用于记录该数据分片被引用的数量,数据清理时,如果引用计数大于0,则指纹对应的云端的数据分片不能被删除,当引用计数为0时表示该指纹对应的数据对象都已经被删除,云端的数据分片也会相应地删除。本地索引数据库存储的元数据信息包括数据对象对应的所有数据分片的指纹信息、数据分片在原数据对象的偏移、数据分片的长度以及数据分片上传到云端存储的数据对象名。
利用上述数据备份上云和恢复系统能够有效地提高了备份上云的性能,减少了对网络带宽和云存储空间的占用,同时保证了本地指纹库和元数据损坏后,数据依然可以正常恢复,为各种应用系统提供了有效的数据保护。
以要备份一个100G的文件test为例,参考图1所示,利用上述基于重复数据删除的数据备份上云和恢复系统进行数据备份上云的方法包括以下步骤:
S1、应用单元读取要备份的文件的内容并将数据传给重删客户端单元,重删客户端单元对数据块进行变长分片(分片大小在128KB到256KB变化)并计算其指纹;
S2、重删客户端单元将数据分片和指纹信息传给代理传输单元,由代理传输单元通过socket发送给备份服务传输单元;
S3、备份服务传输单元接受到数据分片和指纹信息,将数据分片和指纹信息传给重删服务单元,重删服务单元在本地数据库中查找传入的数据分片指纹信息,如果找到则将数据库中记录的指纹对应分片在云端存储的对象名和偏移信息传给元数据管理单元处理,执行步骤S6,否则执行步骤S4;
S4、重删服务单元在本地指纹数据库中没有找到数据片指纹信息,则将数据分片传给数据管理单元处理。数据管理单元将把数据片合并成大的数据对象(例如对象名为0_1,0为数据桶的编号,1为数据对象的递增编号),当合并的数据对象达到设定的大小(例如16M),则将它传给上云网关单元,上云网关单元通过S3接口将合并的数据对象(例如对象名为0_1)上传到云端的数据桶,执行步骤S5;
S5、数据管理单元会把合并的数据对象名(例如对象名为0_1)和数据片所对应的偏移(例如128K)返回给重删服务单元,重删服务单元将在本地数据库中存储重删指纹库信息,并且把指纹对应的对象名(例如对象名为0_1)和偏移信息(例如128K)传给元数据管理单元处理;
S6、元数据管理单元收到重删服务单元传来数据片对应的重删指纹库信息,将创建和云端数据对象相同名字的对象指纹库(例如对象指纹库名为0_1),并递增更新对象指纹库的版本号;
S7、元数据管理单元在本地索引数据库中,存储数据对象元数据信息并递增更新数据库的版本号。数据对象(例如要备份的100G文件test)元数据信息包括:数据对象(例如100G文件test)对应的所有数据分片的指纹、分片在原数据对象的偏移、分片的长度,以及数据分片上传到云端存储对象名(例如0_1,0_2,...,0_N);
S8、元数据管理单元将发送消息通知上云网关单元,让上云网关单元通过S3接口把本地对象指纹库(例如对象指纹库名为0_1)及其版本信息和本地索引数据库及其版本信息上传到云端的元数据桶。
本地和云端的对象指纹库存储的信息如图2所示,对象指纹库存储中的每个数据分片的指纹信息都与云端数据对象中的数据分片相对应。其中num为当前指纹库文件中存储的指纹个数,finger_print为数据分片的指纹,offset为数据分片的数据在云端数据对象的偏移,length为数据分片的长度,ref为数据分片的引用计数。
以要恢复一个100G的文件test为例,参考图3所示,利用上述基于重复数据删除的数据备份上云和恢复系统进行数据恢复的方法包括以下步骤:
R1、应用单元将要恢复的数据对象信息(例如100G的文件test)传给代理传输单元,代理传输单元通过socket把数据对象信息发送给备份服务传输单元;
R2、备份服务传输单元接受到要恢复的数据对象信息,将其传给元数据管理单元,元数据管理单元比较本地索引数据库和云端元数据桶中的索引数据库版本是否一致,如果不一致则从云端下载索引数据库覆盖本地索引数据库的信息;
R3、元数据管理单元查询本地索引数据库,获取要恢复的数据对象的数据分片信息,以及这些分片在云端的存储对象名(例如0_1,0_2,...,0_N),通过该对象名找到本地存储的对象指纹库(例如0_1,0_2,...,0_N),比较本地对象指纹库和云端元数据桶中的对象指纹库版本是否一致,如果不一致则从云端下载对象指纹库覆盖本地对象指纹库的信息;
R4、元数据管理单元通过数据分片信息中的指纹(例如finger_print1,finger_print2,...,finger_printN),通过该指纹查询本地对象指纹库(例如0_1),获取数据片在云端数据对象的偏移(例如offet1:128K)和长度(例如length1:136K),将云端数据对象名、偏移和长度信息发送给数据管理单元处理;
R5、数据管理单元通知上云网关单元,根据收到的数据对象名(例如0_1)、偏移(例如offet1:128K)和长度信息(例如length1:136K),从云端数据桶的相应的数据对象(例如0_1)中下载指定的数据片内容;
R6、数据管理单元将下载的数据片内容存到缓存区,根据元数据管理单元的元数据信息中记录的数据分片在原数据对象的偏移(例如1024K)和长度信息(例如length1:136K),对缓存区的数据片内容进行合并组合成原始对象的数据后,返回给应用单元;
R7、应用单元用返回的数据恢复相对应的数据对象(例如100G的文件test)。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术人员无需创造性劳动就可以根据本发明的构思作出诸多修改和变化。因此,凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在由权利要求书所确定的保护范围内。

Claims (10)

1.一种基于重复数据删除的数据备份上云和恢复系统,其特征在于,用于与云端进行数据交互,包括设置于本地的备份代理模块和备份服务模块,所述备份服务模块与云端通讯连接,其中,
该备份代理模块被配置为:读取需要备份的业务应用数据,对所述业务应用数据进行分片和指纹计算,获取数据分片及其指纹信息;获取需要恢复的数据对象信息;
该备份服务模块中维护有本地指纹数据库、本地对象指纹库和本地索引数据库,其中,所述本地指纹数据库存储已备份至云端的数据分片指纹信息、数据分片对应的云端数据对象名以及其在数据对象上的偏移信息,所述本地对象指纹库与云端存储的数据对象一一对应,用于存储所述数据对象的数据分片信息,所述本地索引数据库存储所述数据对象的元数据信息;
该备份服务模块被配置为:基于接收到的指纹信息和所述本地指纹数据库判断是否为重复数据,若是,则更新该重复数据在云端的备份状态,若否,则将对应的数据分片合并后上传到云端,同步更新本地对象指纹库和本地索引数据库;基于需要恢复的数据对象信息查询所述本地索引数据库和本地对象指纹库,从云端下载指定的数据分片并合并。
2.根据权利要求1所述的基于重复数据删除的数据备份上云和恢复系统,其特征在于,所述备份代理模块包括应用单元、重删客户端单元和代理传输单元,
该应用单元用于读取需要备份的业务应用数据或者需要恢复的数据对象信息;
该重删客户端单元用于对所述业务应用数据进行分片和指纹计算,获取数据分片及其指纹信息;
该代理传输单元用于实现数据分片和指纹信息或者需要恢复的数据对象信息的传输。
3.根据权利要求1所述的基于重复数据删除的数据备份上云和恢复系统,其特征在于,所述备份服务模块包括服务传输单元、重删服务单元、元数据管理单元、数据管理单元和上云网关单元,其中,
该服务传输单元用于接收数据分片和指纹信息或者需要恢复的数据对象信息;
该重删服务单元用于基于接收到的指纹信息查询本地指纹数据库,若查询到,则调用该指纹信息对应的数据分片在云端存储的数据对象名和偏移信息,发送至元数据管理单元,否则将数据分片发送至数据管理单元;
该元数据管理单元用于查询并维护所述本地对象指纹库和本地索引数据库,基于需要恢复的数据对象信息查找到需要恢复的数据分片在云端的数据对象名、偏移和长度;
该数据管理单元用于将接收到的数据分片合并为数据对象;
该上云网关单元用于实现与云端的数据交互,包括数据对象上云或云端的数据分片下载。
4.根据权利要求1所述的基于重复数据删除的数据备份上云和恢复系统,其特征在于,所述备份代理模块和备份服务模块通过socket通讯。
5.根据权利要求1所述的基于重复数据删除的数据备份上云和恢复系统,其特征在于,所述备份服务模块和云端通过S3接口通讯。
6.根据权利要求1所述的基于重复数据删除的数据备份上云和恢复系统,其特征在于,所述数据分片信息包括云端数据对象中数据分片存储的偏移、长度以及数据分片引用计数。
7.根据权利要求1所述的基于重复数据删除的数据备份上云和恢复系统,其特征在于,所述元数据信息包括数据对象对应的所有数据分片的指纹信息、数据分片在原数据对象的偏移、数据分片的长度以及数据分片上传到云端存储的数据对象名。
8.一种采用如权利要求1所述的基于重复数据删除的数据备份上云和恢复系统的数据备份上云方法,其特征在于,包括以下步骤:
A1、读取业务应用数据,对所述业务应用业务数据进行分片并计算其指纹,获取数据分片及其指纹信息;
A2、在本地指纹数据库中查找所述指纹信息,若查找到,则调用该指纹信息对应的数据分片在云端存储的数据对象名和偏移信息,执行步骤A4,否则执行步骤A3;
A3、将接收到的数据分片合并成数据对象,当合并的数据对象达到设定大小时,将合并的数据对象上传到云端的数据桶中,记录数据对象名和各数据分片对应的偏移,更新所述本地指纹数据库;
A4、创建和云端数据对象名相同名字的本地对象指纹库,递增更新其版本号;
A5、在一本地索引数据库中存储数据对象的元数据信息并递增其版本号;
A6、将本地对象指纹库及其版本信息和本地索引数据库及其版本信息上传到云端的元数据桶。
9.一种采用如权利要求1所述的基于重复数据删除的数据备份上云和恢复系统的数据恢复方法,其特征在于,包括以下步骤:
B1、获取需要恢复的数据对象信息;
B2、比较本地索引数据库和云端元数据桶中的索引数据库版本是否一致,如果不一致则从云端下载索引数据库覆盖本地索引数据库的信息;
B3、查询本地索引数据库,获取需要恢复的数据对象的元数据信息;
B4、通过数据对象的元数据信息获取数据分片在云端存储的数据对象名,通过该数据对象名查找本地对象指纹库,比较本地对象指纹库和云端元数据桶中的对象指纹库版本是否一致,如果不一致则从云端下载对象指纹库覆盖本地对象指纹库的信息;
B5、通过数据对象的元数据信息获取数据分片的指纹信息,通过该指纹信息查询本地对象指纹库,获取数据分片在云端数据对象的偏移和长度;
B6、根据所述数据对象名、数据分片在云端数据对象的偏移和长度信息,从云端数据桶的相应的数据对象中下载指定的数据分片;
B7、将所述数据发片进行合并组合成原始对象数据,实现恢复。
10.根据权利要求9所述的数据恢复方法,其特征在于,所述步骤B7具体包括:
B71、将下载的数据分片存到缓存区;
B72、根据获取到的数据对象的元数据信息,查询数据分片在原数据对象的偏移和长度;
B73、通过各个数据分片在原数据对象的偏移和长度,将缓存区的数据片组合成原始对象数据。
CN202111646391.0A 2021-12-30 2021-12-30 一种基于重复数据删除的数据备份上云和恢复系统及方法 Pending CN114371959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111646391.0A CN114371959A (zh) 2021-12-30 2021-12-30 一种基于重复数据删除的数据备份上云和恢复系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111646391.0A CN114371959A (zh) 2021-12-30 2021-12-30 一种基于重复数据删除的数据备份上云和恢复系统及方法

Publications (1)

Publication Number Publication Date
CN114371959A true CN114371959A (zh) 2022-04-19

Family

ID=81141682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111646391.0A Pending CN114371959A (zh) 2021-12-30 2021-12-30 一种基于重复数据删除的数据备份上云和恢复系统及方法

Country Status (1)

Country Link
CN (1) CN114371959A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149724A (zh) * 2023-10-30 2023-12-01 宁德思客琦智能装备有限公司 一种云环境系统重复数据删除的方法及系统
WO2024124717A1 (zh) * 2022-12-12 2024-06-20 上海爱数信息技术股份有限公司 一种备份重删系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024124717A1 (zh) * 2022-12-12 2024-06-20 上海爱数信息技术股份有限公司 一种备份重删系统
CN117149724A (zh) * 2023-10-30 2023-12-01 宁德思客琦智能装备有限公司 一种云环境系统重复数据删除的方法及系统
CN117149724B (zh) * 2023-10-30 2024-03-15 宁德思客琦智能装备有限公司 一种云环境系统重复数据删除的方法及系统

Similar Documents

Publication Publication Date Title
US9208031B2 (en) Log structured content addressable deduplicating storage
USRE45350E1 (en) Storage system for randomly named blocks of data
US8694466B2 (en) Object deduplication and application aware snapshots
US9678973B2 (en) Multi-node hybrid deduplication
US6941328B2 (en) Copy process substituting compressible bit pattern for any unqualified data objects
US8219524B2 (en) Application-aware and remote single instance data management
US9098495B2 (en) Application-aware and remote single instance data management
US12019524B2 (en) Data connector component for implementing data requests
US8386443B2 (en) Representing and storing an optimized file system using a system of symlinks, hardlinks and file archives
CN114371959A (zh) 一种基于重复数据删除的数据备份上云和恢复系统及方法
US11436102B2 (en) Log-structured formats for managing archived storage of objects
Denehy et al. Duplicate management for reference data
CN111581017B (zh) 一种现代应用的备份恢复系统及方法
CN112800019A (zh) 基于Hadoop分布式文件系统的数据备份方法及系统
US10915246B2 (en) Cloud storage format to enable space reclamation while minimizing data transfer
CN113728303A (zh) 用于重复数据删除云分层的垃圾收集
US11645333B1 (en) Garbage collection integrated with physical file verification
US10613761B1 (en) Data tiering based on data service status
Goel et al. A Detailed Review of Data Deduplication Approaches in the Cloud and Key Challenges
CN117149724B (zh) 一种云环境系统重复数据删除的方法及系统
US11977460B1 (en) File system namespace reconstruction
US20240028575A1 (en) High density data storage based on log structured storage techniques
US20230384943A1 (en) Managing metadata of variable length using metadata pages and delta records of transaction log
CN116962442A (zh) 一种云计算数据高可用存储压缩方法
Feng Rewriting Algorithms

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination