CN111930556A - 一种分布式存储数据的备份方法及其装置 - Google Patents

一种分布式存储数据的备份方法及其装置 Download PDF

Info

Publication number
CN111930556A
CN111930556A CN202011095800.8A CN202011095800A CN111930556A CN 111930556 A CN111930556 A CN 111930556A CN 202011095800 A CN202011095800 A CN 202011095800A CN 111930556 A CN111930556 A CN 111930556A
Authority
CN
China
Prior art keywords
data
instance
backup
storage
object storage
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011095800.8A
Other languages
English (en)
Inventor
曾星
史伟
闵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Eflycloud Computing Co Ltd
Original Assignee
Guangdong Eflycloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Eflycloud Computing Co Ltd filed Critical Guangdong Eflycloud Computing Co Ltd
Priority to CN202011095800.8A priority Critical patent/CN111930556A/zh
Publication of CN111930556A publication Critical patent/CN111930556A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/08Error detection or correction by redundancy in data representation, e.g. by using checking codes
    • G06F11/10Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's
    • G06F11/1004Adding special bits or symbols to the coded information, e.g. parity check, casting out 9's or 11's to protect a block of data words, e.g. CRC or checksum

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开一种分布式存储数据的备份方法及其装置,方法步骤包括:将对象数据块存储于数据存储桶的实例内,对实例的id进行记录形成第一实例列表;对实例中各个对象数据块形成第一MD5校验结果;第二对象存储集群创建若干个数据备份桶;将每个实例的对象数据块分别存进去对应的数据备份桶内;一定时间段后,读取数据存储桶内的实例,形成第二实例列表,对实例中各个对象数据块形成第二MD5校验结果;判断第二实例列表中是否有与第一实例列表不同id的实例;将不同id的实例及实例内的对象数据块发送至数据备份桶;将不同MD5值的对象数据块发送至第二对象存储集群进行备份。本发明实现对象存储的差异备份,并保证必要数据存储的一致性。

Description

一种分布式存储数据的备份方法及其装置
技术领域
本发明涉及分布式存储技术领域,特别涉及一种分布式存储数据的备份方法及其装置。
背景技术
对象存储是一种基于对象的存储技术,其扁平的结构和分片式存储有利于现代应用数据的读写。在分布式对象存储中,文件会以对象的方式存放到桶(bucket)中,每个对象都有一个唯一标识。
因为使用场景的不同,块存储可以通过导出块文件的方式实现迁移备份,并实现差异导出合并等功能。尽管对象存储是一写多读的场景,但是对象存储的关键数据还是有备份的需求。
对象存储使用场景中,因为主存储需要保证其性能,所以需要定时清除过时的、历史的数据,而旧数据需要做长期的、持久的备份,所以需要另一套备份对象存储集群,实现对象存储的差异备份,并保证其一致性。
发明内容
本发明要解决的技术问题在于,提供一种分布式存储数据的备份方法及其装置,实现对对象存储数据的差异性备份,并且第一对象存储集群和第二对象存储集群实际所需保存的数据保持一致性。
为解决上述技术问题,本发明提供如下技术方案:一种分布式存储数据的备份方法及,包括以下步骤:
步骤S1、第一对象存储集群创建若干个数据存储桶;
步骤S2、对每一个数据存储桶创建若干个实例,每个实例均分配一个id且各个id均不一致;
步骤S3、第一对象存储集群对外接收数据,将数据均分成若干块对象数据块并将对象数据块存储于数据存储桶的实例内,每个实例包括若干对象数据块;
步骤S4、对象存储备份单元读取每一个数据存储桶内的实例,并对实例的id作为标记进行记录形成第一实例列表;对象存储备份单元将第一对象存储集群内每个实例的全部对象数据块导出至对象存储备份单元,对象存储备份单元对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第一MD5校验结果,其中,每个实例均形成一个第一MD5校验结果;
步骤S5、第二对象存储集群创建若干个数据备份桶,其中,数据备份桶与第一对象存储集群的数据存储桶数量一致,且数据备份桶与数据存储桶一一对应,数据备份桶内实例与数据存储桶内实例的id相同且一一对应;
步骤S6、对象存储备份单元将第一对象存储集群中数据存储桶内每个实例的全部对象数据块分别存进去对应的数据备份桶内,数据备份桶内的对象数据块与其对应的数据存储桶内的对象数据块保持一致;
步骤S7、重复步骤S2和步骤S3;
步骤S8、经过一定时间段后,对象存储备份单元读取每一个数据存储桶内的实例,并对实例的id作为标记进行记录形成第二实例列表;对象存储备份单元将第一对象存储集群内每个实例的全部对象数据块导出至对象存储备份单元,对象存储备份单元对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第二MD5校验结果,其中,每个实例均形成一个第二MD5校验结果;
步骤S9、对第一实例列表和第二实例列表进行判断,判断第二实例列表中是否有与第一实例列表不同id的实例;
若有,将不同id的实例及实例内的对象数据块发送至第二对象存储集群的数据备份桶中进行备份,其中,实例所在第一对象存储集群的数据存储桶与数据备份桶相对应;
遍历第二实例列表中每一个与第一实例列表相同id的实例,判断相同id的实例中第二MD5校验结果和第一MD5校验结果是否存在不同MD5值的对象数据块;若存在不同MD5值的对象数据块,则将不同MD5值的对象数据块发送至第二对象存储集群中对应数据备份桶内的实例中,若不存在不同MD5值的对象数据块则不作处理。
进一步地,所述步骤S1前还包括步骤S0、设置一个对象存储备份单元,对象存储备份单元连接第一对象存储集群和第二对象存储集群。
进一步地,所述步骤S4中,对象存储备份单元以队列方式对每个实例的全部对象数据块进行MD5校验;
所述S8中,对象存储备份单元以队列方式对每个实例的全部对象数据块进行MD5校验。
进一步地,所述步骤S4中,对实例中各个对象数据块的MD5值进行记录且形成一个第一MD5校验结果,并将第一MD5校验结果保存到对象存储备份单元的k-v数据库中;
所述S8中,对实例中各个对象数据块的MD5值进行记录且形成一个第二MD5校验结果,并将第二MD5校验结果保存到对象存储备份单元的k-v数据库中。
本发明另一目的是提供一种分布式存储数据的备份装置,包括对象存储备份单元、第一对象存储集群以及第二对象存储集群,所述对象存储备份单元连接第一对象存储集群和第二对象存储集群;
所述第一对象存储集群用于创建若干个数据存储桶;
所述数据存储桶用于创建若干个实例,并对每个实例均分配一个id且各个id均不一致;
所述第一对象存储集群还用于对外接收数据,将数据均分成若干块对象数据块并将对象数据块存储于所述数据存储桶的实例内,每个实例包括若干对象数据块;
所述对象存储备份单元用于读取每一个所述数据存储桶内的实例,并对实例的id作为标记进行记录形成第一实例列表;所述对象存储备份单元还用于将所述第一对象存储集群内每个实例的全部对象数据块导出至所述对象存储备份单元内;所述对象存储备份单元还用于对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第一MD5校验结果,其中,每个实例均形成一个第一MD5校验结果;
所述第二对象存储集群用于创建若干个数据备份桶,其中,所述数据备份桶与所述第一对象存储集群的数据存储桶数量一致,且数据备份桶与数据存储桶一一对应,数据备份桶内实例与数据存储桶内实例的id相同且一一对应;
所述对象存储备份单元还用于将所述第一对象存储集群中数据存储桶内每个实例的全部对象数据块分别存进去对应的数据备份桶内,数据备份桶内的对象数据块与其对应的数据存储桶内的对象数据块保持一致;
所述对象存储备份单元还用于:每经过一定时间段后,所述对象存储备份单元读取每一个数据存储桶内的实例,并对实例的id作为标记进行记录形成第二实例列表;对象存储备份单元将第一对象存储集群内每个实例的全部对象数据块导出至对象存储备份单元,对象存储备份单元对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第二MD5校验结果,其中,每个实例均形成一个第二MD5校验结果;
所述对象存储备份单元还用于对第一实例列表和第二实例列表进行判断,判断第二实例列表中是否有与第一实例列表不同id的实例;若有,将不同id的实例及实例内的对象数据块发送至第二对象存储集群的数据备份桶中进行备份,其中,实例所在第一对象存储集群的数据存储桶与数据备份桶相对应;所述对象存储备份单元还用于遍历第二实例列表中每一个与第一实例列表相同id的实例,判断相同id的实例中第二MD5校验结果和第一MD5校验结果是否存在不同MD5值的对象数据块;若存在不同MD5值的对象数据块,则将不同MD5值的对象数据块发送至第二对象存储集群中对应数据备份桶内的实例中,若不存在不同MD5值的对象数据块则不作处理。
进一步地,所述对象存储备份单元包括k-v数据库,所述对象存储备份单元还用于将第一MD5校验结果和第二MD5校验结果存储于所述k-v数据库中。
采用上述技术方案后,本发明至少具有如下有益效果:本发明设置一个独立于第一对象存储集群和第二对象存储集群的对象存储备份单元,通过第一对象存储集群的不同时间点下对象数据块和实例的比较,得到哪些是重复存储的对象数据块或实例,对于重复存储的对象数据块或实例无需往第二对象存储集群发送并备份,提高了第二对象存储集群的存储空间和利用率,对于新增加的对象数据块或实例则需要往第二对象存储集群发送并备份,使得第一对象存储集群和第二对象存储集群在实际上必须备份的存储数据保存一致,在第一对象存储集群发生故障是即可通过第二对象存储集群回复必要数据,安全可靠。
附图说明
图1为本发明一种分布式存储数据的备份方法流程图。
图2为本发明一种分布式存储数据的备份装置框架图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
实施例1
如图1所示,本实施例公开了一种分布式存储数据的备份方法,包括以下步骤:
步骤S0、设置一个对象存储备份单元,对象存储备份单元连接第一对象存储集群和第二对象存储集群;
其中,对象存储备份单元独立于第一对象存储集群和第二对象存储集群,对象存储备份单元以桶(数据存储桶或数据备份桶)为单位扫描桶内的实例或对象数据块;
步骤S1、第一对象存储集群创建若干个数据存储桶;
步骤S2、对每一个数据存储桶创建若干个实例,每个实例均分配一个id且各个id均不一致;
需要说明的是,实例相当于一个文件夹,例如在计算机的存储硬盘上,存储硬盘设置几个数据盘(如C盘、D盘、E盘、F盘等等,每一个数据盘相当于这里的每一个数据存储桶),数据盘分配几个文件夹(相当于这里的实例),文件夹下用来存储许多数据(相当于下面的对象数据块);
步骤S3、第一对象存储集群对外接收数据,将数据均分成若干块对象数据块并将对象数据块存储于数据存储桶的实例内,每个实例包括若干对象数据块;
显而易见,在分布式存储领域中,每一个分布式存储集群都会对外接收数据并将数据均分成若干份数据块(一般数据块为4MB的大小)保存在各个存储设备中,对外接收的数据来自于用户的客户端等等;
步骤S4、对象存储备份单元读取每一个数据存储桶内的实例,并对实例的id作为标记进行记录形成第一实例列表;对象存储备份单元将第一对象存储集群内每个实例的全部对象数据块导出至对象存储备份单元,对象存储备份单元对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第一MD5校验结果,其中,每个实例均形成一个第一MD5校验结果;
优选的,对象存储备份单元以队列方式对每个实例的全部对象数据块进行MD5校验;将第一MD5校验结果保存到对象存储备份单元的k-v数据库中;
这里需要说明的是,k-v数据库就是现在非常热门的NoSQL,非关系型数据库,主要存储结构是key-value,其中value有的采用Json串结构;
步骤S5、第二对象存储集群创建若干个数据备份桶,其中,数据备份桶与第一对象存储集群的数据存储桶数量一致,且数据备份桶与数据存储桶一一对应,数据备份桶内实例与数据存储桶内实例的id相同且一一对应;
步骤S6、对象存储备份单元将第一对象存储集群中数据存储桶内每个实例的全部对象数据块分别存进去对应的数据备份桶内,数据备份桶内的对象数据块与其对应的数据存储桶内的对象数据块保持一致;
步骤S7、重复步骤S2和步骤S3;
步骤S8、经过一定时间段后,对象存储备份单元读取每一个数据存储桶内的实例,并对实例的id作为标记进行记录形成第二实例列表;对象存储备份单元将第一对象存储集群内每个实例的全部对象数据块导出至对象存储备份单元,对象存储备份单元对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第二MD5校验结果,其中,每个实例均形成一个第二MD5校验结果;
其中,一定时间段根据实际情况具体设定;例如,当大量数据存储时,可将一定时间段设为一个小时,当数据量非常缓慢地进行更新存储时,可将一定时间段设为24小时,等等,具体根据存储数据量的多少来设定一定时间段的具体时间值。
优选的,对象存储备份单元以队列方式对每个实例的全部对象数据块进行MD5校验;将第二MD5校验结果保存到对象存储备份单元的k-v数据库中;
步骤S9、对第一实例列表和第二实例列表进行判断,判断第二实例列表中是否有与第一实例列表不同id的实例;
若有,将不同id的实例及实例内的对象数据块发送至第二对象存储集群的数据备份桶中进行备份,其中,实例所在第一对象存储集群的数据存储桶与数据备份桶相对应;
遍历第二实例列表中每一个与第一实例列表相同id的实例,判断相同id的实例中第二MD5校验结果和第一MD5校验结果是否存在不同MD5值的对象数据块;若存在不同MD5值的对象数据块,则将不同MD5值的对象数据块发送至第二对象存储集群中对应数据备份桶内的实例中,若不存在不同MD5值的对象数据块则不作处理。
由此可见,步骤S9,通过前后数据的对比,即可得到哪些实例或者对象数据块是在第一对象存储集群重复进行接收存储的以及哪些是新增加的实例或者对象数据块,对于重复记录的实例或者对象数据块则无需发送给第二对象存储集群进行备份,增加了第二对象存储集群的存储空间,提高了利用率;而对于新增加的实例或者对象数据块,就需要发给第二对象存储集群进行备份,对第一对象存储集群和第二对象存储集群两者之间在必要的数据保存内容中的保存了一致性;
此时将重复步骤步骤S7-S9,由于数据书不断更新和添加新数据的,因此此时的第二实例列表应该变成第一实例列表,第二MD5校验结果变成第一MD5校验结果,在经过下一个一定时间段后,就会产生第三实例列表和第三MD5校验结果,那么第三实例列表和第三MD5校验结果就会变成第二实例列表和第二MD5校验结果。依次类推,每一次数据的更新,每一次数据的校验对比,其实是前后两次数据的对比,从而寻找出在数据桶内是否增加新的数据块以及是否存在重复的数据块,对第一对象存储集群新增加的对象数据块就会发送到第二对象存储集群进行对象数据块备份,对第一对象存储集群内重复的对象数据块则无需处理,从而达到了差异化备份,并保持第一对象存储集群和第而对象存储集群数据的一致性。
在后面,如果第一对象存储集群突然发生故障,即可将第二对象存储集群保存的数据恢复至第一对象存储集群中,保证了数据的完好。当然,如果是第一对象存储集群是某个数据点的数据发送估计,根据对应的实例id标记或对象数据块的MD5值即可轻松将第二对象存储集群中对应的实例或对象数据块恢复至第一对象存储集群中。
实施例2
本实施例是在实施例1方法的基础上公开一种分布式存储数据的备份装置,如图2所示,包括对象存储备份单元、第一对象存储集群以及第二对象存储集群,所述对象存储备份单元连接第一对象存储集群和第二对象存储集群;
所述第一对象存储集群用于创建若干个数据存储桶;
所述数据存储桶用于创建若干个实例,并对每个实例均分配一个id且各个id均不一致;
所述第一对象存储集群还用于对外接收数据,将数据均分成若干块对象数据块并将对象数据块存储于所述数据存储桶的实例内,每个实例包括若干对象数据块;
所述对象存储备份单元用于读取每一个所述数据存储桶内的实例,并对实例的id作为标记进行记录形成第一实例列表;所述对象存储备份单元还用于将所述第一对象存储集群内每个实例的全部对象数据块导出至所述对象存储备份单元内;所述对象存储备份单元还用于对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第一MD5校验结果,其中,每个实例均形成一个第一MD5校验结果;
所述第二对象存储集群用于创建若干个数据备份桶,其中,所述数据备份桶与所述第一对象存储集群的数据存储桶数量一致,且数据备份桶与数据存储桶一一对应,数据备份桶内实例与数据存储桶内实例的id相同且一一对应;
所述对象存储备份单元还用于将所述第一对象存储集群中数据存储桶内每个实例的全部对象数据块分别存进去对应的数据备份桶内,数据备份桶内的对象数据块与其对应的数据存储桶内的对象数据块保持一致;
所述对象存储备份单元还用于:每经过一定时间段后,所述对象存储备份单元读取每一个数据存储桶内的实例,并对实例的id作为标记进行记录形成第二实例列表;对象存储备份单元将第一对象存储集群内每个实例的全部对象数据块导出至对象存储备份单元,对象存储备份单元对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第二MD5校验结果,其中,每个实例均形成一个第二MD5校验结果;
所述对象存储备份单元还用于对第一实例列表和第二实例列表进行判断,判断第二实例列表中是否有与第一实例列表不同id的实例;若有,将不同id的实例及实例内的对象数据块发送至第二对象存储集群的数据备份桶中进行备份,其中,实例所在第一对象存储集群的数据存储桶与数据备份桶相对应;所述对象存储备份单元还用于遍历第二实例列表中每一个与第一实例列表相同id的实例,判断相同id的实例中第二MD5校验结果和第一MD5校验结果是否存在不同MD5值的对象数据块;若存在不同MD5值的对象数据块,则将不同MD5值的对象数据块发送至第二对象存储集群中对应数据备份桶内的实例中,若不存在不同MD5值的对象数据块则不作处理。
优选的,所述对象存储备份单元包括k-v数据库,所述对象存储备份单元还用于将第一MD5校验结果和第二MD5校验结果存储于所述k-v数据库中。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

Claims (6)

1.一种分布式存储数据的备份方法,其特征在于,包括以下步骤:
步骤S1、第一对象存储集群创建若干个数据存储桶;
步骤S2、对每一个数据存储桶创建若干个实例,每个实例均分配一个id且各个id均不一致;
步骤S3、第一对象存储集群对外接收数据,将数据均分成若干块对象数据块并将对象数据块存储于数据存储桶的实例内,每个实例包括若干对象数据块;
步骤S4、对象存储备份单元读取每一个数据存储桶内的实例,并对实例的id作为标记进行记录形成第一实例列表;对象存储备份单元将第一对象存储集群内每个实例的全部对象数据块导出至对象存储备份单元,对象存储备份单元对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第一MD5校验结果,其中,每个实例均形成一个第一MD5校验结果;
步骤S5、第二对象存储集群创建若干个数据备份桶,其中,数据备份桶与第一对象存储集群的数据存储桶数量一致,且数据备份桶与数据存储桶一一对应,数据备份桶内实例与数据存储桶内实例的id相同且一一对应;
步骤S6、对象存储备份单元将第一对象存储集群中数据存储桶内每个实例的全部对象数据块分别存进去对应的数据备份桶内,数据备份桶内的对象数据块与其对应的数据存储桶内的对象数据块保持一致;
步骤S7、重复步骤S2和步骤S3;
步骤S8、经过一定时间段后,对象存储备份单元读取每一个数据存储桶内的实例,并对实例的id作为标记进行记录形成第二实例列表;对象存储备份单元将第一对象存储集群内每个实例的全部对象数据块导出至对象存储备份单元,对象存储备份单元对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第二MD5校验结果,其中,每个实例均形成一个第二MD5校验结果;
步骤S9、对第一实例列表和第二实例列表进行判断,判断第二实例列表中是否有与第一实例列表不同id的实例;
若有,将不同id的实例及实例内的对象数据块发送至第二对象存储集群的数据备份桶中进行备份,其中,实例所在第一对象存储集群的数据存储桶与数据备份桶相对应;
遍历第二实例列表中每一个与第一实例列表相同id的实例,判断相同id的实例中第二MD5校验结果和第一MD5校验结果是否存在不同MD5值的对象数据块;若存在不同MD5值的对象数据块,则将不同MD5值的对象数据块发送至第二对象存储集群中对应数据备份桶内的实例中,若不存在不同MD5值的对象数据块则不作处理。
2.根据权利要求1所述的一种分布式存储数据的备份方法,其特征在于,所述步骤S1前还包括步骤S0、设置一个对象存储备份单元,对象存储备份单元连接第一对象存储集群和第二对象存储集群。
3.根据权利要求1所述的一种分布式存储数据的备份方法,其特征在于,所述步骤S4中,对象存储备份单元以队列方式对每个实例的全部对象数据块进行MD5校验;
所述S8中,对象存储备份单元以队列方式对每个实例的全部对象数据块进行MD5校验。
4.根据权利要求1所述的一种分布式存储数据的备份方法,其特征在于,所述步骤S4中,对实例中各个对象数据块的MD5值进行记录且形成一个第一MD5校验结果,并将第一MD5校验结果保存到对象存储备份单元的k-v数据库中;
所述S8中,对实例中各个对象数据块的MD5值进行记录且形成一个第二MD5校验结果,并将第二MD5校验结果保存到对象存储备份单元的k-v数据库中。
5.一种分布式存储数据的备份装置,其特征在于,包括对象存储备份单元、第一对象存储集群以及第二对象存储集群,所述对象存储备份单元连接第一对象存储集群和第二对象存储集群;
所述第一对象存储集群用于创建若干个数据存储桶;
所述数据存储桶用于创建若干个实例,并对每个实例均分配一个id且各个id均不一致;
所述第一对象存储集群还用于对外接收数据,将数据均分成若干块对象数据块并将对象数据块存储于所述数据存储桶的实例内,每个实例包括若干对象数据块;
所述对象存储备份单元用于读取每一个所述数据存储桶内的实例,并对实例的id作为标记进行记录形成第一实例列表;所述对象存储备份单元还用于将所述第一对象存储集群内每个实例的全部对象数据块导出至所述对象存储备份单元内;所述对象存储备份单元还用于对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第一MD5校验结果,其中,每个实例均形成一个第一MD5校验结果;
所述第二对象存储集群用于创建若干个数据备份桶,其中,所述数据备份桶与所述第一对象存储集群的数据存储桶数量一致,且数据备份桶与数据存储桶一一对应,数据备份桶内实例与数据存储桶内实例的id相同且一一对应;
所述对象存储备份单元还用于将所述第一对象存储集群中数据存储桶内每个实例的全部对象数据块分别存进去对应的数据备份桶内,数据备份桶内的对象数据块与其对应的数据存储桶内的对象数据块保持一致;
所述对象存储备份单元还用于:每经过一定时间段后,所述对象存储备份单元读取每一个数据存储桶内的实例,并对实例的id作为标记进行记录形成第二实例列表;对象存储备份单元将第一对象存储集群内每个实例的全部对象数据块导出至对象存储备份单元,对象存储备份单元对每个实例的全部对象数据块进行MD5校验,对实例中各个对象数据块的MD5值进行记录且形成一个第二MD5校验结果,其中,每个实例均形成一个第二MD5校验结果;
所述对象存储备份单元还用于对第一实例列表和第二实例列表进行判断,判断第二实例列表中是否有与第一实例列表不同id的实例;若有,将不同id的实例及实例内的对象数据块发送至第二对象存储集群的数据备份桶中进行备份,其中,实例所在第一对象存储集群的数据存储桶与数据备份桶相对应;所述对象存储备份单元还用于遍历第二实例列表中每一个与第一实例列表相同id的实例,判断相同id的实例中第二MD5校验结果和第一MD5校验结果是否存在不同MD5值的对象数据块;若存在不同MD5值的对象数据块,则将不同MD5值的对象数据块发送至第二对象存储集群中对应数据备份桶内的实例中,若不存在不同MD5值的对象数据块则不作处理。
6.根据权利要求5所述的一种分布式存储数据的备份装置,其特征在于,所述对象存储备份单元包括k-v数据库,所述对象存储备份单元还用于将第一MD5校验结果和第二MD5校验结果存储于所述k-v数据库中。
CN202011095800.8A 2020-10-14 2020-10-14 一种分布式存储数据的备份方法及其装置 Pending CN111930556A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011095800.8A CN111930556A (zh) 2020-10-14 2020-10-14 一种分布式存储数据的备份方法及其装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011095800.8A CN111930556A (zh) 2020-10-14 2020-10-14 一种分布式存储数据的备份方法及其装置

Publications (1)

Publication Number Publication Date
CN111930556A true CN111930556A (zh) 2020-11-13

Family

ID=73334791

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011095800.8A Pending CN111930556A (zh) 2020-10-14 2020-10-14 一种分布式存储数据的备份方法及其装置

Country Status (1)

Country Link
CN (1) CN111930556A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114860505A (zh) * 2022-04-20 2022-08-05 中国科学院计算机网络信息中心 一种对象存储数据异步备份方法及系统
CN115268801A (zh) * 2022-09-30 2022-11-01 天津卓朗昆仑云软件技术有限公司 块设备的备份系统和方法
CN116185718A (zh) * 2023-03-10 2023-05-30 上海翔麟马大数据科技有限公司 一种基于云存储的数据备份管理系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150112941A1 (en) * 2013-10-18 2015-04-23 Power-All Networks Limited Backup management system and method thereof
CN105376277A (zh) * 2014-08-25 2016-03-02 Tcl集团股份有限公司 一种数据同步方法及装置
CN111163126A (zh) * 2019-11-29 2020-05-15 广东睿江云计算股份有限公司 一种基于Ceph分布式存储的异地备份恢复方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150112941A1 (en) * 2013-10-18 2015-04-23 Power-All Networks Limited Backup management system and method thereof
CN105376277A (zh) * 2014-08-25 2016-03-02 Tcl集团股份有限公司 一种数据同步方法及装置
CN111163126A (zh) * 2019-11-29 2020-05-15 广东睿江云计算股份有限公司 一种基于Ceph分布式存储的异地备份恢复方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114860505A (zh) * 2022-04-20 2022-08-05 中国科学院计算机网络信息中心 一种对象存储数据异步备份方法及系统
CN114860505B (zh) * 2022-04-20 2022-12-23 中国科学院计算机网络信息中心 一种对象存储数据异步备份方法及系统
CN115268801A (zh) * 2022-09-30 2022-11-01 天津卓朗昆仑云软件技术有限公司 块设备的备份系统和方法
CN115268801B (zh) * 2022-09-30 2023-01-10 天津卓朗昆仑云软件技术有限公司 块设备的备份系统和方法
CN116185718A (zh) * 2023-03-10 2023-05-30 上海翔麟马大数据科技有限公司 一种基于云存储的数据备份管理系统
CN116185718B (zh) * 2023-03-10 2023-12-15 上海翔麟马大数据科技有限公司 一种基于云存储的数据备份管理系统

Similar Documents

Publication Publication Date Title
US11249940B2 (en) Snapshot archive management
CN111930556A (zh) 一种分布式存储数据的备份方法及其装置
US9575983B2 (en) Calculating deduplication digests for a synthetic backup by a deduplication storage system
CN106201771B (zh) 数据存储系统和数据读写方法
JP5732536B2 (ja) 重複排除に基づくストレージシステムにおけるスケーラブル参照管理のためのシステム、方法及び非一時的なコンピュータ可読ストレージ媒体
CN102843403A (zh) 基于分布式文件系统的文件处理方法、系统及客户端
CN103605585A (zh) 一种基于数据发现的智能备份方法
CN105493080B (zh) 基于上下文感知的重复数据删除的方法和装置
US20230394010A1 (en) File system metadata deduplication
CN112612576B (zh) 虚拟机备份方法、装置、电子设备及存储介质
US11403024B2 (en) Efficient restoration of content
CN107506466B (zh) 一种小文件存储方法及系统
US11093453B1 (en) System and method for asynchronous cleaning of data objects on cloud partition in a file system with deduplication
US10452496B2 (en) System and method for managing storage transaction requests
US11669545B2 (en) Any point in time replication to the cloud
CN104484402B (zh) 一种删除重复数据的方法及装置
CN107341072A (zh) 一种数据备份方法及装置
US7685186B2 (en) Optimized and robust in-place data transformation
CN115904263B (zh) 一种数据迁移方法、系统、设备及计算机可读存储介质
EP3451141B1 (en) Snapshot archive management
CN109241011B (zh) 一种虚拟机文件处理方法及装置
US11455255B1 (en) Read performance of log-structured file system (LFS)-based storage systems that support copy-on-write (COW) snapshotting
CN113064886B (zh) 一种标识资源存储和标记管理的方法
US10481813B1 (en) Device and method for extending cache operational lifetime
CN117235027A (zh) 数据库系统、数据库日志归档方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20201113