CN111163126A - 一种基于Ceph分布式存储的异地备份恢复方法 - Google Patents

一种基于Ceph分布式存储的异地备份恢复方法 Download PDF

Info

Publication number
CN111163126A
CN111163126A CN201911200009.6A CN201911200009A CN111163126A CN 111163126 A CN111163126 A CN 111163126A CN 201911200009 A CN201911200009 A CN 201911200009A CN 111163126 A CN111163126 A CN 111163126A
Authority
CN
China
Prior art keywords
block
data block
data
backup
sparse
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911200009.6A
Other languages
English (en)
Inventor
曾星
史伟
闵宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Eflycloud Computing Co Ltd
Original Assignee
Guangdong Eflycloud Computing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Eflycloud Computing Co Ltd filed Critical Guangdong Eflycloud Computing Co Ltd
Priority to CN201911200009.6A priority Critical patent/CN111163126A/zh
Publication of CN111163126A publication Critical patent/CN111163126A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于Ceph分布式存储的异地备份恢复方法,步骤包括:将rbd块存储对象信息作为元数据基础版本;将rbd块存储对象进行分片生成数据块;判断数据块是否是稀疏块;计算稀疏块和数据块的校验码,相同校验码的数据块标志为稀疏块;将数据块的ID序号记录到本地数据库的元数据基础版本中;进行二次备份后得到稀疏块和数据块,对二次备份数据块与第一次备份的数据块进行比较,若两者的校验码相同,则将数据块标志为重复块后进行过滤;若不相同,则将数据块存放至异地数据后端;数据恢复:获取元数据更新版本的数据块,并写入rbd块存储对象。本发明实现数据全量备份和增量备份,在发生存储系统损坏情况下,通过导入备份数据,完成数据修复工作。

Description

一种基于Ceph分布式存储的异地备份恢复方法
技术领域
本发明涉及Ceph分布式存储技术领域,特别涉及一种基于Ceph分布式存储的异地备份恢复方法。
背景技术
当今社会,数据信息发展迅速,每天产生海量的数据,需要日益增大的计算机网络,同时也要求网络能可靠、高速、稳定的运行。对于CEPH分布式存储系统,虽然其本身基于副本或者纠删码的策略,以及大的集群通过修改CRUSH规则,可以提升其数据的安全性;但是,在同一数据中心,还是无法避免地震、火灾、光纤中断等自然灾难和人为事故的影响。一旦这台服务器因为外部或内部的因素影响出现了宕机的故障,所提供的服务也会随之中断,影响正常工作,并可能影响关键性数据,造成损失巨大。
为了避免上述提到的服务器宕机造成的损失,CEPH的备份工作也是至关重要的一环。而对于CEPH分布式存储来说,大量的数据对备份一个很沉重的任务。所以快速,高效实现备份和恢复是技术的关键。
现有的Ceph分布式异地备份方式,一般工作流程为:在本端的ceph上,写入数据,将数据写入块存储日记以及写入块存储;在对端的ceph上,rbd-mirror同步块存储日志并将数据写入对端块存储。该现有技术存在的缺点包括:同一份数据需要客户端要写两次,IO写入路径过长;rbd-mirror对ceph的性能损耗太大;备份过程不可控,增加运维的难度;rbd块存储数据文件或者快照文件非压缩数据,需要消耗传输资源;大量的rbd块存储快照文件难以管理。
发明内容
本发明要解决的技术问题在于,提供一种基于Ceph分布式存储的异地备份恢复方法,可以实现数据全量备份和增量备份,并且在发生存储系统损坏的极端情况下,可以通过导入备份数据,完成数据修复工作。
为解决上述技术问题,本发明提供如下技术方案:一种基于Ceph分布式存储的异地备份恢复方法,包括以下步骤:
S1、对rbd块存储对象创建一个以auto+时序命名的快照,用于记录rbd数据块的ID序号,其中,每一个rbd数据块均具有唯一的ID序号;在元数据库中添加rbd块存储对象信息,rbd块存储对象信息具有唯一版本号,将第一次元数据库记录的rbd块存储对象信息作为元数据基础版本,此后的每一次记录作为元数据更新版本;
S2、将rbd块存储对象进行分片生成数据块,以auto+时序快照的最后数据位进行数据块校验,并输出数据块的偏移标志记录列表;
S3、根据偏移标志记录列表,判断数据块是否是稀疏块,具体为:如果数据块偏移位是0和偏移长度是0,或者块不存在,则标志为稀疏块;如果数据块偏移位非0、偏移长度非0以及块存在的,则标志为数据块;
S4、计算稀疏块和数据块的校验码,并对两者的校验码进行对比,判断校验码是否相同,如果存在相同校验码的数据块,则此数据块标志为稀疏块;
S5、过滤稀疏块,并将数据块以校验码标识为名存放至异地数据后端;将数据块的ID序号信息按顺序记录到本地数据库的元数据基础版本中;将稀疏块的ID序号信息按顺序记录到本地数据库的元数据基础版本中,元数据基础版本标注稀疏块的区别信息;
第一次数据备份完成。
进一步地,所述步骤S5后还包括步骤S6、进行第二次数据备份,重复步骤S1-S4后得到二次备份的稀疏块和数据块,对二次备份数据块进行去重校验,具体为:根据二次备份数据块的校验码,对二次备份数据块与第一次备份的数据块进行比较,若两者的校验码相同,则将此二次备份数据块标志为重复块后进行过滤;若不相同,则将二次备份数据块以校验码标识为名存放至异地数据后端,并将二次备份数据块的ID序号信息按顺序记录到本地数据库的元数据更新版本中;过滤稀疏块,并将稀疏块的ID序号信息按顺序记录到本地数据库的元数据更新版本中,元数据更新版本标注稀疏块的区别信息。
进一步地,所述步骤S6后还包括步骤S7、数据恢复:获取本地数据库的元数据更新版本,根据元数据更新版本的ID序号信息对应地向异地数据后端获取数据块信息;其中,如果稀疏块,则过滤稀疏块,并不写入rbd块存储对象;如果是数据块,则通过校验码获取异地数据后端的数据块,并按顺序写入rbd块存储对象。
进一步地,所述步骤S2的偏移标志记录列表,第一次的偏移标志记录列表为rbd块存储对象的全量数据块记录,此后每一次更新的偏移标志记录列表为已经进行数据偏移量以及偏移长度更新后的数据块记录。
采用上述技术方案后,本发明至少具有如下有益效果:本发明实现了rbd数据压缩去重,减少备份操作成本;实现了rbd对象备份多版本管理;实现了rbd对象快速恢复。
附图说明
图1为本发明一种基于Ceph分布式存储的异地备份恢复方法步骤流程图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
实施例1
本实施例公开了一种基于Ceph分布式存储的异地备份恢复方法,对数据进行两次备份,在需要数据恢复时进行数据恢复。一般原rbd对象出现异常,或者丢失等情况,需要恢复rbd对象。
如图1所示,本发明提供一种一种基于Ceph分布式存储的异地备份恢复方法,步骤包括:
S11、对rbd块存储对象创建一个以auto+时序命名的快照,用于记录rbd数据块的ID序号,其中,每一个rbd数据块均具有唯一的ID序号;在元数据库中添加rbd块存储对象信息,rbd块存储对象信息具有唯一版本号,将第一次元数据库记录的rbd块存储对象信息作为元数据基础版本,此后的每一次记录作为元数据更新版本;
S12、将rbd块存储对象进行分片生成数据块,其中将rbd块存储对象划分为若干4M大小的分片,以auto+时序快照的最后数据位进行数据块校验,即每个数据块按序号顺序进行排列标志,并输出数据块的偏移标志记录列表;第一次的偏移标志记录列表为rbd块存储对象的全量数据块记录,此后,每一次的偏移标志记录列表都需要记录那些已经进行过变化的数据块,例如数据块的数据偏移量以及偏移长度,即每一次更新的偏移标志记录列表为已经进行数据偏移量以及偏移长度更新后的数据块记录;
S13、根据偏移标志记录列表,判断数据块是否是稀疏块,具体为:如果数据块偏移位是0和偏移长度是0,或者块不存在,则标志为稀疏块;如果数据块偏移位非0、偏移长度非0以及块存在的,则标志为数据块;
S14、计算稀疏块和数据块的校验码,并对两者的校验码进行对比,判断校验码是否相同,如果存在相同校验码的数据块,则此数据块标志为稀疏块;
S15、过滤稀疏块,并将数据块以校验码标识为名存放至异地数据后端;将数据块的ID序号信息按顺序记录到本地数据库的元数据基础版本中;将稀疏块的ID序号信息按顺序记录到本地数据库的元数据基础版本中,元数据基础版本标注稀疏块的区别信息;
第一次数据备份完成;
S16、进行第二次数据备份,重复步骤S11-S14后得到的二次备份的稀疏块和数据块,对二次备份数据块进行去重校验,具体为:根据二次备份数据块的校验码,对二次备份数据块与第一次备份的数据块进行比较,若两者的校验码相同,则将此二次备份数据块标志为重复块后进行过滤;若不相同,则将二次备份数据块以校验码标识为名存放至异地数据后端,并将二次备份数据块的ID序号信息按顺序记录到本地数据库的元数据更新版本中;过滤稀疏块,并将稀疏块的ID序号信息按顺序记录到本地数据库的元数据更新版本中,元数据更新版本标注稀疏块的区别信息;第二次数据备份完成;
S17、在需要数据进行恢复的情况下,进行数据恢复:获取本地数据库的元数据更新版本,根据元数据更新版本的ID序号信息对应地向异地数据后端获取数据块信息;其中,如果稀疏块,则过滤稀疏块,并不写入rbd块存储对象;如果是数据块,则通过校验码获取异地数据后端的数据块,并按顺序写入rbd块存储对象。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。

Claims (4)

1.一种基于Ceph分布式存储的异地备份恢复方法,其特征在于,包括以下步骤:
S1、对rbd块存储对象创建一个以auto+时序命名的快照,用于记录rbd数据块的ID序号,其中,每一个rbd数据块均具有唯一的ID序号;在元数据库中添加rbd块存储对象信息,rbd块存储对象信息具有唯一版本号,将第一次元数据库记录的rbd块存储对象信息作为元数据基础版本,此后的每一次记录作为元数据更新版本;
S2、将rbd块存储对象进行分片生成数据块,以auto+时序快照的最后数据位进行数据块校验,并输出数据块的偏移标志记录列表;
S3、根据偏移标志记录列表,判断数据块是否是稀疏块,具体为:如果数据块偏移位是0和偏移长度是0,或者块不存在,则标志为稀疏块;如果数据块偏移位非0、偏移长度非0以及块存在的,则标志为数据块;
S4、计算稀疏块和数据块的校验码,并对两者的校验码进行对比,判断校验码是否相同,如果存在相同校验码的数据块,则此数据块标志为稀疏块;
S5、过滤稀疏块,并将数据块以校验码标识为名存放至异地数据后端;将数据块的ID序号信息按顺序记录到本地数据库的元数据基础版本中;将稀疏块的ID序号信息按顺序记录到本地数据库的元数据基础版本中,元数据基础版本标注稀疏块的区别信息;
第一次数据备份完成。
2.根据权利要求1所述的一种基于Ceph分布式存储的异地备份恢复方法,其特征在于,所述步骤S5后还包括步骤S6、进行第二次数据备份,重复步骤S1-S4后得到二次备份的稀疏块和数据块,对二次备份数据块进行去重校验,具体为:根据二次备份数据块的校验码,对二次备份数据块与第一次备份的数据块进行比较,若两者的校验码相同,则将此二次备份数据块标志为重复块后进行过滤;若不相同,则将二次备份数据块以校验码标识为名存放至异地数据后端,并将二次备份数据块的ID序号信息按顺序记录到本地数据库的元数据更新版本中;过滤稀疏块,并将稀疏块的ID序号信息按顺序记录到本地数据库的元数据更新版本中,元数据更新版本标注稀疏块的区别信息。
3.根据权利要求2所述的一种基于Ceph分布式存储的异地备份恢复方法,其特征在于,所述步骤S6后还包括步骤S7、数据恢复:获取本地数据库的元数据更新版本,根据元数据更新版本的ID序号信息对应地向异地数据后端获取数据块信息;其中,如果稀疏块,则过滤稀疏块,并不写入rbd块存储对象;如果是数据块,则通过校验码获取异地数据后端的数据块,并按顺序写入rbd块存储对象。
4.根据权利要求1所述的一种基于Ceph分布式存储的异地备份恢复方法,其特征在于,所述步骤S2的偏移标志记录列表,第一次的偏移标志记录列表为rbd块存储对象的全量数据块记录,此后每一次更新的偏移标志记录列表为已经进行数据偏移量以及偏移长度更新后的数据块记录。
CN201911200009.6A 2019-11-29 2019-11-29 一种基于Ceph分布式存储的异地备份恢复方法 Pending CN111163126A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911200009.6A CN111163126A (zh) 2019-11-29 2019-11-29 一种基于Ceph分布式存储的异地备份恢复方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911200009.6A CN111163126A (zh) 2019-11-29 2019-11-29 一种基于Ceph分布式存储的异地备份恢复方法

Publications (1)

Publication Number Publication Date
CN111163126A true CN111163126A (zh) 2020-05-15

Family

ID=70556238

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911200009.6A Pending CN111163126A (zh) 2019-11-29 2019-11-29 一种基于Ceph分布式存储的异地备份恢复方法

Country Status (1)

Country Link
CN (1) CN111163126A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930556A (zh) * 2020-10-14 2020-11-13 广东睿江云计算股份有限公司 一种分布式存储数据的备份方法及其装置
CN112650447A (zh) * 2020-12-18 2021-04-13 北京浪潮数据技术有限公司 一种ceph分布式块存储的备份方法、系统及装置
CN114691423A (zh) * 2022-03-11 2022-07-01 北京星辰天合科技股份有限公司 全量恢复的方法和装置、存储介质和处理器
CN114817100A (zh) * 2022-04-08 2022-07-29 武汉光迅电子技术有限公司 一种用于单板的数据读取方法和装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111930556A (zh) * 2020-10-14 2020-11-13 广东睿江云计算股份有限公司 一种分布式存储数据的备份方法及其装置
CN112650447A (zh) * 2020-12-18 2021-04-13 北京浪潮数据技术有限公司 一种ceph分布式块存储的备份方法、系统及装置
CN112650447B (zh) * 2020-12-18 2024-02-13 北京浪潮数据技术有限公司 一种ceph分布式块存储的备份方法、系统及装置
CN114691423A (zh) * 2022-03-11 2022-07-01 北京星辰天合科技股份有限公司 全量恢复的方法和装置、存储介质和处理器
CN114817100A (zh) * 2022-04-08 2022-07-29 武汉光迅电子技术有限公司 一种用于单板的数据读取方法和装置
CN114817100B (zh) * 2022-04-08 2023-09-29 武汉光迅电子技术有限公司 一种用于单板的数据读取方法和装置

Similar Documents

Publication Publication Date Title
CN111163126A (zh) 一种基于Ceph分布式存储的异地备份恢复方法
CN109902086B (zh) 一种索引创建方法、装置及设备
CN104021132B (zh) 主备数据库数据一致性核查备份方法及其系统
US7421551B2 (en) Fast verification of computer backup data
US7366859B2 (en) Fast incremental backup method and system
CN102945242B (zh) 管理数据的方法、系统和计算机系统
CN110879813A (zh) 一种基于二进制日志解析的MySQL数据库增量同步实现方法
WO2017049764A1 (zh) 数据读写方法及分布式存储系统
US20070208918A1 (en) Method and apparatus for providing virtual machine backup
CN103733195A (zh) 管理用于基于范围的搜索的数据的存储
CN110061843B (zh) 一种链式账本中的块高创建方法、装置及设备
US20040139127A1 (en) Backup system and method of generating a checkpoint for a database
US8065557B2 (en) Apparatus for managing data backup
US20150006485A1 (en) High Scalability Data Management Techniques for Representing, Editing, and Accessing Data
CN111625396A (zh) 备份数据的校验方法、服务器及存储介质
CN110555055A (zh) 针对Oracle数据库重做日志文件的数据挖掘方法
CN110008203A (zh) 一种数据清除方法、装置及设备
CN105447168A (zh) Mp4格式的碎片文件恢复与重组的方法
CN114138907A (zh) 数据处理方法、计算机设备、存储介质和计算机程序产品
EP2669804A1 (en) Storage system
US9684677B2 (en) Method for reliable and efficient filesystem metadata conversion
CN114860745B (zh) 基于人工智能的数据库扩展方法及相关设备
CN110046281A (zh) 一种数据添加方法、装置及设备
CN109964217B (zh) 去重数据装置和方法
US7949632B2 (en) Database-rearranging program, database-rearranging method, and database-rearranging apparatus

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20200515