CN109766218A - 基于分布式存储的数据备份方法 - Google Patents

基于分布式存储的数据备份方法 Download PDF

Info

Publication number
CN109766218A
CN109766218A CN201811575289.4A CN201811575289A CN109766218A CN 109766218 A CN109766218 A CN 109766218A CN 201811575289 A CN201811575289 A CN 201811575289A CN 109766218 A CN109766218 A CN 109766218A
Authority
CN
China
Prior art keywords
backup
data
file
distributed storage
backup data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811575289.4A
Other languages
English (en)
Inventor
杜芳华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
CITIC Aibank Corp Ltd
Original Assignee
CITIC Aibank Corp Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by CITIC Aibank Corp Ltd filed Critical CITIC Aibank Corp Ltd
Priority to CN201811575289.4A priority Critical patent/CN109766218A/zh
Publication of CN109766218A publication Critical patent/CN109766218A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于金融系统数据备份技术领域,公开了一种基于分布式存储的数据备份的方法。包括判断应用服务器业务低峰期的步骤,确认备份数据所在的文件系统、文件目录、文件命名格式的步骤,判断备份数据所在的文件系统剩余空间大小是否超过阈值的步骤,获取备份数据的步骤,生成备份数据存储前缀的步骤,备份数据重传分布式存储的步骤,删除本地临时备份文件,删除过期数据的步骤。通过本方案,金融企业无需购买额外的专用硬件设备,降低了企业的备份数据成本,备份数据在分布式存储上有多个副本,根据副本数量的设置,任意不超过副本数量的服务器损坏,都能恢复备份数据。

Description

基于分布式存储的数据备份方法
技术领域
本发明属于金融系统数据备份技术领域,特别涉及一种基于分布式存储的数 据备份的方法。
背景技术
相关术语解释:
文件系统:文件系统是操作系统用于明确存储设备(常见的是磁盘,也有基 于NAND Flash的固态硬盘)或分区上的文件的方法和数据结构;即在存储设备 上组织文件的方法。
分布式存储:分布式存储是一种数据存储技术,通过网络使用企业中的每台 机器上的磁盘空间,并将这些分散的存储资源构成一个虚拟的存储设备,数据分 散的存储在企业的各个角落。
数据备份:数据备份是容灾的基础,是指为防止系统出现操作失误或系统故 障导致数据丢失,而将全部或部分数据集合从应用主机的硬盘或阵列复制到其它 的存储介质的过程。
现有的金融企业备份数据,都是使用商业的虚拟带库、磁带库等备份方法。 这些方法的缺点是金融企业使用维护成本高,且备份数据没有多副本存储,当备 份设备自身故障时,无法保证恢复备份数据。
发明内容
本发明提供一种基于分布式存储的数据备份方法,包括如下步骤:
步骤1,设置备份数据上传分布式存储的副本数。
步骤2,判断应用服务器业务低峰期,数据备份任务应该在业务低峰期进行, 不能影响在线业务。
步骤3,确定备份数据的路径,所述路径包括文件系统、文件目录、文件命 名格式,备份程序启动时,首先会查找指定的文件系统,然后再查找指定的文件 目录,最后查找指定命名格式的文件。文件系统、文件目录和文件命名格式必须 按照固定的规范。
步骤4,判断备份数据所在的文件系统剩余空间大小是否超过阈值,如果文 件系统剩余空间超过阈值,备份程序打印备份日志,然后退出备份任务;如果文 件系统剩余空间未超过阈值,获取备份数据,将查找到的备份数据追加到一个新 的文件当中,完成后对新文件压缩并修改文件名。
步骤5,生成备份数据分布式存储前缀,用于标记备份数据在分布式存储系 统中的存储目录。
步骤6,上传备份数据。
步骤7,删除本地临时文件,无论备份数据是否上传成功,都需要将本地的 临时备份文件删除,释放磁盘空间。
步骤8,删除过期数据,备份数据上传成功后,按照指定规则删除已过期的 数据。
作为优选方式,上传备份数据时,根据分布式存储返回的值,判断是否需要 重新上传。
作为优选方式,在判断应用服务器业务低峰期的步骤中,对于新投产系统可 以按照经验确定业务低峰时间段。对于已投产运行的系统,需要按照监控系统数 据选择业务低峰时间段。
作为优选方式,在确定备份数据所在的文件系统、文件目录、文件命名格式 的步骤中,备份数据应该存放在单独的文件系统,文件目录层次深度不能超过一 定的阈值,文件的命名格式应该符合操作系统的规范。
作为优选方式,在判断备份数据所在的文件系统剩余空间大小是否超过阈值 的步骤中,备份数据所在的文件系统应该有足够的空间来存放备份临时文件。若 没有足够的空闲空间,则备份任务失败终止,并记录备份失败终止的原因。
作为优选方式,在获取备份数据的步骤中,应该先查找出所有需要备份的数 据,然后将其拷贝追加到一个临时文件中,最后将备份临时文件压缩并按照一定 的格式修改文件名。
作为优选方式,生成备份数据存储前缀的步骤中,应该根据主机名、备份数 据的类型、备份数据所在的目录、备份日期等因素,生成分布式存储系统存储前 缀。
作为优选方式,在备份数据失败重传分布式存储的步骤中,需要根据分布式 存储集群的性能和网络带宽性能等指标,设置不同的失败上传阈值,保证备份数 据上传成功。
作为优选方式,在删除本地备份文件的步骤中,备份数据上传成功后,需要 将备份临时文件删除。备份数据上传失败时,也需要将备份临时文件删除,来释 放磁盘空间。
作为优选方式,在删除过期数据的步骤中,应该按照业务系统规定,并判断 备份数据成功上传分布式存储后再删除。
与现有方案中常见的数据备份方法相比,本发明的基于分布式存储的数据备 份的方法有以下优点:
1、高可用:本发明的技术方案中,备份数据有多个副本,可以保证备份数 据的高可用。当其中一个副本损坏后,可根据其他副本重新生成数据。 并且任意不超过副本数量的服务器损坏,都能恢复备份数据。
2、低成本:本发明的技术方案中,使用的开源的分布式存储系统、传统的 X86服务器,可以极大的降低企业备份成本。
附图说明
图1是本发明实施例的基于分布式存储的数据备份方法的应用日志备份示 例图;
图2本发明实施例的基于分布式存储的数据备份方法的流程图。
具体实施方式
为了使本发明技术方案更容易理解,现结合附图采用具体实施例的方式,对 本发明的技术方案进行清晰、完整的描述。应当注意,在此所述的实施例仅为本 发明的部分实施例,而非本发明的全部实现方式,所述实施例只有示例性,其作 用只在于为公众提供理解本发明内容更为直观明了的方式,而不是对本发明所述 技术方案的限制。在不脱离本发明构思的前提下,所有本领域普通技术人员没有 做出创造性劳动就能想到的其它实施方式,及其它对本发明技术方案的简单替换 和各种变化,都属于本发明的保护范围。
下文以银行应用日志备份为例,对本发明的基于分布式存储的数据备份方法 进行具体说明。
如图1和图2所示,图1为一次基于Swift(也可以是其他分布式存储)的 应用日志备份示例图,图2是本发明基于分布式存储的数据备份方法的流程图。 首先设置备份数据的副本数为3,执行swift-ring-builder object.builder create 18 3 1, 其中3是副本数。通过调用交易监控系统API接口,获得最近1周的监控数据, 发现核心应用系统的业务低峰期为17:00。因此该备份任务17:00执行。核心 应用系统的应用日志存放在文件系统/var/log/cbs中,应用日志的命名格式是 cbs.app1.log.20181108。备份任务启动时,首先通过Linux操作系统命令df去检 查文件系统/var/log/cbs的空闲空间是否超过阈值50%。若超过阈值,备份程序 打印备份日志,然后退出备份任务。若未超过阈值,则开始使用Linux操作系统 命令find查找文件系统/var/log/cbs中,符合cbs.app1.log.20181108命名格式的日 志文件。然后将每一个符合条件的日志文件,通过Linux操作系统命令tar拷贝并追加到一个备份临时文件cbs.log.tar,然后对这个临时文件使用Linux操作系 统命令gzip压缩(可以使用不同压缩技术方案),生成新的压缩文件cbs.log.tar.gz。 然后对这个压缩文件通过Linux系统命令mv修改文件名为 cbs.app1log.tar.gz.20181108。下面生成分布式存储的存放备份数据的前缀 app-log/cbs/2018/11/,将压缩文件上传到swift。判断分布式存储返回的结果值是 否为0,是0则表示成功,非0则说明上传失败,需要判断上传次数是否达到3 次的阈值,若没有,则需要重新上传。上传成功后,将本地的cbs.app1log.tar.gz.20181108文件删除。然后通过Linux操作系统命令find查找出 14天以前的日志文件,并通过Linux操作系统命令rm进行删除。
前述对本发明的具体示例性实施方案的描述是为了说明和例证的目的。这些 描述并非想将本发明限定为所公开的精确形式,并且很显然,根据上述教导,可 以进行很多改变和变化。对示例性实施例进行选择和描述的目的在于解释本发明 的特定原理及其实际应用,从而使得本领域的技术人员能够实现并利用本发明的 各种不同的示例性实施方案以及各种不同的选择和改变。本发明的范围意在由权 利要求书及其等同形式所限定。

Claims (8)

1.一种基于分布式存储的数据备份的方法,其特征在于,包括如下步骤:
设置备份数据上传分布式存储的副本数;
判断应用服务器业务低峰期,如果应用服务器业务处于低峰期,进行数据备份任务;
确定备份数据的路径,所述路径包括文件系统、文件目录、文件命名格式,备份程序启动时,首先查找指定的文件系统,然后查找指定的文件目录,最后查找指定命名格式的文件;
判断备份数据所在的文件系统剩余空间大小是否超过阈值,如果文件系统剩余空间超过阈值,备份程序打印备份日志,然后退出备份任务;如果文件系统剩余空间未超过阈值,获取备份数据,将查找到的备份数据追加到一个新的本地临时文件当中,完成后对新文件压缩并修改文件名;
生成备份数据分布式存储前缀,用于标记备份数据在分布式存储系统中的存储目录;
上传备份数据;
删除本地临时文件,释放磁盘空间;
备份数据上传成功后,按照指定规则删除本地已过期的数据。
2.根据权利要求1所述的基于分布式存储的数据备份的方法,其特征在于,上传备份数据时,根据分布式存储返回的值,判断是否需要重新上传。
3.根据权利要求1所述的基于分布式存储的数据备份的方法,其特征在于,所述文件系统为独立的文件系统,所述文件目录在所述独立的文件系统中。
4.根据权利要求1所述的基于分布式存储的数据备份的方法,其特征在于,在获取备份数据的步骤中,根据文件命名格式查找文件,并将该查找的文件拷贝追加到本地备份临时文件,并压缩后修改文件名。
5.根据权利要求1所述的基于分布式存储的数据备份的方法,其特征在于,所述生成备份数据分布式存储前缀的步骤中,前缀包括备份数据类别、应用名、机器名、日期。
6.根据权利要求2所述的基于分布式存储的数据备份的方法,其特征在于,上传备份数据失败,则在设定上传次数范围内重新上传备份数据。
7.根据权利要求6所述的基于分布式存储的数据备份的方法,其特征在于,设定上传次数为3。
8.根据权利要求1所述的基于分布式存储的数据备份的方法,其特征在于,删除本地已过期的数据时,按照日期规则删除过期数据。
CN201811575289.4A 2018-12-21 2018-12-21 基于分布式存储的数据备份方法 Pending CN109766218A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811575289.4A CN109766218A (zh) 2018-12-21 2018-12-21 基于分布式存储的数据备份方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811575289.4A CN109766218A (zh) 2018-12-21 2018-12-21 基于分布式存储的数据备份方法

Publications (1)

Publication Number Publication Date
CN109766218A true CN109766218A (zh) 2019-05-17

Family

ID=66450814

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811575289.4A Pending CN109766218A (zh) 2018-12-21 2018-12-21 基于分布式存储的数据备份方法

Country Status (1)

Country Link
CN (1) CN109766218A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112083884A (zh) * 2020-09-08 2020-12-15 久盈世纪(北京)科技有限公司 基于堡垒机的磁盘预警方法与设备
CN112083893A (zh) * 2020-09-25 2020-12-15 酒泉钢铁(集团)有限责任公司 一种基于Linux的磁盘空间优化方法
CN113051265A (zh) * 2019-12-27 2021-06-29 中信百信银行股份有限公司 一种降低关系型数据库表结构变更所带来损耗的方法、装置、计算机设备、和可读存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102045385A (zh) * 2010-10-21 2011-05-04 李斌 一种实现个人云计算系统及设备
CN102541693A (zh) * 2011-12-31 2012-07-04 曙光信息产业股份有限公司 数据的多副本存储管理方法和系统
CN102693168A (zh) * 2011-03-22 2012-09-26 中兴通讯股份有限公司 一种数据备份恢复的方法、系统和服务节点
CN102799503A (zh) * 2012-08-08 2012-11-28 浪潮(北京)电子信息产业有限公司 一种应用于大量小文件的恢复方法
CN102882923A (zh) * 2012-07-25 2013-01-16 北京亿赛通科技发展有限责任公司 移动终端安全存储系统及方法
CN102970158A (zh) * 2012-11-05 2013-03-13 广东睿江科技有限公司 日志存储与处理的方法及日志服务器
CN104301360A (zh) * 2013-07-19 2015-01-21 阿里巴巴集团控股有限公司 一种日志数据记录的方法、日志服务器及系统
CN104699559A (zh) * 2013-12-04 2015-06-10 腾讯科技(深圳)有限公司 分布式数据备份方法和系统
CN106445733A (zh) * 2016-08-30 2017-02-22 广州鼎甲计算机科技有限公司 一种基于kvm虚拟化的无代理模式备份方法和系统
CN106874145A (zh) * 2017-02-15 2017-06-20 山东浪潮商用系统有限公司 一种基于消息队列的异步数据备份方法
CN107194271A (zh) * 2017-04-18 2017-09-22 华南农业大学 一种弱中心的共享式私有云存储系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102045385A (zh) * 2010-10-21 2011-05-04 李斌 一种实现个人云计算系统及设备
CN102693168A (zh) * 2011-03-22 2012-09-26 中兴通讯股份有限公司 一种数据备份恢复的方法、系统和服务节点
CN102541693A (zh) * 2011-12-31 2012-07-04 曙光信息产业股份有限公司 数据的多副本存储管理方法和系统
CN102882923A (zh) * 2012-07-25 2013-01-16 北京亿赛通科技发展有限责任公司 移动终端安全存储系统及方法
CN102799503A (zh) * 2012-08-08 2012-11-28 浪潮(北京)电子信息产业有限公司 一种应用于大量小文件的恢复方法
CN102970158A (zh) * 2012-11-05 2013-03-13 广东睿江科技有限公司 日志存储与处理的方法及日志服务器
CN104301360A (zh) * 2013-07-19 2015-01-21 阿里巴巴集团控股有限公司 一种日志数据记录的方法、日志服务器及系统
CN104699559A (zh) * 2013-12-04 2015-06-10 腾讯科技(深圳)有限公司 分布式数据备份方法和系统
CN106445733A (zh) * 2016-08-30 2017-02-22 广州鼎甲计算机科技有限公司 一种基于kvm虚拟化的无代理模式备份方法和系统
CN106874145A (zh) * 2017-02-15 2017-06-20 山东浪潮商用系统有限公司 一种基于消息队列的异步数据备份方法
CN107194271A (zh) * 2017-04-18 2017-09-22 华南农业大学 一种弱中心的共享式私有云存储系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113051265A (zh) * 2019-12-27 2021-06-29 中信百信银行股份有限公司 一种降低关系型数据库表结构变更所带来损耗的方法、装置、计算机设备、和可读存储介质
CN112083884A (zh) * 2020-09-08 2020-12-15 久盈世纪(北京)科技有限公司 基于堡垒机的磁盘预警方法与设备
CN112083893A (zh) * 2020-09-25 2020-12-15 酒泉钢铁(集团)有限责任公司 一种基于Linux的磁盘空间优化方法

Similar Documents

Publication Publication Date Title
US11429305B2 (en) Performing backup operations using replicas
US10503616B2 (en) Periodic data replication
US10162555B2 (en) Deduplicating snapshots associated with a backup operation
CN101539873B (zh) 数据恢复的方法、数据节点及分布式文件系统
CN108351821B (zh) 数据恢复方法及存储设备
WO2018098972A1 (zh) 一种日志恢复方法、存储装置和存储节点
CN102012947A (zh) 一种数据库在线备份的方法及系统
CN109766218A (zh) 基于分布式存储的数据备份方法
CN102402471A (zh) 基于存储阵列快照功能的数据实时备份方法及系统
CN101183323A (zh) 一种基于指纹的数据备份系统
US10628298B1 (en) Resumable garbage collection
CN107256182A (zh) 一种数据库还原的方法及设备
CN110109778A (zh) 一种大量小数据文件备份方法及恢复方法
US11797397B2 (en) Hybrid NVRAM logging in filesystem namespace
WO2021208400A1 (zh) 现代应用的备份恢复系统及方法
CN112800019A (zh) 基于Hadoop分布式文件系统的数据备份方法及系统
US10671567B2 (en) System and method for optimized lock detection
CN109753381B (zh) 一种基于对象存储的持续数据保护方法
EP3959592A1 (en) Garbage collection for a deduplicated cloud tier
US8255367B2 (en) File management apparatus, method, and program
US7472141B1 (en) System and method for controlling off-host policies
CN106445729A (zh) 一种基于备份虚拟化的方法
CN105159790A (zh) 一种数据抢救方法及文件服务器
CN111581015B (zh) 一种现代应用的持续数据保护系统及方法
US11645333B1 (en) Garbage collection integrated with physical file verification

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190517

RJ01 Rejection of invention patent application after publication