CN109582497A - 一种基于动态数据增量快速应急启动方法 - Google Patents

一种基于动态数据增量快速应急启动方法 Download PDF

Info

Publication number
CN109582497A
CN109582497A CN201811379278.9A CN201811379278A CN109582497A CN 109582497 A CN109582497 A CN 109582497A CN 201811379278 A CN201811379278 A CN 201811379278A CN 109582497 A CN109582497 A CN 109582497A
Authority
CN
China
Prior art keywords
emergency starting
operation system
data
snapshot
emergency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811379278.9A
Other languages
English (en)
Other versions
CN109582497B (zh
Inventor
徐玲巧
汪海
张纪林
陈军相
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
HANGZHOU XINHE DATA TECHNOLOGY CO LTD
Original Assignee
HANGZHOU XINHE DATA TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by HANGZHOU XINHE DATA TECHNOLOGY CO LTD filed Critical HANGZHOU XINHE DATA TECHNOLOGY CO LTD
Priority to CN201811379278.9A priority Critical patent/CN109582497B/zh
Publication of CN109582497A publication Critical patent/CN109582497A/zh
Application granted granted Critical
Publication of CN109582497B publication Critical patent/CN109582497B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1448Management of the data involved in backup or backup restore

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Hardware Redundancy (AREA)
  • Retry When Errors Occur (AREA)

Abstract

本发明公开了一种基于动态数据增量快速应急启动方法,采用Near CDP数据保护技术,动态抓取底层块级数据变化,并实时记录当前时间戳下的数据状态,保存增量快照,提供特定任意历史时刻的数据恢复能力。针对服务器硬盘损坏或其操作系统故障,动态选择本地应急、P2V和SANBoot的应急启动技术将已备份到CDP存储空间的系统数据快照映射至前端目标物理服务器或虚拟服务器,作为主磁盘重新启动应用系统,快速上线恢复应用服务器的业务系统,将历史数据恢复至系统崩溃之前的业务系统,达到分钟级系统数据快速恢复效果。与现有技术相比,本发明利用快速应急启动技术可以使业务系统崩溃时系统的宕机时间在10分钟之内就可继续提供服务,简单快速地恢复生产,从而提高了应急启动的效率、避免了业务系统崩溃所带来的毁灭性后果。

Description

一种基于动态数据增量快速应急启动方法
技术领域
本发明属于计算机信息存储技术领域,具体是一种基于动态数据增量快速应急启动方法。
背景技术
随着信息社会、大数据时代的到来,信息系统在IT信息产业的生产运转中扮演着越来越重要的角色。业务运行对数据的依赖达到前所未有的高度,业务系统数据逐渐成为核心资产之一。因此,对于业务数据以及业务运行平台的保护,成为当今IT信息产业建设的重点。
传统的冗余数据保护技术,在对磁盘数据进行了周全的保护后,若磁盘发生了紧急故障急需恢复数据,需要先将冗余磁盘取出,将其上的数据资源先拷贝到另一台设备上,再将该设备接入原有环境中,不同的文件系统、应用需要安装不同的备份代理,安装和操作都十分繁琐,这个过程将耗费大量的时间,导致数小时甚至数天的业务中断,而对业务系统具有高度连续性要求的应用系统根本无法忍受如此长时间的业务停机。正是由于上述制约,现有的冗余数据保护技术,仍无法进行良好的应用。因此如何减少大型数据中心的业务系统宕机时间和提高在数据丢失、业务系统中断的情况下进行快速恢复启动时的效率是一个迫切需要解决的问题。
发明内容
本发明公开一种基于动态数据增量快速应急启动方法,应用基于指定时间点快速恢复思想的持续数据保护Near CDP技术模型,动态抓取底层块级数据变化,并实时记录当前时间戳下的数据状态,保存增量快照,提供特定任意历史时刻的数据恢复能力,结合快速应急启动技术,针对业务系统故障的各种突发故障,应用实现不同类型故障的恢复技术,实现动态选择应急启动恢复方式,将已备份到CDP存储空间的系统数据快照映射至前端目标物理服务器或虚拟服务器,作为主系统磁盘重新启动应用系统,快速上线恢复应用服务器的业务系统,将历史数据恢复至系统崩溃之前的业务系统,达到分钟级系统数据快速恢复效果,简单快速地恢复生产,从而提高了应急启动的效率、避免业务系统崩溃的毁灭性后果。
本发明方法的具体步骤是:
步骤(1):业务系统发生故障,开启应急恢复来获取历史增量快照信息;
步骤(2):根据步骤(1)获取到的快照信息,选择系统崩溃时间相应的快照时间点,得到相应时间点的CDP快照;
步骤(3):根据步骤(2)获取得到的快照数据块,动态选择业务系统应急启动策略;
步骤(4):根据步骤(3)所得的应急启动策略,利用CDP快照恢复磁盘进行业务系统的快速应急启动并接入故障业务系统;
较佳地,在所述步骤(3)之后,该方法进一步包括:
步骤(5):选择本地应急启动策略后,根据所选择CDP快照,将业务系统数据恢复到本地KVM虚拟机中;
步骤(6):判断恢复系统的启动方式是否和源业务系统相同,若是,执行步骤(7),否则,执行步骤(8);
步骤(7):直接应急启动KVM,接入生产业务系统;
步骤(8):更改应急启动系统的启动项,应急启动KVM,接入生产业务系统;
较佳地,在所述步骤(3)之后,该方法进一步包括:
步骤(9):选择P2V应急启动策略后,判断是否存在未分配磁盘的虚拟机,若是,执行步骤(10),否则,执行步骤(11);
步骤(10):获取目标虚拟主机恢复通道,建立iSCSI/FC链路连接;
步骤(11):创建未分配磁盘的新虚拟机,获取当前虚拟主机恢复通道,建立iSCSI/FC链路连接;
步骤(12):将根据CDP快照所恢复的磁盘映射添加至未分配磁盘的目标虚拟机;
步骤(13):目标虚拟机适配源盘系统,修改虚拟机引导项、CHS值等配置;
步骤(14):应急启动目标虚拟机,接入生产业务系统;
较佳地,在所述步骤(3)之后,该方法进一步包括:
步骤(15):选择SANBoot应急启动策略后,判断应急恢复启动机器配置是否与故障机器相同,若是,执行步骤(16),否则,执行步骤(17);
步骤(16):获取目标物理主机恢复通道,建立iSCSI/FC链路连接;
步骤(17):更换应急启动机器的磁盘等配置,获取目标物理主机恢复通道,建立iSCSI/FC链路连接;
步骤(18):更改应急启动系统的启动项,应急启动目标物理主机,接入生产业务系统。
本发明的有益效果:
本发明采用Near CDP数据保护技术,动态抓取底层块级数据变化,并实时记录当前时间戳下的数据状态,保存增量快照,提供特定任意历史时刻的数据恢复能力。针对服务器硬盘损坏或其操作系统故障,动态选择本地应急、P2V和SANBoot的应急启动技术将已备份到CDP存储空间的系统数据快照映射至前端目标物理服务器或虚拟服务器,作为主磁盘重新启动应用系统,快速上线恢复应用服务器的业务系统,将历史数据恢复至系统崩溃之前的业务系统,达到分钟级系统数据快速恢复效果,使业务系统崩溃时系统的宕机时间降到最低,减少生产恢复所需要的时间,提高业务系统的稳定性和健壮性。
附图说明
图1为CDP结合不同应急恢复技术的流程图;
图2为CDP引擎快照恢复的流程图;
图3为CDP快照数据集结构的示意图;
图4为windows下的系统不同方式的恢复时间示意图;
图5为linux下的系统不同方式的恢复时间示意图。
具体实施方式
本发明主要是应用基于指定时间点快速恢复思想的持续数据保护Near CDP技术模型,动态抓取底层块级数据变化,并实时记录当前时间戳下的数据状态,保存增量快照,提供特定任意历史时刻的数据恢复能力,结合快速应急启动技术,针对业务系统故障的各种突发故障,应用实现不同类型故障的恢复技术,实现动态选择应急启动恢复方式,将已备份到CDP存储空间的系统数据快照映射至前端目标物理服务器或虚拟服务器,作为主系统磁盘重新启动应用系统,快速上线恢复应用服务器的业务系统,将历史数据恢复至系统崩溃之前的业务系统,达到分钟级系统数据快速恢复效果,简单快速地恢复生产,从而提高了应急启动的效率、避免业务系统崩溃的毁灭性后果。整个技术的流程图如图一所示。
参加图1-3,本发明方法的具体步骤是:
步骤(1):业务系统发生故障,开启应急恢复来获取历史增量快照信息;
步骤(2):根据步骤(1)获取到的快照信息,选择系统崩溃时间相应的快照时间点,得到相应时间点的CDP快照;
步骤(3):根据步骤(2)获取得到的快照数据块,动态选择业务系统应急启动策略;
步骤(4):根据步骤(3)所得的应急启动策略,利用CDP快照恢复磁盘进行业务系统的快速应急启动并接入故障业务系统,CDP快照恢复磁盘的具体实现如图2所示,包括以下步骤:
1)开启CDP恢复任务,判断CDP快照点是否处于激活状态,若是,执行步骤2),否则,重新开启CDP恢复任务;
2)CDP引擎发起读I/O请求,顺序读取CDP快照元数据设备,形成快照元数据设备数据块的更新数据块映射;
3)遍历并读取快照中的数据块记录集中存储的元数据信息;
4)分析快照数据块,获取增量快照Bitmap表,如图3所示,快照数据集中包括:快照数据集总长、CDP快照类型、系统UUID、系统块大小、状态、快照点时间戳和数据块偏移位置,快照数据集说明如下:
数据集总长:快照数据块中存储的数据总大小;
CDP快照类型:快照保存的方式是写时复制或者是写时重定向机制,决定了数据的读写方式;
系统UUID:保存着源系统的标识符号,保证系统空间和时间上的唯一性;
系统块大小:源文件系统下的一个block大小,多个扇区组成;
状态:快照处于可用状态还是非可用状态,确定快照的完整、可用性;
快照点时间戳:CDP快照记录的时间,用来确定指定时间点的恢复;
数据块偏移位置:记录快照数据块的偏移位置,根据偏移值进行快照的写入恢复。
5)CDP引擎发送写I/O请求,判断是否存在新磁盘,若存在,则执行步骤6),否则在,执行步骤7);
6)根据快照数据块偏移位置、偏移值来恢复丢失数据至新磁盘;
7)创建或更换新磁盘,完成之后执行步骤6);
8)判断是否覆盖快照点时间戳,若是,说明CDP元数据设备中的所有数据均已读出和写入完毕,结束恢复流程,否则,重新执行步骤2)。
步骤(5):选择本地应急启动策略后,根据所选择CDP快照,将业务系统数据恢复到本地KVM虚拟机中;
步骤(6):判断恢复系统的启动方式是否和源业务系统相同,若是,执行步骤(7),否则,执行步骤(8);
步骤(7):直接应急启动KVM,接入生产业务系统;
步骤(8):更改应急启动系统的启动项,应急启动KVM,接入生产业务系统;
步骤(9):选择P2V应急启动策略后,判断是否存在未分配磁盘的虚拟机,若是,执行步骤(10),否则,执行步骤(11);
步骤(10):获取目标虚拟主机恢复通道,建立iSCSI/FC链路连接;
步骤(11):创建未分配磁盘的新虚拟机,获取当前虚拟主机恢复通道,建立iSCSI/FC链路连接;
步骤(12):将根据CDP快照所恢复的磁盘映射添加至未分配磁盘的目标虚拟机;
步骤(13):目标虚拟机适配源盘系统,修改虚拟机引导项、CHS值等配置;
步骤(14):应急启动目标虚拟机,接入生产业务系统;
较佳地,在所述步骤(3)之后,该方法进一步包括:
步骤(15):选择SANBoot应急启动策略后,判断应急恢复启动机器配置是否与故障机器相同,若是,执行步骤(16),否则,执行步骤(17);
步骤(16):获取目标物理主机恢复通道,建立iSCSI/FC链路连接;
步骤(17):更换应急启动机器的磁盘等配置,获取目标物理主机恢复通道,建立iSCSI/FC链路连接;
步骤(18):更改应急启动系统的启动项,应急启动目标物理主机,接入生产业务系统。
下面结合附图和实施例对本发明进行进一步介绍。
本实施例是根据不同业务系统环境下的恢复启动时间测试,业务系统环境的相关配置见表1。
表1:业务系统环境
描述 配置1 配置2
操作系统 windows2008r2 rhel6.3
数据库、业务系统 sqlserver oracle
本实施例分别使用三种方式进行应急恢复磁盘数据,得到在不同环境下的业务系统启动时间,如图3、4所示。在利用CDP快照结合不同快速方式来启动恢复系统的时候,可以看到在本地应急的方式下启动时间最少,P2V其次,SANBoot由于需要配置机器BIOS界面,所花费时间相对较多。各种方式的总启动时间在10分钟之内就完成,达到分钟级业务系统数据快速恢复生产效果,从而提高了应急启动的效率,减少了业务系统崩溃宕机所造成的损失。
应该理解到的是:上述实施例只是对本发明的说明,而不是对本发明的限制,任何不超出本发明实质精神范围内的发明创造,均落入本发明的保护范围之内。

Claims (1)

1.一种基于动态数据增量快速应急启动方法,其特征在于,包括以下步骤:
步骤(1):业务系统发生故障,开启应急恢复来获取历史增量快照信息;
步骤(2):根据步骤(1)获取到的快照信息,选择系统崩溃时间相应的快照时间点,得到相应时间点的CDP快照;
步骤(3):根据步骤(2)获取得到的快照数据块,动态选择业务系统应急启动策略;
步骤(4):根据步骤(3)所得的应急启动策略,利用CDP快照恢复磁盘进行业务系统的快速应急启动并接入故障业务系统;
在所述步骤(3)中,当选择本地应急启动策略时,该方法进一步包括:
步骤(5):选择本地应急启动策略后,根据所选择CDP快照,将业务系统数据恢复到本地KVM虚拟机中;
步骤(6):判断恢复系统的启动方式是否和源业务系统相同,若是,执行步骤(7),否则,执行步骤(8);
步骤(7):直接应急启动KVM,接入生产业务系统;
步骤(8):更改应急启动系统的启动项,应急启动KVM,接入生产业务系统;
在所述步骤(3)中,当选择P2V应急启动策略时,该方法进一步包括:
步骤(9):选择P2V应急启动策略后,判断是否存在未分配磁盘的虚拟机,若是,执行步骤(10),否则,执行步骤(11);
步骤(10):获取目标虚拟主机恢复通道,建立iSCSI/FC链路连接;
步骤(11):创建未分配磁盘的新虚拟机,获取当前虚拟主机恢复通道,建立iSCSI/FC链路连接;
步骤(12):将根据CDP快照所恢复的磁盘映射添加至未分配磁盘的目标虚拟机;
步骤(13):目标虚拟机适配源盘系统,修改虚拟机引导项、CHS值等配置;
步骤(14):应急启动目标虚拟机,接入生产业务系统;
在所述步骤(3)中,当选择SANBoot应急启动策略时,该方法进一步包括:
步骤(15):选择SANBoot应急启动策略后,判断应急恢复启动机器配置是否与故障机器相同,若是,执行步骤(16),否则,执行步骤(17);
步骤(16):获取目标物理主机恢复通道,建立iSCSI/FC链路连接;
步骤(17):更换应急启动机器的磁盘等配置,获取目标物理主机恢复通道,建立iSCSI/FC链路连接;
步骤(18):更改应急启动系统的启动项,应急启动目标物理主机,接入生产业务系统。
CN201811379278.9A 2018-11-19 2018-11-19 一种基于动态数据增量快速应急启动方法 Active CN109582497B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811379278.9A CN109582497B (zh) 2018-11-19 2018-11-19 一种基于动态数据增量快速应急启动方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811379278.9A CN109582497B (zh) 2018-11-19 2018-11-19 一种基于动态数据增量快速应急启动方法

Publications (2)

Publication Number Publication Date
CN109582497A true CN109582497A (zh) 2019-04-05
CN109582497B CN109582497B (zh) 2023-05-09

Family

ID=65923312

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811379278.9A Active CN109582497B (zh) 2018-11-19 2018-11-19 一种基于动态数据增量快速应急启动方法

Country Status (1)

Country Link
CN (1) CN109582497B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112023A (zh) * 2021-06-15 2021-07-13 苏州浪潮智能科技有限公司 一种推理平台的推理服务管理方法、装置、系统及介质
CN113535475A (zh) * 2021-07-05 2021-10-22 浙江中控技术股份有限公司 组态对象启动方法、装置、电子装置和存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101909087A (zh) * 2010-08-20 2010-12-08 北京联创信安科技有限公司 一种基于快照的应用服务器远程引导方法
US20140195791A1 (en) * 2013-01-08 2014-07-10 Symantec, Inc. Methods and systems for instant restore of system volume
CN104461776A (zh) * 2014-11-26 2015-03-25 上海爱数软件有限公司 基于CDP和iSCSI虚拟磁盘技术的应用容灾方法
US9189345B1 (en) * 2013-09-25 2015-11-17 Emc Corporation Method to perform instant restore of physical machines
CN105389230A (zh) * 2015-10-21 2016-03-09 上海爱数信息技术股份有限公司 一种结合快照技术的持续数据保护系统及方法
CN105550063A (zh) * 2015-12-03 2016-05-04 上海爱数信息技术股份有限公司 一种基于持续数据保护与kvm虚拟化的容灾方法
US9547562B1 (en) * 2010-08-11 2017-01-17 Dell Software Inc. Boot restore system for rapidly restoring virtual machine backups

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9547562B1 (en) * 2010-08-11 2017-01-17 Dell Software Inc. Boot restore system for rapidly restoring virtual machine backups
CN101909087A (zh) * 2010-08-20 2010-12-08 北京联创信安科技有限公司 一种基于快照的应用服务器远程引导方法
US20140195791A1 (en) * 2013-01-08 2014-07-10 Symantec, Inc. Methods and systems for instant restore of system volume
US9189345B1 (en) * 2013-09-25 2015-11-17 Emc Corporation Method to perform instant restore of physical machines
CN104461776A (zh) * 2014-11-26 2015-03-25 上海爱数软件有限公司 基于CDP和iSCSI虚拟磁盘技术的应用容灾方法
CN105389230A (zh) * 2015-10-21 2016-03-09 上海爱数信息技术股份有限公司 一种结合快照技术的持续数据保护系统及方法
CN105550063A (zh) * 2015-12-03 2016-05-04 上海爱数信息技术股份有限公司 一种基于持续数据保护与kvm虚拟化的容灾方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113112023A (zh) * 2021-06-15 2021-07-13 苏州浪潮智能科技有限公司 一种推理平台的推理服务管理方法、装置、系统及介质
CN113112023B (zh) * 2021-06-15 2021-08-31 苏州浪潮智能科技有限公司 AIStation推理平台的推理服务管理方法和装置
US11994958B2 (en) 2021-06-15 2024-05-28 Inspur Suzhou Intelligent Technology Co., Ltd. Inference service management method, apparatus and system for inference platform, and medium
CN113535475A (zh) * 2021-07-05 2021-10-22 浙江中控技术股份有限公司 组态对象启动方法、装置、电子装置和存储介质

Also Published As

Publication number Publication date
CN109582497B (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
US10838829B2 (en) Method and apparatus for loading data from a mirror server and a non-transitory computer readable storage medium
US9098439B2 (en) Providing a fault tolerant system in a loosely-coupled cluster environment using application checkpoints and logs
WO2018098972A1 (zh) 一种日志恢复方法、存储装置和存储节点
CA2686384C (en) Dynamic cli mapping for clustered software entities
CN104407938A (zh) 一种虚拟机镜像级备份后的多种粒度恢复方法
US11221927B2 (en) Method for the implementation of a high performance, high resiliency and high availability dual controller storage system
US11803412B2 (en) Containerized application management system and management method
US20190108243A1 (en) Highly available cluster agent for backup and restore operations
US11144233B1 (en) Efficiently managing point-in-time copies of data within a primary storage system
WO2015043155A1 (zh) 一种基于命令集的网元备份与恢复方法及装置
CN111708488A (zh) 一种基于分布式内存盘的Ceph性能优化的方法和设备
CN105354102B (zh) 一种文件系统维护和修复的方法和装置
CN109582497A (zh) 一种基于动态数据增量快速应急启动方法
US20090319738A1 (en) System, method and computer program product for storing transient state information
CN108595287B (zh) 基于纠删码的数据截断方法及装置
CN114416665A (zh) 一种数据一致性检测和修复的方法、装置及介质
CN113986450A (zh) 一种虚拟机备份方法及装置
CN113051030A (zh) 一种基于FusionCompute虚拟化平台的虚拟机恢复系统及其方法
CN115098300B (zh) 一种数据库的备份方法、容灾方法、装置及设备
CN115391106A (zh) 一种备端资源池化的方法、系统及装置
US11226875B2 (en) System halt event recovery
US10162542B1 (en) Data protection and incremental processing for multi-span business applications
WO2014024279A1 (ja) メモリ障害リカバリ装置、方法、及びプログラム
CN111400098A (zh) 一种副本管理方法、装置、电子设备及存储介质
CN112416652A (zh) 一种数据备份的方法以及数据备份

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP02 Change in the address of a patent holder
CP02 Change in the address of a patent holder

Address after: 311200, 2nd Floor, Building 2, No. 371 Mingxing Road, Xiaoshan Economic and Technological Development Zone, Xiaoshan District, Hangzhou City, Zhejiang Province

Patentee after: Hangzhou Xinhe Data Technology Co.,Ltd.

Address before: Room 2102, Building 1, North District, United Center, No. 501, Minhe Road, Ningwei Town, Xiaoshan District, Hangzhou City, Zhejiang Province, 311200

Patentee before: Hangzhou Xinhe Data Technology Co.,Ltd.