CN116955019A - 一种基于分区实时保护数据的业务系统接管方法 - Google Patents

一种基于分区实时保护数据的业务系统接管方法 Download PDF

Info

Publication number
CN116955019A
CN116955019A CN202310824320.8A CN202310824320A CN116955019A CN 116955019 A CN116955019 A CN 116955019A CN 202310824320 A CN202310824320 A CN 202310824320A CN 116955019 A CN116955019 A CN 116955019A
Authority
CN
China
Prior art keywords
service
host
standby machine
data
machine
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310824320.8A
Other languages
English (en)
Inventor
陶治成
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Aomei Technology Co ltd
Original Assignee
Chengdu Aomei Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Aomei Technology Co ltd filed Critical Chengdu Aomei Technology Co ltd
Priority to CN202310824320.8A priority Critical patent/CN116955019A/zh
Publication of CN116955019A publication Critical patent/CN116955019A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/16Error detection or correction of the data by redundancy in hardware
    • G06F11/20Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements
    • G06F11/202Error detection or correction of the data by redundancy in hardware using active fault-masking, e.g. by switching out faulty elements or by switching in spare elements where processing functionality is redundant
    • G06F11/2023Failover techniques
    • G06F11/2033Failover techniques switching over of hardware resources
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/14Error detection or correction of the data by redundancy in operation
    • G06F11/1402Saving, restoring, recovering or retrying
    • G06F11/1446Point-in-time backing up or restoration of persistent data
    • G06F11/1456Hardware arrangements for backup

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种基于分区实时保护数据的业务系统接管方法,包括以下步骤:步骤S1,部署接管备用机;步骤S2,据生产主机的业务系统类型,设置对应的脚本程序;步骤S3,创建备份服务器;步骤S4,当确认到生产主机发生了宕机时,需要对宕机类型进行判断:步骤S5,备份服务器通知接管备用机;步骤S7,接管备用机完成接管。通过本发明中提供的方法,能够快速的对产生故障的主机进行业务接管,防止主机由于故障从而导致业务停机,避免的业务停机带来的损失,实现了直接将备份数据用于接管主机应用,让业务继续运行,从而使生产机业务不中断。

Description

一种基于分区实时保护数据的业务系统接管方法
技术领域
本发明属于数据备份技术领域,具体为一种基于分区实时保护数据的业务系统接管方法。
背景技术
随着数据安全意识的逐步增强,越来越多的企事业单位部署了分区实时保护实时数据保护系统。分区实时保护系统能实时无间断的备份所保护机器的所有数据,能够任意时间点数据重放、回退或者恢复。但是,当被保护的业务系统出现了宕机、掉电、甚至人为破坏等发生灾难情况的时候,要重建业务恢复生产,需要等原设备修复,或者购买新设备后,进行漫长的业务系统重新安装部署,部署完成后再将实时保护备份的分区数据恢复到新部署的环境,调试好后才能恢复生产,导致业务中断时间不要可控,轻则给单位带来经济财产损失,如果是发生在医院等场所,还可能会影响到生命安全。其实,实时保护备份的分区数据已经是灾难发生时刻的最后数据,如果能将该数据直接利用起来,通过某种方式直接能被业务系统识别并且继续使用,那么业务就不会中断,或者中断时间很短,就能最大化的降低损失。于是,发明了一种能将分区实时保护备份数据应用于业务接管的方法。和其他数据恢复方法相比,该方法既可以实现RTO约等于0,又可以有备份数据版本链。
发明内容
本发明的目的在于提供一种基于分区实时保护数据的业务系统接管方法,以解决背景技术中提出的现有技术中,当被保护的业务系统出现了宕机、掉电、甚至人为破坏等发生灾难情况的时候,重建业务、恢复生产,需要等原设备修复,或者购买新设备后,进行漫长的业务系统重新安装部署的问题。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于分区实时保护数据的业务系统接管方法,包括以下步骤:
步骤S1,部署接管备用机,并将生产主机上所有的数据迁移到接管备用机上
步骤S2,据生产主机的业务系统类型,设置对应的脚本程序,脚本程序用于接管发生时,在接管备用机上停止、启动和修复相应的业务系统服务;
步骤S3,在备份服务器上创建对主机的备份作业,备份作业实时备份主机的数据,并且监控主机业务运行,并通过多重确认机制判断主机业务运行是否正常,如果正常,则继续监控,如果不正常则备份服务器通知接管备用机接管;
步骤S4,当确认到生产主机发生了宕机时,需要对宕机类型进行判断:
如果是业务宕机,而主机系统还在正常运行的情况下,备份服务器首先通知生产主机,停止业务相关的服务和程序,并且删除对外提供服务的IP地址;备份服务器给最新的备份点数据创建一个快照,基于该快照创建iSCSI,创建LUN并将快照模拟成磁盘设备分配给LUN,同时将接管备用机的IP地址添加到iSCSI的访问控制列表中,iSCSI创建完成;
步骤S5,备份服务器通知接管备用机,接管备用机首先将原有业务服务全部停止,卸载原有的挂载点或者盘符,登录iSCSI加载LUN设备,将LUN设备上对应的分区挂载到对应的挂载点或者盘符上,再调用业务配置和修复脚本,将业务系统所关联的服务和应用配置修复好;
步骤S6,接管备用机的上代理通过生产主机的IP再一次检测生产主机的业务系统是否正常运行,如果业务是在正常运行,则通知备份服务器停止本次接管;如果业务还是不正常,则将生产主机的IP和相关的网络配置设置到接管备用机上;
步骤S7,接管备用机完成接管。
根据上述技术方案,步骤S1中,生产主机上所有的数据迁移到接管备用机上后,还需要对接管备用机的运行环境进行适配。
根据上述技术方案,生产主机宕机多重确认机制包括:备份服务器主动ping 生产主机IP地址、备份服务器用TCP协议ping生产主机端口以及备份服务器,检测业务的正确性。
根据上述技术方案,步骤S4中,创建iSCSI包括以下步骤:
步骤A1,根据备份服务器给最新的备份点数据创建的快照制作备份点数据镜像;
步骤A2,将制作的数据镜像加载成磁盘设备;
步骤A3,磁盘设备模拟驱动,实现数据的写时转储;
步骤A4,将磁盘设备通过iSCSI SDK或者命令做成iSCSI Target;
步骤A5,添加接管备用机的IP地址到iSCSI的白名单里面;
步骤A6,完成创建。
与现有技术相比,本发明具有以下有益效果:
通过本发明中提供的方法,能够快速的对产生故障的主机进行业务接管,防止主机由于故障从而导致业务停机,避免的业务停机带来的损失,实现了直接用于接管主机应用,让业务继续运行,从而使生产机业务不中断。
附图说明
图1为本发明接管流程图;
图2为本发明iSCSI创建流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,一种基于分区实时保护数据的业务系统接管方法,包括以下步骤:
步骤S1,部署接管备用机,并将生产主机上所有的数据迁移到接管备用机上
步骤S2,据生产主机的业务系统类型,设置对应的脚本程序,脚本程序用于接管发生时,在接管备用机上停止、启动和修复相应的业务系统服务;比如:对于MySQL+PHP的应用场景,可以编写一个fixWeb.sh的脚本,脚本内容是service mysqld start和servicehttpd start,用于在接管后启动MySQL和PHP服务。对于复杂的业务场景,根据具体的中间件的需要编写对应的脚本。
在备份服务器上创建对主机的备份作业,备份作业实时备份主机的数据,并且监控主机业务运行,并通过多重确认机制判断主机业务运行是否正常,如果正常,则继续监控,如果不正常则备份服务器通知接管备用机接管;
步骤S4,当确认到生产主机发生了宕机时,需要对宕机类型进行判断:
如果是业务宕机,而主机系统还在正常运行的情况下,备份服务器首先通知生产主机,停止业务相关的服务和程序,并且删除对外提供服务的IP地址;备份服务器给最新的备份点数据创建一个快照,基于该快照创建iSCSI,创建LUN并将快照模拟成磁盘设备分配给LUN,同时将接管备用机的IP地址添加到iSCSI的访问控制列表中,iSCSI创建完成;
步骤S5,备份服务器通知接管备用机,接管备用机首先将原有业务服务全部停止,卸载原有的挂载点或者盘符,登录iSCSI加载LUN设备,将LUN设备上对应的分区挂载到对应的挂载点或者盘符上,再调用业务配置和修复脚本,将业务系统所关联的服务和应用配置修复好;
步骤S6,接管备用机的上代理通过生产主机的IP再一次检测生产主机的业务系统是否正常运行,如果业务是在正常运行,则通知备份服务器停止本次接管;如果业务还是不正常,则将生产主机的IP和相关的网络配置设置到接管备用机上;
步骤S7,接管备用机完成接管。
通过本发明中提供的方法,能够快速的对产生故障的主机进行业务接管,防止主机由于故障从而导致业务停机,避免的业务停机带来的损失,实现了直接用于接管主机应用,让业务继续运行,从而使生产机业务不中断。
进一步的。步骤S1中,生产主机上所有的数据迁移到接管备用机上后,还需要对接管备用机的运行环境进行适配。
生产主机宕机多重确认机制包括:备份服务器主动ping 生产主机IP地址、备份服务器用TCP协议ping生产主机端口以及备份服务器,检测业务的正确性。
进一步的,如图2所示,步骤S4中,创建iSCSI包括以下步骤:
步骤A1,根据备份服务器给最新的备份点数据创建的快照制作备份点数据镜像;
步骤A2,将制作的数据镜像加载成磁盘设备;
步骤A3,磁盘设备模拟驱动,实现数据的写时转储;
步骤A4,将磁盘设备通过iSCSI SDK或者命令做成iSCSI Target;
步骤A5,添加接管备用机的IP地址到iSCSI的白名单里面;
步骤A6,完成创建。
实施例二
本发明的发明构思为:
a)部署接管备用机,虚拟机或者物理机都可以,将生产主机通过磁盘克隆对拷的方式,把生产主机所有的数据迁移到接管备用机上,包括操作系统已经所有数据。此时,主备机的数据是几乎一模一样,各种应用环境也是一模一样。
b)生产主机系统迁移后到接管备用机后,需要对当前的硬件环境做对应的驱动适配工作,驱动可以在接管备用机硬件官网下载,如果接管备用机是虚拟化环境则在对应的虚拟平台官网下载驱动,然后在接管备用机上对硬件驱动做离线注入或者在线安装。
c)根据生产主机的业务系统类型,定制相应的脚本程序,用于在接管发生时,在接管备用机上停止、启动和修复相应的业务系统服务。一般定是:MySQL数据库服务,Oracle数据库服务,SQLServer数据库服务,Apache2服务,Tomcat服务,IIS服务等类似的业务系统服务。需要针对每一种业务类型,制作脚本处理程序,对某些特殊情况,还需要做其他操作,如:Oracle数据库可能根据需要修改数据库控制文件;Tomcat需要修改环境变量;SQLServer可能需要做分离附加修改权限等操作。这些定制化的操作需要根据生产主机的业务所依赖的应用而定。
d)接管备用机上还有一个代理程序,用于处理接管相关的事宜。
e)生产主机上也有代理程序,该程序主要用于和备份服务器通信,同时执行相应的操作,如修改IP地址,心跳保活,分离业务数据等。
f)备份服务器与生产主机会创建一个连接,生产主机定时的向备份服务器发送心跳数据包,来告诉备份服务器自己是否正常工作。备份服务器上定时检测客户端是否是正常工作状态。该流程至关重要,因为它是触发接管的第一要素,一般会通过多重确认机制来判断生产服务器是否真的宕机。
g)生产主机宕机多重确认机制包括:主动ping生产主机IP地址,用TCP协议ping生产主机端口,通过检测业务的正确性。检测业务正确性,是直接检测业务系统是否正常运行,该检测能有效避免因业务系统自身搭建有主备系统,而被误接管导致脑裂情况的发生。同时,接管触发时间也可以根据业务紧急情况自定义合理配置,因为生产主机正常重启,网络设备重启,甚至电路跳闸等情况都可以导致业务中断,从而促使接管发生。
h)当确认到生产主机发生了宕机等情况的时候,如果是业务宕机,而系统还在正常运行的情况下,备份服务器首先通知生产主机,停止业务相关的服务和程序,并且删除对外提供的服务的IP地址。然后,备份服务器给最新的备份点数据创建一个快照,基于该快照创建iSCSI,创建LUN并将快照设备分配给LUN,同时将接管备用机的IP地址添加到iSCSI的访问控制列表中。到此,iSCSI创建完成,也即是接管数据已经准备好。
i)备份服务器通知接管备用机,接管备用机首先将原有业务服务全部停止,卸载原有的挂载点或者盘符,登录iSCSI加载LUN设备,将LUN设备上对应的分区挂载到对应的挂载点或者盘符上,到此,接管备用机设备的数据视图已经和原生产主机宕机时刻的数据视图一样了。调用业务配置和修复脚本,将业务系统所关联的服务和应用配置修复好。大多数情况下,无需做额外的修复,业务就可以正常运行,因为接管备用机是原生产机迁移过来的,所以应用的配置和数据加载位置都不会有任何变化,配置脚本只需要将所需的服务启动,将所需要的的进程加载起来即可完成接管。
j)接管备用机的上代理通过生产主机的IP再一次检测生产主机的业务系统是否正常运行,如果业务是在正常运行,则通知备份服务器停止本次接管。如果业务还是不正常,则将生产主机的IP和相关的网络配置设置到接管备用机上,到此主机的所有业务都漂移到了接管备用机上,接管备用机可以正常的为生产提供必要的业务支撑。
如果生产机的环境对网络安全要求很高,甚至对所有的网络主机和IP都有MAC地址的绑定和白名单。那么接管备用机的部署需要使用虚拟机,并且在备机环境准备好后关机,同时将接管备用机的MAC地址改成和原生产机一致的MAC。在灾难发生时,接管之前要先启动虚拟机系统,再运行上述的接管步骤。
专业术语解释:
备份服务器:备份数据的服务器,能够管理和访问所有的备份数据。
生产主机:生产系统所在的服务器。
接管备用机:生产主机的备用机器,可以是物理机或者虚拟机。
快照:表示数据在某一时刻的状态,能让数据再现的一个副本。
脑裂:主备机同时提供业务,争抢资源,可能导致业务瘫痪,数据损坏。
实时保护:实时数据保护,不间断的将数据备份起来。
iSCSI:一种基于网络的块设备存储技术。
MAC地址:计算机网卡的物理地址。
RTO:指灾难发生后,从IT系统宕机导致业务停顿之时开始,到IT系统恢复至可以支持各部门运作、恢复运营之时,此两点之间的时间段称为RTO。
解决以上问题,本发明包含的主要功能模块
生产主机业务检测模块:该功能主要用于检测主机生产业务是否运行正常;
实时保护数据转化为iSCSI服务模块:iSCSI target该功能模块主要将实时保护备份的最新数据,转化为iSCSI的数据提供介质,并且通过iSCSI的方式提供出来;
接管代理模块:该功能模块主要提供对接管动作的执行,以及调用相关流程来处理接管操作;
iSCSI挂载模块:该模块主要是负责将iSCSI连接到接管备用机上,并且自动完成磁盘设备上线操作;
接管备用机业务系统修复模块:该模块主要是负责对接管后的应用进行修复,确保能够正常运行;
磁盘设备模拟模块:可以模拟系统的磁盘设备的内核驱动模块。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1. 一种基于分区实时保护数据的业务系统接管方法,其特征在于:包括以下步骤:
步骤S1,部署接管备用机,并将生产主机上所有的数据迁移到接管备用机上
步骤S2,据生产主机的业务系统类型,设置对应的脚本程序,脚本程序用于接管发生时,在接管备用机上停止、启动和修复相应的业务系统服务;
步骤S3,在备份服务器上创建对主机的备份作业,备份作业实时备份主机的数据,并且监控主机业务运行,并通过多重确认机制判断主机业务运行是否正常,如果正常,则继续监控,如果不正常则备份服务器通知接管备用机接管;
步骤S4,当确认到生产主机发生了宕机时,需要对宕机类型进行判断:
如果是业务宕机,而主机系统还在正常运行的情况下,备份服务器首先通知生产主机,停止业务相关的服务和程序,并且删除对外提供服务的IP地址;备份服务器给最新的备份点数据创建一个快照,基于该快照创建iSCSI,创建LUN并将快照模拟成磁盘设备分配给LUN,同时将接管备用机的IP地址添加到iSCSI的访问控制列表中,iSCSI创建完成;
如果是主机宕机,则备份服务器直接通知接管备用机接管业务;
步骤S5,备份服务器通知接管备用机,接管备用机首先将原有业务服务全部停止,卸载原有的挂载点或者盘符,登录iSCSI加载LUN设备,将LUN设备上对应的分区挂载到对应的挂载点或者盘符上,再调用业务配置和修复脚本,将业务系统所关联的服务和应用配置修复好;
步骤S6,接管备用机通过代理生产主机的IP再一次检测生产主机的业务系统是否正常运行,如果业务是在正常运行,则通知备份服务器停止本次接管;如果业务不能正常运行,则将生产主机的IP和相关的网络配置设置到接管备用机上;
步骤S7,接管备用机完成接管。
2.根据权利要求1所述的一种基于分区实时保护数据的业务系统接管方法,其特征在于:步骤S1中,生产主机上所有的数据迁移到接管备用机上后,还需要对接管备用机的运行环境进行适配。
3. 根据权利要求1所述的一种基于分区实时保护数据的业务系统接管方法,其特征在于:生产主机宕机多重确认机制包括:备份服务器主动ping 生产主机IP地址、备份服务器用TCP协议ping生产主机端口以及备份服务器,检测业务的正确性。
4.根据权利要求1所述的一种基于分区实时保护数据的业务系统接管方法,其特征在于:步骤S4中,创建iSCSI包括以下步骤:
步骤A1,根据备份服务器给最新的备份点数据创建的快照制作备份点数据镜像;
步骤A2,将制作的数据镜像加载成磁盘设备;
步骤A3,磁盘设备模拟驱动,实现数据的写时转储;
步骤A4,将磁盘设备通过iSCSI SDK或者命令做成iSCSI Target;
步骤A5,添加接管备用机的IP地址到iSCSI的白名单里面;
步骤A6,完成接管数据创建。
CN202310824320.8A 2023-07-06 2023-07-06 一种基于分区实时保护数据的业务系统接管方法 Pending CN116955019A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310824320.8A CN116955019A (zh) 2023-07-06 2023-07-06 一种基于分区实时保护数据的业务系统接管方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310824320.8A CN116955019A (zh) 2023-07-06 2023-07-06 一种基于分区实时保护数据的业务系统接管方法

Publications (1)

Publication Number Publication Date
CN116955019A true CN116955019A (zh) 2023-10-27

Family

ID=88443666

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310824320.8A Pending CN116955019A (zh) 2023-07-06 2023-07-06 一种基于分区实时保护数据的业务系统接管方法

Country Status (1)

Country Link
CN (1) CN116955019A (zh)

Similar Documents

Publication Publication Date Title
US11249860B2 (en) Node down recovery method and apparatus, electronic device, and storage medium
US8458534B1 (en) Method and system for providing high availability to computer applications
EP1397744B1 (en) Recovery computer for a plurality of networked computers
US7496783B1 (en) Merging cluster nodes during a restore
CN109286529B (zh) 一种恢复RabbitMQ网络分区的方法及系统
WO2016045439A1 (zh) 一种vnfm容灾保护的方法、装置和nfvo、存储介质
US20220114004A1 (en) Containerized application management system and management method
US8234253B1 (en) Systems and methods for performing recovery of directory data
WO2007141180A2 (en) Apparatus and method for cluster recovery
CN112380062A (zh) 一种基于系统备份点多次快速恢复系统的方法及系统
US7373542B2 (en) Automatic startup of a cluster system after occurrence of a recoverable error
CN110727547A (zh) 一种保护Docker应用容器的系统及方法
KR101731422B1 (ko) 가상화 환경에서의 장애 복구 장치 및 방법
JP2007011751A (ja) 計算機および退避復元プログラム
CN113778607A (zh) 虚拟机实现高可用方法及装置、云管理平台、存储介质
CN107544868B (zh) 数据恢复方法和装置
CN116955019A (zh) 一种基于分区实时保护数据的业务系统接管方法
JP2007226287A (ja) システム環境再現方法およびシステム環境修正方法
JP2011053780A (ja) 復旧システム、復旧方法及びバックアップ制御システム
CN112948170B (zh) 使用设备映射的快照功能实现系统掉电保护的方法
CN110287066B (zh) 一种服务器分区迁移方法及相关装置
CN117785568B (zh) 一种双主双机热备方法及装置
CN115129517B (zh) 一种bios选项故障恢复方法、装置、设备及存储介质
JP6364773B2 (ja) 情報処理装置、情報処理システム、メモリレプリケーション方法、並びにコンピュータ・プログラム
WO2022044270A1 (ja) 更新装置、更新方法、および、プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination