CN115437889B - 一种应急处理方法、系统及计算设备 - Google Patents

一种应急处理方法、系统及计算设备 Download PDF

Info

Publication number
CN115437889B
CN115437889B CN202211388549.3A CN202211388549A CN115437889B CN 115437889 B CN115437889 B CN 115437889B CN 202211388549 A CN202211388549 A CN 202211388549A CN 115437889 B CN115437889 B CN 115437889B
Authority
CN
China
Prior art keywords
application server
emergency
state information
alarm
module
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211388549.3A
Other languages
English (en)
Other versions
CN115437889A (zh
Inventor
吕从庆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Uniontech Software Technology Co Ltd
Original Assignee
Uniontech Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Uniontech Software Technology Co Ltd filed Critical Uniontech Software Technology Co Ltd
Priority to CN202211388549.3A priority Critical patent/CN115437889B/zh
Publication of CN115437889A publication Critical patent/CN115437889A/zh
Application granted granted Critical
Publication of CN115437889B publication Critical patent/CN115437889B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/302Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system component is a software system
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3065Monitoring arrangements determined by the means or processing involved in reporting the monitored data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Hardware Redundancy (AREA)

Abstract

本发明公开了一种应急处理方法、系统及计算设备,涉及服务器技术领域,方法包括:获取每个应用服务器的运行状态信息,对运行状态信息进行分析以确定告警应用服务器及其告警信息;基于告警信息向所述告警应用服务器的应急模块发送应急指令,以便该应急模块将其应用系统的进程暂停并将进程状态信息存储到共享存储设备中;根据每个应用服务器的运行状态信息选择用于应急处理的目标应用服务器;接收告警应用服务器的应急模块返回的应急指令执行结果,向目标应用服务器的应急模块发送接替指令,以便目标应用服务器的应急模块基于进程状态信息恢复应用系统的进程。根据本发明的技术方案,实现了对应用系统进行快速应急处理,缩短了应急容灾时间。

Description

一种应急处理方法、系统及计算设备
技术领域
本发明涉及服务器技术领域,尤其涉及一种应急处理方法、应急处理系统及计算设备。
背景技术
随着信息系统在各行各业中所扮演的角色越来越重要,对信息系统持续提供服务的能力要求也越来越高。通过借助CRIU以及监控告警、共享存储、资源调度等技术,在应用服务器的操作系统出现宕机或者应用系统出现意外退出时,可以将应用系统在运行状态正常的另一个服务器的操作系统上对应用系统进行快速恢复,使应用系统继续对外提供服务。
现有的应急容灾类产品和技术方案多采用先备份、再恢复、再应急的机制,即,先对应用系统及其产生的数据进行备份,当应用系统出现宕机或者故障时,再进行数据恢复,数据恢复成功后再启动应用系统进行应急。传统的先备份、再恢复、再应急机制存在恢复时间长的缺点。
随着信息技术的发展,出现了网络应急启动和虚拟化应急启动的应急容灾方案。网络应急启动主要采用了PXE技术,当操作系统出现宕机或者应用系统出现意外退出时,通过网络加载备份的操作系统来进行应用系统应急。虽然,操作系统和应用系统启动的时间缩短了,但是,网络应急启动前需要备份应用系统所在的整个操作系统的数据,增加了数据备份量,同时,网络应急启动无法解决硬件出现故障情况下的应用系统应急容灾。
为此,需要一种应急处理方法,以解决上述方案中存在的问题。
发明内容
为此,本发明提供一种应急处理方法及应急处理系统,以解决或至少缓解上面存在的问题。
根据本发明的一个方面,提供一种应急处理方法,在监控服务器中执行,所述监控服务器与多个应用服务器通信相连,每个应用服务器中部署有应用系统、应急模块,且每个应用服务器与共享存储设备通信相连,所述方法包括步骤:获取每个应用服务器的运行状态信息,对所述运行状态信息进行分析以确定告警应用服务器及所述告警应用服务器的告警信息;基于所述告警信息向所述告警应用服务器的应急模块发送应急指令,以便所述告警应用服务器的应急模块将其应用系统的进程暂停并将进程状态信息存储到共享存储设备中;根据所述每个应用服务器的运行状态信息选择用于应急处理的目标应用服务器;接收所述告警应用服务器的应急模块返回的应急指令执行结果,向所述目标应用服务器的应急模块发送接替指令,以便所述目标应用服务器的应急模块从共享存储设备中获取所述告警应用服务器的进程状态信息,并基于所述进程状态信息恢复所述告警应用服务器的应用系统的进程。
可选地,在根据本发明的应急处理方法中,获取每个应用服务器的运行状态信息包括:在每个应用服务器中部署监控探针;通过所述监控探针获取对应的应用服务器的运行状态信息。
可选地,在根据本发明的应急处理方法中,每个应用服务器的应用系统在正常运行状态下适于将进程运行数据存储到所述共享存储设备中;所述接替指令包含所述告警应用服务器的应用系统的进程标识,所述目标应用服务器适于基于所述进程标识从所述共享存储设备中获取对应的进程状态信息和进程运行数据,并基于所述进程状态信息和进程运行数据恢复所述告警应用服务器的应用系统的进程。
可选地,在根据本发明的应急处理方法中,所述告警应用服务器的应急模块通过调用CRIU工具,将告警应用服务器的应用系统的进程暂停并将进程状态信息存储到共享存储设备中;所述目标应用服务器的应急模块通过调用CRIU工具,基于所述进程状态信息恢复所述告警应用服务器的应用系统的进程。
可选地,在根据本发明的应急处理方法中,所述告警应用服务器的应急模块适于基于预定时间间隔将进程状态信息存储到共享存储设备中。
可选地,在根据本发明的应急处理方法中,所述应用服务器的运行状态信息包括:所述应用服务器中的应用系统状态信息、操作系统状态信息、硬件状态信息、网络状态信息中的一种或多种。
根据本发明的一个方面,提供一种应急处理系统,监控服务器,适于执行如上所述的应急处理方法;共享存储设备;以及多个应用服务器,所述应用服务器与所述监控服务器、共享存储设备通信相连,且所述应用服务器中部署有应用系统、应急模块;其中,所述应用服务器中的应急模块适于在接收到所述监控服务器发送的应急指令时,将所述应用服务器中的应用系统的进程暂停,并将进程状态信息存储到所述共享存储设备中;并适于在接收到所述监控服务器发送的接替指令时,从所述共享存储设备中获取告警应用服务器的进程状态信息,基于所述进程状态信息恢复所述告警应用服务器的应用系统的进程。
可选地,在根据本发明的应急处理系统中,所述监控服务器包括:监控告警模块,适于获取每个应用服务器的运行状态信息,对所述运行状态信息进行分析以确定告警应用服务器及所述告警应用服务器的其告警信息,并将所述告警应用服务器的告警信息发送至资源调度模块;以及资源调度模块,适于基于所述告警信息向所述告警应用服务器的应急模块发送应急指令,以便所述告警应用服务器的应急模块将其应用系统的进程暂停并将进程状态信息存储到共享存储设备中;根据所述每个应用服务器的运行状态信息选择用于应急处理的目标应用服务器;以及接收所述告警应用服务器的应急模块返回的应急指令执行结果,向所述目标应用服务器的应急模块发送接替指令,以便所述目标应用服务器的应急模块从共享存储设备中获取所述告警应用服务器的进程状态信息,并基于所述进程状态信息恢复所述告警应用服务器的应用系统的进程。
可选地,在根据本发明的应急处理系统中,所述告警应用服务器的应急模块适于调用CRIU工具,来将告警应用服务器的应用系统的进程暂停并将进程状态信息存储到共享存储设备中;所述目标应用服务器的应急模块适于调用CRIU工具,来基于所述进程状态信息恢复所述告警应用服务器的应用系统的进程。
根据本发明的一个方面,提供一种计算设备,包括:至少一个处理器;存储器,存储有程序指令,其中,程序指令被配置为适于由上述至少一个处理器执行,所述程序指令包括用于执行如上所述的应急处理方法的指令。
根据本发明的一个方面,提供一种存储有程序指令的可读存储介质,当该程序指令被计算设备读取并执行时,使得该计算设备执行如上所述的应急处理方法。
根据本发明的技术方案,提供了一种应急处理方法,在监控到任意一个应用服务器存在告警信息时,便对告警应用服务器中的应用系统进行应急处理,其中,通过指示告警应用服务器中的应急模块来将其应用系统进行暂停,并存储此时的进程状态信息。并且,从正常运行状态下的其他应用服务器中选择目标应用服务器,在目标应用服务器中对该应用系统进程进行恢复运行,以实现对存在故障风险的应用系统进程的快速应急接替,使得应用系统继续对外提供服务。可见,根据本发明的应急处理方法,通过对潜在故障风险的告警应用服务器中的应用系统进程进行及时冻结和备份,并将该应用系统进程在运行状态正常的目标应用服务器进行恢复和运行,从而实现了对应用系统进行快速应急处理,能满足应用系统快速应急容灾的需求,缩短了应急容灾时间。并且,克服了现有技术中存在的应用系统恢复时间长、无法针对硬件故障而进行应急容灾的问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的应急处理系统100的示意图;
图2示出了根据本发明一个实施例的计算设备200的硬件结构示意图;
图3示出了根据本发明一个实施例的应急处理方法300的流程图;
图4示出了根据本发明一个实施例的应急处理方法的时序图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
图1示出了根据本发明一个实施例的应急处理系统100的示意图。
如图1所示,应急处理系统100包括多个应用服务器110、监控服务器150、共享存储设备130。每个应用服务器110与监控服务器150通信连接,且每个应用服务器110与共享存储设备130通信连接,经由共享存储设备130能实现各个应用服务器110之间的数据共享。例如,每个应用服务器110可以通过有线或无线的方式与监控服务器150、共享存储设备130网络连接。
应用服务器110中部署有应用系统111、应急模块112。应用服务器110通过应用系统111向客户端提供服务。这里,应用系统111即是驻留在应用服务器110中的服务端应用程序。应当指出,本发明不限于应用服务器110提供的具体服务类型,例如应用服务器110可以向客户端提供社交服务、电商服务、短视频服务、直播服务等。应用服务器110具体可以实现为桌面电脑、笔记本电脑、处理器芯片、手机、平板电脑等计算设备,但不限于此。
监控服务器150与多个应用服务器110通信连接,用于监控各个应用服务器110的运行状态,并对运行状态存在故障风险的应用服务器110中的应用系统111进行应急处理。
根据本发明的一个实施例,监控服务器150包括监控告警模块151、与监控告警模块151通信相连的资源调度模块152。
具体地,监控告警模块151可以获取每个应用服务器110的运行状态信息,通过对运行状态信息进行分析,来确定告警应用服务器以及告警应用服务器的告警信息。
这里,监控告警模块151通过获取每个应用服务器110的运行状态信息,对每个应用服务器110的运行状态信息进行分析处理,可以确定运行状态信息中是否存在告警信息,根据是否存在告警信息可以确定应用服务器110的运行状态是否潜在故障风险。如果识别到应用服务器110的运行状态信息中存在告警信息,可以判定该应用服务器110的运行状态存在一定的故障风险,则将该应用服务器110确定为告警应用服务器。
需要说明的是,应用服务器110的运行状态信息例如包括应用服务器110中的应用系统、操作系统、硬件、网络的状态信息。换言之,运行状态信息可以包括应用服务器110中的应用系统状态信息、操作系统状态信息、硬件状态信息、网络状态信息。告警应用服务器即是运行状态存在故障风险的应用服务器110。具体地,当应用服务器110中的操作系统、应用系统、硬件或网络的运行状态存在故障风险时,监控告警模块151可以从应用服务器110的运行状态信息中识别到告警信息,从而根据告警信息确定该应用服务器110为告警应用服务器。
资源调度模块152在接收到监控告警模块151发送的告警信息后,可以基于告警信息向告警应用服务器的应急模块112发送应急指令。同时,资源调度模块152根据每个应用服务器110的运行状态信息选择用于应急处理的目标应用服务器。需要说明的是,资源调度模块152可以从除告警应用服务器之外的正常运行状态下的其他应用服务器110中选择其中一个来作为临时进行应急处理的目标应用服务器。
告警应用服务器的应急模块112在接收到应急指令后,响应于该应急指令,将告警应用服务器中的应用系统111的进程暂停,同时,将应用系统111的进程状态信息存储到共享存储设备130中。随后,告警应用服务器的应急模块112向监控服务器150返回对应急指令的执行结果。
在一个实施例中,告警应用服务器的应急模块112可以通过调用CRIU工具,来将告警应用服务器中的应用系统111的进程暂停,并将应用系统111的进程状态信息存储到共享存储设备130中。
需要说明的是, CRIU(Checkpoint/Restore In Userspace)是运行在操作系统(Linux操作系统)上的一个软件工具,其功能是在用户空间实现Checkpoint/Restore功能。通过调用利用该CRIU工具,可以冻结正在运行的应用程序,并将其作为文件的集合,并可以使用这些文件在任何计算设备中从冻结的点重新恢复和运行该应用程序,从而实现对正在运行程序的备份和恢复。
基于此,告警应用服务器的应急模块112通过调用告警应用服务器的操作系统上的CRIU工具,可以对告警应用服务器中的应用系统111的进程进行冻结,并将该进程状态信息基于一个或多个文件存储到共享存储设备130中。
资源调度模块152在接收到告警应用服务器的应急模块返回的应急指令执行结果后,向目标应用服务器的应急模块发送接替指令。
目标应用服务器的应急模块在接收到接替指令后,响应于该接替指令,从共享存储设备130中获取告警应用服务器的进程状态信息,并基于进程状态信息来恢复相应的告警应用服务器的应用系统进程,以实现应急接替。
在一个实施例中,目标应用服务器的应急模块可以通过调用CRIU工具,来实现基于进程状态信息恢复相应的告警应用服务器的应用系统进程,以实现应急接替。
基于此,目标应用服务器的应急模块通过调用目标应用服务器的操作系统上的CRIU工具,可以基于在冻结告警应用服务器的应用系统时存储的进程状态信息,来对告警应用服务器的应用系统111的进程进行恢复,将告警应用服务器的应用系统111的进程从冻结的点重新恢复并运行在目标应用服务器中。
这样,根据本发明的技术方案,便实现了将运行状态存在故障风险的告警应用服务器中的应用系统进程进行冻结和备份,并将该应用系统进程在运行状态正常的目标应用服务器进行快速恢复和运行,使得应用系统继续对外提供服务。
应当指出,图1仅示例性地提供了一种应急处理系统的示意图,但本发明并不受限于图1示出的应急处理系统中的应用服务器110的数量。
在本发明的实施例中,监控服务器150适于执行本发明的应急处理方法300,以对运行状态存在故障风险的应用服务器110中的应用系统111进行应急处理。本发明的应急处理方法300将在下文中详述。
在本发明的一个实施例中,应急处理系统中的每个应用服务器110、监控服务器150、共享存储设备分别可以实现为一种计算设备200。
图2示出了根据本发明一个实施例的计算设备200的硬件结构示意图。如图2所示,该计算设备200可以包括输入设备20、处理器21、输出设备22、存储器23和至少一个通信总线24。通信总线24用于实现元件之间的通信连接。存储器23可能包含高速RAM存储器,也可能还包括非易失性存储NVM,例如至少一个磁盘存储器,存储器23中可以存储各种程序指令,用于完成各种处理功能以及实现本发明实施例中的应急处理方法。
可选的,上述处理器21例如可以为中央处理器(Central Processing Unit,简称CPU)、应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,该处理器21通过有线或无线连接耦合到上述输入设备20和输出设备22。
可选的,上述输入设备20可以包括多种输入设备,例如可以包括面向用户的用户接口、面向设备的设备接口、软件的可编程接口、摄像头、传感器中至少一种。可选的,该面向设备的设备接口可以是用于设备与设备之间进行数据传输的有线接口、还可以是用于设备与设备之间进行数据传输的硬件插入接口(例如USB接口、串口等);可选的,该面向用户的用户接口例如可以是面向用户的控制按键、用于接收语音输入的语音输入设备以及用户接收用户触摸输入的触摸感知设备(例如具有触摸感应功能的触摸屏、触控板等);可选的,上述软件的可编程接口例如可以是供用户编辑或者修改程序的入口,例如芯片的输入引脚接口或者输入接口等;可选的,上述收发信机可以是具有通信功能的射频收发芯片、基带处理芯片以及收发天线等。麦克风等音频输入设备可以接收语音数据。输出设备22可以包括显示器、音响等输出设备。
在本发明的一个实施例中,计算设备200包括一个或多个处理器、以及存储有程序指令的一个或多个可读存储介质。当程序指令被配置为由一个或多个处理器执行时,使得计算设备执行本发明实施例中的应急处理方法。
在根据本发明的实施例中,计算设备200被配置为执行根据本发明的应急处理方法300。计算设备200包括一个或多个处理器、以及存储有程序指令的一个或多个可读存储介质,当程序指令被配置为由一个或多个处理器执行时,使得计算设备执行本发明实施例中的应急处理方法300。
图3示出了根据本发明一个实施例的应急处理方法300的流程图,图4示出了根据本发明一个实施例的应急处理方法的时序图。方法300适于在监控服务器150(例如前述计算设备200)中执行。
根据前文所述的应急处理系统100,监控服务器150与多个应用服务器110通信连接,用于监控各个应用服务器110的运行状态,并对运行状态存在故障风险的应用服务器110中的应用系统111进行应急处理。每个应用服务器110与共享存储设备130通信连接,以便经由共享存储设备130来实现各个应用服务器110之间的数据共享。每个应用服务器110中部署有应用系统111、应急模块112。
根据本发明的一个实施例,监控服务器150包括监控告警模块151、与监控告警模块151通信相连的资源调度模块152。
如图3和图4所示,方法300包括步骤310~340。
其中,监控服务器150中的监控告警模块151被配置为执行步骤310,资源调度模块152被配置为执行步骤320~340。
首先,在步骤310中,监控告警模块151可以监控每个应用服务器110,并获取每个应用服务器110的运行状态信息,通过对运行状态信息进行分析,来确定告警应用服务器以及告警应用服务器的告警信息。
这里,监控告警模块151通过获取每个应用服务器110的运行状态信息,对每个应用服务器110的运行状态信息进行分析处理,可以确定运行状态信息中是否存在告警信息,根据是否存在告警信息可以确定应用服务器110的运行状态是否潜在故障风险。如果识别到应用服务器110的运行状态信息中存在告警信息,可以判定该应用服务器110的运行状态存在一定的故障风险,则将该应用服务器110确定为告警应用服务器。
在一个实施例中,在执行步骤310之前,可以在每个应用服务器110中部署监控探针,监控探针可以获取其部署的应用服务器110的运行状态信息,并将运行状态信息发送至监控服务器150的监控告警模块151。这样,监控告警模块151便可以通过监控探针来获取对应的应用服务器110的运行状态信息。
需要说明的是,应用服务器110的运行状态信息例如包括应用服务器110中的应用系统、操作系统、硬件、网络的状态信息。换言之,运行状态信息可以包括应用服务器110中的应用系统状态信息、操作系统状态信息、硬件状态信息、网络状态信息。
告警应用服务器即是运行状态存在故障风险的应用服务器。具体地,当应用服务器中的操作系统、应用系统、硬件或网络的运行状态存在故障风险时,监控告警模块151可以从应用服务器的运行状态信息中识别到告警信息,从而根据告警信息确定该应用服务器为告警应用服务器。
进而,监控告警模块151将告警应用服务器的告警信息发送至资源调度模块152,通过资源调度模块152来执行以下步骤320~340。
在步骤320中,资源调度模块152基于获取到的告警信息向告警应用服务器的应急模块112发送应急指令。告警应用服务器的应急模块112在接收到应急指令后,响应于该应急指令,将告警应用服务器中的应用系统111的进程暂停,同时,将应用系统111的进程状态信息存储到共享存储设备130中。随后,告警应用服务器的应急模块112向监控服务器150返回对应急指令的执行结果。
在一个实施例中,告警应用服务器的应急模块112可以基于预定时间间隔、周期性地将应用系统111的进程状态信息存储到共享存储设备130中。这样,通过将进程状态信息定时转储,可以有效减少数据备份量。
在一个实施例中,告警应用服务器的应急模块112可以通过调用CRIU工具,来将告警应用服务器中的应用系统111的进程暂停,并将应用系统111的进程状态信息存储到共享存储设备130中。
需要说明的是, CRIU(Checkpoint/Restore In Userspace)是运行在操作系统(Linux操作系统)上的一个软件工具,其功能是在用户空间实现Checkpoint/Restore功能。通过调用利用该CRIU工具,可以冻结正在运行的应用程序,并将其作为文件的集合,并可以使用这些文件在任何计算设备中从冻结的点重新恢复和运行该应用程序,从而实现对正在运行程序的备份和恢复。
基于此,告警应用服务器的应急模块112通过调用告警应用服务器的操作系统上的CRIU工具,可以对告警应用服务器中的应用系统111的进程进行冻结,并将该进程状态信息基于一个或多个文件存储到共享存储设备130中。
资源调度模块152在执行步骤320的同时,并行执行步骤330。在步骤330中,资源调度模块152根据每个应用服务器110的运行状态信息选择用于应急处理的目标应用服务器。
需要说明的是,资源调度模块152可以从除告警应用服务器之外的正常运行状态下的其他应用服务器110中选择其中一个来作为临时进行应急处理的目标应用服务器。
运行状态信息中的硬件状态信息包括硬件资源使用率,在选择用于应急处理的目标应用服务器时,可以根据正常运行状态下的每个应用服务器110的运行状态和硬件资源使用率,综合确定用于进行应急处理的目标应用服务器。
最后,在步骤340中,资源调度模块152接收告警应用服务器的应急模块返回的应急指令执行结果,向目标应用服务器的应急模块发送接替指令。目标应用服务器的应急模块在接收到接替指令后,响应于该接替指令,从共享存储设备130中获取告警应用服务器的进程状态信息,并基于进程状态信息来恢复相应的告警应用服务器的应用系统进程,以实现应急接替。
在一个实施例中,目标应用服务器的应急模块可以通过调用CRIU工具,来实现基于进程状态信息恢复相应的应用系统进程,以实现应急接替。
基于此,目标应用服务器的应急模块通过调用目标应用服务器的操作系统上的CRIU工具,可以基于在冻结告警应用服务器的应用系统时存储的进程状态信息,来对应用系统111的进程进行恢复,将应用系统111的进程从冻结的点重新恢复并运行在目标应用服务器中。
这样,根据本发明的技术方案,便实现了将运行状态存在故障风险的告警应用服务器中的应用系统进程进行冻结和备份,并将该应用系统进程在运行状态正常的目标应用服务器进行快速恢复和运行,使得应用系统继续对外提供服务。
在一个实施例中,每个应用服务器110的应用系统111在正常运行状态下,可以将应用服务器110的应用系统111的进程运行数据存储到共享存储设备130。
目标应用服务器的应急模块112在从共享存储设备中获取告警应用服务器的进程状态信息时,还获取告警应用服务器在正常运行状态下(监控到告警信息之前)存储到共享存储设备130中的进程运行数据。这样,目标应用服务器的应急模块112可以基于告警应用服务器的应用系统111的进程状态信息、以及正常运行时的进程运行数据,在目标应用服务器中恢复相应的告警应用服务器的应用系统进程,以实现应急接替。
进一步地,接替指令包含告警应用服务器的应用系统111的进程标识。目标应用服务器在获取到接替指令后,基于接替指令中的进程标识从共享存储设备130获取对应的进程状态信息、进程运行数据,并基于进程状态信息和进程运行数据,来恢复相应的告警应用服务器的应用系统进程,以实现应急接替。
根据本发明的应急处理方法300,在监控到任意一个应用服务器存在告警信息时,便对告警应用服务器中的应用系统进行应急处理,其中,通过指示告警应用服务器中的应急模块来将其应用系统进行暂停,并存储此时的进程状态信息。并且,从正常运行状态下的其他应用服务器中选择目标应用服务器,在目标应用服务器中对该应用系统进程进行恢复运行,以实现对存在故障风险的应用系统进程的快速应急接替,使得应用系统继续对外提供服务。可见,根据本发明的应急处理方法,通过对潜在故障风险的告警应用服务器中的应用系统进程进行及时冻结和备份,并将该应用系统进程在运行状态正常的目标应用服务器进行恢复和运行,从而能满足应用系统快速应急容灾的需求,缩短了应急容灾时间。并且,克服了现有技术中存在的应用系统恢复时间长、无法针对硬件故障而进行应急容灾的问题。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,移动终端一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的应急处理方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。

Claims (8)

1.一种应急处理方法,在监控服务器中执行,所述监控服务器与多个应用服务器通信相连,每个应用服务器中部署有应用系统、应急模块,且每个应用服务器与共享存储设备通信相连,每个应用服务器的应用系统在正常运行状态下适于将进程运行数据存储到所述共享存储设备中;所述方法包括步骤:
在每个应用服务器中部署监控探针,通过所述监控探针获取每个应用服务器的运行状态信息,对所述运行状态信息进行分析以确定告警应用服务器及所述告警应用服务器的告警信息,其中,所述应用服务器的运行状态信息包括:所述应用服务器中的应用系统状态信息、操作系统状态信息、硬件状态信息、网络状态信息中的一种或多种;
基于所述告警信息向所述告警应用服务器的应急模块发送应急指令,以便所述告警应用服务器的应急模块将其应用系统的进程暂停并将进程状态信息存储到共享存储设备中;
根据所述每个应用服务器的运行状态信息选择用于应急处理的目标应用服务器;
接收所述告警应用服务器的应急模块返回的应急指令执行结果,向所述目标应用服务器的应急模块发送接替指令,所述接替指令包含所述告警应用服务器的应用系统的进程标识,以便所述目标应用服务器的应急模块基于所述进程标识从共享存储设备中获取所述告警应用服务器的进程状态信息和进程运行数据,并基于所述进程状态信息和进程运行数据恢复所述告警应用服务器的应用系统的进程,以实现应急接替。
2.如权利要求1所述的方法,其中,
所述告警应用服务器的应急模块通过调用CRIU工具,将所述告警应用服务器的应用系统的进程暂停并将进程状态信息存储到共享存储设备中;
所述目标应用服务器的应急模块通过调用CRIU工具,基于所述进程状态信息和进程运行数据恢复所述告警应用服务器的应用系统的进程。
3.如权利要求1或2所述的方法,其中,
所述告警应用服务器的应急模块适于基于预定时间间隔将进程状态信息存储到共享存储设备中。
4.一种应急处理系统,包括:
监控服务器,适于执行如权利要求1-3中任一项所述的应急处理方法;
共享存储设备;以及
多个应用服务器,所述应用服务器与所述监控服务器、共享存储设备通信相连,且所述应用服务器中部署有应用系统、应急模块,每个应用服务器的应用系统在正常运行状态下适于将进程运行数据存储到所述共享存储设备中;其中,所述应用服务器中的应急模块适于在接收到所述监控服务器发送的应急指令时,将所述应用服务器中的应用系统的进程暂停,并将进程状态信息存储到所述共享存储设备中;并适于在接收到所述监控服务器发送的接替指令时,基于所述接替指令中的进程标识从所述共享存储设备中获取告警应用服务器的进程状态信息和进程运行数据,基于所述进程状态信息和进程运行数据恢复所述告警应用服务器的应用系统的进程,以实现应急接替。
5.如权利要求4所述的系统,其中,所述监控服务器包括:
监控告警模块,适于在每个应用服务器中部署监控探针,通过所述监控探针获取每个应用服务器的运行状态信息,对所述运行状态信息进行分析以确定告警应用服务器及所述告警应用服务器的告警信息,并将所述告警应用服务器的告警信息发送至资源调度模块,其中,所述应用服务器的运行状态信息包括:所述应用服务器中的应用系统状态信息、操作系统状态信息、硬件状态信息、网络状态信息中的一种或多种;以及
资源调度模块,适于基于所述告警信息向所述告警应用服务器的应急模块发送应急指令,以便所述告警应用服务器的应急模块将其应用系统的进程暂停并将进程状态信息存储到共享存储设备中;根据所述每个应用服务器的运行状态信息选择用于应急处理的目标应用服务器;以及接收所述告警应用服务器的应急模块返回的应急指令执行结果,向所述目标应用服务器的应急模块发送接替指令,所述接替指令包含所述告警应用服务器的应用系统的进程标识,以便所述目标应用服务器的应急模块基于所述进程标识从共享存储设备中获取所述告警应用服务器的进程状态信息和进程运行数据,并基于所述进程状态信息和进程运行数据恢复所述告警应用服务器的应用系统的进程,以实现应急接替。
6.如权利要求4或5所述的系统,其中,
所述告警应用服务器的应急模块适于调用CRIU工具,来将所述告警应用服务器的应用系统的进程暂停并将进程状态信息存储到共享存储设备中;
所述目标应用服务器的应急模块适于调用CRIU工具,来基于所述进程状态信息和进程运行数据恢复所述告警应用服务器的应用系统的进程。
7.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-3中任一项所述的方法的指令。
8.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-3中任一项所述方法。
CN202211388549.3A 2022-11-08 2022-11-08 一种应急处理方法、系统及计算设备 Active CN115437889B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211388549.3A CN115437889B (zh) 2022-11-08 2022-11-08 一种应急处理方法、系统及计算设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211388549.3A CN115437889B (zh) 2022-11-08 2022-11-08 一种应急处理方法、系统及计算设备

Publications (2)

Publication Number Publication Date
CN115437889A CN115437889A (zh) 2022-12-06
CN115437889B true CN115437889B (zh) 2023-03-10

Family

ID=84252009

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211388549.3A Active CN115437889B (zh) 2022-11-08 2022-11-08 一种应急处理方法、系统及计算设备

Country Status (1)

Country Link
CN (1) CN115437889B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1349162A (zh) * 2001-12-04 2002-05-15 上海复旦光华信息科技股份有限公司 分布式应急反应控制系统
CN105323113A (zh) * 2015-11-19 2016-02-10 国网江西省电力公司信息通信分公司 一种基于可视化技术的系统故障应急处置系统及方法
CN105391818A (zh) * 2015-11-26 2016-03-09 中国互联网络信息中心 一种基于递归服务器的权威域名应急解析系统及方法
CN106407075A (zh) * 2016-09-19 2017-02-15 广州视源电子科技股份有限公司 一种用于大数据平台的管理方法及系统
CN109728979A (zh) * 2019-03-01 2019-05-07 国网新疆电力有限公司信息通信公司 适用于信息运维综合监管平台的自动告警系统及方法
CN110737501A (zh) * 2018-07-18 2020-01-31 中标软件有限公司 Docker容器中检查点和恢复点的功能实现方法及系统
CN111459770A (zh) * 2020-04-01 2020-07-28 深圳市伊欧乐科技有限公司 服务器运行状态的告警方法、装置、服务器及存储介质
CN113076182A (zh) * 2021-03-24 2021-07-06 成都海光集成电路设计有限公司 计算任务的恢复方法、装置、用户设备及存储介质
CN114884796A (zh) * 2022-06-16 2022-08-09 中国工商银行股份有限公司 故障处理方法、装置、电子设备及存储介质
CN115080356A (zh) * 2022-07-21 2022-09-20 支付宝(杭州)信息技术有限公司 异常告警方法和装置
CN115102838A (zh) * 2022-06-14 2022-09-23 阿里巴巴(中国)有限公司 服务器宕机风险的应急处理方法和装置、电子设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106304136B (zh) * 2015-05-27 2020-06-30 阿里巴巴集团控股有限公司 获取网络状态信息的方法、系统、控制器和模拟移动设备
US11567909B2 (en) * 2020-07-07 2023-01-31 Salesforce, Inc. Monitoring database management systems connected by a computer network

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1349162A (zh) * 2001-12-04 2002-05-15 上海复旦光华信息科技股份有限公司 分布式应急反应控制系统
CN105323113A (zh) * 2015-11-19 2016-02-10 国网江西省电力公司信息通信分公司 一种基于可视化技术的系统故障应急处置系统及方法
CN105391818A (zh) * 2015-11-26 2016-03-09 中国互联网络信息中心 一种基于递归服务器的权威域名应急解析系统及方法
CN106407075A (zh) * 2016-09-19 2017-02-15 广州视源电子科技股份有限公司 一种用于大数据平台的管理方法及系统
CN110737501A (zh) * 2018-07-18 2020-01-31 中标软件有限公司 Docker容器中检查点和恢复点的功能实现方法及系统
CN109728979A (zh) * 2019-03-01 2019-05-07 国网新疆电力有限公司信息通信公司 适用于信息运维综合监管平台的自动告警系统及方法
CN111459770A (zh) * 2020-04-01 2020-07-28 深圳市伊欧乐科技有限公司 服务器运行状态的告警方法、装置、服务器及存储介质
CN113076182A (zh) * 2021-03-24 2021-07-06 成都海光集成电路设计有限公司 计算任务的恢复方法、装置、用户设备及存储介质
CN115102838A (zh) * 2022-06-14 2022-09-23 阿里巴巴(中国)有限公司 服务器宕机风险的应急处理方法和装置、电子设备
CN114884796A (zh) * 2022-06-16 2022-08-09 中国工商银行股份有限公司 故障处理方法、装置、电子设备及存储介质
CN115080356A (zh) * 2022-07-21 2022-09-20 支付宝(杭州)信息技术有限公司 异常告警方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于BPMN的变电站辅助监控应急预案模型研究;杨莎等;《自动化与仪表》;20170615(第06期);全文 *
基于灰色层次分析法的突发事件应急管理能力评价;葛悦等;《中国安全生产科学技术》;20141230(第12期);全文 *

Also Published As

Publication number Publication date
CN115437889A (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
US10152382B2 (en) Method and system for monitoring virtual machine cluster
CN103201724B (zh) 在高可用性虚拟机环境中提供高可用性应用程序
JP5562444B2 (ja) クラスタシステムにおいてクラスタ非対応アプリケーションをフェールオーバーするためのシステムおよび方法
CN107480014B (zh) 一种高可用设备切换方法及装置
JP2017517060A (ja) 障害処理方法、関連装置、およびコンピュータ
EP3025233B1 (en) Robust hardware/software error recovery system
US9436539B2 (en) Synchronized debug information generation
CN110413432B (zh) 一种信息处理方法、电子设备及存储介质
CN109992448B (zh) 文件变化增量备份方法、装置、设备及介质
CN114328098B (zh) 一种慢节点检测方法、装置、电子设备及存储介质
US20210240831A1 (en) Systems and methods for integrity verification of secondary firmware while minimizing boot time
CN110825562B (zh) 数据备份方法、装置、系统和存储介质
US9003139B1 (en) Systems and methods for recovering virtual machines after disaster scenarios
CN111813753A (zh) 保存文件的方法、恢复文件的方法、装置及终端设备
CN103902401A (zh) 基于监控的虚拟机容错方法及装置
CN115437889B (zh) 一种应急处理方法、系统及计算设备
CN113721990A (zh) 数据处理方法、数据处理设备、加速卡和存储介质
CN115904793B (zh) 一种基于多核异构系统的内存转存方法、系统及芯片
CN115499493A (zh) 异步事务处理方法、装置、存储介质及计算机设备
CN108037942B (zh) 一种嵌入式设备的自适应数据恢复与更新方法及装置
CN111782515A (zh) web应用的状态检测方法、装置、服务器和存储介质
CN116578446B (zh) 虚拟机备份方法、装置、系统、电子设备及存储介质
US20240095011A1 (en) State machine operation for non-disruptive update of a data management system
CN107480004B (zh) 故障恢复方法、装置和计算机设备
CN117290158A (zh) 数据恢复方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant