CN111813592A - 系统故障恢复预案的优化方法、装置及计算机存储介质 - Google Patents

系统故障恢复预案的优化方法、装置及计算机存储介质 Download PDF

Info

Publication number
CN111813592A
CN111813592A CN202010651658.4A CN202010651658A CN111813592A CN 111813592 A CN111813592 A CN 111813592A CN 202010651658 A CN202010651658 A CN 202010651658A CN 111813592 A CN111813592 A CN 111813592A
Authority
CN
China
Prior art keywords
fault
recovery
execution
plan
recovery plan
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010651658.4A
Other languages
English (en)
Inventor
易玉凤
何俊敏
杨微
孟波
马兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yanxi Software Information Technology Co ltd
Original Assignee
Shanghai Yanxi Software Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yanxi Software Information Technology Co ltd filed Critical Shanghai Yanxi Software Information Technology Co ltd
Priority to CN202010651658.4A priority Critical patent/CN111813592A/zh
Publication of CN111813592A publication Critical patent/CN111813592A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/0793Remedial or corrective actions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2209/00Indexing scheme relating to G06F9/00
    • G06F2209/48Indexing scheme relating to G06F9/48
    • G06F2209/484Precedence

Abstract

本发明公开一种系统故障恢复预案的优化方法、装置及计算机存储介质,属于计算机技术领域。方法包括:基于业务系统的模拟故障信息,触发业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点;获取与目标故障点预先关联的多个恢复预案,按照多个恢复预案当前的优先级顺序执行各恢复预案,得到各个恢复预案当前的执行结果;根据各个恢复预案当前的执行结果,对应更新各个恢复预案的执行记录,执行记录至少记录有被执行次数以及被执行后的故障恢复次数;根据各个恢复预案更新后的执行记录,对多个恢复预案当前的优先级顺序进行优化。本发明能够避免业务系统实际发生故障时导致故障无法快速恢复的问题。

Description

系统故障恢复预案的优化方法、装置及计算机存储介质
技术领域
本发明涉及计算机技术领域,尤其涉及一种系统故障恢复预案的优化方法、装置及计算机存储介质。
背景技术
业务系统服务于业务发展的需要而频繁发布变更,变更发布流程各个环节都存在诱发系统故障的可能,系统故障发生后,需要对引起系统故障的原因进行排查定位,并快速启用应急预案,从而保证业务系统的正常运行。
在实现本发明过程中,发明人发现现有技术中至少存在如下问题:
目前,业务系统的故障排查及处理过程多是需要人工采用串行模式进行故障排查,即故障处理人员排查出一个可能的故障点,执行恢复操作,若故障未恢复则继续排查其他可能的故障点,如此循环直至故障最终恢复,这种处理方式主要依赖于故障处理人员的故障处理经验,临时排查出故障点和启用相应的应急预案,然而,在高时间压力和高产品压力的情形下,过度依赖于故障处理人员的故障处理经验,往往不能快速进行故障定位;而且,在故障处理人员面对多种应急预案时,也会出现由于故障处理人员对应急预案的选择顺序不当而导致故障无法快速恢复。
发明内容
本发明实施例提供了一种系统故障恢复预案的优化方法、装置及计算机存储介质,以解决或缓解现有技术中的一个或多个技术问题。
本发明实施例提供的具体技术方案如下:
第一方面,提供了一种系统故障恢复预案的优化方法,所述方法包括:
基于业务系统的模拟故障信息,触发所述业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点;
获取与所述目标故障点预先关联的多个恢复预案,按照多个所述恢复预案当前的优先级顺序执行各所述恢复预案,得到各所述恢复预案当前的执行结果;
根据各所述恢复预案当前的执行结果,对应更新各所述恢复预案的执行记录,所述执行记录至少记录有被执行次数以及被执行后的故障恢复次数;
根据各所述恢复预案更新后的执行记录,对多个所述恢复预案当前的优先级顺序进行优化。
进一步地,所述方法还包括:
根据所述业务系统的多个维度,预先构建多个所述故障定位模型;
其中,多个所述维度包括应用容器运行状态、中间件运行状态、数据库运行状态、信息系统前台基础资料维护状态、网络服务状态、服务器硬件状态、存储硬件状态、平台服务运行状态和安全态势中的至少两个。
进一步地,所述方法还包括:
确定定位出所述目标故障点的故障定位模型以及所述目标故障点所属的故障检测点组;
判断所述目标故障点所属的故障检测点组中是否包含所述模拟故障信息对应的模拟故障点,若包含,则确定定位出所述目标故障点的故障定位模型有效,否则,则确定定位出所述目标故障点的故障定位模型无效。
进一步地,所述根据各所述恢复预案更新后的执行记录,对多个所述恢复预案当前的优先级顺序进行优化,包括:
根据各所述恢复预案更新后的执行记录,确定每个所述恢复预案当前的被执行次数以及被执行后的故障恢复次数;
根据每个所述恢复预案当前的被执行次数以及被执行后的故障恢复次数,计算每个所述恢复预案当前的执行成功率;
基于每个所述恢复预案当前的执行成功率从大到小的顺序,对多个所述恢复预案当前的优先级顺序进行优化。
进一步地,所述方法还包括:
针对与所述目标故障点预先关联的任意一个所述恢复预案,判断所述恢复预案当前的执行成功率是否低于预设值;
若低于,则解除所述恢复预案与所述目标故障点的关联关系。
进一步地,所述恢复预案的执行结果还包括被执行后的执行时长,所述恢复预案的执行记录还包括所述恢复预案被执行后的平均执行时长,所述方法还包括:
针对与所述目标故障点预先关联的任意一个所述恢复预案,根据所述恢复预案更新后的执行记录,判断所述恢复预案被执行后的平均执行时长是否超过预设时长;
若超过,则解除所述恢复预案与所述目标故障点的关联关系。
第二方面,提供了一种系统故障恢复预案的优化装置,所述装置包括:
故障定位模块,用于基于业务系统的模拟故障信息,触发所述业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点;
预案执行模块,用于获取与所述目标故障点预先关联的多个恢复预案,按照多个所述恢复预案当前的优先级顺序执行各所述恢复预案,得到各所述恢复预案当前的执行结果;
记录更新模块,用于根据各所述恢复预案当前的执行结果,对应更新各所述恢复预案的执行记录,所述执行记录至少记录有被执行次数以及被执行后的故障恢复次数;
预案优化模块,用于根据各所述恢复预案更新后的执行记录,对多个所述恢复预案当前的优先级顺序进行优化。
进一步地,所述装置还包括模型构建模块,所述模型构建模块具体用于:
根据所述业务系统的多个维度,预先构建多个所述故障定位模型;
其中,多个所述维度包括应用容器运行状态、中间件运行状态、数据库运行状态、信息系统前台基础资料维护状态、网络服务状态、服务器硬件状态、存储硬件状态、平台服务运行状态和安全态势中的至少两个。
进一步地,所述装置还包括模型验证模块,所述模型验证模块具体用于:
确定定位出所述目标故障点的故障定位模型以及所述目标故障点所属的故障检测点组;
判断所述目标故障点所属的故障检测点组中是否包含所述模拟故障信息对应的模拟故障点,若包含,则确定定位出所述目标故障点的故障定位模型有效,否则,则确定定位出所述目标故障点的故障定位模型无效。
进一步地,所述预案优化模块具体用于:
根据各所述恢复预案更新后的执行记录,确定每个所述恢复预案当前的被执行次数以及被执行后的故障恢复次数;
根据每个所述恢复预案当前的被执行次数以及被执行后的故障恢复次数,计算每个所述恢复预案当前的执行成功率;
基于每个所述恢复预案当前的执行成功率从大到小的顺序,对多个所述恢复预案当前的优先级顺序进行优化。
进一步地,所述预案优化模块具体还用于:
针对与所述目标故障点预先关联的任意一个所述恢复预案,判断所述恢复预案当前的执行成功率是否低于预设值;
若低于,则解除所述恢复预案与所述目标故障点的关联关系。
进一步地,所述恢复预案的执行结果还包括被执行后的执行时长,所述恢复预案的执行记录还包括所述恢复预案被执行后的平均执行时长,所述预案优化模块具体还用于:
针对与所述目标故障点预先关联的任意一个所述恢复预案,根据所述恢复预案更新后的执行记录,判断所述恢复预案被执行后的平均执行时长是否超过预设时长;
若超过,则解除所述恢复预案与所述目标故障点的关联关系。
第三方面,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现第一方面所述的系统故障恢复预案的优化方法的步骤。
第四方面,提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的系统故障恢复预案的优化方法的步骤。
本发明实施例提供了一种系统故障恢复预案的优化方法、装置及计算机存储介质,通过基于业务系统的模拟故障信息,触发业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点,然后获取与目标故障点预先关联的多个恢复预案,并按照各个恢复预案当前的优先级顺序执行各个恢复预案,通过根据各个恢复预案当前的执行结果,对应更新各恢复预案的执行记录,并根据各个恢复预案更新后的执行记录,对多个恢复预案当前的优先级顺序进行优化,由此通过预先模拟业务系统的故障,调用多个故障定位模型并行执行故障点定位操作,并对定位出的故障点预先关联的恢复预案进行优先级顺序的优化,能够避免业务系统实际发生故障时导致故障无法快速恢复的问题,实现了快速定位故障点以及快速恢复系统故障的目的。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种系统故障恢复预案的优化方法的流程图;
图2为本发明实施例提供的一种系统故障恢复预案的优化装置的结构框图;
图3为本发明实施例提供的一种计算机设备的内部结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,除非上下文明确要求,否则整个说明书和权利要求书中的“包括”、“包含”等类似词语应当解释为包含的含义而不是排他或穷举的含义;也就是说,是“包括但不限于”的含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
如背景技术所述,业务系统的故障排查及处理过程多是需要人工采用串行模式进行处理,并依赖于故障处理人员的故障处理经验,临时排查出故障点和启用相应的应急预案,而在高时间压力和高产品压力的情形下,过度依赖于故障处理人员的故障处理经验,往往不能快速进行故障定位;而且,在故障处理人员面对多种应急预案时,也会出现由于故障处理人员对应急预案的选择顺序不当而导致故障无法快速恢复。
为此,本发明实施例提供一种系统故障恢复预案的优化方法,该方法首先通过对业务系统进行故障模拟,触发业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点,然后获取与目标故障点预先关联的多个恢复预案,并按照各个恢复预案当前的优先级顺序执行各个恢复预案,通过根据各恢复预案当前的执行结果,对应更新各恢复预案的执行记录,并根据各恢复预案更新后的执行记录,对多个恢复预案当前的优先级顺序进行优化,由此通过预先模拟业务系统的故障,调用多个故障定位模型并行执行故障点定位操作,并对定位出的故障点预先关联的恢复预案进行优先级顺序的优化,能够避免业务系统实际发生故障时导致故障无法快速恢复的问题,实现了快速定位故障点以及快速恢复系统故障的目的。
图1为本发明实施例提供的一种系统故障恢复预案的优化方法的流程图,以该方法应用于系统故障恢复预案的优化装置中来举例说明,该装置可以被配置于任一计算机设备中,以使该计算机设备可以执行系统故障恢复预案的优化方法。如图1所示,该方法可以包括:
步骤S11,基于业务系统的模拟故障信息,触发业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点。
其中,可以将任一故障检测点组内的任一故障检测点设置成模拟故障点,以生成业务系统的模拟故障信息,并基于该模拟故障信息,触发业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作。
本实施例中,通过模拟业务系统的故障,触发多个故障定位模型在各个故障检测点组中同步地并行执行故障点定位操作,无需人工采用串行模式进行故障排查,能够提高故障排查效率,实现快速定位故障的目的。
在一个优选示例中,在步骤S11执行之前,方法还可以包括:
根据业务系统的多个维度,预先构建多个故障定位模型;
其中,多个所述维度包括应用容器运行状态、中间件运行状态、数据库运行状态、信息系统前台基础资料维护状态、网络服务状态、服务器硬件状态、存储硬件状态、平台服务运行状态和安全态势中的至少两个。
其中,可以先通过专家经验法确定出所有能诱发业务系统故障的故障检测点,形成业务系统的故障检测点集合,然后对故障检测点集合按照业务系统的多个维度对应划分成多个故障检测点组,其中,各个故障检测点组内均包含至少一个故障检测点,对不同的故障检测点组构建不同的故障定位模型进行排查定位故障检测点。可以理解的是,针对不同的业务系统,对应于同一维度的故障检测点组内的故障检测点可以不同,相应地,不同的业务系统对应于同一维度的故障定位模型也可以不同。
这里,业务系统的多个维度可以包括但不限于:应用容器运行状态、中间件运行状态、数据库运行状态、信息系统前台基础资料维护状态、网络服务状态、服务器硬件状态、存储硬件状态、平台服务运行状态和安全态势。其中,信息系统前台基础资料维护可以包括业务流转逻辑开关操作、业务菜单配置、业务实体属性调整等。
需要说明的是,不同的维度对应的故障定位模型用于监控不同的系统指标,以中间件运行状态这一维度为例来说,中间件运行状态对应的故障定位模型可以用于对数据同步异常、性能下降、数据延迟、拒绝服务、RocketMQ异常、数据阻塞等系统指标进行监控,每一系统指标均可以作为一个故障检测点来监控。
步骤S12,获取与目标故障点预先关联的多个恢复预案,按照多个恢复预案当前的优先级顺序执行各恢复预案,得到各恢复预案当前的执行结果。
其中,每个故障检测点均预先关联有至少一个恢复预案,在实际应用中,可以通过对业务系统的历史故障记录进行分析出所有的历史故障点以及针对各个历史故障点,用以恢复系统故障的恢复预案,以此建立故障检测点与相应的恢复预案之间的关联关系。其中,恢复预案可以包括服务器重启、系统版本回滚等。
其中,当某个故障检测点关联有多个恢复预案时,可以预先对该故障检测点关联的多个恢复预案设置初始的优先级顺序。
其中,当前的优先级顺序用于指示执行各个恢复预案的优先次序,一个恢复预案当前的执行结果用于指示:该恢复预案是否被执行,以及该恢复预案在被执行的情况下,是否成功使得业务系统的故障恢复。
具体地,按照多个恢复预案当前的优先级顺序执行各恢复预案,可以包括:
将各个恢复预案当前的优先级顺序推送给故障处理人员,以使故障处理人员按照各个恢复预案的优先级高低顺序,依次将各个恢复预案的关键参数写入下游工具平台执行恢复预案;或者
基于各个恢复预案当前的优先级顺序,按照优先级高低顺序依次将各个恢复预案的关键参数传递下游工具平台自动执行恢复预案;
其中,只有在高优先级的恢复预案被执行、且未成功使得业务系统的故障恢复的情况下,才允许低优先级的恢复预案被执行。
需要说明的是,当目标故障点预先关联的恢复预案仅一个时,可以直接执行该恢复预案,以获得该恢复预案当前的执行结果。
步骤S13,根据各恢复预案当前的执行结果,对应更新各恢复预案的执行记录,执行记录至少记录有被执行次数以及被执行后的故障恢复次数。
其中,可以在各个恢复预案的执行记录中,对各恢复预案的被执行次数以及被执行后的故障恢复次数进行统计。
具体地,针对每一个恢复预案,执行如下操作以更新该恢复预案的执行记录;
根据该恢复预案当前的执行结果,判断该恢复预案本次是否被执行,若本次被执行,则对该恢复预案的被执行次数加一,若本次未被执行,则保持该恢复预案的被执行次数不变;在该恢复预案本次被执行后,判断业务系统的故障是否恢复,若故障恢复,则对该恢复预案的故障恢复次数加一,若故障未恢复,则保持该恢复预案的故障恢复次数不变。
步骤S14,根据各恢复预案更新后的执行记录,对多个恢复预案当前的优先级顺序进行优化。
具体地,根据各恢复预案更新后的执行记录,确定每个恢复预案当前的被执行次数以及被执行后的故障恢复次数;根据每个恢复预案当前的被执行次数以及被执行后的故障恢复次数,计算每个恢复预案当前的执行成功率;基于每个恢复预案当前的执行成功率从大到小的顺序,对多个恢复预案当前的优先级顺序进行优化。
其中,恢复预案当前的执行成功率是通过对恢复预案当前被执行后的故障恢复次数与被执行次数进行计算比值而得到的。
需要说明的是,为了对某个故障检测点关联的多个恢复预案的优先级顺序进行优化,可以对该故障检测点进行设置多次故障模拟,在每次故障模拟时,执行故障点定位操作以及对故障点关联的多个恢复预案的优先级顺序进行优化操作,直至得到多个恢复预案最优的优先级顺序。
在一个优选示例中,方法还包括:
确定定位出目标故障点的故障定位模型以及目标故障点所属的故障检测点组;
判断目标故障点所属的故障检测点组中是否包含模拟故障信息对应的模拟故障点,若包含,则确定定位出目标故障点的故障定位模型有效,否则,则确定定位出目标故障点的故障定位模型无效。
本实施例中,通过判断目标故障点所属的故障检测点组中是否包含模拟故障信息对应的模拟故障点,能够验证定位出目标故障点的故障定位模型的有效性,基于此对该故障定位模型进行优化,此外,还可以根据模拟过程中暴露出的其他问题或故障场景等,对故障定位模型进行补充。
在一个优选示例中,方法还包括:
针对与目标故障点预先关联的任意一个恢复预案,判断恢复预案当前的执行成功率是否低于预设值;
若低于,则解除恢复预案与目标故障点的关联关系。
其中,预设值可以根据实际需要进行设定,例如可以将预设值设置为0.2。
本实施例中,通过在判断出恢复预案当前的执行成功率低于预设值时,解除该恢复预案与目标故障点的关联关系,能够避免使用不可靠的恢复预案对系统故障进行恢复,由此提升了故障恢复的可靠性和效率。
在一个优选示例中,恢复预案的执行结果还包括被执行后的执行时长,恢复预案的执行记录还包括恢复预案被执行后的平均执行时长,上述步骤S13执行之后,方法还包括:
针对与目标故障点预先关联的任意一个恢复预案,根据恢复预案更新后的执行记录,判断恢复预案被执行后的平均执行时长是否超过预设时长;
若超过,则解除恢复预案与目标故障点的关联关系。
其中,预设时长可以根据实际需要进行设定,本实施例对此不作具体限定。
本实施例中,通过在判断出恢复预案被执行后的平均执行时长超过预设时长时,解除该恢复预案与目标故障点的关联关系,能够避免使用执行时长过长的恢复预案对系统故障进行恢复,由此提升了故障恢复效率,提升应对系统故障效能。
图2为本发明实施例提供的一种系统故障恢复预案的优化装置的结构框图,如图2所示,该装置可以包括:
故障定位模块21,用于基于业务系统的模拟故障信息,触发业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点;
预案执行模块22,用于获取与目标故障点预先关联的多个恢复预案,按照多个恢复预案当前的优先级顺序执行各恢复预案,得到各恢复预案当前的执行结果;
记录更新模块23,用于根据各恢复预案当前的执行结果,对应更新各恢复预案的执行记录,执行记录至少记录有被执行次数以及被执行后的故障恢复次数;
预案优化模块24,用于根据各恢复预案更新后的执行记录,对多个恢复预案当前的优先级顺序进行优化。
在一个优选示例中,装置还包括模型构建模块20,模型构建模块20具体用于:
根据业务系统的多个维度,预先构建多个故障定位模型;
其中,多个维度包括应用容器运行状态、中间件运行状态、数据库运行状态、信息系统前台基础资料维护状态、网络服务状态、服务器硬件状态、存储硬件状态、平台服务运行状态和安全态势中的至少两个。
在一个优选示例中,装置还包括模型验证模块25,模型验证模块25具体用于:
确定定位出所述目标故障点的故障定位模型以及所述目标故障点所属的故障检测点组;
判断目标故障点所属的故障检测点组中是否包含模拟故障信息对应的模拟故障点,若包含,则确定定位出目标故障点的故障定位模型有效,否则,则确定定位出目标故障点的故障定位模型无效。
在一个优选示例中,预案优化模块24具体用于:
根据各恢复预案更新后的执行记录,确定每个恢复预案当前的被执行次数以及被执行后的故障恢复次数;
根据每个恢复预案当前的被执行次数以及被执行后的故障恢复次数,计算每个恢复预案当前的执行成功率;
基于每个恢复预案当前的执行成功率从大到小的顺序,对多个恢复预案当前的优先级顺序进行优化。
在一个优选示例中,预案优化模块24具体还用于:
针对与目标故障点预先关联的任意一个恢复预案,判断恢复预案当前的执行成功率是否低于预设值;
若低于,则解除恢复预案与目标故障点的关联关系。
在一个优选示例中,恢复预案的执行结果还包括被执行后的执行时长,恢复预案的执行记录还包括恢复预案被执行后的平均执行时长,预案优化模块24具体还用于:
针对与目标故障点预先关联的任意一个恢复预案,根据恢复预案更新后的执行记录,判断恢复预案被执行后的平均执行时长是否超过预设时长;
若超过,则解除恢复预案与目标故障点的关联关系。
本发明实施例提供的系统故障恢复预案的优化装置,与本发明实施例所提供的系统故障恢复预案的优化方法属于同一发明构思,可执行本发明实施例所提供的系统故障恢复预案的优化方法,具备执行系统故障恢复预案的优化方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节,可参见本发明实施例提供的系统故障恢复预案的优化方法,此处不再加以赘述。
图3为本发明实施例提供的一种计算机设备的内部结构图。该计算机设备可以是服务器,其内部结构图可以如图3所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种系统故障恢复预案的优化方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本发明实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现以下步骤:
基于业务系统的模拟故障信息,触发业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点;
获取与目标故障点预先关联的多个恢复预案,按照多个恢复预案当前的优先级顺序执行各恢复预案,得到各恢复预案当前的执行结果;
根据各恢复预案当前的执行结果,对应更新各恢复预案的执行记录,执行记录至少记录有被执行次数以及被执行后的故障恢复次数;
根据各恢复预案更新后的执行记录,对多个恢复预案当前的优先级顺序进行优化。
此外,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
基于业务系统的模拟故障信息,触发业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点;
获取与目标故障点预先关联的多个恢复预案,按照多个恢复预案当前的优先级顺序执行各恢复预案,得到各恢复预案当前的执行结果;
根据各恢复预案当前的执行结果,对应更新各恢复预案的执行记录,执行记录至少记录有被执行次数以及被执行后的故障恢复次数;
根据各恢复预案更新后的执行记录,对多个恢复预案当前的优先级顺序进行优化。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,上述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种系统故障恢复预案的优化方法,其特征在于,所述方法包括:
基于业务系统的模拟故障信息,触发所述业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点;
获取与所述目标故障点预先关联的多个恢复预案,按照多个所述恢复预案当前的优先级顺序执行各所述恢复预案,得到各所述恢复预案当前的执行结果;
根据各所述恢复预案当前的执行结果,对应更新各所述恢复预案的执行记录,所述执行记录至少记录有被执行次数以及被执行后的故障恢复次数;
根据各所述恢复预案更新后的执行记录,对多个所述恢复预案当前的优先级顺序进行优化。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述业务系统的多个维度,预先构建多个所述故障定位模型;
其中,多个所述维度包括应用容器运行状态、中间件运行状态、数据库运行状态、信息系统前台基础资料维护状态、网络服务状态、服务器硬件状态、存储硬件状态、平台服务运行状态和安全态势中的至少两个。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
确定定位出所述目标故障点的故障定位模型以及所述目标故障点所属的故障检测点组;
判断所述目标故障点所属的故障检测点组中是否包含所述模拟故障信息对应的模拟故障点,若包含,则确定定位出所述目标故障点的故障定位模型有效,否则,则确定定位出所述目标故障点的故障定位模型无效。
4.根据权利要求1至3任一所述的方法,其特征在于,所述根据各所述恢复预案更新后的执行记录,对多个所述恢复预案当前的优先级顺序进行优化,包括:
根据各所述恢复预案更新后的执行记录,确定每个所述恢复预案当前的被执行次数以及被执行后的故障恢复次数;
根据每个所述恢复预案当前的被执行次数以及被执行后的故障恢复次数,计算每个所述恢复预案当前的执行成功率;
基于每个所述恢复预案当前的执行成功率从大到小的顺序,对多个所述恢复预案当前的优先级顺序进行优化。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
针对与所述目标故障点预先关联的任意一个所述恢复预案,判断所述恢复预案当前的执行成功率是否低于预设值;
若低于,则解除所述恢复预案与所述目标故障点的关联关系。
6.根据权利要求1至3任一所述的方法,其特征在于,所述恢复预案的执行结果还包括被执行后的执行时长,所述恢复预案的执行记录还包括所述恢复预案被执行后的平均执行时长,所述方法还包括:
针对与所述目标故障点预先关联的任意一个所述恢复预案,根据所述恢复预案更新后的执行记录,判断所述恢复预案被执行后的平均执行时长是否超过预设时长;
若超过,则解除所述恢复预案与所述目标故障点的关联关系。
7.一种系统故障恢复预案的优化装置,其特征在于,所述装置包括:
故障定位模块,用于基于业务系统的模拟故障信息,触发所述业务系统的多个故障定位模型在各自对应的故障检测点组中并行执行故障点定位操作,以定位出目标故障点;
预案执行模块,用于获取与所述目标故障点预先关联的多个恢复预案,按照多个所述恢复预案当前的优先级顺序执行各所述恢复预案,得到各所述恢复预案当前的执行结果;
记录更新模块,用于根据各所述恢复预案当前的执行结果,对应更新各所述恢复预案的执行记录,所述执行记录至少记录有被执行次数以及被执行后的故障恢复次数;
预案优化模块,用于根据各所述恢复预案更新后的执行记录,对多个所述恢复预案当前的优先级顺序进行优化。
8.根据权利要求7所述的装置,其特征在于,所述装置还包括模型验证模块,所述模型验证模块具体用于:
确定定位出所述目标故障点的故障定位模型以及所述目标故障点所属的故障检测点组;
判断所述目标故障点所属的故障检测点组中是否包含所述模拟故障信息对应的模拟故障点,若包含,则确定定位出所述目标故障点的故障定位模型有效,否则,则确定定位出所述目标故障点的故障定位模型无效。
9.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的系统故障恢复预案的优化方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的系统故障恢复预案的优化方法的步骤。
CN202010651658.4A 2020-07-08 2020-07-08 系统故障恢复预案的优化方法、装置及计算机存储介质 Pending CN111813592A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010651658.4A CN111813592A (zh) 2020-07-08 2020-07-08 系统故障恢复预案的优化方法、装置及计算机存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010651658.4A CN111813592A (zh) 2020-07-08 2020-07-08 系统故障恢复预案的优化方法、装置及计算机存储介质

Publications (1)

Publication Number Publication Date
CN111813592A true CN111813592A (zh) 2020-10-23

Family

ID=72842942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010651658.4A Pending CN111813592A (zh) 2020-07-08 2020-07-08 系统故障恢复预案的优化方法、装置及计算机存储介质

Country Status (1)

Country Link
CN (1) CN111813592A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112994947A (zh) * 2021-03-30 2021-06-18 建信金融科技有限责任公司 一种网络运维方法、装置、存储介质及电子设备
US20230139817A1 (en) * 2021-10-29 2023-05-04 Hitachi, Ltd. System management device and system management method

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112994947A (zh) * 2021-03-30 2021-06-18 建信金融科技有限责任公司 一种网络运维方法、装置、存储介质及电子设备
US20230139817A1 (en) * 2021-10-29 2023-05-04 Hitachi, Ltd. System management device and system management method

Similar Documents

Publication Publication Date Title
CN107800783B (zh) 远程监控服务器的方法及装置
CN111813592A (zh) 系统故障恢复预案的优化方法、装置及计算机存储介质
CN111901176B (zh) 故障确定方法、装置、设备及存储介质
CN108509322B (zh) 避免过度回访的方法、电子装置及计算机可读存储介质
CN108958965B (zh) 一种bmc监控可恢复ecc错误的方法、装置及设备
CN111258591A (zh) 程序部署任务执行方法、装置、计算机设备和存储介质
CN115994044B (zh) 基于监控服务的数据库故障处理方法、装置及分布式集群
CN111506326A (zh) 终端设备的升级方法、装置、设备及存储介质
CN108199901B (zh) 硬件报修方法、系统、设备、硬件管理服务器与存储介质
CN109753384B (zh) 云主机的快照备份方法、装置、计算机设备和存储介质
CN113626227A (zh) 一种异常日志信息上报方法、智能终端及存储介质
CN111399862A (zh) Windows缺失驱动的批量安装方法、装置和计算机设备
CN110838940A (zh) 地下电缆巡检任务配置方法和装置
CN113687867B (zh) 一种云平台集群的关机方法、系统、设备及存储介质
CN113778763B (zh) 一种三方接口服务故障智能切换方法及系统
CN114490196A (zh) 数据库切换方法、系统、设备及介质
CN110851300A (zh) 程序进程监控的方法、装置、计算机设备及可读存储介质
CN114037539A (zh) 一种保险出单链路异常检测方法及装置
CN113254313A (zh) 一种监控指标异常检测方法、装置、电子设备及存储介质
CN112068935A (zh) kubernetes程序部署监控方法、装置以及设备
CN113221096A (zh) 一种在混沌工程中随机事件相关性分析方法及系统
CN110673987A (zh) 数据库的恢复方法、装置、设备和存储介质
CN113312309A (zh) 快照链的管理方法、装置和存储介质
CN110908776A (zh) 定时任务的执行方法及相关装置、计算机可读存储介质
CN109753420B (zh) 监控数据的采集方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination