CN114978923A - 故障演练方法、装置和系统 - Google Patents

故障演练方法、装置和系统 Download PDF

Info

Publication number
CN114978923A
CN114978923A CN202210421945.5A CN202210421945A CN114978923A CN 114978923 A CN114978923 A CN 114978923A CN 202210421945 A CN202210421945 A CN 202210421945A CN 114978923 A CN114978923 A CN 114978923A
Authority
CN
China
Prior art keywords
drilling
monitoring
fault
type
configuration data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210421945.5A
Other languages
English (en)
Inventor
吴长鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jingdong Technology Information Technology Co Ltd
Original Assignee
Jingdong Technology Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jingdong Technology Information Technology Co Ltd filed Critical Jingdong Technology Information Technology Co Ltd
Priority to CN202210421945.5A priority Critical patent/CN114978923A/zh
Publication of CN114978923A publication Critical patent/CN114978923A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Abstract

本发明公开了一种故障演练方法、装置和系统,涉及云计算技术领域。该方法的一具体实施方式包括:响应于接收到针对目标场景和演练对象的故障演练指令,利用所述故障演练指令指示的目标演练任务在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,将经所述监控生成的监控结果数据显示在预设的演练屏幕。该实施方式能够提高故障演练效率并实现各演练对象全局状态的展示。

Description

故障演练方法、装置和系统
技术领域
本发明涉及云计算技术领域,尤其涉及一种故障演练方法、装置和系统。
背景技术
混沌工程是在分布式系统上进行试验的学科,目的是建立系统抵御生产环境中失控条件的能力以及信心,故障演练是基于混沌工程的具体实践,通过模拟真实故障和观察业务稳态来验证系统的可用性以及容灾能力。目前,在针对云计算平台各云产品的故障演练过程中,一般在故障演练之前才针对目标场景和演练对象编排演练任务,在监控演练对象之前才临时设置相应的监控项,导致演练效率受到影响,同时无法直接观察到各演练对象的全局状态,也难以捕捉到故障发生和故障恢复的准确时刻,不利于问题定位和判断。
发明内容
有鉴于此,本发明实施例提供一种故障演练方法、装置和系统,能够提高故障演练效率并实现各演练对象全局状态的展示。
为实现上述目的,根据本发明的一个方面,提供了一种故障演练方法。
本发明实施例的故障演练方法包括:响应于接收到针对目标场景和演练对象的故障演练指令,利用所述故障演练指令指示的目标演练任务在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,将经所述监控生成的监控结果数据显示在预设的演练屏幕。
可选地,所述方法进一步包括:在接收所述故障演练指令之前:存储场景配置数据,所述场景配置数据包括所述目标场景在内的至少一个故障场景、所述故障场景对应的故障类型、以及所述故障类型对应的演练任务;存储所述演练对象的标识信息;在对所述演练对象进行监控之前,存储各对象类型对应的监控配置数据;其中,任一对象类型对应的监控配置数据包括:至少一个监控项和监控频率。
可选地,所述依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,包括:将与所述演练对象所属的对象类型对应的监控配置数据确定为监控关联数据;或者,根据对与所述演练对象所属的对象类型对应的监控配置数据中的监控项和/或监控频率的调整形成监控关联数据;使用所述监控关联数据对执行故障注入后的所述演练对象进行监控。
可选地,所述演练屏幕包括演练结果展示页面,所述演练结果展示页面中展示至少一个演练对象在监控周期内对应于各监控项的监控结果数据;所述监控关联数据进一步包括:用于判断演练对象处在正常状态和/或异常状态的特定数据;以及,所述方法进一步包括:根据任一演练对象的监控关联数据中的特定数据确定该演练对象的故障发生时刻和/或故障恢复时刻,将所述故障发生时刻和/或所述故障恢复时刻展示在所述演练结果展示页面。
可选地,所述演练对象包括以下至少一种:云产品、分布式计算机集群、物理机、虚拟机。
为实现上述目的,根据本发明的另一方面,提供了一种故障演练装置。
本发明实施例的故障演练装置可以包括:演练单元,用于:响应于接收到针对目标场景和演练对象的故障演练指令,利用所述故障演练指令指示的目标演练任务在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;监控单元,用于:依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,将经所述监控生成的监控结果数据显示在预设的演练屏幕。
为实现上述目的,根据本发明的另一方面,提供了一种故障演练系统。
本发明实施例的故障演练系统可以包括:演练平台、演练探针、监控探针、数据库和演练屏幕;其中,所述演练平台在接收到针对目标场景和演练对象的故障演练指令之后,利用所述故障演练指令指示的目标演练任务控制所述演练探针在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;所述演练平台控制所述监控探针依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,所述监控探针将经所述监控生成的监控结果数据存储在所述数据库,所述演练屏幕从所述数据库中获取所述监控结果数据进行展示。
可选地,所述系统进一步包括:配置模块,用于存储场景配置数据、各对象类型对应的监控配置数据以及所述演练对象的标识信息;其中,所述场景配置数据包括所述目标场景在内的至少一个故障场景、所述故障场景对应的故障类型、以及所述故障类型对应的演练任务;任一对象类型对应的监控配置数据包括:至少一个监控项、监控频率以及用于判断演练对象处在正常状态和/或异常状态的特定数据;所述演练屏幕包括演练结果展示页面,所述演练结果展示页面中展示至少一个演练对象在监控周期内对应于各监控项的监控结果数据;所述监控探针根据任一演练对象的监控关联数据中的特定数据确定该演练对象的故障发生时刻和/或故障恢复时刻,所述演练结果展示页面展示所述故障发生时刻和/或所述故障恢复时刻。
为实现上述目的,根据本发明的又一方面,提供了一种电子设备。
本发明的一种电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的故障演练方法。
为实现上述目的,根据本发明的再一方面,提供了一种计算机可读存储介质。
本发明的一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现本发明所提供的故障演练方法。
根据本发明的技术方案,上述发明中的实施例具有如下优点或有益效果:
预先配置各种故障场景、各故障场景对应的故障类型以及各故障类型对应的演练任务,在需要对演练对象进行故障演练时,根据当前的目标场景选择相应的演练任务,即可通过演练探针对演练对象执行故障注入,由此避免演练前临时编排演练任务对演练效率带来的影响;预先配置对应于不同对象类型的监控配置数据,在需要监控演练对象时,直接调用监控配置数据形成监控关联数据来进行监控,从而克服现有技术中只能临时配置监控数据的缺陷,进一步提高监控效率。另外,本发明可使用演练大屏来直观展示多个演练对象的监控结果数据和全局变化趋势,同时根据预先配置的特定数据自动检测故障发生时刻和故障恢复时刻并展示,便于问题定位和后续修复。
上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。
附图说明
附图用于更好地理解本发明,不构成对本发明的不当限定。其中:
图1是本发明实施例中故障演练方法的主要步骤示意图;
图2是本发明实施例中故障演练装置的组成部分示意图;
图3是本发明实施例中故障演练系统的架构示意图;
图4是本发明实施例中故障演练系统的功能示意图;
图5是根据本发明实施例可以应用于其中的示例性系统架构图;
图6是用来实现本发明实施例中故障演练方法的电子设备结构示意图。
具体实施方式
以下结合附图对本发明的示范性实施例做出说明,其中包括本发明实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本发明的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要指出的是,在不冲突的情况下,本发明的实施例以及实施例中的技术特征可以相互结合。
图1是根据本发明实施例中故障演练方法的主要步骤示意图,以上故障演练方法可以由预先建立的故障演练系统来执行。
如图1所示,本发明实施例的故障演练方法可具体按照如下步骤执行:
步骤S101:响应于接收到针对目标场景和演练对象的故障演练指令,利用故障演练指令指示的目标演练任务在演练对象中执行故障注入。
本发明涉及故障演练,故障演练是一种遵循混沌工程原理的实践,通过在物理机、计算机集群等演练对象中模拟各种可能发生的生产故障和异常状态,来观察演练对象的性能并进行相应的设计和优化,从而提升演练对象的性能和容错能力,避免真正的突发事件来临时产生的灾难性后果。故障演练过程一般包括故障注入、监控、修复、测试验证等环节。
在本发明实施例中,演练对象指的是需要执行故障演练的设备或产品,演练对象可以是云产品(例如云主机、块存储等)、分布式计算机集群(例如Kubernetes集群,简称为K8S集群)、物理机或者虚拟机,每一演练对象均属于一个对象类型,例如云主机、块存储即为不同的对象类型。目标场景与业务相关,指的是当前需要针对演练对象实施的故障场景,例如,如果当前需要针对某演练对象进行硬件方面的故障演练,目标场景则为硬件方面的故障场景。
实际应用中,为了提高故障演练效率,可以预先配置故障场景的相关数据即场景配置数据,使用时直接调用即可。具体地,用户可以通过故障演练系统的浏览器页面配置场景配置数据,也可以通过故障演练系统的客户端应用来配置场景配置数据,即配置至少一个故障场景(例如硬件故障场景、网络故障场景等)、每一故障场景对应的至少一个故障类型以及每一故障类型对应的至少一个演练任务。例如,硬件故障场景可以对应CPU(CentralProcessing Unit,中央处理器)故障、内存故障、硬件故障等多个故障类型。以上演练任务一般包括一组执行动作和相关参数,用以在演练对象中产生故障环境,对应于同一故障类型的演练任务含有不同参数,例如,对应于CPU故障的某演练任务中的一个执行动作为“将CPU的负载提高到80%”,对应于CPU故障的另一演练任务中的一个执行动作为“将CPU的负载提高到100%”。具体操作时,用户可以通过故障演练系统的浏览器页面进行以上配置,并将以上场景配置数据存储到配置模块,示例性地,配置模块可以是数据库或者配置文件。
在执行故障演练之前,用户也可以通过故障演练系统的浏览器页面在故障演练系统中录入演练对象的标识信息以便于后续使用,例如能够标识演练对象的ID、IP地址、域名等信息。以上标识信息也可以存储在配置模块。
较佳地,用户还可以通过故障演练系统的浏览器页面在故障演练系统中预先配置监控配置数据,实际应用中,由于同一对象类型所需要的监控相关数据相对固定,因此可以针对每一对象类型设置监控配置数据,任一对象类型对应的监控配置数据可以包括:至少一个监控项和监控频率,每一监控项与一个监控指标对应,监控配置数据还可以包括用于判断演练对象处在正常状态和/或异常状态的特定数据,每一特定数据与一个监控指标对应。例如,“云主机”对象类型的监控配置数据中的一个监控项与可用率(监控指标)对应,对应于可用率的特定数据为:当可用率大于80%时表示云主机正常,否则云主机异常。执行监控之前,可以对监控配置数据中的监控频率和相关参数进行调整来执行最终的监控。通过监控数据的以上预先配置方式,能够避免在执行故障演练和监控时临时进行配置对演练效率造成的影响。
在步骤S101中,当用户从配置模块中确定演练对象以及目标场景下的目标演练任务(为目标场景下的演练任务之一)之后,可以通过故障演练系统的浏览器页面中的相应功能向故障演练系统发出故障演练指令,故障演练系统在接收到故障演练指令之后,控制预设的演练探针根据演练任务对演练对象执行故障注入,即,控制演练探针在演练对象中实施演练任务中的各执行动作,从而模拟故障环境。以上演练探针指的是预先编写的、用于在演练对象中执行演练任务从而模拟故障环境的功能模块,实际应用中,可以布置一个或多个演练探针,并根据需要将演练探针部署在演练对象的入口节点或者多个内部节点。
步骤S102:依据预先配置的、与演练对象所属的对象类型对应的监控配置数据对执行故障注入后的演练对象进行监控,将经监控生成的监控结果数据显示在预设的演练屏幕。
在本步骤中,故障演练系统可以控制预设的监控探针对执行故障注入后的演练对象进行监控,并通过演练屏幕显示监控结果数据。以上监控探针指的是预先编写的、用于对演练对象执行监控并生成监控结果数据的功能模块,监控探针中具有根据实际采集到的监控数据生成监控结果数据的计算程序。实际应用中,可以布置一个或多个监控探针,并根据需要将监控探针部署在演练对象的入口节点或者多个内部节点。一般地,对于同一演练对象,所需部署的演练探针的数量大于监控探针。
作为一个优选方案,在执行监控之前,用户可以通过故障演练系统的浏览器页面从配置模块中选取演练对象所属对象类型对应的监控配置数据,可以将该监控配置数据直接作为监控关联数据来执行监控,也可以对该监控配置数据中的监控项或者监控频率进行调整以形成监控关联数据,最后使用监控关联数据对演练对象执行监控。可以理解,监控关联数据中也可以包括监控配置数据中的特定数据;监控结果数据与监控关联数据对应,可以包括监控关联数据中各监控指标的监控结果以及相应的详情信息。以上监控结果数据可以由监控探针存储到预设的数据库,演练屏幕可以从数据库中获取监控结果数据并向外展示,示例性地,演练屏幕可以是面向用户的演练结果展示页面,其可以包括主屏和次屏,主屏用来展示至少一个演练对象在监控周期内对应于各监控项的监控结果数据,次屏用于展示各监控项的详情信息以及报警、日志等信息。这样,能够通过演练屏幕展示多个演练对象的工作状态在一定时间跨度的全局变化趋势,还能够展示相关的详情信息,从而便于直观、精确地观察多个演练对象的整体状态和微观信息。
进一步地,监控探针还可以根据任一演练对象的监控关联数据中的特定数据自动检测该演练对象的故障发生时刻和故障恢复时刻,并将检测到的故障发生时刻和故障恢复时刻展示在演练屏幕,由此便于问题定位和后续修复。例如,对应于可用率的特定数据为“当可用率大于80%时表示云主机正常,否则云主机异常”,则监控探针在检测到当前可用率升高到大于80%时,将当前时刻确定为故障发生时刻;监控探针在检测到当前可用率下降到小于或等于80%时,将当前时刻确定为故障恢复时刻。
需要说明的是,除了以上工作方式,监控探针也可以在演练对象正常工作时(即不处在故障演练过程)执行监控,相应的监控结果数据中一般不会显示异常状态。
在结束故障演练之后,用户可以根据演练屏幕所展示的数据定位相应问题,并对演练对象进行修复和优化,最后可以再次执行故障演练以判断前述问题是否已经解决。
在本发明实施例的技术方案中,预先配置各种故障场景、各故障场景对应的故障类型以及各故障类型对应的演练任务,在需要对演练对象进行故障演练时,根据当前的目标场景选择相应的演练任务,即可通过演练探针对演练对象执行故障注入,由此避免演练前临时编排演练任务对演练效率带来的影响;预先配置对应于不同对象类型的监控配置数据,在需要监控演练对象时,直接调用监控配置数据形成监控关联数据来进行监控,从而克服现有技术中只能临时配置监控数据的缺陷,进一步提高监控效率。另外,本发明可使用演练大屏来直观展示多个演练对象的监控结果数据和全局变化趋势,同时根据预先配置的特定数据自动检测故障发生时刻和故障恢复时刻并展示,便于问题定位和后续修复。
需要说明的是,对于前述的各方法实施例,为了便于描述,将其表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,某些步骤事实上可以采用其它顺序进行或者同时进行。此外,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是实现本发明所必须的。
为便于更好的实施本发明实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图2所示,本发明实施例提供的故障演练装置200可以包括:演练单元201和监控单元202。
其中,演练单元201可用于:响应于接收到针对目标场景和演练对象的故障演练指令,利用所述故障演练指令指示的目标演练任务在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;监控单元202可用于:依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,将经所述监控生成的监控结果数据显示在预设的演练屏幕。
在本发明实施例中,所述装置200可进一步包括:存储单元,其用于:在接收所述故障演练指令之前:存储场景配置数据,所述场景配置数据包括所述目标场景在内的至少一个故障场景、所述故障场景对应的故障类型、以及所述故障类型对应的演练任务;存储所述演练对象的标识信息;在对所述演练对象进行监控之前,存储各对象类型对应的监控配置数据;其中,任一对象类型对应的监控配置数据包括:至少一个监控项和监控频率。
具体应用中,监控单元202可进一步用于:将与所述演练对象所属的对象类型对应的监控配置数据确定为监控关联数据;或者,根据对与所述演练对象所属的对象类型对应的监控配置数据中的监控项和/或监控频率的调整形成监控关联数据;使用所述监控关联数据对执行故障注入后的所述演练对象进行监控。
作为一个优选方案,所述演练屏幕包括演练结果展示页面,所述演练结果展示页面中展示至少一个演练对象在监控周期内对应于各监控项的监控结果数据;所述监控关联数据进一步包括:用于判断演练对象处在正常状态和/或异常状态的特定数据;以及,监控单元202可进一步用于:根据任一演练对象的监控关联数据中的特定数据确定该演练对象的故障发生时刻和/或故障恢复时刻,将所述故障发生时刻和/或所述故障恢复时刻展示在所述演练结果展示页面。
此外,在本发明实施例中,所述演练对象包括以下至少一种:云产品、分布式计算机集群、物理机、虚拟机。
根据本发明实施例的技术方案,预先配置各种故障场景、各故障场景对应的故障类型以及各故障类型对应的演练任务,在需要对演练对象进行故障演练时,根据当前的目标场景选择相应的演练任务,即可通过演练探针对演练对象执行故障注入,由此避免演练前临时编排演练任务对演练效率带来的影响;预先配置对应于不同对象类型的监控配置数据,在需要监控演练对象时,直接调用监控配置数据形成监控关联数据来进行监控,从而克服现有技术中只能临时配置监控数据的缺陷,进一步提高监控效率。另外,本发明可使用演练大屏来直观展示多个演练对象的监控结果数据和全局变化趋势,同时根据预先配置的特定数据自动检测故障发生时刻和故障恢复时刻并展示,便于问题定位和后续修复。
图3是本发明实施例中故障演练系统的架构示意图,图4是本发明实施例中故障演练系统的功能示意图,如图3、4所示,本发明实施例的故障演练系统可以包括:演练平台、演练探针、监控探针、数据库和演练屏幕。
其中,所述演练平台在接收到针对目标场景和演练对象的故障演练指令之后,利用所述故障演练指令指示的目标演练任务控制所述演练探针在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;所述演练平台控制所述监控探针依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,所述监控探针将经所述监控生成的监控结果数据存储在所述数据库,所述演练屏幕从所述数据库中获取所述监控结果数据进行展示。
在本发明实施例中,所述系统进一步包括:配置模块,用于存储场景配置数据、各对象类型对应的监控配置数据以及所述演练对象的标识信息;其中,所述场景配置数据包括所述目标场景在内的至少一个故障场景、所述故障场景对应的故障类型、以及所述故障类型对应的演练任务;任一对象类型对应的监控配置数据包括:至少一个监控项、监控频率以及用于判断演练对象处在正常状态和/或异常状态的特定数据。
较佳地,所述演练屏幕包括演练结果展示页面,所述演练结果展示页面中展示至少一个演练对象在监控周期内对应于各监控项的监控结果数据;所述监控探针根据任一演练对象的监控关联数据中的特定数据确定该演练对象的故障发生时刻和/或故障恢复时刻,所述演练结果展示页面展示所述故障发生时刻和/或所述故障恢复时刻。
实际应用中,所述演练平台将与所述演练对象所属的对象类型对应的监控配置数据确定为监控关联数据;或者,所述演练平台根据对与所述演练对象所属的对象类型对应的监控配置数据中的监控项和/或监控频率的调整形成监控关联数据;监控探针使用所述监控关联数据对执行故障注入后的所述演练对象进行监控。以及,示例性地,所述演练对象包括以下至少一种:云产品、分布式计算机集群、物理机、虚拟机。
以下结合图4说明本发明的故障演练系统的一个具体实施例。
本实施例的故障演练系统具有资源管理、探针管理、演练大厅、监控配置、演练屏幕等功能,其中,资源管理、探针管理、演练大厅、监控配置功能主要依靠前述演练平台来实现,以下分别进行说明。
资源管理功能用于接入和管理云产品、物理机、虚拟机、K8S集群等演练对象,可以按照部门维度或者产品维度进行统一管理,演练对象录入故障演练系统之后,可以针对已录入的演练对象设计和编排故障场景,也可以针对或者使用录入的演练对象进行业务稳态的监控。其中,业务稳态用来描述系统、产品和业务当前性能状态。
探针管理功能用于在演练对象上自动安装演练探针来执行故障注入,安装监控探针来执行业务稳态监控。演练探针启动后,实时监听演练平台发出的指令,在接收到指令后会按照用户选取的演练任务在演练对象中进行故障模拟。监控探针启动后,会依据用户预先配置的监控配置数据给出业务稳态判断结果。
演练大厅功能用于配置故障场景、故障类型和演练任务,由用户发出故障演练指令,以及在相关页面展示不同演练对象的演练过程,用户可以在该页面切换观察不同演练对象的演练过程,并选择以手动方式或自动方式推进演练过程。
监控配置功能用于实现对应于对象类型的监控配置数据的输入,可以同时对控制面和数据面进行配置,其中,控制面指的是控制类型的操作如云主机创建、实例详情查询等,数据面指的是数据层面的操作如使用云数据库进行增删改查等。监控配置可以针对具体产品配置任意数量的监控项,可以通过演练平台完成监控数据的配置、调试和存储。
演练屏幕用于从数据库中读取监控结果数据并进行展示,可以展示每个演练对象的实时业务稳态以及稳态趋势,还支持数据下钻,下钻后可以看到每个监控项的详情、监控执行日志以及报警信息,演练屏幕还能够展示故障发生和故障恢复时的时间基线,方便问题的定位和判断。
通过以上设置,故障演练系统能够支持云产品、分布式计算机集群、物理机、虚拟机等演练对象的控制面和数据面业务稳态监控,从而执行效率较高的故障演练,通过演练屏幕直观、准确地观察多个演练对象的全局业务稳态及变化趋势,并依据故障发生和故障恢复的时间基线来快速定位问题。
在本发明实施例的技术方案中,预先配置各种故障场景、各故障场景对应的故障类型以及各故障类型对应的演练任务,在需要对演练对象进行故障演练时,根据当前的目标场景选择相应的演练任务,即可通过演练探针对演练对象执行故障注入,由此避免演练前临时编排演练任务对演练效率带来的影响;预先配置对应于不同对象类型的监控配置数据,在需要监控演练对象时,直接调用监控配置数据形成监控关联数据来进行监控,从而克服现有技术中只能临时配置监控数据的缺陷,进一步提高监控效率。另外,本发明可使用演练大屏来直观展示多个演练对象的监控结果数据和全局变化趋势,同时根据预先配置的特定数据自动检测故障发生时刻和故障恢复时刻并展示,便于问题定位和后续修复。
图5示出了可以应用本发明实施例的故障演练方法或故障演练装置的示例性系统架构500。
如图5所示,系统架构500可以包括终端设备501、502、503,网络504和服务器505(此架构仅仅是示例,具体架构中包含的组件可以根据申请具体情况调整)。网络504用以在终端设备501、502、503和服务器505之间提供通信链路的介质。网络504可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等。
用户可以使用终端设备501、502、503通过网络504与服务器505交互,以接收或发送消息等。终端设备501、502、503上可以安装有各种客户端应用,例如故障演练应用等(仅为示例)。
终端设备501、502、503可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。
服务器505可以是提供各种服务的服务器,例如对用户利用终端设备501、502、503所操作的故障演练应用提供支持的演练平台服务器(仅为示例)。演练平台服务器可以对接收到的故障演练请求进行处理,并将处理结果(例如故障演练结果--仅为示例)反馈给终端设备501、502、503。
需要说明的是,本发明实施例所提供的故障演练方法一般由服务器505执行,相应地,故障演练装置一般设置于服务器505中。
应该理解,图5中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
本发明还提供了一种电子设备。本发明实施例的电子设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明所提供的故障演练方法。
下面参考图6,其示出了适于用来实现本发明实施例的电子设备的计算机系统600的结构示意图。图6示出的电子设备仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图6所示,计算机系统600包括中央处理单元(CPU)601,其可以根据存储在只读存储器(ROM)602中的程序或者从存储部分608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM603中,还存储有计算机系统600操作所需的各种程序和数据。CPU601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。
以下部件连接至I/O接口605:包括键盘、鼠标等的输入部分606;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分607;包括硬盘等的存储部分608;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分609。通信部分609经由诸如因特网的网络执行通信处理。驱动器610也根据需要连接至I/O接口605。可拆卸介质611,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器610上,以便从其上读出的计算机程序根据需要被安装入存储部分608。
特别地,根据本发明公开的实施例,上文的主要步骤图描述的过程可以被实现为计算机软件程序。例如,本发明实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行主要步骤图所示的方法的程序代码。在上述实施例中,该计算机程序可以通过通信部分609从网络上被下载和安装,和/或从可拆卸介质611被安装。在该计算机程序被中央处理单元601执行时,执行本发明的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。在本发明中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这根据所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括演练单元和监控单元。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定,例如,演练单元还可以被描述为“向监控单元提供执行故障注入的演练对象的单元”。
作为另一方面,本发明还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的设备中所包含的;也可以是单独存在,而未装配入该设备中的。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该设备执行时,使得该设备执行的步骤包括:响应于接收到针对目标场景和演练对象的故障演练指令,利用所述故障演练指令指示的目标演练任务在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,将经所述监控生成的监控结果数据显示在预设的演练屏幕。
在本发明实施例的技术方案中,预先配置各种故障场景、各故障场景对应的故障类型以及各故障类型对应的演练任务,在需要对演练对象进行故障演练时,根据当前的目标场景选择相应的演练任务,即可通过演练探针对演练对象执行故障注入,由此避免演练前临时编排演练任务对演练效率带来的影响;预先配置对应于不同对象类型的监控配置数据,在需要监控演练对象时,直接调用监控配置数据形成监控关联数据来进行监控,从而克服现有技术中只能临时配置监控数据的缺陷,进一步提高监控效率。另外,本发明可使用演练大屏来直观展示多个演练对象的监控结果数据和全局变化趋势,同时根据预先配置的特定数据自动检测故障发生时刻和故障恢复时刻并展示,便于问题定位和后续修复。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,取决于设计要求和其他因素,可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种故障演练方法,其特征在于,包括:
响应于接收到针对目标场景和演练对象的故障演练指令,利用所述故障演练指令指示的目标演练任务在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;
依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,将经所述监控生成的监控结果数据显示在预设的演练屏幕。
2.根据权利要求1所述的方法,其特征在于,所述方法进一步包括:
在接收所述故障演练指令之前:存储场景配置数据,所述场景配置数据包括所述目标场景在内的至少一个故障场景、所述故障场景对应的故障类型、以及所述故障类型对应的演练任务;存储所述演练对象的标识信息;
在对所述演练对象进行监控之前,存储各对象类型对应的监控配置数据;其中,任一对象类型对应的监控配置数据包括:至少一个监控项和监控频率。
3.根据权利要求2所述的方法,其特征在于,所述依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,包括:
将与所述演练对象所属的对象类型对应的监控配置数据确定为监控关联数据;或者,根据对与所述演练对象所属的对象类型对应的监控配置数据中的监控项和/或监控频率的调整形成监控关联数据;
使用所述监控关联数据对执行故障注入后的所述演练对象进行监控。
4.根据权利要求3所述的方法,其特征在于,所述演练屏幕包括演练结果展示页面,所述演练结果展示页面中展示至少一个演练对象在监控周期内对应于各监控项的监控结果数据;所述监控关联数据进一步包括:用于判断演练对象处在正常状态和/或异常状态的特定数据;以及,所述方法进一步包括:
根据任一演练对象的监控关联数据中的特定数据确定该演练对象的故障发生时刻和/或故障恢复时刻,将所述故障发生时刻和/或所述故障恢复时刻展示在所述演练结果展示页面。
5.根据权利要求1-4任一所述的方法,其特征在于,所述演练对象包括以下至少一种:云产品、分布式计算机集群、物理机、虚拟机。
6.一种故障演练装置,其特征在于,包括:
演练单元,用于:响应于接收到针对目标场景和演练对象的故障演练指令,利用所述故障演练指令指示的目标演练任务在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;
监控单元,用于:依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,将经所述监控生成的监控结果数据显示在预设的演练屏幕。
7.一种故障演练系统,其特征在于,包括:演练平台、演练探针、监控探针、数据库和演练屏幕;其中,
所述演练平台在接收到针对目标场景和演练对象的故障演练指令之后,利用所述故障演练指令指示的目标演练任务控制所述演练探针在所述演练对象中执行故障注入;其中,所述目标场景对应于至少一种故障类型,每一故障类型对应于至少一个演练任务,所述目标演练任务为所述目标场景对应的演练任务之一;
所述演练平台控制所述监控探针依据预先配置的、与所述演练对象所属的对象类型对应的监控配置数据对执行故障注入后的所述演练对象进行监控,所述监控探针将经所述监控生成的监控结果数据存储在所述数据库,所述演练屏幕从所述数据库中获取所述监控结果数据进行展示。
8.根据权利要求7所述的系统,其特征在于,所述系统进一步包括:配置模块,用于存储场景配置数据、各对象类型对应的监控配置数据以及所述演练对象的标识信息;其中,所述场景配置数据包括所述目标场景在内的至少一个故障场景、所述故障场景对应的故障类型、以及所述故障类型对应的演练任务;任一对象类型对应的监控配置数据包括:至少一个监控项、监控频率以及用于判断演练对象处在正常状态和/或异常状态的特定数据;
所述演练屏幕包括演练结果展示页面,所述演练结果展示页面中展示至少一个演练对象在监控周期内对应于各监控项的监控结果数据;
所述监控探针根据任一演练对象的监控关联数据中的特定数据确定该演练对象的故障发生时刻和/或故障恢复时刻,所述演练结果展示页面展示所述故障发生时刻和/或所述故障恢复时刻。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-5中任一所述的方法。
CN202210421945.5A 2022-04-21 2022-04-21 故障演练方法、装置和系统 Pending CN114978923A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210421945.5A CN114978923A (zh) 2022-04-21 2022-04-21 故障演练方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210421945.5A CN114978923A (zh) 2022-04-21 2022-04-21 故障演练方法、装置和系统

Publications (1)

Publication Number Publication Date
CN114978923A true CN114978923A (zh) 2022-08-30

Family

ID=82978820

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210421945.5A Pending CN114978923A (zh) 2022-04-21 2022-04-21 故障演练方法、装置和系统

Country Status (1)

Country Link
CN (1) CN114978923A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149661A (zh) * 2023-10-27 2023-12-01 建信金融科技有限责任公司 监控业务系统的方法、装置、设备和计算机可读介质

Citations (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024299A1 (en) * 2015-07-21 2017-01-26 International Business Machines Corporation Providing Fault Injection to Cloud-Provisioned Machines
CN107403259A (zh) * 2017-07-07 2017-11-28 国网浙江省电力公司信息通信分公司 一种基于三维实景的仿真系统及仿真方法
CN109557423A (zh) * 2019-01-22 2019-04-02 山东大学 一种配电网故障诊断系统、方法及应用
US20190205233A1 (en) * 2017-12-28 2019-07-04 Hyundai Motor Company Fault injection testing apparatus and method
US20190385695A1 (en) * 2018-06-18 2019-12-19 Samsung Electronics Co., Ltd. Semiconductor fault analysis device and fault analysis method thereof
CN110765023A (zh) * 2019-10-29 2020-02-07 中国工商银行股份有限公司 基于混沌实验的分布式系统测试方法及系统
US20200285571A1 (en) * 2019-03-05 2020-09-10 Honeywell International Inc. Systems and methods for fault injection and ensuring failsafe fms saas platforms
CN111651353A (zh) * 2020-05-29 2020-09-11 北京百度网讯科技有限公司 故障注入的方法、装置、电子设备和存储介质
KR20210031111A (ko) * 2019-09-11 2021-03-19 이동우 안전인증 자료 획득 장치 및 그 방법
CN112540887A (zh) * 2020-12-16 2021-03-23 北京奇艺世纪科技有限公司 故障演练方法、装置、电子设备及存储介质
CN112631846A (zh) * 2020-12-25 2021-04-09 广州品唯软件有限公司 一种故障演练方法、装置、计算机设备及存储介质
CN114153732A (zh) * 2021-12-03 2022-03-08 建信金融科技有限责任公司 故障场景测试方法、装置、电子设备及存储介质
CN114239703A (zh) * 2021-12-01 2022-03-25 湖南大学 主动配电系统故障诊断方法、系统、设备及存储介质

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170024299A1 (en) * 2015-07-21 2017-01-26 International Business Machines Corporation Providing Fault Injection to Cloud-Provisioned Machines
CN107403259A (zh) * 2017-07-07 2017-11-28 国网浙江省电力公司信息通信分公司 一种基于三维实景的仿真系统及仿真方法
US20190205233A1 (en) * 2017-12-28 2019-07-04 Hyundai Motor Company Fault injection testing apparatus and method
US20190385695A1 (en) * 2018-06-18 2019-12-19 Samsung Electronics Co., Ltd. Semiconductor fault analysis device and fault analysis method thereof
CN109557423A (zh) * 2019-01-22 2019-04-02 山东大学 一种配电网故障诊断系统、方法及应用
US20200285571A1 (en) * 2019-03-05 2020-09-10 Honeywell International Inc. Systems and methods for fault injection and ensuring failsafe fms saas platforms
KR20210031111A (ko) * 2019-09-11 2021-03-19 이동우 안전인증 자료 획득 장치 및 그 방법
CN110765023A (zh) * 2019-10-29 2020-02-07 中国工商银行股份有限公司 基于混沌实验的分布式系统测试方法及系统
CN111651353A (zh) * 2020-05-29 2020-09-11 北京百度网讯科技有限公司 故障注入的方法、装置、电子设备和存储介质
US20210374025A1 (en) * 2020-05-29 2021-12-02 Beijing Baidu Netcom Science And Technology Co. Ltd. Fault Injection Method and Apparatus, Electronic Device and Storage Medium
CN112540887A (zh) * 2020-12-16 2021-03-23 北京奇艺世纪科技有限公司 故障演练方法、装置、电子设备及存储介质
CN112631846A (zh) * 2020-12-25 2021-04-09 广州品唯软件有限公司 一种故障演练方法、装置、计算机设备及存储介质
CN114239703A (zh) * 2021-12-01 2022-03-25 湖南大学 主动配电系统故障诊断方法、系统、设备及存储介质
CN114153732A (zh) * 2021-12-03 2022-03-08 建信金融科技有限责任公司 故障场景测试方法、装置、电子设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117149661A (zh) * 2023-10-27 2023-12-01 建信金融科技有限责任公司 监控业务系统的方法、装置、设备和计算机可读介质
CN117149661B (zh) * 2023-10-27 2024-02-09 建信金融科技有限责任公司 监控业务系统的方法、装置、设备和计算机可读介质

Similar Documents

Publication Publication Date Title
CN108108297B (zh) 自动化测试的方法和装置
CN109302522B (zh) 测试方法、装置以及计算机系统和介质
CN107608901B (zh) 基于Jmeter的测试方法及装置、存储介质、电子设备
US11329869B2 (en) Self-monitoring
CN109901985B (zh) 分布式测试装置及方法、存储介质和电子设备
CN105262608A (zh) 用于网络服务的监控方法和装置
WO2021097824A1 (zh) 一种代码质量和缺陷的分析方法、服务器及存储介质
CN110659202A (zh) 客户端自动化测试方法及装置
US20230403215A1 (en) Systems and methods of monitoring and controlling remote assets
CN112579446A (zh) 一种接口测试方法、装置、电子设备和存储介质
CN111897697A (zh) 服务器硬件故障修复方法和装置
CN113014445A (zh) 用于服务器的运维方法、装置、平台及电子设备
CN113138886A (zh) 一种测试嵌入式设备的方法、装置及测试设备
CN110795332A (zh) 一种自动化测试方法和装置
CN114978923A (zh) 故障演练方法、装置和系统
CN114064435A (zh) 数据库测试方法、装置、介质与电子设备
CN112463612A (zh) 巡检方法、装置、电子设备和介质
CN109120433B (zh) 用于容器化部署主机的方法和装置
CN114372003A (zh) 测试环境监控方法、装置与电子设备
CN114816914A (zh) 基于Kubernetes的数据处理方法、设备及介质
CN113434382A (zh) 数据库性能监控方法、装置、电子设备及计算机可读介质
CN113011858A (zh) 审计项目配置、执行方法和装置
CN115996179A (zh) 业务节点的测试方法、装置、可读介质和电子设备
CN116306409B (zh) 芯片验证方法、装置、设备及存储介质
CN115190008B (zh) 故障处理方法、故障处理装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination