CN115834353A - 故障自愈方法、装置、设备、存储介质和计算机程序产品 - Google Patents
故障自愈方法、装置、设备、存储介质和计算机程序产品 Download PDFInfo
- Publication number
- CN115834353A CN115834353A CN202211473962.XA CN202211473962A CN115834353A CN 115834353 A CN115834353 A CN 115834353A CN 202211473962 A CN202211473962 A CN 202211473962A CN 115834353 A CN115834353 A CN 115834353A
- Authority
- CN
- China
- Prior art keywords
- alarm information
- strategy
- healing
- self
- alarm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 124
- 238000004590 computer program Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 230000008569 process Effects 0.000 claims abstract description 72
- 238000012545 processing Methods 0.000 claims abstract description 23
- 230000008439 repair process Effects 0.000 claims description 13
- 238000001514 detection method Methods 0.000 claims description 11
- 238000002955 isolation Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 10
- 230000004044 response Effects 0.000 abstract description 3
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000012423 maintenance Methods 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000036541 health Effects 0.000 description 2
- 238000011084 recovery Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种故障自愈方法、装置、设备、存储介质和计算机程序产品。所述方法包括:首先,获取多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息,其次,根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息,最后,根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理,通过本方法,在故障报警与自愈过程中无需人工参与,实现快速响应故障,达到故障自愈的目的。
Description
技术领域
本申请涉及云计算技术领域,特别是涉及一种故障自愈方法、装置、设备、存储介质和计算机程序产品。
背景技术
随着云计算领域的不断发展,人们越来越关注云上节点的功能,然而当云上节点出现故障时,如果无法及时修复故障,可能会导致生产应用的落后,造成严重后果。
目前修复故障,保障云上节点的健康状态,快速恢复生产主要是依赖运维人员的手动应急,例如如果容器出现故障而无法自己重启,需要运维人员在云上节点管理平台上或者宿主机上执行脚本来重启容器,或者某个宿主机上的进程死亡了,需要重新启动某个进程,需要运维人员手动去执行启动等,这种方法耗时耗力,依赖人工参与,无法快速的响应故障,导致故障无法及时止损,造成更大的损失。
因此,在云上故障时,依赖人工参与修复,无法快速响应故障的问题亟需解决。
发明内容
基于此,有必要针对上述技术问题,提供一种故障自愈方法、装置、设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种故障方法。该方法包括:
获取多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息;根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理。
在其中一个实施例中,根据预设的分类规则对多个报警信息进行分类处理,包括:获取容器报警分类规则,基于容器报警分类规则对容器报警信息进行分类处理;获取宿主机报警分类规则,基于宿主机报警分类规则对宿主机报警信息进行分类处理;获取集群事件报警分类规则,基于集群事件报警分类规则对集群事件报警信息进行分类处理。
在其中一个实施例中,故障可自愈类型包括简单容器报警类型,根据目标报警信息确定自愈策略,包括:在目标报警信息为简单容器报警类型的情况下,根据目标报警信息从第一策略集合中确定自愈策略,第一策略集合包括容器重启策略、容器启动策略、容器停止策略、容器重新拉起策略以及模板重启策略。
在其中一个实施例中,故障可自愈类型包括简单宿主机报警类型,根据目标报警信息确定自愈策略,包括:在目标报警信息为简单宿主机报警类型的情况下,根据目标报警信息从第二策略集合中确定自愈策略,第二策略集合包括进程重启策略、进程启动策略、进程停止策略、扩容策略以及缩容策略。
在其中一个实施例中,故障可自愈类型包括简单集群事件报警类型,根据目标报警信息确定自愈策略,包括:在目标报警信息为简单集群事件报警类型的情况下,根据目标报警信息从第三策略集合中确定自愈策略,第三策略集合包括进程重启策略、进程启动策略、进程停止策略、镜像重新拉起策略以及宿主机隔离策略。
在其中一个实施例中,该方法还包括:对于多个报警信息中的非目标报警信息,将非目标报警信息输出,以指示用户基于非目标报警信息执行故障修复措施;将执行的故障修复措施与非目标报警信息对应进行存储。
在其中一个实施例中,获取多个报警信息,包括:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
第二方面,本申请还提供了一种故障自愈装置。该装置包括:
第一获取模块,用于获取多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;
第二获取模块,用于根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息;
自愈模块,用于根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理。
在其中一个实施例中,该第二获取模块,具体用于:获取容器报警分类规则,基于容器报警分类规则对容器报警信息进行分类处理;获取宿主机报警分类规则,基于宿主机报警分类规则对宿主机报警信息进行分类处理;获取集群事件报警分类规则,基于集群事件报警分类规则对集群事件报警信息进行分类处理。
在其中一个实施例中,故障可自愈类型包括简单容器报警类型,该自愈模块,具体用于:在目标报警信息为简单容器报警类型的情况下,根据目标报警信息从第一策略集合中确定自愈策略,第一策略集合包括容器重启策略、容器启动策略、容器停止策略、容器重新拉起策略以及模板重启策略。
在其中一个实施例中,故障可自愈类型包括简单宿主机报警类型,该自愈模块,还具体用于:在目标报警信息为简单宿主机报警类型的情况下,根据目标报警信息从第二策略集合中确定自愈策略,第二策略集合包括进程重启策略、进程启动策略、进程停止策略、扩容策略以及缩容策略。
在其中一个实施例中,故障可自愈类型包括简单集群事件报警类型,该自愈模块,还具体用于:在目标报警信息为简单集群事件报警类型的情况下,根据目标报警信息从第三策略集合中确定自愈策略,第三策略集合包括进程重启策略、进程启动策略、进程停止策略、镜像重新拉起策略以及宿主机隔离策略。
在其中一个实施例中,该装置还包括输出模块,该输出模块,用于对于多个报警信息中的非目标报警信息,将非目标报警信息输出,以指示用户基于非目标报警信息执行故障修复措施;将执行的故障修复措施与非目标报警信息对应进行存储。
在其中一个实施例中,该第一获取模块,具体用于:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
第三方面,本申请实施例提供一种设备,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。
第五方面,本申请实施例提供一种计算机程序产品,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。
上述故障自愈方法、装置、设备、存储介质和计算机程序产品,首先,获取多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息,其次,根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息,最后,根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理,通过本方法,在故障报警与自愈过程中无需人工参与,实现快速响应故障,达到故障自愈的目的。
附图说明
图1为一个实施例中故障自愈方法的流程示意图;
图2为一个实施例中获取报警信息方法的流程示意图;
图3为一个实施例中报警信息分类方法的流程示意图;
图4为另一个实施例中故障自愈方法的流程示意图;
图5为一个实施例中对非目标报警信息处理方法的流程示意图;
图6为另一个实施例中故障自愈方法的流程示意图;
图7为一个实施例中故障自愈装置的结构框图;
图8为另一个实施例中故障自愈装置的结构框图;
图9为一个实施例中计算机设备为服务器的内部结构图;
图10为一个实施例中计算机设备为终端的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
云上技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术,近年来,分布式云上技术快速发展,越来越多的服务被部署在云上,实现了资源的高效应用,但随之而来的问题是,当云上节点发生故障时该如何应对。
目前修复故障,保障云上节点的健康状态,快速恢复生产主要是依赖运维人员的手动应急,例如如果容器出现故障而无法自己重启,需要运维人员在云上节点管理平台上或者宿主机上执行脚本来重启容器,或者某个宿主机上的进程死亡了,需要重新启动某个进程,需要运维人员手动去执行启动等,这种方法耗时耗力,依赖人工参与,无法快速的响应故障,导致故障无法及时止损,造成更大的损失。因此,在云上故障时,依赖人工参与修复,无法快速响应故障的问题亟需解决。
本申请实施例提供的故障自愈方法,其执行主体可以是一种计算机设备,该计算机设备可以是服务器,也可以是终端。
在一个实施例中,如图1所示,提供了一种故障自愈方法,包括以下步骤:
步骤101、获取多个报警信息。
其中,该多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息。
在一种可能实现的方式中,获取多个报警信息,包括:从宿主机上获取宿主机报警信息,从容器上获取容器报警信息以及从集群中获取集群事件报警信息。
其中,宿主机报警信息指的是宿主机性能指标出现故障时,发出的报警信息,例如cpu过高发出报警。容器报警信息指的是容器自身出现故障时,发出的报警信息,例如容器访问服务失败发出报警。集群事件报警信息指的是在集群(例如k8s集群)中,集群事件出现故障时发出的报警,例如容器死亡发出报警。
可选的,获取到的报警信息存储在数据库中供分析使用,其中,从时间维度上划分,本申请实施例中的报警信息可以包括历史报警信息以及及时报警信息,历史报警信息的时间跨度可以根据实际需求进行自行设置,例如在数据库中存储近三个月的历史报警信息。
步骤102、根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息。
其中,预设的分类规则指的是分析存储在数据库中的大量历史报警信息,以及技术人员根据经验总结,所归集设定好的报警分类规则,其中包括容器报警分类规则、宿主机报警分类规则以及集群事件报警分类规则。
通过该分类规则,可以将报警信息进行分类,分为故障可自愈类型以及复杂的多维度报警类型,其中,故障可自愈类型包括包括简单容器报警类型、简单宿主机报警类型以及简单集群事件报警类型,该故障可自愈类型意为可以通过预设程序达到故障自愈目的的故障报警类型,换而言之,本申请对简单、明显的报警,或者报警和故障根因关联性较强的情况,可以实现部分场景下的故障自愈,而复杂的多维度报警类型指的是无法直接确定故障根因的报警信息,因此也无法通过预设程序进行自愈,例如宿主机发出报警的同时,容器和集群也发出报警。
步骤103、根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理。
由前文所述,故障可自愈类型包括简单容器报警类型、简单宿主机报警类型以及简单集群事件报警类型,在不同故障可自愈类型的情况下,根据目标报警信息确定自愈策略。
其中,该自愈策略指的是针对故障可自愈类型的故障报警,可以通过预设程序实现故障自愈的策略。
例如,某时刻容器访问服务失败发生了报警,获取到该报警信息后,通过预设的分类规则,将该报警信息分类为故障可自愈类型中的简单容器报警类型,并确定该报警信息为目标报警信息,以此确定自愈策略,该自愈策略自动执行自愈处理的程序,修复容器访问服务失败的故障。
上述故障自愈方法,首先,获取多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息,其次,根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息,最后,根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理,通过本方法,在故障报警与自愈过程中无需人工参与,实现快速响应故障,达到故障自愈的目的。
如前文所述,在故障自愈时,首先需要获取多个报警信息,如图2所示,本申请实施例提供了一种获取报警信息的方法,包括以下步骤:
步骤201、接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息。
其中,性能指标采集工具指的是可以对宿主机上的各性能指标进行监控采集的自动化工具,该性能指标采集工具包括Zabbix、Cacti、Nagios、Prometheus等。
在一种可能实现的方式中,在宿主机上利用脚本或者ansible任务部署Prometheus性能指标采集工具,Prometheus是开源的性能采集工具,可以采集cpu、内存、io、磁盘等指标,这些指标可以按照一定时间间隔进行采集,并存储到数据库中供分析使用,并且可以设置固定阈值进行报警,例如如果cpu超过80%即发出报警。
步骤202、接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息。
以k8s集群为例,在云上(也即是k8s集群上)的master节点(也即是目标节点)部署kube-event组件(一种集群事件检测工具),对k8s事件进行监控和报警,其中,kube-event组件进行的报警也即是上文所述的集群事件报警信息。
该kube-event也是开源组件,可以对k8s中的容器、宿主机进行监控,包括容器死亡、重启、镜像拉取、磁盘挂载、宿主机状态、宿主机磁盘等的信息进行监控采集,并配置规则进行报警,例如容器死亡即发出报警。
步骤203、接收容器发送的容器报警信息。
可以理解的是,容器自身也会在产生故障时发出报警,例如容器访问服务失败,容器执行报程序错误等,容器即时发出报警。
进一步的,在获取了多个报警信息后,需要根据预设的分类规则对多个报警信息进行分类处理,如图3所示,本申请实施例提供了一种报警信息分类的方法,包括以下步骤:
步骤301、获取容器报警分类规则,基于容器报警分类规则对容器报警信息进行分类处理。
其中,该容器报警分类规则指的是,分析存储在数据库中的大量历史报警信息,以及技术人员根据经验总结,所归集设定好的容器报警分类规则,通过该容器报警分类规则可以对容器报警信息进行分类处理,以确定简单容器报警。
例如,是由于程序error报警、容器访问服务失败、容器执行程序错误等情况发出的报警信息,容器报警分类规则将其归集为简单容器报警。
步骤302、获取宿主机报警分类规则,基于宿主机报警分类规则对宿主机报警信息进行分类处理。
其中,该宿主机报警分类规则指的是,分析存储在数据库中的大量历史报警信息,以及技术人员根据经验总结,所归集设定好的宿主机报警分类规则,通过该宿主机报警分类规则可以对容器报警信息进行分类处理,以确定简单宿主机报警。
例如,是由于宿主机CPU过高、磁盘IO冲高、某个进程不可用等情况发出的报警信息,宿主机报警分类规则将其归集为简单宿主机报警。
步骤303、获取集群事件报警分类规则,基于集群事件报警分类规则对集群事件报警信息进行分类处理。
其中,该集群事件报警分类规则指的是,分析存储在数据库中的大量历史报警信息,以及技术人员根据经验总结,所归集设定好的集群事件报警分类规则,通过该集群事件报警分类规则可以对容器报警信息进行分类处理,以确定简单集群事件报警,并进行处理。
例如,是由于创建pod失败、镜像拉取失败、某个宿主机不可用等情况发出的报警信息,集群事件报警分类规则将其归集为简单集群事件报警。
通过本实施例,能够对大量的报警信息进行详细的分类处理,在传统的故障分析中,仅仅只分析一种情况下的故障报警,例如,只分析宿主机发生故障报警的情况,或者只分析容器发生故障报警的情况,而本申请的故障报警不仅针对容器、宿主机,还针对集群事件,扩大了云上故障报警的范围,并通过详细的类别提高了故障报警判断的效率与精度。
如前文所述,该故障可自愈类型包括简单容器报警类型、简单宿主机报警类型以及简单集群事件报警类型,以下在一个实施例中,针对三种不同的故障可自愈类型进行具体说明。
当故障可自愈类型为简单容器报警类型时,需要根据目标报警信息确定自愈策略,本申请实施例提供了一种在简单容器报警时,根据目标报警信息确定自愈策略的方法,包括:在目标报警信息为简单容器报警类型的情况下,根据目标报警信息从第一策略集合中确定自愈策略。
其中,第一策略集合包括容器重启策略、容器启动策略、容器停止策略、容器重新拉起策略以及模板重启策略。
例如,容器产生某个类型的error报警信息的时候,从第一策略集合中确定容器重新拉起策略,以执行将容器消除并重新拉起的程序,该程序具体做法是通过调用k8s的api将pod直接删除,k8s会自动重新拉起新的pod,以此达到应急自愈。
当故障可自愈类型为简单宿主机报警类型时,需要根据目标报警信息确定自愈策略,本申请实施例提供了一种在宿主机报警时,根据目标报警信息确定自愈策略的方法,包括:在目标报警信息为简单宿主机报警类型的情况下,根据目标报警信息从第二策略集合中确定自愈策略。
其中,第二策略集合包括进程重启策略、进程启动策略、进程停止策略、扩容策略以及缩容策略。
例如,产生宿主机上kubelet进程死亡的报警信息,从第二策略集合中确定进程重启策略,以执行进程重新重启,在系统接收到k8s事件报警或者进程类监控报警时候,可以直接调用相应的启动或者重启脚本,去将进程拉起重启;在接收到Prometheus性能指标报警信息,如CPU或者内存超过某个值的时候,从第二策略集合中确定扩容策略策略,以执行调用K8S的API去实现动态的扩容,或者对pod数量进行扩、缩容。
如前文所述,该故障可自愈类型包括简单集群事件报警类型,当故障可自愈类型为简单集群事件报警类型,需要根据目标报警信息确定自愈策略,本申请实施例提供了一种在简单集群事件报警时,根据目标报警信息确定自愈策略的方法,包括:在目标报警信息为简单集群事件报警类型的情况下,根据目标报警信息从第三策略集合中确定自愈策略。
其中,第三策略集合包括进程重启策略、进程启动策略、进程停止策略、镜像重新拉起策略以及宿主机隔离策略。
例如,收到某个宿主机不可用的报警信息,从第三策略集合中确定宿主机隔离策略,以执行调用k8s api将该宿主机隔离,从而实现任务不会下发到故障宿主机的目的。
请继续参考图4,在一个实施例中针对本申请的故障自愈方法,展现了一个示例性的流程示意图,系统报警入口接收多个报警信息,并通过预设的分类规则对多个报警信息进行分类处理,将报警分类为简单容器报警、简单宿主机报警、简单集群事件报警以及复杂的多维度报警,其中,简单容器报警、简单宿主机报警、简单集群事件报警属于前述的故障可自愈类型,针对简单容器报警所发生的故障,可以实现容器重启、模板重启等自愈策略,针对简单宿主机报警类型所发生的故障,可以实现进程重启、进程启动、进程停止等自愈策略,针对简单集群事件报警所发生的故障,可以实现进程重启、进程启动、进程停止、镜像重新拉起等自愈策略。
前述内容讨论的是目标报警信息的处理方法,除此之外,报警信息中还包含有非目标报警信息,如图5所示,本申请实施例提供了一种对非目标报警信息的处理方法,包括以下步骤:
步骤501、对于多个报警信息中的非目标报警信息,将非目标报警信息输出,以指示用户基于非目标报警信息执行故障修复措施。
其中,非目标报警信息指的是复杂的多维度报警类型的报警信息,该复杂的多维度报警意为无法通过报警信息直接定位到出现问题的节点,也就是说无法直接确定故障根因,因此,也无法通过预设程序进行自愈,例如宿主机发出报警的同时,容器和集群也发出报警。
对于该复杂的多维度报警,将其产生的非目标报警信息输出至客户端展示给用户,由于复杂的多维度报警无法进行单一简单的自愈程序处理,因此展示的目的是为了指示客户根据实际应用情况,基于该非目标报警信息执行手动故障修复措施,避免发生故障误诊、错诊等情况。
步骤502、将执行的故障修复措施与非目标报警信息对应进行存储。
其中,由数据库存储执行的故障修复措施与非目标报警信息,以供后续分析处理。
在一种可能实现的方式中,当下次出现同样的复杂的多维度报警时,通过历史数据及时给出处理方案提示,扩大故障检测与故障修复的范围。
在本申请的一个实施例中,如图6所示,提供了一种故障自愈方法,包括以下步骤:
步骤601、接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息。
步骤602、接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息。
步骤603、接收容器发送的容器报警信息。
步骤604、获取容器报警分类规则,基于容器报警分类规则对容器报警信息进行分类处理。
步骤605、获取宿主机报警分类规则,基于宿主机报警分类规则对宿主机报警信息进行分类处理。
步骤606、获取集群事件报警分类规则,基于集群事件报警分类规则对集群事件报警信息进行分类处理。
步骤607、从多个报警信息中获取故障可自愈类型的目标报警信息。
步骤608、在目标报警信息为简单容器报警类型的情况下,根据目标报警信息从第一策略集合中确定自愈策略。
其中,第一策略集合包括容器重启策略、容器启动策略、容器停止策略、容器重新拉起策略以及模板重启策略。
步骤609、在目标报警信息为简单宿主机报警类型的情况下,根据目标报警信息从第二策略集合中确定自愈策略。
其中,第二策略集合包括进程重启策略、进程启动策略、进程停止策略、扩容策略以及缩容策略。
步骤610、在目标报警信息为简单集群事件报警类型的情况下,根据目标报警信息从第三策略集合中确定自愈策略。
其中,第三策略集合包括进程重启策略、进程启动策略、进程停止策略、镜像重新拉起策略以及宿主机隔离策略。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的故障自愈方法的故障自愈装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个故障自愈装置实施例中的具体限定可以参见上文中对于故障自愈方法的限定,在此不再赘述。
在一个实施例中,如图7所示,提供了一种故障自愈装置700,包括:第一获取模块701、第二获取模块702和自愈模块703,其中:
第一获取模块701,用于获取多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息。
第二获取模块702,用于根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息。
自愈模块703,用于根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理。
在其中一个实施例中,该第二获取模块702,具体用于:获取容器报警分类规则,基于容器报警分类规则对容器报警信息进行分类处理;获取宿主机报警分类规则,基于宿主机报警分类规则对宿主机报警信息进行分类处理;获取集群事件报警分类规则,基于集群事件报警分类规则对集群事件报警信息进行分类处理。
在其中一个实施例中,故障可自愈类型包括简单容器报警类型,该自愈模块703,具体用于:在目标报警信息为简单容器报警类型的情况下,根据目标报警信息从第一策略集合中确定自愈策略,第一策略集合包括容器重启策略、容器启动策略、容器停止策略、容器重新拉起策略以及模板重启策略。
在其中一个实施例中,故障可自愈类型包括简单宿主机报警类型,该自愈模块703,还具体用于:在目标报警信息为简单宿主机报警类型的情况下,根据目标报警信息从第二策略集合中确定自愈策略,第二策略集合包括进程重启策略、进程启动策略、进程停止策略、扩容策略以及缩容策略。
在其中一个实施例中,故障可自愈类型包括简单集群事件报警类型,该自愈模块703,还具体用于:在目标报警信息为简单集群事件报警类型的情况下,根据目标报警信息从第三策略集合中确定自愈策略,第三策略集合包括进程重启策略、进程启动策略、进程停止策略、镜像重新拉起策略以及宿主机隔离策略。
在其中一个实施例中,如图8所示,其示出了本申请实施例提供的另一种故障自愈装置800,该故障自愈装置800除了包含故障自愈装置700包括的各个模块外,还包括输出模块704,该输出模块704,用于对于多个报警信息中的非目标报警信息,将非目标报警信息输出,以指示用户基于非目标报警信息执行故障修复措施;将执行的故障修复措施与非目标报警信息对应进行存储。
在其中一个实施例中,该第一获取模块701,具体用于:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
上述故障自愈装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图9所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种故障自愈方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种故障自愈方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图9或者图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息;根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:获取容器报警分类规则,基于容器报警分类规则对容器报警信息进行分类处理;获取宿主机报警分类规则,基于宿主机报警分类规则对宿主机报警信息进行分类处理;获取集群事件报警分类规则,基于集群事件报警分类规则对集群事件报警信息进行分类处理。
在其中一个实施例中,故障可自愈类型包括简单容器报警类型,该处理器执行计算机程序时实现以下步骤:在目标报警信息为简单容器报警类型的情况下,根据目标报警信息从第一策略集合中确定自愈策略,第一策略集合包括容器重启策略、容器启动策略、容器停止策略、容器重新拉起策略以及模板重启策略。
在其中一个实施例中,故障可自愈类型包括简单宿主机报警类型,该处理器执行计算机程序时实现以下步骤:在目标报警信息为简单宿主机报警类型的情况下,根据目标报警信息从第二策略集合中确定自愈策略,第二策略集合包括进程重启策略、进程启动策略、进程停止策略、扩容策略以及缩容策略。
在其中一个实施例中,故障可自愈类型包括简单集群事件报警类型,该处理器执行计算机程序时实现以下步骤:在目标报警信息为简单集群事件报警类型的情况下,根据目标报警信息从第三策略集合中确定自愈策略,第三策略集合包括进程重启策略、进程启动策略、进程停止策略、镜像重新拉起策略以及宿主机隔离策略。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:对于多个报警信息中的非目标报警信息,将非目标报警信息输出,以指示用户基于非目标报警信息执行故障修复措施;将执行的故障修复措施与非目标报警信息对应进行存储。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
在一个实施例中,提供了一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息;根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:获取容器报警分类规则,基于容器报警分类规则对容器报警信息进行分类处理;获取宿主机报警分类规则,基于宿主机报警分类规则对宿主机报警信息进行分类处理;获取集群事件报警分类规则,基于集群事件报警分类规则对集群事件报警信息进行分类处理。
在其中一个实施例中,故障可自愈类型包括简单容器报警类型,计算机程序被处理器执行时实现以下步骤:在目标报警信息为简单容器报警类型的情况下,根据目标报警信息从第一策略集合中确定自愈策略,第一策略集合包括容器重启策略、容器启动策略、容器停止策略、容器重新拉起策略以及模板重启策略。
在其中一个实施例中,故障可自愈类型包括简单宿主机报警类型,计算机程序被处理器执行时实现以下步骤:在目标报警信息为简单宿主机报警类型的情况下,根据目标报警信息从第二策略集合中确定自愈策略,第二策略集合包括进程重启策略、进程启动策略、进程停止策略、扩容策略以及缩容策略。
在其中一个实施例中,故障可自愈类型包括简单集群事件报警类型,计算机程序被处理器执行时实现以下步骤:在目标报警信息为简单集群事件报警类型的情况下,根据目标报警信息从第三策略集合中确定自愈策略,第三策略集合包括进程重启策略、进程启动策略、进程停止策略、镜像重新拉起策略以及宿主机隔离策略。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:对于多个报警信息中的非目标报警信息,将非目标报警信息输出,以指示用户基于非目标报警信息执行故障修复措施;将执行的故障修复措施与非目标报警信息对应进行存储。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;根据预设的分类规则对多个报警信息进行分类处理,以从多个报警信息中获取故障可自愈类型的目标报警信息;根据目标报警信息确定自愈策略,基于自愈策略对目标报警信息对应的故障进行自愈处理。
在其中一个实施例中,该计算机程序被处理器执行时实现以下步骤:获取容器报警分类规则,基于容器报警分类规则对容器报警信息进行分类处理;获取宿主机报警分类规则,基于宿主机报警分类规则对宿主机报警信息进行分类处理;获取集群事件报警分类规则,基于集群事件报警分类规则对集群事件报警信息进行分类处理。
在其中一个实施例中,故障可自愈类型包括简单容器报警类型,该计算机程序被处理器执行时实现以下步骤:在目标报警信息为简单容器报警类型的情况下,根据目标报警信息从第一策略集合中确定自愈策略,第一策略集合包括容器重启策略、容器启动策略、容器停止策略、容器重新拉起策略以及模板重启策略。
在其中一个实施例中,故障可自愈类型包括简单宿主机报警类型,该计算机程序被处理器执行时实现以下步骤:在目标报警信息为简单宿主机报警类型的情况下,根据目标报警信息从第二策略集合中确定自愈策略,第二策略集合包括进程重启策略、进程启动策略、进程停止策略、扩容策略以及缩容策略。
在其中一个实施例中,故障可自愈类型包括简单集群事件报警类型,该计算机程序被处理器执行时实现以下步骤:在目标报警信息为简单集群事件报警类型的情况下,根据目标报警信息从第三策略集合中确定自愈策略,第三策略集合包括进程重启策略、进程启动策略、进程停止策略、镜像重新拉起策略以及宿主机隔离策略。
在其中一个实施例中,该计算机程序被处理器执行时实现以下步骤:对于多个报警信息中的非目标报警信息,将非目标报警信息输出,以指示用户基于非目标报警信息执行故障修复措施;将执行的故障修复措施与非目标报警信息对应进行存储。
在其中一个实施例中,该计算机程序被处理器执行时实现以下步骤:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种故障自愈方法,其特征在于,所述方法包括:
获取多个报警信息,所述多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;
根据预设的分类规则对所述多个报警信息进行分类处理,以从所述多个报警信息中获取故障可自愈类型的目标报警信息;
根据所述目标报警信息确定自愈策略,基于所述自愈策略对所述目标报警信息对应的故障进行自愈处理。
2.根据权利要求1所述的方法,其特征在于,所述根据预设的分类规则对所述多个报警信息进行分类处理,包括:
获取容器报警分类规则,基于所述容器报警分类规则对所述容器报警信息进行分类处理;
获取宿主机报警分类规则,基于所述宿主机报警分类规则对所述宿主机报警信息进行分类处理;
获取集群事件报警分类规则,基于所述集群事件报警分类规则对所述集群事件报警信息进行分类处理。
3.根据权利要求1或2所述的方法,其特征在于,所述故障可自愈类型包括简单容器报警类型,所述根据所述目标报警信息确定自愈策略,包括:
在所述目标报警信息为所述简单容器报警类型的情况下,根据所述目标报警信息从第一策略集合中确定所述自愈策略,所述第一策略集合包括容器重启策略、容器启动策略、容器停止策略、容器重新拉起策略以及模板重启策略。
4.根据权利要求1或2所述的方法,其特征在于,所述故障可自愈类型包括简单宿主机报警类型,所述根据所述目标报警信息确定自愈策略,包括:
在所述目标报警信息为所述简单宿主机报警类型的情况下,根据所述目标报警信息从第二策略集合中确定所述自愈策略,所述第二策略集合包括进程重启策略、进程启动策略、进程停止策略、扩容策略以及缩容策略。
5.根据权利要求1或2所述的方法,其特征在于,所述故障可自愈类型包括简单集群事件报警类型,所述根据所述目标报警信息确定自愈策略,包括:
在所述目标报警信息为所述简单集群事件报警类型的情况下,根据所述目标报警信息从第三策略集合中确定所述自愈策略,所述第三策略集合包括进程重启策略、进程启动策略、进程停止策略、镜像重新拉起策略以及宿主机隔离策略。
6.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
对于所述多个报警信息中的非目标报警信息,将所述非目标报警信息输出,以指示用户基于所述非目标报警信息执行故障修复措施;
将执行的故障修复措施与所述非目标报警信息对应进行存储。
7.根据权利要求1或2所述的方法,其特征在于,所述获取多个报警信息,包括:
接收在宿主机上部署的性能指标采集工具发送的所述宿主机报警信息;
接收在集群的目标节点上部署的事件检测工具发送的所述集群事件报警信息;
接收容器发送的所述容器报警信息。
8.一种故障自愈装置,其特征在于,所述装置包括:
第一获取模块,用于获取多个报警信息,所述多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;
第二获取模块,用于根据预设的分类规则对所述多个报警信息进行分类处理,以从所述多个报警信息中获取故障可自愈类型的目标报警信息;
自愈模块,用于根据所述目标报警信息确定自愈策略,基于所述自愈策略对所述目标报警信息对应的故障进行自愈处理。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211473962.XA CN115834353A (zh) | 2022-11-23 | 2022-11-23 | 故障自愈方法、装置、设备、存储介质和计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211473962.XA CN115834353A (zh) | 2022-11-23 | 2022-11-23 | 故障自愈方法、装置、设备、存储介质和计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115834353A true CN115834353A (zh) | 2023-03-21 |
Family
ID=85530621
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211473962.XA Pending CN115834353A (zh) | 2022-11-23 | 2022-11-23 | 故障自愈方法、装置、设备、存储介质和计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115834353A (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110262917A (zh) * | 2019-05-15 | 2019-09-20 | 平安科技(深圳)有限公司 | 宿主机自愈方法、装置、计算机设备及存储介质 |
CN114048113A (zh) * | 2021-11-23 | 2022-02-15 | 中国工商银行股份有限公司 | 数据中心监控报警故障自愈方法、装置和计算机设备 |
CN114116288A (zh) * | 2021-11-24 | 2022-03-01 | 北京百度网讯科技有限公司 | 故障处理方法、装置及计算机程序产品 |
CN114928533A (zh) * | 2022-06-13 | 2022-08-19 | 中国电信股份有限公司 | 虚拟网元故障处理方法、装置、电子设备及存储介质 |
-
2022
- 2022-11-23 CN CN202211473962.XA patent/CN115834353A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110262917A (zh) * | 2019-05-15 | 2019-09-20 | 平安科技(深圳)有限公司 | 宿主机自愈方法、装置、计算机设备及存储介质 |
CN114048113A (zh) * | 2021-11-23 | 2022-02-15 | 中国工商银行股份有限公司 | 数据中心监控报警故障自愈方法、装置和计算机设备 |
CN114116288A (zh) * | 2021-11-24 | 2022-03-01 | 北京百度网讯科技有限公司 | 故障处理方法、装置及计算机程序产品 |
CN114928533A (zh) * | 2022-06-13 | 2022-08-19 | 中国电信股份有限公司 | 虚拟网元故障处理方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN102937930B (zh) | 应用程序监控系统及方法 | |
CN109150619B (zh) | 一种基于网络流量数据的故障诊断方法及系统 | |
WO2017181805A1 (zh) | 告警信息的显示方法及装置、计算机存储介质 | |
CN104796273A (zh) | 一种网络故障根源诊断的方法和装置 | |
CN111625418A (zh) | 一种进程监控方法及装置 | |
CN115982049A (zh) | 性能测试中的异常检测方法、装置和计算机设备 | |
CN117478540A (zh) | 网络交换机检测系统 | |
CN117194191A (zh) | 日志监控告警方法、装置、计算机设备和存储介质 | |
CN115150253B (zh) | 一种故障根因确定方法、装置及电子设备 | |
CN117135030A (zh) | 告警关联分析方法、装置、终端设备以及存储介质 | |
CN116560893A (zh) | 一种计算机应用程序运行数据故障处理系统 | |
CN116260703A (zh) | 分布式消息服务节点cpu性能故障自恢复方法及装置 | |
CN115834353A (zh) | 故障自愈方法、装置、设备、存储介质和计算机程序产品 | |
CN115801545A (zh) | 一种混合云管的异常实时上报方法、系统、设备和介质 | |
JP7499168B2 (ja) | 原因推定システムおよび原因推定方法 | |
CN114090382A (zh) | 超融合集群健康巡检方法和装置 | |
CN114493262A (zh) | 一种电力大数据的处理系统、方法、装置及计算机设备 | |
CN113608750A (zh) | 监控组件的部署方法、装置、计算机设备以及存储介质 | |
CN115776436A (zh) | 故障定界方法、装置、设备、存储介质和计算机程序产品 | |
WO2024168602A1 (en) | Cloud microservice topology analysis | |
CN117557951A (zh) | 电网异常事件监控方法、装置、计算机设备和存储介质 | |
CN118642915A (zh) | 应用于多服务集群的运维数据处理方法、装置和设备 | |
CN109474445B (zh) | 一种分布式系统根源故障定位方法及装置 | |
CN115766397A (zh) | 作业数据中断预警方法、装置、设备和存储介质 | |
CN118260110A (zh) | 故障演练方法、装置、计算机设备、存储介质和程序产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |