CN115776436A - 故障定界方法、装置、设备、存储介质和计算机程序产品 - Google Patents
故障定界方法、装置、设备、存储介质和计算机程序产品 Download PDFInfo
- Publication number
- CN115776436A CN115776436A CN202211465423.1A CN202211465423A CN115776436A CN 115776436 A CN115776436 A CN 115776436A CN 202211465423 A CN202211465423 A CN 202211465423A CN 115776436 A CN115776436 A CN 115776436A
- Authority
- CN
- China
- Prior art keywords
- alarm information
- target
- fault
- determining
- root cause
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000004590 computer program Methods 0.000 title claims abstract description 50
- 238000003860 storage Methods 0.000 title claims abstract description 17
- 238000004422 calculation algorithm Methods 0.000 claims description 29
- 238000001514 detection method Methods 0.000 claims description 15
- 238000012216 screening Methods 0.000 claims description 14
- 238000004891 communication Methods 0.000 description 9
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000011161 development Methods 0.000 description 5
- 238000004458 analytical method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000012423 maintenance Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- OKTJSMMVPCPJKN-UHFFFAOYSA-N Carbon Chemical compound [C] OKTJSMMVPCPJKN-UHFFFAOYSA-N 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000012098 association analyses Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 229910021389 graphene Inorganic materials 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Landscapes
- Debugging And Monitoring (AREA)
Abstract
本申请涉及一种故障定界方法、装置、设备、存储介质和计算机程序产品。所述方法包括:首先,获取待进行故障根因定界的多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息,接着,从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因,最后,获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因,通过本方法,可以避免人工参与,实现快速准确的故障定界。
Description
技术领域
本申请涉及云计算技术领域,特别是涉及一种故障定界方法、装置、设备、存储介质和计算机程序产品。
背景技术
随着云计算技术的发展,人们开始关注云上故障的问题,当云上节点,例如容器、宿主机、集群等出现故障的时候,可能同时出现多个节点的故障报警,而目前对故障定界主要依赖与开发和运维人员的人工分析,手动从大量的文件、数据中找出导致故障或者故障报警的根本原因,这种方法相对较为耗时耗力,依赖于人工经验,准确度较低。
因此,依赖人工参与,无法快速准确对故障定界的问题亟需解决。
发明内容
基于此,有必要针对上述技术问题,提供一种故障定界方法、装置、设备、存储介质和计算机程序产品。
第一方面,本申请提供了一种故障定界方法。该方法包括:
获取待进行故障根因定界的多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因;获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因。
在其中一个实施例中,从多个报警信息中筛选出符合直接定界条件的目标报警信息,包括:基于各报警信息查询预先设定的根因定界数据库,根因定界数据库中存储有直接定界规则和故障根因的多组对应关系;基于查询结果从多个报警信息中确定目标报警信息。
在其中一个实施例中,根据所满足的直接定界规则确定目标报警信息对应的故障根因,包括:确定所满足的直接定界规则在根因定界数据库中对应的目标故障根因;根据目标故障根因确定目标报警信息对应的故障根因。
在其中一个实施例中,确定非目标报警信息之间的关联关系,包括:将非目标报警信息输入至Apriori算法模型中;获取Apriori算法模型输出的关联关系。
在其中一个实施例中,根据关联关系确定非目标报警信息对应的故障根因,包括:根据关联关系从非目标报警信息确定顶层报警信息,其中,顶层报警信息导致了其他非目标报警信息;根据顶层报警信息确定非目标报警信息对应的故障根因。
在其中一个实施例中,根据顶层报警信息确定非目标报警信息对应的故障根因,包括:若顶层报警信息的数量为一个,则将顶层报警信息作为非目标报警信息对应的故障根因;若顶层报警信息的数量大于一个,则将顶层报警信息进行输出,以指示用户从输出的顶层报警信息中确定非目标报警信息对应的故障根因。
在其中一个实施例中,获取待进行故障根因定界的多个报警信息,包括:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
第二方面,本申请还提供了一种故障定界装置。该装置包括:
获取模块,用于获取待进行故障根因定界的多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;
第一确定模块,用于从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因;
第二确定模块,用于获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因。
在其中一个实施例中,该第一确定模块,具体用于:基于各报警信息查询预先设定的根因定界数据库,根因定界数据库中存储有直接定界规则和故障根因的多组对应关系;基于查询结果从多个报警信息中确定目标报警信息。
在其中一个实施例中,该第一确定模块,具体用于:确定所满足的直接定界规则在根因定界数据库中对应的目标故障根因;根据目标故障根因确定目标报警信息对应的故障根因。
在其中一个实施例中,该第二确定模块,具体用于:将非目标报警信息输入至Apriori算法模型中;获取Apriori算法模型输出的关联关系。
在其中一个实施例中,该第二确定模块,包括:
第一确定单元,用于根据关联关系从非目标报警信息确定顶层报警信息,其中,顶层报警信息导致了其他非目标报警信息;
第二确定单元,用于根据顶层报警信息确定非目标报警信息对应的故障根因。
在其中一个实施例中,该第二确定单元,具体用于:若顶层报警信息的数量为一个,则将顶层报警信息作为非目标报警信息对应的故障根因;若顶层报警信息的数量大于一个,则将顶层报警信息进行输出,以指示用户从输出的顶层报警信息中确定非目标报警信息对应的故障根因。
在其中一个实施例中,该获取模块,具体用于:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
第三方面,本申请实施例提供一种设备,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。
第五方面,本申请实施例提供一种计算机程序产品,其上存储有计算机程序,计算机程序被处理器执行时实现上述第一方面中任一所述的步骤。
上述故障定界方法、装置、设备、存储介质和计算机程序产品,首先,获取待进行故障根因定界的多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息,接着,从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因,最后,获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因,通过本方法,可以避免人工参与,实现快速准确的故障定界。
附图说明
图1为一个实施例中故障定界方法的流程示意图;
图2为一个实施例中获取报警信息方法的流程示意图;
图3为一个实施例中筛选报警信息方法的流程示意图;
图4为一个实施例中确定目标报警信息的故障根因方法的流程示意图;
图5为一个实施例中确定非目标报警信息的关联关系方法的流程示意图;
图6为一个实施例中确定非目标报警信息的故障根因方法的流程示意图;
图7为另一个实施例中确定非目标报警信息的故障根因方法的流程示意图;
图8为另一个实施例中故障定界方法的流程示意图;
图9为一个实施例中故障定界装置的结构框图;
图10为一个实施例中计算机设备为服务器的内部结构图;
图11为一个实施例中计算机设备为终端的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
随着分布式云计算时代的发展,敏捷的开发和部署方式使得越来越多的应用将服务部署在云上,这种服务带来便捷的同时也将运维的压力从应用服务端转移到了云端,而当在云上节点发生故障时,例如容器、宿主机、集群等出现故障的时候,可能同时出现多个节点的故障报警,怎么快速、精确地定位到故障节点,对保障生产安全、稳定地运行尤为重要。
而目前业界故障定界主要依赖与开发和运维人员的人工分析,手动从大量的文件、数据中找出导致故障或者报警的根本原因,这种方法相对较为耗时耗力,因为需要人力从大量文件、数据中找出故障的蛛丝马迹,而且依赖于人工经验,准确度较低。另一种较智能的方法是使用人工智能算法对各个节点的指标进行检测和偏离度分析,结合k8s底层事件报警,利用大数据和人工智能技术实现报警聚合,从而提高故障定界的精度,这种方法主要依赖于算法的检测,但当前人工智能在异常检测领域的算法还处于不断探索发展中,定位的精度往往不甚理想,当前,依赖人工参与,无法快速准确对故障定界的问题亟需解决。
本申请实施例提供的安全稳定性控制方法,其执行主体可以是一种计算机设备,该计算机设备可以是服务器,也可以是终端。
在一个实施例中,如图1所示,提供了一种故障定界方法,包括以下步骤:
步骤101、获取待进行故障根因定界的多个报警信息。
其中,该多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息。
在一种可能实现的方式中,获取待进行故障根因定界的多个报警信息,包括:从宿主机上获取宿主机报警信息,从容器上获取容器报警信息以及从集群中获取集群事件报警信息。
其中,宿主机报警信息指的是宿主机性能指标出现故障时,发出的报警信息,例如cpu过高发出报警。容器报警信息指的是容器自身出现故障时,发出的报警信息,例如容器访问服务失败发出报警。集群事件报警信息指的是在集群(例如k8s集群)中,集群事件出现故障时发出的报警,例如容器死亡发出报警。
可选的,获取到的报警信息存储在数据库中供分析使用,其中,从时间维度上划分,本申请实施例中的报警信息可以包括历史报警信息以及即时报警信息,历史报警信息的时间跨度可以根据实际需求进行自行设置,例如在数据库中存储近三个月的历史报警信息。
步骤102、从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因。
其中,筛选目标报警信息可以通过数据库中存储的信息进行筛选,具体来说,数据库中存储有直接定界规则,该直接定界规则可以用于确定目标报警信息,进一步地,还可以用于确定目标报警信息对应的故障根因,或者说可以确定故障可能的节点。
可以理解的是,该目标报警信息符合数据库存储的直接定界规则,而对于不符合直接定界规则的报警信息执行下一步操作。
步骤103、获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因。
其中,该非目标报警信息不符合前述数据库中存储的直接定界规则,是一种复杂故障情况下的报警,例如宿主机发出报警的同时,容器和集群也发出报警,而此时无法通过直接定界规则确定真正的故障根因。
在一种可能实现的方式中,可以采用算法对该复杂情况的非目标报警信息进行关联分析,根据分析出的关联关系进行故障根因,可选的,该算法可以包括Apriori算法、PCMCI算法等。
上述故障定界方法,首先,获取待进行故障根因定界的多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息,接着,从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因,最后,获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因,通过本方法,可以避免人工参与,实现快速准确的故障定界。
如前文所述,在故障定界时,首先需要获取待进行故障根因定界的多个报警信息,如图2所示,本申请实施例提供了一种获取报警信息的方法,包括以下步骤:
步骤201、接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息。
其中,性能指标采集工具包括Zabbix、Cacti、Nagios、Prometheus等。
在一种可能实现的方式中,在宿主机上部署Prometheus性能指标采集工具,Prometheus是开源的性能采集工具,可以采集cpu、内存、io、磁盘等指标,这些指标可以按照一定时间间隔进行采集,并存储到数据库中供分析使用,并且可以设置固定阈值进行报警,例如如果cpu超过80%即发出报警。
步骤202、接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息。
以k8s集群为例,在云上(也即是k8s集群上)的master节点(也即是目标节点)部署kube-event组件(一种集群事件检测工具),对k8s事件进行监控和报警,其中,kube-event组件进行的报警也即是上文所述的集群事件报警信息。
该kube-event也是开源组件,可以对k8s中的容器、宿主机进行监控,包括容器死亡、重启、镜像拉取、磁盘挂载、宿主机状态、宿主机磁盘等的信息进行监控采集,并配置规则进行报警,例如容器死亡即发出报警。
步骤203、接收容器发送的容器报警信息。
可以理解的是,容器自身也会在产生故障时发出报警,例如容器访问服务失败,容器执行报程序错误等,容器即时发出报警。
在传统的故障归因中仅仅只处理单一的报警情况,例如,只对宿主机发生故障的情况进行报警处理,或者只对容器发生故障的情况进行报警处理,而通过本实施例,对多种报警信息都进行接收处理,包括宿主机报警信息、容器报警信息和集群事件报警信息,实现了多维度的报警,扩大了故障定界的范围。
进一步的,获取了报警信息后,需要从多个报警信息中筛选出符合直接定界规则的目标报警信息,如图3所示,本申请实施例提供了一种筛选报警信息的方法,包括以下步骤:
步骤301、基于各报警信息查询预先设定的根因定界数据库。
其中,该根因定界数据库中存储有直接定界规则和故障根因的多组对应关系。
在一种可能实现的方式中,该根因定界数据库是分析大量历史报警信息以及多种故障根因,由技术人员所设定的,能够对报警信息进行分类,可以理解的是,根因定界数据库中对故障信息的存储信息是由历史数据所汇集限定的,也就是说,在历史数据中出现过的故障报警才会被存储在数据库中,并由技术人员对该故障报警设立了固定的故障定界,该故障定界具有明确的故障根因对应关系。
具体的,查询指的是将多个报警信息输入至根因定界数据库中,对报警进行分类,并在该数据库中根据预先设置好的直接定界规则,进行比对,查询是否有符合该直接定界规则的报警信息。
步骤302、基于查询结果从多个报警信息中确定目标报警信息。
在一种可能实现的方式中,该查询结果可以从多个报警信息中确定目标报警信息,例如,输入多个报警信息,经过查询根因定界数据库,其中某个报警信息符合直接定界规则,则将该报警信息作为目标报警信息。
进一步的,筛选出报警信息后,需要根据所满足的直接定界规则确定目标报警信息对应的故障根因,如图4所示,本申请实施例提供了一种确定目标报警信息的故障根因的方法,包括以下步骤:
步骤401、确定所满足的直接定界规则在根因定界数据库中对应的目标故障根因。
其中,该直接定界规则存储在根因定界数据库中,根据该直接定界规则能够将简单、明显的报警,或者报警和故障根因关联性较强的直接给出目标故障根因。
以下示例性对直接定界规则对应的目标故障根因进行说明,如下表1所示,如果容器代码报空指针异常等报警,或者代码出现error报警,则直接定位为容器自身故障;如果宿主机CPU冲高报警,而未引起容器报警,或者宿主机上部署的超过一半的容器在宿主机报警后也发生报警,则直接定位为宿主机故障;如果某个集群超过一半的宿主机都出现报警,或者k8s集群中镜像拉取失败出现报警,则直接定位为集群事件故障。
表1
步骤402、根据目标故障根因确定目标报警信息对应的故障根因。
在一种可能实现的方式中,由直接定界规则确定了目标故障根因,则确定该目标故障根因是本次目标报警信息对应的故障根因。
示例性的,如果根据直接定界规则已经确定是由CPU过高引起报警的宿主机故障,则确定并输出显示该故障根因,此时用户可以根据该显示进行下一步操作。
通过本申请的实施例,能够对简单情况下的报警进行自动直接根因,避免了人工鉴定故障根因的繁琐,能更快速准确定位到故障根因,在云计算中提高了故障处理的效率。
除此之外,在报警信息中还存在非目标报警信息,在获取了多个报警信息中的非目标报警信息,需要确定非目标报警信息之间的关联关系,如图5所示,本申请实施例提供了一种确定确定非目标报警信息关联关系的方法,包括以下步骤:
步骤501、将非目标报警信息输入至Apriori算法模型中。
其中,该非目标报警信息指的是一种复杂故障情况下的报警,根据直接定界规则无法确定故障根因的报警信息,例如宿主机发出报警的同时,容器和集群也发出报警,并且从直接定界规则中确定不了故障根因。
其中,Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。示例性的,首先找出所有的频繁项集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第一步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义,一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。
步骤502、获取Apriori算法模型输出的关联关系。
其中,该关联关系指的是一种因果关系,即原因A导致了结果B的关系。
在一种可能实现的方式中,Apriori算法主要分两步实现,第一步找出所有频繁项集,即找出该商品组合的支持度大于最小支持度的集合。支持度的计算公式为:
其中A->B表示在A发生的情况下又发生B,P(A)表示A出现的概率,P(AB)表示AB同时出现的概率。
第二步,找出频繁项集合后,扫描频繁项集,去除最小支持度的频繁项,然后在此基础上,对报警指标进行组合,形成2元组,计算各2元组的支持度,以此类推,最后根据支持度最高的频繁项,输出频繁项集间的关联关系,该关联关系为支持度最高的频繁项导致其他频繁项集的产生。
进一步的,在确定非目标报警信息之间的关联关系后,需要根据关联关系确定非目标报警信息对应的故障根因,如图6所示,本申请实施例提供了一种确定非目标报警信息的故障根因的方法,包括以下步骤:
步骤601、根据关联关系从非目标报警信息确定顶层报警信息。
其中,该关联关系指的是一种因果关系,该因果关系确定了顶层报警信息导致了其他非目标报警信息,例如集群报警的同时,容器也发生报警,根据前述Apriori算法得出了两个报警间的关联关系是容器报警导致了集群报警的产生,此时,将容器报警作为顶层报警信息。
步骤602、根据顶层报警信息确定非目标报警信息对应的故障根因。
具体的,当确定了顶层报警信息后,根据该顶层报警信息确定故障根因,例如,集群报警的同时,容器也发生报警,并且已经确认了容器报警是顶层报警信息,此时可以通过容器报警确定是容器故障引起的报警,例如容器进程访问失败时引起的多重报警。
如前文所述,在确定非目标报警信息对应的故障根因时,需要根据顶层报警信息确定非目标报警信息对应的故障根因,如图7所示,本申请实施例提供了另一种确定非目标报警信息的故障根因的方法,包括以下步骤:
步骤701、若顶层报警信息的数量为一个,则将顶层报警信息作为非目标报警信息对应的故障根因。
具体的,当确定顶层报警信息的数量为一个,仅输出显示该顶层报警信息对应的故障根因,由用户自行处理。
步骤702、若顶层报警信息的数量大于一个,则将顶层报警信息进行输出,以指示用户从输出的顶层报警信息中确定非目标报警信息对应的故障根因。
可以理解的是,在实际应用中,可能存在多种复杂的情况,导致顶层报警信息的数量大于一个,此时将顶层报警信息同时进行输出。
以下进行举例说明:若报警A、报警B、报警C、报警D同时发生,并且通过Apriori算法得出了报警A与报警B之间存在关联关系,报警A导致报警B,报警C与报警D之间存在关联关系,报警C导致报警D,然而报警A与报警C不存在关联关系,则将报警A与报警C作为顶层报警信息同时输出显示,由用户自行确定报警A与报警C其中的故障根因。
如前文所述,本申请的实施例针对简单情况下的目标报警信息进行直接故障定界,针对复杂情况下的非目标报警信息采用Apriori算法进行故障定界,针对不同情况采用不同处理方式,这种方法使得故障定界的结果更加准确,也同时提高了故障定界的效率。
在一个实施例中,如图8所示,提供了一种故障定界方法,包括以下步骤:
步骤801、接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息。
步骤802、接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息。
步骤803、接收容器发送的容器报警信息。
步骤804、基于各报警信息查询预先设定的根因定界数据库,根因定界数据库中存储有直接定界规则和故障根因的多组对应关系。
步骤805、基于查询结果从多个报警信息中确定目标报警信息。
步骤806、确定所满足的直接定界规则在根因定界数据库中对应的目标故障根因。
步骤807、根据目标故障根因确定目标报警信息对应的故障根因。
步骤808、获取多个报警信息中的非目标报警信息,将非目标报警信息输入至Apriori算法模型中。
步骤809、获取Apriori算法模型输出的关联关系。
步骤810、根据关联关系从非目标报警信息确定顶层报警信息,其中,顶层报警信息导致了其他非目标报警信息。
步骤811、若顶层报警信息的数量为一个,则将顶层报警信息作为非目标报警信息对应的故障根因。
步骤812、若顶层报警信息的数量大于一个,则将顶层报警信息进行输出,以指示用户从输出的顶层报警信息中确定非目标报警信息对应的故障根因。
应该理解的是,虽然如上所述的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上所述的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的故障定界方法的故障定界装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个故障定界装置实施例中的具体限定可以参见上文中对于故障定界方法的限定,在此不再赘述。
在一个实施例中,如图9所示,提供了一种故障定界装置900,包括:获取模块901、第一确定模块902和第二确定模块903,其中:
获取模块901,用于获取待进行故障根因定界的多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息。
第一确定模块902,用于从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因。
第二确定模块903,用于获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因。
在其中一个实施例中,该第一确定模块902,具体用于:基于各报警信息查询预先设定的根因定界数据库,根因定界数据库中存储有直接定界规则和故障根因的多组对应关系;基于查询结果从多个报警信息中确定目标报警信息。
在其中一个实施例中,该第一确定模块902,具体用于:确定所满足的直接定界规则在根因定界数据库中对应的目标故障根因;根据目标故障根因确定目标报警信息对应的故障根因。
在其中一个实施例中,该第二确定模块903,具体用于:将非目标报警信息输入至Apriori算法模型中;获取Apriori算法模型输出的关联关系。
在其中一个实施例中,该第二确定模块903,包括第一确定单元以及第二确定单元,其中:
第一确定单元,用于根据关联关系从非目标报警信息确定顶层报警信息,其中,顶层报警信息导致了其他非目标报警信息。
第二确定单元,用于根据顶层报警信息确定非目标报警信息对应的故障根因。
在其中一个实施例中,该第二确定单元,具体用于:若顶层报警信息的数量为一个,则将顶层报警信息作为非目标报警信息对应的故障根因;若顶层报警信息的数量大于一个,则将顶层报警信息进行输出,以指示用户从输出的顶层报警信息中确定非目标报警信息对应的故障根因。
在其中一个实施例中,该获取模块901,具体用于:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
上述故障定界装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储数据。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种故障定界方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种故障定界方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10或图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取待进行故障根因定界的多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因;获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:基于各报警信息查询预先设定的根因定界数据库,根因定界数据库中存储有直接定界规则和故障根因的多组对应关系;基于查询结果从多个报警信息中确定目标报警信息。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:确定所满足的直接定界规则在根因定界数据库中对应的目标故障根因;根据目标故障根因确定目标报警信息对应的故障根因。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:将非目标报警信息输入至Apriori算法模型中;获取Apriori算法模型输出的关联关系。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:根据关联关系从非目标报警信息确定顶层报警信息,其中,顶层报警信息导致了其他非目标报警信息;根据顶层报警信息确定非目标报警信息对应的故障根因。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:若顶层报警信息的数量为一个,则将顶层报警信息作为非目标报警信息对应的故障根因;若顶层报警信息的数量大于一个,则将顶层报警信息进行输出,以指示用户从输出的顶层报警信息中确定非目标报警信息对应的故障根因。
在其中一个实施例中,该处理器执行计算机程序时实现以下步骤:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
在一个实施例中,提供了一种存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取待进行故障根因定界的多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因;获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:基于各报警信息查询预先设定的根因定界数据库,根因定界数据库中存储有直接定界规则和故障根因的多组对应关系;基于查询结果从多个报警信息中确定目标报警信息。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:确定所满足的直接定界规则在根因定界数据库中对应的目标故障根因;根据目标故障根因确定目标报警信息对应的故障根因。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:将非目标报警信息输入至Apriori算法模型中;获取Apriori算法模型输出的关联关系。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:根据关联关系从非目标报警信息确定顶层报警信息,其中,顶层报警信息导致了其他非目标报警信息;根据顶层报警信息确定非目标报警信息对应的故障根因。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:若顶层报警信息的数量为一个,则将顶层报警信息作为非目标报警信息对应的故障根因;若顶层报警信息的数量大于一个,则将顶层报警信息进行输出,以指示用户从输出的顶层报警信息中确定非目标报警信息对应的故障根因。
在其中一个实施例中,计算机程序被处理器执行时实现以下步骤:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
获取待进行故障根因定界的多个报警信息,多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;从多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定目标报警信息对应的故障根因;获取多个报警信息中的非目标报警信息,并确定非目标报警信息之间的关联关系,根据关联关系确定非目标报警信息对应的故障根因。
在其中一个实施例中,该计算机程序被处理器执行时实现以下步骤:基于各报警信息查询预先设定的根因定界数据库,根因定界数据库中存储有直接定界规则和故障根因的多组对应关系;基于查询结果从多个报警信息中确定目标报警信息。
在其中一个实施例中,该计算机程序被处理器执行时实现以下步骤:确定所满足的直接定界规则在根因定界数据库中对应的目标故障根因;根据目标故障根因确定目标报警信息对应的故障根因。
在其中一个实施例中,该计算机程序被处理器执行时实现以下步骤:将非目标报警信息输入至Apriori算法模型中;获取Apriori算法模型输出的关联关系。
在其中一个实施例中,该计算机程序被处理器执行时实现以下步骤:根据关联关系从非目标报警信息确定顶层报警信息,其中,顶层报警信息导致了其他非目标报警信息;根据顶层报警信息确定非目标报警信息对应的故障根因。
在其中一个实施例中,该计算机程序被处理器执行时实现以下步骤:若顶层报警信息的数量为一个,则将顶层报警信息作为非目标报警信息对应的故障根因;若顶层报警信息的数量大于一个,则将顶层报警信息进行输出,以指示用户从输出的顶层报警信息中确定非目标报警信息对应的故障根因。
在其中一个实施例中,该计算机程序被处理器执行时实现以下步骤:接收在宿主机上部署的性能指标采集工具发送的宿主机报警信息;接收在集群的目标节点上部署的事件检测工具发送的集群事件报警信息;接收容器发送的容器报警信息。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。
Claims (11)
1.一种故障定界方法,其特征在于,所述方法包括:
获取待进行故障根因定界的多个报警信息,所述多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;
从所述多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定所述目标报警信息对应的故障根因;
获取所述多个报警信息中的非目标报警信息,并确定所述非目标报警信息之间的关联关系,根据所述关联关系确定所述非目标报警信息对应的故障根因。
2.根据权利要求1所述的方法,其特征在于,所述从所述多个报警信息中筛选出符合直接定界条件的目标报警信息,包括:
基于各所述报警信息查询预先设定的根因定界数据库,所述根因定界数据库中存储有直接定界规则和故障根因的多组对应关系;
基于查询结果从所述多个报警信息中确定所述目标报警信息。
3.根据权利要求1所述的方法,其特征在于,所述根据所满足的直接定界规则确定所述目标报警信息对应的故障根因,包括:
确定所满足的直接定界规则在所述根因定界数据库中对应的目标故障根因;
根据所述目标故障根因确定所述目标报警信息对应的故障根因。
4.根据权利要求1所述的方法,其特征在于,所述确定所述非目标报警信息之间的关联关系,包括:
将所述非目标报警信息输入至Apriori算法模型中;
获取所述Apriori算法模型输出的所述关联关系。
5.根据权利要求1或4所述的方法,其特征在于,所述根据所述关联关系确定所述非目标报警信息对应的故障根因,包括:
根据所述关联关系从所述非目标报警信息确定顶层报警信息,其中,所述顶层报警信息导致了其他所述非目标报警信息;
根据所述顶层报警信息确定所述非目标报警信息对应的故障根因。
6.根据权利要求5所述的方法,其特征在于,所述根据所述顶层报警信息确定所述非目标报警信息对应的故障根因,包括:
若所述顶层报警信息的数量为一个,则将所述顶层报警信息作为所述非目标报警信息对应的故障根因;
若所述顶层报警信息的数量大于一个,则将所述顶层报警信息进行输出,以指示用户从输出的所述顶层报警信息中确定所述非目标报警信息对应的故障根因。
7.根据权利要求1至4任一所述的方法,其特征在于,所述获取待进行故障根因定界的多个报警信息,包括:
接收在宿主机上部署的性能指标采集工具发送的所述宿主机报警信息;
接收在集群的目标节点上部署的事件检测工具发送的所述集群事件报警信息;
接收容器发送的所述容器报警信息。
8.一种故障定界装置,其特征在于,所述装置包括:
获取模块,用于获取待进行故障根因定界的多个报警信息,所述多个报警信息包括宿主机报警信息、容器报警信息和集群事件报警信息;
第一确定模块,用于从所述多个报警信息中筛选出符合直接定界规则的目标报警信息,并根据所满足的直接定界规则确定所述目标报警信息对应的故障根因;
第二确定模块,用于获取所述多个报警信息中的非目标报警信息,并确定所述非目标报警信息之间的关联关系,根据所述关联关系确定所述非目标报警信息对应的故障根因。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
11.一种计算机程序产品,包括计算机程序,其特征在于,该计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211465423.1A CN115776436A (zh) | 2022-11-22 | 2022-11-22 | 故障定界方法、装置、设备、存储介质和计算机程序产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211465423.1A CN115776436A (zh) | 2022-11-22 | 2022-11-22 | 故障定界方法、装置、设备、存储介质和计算机程序产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115776436A true CN115776436A (zh) | 2023-03-10 |
Family
ID=85389781
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211465423.1A Pending CN115776436A (zh) | 2022-11-22 | 2022-11-22 | 故障定界方法、装置、设备、存储介质和计算机程序产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115776436A (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109634819A (zh) * | 2018-10-26 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 告警根因定位方法和装置、电子设备 |
CN112395170A (zh) * | 2020-12-07 | 2021-02-23 | 平安普惠企业管理有限公司 | 智能故障分析方法、装置、设备及存储介质 |
CN114637649A (zh) * | 2022-03-01 | 2022-06-17 | 清华大学 | 一种基于oltp数据库系统的告警根因分析方法及装置 |
-
2022
- 2022-11-22 CN CN202211465423.1A patent/CN115776436A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109634819A (zh) * | 2018-10-26 | 2019-04-16 | 阿里巴巴集团控股有限公司 | 告警根因定位方法和装置、电子设备 |
CN112395170A (zh) * | 2020-12-07 | 2021-02-23 | 平安普惠企业管理有限公司 | 智能故障分析方法、装置、设备及存储介质 |
CN114637649A (zh) * | 2022-03-01 | 2022-06-17 | 清华大学 | 一种基于oltp数据库系统的告警根因分析方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103513983B (zh) | 用于预测性警报阈值确定工具的方法和系统 | |
US10025813B1 (en) | Distributed data transformation system | |
US10055275B2 (en) | Apparatus and method of leveraging semi-supervised machine learning principals to perform root cause analysis and derivation for remediation of issues in a computer environment | |
US10572512B2 (en) | Detection method and information processing device | |
WO2021213247A1 (zh) | 一种异常检测方法及装置 | |
US11847130B2 (en) | Extract, transform, load monitoring platform | |
JP6079243B2 (ja) | 障害分析支援装置、障害分析支援方法、及びプログラム | |
CN111240876B (zh) | 微服务的故障定位方法、装置、存储介质及终端 | |
CN105183619A (zh) | 一种系统故障预警方法和系统 | |
Shi et al. | STenSr: Spatio-temporal tensor streams for anomaly detection and pattern discovery | |
CN112328425A (zh) | 一种基于机器学习的异常检测方法和系统 | |
CN111722991A (zh) | 告警信息处理方法、装置、设备及存储介质 | |
WO2023086798A1 (en) | Anomaly detection with local outlier factor | |
US20190197432A9 (en) | Automated meta parameter search for invariant based anomaly detectors in log analytics | |
CN116414815A (zh) | 数据质量检测方法、装置、计算机设备和存储介质 | |
CN113297044A (zh) | 一种运维风险预警方法及装置 | |
US20220303188A1 (en) | Managing telecommunication network event data | |
CN112769615B (zh) | 一种异常分析方法及装置 | |
CN112306820A (zh) | 一种日志运维根因分析方法、装置、电子设备及存储介质 | |
CN115776436A (zh) | 故障定界方法、装置、设备、存储介质和计算机程序产品 | |
JP2012108708A (ja) | 障害検知装置、情報処理方法、およびプログラム | |
CN114443437A (zh) | 告警根因输出方法、装置、设备、介质和程序产品 | |
Chang et al. | A stack-based prospective spatio-temporal data analysis approach | |
CN113312197A (zh) | 批量故障的确定方法和装置,计算机存储介质和电子设备 | |
CN104852810A (zh) | 一种业务平台异常的确定方法和设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |