CN112395170A - 智能故障分析方法、装置、设备及存储介质 - Google Patents

智能故障分析方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112395170A
CN112395170A CN202011418571.9A CN202011418571A CN112395170A CN 112395170 A CN112395170 A CN 112395170A CN 202011418571 A CN202011418571 A CN 202011418571A CN 112395170 A CN112395170 A CN 112395170A
Authority
CN
China
Prior art keywords
information
alarm
alarm information
data
root cause
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011418571.9A
Other languages
English (en)
Inventor
韦鹏飞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Puhui Enterprise Management Co Ltd
Original Assignee
Ping An Puhui Enterprise Management Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Puhui Enterprise Management Co Ltd filed Critical Ping An Puhui Enterprise Management Co Ltd
Priority to CN202011418571.9A priority Critical patent/CN112395170A/zh
Publication of CN112395170A publication Critical patent/CN112395170A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/3003Monitoring arrangements specially adapted to the computing system or computing system component being monitored
    • G06F11/3006Monitoring arrangements specially adapted to the computing system or computing system component being monitored where the computing system is distributed, e.g. networked systems, clusters, multiprocessor systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/30Monitoring
    • G06F11/32Monitoring with visual or acoustical indication of the functioning of the machine
    • G06F11/324Display of status information
    • G06F11/327Alarm or error message display

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Quality & Reliability (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明涉及人工智能领域,公开了一种智能故障分析方法、装置、设备及存储介质。方法包括:获取多个第一告警信息,并分别对各第一告警信息进行预处理,生成各第一告警信息对应的告警信息编码向量;分别将各告警信息编码向量输入预置根故障分析模型进行根因分析,得到各第一告警信息对应的根故障信息;根据各第一告警信息与各根故障信息,生成根因告警规则库;实时监听目标系统中生成的第二告警信息;对第二告警信息进行预处理,得到告警信息的告警特征信息;根据告警特征信息,检索根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。本发明能够快速定位故障发生的根本原因,提高故障处理效率,保证系统的安全稳定运行。

Description

智能故障分析方法、装置、设备及存储介质
技术领域
本发明涉及人工智能领域,尤其涉及一种智能故障分析方法、装置、设备及存储介质。
背景技术
随着人工智能技术的高速发展,人工智能技术已经渗透进了我们生活中的方方面面,故障分析领域也逐渐融入了先进的人工智能技术。随着大数据、区块链、云计算的高速发展,我们的吃、穿、住、行都将被大数据等AI技术所改变,利用大数据算法可以推动许多行业的发展,在推动行业发展的同时就会面临技术不成熟带来的一系列应用故障,程序故障,网络故障问题,如何快速、准确的找到并解决应用故障,程序故障,网络故障问题急需解决。
随着运维技术的快速发展,其网元数量也在飞速增长,网络规模逐渐扩大,这就使其网络结构中会产生大量的告警信息,需要对这些告警信息进行分析,得到故障根源信息,根据故障根源信息定位故障所在。然而目前排除故障的方法依旧依赖于经验和人工排除来解决故障,人工经验排除故障不仅耗费时间长而且发生错误的概率很高,这样就导致了项目开发的所需时间长而且维护成本很高。
发明内容
本发明的主要目的在于解决依赖经验和人工操作排除故障而效率低的技术问题。
本发明第一方面提供了一种智能故障分析方法,包括:
获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量;
分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息;
根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库;
实时监听目标系统中生成的第二告警信息;
对所述第二告警信息进行预处理,得到所述告警信息的告警特征信息;
根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。
可选的,在本发明第一方面的第一种实现方式中,在所述获取多个第一告警信息之前,还包括:
采集多个第三告警信息作为告警样本,并标记各告警样本对应的根故障信息;
提取所述多个第三告警信息的数据属性,生成所述第三告警信息数据仓库;
将所述数据仓库中各个第三告警信息数据进行数据清理处理,得到标准化数据;
调用预置聚合函数,将所述标准化数据进行数据聚合运算,得到标量数据值;
将所述标量数据值进行所述独热编码向量转换,得到所述样本告警信息的编码向量;
将所述样本告警信息编码向量输入预置蒙特卡洛算法模型进行训练,对所述蒙特卡洛算法模型的参数进行校验和优化,直至所述蒙特卡洛算法模型收敛,得到根故障分析模型。
可选的,在本发明第一方面的第二种实现方式中,所述获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量包括:
获取多个第一告警信息;
提取所述第一告警信息的多种数据源属性,得到所述第一告警信息的属性信息数据;
将所述属性信息数据进行数据清洗,得到标准属性信息数据;
将所述标准属性信息数据进行数据聚合,得到数据标量值;
将所述数据标量值转换为独热编码向量,生成所述第一告警信息的告警信息编码向量。
可选的,在本发明第一方面的第三种实现方式中,所述获取多个第一告警信息包括:
采集目标系统的日志信息和网络监控信息;
对所述目标系统的日志信息进行embedding编码处理,得到日志向量;
将所述日志向量输入预置日志监控模型进行处理,输出所述日志信息的置信度,以及将所述网络监控信息输入预置网络监控模型进行特征提取,输出所述网络监控信息的特征数据;
判断所述日志信息的置信度是否超过预置置信度范围内,以及判断所述特征数据是否为异常数据;
若所述所述日志信息的置信度超过预置置信度范围内、所述特征数据为异常数据,则生成所述日志信息和所述网络监控信息对应的第一告警信息,若所述日志信息的置信度为正常值、所述特征数据为正常数据,则过滤所述日志信息。
可选的,在本发明第一方面的第四种实现方式中,所述分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息包括:
将所述告警信息编码向量输入预置根故障分析模型进行处理,得到数值化数据;
根据所述数值化数据判断各个所述告警信息之间的关联度,得到所述告警信息的特征数据;
调用预置根因分析函数,对所述特征数据进行根因分析,得到所述各第一告警信息对应的根故障信息。
可选的,在本发明第一方面的第五种实现方式中,所述根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库包括:
将所述各第一告警信息与所述各根故障信息进行组合,得到多个根因告警规则;
根据所述各根因告警规则之间的关联度,生成多个根因告警规则树并保存为根因告警规则库。
可选的,在本发明第一方面的第六种实现方式中,所述根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息包括:
将所述告警特征信息作为关键词,检索所述根因告警规则库,确定所述关键词所在的目标根因告警树;
遍历所述目标根因告警规则树,得到所述告警特征信息对应的目标根因告警规则;
根据所述目标根因告警规则,输出根因告警信息。
本发明第二方面提供了一种智能故障分析装置,所述智能故障分析装置包括:
第一预处理模块,用于获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量;
根因分析模块,用于分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息;
生成模块,用于根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库;
监听模块,用于实时监听目标系统中生成的第二告警信息;
第二预处理模块,用于对所述第二告警信息进行预处理,得到所述告警信息的告警特征信息;
检索模块,用于根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。
可选的,在本发明第二方面的第一种实现方式中,所述智能故障分析装置还包括:
样本处理模块,用于采集多个第三告警信息作为告警样本,并标记各告警样本对应的根故障信息;提取所述多个第三告警信息的数据属性,生成所述第三告警信息数据仓库;将所述数据仓库中各个第三告警信息数据进行数据清理处理,得到标准化数据;
聚合模块,用于调用预置聚合函数,将所述标准化数据进行数据聚合运算,得到标量数据值;将所述标量数据值进行所述独热编码向量转换,得到所述样本告警信息的编码向量;
训练模块,用于将所述样本告警信息编码向量输入预置蒙特卡洛算法模型进行训练,对所述蒙特卡洛算法模型的参数进行校验和优化,直至所述蒙特卡洛算法模型收敛,得到根故障分析模型。
可选的,在本发明第二方面的第二种实现方式中,所述第一预处理模块具体用于:
获取多个第一告警信息;
提取所述第一告警信息的多种数据源属性,得到所述第一告警信息的属性信息数据;
将所述属性信息数据进行数据清洗,得到标准属性信息数据;
将所述标准属性信息数据进行数据聚合,得到数据标量值;
将所述数据标量值转换为独热编码向量,生成所述第一告警信息的告警信息编码向量。
可选的,在本发明第二方面的第三种实现方式中,所述第一预处理模块还用于:
采集目标系统的日志信息和网络监控信息;
对所述目标系统的日志信息进行embedding编码处理,得到日志向量;
将所述日志向量输入预置日志监控模型进行处理,输出所述日志信息的置信度,以及将所述网络监控信息输入预置网络监控模型进行特征提取,输出所述网络监控信息的特征数据;
判断所述日志信息的置信度是否超过预置置信度范围内,以及判断所述特征数据是否为异常数据;
若所述所述日志信息的置信度超过预置置信度范围内、所述特征数据为异常数据,则生成所述日志信息和所述网络监控信息对应的第一告警信息,若所述日志信息的置信度为正常值、所述特征数据为正常数据,则过滤所述日志信息。
可选的,在本发明第二方面的第四种实现方式中,所述根因分析模块具体用于:
将所述告警信息编码向量输入预置根故障分析模型进行处理,得到数值化数据;
根据所述数值化数据判断各个所述告警信息之间的关联度,得到所述告警信息的特征数据;
调用预置根因分析函数,将所述特征数据进行根因分析,得到所述各第一告警信息对应的根故障信息。
可选的,在本发明第二方面的第五种实现方式中,所述生成模块具体用于:
将所述各第一告警信息与所述各根故障信息进行组合,得到多个根因告警规则;
根据所述各根因告警规则之间的关联度,生成多个根因告警规则树并保存为根因告警规则库。
可选的,在本发明第二方面的第六种实现方式中,所述检索模块具体用于:
将所述告警特征信息作为关键词,检索所述根因告警规则库,确定所述关键词所在的目标根因告警树;
遍历所述目标根因告警规则树,得到所述告警特征信息对应的目标根因告警规则;
根据所述目标根因告警规则,输出根因告警信息。
本发明第三方面提供了一种智能故障分析设备,包括:存储器和至少一个处理器,所述存储器中存储有指令;所述至少一个处理器调用所述存储器中的所述指令,以使得所述智能故障分析设备执行上述的智能故障分析方法。
本发明的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述的智能故障分析方法。
本发明提供的技术方案中,将多个生产环境中产生的告警信息进行预处理,得到编码向量,并将所述编码向量输入根因分析模型中进行特征提取,得到根故障信息,并将所述告警信息和所述根故障信息生成规则库,再将待处理的告警信息进行预处理,得到告警特征信息,并将所述告警特征信息作为关键词输入所述规则库进行检索,得到根因告警信息。所述根因分析模型将所述告警信息输出为规则信息,所述规则信息通过与规则库中的相似问题自动进行匹配,实现对故障产生原因的定位。本发明能够快速定位故障发生的根本原因,提高故障处理效率,保证系统的安全稳定运行。
附图说明
图1为本发明实施例中智能故障分析方法的第一个实施例示意图;
图2为本发明实施例中智能故障分析方法的第二个实施例示意图;
图3为本发明实施例中智能故障分析方法的第三个实施例示意图;
图4为本发明实施例中智能故障分析方法的第四个实施例示意图;
图5为本发明实施例中智能故障分析装置的一个实施例示意图;
图6为本发明实施例中智能故障分析设备的一个实施例示意图。
具体实施方式
本发明实施例提供了一种智能故障分析方法、装置、设备及存储介质。本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”或“具有”及其任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为便于理解,下面对本发明实施例的具体流程进行描述,请参阅图1,本发明实施例中智能故障分析方法的第一个实施例包括:
101、获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量;
可以理解的是,本发明的执行主体可以为智能故障分析装置,还可以是终端或者服务器,具体此处不做限定。本发明实施例以服务器为执行主体为例进行说明。
本实施例中,获取待处理的告警信息,告警信息的获取主要包括以下这些种类:
例如,通过监听生产系统,获取告警信息,比如获取合并单元重要告警信息:装置故障、SV总警告、SV采样链路中断、SV采样数据异常、GOOSE总警告、GOOSE链路中断等;智能终端重要告警信息:装置故障、运行异常、对时异常、检修状态投入、就地控制、GOOSE总警告、GOOSE链路中断等;保护装置重要告警信息:装置故障、SV总警告、SV采样链路中断、SV采样链路异常、GOOSE总警告、GOOSE链路中断等;继电保护用交换机告警信息:装置故障等;
本实施例中,告警信息主要是以往在生产环境中,比如AI开发、装置故障等过程中依靠人工对这些故障进行检查分析并发现问题根源的过程中形成的经验,凭借这些经验可以直接获取故障的根源所在,而且有着较高的准确率。这些凭借经验可以准确解决的告警信息被用作训练的样本。
本实施例中,所述根本对所述各第一告警信息进行预处理主要是对所述第一告警信息中的关键信息进行分析处理,通过对所述第一告警信息依次进行数据属性的提取,数据清洗,数据聚合和数据转换为独热向量编码操作,对告警信息进行过滤、筛选、匹配、分类等操作得到根源或衍生告警信息,通过对告警信息的预处理可以过滤掉原始告警信息中的冗杂信息只留下根源和衍生告警信息,数据处理的最终结果是将根源和衍生告警信息转化为算法可以识别的数据,即独热编码向量。
102、分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息;
本实施例中,将所述各告警信息编码向量输入预置根故障分析模型中进行特征信息的处理,将预处理得到的独热编码向量输入预置根故障分析模型,所述根故障分析模型通过算法对告警信息溯源,建立根源告警信息和衍生告警信息直接的联系,执行算法的训练结果用作根因分析,或做新数据预测分析。所述预置根故障分析模型基于蒙特卡洛算法模型构建,以确定性的超均匀分布代替蒙特卡洛算法中的随机数序列,对于某些特定问题计算速度比普通的蒙特卡洛算法高几百倍。
本实施例中,根故障分析指针对严重伤害事件,经由回溯性调查过程,广泛地收集各种主、客观科学证据,区分出近端与远端原因,以了解造成失误的过程和原因,并进行系统性检讨,研拟改善策略以减少失误的发生,就是找出造成潜在执行偏差的最基本或有因果关系的程序。根本原因分析法的基本概念是以系统改善为目的,着眼于整个系统及过程面的探究。
本实施例中,所述预置根故障分析模型最终产出监控异常与否的结果。采用根故障分析模型判断该条数据是否属于异常数据,这样抽象简化出来的故障只需要进行逻辑分析问题即可,而不需要对繁多的物理问题进行分析。
103、根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库;
本实施例中,将所述各第一告警信息与所述各根故障信息进行匹配,按照告警信息与产生告警信息的根故障信息进行一一对应,将所述各第一告警信息得到的根故障信息生成为一个规则,即将告警信号与根故障信息生成一个一一对应的规则,将所述各第一告警信息与之相匹配的故障故障生成的所有规则组合到一起,生成一个规则库,即为根因告警规则库。
本实施例中,将所述根故障信息对衍生和根源告警信息的分析,通过结果分析将知识转化得到的规则,所述根因告警规则库就是由多个规则组成一个数据库,规则1,规则2,规则3……规则n,这些规则是由所述第一告警信息通过所述预置根故障分析模型生成或是实际生产环境中人工经验积累的根故障分析规则回溯根本原因,根本原因就是导致我们所关注的问题发生的最基本的原因,利用预置根故障分析模型输出知识转换成规则与规则库的匹配结果得到根因告警信息。
可选的,在一实施例中,所述根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库包括:
将所述各第一告警信息与所述各根故障信息进行组合,得到多个根因告警规则;
根据所述各根因告警规则之间的关联度,生成多个根因告警规则树并保存为根因告警规则库。
本实施例中,将所述各第一告警信息与所述各根故障信息进行匹配,得到各告警信息与各根故障信息一一对应的规则,将所述各告警信息与各根故障信息一一对应的规则进行组合,将关联度较高的几条或是多条规则生成规则树,将所述规则树生成根因告警规则库。将结果分析模块的输出结果输入输出层与输出层中的规则库进行匹配,得到根源故障信息。规则库就是由多个告警信息与告警信息对应的根故障信息生成的对应规则,所述对应的规则组成一个数据库,规则1,规则2,规则3……规则n。
本实施例中,在进行故障处理时,通过收集生产系统的日志、诊断、操作记录等信息资料,将这些数据资料进行汇总,建立故障规则数据库,对于常见的问题实时得到处理意见,找到根故障点,对于没有出现过的故障信息,可以收集到规则数据库,方便以后更好的查找故障原因,确保生产系统健康平稳运行。
104、实时监听目标系统中生成的第二告警信息;
本实施例中,实时监听目标系统生产环境中的告警信息,生成的第二告警信息,得到生产环境中实时产生的第二告警信息。例如,根据实施生产环境中的日志服务,可以提供数据加工任务运行指标的数据加工诊断器,可以随时查看加工任务的运行指标信息,还可以通过订阅数据诊断器,针对数据诊断器中的指标信息设置告警监控。对数据加工任务设置监控,可以发现数据流量、加工逻辑、系统运行等潜在异常,并及时反馈给用户告警信息。
105、对所述第二告警信息进行预处理,得到所述告警信息的告警特征信息;
本实施例中,将所述第二告警信息输入数据处理层,首先将所述第二告警信息进行告警运维等多种数据源的属性提取,得到所述第二告警信息的属性信息数据,将所述属性信息数据进行数据清洗,将所述属性信息数据中的不重要数据,重复数据等删除,得到干净的属性数据,将所述干净的属性数据进行进一步的数据聚合处理,所述数据聚合处理可以调用现有函数进行处理,还可以使用其他方法进行处理,得到所述第二告警信息分类后的数据,将所述分类后的数据进行独热编码的向量转换得到所述预置根故障分析模型可以识别的数值向量,生成所述第二告警信息的告警特征信息。
106、根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。
本实施例中,将所述第二告警信息的告警特征信息作为关键词,对所述关键词进行所述根因告警规则库进行检索,通过输出层中与规则库的对应规则匹配,输出所述第二告警信息的根因告警信息,实现对系统的故障诊断。所述预置执行算法模型对实时告警信息进行识别,得到输出规则信息,根据规则信息与规则库中的规则进行匹配,匹配成功后,输出层输出根因故障信息。
本发明实施例中,将多个生产环境中产生的告警信息进行预处理,得到编码向量,并将所述编码向量输入根因分析模型中进行特征提取,得到根故障信息,并将所述告警信息和所述根故障信息生成规则库,再将待处理的告警信息进行预处理,得到告警特征信息,并将所述告警特征信息作为关键词输入所述规则库进行检索,得到根因告警信息。所述根因分析模型将所述告警信息输出为规则信息,所述规则信息通过与规则库中的相似问题自动进行匹配,实现对故障产生原因的定位。本发明能够快速定位故障发生的根本原因,提高故障处理效率,保证系统的安全稳定运行。
请参阅图2,本发明实施例中智能故障分析方法的第二个实施例包括:
201、采集多个第三告警信息作为告警样本,并标记各告警样本对应的根故障信息;
202、提取所述多个第三告警信息的数据属性,生成所述第三告警信息数据仓库;
203、将所述数据仓库中各个第三告警信息数据进行数据清理处理,得到标准化数据;
204、调用预置聚合函数,将所述标准化数据进行数据聚合运算,得到标量数据值;
205、将所述标量数据值进行所述独热编码向量转换,得到所述样本告警信息的编码向量;
206、将所述样本告警信息编码向量输入预置蒙特卡洛算法模型进行训练,对所述蒙特卡洛算法模型的参数进行校验和优化,直至所述蒙特卡洛算法模型收敛,得到根故障分析模型;
本实施例中,首先采集多个第三告警信息作为所述根故障分析模型的训练样本,并标记所述第三告警信息对应的根故障信息,调用sklearn工具对所述蒙特卡洛算法模型进行训练,本实施例中,所述提取数据属性是提取告警运维等多种数据源属性,比如设置日志文本属性,网络信息传输数据,数据库相关的调用读取信息,服务器资源使用信息等。将提取得到的各个告警信息属性数据生成具有某一共同特征的数据仓库。
本实施例中,所述数据清理是将数据库精简以除去重复记录,并使剩余部分转换成标准可接收格式的过程。数据清理标准模型是将数据输入到数据清理处理器,通过一系列步骤“清理”数据,然后以期望的格式输出清理过的数据。数据清洗是把脏的数据清洗掉,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。
本实施例中,第一阶段数据处理的最后一步为数据聚合,通常指的是转换数据,是每一个数组生成一个单一的数值。利用sum()、mean()和count()函数进行数据聚合操作,这些函数均是操作一组数据,得到的结果只有一个数值。数据聚合指的是任何能够从数组产生标量值的数据转换过程。可以使用常见的聚合运算通过就地计算数据集统计信息的优化实现。也可以使用自己发明的聚合运算,还可以调用分组对象上已经定义好的任何方法。
本实施例中,将数据聚合得到的所述告警信息数据利用独热编码向量进行数据转换。得到后续算法模型可以识别的告警信息编码向量。利用sklearn生成所述第三告警信息的数据集,将所述告警信息数据集中的各个告警信息数据进行处理,处理过程包括降维、数据归一化、特征提取和特征向量转换,得到所述蒙特卡洛算法模型的输入向量,即样本告警信息编码向量,将所述输入向量输入所述蒙特卡洛算法模型进行处理,得到所述告警信息数值数据;根据所述告警信息数值数据得到根因告警信息;根据所述根因告警信息对所述蒙特卡洛算法模型校验和优化,直至所述蒙特卡洛算法模型收敛,得到根故障分析模型。蒙特卡洛算法的作用包括:选择合适的数据,并将数据数值化。基于训练结果做根因分析,或做新数据预测分析,针对分析的结果做校验和优化。
本实施例中,利用确定性的超均匀分布代替蒙特卡洛算法中的随机数序列,对于某些特定问题计算速度比普通的蒙特卡洛算法高几百倍。由于产生随机数的随机性,当我们用N个随机点以蒙特卡罗方法来求解具体的问题时,其计算得到近似解的误差值有大有小,但是肯定有一个确定的平均值,即一些误差大于此值,而其余误差小于此值。鉴于此,显然肯定存在这样的N个点,使得误差的绝对值不大于平均值。如果我们能够构造这样的点集,就可以对原有的方法进行较大的改进。拟蒙特卡罗方法就是至于此而提出的,它致力于构造其误差比平均误差显著要好的那种点集,而其求解形式与蒙特卡罗方法一致,只不过所用的随机数不一样。
207、获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量;
208、分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息;
209、根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库;
210、实时监听目标系统中生成的第二告警信息;
211、对所述第二告警信息进行预处理,得到所述告警信息的告警特征信息;
212、根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。
本发明实施例中,通过获取多个第一告警信息,并分别对各第一告警信息进行预处理,所述预处理包括特征属性提取、数据清洗、数据聚合,将告警信息经过预处理可以有效提取出告警信息中的特征信息,并将特征信息转换为模型可以识别的向量,可以有效的对告警信息进行过滤、筛选、匹配、分类等操作得到根源或衍生告警信息。
请参阅图3,本发明实施例中智能故障分析方法的第三个实施例包括:
301、获取多个第一告警信息;
本实施例中,告警信息主要是以往在生产环境中,比如AI开发、装置故障等过程中依靠人工对这些故障进行检查分析并发现问题根源的过程中形成的经验,凭借这些经验可以直接获取故障的根源所在,而且有着较高的准确率。
可选地,在一实施例中,所述获取多个第一告警信息包括:
采集目标系统的日志信息和网络监控信息;
对所述目标系统的日志信息进行embedding编码处理,得到日志向量;
将所述日志向量输入预置日志监控模型进行处理,输出所述日志信息的置信度,以及将所述网络监控信息输入预置网络监控模型进行特征提取,输出所述网络监控信息的特征数据;
判断所述日志信息的置信度是否超过预置置信度范围内,以及判断所述特征数据是否为异常数据;
若所述所述日志信息的置信度超过预置置信度范围内,以及所述特征数据为异常数据,则生成所述日志信息和所述网络监控信息对应的第一告警信息,若所述日志信息的置信度为正常值,所述特征数据为正常数据,则过滤所述日志信息。
本实施例中,所述获取多个第一告警信息的总模型包括以下两个模型:日志监控模型和网络监控模型。采集多个生成系统的日志信息,将所述日志信息进行embedding向量转换,得到所述日志信息的embedding向量,将所述向量输入预置日志监控模型进行处理,利用GRU产出该条日志信息的置信度,根据所述日志信息的置信度判断所述日志信息是否属于异常值的置信度,若属于则反馈给总模型,若不属于则过滤该条日志信息。采集网络监控中的各类数值,将所述各类数值输入预置网络监控模型,利用GBDT算法提取所述输入数值的特征数据,根据所述特征数据判断所述输入数值是否属于异常数据,若属于异常数据则反馈总模型,若属于正常数据则过滤掉该条数据。总模型根据所述日志监控模型和所述网络监控模型反馈回来的异常置信度和异常数据,总模型最终产出监控异常的告警信息。
302、提取所述第一告警信息的多种数据源属性,得到所述第一告警信息的属性信息数据;
303、将所述属性信息数据进行数据清洗,得到标准属性信息数据;
304、将所述标准属性信息数据进行数据聚合,得到数据标量值;
305、将所述数据标量值转换为独热编码向量,生成所述第一告警信息的告警信息编码向量。
本实施例中,获取多个第一告警信息,将所述各个第一告警信息进行第一阶段的数据预处理,主要包括通过数据提取、数据清洗和数据聚合将各种不同类型的数据转换成算法可以输入的数据类型。首先通过提取所述第一告警信息的多种数据源属性,得到所述第一告警信息的属性信息数据,再将所述属性信息数据进行数据清洗,得到标准属性信息数据,所述标准属性信息数据进行数据聚合,得到数据标量值。本实施例中,通过提取所述多个第一告警信息的日志文本属性,网络信息传输数据,数据库相关的调用读取信息,服务器资源使用信息等数据源属性文本类型,将具有关联性的特征数据进行分类得到所述各第一告警信息的特征信息标量数据。
本实施例中,将第一特征告警数据进行第二阶段数据预处理,利用embedding转换成文本向量枚举类型的数据,利用独热编码将所述第一阶段得到的多个数据标量值进行转换,得到所述第一告警信息的告警信息编码向量。第二数据处理模块主要是进行算法模型的数据转换,将第一阶段处理后得到的告警信息数据标量值,通过独热向量编码进行独热向量转换,得到所述告警信息的数值向量,即为告警信息编码向量。
306、分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息;
307、根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库;
308、实时监听目标系统中生成的第二告警信息;
309、对所述第二告警信息进行预处理,得到所述告警信息的告警特征信息;
310、根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。
本实施例中,本方案所述第一告警信息、所述第二告警信息、所述第三告警信息都通过上述日志监控模型和网络监控模型产出监控异常告警输出告警信息得到。
本实施例中,embedding算法可以将自然语言转化成一串数字,使得自然语言可以计算,embedding向量降低了特征的维度,降低了计算复杂度。采用GBDT算法构建网络监控模型,GBDT通过采用加法模型(即基函数的线性组合),以及不断减小训练过程产生的残差来达到将数据分类并提取特征,利用GBDT判断所述网络监控终端各类数据是否属于异常数据。;
本发明实施例中,通过对提取信息进行属性提取,得到特征属性数据,将特征属性数据进行数据清洗、数据聚合将所述告警信息输出为规则信息,通过多种数据源进行分析,使得故障溯源更加有效和实用,溯源结果更加精确。
请参阅图4,本发明实施例中智能故障分析方法的第四个实施例包括:
401、获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量;
402、将所述告警信息编码向量输入预置根故障分析模型进行处理,得到数值化数据;
403、根据所述数值化数据判断各个所述告警信息之间的关联度,得到所述告警信息的特征数据;
404、调用预置根因分析函数,将所述特征数据进行根因分析,得到所述各第一告警信息对应的根故障信息;
本实施例中,将所述数据预处理后得到的告警信息编码向量输入所述预置根故障分析模型进行处理,得到数值化告警信息数据,将所述数值化告警信息数据与其他各个数值化告警信息数据进行识别,判断各个告警信息直接的关联度大小,得到所述告警信息的特征数据。调用rca_kpi_search函数去分析异常时刻的根因,得到所述各第一告警信息对应的根故障信息。根因分析函数将冗杂的告警信息筛选,得到根源故障信息和衍生故障信息,输出规则时由高层的根源故障信息到底层的衍生故障信息生成。
本实施例中,引起问题的原因通常有很多,物理条件、人为因素、系统行为、或者流程因素等等,通过科学分析,有可能发现不止一个根源性原因,日志服务提供了强大的告警和分析能力,可以帮助用户快速分析和定位到发生异常的具体的子维度。利用rca_kpi_search函数去分析异常时刻的根因。根因集合中的一项,数据按照数组形式存储,数组中的每一项是一个json类型的数据。根因集合中某一项(KPI)在原始数据中覆盖的叶子节点数。叶子节点:表示最细粒度属性组合的日志。所述rca_kpi_search函数在时序指标发生异常时,根因分析函数可以快速分析出是哪些相关维度属性发生异常而导致监控指标发生异常。
405、根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库;
406、实时监听目标系统中生成的第二告警信息;
407、对所述第二告警信息进行预处理,得到所述告警信息的告警特征信息;
408、根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。
本发明实施例中,利用人工智能算法技术,赋予了故障分析系统智能化能力,使故障分析模型可以实时处理告警信息,使系统能够忽略网络架构、设备、厂家等的差异,快速地抽取故障关联规则。本发明可以使人工智能在故障根因分析和定位过程中得到应用,使根因分析实现智能化,使根因故障点定位更加迅速准确,并且实时对系统进行监控有效反馈,大大提升运维效率和安全保障。
上面对本发明实施例中智能故障分析方法进行了描述,下面对本发明实施例中智能故障分析装置进行描述,请参阅图5,本发明实施例中智能故障分析装置一个实施例包括:
第一预处理模块501,用于获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量;
根因分析模块502,用于分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息;
生成模块503,用于根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库;
监听模块504,用于实时监听目标系统中生成的第二告警信息;
第二预处理模块505,用于对所述第二告警信息进行预处理,得到所述告警信息的告警特征信息;
检索模块506,用于根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。
可选的,在一实施例中,所述智能故障分析装置还包括:
样本处理模块,用于采集多个第三告警信息作为告警样本,并标记各告警样本对应的根故障信息;提取所述多个第三告警信息的数据属性,生成所述第三告警信息数据仓库;将所述数据仓库中各个第三告警信息数据进行数据清理处理,得到标准化数据;
聚合模块,用于调用预置聚合函数,将所述标准化数据进行数据聚合运算,得到标量数据值;将所述标量数据值进行所述独热编码向量转换,得到所述样本告警信息的编码向量;
训练模块,用于将所述样本告警信息编码向量输入预置蒙特卡洛算法模型进行训练,对所述蒙特卡洛算法模型的参数进行校验和优化,直至所述蒙特卡洛算法模型收敛,得到根故障分析模型。
可选的,在一实施例中,所述第一预处理模块501具体用于:
获取多个第一告警信息;
提取所述第一告警信息的多种数据源属性,得到所述第一告警信息的属性信息数据;
将所述属性信息数据进行数据清洗,得到标准属性信息数据;
将所述标准属性信息数据进行数据聚合,得到数据标量值;
将所述数据标量值转换为独热编码向量,生成所述第一告警信息的告警信息编码向量。
可选的,在一实施例中,所述第一预处理501模块还用于:
采集目标系统的日志信息和网络监控信息;
对所述目标系统的日志信息进行embedding编码处理,得到日志向量;
将所述日志向量输入预置日志监控模型进行处理,输出所述日志信息的置信度,以及将所述网络监控信息输入预置网络监控模型进行特征提取,输出所述网络监控信息的特征数据;
判断所述日志信息的置信度是否超过预置置信度范围内,以及判断所述特征数据是否为异常数据;
若所述所述日志信息的置信度超过预置置信度范围内、所述特征数据为异常数据,则生成所述日志信息和所述网络监控信息对应的第一告警信息,若所述日志信息的置信度为正常值、所述特征数据为正常数据,则过滤所述日志信息。
可选的,在一实施例中,所述根因分析模块502具体用于:
将所述告警信息编码向量输入预置根故障分析模型进行处理,得到数值化数据;
根据所述数值化数据判断各个所述告警信息之间的关联度,得到所述告警信息的特征数据;
调用预置根因分析函数,将所述特征数据进行根因分析,得到所述各第一告警信息对应的根故障信息。
可选的,在一实施例中,所述生成模块503具体用于:
将所述各第一告警信息与所述各根故障信息进行组合,得到多个根因告警规则;
根据所述各根因告警规则之间的关联度,生成多个根因告警规则树并保存为根因告警规则库。
可选的,在一实施例中,所述检索模块506具体用于:
将所述告警特征信息作为关键词,检索所述根因告警规则库,确定所述关键词所在的目标根因告警树;
遍历所述目标根因告警规则树,得到所述告警特征信息对应的目标根因告警规则;
根据所述目标根因告警规则,输出根因告警信息。
本发明实施例中,将多个生产环境中产生的告警信息进行预处理,得到编码向量,并将所述编码向量输入根因分析模型中进行特征提取,得到根故障信息,并将所述告警信息和所述根故障信息生成规则库,再将待处理的告警信息进行预处理,得到告警特征信息,并将所述告警特征信息作为关键词输入所述规则库进行检索,得到根因告警信息。所述根因分析模型将所述告警信息输出为规则信息,所述规则信息通过与规则库中的相似问题自动进行匹配,实现对故障产生原因的定位。本发明能够快速定位故障发生的根本原因,提高故障处理效率,保证系统的安全稳定运行。
上面图5从模块化功能实体的角度对本发明实施例中的智能故障分析装置进行详细描述,下面从硬件处理的角度对本发明实施例中智能故障分析设备进行详细描述。
图6是本发明实施例提供的一种智能故障分析设备的结构示意图,该智能故障分析设备600可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上处理器(central processing units,CPU)610(例如,一个或一个以上处理器)和存储器620,一个或一个以上存储应用程序633或数据632的存储介质630(例如一个或一个以上海量存储设备)。其中,存储器620和存储介质630可以是短暂存储或持久存储。存储在存储介质630的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对智能故障分析设备600中的一系列指令操作。更进一步地,处理器610可以设置为与存储介质630通信,在智能故障分析设备600上执行存储介质630中的一系列指令操作。
智能故障分析设备600还可以包括一个或一个以上电源640,一个或一个以上有线或无线网络接口650,一个或一个以上输入输出接口660,和/或,一个或一个以上操作系统631,例如Windows Serve,Mac OS X,Unix,Linux,FreeBSD等等。本领域技术人员可以理解,图6示出的智能故障分析设备结构并不构成对智能故障分析设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
本发明还提供一种智能故障分析设备,所述智能故障分析设备包括存储器和处理器,存储器中存储有计算机可读指令,计算机可读指令被处理器执行时,使得处理器执行上述各实施例中的所述智能故障分析方法的步骤。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质可以为非易失性计算机可读存储介质,该计算机可读存储介质也可以为易失性计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在计算机上运行时,使得计算机执行所述智能故障分析方法的步骤。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
以上所述,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种智能故障分析方法,其特征在于,所述智能故障分析方法包括:
获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量;
分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息;
根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库;
实时监听目标系统中生成的第二告警信息;
对所述第二告警信息进行预处理,得到所述告警信息的告警特征信息;
根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。
2.根据权利要求1所述的智能故障分析方法,其特征在于,在所述获取多个第一告警信息之前,还包括:
采集多个第三告警信息作为告警样本,并标记各告警样本对应的根故障信息;
提取所述多个第三告警信息的数据属性,生成所述第三告警信息数据仓库;
将所述数据仓库中各个第三告警信息数据进行数据清理处理,得到标准化数据;
调用预置聚合函数,将所述标准化数据进行数据聚合运算,得到标量数据值;
将所述标量数据值进行所述独热编码向量转换,得到所述样本告警信息的编码向量;
将所述样本告警信息编码向量输入预置蒙特卡洛算法模型进行训练,对所述蒙特卡洛算法模型的参数进行校验和优化,直至所述蒙特卡洛算法模型收敛,得到根故障分析模型。
3.根据权利要求1所述的智能故障分析方法,其特征在于,所述获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量包括:
获取多个第一告警信息;
提取所述第一告警信息的多种数据源属性,得到所述第一告警信息的属性信息数据;
将所述属性信息数据进行数据清洗,得到标准属性信息数据;
将所述标准属性信息数据进行数据聚合,得到数据标量值;
将所述数据标量值转换为独热编码向量,生成所述第一告警信息的告警信息编码向量。
4.根据权利要求1所述的智能故障分析方法,其特征在于,所述获取多个第一告警信息包括:
采集目标系统的日志信息和网络监控信息;
对所述目标系统的日志信息进行embedding编码处理,得到日志向量;
将所述日志向量输入预置日志监控模型进行处理,输出所述日志信息的置信度,以及将所述网络监控信息输入预置网络监控模型进行特征提取,输出所述网络监控信息的特征数据;
判断所述日志信息的置信度是否超过预置置信度范围内,以及判断所述特征数据是否为异常数据;
若所述所述日志信息的置信度超过预置置信度范围内、所述特征数据为异常数据,则生成所述日志信息和所述网络监控信息对应的第一告警信息,若所述日志信息的置信度为正常值、所述特征数据为正常数据,则过滤所述日志信息。
5.根据权利要求1所述的智能故障分析方法,其特征在于,所述分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息包括:
将所述告警信息编码向量输入预置根故障分析模型进行处理,得到数值化数据;
根据所述数值化数据判断各个所述告警信息之间的关联度,得到所述告警信息的特征数据;
调用预置根因分析函数,对所述特征数据进行根因分析,得到所述各第一告警信息对应的根故障信息。
6.根据权利要求1所述的智能故障分析方法,其特征在于,所述根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库包括:
将所述各第一告警信息与所述各根故障信息进行组合,得到多个根因告警规则;
根据所述各根因告警规则之间的关联度,生成多个根因告警规则树并保存为根因告警规则库。
7.根据权利要求1-6中任一项所述的智能故障分析方法,其特征在于,所述根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息包括:
将所述告警特征信息作为关键词,检索所述根因告警规则库,确定所述关键词所在的目标根因告警树;
遍历所述目标根因告警规则树,得到所述告警特征信息对应的目标根因告警规则;
根据所述目标根因告警规则,输出根因告警信息。
8.一种智能故障分析装置,其特征在于,所述智能故障分析装置包括:
第一预处理模块,用于获取多个第一告警信息,并分别对所述各第一告警信息进行预处理,生成所述各第一告警信息对应的告警信息编码向量;
根因分析模块,用于分别将所述各告警信息编码向量输入预置根故障分析模型进行根因分析,得到所述各第一告警信息对应的根故障信息;
生成模块,用于根据所述各第一告警信息与所述各根故障信息,生成根因告警规则库;
监听模块,用于实时监听目标系统中生成的第二告警信息;
第二预处理模块,用于对所述第二告警信息进行预处理,得到所述告警信息的告警特征信息;
检索模块,用于根据所述告警特征信息,检索所述根因告警规则库,输出与所述告警特征信息相对应的根因告警信息。
9.一种智能故障分析设备,其特征在于,所述智能故障分析设备包括:存储器和至少一个处理器,所述存储器中存储有指令;
所述至少一个处理器调用所述存储器中的所述指令,以使得所述智能故障分析设备执行如权利要求1-7中任一项所述的智能故障分析方法。
10.一种计算机可读存储介质,所述计算机可读存储介质上存储有指令,其特征在于,所述指令被处理器执行时实现如权利要求1-7中任一项所述的智能故障分析方法。
CN202011418571.9A 2020-12-07 2020-12-07 智能故障分析方法、装置、设备及存储介质 Pending CN112395170A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011418571.9A CN112395170A (zh) 2020-12-07 2020-12-07 智能故障分析方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011418571.9A CN112395170A (zh) 2020-12-07 2020-12-07 智能故障分析方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112395170A true CN112395170A (zh) 2021-02-23

Family

ID=74605162

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011418571.9A Pending CN112395170A (zh) 2020-12-07 2020-12-07 智能故障分析方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN112395170A (zh)

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112836770A (zh) * 2021-03-25 2021-05-25 中国工商银行股份有限公司 Kpi异常定位分析方法及系统
CN113240139A (zh) * 2021-06-03 2021-08-10 南京中兴新软件有限责任公司 告警因果评估方法、故障根因定位方法及电子设备
CN113438120A (zh) * 2021-08-26 2021-09-24 广州粤芯半导体技术有限公司 Zabbix告警管理方法及系统、计算机可读存储介质
CN113821418A (zh) * 2021-06-24 2021-12-21 腾讯科技(深圳)有限公司 故障跟因分析方法及装置、存储介质和电子设备
CN113946464A (zh) * 2021-10-19 2022-01-18 腾云悦智科技(深圳)有限责任公司 一种结合模型及经验的预训练和并行推演的告警降噪方法
CN114189428A (zh) * 2021-12-09 2022-03-15 中国电信股份有限公司 一种盒式波分系统的故障根因分析方法、系统与电子设备
CN114500229A (zh) * 2021-12-30 2022-05-13 国网河北省电力有限公司信息通信分公司 基于时空信息的网络告警定位及分析方法
CN114760186A (zh) * 2022-03-23 2022-07-15 深信服科技股份有限公司 告警分析方法、装置、电子设备及存储介质
CN114968727A (zh) * 2022-06-29 2022-08-30 北京柏睿数据技术股份有限公司 基于人工智能运维的数据库贯穿基础设施的故障定位方法
CN115086139A (zh) * 2021-03-12 2022-09-20 中国移动通信集团四川有限公司 通信网络告警故障处理优先级调整方法及装置
WO2022266890A1 (zh) * 2021-06-23 2022-12-29 华为技术有限公司 一种确定失效原因的方法及装置
WO2023011618A1 (en) * 2021-08-06 2023-02-09 International Business Machines Corporation Predicting root cause of alert using recurrent neural network
CN115776436A (zh) * 2022-11-22 2023-03-10 中国工商银行股份有限公司 故障定界方法、装置、设备、存储介质和计算机程序产品
CN116071902A (zh) * 2023-04-07 2023-05-05 山东金宇信息科技集团有限公司 一种监控机房动力设备的方法、设备及介质
WO2024007631A1 (zh) * 2022-07-08 2024-01-11 中兴通讯股份有限公司 故障根因告警定位方法、故障告警模式构建方法和设备

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115086139A (zh) * 2021-03-12 2022-09-20 中国移动通信集团四川有限公司 通信网络告警故障处理优先级调整方法及装置
CN115086139B (zh) * 2021-03-12 2023-08-15 中国移动通信集团四川有限公司 通信网络告警故障处理优先级调整方法及装置
CN112836770B (zh) * 2021-03-25 2024-02-27 中国工商银行股份有限公司 Kpi异常定位分析方法及系统
CN112836770A (zh) * 2021-03-25 2021-05-25 中国工商银行股份有限公司 Kpi异常定位分析方法及系统
CN113240139A (zh) * 2021-06-03 2021-08-10 南京中兴新软件有限责任公司 告警因果评估方法、故障根因定位方法及电子设备
CN113240139B (zh) * 2021-06-03 2023-09-26 南京中兴新软件有限责任公司 告警因果评估方法、故障根因定位方法及电子设备
WO2022266890A1 (zh) * 2021-06-23 2022-12-29 华为技术有限公司 一种确定失效原因的方法及装置
CN113821418B (zh) * 2021-06-24 2024-05-14 腾讯科技(深圳)有限公司 故障根因分析方法及装置、存储介质和电子设备
CN113821418A (zh) * 2021-06-24 2021-12-21 腾讯科技(深圳)有限公司 故障跟因分析方法及装置、存储介质和电子设备
US11928009B2 (en) 2021-08-06 2024-03-12 International Business Machines Corporation Predicting a root cause of an alert using a recurrent neural network
WO2023011618A1 (en) * 2021-08-06 2023-02-09 International Business Machines Corporation Predicting root cause of alert using recurrent neural network
CN113438120A (zh) * 2021-08-26 2021-09-24 广州粤芯半导体技术有限公司 Zabbix告警管理方法及系统、计算机可读存储介质
CN113946464A (zh) * 2021-10-19 2022-01-18 腾云悦智科技(深圳)有限责任公司 一种结合模型及经验的预训练和并行推演的告警降噪方法
CN114189428A (zh) * 2021-12-09 2022-03-15 中国电信股份有限公司 一种盒式波分系统的故障根因分析方法、系统与电子设备
CN114500229A (zh) * 2021-12-30 2022-05-13 国网河北省电力有限公司信息通信分公司 基于时空信息的网络告警定位及分析方法
CN114500229B (zh) * 2021-12-30 2024-02-02 国网河北省电力有限公司信息通信分公司 基于时空信息的网络告警定位及分析方法
CN114760186B (zh) * 2022-03-23 2024-05-28 深信服科技股份有限公司 告警分析方法、装置、电子设备及存储介质
CN114760186A (zh) * 2022-03-23 2022-07-15 深信服科技股份有限公司 告警分析方法、装置、电子设备及存储介质
CN114968727A (zh) * 2022-06-29 2022-08-30 北京柏睿数据技术股份有限公司 基于人工智能运维的数据库贯穿基础设施的故障定位方法
WO2024007631A1 (zh) * 2022-07-08 2024-01-11 中兴通讯股份有限公司 故障根因告警定位方法、故障告警模式构建方法和设备
CN115776436A (zh) * 2022-11-22 2023-03-10 中国工商银行股份有限公司 故障定界方法、装置、设备、存储介质和计算机程序产品
CN116071902A (zh) * 2023-04-07 2023-05-05 山东金宇信息科技集团有限公司 一种监控机房动力设备的方法、设备及介质

Similar Documents

Publication Publication Date Title
CN112395170A (zh) 智能故障分析方法、装置、设备及存储介质
CN109582551B (zh) 日志数据解析方法、装置、计算机设备和存储介质
CN107391353B (zh) 基于日志的复杂软件系统异常行为检测方法
CN113282461B (zh) 传输网的告警识别方法和装置
CN111027615B (zh) 基于机器学习的中间件故障预警方法和系统
CN111563606A (zh) 一种设备预测性维护方法及装置
US9489379B1 (en) Predicting data unavailability and data loss events in large database systems
CN110750377A (zh) 一种故障定位方法及装置
CN103761173A (zh) 一种基于日志的计算机系统故障诊断方法及装置
CN112559376A (zh) 一种数据库故障的自动定位方法、装置及电子设备
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
CN114721856A (zh) 业务数据处理方法、装置、设备及存储介质
CN111913824B (zh) 确定数据链路故障原因的方法及相关设备
CN111200530A (zh) 一种基于kpi指标进行根因分析的方法及装置
CN112818008A (zh) 核电调试故障智能诊断的方法、系统、介质及电子设备
CN115567370A (zh) 基于实时事件数据的自动化告警方法、存储介质及系统
CN114647558A (zh) 一种日志异常检测的方法和装置
CN111767193A (zh) 一种服务器数据异常检测方法、装置、存储介质及设备
CN111078457A (zh) 一种基于大数据的存储故障分析方法与装置
US20220284045A1 (en) Matching machine generated data entries to pattern clusters
CN115599621A (zh) 微服务异常诊断方法、装置、设备及存储介质
CN112686773A (zh) 一种基于融合业务拓扑的电力计量全链路关键业务异常定位模型构建方法
CN117370303A (zh) 一种生产线建模和分析方法及装置
CN116701652A (zh) 一种基于机器学习的数据库智能运维系统及方法
US12072838B2 (en) Method for generating a coherent representation for at least two log files

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination