CN114090326A - 一种告警的根因确定方法、装置及设备 - Google Patents
一种告警的根因确定方法、装置及设备 Download PDFInfo
- Publication number
- CN114090326A CN114090326A CN202210039644.6A CN202210039644A CN114090326A CN 114090326 A CN114090326 A CN 114090326A CN 202210039644 A CN202210039644 A CN 202210039644A CN 114090326 A CN114090326 A CN 114090326A
- Authority
- CN
- China
- Prior art keywords
- alarm event
- similarity
- alarm
- historical
- current
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 42
- 239000013598 vector Substances 0.000 claims description 45
- 238000004891 communication Methods 0.000 claims description 17
- 230000004931 aggregating effect Effects 0.000 claims description 8
- 238000013528 artificial neural network Methods 0.000 claims description 7
- 230000006870 function Effects 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 abstract description 7
- 230000000875 corresponding effect Effects 0.000 description 24
- 238000012423 maintenance Methods 0.000 description 6
- 230000008569 process Effects 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000013507 mapping Methods 0.000 description 3
- 238000004364 calculation method Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000000354 decomposition reaction Methods 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000005215 recombination Methods 0.000 description 2
- 230000006798 recombination Effects 0.000 description 2
- 230000008439 repair process Effects 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/07—Responding to the occurrence of a fault, e.g. fault tolerance
- G06F11/0703—Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
- G06F11/079—Root cause analysis, i.e. error or fault diagnosis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Quality & Reliability (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明的实施例提供一种告警的根因确定方法、装置及设备,其中,根因确定方法包括:获得系统发出的告警消息的当前告警事件;根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。本发明的实施例能够快速准确的对类似异常告警事件的根因进行确定。
Description
技术领域
本发明涉及智能运维技术领域,特别是指一种告警的根因确定方法、装置及设备。
背景技术
根因定位是智能化运维的一个重要环节,用于在业务系统发生异常时,通过系统产生的异常告警信息快速的定位导致系统故障发生的原因。现有技术一般通过运维专家的经验建议异常根因的检索及判断,效率低下。
发明内容
本发明提供了一种告警的根因确定方法、装置及设备。能够快速准确的对类似异常告警事件的根因进行确定,进一步可以进行解决方案推荐,以辅助进行快速根因定位。
为解决上述技术问题,本发明的实施例提供以下方案:
一种告警的根因确定方法,包括:
获得系统发出的告警消息的当前告警事件;
根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;
根据所述相似度与预设阈值,确定所述告警消息的根因。
可选的,获得系统发出的告警消息的当前告警事件,包括:
对系统发出的告警消息进行告警合并,得到至少一个警报;
将预设时间窗口内的具有相关性的多个警报进行关联,生成当前告警事件。
可选的,根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度,包括:
根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度;
根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度;
根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度;
根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度。
可选的,根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度,包括:
将当前告警事件所包含的警报之间的拓扑关系图记为G1=(V1,E1);
将历史告警事件所包含的警报之间的拓扑关系图记为G2=(V2,E2);V代表拓扑关系图中的节点,E代表节点与节点之间的边;
可选的,根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度,包括:
获得当前告警事件所包含的警报之间的拓扑关系图的第一节点集合;
获得历史告警事件所包含的警报之间的拓扑关系图的第二节点集合;
获得所述第一节点集合和第二节点集合的交集;
将所述当前告警事件中所属节点为交集中的警报按预设时间粒度聚合为第一序列列表;
将所述历史告警事件中所属节点为交集中的警报按预设时间粒度聚合为第二序列列表;
根据所述第一序列列表和所述第二序列列表,计算所述当前告警事件与历史告警事件的时域相似度。
可选的,根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度,包括:
获取当前告警事件所包含的警报的描述字段的第一文本信息;
获取历史告警事件所包含的警报的描述字段的第二文本信息;
将所述第一文本信息向量化处理,得到第一向量;
将所述第二文本信息向量化处理,得到第二向量;
根据所述第一向量和所述第二向量,计算所述当前告警事件与历史告警事件的语义相似度。
可选的,根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度,包括:
其中,W1,W2,W3为预定义的可调节的权重参数,且满足W1+W2+W3=1;
本发明的实施例还提供一种告警的根因确定装置,所述装置包括:
获取模块,用于获得系统发出的告警消息的当前告警事件;
处理模块,用于根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。
本发明的实施例还提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的方法对应的操作。
本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上所述的方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获得系统发出的告警消息的当前告警事件;根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。能够快速准确的对类似异常告警事件的根因进行确定,进一步可以进行解决方案推荐,以辅助进行快速根因定位。
附图说明
图1为本发明实施例的告警的根因确定方法的流程示意图;
图2为本发明实施例的告警的根因确定方法的一具体流程示意图;
图3为本发明实施例的告警的根因确定装置的模块示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明的以下实施例中,告警消息、警报、事件和拓扑信息解释如下:
告警消息记为alert_message,原始告警消息具有但不限于以下属性,同时还具有其他属性,具体的告警信息的属性是由服务节点的特点所决定的。
警报记为alert,是由一段时间内大量重复的告警消息组成,警报具有但不限于以下属性:
事件记为incident,由一段时间窗口内具有相关性的警报组成,事件具有以下但不限于属性:
系统的配置拓扑信息记为Graph,Graph为节点Node的集合,Node具有但不限于以下属性:
如图1所示,本发明提供一种告警的根因确定方法,包括:
步骤11,获得系统发出的告警消息的当前告警事件;
步骤12,根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;
步骤13,根据所述相似度与预设阈值,确定所述告警消息的根因。
本发明的该实施例中,通过获得系统发出的告警消息的当前告警事件;根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。能够快速准确的对类似异常告警事件的根因进行确定,进一步可以进行解决方案推荐,以辅助进行快速根因定位。
本发明的一可选的实施例中,上述步骤11可以包括:
步骤111,对系统发出的告警消息进行告警合并,得到至少一个警报;
步骤112,将预设时间窗口内的具有相关性的多个警报进行关联,生成当前告警事件。
该实施例中,接收系统发出的告警消息alert_message,采用相应的告警合并算法,将具有相同host,属于同一系统故障,但具有不同alert_message_time的告警消息合并成一条警报alert。
进一步地,将上述合并得到的警报alert进行关联,利用相应的关联方法将在一定窗口时间内的具有相关性的警报关联起来生成事件,生成的告警事件为警报的集合,且所有的警报的时间跨度在一定的时间范围内。
本发明的一可选的实施例中,步骤12可以包括:
步骤121,根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度;
具体的,将当前告警事件所包含的警报之间的拓扑关系图记为G1=(V1,E1);
将历史告警事件所包含的警报之间的拓扑关系图记为G2=(V2,E2);V代表拓扑关系图中的节点,E代表节点与节点之间的边;
这里,对于incident_a(如上述当前告警事件),其所包含的警报集合为:
alertsa={ alert1,alert2,…,alertm};
利用警报所包含的主机信息,从系统配置信息Graph中取出相应的node_id信息,映射成:nodesa={node1,node2,…,nodem};
同理对于incident_b(如上述历史告警事件),获得:
Alertsb={ alert1,alert2,…,alertn};
将其映射成:nodesb={node1,node2,…,noden};
其中,相应的节点又包含各自的父亲节点与孩子节点的信息称之为边,将告警事件所包含的警报之间的拓扑信息记为:G1=(V1,E1)以及G2=(V2,E2)
a)对于每个节点i∈V初始化为向量xi,对于每条边(i,j)∈E初始化为向量xij;
b)编码层,利用两个不同的全连接网络MLP将节点向量xi与边向量xij映射为初始化的向量:
eij=MLPedge(xij),(i,j)∈E
e)网络参数通过公开标注的数据集训练得到,训练数据集的样本为(G1,G2,label),其中G1,G2为拓扑图,label为二者是否相似的标签{0,1}。
步骤122,根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度;
具体的,获得当前告警事件所包含的警报之间的拓扑关系图的第一节点集合;
获得历史告警事件所包含的警报之间的拓扑关系图的第二节点集合;
获得所述第一节点集合和第二节点集合的交集;
将所述当前告警事件中所属节点为交集中的警报按预设时间粒度聚合为第一序列列表;
将所述历史告警事件中所属节点为交集中的警报按预设时间粒度聚合为第二序列列表;
根据所述第一序列列表和所述第二序列列表,计算所述当前告警事件与历史告警事件的时域相似度。
这里,对于incident_a(如上述当前告警事件)与incident_b(如上述历史告警事件),基于上述获得的拓扑信息,计算二者所包含的节点的交集:
nodessame= nodesa∩nodesb
获取incident_a中所属节点为nodessame的警报:
将alert_i所包含的告警消息列表按照一定的时间粒度(如5分钟)聚合成时间序列记为:tsdi=[(time1,value1), (time2,value2),…, (timek,valuek)];
incident_a与incident_b包含的时间序列个数都为t。
进一步地,incident_a(如上述当前告警事件)与incident_b(如上述历史告警事件)所包含的时域相似性可以表示为:
其中,表示incident_a与incident_b所包含的相异节点的数量,表示计算两个时间序列相似度的函数,本发明的实施例中,不限制使用时间序列相似度的方法,如皮尔逊相关系数、相关系数等方法,一种可选的实施例中,采用相关系数的方法计算之后,归一化的范围为[0,1]之间。
步骤123,根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度;
具体地,获取当前告警事件所包含的警报的描述字段的第一文本信息;
获取历史告警事件所包含的警报的描述字段的第二文本信息;
将所述第一文本信息向量化处理,得到第一向量;
将所述第二文本信息向量化处理,得到第二向量;
根据所述第一向量和所述第二向量,计算所述当前告警事件与历史告警事件的语义相似度。
这里,获取incident_a与incident_b中包含警报的描述字段的文本信息,
利用文本向量化的手段将文本信息向量化,本发明的实施例不限制具体的文本向量化的方法,如TF-IDF,word2vec等方法,一种可选的实施例中,首先将文本信息分词之后,计算文本描述信息每个词中的TF-IDF值,将其表示为向量,向量的长度为词典的大小,记为与,之后计算二者的相似度。
步骤124,根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度。
其中,W1,W2,W3为预定义的可调节的权重参数,且满足W1+W2+W3=1;
进一步地,上述方法还可以包括:
计算当前告警事件与历史告警事件列表中每个历史事件之间的最大相似度,获得相似度列表;
基于得到的相似度的最大值,判断该最大值是否大于预设的阈值,如果大于,则返回incident_s对应的根因root_causes,进一步地,获得该根因root_causes对应的解决方案solutions,最终向用户推荐将该解决方案;
如果该最大值小于或者等于该阈值,则提示用户手动对告警事件进行根因定位及故障修复,并将该告警事件数据对应的结果数据(事件incidents,根因root_causes,解决方案solutions)存入到历史告警数据库中,以便后续进行根因定位。
如图2所示,为本发明的上述实施例的一具体实现流程:
获取系统发出的告警消息;
对告警消息进行告警合并,得到警报;
对警报进行关联,得到当前告警事件;
计算当前告警事件以及历史告警事件的拓扑相似度、时域相似度以及语义相似度;
根据拓扑相似度、时域相似度以及语义相似度,得到当前告警事件与历史告警事件列表中每个历史事件之间的相似度,得到相似度列表;
获取相似度列表中的最大值,即与当前告警事件具有最大相似度得分的历史事件及其得分,若该最大值大于或者预设阈值,输出历史告警事件对应的根因,进一步给出该根因对应的解决方案,并返回;
进一步地,如果该最大值小于或者等于预设阈值,人工标注故障及记录解决方案,并返回,进一步将解决方案存入历史告警数据库中。
本发明的上述实施例,基于告警消息处理后得到相应的告警事件incident后,从历史告警事件数据库中取出历史的告警事件集合{(incident1,root_cause1,solution1),....,(incidenti,root_causei,solutioni),(incidentk,root_causek,solutionk)},每个历史告警事件对应着该事件的推荐根因root_cause及解决方案solution。将当前事件与历史告警事件送入到相似度引擎中计算其相似度。综合运用了告警事件的拓扑信息、时域信息及文本信息,计算当前告警事件与历史告警事件的相似性,可以快速准确的对历史类似的告警事件进行检索,并提供相关的推荐根因及对应的故障解决方案,帮助运维人员进行快速的根因定位及故障修复,大大提高运维人员的根因定位的效率,同时对于历史上未出现的告警事件,提供了相应的存储机制,不断积累运维知识,以便后续根因确定和推荐时使用。
如图3所示,本发明的实施例还提供一种告警的根因确定装置30,所述装置30包括:
获取模块31,用于获得系统发出的告警消息的当前告警事件;
处理模块32,用于根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。
可选的,获得系统发出的告警消息的当前告警事件,包括:
对系统发出的告警消息进行告警合并,得到至少一个警报;
将预设时间窗口内的具有相关性的多个警报进行关联,生成当前告警事件。
可选的,根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度,包括:
根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度;
根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度;
根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度;
根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度。
可选的,根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度,包括:
将当前告警事件所包含的警报之间的拓扑关系图记为G1=(V1,E1);
将历史告警事件所包含的警报之间的拓扑关系图记为G2=(V2,E2);V代表拓扑关系图中的节点,E代表节点与节点之间的边;
可选的,根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度,包括:
获得当前告警事件所包含的警报之间的拓扑关系图的第一节点集合;
获得历史告警事件所包含的警报之间的拓扑关系图的第二节点集合;
获得所述第一节点集合和第二节点集合的交集;
将所述当前告警事件中所属节点为交集中的警报按预设时间粒度聚合为第一序列列表;
将所述历史告警事件中所属节点为交集中的警报按预设时间粒度聚合为第二序列列表;
根据所述第一序列列表和所述第二序列列表,计算所述当前告警事件与历史告警事件的时域相似度。
可选的,根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度,包括:
获取当前告警事件所包含的警报的描述字段的第一文本信息;
获取历史告警事件所包含的警报的描述字段的第二文本信息;
将所述第一文本信息向量化处理,得到第一向量;
将所述第二文本信息向量化处理,得到第二向量;
根据所述第一向量和所述第二向量,计算所述当前告警事件与历史告警事件的语义相似度。
可选的,根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度,包括:
其中,W1,W2,W3为预定义的可调节的权重参数,且满足W1+W2+W3=1;
需要说明的是,该装置是与上述方法对应的装置,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的方法对应的操作。
本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上所述的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种告警的根因确定方法,其特征在于,包括:
获得系统发出的告警消息的当前告警事件;
根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;
根据所述相似度与预设阈值,确定所述告警消息的根因。
2.根据权利要求1所述的告警的根因确定方法,其特征在于,获得系统发出的告警消息的当前告警事件,包括:
对系统发出的告警消息进行告警合并,得到至少一个警报;
将预设时间窗口内的具有相关性的多个警报进行关联,生成当前告警事件。
3.根据权利要求1所述的告警的根因确定方法,其特征在于,根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度,包括:
根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度;
根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度;
根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度;
根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度。
5.根据权利要求3所述的告警的根因确定方法,其特征在于,根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度,包括:
获得当前告警事件所包含的警报之间的拓扑关系图的第一节点集合;
获得历史告警事件所包含的警报之间的拓扑关系图的第二节点集合;
获得所述第一节点集合和第二节点集合的交集;
将所述当前告警事件中所属节点为交集中的警报按预设时间粒度聚合为第一序列列表;
将所述历史告警事件中所属节点为交集中的警报按预设时间粒度聚合为第二序列列表;
根据所述第一序列列表和所述第二序列列表,计算所述当前告警事件与历史告警事件的时域相似度。
6.根据权利要求3所述的告警的根因确定方法,其特征在于,根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度,包括:
获取当前告警事件所包含的警报的描述字段的第一文本信息;
获取历史告警事件所包含的警报的描述字段的第二文本信息;
将所述第一文本信息向量化处理,得到第一向量;
将所述第二文本信息向量化处理,得到第二向量;
根据所述第一向量和所述第二向量,计算所述当前告警事件与历史告警事件的语义相似度。
8.一种告警的根因确定装置,其特征在于,所述装置包括:
获取模块,用于获得系统发出的告警消息的当前告警事件;
处理模块,用于根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的方法对应的操作。
10.一种计算机可读存储介质,其特征在于,存储有指令,所述指令在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210039644.6A CN114090326B (zh) | 2022-01-14 | 2022-01-14 | 一种告警的根因确定方法、装置及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210039644.6A CN114090326B (zh) | 2022-01-14 | 2022-01-14 | 一种告警的根因确定方法、装置及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114090326A true CN114090326A (zh) | 2022-02-25 |
CN114090326B CN114090326B (zh) | 2022-06-03 |
Family
ID=80308636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210039644.6A Active CN114090326B (zh) | 2022-01-14 | 2022-01-14 | 一种告警的根因确定方法、装置及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114090326B (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277370A (zh) * | 2022-09-23 | 2022-11-01 | 云智慧(北京)科技有限公司 | 一种运维系统的根因节点的确定方法、装置及设备 |
CN116112339A (zh) * | 2022-12-29 | 2023-05-12 | 北京博睿宏远数据科技股份有限公司 | 一种根因告警的定位方法、装置、设备及介质 |
CN116155692A (zh) * | 2023-02-24 | 2023-05-23 | 北京优特捷信息技术有限公司 | 告警解决方案推荐方法、装置、电子设备及存储介质 |
CN116304117A (zh) * | 2023-05-15 | 2023-06-23 | 北京睿企信息科技有限公司 | 一种获取文本信息的数据处理方法、系统和存储介质 |
CN118410185A (zh) * | 2024-07-02 | 2024-07-30 | 山东远桥信息科技有限公司 | 一种基于知识库的监控系统告警智能处理方法及系统 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310085A1 (en) * | 2014-04-28 | 2015-10-29 | Moogsoft, Inc. | System for decomposing clustering events from managed infrastructures |
CN110309009A (zh) * | 2019-05-21 | 2019-10-08 | 北京云集智造科技有限公司 | 基于情境的运维故障根因定位方法、装置、设备及介质 |
CN110609759A (zh) * | 2018-06-15 | 2019-12-24 | 华为技术有限公司 | 一种故障根因分析的方法及装置 |
CN111756560A (zh) * | 2019-03-26 | 2020-10-09 | 中移(苏州)软件技术有限公司 | 一种数据处理方法、装置及存储介质 |
CN112148772A (zh) * | 2020-09-24 | 2020-12-29 | 创新奇智(成都)科技有限公司 | 告警根因识别方法、装置、设备和存储介质 |
CN112416645A (zh) * | 2020-12-03 | 2021-02-26 | 广州云岫信息科技有限公司 | 一种基于人工智能的故障根因推断定位方法及装置 |
CN113326173A (zh) * | 2021-08-04 | 2021-08-31 | 云智慧(北京)科技有限公司 | 一种告警消息的处理方法、装置及设备 |
CN113850381A (zh) * | 2021-09-15 | 2021-12-28 | 支付宝(杭州)信息技术有限公司 | 一种图神经网络训练方法及装置 |
-
2022
- 2022-01-14 CN CN202210039644.6A patent/CN114090326B/zh active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150310085A1 (en) * | 2014-04-28 | 2015-10-29 | Moogsoft, Inc. | System for decomposing clustering events from managed infrastructures |
CN110609759A (zh) * | 2018-06-15 | 2019-12-24 | 华为技术有限公司 | 一种故障根因分析的方法及装置 |
CN111756560A (zh) * | 2019-03-26 | 2020-10-09 | 中移(苏州)软件技术有限公司 | 一种数据处理方法、装置及存储介质 |
CN110309009A (zh) * | 2019-05-21 | 2019-10-08 | 北京云集智造科技有限公司 | 基于情境的运维故障根因定位方法、装置、设备及介质 |
CN112148772A (zh) * | 2020-09-24 | 2020-12-29 | 创新奇智(成都)科技有限公司 | 告警根因识别方法、装置、设备和存储介质 |
CN112416645A (zh) * | 2020-12-03 | 2021-02-26 | 广州云岫信息科技有限公司 | 一种基于人工智能的故障根因推断定位方法及装置 |
CN113326173A (zh) * | 2021-08-04 | 2021-08-31 | 云智慧(北京)科技有限公司 | 一种告警消息的处理方法、装置及设备 |
CN113850381A (zh) * | 2021-09-15 | 2021-12-28 | 支付宝(杭州)信息技术有限公司 | 一种图神经网络训练方法及装置 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115277370A (zh) * | 2022-09-23 | 2022-11-01 | 云智慧(北京)科技有限公司 | 一种运维系统的根因节点的确定方法、装置及设备 |
CN115277370B (zh) * | 2022-09-23 | 2023-02-03 | 云智慧(北京)科技有限公司 | 一种运维系统的根因节点的确定方法、装置及设备 |
CN116112339A (zh) * | 2022-12-29 | 2023-05-12 | 北京博睿宏远数据科技股份有限公司 | 一种根因告警的定位方法、装置、设备及介质 |
CN116155692A (zh) * | 2023-02-24 | 2023-05-23 | 北京优特捷信息技术有限公司 | 告警解决方案推荐方法、装置、电子设备及存储介质 |
CN116155692B (zh) * | 2023-02-24 | 2023-11-24 | 北京优特捷信息技术有限公司 | 告警解决方案推荐方法、装置、电子设备及存储介质 |
CN116304117A (zh) * | 2023-05-15 | 2023-06-23 | 北京睿企信息科技有限公司 | 一种获取文本信息的数据处理方法、系统和存储介质 |
CN116304117B (zh) * | 2023-05-15 | 2023-09-08 | 北京睿企信息科技有限公司 | 一种获取文本信息的数据处理方法、系统和存储介质 |
CN118410185A (zh) * | 2024-07-02 | 2024-07-30 | 山东远桥信息科技有限公司 | 一种基于知识库的监控系统告警智能处理方法及系统 |
CN118410185B (zh) * | 2024-07-02 | 2024-09-06 | 山东远桥信息科技有限公司 | 一种基于知识库的监控系统告警智能处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN114090326B (zh) | 2022-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN114090326B (zh) | 一种告警的根因确定方法、装置及设备 | |
CN109902283B (zh) | 一种信息输出方法及装置 | |
US11522881B2 (en) | Structural graph neural networks for suspicious event detection | |
US10848508B2 (en) | Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend | |
WO2021204272A1 (zh) | 基于隐私保护确定目标业务模型 | |
US11593672B2 (en) | Conversation history within conversational machine reading comprehension | |
Che et al. | Hierarchical deep generative models for multi-rate multivariate time series | |
CN104714931A (zh) | 用于选择用以代表表格式信息的方法和系统 | |
US20180330201A1 (en) | Time-series representation learning via random time warping | |
CN112615888B (zh) | 一种网络攻击行为的威胁评估方法及装置 | |
CN112948155B (zh) | 模型训练方法、状态预测方法、装置、设备及存储介质 | |
CN112822052B (zh) | 一种基于网络拓扑和告警的网络故障根因定位方法 | |
CN107832300A (zh) | 面向微创医疗领域文本摘要生成方法及装置 | |
CN114528190B (zh) | 单指标异常的检测方法、装置、电子设备及可读存储介质 | |
Lee et al. | Robust factorization of real-world tensor streams with patterns, missing values, and outliers | |
CN112016834A (zh) | 异常驾驶行为检测方法、装置、设备及存储介质 | |
CN115168443A (zh) | 一种基于gcn-lstm和注意力机制的异常检测方法及系统 | |
CN111563560A (zh) | 基于时序特征学习的数据流分类方法及装置 | |
CN113362852A (zh) | 一种用户属性识别方法和装置 | |
CN116561748A (zh) | 一种组件子序列相关性感知的日志异常检测装置 | |
Soliman et al. | Ensemble forecasting of the Zika space‐time spread with topological data analysis | |
Ferreira et al. | A new evolutionary method for time series forecasting | |
JP2010272004A (ja) | 判別装置及び判別方法、並びにコンピューター・プログラム | |
CN114463590A (zh) | 信息处理方法、装置、设备、存储介质及程序产品 | |
WO2023155967A1 (en) | Thermal anomaly management |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |