CN114090326A - 一种告警的根因确定方法、装置及设备 - Google Patents

一种告警的根因确定方法、装置及设备 Download PDF

Info

Publication number
CN114090326A
CN114090326A CN202210039644.6A CN202210039644A CN114090326A CN 114090326 A CN114090326 A CN 114090326A CN 202210039644 A CN202210039644 A CN 202210039644A CN 114090326 A CN114090326 A CN 114090326A
Authority
CN
China
Prior art keywords
alarm event
similarity
alarm
historical
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210039644.6A
Other languages
English (en)
Other versions
CN114090326B (zh
Inventor
郑铁樵
张博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Cloudwise Beijing Technology Co Ltd
Original Assignee
Cloudwise Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cloudwise Beijing Technology Co Ltd filed Critical Cloudwise Beijing Technology Co Ltd
Priority to CN202210039644.6A priority Critical patent/CN114090326B/zh
Publication of CN114090326A publication Critical patent/CN114090326A/zh
Application granted granted Critical
Publication of CN114090326B publication Critical patent/CN114090326B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F11/00Error detection; Error correction; Monitoring
    • G06F11/07Responding to the occurrence of a fault, e.g. fault tolerance
    • G06F11/0703Error or fault processing not based on redundancy, i.e. by taking additional measures to deal with the error or fault not making use of redundancy in operation, in hardware, or in data representation
    • G06F11/079Root cause analysis, i.e. error or fault diagnosis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明的实施例提供一种告警的根因确定方法、装置及设备,其中,根因确定方法包括:获得系统发出的告警消息的当前告警事件;根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。本发明的实施例能够快速准确的对类似异常告警事件的根因进行确定。

Description

一种告警的根因确定方法、装置及设备
技术领域
本发明涉及智能运维技术领域,特别是指一种告警的根因确定方法、装置及设备。
背景技术
根因定位是智能化运维的一个重要环节,用于在业务系统发生异常时,通过系统产生的异常告警信息快速的定位导致系统故障发生的原因。现有技术一般通过运维专家的经验建议异常根因的检索及判断,效率低下。
发明内容
本发明提供了一种告警的根因确定方法、装置及设备。能够快速准确的对类似异常告警事件的根因进行确定,进一步可以进行解决方案推荐,以辅助进行快速根因定位。
为解决上述技术问题,本发明的实施例提供以下方案:
一种告警的根因确定方法,包括:
获得系统发出的告警消息的当前告警事件;
根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;
根据所述相似度与预设阈值,确定所述告警消息的根因。
可选的,获得系统发出的告警消息的当前告警事件,包括:
对系统发出的告警消息进行告警合并,得到至少一个警报;
将预设时间窗口内的具有相关性的多个警报进行关联,生成当前告警事件。
可选的,根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度,包括:
根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度;
根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度;
根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度;
根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度。
可选的,根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度,包括:
将当前告警事件所包含的警报之间的拓扑关系图记为G1=(V1,E1);
将历史告警事件所包含的警报之间的拓扑关系图记为G2=(V2,E2);V代表拓扑关系图中的节点,E代表节点与节点之间的边;
利用图神经网络将G1编码为相应的向量
Figure 129482DEST_PATH_IMAGE001
,将G2编码为相应的向量
Figure 843361DEST_PATH_IMAGE002
根据
Figure 403524DEST_PATH_IMAGE003
计算当前告警事件与历史告警事件的之间的拓扑相似度;其中,
Figure 861050DEST_PATH_IMAGE004
为向量的距离计算函数,
Figure 347526DEST_PATH_IMAGE005
为拓扑相似度。
可选的,根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度,包括:
获得当前告警事件所包含的警报之间的拓扑关系图的第一节点集合;
获得历史告警事件所包含的警报之间的拓扑关系图的第二节点集合;
获得所述第一节点集合和第二节点集合的交集;
将所述当前告警事件中所属节点为交集中的警报按预设时间粒度聚合为第一序列列表;
将所述历史告警事件中所属节点为交集中的警报按预设时间粒度聚合为第二序列列表;
根据所述第一序列列表和所述第二序列列表,计算所述当前告警事件与历史告警事件的时域相似度。
可选的,根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度,包括:
获取当前告警事件所包含的警报的描述字段的第一文本信息;
获取历史告警事件所包含的警报的描述字段的第二文本信息;
将所述第一文本信息向量化处理,得到第一向量;
将所述第二文本信息向量化处理,得到第二向量;
根据所述第一向量和所述第二向量,计算所述当前告警事件与历史告警事件的语义相似度。
可选的,根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度,包括:
根据公式;
Figure 215994DEST_PATH_IMAGE006
计算所述当前告警事件与历史告警事件的相似度;
其中,W1,W2,W3为预定义的可调节的权重参数,且满足W1+W2+W3=1;
Figure 279765DEST_PATH_IMAGE007
为所述当前告警事件与历史告警事件的拓扑相似度;
Figure 26135DEST_PATH_IMAGE008
为所述当前告警事件与历史告警事件的时域相似度;
Figure 889090DEST_PATH_IMAGE009
为所述当前告警事件与历史告警事件的语义相似度。
本发明的实施例还提供一种告警的根因确定装置,所述装置包括:
获取模块,用于获得系统发出的告警消息的当前告警事件;
处理模块,用于根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。
本发明的实施例还提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的方法对应的操作。
本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上所述的方法。
本发明的上述方案至少包括以下有益效果:
本发明的上述方案,通过获得系统发出的告警消息的当前告警事件;根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。能够快速准确的对类似异常告警事件的根因进行确定,进一步可以进行解决方案推荐,以辅助进行快速根因定位。
附图说明
图1为本发明实施例的告警的根因确定方法的流程示意图;
图2为本发明实施例的告警的根因确定方法的一具体流程示意图;
图3为本发明实施例的告警的根因确定装置的模块示意图。
具体实施方式
下面将参照附图更详细地描述本发明的示例性实施例。虽然附图中显示了本发明的示例性实施例,然而应当理解,可以以各种形式实现本发明而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
本发明的以下实施例中,告警消息、警报、事件和拓扑信息解释如下:
告警消息记为alert_message,原始告警消息具有但不限于以下属性,同时还具有其他属性,具体的告警信息的属性是由服务节点的特点所决定的。
Figure 679192DEST_PATH_IMAGE010
警报记为alert,是由一段时间内大量重复的告警消息组成,警报具有但不限于以下属性:
Figure 980991DEST_PATH_IMAGE011
事件记为incident,由一段时间窗口内具有相关性的警报组成,事件具有以下但不限于属性:
Figure 623063DEST_PATH_IMAGE012
系统的配置拓扑信息记为Graph,Graph为节点Node的集合,Node具有但不限于以下属性:
Figure 677607DEST_PATH_IMAGE013
如图1所示,本发明提供一种告警的根因确定方法,包括:
步骤11,获得系统发出的告警消息的当前告警事件;
步骤12,根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;
步骤13,根据所述相似度与预设阈值,确定所述告警消息的根因。
本发明的该实施例中,通过获得系统发出的告警消息的当前告警事件;根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。能够快速准确的对类似异常告警事件的根因进行确定,进一步可以进行解决方案推荐,以辅助进行快速根因定位。
本发明的一可选的实施例中,上述步骤11可以包括:
步骤111,对系统发出的告警消息进行告警合并,得到至少一个警报;
步骤112,将预设时间窗口内的具有相关性的多个警报进行关联,生成当前告警事件。
该实施例中,接收系统发出的告警消息alert_message,采用相应的告警合并算法,将具有相同host,属于同一系统故障,但具有不同alert_message_time的告警消息合并成一条警报alert。
进一步地,将上述合并得到的警报alert进行关联,利用相应的关联方法将在一定窗口时间内的具有相关性的警报关联起来生成事件,生成的告警事件为警报的集合,且所有的警报的时间跨度在一定的时间范围内。
本发明的一可选的实施例中,步骤12可以包括:
步骤121,根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度;
具体的,将当前告警事件所包含的警报之间的拓扑关系图记为G1=(V1,E1);
将历史告警事件所包含的警报之间的拓扑关系图记为G2=(V2,E2);V代表拓扑关系图中的节点,E代表节点与节点之间的边;
利用图神经网络将G1编码为相应的向量
Figure 513976DEST_PATH_IMAGE001
,将G2编码为相应的向量
Figure 536027DEST_PATH_IMAGE002
根据
Figure 217675DEST_PATH_IMAGE003
计算当前告警事件与历史告警事件的之间的拓扑相似度;其中,
Figure 392305DEST_PATH_IMAGE004
为向量的距离计算函数,包括不限于余弦相似度、欧式距离等计算方法,可选地,采用余弦相似度计算告警事件之间的拓扑相似度
Figure 773476DEST_PATH_IMAGE005
这里,对于incident_a(如上述当前告警事件),其所包含的警报集合为:
alertsa={ alert1,alert2,…,alertm};
利用警报所包含的主机信息,从系统配置信息Graph中取出相应的node_id信息,映射成:nodesa={node1,node2,…,nodem};
同理对于incident_b(如上述历史告警事件),获得:
Alertsb={ alert1,alert2,…,alertn};
将其映射成:nodesb={node1,node2,…,noden};
其中,相应的节点又包含各自的父亲节点与孩子节点的信息称之为边,将告警事件所包含的警报之间的拓扑信息记为:G1=(V1,E1)以及G2=(V2,E2)
进一步地,利用图神经网络GNN将G1与G2编码为相应的向量
Figure 643343DEST_PATH_IMAGE001
Figure 627218DEST_PATH_IMAGE002
。图神经网络GNN不限制具体结构及参数,本发明的实施例中,采用的模型组成如下:
a)对于每个节点i∈V初始化为向量xi,对于每条边(i,j)∈E初始化为向量xij
b)编码层,利用两个不同的全连接网络MLP将节点向量xi与边向量xij映射为初始化的向量:
Figure 921933DEST_PATH_IMAGE014
eij=MLPedge(xij),(i,j)∈E
c)利用节点的向量传播机制,对节点的向量进行迭代计算,传播之前的节点向量为
Figure 834525DEST_PATH_IMAGE015
,迭代之后的向量为:
Figure 831169DEST_PATH_IMAGE016
Figure 244833DEST_PATH_IMAGE017
其中
Figure 3841DEST_PATH_IMAGE018
为典型的MLP全连接网络,
Figure 992395DEST_PATH_IMAGE019
为MLP全连接网络,或者为循环神经网络如LSTM、GRU等。其中
Figure 571275DEST_PATH_IMAGE020
表示所有与节点i相关的传播向量
Figure 631372DEST_PATH_IMAGE021
之和;
d)利用c)步中经过T步迭代后得到的节点向量
Figure 635100DEST_PATH_IMAGE022
集合,得到Graph的向量:
Figure 155074DEST_PATH_IMAGE023
其中
Figure 860731DEST_PATH_IMAGE024
为非线性激活函数,Graph向量
Figure 881777DEST_PATH_IMAGE025
相当于对每个节点的向量进行加权求和之后,利用全连接网络
Figure 349798DEST_PATH_IMAGE026
映射之后得到。
e)网络参数通过公开标注的数据集训练得到,训练数据集的样本为(G1,G2,label),其中G1,G2为拓扑图,label为二者是否相似的标签{0,1}。
步骤122,根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度;
具体的,获得当前告警事件所包含的警报之间的拓扑关系图的第一节点集合;
获得历史告警事件所包含的警报之间的拓扑关系图的第二节点集合;
获得所述第一节点集合和第二节点集合的交集;
将所述当前告警事件中所属节点为交集中的警报按预设时间粒度聚合为第一序列列表;
将所述历史告警事件中所属节点为交集中的警报按预设时间粒度聚合为第二序列列表;
根据所述第一序列列表和所述第二序列列表,计算所述当前告警事件与历史告警事件的时域相似度。
这里,对于incident_a(如上述当前告警事件)与incident_b(如上述历史告警事件),基于上述获得的拓扑信息,计算二者所包含的节点的交集:
nodessame= nodesa∩nodesb
获取incident_a中所属节点为nodessame的警报:
Figure 273630DEST_PATH_IMAGE027
将alert_i所包含的告警消息列表按照一定的时间粒度(如5分钟)聚合成时间序列记为:tsdi=[(time1,value1), (time2,value2),…, (timek,valuek)];
由此获得
Figure 968047DEST_PATH_IMAGE028
所包含的各个节点所对应的时间序列列表:
Figure 792784DEST_PATH_IMAGE029
同理,获得incident_b中所属节点为
Figure 879426DEST_PATH_IMAGE030
的警报和时间序列列表:
Figure 210045DEST_PATH_IMAGE031
Figure 155873DEST_PATH_IMAGE032
incident_a与incident_b包含的时间序列个数都为t。
进一步地,incident_a(如上述当前告警事件)与incident_b(如上述历史告警事件)所包含的时域相似性可以表示为:
Figure 518721DEST_PATH_IMAGE033
其中,
Figure 226914DEST_PATH_IMAGE034
表示incident_a与incident_b所包含的相异节点的数量,
Figure 633494DEST_PATH_IMAGE035
表示计算两个时间序列相似度的函数,本发明的实施例中,不限制使用时间序列相似度的方法,如皮尔逊相关系数、相关系数等方法,一种可选的实施例中,采用相关系数的方法计算之后,归一化的范围为[0,1]之间。
步骤123,根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度;
具体地,获取当前告警事件所包含的警报的描述字段的第一文本信息;
获取历史告警事件所包含的警报的描述字段的第二文本信息;
将所述第一文本信息向量化处理,得到第一向量;
将所述第二文本信息向量化处理,得到第二向量;
根据所述第一向量和所述第二向量,计算所述当前告警事件与历史告警事件的语义相似度。
这里,获取incident_a与incident_b中包含警报的描述字段的文本信息,
Figure 817350DEST_PATH_IMAGE036
Figure 593676DEST_PATH_IMAGE037
利用文本向量化的手段将文本信息向量化,本发明的实施例不限制具体的文本向量化的方法,如TF-IDF,word2vec等方法,一种可选的实施例中,首先将文本信息分词之后,计算文本描述信息每个词中的TF-IDF值,将其表示为向量,向量的长度为词典的大小,记为
Figure 530277DEST_PATH_IMAGE038
Figure 124070DEST_PATH_IMAGE039
,之后计算二者的相似度。
步骤124,根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度。
具体的,根据公式;
Figure 280376DEST_PATH_IMAGE006
计算所述当前告警事件与历史告警事件的相似度;
其中,W1,W2,W3为预定义的可调节的权重参数,且满足W1+W2+W3=1;
Figure 624507DEST_PATH_IMAGE007
为所述当前告警事件与历史告警事件i的拓扑相似度;
Figure 431926DEST_PATH_IMAGE008
为所述当前告警事件与历史告警事件i的时域相似度;
Figure 947352DEST_PATH_IMAGE009
为所述当前告警事件与历史告警事件i的语义相似度。
进一步地,上述方法还可以包括:
计算当前告警事件与历史告警事件列表中每个历史事件之间的最大相似度,获得相似度列表;
取所述相似度列表中最大值及其关联的告警事件incident_s:
Figure 840222DEST_PATH_IMAGE040
Figure 863410DEST_PATH_IMAGE041
基于得到的相似度的最大值,判断该最大值是否大于预设的阈值
Figure 135123DEST_PATH_IMAGE042
,如果大于,则返回incident_s对应的根因root_causes,进一步地,获得该根因root_causes对应的解决方案solutions,最终向用户推荐将该解决方案;
如果该最大值小于或者等于该阈值,则提示用户手动对告警事件进行根因定位及故障修复,并将该告警事件数据对应的结果数据(事件incidents,根因root_causes,解决方案solutions)存入到历史告警数据库中,以便后续进行根因定位。
如图2所示,为本发明的上述实施例的一具体实现流程:
获取系统发出的告警消息;
对告警消息进行告警合并,得到警报;
对警报进行关联,得到当前告警事件;
计算当前告警事件以及历史告警事件的拓扑相似度、时域相似度以及语义相似度;
根据拓扑相似度、时域相似度以及语义相似度,得到当前告警事件与历史告警事件列表中每个历史事件之间的相似度,得到相似度列表;
获取相似度列表中的最大值,即与当前告警事件具有最大相似度得分的历史事件及其得分,若该最大值大于或者预设阈值,输出历史告警事件对应的根因,进一步给出该根因对应的解决方案,并返回;
进一步地,如果该最大值小于或者等于预设阈值,人工标注故障及记录解决方案,并返回,进一步将解决方案存入历史告警数据库中。
本发明的上述实施例,基于告警消息处理后得到相应的告警事件incident后,从历史告警事件数据库中取出历史的告警事件集合{(incident1,root_cause1,solution1),....,(incidenti,root_causei,solutioni),(incidentk,root_causek,solutionk)},每个历史告警事件对应着该事件的推荐根因root_cause及解决方案solution。将当前事件与历史告警事件送入到相似度引擎中计算其相似度。综合运用了告警事件的拓扑信息、时域信息及文本信息,计算当前告警事件与历史告警事件的相似性,可以快速准确的对历史类似的告警事件进行检索,并提供相关的推荐根因及对应的故障解决方案,帮助运维人员进行快速的根因定位及故障修复,大大提高运维人员的根因定位的效率,同时对于历史上未出现的告警事件,提供了相应的存储机制,不断积累运维知识,以便后续根因确定和推荐时使用。
如图3所示,本发明的实施例还提供一种告警的根因确定装置30,所述装置30包括:
获取模块31,用于获得系统发出的告警消息的当前告警事件;
处理模块32,用于根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。
可选的,获得系统发出的告警消息的当前告警事件,包括:
对系统发出的告警消息进行告警合并,得到至少一个警报;
将预设时间窗口内的具有相关性的多个警报进行关联,生成当前告警事件。
可选的,根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度,包括:
根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度;
根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度;
根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度;
根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度。
可选的,根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度,包括:
将当前告警事件所包含的警报之间的拓扑关系图记为G1=(V1,E1);
将历史告警事件所包含的警报之间的拓扑关系图记为G2=(V2,E2);V代表拓扑关系图中的节点,E代表节点与节点之间的边;
利用图神经网络将G1编码为相应的向量
Figure 336297DEST_PATH_IMAGE001
,将G2编码为相应的向量
Figure 989168DEST_PATH_IMAGE002
根据
Figure 35621DEST_PATH_IMAGE003
计算当前告警事件与历史告警事件的之间的拓扑相似度;其中,
Figure 427419DEST_PATH_IMAGE004
为向量的距离计算函数,
Figure 783183DEST_PATH_IMAGE005
为拓扑相似度。
可选的,根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度,包括:
获得当前告警事件所包含的警报之间的拓扑关系图的第一节点集合;
获得历史告警事件所包含的警报之间的拓扑关系图的第二节点集合;
获得所述第一节点集合和第二节点集合的交集;
将所述当前告警事件中所属节点为交集中的警报按预设时间粒度聚合为第一序列列表;
将所述历史告警事件中所属节点为交集中的警报按预设时间粒度聚合为第二序列列表;
根据所述第一序列列表和所述第二序列列表,计算所述当前告警事件与历史告警事件的时域相似度。
可选的,根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度,包括:
获取当前告警事件所包含的警报的描述字段的第一文本信息;
获取历史告警事件所包含的警报的描述字段的第二文本信息;
将所述第一文本信息向量化处理,得到第一向量;
将所述第二文本信息向量化处理,得到第二向量;
根据所述第一向量和所述第二向量,计算所述当前告警事件与历史告警事件的语义相似度。
可选的,根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度,包括:
根据公式:
Figure 650645DEST_PATH_IMAGE006
计算所述当前告警事件与历史告警事件i的相似度;
其中,W1,W2,W3为预定义的可调节的权重参数,且满足W1+W2+W3=1;
Figure 376156DEST_PATH_IMAGE007
为所述当前告警事件与历史告警事件i的拓扑相似度;
Figure 996362DEST_PATH_IMAGE008
为所述当前告警事件与历史告警事件i的时域相似度;
Figure 273759DEST_PATH_IMAGE009
为所述当前告警事件与历史告警事件i的语义相似度。
需要说明的是,该装置是与上述方法对应的装置,上述方法实施例中的所有实现方式均适用于该装置的实施例中,也能达到相同的技术效果。
本发明的实施例还提供一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如上所述的方法对应的操作。
本发明的实施例还提供一种计算机可读存储介质,存储有指令,所述指令在计算机上运行时,使得计算机执行如上所述的方法。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本发明所提供的实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
此外,需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行,某些步骤可以并行或彼此独立地执行。对本领域的普通技术人员而言,能够理解本发明的方法和装置的全部或者任何步骤或者部件,可以在任何计算装置(包括处理器、存储介质等)或者计算装置的网络中,以硬件、固件、软件或者它们的组合加以实现,这是本领域普通技术人员在阅读了本发明的说明的情况下运用他们的基本编程技能就能实现的。
因此,本发明的目的还可以通过在任何计算装置上运行一个程序或者一组程序来实现。所述计算装置可以是公知的通用装置。因此,本发明的目的也可以仅仅通过提供包含实现所述方法或者装置的程序代码的程序产品来实现。也就是说,这样的程序产品也构成本发明,并且存储有这样的程序产品的存储介质也构成本发明。显然,所述存储介质可以是任何公知的存储介质或者将来所开发出来的任何存储介质。还需要指出的是,在本发明的装置和方法中,显然,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。并且,执行上述系列处理的步骤可以自然地按照说明的顺序按时间顺序执行,但是并不需要一定按照时间顺序执行。某些步骤可以并行或彼此独立地执行。
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明所述原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种告警的根因确定方法,其特征在于,包括:
获得系统发出的告警消息的当前告警事件;
根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;
根据所述相似度与预设阈值,确定所述告警消息的根因。
2.根据权利要求1所述的告警的根因确定方法,其特征在于,获得系统发出的告警消息的当前告警事件,包括:
对系统发出的告警消息进行告警合并,得到至少一个警报;
将预设时间窗口内的具有相关性的多个警报进行关联,生成当前告警事件。
3.根据权利要求1所述的告警的根因确定方法,其特征在于,根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度,包括:
根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度;
根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度;
根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度;
根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度。
4.根据权利要求3所述的告警的根因确定方法,其特征在于,根据告警事件的拓扑信息,计算所述当前告警事件与历史告警事件的拓扑相似度,包括:
将当前告警事件所包含的警报之间的拓扑关系图记为G1=(V1,E1);
将历史告警事件所包含的警报之间的拓扑关系图记为G2=(V2,E2);V代表拓扑关系图中的节点,E代表节点与节点之间的边;
利用图神经网络将G1编码为相应的向量
Figure DEST_PATH_IMAGE001
,将G2编码为相应的向量
Figure 50792DEST_PATH_IMAGE002
根据
Figure DEST_PATH_IMAGE003
计算当前告警事件与历史告警事件的之间的拓扑相似度;其中,
Figure 673928DEST_PATH_IMAGE004
为向量的距离计算函数,
Figure DEST_PATH_IMAGE005
为拓扑相似度。
5.根据权利要求3所述的告警的根因确定方法,其特征在于,根据告警事件的时域信息,计算所述当前告警事件与历史告警事件的时域相似度,包括:
获得当前告警事件所包含的警报之间的拓扑关系图的第一节点集合;
获得历史告警事件所包含的警报之间的拓扑关系图的第二节点集合;
获得所述第一节点集合和第二节点集合的交集;
将所述当前告警事件中所属节点为交集中的警报按预设时间粒度聚合为第一序列列表;
将所述历史告警事件中所属节点为交集中的警报按预设时间粒度聚合为第二序列列表;
根据所述第一序列列表和所述第二序列列表,计算所述当前告警事件与历史告警事件的时域相似度。
6.根据权利要求3所述的告警的根因确定方法,其特征在于,根据告警事件的语义信息,计算所述当前告警事件与历史告警事件的语义相似度,包括:
获取当前告警事件所包含的警报的描述字段的第一文本信息;
获取历史告警事件所包含的警报的描述字段的第二文本信息;
将所述第一文本信息向量化处理,得到第一向量;
将所述第二文本信息向量化处理,得到第二向量;
根据所述第一向量和所述第二向量,计算所述当前告警事件与历史告警事件的语义相似度。
7.根据权利要求3所述的告警的根因确定方法,其特征在于,根据所述拓扑相似度、时域相似度和语义相似度,计算所述当前告警事件与历史告警事件的相似度,包括:
根据公式:
Figure 748063DEST_PATH_IMAGE006
计算所述当前告警事件与历史告警事件i的相似度;
其中,W1,W2,W3为预定义的可调节的权重参数,且满足W1+W2+W3=1;
Figure DEST_PATH_IMAGE007
为所述当前告警事件与历史告警事件i的拓扑相似度;
Figure 820931DEST_PATH_IMAGE008
为所述当前告警事件与历史告警事件i的时域相似度;
Figure DEST_PATH_IMAGE009
为所述当前告警事件与历史告警事件i的语义相似度。
8.一种告警的根因确定装置,其特征在于,所述装置包括:
获取模块,用于获得系统发出的告警消息的当前告警事件;
处理模块,用于根据告警事件的拓扑信息、时域信息和语义信息,计算所述当前告警事件与历史告警事件的相似度;根据所述相似度与预设阈值,确定所述告警消息的根因。
9.一种计算设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的方法对应的操作。
10.一种计算机可读存储介质,其特征在于,存储有指令,所述指令在计算机上运行时,使得计算机执行如权利要求1至7任一项所述的方法。
CN202210039644.6A 2022-01-14 2022-01-14 一种告警的根因确定方法、装置及设备 Active CN114090326B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210039644.6A CN114090326B (zh) 2022-01-14 2022-01-14 一种告警的根因确定方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210039644.6A CN114090326B (zh) 2022-01-14 2022-01-14 一种告警的根因确定方法、装置及设备

Publications (2)

Publication Number Publication Date
CN114090326A true CN114090326A (zh) 2022-02-25
CN114090326B CN114090326B (zh) 2022-06-03

Family

ID=80308636

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210039644.6A Active CN114090326B (zh) 2022-01-14 2022-01-14 一种告警的根因确定方法、装置及设备

Country Status (1)

Country Link
CN (1) CN114090326B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277370A (zh) * 2022-09-23 2022-11-01 云智慧(北京)科技有限公司 一种运维系统的根因节点的确定方法、装置及设备
CN116112339A (zh) * 2022-12-29 2023-05-12 北京博睿宏远数据科技股份有限公司 一种根因告警的定位方法、装置、设备及介质
CN116155692A (zh) * 2023-02-24 2023-05-23 北京优特捷信息技术有限公司 告警解决方案推荐方法、装置、电子设备及存储介质
CN116304117A (zh) * 2023-05-15 2023-06-23 北京睿企信息科技有限公司 一种获取文本信息的数据处理方法、系统和存储介质
CN118410185A (zh) * 2024-07-02 2024-07-30 山东远桥信息科技有限公司 一种基于知识库的监控系统告警智能处理方法及系统

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310085A1 (en) * 2014-04-28 2015-10-29 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures
CN110309009A (zh) * 2019-05-21 2019-10-08 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
CN111756560A (zh) * 2019-03-26 2020-10-09 中移(苏州)软件技术有限公司 一种数据处理方法、装置及存储介质
CN112148772A (zh) * 2020-09-24 2020-12-29 创新奇智(成都)科技有限公司 告警根因识别方法、装置、设备和存储介质
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
CN113326173A (zh) * 2021-08-04 2021-08-31 云智慧(北京)科技有限公司 一种告警消息的处理方法、装置及设备
CN113850381A (zh) * 2021-09-15 2021-12-28 支付宝(杭州)信息技术有限公司 一种图神经网络训练方法及装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150310085A1 (en) * 2014-04-28 2015-10-29 Moogsoft, Inc. System for decomposing clustering events from managed infrastructures
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
CN111756560A (zh) * 2019-03-26 2020-10-09 中移(苏州)软件技术有限公司 一种数据处理方法、装置及存储介质
CN110309009A (zh) * 2019-05-21 2019-10-08 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN112148772A (zh) * 2020-09-24 2020-12-29 创新奇智(成都)科技有限公司 告警根因识别方法、装置、设备和存储介质
CN112416645A (zh) * 2020-12-03 2021-02-26 广州云岫信息科技有限公司 一种基于人工智能的故障根因推断定位方法及装置
CN113326173A (zh) * 2021-08-04 2021-08-31 云智慧(北京)科技有限公司 一种告警消息的处理方法、装置及设备
CN113850381A (zh) * 2021-09-15 2021-12-28 支付宝(杭州)信息技术有限公司 一种图神经网络训练方法及装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277370A (zh) * 2022-09-23 2022-11-01 云智慧(北京)科技有限公司 一种运维系统的根因节点的确定方法、装置及设备
CN115277370B (zh) * 2022-09-23 2023-02-03 云智慧(北京)科技有限公司 一种运维系统的根因节点的确定方法、装置及设备
CN116112339A (zh) * 2022-12-29 2023-05-12 北京博睿宏远数据科技股份有限公司 一种根因告警的定位方法、装置、设备及介质
CN116155692A (zh) * 2023-02-24 2023-05-23 北京优特捷信息技术有限公司 告警解决方案推荐方法、装置、电子设备及存储介质
CN116155692B (zh) * 2023-02-24 2023-11-24 北京优特捷信息技术有限公司 告警解决方案推荐方法、装置、电子设备及存储介质
CN116304117A (zh) * 2023-05-15 2023-06-23 北京睿企信息科技有限公司 一种获取文本信息的数据处理方法、系统和存储介质
CN116304117B (zh) * 2023-05-15 2023-09-08 北京睿企信息科技有限公司 一种获取文本信息的数据处理方法、系统和存储介质
CN118410185A (zh) * 2024-07-02 2024-07-30 山东远桥信息科技有限公司 一种基于知识库的监控系统告警智能处理方法及系统
CN118410185B (zh) * 2024-07-02 2024-09-06 山东远桥信息科技有限公司 一种基于知识库的监控系统告警智能处理方法及系统

Also Published As

Publication number Publication date
CN114090326B (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
CN114090326B (zh) 一种告警的根因确定方法、装置及设备
CN109902283B (zh) 一种信息输出方法及装置
US11522881B2 (en) Structural graph neural networks for suspicious event detection
US10848508B2 (en) Method and system for generating synthetic feature vectors from real, labelled feature vectors in artificial intelligence training of a big data machine to defend
WO2021204272A1 (zh) 基于隐私保护确定目标业务模型
US11593672B2 (en) Conversation history within conversational machine reading comprehension
Che et al. Hierarchical deep generative models for multi-rate multivariate time series
CN104714931A (zh) 用于选择用以代表表格式信息的方法和系统
US20180330201A1 (en) Time-series representation learning via random time warping
CN112615888B (zh) 一种网络攻击行为的威胁评估方法及装置
CN112948155B (zh) 模型训练方法、状态预测方法、装置、设备及存储介质
CN112822052B (zh) 一种基于网络拓扑和告警的网络故障根因定位方法
CN107832300A (zh) 面向微创医疗领域文本摘要生成方法及装置
CN114528190B (zh) 单指标异常的检测方法、装置、电子设备及可读存储介质
Lee et al. Robust factorization of real-world tensor streams with patterns, missing values, and outliers
CN112016834A (zh) 异常驾驶行为检测方法、装置、设备及存储介质
CN115168443A (zh) 一种基于gcn-lstm和注意力机制的异常检测方法及系统
CN111563560A (zh) 基于时序特征学习的数据流分类方法及装置
CN113362852A (zh) 一种用户属性识别方法和装置
CN116561748A (zh) 一种组件子序列相关性感知的日志异常检测装置
Soliman et al. Ensemble forecasting of the Zika space‐time spread with topological data analysis
Ferreira et al. A new evolutionary method for time series forecasting
JP2010272004A (ja) 判別装置及び判別方法、並びにコンピューター・プログラム
CN114463590A (zh) 信息处理方法、装置、设备、存储介质及程序产品
WO2023155967A1 (en) Thermal anomaly management

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant