CN113326173A

CN113326173A - 一种告警消息的处理方法、装置及设备

Info

Publication number: CN113326173A
Application number: CN202110888796.9A
Authority: CN
Inventors: 郑铁樵; 张博
Original assignee: Cloudwise Beijing Technology Co Ltd
Current assignee: Cloudwise Beijing Technology Co Ltd
Priority date: 2021-08-04
Filing date: 2021-08-04
Publication date: 2021-08-31
Anticipated expiration: 2041-08-04
Also published as: CN113961425B; CN113961425A; CN113326173B

Abstract

本发明公开了一种告警消息的处理方法、装置及设备，该方法包括：获得至少一条告警消息；采用树形数据结构，对所述至少一条告警消息进行合并，得到至少一个警报；计算所述至少一个警报之间的语义相似度；根据所述至少一个警报之间的语义相似度，将所述至少一个警报进行关联处理，得到至少一个事件。通过上述方式，本发明可以使运维人员从海量的告警信息中提取出有价值的告警事件信息，对系统异常进行有效的异常定位，从而有效的处理告警风暴。

Description

一种告警消息的处理方法、装置及设备

技术领域

本发明涉及运维告警处理技术领域，特别是指一种告警消息的处理方法、装置及设备。

背景技术

告警是运维人员通过规则或者算法的手段对系统进行监控的重要手段，以便及时对系统异常进行相应的处置，同时通过对告警进行进一步分析从而对系统的故障现象进行进一步定位，采取相应的处置手段，解决异常。

现实的运维场景中，随着云计算和微服务架构的普及，系统服务节点拓扑日益复杂起来，某项具体的业务功能的完成需要系统的各服务节点相互配合，服务节点之间存在着复杂的依赖关系。当某系统服务节点发生异常引起该节点故障时，该故障会传递至所有依赖于此节点的服务链路，从而在短时间内产生的大量超出运维人员处理极限的告警信息，这种现象称之为告警风暴。

发明内容

本发明要解决的技术问题是如何提供一种告警消息的处理方法、装置及设备。解决现有技术中告警风暴不能有效处理的问题。

为解决上述技术问题，本发明的技术方案如下：

一种告警消息的处理方法，包括：

获得至少一条告警消息；

采用树形数据结构，对所述至少一条告警消息进行合并，得到至少一个警报；

计算所述至少一个警报之间的语义相似度；

根据所述至少一个警报之间的语义相似度，将所述至少一个警报进行关联处理，得到至少一个事件。

可选的，采用树形数据结构，对所述至少一条告警消息进行合并，得到至少一个警报，包括：

获得告警消息的合并参数，所述合并参数包括告警消息的属性以及第一相似度阈值；

根据所述合并参数中的告警消息的属性的属性值列表，对树形数据结构进行搜索，获得所述树形数据结构的叶子节点存储的警报列表；所述树形数据结构的每一层叶子节点存储一个属性值，属于同一叶子节点的告警消息的属性值相同；

计算所述告警消息与所述警报列表的相似度；

根据所述告警消息与所述警报列表的相似度与所述第一相似度阈值，将所述告警消息进行合并，得到至少一个警报。

可选的，根据所述告警消息与所述警报列表的相似度与所述第一相似度阈值，将所述告警消息进行合并，得到至少一个警报，包括：

若所述告警消息与所述警报列表的相似度大于所述第一相似度阈值，将所述告警消息进行合并，得到至少一个警报，否则，新建一个警报。

可选的，告警消息的处理方法，还包括以下至少一项：

若告警消息的发生时间大于警报的发生时间，将警报的发生时间更新为告警消息的发生时间；所述警报的发生时间为警报中最后合并的告警消息的发生时间；

将告警消息的描述信息与警报的描述信息的最长公共子序列LCS作为警报的更新后的描述信息。

可选的，计算所述至少一个警报之间的语义相似度，包括：

获得警报的关联参数；

根据所述关联参数，计算目标警报与事件列表中的有效事件的最大语义相似度与平均语义相似度。

可选的，所述关联参数为：（T_window,V_{max_sim},V_{mean_sim},W_t,W_host,W_desc）；

其中，T_window为事件的有效期窗口时间，V_{max_sim}为事件关联的最大阈值，V_{mean_sim}为事件关联的平均阈值，W_t为计算警报之间相似度时的时间相似度权重，W_host为计算警报之间相似度时的主机相似度权重，W_desc为计算警报之间相似度时的告警消息的描述信息相似度权重；

计算所述目标警报与事件列表中的有效事件的最大语义相似度v_max_i与平均语义相似度v_mean_i，得到：

[(v_max₁,v_mean₁),(v_max₂,v_mean₂),...,(v_max_n,v_mean_n)]；

其中，n为事件列表中有效事件的数量；

对最大语义相似度列表取最大值，得到相应的第一事件incident_a和最大值v_max：

incident_a,v_max=(v_max₁,v_max₂,...,v_max_n)；

对平均语义相似度列表取最大值，得到相应的第二事件incident_b和最大值v_mean：

incident_b,v_mean=(v_mean₁,v_mean₂,...,v_mean_n)。

可选的，根据所述至少一个警报之间的语义相似度，将所述至少一个警报进行关联处理，得到至少一个事件，包括：

若v_max＞V_{max_sim}，则将警报加入到第一事件incident_a中，并更新第一事件incident_a；

若v_max＞V_{max_sim}不满足，但满足v_mean＞V_{mean_sim}，则将警报加入到第二事件incident_b中，并更新第二事件incident_b；

若v_max＞V_{max_sim}不满足，v_mean＞V_{mean_sim}也不满足，则新建一个事件，并把该事件加入到事件列表中。

本发明的实施例还提供一种告警消息的处理装置，包括：

获取模块，用于获得至少一条告警消息；

第一合并模块，用于采用树形数据结构，对所述至少一条告警消息进行合并，得到至少一个警报；

计算模块，用于计算所述至少一个警报之间的语义相似度；

第二合并模块，用于根据所述至少一个警报之间的语义相似度，将所述至少一个警报进行关联处理，得到至少一个事件。

本发明的实施例还提供一种电子设备，包括：处理器、存储有计算机程序的存储器，所述计算机程序被处理器运行时，执行如上所述的告警消息的处理方法。

本发明的实施例还提供一种计算机可读存储介质，所述计算机可读存储介质用于存储指令，当所述指令在计算机上运行时，使得计算机执行如上所述的告警消息的处理方法。

本发明的上述方案至少包括以下有益效果：

通过获得至少一条告警消息；采用树形数据结构，对告警消息进行合并，得到至少一个警报；计算所述至少一个警报之间的语义相似度；根据所述至少一个警报之间的语义相似度，将所述至少一个警报进行关联处理，得到至少一个事件。可以使运维人员从海量的告警信息中提取出有价值的告警事件信息，对系统异常进行有效的异常定位，从而有效的处理告警风暴。

上述说明仅是本发明实施例技术方案的概述，为了能够更清楚了解本发明实施例的技术手段，而可依照说明书的内容予以实施，并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明实施例的具体实施方式。

附图说明

通过阅读下文优选实施方式的详细描述，各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的，而并不认为是对本发明实施例的限制。而且在整个附图中，用相同的参考符号表示相同的部件。在附图中：

图1示出了本发明实施例提供的告警消息的处理方法流程图；

图2示出了本发明实施例提供的基于树形数据结构进行告警合并的方法流程图；

图3示出了本发明实施例提供的基于语义相似度的警报关联的方法流程图；

图4示出了本发明实施例提供的另一个告警消息的处理方法流程图；

图5示出了本发明实施例提供的时间相似度计算函数图；

图6示出了本发明实施例提供的告警消息的处理装置的结构示意图；

图7示出了本发明实施例提供的计算设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例，然而应当理解，可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反，提供这些实施例是为了能够更透彻地理解本公开，并且能够将本公开的范围完整的传达给本领域的技术人员。

如图1所示，本发明的实施例提供一种告警消息的处理方法，包括：

步骤11，获得至少一条告警消息；

步骤12，采用树形数据结构，对所述至少一条告警消息进行合并，得到至少一个警报；

步骤13，计算所述至少一个警报之间的语义相似度；

步骤14，根据所述至少一个警报之间的语义相似度，将所述至少一个警报进行关联处理，得到至少一个事件。

该实施例所述的告警消息的处理方法，通过获得至少一条告警消息；采用树形数据结构，对所述至少一条告警消息进行合并，得到至少一个警报；计算所述至少一个警报之间的语义相似度；根据所述至少一个警报之间的语义相似度，将所述至少一个警报进行关联处理，得到至少一个事件。可以使运维人员从海量的告警信息中提取出有价值的告警信息，对系统异常进行有效的异常定位，从而有效的处理告警风暴。

在本发明的实施例中，告警消息记为alert_message，告警消息包括如下至少一种属性，具体如下：

alert_message_id为告警消息的id；

alert_message_time为告警消息的发生时间；

alert_message_description为告警消息的具体描述信息；

alert_message_host为告警消息的主机信息；

alert_message_source为告警消息中的来源信息；

alert_message_check为告警消息的摘要信息等。

告警消息具有但不限于以上所述的告警消息属性，同时还具有其他的告警消息属性，具体的告警消息属性是由服务节点的特点所决定的。

警报记为alert，是由一段时间内大量重复的告警消息组成的，警报包括如下至少一种属性：

alert_id为警报的id；

alert_time为警报的中最后的合并的告警消息时间；

alert_description为警报的描述信息；

alert_host为警报的来源信息等。

警报属性具有但不限于以上所述的警报属性。事件记为incident，是由一段时间窗口内具有相关性的警报组成的，事件包括如下至少一种属性：

incident_last_time为事件的最后关联的警报的时间；

incident_id为事件的id等。

事件属性具有但不限于以上所述的事件属性。

如图2所示，本发明实施例提供的基于树形数据结构进行告警合并的方法中，步骤12可以包括：

步骤121，获得告警消息的合并参数，所述合并参数包括属性值以及第一相似度阈值；

具体的，定义告警消息（alert_message）合并参数，合并参数的公式为：merge_para=(fields,sim_threshold)，fields=[field_1,field_2,...,field_n]，这里fields为属性列表，sim_threshold为第一相似性阈值，取值为0至1之间的浮点数。

步骤122，根据所述合并参数中的告警消息的属性的属性值列表，对树形数据结构进行搜索，获得所述树形数据结构的叶子节点存储的警报列表；所述树形数据结构的每一层叶子节点存储一个属性值，属于同一叶子节点的告警消息的属性值相同；

具体的，在线接收到所述告警消息（alert_message）后，依据步骤121中的属性列表fields，得到告警消息的属性值列表：values=[value_1,value_2,...,value_n]，依据属性值列表对树形数据结构进行搜索，直至搜索到树形数据结构的叶子节点属于同一叶子节点的告警消息的属性值values都是一致的，最后获取该叶子节点上储存的警报。在该步骤中，所述树形数据结构的第一层叶子节点存储value_1，树形数据结构的第二层叶子节点存储value_2，依次类推。所述叶子节点存储了一系列警报，即警报列表。

步骤123，计算告警消息与所述警报列表的相似度；

具体的，依据步骤122中搜索得到的叶子节点，通过计算告警消息的alert_message_description与第i个警报的alert_description的文本相似度值sim_value_i，依次计算每个告警消息与警报列表之间的相似度。该实施例所述的相似度的计算方法包括但不限于以下算法：hamming distance（汉明距离），jaro-winkler distance（编辑距离算法），jaccard distance（杰卡德距离）。

步骤124，根据所述告警消息与所述警报列表的相似度与所述第一相似度阈值，将所述告警消息进行合并，得到至少一个警报。

该实施例中，主要是基于树形数据结构对告警消息进行合并，并生成警报alert。告警消息合并指的是将短时间内的重复告警消息（alert_message）合并起来成为一个警报（alert）。

在本发明的又一可选的实施例中，步骤124可以包括：若所述告警消息与所述警报列表的相似度大于所述第一相似度阈值，将所述告警消息进行合并，得到至少一个警报，否则，新建一个警报。

该实施例中，若sim_value_i＞sim_threshold，则将所有告警消息合并至该警报中去，同时更新警报的时间属性（alert_time）和描述属性（alert_description）。若sim_value_i＜sim_threshold或sim_value_i=sim_threshold，则新建一个警报alert，新建警报的时间属性（alert_time）为告警消息的发生时间（alert_message_time），新建警报的描述属性（alert_description）为告警消息的具体描述信息（alert_message_description）。该警报只包含新传入的告警消息，然后返回警报的id信息（alert_id)。

在本发明的又一可选的实施例中，步骤124后还可以包括以下至少一项：

步骤125，若告警消息的发生时间大于警报的发生时间，将警报的发生时间更新为告警消息的发生时间；所述警报的发生时间为警报中最后合并的告警消息的发生时间。

具体的，若告警消息的时间属性（alert_message_time）大于警报的发生时间属性（alert_time），将alert_time更新为alert_message_time。

步骤126，将告警消息的描述信息与警报的描述信息的最长公共子序列LCS作为警报的更新后的描述信息。

具体的，计算告警消息的描述属性（alert_message_description）与警报的描述属性（alert_description）的LCS作为警报的更新后的描述属性（alert_description）。该实施例中所述的LCS为最长公共子序列。

如图3所示，本发明实施例提供的基于语义相似度的警报关联的方法中，步骤13可以包括：

步骤131，获得警报的关联参数；

所述关联参数为：（T_window,V_{max_sim},V_{mean_sim},W_t,W_host,W_desc）

步骤132，根据所述关联参数，计算目标警报与事件列表中的有效事件的最大语义相似度与平均语义相似度。

在本发明的又一可选的实施例中，步骤132可以包括：

[(v_max₁,v_mean₁),(v_max₂,v_mean₂),...,(v_max_n,v_mean_n)]

其中，n为事件列表中有效事件的数量；

对最大语义相似度列表取最大得到相应的事件incident_a和最大值v_max：

incident_a,v_max=(v_max₁,v_max₂,...,v_max_n)

对平均语义相似度列表取最大得到相应的事件incident_b和最大值v_mean：

incident_b,v_mean=(v_mean₁,v_mean₂,...,v_mean_n)。

具体的，在线接收到一条警报alert_input，依次计算警报alert_input与事件列表中的有效事件的最大语义相似度v_max_i与平均语义相似度v_mean_i，得到[(v_max₁,v_mean₁),(v_max₂,v_mean₂),...,(v_max_n,v_mean_n)]。其中n为事件列表中有效事件的数量。对最大语义相似度列表取最大得到相应的事件incident_a和最大值v_max：incident_a,v_max=(v_max₁,v_max₂,...,v_max_n)。对平均语义相似度列表取最大得到相应的事件incident_b和最大值v_mean：incident_b,v_mean=(v_mean₁,v_mean₂,...,v_mean_n)。

在本发明的又一可选的实施例中，步骤14可以包括：

若v_max＞V_{max_sim}不满足，但满足下述条件：v_mean＞V_{mean_sim}，则将警报加入到第二事件incident_b中，并更新第二事件incident_b；

具体的，若v_max＞V_{max_sim}，则将警报alert_input和第一事件（incident_a）关联起来，即将警报加入到第一时间（incident_a）中去，并更新第一事件；若上述条件不满足但满足下述条件v_mean＞V_{mean_sim}，则将警报alert_input和第二事件（incident_b）关联起来，即将警报加入到（incident_b）中去，并更新事件。若该条件不满足则新建一个事件incident，并把该事件加入到事件列表当中去。

该实施例中，将属于语义上属于同一类型的警报关联起来。通过计算警报与警报之间的语义相似度，利用在线聚类的方法将相邻的警报关联起来。所述告警关联是指将具有内在相关性的警报关联起来成为一个事件。典型的告警的关联方法是基于规则的告警关联方法，如将来自同一服务节点的警报关联起来，或将属于同属一业务的警报关联起来。

如图4所示，本发明的实施例提供的另一种告警消息的降噪处理方法，在上述步骤11至14的基础上，得到至少一个事件后还可以包括：

步骤41，判断所述事件是否为有效事件；

具体的，对所述事件判断，计算警报alert_input的alert_time与事件列表中事件的incident_last_time的差值，若alert_time-incident_last_time＞T_window，则认为该事件已经过期，不进行后续的相似度计算；

步骤42，获取有效事件，计算警报与所述有效事件的最大相似度与平均相似度，根据计算结果更新有效事件；

步骤43，返回事件的id号（incident_id）。

如图5所示，本发明实施例提供的时间相似度计算函数图，具体的，计算警报alert_input与事件的最大相似度v_max与平均相似度v_mean包括：

依次和事件incident_i中的警报alert_j计算相似度v_sim_i：v_sim_j=Sim(alert_input,alert_j)；

其中警报与警报的相似度计算方法如下：Sim(alert_1,alert_2)=W_t*sim_t(t₁,t₂)+W_host*sim_host(host₁,host₂)+W_desc*sim_desc(desc₁,desc₂)。上式中sim_t(t₁,t₂)为警报与警报之间的时间属性的相似度，sim_host(host₁,host₂)为警报与警报之间的主机属性的相似值，sim_desc*(desc₁,desc₂)为警报与警报之间的警报描述属性的相似值。

sim_t(t₁,t₂)的计算方法如下：

；

sim_host(host₁,host₂)的计算方法为字符串相似度方法，包括：hamming distance，jaro-winkler distance，jaccard distance等方法，但不限于上述方法。

sim_desc(desc₁,desc₂)主要计算警报与警报之间描述信息的相似度。desc₁为警报alert_1的alert_description，desc₂为警报alert_2的alert_description，将alert_message分词之后，利用字符串相似度计算方法计算二者之间的相似度，包括：hammingdistance，jaro-winkler distance，jaccard distance，LCS等方法，但不限于上述方法。

由此计算得到警报alert_input与事件incident_i的最大相似度v_max_i：v_max_i=max(v_sim₁,v_sim₂,...,v_sim_m)，

由此计算得到警报alert_input与事件incident_i的平均相似度v_mean_i：v_mean_i=mean(v_sim₁,v_sim₂,...,v_sim_m)。

根据计算结果判断警报alert_input是否关联事件或选择不关联事件。

若警报alert_input与某一事件关联起来后，更新该事件的incident_last_time。更新方法为，若警报alert_input的alert_time大于incident_last_time，则更新incident_last_time为alert_time。

若警报alert_input无法和事件列表中的事件进行关联，则新建一个新事件，新事件仅包含警报alert_input，且新事件的incident_last_time为警报的alert_time。

本发明的上述方法中，面对海量的告警消息的告警风暴，首先对海量的告警消息进行基于树形数据结构搜索的告警合并，将大量重复的告警信息合并成相应的警报；其次利用语义相似度计算警报与警报之间的相似度，将语义相邻的警报关联起来为事件。使运维人员可以事件中提取出有价值的告警事件信息，对系统异常进行有效的异常定位，从而有效的处理告警风暴。

图6示出了本发明实施例提供的告警消息的处理装置60的结构示意图。如图6所示，该装置60包括：

获取模块61，用于获得至少一条告警消息；

第一合并模块62，用于采用树形数据结构，对告警消息进行合并，得到至少一个警报；

计算模块63，用于计算所述至少一个警报之间的语义相似度；

第二合并模块64，用于根据所述至少一个警报之间的语义相似度，将所述至少一个警报进行关联处理，得到至少一个事件。

计算所述告警消息与所述警报列表的相似度；

可选的，告警消息的处理装置，还包括处理模块，用于执行以下至少一项：

可选的，计算所述至少一个警报之间的语义相似度，包括：

获得警报的关联参数；

[(v_max₁,v_mean₁),(v_max₂,v_mean₂),...,(v_max_n,v_mean_n)]；

其中，n为事件列表中有效事件的数量；

incident_a,v_max=(v_max₁,v_max₂,...,v_max_n)；

incident_b,v_mean=(v_mean₁,v_mean₂,...,v_mean_n)。

需要说明的是，该实施例是与上述方法实施例对应的装置实施例，上述方法实施例中的所有实现方式均适用于该装置的实施例中，也能达到相同的技术效果。

本发明实施例提供了一种非易失性计算机存储介质，所述计算机存储介质存储有至少一可执行指令，该计算机可执行指令可执行上述任意方法实施例中的告警消息的处理方法。

图7示出了本发明实施例提供的计算设备的结构示意图，本发明具体实施例并不对计算设备的具体实现做限定。

如图7所示，该计算设备可以包括：处理器(processor)、通信接口(Communications Interface)、存储器(memory)、以及通信总线。

其中：处理器、通信接口、以及存储器通过通信总线完成相互间的通信。通信接口，用于与其它设备比如客户端或其它服务器等的网元通信。处理器，用于执行程序，具体可以执行上述用于计算设备的告警消息的处理方法实施例中的相关步骤。

具体地，程序可以包括程序代码，该程序代码包括计算机操作指令。

处理器可能是中央处理器CPU，或者是特定集成电路ASIC（Application SpecificIntegrated Circuit），或者是被配置成实施本发明实施例的一个或多个集成电路。计算设备包括的一个或多个处理器，可以是同一类型的处理器，如一个或多个CPU；也可以是不同类型的处理器，如一个或多个CPU以及一个或多个ASIC。

存储器，用于存放程序。存储器可能包含高速RAM存储器，也可能还包括非易失性存储器（non-volatile memory），例如至少一个磁盘存储器。

程序具体可以用于使得处理器执行上述任意方法实施例中的告警消息的处理方法。程序中各步骤的具体实现可以参见上述告警消息的处理方法实施例中的相应步骤和单元中对应的描述，在此不赘述。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的设备和模块的具体工作过程，可以参考前述方法实施例中的对应过程描述，在此不再赘述。

在此提供的算法或显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述，构造这类系统所要求的结构是显而易见的。此外，本发明实施例也不针对任何特定编程语言。应当明白，可以利用各种编程语言实现在此描述的本发明实施例的内容，并且上面对特定语言所做的描述是为了披露本发明实施例的最佳实施方式。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种告警消息的处理方法，其特征在于，包括：

获得至少一条告警消息；

计算所述至少一个警报之间的语义相似度；

2.根据权利要求1所述的告警消息的处理方法，其特征在于，采用树形数据结构，对所述至少一条告警消息进行合并，得到至少一个警报，包括：

计算所述告警消息与所述警报列表的相似度；

3.根据权利要求2所述的告警消息的处理方法，其特征在于，根据所述告警消息与所述警报列表的相似度与所述第一相似度阈值，将所述告警消息进行合并，得到至少一个警报，包括：

4.根据权利要求3所述的告警消息的处理方法，其特征在于，还包括以下至少一项：

5.根据权利要求1所述的告警消息的处理方法，其特征在于，计算所述至少一个警报之间的语义相似度，包括：

获得警报的关联参数；

6.根据权利要求5所述的告警消息的处理方法，其特征在于，所述关联参数为：（T_window,V_{max_sim},V_{mean_sim},W_t,W_host,W_desc）；

[(v_max₁,v_mean₁),(v_max₂,v_mean₂),...,(v_max_n,v_mean_n)]；

其中，n为事件列表中有效事件的数量；

incident_a,v_max=(v_max₁,v_max₂,...,v_max_n)；

incident_b,v_mean=(v_mean₁,v_mean₂,...,v_mean_n)。

7.根据权利要求6所述的告警消息的处理方法，其特征在于，根据所述至少一个警报之间的语义相似度，将所述至少一个警报进行关联处理，得到至少一个事件，包括：

8.一种告警消息的处理装置，其特征在于，包括：

获取模块，用于获得至少一条告警消息；

计算模块，用于计算所述至少一个警报之间的语义相似度；

9.一种电子设备，其特征在于，包括：处理器、存储有计算机程序的存储器，所述计算机程序被处理器运行时，执行如权利要求1至7任一项所述的告警消息的处理方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至7任一项所述的告警消息的处理方法。