CN110399261A

CN110399261A - 一种基于共现图的系统告警聚类分析方法

Info

Publication number: CN110399261A
Application number: CN201910508755.5A
Authority: CN
Inventors: 周川; 高扬; 胡玥; 谭建龙; 郭莉
Original assignee: Institute of Information Engineering of CAS
Current assignee: Institute of Information Engineering of CAS
Priority date: 2019-06-13
Filing date: 2019-06-13
Publication date: 2019-11-01
Anticipated expiration: 2039-06-13
Also published as: CN110399261B

Abstract

本发明公开了一种基于共现图的系统告警聚类分析方法。本方法为：1)利用历史系统告警信息构建通用共现图；根据通用共现图中节点之间的距离将各系统告警信息聚为若干故障簇，并为每一故障簇设置一生命周期；2)对于一新产生的系统告警信息a，计算系统告警信息a与处于生命周期内的各个故障簇之间的距离；当系统告警信息a与一故障簇的距离小于设定阈值时，则将系统告警信息a加入到该故障簇中，否则为该系统告警信息a新建一个故障簇；3)在过去的一设定时间段内如果有新的系统告警信息纳入一故障簇，则维持该故障簇处于生命周期内，否则删除对应的故障簇。本发明能更准确得将有内在联系的系统告警聚到同一故障簇中。

Description

一种基于共现图的系统告警聚类分析方法

技术领域

本发明涉及一种基于共现图的系统告警聚类分析方法，属于计算机软件技术领域。

背景技术

软件业务系统在运行过程中，会出现各种各样的故障，监控软件因此会产生系统告警来记录这些故障并告知用户。系统运维团队往往需要利用大量的经验知识与时间精力去分析系统告警，找到故障根因，解决系统出现的问题。系统告警的聚类分析旨在将疑似同一故障引发的相关告警聚成同一个故障簇，在辅助运维人员发现故障根因、恢复系统正常运行方面发挥着重要作用。

现有的系统告警聚类分析方法大致可归为以下四类以及它们的组合。(1)以时间为依据，将发出时间相近的系统告警聚到同一故障簇中；(2)利用告警描述的相似度、局部敏感哈希、编辑距离等信息将具有相似描述的告警聚到同一故障簇中；(3)利用系统调用图(call graph)，将拥有调用关系的主机上的系统告警聚到同一故障簇中；(4)将一些运维经验编写成规则，将符合规则的告警聚到同一故障簇中。

对应上述四类方法，现有的系统告警聚类分析方法存在的局限性分别为：

1.系统告警具有多源并发性，单纯以时间为依据进行类簇划分的方法过于简单粗暴；

2.基于告警描述信息的方法不能将具有内在联系、却描述迥异的系统告警聚到同一故障簇中；

3.由于系统调用关系复杂且随业务更新频繁，完整的系统调用图通常难以获取或全面绘制；

4.基于规则的方法需要有大量的专业知识，对运维人员有很高要求。同时经验规则所能覆盖的情形有限，难以覆盖业务系统出现的新情形、新故障。此外，经验规则的可移植性较差，很难在不同领域的运维任务中自由切换。

发明内容

本发明的目的在于提供一种基于共现图的系统告警聚类分析方法。本发明在系统告警的聚类分析任务使用共现图方法，从不同角度，利用告警信息构建多张共现图，为系统告警的聚类分析提供决策依据。

本发明的技术方案为：

一种基于共现图的系统告警聚类分析方法，其步骤包括：

1)利用所选的历史系统告警信息构建通用共现图；根据通用共现图中节点之间的距离将各系统告警信息聚为若干故障簇，并为每一故障簇设置一生命周期；

2)对于一新产生的系统告警信息a，计算系统告警信息a与处于生命周期内的各个故障簇之间的距离；当系统告警信息a与一故障簇的距离小于设定阈值时，则将系统告警信息a加入到该故障簇中，如果系统告警信息a与多个故障簇的距离小于设定阈值，则将系统告警信息a加入到距离最小的故障簇中；如果系统告警信息a与各故障簇的距离都大于设定阈值，则为该系统告警信息a新建一个故障簇；

3)在过去的一设定时间段内如果有新的系统告警信息纳入一故障簇，则维持该故障簇处于生命周期内，否则删除对应的故障簇。

进一步的，利用各系统告警信息的发生时间邻近关系构建通用共现图；所述通用共现图中的每个节点为系统告警信息中的告警源，如果两条系统告警信息A1、B1的发生时间间隔小于阈值T1，则系统告警信息A1、B1所对应的节点之间存在一条边。

进一步的，通用共现图中连接两告警源的边的长度为过去设定一段时间内两个告警源共现次数的倒数。

进一步的，系统告警信息a与故障簇的距离为系统告警信息a与该故障簇中每条系统告警信息在通用共现图上距离的平均值。

进一步的，步骤1)中，对于通用共现图中，如果两条系统告警信息A2、B2所对应的两节点之间存在一条边且系统告警信息A2、B2来自不同的监控软件，则缩小通用共现图中系统告警信息A2、B2所对应两节点之间的距离；将处理后的通用共现图称为层级共现图，根据该层级共现图中节点之间的距离将各系统告警信息聚为若干故障簇。

进一步的，步骤1)中，还生成一系统调用共现图；系统调用共现图中的每个节点为系统告警信息中的告警源，如果两条系统告警信息A3、B3的监控软件具有调用关系，则系统告警信息A3、B3所对应的节点之间存在一条边，系统告警信息A3、B3之间边的长度为系统告警信息A3、B3共现次数的倒数；基于层级共现图中节点之间的距离和系统调用共现图中节点之间的距离将各系统告警信息聚为若干故障簇。

进一步的，所述系统告警信息包括告警源、发生时间、告警描述、告警级别和监控程序类型。

一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行上述方法中各步骤的指令。

一种计算机可读存储介质，其特征在于，存储一计算机程序，所述计算机程序包括用于执行上述方法中各步骤的指令。

与现有技术相比，本发明的积极效果为：

共现信息是系统告警自身的信息，不需要人为制定规则。共现图减弱了聚类分析任务对运维经验和系统调用图的依赖。本发明通过引入共现图，利用机器学习的方法去挖掘不同系统告警之间的内在联系，从而减弱对专业经验和系统调用图的依赖，更准确得将有内在联系的系统告警聚到同一故障簇中，从而大幅减少排查业务系统故障的人工成本。

具体实施方式

下面对本发明的技术方案做进一步的详细说明。

本发明提出了一种基于共现图的系统告警聚类分析方法。该方法利用系统告警信息构建多张共现图，并将其应用于系统告警的聚类分析任务中。为方便下文解释，统一做如下定义：

告警：监控软件在业务程序运行过程中监控硬件设备、软件程序等而产生的异常告警信息，通常包括告警源(如IP地址)、发生时间、告警描述、告警级别、监控程序类型等信息。

共现图：利用告警发生时间的邻近关系而构建的共现关系图，简称共现图。共现图中的每个节点为告警源，如果两条告警的发生时间接近(比方时间间隔小于某个给定的阈值T，如这里取T为1小时)，则这两条告警所对应的节点(即告警源)之间存在一条边，表示它们之间存在共现关系。这里的共现图是一个带权图，边上的权重定义为过往一段时间(时间长短可由训练数据的时间跨度来定)内两个告警源共现次数的倒数。之所以取倒数，是想将该倒数值视为两个告警源之间的距离。边上的权重越小，代表该边对应的两个告警源距离越近，在发生故障时越相关，越有可能在同一个故障簇里面。

本发明基于的现实假设为：经常同时出现的告警源往往具有一定的关联关系，于是可以利用告警源在共现图上的距离来刻画两个告警之间的关联密切程度，从而衡量它们是否要聚到同一个故障簇里面。

1.构建通用共现图

给定系统告警集合A＝{a₁,…,a_N}，涉及到的告警源集合记为V，将每个告警源视为共现图中的一个节点，记每个告警a_n∈A的告警源为s(a_n)∈V。设定时间窗口T，我们按如下方法在节点集V上定义无向边集E。若告警a_i与告警a_j的发生时间间隔小于T，则a_i的告警源s(a_i)与a_j的告警源s(a_j)在共现图中存在一条边(即共现了一次)，对整个系统告警集合 A＝{a₁,…,a_N}搜索完成之后，共现图中边上的权重定义为该边两侧节点(即两个告警源)共现次数的倒数。该权重可视为两个告警源之间的距离。权重(即距离)越小，代表这两个告警源存在关联关系的可能性越大，在发生故障时越相关，越有可能在同一个故障簇里面。

2.构建系统调用共现图(可选，视情况而定)

如果可以获取系统调用图，则还可以进一步基于系统调用图构建系统调用共现图。系统调用共现图一般由监控软件产生，是个无权图。本方法在系统调用图的基础上构建带权重的系统调用共现图，以便更真实得描述不同主机之间的紧密联系程度。采用与上一步骤1类似的赋值方法来更新系统调用共现图中边上的权重。若告警a_i与告警a_j的发生时间间隔小于T，且a_i的告警源s(a_i)与a_j的告警源s(a_j)在系统调用图中存在连边(即存在调用关系)，则记 s(a_i)与s(a_j)共现了一次。对整个系统告警集合A＝{a₁,…,a_N}搜索完成之后，在系统调用共现图中边上的权重定义为该边两侧节点(即两个告警源)共现次数的倒数。对那些未在系统告警集合A＝{a₁,…,a_N}中共现的连边(即共现图中的某条连边两侧的告警源为共现过)，将其权重统一记为1。在构建系统调用共现图的过程中，由于调用关系已经在调用图中体现，所以只更新边的权重而不增加新的边。这里系统调用共现图上节点的距离可以用来反映节点间在系统调用维度上的紧密联系程度。如果系统调用图是不可获取的或不稳定的，则并不使用系统调用共现图。

3.构建层级共现图

系统调用共现图只适用于告警源出现在系统调用图的情形，不适用于告警源没出现在系统调用图的情形。因此我们提出层级共现图来弥补这一缺陷。层级共现图的构建方法与通用共现图的构建方式极为类似，唯一的不同之处在于共现图边权重的赋值方式。为了突出不同监控软件产生告警之间的关联关系，层级共现图针对来自不同监控软件的告警源之间赋予不同的权重。在第1步已构建好的通用共现图的基础上，如果两个告警源来自不同的监控软件，则对应边上的权重(即距离)减半，从而这两个告警源之间的关系更加紧密，更有可能聚到同一个故障簇里面。如果两个告警源来自相同的监控软件，则对应边上的权重(即距离)保持不变。修改权重后的通用共现图就是我们这里的层级共现图。

4.将共现图用于系统告警聚类分析

上述2张或3张(取决于‘系统调用共现图’是否可用)共现图构建完成后，我们便可以进行告警聚类分析了。这里我们采用增量式聚类方法。对于新来的告警，计算它与处于生命周期内的各个故障簇之间的距离。一个故障簇处于生命周期是指它在刚刚过去的一段时间内(这里取1小时)还有新的告警纳入。我们将告警与故障簇的距离定义为告警与故障簇中每条告警在共现图上距离的平均值，可采用经典的Dijkstra算法来计算告警在共现图上距离。由于这里存在多张共现图，因此该距离还需进一步在多张图上分别计算，并再次平均。当告警与处于生命周期的故障簇的距离小于阈值(这里取0.1)时，则可以将告警加入到该故障簇中；当告警与多个处于生命周期的故障簇的距离小于阈值，则将告警加入到距离最小的故障簇中；当告警与所有故障簇的距离都大于阈值时，则为该告警新建一个故障簇。

在实际运行的过程中可以对不同的共现图设置不同的阈值，采用集成的方式来决定一个新告警的归属。上述所有共现图可以利用历史数据构建，也可以在处理系统告警的同时即时创建和更新。

实验分析：

我们使用某公司提供的系统告警信息，其中包括2000条系统告警，时间跨度为24小时，告警由PinPoint和Zabbix监控软件产生，系统调用图由PinPoint产生。由Zabbix产生的告警，告警源在系统调用图中无对应节点。我们做了两组实验，一组使用系统调用图，在实验中使用层级共现图和系统调用共现图；另一组不使用系统调用图，在实验中使用普通共现图和层级共现图。实验效果如下：

实验结果显示，共现图能够将不同监控软件产生的告警聚集到同一故障簇中，而且共现图的使用减弱了算法对于系统调用图的依赖。两种方式使用的共现图虽有所不同，但结果却是相似的。我们上述结果得到相关专业人员的高度肯定。

尽管为说明目的公开了本发明的具体内容、实施算法，其目的在于帮助理解本发明的内容并据以实施，但是本领域的技术人员可以理解：在不脱离本发明及所附的权利要求的精神和范围内，各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例所公开的内容，本发明要求保护的范围以权利要求书界定的范围为准。

Claims

1.一种基于共现图的系统告警聚类分析方法，其步骤包括：

2.如权利要求1所述的方法，其特征在于，利用各系统告警信息的发生时间邻近关系构建通用共现图；所述通用共现图中的每个节点为系统告警信息中的告警源，如果两条系统告警信息A1、B1的发生时间间隔小于阈值T1，则系统告警信息A1、B1所对应的节点之间存在一条边。

3.如权利要求2所述的方法，其特征在于，通用共现图中连接两告警源的边的长度为过去设定一段时间内两个告警源共现次数的倒数。

4.如权利要求1所述的方法，其特征在于，系统告警信息a与故障簇的距离为系统告警信息a与该故障簇中每条系统告警信息在通用共现图上距离的平均值。

5.如权利要求1所述的方法，其特征在于，步骤1)中，对于通用共现图中，如果两条系统告警信息A2、B2所对应的两节点之间存在一条边且系统告警信息A2、B2来自不同的监控软件，则缩小通用共现图中系统告警信息A2、B2所对应两节点之间的距离；将处理后的通用共现图称为层级共现图，根据该层级共现图中节点之间的距离将各系统告警信息聚为若干故障簇。

6.如权利要求5所述的方法，其特征在于，步骤1)中，还生成一系统调用共现图；系统调用共现图中的每个节点为系统告警信息中的告警源，如果两条系统告警信息A3、B3的监控软件具有调用关系，则系统告警信息A3、B3所对应的节点之间存在一条边，系统告警信息A3、B3之间边的长度为系统告警信息A3、B3共现次数的倒数；基于层级共现图中节点之间的距离和系统调用共现图中节点之间的距离将各系统告警信息聚为若干故障簇。

7.如权利要求1所述的方法，其特征在于，所述系统告警信息包括告警源、发生时间、告警描述、告警级别和监控程序类型。

8.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。

9.一种计算机可读存储介质，其特征在于，存储一计算机程序，所述计算机程序包括用于执行权利要求1至7任一所述方法中各步骤的指令。