CN110399278A

CN110399278A - 基于数据中心异常监控的告警融合系统及方法

Info

Publication number: CN110399278A
Application number: CN201910672265.9A
Authority: CN
Inventors: 马玉峰; 董怡瑾; 台宪青
Original assignee: Jiangsu IoT Research and Development Center
Current assignee: Jiangsu IoT Research and Development Center
Priority date: 2019-07-24
Filing date: 2019-07-24
Publication date: 2019-11-01
Anticipated expiration: 2039-07-24
Also published as: CN110399278B

Abstract

本发明提供一种基于数据中心异常监控的告警融合方法，包括以下步骤：步骤S1，告警收集：收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息；步骤S2，告警预处理：对收集到的告警信息进行去冗余操作，提取其中关键的告警信息；步骤S3，告警关联分析：对于预处理后的告警信息按照一定的算法进行关联规则的发现；步骤S4，告警整合输出：按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后，输出到数据库。本发明能消除告警信息中的冗余信息、将有因果关系的告警信息融合，从而减少运维人员的工作量和工作难度，降低运维成本。

Description

基于数据中心异常监控的告警融合系统及方法

技术领域

本发明涉及数据中心运维系统告警监控技术领域，尤其是一种基于数据中心异常监控的告警融合方法。

背景技术

在现有的绝大部分数据中心运维系统中都存在了这样一个问题：由于监控项包括了对各个服务器、集群运行状态和服务器上运行软件数据的监控，以及集群拓扑状态的复杂性，导致一个元件产生告警可能会引发一连串的连锁告警。也就是说，一个故障会以反应链的形式而导致另一个故障产生，这样会产生无数的告警，从而会掩盖真正的重要故障。而且大多数的告警并没有包含故障真正原因的信息，但一个故障产生时会出现大量的告警，其中一些告警是冗余的，这样使得故障的处理更复杂。尤其是在针对中大型的网络系统监控过程中，难免产生海量告警信息，而传统的告警信息处理几乎只依靠人工完成。在这个过程中就有可能造成运维人员由于长期经常性的收到海量报警信息，却在查看后发现并没有重大故障，从而放松对告警的警惕，以至于真正有重大故障告警后没能及时处理。这样的情况下，不仅使得机房运维成本很高，而且难以满足告警处理的实时性要求，容易引发重大问题。

由告警信息冗余问题造成的“告警风暴”由来已久，针对这方面问题，“告警收敛”的概念应运而生。告警收敛主要是指在对告警信息的处理过程中，通过一定的关联规则对海量告警信息进行去重复和去冗余操作，从而大大降低告警信息数量的过程。

在整个告警收敛的过程中，最为关键且困难的一环便是告警关联规则的发现。关于告警信息关联规则发现的方法有许多，其中比较有代表性的方法包括基于事例推理的方法、基于规则的相关性分析的方法、基于相关度分析的方法、贝叶斯网络方法、人工神经网络方法、基于编码的方法、数据挖掘的方法等等。

在现有的告警关联规则发现方法中，存在以下缺点：

基于事例的相关性分析算法最大的缺点是它基于之前的经验和事例来解决问题而非利用该问题的领域中的一般常识，不适用于环境多变且实时性要求高的环境。

基于规则的相关性分析方法中的规则获取环节主要是依靠工程师的经验来制定，无法自动生成。规则的获取环节始终成为该算法运行效率和准确度的制约条件。

贝叶斯网络是针对不确定性提出的解决方法。最大的问题在于，贝叶斯网络的边界概率的计算效率问题目前仍然没有有效的解决办法。

基于编码的方法致力于通过对知识模型数据的预处理来分析时间相关性。对于规模庞大、结构复杂的系统来说，很难建立准确的网络模型。

基于人工神经网络的方法的瓶颈在于不太容易找到训练数据，且不同输入参数对结果影响很大。

基于相关度分析的方法适应的场景有限，不擅长于分析连锁告警反应。

发明内容

本发明的目的在于克服现有技术中存在的不足，提供一种基于数据中心异常监控的告警融合系统及方法，以消除冗余信息、将有因果关系的告警信息融合，目的是提取告警中的有效信息，从而减少运维人员的工作量和工作难度，降低运维成本。本发明采用的技术方案是：

一种基于数据中心异常监控的告警融合方法，包括以下步骤：

步骤S1，告警收集：收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息；

步骤S2，告警预处理：对收集到的告警信息进行去冗余操作，提取其中关键的告警信息；

步骤S3，告警关联分析：对于预处理后的告警信息按照一定的算法进行关联规则的发现；

步骤S4，告警整合输出：按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后，输出到数据库。

进一步地，步骤S3中，对于预处理后的告警信息置入一个二维矩阵，之后进行分析并结合二维矩阵的压缩，发现告警信息的关联规则。

进一步地，步骤S3具体包括：

步骤S3.1，建立一个二维矩阵，二维矩阵的一行代表一个时间窗口内某一台主机的所有告警信息，一列代表一个告警项；将二维矩阵的首行设置为sum_row，表示对应告警项出现过的时间窗口的数量，首列设置为sum_col列，表示对应时间窗口内出现的告警项的数量；将收集到并预处理后的告警信息填入二维矩阵对应的位置，有对应告警项的位置置为1，其余置为0，计算出对应的sum_col和sum_row值；

步骤S3.2，寻找频繁项集；

1)将最小支持度与事务总数即时间窗口总数相乘，计算出最小支持度计数min_sup；将sum_row行各个元素与之相比，若某元素小于min_sup，则说明该元素对应的列也就是告警项在时间窗口中的出现次数小于最小支持度计数，不是频繁项，则将该列删除；矩阵中剩余的列对应的告警项都是频繁1-项集；

2)重新计算二维矩阵中的sum_col列，若该列某元素值为0，说明该元素对应的行也就是时间窗口的数据已经不对产生频繁项集的过程造成影响，不需要继续分析，则将该行删除；由此产生的矩阵记为A1；

3)k>＝2时，基于A1通过递推，对矩阵Ak-1进行压缩，产生压缩矩阵Ak；k为压缩次数；首先要对频繁-k-1项集的所有子项集进行分析，将其中出现次数小于k-1的项对应的列删去；接着重新计算出Ak-1矩阵中的sum_col列元素，将此列元素中小于k的元素对应的行删去；之后再计算出新的sum_row行元素的值，将该行小于min_sup的元素对应的列删除；自此生成压缩后的矩阵Ak；

4)由压缩矩阵Ak生成频繁k-项集；对压缩矩阵Ak中的列进行k维组合，生成可能出现的所有k-项集，通过将矩阵Ak中对应的k列元素进行按位与运算计算出所有可能的k-项集的支持度计数，并将其中不小于min_sup的计数和对应的k-项集记录在一个二维数组中，该二维数组保存的便是频繁项集；

5)当步骤4)中产生的频繁k-项集的数目大于k时，重复步骤3)——步骤4)的过程寻找下一级频繁项集，得到最终汇总的频繁项集；否则，频繁项集搜集结束，退出循环；

步骤S3.3，发现关联规则；

接着，通过寻找到的k>＝2的频繁k-项集生成关联规则；通过以上步骤寻找到频繁项集之后，再将频繁项集中的k项(k>＝2)拆为A′、B′两个项集，A′、B′要满足A′∪B′＝拆分前原项集且A′∩B′为空集的条件，列出A′、B′所有可能的组合并计算出每种可能的A′->B′和B′->A′的情况的置信度，将其与之前定义好的最小置信度比较，从而得出值得相信的关联规则。

进一步地，步骤S4具体包括：

步骤S4.1，若当前时间窗口还未结束，收集新到达的告警信息，提取关键的告警信息之后将其和对应时间窗口编号存入数据库；

步骤S4.2，将此条告警信息与当前AlertInfo表中的信息比较：若产生告警的主机Id和告警信息内容与AlertInfo表中某条记录相等，证明该条告警信息已经存在，则返回步骤S4.1；若该条告警信息不存在，则进行步骤S4.3，其中AlertInfo表中保存的是当前时间窗口去除重复信息之后的告警信息；

步骤S4.3，根据发现的告警信息的关联规则，寻找当前AlertFuse表中是否存在同一个产生告警的主机Id下本条告警的“前因”，若存在“前因”，则返回步骤S4.1；若不存在“前因”，则将该条告警信息放入AlertFuse表；其中AlertFuse表保存的是当前时间窗口将要提交的去除重复和关联融合后的告警信息；

步骤S4.4，若当前时间窗口已结束，本时间窗口内收集到的AlertFuse表即为本时间窗口内的整合后的告警信息。

进一步地，步骤S2中，所述去冗余操作，保证同一时间窗口内对于同一个告警项的告警只存在一条。

一种基于数据中心异常监控的告警融合系统，包括：

存储介质，存储有计算机程序；

处理器，用于执行所述计算机程序以实现上述的基于数据中心异常监控的告警融合方法。

一种计算机存储介质，所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现上述的基于数据中心异常监控的告警融合方法。

本发明的优点在于：

1.能够通过对告警信息的实时处理降低冗余度，减少无用的告警条数，尽可能减少“告警风暴”现象的产生。

2.能使得告警信息更加精炼，运维人员可以更精确的定位根源故障。

3.通过改进的Apriori算法避免了重复扫描多次数据库，同时用按位与运算计算支持度计数，能够更高效率地发现关联规则。

附图说明

图1为本发明的结构组成示意图。

具体实施方式

下面结合具体附图和实施例对本发明作进一步说明。

本发明提出的基于数据中心异常监控的告警融合方法，是以事件的关联分析为基础，通过告警收集->告警预处理->告警关联分析->告警整合输出这个流程来设计；通过对告警信息的关联分析以及一系列处理，减少告警信息的冗余度，从而循序渐进的帮助运维人员锁定根源报警信息的过程；具体步骤如下：

步骤S4，告警整合输出：按照步骤S3中发现的告警信息的关联规则对一定时间内新到达的告警信息进行去重复和整合操作之后，输出到数据库，并可以进一步发送给运维人员。

(一)告警收集；

首先根据系统的告警周期设置一个合适的时间窗口宽度，然后收集一系列时间窗口中来自整个运维系统监控的各个数据来源的告警信息；

(二)告警预处理；

对各个告警信息来源的数据库中同一时间窗口内的告警信息提取告警相关的关键信息，进行去冗余操作，保证同一时间窗口内对于同一个告警项的告警只存在一条；并记录对应的时间窗口编号；

(三)告警关联分析；

对于预处理后的告警信息置入一个二维矩阵，之后进行分析并结合二维矩阵的压缩，发现告警信息的关联规则；具体如下：

一个实例中，假设一共选择了八个时间窗口，这八个时间窗口的告警信息分别为：{ABCE}，{ABD}，{E}，{BD}，{ABD}，{ABC}，{ABCD}，{D}，其中A,B,C,D,E是五种不同的告警项；则对这些信息按上文提到的方法进行预处理操作后生成的初始矩阵如表1所示；

表1

告警关联分析主要包括寻找频繁项集和发现关联规则两部分；

步骤S3.2，寻找频繁项集；

1)将最小支持度与事务总数(即时间窗口总数)相乘，计算出最小支持度计数min_sup；将sum_row行各个元素与之相比，若某元素小于min_sup，则说明该元素对应的列也就是告警项在时间窗口中的出现次数小于最小支持度计数，不是频繁项，则将该列删除；矩阵中剩余的列对应的告警项都是频繁1-项集；

步骤S3.3，发现关联规则；

接着，通过寻找到的k>＝2的频繁k-项集生成关联规则；通过以上步骤寻找到频繁项集之后，再将频繁项集中的k项(k>＝2)拆为A′、B′两个项集，A′、B′要满足A′∪B′＝拆分前原项集且A′∩B′为空集的条件，列出A′、B′所有可能的组合并计算出每种可能的A′->B′和B′->A′的情况的置信度，将其与之前定义好的最小置信度比较，从而得出值得相信的关联规则；其中置信度公式为：

在此过程中，最小置信度的确立需要在多次试验之后，对实验结果进行分析，而后根据实际情况确定；

在上述实例中，按照上文所述方法对表1的二维矩阵进行分析处理来寻找最大频繁项集；假设最小支持度计数为3，通过看sum_row行可以看出，E项小于最小支持度事务数，故删除这一列，删除之后重新计算sum_col列，发现TID为3的事务的新sum_row值为0，故删除TID为3的行，得到的矩阵A1如表2所示：

表2

则频繁1-项集有四个，分别为{A}，{B}，{C}，{D}；

接着，对于矩阵A1进行压缩；首先删除频繁1-项集的子项集中出现次数小于1的项对应的列，发现不存在这样的列；之后查看sum_col列，删除sum_col值小于2的行，也就是第8行事务，重新计算sum_row行，发现没有小于最小支持度计数的值，不需要删除列，则压缩矩阵过程完成，生成A2如表3所示；

表3

通过对A2中的列进行二维组合，进行两两按位与操作，获得相应2项集的支持度计数结果如下：support{AB}＝5，support{AC}＝3，support{AD}＝3，support{BC}＝3，support{BD}＝4，support{CD}＝1；则频繁2-项集有五个，分别为{AB}，{AC}，{AD}，{BC}，{BD}；

接下来，继续计算频繁3-项集；对A2进行压缩；发现在频繁2-项集的子项集中不存在出现次数小于2的项；之后查看sum_col列，删除sum_col值小于3的行，也就是第4行事务，重新计算sum_r行，发现没有小于最小支持度计数的值，不需要删除列，则压缩矩阵过程完成；生成A3如表4所示；

表4

通过对A3中的列进行三维组合，进行两两按位与操作，获得相应3项集的支持度计数结果如下：support{ABC}＝3，support{ABD}＝3，support{ACD}＝1，support{BCD}＝1；则频繁3-项集有两个，分别为{ABC}，{ABD}；

此时的频繁3-项集的个数n(3)＝2已经不满足n(3)>k＝3的条件，则停止循环，得到最终的频繁项集如表5所示；

表5

接下来，由表5中的频繁项集推测告警信息之间的关联关系，例如对于表5中的{ABC}，拆成两个项集的可能情况是{A}与{BC}、{AB}与{C}、{AC}与{B}；然后计算各置信度，如A->BC的置信度为60％，BC->A的置信度为100％；则所有可能的关联规则及其置信度如表6所示；

关联规则	置信度
		A->B	100％
B->A	83.3％
		A->C	60％
C->A	100％
		A->D	60％
D->A	60％
		B->C	50％
C->B	100％
		B->D	66.7％
D->B	80％
		A->BC	60％
B->AC	50％
		C->AB	100％
AB->C	60％
		AC->B	100％
BC->A	100％
		A->BD	60％
B->AD	50％
		D->AB	60％
AB->D	60％
		AD->B	100％
BD->A	75％

表6

假设最小置信度为80％，则筛选出的关联规则有：A->B，B->A，C->A，C->B，D->B，C->AB，AC->B，BC->A，AD->B；自此，便由初始的八个时间窗口的告警信息得出了9条置信度不小于最小置信度的关联规则；

(四)告警整合输出；

通过以上处理获得可靠的告警关联规则之后，便可以对新到达的告警信息进行整合操作，整合过程如下：

步骤S4.2，将此条告警信息与当前AlertInfo表中的信息比较：若hostId和alertMes与AlertInfo表中某条记录相等，证明该条告警信息已经存在，则返回步骤S4.1；若该条告警信息不存在，则进行步骤S4.3，其中AlertInfo表中保存的是当前时间窗口去除重复信息之后的告警信息；其属性如表7所示；

属性名	属性类型	属性含义
			alertId	Integer	告警的id
hostId	Integer	产生告警的主机的id
			alertMes	String	告警信息内容
preAlertId	Integer	本条告警信息的“前因”告警信息id
			startTime	Date	本时间窗口开始的时间

表7

步骤S4.3，根据发现的告警信息的关联规则，寻找当前AlertFuse表中是否存在同一个hostId下本条告警的“前因”，若存在“前因”，则返回步骤S4.1；若不存在“前因”，则将该条告警信息放入AlertFuse表；其中AlertFuse表保存的是当前时间窗口将要提交的去除重复和关联融合后的告警信息；其属性如表8所示；

属性名	属性类型	属性含义
			id	Integer	告警的id
alertId	Integer	对应AlertInfo中告警的alertId
			hostId	Integer	产生告警的主机的id
alertMes	String	告警信息内容
			startTime	Date	本时间窗口开始的时间

表8

等到当前时间窗口结束时，将本时间窗口内收集到的进行过去重复和融合处理的AlertFuse表提交给运维人员。运维人员可以根据收到的上一个时间窗口内的告警列表进行分析和排障操作，并能够通过点击详情，查看未经过整合的上一个时间窗口内未经过整合的原始告警列表。

本发明通过对告警数据库中一定时间之内的告警信息进行预处理，将关键的告警信息提取进一个二维矩阵，之后利用改进的Apriori算法进行分析并结合二维矩阵的压缩，自动地发现告警信息的关联规则，最后利用发现的告警信息关联规则对于新到达的告警信息进行实时处理。在不断对二维矩阵进行压缩的过程中，极大地提高了传统Apriori算法的效率，减少了需要不断重复扫描整个数据库的I/O开销，从而有效并且实时地抑制“告警风暴”现象的产生。

本发明提出的上述基于数据中心异常监控的告警融合方法，可通过编写的计算机程序实现；计算机程序安装并运行于服务器上；服务器上设有计算机程序的存储器，以及处理器用于执行所述计算机程序。

最后所应说明的是，以上具体实施方式仅用以说明本发明的技术方案而非限制，尽管参照实例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于数据中心异常监控的告警融合方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于数据中心异常监控的告警融合方法，其特征在于，

步骤S3中，对于预处理后的告警信息置入一个二维矩阵，之后进行分析并结合二维矩阵的压缩，发现告警信息的关联规则。

3.如权利要求2所述的基于数据中心异常监控的告警融合方法，其特征在于，步骤S3具体包括：

步骤S3.2，寻找频繁项集；

步骤S3.3，发现关联规则；

4.如权利要求1、2或3所述的基于数据中心异常监控的告警融合方法，其特征在于，步骤S4具体包括：

5.如权利要求1所述的基于数据中心异常监控的告警融合方法，其特征在于，

步骤S2中，所述去冗余操作，保证同一时间窗口内对于同一个告警项的告警只存在一条。

6.一种基于数据中心异常监控的告警融合系统，其特征在于，包括：

存储介质，存储有计算机程序；

处理器，用于执行所述计算机程序以实现如权利要求1～5中任一项所述的基于数据中心异常监控的告警融合方法。

7.一种计算机存储介质，其特征在于，

所述计算机存储介质中存储有计算机程序，所述计算机程序被处理器执行时用以实现如权利要求1～5中任一项所述的基于数据中心异常监控的告警融合方法。