CN116527481A

CN116527481A - 基于统计的网络告警关联规则挖掘及故障定位方法、系统

Info

Publication number: CN116527481A
Application number: CN202211634359.5A
Authority: CN
Inventors: 李鹏; 邓淼; 刘宇; 廖雪超
Original assignee: Wuhan University of Science and Engineering WUSE
Current assignee: Wuhan University of Science and Engineering WUSE
Priority date: 2022-12-19
Filing date: 2022-12-19
Publication date: 2023-08-01

Abstract

本发明提供一种基于统计的网络告警关联规则挖掘及故障定位方法、系统，对网络告警数据进行预处理，移除频繁发生的颤动告警，减小告警数据的冗余度；扫描处理后的网络告警数据，计算告警种类数，建立计时矩阵与计数矩阵；扫描网络告警数据，使用滑动时间窗口法分段处理告警数据，包括对时间窗口内的告警，根据这些告警的告警代码、告警发生时间以及计时矩阵中对应记录来进行操作；根据计数矩阵中的告警共现次数信息计算对应的告警关联规则的支持度与置信度，实现通过处理告警数据得到关联规则并输出。本发明能够很好地对网络告警数据进行处理并且同时考虑了运行效率与正确性，从而实现更高效精确的网络故障定位。

Description

基于统计的网络告警关联规则挖掘及故障定位方法、系统

技术领域

本发明涉及数据挖掘技术领域以及网络故障定位技术领域，具体涉及一个基于统计的网络告警关联规则挖掘及故障定位方案。

背景技术

数据挖掘(Data mining)，是通过分析数据，从大量数据中寻找其规律的技术。随着技术的发展与网络规模的扩大，网络系统中产生的告警信息也越来越多，如何有效地处理这些告警信息从而提高网络的稳定性显得十分重要。解决这一问题主要使用的是数据挖掘中的关联规则挖掘方法，这些方法通过扫描告警数据找出根源告警，得到关联规则，网络运营维护人员通过关联规则来定位网络中故障的发生位置，及时对网络中的故障进行修复，最终提高网络的稳定性。

E.Stamoulakatou等人利用Apache spark计算引擎实现了一种基于Apriori的分布式顺序模式挖掘方法，该方法利用了原始序列中每个模式位置的先验属性和信息，减少了每次迭代的候选数，提高了操作效率。但该方法在数据量较大时运行效率有所降低。A.Makanju在Hadoop下使用MapReduce框架来加快FP-Growth方法的运行速度。然而，传统的MapReduce不允许作业之间的自动同步，因此他们使用了父子MapReduceFramework，该框架允许以分层父子方式动态创建和同步MapReducer任务。与并行FP-Growth相结合，方法的计算速度显著提高。但该方法由于需要创建FP-Tree，在内存占用方面表现不佳。J.Wang等人认为，警报泛滥的真正原因是由于短时间内的异常传播而产生大量相关警报。因此，他们改进了PrefixSpan方法，并结合了报警之间的因果关系，成功地减少了由异常传播引起的后续报警，提高了获取关联规则的效率。这些方法都提高了运行效率，但都包括挖掘频繁项集的步骤，即在数据库中搜索支持度大于最小支持度的项集，该最小支持度是人为设置的。如何确定适当的最小支持度尤为关键。如果最小支持度过大或过小，将影响方法的执行效率和最终结果。所以，如何同时解决上述问题是极其困难的，所以需要一种可以同时解决上述问题的挖掘方法，以支持更及时有效的网络故障定位。

参考文献：

E.Stamoulakatou,A.Gulino and P.Pinoli,"DLA:a Distributed,Lo cation-based and Apriori-based Algorithm for Biological Sequence Pattern Mining,"2018IEEE International Conference on Big Data(Big Data),

2018,pp.1121-1126.

A.Makanju,Z.Farzanyar,A.An,N.Cercone,Z.Z.Hu and Y.Hu,"Deepparallelization of parallel FP-growth using parent-child MapRed uce,"2016IEEEInternational Conference on Big Data(Big Data),2016,pp.1422-1431.

J.Wang,R.Jia,J.Zhou and M.Zhou,"Mining sequential alarm p atternbased on the incremental causality prefixSpan algorithm,"in IE EETransactions on Artificial Intelligence,2022,pp.1-1.

发明内容

根据上述的现有技术缺陷，本发明提供一种基于统计的网络告警关联规则挖掘方案。

为达到上述目的，本发明采用的技术方案提供一种基于统计的网络告警关联规则挖掘方法，包括以下步骤，

步骤1，对网络告警数据进行预处理，移除其中频繁发生的颤动告警，减小告警数据的冗余度；

步骤2，扫描处理后的网络告警数据，计算其中的告警种类数，根据告警种类数建立计时矩阵与计数矩阵；

步骤3，扫描网络告警数据，使用滑动时间窗口法分段处理告警数据，包括对时间窗口内的告警，根据这些告警的告警代码、告警发生时间以及计时矩阵中对应记录来进行操作，将其中每对告警的共现次数信息记入计数矩阵，将每对告警的发生时间信息记入计时矩阵；在当前时间窗口扫描完毕后时间窗口进行滑动，窗口内包含新的告警数据，对这些告警数据重复上述操作，直至告警数据扫描完毕，进入步骤4；

步骤4，根据计数矩阵中的告警共现次数信息计算对应的告警关联规则的支持度与置信度，实现通过处理告警数据得到关联规则并输出。

而且，步骤1中，对网络告警数据进行预处理时，将告警视为由告警代码和告警发生时间组成的二元组。

而且，计数矩阵中每个元素为对应的两个告警代码的共现次数，计时矩阵中每个元素为对应的两个告警代码的告警发生时间组成的二元组。

而且，通过处理告警数据得到关联规则后，通过关联规则中的告警代码找寻告警发生的层次以及设备来定位故障。

另一方面，本发明提供一种基于统计的网络告警关联规则挖掘系统，用于实现如上所述的一种基于统计的网络告警关联规则挖掘方法。

而且，包括以下模块，

第一模块，用于对网络告警数据进行预处理，移除其中频繁发生的颤动告警，减小告警数据的冗余度；

第二模块，用于扫描处理后的网络告警数据，计算其中的告警种类数，根据告警种类数建立计时矩阵与计数矩阵；

第三模块，用于扫描网络告警数据，使用滑动时间窗口法分段处理告警数据，包括对时间窗口内的告警，根据这些告警的告警代码、告警发生时间以及计时矩阵中对应记录来进行操作，将其中每对告警的共现次数信息记入计数矩阵，将每对告警的发生时间信息记入计时矩阵；在当前时间窗口扫描完毕后时间窗口进行滑动，窗口内包含新的告警数据，对这些告警数据重复上述操作，直至告警数据扫描完毕；

第四模块，用于根据计数矩阵中的告警共现次数信息计算对应的告警关联规则的支持度与置信度，实现通过处理告警数据得到关联规则并输出。

或者，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于统计的网络告警关联规则挖掘方法。

或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于统计的网络告警关联规则挖掘方法。

在本发明中，提出了基于统计的网络告警关联规则挖掘及故障定位方案，目的在于快速准确地找到根源告警。本发明具有以下特点：

1)告警数据的预处理。本发明定义了告警数据中的颤动告警，即在短时间内发生十分频繁的告警，这类告警大大增加了告警数据的冗余程度。并提出将一个时间段内的颤动告警用它的第一次发生来代替，这样既保留了告警数据的信息，也减小了告警数据的冗余度，加快了后续方法的运行效率。

2)基于统计的方法。本发明通过时间窗口来将告警数据分段处理，通过每个告警的告警代码与告警发生时间来记录不同告警之间的共现次数与发生时间，并将这些信息记入计数矩阵与计时矩阵中。当告警代码不同时，根据对应告警的发生时间是否在计时矩阵的记录之中来对计数矩阵进行相应的操作。

3)无需人为设置最小支持度。传统的关联规则挖掘方法都包括挖掘频繁项集的步骤，需要人为设置最小支持度。最小支持度过大会导致候选项集过少，得出的关联规则不具有代表性。而最小支持度过小会导致候选项集过多，影响方法的运行效率。而基于统计的方法无需人为设置最小支持度，通过滑动时间窗口方法与矩阵相结合来扫描告警数据。

因此，本发明能够很好地对网络告警数据进行处理并且同时考虑了方法运行效率与得出规则的正确性，从而实现更高效精确的网络故障定位，帮助网络运营维护人员提高网络的稳定性。

附图说明

图1为本发明实施例的扫描流程图。

图2为本发明实施例告警数据库的示意图。

图3为本发明实施例预处理后的告警数据库示意图。

图4为本发明实施例计时矩阵和计数矩阵的变化过程示意图。

图5为本发明实施例关联规则支持度示意图。

图6为本发明实施例关联规则置信度示意图。

具体实施方式

以下结合附图和实施例详细说明技术方案。

本发明的一个实施例提供一个基于统计的网络告警关联规则挖掘方法，首先对告警数据进行预处理，删去短时间内大量发生的告警，仅保留其第一次发生。然后扫描告警数据，统计其中的告警代码种类数，根据告警代码种类数建立计时矩阵与计数矩阵。接着使用基于统计的方法扫描告警数据，将告警数据中的信息存入计数矩阵中。最后根据计数矩阵中的信息计算对应关联规则的支持度与置信度。

本发明的关键技术改进在于：为了挖掘网络告警关联规则，设置对于颤动告警的定义与处理；为计算动态外部因素，使用滑动窗口法处理告警数据和使用矩阵存储告警相关信息。

实施例的详细实现包括如下步骤：

Step1，对网络告警数据进行预处理，移除其中频繁发生的颤动告警，减小告警数据的冗余度，跳转至Step2；

实施例中，将告警视为由告警代码和告警发生时间组成的二元组，告警数据库如图2所示，告警由二元组(c_i,t_i)组成，其中c_i为告警代码，t_i为告警发生时间，i表示不同告警的序号，ID表示告警序列的标识符，S表示告警序列。将短时间内频繁发生的告警定义为颤动告警进行去除，仅保留其第一次发生以降低数据冗余度。预处理过后的告警数据库如图3所示。告警数据的预处理完成之后转入Step2；

Step2，扫描处理后的网络告警数据，计算其中的告警种类数，根据告警种类数建立计时矩阵与计数矩阵，跳转至Step3；

实施例中，统计告警数据库中告警代码的种类数，为了探究每个告警代码和其他的告警代码之间的关系，计时矩阵和计数矩阵必须能够容纳所有种类的告警代码信息，同时也要保证计时矩阵和计数矩阵的大小不会过大，避免占用过多存储资源。因此计时矩阵和计数矩阵大小应与告警代码种类数相匹配，如本例中告警代码种类数为6，则计时矩阵和计数矩阵的大小为6*6。计数矩阵中每个元素为对应的两个告警代码的共现次数，默认为0。计时矩阵中每个元素为对应的两个告警代码的告警发生时间组成的二元组，默认为(0,0)。转入Step3；

Step3，使用基于统计算法扫描网络告警数据，使用滑动时间窗口法分段处理告警数据，对时间窗口内的告警，根据这些告警的告警代码、告警发生时间以及计时矩阵中对应记录来进行操作，将其中每对告警的共现次数信息记入计数矩阵，将每对告警的发生时间信息记入计时矩阵。在当前时间窗口扫描完毕后时间窗口进行滑动，窗口内包含新的告警数据，对这些告警数据重复上述操作，直至告警数据扫描完毕。跳转至Step4；

实施例中使用基于统计的方法对告警数据库进行扫描，如图1所示，使用时间窗口对告警数据进行处理，假设有(c₁，0)，(c₁，10)，(c₃，15)，(c₂，25)四个告警，时间窗口大小为20秒，此时i指向告警(c₁，0)，j指向告警(c₁，10)，j的告警时间在i的告警发生时间的时间窗口内(此处的i，j为指针)，接着判断两者的告警代码是否相同，由于此时i和j的告警代码相同，j＝j+1，j向后滑动，指向(c₃，15)，j的告警时间在i的告警发生时间的时间窗口内，两者的告警代码不同，且两者是第一次出现，所以将两者对应的计数矩阵置为1，用(0，15)更新两者对应的计时矩阵。然后j＝j+1，j向后滑动，指向(c₂，25)，此时j的告警时间不在i的告警发生时间的时间窗口内，故i＝i+1，i向后滑动，指向(c₁，10)。j＝i+1，指向(c₃，15)，此时j的告警时间在i的告警发生时间的时间窗口内但两者并不是第一次出现，由于两者的当前告警时间为(10，15)，在计时矩阵中记录的(0，15)的范围内，故j＝j+1，j向后滑动，指向(c₂，25)。此时j的告警时间在i的告警发生时间的时间窗口内，两者的告警代码不同，且两者为第一次出现，所以将两者对应的计数矩阵置为1，用(10，25)更新两者对应的计时矩阵。重复上述流程直至告警数据扫描完毕。

以第一个告警的告警时间为基准，如果后续告警的告警时间在其时间窗口内，且后续告警的告警代码与其不相同，那么则根据计时矩阵中对应二者告警发生时间的值的不同来进行操作。若计时矩阵中对应的值为(0,0)，则使用二者当前的告警时间更新计时矩阵中的值，并将计数矩阵中对应的值置为1。若二者当前的告警时间中的前项与计时矩阵中的记录相等，后项大于计时矩阵中的记录，则使用二者当前的告警时间更新计时矩阵中的值，对计数矩阵不做处理。若二者当前的告警时间中的前项大于计时矩阵中的记录，后项小于计时矩阵中的记录，则对计时矩阵和计数矩阵均不做处理。若二者当前的告警时间中的前项大于计时矩阵中的记录，后项也大于计时矩阵中的记录，则使用二者当前的告警时间更新计时矩阵中的值，将计数矩阵中对应的值加1。

实施例假定时间窗口的大小为50秒。(这个值不固定，具体实施时可以根据需要取合适的大小，例如5分钟)基于统计的方法具体步骤如下：

1.第一个时间窗口的开始时间为第一个告警(c₃,30)的告警发生时间30秒，结束时间为开始时间加上时间窗口大小，即80秒。那么处于第一个时间窗口内的告警有：(c₃,30)，

(c₅,50)，(c₆,60)，(c₅,80)。从(c₃,30)开始，第一对告警是(c₃,30)，(c₅,50)。如图1中流程所示，此时j指向(c₅,50)，i指向(c₃,30)，两者的发生时间在同一窗口内且两者的告警代码不同，又因为这对告警没有在计时矩阵中记录过，所以用它们的告警时间更新对应的计时矩阵，将它们对应的计数矩阵加1。此时计时矩阵和计数矩阵如图4(a)所示。这意味着c₃→c₅的共现次数为1，他们的告警时间为(30,50)。然后是(c₃,30)，(c₆,60)，进行与c₃和c₅相同的操作。接着是(c₃,30)，(c₅,80)。此时，计时矩阵中存在它们的记录，且当前告警发生时间的前项在记录内，后项在记录外，所以只更新对应的计时矩阵，不对计数矩阵进行操作。此时计时矩阵和计数矩阵如图4(b)所示。第一个时间窗口内的(c₃,30)扫描完毕，轮到(c₅,50)，第一对告警为(c₅,50),(c₆,60)，由于它们在计时矩阵中没有记录，所以更新对应的计时矩阵和计数矩阵。然后是(c₅,50),(c₅,80)，由于告警代码相同，不进行操作。第一个时间窗口内的(c₅,50)扫描完毕，轮到(c₆,60),(c₅,80)，它们在计时矩阵中没有记录，更新对应的计时矩阵和计数矩阵。至此，第一个时间窗口扫描完毕，此时计时矩阵和计数矩阵如图4(c)所示。

2.时间窗口进行滑动，第二个时间窗口的开始时间为(c₄,110)的110秒，结束时间为160秒。包含在其中的告警为：(c₄,110)，(c₂,130)，(c₃,150)，(c₅,160)。计时矩阵中未记录(c₄,110)与后续三个告警的发生时间，故更新对应的计时矩阵和计数矩阵。同理，对(c₂,130)与后续的两个告警进行相同的操作。当轮到(c₃,150)，(c₅,160)时，两者在计时矩阵中有记录，为(30,80)。(150,160)在记录之外，所以更新对应的计时矩阵，并将对应的计数矩阵的值加1。此时计时矩阵和计数矩阵如图4(d)所示。

3.以此类推，当整个告警数据库扫描完毕时计时矩阵和计数矩阵如图4(e)所示，转入至Step4。

Step4，根据计数矩阵中的值计算对应关联规则的支持度与置信度，实现通过处理告警数据得到关联规则并输出；

关联规则的支持度如图5所示，其中Rule表示规则，Support表示支持度。对于支持度而言，Sup(c_ic_j)与Sup(c_jc_i)意义相同，表示告警代码c_i和告警代码c_j和一起出现的概率。(此处i，j是用于区分不同告警代码的标识符)关联规则的置信度如图6所示，其中Rule表示规则，Confidence表示置信度。对于置信度而言，Conf(c_i→c_j)与Conf(c_j→c_i)的意义完全不同，前者表示c_i已经发生后c_j的发生概率，后者表示c_j已经发生后c_i的发生概率。关联规则的支持度与置信度越高，说明对应的告警代码关系越密切。支持度与置信度的计算公式如下：

其中，CM_ij表示计数矩阵中第i行第j列的元素，CM_ji表示计数矩阵中第j行第i列的元素，Sum(CM)表示计数矩阵中所有元素的和，Σ表示求和，k表示序号，N表示告警代码的种类数，CM_ik表示计数矩阵中第i行第k列的元素，CM_ki表示计数矩阵中第k行第i列的元素。

为了顾及方法性能，提供如下几种方法作比较：

1)Apriori方法，首先找出不小于最小支持度的1频繁项集，然后循环处理直到再没有最大项目集生成。

2)FP-Growth方法，将数据集存储在一种称作FP-Tree的紧凑数据结构中，然后发现频繁项集。

3)PrefixSpan方法，从长度为1的前缀开始挖掘序列模式，搜索对应的投影数据库得到长度为1的前缀对应的频繁序列，然后一直递归到不能挖掘到更长的前缀挖掘为止。

为了更好地比较基于统计的方法(BOS)与以上三种方法，分别采用合成数据集与真实网络告警数据集进行了实验。得到在合成数据集上的对比效果，实验中BOS的时间窗口参数设置分别为5s，10s，15s，20s，25s，其他三种方法的最小支持度分别为0.1，0.3，0.5，0.7，0.9。可以看出，BOS在大多数情况下运行时间都小于其余三种方案且不会随着数据规模的增大而在运行时间上有明显增大。这是因为BOS方法采用了滑动时间窗口法，时间复杂度如下:

即T(m)＝O(m²)，其中k为时间窗口个数，m_i为每个时间窗口内的告警个数。当告警数据的规模增大时，每个时间窗口内的告警个数不会增加，只有滑动窗口的个数增加。因此BOS在运行效率方面优于其他三种方案。注意到在图4的(e)部分中，BOS的运行时间要长于其他三种方案，这是由于此时最小支持度为0.9，其他三种方案在运行过程中产生的候选集较少，因此得出的规则不够完备。

实验进行了BOS与其他三种方案在真实数据集上的对比。实验中BOS的时间窗口参数设置分别为3min，4min，5min，6min，7min，其他三种方法的最小支持度分别为0.1，0.15，0.2，0.25，0.3。由实验结果可知，BOS在不同的参数设置下运行效率都优于其他三种方案，本发明方案整体性能优于其他三种方案。但在对比各种方案产生的关联规则时，发现BOS产生的规则与其他三种方案产生的规则有矛盾，如BOS产生的关联规则为1512→1562，1719→1729等等，而其他三种方案则相反。于是对告警数据进行了实验，单独提取出矛盾规则的告警代码绘制为散点图。可以看出，在告警数据中是1512先发生而1562后发生，1719先发生而1729后发生。因此BOS产生的关联规则更符合实际，证明了本发明的方案产生规则的正确性与合理性。

另一实施例中，提供一种网络故障定位方法，在通过上述方法处理告警数据得到关联规则后，可以支持通过关联规则中的告警代码找寻告警发生的层次以及设备来定位故障，从而便于网络的运营维护人员及时清除故障和更换多次发生故障的网络设备，提高网络的稳定性。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

在一些可能的实施例中，提供一种基于统计的网络告警关联规则挖掘系统，包括以下模块，

在一些可能的实施例中，提供一种基于统计的网络告警关联规则挖掘系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于统计的网络告警关联规则挖掘方法。

在一些可能的实施例中，提供一种基于统计的网络告警关联规则挖掘系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于统计的网络告警关联规则挖掘方法。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

Claims

1.一种基于统计的网络告警关联规则挖掘方法，其特征在于：包括以下步骤，

2.根据权利要求1所述基于统计的网络告警关联规则挖掘方法，其特征在于：步骤1中，对网络告警数据进行预处理时，将告警视为由告警代码和告警发生时间组成的二元组。

3.根据权利要求1或2所述基于统计的网络告警关联规则挖掘方法，其特征在于：计数矩阵中每个元素为对应的两个告警代码的共现次数，计时矩阵中每个元素为对应的两个告警代码的告警发生时间组成的二元组。

4.根据权利要求1至3任一项所述一种基于统计的网络告警关联规则挖掘方法实现的故障定位方法，其特征在于：通过处理告警数据得到关联规则后，通过关联规则中的告警代码找寻告警发生的层次以及设备来定位故障。

5.一种基于统计的网络告警关联规则挖掘系统，其特征在于：用于实现如权利要求1-3任一项所述的一种基于统计的网络告警关联规则挖掘方法。

6.根据权利要求5所述基于统计的网络告警关联规则挖掘系统，其特征在于：包括以下模块，

7.根据权利要求5所述基于统计的网络告警关联规则挖掘系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-3任一项所述的一种基于统计的网络告警关联规则挖掘方法。

8.根据权利要求5所述基于统计的网络告警关联规则挖掘系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-3任一项所述的一种基于统计的网络告警关联规则挖掘方法。