CN112217674A

CN112217674A - 基于因果网络挖掘和图注意力网络的告警根因识别方法

Info

Publication number: CN112217674A
Application number: CN202011084942.4A
Authority: CN
Inventors: 张和先; 杨树森; 杨煜乾; 田晓慧; 王楠斌; 徐宗本; 秦刚
Original assignee: Huawei Technologies Co Ltd; Xian Jiaotong University
Current assignee: Huawei Technologies Co Ltd; Xian Jiaotong University
Priority date: 2020-10-12
Filing date: 2020-10-12
Publication date: 2021-01-12
Anticipated expiration: 2040-10-12
Also published as: CN112217674B

Abstract

本发明公开了一种基于因果网络挖掘和图注意力网络的告警根因识别方法，解决了大规模复杂通信网络的故障快速准确定位问题。从网络设备告警的实际出发，使用最大最小爬山法(MMHC)来挖掘告警之间的因果触发关系，并在此基础上使用图注意力网络来对告警进行精准定位。此模型对挖掘的告警关系有一定的容错性，通过Attention机制来调节不同邻居节点的权重影响，使得根因告警的识别更加准确，达到了93％的识别准确度。

Description

基于因果网络挖掘和图注意力网络的告警根因识别方法

技术领域

本发明属于智能运维(AIOPS)领域，具体涉及一种基于因果网络挖掘和图注意力网络(GAT)的告警根因识别方法。

背景技术

在大规模网络运维环境下，当网络设备发生故障时将会产生大量的告警信息，且由于设备间的关联性极有可能在短时间内引发与它关联的设备告警。当前在华为无线领域场景中，一个故障的出现往往会引发多个告警事件，从而使得与故障相关的设备以及业务过程都会产生告警信息。与此同时，这些告警信息(告警流)很有可能会叠加到一起，将真正的故障告警淹没在其中，导致故障识别非常困难，因而对网络故障进行精准的定位与快速的修复具有重要现实意义。

在故障定位和诊断领域最初应用最为广泛的技术是专家系统，在解决问题时，专家系统试图反应人类专家的行为。由于通信系统的复杂性、不可靠性以及非确定性，故障定位问题本就复杂。当前故障定位定界诊断过程严重依赖于工程师的知识和经验，随着服务规模和复杂性的增长，过程就会变得越发冗繁并且容易出错。最初依靠单一的专家系统的技术并不能实现良好的效果，算法逐渐向基于规则的专家系统+其它自动/半自动算法靠拢，为了更加高效和迅速的解决故障来提升用户体验感，最近几年开始使用基于机器学习和数据驱动的方式直接进行根因定位，但故障识别的准确率和故障的快速恢复仍有待提高。因而需要借助前沿技术来对告警信息进行分析，以较为简单、省力、高效的方式来准确识别故障。

发明内容

为了解决上述问题，本发明的目的在于提供一种基于因果网络挖掘和图注意力网络的告警根因识别方法，该方法能够有效地对上报的告警数据进行分析处理，并能快速且精准的对根因告警进行识别。

为达到上述目的，本发明采用如下技术方案来实现的：

基于因果网络挖掘和图注意力网络的告警根因识别方法，该方法结合最大最小爬山算法以及图注意力算法来对告警数据进行准确的根因告警识别；前者用于挖掘告警之间的因果关系网络，后者则结合已有因果图，以及告警数据的特征对模型进行训练与学习；该方法具体包括以下步骤：

1)数据清洗以及数据分组处理：

对上报的原始告警数据进行缺失值以及无效值处理，并对处理后的告警数据进行分组预处理；

2)特征处理模型训练之word2vec模型：

即通过word2vec模型对步骤1)处理后的告警数据中alarm name属性中的词进行特征的初步提取，即将步骤1)处理后的告警数据中alarm name属性中涉及的每一个单词表示为40维的词向量；

3)特征处理模型训练之seq2seq模型：

即使用LSTM学习训练seq2seq模型并将最终训练得到的Encoder作为特征提取模型，得到步骤1)处理后的告警数据中所有alarm name属性的特征表示；

4)因果网络挖掘之最大最小爬山法：

首先使用步骤1)处理后的告警数据，将其处理为0，1形式的向量；其次通过最大最小爬山法挖掘告警之间的因果关系网络，最终得到告警之间因果关系的矩阵表示，最大最小爬山法以下简称为MMHC，其中使用搜索算法为禁忌搜索，使用的评分函数为AIC评分，并设置相应的置信水平为0.05；

5)根因识别之注意力神经网络模型：

使用步骤2)以及步骤3)最终得到的所有alarm name属性的特征表示以及通过步骤4)挖掘出的因果关系网络，对注意力神经网络模型进行训练与学习，注意力神经网络模型简称为GAT。

本发明进一步的改进在于，步骤1)的具体操作为：对上报的原始告警数据进行缺失值以及无效值处理，对缺失值进行补零操作，对无效值进行删除操作；并对数据进行分组预处理，具体以p告警为中心截取前后五分钟内上报的告警为一组告警样本，用于对告警数据的alarm name属性进行处理；并设置滑动窗口为一分钟，截取原始告警数据，将每分钟内的告警看作一个样本，用于因果网络挖掘。

本发明进一步的改进在于，步骤2)的具体操作为：对所有告警数据的alarm name属性进行处理，将所有的alarm name进行分词操作并将涉及的所有词作为一个语料库；设置滑动窗口为默认值，遍历语料库并使用输入数据对skip-gram模型进行训练与学习，最终得到语料库中每个单词的特征表示向量并保存训练模型；用作下一步特征提取。

本发明进一步的改进在于，步骤3)的具体操作为：建立seq2seq模型，其中Encoder使用LSTM模型，Decoder使用另外一个LSTM模型；对于原始告警数据的alarm name属性，每个告警由唯一的alarm name属性来标识，将每个alarm name中涉及的词对应的词向量特征表示依次作为LSTM的输入，设置默认超参数学习并训练模型，最终得到的Encoder作为最终的特征提取模型。

本发明进一步的改进在于，步骤4)的具体操作为：首先使用步骤1)按照滑动窗口一分钟截取的分组数据样本，将每个告警名称看作变量，并将每一组数据看作一个样本；然后将样本变为长度为L的向量，L为原始数据涉及的所有变量的总数，其中向量的值表示在此样本中对应位置的变量是否出现，出现则为1，否则为0；其次MMHC算法主要分为两个阶段：第一阶段：利用MMPC算法构建贝叶斯网络的框架即无向图；第二阶段：执行评分搜索确定网络结构的边以及边的方向；

其中第一阶段MMPC算法由

算法和额外的对称校验组成，

算法贪婪的求得每个变量的父节点以及子节点；对称校验即如果变量T不在变量X的候选父子节点集CPC中，则从目标变量T的候选父子节点集CPC中去除X；最终得到网络的初始框架图即无向图；第二阶段通过搜索算法并设置相应参数来调整边的方向生成变量间的因果关系图；将得到的因果关系图转换为告警之间因果关系的矩阵表示。

本发明进一步的改进在于，步骤5)的具体操作为：对于每个包含多个alarm name的样本，依次使用训练好的word2vec模型以及seq2seq模型得到样本的特征矩阵作为GAT的输入；同时使用步骤4)得到的全量告警之间的因果关系图的邻接矩阵作为输入；通过图注意力网络来更新每个样本中告警序列对应的子图上每个告警的特征表示，并通过attention机制来有选择的处理邻居节点的特征对自身的影响；最终得到传播后的每个告警的特征表示，将其输入softmax层并得到每个告警是根因告警的概率，取概率最大的告警最为根因告警。

本发明至少具有如下有益的技术效果：

本发明提供一种基于因果网络挖掘和图注意力网络的告警根因识别方法，当告警发生时，该方法可以快速且精准的对根因告警进行识别，既提高了预测准确率又节省了大量的人力物力财力。对比分析无论是训练集还是测试集本发明的算法的准确率遥遥领先与其他三种SVM、CNN、Random Forest算法，在训练集上可达到95.95％，在测试集可达到93.61％。相对于其它算法，本发明提出的算法可快速且准确的识别出根因告警。

附图说明

图1为从告警中准确识别根因的整体框架及流程示意图；

图2为最大最小爬山法(MMHC)寻找目标变量的父子节点流程图；

图3为图注意力网络特征提取的流程图；

图4为本算法与华为现存算法以及其他对比算法对根因告警进行识别的准确率对照图。

具体实施方式

下面结合附图和实施例对本发明作进一步详细描述。

参考图1，华为无线领域中，一个故障的出现将会导致大量的告警警报产生，要做的是从实时告警信息流中识别根因告警(RA)，最终确定故障根因(RC)。经过多次调查了解，当前华为无线领域网络告警的监控管理主要依靠人工完成，具体存在问题如下：一是故障定界处理过程耗时耗力，需要依赖工程师经验进行排查，且存在主观判断，网络运维成本太高，在同时并发大量故障告警时不能满足目前的需求。二是定位故障效率低，经常会导致重复上站或不必要的上站，增加了不必要的维护成本。三是故障症状可能是模糊的和不完整的，模糊性主要是源于不同的故障可能会产生相同的告警；不完整性则源于告警丢失和延时。

为解决以上三个问题，需要结合告警信息与专家知识来自动生成告警之间的因果关系网络图，无监督方法可以很大程度缓解处理过程耗时耗力的情况。并将因果图和告警信息相结合，提取图中每个节点的特征进行自动学习，且由于自动生成的因果图与实际情况有一定误差，因而选择的学习算法GAT网络具有一定的容错性，可在不断地学习与训练中对节点间的关系进行调整。这样可以解决告警信息模糊和不完整的问题，从而进一步提升精度。

最终提出基于因果网络挖掘和图注意力网络(GAT)的精准告警根因识别方法。设计的算法包含如下三个主要模块：数据预处理模块、告警关联图生成模块、根因告警推理模块。基于专家知识构建的数据预处理模块处理原始告警数据生成待处理数据，告警关联图模块结合专家知识与统计分析方法将待处理数据转换为告警关联表示，最后告警推理模块基于过往数据学习得到的网络模型进行根因告警推断，得到根因告警。本发明提供的基于因果网络挖掘和图注意力网络的告警根因识别方法，具体包括如下步骤：

1)数据预处理：

通过对告警数据分析，数据清洗是告警数据预处理阶段最主要的内容。原始告警属性众多，其中有很多的列的数据存在缺失值或对本身没有太多信息量。因而在数据清洗环节需要对告警数据进行缺失值处理，如使用默认值等进行填充或者丢弃缺失值。对于重复数据，如告警信息完全相同的连续告警，可以认为是反复出发的同一告警，直接进行过滤操作。对于异常的数据，可进行删除操作。对于非需求数据，如对业务不重要的字段，可进行变量删除操作。而清洗过后的数据需要进行编码，提供下一模块的可用输入。如对文本数据采用word2vec模型以及seq2seq模型等对数据进行编码处理。

结合华为业务知识，将原始告警数据流进行基于业务重点关注告警(P告警)的分割，得到告警序列作为算法输入。具体方法为：以P告警为中心，截取前后五分钟告警数据为一个告警序列样本。然后对告警数据的属性进行筛选，再将筛选后的数据通过合适编码方法转换为下一模块输入所需要的形式。

2)告警关联图生成：

将处理好的告警序列数据作为输入，基于数据和模型来构建告警关联图，采用的是最大最小爬山法(Max-Min hill-climbing,MMHC)。该算法结合了稀疏候选算法基于约束空间的思想，并且利用了局部因果发现算法MMPC(Max-Min Parents and Children)和贪婪搜索算法。

在每个告警样本中，将每个告警名称看作变量。并将样本变为长度为L的向量(L为所有变量的总数)，其中向量的值表示在此样本中对应位置的变量是否出现，出现则为1，否则为0；

MMHC算法主要分为两个阶段：

第一阶段：利用MMPC算法构建贝叶斯网络的框架(即无向图)；

第二阶段：执行评分搜索确定网络结构的边以及边的方向。

其中第一阶段MMPC算法由

算法和额外的对称校验组成，

算法贪婪的求得每个变量的父节点以及子节点。对称校验即如果变量T不在变量X的候选父子节点集CPC中，则从目标变量T的候选父子节点集CPC中去除X。最终得到网络的初始框架图(无向图)。

第二阶段通过搜索算法并设置相应参数来调整边的方向生成变量间的因果关系图。将得到的因果关系图转换为告警之间因果关系的矩阵表示，为模块三做准备；

3)根因告警推理：

将上一模块得到的告警关联图作为输入，深入发掘内在信息，并结合华为专家知识以及对应的告警特征表示。通过图注意力网络(GAT)对告警样本进行训练与学习，进行特征的深度提取，最后综合以上信息精准挖掘根因告警，具体内容如下；

对于每个样本(告警序列)，依次使用模块一中训练好的word2vec模型以及seq2seq模型得到样本的特征矩阵作为GAT的输入；同时使用模块二得到的全量告警之间的因果关系图的邻接矩阵作为输入。

设置网络超参数，通过图注意力网络来更新子图(每个告警序列对应一个图)上每个告警的特征表示，并通过attention机制来有选择的处理邻居节点的特征对自身的影响。最终得到传播后的每个告警的特征表示，具体模型内容如下：

输入：节点特征集

输出：一个新的节点特征集

其中

表示样本中第i个节点的特征，N是节点数量，F是每个节点的特征维度。

表示更新后的第i个节点的特征表示，F′表示节点特征更新后的特征维度。

为了提取l阶邻接信息，首先通过对所有节点共享权值来对初始特征进行节点嵌入：

其中l为目标节点的l阶邻居节点，

为共享权重矩阵，

表示l阶邻居节点对目标节点h_i的初始特征进行节点嵌入的新特征表示。接下来计算成对节点间的原始注意力分数。这一形式的注意力机制通常被称之为加性注意力，具体体现为通过拼接两个节点的嵌入，并对拼接好的嵌入以及可学习的权重向量做点积，最终通过LeakyReLU激活函数。

原始注意力系数：

其中

为选取的注意力机制。e_ij表示节点j对目标节点i的影响程度。

对节点所有的入边得到的注意力分数使用softmax函数操作，计算不同相邻节点对该节点的注意力权重系数α_ij。

对所有邻居节点的特征做基于注意力的加权求和，最终得到第L+1层邻接节点对目标节点进行信息传递更新后的特征表示：

将其输入softmax层并得到每个告警是根因告警的概率，取概率最大的告警最为根因告警。

参考图2，为最大最小爬山法(MMHC)中阶段一MMPC算法寻找目标变量的父子节点流程图，即利用MMPC算法构建贝叶斯网络的框架。MMPC算法由

算法和额外的对称校验组成，

算法返回目标变量T可能的父子集，即真正CPC的超集。对称校验即如果变量T不在变量X的候选父子节点集CPC中，则从目标变量T的候选父子节点集CPC中去除X。

算法的具体细节如下：

算法主要分为两个阶段：

在前向阶段，利用Max-Min策略启发式使变量依次进入目标节点T的候选父子节点集CPC(Candidate Parents and Children)。其中Max-Min策略启发式选择使变量T相对以候选父子节点CPC为条件集时的最小依赖最大化的变量X，具体定义如下：

在后向阶段，去除CPC中的假变量，即若目标变量T的候选父子节点集CPC中存在变量X，使得Ind(X；T|S)成立(即在S的条件下，X和T条件独立)，其中

则将变量X从CPC中移除。

参考图3，为图注意力网络中attention机制作用流程图。GAT的基本思想是通过每一个节点的在邻近节点的attention值(控制相邻节点对该节点特征影响的权重)来更新节点表示。这一形式的注意力机制通常被称之为加性注意力，具体体现为通过拼接两个节点的嵌入，并对拼接好的嵌入以及可学习的权重向量做点积，最终通过LeakyReLU激活函数。

原始注意力系数：

对节点所有的入边得到的注意力分数使用softmax函数操作，计算不同相邻节点对该节点的注意力权重系数。

参考图4，为SVM、CNN、Random Forest以及本发明提出的算法在训练集以及测试集上根因识别准确率的对比。从图中可以看出无论是训练集还是测试集本发明的算法的准确率遥遥领先与其他三种算法，在训练集上可达到95.95％，在测试集可达到93.61％。相对于其它算法，本发明提出的算法可快速且准确的识别出根因告警。

Claims

1.基于因果网络挖掘和图注意力网络的告警根因识别方法，其特征在于，该方法结合最大最小爬山算法以及图注意力算法来对告警数据进行准确的根因告警识别；前者用于挖掘告警之间的因果关系网络，后者则结合已有因果图，以及告警数据的特征对模型进行训练与学习；该方法具体包括以下步骤：

1)数据清洗以及数据分组处理：

2)特征处理模型训练之word2vec模型：

3)特征处理模型训练之seq2seq模型：

4)因果网络挖掘之最大最小爬山法：

5)根因识别之注意力神经网络模型：

2.根据权利要求1所述的基于因果网络挖掘和图注意力网络的告警根因识别方法，其特征在于，步骤1)的具体操作为：对上报的原始告警数据进行缺失值以及无效值处理，对缺失值进行补零操作，对无效值进行删除操作；并对数据进行分组预处理，具体以p告警为中心截取前后五分钟内上报的告警为一组告警样本，用于对告警数据的alarm name属性进行处理；并设置滑动窗口为一分钟，截取原始告警数据，将每分钟内的告警看作一个样本，用于因果网络挖掘。

3.根据权利要求1所述的基于因果网络挖掘和图注意力网络的告警根因识别方法，其特征在于，步骤2)的具体操作为：对所有告警数据的alarm name属性进行处理，将所有的alarm name进行分词操作并将涉及的所有词作为一个语料库；设置滑动窗口为默认值，遍历语料库并使用输入数据对skip-gram模型进行训练与学习，最终得到语料库中每个单词的特征表示向量并保存训练模型；用作下一步特征提取。

4.根据权利要求1所述的基于因果网络挖掘和图注意力网络的告警根因识别方法，其特征在于，步骤3)的具体操作为：建立seq2seq模型，其中Encoder使用LSTM模型，Decoder使用另外一个LSTM模型；对于原始告警数据的alarm name属性，每个告警由唯一的alarmname属性来标识，将每个alarm name中涉及的词对应的词向量特征表示依次作为LSTM的输入，设置默认超参数学习并训练模型，最终得到的Encoder作为最终的特征提取模型。

5.根据权利要求1所述的基于因果网络挖掘和图注意力网络的告警根因识别方法，其特征在于，步骤4)的具体操作为：首先使用步骤1)按照滑动窗口一分钟截取的分组数据样本，将每个告警名称看作变量，并将每一组数据看作一个样本；然后将样本变为长度为L的向量，L为原始数据涉及的所有变量的总数，其中向量的值表示在此样本中对应位置的变量是否出现，出现则为1，否则为0；其次MMHC算法主要分为两个阶段：第一阶段：利用MMPC算法构建贝叶斯网络的框架即无向图；第二阶段：执行评分搜索确定网络结构的边以及边的方向；

其中第一阶段MMPC算法由

算法和额外的对称校验组成，

6.根据权利要求1所述的基于因果网络挖掘和图注意力网络的告警根因识别方法，其特征在于，步骤5)的具体操作为：对于每个包含多个alarm name的样本，依次使用训练好的word2vec模型以及seq2seq模型得到样本的特征矩阵作为GAT的输入；同时使用步骤4)得到的全量告警之间的因果关系图的邻接矩阵作为输入；通过图注意力网络来更新每个样本中告警序列对应的子图上每个告警的特征表示，并通过attention机制来有选择的处理邻居节点的特征对自身的影响；最终得到传播后的每个告警的特征表示，将其输入softmax层并得到每个告警是根因告警的概率，取概率最大的告警最为根因告警。