CN112822052A

CN112822052A - 一种基于网络拓扑和告警的网络故障根因定位方法

Info

Publication number: CN112822052A
Application number: CN202110022507.7A
Authority: CN
Inventors: 李璟钰; 姜云逸
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-05-18
Anticipated expiration: 2041-01-08
Also published as: CN112822052B

Abstract

本发明提供一种基于网络拓扑和告警的网络故障根因定位方法，先对一个系统集群输出的冗长告警序列进行预处理，然后了利用机器学习算法判断是否存在根因，通过离线构建好的贝叶斯网络计算概率最高的故障类型，并与挖掘出的过滤规则相结合得出故障诊断结论。本发明改进了原有的基于故障传播模型的故障定位方法，使用贝叶斯网络，并与SVM Classifier，规则挖掘等方法相结合，有效提高整体效率并保持准确率。

Description

一种基于网络拓扑和告警的网络故障根因定位方法

技术领域

本发明涉及一种基于网络拓扑和告警的网络故障根因定位方法，属于故障定位领域。

背景技术

随着信息技术的快速发展，计算机网络日趋复杂，故障定位技术作为网络管理的核心一直是研究的热点。由于网络的互联性，网络故障存在着一定的关联，而计算机网络故障定位则是需要依据事件的相互关系，从多个故障事件中定位故障源。而在大型的网络系统中，网络拓扑中一个节点出现故障，往往会导致与其相连的其他节点也发生异常，进而产生大量告警将真正根因淹没掉。

有关贝叶斯网络在网络故障根因中的定位早有研究，由于贝叶斯网络结构学习和概率推算都是NP-Hard问题，很难在多项式时间内得出结果。一旦一个系统的告警信息呈现出多元化的倾向，那么判断时间就会急剧增加，大大影响运行效率，因此很难应用在实际场景中。

发明内容

为解决现有技术中的不足，本发明提供一种基于网络拓扑和告警的网络故障根因定位方法，改进了原有的基于故障传播模型的故障定位方法，使用贝叶斯网络，并与SVMClassifier，规则挖掘等方法相结合，有效提高整体效率并保持准确率。

本发明中主要采用的技术方案为：

一种基于网络拓扑和告警的网络故障根因定位方法，其特征在于，具体构建步骤如下：

S1:分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息，找出所有故障并进行编码，同时根据告警信息特点和网络拓扑信息对数据进行预处理；

S2:从预处理的数据中提取或变换出主要因素，并根据主要因素构建并训练SVM分类器，用于判断原告警序列中有无根因；

S3:根据预处理的数据以及网络拓扑信息，通过挖掘告警信息关系，去除噪声关系之后，得到贝叶斯网络有向图结构；

S4:统计告警信息，进行贝叶斯网络参数学习，得到完整的贝叶斯网络，由贝叶斯网络计算每种告警成为根因的概率值；

S5:通过规则挖掘算法(Apriori算法)，挖掘过滤一段原告警序列中不是根因的告警计算出每种告警成为根因的概率值；

S6:根据步骤S4中贝叶斯网络计算的每种告警成为根因的概率值和S5过滤规则算法计算出的计算出每种告警成为根因的概率值，通过一定比例将两者加权相加，即可得出各个告警为根因的概率，输出概率值最大的故障编码，通过数据预处理部分的编码，找到根因告警信息，将其代入到去除过噪声的告警序列中，找到发生该故障的根因节点。

优选地，所述步骤S1的数据预处理具体步骤如下：

S1-1：分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息，用大写字母给合并后的告警信息编码，同时，给故障类型进行编码，一个初因告警对应一种故障类型；

S1-2:对经步骤S1-1处理后的原告警序列进行去除噪声处理，结合已知的网络拓扑关系，删除告警序列中的孤立节点及其涉及的告警信息；若一个节点发出了多种告警，删除出现次数占比小于5×10^-3的告警。

优选地，所述步骤S2中SVM分类器的具体构建方法如下：

S3-1：通过数据分析的手段以及计算机网络专家知识，找到反映告警序列的主要因素，包括：不同节点不同告警信息的次数；告警序列密度，即预处理前告警序列长度与告警列持续时间之比；初因告警密度，初因告警所占告警总数量比重；

S3-2：根据步骤S3-1找到的反映告警序列的主要因素，调整数据数量级，调用Python的sk-learn库，构建SVM分类器，训练出能够判断一段原告警序列中是否存在根因的SVM模型。

优选地，所述步骤S4中贝叶斯网络有向图结构的具体构建方法如下：

S4-1：产生告警关系对，获取网络拓扑结构图G＜V，E＞，其中V为节点集，E为边集，设发生告警X的节点为V_x，函数Code(X)为告警X中告警信息的编码，设求某告警X的告警信息Code(X)在节点V_x上的告警次数的函数为f(Code(X)，V_x)，具体方法如下：

a)以每一种告警信息为中心收敛：

考虑存在采样偏差，设置时间窗WINDOW，创建空集合S₁、S₂，在某个原告警序列中，对于某告警X且其源自节点V_x，每当告警X出现时，选取其前后各WINDOW条告警，在这2WINDOW条告警中，若某条告警Y源自节点V_y，且＜V_x，V_y＞∈E，则认为是Code(X)引发了Code(Y)，若告警关系对

则将(Code(X)，Code(Y))加入到S₁中；若告警关系对(Code(X)，Code(Y))∈S₁，则将关系对(Code(X)，Code(Y))加入到集合S₂中；

对所有告警执行上面的操作后，删除S₁，用S₂中的告警关系对构造故障传播图G₁；

b)以初因告警为中心收敛：

考虑存在采样偏差，且每一次初因告警出现有一定的时间差，设置时间窗WINDOW′，创建空集合S₁′和S₂′，根因节点的影响范围是有限的，定义跳数HOP，在某个原告警序列中，对于某初因告警X_error且其源自节点V_x′，选取其前后各WINDOW′告警信息，在这2WINDOW′条告警信息中，若某条告警Y′源自节点V_y′，且＜V_x′，V_y′＞∈E，且

使得0≤i＜HOP∧i∈N∧＜V_x′，V₁＞∈E∧＜V₁，V₂＞∈E∧…∧＜V_i-1，V_i＞∈E∧＜V_i，V_y′＞∈E，则分如下两种情况进行：

在这2WINDOW条告警中，若不存在与告警Y′相同的告警，则视S₁′情况判断；若

则将(Code(X_error)，Code(Y′))加入到集合S₁′中；反之则加入到集合S₂′中；

在这2WINDOW′条告警中，若存在与Y′相同的告警W₁，W₂，…，W_n(1≤n≤2WINDOW′-1)，则作如下运算：

S_{temp 1}＝{W_j|0≤i＜HOP∧1≤j≤n∧i＝min{k|＜V_X′，V₁＞∈E∧＜V1，V2＞∈E∧…∧＜Vk-1，Vk＞∈E∧＜Vk，VWj＞∈E}；

S_{temp 2}＝{X|f(Code(X)，V_x′)＝minfCodeX，Vx′-fCodeXerror，VxerrorX∈Stemp1；

在S_{temp 2}中随机取一个告警R；若

则将(Code(X_error)，Code(R))加入到集合S′₁中；反之则加入到集合S′₂中，随后在这2WINDOW′条告警中，再遇到告警信息为Code(Y′)的告警，则直接跳过；

对所有告警信息X执行上面的操作后，删除S′₁，用S′₂中的告警关系对构造故障传播图G₂；

S4-2：将步骤S4-1得到的故障传播图G₁和G₂，取最大公共子图，得到图G_max，即为最终贝叶斯网络有向图部分的母图，如果G_max中存在一个代表初因告警的节点指向另一个代表初因告警节点的边，则将其从G_max中删除；

S4-3：当G_max中存在一个由非初因告警信息A指向非初因告警信息B的弧，若

使得＜A，C₁＞∈E∧＜C₁，C₂＞∧…∧＜C_i，B＞∈E，则删除G_max中A到B的直接通路，保留经过C₁，C₂，…C_i的间接通路；

S4-4：删除G_max中的因果环，采用贪心算法搜索出删除边数最少的组合；

S4-5：引入根因节点error，根因节点error为一个入度为0，并指向所有初因告警节点、不指向其他任何节点的节点，即得到最终的贝叶斯网络有向图。

优选地，所述步骤S5中贝叶斯网络参数学习是指在已经知道贝叶斯网络有向图的情况下，确定各节点的概率分布，具体方法如下：

S5-1：首先要根据告警序列训练集构建训练数据，每行对应一段告警序列，列为贝叶斯网络图中所有节点出现告警信息编码的时间频度，告警信息编码的频度为每种告警出现的频次经过一定的映射得到，将这种映射定义为times-encoding(x)，其中，x为某告警信息在该告警序列中出现的次数；

S5-2：使用开源库pgmpy，调用其中的MaximumLikelihoodEstimator，采用极大似然估计的方法对贝叶斯网络中的每个节点的条件概率表进行估计，最终得到基于网络拓扑和告警的贝叶斯网络。

有益效果：本发明提供一种基于网络拓扑和告警的网络故障根因定位方法，采用了算法设计的近似解的思想，大大降低了贝叶斯网络的运行代价，与现有技术相比，具有如下优点：

(1)通过先解决“是否存在根因”的问题，先一步将贝叶斯网络的运行代价降低了一个维度，同时大大提高了不存在根因的告警序列的判断准确率；

(2)通过对告警频次编码的方法，稀释了贝叶斯网络概率推断环节的运行代价；

(3)将挖掘出的过滤规则与贝叶斯网络模型有机结合，减少了贝叶斯网络学习过程中的随机性。

附图说明

图1为本发明构建的故障诊断模块的在线运行示意图。

图2为本发明贝叶斯网络有向图示例图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案，下面对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

一种基于网络拓扑和告警的网络故障根因定位方法，具体构建步骤如下：

S5:通过规则挖掘算法(即Apriori算法)，挖掘过滤一段原告警序列中不是根因的告警计算出每种告警成为根因的概率值；

优选地，所述步骤S1的数据预处理具体步骤如下：

S1-1：分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息，用大写字母给合并后的告警信息编码，同时，给故障类型进行编码，一个初因告警对应一种故障类型；(本发明通过正则表达式，过滤告警信息中的无用信息，包括数字、单位和符号；计算每一对告警信息的Jaccard相似系数，将内容相似度高的告警信息合并成一条；)

S1-2：对经步骤S1-1处理后的原告警序列进行去除噪声处理，结合已知的网络拓扑关系，删除告警序列中的孤立节点及其涉及的告警信息；若一个节点发出了多种告警，删除出现次数占比小于5×10^-3的告警。

优选地，所述步骤S2中SVM分类器的具体构建方法如下：

a)以每一种告警信息为中心收敛：

b)以初因告警为中心收敛：

在这2WINDOW条告警中，若不存在与告警Y′相同的告警，则视S_1′情况判断；若

在S_{temp 2}中随机取一个告警R；若

使得＜A，C₁＞∈E∧＜C₁，C₂＞∧…∧＜C_i，B＞∈E，则删除G_max中A到B的直接通路，保留经过C1，C2，…Ci的间接通路；

S4-5：引入根因节点error，根因节点error为一个入度为0，并指向所有初因告警节点、不指向其他任何节点的节点，即得到最终的贝叶斯网络有向图。如图2所示，为根据某服务器系统构造的贝叶斯网络图示意图。

S5-1：首先要根据告警序列训练集构建训练数据，每行对应一段告警序列，列为贝叶斯网络图中所有节点出现告警信息编码的时间频度，告警信息编码的频度为每种告警出现的频次经过一定的映射得到，将这种映射定义为times-encoding(x)，其中，x为某告警信息在该告警序列中出现的次数；本发明中设置times-encoding(x)目的是为了缩小贝叶斯网络参数学习的定义域，降低贝叶斯网络学习与运行代价。如果映射后的值域过小，则会造成精度缺失过大；如果映射后值域过宽甚至不进行映射，则会导致贝叶斯网络参数学习和运行的代价过大。因此应当合理地调整映射函数times-encoding(x)，使得贝叶斯网络在运行代价和精度上进行折中。

上述具体构建步骤均为本发明中故障诊断模块的离线构建训练方法，图1为基于上述离线构建训练得到的故障诊断模块实现在线诊断的流程示意图。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于网络拓扑和告警的网络故障根因定位方法，其特征在于，具体构建步骤如下：

S5:通过规则挖掘算法，挖掘过滤一段原告警序列中不是根因的告警计算出每种告警成为根因的概率值；

2.根据权利要求1所述的一种基于网络拓扑和告警的网络故障根因定位方法，其特征在于：所述步骤S1的数据预处理具体步骤如下：S1-1：分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息，用大写字母给合并后的告警信息编码，同时，给故障类型进行编码，一个初因告警对应一种故障类型；

3.根据权利要求1所述的一种基于网络拓扑和告警的网络故障根因定位方法，其特征在于：所述步骤S2中SVM分类器的具体构建方法如下：

S3-1:通过数据分析的手段以及计算机网络专家知识，找到反映告警序列的主要因素，包括：不同节点不同告警信息的次数；告警序列密度，即预处理前告警序列长度与告警列持续时间之比；初因告警密度，初因告警所占告警总数量比重；

4.根据权利要求1所述的一种基于网络拓扑和告警的网络故障根因定位方法，其特征在于：所述步骤S4中贝叶斯网络有向图结构的具体构建方法如下：

S4-1:产生告警关系对，获取网络拓扑结构图G<V，E>,其中V为节点集，E为边集，设发生告警X的节点为V_x，函数Code(X)为告警X中告警信息的编码，设求某告警X的告警信息Code(X)在节点V_x上的告警次数的函数为f(Code(X)，V_x)，具体方法如下：

a)以每一种告警信息为中心收敛：

考虑存在采样偏差，设置时间窗WINDOW，创建空集合S₁、S₂,在某个原告警序列中，对于某告警X且其源自节点V_x，每当告警X出现时，选取其前后各WINDOW条告警，在这2WINDOW条告警中，若某条告警Y源自节点V_y，且<V_x，V_y>∈E，则认为是Code(X)引发了Code(Y)，若告警关系对

b)以初因告警为中心收敛：

考虑存在采样偏差，且每一次初因告警出现有一定的时间差，设置时间窗WINDOW′，创建空集合S₁′和S₂′，根因节点的影响范围是有限的，定义跳数HOP，在某个原告警序列中，对于某初因告警X_error且其源自节点V_x′，选取其前后各WINDOW′告警信息，在这2WINDOW′条告警信息中，若某条告警Y′源自节点V_y′，且<V_x′，V_y′>∈E，且

使得0≤i<HOP∧i∈N∧<V_x′，V₁>∈E∧<V₁，V₂>∈E∧…∧<V_i-1，V_i>∈E∧<V_i，V_y′>∈E，则分如下两种情况进行：

S_temp2＝{X|f(Code(X)，V_x′)＝minfCodeX，Vx′-fCodeXerror，VxerrorX∈Stemp1；

在S_temp2中随机取一个告警R；若

S4-2:将步骤S4-1得到的故障传播图G₁和G₂，取最大公共子图，得到图G_max，即为最终贝叶斯网络有向图部分的母图，如果G_max中存在一个代表初因告警的节点指向另一个代表初因告警节点的边，则将其从G_max中删除；

S4-3:当G_max中存在一个由非初因告警信息A指向非初因告警信息B的弧，若

使得<A，C₁>∈E∧<C₁，C₂>∧…∧<C_i，B>∈E，则删除G_max中A到B的直接通路，保留经过C₁，C₂，…C_i的间接通路；

S4-4:删除G_max中的因果环，采用贪心算法搜索出删除边数最少的组合；

5.根据权利要求1所述的一种基于网络拓扑和告警的网络故障根因定位方法，其特征在于：所述步骤S5中贝叶斯网络参数学习是指在已经知道贝叶斯网络有向图的情况下，确定各节点的概率分布，具体方法如下：

S5-1：首先要根据告警序列训练集构建训练数据，每行对应一段告警序列，列为贝叶斯网络图中所有节点出现告警信息编码的时间频度，告警信息编码的频度为每种告警出现的频次经过一定的映射得到，将这种映射定义为times_encoding(x)，其中，x为某告警信息在该告警序列中出现的次数；

S5-2:使用开源库pgmpy，调用其中的MaximumLikelihoodEstimator，采用极大似然估计的方法对贝叶斯网络中的每个节点的条件概率表进行估计，最终得到基于网络拓扑和告警的贝叶斯网络。