CN112822052A - 一种基于网络拓扑和告警的网络故障根因定位方法 - Google Patents

一种基于网络拓扑和告警的网络故障根因定位方法 Download PDF

Info

Publication number
CN112822052A
CN112822052A CN202110022507.7A CN202110022507A CN112822052A CN 112822052 A CN112822052 A CN 112822052A CN 202110022507 A CN202110022507 A CN 202110022507A CN 112822052 A CN112822052 A CN 112822052A
Authority
CN
China
Prior art keywords
alarm
code
network
root cause
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110022507.7A
Other languages
English (en)
Other versions
CN112822052B (zh
Inventor
李璟钰
姜云逸
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110022507.7A priority Critical patent/CN112822052B/zh
Publication of CN112822052A publication Critical patent/CN112822052A/zh
Application granted granted Critical
Publication of CN112822052B publication Critical patent/CN112822052B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • G06F18/24155Bayesian classification
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/145Network analysis or design involving simulating, designing, planning or modelling of a network

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供一种基于网络拓扑和告警的网络故障根因定位方法,先对一个系统集群输出的冗长告警序列进行预处理,然后了利用机器学习算法判断是否存在根因,通过离线构建好的贝叶斯网络计算概率最高的故障类型,并与挖掘出的过滤规则相结合得出故障诊断结论。本发明改进了原有的基于故障传播模型的故障定位方法,使用贝叶斯网络,并与SVM Classifier,规则挖掘等方法相结合,有效提高整体效率并保持准确率。

Description

一种基于网络拓扑和告警的网络故障根因定位方法
技术领域
本发明涉及一种基于网络拓扑和告警的网络故障根因定位方法,属于故障定位领域。
背景技术
随着信息技术的快速发展,计算机网络日趋复杂,故障定位技术作为网络管理的核心一直是研究的热点。由于网络的互联性,网络故障存在着一定的关联,而计算机网络故障定位则是需要依据事件的相互关系,从多个故障事件中定位故障源。而在大型的网络系统中,网络拓扑中一个节点出现故障,往往会导致与其相连的其他节点也发生异常,进而产生大量告警将真正根因淹没掉。
有关贝叶斯网络在网络故障根因中的定位早有研究,由于贝叶斯网络结构学习和概率推算都是NP-Hard问题,很难在多项式时间内得出结果。一旦一个系统的告警信息呈现出多元化的倾向,那么判断时间就会急剧增加,大大影响运行效率,因此很难应用在实际场景中。
发明内容
为解决现有技术中的不足,本发明提供一种基于网络拓扑和告警的网络故障根因定位方法,改进了原有的基于故障传播模型的故障定位方法,使用贝叶斯网络,并与SVMClassifier,规则挖掘等方法相结合,有效提高整体效率并保持准确率。
本发明中主要采用的技术方案为:
一种基于网络拓扑和告警的网络故障根因定位方法,其特征在于,具体构建步骤如下:
S1:分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息,找出所有故障并进行编码,同时根据告警信息特点和网络拓扑信息对数据进行预处理;
S2:从预处理的数据中提取或变换出主要因素,并根据主要因素构建并训练SVM分类器,用于判断原告警序列中有无根因;
S3:根据预处理的数据以及网络拓扑信息,通过挖掘告警信息关系,去除噪声关系之后,得到贝叶斯网络有向图结构;
S4:统计告警信息,进行贝叶斯网络参数学习,得到完整的贝叶斯网络,由贝叶斯网络计算每种告警成为根因的概率值;
S5:通过规则挖掘算法(Apriori算法),挖掘过滤一段原告警序列中不是根因的告警计算出每种告警成为根因的概率值;
S6:根据步骤S4中贝叶斯网络计算的每种告警成为根因的概率值和S5过滤规则算法计算出的计算出每种告警成为根因的概率值,通过一定比例将两者加权相加,即可得出各个告警为根因的概率,输出概率值最大的故障编码,通过数据预处理部分的编码,找到根因告警信息,将其代入到去除过噪声的告警序列中,找到发生该故障的根因节点。
优选地,所述步骤S1的数据预处理具体步骤如下:
S1-1:分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息,用大写字母给合并后的告警信息编码,同时,给故障类型进行编码,一个初因告警对应一种故障类型;
S1-2:对经步骤S1-1处理后的原告警序列进行去除噪声处理,结合已知的网络拓扑关系,删除告警序列中的孤立节点及其涉及的告警信息;若一个节点发出了多种告警,删除出现次数占比小于5×10-3的告警。
优选地,所述步骤S2中SVM分类器的具体构建方法如下:
S3-1:通过数据分析的手段以及计算机网络专家知识,找到反映告警序列的主要因素,包括:不同节点不同告警信息的次数;告警序列密度,即预处理前告警序列长度与告警列持续时间之比;初因告警密度,初因告警所占告警总数量比重;
S3-2:根据步骤S3-1找到的反映告警序列的主要因素,调整数据数量级,调用Python的sk-learn库,构建SVM分类器,训练出能够判断一段原告警序列中是否存在根因的SVM模型。
优选地,所述步骤S4中贝叶斯网络有向图结构的具体构建方法如下:
S4-1:产生告警关系对,获取网络拓扑结构图G<V,E>,其中V为节点集,E为边集,设发生告警X的节点为Vx,函数Code(X)为告警X中告警信息的编码,设求某告警X的告警信息Code(X)在节点Vx上的告警次数的函数为f(Code(X),Vx),具体方法如下:
a)以每一种告警信息为中心收敛:
考虑存在采样偏差,设置时间窗WINDOW,创建空集合S1、S2,在某个原告警序列中,对于某告警X且其源自节点Vx,每当告警X出现时,选取其前后各WINDOW条告警,在这2WINDOW条告警中,若某条告警Y源自节点Vy,且<Vx,Vy>∈E,则认为是Code(X)引发了Code(Y),若告警关系对
Figure BDA0002889145640000031
则将(Code(X),Code(Y))加入到S1中;若告警关系对(Code(X),Code(Y))∈S1,则将关系对(Code(X),Code(Y))加入到集合S2中;
对所有告警执行上面的操作后,删除S1,用S2中的告警关系对构造故障传播图G1
b)以初因告警为中心收敛:
考虑存在采样偏差,且每一次初因告警出现有一定的时间差,设置时间窗WINDOW′,创建空集合S1′和S2′,根因节点的影响范围是有限的,定义跳数HOP,在某个原告警序列中,对于某初因告警Xerror且其源自节点Vx′,选取其前后各WINDOW′告警信息,在这2WINDOW′条告警信息中,若某条告警Y′源自节点Vy′,且<Vx′,Vy′>∈E,且
Figure BDA0002889145640000041
使得0≤i<HOP∧i∈N∧<Vx′,V1>∈E∧<V1,V2>∈E∧…∧<Vi-1,Vi>∈E∧<Vi,Vy′>∈E,则分如下两种情况进行:
在这2WINDOW条告警中,若不存在与告警Y′相同的告警,则视S1′情况判断;若
Figure BDA0002889145640000042
则将(Code(Xerror),Code(Y′))加入到集合S1′中;反之则加入到集合S2′中;
在这2WINDOW′条告警中,若存在与Y′相同的告警W1,W2,…,Wn(1≤n≤2WINDOW′-1),则作如下运算:
Stemp 1={Wj|0≤i<HOP∧1≤j≤n∧i=min{k|<VX′,V1>∈E∧<V1,V2>∈E∧…∧<Vk-1,Vk>∈E∧<Vk,VWj>∈E};
Stemp 2={X|f(Code(X),Vx′)=minfCodeX,Vx′-fCodeXerror,VxerrorX∈Stemp1;
在Stemp 2中随机取一个告警R;若
Figure BDA0002889145640000043
则将(Code(Xerror),Code(R))加入到集合S′1中;反之则加入到集合S′2中,随后在这2WINDOW′条告警中,再遇到告警信息为Code(Y′)的告警,则直接跳过;
对所有告警信息X执行上面的操作后,删除S′1,用S′2中的告警关系对构造故障传播图G2
S4-2:将步骤S4-1得到的故障传播图G1和G2,取最大公共子图,得到图Gmax,即为最终贝叶斯网络有向图部分的母图,如果Gmax中存在一个代表初因告警的节点指向另一个代表初因告警节点的边,则将其从Gmax中删除;
S4-3:当Gmax中存在一个由非初因告警信息A指向非初因告警信息B的弧,若
Figure BDA0002889145640000051
使得<A,C1>∈E∧<C1,C2>∧…∧<Ci,B>∈E,则删除Gmax中A到B的直接通路,保留经过C1,C2,…Ci的间接通路;
S4-4:删除Gmax中的因果环,采用贪心算法搜索出删除边数最少的组合;
S4-5:引入根因节点error,根因节点error为一个入度为0,并指向所有初因告警节点、不指向其他任何节点的节点,即得到最终的贝叶斯网络有向图。
优选地,所述步骤S5中贝叶斯网络参数学习是指在已经知道贝叶斯网络有向图的情况下,确定各节点的概率分布,具体方法如下:
S5-1:首先要根据告警序列训练集构建训练数据,每行对应一段告警序列,列为贝叶斯网络图中所有节点出现告警信息编码的时间频度,告警信息编码的频度为每种告警出现的频次经过一定的映射得到,将这种映射定义为times-encoding(x),其中,x为某告警信息在该告警序列中出现的次数;
S5-2:使用开源库pgmpy,调用其中的MaximumLikelihoodEstimator,采用极大似然估计的方法对贝叶斯网络中的每个节点的条件概率表进行估计,最终得到基于网络拓扑和告警的贝叶斯网络。
有益效果:本发明提供一种基于网络拓扑和告警的网络故障根因定位方法,采用了算法设计的近似解的思想,大大降低了贝叶斯网络的运行代价,与现有技术相比,具有如下优点:
(1)通过先解决“是否存在根因”的问题,先一步将贝叶斯网络的运行代价降低了一个维度,同时大大提高了不存在根因的告警序列的判断准确率;
(2)通过对告警频次编码的方法,稀释了贝叶斯网络概率推断环节的运行代价;
(3)将挖掘出的过滤规则与贝叶斯网络模型有机结合,减少了贝叶斯网络学习过程中的随机性。
附图说明
图1为本发明构建的故障诊断模块的在线运行示意图。
图2为本发明贝叶斯网络有向图示例图。
具体实施方式
为了使本技术领域的人员更好地理解本申请中的技术方案,下面对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
一种基于网络拓扑和告警的网络故障根因定位方法,具体构建步骤如下:
S1:分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息,找出所有故障并进行编码,同时根据告警信息特点和网络拓扑信息对数据进行预处理;
S2:从预处理的数据中提取或变换出主要因素,并根据主要因素构建并训练SVM分类器,用于判断原告警序列中有无根因;
S3:根据预处理的数据以及网络拓扑信息,通过挖掘告警信息关系,去除噪声关系之后,得到贝叶斯网络有向图结构;
S4:统计告警信息,进行贝叶斯网络参数学习,得到完整的贝叶斯网络,由贝叶斯网络计算每种告警成为根因的概率值;
S5:通过规则挖掘算法(即Apriori算法),挖掘过滤一段原告警序列中不是根因的告警计算出每种告警成为根因的概率值;
S6:根据步骤S4中贝叶斯网络计算的每种告警成为根因的概率值和S5过滤规则算法计算出的计算出每种告警成为根因的概率值,通过一定比例将两者加权相加,即可得出各个告警为根因的概率,输出概率值最大的故障编码,通过数据预处理部分的编码,找到根因告警信息,将其代入到去除过噪声的告警序列中,找到发生该故障的根因节点。
优选地,所述步骤S1的数据预处理具体步骤如下:
S1-1:分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息,用大写字母给合并后的告警信息编码,同时,给故障类型进行编码,一个初因告警对应一种故障类型;(本发明通过正则表达式,过滤告警信息中的无用信息,包括数字、单位和符号;计算每一对告警信息的Jaccard相似系数,将内容相似度高的告警信息合并成一条;)
S1-2:对经步骤S1-1处理后的原告警序列进行去除噪声处理,结合已知的网络拓扑关系,删除告警序列中的孤立节点及其涉及的告警信息;若一个节点发出了多种告警,删除出现次数占比小于5×10-3的告警。
优选地,所述步骤S2中SVM分类器的具体构建方法如下:
S3-1:通过数据分析的手段以及计算机网络专家知识,找到反映告警序列的主要因素,包括:不同节点不同告警信息的次数;告警序列密度,即预处理前告警序列长度与告警列持续时间之比;初因告警密度,初因告警所占告警总数量比重;
S3-2:根据步骤S3-1找到的反映告警序列的主要因素,调整数据数量级,调用Python的sk-learn库,构建SVM分类器,训练出能够判断一段原告警序列中是否存在根因的SVM模型。
优选地,所述步骤S4中贝叶斯网络有向图结构的具体构建方法如下:
S4-1:产生告警关系对,获取网络拓扑结构图G<V,E>,其中V为节点集,E为边集,设发生告警X的节点为Vx,函数Code(X)为告警X中告警信息的编码,设求某告警X的告警信息Code(X)在节点Vx上的告警次数的函数为f(Code(X),Vx),具体方法如下:
a)以每一种告警信息为中心收敛:
考虑存在采样偏差,设置时间窗WINDOW,创建空集合S1、S2,在某个原告警序列中,对于某告警X且其源自节点Vx,每当告警X出现时,选取其前后各WINDOW条告警,在这2WINDOW条告警中,若某条告警Y源自节点Vy,且<Vx,Vy>∈E,则认为是Code(X)引发了Code(Y),若告警关系对
Figure BDA0002889145640000091
则将(Code(X),Code(Y))加入到S1中;若告警关系对(Code(X),Code(Y))∈S1,则将关系对(Code(X),Code(Y))加入到集合S2中;
对所有告警执行上面的操作后,删除S1,用S2中的告警关系对构造故障传播图G1
b)以初因告警为中心收敛:
考虑存在采样偏差,且每一次初因告警出现有一定的时间差,设置时间窗WINDOW′,创建空集合S1′和S2′,根因节点的影响范围是有限的,定义跳数HOP,在某个原告警序列中,对于某初因告警Xerror且其源自节点Vx′,选取其前后各WINDOW′告警信息,在这2WINDOW′条告警信息中,若某条告警Y′源自节点Vy′,且<Vx′,Vy′>∈E,且
Figure BDA0002889145640000092
使得0≤i<HOP∧i∈N∧<Vx′,V1>∈E∧<V1,V2>∈E∧…∧<Vi-1,Vi>∈E∧<Vi,Vy′>∈E,则分如下两种情况进行:
在这2WINDOW条告警中,若不存在与告警Y′相同的告警,则视S1′情况判断;若
Figure BDA0002889145640000093
则将(Code(Xerror),Code(Y′))加入到集合S1′中;反之则加入到集合S2′中;
在这2WINDOW′条告警中,若存在与Y′相同的告警W1,W2,…,Wn(1≤n≤2WINDOW′-1),则作如下运算:
Stemp 1={Wj|0≤i<HOP∧1≤j≤n∧i=min{k|<VX′,V1>∈E∧<V1,V2>∈E∧…∧<Vk-1,Vk>∈E∧<Vk,VWj>∈E};
Stemp 2={X|f(Code(X),Vx′)=minfCodeX,Vx′-fCodeXerror,VxerrorX∈Stemp1;
在Stemp 2中随机取一个告警R;若
Figure BDA0002889145640000101
则将(Code(Xerror),Code(R))加入到集合S′1中;反之则加入到集合S′2中,随后在这2WINDOW′条告警中,再遇到告警信息为Code(Y′)的告警,则直接跳过;
对所有告警信息X执行上面的操作后,删除S′1,用S′2中的告警关系对构造故障传播图G2
S4-2:将步骤S4-1得到的故障传播图G1和G2,取最大公共子图,得到图Gmax,即为最终贝叶斯网络有向图部分的母图,如果Gmax中存在一个代表初因告警的节点指向另一个代表初因告警节点的边,则将其从Gmax中删除;
S4-3:当Gmax中存在一个由非初因告警信息A指向非初因告警信息B的弧,若
Figure BDA0002889145640000102
使得<A,C1>∈E∧<C1,C2>∧…∧<Ci,B>∈E,则删除Gmax中A到B的直接通路,保留经过C1,C2,…Ci的间接通路;
S4-4:删除Gmax中的因果环,采用贪心算法搜索出删除边数最少的组合;
S4-5:引入根因节点error,根因节点error为一个入度为0,并指向所有初因告警节点、不指向其他任何节点的节点,即得到最终的贝叶斯网络有向图。如图2所示,为根据某服务器系统构造的贝叶斯网络图示意图。
优选地,所述步骤S5中贝叶斯网络参数学习是指在已经知道贝叶斯网络有向图的情况下,确定各节点的概率分布,具体方法如下:
S5-1:首先要根据告警序列训练集构建训练数据,每行对应一段告警序列,列为贝叶斯网络图中所有节点出现告警信息编码的时间频度,告警信息编码的频度为每种告警出现的频次经过一定的映射得到,将这种映射定义为times-encoding(x),其中,x为某告警信息在该告警序列中出现的次数;本发明中设置times-encoding(x)目的是为了缩小贝叶斯网络参数学习的定义域,降低贝叶斯网络学习与运行代价。如果映射后的值域过小,则会造成精度缺失过大;如果映射后值域过宽甚至不进行映射,则会导致贝叶斯网络参数学习和运行的代价过大。因此应当合理地调整映射函数times-encoding(x),使得贝叶斯网络在运行代价和精度上进行折中。
S5-2:使用开源库pgmpy,调用其中的MaximumLikelihoodEstimator,采用极大似然估计的方法对贝叶斯网络中的每个节点的条件概率表进行估计,最终得到基于网络拓扑和告警的贝叶斯网络。
上述具体构建步骤均为本发明中故障诊断模块的离线构建训练方法,图1为基于上述离线构建训练得到的故障诊断模块实现在线诊断的流程示意图。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (5)

1.一种基于网络拓扑和告警的网络故障根因定位方法,其特征在于,具体构建步骤如下:
S1:分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息,找出所有故障并进行编码,同时根据告警信息特点和网络拓扑信息对数据进行预处理;
S2:从预处理的数据中提取或变换出主要因素,并根据主要因素构建并训练SVM分类器,用于判断原告警序列中有无根因;
S3:根据预处理的数据以及网络拓扑信息,通过挖掘告警信息关系,去除噪声关系之后,得到贝叶斯网络有向图结构;
S4:统计告警信息,进行贝叶斯网络参数学习,得到完整的贝叶斯网络,由贝叶斯网络计算每种告警成为根因的概率值;
S5:通过规则挖掘算法,挖掘过滤一段原告警序列中不是根因的告警计算出每种告警成为根因的概率值;
S6:根据步骤S4中贝叶斯网络计算的每种告警成为根因的概率值和S5过滤规则算法计算出的计算出每种告警成为根因的概率值,通过一定比例将两者加权相加,即可得出各个告警为根因的概率,输出概率值最大的故障编码,通过数据预处理部分的编码,找到根因告警信息,将其代入到去除过噪声的告警序列中,找到发生该故障的根因节点。
2.根据权利要求1所述的一种基于网络拓扑和告警的网络故障根因定位方法,其特征在于:所述步骤S1的数据预处理具体步骤如下:S1-1:分析系统产生的不同原告警序列中告警信息特点以及网络拓扑信息,用大写字母给合并后的告警信息编码,同时,给故障类型进行编码,一个初因告警对应一种故障类型;
S1-2:对经步骤S1-1处理后的原告警序列进行去除噪声处理,结合已知的网络拓扑关系,删除告警序列中的孤立节点及其涉及的告警信息;若一个节点发出了多种告警,删除出现次数占比小于5×10-3的告警。
3.根据权利要求1所述的一种基于网络拓扑和告警的网络故障根因定位方法,其特征在于:所述步骤S2中SVM分类器的具体构建方法如下:
S3-1:通过数据分析的手段以及计算机网络专家知识,找到反映告警序列的主要因素,包括:不同节点不同告警信息的次数;告警序列密度,即预处理前告警序列长度与告警列持续时间之比;初因告警密度,初因告警所占告警总数量比重;
S3-2:根据步骤S3-1找到的反映告警序列的主要因素,调整数据数量级,调用Python的sk-learn库,构建SVM分类器,训练出能够判断一段原告警序列中是否存在根因的SVM模型。
4.根据权利要求1所述的一种基于网络拓扑和告警的网络故障根因定位方法,其特征在于:所述步骤S4中贝叶斯网络有向图结构的具体构建方法如下:
S4-1:产生告警关系对,获取网络拓扑结构图G<V,E>,其中V为节点集,E为边集,设发生告警X的节点为Vx,函数Code(X)为告警X中告警信息的编码,设求某告警X的告警信息Code(X)在节点Vx上的告警次数的函数为f(Code(X),Vx),具体方法如下:
a)以每一种告警信息为中心收敛:
考虑存在采样偏差,设置时间窗WINDOW,创建空集合S1、S2,在某个原告警序列中,对于某告警X且其源自节点Vx,每当告警X出现时,选取其前后各WINDOW条告警,在这2WINDOW条告警中,若某条告警Y源自节点Vy,且<Vx,Vy>∈E,则认为是Code(X)引发了Code(Y),若告警关系对
Figure RE-FDA0002982247490000031
则将(Code(X),Code(Y))加入到S1中;若告警关系对(Code(X),Code(Y))∈S1,则将关系对(Code(X),Code(Y))加入到集合S2中;
对所有告警执行上面的操作后,删除S1,用S2中的告警关系对构造故障传播图G1
b)以初因告警为中心收敛:
考虑存在采样偏差,且每一次初因告警出现有一定的时间差,设置时间窗WINDOW′,创建空集合S1′和S2′,根因节点的影响范围是有限的,定义跳数HOP,在某个原告警序列中,对于某初因告警Xerror且其源自节点Vx′,选取其前后各WINDOW′告警信息,在这2WINDOW′条告警信息中,若某条告警Y′源自节点Vy′,且<Vx′,Vy′>∈E,且
Figure RE-FDA0002982247490000034
使得0≤i<HOP∧i∈N∧<Vx′,V1>∈E∧<V1,V2>∈E∧…∧<Vi-1,Vi>∈E∧<Vi,Vy′>∈E,则分如下两种情况进行:
在这2WINDOW条告警中,若不存在与告警Y′相同的告警,则视S1′情况判断;若
Figure RE-FDA0002982247490000032
则将(Code(Xerror),Code(Y′))加入到集合S1′中;反之则加入到集合S2′中;
在这2WINDOW′条告警中,若存在与Y′相同的告警W1,W2,…,Wn(1≤n≤2WINDOW′-1),则作如下运算:
Figure RE-FDA0002982247490000033
Figure RE-FDA0002982247490000041
Stemp2={X|f(Code(X),Vx′)=minfCodeX,Vx′-fCodeXerror,VxerrorX∈Stemp1;
在Stemp2中随机取一个告警R;若
Figure RE-FDA0002982247490000042
则将(Code(Xerror),Code(R))加入到集合S′1中;反之则加入到集合S′2中,随后在这2WINDOW′条告警中,再遇到告警信息为Code(Y′)的告警,则直接跳过;
对所有告警信息X执行上面的操作后,删除S′1,用S′2中的告警关系对构造故障传播图G2
S4-2:将步骤S4-1得到的故障传播图G1和G2,取最大公共子图,得到图Gmax,即为最终贝叶斯网络有向图部分的母图,如果Gmax中存在一个代表初因告警的节点指向另一个代表初因告警节点的边,则将其从Gmax中删除;
S4-3:当Gmax中存在一个由非初因告警信息A指向非初因告警信息B的弧,若
Figure RE-FDA0002982247490000043
使得<A,C1>∈E∧<C1,C2>∧…∧<Ci,B>∈E,则删除Gmax中A到B的直接通路,保留经过C1,C2,…Ci的间接通路;
S4-4:删除Gmax中的因果环,采用贪心算法搜索出删除边数最少的组合;
S4-5:引入根因节点error,根因节点error为一个入度为0,并指向所有初因告警节点、不指向其他任何节点的节点,即得到最终的贝叶斯网络有向图。
5.根据权利要求1所述的一种基于网络拓扑和告警的网络故障根因定位方法,其特征在于:所述步骤S5中贝叶斯网络参数学习是指在已经知道贝叶斯网络有向图的情况下,确定各节点的概率分布,具体方法如下:
S5-1:首先要根据告警序列训练集构建训练数据,每行对应一段告警序列,列为贝叶斯网络图中所有节点出现告警信息编码的时间频度,告警信息编码的频度为每种告警出现的频次经过一定的映射得到,将这种映射定义为times_encoding(x),其中,x为某告警信息在该告警序列中出现的次数;
S5-2:使用开源库pgmpy,调用其中的MaximumLikelihoodEstimator,采用极大似然估计的方法对贝叶斯网络中的每个节点的条件概率表进行估计,最终得到基于网络拓扑和告警的贝叶斯网络。
CN202110022507.7A 2021-01-08 2021-01-08 一种基于网络拓扑和告警的网络故障根因定位方法 Expired - Fee Related CN112822052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110022507.7A CN112822052B (zh) 2021-01-08 2021-01-08 一种基于网络拓扑和告警的网络故障根因定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110022507.7A CN112822052B (zh) 2021-01-08 2021-01-08 一种基于网络拓扑和告警的网络故障根因定位方法

Publications (2)

Publication Number Publication Date
CN112822052A true CN112822052A (zh) 2021-05-18
CN112822052B CN112822052B (zh) 2022-03-29

Family

ID=75869077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110022507.7A Expired - Fee Related CN112822052B (zh) 2021-01-08 2021-01-08 一种基于网络拓扑和告警的网络故障根因定位方法

Country Status (1)

Country Link
CN (1) CN112822052B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988446A (zh) * 2021-05-19 2021-06-18 新华三技术有限公司 一种故障根因检测方法及装置
CN113240139A (zh) * 2021-06-03 2021-08-10 南京中兴新软件有限责任公司 告警因果评估方法、故障根因定位方法及电子设备
CN113259168A (zh) * 2021-05-28 2021-08-13 新华三人工智能科技有限公司 一种故障根因分析方法及装置
CN114629785A (zh) * 2022-03-10 2022-06-14 国网浙江省电力有限公司双创中心 一种告警位置的检测与预测方法、装置、设备及介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106130809A (zh) * 2016-09-07 2016-11-16 东南大学 一种基于日志分析的IaaS云平台网络故障定位方法及系统
CN107103000A (zh) * 2016-02-23 2017-08-29 广州启法信息科技有限公司 一种基于关联规则与贝叶斯网络集成的推荐技术
CN109214456A (zh) * 2018-09-06 2019-01-15 深圳先进技术研究院 一种网络异常检测方法、系统及电子设备
US20190165988A1 (en) * 2017-11-27 2019-05-30 Google Llc Real-time probabilistic root cause correlation of network failures
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
CN112181758A (zh) * 2020-08-19 2021-01-05 南京邮电大学 一种基于网络拓扑及实时告警的故障根因定位方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107103000A (zh) * 2016-02-23 2017-08-29 广州启法信息科技有限公司 一种基于关联规则与贝叶斯网络集成的推荐技术
CN106130809A (zh) * 2016-09-07 2016-11-16 东南大学 一种基于日志分析的IaaS云平台网络故障定位方法及系统
US20190165988A1 (en) * 2017-11-27 2019-05-30 Google Llc Real-time probabilistic root cause correlation of network failures
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
CN109214456A (zh) * 2018-09-06 2019-01-15 深圳先进技术研究院 一种网络异常检测方法、系统及电子设备
CN112181758A (zh) * 2020-08-19 2021-01-05 南京邮电大学 一种基于网络拓扑及实时告警的故障根因定位方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李彤岩: "基于数据挖掘的通信网告警相关性分析研究", 《中国博士学位论文全文数据库》 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112988446A (zh) * 2021-05-19 2021-06-18 新华三技术有限公司 一种故障根因检测方法及装置
CN113259168A (zh) * 2021-05-28 2021-08-13 新华三人工智能科技有限公司 一种故障根因分析方法及装置
CN113240139A (zh) * 2021-06-03 2021-08-10 南京中兴新软件有限责任公司 告警因果评估方法、故障根因定位方法及电子设备
CN113240139B (zh) * 2021-06-03 2023-09-26 南京中兴新软件有限责任公司 告警因果评估方法、故障根因定位方法及电子设备
CN114629785A (zh) * 2022-03-10 2022-06-14 国网浙江省电力有限公司双创中心 一种告警位置的检测与预测方法、装置、设备及介质
CN114629785B (zh) * 2022-03-10 2023-08-11 国网浙江省电力有限公司双创中心 一种告警位置的检测与预测方法、装置、设备及介质

Also Published As

Publication number Publication date
CN112822052B (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN112822052B (zh) 一种基于网络拓扑和告警的网络故障根因定位方法
CN110609759B (zh) 一种故障根因分析的方法及装置
CN112217674B (zh) 基于因果网络挖掘和图注意力网络的告警根因识别方法
CN110460605B (zh) 一种基于自动编码的异常网络流量检测方法
CN113961759B (zh) 基于属性图表示学习的异常检测方法
CN114090326B (zh) 一种告警的根因确定方法、装置及设备
CN111431819A (zh) 一种基于序列化的协议流特征的网络流量分类方法和装置
CN113783874A (zh) 基于安全知识图谱的网络安全态势评估方法及系统
CN112487033A (zh) 一种面向数据流及构建网络拓扑的业务可视化方法及系统
CN111767472A (zh) 一种社交网络异常账号检测方法及系统
WO2022126706A1 (zh) 一种个性化联邦学习加速方法、装置
Steck On the use of skeletons when learning in Bayesian networks
CN112306787A (zh) 报错日志处理方法、装置、电子设备和智能音箱
Pal et al. DLME: distributed log mining using ensemble learning for fault prediction
CN116070206A (zh) 一种异常行为检测方法、系统、电子设备及存储介质
Le et al. GCRINT: network traffic imputation using graph convolutional recurrent neural network
CN111460144A (zh) 基于时序切分与融合的谣言早期检测算法
CN113240139A (zh) 告警因果评估方法、故障根因定位方法及电子设备
Bao et al. Inferring Motif-Based Diffusion Models for Social Networks.
CN116633589A (zh) 社交网络中恶意账户检测方法、设备及存储介质
Lu et al. A network malicious traffic detection method based on semi-supervised deep learning
CN116860981A (zh) 潜在客户挖掘方法及装置
JP2007334589A (ja) 決定木構築方法および装置および状態判定装置
CN114090850A (zh) 日志分类方法、电子设备及计算机可读存储介质
Shan et al. GNN-based Method for Predicting Access Control Relationships for Big Data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20220329

CF01 Termination of patent right due to non-payment of annual fee