CN113079043B - 一种基于码本的网络故障诊断方法 - Google Patents

一种基于码本的网络故障诊断方法 Download PDF

Info

Publication number
CN113079043B
CN113079043B CN202110321541.4A CN202110321541A CN113079043B CN 113079043 B CN113079043 B CN 113079043B CN 202110321541 A CN202110321541 A CN 202110321541A CN 113079043 B CN113079043 B CN 113079043B
Authority
CN
China
Prior art keywords
fault
network
codebook
symptoms
matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110321541.4A
Other languages
English (en)
Other versions
CN113079043A (zh
Inventor
程鹏
欧阳晨
耿若鹏
刘昊俣
陈积明
吕彪
祝顺民
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University ZJU
Original Assignee
Zhejiang University ZJU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University ZJU filed Critical Zhejiang University ZJU
Priority to CN202110321541.4A priority Critical patent/CN113079043B/zh
Publication of CN113079043A publication Critical patent/CN113079043A/zh
Application granted granted Critical
Publication of CN113079043B publication Critical patent/CN113079043B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/14Network analysis or design
    • H04L41/142Network analysis or design using statistical or mathematical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Environmental & Geological Engineering (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Test And Diagnosis Of Digital Computers (AREA)

Abstract

本发明公开了一种基于码本的网络故障诊断方法,所述方法包括:获取网络故障监测数据,所述监测数据包括所述网络故障对应于可观测的症状的统计;将数据输入到一个经过算法优化码本矩阵中,利用提出的启发式搜索算法进行搜索与分析,得出该监测数据下的网络故障诊断结果。采用本发明方法,可以高效地构建码本矩阵以对网络进行自动化诊断。

Description

一种基于码本的网络故障诊断方法
技术领域
本申请涉及计算机技术领域,尤其涉及一种基于码本的网络故障诊断方法。
背景技术
大型网路中心的运维人员在维护网络的正常运行时,往往需要对网络故障进行检测,解释和处理,其中的网络故障,可以被定义为网络运行中的异常情况,通常是硬件或软件上的故障,或者说是性能瓶颈。由一个网络组件造成的故障可能会导致若干有关联的组件中出现症状,运维人员则需要在若干出现的症状中进行观察与分析,以识别并且定位故障的根因。
在相关的技术中,技术人员往往会通过以往的专家经验对现有的网络故障进行推测与定位。常见的诊断方法有基于历史案例数据进行统计与分析的码本方法。在码本方法中,不同的故障类型用其代码加以区分,然后用故障代码构成的矩阵来表示码本。矩阵的横坐标代表了不同的故障类型集合F,例如:硬件设备故障、软件bug、运营商故障等,纵坐标代表了可观测的症状类型集合S,例如:网络流量入方向bps丢包、网络流量安全组拦截事件。因此码本矩阵为|S|×|F|大小的矩阵,矩阵中的每个值cij为:
cij=p(si|fj)
其中,si表示编码中的第i个症状,fj表示为第j个故障,cij的具体含义为故障fj发生的时候,观测到症状si的概率。
一般来说,对于建立好码本后进行诊断的故障定位问题,属于经典的集合覆盖问题,可以表示为:找到一组最能够解释观测的症状集合S0的故障假设H(H∈F)。因此,H使得
H=argmax(g(H,S0))
其中,g(H,S0)为良函数,表示S0与故障H之间的相关性强度的一种度量。良函数的定义如下:
Figure BDA0002993055840000021
其中,p(f)表示故障f发生的概率。
求解上述集合覆盖问题的主要困难在于,这是一个NP-hard问题,其计算复杂度是随着|S|和|F|的增大呈几何趋势增长的。因此,需要一种优秀的方法在不降低诊断性能的情况下来降低码本矩阵的大小。在此基础上,需要一种计算复杂度低的方法来从优化的码本矩阵中得到网络故障的诊断结果,从而实现网络故障诊断的自动化。
发明内容
本发明的目的在于针对现有技术的不足,提供一种基于码本的网络故障诊断方法。
本发明的目的是通过以下技术方案实现的:一种基于码本的网络故障诊断方法,该方法包括以下步骤:
步骤1:依靠现有的网络异常检测模块,对网络的各项监测指标设置监控并进行数据采集,当有网络故障产生的时候,由相关的技术人员记录网络的异常症状和故障诊断结果并存储。
步骤2:利用历史的网络故障诊断数据进行预统计,生成初始的|S|×|F|大小码本矩阵,矩阵的第i行第j列的值cij为:
cij=p(si|fj)
其中,i∈[0,|S|-1],j∈[0,|F|-1],S为网络症状的集合,F为网络故障的集合,p(si|fj)意为当故障fj发生时,观测到症状si的后验概率。
步骤3:利用本申请提出的码本优化方法可以对初始的码本矩阵进行优化,以缩小码本矩阵的大小。码本优化方法如下所示:
1)对于初始的码本矩阵,为了度量每个症状对故障的区分程度,本发明定义了区分度w(si)用于度量症状si对于故障的区分程度。
注意到如果一个症状si对于某些故障fj的相关性高,对于另一些故障fk的相关性低,那么就可以认为,症状si对于故障定位而言,具有较强的区分度,可以把故障fj与故障fk加以区分。因此,被选取的症状si对于所有故障而言应该具有良好的区分度,最好是对一半的故障的相关度为0,对另一半的故障的相关度为1,这样可以排除一半的故障候选结果。总体标准差ti具有这样的度量效果,可以描绘样本的离散程度。因此,w(si)使用总体标准差ti来描绘症状si对于所有故障对中的最小区分故障对的增益度量。当样本中所有个体的取值均在0到1之间时,总体标准差ti的取值范围为[0,0.5]。由于原始样本的总体标准差的取值过多集中于0.25附近,分布不够均匀。因此本发明对其做了一定的函数变换,使其在0到1之间的分布更加均匀。每一行症状si的区分度w(si)的计算过程如下所示:
Figure BDA0002993055840000031
其中,
Figure BDA0002993055840000032
为每一行矩阵码字的平均值;
2)利用w(si)对所有的症状si进行排序,利用预设的阈值η,筛选出所有w(si)大于η的症状集合S*
3)将筛选出来的S*与F组成新的优化码本矩阵。
步骤4:实际使用过程中,在网络出现故障的情况下,使用步骤3得到的优化码本矩阵,再加上当前的网络异常症状S0,通过本申请提出的故障搜索算法,可以获得最终的网络故障的诊断结果H*,用于指出当前网络故障的故障原因。
考虑到良函数g(H,S)中与症状S有关的计算式仅有∏s∈S[1-∏f∈H(1-p(s|f))],因此,当只有一个观测症状,即S0={s0}时,则仅发生故障fi的概率为:
Figure BDA0002993055840000041
从公式中很容易看出,
Figure BDA0002993055840000042
为定值,
Figure BDA0002993055840000043
仅与fi,s0相关。因此,可以将该值定义为故障fi对症状s0的故障贡献度,用于度量故障fi对症状s0的重要程度。即任意故障fj对症状si的故障贡献度如下:
Figure BDA0002993055840000044
对ε(fj,si)在故障维度上进行归一化后有μ(fj,si)为:
Figure BDA0002993055840000045
对μ(fj,si)在症状维度上进行归一化后有Cont(fj,S0)为:
Figure BDA0002993055840000046
本发明使用故障贡献度Cont(fj,S0)度量任一故障fj对于症状集合S0的重要程度,将重要程度高的候选故障fj筛选出来并进行故障搜索,以获取最终的最优解。
算法的具体细节如下所示:
1)对于所有可能的故障fj∈F,计算其对于症状S0的故障贡献度Cont(fj,S0),如下所示:
Figure BDA0002993055840000047
2)根据预设的阈值σ,排除故障贡献度Cont(fj,S0)<σ对应的故障fj,得到剩余的故障候选集Fr
3)对所有Fr的非空子集H,计算最优解H*,计算公式如下所示:
Figure BDA0002993055840000051
其中p(f)为所有统计案例中,故障f发生的概率。
进一步地,所述步骤3中的码本优化方法采用的是基于总体标准差ti得来的区分度w(si)。
进一步地,所述步骤4中的故障搜索算法时基于本发明提出的故障贡献度Cont(fj,S0)实现的。
本发明与现有技术相比,具有如下的优点:
第一,本发明在不丢失码本主要信息的情况下,筛选出了重要的码本信息,相比于现有的码本诊断方案有着更加便捷和鲁棒的性能;
第二,本发明在进行网络故障诊断的过程中,优先利用优化的解码方案,排除了部分无效备选故障,大大提升了解码的速度,相比与现有的码本解码方案有着更快的实时性;
第三,本发明实现了诊断信息的自动化分析,相较于人工分析诊断结果更加高效。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是本发明实施例中的优化码本矩阵生成方法的流程图。
图2是本发明实施例中的优化码本矩阵解码方法的流程图。
具体实施方式
下面结合附图和实施例对本发明作进一步说明。
在实施中,为了能够实时地监控网络的运行情况,可在网络中心部署网络异常检测模块,通过对网络中的部分指标信息和事件信息进行监控,以判断网络的健康状况。当网络故障发生时,由相关的技术人员记录网络的异常症状和故障诊断结果并存储。
图1示出了本发明实施例中的优化码本矩阵生成方法的流程图。
通过输入历史的诊断数据,按照cij=p(si|fj)的方式构造初始的码本矩阵,后经由码本分析优化组件对码本矩阵进行优化,以精简码本矩阵的症状数量,获得优化后的码本矩阵。
图2示出了本发明实施例中的优化码本矩阵解码方法的流程图。
当出现新的网络故障时,先通过异常检测模块收集网络故障的具体症状,并结合优化码本矩阵一同输入至优化码本解码算法中进行分析,得出当前网络故障的最优故障解释集合H*。基于该方案,技术人员可以将网络故障的症状分析的工作交由自动化的解码矩阵进行分析,这大大降低了技术人员的重复性推断工作,提交了技术人员的故障排除效率。
本发明的实现流程具体如下:
步骤1:依靠现有的网络异常检测模块,对网络的各项监测指标设置监控并进行数据采集,当有网络故障产生的时候,由相关的技术人员记录网络的异常症状和故障诊断结果并存储。
步骤2:利用历史的网络故障诊断数据进行预统计,生成初始的|S|×|F|大小码本矩阵,矩阵的第i行第j列的值cij为:
cij=p(si|fj)
其中,i∈[0,|S|-1],j∈[0,|F|-1],S为网络症状的集合,F为网络故障的集合,p(si|fj)意为当故障fj发生时,观测到症状si的后验概率。
步骤3:利用本申请提出的码本优化方法可以对初始的码本矩阵进行优化,以缩小码本矩阵的大小。码本优化方法如下所示:
1)对于初始的码本矩阵,为了度量每个症状对故障的区分程度,本发明定义了区分度w(si)用于度量症状si对于故障的区分程度。
注意到如果一个症状si对于某些故障fj的相关性高,对于另一些故障fk的相关性低,那么就可以认为,症状si对于故障定位而言,具有较强的区分度,可以把故障fj与故障fk加以区分。因此,被选取的症状si对于所有故障而言应该具有良好的区分度,最好是对一半的故障的相关度为0,对另一半的故障的相关度为1,这样可以排除一半的故障候选结果。总体标准差ti具有这样的度量效果,可以描绘样本的离散程度。因此,w(si)使用总体标准差ti来描绘症状si对于所有故障对中的最小区分故障对的增益度量。当样本中所有个体的取值均在0到1之间时,总体标准差ti的取值范围为[0,0.5]。由于原始样本的总体标准差的取值过多集中于0.25附近,分布不够均匀。因此本发明对其做了一定的函数变换,使其在0到1之间的分布更加均匀。每一行症状si的区分度w(si)的计算过程如下所示:
Figure BDA0002993055840000071
其中,
Figure BDA0002993055840000072
为每一行矩阵码字的平均值;
2)利用w(si)对所有的症状si进行排序,利用预设的阈值η,筛选出所有w(si)大于η的症状集合S*
3)将筛选出来的S*与F组成新的优化码本矩阵。
步骤4:实际使用过程中,在网络出现故障的情况下,使用步骤3得到的优化码本矩阵,再加上当前的网络异常症状S0,通过本申请提出的故障搜索算法,可以获得最终的网络故障的诊断结果H*,用于指出当前网络故障的故障原因。
考虑到良函数g(H,S)中与症状S有关的计算式仅有∏s∈S[1-∏f∈H(1-p(s|f))],因此,当只有一个观测症状,即S0={s0}时,则仅发生故障fi的概率为:
Figure BDA0002993055840000081
从公式中很容易看出,
Figure BDA0002993055840000082
为定值,
Figure BDA0002993055840000083
仅与fi,s0相关。因此,可以将该值定义为故障fi对症状s0的故障贡献度,用于度量故障fi对症状s0的重要程度。即任意故障fj对症状si的故障贡献度如下:
Figure BDA0002993055840000084
对ε(fj,si)在故障维度上进行归一化后有μ(fj,si)为:
Figure BDA0002993055840000085
对μ(fj,si)在症状维度上进行归一化后有Cont(fj,S0)为:
Figure BDA0002993055840000086
本发明使用故障贡献度Cont(fj,S0)度量任一故障fj对于症状集合S0的重要程度,将重要程度高的候选故障fj筛选出来并进行故障搜索,以获取最终的最优解。
算法的具体细节如下所示:
1)对于所有可能的故障fj∈F,计算其对于症状S0的故障贡献度Cont(fj,S0),如下所示:
Figure BDA0002993055840000087
2)根据预设的阈值σ,排除故障贡献度Cont(fj,S0)<σ对应的故障fj,得到剩余的故障候选集Fr
3)对所有Fr的非空子集H,计算最优解H*,计算公式如下所示:
Figure BDA0002993055840000091
其中p(f)为所有统计案例中,故障f发生的概率。
上述实施例用来解释说明本发明,而不是对本发明进行限制,在本发明的精神和权利要求的保护范围内,对本发明作出的任何修改和改变,都落入本发明的保护范围。

Claims (4)

1.一种基于码本的网络故障诊断方法,其特征在于,该方法包括以下步骤:
S1:利用历史网络故障诊断数据生成初始的|S|×|F|大小码本矩阵,矩阵第i行第j列的值cij为:
cij=p(si|fj)
其中,i∈[0,|S|-1],j∈[0,|F|-1],S为网络症状集合,F为网络故障集合,p(si|fj)为当故障fj发生时,观测到症状si的后验概率;
S2:对初始码本矩阵进行优化,缩小码本矩阵大小,具体为:
S2.1:计算初始码本矩阵中每一行症状si的区分度w(si),计算公式如下:
Figure FDA0003314251290000011
其中,
Figure FDA0003314251290000012
为每一行矩阵码字的平均值;
S2.2:利用w(si)对所有症状si进行排序,筛选出所有w(si)大于预设阈值η的症状集合S*,将筛选出的S*与F组成新的优化码本矩阵;
S3:在网络出现故障时,使用步骤2得到的优化码本矩阵,结合当前网络异常症状集合S0,通过以下故障搜索算法获得最终的网络故障诊断结果H*
S3.1:对于所有可能的故障fj∈F,计算其对于症状集合S0的故障贡献度Cont(fj,S0),如下所示:
Figure FDA0003314251290000013
S3.2:排除故障贡献度Cont(fj,S0)小于预设阈值σ对应的故障fj,得到剩余的故障候选集Fr
S3.3:对所有Fr的非空子集H,计算最优解H*,计算公式如下:
Figure FDA0003314251290000021
其中p(f)为所有统计案例中,故障f发生的概率。
2.根据权利要求1所述的一种基于码本的网络故障诊断方法,其特征在于,所述历史网络故障诊断数据的获取方法为:依靠现有的网络异常检测模块,对网络的各项监测指标设置监控并进行数据采集,当有网络故障产生的时候,由相关的技术人员记录网络的异常症状和故障诊断结果并存储。
3.根据权利要求1所述的一种基于码本的网络故障诊断方法,其特征在于,所述步骤2中,w(si)使用总体标准差ti来描绘症状si对于所有故障对中的最小区分故障对的增益度量。
4.根据权利要求1所述的一种基于码本的网络故障诊断方法,其特征在于,所述步骤3中,使用故障贡献度Cont(fj,S0)度量任一故障fj对于症状集合S0的重要程度。
CN202110321541.4A 2021-03-25 2021-03-25 一种基于码本的网络故障诊断方法 Active CN113079043B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110321541.4A CN113079043B (zh) 2021-03-25 2021-03-25 一种基于码本的网络故障诊断方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110321541.4A CN113079043B (zh) 2021-03-25 2021-03-25 一种基于码本的网络故障诊断方法

Publications (2)

Publication Number Publication Date
CN113079043A CN113079043A (zh) 2021-07-06
CN113079043B true CN113079043B (zh) 2021-12-10

Family

ID=76610191

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110321541.4A Active CN113079043B (zh) 2021-03-25 2021-03-25 一种基于码本的网络故障诊断方法

Country Status (1)

Country Link
CN (1) CN113079043B (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753382A (zh) * 2010-01-25 2010-06-23 浪潮通信信息系统有限公司 一种自适应网络故障监控定位安全模型的构建方法
CN104699077A (zh) * 2015-02-12 2015-06-10 浙江大学 一种基于嵌套迭代费舍尔判别分析的故障变量隔离方法
CN109597392A (zh) * 2017-09-30 2019-04-09 西门子公司 有助于故障诊断的方法、装置和设备以及机器可读介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8280835B2 (en) * 2009-01-29 2012-10-02 Telcordia Technologies, Inc. Method for automated distributed diagnostics for networks
CN107832219B (zh) * 2017-11-13 2020-08-25 北京航空航天大学 基于静态分析和神经网络的软件故障预测技术的构建方法
CN111224805A (zh) * 2018-11-26 2020-06-02 中兴通讯股份有限公司 一种网络故障根因检测方法、系统及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101753382A (zh) * 2010-01-25 2010-06-23 浪潮通信信息系统有限公司 一种自适应网络故障监控定位安全模型的构建方法
CN104699077A (zh) * 2015-02-12 2015-06-10 浙江大学 一种基于嵌套迭代费舍尔判别分析的故障变量隔离方法
CN109597392A (zh) * 2017-09-30 2019-04-09 西门子公司 有助于故障诊断的方法、装置和设备以及机器可读介质

Also Published As

Publication number Publication date
CN113079043A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
CN113190421B (zh) 一种用于数据中心的设备健康状态的检测分析方法
CN109489977B (zh) 基于KNN-AdaBoost的轴承故障诊断方法
KR102141391B1 (ko) 군집 평가에 기반한 고장 데이터의 관리 방법
CA2931624A1 (en) Systems and methods for event detection and diagnosis
CN112179691B (zh) 基于对抗学习策略的机械装备运行状态异常检测系统和方法
CN105116870B (zh) 空调机组的故障分析方法、装置和系统
CN116450399B (zh) 微服务系统故障诊断及根因定位方法
CN114757590A (zh) 基于大数据分析的企业运营风险预警及管控系统
CN110703214A (zh) 一种气象雷达状态评估和故障监测方法
CN115409131B (zh) 基于spc过程管控系统的生产线异常检测方法
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
CN113221435A (zh) 传感器的筛选方法及装置、传感器数据重构方法及系统
CN111666978B (zh) 一种it系统运维大数据的智能故障预警系统
CN116678552B (zh) 一种变温度环境下光纤应力传感器异常监测方法
CN116302809A (zh) 边缘端数据分析计算装置
CN117368651B (zh) 一种配电网故障综合分析系统及方法
CN114666117A (zh) 一种面向电力互联网的网络安全态势度量和预测方法
CN113079043B (zh) 一种基于码本的网络故障诊断方法
CN115150248A (zh) 网络流量异常检测方法、装置、电子设备和存储介质
CN113010394A (zh) 一种用于数据中心的机房故障检测方法
CN117113135A (zh) 一种可对异常数据整理分类的碳排放异常监测分析系统
CN117435908A (zh) 一种用于旋转机械的多种故障特征提取方法
CN111456915A (zh) 风机机舱内部部件的故障诊断装置及方法
CN116614395A (zh) 一种基于人工智能的数据传输异常监管系统及方法
CN109033031B (zh) 一种基于高维随机矩阵的轴承状态检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant