CN101170447A - 基于主动探针的服务故障诊断系统及其方法 - Google Patents

基于主动探针的服务故障诊断系统及其方法 Download PDF

Info

Publication number
CN101170447A
CN101170447A CNA2007101880155A CN200710188015A CN101170447A CN 101170447 A CN101170447 A CN 101170447A CN A2007101880155 A CNA2007101880155 A CN A2007101880155A CN 200710188015 A CN200710188015 A CN 200710188015A CN 101170447 A CN101170447 A CN 101170447A
Authority
CN
China
Prior art keywords
probe
fault
monitoring
module
service
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2007101880155A
Other languages
English (en)
Inventor
褚灵伟
邹仕洪
程时端
王文东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing University of Posts and Telecommunications
Original Assignee
Beijing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Posts and Telecommunications filed Critical Beijing University of Posts and Telecommunications
Priority to CNA2007101880155A priority Critical patent/CN101170447A/zh
Publication of CN101170447A publication Critical patent/CN101170447A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于主动探针的服务故障诊断系统及其方法,使用主动探针有效监测网络中的服务性能,保证在各个接入网内使用服务的性能,当监测发现异常时,根据监测到的症状快速准确地定位出故障根源。本发明监测开销小,有良好的故障诊断性能,同时本发明基于不确定性模型选取探针,能够以较小的探针开销保证对每个故障的检测率,而且获得了很好的诊断性能。

Description

基于主动探针的服务故障诊断系统及其方法
技术领域
本发明涉及服务故障管理领域,特别涉及一种基于主动探针的服务故障诊断系统及其方法。
背景技术
故障诊断需要根据故障监测得到的症状,使用一定的算法来得出故障假设。故障监测技术可以分为被动和主动两种。被动监测技术使用大量监测设施监听已存服务会话,一般基于服务用户端监测或者网络数据包收集并进行请求-响应重构,发现异常则发出告警通知管理系统。主动监测技术从特定点向服务发送探针获取应用级性能,一个探针可以监测一个或者多个系统组件的性能,根据多个探针的返回值可以判断出被监测组件的状况。
当前大多故障诊断是基于被动监测技术的,能够实时监测用户感知的服务性能,但是开销较大,基于主动监测技术的故障诊断能够减小监测开销,同样得到较好的诊断性能。
现有技术中如在The International Journal of Intelligence Controland Systems第2卷第2号2005年“Proactive Probing and Probing onDemand in Service Fault Localization”一文,该文献第107页——113页所公开的,基于主动探针对服务端系统组件状况进行监测,发现异常则利用确定性故障——探针依赖模型进一步选取探针,直到诊断出故障源为止,针对不确定性,采用简单的再次发送探针的方式进行确认,这种处理不确定性的方式过于简单。另外该文献并没有考虑传输网络对用户所感知的服务性能造成的影响。
现有技术中还有:在IEEE Transactions on Neural Networks(special issue on Adaptive Learning Systems in CommunicationNetworks)第16卷第5号2005年9月“Adaptive Diagnosis in DistributedSystems”一文,该文献第1088页——1109页所公开的,基于主动探针对分布式系统进行监测诊断。假设故障——探针依赖关系为近确定性,选择探针时采用确定性模型,诊断故障时采用概率推理技术,这种方式在选取探针时可能会选择过少探针,监测不到需要的症状。
发明内容
本发明的目的是针对上述现有技术中存在的问题提供一种基于主动探针的服务故障诊断方法,使用主动探针有效监测网络中的服务性能,保证在各个接入网内使用服务的性能;当监测发现异常时,根据监测到的症状快速准确地定位出故障根源。
本发明解决上述技术问题是通过以下技术方案来实现的:
一种基于主动探针的服务故障诊断系统,所述故障诊断系统包括:探针、管理主机、接口模块、管理/信息呈现模块、故障检测模块、故障诊断模块、依赖模型存储器、有效探针信息存储器、告警/故障信息存储器,所述探针部署在探针站上;所述管理主机和探针站通过接口模块与管理/信息呈现模块、故障检测模块、故障诊断模块相连;所述管理/信息呈现模块、故障检测模块、故障诊断模块和所述依赖模型存储器、有效探针信息存储器以及告警/故障信息存储器分别相连。
所述探针站可以位于用户主机上也可以位于其他专用监测主机上。
一种基于主动探针的服务故障诊断系统的诊断方法,包括以下步骤:
(1)选取故障监测阶段所需的探针;
(2)将步骤(1)所选探针部署在对应探针站上,周期性地监测服务性能;
(3)当监测到步骤(2)中发送的探针异常时,启动所述故障诊断模块,进一步选取探针观察服务性能;
(4)根据步骤(2)和(3)中监测到的症状,得出故障假设。
所述步骤(1)中为可能故障设置检测率门限值。
所述步骤(1)中基于不确定性故障——探针依赖模型选择监测探针集合的贪婪算法。
所述步骤(3)中选择可能故障对应的探针子集的差集作为诊断探针,进一步观察服务性能。
本发明基于主动探针的服务故障诊断系统及其方法具有以下优点:
本发明为可能发生的故障设置故障检测率门限,根据前述的故障——探针不确定性依赖模型和检测率门限建立监测探针集。这些探针从用户位于的接入网向服务发送应用层探针监测服务性能,以定义的检测率门限值发现异常。当监测探针集发现服务性能异常时,可以自动快速地选取诊断探针集来进一步观察服务状态,根据之前的观察结果推理得出故障假设。
本发明相对基于客户端测量获取服务性能的服务故障诊断来说,可以减小监测开销并防止由于性能测量对客户端可能带来的过度干扰。相对基于网络数据包搜集并重构请求-响应来获取服务性能方式的服务故障诊断来说,可以减小性能收集的难度及监测开销。相对于使用确定性模型的主动探针方式,本申请基于不确定性模型选取探针,考虑了故障探针依赖强度,从而带来更精确的故障检测率,为可能故障加上了可设置的检测率门限值,有效保证了对每个故障的检测率,使用文中所述的算法选取探针,以较小的探针开销保证了服务性能异常的发现,而且获得了很好的诊断性能。
附图说明
图1是实现本发明的故障诊断系统示意图。
图2是实现本发明的总流程图。
图3是本发明中选取故障监测探针的处理流程图。
图4是本发明故障诊断阶段的流程图。
具体实施方式
下面结合附图对本发明作进一步详细的说明,在附图中:图1是实现本发明的故障诊断系统示意图。该系统在探针站上部署探针,观察探针状态,并进行故障检测和诊断。故障管理系统包括探针,管理主机,接口模块,管理/信息呈现模块,故障检测模块,故障诊断模块,依赖模型存储器,有效探针信息存储器,告警/故障信息存储器。
探针为部署在用户主机或者专用测试主机上的服务会话,当运行时可以监测到其所在位置获得的服务性能,并可以向接口模块报告性能参数。管理主机通过接口模块可以访问需要的数据,控制管理系统的运行。接口模块负责将内部的控制信息或者数据发送到管理主机和探针,以及将来自外部的控制信息和数据发送到相应的内部模块,管理/信息呈现模块向管理主机呈现管理界面;按照来自管理主机的指令管理系统;将来自外部的数据写入对应数据库,故障检测模块选取并部署故障监测探针,在出现异常时启动故障诊断模块,故障诊断模块选取诊断探针,根据探针结构推理得出故障根源,依赖模型存储当前探针-故障依赖模型,有效探针信息存储当前可用的探针信息,告警/故障信息存储所有的告警和故障记录。
图2是实现本发明的总流程图,图3是本发明中选取故障监测探针的处理流程图。首先选取故障监测阶段所需的探针,其具体细节展示在图3中,选取完成之后就将探针部署在网络中,周期性地监测服务性能。当监测到探针异常时,开始进行故障诊断,根据前一阶段的症状,进一步选取探针,得出故障假设。
图3是本发明中选取故障监测探针的处理流程图,包括如下几步:
将所有DQi≤T的故障对应的探针加入监测探针集合,从F中将这些故障删除,表示他们已经被监测(步骤101);
由于步骤101已经加入了部分监测探针,这些探针可能会导致其他部分探针满足检测率门限,因此需要将这些故障从F中删除(步骤102);
从F中选取一个对应最小DQi的故障fi(步骤103);
比较该故障对应的探针中,是否存在多个会导致相同最大Sati的探针(步骤104);
从中选择对应最大TDQi的探针(步骤105);
选择对应最大Sati的探针(步骤106);
将这个探针加入监测探针集合(步骤107);
判断103步骤选择的故障是否已经满足检测率门限要求(步骤108);
从F中删除已经满足检测率门限要求的探针(步骤109);
判断是否需要监测的故障都已经以足够的检测率进行监测(步骤110);
得出监测探针集合,将其部署到网络中,周期性地监测服务性能(步骤111)。
图4展示了故障诊断阶段的流程图。
根据监测阶段发现的症状,得出可能一个大的可能故障集合(201步骤);
根据可能故障集合,使用之前所述的探针选取方法,进一步获取系统状态(202步骤);
由故障监测和故障诊断阶段发现的探针结果,推理得出故障假设(203步骤)。推理算法的主要思想是将之前探测得到的所有探针结果逐个输入算法,使用信度更新的方式在各节点之间传递λ和π消息。输入结束后,逐个选择bel(1)最大的故障节点加入故障假设,并进行信度更新。直到所有观察到的症状均可被故障假设解释为止;
验证故障假设,故障恢复(204步骤)。
本发明在用户所处的接入网内布置探针站,探针站可以位于用户主机上,也可以位于其他专用监测主机上。从探针站可以向需要监测的服务发送探针,从而监测到该接入网内使用该服务的性能状况。一个探针应当会经过一个路径到达服务,从而探针可以反映服务和路径的状况。一个大规模网络内,可能存在多个服务和多个接入网,对应的可以发送多个探针。过多的监测探针会带来较大的开销,我们需要减小这个开销,并保证故障诊断性能。
本方案采用二分贝叶斯网络模型表示故障的先验概率以及故障和探针之间的因果概率。这些概率可以通过分析历史记录和故障注入的方式获得。故障集合为F={f1,…,fn},fi=1表示发生故障,fi=0表示未发生故障;探针集合为P={p1,…,pr},pi=1表示发生监测到异常,pi=0表示未监测到异常;P(f)为故障f发生的先验概率;P(p|f)为故障f发生时,探针p检测到异常的条件概率;Child(f)为与故障f存在因果关系的探针集合;Par(p)为与探针p存在因果关系的故障集合。
本发明分为两个阶段:故障监测和故障诊断。在故障监测阶段,周期性发送一个预先选取的探针集合,达到监测服务性能的目的。该监测探针集合应当满足当任一故障发生时,有较高检测率使至少一个探针发现异常。也就是说,对每个可能故障,该监测探针集合均存在一个较高的检测率,其值T的大小可由用户来定义。若当前监测探针集合为Pdet,对故障fi的检测率函数定义为
DQ ( P det , f i ) = 1 - Π P ij ∈ Child ( f i ) ∩ P det [ 1 - P ( p ij | f i ) ] .
为了在可接受开销基础上获得高的检测率,本发明采用了一个贪婪算法获取监测探针集合。假设当前已选定的监测探针集合Pdet,该算法的思路是从P-Pdet将探针逐个加入Pdet中,直到Pdet满足预设故障检测率要求。对每个探针pi∈P-Pdet,我们计算加入该探针后,满足监测率T的故障数目Sati
N ( P &prime; , f j ) = 1 DQ ( P &prime; , f j ) &GreaterEqual; T 0 DQ ( p &prime; , f j ) < T ,
Sa t i = &Sigma; j = 1 n N ( P det &cup; { p i } , f j ) .
将对应于最大Sati值的探针加入Pdet。如果多个探针有相同的最大Sati值,则选取对应最大检测率和的探针。检测率和定义为
TDQ i = &Sigma; j = 1 n DQ ( P det &cup; { p i } , f j ) .
当所有探针都用来监测故障时,也就是说Pdet=P,每个故障都达到最大检测率,定义为DQi=DQ(P,fi)。每个故障都有不同DQi,如果一个故障的比其他故障低的DQi,那么Child(fi)中的探针更可能被选中。因此在每次选择探针时,我们选择最小DQi的故障,从Child(fi)中选择对应最大Sati的探针。
如果一个故障fi的DQi≤T,那么即使所有探针都用于监测,也不能满足门限T。为了保证检测率,Child(fi)中所有探针都应当加入Pdet
故障诊断阶段需要根据故障监测阶段得到的探针结果,进一步选取探针获取系统信息,并使用诊断算法得出故障假设。
基于前一阶段得到的异常探针集合Pneg,我们可以得出一个可能故障集合 Par ( P neg ) = &cup; P i &Element; P neg Par ( p i ) , 其中包含所有可能导致Pneg的故障。为了从这个可能故障集合中找出故障假设,需要进一步选取探针进行观察。考虑只与一个可能故障有因果关系的探针,如果该探针失败,那么必然是这个故障导致其失败;如果一个与多个故障有因果关系的探针失败,则难于确定究竟是那个故障导致这个异常。为此,本阶段选择只与Pneg中一个可能故障有因果关系的探针来进一步观察。也就是说,我们选择每个可能故障的孩子与其他可能故障孩子的差,表示为
P diag = &cup; f i &Element; Par ( P neg ) ( Child ( f i ) - &cup; f j &Element; Par ( P neg ) , f j &NotEqual; f i Child ( f j ) ) - P det .
根据上述得到的所有探针结果,可以使用最大概率解释或者信度更新的方式推理得出一个故障假设。

Claims (7)

1.一种基于主动探针的服务故障诊断系统,所述故障诊断系统包括:探针、管理主机、接口模块、管理/信息呈现模块、故障检测模块、故障诊断模块、依赖模型存储器、有效探针信息存储器、告警/故障信息存储器,所述探针放置在探针站上;所述管理主机和探针站通过接口模块与管理/信息呈现模块、故障检测模块、故障诊断模块相连;所述管理/信息呈现模块、故障检测模块、故障诊断模块和所述依赖模型存储器、有效探针信息存储器以及告警/故障信息存储器分别相连。
2.根据权利要求1所述的一种基于主动探针的服务故障诊断系统,其特征是:所述探针站位于用户主机上。
3.根据权利要求1所述的一种基于主动探针的服务故障诊断系统,其特征是:所述探针站位于专用监测主机上。
4.根据权利要求1-3之一所述的基于主动探针的服务故障诊断系统的诊断方法,包括以下步骤:
(1)选取故障监测阶段所需的探针;
(2)将步骤(1)所选探针部署在对应探针站上,周期性地监测服务性能;
(3)当监测到步骤(2)中发送的探针异常时,启动所述故障诊断模块,进一步选取探针观察服务性能;
(4)根据步骤(2)和(3)中监测到的症状,得出故障假设。
5.根据权利要求4所述的基于主动探针的服务故障诊断系统的诊断方法,其特征是:在所述步骤(1)中为可能故障设置检测率门限值。
6.根据权利要求4所述的基于主动探针的服务故障诊断系统的诊断方法,其特征是:它还包括在所述步骤(1)中基于不确定性故障——探针依赖模型选择监测探针集合的贪婪算法。
7.根据权利要求4所述的基于主动探针的服务故障诊断系统的诊断方法,其特征是:它还包括在所述步骤(3)中选择可能故障对应的探针子集的差集作为诊断探针,进一步观察服务性能。
CNA2007101880155A 2007-11-22 2007-11-22 基于主动探针的服务故障诊断系统及其方法 Pending CN101170447A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CNA2007101880155A CN101170447A (zh) 2007-11-22 2007-11-22 基于主动探针的服务故障诊断系统及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CNA2007101880155A CN101170447A (zh) 2007-11-22 2007-11-22 基于主动探针的服务故障诊断系统及其方法

Publications (1)

Publication Number Publication Date
CN101170447A true CN101170447A (zh) 2008-04-30

Family

ID=39390926

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2007101880155A Pending CN101170447A (zh) 2007-11-22 2007-11-22 基于主动探针的服务故障诊断系统及其方法

Country Status (1)

Country Link
CN (1) CN101170447A (zh)

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350739B (zh) * 2008-09-05 2010-12-15 北京邮电大学 一种ip网络中的故障定位方法
CN101394314B (zh) * 2008-10-20 2011-03-23 北京邮电大学 一种Web应用系统的故障定位方法
CN101674196B (zh) * 2009-06-16 2011-12-07 北京邮电大学 一种多域协作的分布式故障诊断方法及系统
CN102307119A (zh) * 2011-08-18 2012-01-04 工业和信息化部电信传输研究所 一种发现互联网性能测量系统中的探针故障的方法
CN101814114B (zh) * 2010-01-07 2012-03-21 北京航空航天大学 一种利用模型转换进行故障诊断的方法
CN102413021A (zh) * 2011-12-27 2012-04-11 北京邮电大学 一种基于探针预测的覆盖网络性能监测方法
CN102437938A (zh) * 2012-01-09 2012-05-02 北京邮电大学 面向大规模网络监测的虚拟化部署系统和方法
CN102684902A (zh) * 2011-03-18 2012-09-19 北京邮电大学 基于探针预测的网络故障定位方法
CN103139606A (zh) * 2011-11-29 2013-06-05 苏州达联信息科技有限公司 一种视频直播分发网络的业务失效远程探测方法及装置
CN103501257A (zh) * 2013-10-11 2014-01-08 北京邮电大学 一种ip网络故障探针的选择方法
WO2015024336A1 (zh) * 2013-08-20 2015-02-26 京东方科技集团股份有限公司 设备故障报警方法,装置与cim系统
CN104756028A (zh) * 2012-09-17 2015-07-01 西门子公司 用于系统行为诊断的基于逻辑的方法
CN104808029A (zh) * 2014-01-24 2015-07-29 矽创电子股份有限公司 主动式探针装置
CN106789177A (zh) * 2016-11-30 2017-05-31 武汉船舶通信研究所 一种网络故障处理的系统
CN112436954A (zh) * 2020-10-10 2021-03-02 西安电子科技大学 用于故障诊断的概率探针选择方法、系统、设备及应用
CN112583648A (zh) * 2021-02-24 2021-03-30 北京城建设计发展集团股份有限公司 一种基于dns的智能服务故障处理方法
CN112994972B (zh) * 2021-02-02 2022-05-20 成都卓源网络科技有限公司 一种分布式探针监测平台

Cited By (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101350739B (zh) * 2008-09-05 2010-12-15 北京邮电大学 一种ip网络中的故障定位方法
CN101394314B (zh) * 2008-10-20 2011-03-23 北京邮电大学 一种Web应用系统的故障定位方法
CN101674196B (zh) * 2009-06-16 2011-12-07 北京邮电大学 一种多域协作的分布式故障诊断方法及系统
CN101814114B (zh) * 2010-01-07 2012-03-21 北京航空航天大学 一种利用模型转换进行故障诊断的方法
CN102684902A (zh) * 2011-03-18 2012-09-19 北京邮电大学 基于探针预测的网络故障定位方法
CN102684902B (zh) * 2011-03-18 2015-10-14 北京邮电大学 基于探针预测的网络故障定位方法
CN102307119B (zh) * 2011-08-18 2013-10-16 工业和信息化部电信传输研究所 一种发现互联网性能测量系统中的探针故障的方法
CN102307119A (zh) * 2011-08-18 2012-01-04 工业和信息化部电信传输研究所 一种发现互联网性能测量系统中的探针故障的方法
CN103139606A (zh) * 2011-11-29 2013-06-05 苏州达联信息科技有限公司 一种视频直播分发网络的业务失效远程探测方法及装置
CN102413021A (zh) * 2011-12-27 2012-04-11 北京邮电大学 一种基于探针预测的覆盖网络性能监测方法
CN102437938A (zh) * 2012-01-09 2012-05-02 北京邮电大学 面向大规模网络监测的虚拟化部署系统和方法
CN102437938B (zh) * 2012-01-09 2013-11-13 北京邮电大学 面向大规模网络监测的虚拟化部署系统和方法
CN104756028A (zh) * 2012-09-17 2015-07-01 西门子公司 用于系统行为诊断的基于逻辑的方法
WO2015024336A1 (zh) * 2013-08-20 2015-02-26 京东方科技集团股份有限公司 设备故障报警方法,装置与cim系统
CN103501257A (zh) * 2013-10-11 2014-01-08 北京邮电大学 一种ip网络故障探针的选择方法
CN103501257B (zh) * 2013-10-11 2016-10-19 北京邮电大学 一种ip网络故障探针的选择方法
CN104808029A (zh) * 2014-01-24 2015-07-29 矽创电子股份有限公司 主动式探针装置
CN106789177A (zh) * 2016-11-30 2017-05-31 武汉船舶通信研究所 一种网络故障处理的系统
CN106789177B (zh) * 2016-11-30 2019-09-10 武汉船舶通信研究所 一种网络故障处理的系统
CN112436954A (zh) * 2020-10-10 2021-03-02 西安电子科技大学 用于故障诊断的概率探针选择方法、系统、设备及应用
CN112436954B (zh) * 2020-10-10 2022-07-08 西安电子科技大学 用于故障诊断的概率探针选择方法、系统、设备及应用
CN112994972B (zh) * 2021-02-02 2022-05-20 成都卓源网络科技有限公司 一种分布式探针监测平台
CN112583648A (zh) * 2021-02-24 2021-03-30 北京城建设计发展集团股份有限公司 一种基于dns的智能服务故障处理方法
CN112583648B (zh) * 2021-02-24 2021-06-25 北京城建设计发展集团股份有限公司 一种基于dns的智能服务故障处理方法

Similar Documents

Publication Publication Date Title
CN101170447A (zh) 基于主动探针的服务故障诊断系统及其方法
US8577663B2 (en) System and methods for fault-isolation and fault-mitigation based on network modeling
CN103778044B (zh) 用于系统故障诊断和修复的方法和装置
US7529974B2 (en) Grouping failures to infer common causes
CN104796273B (zh) 一种网络故障根源诊断的方法和装置
US20020019870A1 (en) Proactive on-line diagnostics in a manageable network
CN101783749B (zh) 一种网络故障定位方法和装置
Duarte et al. VCube: A provably scalable distributed diagnosis algorithm
CN102684902B (zh) 基于探针预测的网络故障定位方法
CN105325023A (zh) 用于小区异常检测的方法和网络设备
CN106034051A (zh) 网络监控数据处理方法及网络监控数据处理装置
CN104125590B (zh) 链路故障诊断装置以及方法
CN110018390B (zh) 基于综合变权的分层模糊petri网电网故障诊断方法
CN106330531A (zh) 节点故障记录和处理的方法以及装置
CN112838944B (zh) 诊断及管理、规则确定及部署方法、分布式设备、介质
CN101350739A (zh) 一种ip网络中的故障定位方法
CN112882875B (zh) 故障诊断方法
CN102299829B (zh) 一种网络故障探测与定位的方法
CN1998185A (zh) 基于以太网的通信系统中的故障管理
Arjannikov et al. Using markov chains to model sensor network reliability
Manzanilla-Salazar et al. ENodeB failure detection from aggregated performance KPIs in smart-city LTE infrastructures
CN109889258A (zh) 一种光网络故障校验方法和设备
Hood et al. Automated proactive anomaly detection
Lei et al. Fault location identification for localized intermittent connection problems on CAN networks
Kogeda et al. A probabilistic approach to faults prediction in cellular networks

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20080430