CN105659528B - 一种实现故障定位的方法及装置 - Google Patents

一种实现故障定位的方法及装置 Download PDF

Info

Publication number
CN105659528B
CN105659528B CN201480057055.4A CN201480057055A CN105659528B CN 105659528 B CN105659528 B CN 105659528B CN 201480057055 A CN201480057055 A CN 201480057055A CN 105659528 B CN105659528 B CN 105659528B
Authority
CN
China
Prior art keywords
fault
chain
failure
monitored object
conduction chain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201480057055.4A
Other languages
English (en)
Other versions
CN105659528A (zh
Inventor
郭宪杰
申山宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Publication of CN105659528A publication Critical patent/CN105659528A/zh
Application granted granted Critical
Publication of CN105659528B publication Critical patent/CN105659528B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Telephonic Communication Services (AREA)
  • Locating Faults (AREA)

Abstract

本发明实施例公开了一种实现故障定位的方法及装置,包括:获取当前故障信息;根据获得的当前故障信息,建立所有监控对象针对所有故障类型在不同时间点的预定时间窗内的传导链集合;对传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链;以及,根据故障对象传导链,定位出故障对象和故障类型。该故障定位的方法实现了可以快速、准确的进行根源故障的定位和高效派单,提升日常网络维护和故障派单过程中的效率。

Description

一种实现故障定位的方法及装置
技术领域
本发明涉及网络管理技术,尤指一种实现故障定位的方法及装置。
背景技术
现有的网络管理系统用于管理各个监控对象。通常需要通过网络配置功能配置监控对象的各个参数,包括监控对象的名称标识、连接关系等。比如监控对象为一个交换机和四台计算机,交换机连接这四台计算机。有了这个配置数据后,就认识了管理系统的各个对象,通常是根据标识名称来识别监控对象的,如Switcher100,Computer100,Computer101,Computer102,Computer103等。
通常对监控对象的监控结果达到故障阈值后会上报给维护人员,比如CPU利用率达到96%以上需要报警,这个时候监控对象就会向监控者(网络管理系统)发送一条消息,消息包括:对象类型、对象标识、监控的指标、当前指标值、告警名称等信息。比如Computer,ID=100,CPU,98%,计算机CPU利用率过高。从网络管理系统来看,这些告警数据都是来自各个被监控对象上报的,消息类型是可以自定义的。
告警数据由监控对象上报后,根据接口定义,会获取消息类型、消息对象和对象标识,如上面提到的收到一条“Computer,ID=100,CPU,98%,计算机CPU利用率过高”,就会知道是Computer100出现了异常情况。
在复杂的真实的网络中,一个故障会导致更多的监控对象发生故障,典型的如掉电后,所有的监控对象可能都无法正常工作了;传输线路中断导致一片区域的通信受阻。可能就是在一两分钟内会上报上百条告警信息,在这些上报的告警数据中,如果快速定位根源的告警数据,对其优先进行修复,其它告警数据可能就会自动恢复了。如何快速定位根源性的告警数据就是现有技术的分析重点,通常是根据网络监控对象之间的连接关系(如Switcher100连接了Computer100等4台)、业务之间的因果关系(掉电和低压等有前后或者因果关系),归纳这些连接关系、因果关系形成告警知识库或者经验规则,利用既有的告警知识库或者告警经验规则对告警数据进行故障定位与分析。
利用既有的告警知识库或者告警经验规则对告警数据进行故障定位与分析,是现有网络维护的主要方法。但是现有的方法应用在全网络的监控中会带来海量的告警数据,并且跨网络设备跨管理系统之间的告警关联分析难度非常大。特别是周期性的网络建设和持续性地日常维护使得网络始终处于动态变更的过程当中,而面对动态的网络配置变更会给先验的告警经验规则带来很大的不准确性,无法快速、准确的进行根源故障的定位,无法提升日常网络维护和挂账派单过程中的效率。
发明内容
为了解决上述技术问题,本发明实施例提供了一种实现故障定位的方法及装置,能够快速、准确的进行根源故障的定位,提升日常网络维护和故障派单过程中的效率。
为了达到上述发明目的,本发明实施例公开了一种实现故障定位的方法,包括:
获取当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
根据获得的当前故障信息,获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链,根据所述监控对象的当前故障历史故障信息,建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合;
对建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链;
根据获得的故障对象传导链,定位出当前的故障对象和故障类型。
可选地,所述对建立的传导链集合中的传导链之间的相关性进行分析包括对传导链之间的对象故障的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链。
可选地,上述方法还具有如下特点:根据获得的历史故障信息,建立故障元数据库。
可选地,上述方法还具有如下特点:所述建立传导链集合之前,该方法还包括:判断所述监控对象的当前故障是否存在于所述历史故障信息中;
可选地,上述方法还具有如下特点:所述对传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链,包括:
分别获得所述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生每种故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
可选地,上述方法还具有如下特点:当所述监控对象的当前故障不存在历史故障信息时,该方法还包括:
对所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链进行分析,获得所述传导链中所有监控对象针对不同故障类型的故障对象传导链,包括:
分别获得当前传导链中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
可选地,上述方法还具有如下特点:所述获得所有监控对象针对不同故障类型的故障对象传导链后,该方法还包括:
根据所述故障对象传导链,获得针对不同监控对象的故障传导链,根据不同监控对象的故障传导链定位出故障对象和故障类型;或者,
根据所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
本发明实施例还公开了一种实现故障定位的装置,包括:
接收模块,设置为获得当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
第一建立模块,设置为根据获得的当前故障信息,获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链,判断所述监控对象的当前故障是否存在历史故障信息;
当所述监控对象的当前故障存在历史故障信息时,根据所述历史故障信息,建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合,向第二建立模块发送第一通知;
第二建立模块,设置为对第一建立模块建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对所有故障类型的故障对象传导链并输出给定位模块;
定位模块,设置为根据来自第二建立模块的故障对象传导链,定位出故障对象和故障类型。
可选地,第二建立模块是设置为对第一建立模块建立的传导链集合中的传导链之间的对象故障的相关性进行分析。
可选地,上述装置还可以具有如下特点:所述装置还包括:故障元数据建立模块,设置为根据获得的故障信息,建立故障元数据库,将故障元数据库信息传给第一建立模块。
可选地,上述装置还可以具有如下特点:所述第二建立模块具体设置为:
接收到来自第一建立模块的第一通知,获得所述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
可选地,上述装置还可以具有如下特点:所述第一建立模块,还设置为当所述监控对象的当前故障不存在历史故障信息时,向第二建立模块发送第二通知;
所述第二建立模块,还设置为接收来自第一建立模块的第二通知,获得所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
可选地,上述装置还可以具有如下特点:所述定位模块还设置为:
根据所述故障对象传导链,获得针对不同监控对象的故障传导链,根据得到的不同监控对象的故障传导链定位出故障对象和故障类型;
或者,根据所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
本申请技术方案包括:获得当前故障信息,当前故障信息包括监控对象、故障类型和时间信息;根据获得当前故障信息,建立所有监控对象针对不同故障类型在不同时间点的预定时间窗内的传导链集合;对建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对所有故障类型的故障对象传导链;以及根据获得的故障对象传导链,定位出故障对象和故障类型。本申请的技术方案不必逐一寻找监控对象之间的连接关系以及故障类型之间的因果关系,这样就避免了花费较高的时间代价,满足了实时性的要求。不强调逻辑上的因果关系而进行强相关性的判断,包容了可能存在的由变更导致的不确定性,按照监控维护的能力水平,根据相关性的高低判断其处理的优先级,以更灵活的手段进行故障定位。
附图概述
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例实现故障定位的方法的流程图;
图2为本发明实施例实现故障定位的方法的流程图;
图3为本发明实施例的一种实现故障定位的装置的结构示意图。
本发明的较佳实施方式
下面结合附图及具体实施例对本发明进行详细说明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互任意组合。
图1是本发明实施例实现故障定位的方法的流程图,包括以下步骤:
步骤101,获取当前故障信息。
其中,当前故障信息包括监控对象、故障类型和时间信息。
可选地,还包括:建立故障元数据库。
具体包括:首先根据全网的现有故障信息状态,识别出最小粒度的监控对象和故障类别,然后根据最小粒度的监控对象和故障类型建立基本的故障元数据库。
举例说明,监控对象是网络管理中主要的关注焦点,监控对象发生轻微故障时可以进行修复,严重故障时只能替换。通常每个监控对象都是由若干个不同部件组成的,从维护角度来看,所谓最小粒度的监控对象,就是可以替换的最小单元部件。比如交换机,如果一个小型集成度高的交换机,出现故障后无法针对每个端口进行更换,则每个端口出现严重故障后都需要更换该交换机,则该监控对象的最小粒度就为交换机本身。如果是一个大型交换机,每个端口都可以更换部件,则最小粒度定义为交换机下的每个端口,该端口出现故障时可以更换端口部件。那么最小粒度的监控对象是交换机下的端口编号。
上述故障元数据库由于监控对象的网络扩张、故障类型的丰富而不断扩大,由于故障元数据库数量有限,可以只增加不删除,保证在监控历史故障中持续可用。
步骤102,获取监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链,或建立监控对象的当前故障类型在不同时间点的预定时间窗内的传导链集合。
具体包括:
首先,获得当前监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链,在获得当前故障信息之前如果不存在历史故障信息时,则直接转入步骤103。
其次,在获得当前故障信息之前如果已存在历史故障信息时,根据历史故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合,然后转入步骤103;
优选地,上述传导链定义为:某一对象故障发生后所能影响的一系列的对象故障的序列。
步骤103,对建立的传导链进行分析或建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链。
具体包括:
在获得当前故障信息之前如果已存在历史故障信息时,获得上述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在所有监控对象发生故障的总次数中的比值,将上述比值大于预定阈值的监控对象列表作为故障对象传导链。或者
在获得当前故障信息之前如果不存在历史故障信息时,获得当前传导链中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将上述比值大于预定阈值的监控对象列表作为故障对象传导链。
步骤104,根据获得的故障对象传导链,定位出故障对象和故障类型。
具体包括:
根据故障对象传导链,获得针对不同监控对象的故障传导链,根据故障传导链定位出故障对象和故障类型。或者,
根据故障对象传导链,获得针对不同故障类型的对象传导链,根据对象传导链定位出故障对象和故障类型。
其中,初始上报的当前故障信息,包括:监控对象、故障类型、时间等基本信息,上述当前故障信息作为基本的相关性判断依据,该数据从被监控对象的网元对象上来;如果初始历史数据为空,则相关性都暂定为100%强相关,因计数次数仅为1,可信度和优先级降低,当历史数据不断累积时,相关性的可计算性越来越高。
首先,上述预定阈值可在实际应用中调整。
其次,上述故障对象传导链定义为:监控对象的故障类型所影响的强相关的对象故障集合。
再者,上述故障传导链定义为:强相关性的故障的有限故障集合,即针对该故障发生时都很容易引发该链条上的其它故障类型(可能是不同的对象)。
最后,上述对象传导链定义为:强相关性的对象的有限对象集合,即针对该对象发生任何故障都很容易影响该链条上的其它对象(可能是不同故障)。
上述方法在使用网络管理系统在监控全网各监控对象和故障类型时,摒弃现有的基于统计的分析方法,而是面向实时动态的故障信息,找出在网络中监控对象和故障类型的时空分布的强相关关系,并且参考历史故障信息中的对象链的相关性(包括但不限制于监控对象、线路连接、故障时间、故障类型等),进行故障对象之间的强相关性判断。
本发明实施例中不强调逻辑上的因果关系而进行强相关性的判断,包容可能存在的由变更导致的不确定性,按照监控维护的能力水平,根据相关性的高低判断其处理的优先级,以更灵活的手段实现了故障定位。
图2为本发明实施例实现故障定位的方法的详细流程图,包括以下步骤:
步骤201,获得当前故障信息,包括:监控对象、故障类型和时间等基本信息。
步骤202,判断是否有历史数据,若有历史数据,则转入步骤204;若没有历史数据,则接步骤203。
步骤203,获得当前时间点T0的预定时间窗W内的传导链Lij0,然后转步骤205。
具体包括:获得当前监控对象针对当前故障在当前时间点的预定时间窗W内的传导链Lij0
其中,传导链Lij0表示在时间序列上,当某一故障发生后的传导时间W内,所有出现的监控对象及其故障类型,形成的一个监控对象及其故障类型的集合。
举例说明,例如发电机Oi的输出电压低的故障Fj发生在某天晚上20:03分时,其以后的W时间内出现的所有故障对象的序列集合都可以认为是该故障对象(Oi,Fj)在该时间点的故障传导链上的节点,其中W为经验常数,通常为3分钟或者5分钟。如果没有该对象故障(Oi,Fj)的历史信息,此时获得的传导链为Lij0
可选地,还包括建立或更新故障元数据库,故障元数据库包括:最小粒度的监控对象和故障类别;
具体为:
在无先验知识的前提下,根据全网的现有故障信息状态,识别出最小粒度的监控对象On和故障类型Fm,根据最小粒度的监控对象On和故障类型Fm建立基本的故障元数据库。
上述故障元数据库由于监控对象的网络扩容、故障类型的丰富而不断扩充。
初始上报的当前故障信息,包括:监控对象、故障类型、时间等基本信息,上述当前故障信息作为基本的相关性判断依据,该数据从被监控对象的网元对象上来;如果初始历史数据为空,则相关性都暂定为100%强相关,因计数次数仅为1,可信度和优先级降低,当历史数据不断累积时,相关性的可计算性越来越高。
新增加的故障类型,或者变更的故障类型,在上述故障元数据库中未查询到的,当作初始的故障信息按强相关性计算;新增加的监控对象,或者变更标识的监控对象,在上述故障元数据库中未查询到的,当作初始的故障信息按强相关性计算。
对变更标识的监控对象,最终其相关性关系仍会和原监控对象的算法结果相同。
步骤204,根据历史数据,建立Tk时间点的传导链Lijk的集合。
包括:根据历史故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链的集合。
具体地,分析每个监控对象Oi的故障类型Fj,建立在Tk时间点的传导链Lijk的集合。
其中,传导链Lijk的集合定义为:在对象Oi的故障类型Fj发生的时间点Tk以后的W时间内出现的对象故障时间序列以及在Tk时间点之前发生的历史记录中的对象故障时间序列的集合。
举例说明,例如发电机Oi的输出电压低的故障Fj首次发生在当前时间Tk之前的某天晚上18:01分时及其以后的W时间内出现的所有故障对象的时间序列集合为一条传导链;此后在不同时间点还发生了同样的对象故障,对于当前时间Tk而言,就存在k-1次的该对象故障的历史记录,包括当前时间点Tk的故障对象时间序列在内,就得到当前监控对象Oi针对当前故障类型Fj在不同时间点的预定时间窗内W内的K条传导链的集合,其中W为经验常数,通常为3分钟或者5分钟。
步骤205,分析传导链集合中各传导链之间对象故障的相关性或当前时间点的预定时间窗内的传导链中对象故障的相关性,获得所有监控对象针对所有故障类型的故障对象传导链Lij
具体地,在获得当前故障信息之前已存在历史故障信息时,进行传导链集合中各传导链之间对象故障的相关性判断,即:
获得所述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。或者
在获得当前故障信息之前不存在历史故障信息时,进行当前时间点的预定时间窗内的传导链中对象故障的相关性判断,即:获得当前传导链中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
其中,预定阈值可在实际应用中进行调整。
举例说明,首先假设,当前时间Tk监控对象Oi的故障类型Fj已经发生,建立其W传导时间内所有的故障对象集合为Lijk=F(Oi,Fj,Tk),k=1,2,…,K-1。分析历史数据,因为此前该监控对象Oi的故障类型Fj已经发生过K-1次,累计共K条故障传导链。
接着,在这第K条故障传导链中,共计Mk个不同故障对象,分析在历史的K-1次传导链集合中所有故障对象分别出现的次数,得到所述Mk个故障对象分别发生的次数,为了归一化可以计算其发生的频次,即出现次数占总数量的百分比。
最后,如果出现频次为100%的故障对象,则相关度最高,为因果强相关关系,但是由于实际的生产环境中故障对象链会因网络变更而发生变化,经验数据可以取频次为90%以上,或者按照频次由高到低的顺序来确定故障对象的优先级顺序。故障对象传导链Lij定义为:对象Oi的故障类型Fj所影响的强相关的对象故障集合;
举例说明,在某一复杂通信网络中,包括有无线基站网络、骨干网传输网络、IT监控网络、动力与环境监控网络等网络子系统。简化其组网模型,假设其组网方式中有三个监控节点:电源P1、传输T1和基站S1。其三个对象具有因果关系:电源中断后传输无源,基站也中断不能提供服务,电源正常时传输异常中断基站也不能提供服务,即:P1-->(T1-->S1)。
当传输T1中断故障发生后,可以计算出其W时间段内有很多的故障上报,其中基站S1中断会在其时间序列出现之后发生,当然同一时间点附近也会有其它的故障产生;与历史数据的传导链进行相关性分析,就会发现(T1-->S1)的出现频度会非常高,理想情况下应该达到100%伴随出现,而其它随机出现的故障,则出现频度的相关度会比较低。
同样,当电源P1掉电故障发生后,可以计算出其传导链上的T1和S1也会出现在时间序列之后,且相关度非常高;(P1-->T1)和(P1-->S1)就是电源P1的传导链,P1-->(T1-->S1)就是一个更大的传导链。
但是,当由于网络扩建或者维护变更时,传输T1不再连接基站S1而是S2,这时(T1-->S1)的关系不再出现,(T1-->S2)则是新的传导关系。这种传导关系开始时由于历史数据不存在,则认为是只出现一次的强关联关系(初始情况下所有只出现一次的都认为是强关联关系100%,但是优先级要降低),(P1-->T1)和(P1-->S2)是电源P1的传导链,当出现第二次以上时,优先级就可以提升了。
步骤206,根据上述故障对象传导链Lij,找到故障对象传导链上的根源故障,定位出监控对象和故障类型。
上述方法可以生成基于监控对象和故障类型的强关联的生成树;在故障发生后,所有的告警监控都可以在时间轴上,按照对象传导链Lij进行强关联的自动呈现;这种呈现可以帮助用户更好地分析和定位故障,更方便地在派单时对一类现场问题进行统一派单,结合历史数据,方便排查,提高效率。
步骤207,在步骤,205的基础上,上述方法还可以包括:
根据上述故障对象传导链Lij,获得针对不同故障类型的对象传导链Li,根据上述对象传导链Li定位出故障对象和故障类型;其中
上述对象传导链Li定义为:强相关性的对象Oi的有限对象集合,即针对该对象发生任何故障都很容易影响该链条上的其它对象,其中可能是不同的故障;
对象传导链Li的具体判断方法:
一个对象Oi会检测多个故障类型,每个故障类型Fj都可以计算获得一个传导链Lij(j=1…m),传导链包括有被影响的监控对象和它检测的故障。在多个传导链中的对象故障集合中,计算各个集合中所有出现的对象故障的频次来判断多个传导链之间的相关性,与上述判断方法相同;
举例说明,在某机框内的多个单板上,针对机框的严重通讯故障检测,都会影响到单板自身的通信能力。这种与故障类型关联不大,对象之间具有父子关系的,就能够通过对象传导链的方式进行发现和挖掘,故障恢复时就可以优先排查传导链根源的父故障节点。
具有强相关性的对象可以扩展归纳为一个大的对象包,对象包中的故障可以指派为一个故障上站团队,而对象包中的强相关性的故障可以优先排查传导链根源的故障节点。或者
步骤208,根据上述故障对象传导链Lij,获得针对不同监控对象的故障传导链Lj,根据故障传导链Lj定位出故障对象和故障类型。其中
上述故障传导链Lj定义为强相关性的故障Fj的有限故障集合,即针对该故障发生时都很容易引发该链条上的其它故障类型,可能是不同的监控对象。
故障传导链Lj的具体判断方法:一个故障Fj会在多个对象上被检测发生,针对每个故障类型Fj同样可以生成不同对象Oi发生时的一个传导链Lij(i=1…n),传导链包括有被影响的对象和它检测的故障。在多个传导链中的对象故障集合中,计算各个集合中所有出现的对象故障的频次来判断多个传导链之间的相关性,与上述判断方法相同。
举例说明,在通讯协议栈的上下层通信过程中,低层通信往往会影响上层通信。如果对不同层次的协议栈进行监控时,底层协议栈的故障会影响上层协议栈的功能;这种与对象本身关联不大,对象之间具有逻辑的强关联关系的,就能够通过故障传导链的方式进行发现和挖掘,故障恢复时就可以优先排查传导链根源的故障节点。
图3为本发明实施例的一种实施故障定位的装置的结构示意图,包括:接收模块(30),故障元数据库建立模块(31),第一建立模块(32),第二建立模块(33)和定位模块(34)。
接收模块,设置为获得当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
其中,第一建立模块,设置为根据获得的当前故障信息,获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链,判断所述当前故障信息是否存在于所述历史故障信息中;
第一建立模块,还设置为当判断出所述当前故障信息存在于所述历史故障信息中时,根据所述历史故障信息建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合,向第二建立模块发送第一通知。
可选地,第一建立模块,还设置为在判断出获得当前故障信息之前不存在历史故障信息时,向第二建立模块发送第二通知;
第二建立模块,设置为对第一建立模块获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链中对象故障进行分析,或对第一建立模块建立的传导链集合中的传导链之间对象故障的相关性进行分析,获得所有监控对象针对所有故障类型的故障对象传导链并输出给定位模块。
可选地,第二建立模块具体设置为:接收到来自第一建立模块的第一通知,获得所述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生每种故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
可选地,第二建立模块,还设置为接收来自第一建立模块的第二通知,获得所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
定位模块,设置为根据来自第二建立模块的故障对象传导链,定位出故障对象和故障类型。
可选地,定位模块还设置为:
根据故障对象传导链,获得针对不同监控对象的故障传导链,根据得到的不同监控对象的故障传导链定位出故障对象和故障类型;或者,所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
可选地,上述装置还包括:故障元数据建立模块,设置为根据获得的故障信息,建立故障元数据库,将故障元数据库信息传给第一建立模块。
本领域普通技术人员可以理解上述实施例的全部或部分步骤可以使用计算机程序流程来实现,所述计算机程序可以存储于一计算机可读存储介质中,所述计算机程序在相应的硬件平台上(如系统、设备、装置、器件等)执行,在执行时,包括方法实施例的步骤之一或其组合。
可选地,上述实施例的全部或部分步骤也可以使用集成电路来实现,这些步骤可以被分别制作成一个个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
上述实施例中的各装置/功能模块/功能单元可以采用通用的计算装置来实现,它们可以集中在单个的计算装置上,也可以分布在多个计算装置所组成的网络上。
上述实施例中的各装置/功能模块/功能单元以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。上述提到的计算机可读取存储介质可以是只读存储器,磁盘或光盘等。
任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求所述的保护范围为准。
工业实用性
本发明实施例公开了一种实现故障定位的方法及装置,包括:获取当前故障信息;根据获得的当前故障信息,建立所有监控对象针对所有故障类型在不同时间点的预定时间窗内的传导链集合;对传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链;以及,根据故障对象传导链,定位出故障对象和故障类型,可以实现快速、准确的进行根源故障的定位和高效派单,提升日常网络维护和故障派单过程中的效率。

Claims (14)

1.一种实现故障定位的方法,包括:获取当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
根据获得的当前故障信息,获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链,并根据所述监控对象的当前故障的历史故障信息,建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合;
对建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链;
根据获得的故障对象传导链,定位出当前的故障对象和故障类型;
其中,所述传导链是指某一对象故障发生后所能影响的一系列的对象故障的序列;
所述故障对象传导链是指监控对象的故障类型所影响的强相关的对象故障集合。
2.根据权利要求1所述的方法,其中,还包括:根据获得的故障信息,建立或更新故障元数据库。
3.根据权利要求1所述的方法,其中,所述建立传导链集合之前,该方法还包括:判断所述当前故障信息是否存在于所述历史故障信息中;所述对建立的传导链集合中的传导链之间的相关性进行分析包括对所述传导链集合中的传导链之间的对象故障的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链。
4.根据权利要求3所述的方法,其中,所述对传导链集合中的传导链之间的对象故障的相关性进行分析,获得所有监控对象针对不同故障类型的故障对象传导链,包括:
分别获得所述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
5.根据权利要求1所述的方法,还包括:当所述监控对象的当前故障不存在历史故障信息时,对所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链进行分析,获得所有监控对象针对不同故障类型的故障对象传导链,其中包括:
分别获得所述传导链中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
6.根据权利要求1,3,4或5所述的方法,在所述获得所有监控对象针对不同故障类型的故障对象传导链后,该方法还包括:
根据所述故障对象传导链,获得针对不同监控对象的故障传导链,根据不同监控对象的故障传导链定位出故障对象和故障类型;或者,
根据所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
7.一种实现故障定位的装置,包括:
接收模块,设置为获得当前故障信息,当前故障信息至少包括监控对象、故障类型和时间信息;
第一建立模块,设置为根据获得的当前故障信息,获取所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链,判断所述监控对象的当前故障是否存在历史故障信息;
当所述监控对象的当前故障存在历史故障信息时,根据所述历史故障信息,建立当前监控对象针对当前故障类型在不同时间点的预定时间窗内的传导链集合,向第二建立模块发送第一通知;
第二建立模块,设置为对第一建立模块建立的传导链集合中的传导链之间的相关性进行分析,获得所有监控对象针对所有故障类型的故障对象传导链并输出给定位模块;
定位模块,设置为根据来自第二建立模块的故障对象传导链,定位出故障对象和故障类型;
其中,所述传导链是指某一对象故障发生后所能影响的一系列的对象故障的序列;
所述故障对象传导链是指监控对象的故障类型所影响的强相关的对象故障集合。
8.根据权利要求7所述的装置,还包括:故障元数据建立模块,设置为根据获得的故障信息,建立或更新故障元数据库,将故障元数据库信息传给第一建立模块。
9.根据权利要求7所述的装置,其中,所述第二建立模块是设置为对第一建立模块建立的传导链集合中的传导链之间的对象故障的相关性进行分析,获得所有监控对象针对所有故障类型的故障对象传导链并输出给定位模块。
10.根据权利要求9所述的装置,其中,所述第二建立模块具体设置为:
接收到来自第一建立模块的第一通知,获得所述传导链集合中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
11.根据权利要求7所述的装置,其中,所述第一建立模块,还设置为当所述监控对象的当前故障不存在历史故障信息时,向第二建立模块发送第二通知;
所述第二建立模块,还设置为接收来自第一建立模块的第二通知,获得所述监控对象针对当前故障类型在当前时间点的预定时间窗内的传导链中每个监控对象发生每种故障的次数,计算每个监控对象发生所述每种故障的次数在当前传导链中所有监控对象发生故障的总次数中的比值,将所述比值大于预定阈值的监控对象列表作为故障对象传导链。
12.根据权利要求7或9所述的装置,其中,所述定位模块还设置为:
根据所述故障对象传导链,获得针对不同监控对象的故障传导链,根据得到的不同监控对象的故障传导链定位出故障对象和故障类型;
或者,根据所述故障对象传导链,获得针对不同故障类型的对象传导链,根据不同故障类型的对象传导链定位出故障对象和故障类型。
13.一种实现故障定位的装置,包括:存储器和处理器;其特征在于:
所述存储器,用于保存用于实现故障定位的程序;
所述处理器,用于读取执行所述用于实现故障定位的程序,执行权利要求1-5任一项的方法。
14.一种载有权利要求13所述程序的存储介质。
CN201480057055.4A 2013-12-20 2014-09-24 一种实现故障定位的方法及装置 Active CN105659528B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201310711392.8A CN104734871A (zh) 2013-12-20 2013-12-20 一种实现故障定位的方法及装置
CN2013107113928 2013-12-20
PCT/CN2014/087332 WO2015090098A1 (zh) 2013-12-20 2014-09-24 一种实现故障定位的方法及装置

Publications (2)

Publication Number Publication Date
CN105659528A CN105659528A (zh) 2016-06-08
CN105659528B true CN105659528B (zh) 2019-10-08

Family

ID=53402074

Family Applications (2)

Application Number Title Priority Date Filing Date
CN201310711392.8A Withdrawn CN104734871A (zh) 2013-12-20 2013-12-20 一种实现故障定位的方法及装置
CN201480057055.4A Active CN105659528B (zh) 2013-12-20 2014-09-24 一种实现故障定位的方法及装置

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN201310711392.8A Withdrawn CN104734871A (zh) 2013-12-20 2013-12-20 一种实现故障定位的方法及装置

Country Status (2)

Country Link
CN (2) CN104734871A (zh)
WO (1) WO2015090098A1 (zh)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10275300B2 (en) * 2015-10-27 2019-04-30 Oracle International Corporation Systems and methods for prioritizing a support bundle
WO2018010176A1 (zh) * 2016-07-15 2018-01-18 华为技术有限公司 获取故障信息的方法及设备
CN106294076B (zh) * 2016-08-24 2019-03-15 浪潮(北京)电子信息产业有限公司 一种服务器关联故障预测方法及其系统
CN108306747B (zh) * 2017-01-11 2021-07-23 阿里巴巴集团控股有限公司 一种云安全检测方法、装置和电子设备
CN108880838B (zh) * 2017-05-10 2021-11-09 阿里巴巴集团控股有限公司 业务故障的监控方法及装置、计算机设备及可读介质
CN107690676A (zh) * 2017-07-04 2018-02-13 深圳怡化电脑股份有限公司 金融自助设备维修派单生成方法、手持终端及电子设备
CN109936470A (zh) * 2017-12-18 2019-06-25 中国电子科技集团公司第十五研究所 一种异常检测方法
CN108229613A (zh) * 2017-12-30 2018-06-29 武汉凌科通光电科技有限公司 光电子器件故障定位方法及系统
CN111327443B (zh) * 2018-12-17 2022-11-22 中国移动通信集团北京有限公司 一种故障根源指标确定方法及装置
CN110611604A (zh) * 2019-09-19 2019-12-24 国家电网有限公司 局域网设备评估处理方法及装置
CN111739188B (zh) * 2019-10-11 2022-02-01 北京京东乾石科技有限公司 一种agv故障增长率确定方法和装置
CN110635960A (zh) * 2019-11-11 2019-12-31 国家电网有限公司 通信设备的升级方法和装置
CN111143101B (zh) * 2019-12-12 2023-07-07 东软集团股份有限公司 用于确定故障根源的方法、装置、存储介质及电子设备
CN113839804B (zh) * 2020-06-24 2023-03-10 华为技术有限公司 一种网络故障的确定方法及网络设备
CN115988551B (zh) * 2022-12-19 2023-09-08 南京濠暻通讯科技有限公司 一种基于zynq的o-ran无线单元故障管理方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1713591A (zh) * 2004-06-22 2005-12-28 中兴通讯股份有限公司 光同步传送网告警相关性分析方法
CN101442762A (zh) * 2008-12-29 2009-05-27 中国移动通信集团北京有限公司 网络性能分析以及网络故障定位方法和装置
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101252477B (zh) * 2008-03-27 2010-12-22 杭州华三通信技术有限公司 一种网络故障根源的确定方法及分析装置
CN101854277B (zh) * 2010-06-12 2012-04-25 河北全通通信有限公司 一种移动通信经营分析系统的监控方法
US8156377B2 (en) * 2010-07-02 2012-04-10 Oracle International Corporation Method and apparatus for determining ranked causal paths for faults in a complex multi-host system with probabilistic inference in a time series

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1713591A (zh) * 2004-06-22 2005-12-28 中兴通讯股份有限公司 光同步传送网告警相关性分析方法
CN101442762A (zh) * 2008-12-29 2009-05-27 中国移动通信集团北京有限公司 网络性能分析以及网络故障定位方法和装置
CN102158360A (zh) * 2011-04-01 2011-08-17 华中科技大学 一种基于时间因子因果关系定位的网络故障自诊断方法
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置

Also Published As

Publication number Publication date
CN105659528A (zh) 2016-06-08
WO2015090098A1 (zh) 2015-06-25
CN104734871A (zh) 2015-06-24

Similar Documents

Publication Publication Date Title
CN105659528B (zh) 一种实现故障定位的方法及装置
AU2021107643A4 (en) Method, system, device, computer device and storage medium for elevator fault prediction
CN107707376B (zh) 一种监控和告警的方法和系统
CN105354614B (zh) 一种基于大数据的电网信息运维主动预警方法
CN104038371B (zh) 一种电力通信传输网自适应性能采集方法
CN105159964A (zh) 一种日志监控方法及系统
CN105515180A (zh) 一种智能变电站通信网络动态监控系统及其监控方法
CN106933693A (zh) 一种数据库集群节点故障自动修复方法及系统
CN110891283A (zh) 一种基于边缘计算模型的小基站监控装置及方法
CN102881125A (zh) 基于多信息融合集中处理平台的报警监控系统
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
WO2016095710A1 (zh) 一种调整srlg的方法和装置
CN103049365B (zh) 信息与应用资源运行状态监控及评价方法
CN103023028A (zh) 一种基于实体间依赖关系图的电网故障快速定位方法
CN112711493A (zh) 一种场景化根因分析应用
CN107548087A (zh) 一种告警关联分析的方法及装置
CN106453504A (zh) 一种基于nginx服务器集群的监控系统及方法
CN117453137A (zh) 云化智能运维系统数据管理系统
CN103701657A (zh) 用于不间断运行的数据处理系统的异常监控及处理装置和方法
CN105589800A (zh) 预测复杂系统故障的应用系统
CN103824017A (zh) 监控恶意程序的方法和监控平台
CA3215421A1 (en) Systems and methods for reducing alarm nuisance behaviors in an electrical system
WO2018035765A1 (zh) 网络异常的检测方法及装置
CN109634808B (zh) 一种基于关联分析的链式监控事件根因分析方法
Rafique et al. TSDN-enabled network assurance: A cognitive fault detection architecture

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant