CN104518905A - 一种故障定位方法及装置 - Google Patents

一种故障定位方法及装置 Download PDF

Info

Publication number
CN104518905A
CN104518905A CN201310467700.7A CN201310467700A CN104518905A CN 104518905 A CN104518905 A CN 104518905A CN 201310467700 A CN201310467700 A CN 201310467700A CN 104518905 A CN104518905 A CN 104518905A
Authority
CN
China
Prior art keywords
alarm
probability
failure cause
failure
occurs
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201310467700.7A
Other languages
English (en)
Inventor
杨凡
何诚
钱剑锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201310467700.7A priority Critical patent/CN104518905A/zh
Priority to PCT/CN2014/076867 priority patent/WO2015051638A1/zh
Publication of CN104518905A publication Critical patent/CN104518905A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults

Abstract

本发明实施例公开了一种故障定位方法及装置,所述方法包括:提取网络中各设备的告警信息,建立所述告警信息中的告警名称和告警故障原因之间的对应关系;按照故障定位目标,对所述告警故障原因进行合并分类,得到告警故障原因集合;获取现网中告警数据的告警集合,建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集合包括:告警名称集合;确定预设时间窗内所述告警集合对应的故障原因发生的概率,选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。本发明实施例解决了现有技术中故障定位不准确和定位效率低的技术问题。

Description

一种故障定位方法及装置
技术领域
本发明涉及网络技术领域,特别涉及一种故障定位方法及装置。
背景技术
网络设备(网元)在运行时,会根据自身的运行状态和环境变化生成不同的告警信息,所述告警信息包括:告警参考文档和告警故障原因,并将告警信息发送到网管系统,以便于网管及运维人员根据该告警信息中的告警参考文档对可能的故障原因进行排查,从而定位网络故障原因。但是,由于网管系统收集到大量的告警信息,并且还存在大量的提示告警和衍生告警,从而降低了网管及运维人员根据告警信息进行故障定位的效率。
基于此,为了提高故障定位的效率,现有技术中,一种方法是通过分析告警间的相关性(即关联告警分析),去掉衍生告警,也就是根据告警字段信息使用特定逻辑关系进行关联告警分析,去掉衍生告警。另一种方法是使用概率诊断模型,计算告警条件下故障发生的概率,也就是说,通过先验故障原因概率判断告警是否会在预设时间窗内发生,并设置概率阈值,然后,根据告警是否在预设时间窗内发生来判断故障原因,并计算告警情况下故障发生的概率。
但是,在对现有技术的研究和实践过程中,本发明的发明人发现,现有的实现方式中,关联告警分析可以去掉衍生告警,但并不能实现对告警故障的定位;而在使用概率诊断模型时,由于同一告警可能对应多种故障原因,或者同一故障可能产生多条告警,因此,故障定位的准确度和效率都比较低。
发明内容
本发明实施例中提供了一种故障定位方法及装置,以解决现有技术中故障定位不准确和定位效率低的技术问题。
为了解决上述技术问题,本发明实施例公开了如下技术方案:
第一方面提供了一种故障定位方法,所述方法包括:
提取网络中各设备的告警信息,建立所述告警信息中的告警名称和告警故障原因之间的对应关系;
按照故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合;
获取现网中告警数据的告警集合,建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集合包括:告警名称集合;
确定预定时间窗内所述告警集合对应的故障原因发生的概率;
选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;
对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
在第一方面的第一种可能的实现方式中,所述按照故障定位目标,对所述告警故障原因合并分类,得到告警故障原因集合包括:
按照设备故障定位原则,设定故障定位目标;
按照所述故障定位目标,对所述告警故障原因进行合并分类,得到告警故障原因集合。
结合第一方面或第一方面的第一种可能的实现方式,在第二种可能的实现方式中,所述按照所述故障定位目标对所述告警故障原因进行合并分类,还得到告警名称集;所述方法还包括:
计算合所述告警名称集的关联度,所述关联度用于验证所述合并分类的有效性。
结合第一方面或第一方面的第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述建立所述告警集合和所述告警故障原因集合的对应关系,包括:
根据所述告警名称和告警故障原因之间的对应关系,建立所述告警集合和所述告警故障原因集合的二分图。
结合第一方面或第一方面的第一种或第二种或第三种可能的实现方式,在第四种可能的实现方式中,所述确定预定时间窗内所述告警集合对应的故障原因发生的概率,包括:
计算预定时间窗内告警集合中每种告警发生的概率;
计算所述每种告警对应的故障原因发生的概率;
根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述预定时间窗内所述告警集合对应的故障原因发生的概率。
结合第一方面或第一方面的第一种或第二种或第三种或第四种可能的实现方式,在第五种可能的实现方式中,所述计算预定时间窗内告警集合中每种告警发生的概率,包括:
使用预定时间窗内的告警发生的频次作为预设时间窗内告警发生的概率。
结合第一方面或第一方面的第一种或第二种或第三种或第四种或第五种可能的实现方式,在第六种可能的实现方式中,所述计算所述每种告警对应的故障原因发生的概率,包括:
初始化所述每种告警的故障原因发生的概率;
在所述预定时间窗内计算并验证所述每种告警的故障原因发生的概率;
更新所述每种告警对应的故障原因发生的概率。
结合第一方面或第一方面的第一种或第二种或第三种或第四种或第五种或第六种可能的实现方式,在第七种可能的实现方式中,所述对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位,包括:
对所述告警集合的故障原因进行层级合并分类,得到各层的合并原因;
逐级向上层计算出故障原因,以完成故障定位目标的层级定位。
第二方面提供了一种故障定位装置,包括:
提取单元,用于提取网络中各设备的告警信息;
第一建立单元,用于建立所述告警信息中告警名称和告警故障原因之间的对应关系;
处理单元,用于按照故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合;
获取单元,用于获取现网中告警数据的告警集合;
第二建立单元,用于建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集包括:告警名称集合;
确定单元,用于确定预定时间窗内所述告警集合对应的故障原因发生的概率;
选取单元,用于选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;
定位单元,用于对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
在第二方面的第一种可能的实现方式中,所述处理单元包括:
设定单元,用于按照设备故障定位原则,设定故障定位目标;
分类单元,用于按照所述故障定位目标,对所述告警故障原因进行合并分类,得到告警故障原因集合。
结合第二方面或第二方面的第一种可能的实现方式,在第二种可能的实现方式中,
所述分类单元,还用于在按照所述故障定位目标,对所述告警故障原因进行合并分类后,还得到告警名称集;所述装置还包括:
计算单元,用于计算合并分类后的所述告警名称集的关联度,所述关联度用于验证所述合并分类的有效性。
结合第二方面或第二方面的第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述第一建立单元,具体用于根据所述告警名称和告警故障原因之间的对应关系,建立所述告警集合和所述告警故障原因集合的二分图。
结合第二方面或第二方面的第一种或第二种或第三种可能的实现方式,在第四种可能的实现方式中,所述确定单元包括:
第一概率计算单元,用于计算预定时间窗内告警集合中每种告警发生的概率;
第二概率计算单元,用于计算所述每种告警对应的故障原因发生的概率;
概率确定单元,用于根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述预定时间窗内所述告警集合对应的故障原因发生的概率。
结合第二方面或第二方面的第一种或第二种或第三种或第四种可能的实现方式,在第五种可能的实现方式中,
所述第一概率计算单元,具体用于使用预定时间窗内的告警发生的频次作为预设时间窗内告警发生的概率。
结合第二方面或第二方面的第一种或第二种或第三种或第四种或第五种可能的实现方式,在第六种可能的实现方式中,所述第二概率计算单元包括:
初始化单元,用于初始化所述每种告警的故障原因发生的概率;
验证单元,用于在所述预定时间窗内计算并验证所述每种告警的故障原因发生的概率;
更新单元,用于更新所述每种告警的对应的故障原因发生的概率。
结合第二方面或第二方面的第一种或第二种或第三种或第四种或第五种或第六种可能的实现方式,在第七种可能的实现方式中,所述定位单元包括:
层级分类单元,用于对所述告警集合的故障原因进行层级合并分类,得到各层的合并原因;
层级定位单元,用于逐级向上层计算出故障原因,以完成故障定位目标的层级定位。
第三方面提供了一种故障定位装置,包括:
告警信息提取单元,用于提取网络中各设备的告警信息,建立所述告警信息中的告警名称和告警故障原因之间的对应关系;
告警信息处理单元,用于按照故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合;
告警数据处理单元,用于获取告警数据的告警集合,建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集合包括:告警名称集合;确定预定时间窗内所述告警集合对应的故障原因发生的概率;选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;
故障层级定位单元,用于对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
在第三方面的第一种可能的实现方式中,所述告警信息处理单元,具体用于按照设备故障定位原则,设定故障定位目标;按照所述故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合。
结合第三方面或第三方面的第一种可能的实现方式,在第二种可能的实现方式中,所述告警信息处理单元,在按照所述故障定位目标,对所述告警故障原因进行合并分类,得到合并分类后的所述告警名称集时,还用于计算合并分类后的所述告警名称集的关联度,所述关联度用于验证所述合并分类的有效性。
结合第三方面或第三方面的第一种或第二种可能的实现方式,在第三种可能的实现方式中,所述告警数据处理单元建立所述告警集合和所述告警故障原因集合的对应关系,包括:根据所述告警名称和告警故障原因之间的对应关系,建立所述告警集合和所述告警故障原因集合的二分图。
结合第三方面或第三方面的第一种或第二种或第三种可能的实现方式,在第四种可能的实现方式中,所述告警数据处理单元确定预设时间窗内所述告警集合对应的故障原因发生的概率,包括:计算预设时间窗内告警集合中每种告警发生的概率;计算所述每种告警对应的故障原因发生的概率;根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述预设时间窗内所述告警集合对应的故障原因发生的概率;选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因。
结合第三方面或第三方面的第一种或第二种或第三种或第四种可能的实现方式,在第五种可能的实现方式中,所述告警数据处理单元计算预设时间窗内告警集合中每种告警发生的概率,包括:使用预定时间窗内的告警发生的频次作为预定时间窗内告警发生的概率。
结合第三方面或第三方面的第一种或第二种或第三种或第四种或第五种可能的实现方式,在第六种可能的实现方式中,所述告警数据处理单元计算所述每种告警对应的故障原因发生的概率,包括:初始化所述每种告警的故障原因发生的概率;在所述预定时间窗内计算并验证所述每种告警的故障原因发生的概率;更新所述每种告警的对应的故障原因发生的概率。
结合第三方面或第三方面的第一种或第二种或第三种或第四种或第五种或第六种可能的实现方式,在第七种可能的实现方式中,所述故障层级定位单元,具体用于对所述告警集合的故障原因进行层级合并分类,得到各层的合并原因;逐级向上层计算出故障原因,以完成故障定位目标的层级定位。
由上述技术方案可知,本发明实施例中,先从告警设计及说明文档中提取告警信息,然后按照故障定位目标,对告警故障原因进行合并和分类,并计算出时间窗内的现网中告警集合(或告警序列)的故障原因发生的概率,从而实现对故障原因的层级定位,提高了故障定位效率。进一步,通过对告警故障原因的合并分类,也提高了告警的相关性。以及实时更新告警的故障原因概率,提高了告警的故障原因定位的准确度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种故障定位方法的流程图;
图2为本发明实施例提供的一种告警集合与故障原因集合的二分图的示意图;
图3为本实施例中提供的一种使用告警发生的频率近似代替告警发生的概率的示意图;
图4为本发明实施例提供的更新故障原因发生的概率的示意图;
图5为本发明实施例提供的一种故障层级定位示意图;
图6为本发明实施例提供的一种故障原因合并分类示意图;
图7为本发明实施例提供的一种故障定位装置的结构示意图;
图8为本发明实施例提供的一种故障定位装置的另一结构示意图;
图9为本发明实施例提供的一种服务器的结构示意图。
具体实施方式
本发明如下实施例提供了故障定位方法和装置。本发明实施例中通过对故障原因进行了合并和分类,并计算出合并和分类后的故障原因发生的概率,从而有效的提高了故障障定位的效率和准确度。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图,图1为本发明实施例提供的一种故障定位方法的流程图,在该实施例中,假设故障定位的目标网络中包含告警设计或说明文档,告警包括:告警名称和告警的故障原因。所述方法包括:
步骤101:获取网络中各设备的告警信息,建立所述告警信息中的告警名称和告警故障原因之间的对应关系;
在该实施例中,服务器可以从网络中各设备的告警设计及说明文档(或参考文档)中提取告警信息,所述告警信息包括:告警名称、告警故障原因,还可以包括告警ID等,当并不限于此,还可以包括其他参数,本实施例不作限制。
该实施例中,通常情况下,设备的告警信息都会包含:告警的说明和参考文档,用以对告警进行解释和说明。所述告警信息包括:告警名称和告警故障原因(告警产生的故障原因);还可以包括:ID(编号)以及告警级别(说明告警的主要程度)等。在故障定位时,先提取出告警名称、告警ID和告警产生的故障原因,并建立告警名称及告警故障原因之间的对应关系,该对应关系如表1所示,该表1中只是以此为例,并不限于此:
表1
告警名称 告警ID 告警故障原因
传感器失效告警 1 传感器故障
传感器失效告警 1 传感器连接故障
传感器失效告警 1 所属监控设备故障
温度异常告警 2 环境温度异常
温度异常告警 2 散热系统故障
温度异常告警 2 传感器连接故障
温度异常告警 2 传感器故障
温度异常告警 2 监控设备故障
步骤102:按照故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合;其中,告警故障原因集合就是对表1中后得到各类告警故障原因进行合并分类后得到集合。
在该步骤中,通常情况下,服务器先按照设备故障定位原则,设定故障定位目标。也就是说,由于告警信息一般都上报到网络管理平台,因此,告警信息包括全网的故障信息。故障定位目标是指需要定位的层级。对于一个网络系统,故障定位目标可以设置为一台设备,或者设备的一个模块,或者设备模块的软件、硬件和配置问题等等。故障定位目标的设计原则可以和网络的组成,设备的模块设计相关联。
然后,按照所述故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合。也就是说,在设计好故障定位目标后,可以按照故障定位目标对告警故障原因进行合并分类。比如,可以按照设备的模块进行划分,如一个设备可能包含3个模块,而故障定位目标是定位到模块,就可以将该模块内的所有故障原因进行合并和分类。
在该实施例中,以使用自然语言处理(NLP,Natural Language Process)方法对故障原因进行合并和分类。其故障原因合并部分示例如表2所示:
表2
由表2可知,该实施例中,按照故障定位目标,可以将告警故障原因(即初始故障原因合)并成“合并原因(1)”,也可以合并成“合并原因(2)”。显然,“合并原因(2)”较“合并原因(1)”的粒度更粗。
可选的,在另一实施例中,按照所述故障定位目标,对所述告警故障原因进行合并分类,还得到告警名称集;计算合并分类后的所述告警名称集(也可以称为告警集)的关联度,所述关联度用于验证所述合并分类的有效性。其中,所述告警名称集就是对表1中的各类告警名称进行合并分类后得到集合。当然,对所述告警故障原因进行合并分类后,还可以得到对应的告警ID集合,其中,告警ID集合对表1中的各类ID进行分类合并后得到的集合。
也就是说,对于告警集I={A1,A2,…,An},如果合并分类前的告警集关联度为Ia,合并分类后的告警集关联度为I′a,那么,当I′a≥Ia时,合并为有效合并。
其中,计算合并分类后的所述告警名称集(也可以称为告警集)的关联度:
先定义:告警相似度和告警集的关联度
其中,所述告警相似度是指告警相似的程度。设任意两个告警A和B,其告警故障原因集分别为U(A)和U(B),则定义告警A和B的相似度为:
S A , B = U ( A ∩ B ) U ( A ∪ B )
在该公式中,U(A∪B)为告警故障原因集U(A)和U(B)的并集,U(A∩B)为告警故障原因集U(A)和U(B)的交集;SA,B为告警A和B的相似度。
所述告警集的关联度是指告警集中,存在相似告警的程度。设告警集I={A1,A2,…,An},定义告警集I的关联度为:
I a = # ( S A i A j > 0 ) 1 2 n ( n - 1 )
当然,本实施例中,并不限于上述计算告警集的关联度,还可以是其他类似的方法,本实施例不作限制。
在该实施例中,故障定位目标往往不同。比如,对于一个单板故障引起的告警,可能是是希望定位到故障发生的设备,也可能是故障发生的单板,或者是单板的硬件或软件故障,等等。针对不同的故障定位目标,可以对告警故障原因合并。具体可以采用上述方法对告警故障原因进行合并,当然,也可以采用其他方法对告警故障原因进行合并,本实施例不作限制。
步骤103:获取现网中告警数据的告警集合,建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集合包括:告警名称集合;
其中,所述告警数据:是指从现网获取的告警,所述告警包括告警名称,告警发生的时间,告警频次等。告警集合包括:各类告警名称,各类告警发生的时间,各类告警频次等。
其中,该步骤中,服务器建立所述告警集合和所述告警故障原因集合的对应关系,可以是根据所述告警名称和告警故障原因之间的对应关系,建立所述告警集合和所述告警故障原因集合的二分图(bipartite map),其中,二分图是图论中的一种特殊模型,对于G=(V,E)的无向图,如果顶点V可以分割为两个不同的集合A、B,且E=<i,j>中的顶点分别属于A、B,则称G为二分图。
设获取现网的告警集合为I={A1,A2,…,An},对应的故障原因集合为F={f1,f2,…,fm},建立告警集合与故障原因集合的二分图,其告警集合与故障原因集合的二分图如图2所示。
步骤104:确定预定时间窗内所述告警集合对应的故障原因发生的概率;
在该步骤中,计算在已知告警集合(也可以称为告警序列)下故障原因的概率。可以使用基于贝叶斯网络、马尔科夫链等方法计算各故障原因发生的概率。其计算方法过程为:设置时间窗T,设时间窗内的告警集合为I={A1,A2,…,An},分别计算该时间窗内告警发生的概率和每种告警对应的各种故障原因发生的概率,然后计算该告警集合下故障原因发生的概率。下面以基于贝叶斯网络的方法为例,说明计算所述告警集合的故障原因发生的概率的实现过程:
首先,计算时间窗内告警集合中每种告警发生的概率;
设时间窗内告警集合(或告警序列)I={A1,A2,…,An}中,各告警的数目分别为n1,n2,…,nn,告警总数为N。使用告警发生的频率近似代替告警发生的概率,即:
f i = n i N
ni为第i个告警发生的概率,N为告警总数。具体如图3所示,图3为本实施例中使用告警发生的频率近似代替告警发生的概率的示意图。
其次,计算所述每种告警对应的故障原因发生的概率;具体包括:初始化所述每种告警的故障原因发生的概率;在所述预设时间窗内计算并验证所述每种告警的故障原因发生的概率。
也就是说,对于任意告警,设其存在的c种故障原因,初始化每种告警的故障原因发生的概率为:
p alarm ij = 1 c ( 0 &le; i &le; n , 0 &le; j &le; c )
进一步,所述方法还可以包括:更新所述每种告警对应的故障原因发生的概率。其更新故障原因发生的概率的示意图如图4所示,
如图4所示,从现网的告警数据中分析某一告警产生的原因,并确定由于哪种故障原因产生了该告警。通过故障原因验证后,反馈给下一次计算确定该告警的故障原因的过程。当在一个时间窗内确定由于故障原因faultj产生的告警alarmi,则安照如下方式更新告警故障原因:
p alaem i , j : = p alaem i , j + 1 c &Sigma; p alarm i , other
p alarm i , other : = p alarm i , other - 1 c p alarm i , other
其中,Palarm为每种告警的故障原因发生的概率,Palarmi,j为故障原因j产生告警i的概率,Palarmi,other是除了故障原因j以外的其它故障原因产生告警i的概率,C为常数。
例如,设某一告警alarm有3种故障原因fault1,fault2,fault3,则初始化每种故障原因的概率为,当在一个时间窗口内确定故障原因为fault1、fault2、fault3时:
p fault 1 = 1 3 + 1 3 ( 1 - 1 3 ) = 5 9
p fault 2 = 1 3 - 1 3 * 1 3 = 2 9
p fault 3 = 1 3 - 1 3 * 1 3 = 2 9
最后,根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述时间窗内所述告警集合对应的故障原因发生的概率。
也就是说,本实例以使用贝叶斯网络方法计算时间窗内告警序列的每种故障原因的概率为例,具体包括:
设时间窗内的告警序列为I={A1,A2,…,An},共n种不同的告警,每种告警的频次为ni,告警总数为N,即Σni=N。每种告警分别有c1,c2,...,cn中故障原因,一共有fault1,fault2,...,faultm共m种告警原因,即Σci=m。则对于故障原因faultj,其发生的概率为:
p ( fault j | < alarm 1 , alarm 2 , . . . , alarm n > ) = &Sigma; fault j &Element; alarm i f i p alarm i , j
其中,fi表示在时间窗内告警alarmi发生的概率,计算过程详与计算时间窗内告警集合中每种告警发生的概率相同,即使用告警发生的频率近似代替告警发生的概率。faultj∈alarmi表示faultj是alarmi的ci种原因中的一种,表示告警alarmi中faultj的概率,计算过程详见与计算所述每种告警对应的故障原因发生的概率的过程相同,具体详见上述。
步骤105:选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;
在所有的故障原因中,服务器选取满足预设范围(比如选择概率最大的故障原因,或者选择概率比较大的3个故障原因,或者选择某一区间内的故障原因等)的所述故障原因发生的概率作为该告警集合或告警序列的故障原因。其中,该预设范围根据需要动态设置,比如,可以是故障原因概率最大的前10个中的至少一个等,但并不限于此。
再比如,选取故障原因概率最大的前N(如前1个,前5个,前8个或前10等,N的值可以需要进行适应性选取)作为该时间窗内告警集合的故障原因集合(或者故障原因序列)。
步骤106:对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
在该实施例中,对故障原因进行合并分类,得到故障原因最大的类别,计算出其故障原因,然后逐级向上计算故障原因,直至完成故障定位目标。
其故障层级定位示意图如图5所示,如图5所示,在已知时间窗内的告警集合(或告警序列)alarm1,alarm2,...,alarmn下,计算和合并分类后的故障原因,确定分类后的故障原因;利用该告警集合或告警序列,并计算合并为该故障原因的上一级故障原因。直到定位到故障定位目标。如果故障定位目标为原始原因,则直到定位到原始原因。
为了便于理解故障层级定位,下面以一个实例来说明该过程。
在告警集合或告警序列下提取故障初始原因,对故障初始原因进行合并分类,得到合并原因(1),继续合并分类,得到合并原因(2),其对应的故障原因合并分类示意图如图6所示。然后按照上述过程中计算所述每种告警对应的故障原因发生的概率的方法,首先利用合并原因(2)层级,计算出中该告警集合或告警序列的故障原因中“监控设备”的概率最大,确定该告警原因的概率为“监控设备”。而监控设备是由“监控设备配置”、“监控设备”和“监控设备线缆”三种原因合并来的,使用该告警集合或告警序列,计算在该层级的故障原因下告警的故障原因(合并分类后的告警故障原因的概率,是在该层级下的故障原因概率,例如,一个告警可能存在3种故障原因,则每种故障原因的概率为31,合并分类后为一种,概率为1),计算出该层级的“监控设备配置”的概率最大。如果需要定位到初始原因,使用该告警序列,按照上述方法继续向上一层计算,从而确定“监控设备为插紧”为告警故障原因。
本发明实施例中,先从告警设计及说明文档中提取告警信息,然后按照故障定位目标,对告警故障原因进行合并和分类,并计算出时间窗内的现网中告警集合(或告警序列)的故障原因发生的概率,从而实现对故障原因的层级定位,提高了故障定位效率。进一步,通过对告警故障原因的合并分类,也提高了告警的相关性。以及实时更新告警的故障原因概率,提高了告警的故障原因定位的准确度。
基于上述方法的实现过程,本发明实施例还提供一种故障定位装置,其结构示意图如图7所示,所述装置包括:提取单元71,第一建立单元72,处理单元73,获取单元74,第二建立单元75,确定单元76、选取单元77和定位单元78,其中,
所述提取单元71,用于提取网络中各设备的告警信息,具体可以是从网络中各设备的告警设计及说明文档中提取告警信息。
所述第一建立单元72,用于建立所述告警信息中告警名称和告警故障原因之间的对应关系;具体用于建立所述告警集合和所述告警故障原因集合的二分图,其二分图的定义详见上述,在此不再赘述。
所述处理单元73,用于按照故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合;
可选的,所述处理单元包括:设定单元和分类单元,所述设定单元,用于按照设备故障定位原则,设定故障定位目标;所述分类单元,用于按照所述故障定位目标,对所述告警故障原因进行合并分类,得到告警故障原因集合。
所述获取单元74,用于获取现网中告警数据的告警集合;
所述第二建立单元75,用于建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集包括:告警名称集合;
所述确定单元76,用于确定预设时间窗内所述告警集合对应的故障原因发生的概率;
可选的,所述确定单元包括:第一概率计算单元,第二概率计算单元和概率确定单元,所述第一概率计算单元,用于计算预设时间窗内告警集合中每种告警发生的概率,具体用于使用预设时间窗内的告警发生的频次作为时间窗内告警发生的概率;所述第二概率计算单元,用于计算所述每种告警对应的故障原因发生的概率;所述概率确定单元,用于根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述预设时间窗内所述告警集合对应的故障原因发生的概率。
可选的,所述第二概率计算单元包括:初始化单元和验证单元,所述初始化单元,用于初始化所述每种告警的故障原因发生的概率;所述验证单元,用于在所述时间窗内计算并验证所述每种告警的故障原因发生的概率;进一步,还可以包括:更新单元,用于更新所述每种告警的对应的故障原因发生的概率。
可选的,所述分类单元,还用于在按照所述故障定位目标,对所述告警故障原因进行合并分类后,还得到告警名称集;所述装置还包括:计算单元,用于计算合并分类后的所述告警名称集的关联度,所述关联度用于验证所述合并分类的有效性。
所述选择单元77,用于选取满足预设范围的所述故障原因发生的概率作为所述告警集合对应的故障原因发生的概率。
所述定位单元78,用于对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
可选的,所述定位单元包括:层级分类单元和层级定位单元,其中,所述层级分类单元,用于对所述告警集合的故障原因进行层级合并分类,得到各层的合并原因;所述层级定位单元,用于逐级向上层计算出故障原因,以完成故障定位目标的层级定位。
可选的所述装置可以集成在终端中,也可以独立部署,本实施例不作限制。
所述装置中各个单元的功能和作用的实现过程,详见上述方法中对应步骤的实现过程,在此不再赘述。
相应的,本发明实施例还提供一种故障定位装置,其结构示意图如图8所示,所述装置包括:告警信息提取单元81,告警信息处理单元82,告警数据处理单元83和故障层级定位单元84,其中,
所述告警信息提取单元81,用于网络中各设备的告警信息,建立所述告警信息中的告警名称和告警故障原因之间的对应关系;
所述告警信息处理单元82,用于按照故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合;
所述告警数据处理单元83,用于获取告警数据的告警集合,建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集合包括:告警名称集合;确定预设时间窗内所述告警集合对应的故障原因发生的概率;选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;
所述故障层级定位单元84,用于对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
可选的,所述告警信息处理单元82,具体用于按照设备故障定位原则,设定故障定位目标;按照所述故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合。
可选的,所述告警信息处理单元82在按照所述故障定位目标,对所述告警故障原因进行合并分类,得到合并分类后的所述告警名称集时,还用于计算合并分类后的所述告警名称集的关联度,所述关联度用于验证所述合并分类的有效性。
可选的,所述告警数据处理单元83建立所述告警集合和所述告警故障原因集合的对应关系,包括:根据所述告警名称和告警故障原因之间的对应关系,建立所述告警集合和所述告警故障原因集合的二分图。
可选的,所述告警数据处理单元83确定预设时间窗内所述告警集合对应的故障原因发生的概率,包括:计算时间窗内告警集合中每种告警发生的概率;计算所述每种告警对应的故障原因发生的概率;根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述时间窗内所述告警集合对应的故障原因发生的概率;选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因。
可选的,所述告警数据处理单元83计算预定时间窗内告警集合中每种告警发生的概率,包括:使用预定时间窗内的告警发生的频次作为预定时间窗内告警发生的概率。
可选的,所述告警数据处理单元83计算所述每种告警对应的故障原因发生的概率,包括:初始化所述每种告警的故障原因发生的概率;在所述预定时间窗内计算并验证所述每种告警的故障原因发生的概率。
可选的,所述告警数据处理单元83计算所述每种告警对应的故障原因发生的概率,还包括:更新所述每种告警的对应的故障原因发生的概率。
可选的,所述告警数据处理单元83确定所述时间窗内所述告警集合对应的故障原因发生的概率,包括:选取最大故障原因发生的概率或者选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因。
可选的,所述故障层级定位单元84,具体用于对所述告警集合的故障原因进行层级合并分类,得到各层的合并原因;逐级向上层计算出故障原因,以完成故障定位目标的层级定位。
可选的所述装置可以集成在终端中,也可以独立部署,本实施例不作限制。
所述装置中各个单元的功能和作用的实现过程详见上述方法中对应步骤的实现过程在此不再赘述。
相应的,本发明实施例还提供一种服务器,其结构示意图如图9所示,所述服务器9包括:存储器91、收发器92和处理器93,其中,
所述存储器91,用于存储网络中各设备的告警设计及说明文档;
所述收发器92,用于获取所述存储器81存储网络中各设备的告警设计及说明文档,并从告警设计及说明文档中提取告警信息;
所述处理器93,用于建立所述告警信息中的告警名称和告警故障原因之间的对应关系;按照故障定位目标,对所述告警故障原因进行合并分类,得到告警故障原因集合;
所述收发器92,还用于获取现网中告警数据的告警集合;
所述处理器93,还用于建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集合包括:告警名称集合;确定预设时间窗内所述告警集合对应的故障原因发生的概率;选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
可选的,所述处理器按照故障定位目标,对所述告警故障原因合并分类,得到告警故障原因集合包括:按照设备故障定位原则,设定故障定位目标;按照所述故障定位目标,对所述告警故障原因进行合并分类,得到告警故障原因集合。
可选的,所述处理器按照所述故障定位目标对所述告警故障原因进行合并分类,还得到合并分类后的所述告警名称集;所述处理器还用于计算合并分类后的所述告警名称集的关联度,所述关联度用于验证所述合并分类的有效性。
可选的,所述处理器建立所述告警集合和所述告警故障原因集合的对应关系,包括:根据所述告警名称和告警故障原因之间的对应关系,建立所述告警集合和所述告警故障原因集合的二分图。
可选的,所述处理器确定预设时间窗内所述告警集合对应的故障原因发生的概率,包括:计算预设时间窗内告警集合中每种告警发生的概率;计算所述每种告警对应的故障原因发生的概率;根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述预设时间窗内所述告警集合对应的故障原因发生的概率,选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;。
可选的,所述处理器计算预定时间窗内告警集合中每种告警发生的概率包括:使用预定时间窗内的告警发生的频次作为预定时间窗内告警发生的概率。
可选的,所述处理器计算所述每种告警对应的故障原因发生的概率包括:初始化所述每种告警的故障原因发生的概率;在所述预定时间窗内计算并验证所述每种告警的故障原因发生的概率。
可选的,所述处理器计算所述每种告警对应的故障原因发生的概率还包括:更新所述每种告警的对应的故障原因发生的概率。
可选的,所述处理器确定所述预设时间窗内所述告警集合对应的故障原因发生的概率,包括:选取最大故障原因发生的概率或者选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因。
可选的,所述处理器对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位,包括:对所述告警集合的故障原因进行层级合并分类,得到各层的合并原因;逐级向上层计算出故障原因,以完成故障定位目标的层级定位。
相应的,本发明实施例还提供一种终端,所述终端包括:服务器,所述服务器如上述的服务器,包括:存储器和处理器,所述存储器和处理器的功能和作用详见上述,在此不再赘述。
在本发明实施例中,UE可以为以下任意一种,可以是静态的,也可以是移动的,静止的UE具体可以包括为终端(terminal)、移动台(mobile station)、用户单元(subscriber unit)或站台(station)等,移动的UE具体可以包括蜂窝电话(cellularphone)、个人数字助理(PDA,personal digital assistant)、调制解调器(modem),无线通信设备、手持设备(handheld)、笔记本电脑(laptop computer)、无绳电话(cordless phone)或无线本地环路(WLL,wireless local loop)台等,上述UE可以分布于整个无线网络中。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例或者实施例的某些部分所述的方法。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (24)

1.一种故障定位方法,其特征在于,包括:
提取网络中各设备的告警信息,建立所述告警信息中的告警名称和告警故障原因之间的对应关系;
按照故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合;
获取现网中告警数据的告警集合,建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集合包括:告警名称集合;
确定预定时间窗内所述告警集合对应的故障原因发生的概率;
选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;
对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
2.根据权利要求1所述的方法,其特征在于,所述按照故障定位目标,对所述告警故障原因合并分类,得到告警故障原因集合包括:
按照设备故障定位原则,设定故障定位目标;
按照所述故障定位目标,对所述告警故障原因进行合并分类,得到告警故障原因集合。
3.根据权利要求2所述的方法,其特征在于,所述按照所述故障定位目标对所述告警故障原因进行合并分类,还得到告警名称集;所述方法还包括:
计算合所述告警名称集的关联度,所述关联度用于验证所述合并分类的有效性。
4.根据权利要求1所述的方法,其特征在于,所述建立所述告警集合和所述告警故障原因集合的对应关系,包括:
根据所述告警名称和告警故障原因之间的对应关系,建立所述告警集合和所述告警故障原因集合的二分图。
5.根据权利要求1所述的方法,其特征在于,所述确定预定时间窗内所述告警集合对应的故障原因发生的概率,包括:
计算预定时间窗内告警集合中每种告警发生的概率;
计算所述每种告警对应的故障原因发生的概率;
根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述预定时间窗内所述告警集合对应的故障原因发生的概率。
6.根据权利要求5所述的方法,其特征在于,所述计算预定时间窗内告警集合中每种告警发生的概率,包括:
使用预定时间窗内的告警发生的频次作为预设时间窗内告警发生的概率。
7.根据权利要求5所述的方法,其特征在于,所述计算所述每种告警对应的故障原因发生的概率,包括:
初始化所述每种告警的故障原因发生的概率;
在所述预定时间窗内计算并验证所述每种告警的故障原因发生的概率;
更新所述每种告警对应的故障原因发生的概率。
8.根据权利要求1至7任一项所述的方法,其特征在于,所述对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位,包括:
对所述告警集合的故障原因进行层级合并分类,得到各层的合并原因;
逐级向上层计算出故障原因,以完成故障定位目标的层级定位。
9.一种故障定位装置,其特征在于,包括:
提取单元,用于提取网络中各设备的告警信息;
第一建立单元,用于建立所述告警信息中告警名称和告警故障原因之间的对应关系;
处理单元,用于按照故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合;
获取单元,用于获取现网中告警数据的告警集合;
第二建立单元,用于建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集包括:告警名称集合;
确定单元,用于确定预定时间窗内所述告警集合对应的故障原因发生的概率;
选取单元,用于选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;
定位单元,用于对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
10.根据权利要求9所述的装置,其特征在于,所述处理单元包括:
设定单元,用于按照设备故障定位原则,设定故障定位目标;
分类单元,用于按照所述故障定位目标,对所述告警故障原因进行合并分类,得到告警故障原因集合。
11.根据权利要求10所述的装置,其特征在于,
所述分类单元,还用于在按照所述故障定位目标,对所述告警故障原因进行合并分类后,还得到告警名称集;所述装置还包括:
计算单元,用于计算合并分类后的所述告警名称集的关联度,所述关联度用于验证所述合并分类的有效性。
12.根据权利要求9所述的装置,其特征在于,所述第一建立单元,具体用于根据所述告警名称和告警故障原因之间的对应关系,建立所述告警集合和所述告警故障原因集合的二分图。
13.根据权利要求9所述的装置,其特征在于,所述确定单元包括:
第一概率计算单元,用于计算预定时间窗内告警集合中每种告警发生的概率;
第二概率计算单元,用于计算所述每种告警对应的故障原因发生的概率;
概率确定单元,用于根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述预定时间窗内所述告警集合对应的故障原因发生的概率。
14.根据权利要求13所述的装置,其特征在于,
所述第一概率计算单元,具体用于使用预定时间窗内的告警发生的频次作为预设时间窗内告警发生的概率。
15.根据权利要求13所述的装置,其特征在于,所述第二概率计算单元包括:
初始化单元,用于初始化所述每种告警的故障原因发生的概率;
验证单元,用于在所述预定时间窗内计算并验证所述每种告警的故障原因发生的概率;
更新单元,用于更新所述每种告警的对应的故障原因发生的概率。
16.根据权利要求9至15任一项所述的装置,其特征在于,所述定位单元包括:
层级分类单元,用于对所述告警集合的故障原因进行层级合并分类,得到各层的合并原因;
层级定位单元,用于逐级向上层计算出故障原因,以完成故障定位目标的层级定位。
17.一种故障定位装置,其特征在于,包括:
告警信息提取单元,用于提取网络中各设备的告警信息,建立所述告警信息中的告警名称和告警故障原因之间的对应关系;
告警信息处理单元,用于按照故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合;
告警数据处理单元,用于获取告警数据的告警集合,建立所述告警集合和所述告警故障原因集合的对应关系;其中,所述告警集合包括:告警名称集合;确定预定时间窗内所述告警集合对应的故障原因发生的概率;选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因;
故障层级定位单元,用于对所述告警集合的故障原因进行层级合并分类,实现故障原因的层级定位。
18.根据权利要求17所述的装置,其特征在于,所述告警信息处理单元,具体用于按照设备故障定位原则,设定故障定位目标;按照所述故障定位目标对所述告警故障原因进行合并分类,得到告警故障原因集合。
19.根据权利要求18所述的装置,其特征在于,所述告警信息处理单元,在按照所述故障定位目标,对所述告警故障原因进行合并分类,得到合并分类后的所述告警名称集时,还用于计算合并分类后的所述告警名称集的关联度,所述关联度用于验证所述合并分类的有效性。
20.根据权利要求17所述的装置,其特征在于,所述告警数据处理单元建立所述告警集合和所述告警故障原因集合的对应关系,包括:根据所述告警名称和告警故障原因之间的对应关系,建立所述告警集合和所述告警故障原因集合的二分图。
21.根据权利要求17所述的装置,其特征在于,所述告警数据处理单元确定预设时间窗内所述告警集合对应的故障原因发生的概率,包括:计算预设时间窗内告警集合中每种告警发生的概率;计算所述每种告警对应的故障原因发生的概率;根据所述每种告警发生的概率和对应的每种故障原因发生的概率,确定所述预设时间窗内所述告警集合对应的故障原因发生的概率;选取满足预设范围的所述故障原因发生的概率作为所述告警集合的故障原因。
22.根据权利要求21所述的装置,其特征在于,所述告警数据处理单元计算预设时间窗内告警集合中每种告警发生的概率,包括:使用预定时间窗内的告警发生的频次作为预定时间窗内告警发生的概率。
23.根据权利要求21所述的装置,其特征在于,所述告警数据处理单元计算所述每种告警对应的故障原因发生的概率,包括:初始化所述每种告警的故障原因发生的概率;在所述预定时间窗内计算并验证所述每种告警的故障原因发生的概率;更新所述每种告警的对应的故障原因发生的概率。
24.根据权利要求17至23任一项所述的装置,其特征在于,所述故障层级定位单元,具体用于对所述告警集合的故障原因进行层级合并分类,得到各层的合并原因;逐级向上层计算出故障原因,以完成故障定位目标的层级定位。
CN201310467700.7A 2013-10-08 2013-10-08 一种故障定位方法及装置 Pending CN104518905A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201310467700.7A CN104518905A (zh) 2013-10-08 2013-10-08 一种故障定位方法及装置
PCT/CN2014/076867 WO2015051638A1 (zh) 2013-10-08 2014-05-06 一种故障定位方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310467700.7A CN104518905A (zh) 2013-10-08 2013-10-08 一种故障定位方法及装置

Publications (1)

Publication Number Publication Date
CN104518905A true CN104518905A (zh) 2015-04-15

Family

ID=52793677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310467700.7A Pending CN104518905A (zh) 2013-10-08 2013-10-08 一种故障定位方法及装置

Country Status (2)

Country Link
CN (1) CN104518905A (zh)
WO (1) WO2015051638A1 (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106941423A (zh) * 2017-04-13 2017-07-11 腾讯科技(深圳)有限公司 故障原因定位方法及装置
CN107018013A (zh) * 2017-03-10 2017-08-04 京信通信技术(广州)有限公司 一种告警上报方法和设备
CN107690774A (zh) * 2016-12-28 2018-02-13 深圳中兴力维技术有限公司 告警处理方法和装置
CN107918629A (zh) * 2016-10-11 2018-04-17 北京神州泰岳软件股份有限公司 一种告警故障的关联方法和装置
CN109270910A (zh) * 2018-10-31 2019-01-25 重庆长安汽车股份有限公司 一种生产线上的机器人故障分析方法、装置及系统
CN109828857A (zh) * 2018-12-29 2019-05-31 百度在线网络技术(北京)有限公司 车辆故障原因定位方法、装置、设备和存储介质
CN110311932A (zh) * 2018-03-20 2019-10-08 上海鋆锦信息科技有限公司 一种私有云远程控制网关的方法及其装置
CN111352808A (zh) * 2020-03-03 2020-06-30 腾讯云计算(北京)有限责任公司 告警数据处理方法、装置、设备及存储介质
WO2020182051A1 (zh) * 2019-03-08 2020-09-17 华为技术有限公司 识别疑似根因告警的方法、装置及计算机存储介质
CN112015160A (zh) * 2019-05-31 2020-12-01 北京新能源汽车股份有限公司 一种故障温度确定方法及装置
CN112039695A (zh) * 2020-08-19 2020-12-04 朔黄铁路发展有限责任公司肃宁分公司 基于贝叶斯推理的传输网络故障定位方法及装置
CN112352402A (zh) * 2018-07-02 2021-02-09 日本电信电话株式会社 生成装置、生成方法和生成程序
CN112543126A (zh) * 2020-12-22 2021-03-23 武汉联影医疗科技有限公司 云平台监控方法、装置、计算机设备和存储介质
CN113420155A (zh) * 2021-08-25 2021-09-21 深圳市信润富联数字科技有限公司 轮毂缺陷成因预测方法、电子装置、装置及可读存储介质
CN113825162A (zh) * 2020-06-19 2021-12-21 中国移动通信集团设计院有限公司 电信网络故障原因定位方法及装置
CN114285732A (zh) * 2021-12-23 2022-04-05 中国建设银行股份有限公司 一种网络故障定位方法、系统、存储介质及电子设备

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108521346B (zh) * 2018-04-07 2020-06-02 中南大学 一种基于终端数据的电信承载网异常节点定位方法
CN109474483A (zh) * 2019-01-08 2019-03-15 Oppo广东移动通信有限公司 一种设备异常情况的检测方法、检测装置及终端设备
CN110309009B (zh) * 2019-05-21 2022-05-13 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN110135603B (zh) * 2019-05-21 2022-11-11 国网河南省电力公司信息通信公司 一种基于改进熵权法的电力网络告警空间特征分析方法
CN111061616B (zh) * 2019-11-25 2024-03-29 京信网络系统股份有限公司 告警管理方法、装置、通信设备和存储介质
CN111431754A (zh) * 2020-04-13 2020-07-17 广东电网有限责任公司东莞供电局 配用电通信网故障分析方法和系统
CN112003741B (zh) * 2020-08-07 2023-04-07 北京浪潮数据技术有限公司 一种告警数据处理方法、装置、设备及可读存储介质
CN112699005A (zh) * 2020-12-30 2021-04-23 网宿科技股份有限公司 服务器硬件故障监控的方法、电子设备及存储介质
CN113691311B (zh) * 2021-08-27 2022-12-06 中国科学院半导体研究所 光网络的故障定位方法、电子设备及计算机可读存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1553328A (zh) * 2003-06-08 2004-12-08 华为技术有限公司 基于故障树分析的系统故障定位方法及装置
CN1878322A (zh) * 2005-09-27 2006-12-13 华为技术有限公司 故障定位的方法及装置
CN101360013A (zh) * 2008-09-25 2009-02-04 烽火通信科技股份有限公司 一种基于相关性分析的传输网通用快速故障定位方法
CN101917297A (zh) * 2010-08-30 2010-12-15 烽火通信科技股份有限公司 基于贝叶斯网络的核心网故障诊断方法及系统
WO2011017955A1 (zh) * 2009-08-10 2011-02-17 中兴通讯股份有限公司 一种告警数据分析的方法及其系统
CN102255764A (zh) * 2011-09-02 2011-11-23 广东省电力调度中心 传输网故障诊断方法及装置
CN102291247A (zh) * 2010-06-18 2011-12-21 中兴通讯股份有限公司 告警关联图生成方法、装置及关联告警确定方法、装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1553328A (zh) * 2003-06-08 2004-12-08 华为技术有限公司 基于故障树分析的系统故障定位方法及装置
CN1878322A (zh) * 2005-09-27 2006-12-13 华为技术有限公司 故障定位的方法及装置
CN101360013A (zh) * 2008-09-25 2009-02-04 烽火通信科技股份有限公司 一种基于相关性分析的传输网通用快速故障定位方法
WO2011017955A1 (zh) * 2009-08-10 2011-02-17 中兴通讯股份有限公司 一种告警数据分析的方法及其系统
CN102291247A (zh) * 2010-06-18 2011-12-21 中兴通讯股份有限公司 告警关联图生成方法、装置及关联告警确定方法、装置
CN101917297A (zh) * 2010-08-30 2010-12-15 烽火通信科技股份有限公司 基于贝叶斯网络的核心网故障诊断方法及系统
CN102255764A (zh) * 2011-09-02 2011-11-23 广东省电力调度中心 传输网故障诊断方法及装置

Cited By (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107918629A (zh) * 2016-10-11 2018-04-17 北京神州泰岳软件股份有限公司 一种告警故障的关联方法和装置
CN107918629B (zh) * 2016-10-11 2020-09-04 北京神州泰岳软件股份有限公司 一种告警故障的关联方法和装置
CN107690774A (zh) * 2016-12-28 2018-02-13 深圳中兴力维技术有限公司 告警处理方法和装置
CN107690774B (zh) * 2016-12-28 2019-01-15 深圳力维智联技术有限公司 告警处理方法和装置
CN107018013B (zh) * 2017-03-10 2020-06-23 京信通信系统(中国)有限公司 一种告警上报方法和设备
CN107018013A (zh) * 2017-03-10 2017-08-04 京信通信技术(广州)有限公司 一种告警上报方法和设备
CN106941423B (zh) * 2017-04-13 2018-06-05 腾讯科技(深圳)有限公司 故障原因定位方法及装置
CN106941423A (zh) * 2017-04-13 2017-07-11 腾讯科技(深圳)有限公司 故障原因定位方法及装置
CN110311932A (zh) * 2018-03-20 2019-10-08 上海鋆锦信息科技有限公司 一种私有云远程控制网关的方法及其装置
CN112352402A (zh) * 2018-07-02 2021-02-09 日本电信电话株式会社 生成装置、生成方法和生成程序
CN112352402B (zh) * 2018-07-02 2023-03-28 日本电信电话株式会社 生成装置、生成方法和记录介质
CN109270910A (zh) * 2018-10-31 2019-01-25 重庆长安汽车股份有限公司 一种生产线上的机器人故障分析方法、装置及系统
CN109828857A (zh) * 2018-12-29 2019-05-31 百度在线网络技术(北京)有限公司 车辆故障原因定位方法、装置、设备和存储介质
CN109828857B (zh) * 2018-12-29 2022-07-05 百度在线网络技术(北京)有限公司 车辆故障原因定位方法、装置、设备和存储介质
WO2020182051A1 (zh) * 2019-03-08 2020-09-17 华为技术有限公司 识别疑似根因告警的方法、装置及计算机存储介质
CN112015160A (zh) * 2019-05-31 2020-12-01 北京新能源汽车股份有限公司 一种故障温度确定方法及装置
CN111352808A (zh) * 2020-03-03 2020-06-30 腾讯云计算(北京)有限责任公司 告警数据处理方法、装置、设备及存储介质
CN113825162A (zh) * 2020-06-19 2021-12-21 中国移动通信集团设计院有限公司 电信网络故障原因定位方法及装置
CN112039695A (zh) * 2020-08-19 2020-12-04 朔黄铁路发展有限责任公司肃宁分公司 基于贝叶斯推理的传输网络故障定位方法及装置
CN112543126A (zh) * 2020-12-22 2021-03-23 武汉联影医疗科技有限公司 云平台监控方法、装置、计算机设备和存储介质
CN113420155A (zh) * 2021-08-25 2021-09-21 深圳市信润富联数字科技有限公司 轮毂缺陷成因预测方法、电子装置、装置及可读存储介质
CN114285732A (zh) * 2021-12-23 2022-04-05 中国建设银行股份有限公司 一种网络故障定位方法、系统、存储介质及电子设备

Also Published As

Publication number Publication date
WO2015051638A1 (zh) 2015-04-16

Similar Documents

Publication Publication Date Title
CN104518905A (zh) 一种故障定位方法及装置
WO2019184557A1 (zh) 定位根因告警的方法、装置和计算机可读存储介质
EP2863309B1 (en) Contextual graph matching based anomaly detection
CN106940679A (zh) 数据处理方法及装置
CN109189736B (zh) 一种告警关联规则的生成方法和装置
CN108038049A (zh) 实时日志控制系统及控制方法、云计算系统及服务器
CN101997709B (zh) 一种根告警数据分析的方法及其系统
CN101188523A (zh) 告警相关性规则的生成方法及生成系统
CN106570513A (zh) 大数据网络系统的故障诊断方法和装置
CN103761173A (zh) 一种基于日志的计算机系统故障诊断方法及装置
CN104462115A (zh) 垃圾短信的识别方法及装置
CN114785666B (zh) 一种网络故障排查方法与系统
CN113497726B (zh) 告警监控方法、系统、计算机可读存储介质及电子设备
CN104850901A (zh) 一种基于多模型预测瓦斯浓度的软测量方法及系统
CN106650297A (zh) 一种无领域知识的卫星分系统异常检测方法
CN103208039A (zh) 软件项目风险评价方法及装置
CN105099759A (zh) 一种检测方法及装置
CN109993390B (zh) 告警关联及派单优化方法、装置、设备及介质
CN111538741A (zh) 一种面向警情大数据的深度学习分析方法及系统
CN111078512A (zh) 告警记录生成方法、装置、告警设备及存储介质
CN104021180A (zh) 一种组合式软件缺陷报告分类方法
Zhang et al. A real-time anomaly detection algorithm/or water quality data using dual time-moving windows
CN105096101A (zh) 基于lda模型及中心度算法的邮件网络取证分析方法
CN111628888B (zh) 一种故障诊断方法、装置、设备及计算机存储介质
CN107666403A (zh) 一种指标数据的获取方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20150415

RJ01 Rejection of invention patent application after publication