CN100586202C - 故障定位的方法及装置 - Google Patents

故障定位的方法及装置 Download PDF

Info

Publication number
CN100586202C
CN100586202C CN200510105558A CN200510105558A CN100586202C CN 100586202 C CN100586202 C CN 100586202C CN 200510105558 A CN200510105558 A CN 200510105558A CN 200510105558 A CN200510105558 A CN 200510105558A CN 100586202 C CN100586202 C CN 100586202C
Authority
CN
China
Prior art keywords
alarm
correlation
source
type
current
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN200510105558A
Other languages
English (en)
Other versions
CN1878322A (zh
Inventor
张蕾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN200510105558A priority Critical patent/CN100586202C/zh
Publication of CN1878322A publication Critical patent/CN1878322A/zh
Application granted granted Critical
Publication of CN100586202C publication Critical patent/CN100586202C/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明公开了一种故障定位的方法和装置,该方法的核心为:首先,根据告警分析因素配置告警相关性数据;然后,基于配置的告警相关性数据对告警信息进行相关性分析,确定源告警;最后,根据确定的源告警进行故障定位处理。采用本发明所述的方法及装置,能够从大量的告警数据中迅速找到源告警,确定告警源,因此告警分析速度快,从而提高故障定位的效率;告警分析过程通过软件完成,出现遗漏、错误的可能性较小,因此告警分析数据可靠,从而提高了故障定位的准确性,而且大大降低了维护人员的工作量。

Description

故障定位的方法及装置
技术领域
本发明涉及通信技术领域,尤其涉及一种通讯设备中故障定位的方法及装置。
背景技术
当通讯设备发生故障时,首先需要进行故障定位,然后才能排除故障使设备恢复正常运行。因此,当通讯设备发生故障时,快速而准确地进行故障定位是非常重要的。
故障定位首先要对通讯设备发生故障时会产生的告警进行分析,然后根据分析的告警数据进行故障定位。
因此,在通讯设备的操作维护中心,当产生设备告警时,对告警进行的管理是一个非常重要的功能,清晰而且及时的告警数据可以帮助维护人员迅速进行故障定位。
目前的告警分析,都是由操作维护人员根据经验来完成的。然而在实际应用中往往一个设备出现故障会引发相关的很多设备也出现故障,造成大量的告警随之产生。因此,从大量的告警数据中迅速获得最有用的一条告警信息,或者说怎样从大量的告警数据中迅速找到告警产生的根源或来源,基于人为进行告警分析的故障定位的方式就存在如下缺点:
1、告警分析速度慢,导致故障定位的效率低下;
2、由于维护人员的经验、素质等方面存在差异,人为进行告警分析难免会出现遗漏、错误,告警分析数据不可靠,导致故障定位的准确性差;
3、人为进行告警分析的工作量大。
发明内容
鉴于上述现有技术所存在的问题,本发明的目的是提供一种故障定位的方法及装置,能够提高故障定位的效率和准确性,降低告警分析的工作量。
本发明的目的是通过以下技术方案实现的:
本发明提供了一种故障定位的方法,包括如下步骤:
A、根据告警分析因素配置告警相关性数据,所述的告警分析因素包括:告警类型和告警源和告警时间窗,所述的告警相关性数据包括:告警类型相关性和告警源相关性和告警时间窗;
B、基于配置的告警相关性数据对告警信息进行相关性分析,确定源告警,所述的步骤B包括:B1、选取一条告警类型已确定的告警信息作为当前告警;B2、根据配置的告警相关性数据判断是否存在与所述当前告警类型相关的告警,即当前告警的类型相关性告警,若不存在与所述当前告警类型相关的告警,则将所述当前告警确定为源告警;B21、若存在与所述当前告警类型相关的告警,根据配置的告警相关性数据判断所述当前告警与所述类型相关性告警之间是否存在告警源相关性,若所述当前告警与所述类型相关性告警之间不存在告警源相关性,则将所述当前告警确定为源告警;
C、根据确定的源告警进行故障定位处理。
所述的步骤B21还包括:
B211、若所述当前告警与所述类型相关性告警之间存在告警源相关性,根据配置的告警相关性数据判断所述当前告警与所述类型相关性告警的时间差是否超过告警时间窗限定的时间长度,若所述当前告警与所述类型相关性告警的时间差超过告警时间窗限定的时间长度,则将所述当前告警确定为源告警。
所述的步骤B211还包括:
若所述当前告警与所述类型相关性告警的时间差没有超过告警时间窗限定的时间长度,则将所述类型相关性告警作为当前告警,并执行所述步骤B2。
本发明还提供了一种故障定位的装置,包括:
告警相关性数据存储模块、源告警确定模块和故障定位模块;
所述告警相关性数据存储模块,用于存储根据告警分析因素配置的告警相关性数据,所述的告警分析因素包括:告警类型和告警源和告警时间窗,所述的告警相关性数据包括:告警类型相关性和告警源相关性和告警时间窗;
所述源告警确定模块,用于根据配置的告警相关性数据对告警信息进行相关性分析,确定源告警;
所述的源告警确定模块包括:类型相关性判断子模块,用于根据配置的告警相关性数据判断是否存在与当前告警类型相关的告警,即当前告警的类型相关性告警,若不存在与当前告警类型相关的告警,则将当前告警确定为源告警;源相关性判断子模块,用于当所述类型相关性判断子模块的判断结果为存在与当前告警类型相关的告警时,根据配置的告警相关性数据判断当前告警与类型相关性告警之间是否存在告警源相关性,若当前告警与类型相关性告警之间不存在告警源相关性,则将当前告警确定为源告警;
所述故障定位模块,用于根据所述源告警确定模块确定的源告警进行故障定位处理。
所述的源告警确定模块还包括:
告警时间差判断子模块,用于当所述源相关性判断子模块的判断结果为当前告警与类型相关性告警之间存在告警源相关性时,根据配置的告警相关性数据判断当前告警与类型相关性告警的时间差是否超过告警时间窗限定的时间长度,若当前告警与类型相关性告警的时间差超过告警时间窗限定的时间长度,则将当前告警确定为源告警。
由上述本发明提供的技术方案可以看出,采用本发明所述的方法及装置具有如下优点:
1、能够从大量的告警数据中迅速找到源告警,确定告警源,因此告警分析速度快,从而提高故障定位的效率;
2、告警分析过程通过软件完成,出现遗漏、错误的可能性较小,因此告警分析数据可靠,从而提高了故障定位的准确性,而且大大降低了维护人员的工作量;
3、利于迅速、准确地排除故障;
4、本发明实现方法简单易行,完全可以通过软件实现,能够很好地兼容现有设备,硬件实现成本很低。
附图说明
图1为本发明所述的方法的流程图;
图2为本发明所述的装置的结构示意图。
具体实施方式
本发明的核心思想是:首先,根据告警分析因素配置告警相关性数据;然后,基于配置的告警相关性数据对告警信息进行相关性分析,确定源告警;并根据确定的源告警进行故障定位处理。
本发明中的告警分析因素包括但不限于告警类型、告警源及告警时间窗,可以根据需要进行扩展,在告警分析过程中增加其他因素的分析步骤。
下面以告警类型、告警源及告警时间窗这三个告警分析因素为例说明本发明的技术方案。
为了实施本发明的技术方案,需要将告警相关性数据预先配置于告警系统中。
静态配置于告警系统中的告警相关性数据包括:告警类型相关性、告警源相关性和告警时间窗。
为了更好地理解本发明的技术方案,下面再对与本发明有关的一些主要术语进行说明:
告警类型:按照告警某一方面的特性或现象抽象出的共同点对告警进行的分类。
比如,单板故障告警、机架故障告警,等等。
告警源:指告警产生的根源或来源。
比如,机架中的单板发生故障造成的告警,那么,机架中的单板故障就是告警源。
源告警:指原始告警事件,源告警有可能触发其他一系列告警事件,也可能不触发其他告警事件。
衍生告警:由原始告警事件触发的其他告警事件。
比如,单板故障告警引起了机架故障告警,那么,单板故障告警就是源告警,机架故障告警就是衍生告警。
告警相关性:指告警之间存在某种联系或者牵涉,并且会造成告警间的因果关系。
如果两个告警之间存在相关性,那么,这两个告警中有一个是源告警,另一个是衍生告警。
告警类型相关性:指不同类型的告警之间存在某种联系或者牵涉,并且会造成告警间的因果关系。
比如,单板故障告警可能会引发机架故障告警,因此,单板故障告警和机架故障告警之间存在告警类型的相关性。
告警源相关性:指不同告警源之间存在某种联系或者牵涉,并且会造成告警间的因果关系,包括但不限于告警源的同一关系、告警源的包含关系、告警源的引用关系。
比如,同时发生了单板故障告警和机架故障告警,那么单板故障告警和机架故障告警之间是否存在告警源的相关性,除了判断这两个告警之间存在告警类型相关性,还要判断发生告警的单板是否属于发生告警的机架,如果是,则单板故障告警和机架故障告警之间存在告警源的相关性,而且属于包含关系的告警源相关性;否则,单板故障告警和机架故障告警之间不存在告警源的相关性。
告警时间窗:衡量告警时间差的长度单位,可以根据实际需要自行设定。
利用预先配置的告警相关性数据进行告警相关性分析的方法是:
首先选择一条告警作为当前告警进行分析,判断是否存在与当前告警类型相关的告警;
如果当前告警存在告警类型相关性告警,则需要进一步判断这两条告警是否存在告警源相关性;
如果这两条告警存在告警源相关性,则需要进一步判断这两条告警的告警时间差是否落在告警时间窗内;
如果这两条告警的告警时间差落在了告警时间窗内,则认为这两条告警为相关性告警,即类型相关性告警是当前告警的源告警,当前告警是类型相关性告警的衍生告警。
为对本发明有进一步的了解,下面将结合附图对本发明所述的方法进行详细的说明。
本发明所述方法的具体实现方式如图1所示,包括以下步骤:
步骤11:在众多的告警类型已确定的告警信息中选取一条重要的告警信息作为当前告警进行告警相关性分析。
步骤12:根据预先配置在告警系统中的告警相关性数据判断是否存在与当前告警类型相关的告警。
如果在现有的告警信息中存在与当前告警的类型相关的告警(将该告警称为:当前告警的类型相关性告警),则执行步骤13;
否则,认为当前告警与其他告警之间不存在任何相关性,执行步骤16。
比如,当前告警类型为机架故障告警,在现有的告警信息中存在单板故障告警信息,由于单板故障告警与机架故障告警属于类型相关性告警,因此,当前告警存在类型相关性告警。
步骤13:根据预先配置的告警相关性数据判断当前告警与其类型相关性告警之间是否存在告警源相关性。
如果当前告警与其类型相关性告警之间存在告警源相关性,则执行步骤14;否则,认为当前告警与其他告警之间不存在相关性,执行步骤16。
仍以当前告警为机架故障告警,类型相关性告警为单板故障告警为例,说明如何判断当前告警与其类型相关性告警之间是否存在源相关性。
判断发生告警的单板是否属于发生告警的机架,如果是,则单板故障告警和机架故障告警之间存在告警源相关性;否则,单板故障告警和机架故障告警之间不存在告警源相关性。
步骤14:根据预先配置的告警相关性数据判断当前告警与其类型相关性告警的告警时间差是否落在告警时间窗内。
如果当前告警与其类型相关性告警的告警时间差落在告警时间窗内,即告警时间差没有超过告警时间窗限定的时间长度,则认为当前告警与其类型相关性告警之间存在相关性,这两条告警属于相关告警,即当前告警的类型相关性告警是当前告警的源告警,反之,当前告警是其类型相关性告警的衍生告警,因此,当前告警不是引发故障的原始原因,将其排除,并执行步骤15;
如果当前告警与其类型相关性告警的告警时间差没有落在告警时间窗内,即告警时间差超过了告警时间窗限定的时间长度,则认为当前告警与其他告警之间不存在相关性,执行步骤16。
仍以当前告警为机架故障告警,其类型相关性告警为单板故障告警为例,说明如何判断当前告警与其类型相关性告警之间是否存在相关性。
由于机架中的单板数量不只一个,所以虽然这两条告警之间存在告警源相关性,但仍然不能确定该机架故障告警就是由该单板故障告警引起的,因此,还需要判断这两条告警的时间差,如果告警时间差落在预先设定的告警时间窗内,则认为这两条告警为相关性告警,该机架故障告警就是由该单板故障告警引起的,因此,机架故障告警是单板故障告警的衍生告警,不是引发故障的真正原因,将其排除,然后需要继续对其源告警,即单板故障告警进行告警相关性分析,再找出其源告警。
步骤15:将当前告警的类型相关性告警作为当前告警,并返回步骤12,继续对该告警(即类型相关性告警)进行告警相关性分析,找出该告警的源告警,直到找出最终的源告警,即所有告警的源告警。
步骤16:确定当前告警为源告警,并执行步骤17。
当源告警确定后,也就找到了引发故障的原始原因,告警分析过程结束。
当然,在实际应用中,引发故障的原始原因可能不只一个,此时,需要重复进行告警分析的过程,直到将引发故障的所有原始原因全部找到。
步骤17:根据确定为源告警的当前告警进行故障定位。
故障定位后,就可以排除故障,从而使设备恢复正常运行,使业务得到恢复。
本发明还提供了一种故障定位的装置,包括:告警相关性数据存储模块、源告警确定模块和故障定位模块,如图2所示。各模块功能如下:
告警相关性数据存储模块的功能为:
存储根据告警分析因素配置的告警相关性数据。
所述故障定位模块,用于根据所述源告警确定模块确定的源告警进行故障定位处理。
源告警确定模块的功能为:
根据配置的告警相关性数据对告警信息进行相关性分析,确定源告警。
故障定位模块的功能为:
根据源告警确定模块确定的源告警进行故障定位处理。
其中,源告警确定模块的功能由类型相关性判断子模块、源相关性判断子模块和告警时间差判断子模块完成;
类型相关性判断子模块的功能为:
根据预先配置的告警相关性数据判断是否存在与当前告警类型相关的告警,若不存在与当前告警类型相关的告警,则将当前告警确定为源告警。
源相关性判断子模块的功能为:
当类型相关性判断子模块的判断结果为存在与当前告警类型相关的告警时,根据预先配置的告警相关性数据判断当前告警与类型相关性告警之间是否存在告警源相关性,若当前告警与类型相关性告警之间不存在告警源相关性,则将当前告警确定为源告警。
告警时间差判断子模块的功能为:
当源相关性判断子模块的判断结果为当前告警与类型相关性告警之间存在告警源相关性时,根据预先配置的告警相关性数据判断当前告警与类型相关性告警的时间差是否落在告警时间窗内,若当前告警与类型相关性告警的时间差没有落在告警时间窗内,则将当前告警确定为源告警。
综上所述,采用本发明所述的方法及系统,能够从大量的告警数据中迅速找到源告警,确定告警源,因此告警分析速度快,从而提高故障定位的效率;告警分析过程通过软件完成,出现遗漏、错误的可能性较小,因此告警分析数据可靠,从而提高了故障定位的准确性,而且大大降低了维护人员的工作量。
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应该以权利要求的保护范围为准。

Claims (5)

1、一种故障定位的方法,其特征在于,包括如下步骤:
A、根据告警分析因素配置告警相关性数据,所述的告警分析因素包括:告警类型和告警源和告警时间窗,所述的告警相关性数据包括:告警类型相关性和告警源相关性和告警时间窗;
B、基于配置的告警相关性数据对告警信息进行相关性分析,确定源告警;
所述步骤B包括:B1、选取一条告警类型已确定的告警信息作为当前告警;B2、根据配置的告警相关性数据判断是否存在与所述当前告警类型相关的告警,即当前告警的类型相关性告警,若不存在与所述当前告警类型相关的告警,则将所述当前告警确定为源告警;B21、若存在与所述当前告警类型相关的告警,根据配置的告警相关性数据判断所述当前告警与所述类型相关性告警之间是否存在告警源相关性,若所述当前告警与所述类型相关性告警之间不存在告警源相关性,则将所述当前告警确定为源告警;
C、根据确定的源告警进行故障定位处理。
2、根据权利要求1所述的方法,其特征在于,所述的步骤B21还包括:
B211、若所述当前告警与所述类型相关性告警之间存在告警源相关性,根据配置的告警相关性数据判断所述当前告警与所述类型相关性告警的时间差是否超过告警时间窗限定的时间长度,若所述当前告警与所述类型相关性告警的时间差超过告警时间窗限定的时间长度,则将所述当前告警确定为源告警。
3、根据权利要求2所述的方法,其特征在于,所述的步骤B211还包括:
若所述当前告警与所述类型相关性告警的时间差没有超过告警时间窗限定的时间长度,则将所述类型相关性告警作为当前告警,并执行所述步骤B2。
4、一种故障定位的装置,其特征在于,包括:告警相关性数据存储模块、源告警确定模块和故障定位模块;
所述告警相关性数据存储模块,用于存储根据告警分析因素配置的告警相关性数据,所述的告警分析因素包括:告警类型和告警源和告警时间窗,所述的告警相关性数据包括:告警类型相关性和告警源相关性和告警时间窗;
所述源告警确定模块,用于根据配置的告警相关性数据对告警信息进行相关性分析,确定源告警;
所述源告警确定模块包括:类型相关性判断子模块,用于根据配置的告警相关性数据判断是否存在与当前告警类型相关的告警,即当前告警的类型相关性告警,若不存在与当前告警类型相关的告警,则将当前告警确定为源告警;源相关性判断子模块,用于当所述类型相关性判断子模块的判断结果为存在与当前告警类型相关的告警时,根据配置的告警相关性数据判断当前告警与类型相关性告警之间是否存在告警源相关性,若当前告警与类型相关性告警之间不存在告警源相关性,则将当前告警确定为源告警;
所述故障定位模块,用于根据所述源告警确定模块确定的源告警进行故障定位处理。
5、根据权利要求4所述的装置,其特征在于,所述的源告警确定模块还包括:
告警时间差判断子模块,用于当所述源相关性判断子模块的判断结果为当前告警与类型相关性告警之间存在告警源相关性时,根据配置的告警相关性数据判断当前告警与类型相关性告警的时间差是否超过告警时间窗限定的时间长度,若当前告警与类型相关性告警的时间差超过告警时间窗限定的时间长度,则将当前告警确定为源告警。
CN200510105558A 2005-09-27 2005-09-27 故障定位的方法及装置 Expired - Fee Related CN100586202C (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN200510105558A CN100586202C (zh) 2005-09-27 2005-09-27 故障定位的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200510105558A CN100586202C (zh) 2005-09-27 2005-09-27 故障定位的方法及装置

Publications (2)

Publication Number Publication Date
CN1878322A CN1878322A (zh) 2006-12-13
CN100586202C true CN100586202C (zh) 2010-01-27

Family

ID=37510584

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200510105558A Expired - Fee Related CN100586202C (zh) 2005-09-27 2005-09-27 故障定位的方法及装置

Country Status (1)

Country Link
CN (1) CN100586202C (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101335643B (zh) * 2008-08-06 2010-12-08 烽火通信科技股份有限公司 用于sdh设备告警相关性分析的方法及装置
CN101360013B (zh) * 2008-09-25 2011-05-04 烽火通信科技股份有限公司 一种基于相关性分析的传输网通用快速故障定位方法
US8495424B1 (en) 2009-04-30 2013-07-23 Bank Of America Corporation Self-service terminal portal management
US8161330B1 (en) * 2009-04-30 2012-04-17 Bank Of America Corporation Self-service terminal remote diagnostics
CN101931964A (zh) * 2009-06-18 2010-12-29 中兴通讯股份有限公司 一种获取告警解决方案的方法及装置
WO2012106914A1 (zh) * 2011-07-22 2012-08-16 华为技术有限公司 动态隧道故障诊断方法及设备和系统
CN104518905A (zh) * 2013-10-08 2015-04-15 华为技术有限公司 一种故障定位方法及装置
CN106685694B (zh) * 2016-11-24 2020-05-08 国家电网公司 一种信息系统告警相关性分析方法及系统
CN111258798A (zh) * 2020-01-14 2020-06-09 平安壹钱包电子商务有限公司 监控数据的故障定位方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN1878322A (zh) 2006-12-13

Similar Documents

Publication Publication Date Title
CN100586202C (zh) 故障定位的方法及装置
CN110888783A (zh) 微服务系统的监测方法、装置以及电子设备
US11322013B2 (en) Monitoring method of MES, monitoring device, and readable storage medium
CN105549508B (zh) 一种基于信息合并的报警方法及装置
CN105659528A (zh) 一种实现故障定位的方法及装置
CN110333995A (zh) 对工业设备运行状态进行监测的方法及装置
CN109698763A (zh) 一种巡检的方法、装置及计算机可读存储介质
CN104574219A (zh) 电网业务信息系统运行工况的监测预警方法及系统
WO2022252860A1 (zh) 一种事件处理方法、装置、计算机设备及存储介质
CN101668012A (zh) 安全事件检测方法及装置
CN104243192B (zh) 故障处理方法及系统
CN104219193A (zh) 安全事件关联分析方法及系统
CN101252477A (zh) 一种网络故障根源的确定方法及分析装置
CN103067101B (zh) 通信终端测试监控方法和装置
CN114500178B (zh) 一种自运维的智慧物联网关
CN108170825B (zh) 基于云平台的分布式能源数据监控清洗方法
KR101288535B1 (ko) 통신 시스템 모니터링 방법 및 이를 위한 장치
CN114896096A (zh) 基于图像识别算法的数据中心设备故障预测系统及方法
CN116011984B (zh) 一种高速公路机电系统的监测运维方法及装置
CN116582410B (zh) 一种基于itsm系统的智能运维服务方法及装置
CN116204386B (zh) 应用服务关系自动识别及监控方法、系统、介质和设备
CN102843246A (zh) 倒换系统测试评估方法和装置
CN113077061B (zh) 一种基于生产数据挖掘的设备预测性维护系统
KR101104563B1 (ko) 시스로그 정보를 활용한 에스오피 관리 시스템 및 그 방법
KR20010019092A (ko) 교환시스템에서의 교환기 집중 운용 관리 방법

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20100127

CF01 Termination of patent right due to non-payment of annual fee