CN101217592B - 用于告警风暴抑制的方法及系统 - Google Patents

用于告警风暴抑制的方法及系统 Download PDF

Info

Publication number
CN101217592B
CN101217592B CN2008100027297A CN200810002729A CN101217592B CN 101217592 B CN101217592 B CN 101217592B CN 2008100027297 A CN2008100027297 A CN 2008100027297A CN 200810002729 A CN200810002729 A CN 200810002729A CN 101217592 B CN101217592 B CN 101217592B
Authority
CN
China
Prior art keywords
alarm
windstorm
rule
sub
processor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN2008100027297A
Other languages
English (en)
Other versions
CN101217592A (zh
Inventor
江有志
赵化冰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN2008100027297A priority Critical patent/CN101217592B/zh
Publication of CN101217592A publication Critical patent/CN101217592A/zh
Application granted granted Critical
Publication of CN101217592B publication Critical patent/CN101217592B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了用于告警风暴抑制的方法,包括以下步骤:在告警上报到网管系统后,将告警传送给告警风暴抑制规则处理器进行处理,并使用后台线程定时查看告警风暴抑制规则处理器中的告警计数器,根据时域判断标准判断告警风暴是否发生;如果发生告警风暴,则启动子规则处理器抑制告警风暴,执行告警风暴抑制任务;以及根据时域判断标准判断告警风暴是否停止,如果告警风暴停止,则暂停子规则处理器并恢复在先产生的告警风暴告警。本发明还公开了用于告警风暴抑制的系统,包括告警风暴抑制规则处理器和子规则处理器。通过本发明实现了网管系统对告警风暴的自适应处理能力。

Description

用于告警风暴抑制的方法及系统
技术领域
本发明涉及网管系统,更具体地,涉及用于告警风暴抑制的方法及系统。
背景技术
告警管理作为TMN体系结构提供的重要管理功能之一,其稳定性直接影响到整个网管系统的稳定,而对告警管理模块的稳定性与处理效率影响最大的莫过于告警风暴。当告警风暴来到时会大量消耗系统资源,导致网管系统反映迟缓甚至崩溃。告警风暴对任何一个网管系统都是应该面对的问题,如果没有有效的处理方法,告警风暴会带来无可挽回的损失。
当前在我们的网管系统中对于告警风暴的处理方法主要是采用用户定制告警抑制规则的方式来抑制某种类型的告警,使指定类型的告警上报到网管后直接被抛弃或者只保存到数据库而并不显示到客户端,这种方法存在以下缺陷:只能依靠经验对事先已知可能造成告警风暴的告警进行屏蔽,对于未知类型的告警无能为力,当告警风暴来临时系统已经来不及做出反应;以及屏蔽的时候只根据告警的类型而没有考虑其发生频率,每秒100条和每100秒一条的情况都会被屏蔽,有可能屏蔽某些正常的告警。
发明内容
考虑到上述问题而做出本发明,为此,本发明的主要目的在于,提供一种用于告警风暴抑制的方法及系统。
根据本发明的用于告警风暴抑制的方法,包括以下步骤:步骤S102,在告警上报到网管系统后,将告警传送给告警风暴抑制规则处理器进行处理,并使用后台线程定时查看告警风暴抑制规则处理器中的告警计数器,根据时域判断标准判断告警风暴是否发生;步骤S104,如果发生告警风暴,则启动子规则处理器抑制告警风暴,执行告警风暴抑制任务;以及步骤S106,根据时域判断标准判断告警风暴是否停止,如果告警风暴停止,则暂停子规则处理器并恢复在先产生的告警风暴告警,恢复正常处理。
此外,在该方法中,告警风暴抑制规则处理器根据告警风暴抑制规则进行处理,其中,告警风暴抑制规则包括:告警条件,利用告警的属性判断满足告警的相似条件,如果两条告警的所有属性都相同,则认为两条告警相似,其中,如果大量上报相似告警,则认为告警风暴出现;以及子规则类型,其中,子规则处理器利用子规则类型来抑制告警风暴。
此外,在该方法中,通过以下子规则类型中的一种执行告警风暴抑制任务:告警清除,用于对设备上报的告警信息进行自动筛选和处理,将符合条件的告警自动清除,只将其作为历史告警数据存储;告警屏蔽,在设备支持的前提下,要求前台设备上报告警时根据预定条件屏蔽部分告警,不再进行上报;以及告警过滤,用于使一些告警对所有用户不可见,减小用户需要关心的告警数据量。
此外,在该方法中,告警过滤包括显示过滤和入库过滤,其中,显示过滤是指符合匹配条件的告警只存入数据库,不显示在客尸端界面上,其中,显示过滤设置为对所有用户生效或仅对当前用户生效;入库过滤是指符合匹配条件的告警既不存入数据库也不显示在客户端界面上,而是直接丢弃。
此外,在该方法的步骤S102中,在告警传送给告警风暴抑制规则处理器进行处理之前,判断告警是否满足告警的相似条件,如果满足相似条件,则更新告警计数器。
此外,在该方法的步骤S104中,还包括,上报一条告警来提醒用户告警风暴发生。
此外,在该方法中,后台线程包括以下处理:步骤S202,查看告警计数器,判断告警计数器的频率是否一直高于门限值;步骤S204,如果告警频率一直高于门限值,则判断子规则处理器是否存在并且是否处于激活状态,根据判断结果进行相应处理;以及步骤S206,如果告警频率未一直高于门限值,则判断是否创建并处于激活状态的子规则处理器,如存在,则暂停该子规则处理器并恢复之前产生的告警,如不存在,则不做任何处理。
此外,在该方法的步骤S204中,根据判断结果进行的相应处理包括:如果不存在子规则处理器,则新建一个子规则处理器并激活,之后子规则处理器进行告警风暴抑制的任务,同时产生一条新的告警;如果存在子规则处理器但是未处于激活状态,则将子规则处理器激活,同样产生一条新的告警;以及如果存在子规则处理器且处于激活状态,则更新告警信息。
根据本发明的用于告警风暴抑制系统,包括:告警风暴抑制规则处理器,其中,告警风暴抑制规则处理器包含一个计数器,告警上报后会被送到告警风暴抑制规则处理器,告警风暴抑制规则处理器利用计数器记录告警发生的频率以及持续时间,判断告警风暴是否到来,其中,当告警风暴到来时启动子规则处理器,当告警风暴停止时暂停子规则处理器;以及子规则处理器,由告警风暴抑制规则处理器管理,其中,当子规则处理器被激活时对送入的风暴告警进行抑制,不再发送到告警处理模块,执行告警风暴抑制任务。
此外,在该系统中,子规则处理器包括告警清除处理器、告警屏蔽处理器、告警过滤处理器、事件过滤处理器、以及通知过滤处理器,其中,子规则处理器还用于过滤告警。
通过本发明的上述方面,实现了网管系统对告警风暴的自适应处理能力;使网管系统能根据实际情况而非管理人员的经验来处理告警风暴,增加了处理的准确性;可根据告警风暴的不同类型定制处理方案,保证对系统进行全面的保护;同一种类型的风暴可以有多种不同的处理方案,灵活多变。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是示出了根据本发明实施例的告警风暴抑制方法的流程图;
图2是示出了根据本发明实施例的告警风暴抑制系统的结构示意图;
图3是示出了根据本发明实施例的告警风暴抑制规则告警处理的流程图;以及
图4是示出了根据本发明实施例的告警风暴抑制规则后台处理线程的流程图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
图1是示出了根据本发明实施例的告警风暴抑制方法的流程图。
如图1所示,包括以下步骤:步骤S102,在告警上报到网管系统后,将告警传送给告警风暴抑制规则处理器进行处理,并使用后台线程定时查看告警风暴抑制规则处理器中的告警计数器,根据时域判断标准判断告警风暴是否发生;步骤S104,如果发生告警风暴,则启动子规则处理器抑制告警风暴,执行告警风暴抑制任务;以及步骤S106,根据时域判断标准判断告警风暴是否停止,如果告警风暴停止,则暂停子规则处理器并恢复在先产生的告警风暴告警,恢复正常处理。
此外,在该方法中,告警风暴抑制规则处理器根据告警风暴抑制规则进行处理,其中,告警风暴抑制规则包括:告警条件,利用告警的属性判断满足告警的相似条件,如果两条告警的所有属性都相同,则认为两条告警相似,其中,如果大量上报相似告警,则认为告警风暴出现;以及子规则类型,其中,子规则处理器利用子规则类型来抑制告警风暴。
此外,在该方法中,通过以下子规则类型中的一种执行告警风暴抑制任务:告警清除,用于对设备上报的告警信息进行自动筛选和处理,将符合条件的告警自动清除,只将其作为历史告警数据存储;告警屏蔽,在设备支持的前提下,要求前台设备上报告警时根据预定条件屏蔽部分告警,不再进行上报;以及告警过滤,用于使一些告警对所有用户不可见,减小用户需要关心的告警数据量。
此外,在该方法中,告警过滤包括显示过滤和入库过滤,其中,显示过滤是指符合匹配条件的告警只存入数据库,不显示在客户端界面上,其中,显示过滤设置为对所有用户生效或仅对当前用户生效;入库过滤是指符合匹配条件的告警既不存入数据库也不显示在客户端界面上,而是直接丢弃。
此外,在该方法的步骤S102中,在告警传送给告警风暴抑制规则处理器进行处理之前,判断告警是否满足告警的相似条件,如果满足相似条件,则更新告警计数器。
此外,在该方法的步骤S104中,还包括,上报一条告警来提醒用户告警风暴发生。
此外,在该方法中,后台线程包括以下处理:步骤S202,查看告警计数器,判断告警计数器的频率是否一直高于门限值;步骤S204,如果告警频率一直高于门限值,则判断子规则处理器是否存在并且是否处于激活状态,根据判断结果进行相应处理;以及步骤S206,如果告警频率未一直高于门限值,则判断是否创建并处于激活状态的子规则处理器,如存在,则暂停该子规则处理器并恢复之前产生的告警,如不存在,则不做任何处理。
此外,在该方法的步骤S204中,根据判断结果进行的相应处理包括:如果不存在子规则处理器,则新建一个子规则处理器并激活,之后子规则处理器进行告警风暴抑制的任务,同时产生一条新的告警;如果存在子规则处理器但是未处于激活状态,则将子规则处理器激活,同样产生一条新的告警;以及如果存在子规则处理器且处于激活状态,则更新告警信息。
图2是示出了根据本发明实施例的告警风暴抑制系统的结构示意图。
如图2所示,包括:告警风暴抑制规则处理器,其中,告警风暴抑制规则处理器包含一个计数器,告警上报后会被送到告警风暴抑制规则处理器,告警风暴抑制规则处理器利用计数器记录告警发生的频率以及持续时间,判断告警风暴是否到来,其中,当告警风暴到来时启动子规则处理器,当告警风暴停止时暂停子规则处理器;以及子规则处理器,由告警风暴抑制规则处理器管理,其中,当子规则处理器被激活时对送入的风暴告警进行抑制,不再发送到告警处理模块,执行告警风暴抑制任务。
此外,在该系统中,子规则处理器包括告警清除处理器、告警屏蔽处理器、告警过滤处理器、事件过滤处理器、以及通知过滤处理器,其中,子规则处理器还用于过滤告警。
本发明的告警风暴抑制子系统位于网管系统中告警处理模块之前,当告警上报到网管系统时,首先被送到告警风暴抑制子系统进行处理,当告警风暴发生时,告警风暴抑制子系统直接抑制风暴告警,不将其发送至告警处理模块,从而避免告警风暴带来的危害。
图3是示出了根据本发明实施例的告警风暴抑制规则告警处理的流程图。
如图3所示,包括以下处理:
当网管系统收到一条上报的告警后,告警模块将其发送到告警风暴抑制规则处理器处理;
告警风暴抑制规则处理器判断其是否满足自己的条件,如果是,则更新计数器。注意这里的不是一个简单的计数器,不但要记录告警的个数,还要记录每条告警的发生时间,以便计算告警风暴的持续时间以及频率;以及
之后告警风暴抑制规则处理器将告警发送至子规则处理器模块处理。
图4是示出了根据本发明实施例的告警风暴抑制规则后台处理线程的流程图。
如图4所示,后台处理线程包括以下步骤:
首先后台处理线程启动,查看告警计数器,计算之前一个时间段内每秒钟内的告警频率,查看告警频率是否一直高于门限值;
如告警频率一直高于门限值,需要判断之前是否有已存在并处于激活状态的子规则处理器;
如不存在子规则处理器,则新建一个子规则处理器并激活,之后子规则处理器会进行抑制告警风暴的任务,同时产生一条新的告警风暴告警,其详细信息包括是何种告警引起了告警风暴,风暴持续时间,频率等信息,提示用户告警风暴的发生;
如已存在子规则处理器但是其未处于激活状态,则将其激活,同样需要产生一条新的告警风暴告警;
如已存在子规则处理器且处于激活状态,则需要更新之前产生的告警风暴告警的信息,包括持续时间、频率等;
如果告警频率不是一直高于门限值,则判断之前是否有已经创建并处于激活状态的子规则处理器,如存在,则暂停该规则处理器并恢复之前产生的告警风暴告警。如不存在,则不做任何处理;以及
处理完毕后后台处理线程进入休眠状态,等待一段时间后重复执行以上操作。
综上所述,通过本发明,实现了网管系统对告警风暴的自适应处理能力;使网管系统能根据实际情况而非管理人员的经验来处理告警风暴,增加了处理的准确性;可根据告警风暴的不同类型定制处理方案,保证对系统进行全面的保护;同一种类型的风暴可以有多种不同的处理方案,灵活多变。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种用于告警风暴抑制的方法,其特征在于,包括以下步骤:
步骤S102,在告警上报到网管系统后,将所述告警传送给告警风暴抑制规则处理器进行处理,并使用后台线程定时查看所述告警风暴抑制规则处理器中的告警计数器,根据时域判断标准判断所述告警风暴是否发生;
步骤S104,如果发生所述告警风暴,则启动子规则处理器抑制所述告警风暴,执行告警风暴抑制任务;以及
步骤S106,根据所述时域判断标准判断所述告警风暴是否停止,如果所述告警风暴停止,则暂停所述子规则处理器并恢复在先产生的告警风暴告警,恢复正常处理;
其中,所述告警风暴抑制规则处理器根据告警风暴抑制规则进行处理,其中,所述告警风暴抑制规则,包括:
告警条件,利用告警的属性判断满足告警的相似条件,如果两条告警的所有所述属性都相同,则认为所述两条告警相似,其中,如果大量上报相似告警,则认为所述告警风暴出现;以及
子规则类型,其中,所述子规则处理器利用所述子规则类型来抑制所述告警风暴;
其中,通过以下所述子规则类型中的一种执行所述告警风暴抑制任务:
告警清除,用于对设备上报的告警信息进行自动筛选和处理,将符合条件的告警自动清除,只将其作为历史告警数据存储;
告警屏蔽,在所述设备支持的前提下,要求前台设备上报告警时根据预定条件屏蔽部分告警,不再进行上报;以及
告警过滤,用于使一些告警对所有用户不可见,减小用户需要关心的告警数据量。
2.根据权利要求1所述的方法,其特征在于,所述告警过滤包括显示过滤和入库过滤,其中,
所述显示过滤是指符合匹配条件的告警只存入数据库,不显示在客户端界面上,其中,所述显示过滤设置为对所有用户生效或仅对当前用户生效;
所述入库过滤是指所述符合匹配条件的告警既不存入所述数据库也不显示在客户端界面上,而是直接丢弃。
3.根据权利要求1所述的方法,其特征在于,在所述步骤S102中,在所述告警传送给所述告警风暴抑制规则处理器进行处理之前,判断所述告警是否满足所述告警的相似条件,如果满足所述相似条件,则更新所述告警计数器。
4.根据权利要求1所述的方法,其特征在于,在所述步骤S104中,还包括,上报一条告警来提醒用户告警风暴发生。
5.根据权利要求1所述的方法,其特征在于,所述后台线程包括以下处理:
步骤S202,查看所述告警计数器,判断所述告警计数器的频率是否一直高于门限值;
步骤S204,如果所述告警频率一直高于所述门限值,则判断所述子规则处理器是否存在并且是否处于激活状态,根据判断结果进行相应处理;以及
步骤S206,如果所述告警频率未一直高于所述门限值,则判断是否创建并处于激活状态的子规则处理器,如存在,则暂停所述子规则处理器并恢复之前产生的告警,如不存在,则不做任何处理。
6.根据权利要求5所述的方法,其特征在于,在所述步骤S204中,根据所述判断结果进行的相应处理包括:
如果不存在所述子规则处理器,则新建一个子规则处理器并激活,之后所述子规则处理器进行所述告警风暴抑制的任务,同时产生一条新的告警;
如果存在所述子规则处理器但是未处于激活状态,则将所述子规则处理器激活,同样产生一条新的告警;以及
如果存在所述子规则处理器且处于激活状态,则更新所述告警信息。
7.一种用于告警风暴抑制系统,其特征在于,包括:
告警风暴抑制规则处理器,其中,所述告警风暴抑制规则处理器包含一个计数器,告警上报后会被送到所述告警风暴抑制规则处理器,所述告警风暴抑制规则处理器利用所述计数器记录告警发生的频率以及持续时间,判断告警风暴是否到来,其中,当所述告警风暴到来时启动子规则处理器,当所述告警风暴停止时暂停所述子规则处理器;以及
子规则处理器,由所述告警风暴抑制规则处理器管理,其中,当所述子规则处理器被激活时对送入的所述风暴告警进行抑制,不再发送到告警处理模块,执行告警风暴抑制任务;
其中,所述告警风暴抑制规则处理器采用的所述告警风暴抑制规则包括:
告警条件,利用告警的属性判断满足告警的相似条件,如果两条告警的所有所述属性都相同,则认为所述两条告警相似,其中,如果大量上报相似告警,则认为所述告警风暴出现;以及
子规则类型,其中,所述子规则处理器利用所述子规则类型来抑制所述告警风暴;
其中,所述子规则处理器用于通过以下所述子规则类型中的一种执行所述告警风暴抑制任务:
告警清除,用于对设备上报的告警信息进行自动筛选和处理,将符合条件的告警自动清除,只将其作为历史告警数据存储;
告警屏蔽,在所述设备支持的前提下,要求前台设备上报告警时根据预定条件屏蔽部分告警,不再进行上报;以及
告警过滤,用于使一些告警对所有用户不可见,减小用户需要关心的告警数据量。
8.根据权利要求7所述的系统,其特征在于,所述子规则处理器包括告警清除处理器、告警屏蔽处理器、告警过滤处理器、事件过滤处理器、以及通知过滤处理器,其中,所述子规则处理器还用于过滤所述告警。
CN2008100027297A 2008-01-16 2008-01-16 用于告警风暴抑制的方法及系统 Expired - Fee Related CN101217592B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2008100027297A CN101217592B (zh) 2008-01-16 2008-01-16 用于告警风暴抑制的方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2008100027297A CN101217592B (zh) 2008-01-16 2008-01-16 用于告警风暴抑制的方法及系统

Publications (2)

Publication Number Publication Date
CN101217592A CN101217592A (zh) 2008-07-09
CN101217592B true CN101217592B (zh) 2011-05-25

Family

ID=39623952

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2008100027297A Expired - Fee Related CN101217592B (zh) 2008-01-16 2008-01-16 用于告警风暴抑制的方法及系统

Country Status (1)

Country Link
CN (1) CN101217592B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102497289B (zh) * 2011-12-27 2014-08-06 四川欧亚锦业信息技术有限公司 一种自适应多协议告警处理的方法及系统
CN106483913A (zh) * 2015-08-24 2017-03-08 有车(北京)新能源汽车租赁有限公司 一种告警风暴处理方法及装置
CN108737164B (zh) * 2018-04-25 2021-03-30 北京思特奇信息技术股份有限公司 一种电信网络实时告警过滤方法及装置
CN110730087A (zh) * 2018-07-16 2020-01-24 普天信息技术有限公司 一种告警风暴的处理方法及装置
CN113778783B (zh) * 2021-07-26 2023-12-12 北京芬香科技有限公司 一种基于监控数据的智能告警方法和系统

Also Published As

Publication number Publication date
CN101217592A (zh) 2008-07-09

Similar Documents

Publication Publication Date Title
CN107515796B (zh) 一种设备异常监控处理方法及装置
CN109308252B (zh) 一种故障定位处理方法及装置
CN101217592B (zh) 用于告警风暴抑制的方法及系统
CN106961352B (zh) 监控系统及监控方法
CN101009586B (zh) 告警系统中对告警过滤条件的处理方法
US9009307B2 (en) Automated alert management
CN110545276B (zh) 威胁事件告警方法、装置、告警设备及机器可读存储介质
CN107483268A (zh) 一种告警处理方法及系统
CN108572898B (zh) 一种控制接口的方法、装置、设备、以及存储介质
CA2652221A1 (en) Combining virus checking and replication filtration
WO2008083890A1 (en) Method, system and program product for alerting an information technology support organization of a security event
CN102523126A (zh) 一种告警事件发送方法及装置
EP3439237A1 (en) Exception monitoring and alarming method and device
CN101636000A (zh) 一种告警风暴的处理方法及处理装置
WO2023138058A1 (zh) 一种告警事件的处理方法、装置及计算机可读存储介质
CN102263670A (zh) 一种告警消息的上报处理方法及装置
CN102111788A (zh) 一种告警处理方法及告警管理系统
CN112162899A (zh) 基于大数据集群服务监控方法及系统
CN114675998A (zh) 一种监控定时快照任务的方法、装置、设备及介质
CN101247265A (zh) 一种告警处理方法、装置和系统
CN104424234B (zh) 一种文件系统变化的探测方法、探测装置及相应电子设备
CN101132589B (zh) 一种振荡告警处理方法
CN116483663A (zh) 用于平台的异常告警方法和装置
CN112015593A (zh) Kubernetes集群的容灾备份方法及相关组件
CN101662382A (zh) 一种抑制网管系统中振荡告警上报的方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20110525

Termination date: 20180116

CF01 Termination of patent right due to non-payment of annual fee