CN101951621B - 一种告警风暴防治方法和装置 - Google Patents
一种告警风暴防治方法和装置 Download PDFInfo
- Publication number
- CN101951621B CN101951621B CN 201010283283 CN201010283283A CN101951621B CN 101951621 B CN101951621 B CN 101951621B CN 201010283283 CN201010283283 CN 201010283283 CN 201010283283 A CN201010283283 A CN 201010283283A CN 101951621 B CN101951621 B CN 101951621B
- Authority
- CN
- China
- Prior art keywords
- alarm
- alarm information
- reported
- module
- data storage
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 230000002265 prevention Effects 0.000 title claims abstract description 16
- 238000013500 data storage Methods 0.000 claims abstract description 100
- 230000003111 delayed effect Effects 0.000 claims description 35
- 238000001914 filtration Methods 0.000 claims description 26
- 230000001629 suppression Effects 0.000 claims description 22
- 238000002360 preparation method Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 14
- 238000012545 processing Methods 0.000 description 8
- 239000000872 buffer Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 5
- 230000015556 catabolic process Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000010355 oscillation Effects 0.000 description 1
- 238000003672 processing method Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000000725 suspension Substances 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Landscapes
- Alarm Systems (AREA)
Abstract
本发明公开了一种告警风暴防治方法和装置。所述方法包括:在每个定时周期,逐条提取上一个定时周期所采集的最小告警单元级别的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报,在满足一定条件时对延缓上报数据区中的告警信息进行逐条上报,并且每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止上报,将本定时周期内未上报的告警信息保存到延缓上报数据存储区中,以备延缓上报。本发明的技术方案,能够有效地防止告警风暴的产生,以及能够避免重要告警信息的丢失。
Description
技术领域
本发明涉及移动通信技术领域,特别是涉及一种告警风暴防治方法和装置。
背景技术
时分同步码分多址(TD-SCDMA,Time Division-SynchronousCode Division Multiple Access)通信系统中基站、核心网设备在运行过程中常发生告警风暴,导致网络阻塞,甚至系统崩溃,告警信息无法及时的上报,并丢失告警信息等问题。
在通信系统/设备运行异常时,当前产生的告警数量大于系统/设备可承受处理的告警数量阈值时,会导致告警风暴的产生。系统/设备可承受处理的告警数量阈值是:在单位时间内,系统或设备最多只能处理N个告警。
在TD-SDCMA通信系统中,告警信息的平稳正常上报是系统稳定运行的重要条件之一。告警信息是否平稳上报将直接影响网络是否正常通信,系统是否正常运行。告警风暴是影响告警信息平稳上报的最大因素。告警风暴的产生,将直接造成网络的阻塞,并且告警风暴存在的时间段内,对告警的处理将大量占用CPU以及内存资源,极有可能造成系统任务的挂起,甚至系统崩溃。因此,对告警风暴进行有效的防治对系统的稳定运行具有非常重要的意义。
目前,对告警的处理方法主要有:一是对所有告警信息不进行筛选过滤处理,直接上报给上一级管理维护中心;另一种方法是,对指定类型的告警进行筛选处理,然后上报给上一级管理维护中心。
上述的第一种方案,在告警产生量大的时间段内,大量占用系统资源和网络带宽,将不可避免地产生告警风暴,直接导致网络阻塞和系统崩溃;这主要体现在对告警不进行任何过滤处理,在告警产生量特别巨大的时候,仍然对所有告警进行处理,并同时进行上报。
上述的第二种方案,对告警风暴只能做到局部抑制,无法从系统级别抑制告警风暴的产生。这主要体现在:只凭以往经验对指定类型的告警进行筛选过滤,只能针对某一种或多种告警进行单独过滤筛选,只能降低这些指定的告警类型产生告警风暴的概率。对其他的一些无法预测的单个或多个混合类型告警,同时冲击导致的告警风暴无法进行可靠的防治。比如,某些非指定的特定过滤筛选告警类型与特定过滤告警类型,在同一时刻共同产生了大于N的告警数量。
此外,现有的告警处理方案中,当产生告警风暴时,告警信息无法得到完整可靠的保存和上报,造成告警信息的非正常缺失,这主要体现在,告警风暴产生后,网络堵塞造成告警信息无法上报,同时由于系统荡掉或崩溃,导致告警信息无法进行有效保存。也使得一些重要的故障信息和告警信息无法及时的上传到上级管理维护中心,不利于故障问题的定位和分析。
现有的告警处理方法,无法有效地防止告警风暴的产生,并且会造成重要告警信息的丢失。
发明内容
本发明提供了一种告警风暴防治方法,该方法能够有效地防止告警风暴的产生,以及能够避免重要告警信息的丢失。
本发明还提供了一种告警风暴防治装置,该装置能够有效地防止告警风暴的产生,以及能够避免重要告警信息的丢失。
为达到上述目的,本发明的技术方案是这样实现的:
本发明公开了一种告警风暴防治方法,该方法包括:
在每一个定时周期:采集本定时周期内产生的最小告警单元级别的告警信息,并在本定时周期结束时,将所采集的告警信息保存到预备上报数据存储区;
在每一个定时周期:逐条提取预备上报数据存储区中的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中,并判断是否有延缓上报线程存活,如果没有延缓上报线程存活,则启动一个延缓上报线程;
延缓上报线程启动后,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储区是否有告警信息,是则执行步骤C,否则退出延缓上报线程;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储区提取一个告警信息进行上报,并从延缓上报数据区中删除该上报的告警信息;
E、本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
本发明还公开了一种告警风暴防治装置,该装置包括:定时模块,预备上报数据存储模块、系统级别上报模块、延缓上报数据存储模块、延缓上报模块、多个最小告警单元级别告警采集模块、与所述多个最小告警单元级别告警采集模块一一对应的多个暂存单元、与所述多个暂存单元一一对应的多个最小告警单元级别告警抑制模块;每个最小告警单元级别告警采集模块对应一种类型的最小告警单元级别的告警信息;
定时模块,用于以固定周期进行定时操作,并向最小告警单元级别告警采集模块、最小告警单元级别告警抑制模块、系统级别上报模块和延缓上报模块发送每个定时周期的开始时间和结束时间;
每个最小告警单元级别告警采集模块,用于在每一个定时周期,采集本定时周期内产生的对应类型的最小告警单元级别的告警信息,并保存到对应的暂存单元中;
每个暂存单元,用于保存对应最小告警单元级别告警采集模块发送的告警信息;
每个最小告警单元级别告警抑制模块,用于在每个定时周期结束时,将对应暂存单元中保存的告警信息转移到预备上报数据存储模块中;
预备上报数据存储模块,用于保存每个最小告警单元级别告警抑制模块发送的告警信息;
系统级别上报模块,用于在每一个定时周期内,逐条提取预备上报数据存储模块中的告警信息进行上报,在有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,将本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块中,并判断延缓上报模块的使能端是否有效,如果为无效,则将延缓上报模块的使能端设置为有效;
延缓上报模块,用于在使能端有效时,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储模块中是否有告警信息,是则执行步骤C,否则将自身的使能端设置为无效;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储模块中提取一个告警信息进行上报,并从延缓上报数据存储模块中删除该上报的告警信息;
E、将本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
由上述可见,本发明这种在每个定时周期,逐条提取上一个定时周期所采集的最小告警单元级别的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报,在满足一定条件时对延缓上报数据区中的告警信息进行逐条上报,并且每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将未上报的上一定时周期的最小告警单元级别的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中,以备延缓上报的技术方案,有效地将每个定时周期所上报的告警信息数量控制在预设阈值以内,防止了告警风暴的产生,并且将每个定时周期中未能上报的告警信息保存到延缓上报数据存储区中,进行延缓上报,避免了重要告警信息的丢失。
附图说明
图1是本发明实施例中对最小告警单元级别的告警进行处理的流程图;
图2是本发明实施例系统级别的告警风暴防治的处理流程图;
图3是本发明实施例中的延缓上报线程所执行的流程图;
图4是本发明实施例一种告警风暴防治装置的组成结构示意图。
具体实施方式
本发明提供的告警风暴防治方案主要包括以下几点:
(1)在每一个定时周期:采集本定时周期内产生的最小告警单元级别的告警信息,并在本定时周期结束时,将所采集的告警信息保存到预备上报数据存储区;
(2)在每一个定时周期:逐条提取预备上报数据存储区中的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中,并判断是否有延缓上报线程存活,如果没有延缓上报线程存活,则启动一个延缓上报线程;
(3)延缓上报线程启动后,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储区是否有告警信息,是则执行步骤C,否则退出延缓上报线程;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储区提取一个告警信息进行上报,并从延缓上报数据区中删除该上报的告警信息;
E、本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
在本发明中,利用以往经验,对一些在较短时间内容易出现频繁产生告警和恢复告警的告警类型,进行特殊处理,这里称之为最小告警单元级别的告警信息。可以根据实际经验确定哪些类型的告警信息可以成为最小告警单元级别的告警。相应地,将没有被确定为是最小告警单元级别的告警,称为非最小告警单元级别的告警信息。
在本发明的实施例中,告警信息包括告警、告警恢复、告警删除等与告警相关的信息。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明中对最小告警单元级别的告警信息进行筛选预处理。对每一种类型的最小告警单元级别的告警信息的处理分为告警采集和最小告警单元级别风暴抑制两部分,具体如图1所示。
图1是本发明实施例中对最小告警单元级别的告警进行处理的流程图。如图1所示,对每一种类型的最小告警单元级别的告警,在系统初始化启动过程启动告警监控定时器后,执行以下步骤:
步骤101,新的定时周期开始,变量count置0;
变量count表示本定时周期内产生的本类型的最小告警单元级别的告警信息数量。
步骤102,判断是否有本类型的最小告警单元级别的告警信息产生,是则执行步骤103,否则继续执行本步骤。
步骤103,将所产生的本类型的最小告警单元级别的告警信息存入与本类型对应的暂存区1。
步骤104,变量count的值加1。
步骤105,本定时周期是否结束,是则执行步骤106,否则执行步骤102。
步骤106,将与本类型对应的暂存区1的索引变更为2,将与本类型对应的原暂存区2的索引变更为1。返回执行步骤101,同时执行步骤107。
步骤107,获取上一定时周期内产生的本类型的最小告警单元级别的告警信息数量count_before。
这里可以通过在步骤105中将count的值赋给count_before而获得,或者也可以直接统计暂存区2中的告警信息数量。
步骤108,判断count_before是否大于预设阈值n,是则执行步骤109,否则执行步骤110。
本步骤中,预设阈值n可以根据系统的实际情况而定,一般n取略小于N的值。N为在单位时间内,系统或设备能够处理的告警信息数量的上限。
步骤109,从暂存区2中筛选出数量小于所述预设阈值n的告警信息,并将所筛选出的告警信息保存到预备上报数据存储区中。
在本发明的一个实施例中,可以从暂存区2中筛选出首尾各一对告警信息,即选择暂存区2中处于首位的一对告警信息和处于末尾的一对告警信息,共4条告警信息。执行步骤111。
步骤110,直接将暂存区2中的所有数据保存到预备上报数据存储区中。执行步骤111。
步骤111。清除暂存区2中的数据。
在图1所示的流程图中,左手边的部分是最小告警单元级别的告警信息的采集过程,右手边的是最小告警单元级别告警信息的风暴抑制过程。
图2是本发明实施例系统级别的告警风暴防治的处理流程图。如图2所示,在每个定时周期,执行以下步骤:
步骤201,变量Alarm count置0。分两个分支同时执行步骤202和步骤206。
变量Alarm count是一个全局变量,表示本定时周期内上报的总告警信息数量。
步骤202,从预备上报数据存储区提取一条告警信息进行上报,并从预备上报数据存储区删除该条告警信息。
步骤203,Alarm count的值加1。
步骤204,判断Alarm count是否大于预设阈值n,是则执行步骤211,否则执行步骤205。
本步骤中,若Alarm count大于n,则表示处于告警风暴产生的边界,停止本定时周期的告警信息上报,执行步骤211以及后续步骤。
步骤205,判断预备上报数据存储区中是否还有未上报的告警信息,是则返回步骤202,否则结束本分支的流程(即结束步骤202~步骤205的流程)。
步骤206,采集各非最小告警单元级别的告警类型的告警状态。
步骤207,判断是否有非最小告警单元级别的告警信息产生,是则执行步骤208,否则执行步骤210。
步骤208,将所产生的非最小告警单元级别的告警信息进行上报。
步骤209,Alarm count的值加1。
步骤210,判断Alarm count是否大于预设阈值n,是则执行步骤211,否则执行步骤206。
本步骤中,若Alarm count大于n,则表示处于告警风暴产生的边界,停止本定时周期的告警信息上报,执行步骤211以及后续步骤。
步骤211,判断优先级过滤使能标志是否为有效,是则执行步骤212,否则执行步骤214。
步骤212,从预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息中过滤掉优先级低于预设级别的告警信息。
步骤213,将过滤后的告警信息保存到延缓上报数据存储区中。执行步骤215。
步骤214,将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中。
步骤215,判断是否有延缓上报线程存活,是则,结束本流程,否则,执行步骤216。
步骤216,启动一个延缓上报线程。
结束本流程。
在图2所示的流程中,如果一个定时周期内上报的告警信息数量超过了预设阈值,则停止上报,将本定时周期内为来得及上报的告警信息压入到延缓上报数据存储区中。
在本发明中,由延缓上报线程来完成延缓上报数据存储区中的告警信息的延缓上报。
图3是本发明实施例中的延缓上报线程所执行的流程图。如图3所示,延缓上报线程启动后,执行以下步骤:
步骤301、延时一个定时周期。
步骤302、判断延缓上报数据存储区是否有告警信息,是则执行步骤303,否则执行步骤307。将优先级过滤使能标志设置为无效,然后退出延缓上报线程。
步骤303、判断上一定时周期内上报的总告警信息数量是否大于预设阈值n,是则返回步骤301,否则执行步骤304。
步骤304、调用上报接口从延缓上报数据存储区提取一个告警信息进行上报,并从延缓上报数据区中删除该上报的告警信息。
步骤305、Alarm count的值加1。
前面说过Alarm count是全局变量,因此延缓上报线程也对图2所涉及的同一Alarm count进行操作。
步骤306,判断Alarm count是否大于预设阈值n,是则返回步骤301,否则返回步骤302。
步骤307。将优先级过滤使能标志设置为无效,然后退出延缓上报线程。
退出延缓上报线程,则当前无存活的延缓上报线程,等待图2所示的步骤216中再重新启动一个延缓上报线程。
当延缓上报数据存储区中的告警数量达到预设数量值时,延缓线程还将优先级过滤使能标志设置为有效。具体地,可以在步骤302与步骤303之间增加一个判断延缓上报数据存储区中的告警数量是否达到预设数量值的步骤,是则将优先级过滤使能标志设置为有效,然后执行步骤303,否则直接执行步骤303。
这主要是因为,当延缓上报数据存储区为空时,可以屏蔽步骤212所述的按优先级进行过滤的操作,使得所有未能上报的告警信息都能够得到保存,当延缓上报数据存储区中的告警数量达到预设数量值时,表示延缓上报数据存储区将趋近于饱和,所以使能步骤212所述的按优先级进行过滤的操作,使得重要的告警信息得以保存,而一些不重要的告警信息可以被过滤。
基于上述实施例,给出本发明中的告警风暴防治装置的组成结构。
图4是本发明实施例一种告警风暴防治装置的组成结构示意图。如图4所示,该装置包括:定时模块408,预备上报数据存储模块404、系统级别上报模块405、延缓上报数据存储模块406、延缓上报模块407、多个最小告警单元级别告警采集模块401、与所述多个最小告警单元级别告警采集模块401一一对应的多个暂存单元402、与所述多个暂存单元402一一对应的多个最小告警单元级别告警抑制模块403;每个最小告警单元级别告警采集模块401对应一种类型的最小告警单元级别的告警信息;
定时模块408,用于以固定周期进行定时操作,并向最小告警单元级别告警采集模块401、最小告警单元级别告警抑制模块403、系统级别上报模块405和延缓上报模块407发送每个定时周期的开始时间和结束时间;
每个最小告警单元级别告警采集模块401,用于在每一个定时周期,采集本定时周期内产生的对应类型的最小告警单元级别的告警信息,并保存到对应的暂存单元402中;
每个暂存单元402,用于保存对应最小告警单元级别告警采集模块401发送的告警信息;
每个最小告警单元级别告警抑制模块403,用于在每个定时周期结束时,将对应暂存单元402中保存的告警信息转移到预备上报数据存储模块404中;
预备上报数据存储模块404,用于保存每个最小告警单元级别告警抑制模块403发送的告警信息;
系统级别上报模块405,用于在每一个定时周期内,逐条提取预备上报数据存储模块404中的告警信息进行上报,在有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,将本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报存储模块404中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块406中,并判断延缓上报模块407的使能端是否有效,如果为无效,则将延缓上报模块407的使能端设置为有效;
延缓上报模块407,用于在使能端有效时,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储模块406中是否有告警信息,是则执行步骤C,否则将自身的使能端设置为无效;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储模块406中提取一个告警信息进行上报,并从延缓上报数据存储模块407中删除该上报的告警信息;
E、将本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
在图4所示的装置中,每个暂存单元由两个暂存区构成,该两个暂存区分别用索引1和索引2进行区分;
每个最小告警单元级别告警采集模块401,用于在每一个定时周期,将所采集的本定时周期内产生的对应类型的最小告警单元级别的告警信息保存到对应的暂存区1中;
每个最小告警单元级别告警抑制模块403,用于在每个定时周期结束时,将对应的暂存区1的索引变更为2,将对应的原暂存区2的索引变更为1,然后将对应的暂存区2中的告警信息保存到预备上报数据存储模块404中,并清除该暂存区2中的数据。
在图4所示的装置中,每个最小告警单元级别告警抑制模块403,进一步用于判断对应的暂存区2中的告警信息数量是否大于预设阈值,是则从对应的暂存区2中筛选出数量小于所述预设阈值的告警信息,并将所筛选出的告警信息保存到预备上报数据存储模块404中,否则,直接将对应的暂存区2中的所有数据保存到预备上报数据存储模块404中。
在图4所示的装置中,每个最小告警单元级别告警抑制模块403,用于在判断出对应的暂存区2中的告警信息数量大于预设阈值时,从对应的暂存区2中筛选出首尾各一对告警信息保存到预备上报数据存储模块404中。
图4所示的装置进一步包括优先级过滤模块409;
系统级别上报模块405,在将预备上报存储模块404中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块406之前,进一步用于判断优先级过滤模块409的使能端是否有效,是则将预备上报存储模块404中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息发送给优先级过滤模块409,否则直接保存到延缓上报数据存储模块406中;
优先级过滤模块409,用于从预备上报存储模块404中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息中过滤掉优先级低于预设级别的告警信息,将剩余的告警信息保存到延缓上报数据存储模块406中;
延时上报模块407,在所述步骤B中判断出延缓上报数据存储模块406中没有告警信息时,进一步用于将优先级过滤模块409的使能端设置为无效,然后再退出延缓上报线程;并进一步用于在延缓上报数据存储模块中的告警数量达到预设数量值时,将优先级过滤模409块的使能端设置为有效。
综上所述本发明的技术方案有如下的优点:
1、从系统级别这一全局层面抑制告警风暴,有效防止多类混合型告警的同时大量产生,进而避免了告警风暴的产生。
2、从流程上杜绝了告警风暴的上报,主要体现在采用了最小告警单元级别与系统级别的双重抑制,在告警处理和上报流程中严格控制告警信息的截留和上报。
3、将告警采集、告警风暴抑制、上报流程分离,降低其相互间的耦合度,简化代码流程,是软件代码易于维护和移植。
4、可保障告警信息得到完整保存和可靠上报,避免告警信息的非正常丢失。主要在于采用暂存单元保存最小告警单元级别的告警信息,避免未产生告警风暴也对其告警信息进行过滤和丢弃。
5、在一个定时周期内的告警上报量临界告警风暴时,采用告警延缓上报线程对告警信息进行上报控制,对告警信息采用慢速延缓上报处理,有效避免大的告警量上报,导致网络堵塞。
6、在一个定时周期内的告警上报量临界告警风暴时,采用告警优先级控制,对优先级级别高的告警予以告警信息保留,优先上报,以便重要的告警能及时可靠地进行上报,便于维护人员分析定位问题。
总之,本发明可以有效的预防告警风暴的产生,减少网络链路的通讯压力,节省告警处理对CPU及内存资源的占用,提高系统的稳定性;同时避免在告警的正常处理过程中丢弃正常告警;且保障告警风暴产生时,各重要告警信息的可靠保存和及时准确上报
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (8)
1.一种告警风暴防治方法,其特征在于,该方法包括:
在每一个定时周期:采集本定时周期内产生的最小告警单元级别的告警信息,并在本定时周期结束时,将所采集的告警信息保存到预备上报数据存储区;
在每一个定时周期:逐条提取预备上报数据存储区中的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中,并判断是否有延缓上报线程存活,如果没有延缓上报线程存活,则启动一个延缓上报线程;
延缓上报线程启动后,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储区是否有告警信息,是则执行步骤C,否则退出延缓上报线程;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储区提取一个告警信息进行上报,并从延缓上报数据区中删除该上报的告警信息;
E、本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B;
其中,
采集本定时周期内产生的最小告警单元级别的告警信息包括:对于每一种类型的最小告警单元级别的告警信息,将本定时周期内产生的该类型的最小告警单元级别的告警信息保存到与该类型对应的暂存区1;
在该定时周期结束时,并在将所采集的告警信息保存到预备上报数据存储区之前该方法进一步包括:
对于每一种类型的最小告警单元级别的告警信息,将与该类型对应的暂存区1的索引变更为2,将与该类型对应的原暂存区2的索引变更为1;
所述将所采集的告警信息保存到预备上报数据存储区包括:对于每一种类型的最小告警单元级别的告警信息,将与该类型对应的暂存区2中的告警信息保存到预备上报数据存储区中,并清除该暂存区2中的数据。
2.根据权利要求1所述的方法,其特征在于,所述将暂存区2中的告警信息保存到预备上报数据存储区中包括:
判断暂存区2中的告警信息数量是否大于预设阈值,是则从暂存区2中筛选出数量小于所述预设阈值的告警信息,并将所筛选出的告警信息保存到预备上报数据存储区中,否则,直接将暂存区2中的所有数据保存到预备上报数据存储区中。
3.根据权利要求2所述的方法,其特征在于,所述从暂存区2中筛选出数量小于所述预设阈值的告警信息包括:从暂存区2中筛选出首尾各一对告警信息。
4.根据权利要求1至3中任一项所述的方法,其特征在于,在将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区之前,该方法进一步包括:
判断,优先级过滤使能标志是否为有效,是则从预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息中过滤掉优先级低于预设级别的告警信息;
所述步骤B中,在判断出延缓上报数据存储区中没有告警信息时,进一步将优先级过滤使能标志设置为无效,然后再退出延缓上报线程;
该方法进一步包括:当延缓上报数据存储区中的告警数量达到预设数量值时,将优先级过滤使能标志设置为有效。
5.一种告警风暴防治装置,其特征在于,该装置包括:定时模块,预备上报数据存储模块、系统级别上报模块、延缓上报数据存储模块、延缓上报模块、多个最小告警单元级别告警采集模块、与所述多个最小告警单元级别告警采集模块一一对应的多个暂存单元、与所述多个暂存单元一一对应的多个最小告警单元级别告警抑制模块;每个最小告警单元级别告警采集模块对应一种类型的最小告警单元级别的告警信息;
定时模块,用于以固定周期进行定时操作,并向最小告警单元级别告警采集模块、最小告警单元级别告警抑制模块、系统级别上报模块和延缓上报模块发送每个定时周期的开始时间和结束时间;
每个最小告警单元级别告警采集模块,用于在每一个定时周期,采集本定时周期内产生的对应类型的最小告警单元级别的告警信息,并保存到对应的暂存单元中;
每个暂存单元,用于保存对应最小告警单元级别告警采集模块发送的告警信息;
每个最小告警单元级别告警抑制模块,用于在每个定时周期结束时,将对应暂存单元中保存的告警信息转移到预备上报数据存储模块中;
预备上报数据存储模块,用于保存每个最小告警单元级别告警抑制模块发送的告警信息;
系统级别上报模块,用于在每一个定时周期内,逐条提取预备上报数据存储模块中的告警信息进行上报,在有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,将本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块中,并判断延缓上报模块的使能端是否有效,如果为无效,则将延缓上报模块的使能端设置为有效;
延缓上报模块,用于在使能端有效时,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储模块中是否有告警信息,是则执行步骤C,否则将自身的使能端设置为无效;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储模块中提取一个告警信息进行上报,并从延缓上报数据存储模块中删除该上报的告警信息;
E、将本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B;
其中,
每个暂存单元由两个暂存区构成,该两个暂存区分别用索引1和索引2进行区分;
每个最小告警单元级别告警采集模块,用于在每一个定时周期,将所采集的本定时周期内产生的对应类型的最小告警单元级别的告警信息保存到对应的暂存区1中;
每个最小告警单元级别告警抑制模块,用于在每个定时周期结束时,将对应的暂存区1的索引变更为2,将对应的原暂存区2的索引变更为1,然后将对应的暂存区2中的告警信息保存到预备上报数据存储模块中,并清除该暂存区2中的数据。
6.根据权利要求5所述的装置,其特征在于,
每个最小告警单元级别告警抑制模块,进一步用于判断对应的暂存区2中的告警信息数量是否大于预设阈值,是则从对应的暂存区2中筛选出数量小于所述预设阈值的告警信息,并将所筛选出的告警信息保存到预备上报数据存储模块中,否则,直接将对应的暂存区2中的所有数据保存到预备上报数据存储模块中。
7.根据权利要求6所述的装置,其特征在于,
每个最小告警单元级别告警抑制模块,用于在判断出对应的暂存区2中的告警信息数量大于预设阈值时,从对应的暂存区2中筛选出首尾各一对告警信息保存到预备上报数据存储模块中。
8.根据权利要求5至7中任一项所述的装置,其特征在于,该装置进一步包括优先级过滤模块;
系统级别上报模块,在将预备上报数据存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块之前,进一步用于判断优先级过滤模块的使能端是否有效,是则将预备上报存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息发送给优先级过滤模块,否则直接保存到延缓上报数据存储模块中;
优先级过滤模块,用于从预备上报数据存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息中过滤掉优先级低于预设级别的告警信息,将剩余的告警信息保存到延缓上报数据存储模块中;
延时上报模块,在所述步骤B中判断出延缓上报数据存储模块中没有告警信息时,进一步用于将优先级过滤模块的使能端设置为无效,然后再退出延缓上报线程;并进一步用于在延缓上报数据存储模块中的告警数量达到预设数量值时,将优先级过滤模块的使能端设置为有效。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010283283 CN101951621B (zh) | 2010-09-16 | 2010-09-16 | 一种告警风暴防治方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN 201010283283 CN101951621B (zh) | 2010-09-16 | 2010-09-16 | 一种告警风暴防治方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101951621A CN101951621A (zh) | 2011-01-19 |
CN101951621B true CN101951621B (zh) | 2013-04-03 |
Family
ID=43454947
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN 201010283283 Expired - Fee Related CN101951621B (zh) | 2010-09-16 | 2010-09-16 | 一种告警风暴防治方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101951621B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102930050B (zh) * | 2012-11-17 | 2016-03-09 | 武钢集团昆明钢铁股份有限公司 | 钢铁质量与sap系统间力学特性自动上报系统及方法 |
CN104780512B (zh) * | 2014-01-10 | 2019-01-08 | 华为终端(东莞)有限公司 | 一种即时应用消息处理方法及调制解调器 |
CN106483913A (zh) * | 2015-08-24 | 2017-03-08 | 有车(北京)新能源汽车租赁有限公司 | 一种告警风暴处理方法及装置 |
CN106452840B (zh) * | 2016-09-09 | 2019-12-31 | 青岛海信宽带多媒体技术有限公司 | 一种网络终端事件上报方法及装置 |
CN107426011A (zh) * | 2017-05-22 | 2017-12-01 | 郑州云海信息技术有限公司 | 一种对设备运行状态的监控方法及装置 |
CN112988521B (zh) * | 2021-02-09 | 2023-09-05 | 北京奇艺世纪科技有限公司 | 一种告警方法、装置、设备及存储介质 |
CN114827168A (zh) * | 2022-05-07 | 2022-07-29 | 金腾科技信息(深圳)有限公司 | 告警聚合上报方法、装置、计算机设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1976517A (zh) * | 2006-11-30 | 2007-06-06 | 华为技术有限公司 | 移动终端及其备份数据信息的方法 |
CN101368938A (zh) * | 2007-08-17 | 2009-02-18 | 华为技术有限公司 | 一种防尘网堵塞程度检测装置和方法、及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8811348B2 (en) * | 2003-02-24 | 2014-08-19 | Qualcomm Incorporated | Methods and apparatus for generating, communicating, and/or using information relating to self-noise |
-
2010
- 2010-09-16 CN CN 201010283283 patent/CN101951621B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1976517A (zh) * | 2006-11-30 | 2007-06-06 | 华为技术有限公司 | 移动终端及其备份数据信息的方法 |
CN101368938A (zh) * | 2007-08-17 | 2009-02-18 | 华为技术有限公司 | 一种防尘网堵塞程度检测装置和方法、及电子设备 |
Also Published As
Publication number | Publication date |
---|---|
CN101951621A (zh) | 2011-01-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101951621B (zh) | 一种告警风暴防治方法和装置 | |
CN101547113B (zh) | 告警信息过滤系统、装置及方法 | |
CN107135088B (zh) | 云计算系统中处理日志的方法和装置 | |
CN103645904B (zh) | 一种接口调用的缓存实现方法 | |
CN101753451B (zh) | 网络负载均衡的轨道交通信号设备状态采集方法 | |
CN103684880A (zh) | 控制告警的方法及告警装置 | |
CN110650060A (zh) | 流量告警的处理方法、设备及存储介质 | |
CN105897365A (zh) | 一种处理器的防冲击处理方法及装置 | |
CN101753584B (zh) | VxWorks系统下提高智能变电站快速报文处理速度的方法 | |
CN104125013B (zh) | 无源光网络性能数据采集装置及处理方法 | |
CN104104542B (zh) | 一种基于rs485的实时智能排障方法 | |
CN104866528B (zh) | 多平台数据采集方法及系统 | |
CN107678923A (zh) | 一种分布式文件系统消息处理的优化方法 | |
CN104239179A (zh) | 一种终端及其实现应用管理的方法 | |
CN114579296A (zh) | 一种服务器闲置算力调度方法、装置及电子设备 | |
CN102195791A (zh) | 一种告警的分析方法、装置及系统 | |
CN109167761B (zh) | 一种请求自动处理的方法及装置 | |
CN105357026B (zh) | 一种资源信息收集方法和计算节点 | |
CN116489019B (zh) | 一种智能视觉信令通道管理方法、系统及介质 | |
CN103733581A (zh) | 一种消息处理的方法及基站 | |
CN101499935B (zh) | 一种WiMAX基站的告警处理方法 | |
CN101826145A (zh) | 射频识别系统中实现标签清点的装置及方法 | |
CN101631330B (zh) | 一种性能数据的采集处理方法及装置 | |
CN101159950A (zh) | 一种智能监控系统 | |
WO2014040470A1 (zh) | 告警消息的处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right | ||
TR01 | Transfer of patent right |
Effective date of registration: 20170831 Address after: 100070, No. 188, building 25, No. eighteen, South Fourth Ring Road, Fengtai District, Beijing, 1, 101 Patentee after: Beijing Haiyun Technology Co.,Ltd. Address before: 510663, No. 3, color road, Science City, Guangzhou Development Zone, Guangdong Patentee before: NEW POSTCOM EQUIPMENT Co.,Ltd. |
|
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20130403 |