CN101951621A - 一种告警风暴防治方法和装置 - Google Patents

一种告警风暴防治方法和装置 Download PDF

Info

Publication number
CN101951621A
CN101951621A CN2010102832837A CN201010283283A CN101951621A CN 101951621 A CN101951621 A CN 101951621A CN 2010102832837 A CN2010102832837 A CN 2010102832837A CN 201010283283 A CN201010283283 A CN 201010283283A CN 101951621 A CN101951621 A CN 101951621A
Authority
CN
China
Prior art keywords
warning information
alarm
minimum
data memory
timing cycle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2010102832837A
Other languages
English (en)
Other versions
CN101951621B (zh
Inventor
何定润
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Haiyun Technology Co. Ltd.
Original Assignee
New Postcom Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New Postcom Equipment Co Ltd filed Critical New Postcom Equipment Co Ltd
Priority to CN 201010283283 priority Critical patent/CN101951621B/zh
Publication of CN101951621A publication Critical patent/CN101951621A/zh
Application granted granted Critical
Publication of CN101951621B publication Critical patent/CN101951621B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Alarm Systems (AREA)

Abstract

本发明公开了一种告警风暴防治方法和装置。所述方法包括:在每个定时周期,逐条提取上一个定时周期所采集的最小告警单元级别的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报,在满足一定条件时对延缓上报数据区中的告警信息进行逐条上报,并且每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止上报,将本定时周期内未上报的告警信息保存到延缓上报数据存储区中,以备延缓上报。本发明的技术方案,能够有效地防止告警风暴的产生,以及能够避免重要告警信息的丢失。

Description

一种告警风暴防治方法和装置
技术领域
本发明涉及移动通信技术领域,特别是涉及一种告警风暴防治方法和装置。
背景技术
时分同步码分多址(TD-SCDMA,Time Division-Synchronous Code Division Multiple Access)通信系统中基站、核心网设备在运行过程中常发生告警风暴,导致网络阻塞,甚至系统崩溃,告警信息无法及时的上报,并丢失告警信息等问题。
在通信系统/设备运行异常时,当前产生的告警数量大于系统/设备可承受处理的告警数量阈值时,会导致告警风暴的产生。系统/设备可承受处理的告警数量阈值是:在单位时间内,系统或设备最多只能处理N个告警。
在TD-SDCMA通信系统中,告警信息的平稳正常上报是系统稳定运行的重要条件之一。告警信息是否平稳上报将直接影响网络是否正常通信,系统是否正常运行。告警风暴是影响告警信息平稳上报的最大因素。告警风暴的产生,将直接造成网络的阻塞,并且告警风暴存在的时间段内,对告警的处理将大量占用CPU以及内存资源,极有可能造成系统任务的挂起,甚至系统崩溃。因此,对告警风暴进行有效的防治对系统的稳定运行具有非常重要的意义。
目前,对告警的处理方法主要有:一是对所有告警信息不进行筛选过滤处理,直接上报给上一级管理维护中心;另一种方法是,对指定类型的告警进行筛选处理,然后上报给上一级管理维护中心。
上述的第一种方案,在告警产生量大的时间段内,大量占用系统资源和网络带宽,将不可避免地产生告警风暴,直接导致网络阻塞和系统崩溃;这主要体现在对告警不进行任何过滤处理,在告警产生量特别巨大的时候,仍然对所有告警进行处理,并同时进行上报。
上述的第二种方案,对告警风暴只能做到局部抑制,无法从系统级别抑制告警风暴的产生。这主要体现在:只凭以往经验对指定类型的告警进行筛选过滤,只能针对某一种或多种告警进行单独过滤筛选,只能降低这些指定的告警类型产生告警风暴的概率。对其他的一些无法预测的单个或多个混合类型告警,同时冲击导致的告警风暴无法进行可靠的防治。比如,某些非指定的特定过滤筛选告警类型与特定过滤告警类型,在同一时刻共同产生了大于N的告警数量。
此外,现有的告警处理方案中,当产生告警风暴时,告警信息无法得到完整可靠的保存和上报,造成告警信息的非正常缺失,这主要体现在,告警风暴产生后,网络堵塞造成告警信息无法上报,同时由于系统荡掉或崩溃,导致告警信息无法进行有效保存。也使得一些重要的故障信息和告警信息无法及时的上传到上级管理维护中心,不利于故障问题的定位和分析。
现有的告警处理方法,无法有效地防止告警风暴的产生,并且会造成重要告警信息的丢失。
发明内容
本发明提供了一种告警风暴防治方法,该方法能够有效地防止告警风暴的产生,以及能够避免重要告警信息的丢失。
本发明还提供了一种告警风暴防治装置,该装置能够有效地防止告警风暴的产生,以及能够避免重要告警信息的丢失。
为达到上述目的,本发明的技术方案是这样实现的:
本发明公开了一种告警风暴防治方法,该方法包括:
在每一个定时周期:采集本定时周期内产生的最小告警单元级别的告警信息,并在本定时周期结束时,将所采集的告警信息保存到预备上报数据存储区;
在每一个定时周期:逐条提取预备上报数据存储区中的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中,并判断是否有延缓上报线程存活,如果没有延缓上报线程存活,则启动一个延缓上报线程;
延缓上报线程启动后,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储区是否有告警信息,是则执行步骤C,否则退出延缓上报线程;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储区提取一个告警信息进行上报,并从延缓上报数据区中删除该上报的告警信息;
E、本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
本发明还公开了一种告警风暴防治装置,该装置包括:定时模块,预备上报数据存储模块、系统级别上报模块、延缓上报数据存储模块、延缓上报模块、多个最小告警单元级别告警采集模块、与所述多个最小告警单元级别告警采集模块一一对应的多个暂存单元、与所述多个暂存单元一一对应的多个最小告警单元级别告警抑制模块;每个最小告警单元级别告警采集模块对应一种类型的最小告警单元级别的告警信息;
定时模块,用于以固定周期进行定时操作,并向最小告警单元级别告警采集模块、最小告警单元级别告警抑制模块、系统级别上报模块和延缓上报模块发送每个定时周期的开始时间和结束时间;
每个最小告警单元级别告警采集模块,用于在每一个定时周期,采集本定时周期内产生的对应类型的最小告警单元级别的告警信息,并保存到对应的暂存单元中;
每个暂存单元,用于保存对应最小告警单元级别告警采集模块发送的告警信息;
每个最小告警单元级别告警抑制模块,用于在每个定时周期结束时,将对应暂存单元中保存的告警信息转移到预备上报数据存储模块中;
预备上报数据存储模块,用于保存每个最小告警单元级别告警抑制模块发送的告警信息;
系统级别上报模块,用于在每一个定时周期内,逐条提取预备上报数据存储模块中的告警信息进行上报,在有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,将本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块中,并判断延缓上报模块的使能端是否有效,如果为无效,则将延缓上报模块的使能端设置为有效;
延缓上报模块,用于在使能端有效时,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储模块中是否有告警信息,是则执行步骤C,否则将自身的使能端设置为无效;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储模块中提取一个告警信息进行上报,并从延缓上报数据存储模块中删除该上报的告警信息;
E、将本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
由上述可见,本发明这种在每个定时周期,逐条提取上一个定时周期所采集的最小告警单元级别的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报,在满足一定条件时对延缓上报数据区中的告警信息进行逐条上报,并且每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将未上报的上一定时周期的最小告警单元级别的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中,以备延缓上报的技术方案,有效地将每个定时周期所上报的告警信息数量控制在预设阈值以内,防止了告警风暴的产生,并且将每个定时周期中未能上报的告警信息保存到延缓上报数据存储区中,进行延缓上报,避免了重要告警信息的丢失。
附图说明
图1是本发明实施例中对最小告警单元级别的告警进行处理的流程图;
图2是本发明实施例系统级别的告警风暴防治的处理流程图;
图3是本发明实施例中的延缓上报线程所执行的流程图;
图4是本发明实施例一种告警风暴防治装置的组成结构示意图。
具体实施方式
本发明提供的告警风暴防治方案主要包括以下几点:
(1)在每一个定时周期:采集本定时周期内产生的最小告警单元级别的告警信息,并在本定时周期结束时,将所采集的告警信息保存到预备上报数据存储区;
(2)在每一个定时周期:逐条提取预备上报数据存储区中的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中,并判断是否有延缓上报线程存活,如果没有延缓上报线程存活,则启动一个延缓上报线程;
(3)延缓上报线程启动后,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储区是否有告警信息,是则执行步骤C,否则退出延缓上报线程;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储区提取一个告警信息进行上报,并从延缓上报数据区中删除该上报的告警信息;
E、本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
在本发明中,利用以往经验,对一些在较短时间内容易出现频繁产生告警和恢复告警的告警类型,进行特殊处理,这里称之为最小告警单元级别的告警信息。可以根据实际经验确定哪些类型的告警信息可以成为最小告警单元级别的告警。相应地,将没有被确定为是最小告警单元级别的告警,称为非最小告警单元级别的告警信息。
在本发明的实施例中,告警信息包括告警、告警恢复、告警删除等与告警相关的信息。
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
在本发明中对最小告警单元级别的告警信息进行筛选预处理。对每一种类型的最小告警单元级别的告警信息的处理分为告警采集和最小告警单元级别风暴抑制两部分,具体如图1所示。
图1是本发明实施例中对最小告警单元级别的告警进行处理的流程图。如图1所示,对每一种类型的最小告警单元级别的告警,在系统初始化启动过程启动告警监控定时器后,执行以下步骤:
步骤101,新的定时周期开始,变量count置0;
变量count表示本定时周期内产生的本类型的最小告警单元级别的告警信息数量。
步骤102,判断是否有本类型的最小告警单元级别的告警信息产生,是则执行步骤103,否则继续执行本步骤。
步骤103,将所产生的本类型的最小告警单元级别的告警信息存入与本类型对应的暂存区1。
步骤104,变量count的值加1。
步骤105,本定时周期是否结束,是则执行步骤106,否则执行步骤102。
步骤106,将与本类型对应的暂存区1的索引变更为2,将与本类型对应的原暂存区2的索引变更为1。返回执行步骤101,同时执行步骤107。
步骤107,获取上一定时周期内产生的本类型的最小告警单元级别的告警信息数量count_before。
这里可以通过在步骤105中将count的值赋给count_before而获得,或者也可以直接统计暂存区2中的告警信息数量。
步骤108,判断count_before是否大于预设阈值n,是则执行步骤109,否则执行步骤110。
本步骤中,预设阈值n可以根据系统的实际情况而定,一般n取略小于N的值。N为在单位时间内,系统或设备能够处理的告警信息数量的上限。
步骤109,从暂存区2中筛选出数量小于所述预设阈值n的告警信息,并将所筛选出的告警信息保存到预备上报数据存储区中。
在本发明的一个实施例中,可以从暂存区2中筛选出首尾各一对告警信息,即选择暂存区2中处于首位的一对告警信息和处于末尾的一对告警信息,共4条告警信息。执行步骤111。
步骤110,直接将暂存区2中的所有数据保存到预备上报数据存储区中。执行步骤111。
步骤111。清除暂存区2中的数据。
在图1所示的流程图中,左手边的部分是最小告警单元级别的告警信息的采集过程,右手边的是最小告警单元级别告警信息的风暴抑制过程。
图2是本发明实施例系统级别的告警风暴防治的处理流程图。如图2所示,在每个定时周期,执行以下步骤:
步骤201,变量Alarm count置0。分两个分支同时执行步骤202和步骤206。
变量Alarm count是一个全局变量,表示本定时周期内上报的总告警信息数量。
步骤202,从预备上报数据存储区提取一条告警信息进行上报,并从预备上报数据存储区删除该条告警信息。
步骤203,Alarm count的值加1。
步骤204,判断Alarm count是否大于预设阈值n,是则执行步骤211,否则执行步骤205。
本步骤中,若Alarm count大于n,则表示处于告警风暴产生的边界,停止本定时周期的告警信息上报,执行步骤211以及后续步骤。
步骤205,判断预备上报数据存储区中是否还有未上报的告警信息,是则返回步骤202,否则结束本分支的流程(即结束步骤202~步骤205的流程)。
步骤206,采集各非最小告警单元级别的告警类型的告警状态。
步骤207,判断是否有非最小告警单元级别的告警信息产生,是则执行步骤208,否则执行步骤210。
步骤208,将所产生的非最小告警单元级别的告警信息进行上报。
步骤209,Alarm count的值加1。
步骤210,判断Alarm count是否大于预设阈值n,是则执行步骤211,否则执行步骤206。
本步骤中,若Alarm count大于n,则表示处于告警风暴产生的边界,停止本定时周期的告警信息上报,执行步骤211以及后续步骤。
步骤211,判断优先级过滤使能标志是否为有效,是则执行步骤212,否则执行步骤214。
步骤212,从预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息中过滤掉优先级低于预设级别的告警信息。
步骤213,将过滤后的告警信息保存到延缓上报数据存储区中。执行步骤215。
步骤214,将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中。
步骤215,判断是否有延缓上报线程存活,是则,结束本流程,否则,执行步骤216。
步骤216,启动一个延缓上报线程。
结束本流程。
在图2所示的流程中,如果一个定时周期内上报的告警信息数量超过了预设阈值,则停止上报,将本定时周期内为来得及上报的告警信息压入到延缓上报数据存储区中。
在本发明中,由延缓上报线程来完成延缓上报数据存储区中的告警信息的延缓上报。
图3是本发明实施例中的延缓上报线程所执行的流程图。如图3所示,延缓上报线程启动后,执行以下步骤:
步骤301、延时一个定时周期。
步骤302、判断延缓上报数据存储区是否有告警信息,是则执行步骤303,否则执行步骤307。将优先级过滤使能标志设置为无效,然后退出延缓上报线程。
步骤303、判断上一定时周期内上报的总告警信息数量是否大于预设阈值n,是则返回步骤301,否则执行步骤304。
步骤304、调用上报接口从延缓上报数据存储区提取一个告警信息进行上报,并从延缓上报数据区中删除该上报的告警信息。
步骤305、Alarm count的值加1。
前面说过Alarm count是全局变量,因此延缓上报线程也对图2所涉及的同一Alarm count进行操作。
步骤306,判断Alarm count是否大于预设阈值n,是则返回步骤301,否则返回步骤302。
步骤307。将优先级过滤使能标志设置为无效,然后退出延缓上报线程。
退出延缓上报线程,则当前无存活的延缓上报线程,等待图2所示的步骤216中再重新启动一个延缓上报线程。
当延缓上报数据存储区中的告警数量达到预设数量值时,延缓线程还将优先级过滤使能标志设置为有效。具体地,可以在步骤302与步骤303之间增加一个判断延缓上报数据存储区中的告警数量是否达到预设数量值的步骤,是则将优先级过滤使能标志设置为有效,然后执行步骤303,否则直接执行步骤303。
这主要是因为,当延缓上报数据存储区为空时,可以屏蔽步骤212所述的按优先级进行过滤的操作,使得所有未能上报的告警信息都能够得到保存,当延缓上报数据存储区中的告警数量达到预设数量值时,表示延缓上报数据存储区将趋近于饱和,所以使能步骤212所述的按优先级进行过滤的操作,使得重要的告警信息得以保存,而一些不重要的告警信息可以被过滤。
基于上述实施例,给出本发明中的告警风暴防治装置的组成结构。
图4是本发明实施例一种告警风暴防治装置的组成结构示意图。如图4所示,该装置包括:定时模块408,预备上报数据存储模块404、系统级别上报模块405、延缓上报数据存储模块406、延缓上报模块407、多个最小告警单元级别告警采集模块401、与所述多个最小告警单元级别告警采集模块401一一对应的多个暂存单元402、与所述多个暂存单元402一一对应的多个最小告警单元级别告警抑制模块403;每个最小告警单元级别告警采集模块401对应一种类型的最小告警单元级别的告警信息;
定时模块408,用于以固定周期进行定时操作,并向最小告警单元级别告警采集模块401、最小告警单元级别告警抑制模块403、系统级别上报模块405和延缓上报模块407发送每个定时周期的开始时间和结束时间;
每个最小告警单元级别告警采集模块401,用于在每一个定时周期,采集本定时周期内产生的对应类型的最小告警单元级别的告警信息,并保存到对应的暂存单元402中;
每个暂存单元402,用于保存对应最小告警单元级别告警采集模块401发送的告警信息;
每个最小告警单元级别告警抑制模块403,用于在每个定时周期结束时,将对应暂存单元402中保存的告警信息转移到预备上报数据存储模块404中;
预备上报数据存储模块404,用于保存每个最小告警单元级别告警抑制模块403发送的告警信息;
系统级别上报模块405,用于在每一个定时周期内,逐条提取预备上报数据存储模块404中的告警信息进行上报,在有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,将本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报存储模块404中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块406中,并判断延缓上报模块407的使能端是否有效,如果为无效,则将延缓上报模块407的使能端设置为有效;
延缓上报模块407,用于在使能端有效时,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储模块406中是否有告警信息,是则执行步骤C,否则将自身的使能端设置为无效;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储模块406中提取一个告警信息进行上报,并从延缓上报数据存储模块407中删除该上报的告警信息;
E、将本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
在图4所示的装置中,每个暂存单元由两个暂存区构成,该两个暂存区分别用索引1和索引2进行区分;
每个最小告警单元级别告警采集模块401,用于在每一个定时周期,将所采集的本定时周期内产生的对应类型的最小告警单元级别的告警信息保存到对应的暂存区1中;
每个最小告警单元级别告警抑制模块403,用于在每个定时周期结束时,将对应的暂存区1的索引变更为2,将对应的原暂存区2的索引变更为1,然后将对应的暂存区2中的告警信息保存到预备上报数据存储模块404中,并清除该暂存区2中的数据。
在图4所示的装置中,每个最小告警单元级别告警抑制模块403,进一步用于判断对应的暂存区2中的告警信息数量是否大于预设阈值,是则从对应的暂存区2中筛选出数量小于所述预设阈值的告警信息,并将所筛选出的告警信息保存到预备上报数据存储模块404中,否则,直接将对应的暂存区2中的所有数据保存到预备上报数据存储模块404中。
在图4所示的装置中,每个最小告警单元级别告警抑制模块403,用于在判断出对应的暂存区2中的告警信息数量大于预设阈值时,从对应的暂存区2中筛选出首尾各一对告警信息保存到预备上报数据存储模块404中。
图4所示的装置进一步包括优先级过滤模块409;
系统级别上报模块405,在将预备上报存储模块404中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块406之前,进一步用于判断优先级过滤模块409的使能端是否有效,是则将预备上报存储模块404中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息发送给优先级过滤模块409,否则直接保存到延缓上报数据存储模块406中;
优先级过滤模块409,用于从预备上报存储模块404中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息中过滤掉优先级低于预设级别的告警信息,将剩余的告警信息保存到延缓上报数据存储模块406中;
延时上报模块407,在所述步骤B中判断出延缓上报数据存储模块406中没有告警信息时,进一步用于将优先级过滤模块409的使能端设置为无效,然后再退出延缓上报线程;并进一步用于在延缓上报数据存储模块中的告警数量达到预设数量值时,将优先级过滤模409块的使能端设置为有效。
综上所述本发明的技术方案有如下的优点:
1、从系统级别这一全局层面抑制告警风暴,有效防止多类混合型告警的同时大量产生,进而避免了告警风暴的产生。
2、从流程上杜绝了告警风暴的上报,主要体现在采用了最小告警单元级别与系统级别的双重抑制,在告警处理和上报流程中严格控制告警信息的截留和上报。
3、将告警采集、告警风暴抑制、上报流程分离,降低其相互间的耦合度,简化代码流程,是软件代码易于维护和移植。
4、可保障告警信息得到完整保存和可靠上报,避免告警信息的非正常丢失。主要在于采用暂存单元保存最小告警单元级别的告警信息,避免未产生告警风暴也对其告警信息进行过滤和丢弃。
5、在一个定时周期内的告警上报量临界告警风暴时,采用告警延缓上报线程对告警信息进行上报控制,对告警信息采用慢速延缓上报处理,有效避免大的告警量上报,导致网络堵塞。
6、在一个定时周期内的告警上报量临界告警风暴时,采用告警优先级控制,对优先级级别高的告警予以告警信息保留,优先上报,以便重要的告警能及时可靠地进行上报,便于维护人员分析定位问题。
总之,本发明可以有效的预防告警风暴的产生,减少网络链路的通讯压力,节省告警处理对CPU及内存资源的占用,提高系统的稳定性;同时避免在告警的正常处理过程中丢弃正常告警;且保障告警风暴产生时,各重要告警信息的可靠保存和及时准确上报
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种告警风暴防治方法,其特征在于,该方法包括:
在每一个定时周期:采集本定时周期内产生的最小告警单元级别的告警信息,并在本定时周期结束时,将所采集的告警信息保存到预备上报数据存储区;
在每一个定时周期:逐条提取预备上报数据存储区中的告警信息进行上报,有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区中,并判断是否有延缓上报线程存活,如果没有延缓上报线程存活,则启动一个延缓上报线程;
延缓上报线程启动后,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储区是否有告警信息,是则执行步骤C,否则退出延缓上报线程;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储区提取一个告警信息进行上报,并从延缓上报数据区中删除该上报的告警信息;
E、本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
2.根据权利要求1所述的方法,其特征在于,
采集本定时周期内产生的最小告警单元级别的告警信息包括:对于每一种类型的最小告警单元级别的告警信息,将本定时周期内产生的该类型的最小告警单元级别的告警信息保存到与该类型对应的暂存区1;
在该定时周期结束时,并在将所采集的告警信息保存到预备上报数据存储区之前该方法进一步包括:
对于每一种类型的最小告警单元级别的告警信息,将与该类型对应的暂存区1的索引变更为2,将与该类型对应的原暂存区2的索引变更为1;
所述将所采集的告警信息保存到预备上报数据存储区包括:对于每一种类型的最小告警单元级别的告警信息,将与该类型对应的暂存区2中的告警信息保存到预备上报数据存储区中,并清除该暂存区2中的数据。
3.根据权利要求2所述的方法,其特征在于,所述将暂存区2中的告警信息保存到预备上报数据存储区中包括:
判断暂存区2中的告警信息数量是否大于预设阈值,是则从暂存区2中筛选出数量小于所述预设阈值的告警信息,并将所筛选出的告警信息保存到预备上报数据存储区中,否则,直接将暂存区2中的所有数据保存到预备上报数据存储区中。
4.根据权利要求3所述的方法,其特征在于,所述从暂存区2中筛选出数量小于所述预设阈值的告警信息包括:从暂存区2中筛选出首尾各一对告警信息。
5.根据权利要求1至4中任一项所述的方法,其特征在于,在将预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储区之前,该方法进一步包括:
判断,优先级过滤使能标志是否为有效,是则从预备上报数据存储区中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息中过滤掉优先级低于预设级别的告警信息;
所述步骤B中,在判断出延缓上报数据存储区中没有告警信息时,进一步将优先级过滤使能标志设置为无效,然后再退出延缓上报线程;
该方法进一步包括:当延缓上报数据存储区中的告警数量达到预设数量值时,将优先级过滤使能标志设置为有效。
6.一种告警风暴防治装置,其特征在于,该装置包括:定时模块,预备上报数据存储模块、系统级别上报模块、延缓上报数据存储模块、延缓上报模块、多个最小告警单元级别告警采集模块、与所述多个最小告警单元级别告警采集模块一一对应的多个暂存单元、与所述多个暂存单元一一对应的多个最小告警单元级别告警抑制模块;每个最小告警单元级别告警采集模块对应一种类型的最小告警单元级别的告警信息;
定时模块,用于以固定周期进行定时操作,并向最小告警单元级别告警采集模块、最小告警单元级别告警抑制模块、系统级别上报模块和延缓上报模块发送每个定时周期的开始时间和结束时间;
每个最小告警单元级别告警采集模块,用于在每一个定时周期,采集本定时周期内产生的对应类型的最小告警单元级别的告警信息,并保存到对应的暂存单元中;
每个暂存单元,用于保存对应最小告警单元级别告警采集模块发送的告警信息;
每个最小告警单元级别告警抑制模块,用于在每个定时周期结束时,将对应暂存单元中保存的告警信息转移到预备上报数据存储模块中;
预备上报数据存储模块,用于保存每个最小告警单元级别告警抑制模块发送的告警信息;
系统级别上报模块,用于在每一个定时周期内,逐条提取预备上报数据存储模块中的告警信息进行上报,在有非最小告警单元级别的告警信息产生时也进行上报;每上报一条告警信息,将本定时周期内上报的总告警信息数量加1,当本定时周期内上报的总告警信息数量大于预设阈值时,停止本定时周期内的告警信息上报,将预备上报存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块中,并判断延缓上报模块的使能端是否有效,如果为无效,则将延缓上报模块的使能端设置为有效;
延缓上报模块,用于在使能端有效时,执行以下步骤:
A、延时一个定时周期;
B、判断延缓上报数据存储模块中是否有告警信息,是则执行步骤C,否则将自身的使能端设置为无效;
C、判断上一定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则执行步骤D;
D、从延缓上报数据存储模块中提取一个告警信息进行上报,并从延缓上报数据存储模块中删除该上报的告警信息;
E、将本定时周期内上报的总告警信息数量加1,并判断本定时周期内上报的总告警信息数量是否大于预设阈值,是则返回步骤A,否则返回步骤B。
7.根据权利要求1所述的装置,其特征在于,
每个暂存单元由两个暂存区构成,该两个暂存区分别用索引1和索引2进行区分;
每个最小告警单元级别告警采集模块,用于在每一个定时周期,将所采集的本定时周期内产生的对应类型的最小告警单元级别的告警信息保存到对应的暂存区1中;
每个最小告警单元级别告警抑制模块,用于在每个定时周期结束时,将对应的暂存区1的索引变更为2,将对应的原暂存区2的索引变更为1,然后将对应的暂存区2中的告警信息保存到预备上报数据存储模块中,并清除该暂存区2中的数据。
8.根据权利要求7所述的装置,其特征在于,
每个最小告警单元级别告警抑制模块,进一步用于判断对应的暂存区2中的告警信息数量是否大于预设阈值,是则从对应的暂存区2中筛选出数量小于所述预设阈值的告警信息,并将所筛选出的告警信息保存到预备上报数据存储模块中,否则,直接将对应的暂存区2中的所有数据保存到预备上报数据存储模块中。
9.根据权利要求8所述的装置,其特征在于,
每个最小告警单元级别告警抑制模块,用于在判断出对应的暂存区2中的告警信息数量大于预设阈值时,从对应的暂存区2中筛选出首尾各一对告警信息保存到预备上报数据存储模块中。
10.根据权利要求6至9中任一项所述的装置,其特征在于,该装置进一步包括优先级过滤模块;
系统级别上报模块,在将预备上报存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息保存到延缓上报数据存储模块之前,进一步用于判断优先级过滤模块的使能端是否有效,是则将预备上报存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息发送给优先级过滤模块,否则直接保存到延缓上报数据存储模块中;
优先级过滤模块,用于从预备上报存储模块中的未上报的告警信息、本定时周期内产生的未上报的非最小告警单元级别的告警信息中过滤掉优先级低于预设级别的告警信息,将剩余的告警信息保存到延缓上报数据存储模块中;
延时上报模块,在所述步骤B中判断出延缓上报数据存储模块中没有告警信息时,进一步用于将优先级过滤模块的使能端设置为无效,然后再退出延缓上报线程;并进一步用于在延缓上报数据存储模块中的告警数量达到预设数量值时,将优先级过滤模块的使能端设置为有效。
CN 201010283283 2010-09-16 2010-09-16 一种告警风暴防治方法和装置 Active CN101951621B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 201010283283 CN101951621B (zh) 2010-09-16 2010-09-16 一种告警风暴防治方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 201010283283 CN101951621B (zh) 2010-09-16 2010-09-16 一种告警风暴防治方法和装置

Publications (2)

Publication Number Publication Date
CN101951621A true CN101951621A (zh) 2011-01-19
CN101951621B CN101951621B (zh) 2013-04-03

Family

ID=43454947

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 201010283283 Active CN101951621B (zh) 2010-09-16 2010-09-16 一种告警风暴防治方法和装置

Country Status (1)

Country Link
CN (1) CN101951621B (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930050A (zh) * 2012-11-17 2013-02-13 武钢集团昆明钢铁股份有限公司 钢铁质量与sap系统间力学特性自动上报系统及方法
CN104780512A (zh) * 2014-01-10 2015-07-15 华为终端有限公司 一种即时应用消息处理方法及调制解调器
CN106452840A (zh) * 2016-09-09 2017-02-22 青岛海信宽带多媒体技术有限公司 一种网络终端事件上报方法及装置
CN106483913A (zh) * 2015-08-24 2017-03-08 有车(北京)新能源汽车租赁有限公司 一种告警风暴处理方法及装置
CN107426011A (zh) * 2017-05-22 2017-12-01 郑州云海信息技术有限公司 一种对设备运行状态的监控方法及装置
CN112988521A (zh) * 2021-02-09 2021-06-18 北京奇艺世纪科技有限公司 一种告警方法、装置、设备及存储介质
CN114827168A (zh) * 2022-05-07 2022-07-29 金腾科技信息(深圳)有限公司 告警聚合上报方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1976517A (zh) * 2006-11-30 2007-06-06 华为技术有限公司 移动终端及其备份数据信息的方法
US20070149126A1 (en) * 2003-02-24 2007-06-28 Sunddeep Rangan Methods and apparatus for generating, communicating, and/or using information relating to self-noise
CN101368938A (zh) * 2007-08-17 2009-02-18 华为技术有限公司 一种防尘网堵塞程度检测装置和方法、及电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070149126A1 (en) * 2003-02-24 2007-06-28 Sunddeep Rangan Methods and apparatus for generating, communicating, and/or using information relating to self-noise
CN1976517A (zh) * 2006-11-30 2007-06-06 华为技术有限公司 移动终端及其备份数据信息的方法
CN101368938A (zh) * 2007-08-17 2009-02-18 华为技术有限公司 一种防尘网堵塞程度检测装置和方法、及电子设备

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102930050A (zh) * 2012-11-17 2013-02-13 武钢集团昆明钢铁股份有限公司 钢铁质量与sap系统间力学特性自动上报系统及方法
CN102930050B (zh) * 2012-11-17 2016-03-09 武钢集团昆明钢铁股份有限公司 钢铁质量与sap系统间力学特性自动上报系统及方法
CN104780512A (zh) * 2014-01-10 2015-07-15 华为终端有限公司 一种即时应用消息处理方法及调制解调器
CN104780512B (zh) * 2014-01-10 2019-01-08 华为终端(东莞)有限公司 一种即时应用消息处理方法及调制解调器
CN106483913A (zh) * 2015-08-24 2017-03-08 有车(北京)新能源汽车租赁有限公司 一种告警风暴处理方法及装置
CN106452840A (zh) * 2016-09-09 2017-02-22 青岛海信宽带多媒体技术有限公司 一种网络终端事件上报方法及装置
CN106452840B (zh) * 2016-09-09 2019-12-31 青岛海信宽带多媒体技术有限公司 一种网络终端事件上报方法及装置
CN107426011A (zh) * 2017-05-22 2017-12-01 郑州云海信息技术有限公司 一种对设备运行状态的监控方法及装置
CN112988521A (zh) * 2021-02-09 2021-06-18 北京奇艺世纪科技有限公司 一种告警方法、装置、设备及存储介质
CN112988521B (zh) * 2021-02-09 2023-09-05 北京奇艺世纪科技有限公司 一种告警方法、装置、设备及存储介质
CN114827168A (zh) * 2022-05-07 2022-07-29 金腾科技信息(深圳)有限公司 告警聚合上报方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
CN101951621B (zh) 2013-04-03

Similar Documents

Publication Publication Date Title
CN101951621B (zh) 一种告警风暴防治方法和装置
CN101102281B (zh) 移动通信系统中大量数据上报时的数据处理方法
CN109698734B (zh) 基于goose双网接收机制的异常判断方法
CN101547113B (zh) 告警信息过滤系统、装置及方法
CN102118275A (zh) 一种告警风暴的处理方法及处理装置
CN105430681A (zh) 异常自动上传及恢复方法、装置及移动终端
CN105207817B (zh) 一种过程层设备抵御网络风暴的方法
CN102088470A (zh) 通信系统中文件传输协议死锁检测及自恢复的方法与装置
CN104935456B (zh) 通信网络告警系统的告警消息传输和处理方法
CN102708175B (zh) 一种针对数据库连接意外中断的自动重连方法及其装置
CN1716212B (zh) 一种灾难恢复系统及方法
CN102263674A (zh) 告警上报方法、系统和设备
CN107678923A (zh) 一种分布式文件系统消息处理的优化方法
CN105157294A (zh) 一种多联机智能回油的控制方法、系统和多联机系统
CN108924007A (zh) 通信运营信息的大数据采集及存储系统和方法
CN102594590B (zh) 告警主动上报中对振荡告警的抑制方法
CN104683155A (zh) 网络管理系统中的告警屏蔽机制
CN111104237A (zh) 可配置的故障自动化处理方法和系统及计算机存储介质
CN103118359A (zh) 基站设备自愈的实现方法及装置
CN102195791A (zh) 一种告警的分析方法、装置及系统
CN101499935B (zh) 一种WiMAX基站的告警处理方法
CN102521060A (zh) 基于看门狗本地检测技术的高可用集群系统假死解决方法
CN1984119B (zh) 一种利用时分技术实现流量控制的方法
CN108170634B (zh) 一种异构多源数据重构瞬态可靠处理方法
CN113037740A (zh) 一种goose报文发送方重启帧判别方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20170831

Address after: 100070, No. 188, building 25, No. eighteen, South Fourth Ring Road, Fengtai District, Beijing, 1, 101

Patentee after: Beijing Haiyun Technology Co. Ltd.

Address before: 510663, No. 3, color road, Science City, Guangzhou Development Zone, Guangdong

Patentee before: New Post Communication Equipment Co., Ltd.