CN106656590B - 一种网络设备告警消息风暴的处理方法和装置 - Google Patents
一种网络设备告警消息风暴的处理方法和装置 Download PDFInfo
- Publication number
- CN106656590B CN106656590B CN201611155506.5A CN201611155506A CN106656590B CN 106656590 B CN106656590 B CN 106656590B CN 201611155506 A CN201611155506 A CN 201611155506A CN 106656590 B CN106656590 B CN 106656590B
- Authority
- CN
- China
- Prior art keywords
- storm
- network element
- alarm
- alarm information
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W24/00—Supervisory, monitoring or testing arrangements
- H04W24/04—Arrangements for maintaining operational condition
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0604—Management of faults, events, alarms or notifications using filtering, e.g. reduction of information by using priority, element types, position or time
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明涉及一种网络设备告警消息风暴的处理方法和装置,所述方法包括如下步骤:(1)设定被监控网元,建立网元模型;(2)创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;(3)取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;(4)根据告警数量和所述阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;(5)基于当前滑动时间窗口向后滑动一个时间单位,进入下一个滑动时间窗口,转到上述步骤(3)。
Description
技术领域
本发明属于网络通信技术领域,具体涉及一种基于概率统计的网络设备告警消息风暴的处理方法和装置。
背景技术
随着移动通信网络的迅猛商用,2G、3G、LTE网络逐步实现融合,网络结构日益复杂,网络所承载的业务量逐年递增。当某个关键设备出现故障时,会产生大量消息上报到网络设备故障管理系统,此时可能会导致故障监控不及时、甚至无法监控,继而导致故障处理不及时,如果消息数量超过系统的处理容量,则会给系统造成巨大的压力,甚至瘫痪。及时有效地监控网络故障,并在第一时间进行处理,成为当代运营商面临的首要问题,对故障监控系统所提供数据的及时性、准确性、有效性、高可靠性提出了更高的要求。目前的故障管理系统虽然日臻完善,但是,当网络出现重大告警,告警数据量激增,即出现消息风暴时,消息量达到故障管理系统瓶颈时,故障管理系统提供给监控人员数据还是会出现数据处理缓慢、告警上报延迟、监控不及时、处理不及时,甚至故障管理系统瘫痪等问题。
例如:当某个运营支持系统(OSS,Operation and support system)在短时间内出现某个网元的大量告警时,会产生如下三方面影响:
(1)大量无实际意义的告警消息出现在监控台,影响了监控人员发现并处理正常的网元告警,包括网元重大告警。
(2)对大量的风暴告警的解析,消耗了大量的CPU时间,可能会在解析时发生内存溢出,导致告警监控延迟。
(3)由于采集缺少对告警风暴进行一定的预测与消息归并的机制,遇到消息风暴时,整个故障管理系统系统处于被动的高负荷状态。
目前,针对告警消息风暴目前的处理方案主要有三种:
(1)消息风暴同正常消息相同处理。然而,该方案无法预知网络故障,当发生消息风暴时,采用无风暴时的处理方案,将消息风暴等同于正常消息来处理。此方案导致进程消耗大量的硬件资源,包括大量CPU、内存、存储、以及时间,并且可能会导致解析消息时内存溢出、处理滞后。同时,监控台出现大量故障的重复信息,导致处理不及时,最终延误了重大故障的监控和处理,给运营商带来一定的经济损失。
(2)人为设置告警过滤规则,将满足此规则的告警消息过滤掉,即直接将满足此规则的告警数据丢弃。然而,此方案同样增加了消息处理的负荷,并且造成了告警数据丢失,影响了告警数据的完整性。此方案只能根据经验来设置告警过滤规则,当规则预设置不当时,同样会造成故障管理系统的压力,浪费系统资源。
(3)人为设置阈值作为告警消息的风暴数量阈值,如果消息风暴超过此阈值,那么直接丢弃后续消息不处理。然而,此方案需要根据经验预先设定阈值,但是消息风暴的阈值一般很难预定。如果阈值过小,那么正常消息会被丢弃,正常告警无法监控;如果阈值过大,那么当实际产生告警风暴时,无法将告警消息风暴过滤掉。
然而,以上方案依然不能完美地解决告警风暴出现时面临的问题和带来的影响。
发明内容
为解决以上现有技术中存在的问题,本发明提出了一种基于概率统计的网络设备告警消息风暴的处理方法和装置。
根据本发明的一个方面,本发明提供了一种网络设备告警消息风暴的处理方法,所述方法包括如下步骤:
(1)设定被监控网元,建立网元模型;
(2)创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;
(3)取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;
(4)根据所述告警数量和阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;
(5)基于当前滑动时间窗口向后滑动一个时间单位,进入下一个滑动时间窗口,转到上述步骤(3)。
优选的,所述步骤(3)中的方法为:
(31)根据步骤(2)获取的网元告警数据,计算当前滑动时间窗口中的每个时间单位的网元告警数量,并作为统计参数;
(32)将统计参数进行均值计算、标准差计算、置信区间计算,求得置信区间的上下限,得到统计阈值;
(33)确定当前置信区间的上限为告警风暴的阈值,确定当前置信区间的下限为解除告警风暴的阈值。
优选的,所述步骤(4)中判断告警消息类型后进一步的方法为:
如果告警消息类型为风暴消息则生成风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为解除风暴消息则生成解除风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为正常消息,则输出到普通窗口中显示。
优选的,所述步骤(4)中的通知直通监控窗口直接呈现的具体方法为:将风暴预警消息和/或解除风暴预警消息通知监控客户端,触发监控客户端弹出直通监控窗口,将风暴预警消息和/或解除风暴预警消息及发生风暴的网元模型信息在直通监控窗口直接呈现。
优选的,所述步骤(2)具体为:
(21)根据网元模型数据生成网元告警规则;
(22)获取源告警信息并执行所述网元告警规则,得到适配的网元告警消息;
(23)将适配的网元告警消息保存到网元告警数据缓冲区。
优选的,所述的网元告警数据缓冲区是一个网元告警数据检索链表。
优选的,滑动时间窗口设为1或2小时,时间单位设为半分钟或1分钟。
根据本发明的另一个方面,本发明还提供了一种网络设备告警消息风暴的处理装置,所述装置包括如下模块:
网元模型建立模块,用于设定被监控网元,建立网元模型。
告警规则引擎模块,用于创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;
统计和阈值生成模块,取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;
判断和预警模块,根据告警数量和统计和阈值生成模块生成的阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;
调整滑动时间窗口模块,基于当前滑动时间窗口向后滑动一个时间单位,形成下一个滑动时间窗口,转到统计和阈值生成模块。
优选的,所述告警规则引擎模块,包括规则生成模块、规则执行模块、写缓冲区模块;
其中,规则生成模块,根据网元模型数据生成网元告警规则;
规则执行模块,获取源告警信息并执行所述网元告警规则,得到适配的网元告警消息;
写缓冲区模块将所述适配的网元告警消息保存到网元告警数据缓冲区。
优选的,统计和阈值生成模块包括:
统计参数获取模块,根据告警规则引擎模块获得的网元告警数据,计算当前滑动时间窗口中的每个时间单位的网元告警数量,并作为统计参数;
统计阈值计算模块,将统计参数进行均值计算、标准差计算、置信区间计算,求得置信区间的上下限,得到统计阈值;
阈值确定模块,确定当前置信区间的上限为告警风暴的阈值,确定当前置信区间的下限为解除告警风暴的阈值。
优选的,所述的判断和预警模块还具有如下功能:
如果告警消息类型为风暴消息则生成风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为解除风暴消息则生成解除风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为正常消息,则输出到普通窗口中显示。
优选的,所述的网元告警数据缓冲区是一个网元告警数据检索链表。
本发明具有如下特点及优势:
(1)采用规则引擎,来适配各类网元的告警消息,使每个网元告警都可以有效监控。
(2)采用概率统计算法对告警消息量做统计和分析,计算单位时间内某个网元的消息量,自动生成其预警阈值。并采用移动窗口,自动更改所生成的阈值。
(3)在保证告警数据的完整性和及时性的基础上实现了自动地、及时地监控和处理故障。
本方法及装置能根据不同网元在不同时间段动态自动生成风暴阈值,进一步地以滑动的观察窗口方式产生某个时间段的相对阈值,很好地控制了当前观察窗口的告警风暴的数量,因此,当网络设备发生告警消息风暴时,可以降低故障管理系统的数据处理压力。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明优选实施例一的一种基于概率统计的网络设备告警消息风暴的处理方法流程图。
图2为网元的数据结构示意图。
图3为本发明优选实施例的统计阈值计算的流程图。
图4为本发明优选实施例的风暴告警时直通窗口呈现效果图。
图5为本发明优选实施例的风暴预警解除时直通窗口呈现的效果图。
图6为本发明的告警消息正文示意图。
图7为当收到实时的新告警消息时解析具体的告警正文结果图。
图8为本发明优选实施例的一种基于概率统计的网络设备告警消息风暴的处理装置的模块图。
图9为本发明优选实施例的统计阈值计算模块的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
首先,本发明中使用了如下所述的技术手段,以下对本发明中出现的基础数理概念做出简介,而在后续的具体实施例中不再赘述:
本发明采用均值、标准差、置信区间等概率论与数理统计的工具,实现了消息风暴发生阈值/告警风暴解除阈值的自动计算、动态生成。
均值(Expected Mean),又叫期望、平均数,表示样本统计量的集中趋势的程度,是指在一组数据中所有数据之和,再除以这组数据的个数。均值是反映数据集中趋势的一项指标。
标准差(Standard Deviation),作为统计的分布程度的测量,是每个个体的测量值与总体均值之差的平方和的算术平方根,反映了总体内个体的偏离程度。
置信区间(Confidence interval),是指由样本统计量所构造的总体参数的区间估计,展现了总体参数的真实值,有多大概率落在测量结果的周围范围的程度。
总体(Population),是指客观存在的、在同一性质基础上结合起来的许多个别单位的整体,即研究对象的某项指标的取值的集合或全体。总体参数是指总体中对某变量的概括性描述,比如说总体的均值、标准差等。样本(Sample)是从总体中抽出的一部分个体。本发明中,以所有的告警消息,作为总体;以一个滑动窗口(60分钟为例)的告警消息作为样本,计算其均值、标准差,来推断总体的均值、标准差。
具体地,根据本发明的一个方面,如图1所示,提供了一种基于概率统计的网络设备告警消息风暴的处理方法,所述方法包括如下步骤:
S101、设定被监控网元,建立网元模型。
本发明以网元为监控对象,因此,首先要建立网元模型,包括网元名称、网元类型、网元id、采集点、设备厂家、所属地市等资源信息,保存到配置文件。网元的数据结构示例如图2所示。
S102、创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据。
一般来说,源告警信息通过告警采集系统得到。
由于源告警信息中包含了大量的各种各样的告警信息,为了迅速找出S101所设定的网元的告警信息,过滤掉其他非关注信息,利用规则匹配的方法是快捷的。因此要创建规则引擎,用于建立网元告警规则,通过正则表达式选择出相关网元的告警,这包括网元告警规则的生成与规则执行两部分。
S103、取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位。
滑动时间窗口是指按时间顺序取的观察窗口,再滑动一个时间单位再次形成下一个滑动时间窗口。例如,步骤S102获取了100分钟的告警数据,那么取第1分钟-第60分钟为第一个滑动时间窗口,然后取第2分钟-第61分钟为第二个滑动时间窗口,以此类推。滑动时间窗口可以根据实际需要设定,如设为60分钟,时间单位设为1分钟。
本步骤使用概率统计方法每次动态生成当前滑动时间窗口内的告警数据的置信区间和阈值,随着滑动时间窗口的移动,每次生成的置信区间和阈值有所不同。
S104、根据所述告警数量和阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息。
当第1分钟-第60分钟的滑动时间窗口中告警数量的上下限阈值计算出来之后,此步骤判断第61分钟的告警消息类型,进行风暴预警,或者解除风暴预警,或者不预警。
S105、基于当前滑动时间窗口向后滑动一个时间单位,进入下一个滑动时间窗口,转到上述步骤S103。
此方法技术方案实现了实时生成消息风暴的产生和解除的阈值,采用滑动窗口动态计算,解决了不同网元对于消息风暴产生不同阈值、分别动态生成阈值的问题。
以下具体说明使用概率统计方法动态生成置信区间和阈值的过程:
步骤S1031、根据上述步骤S102获取的网元告警数据,计算当前滑动时间窗口中的每个时间单位的网元告警数量,并作为统计参数;
在本实施例中,将滑动时间窗口设为1小时,将当前窗口即最近的一个小时中某个网元的告警消息作为总体,统计每分钟的消息量,即总体中包含60个统计参数,N=60。在下一分钟到来后,在时间轴上,将60个统计参数,整体平移1分钟,向右滑动一个窗口,丢弃前面第1分钟的统计值。如此,始终保持最近60分钟的消息量,作为总体。
步骤S1032、将统计参数进行均值计算、标准差计算、置信区间计算,求得置信区间的上下限,得到统计阈值;
如图3所示,统计阈值计算包括如下三个子步骤:
S10321、均值计算
均值,是把总体中所有的观测值求和,除以总体中观察值的个数。计算公式为:
其中Xi是第i分钟的告警消息总数。
以网元CDHSS1为例,最近1小时里,每分钟的告警消息数(60个测量值)的均值为200个。
S10322、标准差计算
实验结果在期望值附近的分散程度,由标准差来衡量。
其中μ为总体平均值,N为总体中的观测值的个数。
以网元CDHSS1为例,最近1小时里,每分钟的告警消息数的标准差为103。
S10323、置信区间计算与阈值生成
根据数理统计,当总体方差已知时,采用z标准正态分布,来构建总体均值的置信区间。总体均值μ的(1-α)置信区间是:
其中α表示显著性水平,是估计总体参数落在某一区间内,可能犯错误的概率。此发明中,设定α=5%,即以95%(1-5%)作为置信度。查标准正态分布表,Z0.05/2=1.96。
置信区间的下限为:
置信区间的上限为:
也就是说,有95%的置信度,每分钟的告警消息量,应该在(172,233)的区间范围内。
步骤S1033、确定当前置信区间的上限为告警风暴的阈值,确定当前置信区间的下限为解除告警风暴的阈值。
将置信区间上限233,作为告警风暴的阈值。如果最近1分钟的消息量超过前60分钟的平均值233,那么认为发生了告警风暴。将置信区间下限172,作为解除告警风暴的阈值。如果消息量小于172,则认为告警风暴已经解除。
然后,总体统计值的时间窗口,整体平移1分钟,加入新近1分钟的消息量,去掉前面第1分钟的消息量,重新计算出总体的新的均值和标准差,生成下1分钟的消息量的置信区间。
当判断出有告警风暴时,为了迅速观察到告警风暴的情况,通过下述进一步方法给运营维护人员直观的通知。
如果告警消息类型为风暴消息则生成风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为解除风暴消息则生成解除风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为正常消息,则输出到普通窗口中显示。
如图4所示,当告警数据累加最近1分钟的告警消息个数达到240,即超过风暴阈值上限233,为本实施例的风暴告警时直通窗口呈现效果图,可见,由该效果图可以直观的显示风暴消息,从而解决了由于经过其他环节繁琐处理导致消息延迟、大量无用消息在监控台呈现、正常消息无法正常监控、大量占用系统资源的问题。
风暴数量小于置信区间的下限时,则清除掉此网元的风暴预警,通知直通窗口,并自动解除该网元消息的正常解析。如图5所述,为风暴预警解除时直通窗口呈现的效果图。
正常告警消息时启动普通监控窗口。该状态是平时当告警消息风暴没有出现时的普通状态,对正常消息保持着普通监控即可。
进一步地,通知直通监控窗口直接呈现的具体方法为:将预警消息通知监控客户端,触发监控客户端弹出直通监控窗口,将风暴预警消息和/或解除风暴预警消息及发生风暴的网元模型信息在直通监控窗口直接呈现。
本发明实施例通过触发监控客户端自动弹出风暴监控直通窗口,能够及时发送告警风暴预警通知,自动弹出的监控窗口,将消息完整上送,通知监控台。由于绕过其他处理环节,保证了故障的及时监控,从而及时提示使用者处理故障。
所述创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据的方法,可以分三步实现,举例:
S1021、根据网元模型数据生成网元告警规则;
根据网元模型信息,生成匹配网元的正则表达式描述为如下形式,可以保存到网元适配文件中:
extract_pattern=$userlabel"网元名称\s*=\s*([^\n]+)\n"
extract_pattern=$object_class"网元类型\s*=\s*(\S+)\s*\n"
extract_pattern=$ne_mark"网元标识\s*=\s*([^\n]+)\n"
所述的正则表达式将相关网元的告警关键信息(比如网元名称、网元类型、告警发生时间等),抽象成模式匹配规则。
S1022、获取源告警信息并执行所述网元告警规则,得到适配的网元告警消息;
执行S1021建立的网元告警规则引擎,实时地获取源告警信息并处理,如图6收到实时的新告警消息,从新告警信息找出与规则适配的相关网元告警信息,图7是告警正文解析的结果。
S1023、将适配的网元告警消息保存到网元告警数据缓冲区。
将每一个单位时间的网元告警信息按时间顺序写入网元告警缓存区。
例如存入网元数据检索链表,包括网元模型信息和网元相关告警信息。这是一个灵活的便于在尾部增加数据,在头部去掉数据的数据结构,对于本实施例的实现效果突出,方便快捷。
根据本发明的另一个方面如图8所示,还提供了一种基于概率统计的网络设备告警消息风暴的处理装置,所述装置包括如下模块:
网元模型建立模块M101,用于设定被监控网元,建立网元模型。
在这个模块中,以网元为监控对象建立网元模型,建立网元的数学结构,保存各类网元的属性,包括网元名称、采集点、设备厂家、所属地市等资源信息。可以保存到配置文件。网元的数据结构示例如图2所示。
告警规则引擎模块M102,用于创建网元告警规则引擎,基于源告警信息实时获取适配规则的网元告警数据。
由于源告警信息中包含了大量的各种各样的告警信息,为了迅速找出S101所设定的网元的告警信息,过滤掉其他非关注信息,利用规则匹配的方法是快捷的。因此要创建规则引擎,用于建立网元告警规则并选择出相关网元的告警,这包括网元告警规则的生成与规则执行两部分。
统计和阈值生成模块M103,取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位。
滑动时间窗口是指按时间顺序取的观察窗口,再滑动一个时间单位再次形成下一个滑动时间窗口。例如,步骤S102获取了100分钟的告警数据,那么取第1分钟-第60分钟为第一个滑动时间窗口,然后取第2分钟-第61分钟为第二个滑动时间窗口,以此类推。滑动时间窗口可以根据实际需要设定,如设为60分钟,时间单位设为1分钟。
本模块使用概率统计方法每次动态生成当前滑动时间窗口内的告警数据的置信区间和阈值,随着滑动时间窗口的移动,每次生成的置信区间和阈值有所不同。
判断和预警模块M104,根据统计和阈值生成模块生成的阈值判断当前滑动时间窗口后一条告警消息的类型,如果高于上限阈值为风暴消息则进行风暴预警,如果低于下限阈值为解除风暴消息则解除风暴预警,否则为正常告警消息。
当第1分钟-第60分钟的滑动时间窗口中告警数量的上下限阈值计算出来之后,此步骤判断第61分钟的告警消息类型,进行风暴预警,或者解除风暴预警,或者不预警。
调整滑动时间窗口模块M105,基于当前滑动时间窗口向后滑动一个时间单位,形成下一个滑动时间窗口,转到统计和阈值生成模块。
此装置方案实现了实时生成消息风暴的产生和解除的阈值,采用滑动窗口动态计算,解决了不同网元对于消息风暴产生不同阈值、分别动态生成阈值的问题。
所述告警规则引擎模块M102具体可以包括规则生成模块、规则执行模块、写缓冲区模块;其中,规则生成模块,根据网元模型数据生成网元告警规则;
根据网元模型信息,生成匹配网元的正则表达式描述为如下形式,保存到网元适配文件中:
extract_pattern=$userlabel"网元名称\s*=\s*([^\n]+)\n"
extract_pattern=$object_class"网元类型\s*=\s*(\S+)\s*\n"
extract_pattern=$ne_mark"网元标识\s*=\s*([^\n]+)\n"
所述的正则表达式将相关网元的告警关键信息(比如网元名称、网元类型、告警发生时间等),抽象成模式匹配规则。
规则执行模块,获取源告警信息并执行规则生成模块生成的网元告警规则,得到适配的网元告警消息;如图6收到实时的新告警消息,从新告警信息找出与规则适配的相关网元告警信息,图7是告警正文解析的结果。
写缓冲区模块将所述适配的网元告警消息保存到网元告警数据缓冲区。
将每一个单位时间的网元告警信息按时间顺序写入网元告警缓存区。
例如存入网元数据检索链表,包括网元模型信息和网元相关告警信息。这是一个灵活的便于在尾部增加数据,在头部去掉数据的数据结构,对于本实施例的实现效果突出,方便快捷。
统计和阈值生成模块M103具体可以包括:统计参数获取模块,根据告警规则引擎模块获得的网元告警数据,计算当前滑动时间窗口中的每个时间单位的网元告警数量,并作为统计参数;统计阈值计算模块,将统计参数进行均值计算、标准差计算、置信区间计算,求得置信区间的上下限,得到统计阈值;阈值确定模块,确定当前置信区间的上限为告警风暴的阈值,确定当前置信区间的下限为解除告警风暴的阈值。
在本实施例中,将滑动时间窗口设为1小时,将当前窗口即最近的一个小时中某个网元的告警消息作为总体,统计每分钟的消息量,即总体中包含60个统计参数,N=60。在下一分钟到来后,在时间轴上,将60个统计参数,整体平移1分钟,向右滑动一个窗口,丢弃前面第1分钟的统计值。如此,始终保持最近60分钟的消息量,作为总体。
具体地,如图9所示,上述统计阈值计算模块包括如下三个单元:
均值计算单元231、标准差计算单元232、置信区间判断单元233。
均值,是把总体中所有的观测值求和,除以总体中观察值的个数。计算公式为:
其中Xi是第i分钟的告警消息总数。
以网元CDHSS1为例,最近1小时里,每分钟的告警消息数(60个测量值)的均值为200个。
实验结果在期望值附近的分散程度,由标准差来衡量。
其中μ为总体平均值,N为总体中的观测值的个数。
以网元CDHSS1为例,最近1小时里,每分钟的告警消息数的标准差为103。
根据数理统计,当总体方差已知时,采用z标准正态分布,来构建总体均值的置信区间。总体均值μ的(1-α)置信区间是:
其中α表示显著性水平,是估计总体参数落在某一区间内,可能犯错误的概率。此发明中,设定α=5%,即以95%(1-5%)作为置信度。查标准正态分布表,Z0.05/2=1.96。
置信区间的下限为:
置信区间的上限为:
也就是说,有95%的置信度,每分钟的告警消息量,应该在(172,233)的区间范围内。将置信区间上限233,作为告警风暴的阈值。如果最近1分钟的消息量超过前60分钟的平均值233,那么认为发生了告警风暴。将置信区间下限172,作为解除告警风暴的阈值。如果消息量小于172,则认为告警风暴已经解除。
然后,总体统计值的时间窗口,整体平移1分钟,加入新近1分钟的消息量,去掉前面第1分钟的消息量,重新计算出总体的新的均值和标准差,生成下1分钟的消息量的置信区间。
判断和预警模块M104,还包括:如果告警消息类型为风暴消息则生成风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为解除风暴消息则生成解除风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为正常消息,则输出到普通窗口中显示。。
如图4所示,当告警采集累加最近1分钟的告警消息个数达到240,即超过风暴阈值上限233,为本实施例的风暴告警时直通窗口呈现效果图,可见,由该效果图可以直观的显示风暴消息,从而解决了由于经过其他环节繁琐处理导致消息延迟、大量无用消息在监控台呈现、正常消息无法正常监控、大量占用系统资源的问题。
风暴数量小于置信区间的下限时,则清除掉此网元的风暴预警,通知直通窗口,并自动解除该网元消息的正常解析。如图5所述,为风暴预警解除时直通窗口呈现的效果图。
正常告警消息时启动普通监控窗口。该状态是平时当告警消息风暴没有出现时的普通状态,对正常消息保持着普通监控即可。
进一步地,通知直通监控窗口直接呈现具体为:将预警消息通知监控客户端,触发监控客户端弹出直通监控窗口,将风暴预警消息和/或解除风暴预警消息及发生风暴的网元模型信息在直通监控窗口直接呈现。
本发明实施例通过触发监控客户端自动弹出风暴监控直通窗口,能够及时发送告警风暴预警通知,自动弹出的监控窗口,将消息完整上送,通知监控台。由于绕过其他处理环节,保证了故障的及时监控,从而及时提示使用者处理故障。
根据本发明的又一个方面,优选地,消息风暴除提供了上述触发直通窗口呈现的必选方案外还提供其他两种备选处理方案。
(1)将消息报文存储成文件,待后续处理。
消息风暴发生时,故障管理系统数据压力过大,达到处理瓶颈,将消息报文写入到文件中,待风暴解除后,消息阈值低于阈值时,程序再处理文件中消息报文,从而保证了数据的完整性。
(2)将消息补充属性后存储到数据库。
发生风暴时,风暴预警消息通过直通窗口呈现,未补充资源属性。待风暴解除后,系统自动加载风暴期间的消息数据,进行解析,补充属性,标准化处理,入库保存。
综合本发明的具体实施方式可以看出,本发明解决在保证数据完整型、准确性、有效性的基础上,解决了消息风暴发生时出现的如下问题:
1、大量无意义消息出现在监控台上,影响了监控人员对正常告警的监控。
2、对大量消息的处理,占用了大量系统资源、消耗了大量CPU时间,增加故障监控系统负荷,甚至造成系统瘫痪。
3、对大量无意义消息的处理造成了消息处理内存溢出、消息延迟,告警无法监控到,从而无法处理。
4、由于采集缺少对告警风暴进行一定的预测与风暴告警归并的机制,遇到告警风暴时,整个故障系统处于被动状态。
需要说明的是:
在此提供的算法和显示不与任何特定计算机、虚拟装置或者其它设备固有相关。各种通用装置也可以与基于在此的示教一起使用。根据上面的描述,构造这类装置所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,发明方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的虚拟机的创建装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若对本发明的这些修改和变型属于本发明权利要求及其同等技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种网络设备告警消息风暴的处理方法,其特征在于所述方法包括如下步骤:(1)设定被监控网元,建立网元模型;(2)创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;(3)取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;(4)根据所述告警数量和阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;(5)基于当前滑动时间窗口向后滑动一个时间单位,进入下一个滑动时间窗口,转到上述步骤(3);
所述步骤(3)中的概率统计方法如下:(31)根据步骤(2)获取的网元告警数据,计算当前滑动时间窗口中的每个时间单位的网元告警数量,并作为统计参数;(32)将统计参数进行均值计算、标准差计算、置信区间计算,求得置信区间的上下限,得到统计阈值;(33)确定当前置信区间的上限为告警风暴的阈值,确定当前置信区间的下限为解除告警风暴的阈值。
2.如权利要求1所述的网络设备告警消息风暴的处理方法,其特征在于:所述步骤(4)中判断告警消息类型后进一步的方法为:如果告警消息类型为风暴消息则生成风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为解除风暴消息则生成解除风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为正常消息,则输出到普通窗口中显示。
3.如权利要求2所述的网络设备告警消息风暴的处理方法,其特征在于:所述通知直通监控窗口直接呈现的具体方法为:将风暴预警消息和/或解除风暴预警消息通知监控客户端,触发监控客户端弹出直通监控窗口,将风暴预警消息和/或解除风暴预警消息及发生风暴的网元模型信息在直通监控窗口直接呈现。
4.如权利要求1所述的网络设备告警消息风暴的处理方法,其特征在于:所述步骤(2)的具体过程如下:(21)根据网元模型数据生成网元告警规则;(22)获取源告警信息并执行所述网元告警规则,得到适配的网元告警消息;(23)将适配的网元告警消息保存到网元告警数据缓冲区。
5.如权利要求4所述的网络设备告警消息风暴的处理方法,其特征在于:所述的网元告警数据缓冲区是一个网元告警数据检索链表。
6.如权利要求1所述的网络设备告警消息风暴的处理方法,其特征在于:滑动时间窗口设为1或2小时,时间单位设为半分钟或1分钟。
7.一种网络设备告警消息风暴的处理装置,其特征在于所述装置包括如下模块:网元模型建立模块,用于设定被监控网元,建立网元模型;告警规则引擎模块,用于创建网元告警规则引擎,基于源告警信息实时生成适配规则的网元告警数据;统计和阈值生成模块,取当前滑动时间窗口中的网元告警数据实时统计网元告警数量,使用概率统计方法动态生成置信区间和阈值,所述的滑动时间窗口包括多个顺序的时间单位;判断和预警模块,根据告警数量和统计和阈值生成模块生成的阈值判断当前滑动时间窗口后一条告警消息的类型,如果告警数量高于上限阈值则所述告警消息为风暴消息并进行风暴预警,如果告警数量低于下限阈值则所述告警消息为解除风暴消息并解除风暴预警,否则为正常告警消息;调整滑动时间窗口模块,基于当前滑动时间窗口向后滑动一个时间单位,形成下一个滑动时间窗口,转到统计和阈值生成模块;
统计和阈值生成模块包括:统计参数获取模块,根据告警规则引擎模块获得的网元告警数据,计算当前滑动时间窗口中的每个时间单位的网元告警数量,并作为统计参数;统计阈值计算模块,将统计参数进行均值计算、标准差计算、置信区间计算,求得置信区间的上下限,得到统计阈值;阈值确定模块,确定当前置信区间的上限为告警风暴的阈值,确定当前置信区间的下限为解除告警风暴的阈值。
8.如权利要求7所述的网络设备告警消息风暴的处理装置,其特征在于:所述的判断和预警模块还具有如下功能:如果告警消息类型为风暴消息则生成风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为解除风暴消息则生成解除风暴预警消息,通知直通监控窗口直接呈现;如果告警消息类型为正常消息,则输出到普通窗口中显示。
9.如权利要求7所述的网络设备告警消息风暴的处理装置,其特征在于:所述告警规则引擎模块,包括规则生成模块、规则执行模块、写缓冲区模块;其中,规则生成模块,根据网元模型数据生成网元告警规则;规则执行模块,获取源告警信息并执行所述网元告警规则,得到适配的网元告警消息;写缓冲区模块将所述适配的网元告警消息保存到网元告警数据缓冲区。
10.如权利要求9所述的网络设备告警消息风暴的处理装置,其特征在于:所述的网元告警数据缓冲区是一个网元告警数据检索链表。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611155506.5A CN106656590B (zh) | 2016-12-14 | 2016-12-14 | 一种网络设备告警消息风暴的处理方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611155506.5A CN106656590B (zh) | 2016-12-14 | 2016-12-14 | 一种网络设备告警消息风暴的处理方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106656590A CN106656590A (zh) | 2017-05-10 |
CN106656590B true CN106656590B (zh) | 2019-09-27 |
Family
ID=58822543
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611155506.5A Active CN106656590B (zh) | 2016-12-14 | 2016-12-14 | 一种网络设备告警消息风暴的处理方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106656590B (zh) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109951306B (zh) * | 2017-12-20 | 2022-04-01 | 中国移动通信集团湖北有限公司 | 告警的处理方法、装置、设备及介质 |
CN108734371A (zh) * | 2018-02-12 | 2018-11-02 | 阿里巴巴集团控股有限公司 | 一种针对风控指令的处理方法、装置及设备 |
CN110278100B (zh) * | 2018-03-14 | 2022-04-15 | 中国移动通信集团广东有限公司 | 预警处理的方法、装置、电子设备和存储介质 |
CN110764975B (zh) * | 2018-07-27 | 2021-10-22 | 华为技术有限公司 | 设备性能的预警方法、装置及监控设备 |
CN111181751B (zh) * | 2018-11-12 | 2022-10-18 | 中国移动通信集团广东有限公司 | 一种频闪告警派单控制方法及系统 |
CN109639500A (zh) * | 2018-12-30 | 2019-04-16 | 博立信(洛阳)科技有限公司 | 面向物联网传感应用的实时告警生成方法 |
CN110135603B (zh) * | 2019-05-21 | 2022-11-11 | 国网河南省电力公司信息通信公司 | 一种基于改进熵权法的电力网络告警空间特征分析方法 |
CN112486104B (zh) * | 2019-09-12 | 2022-07-05 | 北京国双科技有限公司 | 基于实时获取传感数据进行设备异常分析的方法及装置 |
CN110928255B (zh) * | 2019-11-20 | 2021-02-05 | 珠海格力电器股份有限公司 | 数据异常统计报警方法、装置、存储介质及电子设备 |
CN111581052B (zh) * | 2020-04-26 | 2023-11-24 | 中国工商银行股份有限公司 | 报警数据的处理方法及装置 |
CN111309565B (zh) * | 2020-05-14 | 2020-08-18 | 北京必示科技有限公司 | 告警处理方法、装置、电子设备以及计算机可读存储介质 |
CN114338435B (zh) * | 2020-09-24 | 2024-02-09 | 腾讯科技(深圳)有限公司 | 网络变更监控方法、装置、计算机设备和存储介质 |
CN113157534A (zh) * | 2021-03-08 | 2021-07-23 | 国能信息技术有限公司 | 一种报警管理方法 |
CN115842708A (zh) * | 2022-10-14 | 2023-03-24 | 广州安思创信息技术有限公司 | 基于时间滑动窗口的业务监控方法、系统、设备及介质 |
CN115913886A (zh) * | 2022-11-15 | 2023-04-04 | 浪潮云信息技术股份公司 | 一种云原生环境下基于滑动窗口的告警方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101098349A (zh) * | 2006-06-27 | 2008-01-02 | 中兴通讯股份有限公司 | 一种网络管理系统和网元管理系统之间的告警计数过滤方法 |
CN101128001A (zh) * | 2006-08-18 | 2008-02-20 | 中兴通讯股份有限公司 | 网元管理系统对振荡告警的处理方法 |
CN101483547A (zh) * | 2009-02-12 | 2009-07-15 | 中国人民解放军信息工程大学 | 一种网络突发事件度量评估方法及系统 |
CN105205568A (zh) * | 2015-10-14 | 2015-12-30 | 广东电网有限责任公司电力调度控制中心 | 告警事务提取方法及系统 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2894813A1 (en) * | 2014-01-08 | 2015-07-15 | Telefonaktiebolaget L M Ericsson (publ) | Technique for creating a knowledge base for alarm management in a communications network |
-
2016
- 2016-12-14 CN CN201611155506.5A patent/CN106656590B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101098349A (zh) * | 2006-06-27 | 2008-01-02 | 中兴通讯股份有限公司 | 一种网络管理系统和网元管理系统之间的告警计数过滤方法 |
CN101128001A (zh) * | 2006-08-18 | 2008-02-20 | 中兴通讯股份有限公司 | 网元管理系统对振荡告警的处理方法 |
CN101483547A (zh) * | 2009-02-12 | 2009-07-15 | 中国人民解放军信息工程大学 | 一种网络突发事件度量评估方法及系统 |
CN105205568A (zh) * | 2015-10-14 | 2015-12-30 | 广东电网有限责任公司电力调度控制中心 | 告警事务提取方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN106656590A (zh) | 2017-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106656590B (zh) | 一种网络设备告警消息风暴的处理方法和装置 | |
WO2020259421A1 (zh) | 一种业务系统的监控方法及装置 | |
CN109269556A (zh) | 一种设备风险预警方法、装置、终端设备及存储介质 | |
CN107766533B (zh) | 话务量异常的自动检测方法及系统、存储介质、电子设备 | |
US8060342B2 (en) | Self-learning integrity management system and related methods | |
EP3024178B1 (en) | Prediction method and device for network performance | |
CN106940677A (zh) | 一种应用日志数据告警方法及装置 | |
EP2720100A1 (en) | Systems and methods for comprehensive alarm management | |
CN109471783B (zh) | 预测任务运行参数的方法和装置 | |
EP2085850B1 (en) | Alarm management apparatus | |
CN101989931A (zh) | 一种运维告警处理方法和装置 | |
CN112615742A (zh) | 用于预警的方法、装置、设备以及存储介质 | |
CN111753875A (zh) | 一种电力信息系统运行趋势分析方法、装置及存储介质 | |
CN105743595A (zh) | 中短波发射机故障预警方法及装置 | |
CN114615134A (zh) | 一种it智能运维监控系统及运维方法 | |
CN111782488A (zh) | 消息队列监控方法、装置、电子设备和介质 | |
CN108039971A (zh) | 一种告警方法及装置 | |
CN110677271A (zh) | 基于elk的大数据告警方法、装置、设备及存储介质 | |
CN111130867A (zh) | 一种基于物联网的智能家居设备告警方法及装置 | |
CN114398222A (zh) | 一种声明式可视化配置Prometheus监控告警的方法 | |
CN111427749B (zh) | 一种openstack环境下针对ironic服务的监控工具及方法 | |
EP3511830A1 (en) | Method for monitoring devices in a network, computerized system and application program interface | |
CN205510066U (zh) | 中短波发射机故障预警装置 | |
CN113254310A (zh) | 服务器监控系统及方法 | |
CN114238069A (zh) | 一种Web应用防火墙测试方法、装置、电子设备、介质及产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |