CN104935456B - 通信网络告警系统的告警消息传输和处理方法 - Google Patents
通信网络告警系统的告警消息传输和处理方法 Download PDFInfo
- Publication number
- CN104935456B CN104935456B CN201510164083.2A CN201510164083A CN104935456B CN 104935456 B CN104935456 B CN 104935456B CN 201510164083 A CN201510164083 A CN 201510164083A CN 104935456 B CN104935456 B CN 104935456B
- Authority
- CN
- China
- Prior art keywords
- alarm
- alarm information
- processing unit
- priority
- alarming processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Landscapes
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
公开了一种通信网络告警系统的告警消息传输和处理方法,当告警消息处理能力下降时,告警处理单元利用过滤规则过滤告警消息队列中的辅告警消息,计算告警消息队列中的过滤后的告警消息的平均优先级,向告警采集单元发送携带有告警消息处理能力下降值和平均优先级的告警消息处理能力下降的通知消息;响应于通知消息,告警采集单元利用名义优先级调整因子来确定它的名义优先级,利用屏蔽规则过滤掉匹配屏蔽规则的告警消息,停止发送优先级低于名义优先级的过滤后的告警消息。本发明在告警消息处理告警能力不足时,保证优先级别高的告警消息的发送和传输,并尽可能地允许告警采集单元发送适量的告警消息,对网络告警消息进行精确控制。
Description
技术领域
本发明涉及网络通信技术,尤其涉及一种通信网络告警系统的告警消息传输和处理方法。
背景技术
通信网络告警系统是通信运营商在运营支撑管理中必不可少的工具。告警的实时采集、响应的及时性以及高可靠性是对告警系统的基本要求。如图1所示,告警系统一般为采集、处理、功能展现的分层模式,即告警系统包括多个系统终端,多个告警处理单元(图中示例性的示出一个)和多个告警采集单元。告警采集单元采集所负责的被管网元的告警消息并上报给告警处理单元,告警处理单元将待处理的告警消息放入到告警消息队列中并且对告警消息队列中的告警消息进行告警分析处理。告警系统还可以包括数据库,用于存储告警消息。
告警处理单元往往管理成百上千个网元经告警采集单元上报的告警消息。一个告警处理单元可以接收和处理来自多个告警采集单元上报的告警消息。一个告警采集单元管理多个网元,各个网元直接或者若干网元组成一组通过网元代理的方式,将网元产生的告警消息发送给该一个告警采集单元,由告警采集单元将告警消息上报给告警采集处理单元进行处理。显然,一个告警处理单元可能处理来自多个告警采集单元的告警消息。
一般来说,告警处理单元的告警接收和处理能力能够应对正常情况的告警消息,但是在一些特殊情况下会产生告警风暴,导致网元的告警发送与告警处理单元的告警接收和处理会严重不对称。例如,网元由于某些原因出现大面积的故障,导致网元的告警数量急剧增加,告警采集单元发送的告警消息也随之大量增加。这就很容易导致网路的堵塞、告警的丢失,以及告警处理单元的告警消息队列中积累的告警消息量过大,从而影响了告警处理的及时性,尤其是对程度严重的重要告警处理的及时性;再比如,告警处理单元部分设备出现故障,告警消息接收和处理的任务转移到尚能正常运行的高兴处理单元设备上,导致某些告警处理单元处理任务大大增加,众多的告警消息拥堵在网路上,或者已接收待处理的告警消息积累和排列过多,也会导致重要告警处理的及时性得不到保证。
为了解决上述问题,现有技术中公开了一种告警消息传输方法,其中,网络侧的服务器根据告警消息的数量超过预定数量值时,根据已接收的所有告警消息的优先级确定一个优先级阈值并将该优先级阈值发送给具有告警消息采集能力的网元设备,网元设备停止向服务器发送低于优先级阈值的告警消息。其中,优先级阈值的确定是一个指定的数值或者是服务器尚未处理的所有告警消息的优先级的平均值。虽然该方法中每个网元设备可以保证在服务器中的告警消息较多时本网元设备中优先级高于优先级阈值的告警消息被发送,但是由于优先级阈值的确定是直接指定一个数值或者是服务器尚未处理的告警消息的优先级的平均值,并没有考虑服务器的当前告警消息处理能力;而且,该现有技术也没有注意到这些尚未处理的告警消息中可能存在可以不考虑处理的辅告警消息。因此,该现有技术的优先级阈值并不能够正确反映故障发生时网络的状况,并且与发生故障时当前告警消息处理能力无关,网元设备根据该优先级阈值来确定不发送的告警消息的方式仍然解决不了在一些特殊情况下产生告警风暴时,导致网路堵塞、告警丢失的问题,从而仍会导致重要告警处理的及时性得不到保证。
同样,为了解决在一些特殊情况下产生告警风暴,导致网元的告警发送与告警处理单元的告警接收和处理会严重不对称的问题,现有技术中还公开了一种网元管理系统和网络管理系统之间过滤告警的方法,其中,网络管理系统向网元管理系统设置告警相关性规则,该告警相关性规则将最能够说明故障根源的告警的特征设为主告警特征,其他的与所述故障相关的告警的特征设为辅告警特征;网元管理系统根据告警相关性规则确定故障时产生的告警为主告警还是辅告警;如果是辅告警,并且辅告警符合告警相关性规则的过滤条件,则不发送该辅告警。该现有技术通过告警相关性规则的应用,阻止了部分辅告警的发送,一定程度降低了故障发生时的告警风暴带来的问题。但是,该现有技术由于是没有考虑网络管理系统的故障处理能力而不发送所有符合告警相关性规则的过滤条件的告警消息,尽管有助于缓解产生告警风暴的可能,但是对于存在大量辅告警消息的情形,则会严重破坏告警消息的完整性,可能导致无法分析故障;对于存在少量辅告警消息的情形,少量辅告警消息的不发送的方式并不能够真正缓解报警风暴的问题。
因此,存在对能够在告警处理单元对告警消息的接收和处理告警能力暂时相对的严重不足时,根据告警处理单元的故障处理能力来保证优先级别高的告警消息的发送和传输处理的告警消息传输和处理技术的需要。
发明内容
本发明的实施例提供了一种通信网络告警系统的告警消息传输和处理方法,用以缓解网路堵塞、告警丢失的问题,并更为及时地处理优先级较高的告警消息。
根据本发明的一个方面,提供了一种通信网络告警系统的告警消息传输和处理方法,所述通信网络告警系统包括用于告警分析的告警处理单元,网元设备和采集所管理的所述网元设备产生的告警消息的告警采集单元,所述方法包括:
当所述告警处理单元按照预定时间周期确定其告警消息处理能力下降时,所述告警处理单元启动预先配置的过滤规则过滤告警消息队列中的辅告警消息,并且计算告警消息队列中的过滤后的所有告警消息的平均优先级,向所述告警采集单元发送携带有告警消息处理能力下降值Vpro和所述平均优先级Pm的告警消息处理能力下降的通知消息;
所述告警采集单元从接收的通知消息中解析出告警消息处理能力下降值Vpro和所述平均优先级Pm,并根据从所管理的网元设备采集的告警消息中最高优先级的告警消息的占比来确定该告警采集单元的名义优先级调整因子β,按照如下公式确定本告警采集单元的名义优先级Pn:
Pn=Pm(1+β×Vpro)(公式1)
其中,β大于等于0小于等于1;
告警采集单元利用预先配置的屏蔽规则过滤掉本告警采集单元的已采集的告警消息中的匹配屏蔽规则的告警消息,同时,停止向告警处理单元发送优先级低于本告警采集单元的名义优先级Pn的过滤后的告警消息。
其中,所述告警处理单元根据如下规则确定告警消息处理能力下降值Vpro:
当所述告警处理单元确定告警消息处理能力下降是由于告警处理单元的故障导致时, (公式2);
当所述告警处理单元确定告警消息处理能力下降是由于网元故障导致时, (公式3);
当所述告警处理单元确定告警消息处理能力下降是由于告警处理单元网络侧故障和网元告警消息增加导致下降时,(公式4);
式中,Alarmnominal为所述告警处理单元预定时间周期内可以处理的额定告警消息数量,所述告警消息队列中的告警消息数量为Length,Alarm表示告警处理单元在预定时间周期内当前可以处理的告警消息数量,Alarm,Length和Alarmnominal均为整数。
其中,所述根据从所管理的网元设备采集的告警消息中最高优先级的告警消息的占比来确定该告警采集单元的名义优先级调整因子β包括:
统计该告警采集单元所采集的所有告警消息的数量以及最高优先级的告警消息的数量;
计算所述告警采集单元中的最高优先级的告警消息的数量相对于该告警采集单元中的所有告警消息的数量的比值;
如果所述比值低于第一调整因子阈值,则确定名义优先级调整因子为:0.2<β≤1;
如果所述比值不低于第一调整因子阈值,则确定名义优先级调整因子为:0≤β≤0.2。
优选地,第一调整因子阈值从20%至30%中选取。
本发明的告警消息传输和处理方法还包括步骤:当所述告警处理单元按照预定时间周期根据告警消息长队列长度确定其告警消息处理能力下降时,所述告警处理单元对告警消息队列中过滤后的告警消息进行告警消息相关性分析,将所述告警消息队列中具有相关性的告警消息作为一组处理。
优选地,所述告警处理单元对告警消息队列中过滤后的告警消息进行告警消息相关性分析,将所述告警消息队列中具有相关性的告警消息作为一组处理包括:判断告警消息队列中的告警消息是否属于相同类型的不同版本的网元产生的告警消息;将属于相同类型的不同版本的网元产生的告警消息作为具有相关性的告警消息作为一组处理。
根据本发明,所述告警处理单元启动预先配置的过滤规则过滤告警消息掉队列中的辅告警消息包括:
所述告警处理单元启动预先为其配置的告警相关性规则,该告警相关性规则将最能说明故障根源的告警特征设为主告警特征,其它的与该故障相关的告警特征设为辅告警特征;
根据所述告警相关性规则判断告警消息队列中的告警消息为主告警消息还是辅告警消息;
判断辅告警消息是否符合告警相关性规则的过滤条件,将符合告警相关性规则的过滤条件的辅告警消息从所述告警消息队列中剔除。
本发明的告警消息传输和处理方法进一步包括步骤:当所述告警处理单元根据告警消息长队列长度确定其告警消息处理能力下降时,所述告警处理单元对告警消息队列中过滤后的告警消息进行告警消息关联性分析,将所述告警消息队列中具有关联性的告警消息作为一组处理。
优选地,所述屏蔽规则为基于告警数据属性的布尔型逻辑表达式,所述告警数据属性包括告警类型、告警位置、告警原因和告警级别。
本发明的告警消息传输和处理方法进一步包括:
当所述告警处理单元按照预定时间周期根据告警消息长队列长度确定其告警消息处理能力恢复时,将告警消息处理能力恢复的通知消息发送给所述告警采集单元;
所述告警采集单元恢复正常发送其所管理的网元设备产生的告警消息。
本发明实施例的通信网络告警系统的告警消息传输和处理方法,在网络侧的告警处理单元或者网元侧的网元发生故障导致告警处理单元的告警消息处理能力下降时,一方面告警处理单元根据告警消息处理能力的下降变化调整对告警消息队列中的告警消息的处理策略以提高告警消息的处理速度,另一方面将反应告警消息处理能力的下降变化的告警消息处理能力下降值Vpro和告警消息队列中的当前所有告警消息的优先级的平均优先级Pm的告警消息处理能力下降的通知消息发送给告警采集单元,使得告警采集单元能够根据告警消息能力下降值Vpro和平均优先级Pm以及反应了该告警采集单元所采集的告警消息中最高优先级的数量状况的名义优先级调整因子β来调整该告警采集单元的名义优先级Pn并且将停止发送优先级低于名义优先级Pn的告警消息。本发明的通信网络告警系统的告警消息传输和处理方法,能够在告警消息处理能力下降变化时,与告警消息处理能力的变化值相适应地在网络侧和网元侧同时对告警消息的处理策略进行调整,从而在网络侧的告警处理单元的告警消息处理告警能力暂时相对的严重不足时,优先保证优先级别高的告警消息的发送和传输,并尽可能地允许告警采集单元发送适量的告警消息,防止或缓解网路堵塞、告警丢失的问题,从而使得网络侧的告警处理单元及时地处理优先级较高的告警消息。
附图说明
图1为本发明的告警消息传输和处理方法所应用的通信网络告警系统;
图2为本发明实施例的告警消息传输和处理方法的流程图;
图3为本发明实施例的告警处理单元检测其告警消息处理能力是否下降的流程图;
图4为本发明的一个实施例的告警处理单元启动预先配置的过滤规则过滤告警消息掉队列中的辅告警消息的流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
本发明通过为网管侧的告警处理单元和网元侧的告警采集单元以及网元设备之间建立一种告警通信协调机制,在网络侧告警处理单元的告警消息处理能力暂时相对的严重不足时,基于告警消息处理能力的变化值,在包括多个告警采集单元和多个网元设备的整个网络上,优先保证优先级别高的告警消息的发送和传输,从而使得网络侧的告警处理单元在及时地处理优先级较高的告警消息的同时,与告警消息处理能力下降变化相适应地保留了告警采集单元上报告警消息的能力,尽可能降低告警处理能力的变化对整个网络的告警消息处理的影响。
网络侧的告警处理单元可以有多个,每一个告警处理单元监测本告警处理单元所接收的待处理的告警消息数量,并将告警消息放入到告警消息队列中。当网元大面积发生故障或者有其它网络侧的告警处理单元出现问题将告警处理转移至本设备上,或者本告警处理单元发生部分故障时,会发生待处理的告警消息数量急剧增的情况,即遇到了告警风暴,有可能使得功能正常的告警处理单元接收和处理告警能力出现严重不足的情况。根据待处理的告警消息数量、在预定的时间周期内该告警处理单元当年能够处理的告警消息的数量Alarm、该告警处理单元在预定的时间周期内能够处理的额定告警消息数量,确定告警消息处理能力下降变化值。适应于告警消息处理能力下降变化,网络侧的告警处理单元和网元侧的告警采集单元共同启动临时的告警消息管控机制:告警处理单元启动预先配置的过滤规则过滤告警消息队列中的辅告警消息,将包含告警消息处理能力下降值和告警消息队列中的告警消息的平均优先级的通知消息发送给告警采集单元;告警采集单元利用通知消息中的信息确定本告警采集单元的名义优先级Pn,并停止发送优先级低于名义优先级Pn的告警消息。因此,本发明可以防止或缓解网路堵塞、告警丢失的问题,并同时使得各网元设备中不能够发送给告警处理单元的告警消息是适应于告警消息处理能力的变化而确定的,从而在发生告警消息处理能力下降的情况下,一方面可以使得高优先级的告警消息可以正常被处理,另一方面尽可能在告警处理单元的处理能力范围内将尽可能多的告警消息发送给告警处理单元。
下面结合附图详细说明本发明实施例的技术方案。本发明中,通信网络告警系统依然采用如图1所示的结构。即,告警系统包括多个系统终端,多个告警处理单元(图中示例性的示出一个)和多个告警采集单元。告警采集单元采集所负责的被管网元的告警消息并上报给告警处理单元,告警处理单元将待处理的告警消息放入到告警消息队列中并且对告警消息队列中的告警消息进行告警分析处理。告警系统还可以包括数据库(未示出),用于存储所接收的告警消息。本发明中,告警消息的内容至少包含:告警编号、告警优先级、告警产生时间、告警对象ID、告警对象类型、网元版本和消息类型等。告警消息在告警采集单元中的消息发送列表中的排列顺序是按照告警产生的时间先后或者其它策略生成的顺序。
在一些特殊情况下若产生告警风暴,导致网元侧的告警发送与网管侧的告警接收和处理会严重不对称。例如,网元设备发送的告警消息大量增加,或者网管侧部分设备出现故障,网管侧的其它设备的处理任务,如待处理的告警消息被转移到告警处理单元,或者告警处理单元由于部分故障不能以正常能力处理告警消息,从而导致告警消息队列中的待处理的告警消息的数量大大增加。
为了在告警处理单元的告警消息处理能力下降变化时,防止、缓解网路堵塞、告警丢失的问题,以及重要告警处理的及时性得不到保证的问题,本发明提供了一种通信网络的告警消息传输和处理方法的实施例,如图2所示。
根据本发明的实施例,通信网络的告警消息传输和处理方法的流程起始于步骤200。告警处理单元按照预定的时间周期检测其告警消息处理能力是否下降,步骤202。根据本发明的实施例,每一个告警消息处理单元都预先设置有在预定时间周期内可以处理的额定告警消息数量Alarmnominal,额定告警消息数量的设置对于本领域技术人员而言是熟知的。预定的时间周期内,告警处理单元检测告警消息队列中的告警消息的数量Length,并确定其在预定时间周期内的当前可以处理的告警消息数量Alarm。对于本领域技术人而言,告警消息处理单元在预定时间周期内的当前可以处理的告警消息数量Alarm可以是实际检测的,也可以是按照一定的规则设置的具体数值。例如,可以按照时间段来设置在每一个时间段内的当前可以处理的告警消息数量。如果在预定的时间周期内,确定当前可以处理的告警消息数量Alarm小于额定告警消息数量Alarmnominal,或者确定额定告警消息数量Alarmnominal小于告警消息队列中的告警消息的数量,或者确定了当前可以处理的告警消息数量Alarm小于额定告警消息数量Alarmnominal,并且同时确定额定告警消息数量Alarmnominal小于告警消息队列中的告警消息的数量,则确定告警消息处理能力下降了。
在步骤204,当告警处理单元按照预定时间周期根据告警消息长队列长度确定其告警消息处理能力下降时,告警处理单元启动预先配置的过滤规则过滤告警消息掉队列中的辅告警消息,并且计算告警消息队列中的过滤后的所有告警消息的平均优先级。过滤规则的定义以及过滤规则的预先配置将在下文中详述。本实施例中,告警处理单元启动预先配置的过滤规则过滤告警消息掉队列中的辅告警消息,能够避免对告警消息队列中的辅告警消息进行处理,并且消除辅告警消息对平均优先级的影响。本实施例中,告警处理单元仅仅是在告警消息处理能力下降时过滤掉辅告警消息,而在其他时候则不过滤掉辅告警消息,从而在兼顾应对网络故障导致告警消息处理能力下降的同时尽可能的保证告警消息的完整性,更利于对网络故障进行全面地完整分析。
可选的,不进行告警处理单元启动预先配置的过滤规则过滤告警消息掉队列中的辅告警消息的操作,直接计算告警消息队列中的所有告警消息的平均优先级。
在步骤206,告警消息处理单元向告警采集单元发送携带有告警消息处理能力下降值Vpro和平均优先级Pm的告警消息处理能力下降的通知消息。
在步骤208,告警采集单元根据接收的通知消息中的告警消息处理能力下降值Vpro和平均优先级Pm以及该告警采集单元的名义优先级调整因子β确定名义优先级Pn。具体地,告警采集单元从接收的通知消息中解析出告警消息处理能力下降值Vpro和平均优先级Pm,并且根据从所管理的网元设备采集的告警消息中最高优先级的告警消息的占比来确定该告警采集单元的名义优先级调整因子β,然后按照公式1确定本告警采集单元的名义优先级Pn:
Pn=Pm(1+β×Vpro)(公式1)
其中,β大于等于0小于等于1。
根据本发明的实施例,告警采集单元通过以下步骤确定该告警采集单元的名义优先级调整因子β。首先,告警采集单元统计该告警采集单元所采集的所有告警消息的数量以及最高优先级的告警消息的数量。显然,最高优先级的告警消息是需要尽快被处理的。其次,告警采集单元计算本告警采集单元中的最高优先级的告警消息的数量相对于该告警采集单元中的所有告警消息的数量的比值。接下来,如果所述比值低于第一调整因子阈值,则表明告警消息中的最高优先级的告警消息并不是太多,说明该告警采集单元中不需要紧急处理的告警消息很多,此时可以尽可能少的发送该告警采集单元中的告警消息,故可以确定名义优先级调整因子为0.2<β≤1;如果所述比值不低于第一调整因子阈值,说明该告警采集单元中需要紧急处理的最高优先级的告警消息较多,应当在可能的情况下多发送该告警采集单元中的告警消息,则确定名义优先级调整因子为0≤β≤0.2。
显然,根据本发明的实施例,如果有多个告警采集单元,则每一个告警采集单元都可以独立确定它的名义优先级调整因子,而与其它的告警采集单元无关。
根据本发明的实施例,第一调整因子阈值的取值在20%至30%之间。第一调整因子阈值的具体数值可以根据通信网络告警处理系统的整体告警消息负载来选择,也可以通过试验数据来确定。
显然,本发明在告警处理单元的告警消息处理能力下降时,在确定告警采集单元的名义优先级以确定哪些告警消息不应当发送时,既利用了告警处理单元的告警消息能力下降的信息,也利用了告警采集单元中反映最高优先级告警消息数量多少的优先级调整因子的信息来确定告警采集单元的名义优先级,故而名义优先级的确定能够很好地反映告警处理系统的当前状况,能够在确保最高优先级的告警消息被处理的同时,使得尽可能多的告警消息也被发送到告警处理单元以得到处理,因而更好地应对网络故障导致的告警风暴。
接下来,在步骤210,告警采集单元利用预先配置的屏蔽规则过滤掉本告警采集单元的已采集的告警消息中的匹配屏蔽规则的告警消息,同时,停止向告警处理单元发送优先级低于本告警采集单元的名义优先级Pn的过滤后的告警消息。本实施例中,在告警处理单元的告警消息处理能力下降的情况下,告警采集单元启用屏蔽规则来过滤掉一些告警消息,能够进一步减少需要发送给告警采集单元上报的告警消息数量。可选地,被屏蔽规则过滤的告警消息存储在告警采集单元的本地缓存中,并且在告警处理单元的告警消息处理能力恢复时将被屏蔽规则过滤的告警消息发送给告警处理单元。
本发明的实施例中,所述屏蔽规则为基于告警数据属性的布尔型逻辑表达式,所述告警数据属性包括告警类型、告警位置、告警原因和告警级别。
如果告警处理单元的处理能力没有恢复,则维持步骤210的操作。如果告警处理单元的告警消息处理能力恢复,则流程进行到步骤212。在步骤212,告警处理单元将告警消息处理能力恢复的通知消息发送给所述告警采集单元。响应于告警消息处理能力恢复通知消息,告警采集单元恢复正常发送其所管理的网元设备产生的告警消息给告警处理单元,步骤214。
可选地,根据本发明的实施例,当告警处理单元按照预定时间周期根据告警消息长队列长度确定其告警消息处理能力下降时,进一步包括步骤216。在步骤216,告警处理单元对告警消息队列中过滤后的告警消息进行告警消息关联分析,将所述告警消息队列中具有关联的告警消息作为一组处理。具体地,告警处理单元依据告警消息中的网元版本、告警对象类型判断告警消息队列中的告警消息是否属于相同类型的不同版本的网元产生的告警消息,然后将属于相同类型的不同版本的网元产生的告警消息作为具有关联的告警消息作为一组处理。本发明的实施例中,由于还对告警消息队列中过滤后的告警消息进行告警消息关联分析,将所述告警消息队列中具有相关性的告警消息作为一组处理,能够在告警消息处理能力下降时,进一步提高告警消息队列中的告警消息的处理速度,有利于缓解告警消息处理能力下降带来的告警消息网络拥塞。
图3示出了告警处理单元按照预定的时间周期检测其告警消息处理能力是否下降的流程图。在步骤302,告警处理单元检测告警消息队列中的告警消息的数量Length。在步骤304,确定其在预定时间周期内的当前可以处理的告警消息数量Alarm。如前所述,告警消息处理单元在预定时间周期内的当前可以处理的告警消息数量Alarm可以是实际检测的,也可以是按照一定的规则设置的具体数值。在步骤306,告警处理单元根据当前可以处理的告警消息数量Alarm、告警消息队列中的告警消息的数量Length和额定告警消息数量Alarmnominal按照一定规则确定告警消息处理能力下降值。具体地,当所述告警处理单元确定告警消息处理能力下降是由于告警处理单元的故障导致时,(公式2);当所述告警处理单元确定告警消息处理能力下降是由于网元故障导致时,(公式3);当告警处理单元确定告警消息处理能力下降是由于告警处理单元网络侧故障和网元告警消息增加导致下降时,(公式4)。其中,本发明中,Alarm,Length和Alarmnominal均为整数。步骤302至306在每一个预定的时间周期内都被执行。
图4示出了本发明的告警处理单元启动预先配置的过滤规则过滤告警消息掉队列中的辅告警消息的详细处理过程。具体地,当所述告警处理单元按照预定时间周期根据告警消息长队列长度确定其告警消息处理能力下降时,在步骤402,告警处理单元启动预先为其配置的告警相关性规则,该告警相关性规则将最能说明故障根源的告警特征设为主告警特征,其它的与该故障相关的告警特征设为辅告警特征。对于本领域技术人员而言,告警相关性规则及其配置方式是已知的,在此不再赘述。在步骤404,告警处理单元根据告警相关性规则判断告警消息队列中的告警消息为主告警消息还是辅告警消息。在步骤406,告警处理单元判断辅告警消息是否符合告警相关性规则的过滤条件,将符合告警相关性规则的过滤条件的辅告警消息从告警消息队列中剔除。本发明的实施例中,当告警处理单元按照预定时间周期根据告警消息长队列长度确定其告警消息处理能力下降时,由于启动预先配置的过滤规则过滤告警消息掉队列中的辅告警消息,能够在告警消息处理能力下降时,进一步提高告警消息队列中的告警消息的处理速度,有利于缓解告警消息处理能力下降带来的告警消息网络拥塞。
与现有技术相比,本发明实施例通过监测网管侧的告警处理单元的告警消息处理能力,在预定时间周期内告警消息处理能力下降时,一方面告警处理单元根据告警消息处理能力的下降变化调整对告警消息队列中的告警消息的处理策略以提高告警消息的处理速度,另一方面将反应告警消息处理能力的下降变化的告警消息处理能力下降值Vpro和告警消息队列中的当前所有告警消息的优先级的平均优先级Pm的告警消息处理能力下降的通知消息发送给告警采集单元,使得告警采集单元能够根据告警消息能力下降值Vpro和平均优先级Pm以及反应了该告警采集单元所采集的告警消息中最高优先级的数量状况的名义优先级调整因子β来调整该告警采集单元的名义优先级Pn并且将停止发送优先级低于名义优先级Pn的告警消息。因此,本发明能够在告警消息处理能力下降变化时,与告警消息处理能力的变化值相适应地在网络侧和网元侧同时对告警消息的处理策略进行调整,从而在网络侧的告警处理单元的告警消息处理告警能力暂时相对的严重不足时,优先保证优先级别高的告警消息的发送和传输,并尽可能地允许告警采集单元发送适量的告警消息,防止或缓解网路堵塞、告警丢失的问题,从而使得网络侧的告警处理单元及时地处理优先级较高的告警消息。与现有技术相比,本发明实现的是在整个网络告警系统中所有设备之间的一个协调平衡,保证的是告警消息处理能力相对不足时,整个网络告警系统中严重程度高的告警消息能够得到最及时的处理,并且尽可能地在告警处理能力的条件下发送更多的告警消息,使得对告警消息进行较为精确的控制。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读取存储介质中,如:ROM/RAM、磁碟、光盘等。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种用于通信网络告警系统的告警消息传输和处理方法,其特征在于,所述通信网络告警系统包括用于告警分析的告警处理单元,网元设备和采集所管理的所述网元设备产生的告警消息的告警采集单元,所述方法包括:
当所述告警处理单元按照预定时间周期确定其告警消息处理能力下降时,所述告警处理单元启动预先配置的过滤规则过滤告警消息队列中的辅告警消息,并且计算告警消息队列中的过滤后的所有告警消息的平均优先级,向所述告警采集单元发送携带有告警消息处理能力下降值Vpro和所述平均优先级Pm的告警消息处理能力下降的通知消息;
所述告警采集单元从接收的通知消息中解析出告警消息处理能力下降值Vpro和所述平均优先级Pm,并根据从所管理的网元设备采集的告警消息中最高优先级的告警消息的占比来确定该告警采集单元的名义优先级调整因子β,按照如下公式确定本告警采集单元的名义优先级Pn:
Pn=Pm(1+β×Vpro)(公式1)
其中,β大于等于0小于等于1;
告警采集单元利用预先配置的屏蔽规则过滤掉本告警采集单元的已采集的告警消息中的匹配屏蔽规则的告警消息,同时,停止向告警处理单元发送优先级低于本告警采集单元的名义优先级Pn的过滤后的告警消息。
2.如权利要求1所述的告警消息传输和处理方法,其特征在于,所述告警消息处理能力下降值Vpro由所述告警处理单元根据如下规则确定:
当所述告警处理单元确定告警消息处理能力下降是由于告警处理单元的故障导致时, (公式2);
当所述告警处理单元确定告警消息处理能力下降是由于网元故障导致时, (公式3);
当所述告警处理单元确定告警消息处理能力下降是由于告警处理单元网络侧故障和网元告警消息增加导致下降时,(公式4);
式中,Alarmnominal为所述告警处理单元预定时间周期内可以处理的额定告警消息数量,所述告警消息队列中的告警消息数量为Length,Alarm表示告警处理单元在预定时间周期内当前可以处理的告警消息数量,Alarm,Length和Alarmnominal均为整数。
3.如权利要求1所述的告警消息传输和处理方法,其特征在于,所述根据从所管理的网元设备采集的告警消息中最高优先级的告警消息的占比来确定该告警采集单元的名义优先级调整因子β包括:
统计该告警采集单元所采集的所有告警消息的数量以及最高优先级的告警消息的数量;
计算所述告警采集单元中的最高优先级的告警消息的数量相对于该告警采集单元中的所有告警消息的数量的比值;
如果所述比值低于第一调整因子阈值,则确定名义优先级调整因子为:0.2<β≤1;
如果所述比值不低于第一调整因子阈值,则确定名义优先级调整因子为:0≤β≤0.2。
4.如权利要求3所述的告警消息传输和处理方法,其特征在于,第一调整因子阈值从20%至30%中选取。
5.如权利要求1所述的告警消息传输和处理方法,其特征在于,进一步包括步骤:
当所述告警处理单元按照预定时间周期确定其告警消息处理能力下降时,所述告警处理单元对告警消息队列中过滤后的告警消息进行告警消息相关性分析,将所述告警消息队列中具有相关性的告警消息作为一组处理。
6.如权利要求5所述的告警消息传输和处理方法,其特征在于,所述告警处理单元对告警消息队列中过滤后的告警消息进行告警消息相关性分析,将所述告警消息队列中具有相关性的告警消息作为一组处理包括:
判断告警消息队列中的告警消息是否属于相同类型的不同版本的网元产生的告警消息;
将属于相同类型的不同版本的网元产生的告警消息作为具有相关性的告警消息作为一组处理。
7.如权利要求1所述的告警消息传输和处理方法,其特征在于,所述告警处理单元启动预先配置的过滤规则过滤告警消息掉队列中的辅告警消息包括:
所述告警处理单元启动预先为其配置的告警相关性规则,该告警相关性规则将最能说明故障根源的告警特征设为主告警特征,其它的与该故障相关的告警特征设为辅告警特征;
根据所述告警相关性规则判断告警消息队列中的告警消息为主告警消息还是辅告警消息;
判断辅告警消息是否符合告警相关性规则的过滤条件,将符合告警相关性规则的过滤条件的辅告警消息从所述告警消息队列中剔除。
8.如权利要求1所述的告警消息传输和处理方法,其特征在于,所述屏蔽规则为基于告警数据属性的布尔型逻辑表达式,所述告警数据属性包括告警类型、告警位置、告警原因和告警级别。
9.如权利要求1所述的告警消息传输和处理方法,其特征在于,进一步包括:
当所述告警处理单元按照预定时间周期根据告警消息长队列长度确定其告警消息处理能力恢复时,将告警消息处理能力恢复的通知消息发送给所述告警采集单元;
所述告警采集单元恢复正常发送其所管理的网元设备产生的告警消息。
10.如权利要求9所述的告警消息传输和处理方法,其特征在于,利用预先配置的屏蔽规则过滤掉的告警消息被存储在所述告警采集单元的缓存中;和
当所述告警处理单元的告警消息处理能力恢复时,告警采集单元将存储在缓存中的告警消息发送给告警处理单元。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510164083.2A CN104935456B (zh) | 2015-04-08 | 2015-04-08 | 通信网络告警系统的告警消息传输和处理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510164083.2A CN104935456B (zh) | 2015-04-08 | 2015-04-08 | 通信网络告警系统的告警消息传输和处理方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104935456A CN104935456A (zh) | 2015-09-23 |
CN104935456B true CN104935456B (zh) | 2016-01-20 |
Family
ID=54122433
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510164083.2A Expired - Fee Related CN104935456B (zh) | 2015-04-08 | 2015-04-08 | 通信网络告警系统的告警消息传输和处理方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104935456B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10277487B2 (en) * | 2015-10-09 | 2019-04-30 | Google Llc | Systems and methods for maintaining network service levels |
CN105791015B (zh) * | 2016-03-09 | 2018-10-26 | 浪潮天元通信信息系统有限公司 | 基于高可用消息传输通道的分布式告警处理系统及方法 |
CN107124318A (zh) * | 2017-06-02 | 2017-09-01 | 郑州云海信息技术有限公司 | 一种告警转发方法和装置 |
CN109818710A (zh) * | 2017-11-21 | 2019-05-28 | 中移(杭州)信息技术有限公司 | 一种数据传输方法及对应装置 |
CN110365631B (zh) * | 2018-04-11 | 2023-07-25 | 视联动力信息技术股份有限公司 | 一种数据处理方法和视联网系统 |
CN110086656B (zh) * | 2019-04-02 | 2022-03-01 | 武汉烽火技术服务有限公司 | 基于告警维护延缓度的通信网告警数据分析方法及系统 |
CN113132144B (zh) * | 2019-12-31 | 2022-05-31 | 华为技术有限公司 | 一种告警处理方法、装置以及存储介质 |
CN115471983B (zh) * | 2022-05-30 | 2024-01-30 | 北京罗克维尔斯科技有限公司 | 告警处理方法、装置、电子设备、车辆和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101374077A (zh) * | 2008-10-20 | 2009-02-25 | 中兴通讯股份有限公司 | 一种网管系统中告警前转实现方法及系统 |
CN102368714A (zh) * | 2011-11-09 | 2012-03-07 | 华为技术有限公司 | 一种网络告警的处理方法、装置及其系统 |
-
2015
- 2015-04-08 CN CN201510164083.2A patent/CN104935456B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101374077A (zh) * | 2008-10-20 | 2009-02-25 | 中兴通讯股份有限公司 | 一种网管系统中告警前转实现方法及系统 |
CN102368714A (zh) * | 2011-11-09 | 2012-03-07 | 华为技术有限公司 | 一种网络告警的处理方法、装置及其系统 |
Also Published As
Publication number | Publication date |
---|---|
CN104935456A (zh) | 2015-09-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104935456B (zh) | 通信网络告警系统的告警消息传输和处理方法 | |
CN102088363B (zh) | 告警处理方法和系统 | |
CN103544093B (zh) | 监控报警控制方法及其系统 | |
US7504936B2 (en) | Method and apparatus for dynamically prioritize network faults based on real-time service degradation | |
CN110661659A (zh) | 一种告警方法、装置、系统及电子设备 | |
CN112631761B (zh) | 一种任务调度监控方法和装置 | |
CN103166778A (zh) | 一种故障自动化智能处理方法及其装置 | |
CN101656013A (zh) | 一种车载监控报警终端、系统及报警方法 | |
CN104753700A (zh) | 告警风暴处理方法以及告警风暴处理系统 | |
CN102547807A (zh) | 一种移动通讯设备故障的检测方法及系统 | |
CN110677480B (zh) | 一种节点健康管理方法、装置和计算机可读存储介质 | |
CN101247254B (zh) | 一种抑止告警风暴的方法和装置 | |
CN113141410B (zh) | 动态调节的qps控制方法、系统、设备及存储介质 | |
CN101409638B (zh) | 一种分布式业务系统故障告警的方法、系统和装置 | |
CN104104542B (zh) | 一种基于rs485的实时智能排障方法 | |
CN109495530A (zh) | 一种实时交通数据传输方法、传输装置及传输系统 | |
CN105512788A (zh) | 一种智能运维管理方法及系统 | |
CN102195791A (zh) | 一种告警的分析方法、装置及系统 | |
CN106878038A (zh) | 一种通信网络中故障定位方法及装置 | |
CN101018163A (zh) | 告警处理方法和后台管理装置 | |
CN101247265A (zh) | 一种告警处理方法、装置和系统 | |
CN108039971A (zh) | 一种告警方法及装置 | |
CN103701657A (zh) | 用于不间断运行的数据处理系统的异常监控及处理装置和方法 | |
CN109783310A (zh) | It设备的多维动态安全监控方法及其监控装置 | |
CN101854263B (zh) | 网络拓扑的分析处理方法、系统和管理服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C41 | Transfer of patent application or patent right or utility model | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20151221 Address after: 200061 Putuo District, Zhongshan North Road, No. 3663, Applicant after: Xiong Ying Address before: 100081 room 1319, building 683, science and technology building, No. 5 South Main Street, Beijing, Haidian District, Zhongguancun Applicant before: Tai Ping (Beijing) technology Bonte Co. Ltd. |
|
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20160120 Termination date: 20170408 |
|
CF01 | Termination of patent right due to non-payment of annual fee |