CN107979495A

CN107979495A - 一种网管系统中告警风暴的梯度处理方法

Info

Publication number: CN107979495A
Application number: CN201711258851.6A
Authority: CN
Inventors: 龙世英; 张刚印
Original assignee: Si Kai Wen Software Technology (guangdong) Co Ltd
Current assignee: NEXWISE INTELLIGENCE CHINA Ltd.
Priority date: 2017-12-04
Filing date: 2017-12-04
Publication date: 2018-05-01
Anticipated expiration: 2037-12-04
Also published as: CN107979495B

Abstract

本发明涉及网络通信领域，提出的网管系统中告警风暴的梯度处理方法包括：采集并将网元的原始告警；对原始告警进行告警格式处理，获得格式统一的告警，其次根据轻微告警过滤规则全局过滤轻微告警，再次将时间异常的告警记载到异常告警数据库并过滤，并在发生告警的网元告警开关开启时将该告警上报至告警服务器；告警服务器接收采集服务器的所有告警，将异常设备告警记载到异常告警数据库并过滤，对于正常设备告警进行个性过滤、瞬告处理、告警关联、预处理后上报集中告警。本发明的原始告警格式统一化可快速定位设备问题，并通过轻微告警全局过滤、时间异常告警过滤和升板、升级产生的告警过滤共三层阈值来控制正常告警风暴，提高告警的处理效果。

Description

一种网管系统中告警风暴的梯度处理方法

技术领域

本发明涉及网络通信领域，特别涉及一种网管系统中告警风暴的梯度处理方法。

背景技术

电信行业中，网元（即网络设备）发生故障时会以告警的形式上报到专业网管，经专业网管处理后再上报集中告警系统派单处理。告警风暴是指：网元或网络设备厂家发生网管异常时，短时间内产生并上报大量告警，造成专业网管的告警服务器阻塞，影响其他网元的告警正常上报。目前解决此问题的方法有：检测告警接口（即采集源）的实时流量，根据告警接口流量判断是否产生告警风暴，如风暴在可控范围内，则将此接口的告警切换至风暴处理通道；如超出可控范围，则直接丢弃风暴告警。

申请号为200910244191.5名称为“一种告警风暴的处理方法及处理装置”的中国发明申请虽然可以避免监控客户端的告警积压，但仍然存在一些问题：（1）下层网管或者网元的机型很多，但当前每种设备上报的告警格式都不同，维护人员处理起来非常麻烦。（2）以告警接口一分钟内的告警条数与门限阈值做比较来判断告警风暴不够严密。（3）告警风暴产生的原因大致包括：A、网管接口异常，重启后上报历史告警；B、网元或网管升板、升级的情况； C、网元无法自行恢复和压缩，出现故障后频繁告警；D、发生重大网络故障，多个网元同时产生大量告警。上述中国发明申请并未针对性解决这几种告警风暴产生的情况。

发明内容

本发明的实施方式旨在至少解决现有技术中存在的技术问题之一。为此，本发明的实施方式需要提供一种网管系统中告警风暴的梯度处理方法。

本发明实施方式的网管系统中告警风暴的梯度处理方法，用于管理网元告警的网管系统与集中告警系统通信连接，其特征在于，网管系统包括采集服务器和告警服务器；采集服务器包括带有采集接口的采集进程和处理进程，采集进程通过采集接口与网元通信连接，告警服务器分别与采集服务器、集中告警系统通信连接；

该方法包括：

步骤11，采集进程采集并将网元的原始告警发送至处理进程；

步骤12，处理进程首先接收原始告警并进行告警格式处理，获得告警格式统一的告警，其次根据预设的轻微告警过滤规则全局过滤轻微告警，再次将时间异常的告警记载到异常告警数据库并过滤，并在发生告警的网元的告警开关不处于关闭状态时将该告警上报至告警服务器；

步骤21，告警服务器接收采集服务器的所有告警，将异常设备告警记载到异常告警数据库并过滤，然后将当前未被过滤的告警上报集中告警系统。

一种实施方式中，采集服务器包括用于监控采集接口的监控进程，该方法还包括：

步骤13，监控进程监控并进行异常情况处理，其中，该异常情况包括采集接口对接的网元的异常情况或采集接口的异常情况；

步骤14，监控进程将除被处理的异常情况外的告警发送至告警服务器。

一种实施方式中，采集进程通过采集接口对接第一网元，步骤13包括：若监控进程检测到采集接口对接的第一网元的第一标题的告警数据流量超过预设的第一流量阈值时，则监控进程通知处理进程过滤第一网元第一标题的告警。

一种实施方式中，集进程通过采集接口对接第二网元，步骤13包括：若监控进程检测到采集接口对接的第二网元的告警数据流量超过预设的第二流量阈值时，则监控进程通知处理进程过滤第二网元的告警。

一种实施方式中，步骤13包括：若监控进程检测到采集接口的告警数据流量超过预设的第三流量阈值时，则监控进程通知处理进程过滤该采集接口的告警。

一种实施方式中，采集进程通过采集接口对接第四网元，步骤13包括：若监控进程检测到第四网元上报的告警时间异常或该采集接口在预设的第一时间内存在告警时间异常的网元的数量超过预设的第一数量阈值时，则向维护人员发出检查网元的检查通知。

一种实施方式中，该方法还包括：步骤31，告警服务器接收正常设备告警。

一种实施方式中，该方法还包括：

步骤32，告警服务器根据预设的个性化过滤规则对正常设备告警进行过滤。

一种实施方式中，步骤32之后该方法还包括：

步骤33，告警服务器根据预设的瞬告过滤规则对正常设备告警进行瞬告过滤处理，包括：将在预设的第二时间内可自动恢复的告警作为瞬时告警过滤，但网元在预设的第三时间内的同类瞬时告警超过预设的第二阈值数量，则将该同类瞬时告警汇总不过滤；其中，第三时间大于第二时间。

一种实施方式中，步骤33之后该方法还包括：步骤34，告警服务器将符合映射关系的告警进行告警关联，将关联的告警中优先级最高的告警作为主告警并将除最高优先级之外的其他告警作为主告警的附加内容，并进行网元常见故障的告警预处理后再由告警服务器上报告警至集中告警系统；

其中，常见故障的告警预处理包括：告警服务器确认网元的状态不正常时，对该状态不正常的网元先进行闭塞处理再进行解闭塞处理，然后确认网元的状态恢复为正常时，对状态不正常的网元对应的告警进行过滤。

本发明实施方式的网管系统中告警风暴的梯度处理方法，将网元的原始告警格式统一化，可以方便维护人员快速定位发生告警的设备的问题，然后借由时间异常告警过滤处理非重大故障引起的下层网管重启后上报的大量历史告警，对于升板、升级产生的告警风暴可以通过网元的告警开关状态确认来解决，提高告警风暴的处理效果。

本发明的附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明的实施方式的上述和/或附加的方面和优点从结合下面附图对实施方式的描述中将变得明显和容易理解，其中：

图1是本发明实施方式的网管系统的组成示意图；

图2是本发明实施方式的网管系统中告警风暴的梯度处理方法的一个流程示意图；

图3是本发明实施方式的网管系统中告警风暴的梯度处理方法的另一个流程示意图。

具体实施方式

下面详细描述本发明的实施方式，实施方式的示例在附图中示出，其中相同或类似的标号自始至终表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的，仅可用于解释本发明的实施方式，而不能理解为对本发明的实施方式的限制。

请参阅图1和图2，图1是本发明实施方式的网管系统的组成示意图，图2是本发明实施方式的网管系统中告警风暴的梯度处理方法的一个流程示意图。本发明实施方式中，网管系统用于管理网元告警，网管系统与集中告警系统通信连接，网管系统包括采集服务器和告警服务器；采集服务器包括带有采集接口的采集进程和处理进程，采集进程通过采集接口与网元通信连接，告警服务器分别与采集服务器、集中告警系统通信连接。

该实施方式中，网管系统中告警风暴的梯度处理方法包括：

步骤11，采集进程采集并将网元的原始告警发送至处理进程。采集进程负责与网元对接，采集并完成原始告警的存储，同时将采集的原始告警发送至处理进程。

步骤12，处理进程首先接收原始告警并进行告警格式处理，获得告警格式统一的告警，其次根据预设的轻微告警过滤规则全局过滤轻微告警，再次将时间异常的告警进行过滤入库，并在发生告警的网元的告警开关不处于关闭状态时将该告警上报至告警服务器。

步骤21，告警服务器接收采集服务器发送的告警，将异常设备告警记载到异常告警数据库，然后确定是否将告警上报集中告警系统。

在步骤12中，处理进程收到原始告警后，首先对原始告警进行告警格式处理，获得告警格式统一的告警。当前下层的网管或者网元的机型很多，每种设备上报带告警格式都不同。本实施方式中告警格式处理将告警相关参数统一化，告警参数通常包括：

网络类型，即告警所归属的大网络，例如无线网、话务网、移动智能网、信令网；设备所属地市；

发生告警的设备名称；

设备类型；

设备机型；

定位信息，即定位到告警的板卡位置信息；

告警标题，即告警简要信息的提取；

告警发生时间，即告警信息中告警产生的时间；

告警清除时间；

告警清除人；

告警清除类型；

告警类型，即设备告警、服务质量告警、通信告警、环境告警、处理失败告警、网管系统自身告警或性能告警等；

告警重新定义类型，即PCM告警、基站中断告警等；

告警原始级别，即告警原始信息中包括的原始级别，包括：紧急告警（以英文Critical表示）、主要告警（以英文Major表示）、次要告警（以英文Minor表示）、警告告警（以英文Warning表示）；

告警重定义级别，即用户根据维护需要，在网管系统中重新定义告警带级别；

告警频次，即重复发生同一告警的产生次数；

消息类型，即用于告警恢复，包括未恢复和已恢复；

告警可能原因，即告警产生的预计原因，通过事先配置或关联分析获得产生告警的预计原因；

设备告警号，即发生告警的设备原始告警的流水号或报告号；

告警详细信息，即网元上报的原始告警报文的详细内容。

在步骤12中，告警格式处理可以将原始告警依据上述告警参数中任意一个或多个参数的组合形成期望的告警格式统一的告警，以便维护人员快速定位发生告警的网元/网管存在的问题。

获得告警格式统一的告警后，可以根据预设的轻微告警过滤规则全局过滤轻微告警，比如某些告警性质属于无用或者轻微的告警，则可以根据预设的轻微告警过滤规则，将这些告警全局过滤掉，无需进入后续处理环节。

例如，轻微告警过滤规则具体为根据机型和告警标题来进行全局过滤，比如一条轻微告警过滤规则为：过滤HW-SS机型其标题为“语音用户端口加锁” 的轻微告警。对于HW-SS机型的一个告警，该告警具体如下：

报告号(ID) = 4327

网元名称 = xxxsoftx3000

网元类型 = SOFTXV3

功能分类 = Signal

定位信息 = 加锁端口=3055

用户号码=2916940

告警类型 = Communication

告警时间 = 2017/11/21 - 00:00:04

可能原因 = 语音用户终端端口加锁

告警级别 = 警告

详细信息 = 语音用户终端端口加锁

告警名称 = 语音用户端口加锁

故障与事件 = 故障

设备IP = xxx.117.46.20

流水号 = 371466131

修复建议 = 端口已经解除锁定

资源(ID) = 4722690.81000.-1.-1.-1.-1.-1.-1

上述告警中，告警名称为语音用户端口加锁，告警标题会与告警名称相同，则根据上述告警信息和预先设置的针对HW-SS机型的的轻微告警过滤规则，可以将上述告警在全局进行过滤。

另一个轻微告警过滤规则为：过滤ZX-TG机型其标题为“中继滑移” 的轻微告警，当收到ZX-TG机型一条告警信息，具体如下：

告警流水号 = 1603440351

网元名称 = 公园TG

网元类型 = MSG9000

告警名称 = 中继滑移

定位信息 = (xxx.114.77.136 )Module=4,Subsystem=0,Rack=2,Shelf=3,Slot=6,Port=1

确认类型 = 无效(invalid)

告警类型 = Equipment

告警时间 = 2017-11-21 00:00:26.0

可能原因 = 参见告警描述

告警级别 = 轻微

详细信息 = 详细信息 :E1 Flag = 0x0,1fc00001

设备IP = xxx.114.77.136

流水号 = 1603440351

上述告警中，告警名称为中继滑移，告警标题会与告警名称相同，则根据上述告警信息和预先设置针对ZX-TG机型的的轻微告警过滤规则，可以将上述告警在全局进行过滤。

全局过滤轻微告警后，再将时间异常的告警记载到异常告警数据库并过滤。通常下层网管重启后会上报大量的历史告警，这些告警和预先设定的标准时间相差若干小时，这些告警则只需要记载到异常告警数据库但不需要上报，所以可以由处理进程过滤掉这些时间异常的告警。对于前述多次过滤后并未被过滤掉的告警，可以通过查看该告警对应网元的告警开关是否处于关闭状态，如果是则将这种告警记载到异常告警数据库并过滤掉，如若不是则可以上报给告警服务器。

在步骤21中，告警服务器接收采集服务器的所有告警，将异常设备告警记载到异常告警数据库并过滤，然后将当前未被过滤的告警上报集中告警系统。即采集服务器经过多次告警过滤处理后，发送给告警服务器的告警中，若告警属于异常设备告警则会被记载到异常告警数据库并过滤，然后当前未被过滤的告警上报集中告警系统。

本实施方式的网管系统中告警风暴的梯度处理方法，将网元的原始告警格式统一化，可以方便维护人员快速定位发生告警的设备的问题，然后借由时间异常告警过滤处理非重大故障引起的下层网管重启后上报的大量历史告警，对于升板、升级产生的告警风暴可以通过网元的告警开关状态确认来解决，提高告警风暴的处理效果。

在一种实施方式中，采集服务器包括用于监控采集接口的监控进程，网管系统中告警风暴的梯度处理方法还包括：

步骤13，监控进程监控并进行异常情况处理，其中，该异常情况包括采集接口对接的网元的异常情况或采集接口的异常情况。

在步骤13中，监控进程监控并进行异常情况处理包括几种情况：

第一种情况，采集进程通过采集接口对接第一网元，步骤13包括：若监控进程检测到采集接口对接的第一网元的第一标题的告警数据流量超过预设的第一流量阈值时，则监控进程通知处理进程过滤第一网元第一标题的告警。在第一种情况中，为了表述方便，将某个网元命名为第一网元，将该网元的某个告警标题命名为第一标题，将第一种情况下预先设置的流量阈值命名为第一流量阈值，在此并不构成对网元、网元的标题或预设的流量阈值的限定。这种情况下，通过检测网元的告警标题的告警数据流量是否超过预设的流量阈值，在确定检测结果为监控进程检测到某个网元某个标题的告警数据流量超过预设的流量阈值，则由监控进程通知处理进程过滤掉该网元流量超出阈值的标题的告警。

第二种情况，采集进程通过采集接口对接第二网元，步骤13包括：若监控进程检测到采集接口对接的第二网元的告警数据流量超过预设的第二流量阈值时，则监控进程通知处理进程过滤第二网元的告警。在第二种情况中，为了表述方便，将某个网元命名为第二网元，将第二种情况下预先设置的流量阈值命名为第二流量阈值，在此并不构成对网元或预设的流量阈值的限定。这种情况下，通过检测网元的告警数据流量是否超过预设的流量阈值，在确定检测结果为监控进程检测到某个网元的告警数据流量超过预设的流量阈值，则由监控进程通知处理进程过滤掉该网元的告警。

第三种情况，步骤13包括：若监控进程检测到采集接口的告警数据流量超过预设的第三流量阈值时，则监控进程通知处理进程过滤该采集接口的告警。在第三种情况中，为了表述方便，将第三种情况下预先设置的流量阈值命名为第三流量阈值，在此并不构成对预设的流量阈值的限定。这种情况下，通过检测采集接口的告警数据流量是否超过预设的流量阈值，在确定检测结果为监控进程检测到采集接口的告警数据流量超过预设的流量阈值，则由监控进程通知处理进程过滤掉该采集接口的告警。

第四种情况，采集进程通过采集接口对接第四网元，步骤13包括：若监控进程检测到第四网元上报的告警时间异常或该采集接口在第一预设时间内存在告警时间异常的网元的数量超过预设的第一数量阈值时，则向维护人员发出检查网元的检查通知。在第四种情况中，为了表述方便，将某个网元命名为第四网元，将第四种情况下预先设置的时间命名为第一时间，将预先设置的数量阈值命名为第一数量阈值，在此并不构成对网元、预设的时间或预设的数量阈值的限定。这种情况下，通过检测网元的告警时间异常，或者检测预设的第一时间内该网元发生告警时间异常的次数是否超过预设的数量阈值，在确定检测结果为监控进程检测到某个网元上报的告警时间异常，或者该采集接口在预设的第一时间内存在告警时间异常的网元的数量超过预设的第一数量阈值时，例如，第一时间为一分钟，第一数量阈值为十个，即发生该采集接口在一分钟内存在十五个网元告警时间异常，超出预设的第一数量阈值，这两种检测结果则由网管系统向维护人员发出检查网元的检查通知，由维护人员检查网元的系统时间是否正常，网元的负荷情况是怎样的。当下层为网管时，告警时间异常的原因通常是两种：第一种是网管下网元的系统时间不准确；第二种是网元上报告警给网管时，网管延迟上报该网元的告警给上层网管。

在一种实施方式中，如图3所示，网管系统中告警风暴的梯度处理方法还包括：

步骤31，告警服务器接收正常设备告警。

步骤32，告警服务器根据预设的个性化过滤规则对正常设备告警进行过滤。个性化过滤规则指的是对正常设备告警中进行特定需求的过滤，例如：在下层网管系统例行检查时，在该例行检查期间产生的告警则可以被过滤，相应的个性化过滤规则则指定过滤情况为下层网管系统例行检查时产生的告警。

步骤33，告警服务器根据预设的瞬告过滤规则对正常设备告警进行瞬告过滤处理，包括：将在预设的第二时间内可自动恢复的告警作为瞬时告警过滤，但网元在预设的第三时间内的同类瞬时告警超过预设的第二阈值数量，则将该同类瞬时告警汇总不过滤；其中，第三时间大于第二时间。在步骤33中，为了表述方便，将某两个时间分别命名为第二时间、第三时间，将某个阈值数量命名为第二阈值数量，在此在此并不构成对预设的时间或预设的数量阈值的限定。例如第二时间可以为一分钟，第三时间可以为一天，第二阈值数量可以为十次，则对于1分钟内可以自动恢复的告警，属于非紧急告警，不再上报，但如果一天内某个网元同类瞬时告警为十三次，超过预设的阈值数量十次，则可以将这些告警汇总后不过滤，进行上报。相对于现有技术，新增瞬告检测和瞬告过滤处理，当发生某网元频繁瞬告的情况时，可能是设备不稳定引起的，则可以通知维护人员检查。

步骤34，告警服务器将符合映射关系的告警进行告警关联，将关联的告警中优先级最高的告警作为主告警并将除最高优先级之外的其他告警作为主告警的附加内容，并进行网元常见故障的告警预处理后再由告警服务器上报告警至集中告警系统；其中，常见故障的告警预处理包括：告警服务器确认网元的状态不正常时，对该状态不正常的网元先进行闭塞处理再进行解闭塞处理，然后确认网元的状态恢复为正常时，对状态不正常的网元对应的告警进行过滤。在步骤34中，例如发生了多个告警，但这些告警都是型号为HW-SS的机型的告警，包括M3UA链路故障的根告警，以及M3UA链路集故障、M3UA路由不可用、M3UA目的实体不可达、SCCP（signal connection control protocol，即信令连接控制协议）子系统禁止、SCCP目的信令点禁止等衍生告警，由于根告警和衍生告警之间符合映射关系，即衍生告警都是基于根告警产生的，则可以将优先级最高的根告警M3UA链路故障作为主告警，然后将其他衍生告警作为该主告警的附加内容。类似地，另外一个示例中，发生了多个告警，这些告警都是型号为ZX-TG的机型的告警，包括SDH (Synchronous DigitalHierarchy,同步数字系列) /SONET (Synchronous Optical Network同步光纤网):高阶通道远端接收失效的根告警，以及SDH/SONET: 复帧丢失、SDH/SONET:信号劣化、SDH/SONET:信号丢失、CPU过载告警等衍生告警，则可以将优先级最高的根告警SDH/SONET: 高阶通道远端接收失效作为主告警，然后将其他衍生告警作为该主告警的附加内容。

常见故障的告警预处理是对告警进行自动化处理，例如新增预处理名称为AXE机型选组级故障预处理后，配置预处理执行的步骤：首先查询故障单元的状态，其次对故障单元进行闭塞处理，再次进行解闭塞处理，最后查询故障单元是否恢复正常时，对状态不正常的网元对应的告警进行过滤。然后将该AXE机型选组级故障预处理设置在告警服务器生效。

在增加了告警预处理后，常见故障的告警则可以远程自动化处理，减少维护的工作。如图1所示，网管系统还包括用于与网元的指令接口进行对接的指令接口服务器，指令接口服务器与告警服务器通信连接。指令接口服务器主要功能是与网元或下层网管的指令接口进行对接，并提供对外统一接口，告警服务器可以通过指令接口服务器进行机型告警远程处理。具体地，告警服务器可以通过指令接口服务器进行机型告警远程处理。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种网管系统中告警风暴的梯度处理方法，用于管理网元告警的网管系统与集中告警系统通信连接，其特征在于，网管系统包括采集服务器和告警服务器；采集服务器包括带有采集接口的采集进程和处理进程，采集进程通过采集接口与网元通信连接，告警服务器分别与采集服务器、集中告警系统通信连接；

该方法包括：

步骤21，告警服务器接收采集服务器发送的告警，将异常设备告警记载到异常告警数据库并过滤，然后将当前未被过滤的告警上报集中告警系统。

2.如权利要求1所述的网管系统中告警风暴的梯度处理方法，其特征在于，采集服务器包括用于监控采集接口的监控进程，该方法还包括：

步骤14，监控进程将未被处理的剩余告警发送至告警服务器。

3.如权利要求2所述的网管系统中告警风暴的梯度处理方法，其特征在于，采集进程通过采集接口对接第一网元，步骤13包括：若监控进程检测到采集接口对接的第一网元的第一标题的告警数据流量超过预设的第一流量阈值时，则监控进程通知处理进程过滤第一网元第一标题的告警。

4.如权利要求2所述的网管系统中告警风暴的梯度处理方法，其特征在于，采集进程通过采集接口对接第二网元，步骤13包括：若监控进程检测到采集接口对接的第二网元的告警数据流量超过预设的第二流量阈值时，则监控进程通知处理进程过滤第二网元的告警。

5.如权利要求2所述的网管系统中告警风暴的梯度处理方法，其特征在于，步骤13包括：若监控进程检测到采集接口的告警数据流量超过预设的第三流量阈值时，则监控进程通知处理进程过滤该采集接口的告警。

6.如权利要求2所述的网管系统中告警风暴的梯度处理方法，其特征在于，采集进程通过采集接口对接第四网元，步骤13包括：若监控进程检测到第四网元上报的告警时间异常或该采集接口在预设的第一时间内存在告警时间异常的网元的数量超过预设的第一数量阈值时，则向维护人员发出检查网元的检查通知。

7.如权利要求1所述的网管系统中告警风暴的梯度处理方法，其特征在于，该方法还包括：步骤31，告警服务器接收正常设备告警。

8.如权利要求7所述的网管系统中告警风暴的梯度处理方法，其特征在于，该方法还包括：

9.如权利要求8所述的网管系统中告警风暴的梯度处理方法，其特征在于，步骤32之后该方法还包括：

10.如权利要求8所述的网管系统中告警风暴的梯度处理方法，其特征在于，步骤33之后该方法还包括：

步骤34，告警服务器将符合映射关系的告警进行告警关联，将关联的告警中优先级最高的告警作为主告警并将除最高优先级之外的其他告警作为主告警的附加内容，并进行网元常见故障的告警预处理后再由告警服务器上报告警至集中告警系统；