CN108737164A

CN108737164A - 一种电信网络实时告警过滤方法及装置

Info

Publication number: CN108737164A
Application number: CN201810376482.9A
Authority: CN
Inventors: 杨茂林; 常煜; 李赵宁; 张子恒; 高铭蔚; 谢远航; 徐庆洲; 黄函; 李永生; 雷伟俊; 杨守亮; 李晓瑜; 雷航
Original assignee: Beijing Si Tech Information Technology Co Ltd
Current assignee: Beijing Si Tech Information Technology Co Ltd
Priority date: 2018-04-25
Filing date: 2018-04-25
Publication date: 2018-11-02
Anticipated expiration: 2038-04-25
Also published as: CN108737164B

Abstract

本发明公开了一种电信网络实时告警过滤方法及装置，方法包括基于告警历史数据的离线分析步骤以及实时告警在线过滤步骤；其中，离线分析对告警历史数据库中的告警量、告警影响力、告警持续时间等特征进行分析，以综合评估告警元的重要程度，评估结果将作为告警过滤的重要依据；实时告警在线过滤是指对系统实时产生的部分告警作延迟处理，结合离线分析得出的告警元特性以及当前告警的持续时间分析当前告警的重要程度，将重要程度低的告警留在缓冲区等待进一步观测分析。本发明不依赖于复杂的网络拓扑结构、专家经验等知识，配置简单且易于使用，可广泛应用于电信网络监控与运维领域。

Description

一种电信网络实时告警过滤方法及装置

技术领域

本发明涉及计算机应用领域，尤其一种电信网络实时告警过滤方法及装置。

背景技术

随着信息技术与信息服务的不断发展，电信网络规模不断扩大，业务需求与应用复杂性也不断增长。为了在保障服务质量的同时降低运维成本，电信服务运营商急需建设智慧化网络运维系统。其中，快速定位和消除网络故障是确保网络平稳、优质运行的重要基础。当网络中的软硬件组件发生故障或存在故障隐患时，相应组件发出告警，并将告警信息发送至网络监控中心，如何准确分析和高效处理这些告警成为网络智慧运营面临的重要课题。

然而，在大规模电信网络中，软硬件网络组件间的调用关系复杂且网络监控指标种类多样，网络监控中心可能持续接收大量告警信息。其中，少数网络组件频繁发生告警且这些告警往往由网络负载变化所引发，而并非真实的网络故障导致。这些发生频率高而重要程度低的告警信息极大地增加了网络运维人员的工作量，并且对网络故障分析与诊断造成较大干扰。因此，通常需要采用告警过滤技术对网络告警进行预处理，以减少网络监控中心处理的告警总量，同时提高网络告警根源定位的准确性。

现有的网络告警过滤技术主要包括以下几类：第一，采用专家系统建立告警衍生规则，通过判断告警的衍生性进行选择性过滤；第二，基于网络拓扑结构构件依赖模型，利用告警元聚类关联将关联告警进行合并从而减少告警量；第三，基于告警持续时间的统计学特征，通过人为设定阈值的方法实现告警过滤。以上技术基于不同前提假设部分解决了网络告警过滤问题，然而相关技术在实际应用中还存在一定不足和挑战。首先，构建专家系统以及告警元聚类需要深入理解网络系统的调用依赖关系。在大规模电信网络中，网络组件间的调用依赖关系十分复杂，且随着应用升级和系统更新等动态变化，因而难以获取和维护准确的调用依赖关系。其次，基于告警持续时间分布的技术未充分考虑告警重要性等非时间因素的影响。

发明内容

本发明的目的在于克服现有技术的不足，提供一种电信网络实时告警过滤方法及装置，用以准确高效地对实时告警进行分析和过滤。

本发明的目的是通过以下技术方案来实现的：一种电信网络实时告警过滤方法，包括离线分析步骤和实时告警过滤步骤；所述的离线分析步骤包括以下子步骤：

S11：基于告警数据样本，获取告警元数量以及各告警元所产生的告警数量；其中，所述的告警数据样本指存储在数据库中的历史告警记录的集合，所述的告警元指网络系统中产生告警的最小单元；

S12：基于告警数据样本，计算各告警元的所有告警实例持续时间；其中，所述的告警实例指告警元产生的一条告警数据；

S13：基于告警数据样本，针对所有告警实例，计算所有告警平均持续时间；

S14：基于告警数据样本，针对各个告警元，计算该告警元所产生告警的平均持续时间；

S15：基于告警数据样本，计算各告警元的影响力，其中告警元A的影响力F_A为：

式中，m为告警数据样本中告警元A产生的告警实例的数量，F_A.a表示告警实例A.a的影响力，a的取值范围是[1,m]；而告警实例A.a的影响力F_A.a为：

式中，T表示告警实例A.a的持续时间，N表示在告警实例A.a的持续时间内其他告警元发生告警的告警元数量；

所述的实时告警过滤步骤用于对各告警元实时产生的告警实例执行以下过滤操作，包括以下子步骤：

S21：判断实时产生告警实例的告警元A是否属于告警量最大的前w％告警元之一，若属于告警量最大的前w％告警元之一，则继续执行步骤S22，否则触发告警处理；

S22：判断实时产生告警实例的告警元A所产生告警的平均持续时间是否小于x倍所有告警平均持续时间，若小于x倍告警平均持续时间，则继续执行步骤S23，否则触发告警处理；

S23：判断实时产生告警实例的告警元A是否属于告警影响力最小的前y％告警元之一，若属于告警影响力最小的前y％告警元之一，则继续执行步骤S24，否则触发告警处理；

S24：获取告警实例A.a当前的持续时间，判断告警实例A.a当前的持续时间是否属于所述告警数据样本中告警元A的所有告警实例持续时间最小的前z％告警实例之一，若告警数据样本中告警元A的所有告警实例持续时间最小的前z％告警实例之一，则继续执行步骤S25，否则触发告警处理；

S25：延迟处理告警实例A.a直至下一个判定周期，若告警实例A.a在下一个判定周期仍未消除，则跳转至步骤S24继续判定，否则继续执行步骤S26；

S26：若当前还有其他告警存在，则重复步骤S21至S25以处理下一个告警，否则结束。

进一步地，所述的离线分析步骤还包括以下子步骤：

S16：根据实际应用需要设置过滤参数组(w,x,y,z)。

进一步地，告警实例的持续时间为：告警实例消除时间与告警实例产生时间之差；告警实例的当前持续时间为：当前时间与告警实例的产生时间之差。

进一步地，离线分析步骤得到的离线分析结果存储在寄存器中，作为实时告警过滤步骤的参考依据；当更新告警历史数据时，相应的数值重新计算并更新至寄存器。

本发明还提供一种电信网络实时告警过滤装置，包括离线分析模块和实时告警过滤模块；所述的离线分析模块包括：

第一数据计算单元：用于基于告警数据样本，获取告警元数量以及各告警元所产生的告警数量；其中，所述的告警数据样本指存储在数据库中的历史告警记录的集合，所述的告警元指网络系统中产生告警的最小单元；

第二数据计算单元：用于基于告警数据样本，计算各告警元的所有告警实例持续时间；其中，所述的告警实例指告警元产生的一条告警数据；

第三数据计算单元：用于基于告警数据样本，计算所有告警实例的平均持续时间；

第四数据计算单元：用于基于告警数据样本，计算各告警元所产生告警实例的平均持续时间；

第五数据计算单元：用于基于告警数据样本，计算各告警元的影响力，其中告警元A的影响力F_A为：

所述的实时告警过滤模块用于对各告警元实时产生的告警实例执行以下过滤操作，包括：

告警量判断单元：用于判断实时产生告警实例的告警元A是否属于告警量最大的前w％告警元之一，若属于告警量最大的前w％告警元之一，则进入第一平均持续时间判断单元，否则触发告警处理单元；

第一平均持续时间判断单元：用于判断实时产生告警实例的告警元A所产生告警的平均持续时间是否小于x倍所有告警平均持续时间(由第三数据计算单元定义)，若小于x倍告警平均持续时间，则进入影响力判断单元，否则触发告警处理单元；

影响力判断单元：用于判断实时产生告警实例的告警元A是否属于告警影响力最小的前y％告警元之一，若属于告警影响力最小的前y％告警元之一，则进入第二平均持续时间判断单元，否则触发告警处理单元；

第二平均持续时间判断单元：用于获取告警实例A.a当前的持续时间，判断告警实例A.a当前的持续时间是否属于所述告警数据样本中告警元A的所有告警实例持续时间最小的前z％告警实例之一，若告警数据样本中告警元A的所有告警实例持续时间最小的前z％告警实例之一，则进入延迟处理单元，否则触发告警处理单元；

延迟处理单元：用于延迟处理告警实例A.a直至下一个判定周期，若告警实例A.a在下一个判定周期仍未消除，则跳转至第二平均持续时间判断单元继续判定，否则进入告警存在判断单元；

告警存在判断单元：若当前还有其他告警存在，则跳转至告警量判断单元以处理下一个告警；

告警处理单元：用于触发告警处理程序。

进一步地，所述的离线分析模块还包括：

过滤参数组设置单元：用于根据实际应用需要设置过滤参数组(w,x,y,z)。

进一步地，离线分析模块得到的离线分析结果存储在寄存器中，作为实时告警过滤模块的参考依据；当更新告警历史数据时，相应的数值重新计算并更新至寄存器。

本发明的有益效果是：

(1)本方法的主要依据为告警历史数据，其中，离线分析对告警历史数据库中的告警量、告警影响力、告警持续时间等特征进行分析，以综合评估告警元的重要程度，评估结果将作为告警过滤的重要依据；实时告警在线过滤是指对系统实时产生的部分告警作延迟处理，结合离线分析得出的告警元特性以及当前告警的持续时间分析当前告警的重要程度，将重要程度低的告警留在缓冲区等待进一步观测分析。因此不依赖于网络系统的拓扑结构、应用调用关系、网络组件依赖关系等复杂信息，易于实现且维护成本低，可广泛应用于电信网络监控与运维领域。

(2)通过对告警历史数据进行全面分析，综合考虑了告警量、告警影响力、告警持续时间等关键因素，准确刻画了网络告警的主要特征，过滤针对性强，效果明显。

(3)运行时开销小，离线分析只需要遍历一次数据样本，其综合时间复杂度为O(n)，其中n为告警数据样本中的告警记录数；实时过滤中，每个处理周期仅需对当前存在的每个告警进行常数次(4次)判定，因此实时过滤的综合时间复杂度为O(k)，其中k为当前发生的告警数。

附图说明

图1为本发明方法流程图；

图2为本发明装置方框图。

具体实施方式

下面结合附图进一步详细描述本发明的技术方案：

在本实施例中的网络告警数据：指网络中的软硬件组件由于相关监控指标数值超过事先所设定的阈值而产生的日志记录，内容包括ID、告警产生时间、告警等级、备注等，这些日志记录将呈送至网络监控中心等待进一步处理。并且，本实施例采用的告警数据为经过数据清洗的电信行业真实数据。另外，下述实施例中的实时告警指大系统运行时告警元实时产生的告警，这些告警须呈送至网络监控中心进行处理，处理完成后告警记录将存入告警数据库。

如图1所示，一种电信网络实时告警过滤方法，包括离线分析步骤和实时告警过滤步骤；所述的离线分析步骤包括以下子步骤：

S13：基于告警数据样本，计算所有告警实例的平均持续时间；

S14：基于告警数据样本，计算各告警元所产生告警实例的平均持续时间；

式中，T表示告警实例A.a的持续时间，N表示在告警实例A.a的持续时间内其他告警元发生告警的告警元数量。

完成以上步骤之后，将分析统计结果包括告警元数量、各告警元产生的告警实例数量、各告警元的所有告警实例持续时间、告警平均持续时间、各告警元所产生告警实例的平均持续时间、各告警元影响力存储在寄存器中，作为实时告警过滤的参考依据。

优选地，在本实施例中，所述的离线分析步骤还包括以下子步骤：

S16：根据实际应用需要设置过滤参数组(w,x,y,z)。

S22：判断实时产生告警实例的告警元A所产生告警的平均持续时间(由S14定义)是否小于x倍所有告警平均持续时间(由S13定义)，若小于x倍告警平均持续时间，则继续执行步骤S23，否则触发告警处理；

更优地，在本实施例中，告警实例的持续时间为：告警实例消除时间与告警实例产生时间之差；告警实例的当前持续时间为：当前时间与告警实例的产生时间之差。

基于上述方法的实现，本实施例还相应地提供一种电信网络实时告警过滤装置。

如图2所示，一种电信网络实时告警过滤装置，包括离线分析模块和实时告警过滤模块；所述的离线分析模块包括：

第一平均持续时间判断单元：用于判断实时产生告警实例的告警元A所产生告警的平均持续时间(由第四数据计算单元定义)是否小于x倍所有告警平均持续时间(由第三数据计算单元定义)，若小于x倍告警平均持续时间，则进入影响力判断单元，否则触发告警处理单元；

告警处理单元：用于触发告警处理程序。

优选地，在本实施例中，所述的离线分析模块还包括：

优选地，在本实施例中，告警实例的持续时间为：告警实例消除时间与告警实例产生时间之差；告警实例的当前持续时间为：当前时间与告警实例的产生时间之差。

优选地，在本实施例中，离线分析模块得到的离线分析结果存储在寄存器中，作为实时告警过滤模块的参考依据；当更新告警历史数据时，相应的数值重新计算并更新至寄存器。

本发明是通过实施例来描述的，但并不对本发明构成限制，参照本发明的描述，所公开的实施例的其他变化，如对于本领域的专业人士是容易想到的，这样的变化应该属于本发明权利要求限定的范围之内。

Claims

1.一种电信网络实时告警过滤方法，其特征在于：包括离线分析步骤和实时告警过滤步骤；所述的离线分析步骤包括以下子步骤：

S22：判断实时产生告警实例的告警元A所产生告警的平均持续时间是否小于x倍所述所有告警平均持续时间，若小于x倍所有告警平均持续时间，则继续执行步骤S23，否则触发告警处理；

2.根据权利要求1所述的一种电信网络实时告警过滤方法，其特征在于：所述的离线分析步骤还包括以下子步骤：

S16：根据实际应用需要设置过滤参数组(w,x,y,z)。

3.根据权利要求1所述的一种电信网络实时告警过滤方法，其特征在于：告警实例的持续时间为：告警实例消除时间与告警实例产生时间之差；告警实例的当前持续时间为：当前时间与告警实例的产生时间之差。

4.根据权利要求1所述的一种电信网络实时告警过滤方法，其特征在于：离线分析步骤得到的离线分析结果存储在寄存器中，作为实时告警过滤步骤的参考依据；当更新告警历史数据时，相应的数值重新计算并更新至寄存器。

5.一种电信网络实时告警过滤装置，其特征在于：包括离线分析模块和实时告警过滤模块；所述的离线分析模块包括：

第一平均持续时间判断单元：用于判断实时产生告警实例的告警元A所产生告警的平均持续时间是否小于x倍所有告警平均持续时间，若小于x倍告警平均持续时间，则进入影响力判断单元，否则触发告警处理单元；

告警处理单元：用于触发告警处理程序。

6.根据权利要求5所述的一种电信网络实时告警过滤装置，其特征在于：所述的离线分析模块还包括：

7.根据权利要求5所述的一种电信网络实时告警过滤装置，其特征在于：告警实例的持续时间为：告警实例消除时间与告警实例产生时间之差；告警实例的当前持续时间为：当前时间与告警实例的产生时间之差。

8.根据权利要求5所述的一种电信网络实时告警过滤方法，其特征在于：离线分析模块得到的离线分析结果存储在寄存器中，作为实时告警过滤模块的参考依据；当更新告警历史数据时，相应的数值重新计算并更新至寄存器。