CN102130783B

CN102130783B - 神经网络的智能化告警监控方法

Info

Publication number: CN102130783B
Application number: CN201110025212.1A
Authority: CN
Inventors: 李洋; 苗再良
Original assignee: Inspur Communication Information System Co Ltd
Current assignee: Inspur Communication Information System Co Ltd
Priority date: 2011-01-24
Filing date: 2011-01-24
Publication date: 2014-07-02
Anticipated expiration: 2031-01-24
Also published as: CN102130783A

Abstract

本发明提供一种神经网络的智能化告警监控方法，采用基于神经网络专家系统的告警关联分析与定位技术，创建一种全新的智能化通信网综合监控分析和故障定位系统。该系统通过汇集各专业各网元系统各设备的告警数据，保证有效的对重复告警、告警震荡、告警闪断、告警风暴进行监控，准确的过滤掉风暴告警、闪断告警、无效告警和次要告警；从收集的海量告警当中，基于深层关联规则分析和神经网络技术，能够突出真正需要处理的重大告警事件，快速、准确地定位和排除网络故障。能显著提高网络告警分析和故障诊断的准确率，提高客户满意度，大大降低运维成本。从而达到降低运维人员的工作量、提高故障管理效率的目的。

Description

神经网络的智能化告警监控方法

技术领域

本发明涉及一种通信网络监控技术领域，特别涉及一种基于神经网络的智能化告警监控方法。

背景技术

当前各类电信网络规模庞大，结构复杂，设备多种多样，各种硬件设备和软件每天产生海量的告警信息。这些告警信息覆盖话务网络、数据网络、传输网络、信令网、智能网、业务网等等。当电信网络出现故障告警时，要求运维人员必须在最短的时间内，实时地、正确地判断出网络故障所在的位置、类型和引起故障的原因，然后及时地采取相应的解决措施。然而，在实际的网络运行中，一个故障的产生往往会引发多个告警事件与故障点相关的设备、相关的业务过程都会发出相关的告警序列，同时多个故障引发的众多告警序列会错综叠加，从而将真正的告警淹没在里面，导致故障识别异常困难。并且随着网络的规模和复杂性的不断提高，以及网络设备、网络业务、网络结构的不断变化，告警的种类和数量越来越多，包括轻微告警、一般告警、严重告警、重大告警、紧急告警、漏告警、虚告警、重复告警、同因异象告警、同象多因告警等等，从而使得海量的告警信息中含有大量噪声告警或者信息不完整，这些因素进一步增加了告警关联分析和故障定位的难度。

目前，通信网络告警关联分析和故障诊断主要是还靠运维人员进行处理，海量告警信息的人工处理会占用大量运维人员，效率低下且容易产生数据一致性等问题，使得靠人工进行告警的过滤、分析、定位等都缺乏行之有效的手段。在自动化智能分析诊断方面，虽然许多厂家和机构开发的各种网络告警监控系统，都只能分析识别简单的、设备级的告警信息关联性，实际告警故障自动定位准确度不到50％，远远达不到电信运营的实际要求。

彻底解决上述问题的有效途径是对大量的告警信息进行综合关联分析，开发和建设高智能化的网络告警分析和故障精确定位系统。本发明利用专家系统和神经网络等人工智能技术，基于网络的内在结构、业务逻辑和历史告警数据实施多维度、多层面的分析诊断，发现告警关联规则，确定故障根源。

发明内容

本发明的目的是提供一种神经网络的智能化告警监控方法。

本发明的目的是按以下方式实现的，将基于神经网络技术的专家系统应用于通信网络的告警关联分析和故障定位当中，从大量原始告警信息中获得网络告警的关联规则，结合运维人员以及网管专家的经验，实现各类网络告警信息的关联分析，为精确故障定位提供一种创新的解决方案；

告警监控包括：1)获取告警关联规则，2)对规则和设备类型进行编码，3)采集告警原始数据，4)关联分析和故障诊断，具体步骤如下：

1)获取告警关联规则，建立告警关联规则知识库，从根据历史告警数据进行提取、基于内在的网络结构获取和通过专家进行获取三个维度获收告警信息关联信息，在提取的上述数据基础上创建多重知识表示的告警知识库，并对知识库进行划分；

2)对规则和设备类型进行编码，建立主次告警关联规则和衍生关联规则映射表；

3)采集告警原始数据，并对数据进行预处理后，得到待分析的告警数据，划分告警时间窗口，并确定滑动步长；

4)关联分析和故障诊断，包括以下内容：

a)基于规则的分析：

(1)根据告警关联规则映射表，将时间窗中的告警分类；

(2)按照告警类型，遍历所涉及的知识库，找出可能成立的告警关联规则；确定告警时间窗中告警的约束条件，根据不同的约束条件，在一定的范围内确定相关的告警关联规则，进而进行故障定位；

b)基于神经网络的分析：

(1)根据告警关联规则映射表，对告警关联规则进行编码，建立告警关联规则编码表；

(2)神经网络专家系统的分析过程实质上就是神经网络的计算过程，由已知的输入模式经过神经网络的学习计算获得输出模式，将告警时间窗获得的告警数据，输入到神经网络的输入层，同一层神经元在原理上是并行处理的，层间的处理是串行的，通过调整各层神经元之间的连接权值和阈值，进行权值数据与输入数据的运算，最终获得推理结果；

(3)采用了三个隐层的神经网络来实现告警关联规则的获取工作，对于采集到的告警信息，通过多隐层的非线性映射，最终可以得到正确的结果；

(4)对于告警关联规则映射表给出的关联规则，由于其告警类型不同，各种告警信息、设备信息以及规则约束条件并没有清晰的层次关系，采用神经网络来实现对告警关联规则的分析工作，分别得到不同的告警关联规则的相关属性，最终确定告警中包含的所有关联规则，从而进行故障的精确定位；

(5)对确定的告警关联规则进行解释，给出定位信息，并将结果呈现给运维人员采取相应的措施。

本发明的有益效果是：本发明针对现代通信网络管理的需求，将基于神经网络技术的专家系统应用于通信网络的告警关联分析和故障定位当中，从大量原始告警信息中获得网络告警的关联规则，结合运维人员以及网管专家的经验，实现各类网络告警信息的关联分析，为精确故障定位提供一种创新的解决方案。

本发明针对各类面向3G、NGN、移动互联网等新一代通信网络监控与管理的要求，解决了当前大型通信网络难以实现的智能监控和海量告警快速处理问题。本发明采用的智能化的告警分析与定位技术，能够突出真正需要处理的重大告警事件，有效的定位和排除网络故障，能显著提高网络告警分析和故障诊断的准确率，提高客户满意度，大大降低运维成本。能有效促进各网络维护部门切实以网络运行质量，以客户感知为出发点，做好整个网络的维护、优化工作，从而提高网络的运行和维护效率，为客户和运营商带来显著的经济效益和社会效益。

因此，本发明提出的智能化告警关联分析与故障精确定位系统对提高移动通信网络的运行和维护水平具有重要的实用意义。

附图说明

图1告警关联分析专家系统工作原理图

图2神经网络推理结构图

图3告警关联分析专家系统解释流程图

具体实施方式

参照说明书附图对本发明的作以下详细地说明。

本发明的神经网络的智能化告警监控方法，其结构是由基本工作方式如下：

(1)获取告警关联规则，建立告警关联规则知识库，并对知识库进行划分；

(2)对规则和设备类型进行编码，建立主次告警关联规则和衍生关联规则映射表；

(3)采集告警原始数据，并对数据进行预处理后，得到待分析的告警数据，划分告警时间窗口，并确定滑动步长；

(4)关联分析和故障诊断

a)基于规则的分析：

1)根据告警关联规则映射表，将时间窗中的告警分类；

2)按照告警类型，遍历所涉及的知识库，找出可能成立的告警关联规则；确定告警时间窗中告警的约束条件，根据不同的约束条件，在一定的范围内确定相关的告警关联规则，进而进行故障定位。

b)基于神经网络的分析：

1)根据告警关联规则映射表，对告警关联规则进行编码，建立告警关联规则编码表；2)神经网络专家系统的分析过程实质上就是神经网络的计算过程，由已知的输入模式经过神经网络的学习计算即可获得输出模式。将告警时间窗获得的告警数据，输入到神经网络的输入层，同一层神经元在原理上是并行处理的，层间的处理是串行的。通过调整各层神经元之间的连接权值和阈值，进行权值数据与输入数据的运算，最终获得推理结果；

3)通信网络告警数据量巨大并且告警之间的关系非常复杂，因此采用一般的单隐层网络结构进行学习，无法满足实际需求。本发明采用了三个隐层的神经网络来实现告警关联规则的获取工作，对于采集到的告警信息，通过多隐层的非线性映射，最终可以得到正确的结果；

4)对于告警关联规则映射表给出的关联规则，由于其告警类型不同，各种告警信息、设备信息以及规则约束条件并没有清晰的层次关系，因此采用四个神经网络来实现对告警关联规则的分析工作，分别得到不同的告警关联规则的相关属性，最终确定告警中包含的所有关联规则，从而进行故障的精确定位。

本发明的主要创新点

(1)从三个维度获取告警信息关联信息：根据历史告警数据采用智能化的方法进行提取、基于内在的网络结构的获取、通过专家进行获取。并在此基础上创建告警关联规则和规则库。

(2)一种基于规则和神经网络的并行专家系统结构，能够针对电信网络显式告警关联和隐式关联结构进行有效的分析判断。

(3)基于网络内在拓扑结构和业务过程的关联关系，生成动态故障关联模型。

(4)基于全局导控策略和告警关联规则进行启发式推理，能准确、迅速地定位故障源，给出可能的故障原因。

四、实用效果

实施例：

知识库的建立

①知识获取：专家系统的智能性很大程度上取决于知识的数量及其可利用的程度，系统中可利用的知识越多，其智能性越高。本专家系统的知识获取来源于以下几个方面：现场的维护技术人员，厂商的维护手册以及运营商关联规则梳理表。根据该表，我们将告警关联规则表示成一种标准化的形式，以便于知识的更新和维护工作。

②知识表示：知识的表示是对知识的一种描述，就是如何把知识用适当的结构表示出来，且便于在计算机中存储、检索和维护，是对知识的符号化、形式化的过程。神经网络的知识库是将知识以数字的化的形式，隐式地分散存储在神经网络的各连接权值和阈值中。因此，对于神经网络的知识表示我们将告警进行编码，表示成适合于神经网络输入的数字形式，获取网管告警ID号、并对设备和告警规则进行编码，这样便于神经网络的学习和推理。

推理机的设计

神经网络的推理机制是一个数值计算的过程，主要由以下两步实现：

①输入逻辑概念到输入模式的变换：根据论域的特点确定相应的变换规则，再将目前的状态变换成神经网络的输入模式；

②神经网络内的前向计算：根据神经元的特点，其输入为s_j＝∑w_ijx_j，w_ij为连接权系数，y_j为神经元的输出且有y_j＝f_j(s_j+θ_j)。其中的θ_j为神经元的阈值，f_j为传递函数。通过上述计算即可产生神经网络的输出模式。

在神经网络专家系统中，能够根据系统目前接收样本的相似性确定分类的标准，且主要表现在网络的权值分布上，同时可以利用神经网络算法，完成获取知识的表达体系及其不确定性推理机制。

对于神经网络的知识推理采用四个神经网络模型来实现：首先采集告警数据，对采集到的告警数据进行过滤，过滤出其中的主告警，然后用一个单输入多输出的神经网络找出这个主告警所对应的所有规则编码；对于主告警对应的每一条规则，用三个神经网络模型分别实现三种功能：用一个单输入单输出的神经网络找出其所对应的设备类型，由另一个单输入多输出的神经网络模型找出这条规则所对应的所有的次告警，用一个单输入多输出的神经网络找出这条规则的时间约束、频次约束等约束条件。最后根据这些结论，对告警数据进行处理，得到成立的告警关联规则，神经网络推理结构如图2所示。

解释器：

采用预置文本和路径跟踪相结合的方法。对于一些由专家确定的告警关联规则和标准化的告警关联规则的解释采用自然语言或其它易于被用户理解的形式事先组织好，插人程序段或相应的数据库中。在执行目标的过程中，同时生成解释信息，一旦用户询问，只需把相应的解释信息组织成合适的文本方式提交给用户即可；对于一些比较复杂的关联规则的解释，采用路径跟踪法，将求解所使用的知识自动记录下来.当用户提出相应的问题时，解释机制向用户显示问题的求解过程，告警专家系统解释流程如图3所示。

人机交互界面：

人机界面是用户和系统进行交互的重要窗口，它的设计应从用户使用的角度出发，易于理解，并从功能的角度来组织，容易学习，软件界面简洁、友好，并有帮助，便于操作。传统的编程开发技术都是面向过程的，全部程序都要自己设计完成，不仅费时且不易模块化，查错也不方便。告警关联分析专家系统可以采用高级编程语言进行设计，直接利用其中大量控件和类库，高效地制作出友好的程序界面，并协调整个系统的各个部分，保证系统的正常运行。

由于系统结构复杂，操作人员复杂，层次众多，为保证系统的良好运行，对系统设置用户管理菜单，并对不同用户设置级别，只有拥有账号的人才能进入系统并使用相应权限下的功能。系统用户应该分为三类：专家类，拥有最高权限，可以对系统进行所有操作；管理员类，可以设置、查询系统接口、状态信息，并响应故障告警，采取处理措施，但是不能对知识库进行维护操作；普通用户类，只能进行告警关联分析等记录的查询。

在移动通信网络正常运行过程中还可以进行知识库的维护，用户知识库维护主菜单下设三个子菜单：增加记录、删除记录和更改记录。用户点击进入后可根据系统提示进行相应操作。系统能保存近期发生过的故障记录，以表格形式存放在数据库中。用户点击故障记录菜单后根据提示输入起始年月日查看一定时间段内的历史纪录，统计确诊率和漏诊率。为方便用户的使用，还应该编写帮助文件，用户可通过点击帮助菜单方便地查询软件运行环境、软件功能及各菜单项使用方法及用途等。

本发明建立了一个基于神经网络的推理引擎专家系统。该系统能够实时的分析告警中存在的关联规则，并对分析结果进行合理的解释。该专家系统通过多种途径获取知识。采用隐式的知识表示形式，建立关联规则库。本系统的推理机制采用神经网络的并行推理方式。对由数据表示的隐式知识进行归纳推理。在专家系统的统管下，专家系统采用基于全局的最佳策略，宏观导控，达到高效且相对简洁。

Claims

1.神经网络的智能化告警监控方法，其特征在于，将基于神经网络技术的专家系统应用于通信网络的告警关联分析和故障定位当中，从大量原始告警信息中获得网络告警的关联规则，结合运维人员以及网管专家的经验，实现各类网络告警信息的关联分析，为精确故障定位提供一种创新的解决方案；

告警监控包括：1)从三个维度获取告警信息关联信息，2)对规则和设备类型进行编码，3)采集告警原始数据，4)关联分析和故障诊断，具体步骤如下：

1)获取告警关联规则，从三个维度获取告警信息关联信息包括：根据历史告警数据采用智能化的方法进行提取、基于内在的网络结构的获取、通过专家进行获取，在提取的上述告警数据基础上创建多重知识表示的告警知识库，并对知识库进行划分；

4)关联分析和故障诊断，包括以下内容：

a)基于规则的分析：

(1)根据告警关联规则映射表，将时间窗中的告警分类；

b)基于神经网络的分析：