CN107770797A - 一种无线网络告警管理的关联分析方法及系统 - Google Patents

一种无线网络告警管理的关联分析方法及系统 Download PDF

Info

Publication number
CN107770797A
CN107770797A CN201610690956.8A CN201610690956A CN107770797A CN 107770797 A CN107770797 A CN 107770797A CN 201610690956 A CN201610690956 A CN 201610690956A CN 107770797 A CN107770797 A CN 107770797A
Authority
CN
China
Prior art keywords
alarm
alarm information
pieces
information
network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610690956.8A
Other languages
English (en)
Inventor
王志勇
贺军
刘波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Mobile Communications Group Co Ltd
China Mobile Group Inner Mongolia Co Ltd
Original Assignee
China Mobile Communications Group Co Ltd
China Mobile Group Inner Mongolia Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Mobile Communications Group Co Ltd, China Mobile Group Inner Mongolia Co Ltd filed Critical China Mobile Communications Group Co Ltd
Priority to CN201610690956.8A priority Critical patent/CN107770797A/zh
Publication of CN107770797A publication Critical patent/CN107770797A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W24/00Supervisory, monitoring or testing arrangements
    • H04W24/04Arrangements for maintaining operational condition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

本发明公开了一种无线网络告警管理的关联分析方法及系统,其中,所述方法包括:以分布式告警采集方式实时采集当前网络中的X个告警信息,所述X为大于1的自然数;对采集到的所述X个告警信息进行过滤,以消除与故障告警管理无关的告警信息和/或误告警信息,得到Y个待处理的告警信息,1≦Y<X;对所述Y个待处理的告警信息进行归一化处理,得到告警信息规格一致的Y个告警信息;对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,确定告警信息对应的故障设备,并实现对故障设备的故障告警管理。

Description

一种无线网络告警管理的关联分析方法及系统
技术领域
本发明涉及无线技术,尤其涉及一种无线网络告警管理的关联分析方法及系统。
背景技术
近年来,随着移动通信技术的发展,移动业务的进一步增长,对人类的社会活动、经济尤其是日常生活等产生越来越大的影响。每天都有数千万的用户在使用移动网络中提供的各种服务,为应对这种业务增长的需要,不断有新的通信设备和新的业务加入现有网络,导致网络的异构性质越来越明显,网络环境也变得越来越复杂。
为提高移动的竞争力和用户服务的满意度,需要保证网络中的各个设备在绝大部分时间内工作是正常的,而且要能够负担当前网络中通信流量大、传输速度快、响应延迟少的要求,保证网络的高度可靠性及可用性。因此必须对这些设备进行有效管理,监控其运行状况,在设备发生故障或者出现性能方面的情况时候,能够及时发现这些问题,并通知相关维护人员对进行处理,以使网络能搞高效、稳定、持续地运行。
通信网络故障告警具有数据量大、突发故障情况多的特点。尤其是在网络设备出现故障并引发告警时,网络设备发生故障中断,与它相关联的设备会由于不能通过它发送信息或者不能获取它的运行状况也引发相应的故障,在短时间内产生大量的告警信息。
而现有的移动网络告警监控一般依靠采用人工的方式来完成,即通过某些告警监控方式监视当前的活动的告警信息,然后通知维护人员去其中有重要告警可能的故障点去查看并反馈相应的检测结果。这样的方式虽然能够在一定程度上实现发现故障并进行处理的要求,但人工方式一般是通过排查可疑故障点来进行处理,不仅消耗了大量的人力物力,加大了网络的运营维护成本,而且处理过程非常耗时,在发生大量告警时基本不能满足告警处理的实时性方面的要求。而且采用人工的方式很有可能会由于忽略了某些关键告警而导致整个故障的处理并极大的拖延。
为了解决上述问题,满足高效监控的要求,需要在多架构网络中构建一种智能化、自动化的故障处理监控机制,现有技术中,采取基于规则的关联方法、基于案例的关联方法、基于模型的关联方法、基于数据挖掘的关联方法都存在各自的缺陷,而这些缺陷对告警关联分析的影响较大,无法实现有效的智能化和自动化的故障处理监控。
发明内容
有鉴于此,本发明实施例希望提供一种无线网络告警管理的关联分析方法及系统,至少解决了现有技术存在的问题。
本发明实施例的技术方案是这样实现的:
本发明实施例的一种无线网络告警管理的关联分析方法,所述方法包括:
以分布式告警采集方式实时采集当前网络中的X个告警信息,所述X为大于1的自然数;
对采集到的所述X个告警信息进行过滤,以消除与故障告警管理无关的告警信息和/或误告警信息,得到Y个待处理的告警信息,1≦Y<X;
对所述Y个待处理的告警信息进行归一化处理,得到告警信息规格一致的Y个告警信息;
对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,根据所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联来确定告警信息对应的故障设备,并实现对故障设备的故障告警管理。
上述方案中,以分布式告警采集方式实时采集当前网络中的X个告警信息,包括:
为不同的设备类型分别配置不同的告警采集方式;
在不同的设备上分别采取对应当前设备类型的告警采集方式,对当前网络中的X个告警信息进行实时采集;
其中,用于进行所述实时采集的采集端分布于多台设备中,或者驻留在同一台设备中。
上述方案中,对采集到的所述X个告警信息进行过滤,包括:
对采集到的所述X个告警信息通过告警过滤链的方式进行过滤;
所述告警过滤链,由低安全级别到高安全级别,包括:关键字链、告警对象链、网元链、网元类型链、网管链、告警类型链、专业链、告警级别链中的至少一条告警链。
上述方案中,对所述Y个待处理的告警信息进行归一化处理,包括:
轮询当前采集数据库,所述当前采集数据库包括所述Y个待处理的告警信息;
检测到所述当前采集数据库中的底层采集表中包含有与当前临时告警表中的不同项,则触发归一化处理,将所述Y个待处理的告警信息中指定信息的内容处理成一致的格式。
上述方案中,对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,包括:
根据误差反向传播BP神经网络建立告警相关性分析模型,所述告警相关性分析模型用于多级网络告警的关联分析;
将所述Y个告警信息与告警相关性分析模型中的告警相关规则进行匹配,以识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联;
其中,所述BP神经网络具有三层或者三层以上的神经元层,包括输入层、一个或多个隐含层和输出层;上下层之间实现全连接,而每层神经元之间无连接,各个神经元只影响与它相连接的神经元。
上述方案中,所述系统包括:告警采集模块、告警过滤模块、告警归一化模块、告警关联分析模块;其中,
所述告警采集模块,用于以分布式告警采集方式实时采集当前网络中的X个告警信息,所述X为大于1的自然数;
所述告警过滤模块,用于对采集到的所述X个告警信息进行过滤,以消除与故障告警管理无关的告警信息和/或误告警信息,得到Y个待处理的告警信息,1≦Y<X;
所述告警归一化模块,用于对所述Y个待处理的告警信息进行归一化处理,得到告警信息规格一致的Y个告警信息;
所述告警关联分析模块,用于对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,根据所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联来确定告警信息对应的故障设备,并实现对故障设备的故障告警管理。
上述方案中,以分布式告警采集方式实时采集当前网络中的X个告警信息,包括:
为不同的设备类型分别配置不同的告警采集方式;
在不同的设备上分别采取对应当前设备类型的告警采集方式,对当前网络中的X个告警信息进行实时采集;
其中,用于进行所述实时采集的采集端分布于多台设备中,或者驻留在同一台设备中。
上述方案中,对采集到的所述X个告警信息进行过滤,包括:
对采集到的所述X个告警信息通过告警过滤链的方式进行过滤;
所述告警过滤链,由低安全级别到高安全级别,包括:关键字链、告警对象链、网元链、网元类型链、网管链、告警类型链、专业链、告警级别链中的至少一条告警链。
上述方案中,对所述Y个待处理的告警信息进行归一化处理,包括:
轮询当前采集数据库,所述当前采集数据库包括所述Y个待处理的告警信息;
检测到所述当前采集数据库中的底层采集表中包含有与当前临时告警表中的不同项,则触发归一化处理,将所述Y个待处理的告警信息中指定信息的内容处理成一致的格式。
上述方案中,对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,包括:
根据误差反向传播BP神经网络建立告警相关性分析模型,所述告警相关性分析模型用于多级网络告警的关联分析;
将所述Y个告警信息与告警相关性分析模型中的告警相关规则进行匹配,以识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联;
其中,所述BP神经网络具有三层或者三层以上的神经元层,包括输入层、一个或多个隐含层和输出层;上下层之间实现全连接,而每层神经元之间无连接,各个神经元只影响与它相连接的神经元。
本发明实施例的一种无线网络告警管理的关联分析方法,包括:以分布式告警采集方式实时采集当前网络中的X个告警信息,所述X为大于1的自然数;对采集到的所述X个告警信息进行过滤,以消除与故障告警管理无关的告警信息和/或误告警信息,得到Y个待处理的告警信息,1≦Y<X;对所述Y个待处理的告警信息进行归一化处理,得到告警信息规格一致的Y个告警信息;对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,根据所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联来确定告警信息对应的故障设备,并实现对故障设备的故障告警管理。
采用本发明实施例,通过告警信息的采集、过滤、归一化处理、多级网络的关联分析,实现了多架构网络中的智能化和自动化的故障处理监控机制,最终提高了故障处理监控的处理效率和处理精度。
附图说明
图1为本发明方法实施例的实现流程示意图;
图2为应用本发明实施例一关联分析系统的组成结构示意图;
图3为应用本发明实施例一关联分析系统中对告警进行过滤的流程图;
图4为应用本发明实施例一关联分析系统中对规则无法产生关联或关联较少的解决方法流程图;
图5为应用本发明实施例一关联分析系统中进行横向比较规则优化的解决方法流程图;
图6为应用本发明实施例一关联分析系统中对告警关联指标分析方法的优化和流程图;
图7为应用本发明实施例一关联分析系统中BP算法的流程图。
具体实施方式
下面结合附图对技术方案的实施作进一步的详细描述。
本发明实施例的一种无线网络告警管理的关联分析方法,如图1所示,所述方法包括:
步骤101、以分布式告警采集方式实时采集当前网络中的X个告警信息,所述X为大于1的自然数;
步骤102、对采集到的所述X个告警信息进行过滤,以消除与故障告警管理无关的告警信息和/或误告警信息,得到Y个待处理的告警信息,1≦Y<X;
步骤103、对所述Y个待处理的告警信息进行归一化处理,得到告警信息规格一致的Y个告警信息;
这里,“Y个告警信息”不同于“Y个待处理的告警信息”,“Y个告警信息”是特指经过归一化处理,在告警信息的内容上符合格式一致原则的告警信息。
步骤104、对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,根据所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联来确定告警信息对应的故障设备,并实现对故障设备的故障告警管理。
采用本发明实施例,对采集得到的当前网络中的各种告警信息,通过屏蔽重要性等级不高及对设备不会产生影响的告警信息和/或误告警信息,降低告警对整个监控系统的核心部分的干扰作用,并通过对其它的重要告警等进行合适的过滤、筛选、匹配、分类等流程,实现对告警信息的分类或者对其中各个告警之间关系的确定来实现对告警的确定,快速进行网络故障的诊断和定位。
在本发明实施例一实施方式中,以分布式告警采集方式实时采集当前网络中的X个告警信息,包括:
为不同的设备类型分别配置不同的告警采集方式;
在不同的设备上分别采取对应当前设备类型的告警采集方式,对当前网络中的X个告警信息进行实时采集;所述设备可以是服务器。其中,用于进行所述实时采集的采集端分布于多台服务器中,或者驻留在同一台服务器中。
在本发明实施例一实施方式中,对采集到的所述X个告警信息进行过滤,包括:
对采集到的所述X个告警信息通过告警过滤链的方式进行过滤;
所述告警过滤链,由低安全级别到高安全级别,包括:关键字链、告警对象链、网元链、网元类型链、网管链、告警类型链、专业链、告警级别链中的至少一条告警链。
在本发明实施例一实施方式中,对所述Y个待处理的告警信息进行归一化处理,包括:
轮询当前采集数据库,所述当前采集数据库包括所述Y个待处理的告警信息;
检测到所述当前采集数据库中的底层采集表中包含有与当前临时告警表中的不同项,则触发归一化处理,将所述Y个待处理的告警信息中指定信息的内容处理成一致的格式。
在本发明实施例一实施方式中,对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,包括:
根据误差反向传播(BP,Error Back Propagation)神经网络建立告警相关性分析模型,所述告警相关性分析模型用于多级网络告警的关联分析;
将所述Y个告警信息与告警相关性分析模型中的告警相关规则进行匹配,以识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联;
其中,所述BP神经网络具有三层或者三层以上的神经元层,包括输入层、一个或多个隐含层和输出层;上下层之间实现全连接,而每层神经元之间无连接,各个神经元只影响与它相连接的神经元。
本发明实施例的一种无线网络告警管理的关联分析系统,所述系统包括:告警采集模块、告警过滤模块、告警归一化模块、告警关联分析模块;其中,
所述告警采集模块,用于以分布式告警采集方式实时采集当前网络中的X个告警信息,所述X为大于1的自然数;
所述告警过滤模块,用于对采集到的所述X个告警信息进行过滤,以消除与故障告警管理无关的告警信息和/或误告警信息,得到Y个待处理的告警信息,1≦Y<X;
所述告警归一化模块,用于对所述Y个待处理的告警信息进行归一化处理,得到告警信息规格一致的Y个告警信息;
所述告警关联分析模块,用于对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,根据所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联来确定告警信息对应的故障设备,并实现对故障设备的故障告警管理。
采用本发明实施例,对采集得到的当前网络中的各种告警信息,通过屏蔽重要性等级不高及对设备不会产生影响的告警信息和/或误告警信息,降低告警对整个监控系统的核心部分的干扰作用,并通过对其它的重要告警等进行合适的过滤、筛选、匹配、分类等流程,实现对告警信息的分类或者对其中各个告警之间关系的确定来实现对告警的确定,快速进行网络故障的诊断和定位。
在本发明实施例一实施方式中,以分布式告警采集方式实时采集当前网络中的X个告警信息,包括:
为不同的设备类型分别配置不同的告警采集方式;
在不同的设备上分别采取对应当前设备类型的告警采集方式,对当前网络中的X个告警信息进行实时采集;
其中,用于进行所述实时采集的采集端分布于多台设备中,或者驻留在同一台设备中。
在本发明实施例一实施方式中,对采集到的所述X个告警信息进行过滤,包括:
对采集到的所述X个告警信息通过告警过滤链的方式进行过滤;
所述告警过滤链,由低安全级别到高安全级别,包括:关键字链、告警对象链、网元链、网元类型链、网管链、告警类型链、专业链、告警级别链中的至少一条告警链。
在本发明实施例一实施方式中,对所述Y个待处理的告警信息进行归一化处理,包括:
轮询当前采集数据库,所述当前采集数据库包括所述Y个待处理的告警信息;
检测到所述当前采集数据库中的底层采集表中包含有与当前临时告警表中的不同项,则触发归一化处理,将所述Y个待处理的告警信息中指定信息的内容处理成一致的格式。
在本发明实施例一实施方式中,对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,包括:
根据误差反向传播BP神经网络建立告警相关性分析模型,所述告警相关性分析模型用于多级网络告警的关联分析;
将所述Y个告警信息与告警相关性分析模型中的告警相关规则进行匹配,以识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联;
其中,所述BP神经网络具有三层或者三层以上的神经元层,包括输入层、一个或多个隐含层和输出层;上下层之间实现全连接,而每层神经元之间无连接,各个神经元只影响与它相连接的神经元。
以一个现实应用场景为例对本发明实施例阐述如下:
本应用场景采用本发明实施例,具体是一种无线网络告警管理关联分析系统,该无线网络告警管理关联分析系统,主要是基于自定义规则引擎和算法优化,采用了关联规则进行告警信息与数据信息之间的挖掘技术,实现了对网络故障与告警的关联分析与处理。
针对上述应用场景,随着移动通信技术的快速发展和移动业务的增长,网络运行告警信息规模与频度也相应增长,使得引发告警的故障原因判断更加复杂,需要投入大量的人力物力进行监控。
现有的技术主要有以下几种方案:
1.基于规则的关联方案:
基于规则的关联方法(RB,Rule Based)是将特定于当前告警系统领域的告警知识包含在一组规则集合中,通过对监测到的告警进行判定,并使用相应的推理规则来分类一个或者多个告警的发生是否符合某一个规则,进而确定其具体的故障类型。
其工作原理主要是依赖于规则库和推理引擎。在规则库中将很多从实践中获取的知识通过恰当的编码形成IF-THEN式的规则。同时,规则库中也包含了一个工作存储区,用来保存断言和初始的先验知识,也用来保存以后的规则处理结果。当发生新的告警的时候,系统启用推理引擎来对告警进行处理。首先,系统通过检测所有的规则的条件部分(IF),并找出那些在工作存储区中那些规则的条件与当前待检测的条件吻合的规则子集,形成一个冲突集。其次,系统采用诸如随机选择、首次适用、最佳适用等各种冲突解决方法来分析这个冲突集,从其中选取一个规则进行触发,即执行其规则中的THEN部分。最后,这次触发过程又可以去修改当前的工作存储区,系统最终将在没有任何规则满足当前规则集中的条件部分或者规则结果部分指定停止的时候终止整个处理流程,完成一个规则关联的周期。
2.基于案例的关联方案:
基于案例的关联方法(CB,Case Based)是将已经发生的告警问题及其相应的故障结果或者解决方案构成案例,并在其上构建解决方法。
其工作原理主要依赖于对上述案例所形成的知识库的分析。当遇到新的问题时从知识库中提取相同的或者类似的案例,并使用其故障结果和解决方案来解决当前正在发生的问题。而这次解决问题的方案将按照预先设定的测试集来对其进行测试并修正直到满足某些指定条件,这些修正后的案例又将作为新的案例添加至现有知识库中,形成一个持续的解决方案。
3.基于模型的关联方案:
基于模型的关联(MBR,Model Base Reasoning)是为系统构建一个模型,来分析其中被监控的信息。这些模型可以是状态机、树状结构或者网络节点模型等各种能表达系统节点间拓扑关系的结构。
拓扑模型的建立主要依靠对当前物理网络中各个设备间关系的先验知识,需要事先能够获取设备间各个模块问的关系,记录各个模块的状态。但是网络间设备并不是静态的,在网络中经常会引入新的设备节点,各个节点问的关系也会经常性的发生变化,导致获取指定告警信息或者去进行关联的时候需要某些特定的算法,进而导致系统的变得越来越复杂,在网络拓扑结构发生变化的时候不能很好的改变模型的架构来完成对系统的优化。
4.基于数据挖掘的关联方案:
数据挖掘方法(DM,Data Mining)是从大量的、不完整的、有噪音的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可以理解的模式挖掘过程。它是基于对过去事例泛化的一种归纳学习,可以解决分类、聚类、时间序列分析、关联规则挖掘等问题。DM基于网络中的历史告警数据,发现告警数据间相关性规则,再根据发现的规则来分析和预测网络设备可能出现的故障。
对上述现有的四种技术方案各自的优缺点分析如下:
1.基于规则的关联方案
优点:规则比较简单、明了,符合人的理解思维方式;由于可以很直观的从这些规则中推理出最终的结果,能够很容易的构建相应的基于规则推理的系统。
缺点:规则的可维护很低,当系统的物理结构发生变化时,确定新的规则不仅需要网管人员的专业知识,而且需要保证各个规则的建立时所依赖的知识是具有一致性的、正确的,否则各个规则间将很容易发生冲突;另外,当工作存储区中规则数量过于庞大时,由于不能够通过记忆等方式加速规则匹配流程,即对告警必须进行规则匹配,而这个过程也将由于需要测试的规则过多而非常耗时;最后,如何为当前的规则库选择一个恰当的冲突解决方案也是一个难点,可能会由于规则库规模的变化而导致解决方案的不同。
2.基于案例的关联方案
优点:具有自我学习能力,由于新的案例会被补充到现有的知识库中,而且是在满足某些测试集的验证机制下,所以可以实现智能化的修正,逐步完善整个案例知识库;
缺点:案例机制是通过测试集来进行修正的,而测试集本身可能非常难于设计,而且测试集对于案例库的修正也比较缓慢,导致对此方法对网络系统的变化的响应迟缓。
3.基于模型的关联方案
优点:能够通过模型快速确定告警点和故障位置,具有很高的告警响应效率;
缺点:模型的建立是一个非常困难的过程,需要专业人员对网络结构非常熟悉;而且在大型网络中,构建出的这样的模型可能具有很高的复杂度,可能需要对这些模型进行分割,并需要将分割出来的模型之间的关系进行处理,这样又会导致整个系统的复杂度上升,形成一个非常复杂的设备模型和故障传播模型;最后,MBR方法不能很好的响应网络结构的变化,在大型网络中设备节点的变化非常频繁,经常需要对模型进行修正,是一个耗时耗力的过程,在实际应用过程中可能需要专人进行特别的维护。
4.基于数据挖掘的关联方案
优点:相关性分析所需的知识可以通过数据挖掘来获得,减少了对网管专家的依赖:无需知道网络拓扑结构。尤其是当网络拓扑结构发生改变时,可以通过分析历史记录,自动发现新的告警关联规则,适应电信网络变化快的需求,减轻了网管人员的工作负担,提高了工作效率;
缺点:数据挖掘需要能够从海量的数据中发现相应的数据间的关系,而数据一般式存储在数据库中,且数据库的访问速度跟不上程序处理的速度,导致在告警量大时,处理速度跟不上;在相应的数据中查找发现相应数据间规则也是一个很复杂的过程,没有一个有效的方法能够验证数据规则的正确性。
上述4种现有方案的缺点对告警关联分析的影响较大,因此在本发明实施例的无线网络告警管理关联分析系统中提出的解决方案是基于人工神经网络的关联分析。基于人工神经网络的关联分析的具体实现方法将在后续进行详细的介绍,此处不做赘述。
本发明实施例的无线网络告警管理关联分析系统针对当前网络监控工作中的已知问题进行了深入研究,其主要内容包括以下三个方面:
1.研究网络告警数据的分布特性,分析出其数据分布模型,使用多等级告警处理模型,利用高斯感知器处理减少人工神经网络需要处理告警数据的数量,提升整个告警关联系统的分析效率;
2.对人工神经网络训练方法进行比较,使用BP神经网络对故障告警数据进行分类。利用BP网络的自适应特点和模式识别能力,通过对比使用动量项、自适应速率、LM算法等多种方式验证了BP的训练效果,对通信网络中的故障进行定位,实现对网络告警的监控;
3.无线网络告警管理关联分析系统基于客户端/服务器的网络部署架构,使用了分布式的告警采集方案,针对无线设备根据其类型和告警采集规范设计了相应的采集方案,实现了对告警数据的实时采集。通过使用层次化的解决方案和设计模式,有效降低了系统模块之间的耦合性,提高了整个系统的可扩展性和稳定性。
对本应用场景采用本发明实施例的具体技术方案进行详细阐述如下:
无线网络告警管理关联分析系统,如图2所示,在逻辑关系上根据各模块的功能与属性的不同,主要由告警采集模块、告警过滤模块、告警归一化模块、告警关联分析模块四个逻辑部分,以及告警数据库等组成。
下方将对各模块的实现方法和流程进行详细介绍:
一、针对告警采集模块而言,无线网络告警管理关联分析系统的目的是要对网络中的无线设备进行监控,需要将较分散的告警统一成一个整体。由于需要采集的设备种类繁多,因此该系统设计了一种分布式的告警采集策略,将告警数据以数据库存储点为核心,通过不同的途径获取相关设备的告警来进行告警采集。使用分布式的采集方式还具有如下优点:
(1)通过使用分布式的采集方式,在新设备入网或者需要增加采集网元时能够灵活配置当前的系统,可以保证在不改变原有系统架构的情况下实现对新增网元的告警的采集;
(2)分布式系统能够进行自定义的加载、卸载工作而不影响其它模块的采集部分,在采集过程中也可以设定相应的采集策略,减少了系统设计的复杂度;
(3)在某一个采集模块崩溃时,分布式采集配置使其它采集部分不会受到影响,能继续保持运行;
(4)分布式采集系统可以通过人工定义而启用禁用某些采集功能,完善整个采集策略;
在分布式采集架构中,故障告警采集端可以分布于多台服务器上,也可以几个驻留在同一个服务器上。
无线告警的监控主要依赖于其本身所提供的网管系统来完成。这主要是由于无线设备已经在承担大量的用户通信的任务,不能再增加无线设备的负载,降低其运行效率,因此告警的采集将依靠其上的网管系统OMC来实现。
对无线告警的监控通过采集分析OMC上的日志文件即可完成,且间隔15分钟也能基本满足监控告警时效性的要求。因此,采集无线告警信息就转化成分析OMC上日志文件,通过查找OMC资料,将文件转换为普通文本文件,再过滤特定的告警信息。
无线告警采集服务器通过使用远程登陆服务(Telnet)对各个OMC进行操作:首先定义需要获取日志的名称,在初次启动的时候需要去跟踪并获取当天全部的日志文件,接下来则只需要分析尚没有被跟踪的日志;然后对被跟踪文件进行转换,将其保存至新的备份文件中;最后,使用文件传输协议FTP(File Transfer Protocol)从服务器上下载此备份文件至本地采集服务器,然后就可以对这些告警信息进行解析。同时,在解析过程中最重要的是能正确区分告警信息和恢复信息,由于事件日志保存的信息中包含了所有设备的事件信息,因此,必须通过一定的规则确定是否有告警;同时,在告警自动恢复时,设备也会上报恢复信息,如告警等级为Clear时的信息表示某历史告警现在已被清除。通过定义相关规则,使用正则表达式判断告警是否符合,系统能有效地自动清除告警。
通过OMC采集上来的无线告警在很大程度上指示了当前基站或者链路方面的问题,如小区退服、基站断站等。其主要包含了两种类型的告警,一种是告警中包含了相应的告警状态码,指定了具体的告警类型;另一种是状态变化的告警,它本身并没有指定相应的告警状态码,但是在告警的具体信息中指明了内容,如表示状态由A状态变化为B状态,其本身既可能是告警信息,也可能是某一事件信息。
采集层程序由于需要在多台服务器运行,且性能上要求也比较高,需要能够使用很多复杂的工具包来对数据进行处理,因此无线网络告警管理关联分析系统整个采集层程序全部使用了Java语言来实现。Java平台由Java虚拟机(Java Virtual Machine)和Java应用编程接口(API,Application Programming Interface)构成。Java应用编程接口为Java应用提供了一个独立于操作系统的标准接口,可分为基本部分和扩展部分。在硬件或操作系统平台上安装一个Java平台之后,Java应用程序就可运行。现在Java平台已经嵌入了几乎所有的操作系统。这样Java程序可以只编译一次,就可以在各种系统中运行。
使用Apache Commons Net来进行编程实现,Telnet作为一种交互式的命令接口,命令必须在服务器端发送过来相应的提示信息时才进行输入,否则服务器端是不知道如何进行响应的。并且在输入命令时需要对服务器端、客户端两者间发送信息的方式进行协商,以统一对某些特殊符号的处理。
在Telnet连接部分主要使用了TelnetClientWrapper类来封装了Commons Net包中TelnetClient类的方法,它实现了Telnet协议中NVT机制,作为客户端时能与OMC所使用的Solaris系统Telnet服务器进行正确的协商。整个系统采用线程实现,将对各个OMC的处理封装在线程中,实现多线程处理,其具体步骤如下:
(1)创建到OMC服务器的连接
使用如下的函数实现,其中host为要连接到的远程主机的IP地址或者服务器名,port为要连接到的远程主机的端口。
public void connect(String host,int port);
从TelnetClient中获取相应的输入输出流,分别使用getInputStream()和getOutputStream()方法。
(2)登陆OMC服务器
连接上OMC服务器后,需要通过相应的认证,即输入用户名、密码等信息。通过使用如下方法判断是否读取完整服务器端的输出或者响应。
(3)获取日志文件名称,并将跟踪文件转化成文本形式;
(4)下载文件至本地;
(5)分析文件,使用Java中内置的正则表达式规则,正则表达式本身就是一个字符串,它定义了一个用来搜索匹配字符串的模式;
(6)确保对服务器端的Telnet连接、TCP连接都正常退出或者结束连接,以保证不再占用服务器端连接数、消耗服务器资源;
(7)将处理后的数据存储进入数据库。经过正则表达式匹配的告警,可以将其中每条告警数据表示成一个Java Bean类,即将其中匹配到的字符转换成恰当的类的表示,存入数据库。
通过实现分布式的告警采集方式,无线网络告警管理关联分析系统为各个不同的设备类型定义了专门的针对该对象的告警采集方式,这样可以使采集程序放到不同的服务器上,减少了单个采集服务器的压力,提升了稳定性。
告警采集完成之后,就进入了告警过滤流程。
二、针对告警过滤模块而言,无线网络告警管理关联分析系统的告警过滤主要是为了克服下述问题而采取的针对性措施:
(1)一个设备故障会影响到很多设备,从而引发很多设备告警,甚至同一个设备会多次告警。如果所有告警都上送至监控中心,将导致某一时刻设备告警过多而淹没整个告警处理系统,造成系统响应不及时,同时对告警的后续处理也会由于告警过多而分散对于核心告警点的关注力。因此需要对其中重要性级别不高的告警进行过滤。
(2)同一时间设备在一个时间段内出现故障或者状态变化时,告警采集模块会将这些告警信息全部采集上来,而这些信息事实上指示的是同一个告警,只是上报时间可能会有不同,因此需要将这些相同的告警进行过滤而只保存其中的一个作为告警采集的数据。
(3)在进行设备告警采集时,由于系统设置是对所有设备告警进行采集,而事实上可能某个通信设备会由于整改或其他原因而临时不在工作,而网管程序或者采集程序无法获取这种设备正常的脱离过脱离工作状态的事实,因此在这种状况下也会上报告警信息,而这显然是不符合实际情况的。
(4)设备监控人员的经验可能会定义出一定的规则,在出现大规模网络告警的时候可以自定义哪些告警是需要关注的,哪些告警在某个特定时段是多余的,哪些告警需要永久清除,因此需要一种机制用于监控人员人工确定哪些告警是需要关注的,哪些是不需要关注的。
考虑到告警预处理中很多问题都需要依据网管人员实际的网络经验来解决,需要网管人员凭借丰富的网管经验给出适当的处理规则。手工进行告警过滤操作,工作量大且费时费力,无法满足网络快速故障诊断和定位的要求。
系统通过告警过滤链的方式来对告警进行过滤,即应用职责链模式(ChainofResponsibi1ity)来对整个告警进行过滤。职责链模式通过在这些对象链之间传递一个叫做消息或请求的值,让每个对象根据请求的不同完成不同的职责。如将一条告警数据作为一个请求,在告警过滤链中进行传递,使每个过滤规则都能对告警进行处理,这样避免了告警过滤与告警数据之间的强耦合性,告警数据不用与全部的过滤链进行交互就可以判别是否需要过滤,而且通过实现职责链模式可以在告警过滤时人工对这些过滤链进行开启禁用操作改变告警过滤的传递规则,更好的实现过滤的监控,实现无监督式的过滤。
在系统的实现方式上,过滤层还采用了基于事件的机制。事件是对象发送的消息,以发信号通知操作的发生。操作可能是由用户交互(例如鼠标单击)引起的,也可能是由某些其他的程序逻辑触发的。引发事件的对象称为事件发送方,捕获事件并作出响应的对象叫做事件接收方。这可以类比人对周围世界反馈产生信号的能力。在事件通信中,事件发送方不知道哪个对象将接收到它引发的事件。所需要的是在源和接收方之间存在一个媒介,事件源可以以链表或者其他形式的容器将事件接收方的具体信息保存起来,在事件发生时候,触发事件接收方进行处理。
在无线网络告警管理关联分析系统使用的DotNet框架中,提供了一种新的形式的机制用于实现事件:通过委托(delegate)的方式来实现。委托通过定义一个原型对象,保存了对方法的引用,并将事件定义成一种契约形式,且在委托中定义签名机制,使其只能对与其签名匹配的方法进行引用。因此,从本质上说委托时一种类型安全的函数指针。当需要回调的时候。可以调用委托的成员函数Invoke就可以实现调用设置的回调函数,这时Invoke会自动根据声明的委托形式进行调用。
DotNet的事件机制实现非常灵活,能够实现类型安全的事件,而且通过DotNet对数据库访问、多线程编程方面都非常灵活方便。
在采集过滤层启动时候,系统将启动过滤层采集程序,同时将分别启动上文中所述的七条告警过滤链程序。
过滤层采集程序将启动一个线程,以固定的间隔运行,用于原始告警数据表中采集告警并将告警上送至等级最低的告警过滤链程序。其中过滤层采集程序将根据告警发生的频率和相应的实时性要求来确定线程的运行间隔。告警上送的具体实现如下:
(1)过滤层采集程序中定义如下事件,分别用于处理无线数据的插入、删除事件:
public static
InsertRecordToTempTableInsertRecordToTempTableHandler:
public static
DeleteRecordFromTempTableDeleteRecordFromTempTableHandler:
对一系列的告警数据进行处理,从无线数据表往临时告警表插入,使用long作为无线数据的标识;删除是指从系统临时告警表将记录删除,使用了GUID作为唯一标识。
public delegate void InsertRecordToTempTable(List<long>inRecords):
public delegate void
DeleteRecordFromTempTable(List<Guid>inReocrds):
(2)通过比较告警表与系统级别临时告警表确定哪些无线告警不在临时告警表中,并选出这些告警作为集合,记作DeltaRadio。在采集过程中,将对这些数据进行归一化处理。主要通过比较采集时的原始数据与归一化集合中定义的格式来实现。
(3)在告警关键字链启动的过程中,将在过滤层采集程序中注册作为事件的接收方,如在插入无线记录时定义了使用OnInsertRadioRecordToTempTable函数进行处理,在删除记录时使用OnDeleteRadioRecordFromTempTable进行处理。
RadioAlarmCollector.InsertRecordToTempTableHandler+=
newBusiness.TempAlmCollecter.InsertRecordToTempTable(0nInsertRadioRecordToTempTable):
RadioAlarmCollector.DeleteRecordFromTempTableHandler+=
newBusiness.TempAlmCollecter.DeleteRecordFromTempTable(OnDeleteRadioRecordFromTempTable):
(4)在无线过滤层采集将DeltaRadio标记后,在有告警数据时将启动事件机制,触发告警关键字过滤链对这些数据进行处理。
(5)关键字过滤链中有定义了相应的事件,用于触发级别更高的告警过滤链对DeltaRadio进行处理。从而实现了职责链形式的告警过滤。
(6)最终由活动告警过滤链将告警数据插入系统活动告警表中,用于对这些告警进行显示。
经过过滤层处理后的告警信息在原有大规模告警基础上数量上已经有了很大的减少。然而每个不同的设备都个性化的定义了自己所产生的告警信息的规格,而且这些设备可能对于告警信息中某些特定信息的定义如告警等级也使用不同的格式来进行表示,因此需要对这些告警格式进行归一化处理。
三、针对告警归一化模块而言,无线网络告警管理关联分析系统的告警归一化是指对告警进行一定程度的统一,即对原始告警数据的整理、筛选、补充,是原始告警数据用于告警关联规则处理的重要前提和必要阶段。经过告警归一化的告警数据去除了大量冗余信息,告警中所含的用于故障诊断的信息完整,信息量得到了较大的压缩,对关联规则处理效率的提高有着积极的意义。
(1)对告警的格式进行统一。通常来说告警中的某些字段需要经过一定的处理才能变成用户友好的告警信息,如在某些设备中仅使用数字1、2等来表示告警等级,无法明白这些信息的具体含义。因此告警归一化通过定义统一的告警等级的类别,对这些进行归一化。用于描述统一的告警等级的类别的表如表1所示。
表1
(2)形成一个统一的告警类别,能用来标识各种告警信息。在归一化过程中需要对采集上来的告警进行一定的标识,网络告警信息一般只有经历系统状态变化的设备名称类型、故障症状、发生时间、告警等级等,没有提供识别故障所需的故障发生的详细地点和原因等数据。过滤模块主要负责对无关紧要告警的过滤和告警信息中相应字段的归一化流程。
底层系统采集的告警结构保存在数据库中,通过轮询当前采集数据库,发现是否底层采集表中包含有与当前临时告警表中的不同项,如有则触发相应的归一化过滤程序。例如,通过对比无线数据库的活动告警与当前临时告警表中的无线告警信息,能够将已被自动清除或被人工清除的告警信息从临时告警表中删除。通过比对临时告警表与活动告警表中的纪录,将未在活动告警数据库中出现的临时告警信息从临时告警数据库中取出,并使用告警过滤链进行处理,从而实现告警的归一化与过滤流程。
四、针对告警关联分析模块而言,无线网络告警管理关联分析系统共定义了8条告警链,级别从低到高分别为:关键字链、告警对象链、网元链、网元类型链、网管链、告警类型链、专业链、告警级别链。通过实现如上的告警过滤链机制,实现了对告警过滤的高度可定制性,更好地满足用户告警处理的要求,如图3所示为对告警进行过滤的流程,包括:从数据库查询告警过滤表,获取所有过滤器规则;依次获取下一条过滤规则,分别与过滤规则进行匹配。其中,与告警关键字进行匹配,以生成告警过滤规则对象,加入告警关键字过滤规则链;与告警对象进行匹配,以生成告警过滤规则对象,加入告警对象过滤规则链;与告警网元进行匹配,以生成告警过滤规则对象,加入告警网元过滤规则链;与告警网元类型进行匹配,以生成告警过滤规则对象,加入告警网元类型过滤规则链;与告警网管进行匹配,以生成告警过滤规则对象,加入告警网管过滤规则链;与告警类型进行匹配,以生成告警过滤规则对象,加入告警类型过滤规则链;与告警级别进行匹配,以生成告警过滤规则对象,加入告警级别过滤规则链或生成告警过滤规则对象,加入告警专业过滤规则链。
告警信息主要包括告警类型、网元类型、网元信息、告警时间、具体信息和严重等级。因此,规定归一化告警的格式,作为最后呈现给监控人员的信息,并将这些作为告警关联的基础。
告警数据具有某些共性特征。为使用户对这些信息有一个总体的概要,无线网络告警管理关联分析系统需要对这些信息进行归一化;同时,由于告警信息多种多样,很有可能出现很多不重要的告警、现阶段不需要关注的告警和重复告警(如当前基站处于测试状态),给监控工作增加了工作量。因此,无线网络告警管理关联分析系统需要定义相应的规则对这些告警进行过滤。最后将过滤后的归一化的告警信息呈现给监控人员。
告警数据在这些过滤链中流动的过程中,程序定义规则对其进行匹配,如匹配了当前的规则,则将此告警从活动告警中消去。
整个过滤层作为托盘程序在系统中运行,当用户启动后将采集各个告警采集层所用表中的当前告警,并与整个告警关联模块、呈现模块结合,完成对告警的最终处理。
无线网络告警管理关联分析系统还结合告警管理实践工作中的一些重点突出问题进行了有针对性的优化和改良,其处理流程和算法等简要说明如下:
一、如图4所示为对规则无法产生关联或关联较少的解决方法流程,包括:1)判断是否存在关联告警。在这个过程中,需要执行:①判断相关告警是否在现网出现过及是否未匹配导致无网管告警ID;②分析告警没出现的原因及告警未匹配原因;③继续观察及对未匹配告警进行梳理。2)判断关联规则条件是否合理。在这个过程中,需要执行:①相关告警实际情况是否能满足关联规则条件;②告警实际情况不能满足关联规则条件的原因,且将这个原因与判断关联规则量值是否合理过程中的分析关联规则量值的合理性的结果进行关联,以执行③制定关联规则修改方案,重新部署关联规则。3)判断关联规则量值是否合理。在这个过程中,需要执行:①相关告警实际时间间隔和次数是否与关联规则中的量值有出入导致无法关联;②分析关联规则量值的合理性;且将这个分析关联规则量值的合理性的结果与判断关联规则条件是否合理过程中的告警实际情况不能满足关联规则条件的原因进行关联,以执行③制定关联规则修改方案,重新部署关联规则。
二、如图5所示为在进行横向比较规则优化的解决方法流程,包括:1)配置多种目标规则条件与量值的关联规则;其中,同一告警会同时匹配到多条关联规则的特性。2)分析这些规则的压缩情况;其中,需要析压缩量和匹配告警数两个指标。3)挑选最优量值;其中,需要根据压缩效果目标选定合适的量值。
三、如图6所示为对告警关联指标分析方法的优化和流程,包括:对涉及告警种类、匹配告警数、单条关联规则的关注价值、单条关联规则的压缩量、关联成功数、衍生告警数量、主告警数量、子告警数量的分析和优化。其中,匹配告警数时,如果匹配数为0,则有可能匹配规则异常;如果匹配数过少,则可以分析关联规则和量值的合理性。分析压缩量时,压缩量要与关联成功数做参照,若压缩量不理想,可以优化词规则,增加压缩比,以减少衍生告警产生目的进行量值优化时,增加时间窗或者加高门槛,主次告警应该只能进行适当必要性优化。分析关联成功数时,关联成功数要与匹配告警数做参照,若关联成功比不高,可以优化此规则,增加成功比例,在关联规则原则前提下,可以适当考虑放宽关联限制进行优化,调高X值,降低Y值。
同时,基于告警数据的分布规律,无线网络告警管理关联分析系统还提出了基于BP网络的多级网络告警关联处理模型,可以事先通过分析动通信网络中的故障数据中的高斯模型规律,找出具体高斯分布常量。通过对告警数据的实验分析,可以发现告警数据符合二次高斯混合模型,其故障密度函数为:
如图7所示为BP算法的流程图,包括:
步骤201、初始化;
步骤202、给定输入向量和目标输出;
步骤203、求隐含层、输出层输出;
205、判断ei是否满足要求,当ei满足要求时,继续判断全部ei是否都满足要求,如果是,则结束当前流程,否则,执行步骤206;
步骤206、计算隐含层单元误差;
步骤207、根据误差修正网络后,转入执行步骤202。
无线网络告警管理关联分析系统可以通过预先对告警数据进行恰当的预处理,减少BP网络需要处理的告警数据量,加速BP网络的处理效率,对整个系统的处理性能也将带来较好的提升。
告警信息存入告警数据库中,针对告警数据库而言,无线网络告警管理关联分析系统的数据库可以采用SQL Server 2008,作为微软.net框架战略的一部分,SQL Server不仅能很好的与.net的语言进行结合,而且与Java等语言间具有很好的数据库互操作性。
在数据库访问方面,系统主要基于所使用的语言的方便性而采用不同的访问方式,对Java语言主要采用了IBatiS框架或者直接使用JDBC来封装整个对数据库的访问,对DotNet而言则主要利用了其自身内置的DotNet3.5内置的LINQ(Language IntegratedQuery)来完成对SQL Server的操作。IBatiS架构包括两个主要的组件:SQL Map和DAO(DataAccess Object,数据访问对象)。SOL Map是IBatis架构最重要的组件,能够大大减少访问数据库的代码,通过使用简单的XML配置文件将Java Bean映射成SQL语句。DAO能让开发者使用简单的接口组件访问数据库,而不用知道数据访问层的实现。LINQ使用一种类似SQL的语法来查询任何形式的数据,主要包括数据库、文件、数据集合等。它通过构建数据上下文DataContext实现数据访问的封装,将数据库表示成数据上下文中的一个类,并提供相应的关联关系来实现类之间的连接。通过使用LINQ能在数据库操作方面,尤其是select操作中极大的提高了编程效率。
综上所述,本发明实施例的无线网络告警管理关联分析系统所依托的网络故障告警关联分析方法主要针对移动通信网络故障告警的特点,能够对移动通信网络故障发生时产生的规模型告警数据进行分析,自动识别当前告警数据的各个类型,从而通过分析这些告警数据所对应的故障设备,找出具体的故障设备点,实现智能化的故障告警管理。这种故障告警分析能够减少监控人员日常排查方式查找故障所消耗的时间,在提高监控处理人员工作效率的同时,加快网络故障告警的处理速度。另外,该系统还分析了不同设备类型使用的告警采集机制,进而构建了一个在通信网络中能够灵活配置的故障告警关联分析系统。通过该模型系统的设计与实现,能够在移动通信网络中实现对告警的全局监控、告警数据的灵活过滤,为在其他移动通信网络中构建相似的告警关联分析系统提供了参考的依据。
本发明实施例的无线网络告警管理关联分析系统主要包含如下四个方面:
(1)告警采集关键点
系统告警采集部分用于对当前网络中的各个设备的告警信息进行收集,为系统提供数据来源。通常来说有两种主要的告警采集方式:一是设备主动向上汇报自己本身设备的告警,另一种则是网管系统通过定期轮训或者相近方式主动去获取相应设备的告警。无线网络告警管理关联分析系统对设备告警的采集主要关键点在于对网络告警采集的实时性、全面性、高效性方面的体现。
(2)告警过滤关键点
告警过滤是指对采集上来的告警进行一定的处理,以消去其中无关紧要的告警信息、误告警等。通常来说,一个中等规模的网络其告警量就可以达到监控人员难以处理的程度,因为为了保证设备的运行正常,不同设备厂商通常会将设备的状态转换、设备的加载卸载等事件也作为告警信息中的一类来传送,而这种信息量会比告警信息量大得多,毕竟故障发生的几率相对于状态变化会小很多。而无线网络告警管理关联分析系统会对这些告警信息进行恰当的过滤。
(3)告警归一化关键点
告警归一化主要是为网络中设备厂家所指定的告警信息规格不一致而设定的处理阶段。通信网络中设备厂家不同众多,设备也多种多样,这样不仅导致设备的告警信息中很多字段不一致,如描述告警等级的时候某些设备可能会使用数字大小来表示,某些设备可能又会用Major等词汇来表示,而且可能导致同一种事件信息有很多中不同的表示方式,因此需要设定恰当的机制对这些信息进行归一化,将告警信息中特定信息的内容表示成一致的格式,这样不仅便于对告警信息的继续处理,而且为监控的告警提供了一致的内容信息,不会使得监控人员核查信息时概念不清楚。
(4)故障关联分析关键点
网络故障智能关联分析是该系统的一个核心功能,主要目的是通过对所获取的各种告警数据进行智能化处理,实现精准定位故障点。
告警管理作为现代网络通信管理的一个重要组成部分,已成为通信网络日常运行的安全保证,在大型网络中也扮演着越来越重要的作用。对告警数据进行管理、分类已成为通信管理的重要内容。在通信网络运行过程中,每天都会产生大量告警,由于各网管系统生产厂商的不同,各厂商对告警格式和信息也不尽相同。而且,一种告警也许会引起其它设备的告警,因此,告警的数量庞大且相互间的关系非常复杂,不可能完全靠人工的判断来处理。无线网络告警管理关联分析系统通过建立告警相关性分析模型,并且通过使用适当的挖掘工具来发现告警相关规则,不但有效压缩了挖掘结果,提高了规则的准确率,更辅助故障定位和告警过滤,以减轻网络监控人员的工作强度,提高工作效率。
告警事件只能够表明可能有故障发生,并非一定有故障发生。资源的被管理对象可以发出告警事件作为对系统当前发生异常的响应。告警事件包含了被管理对象状态异常的信息。当网络中出现故障时,会引发一系列告警,但并不是所有告警都表明故障原因,所以需要对网络中发生的告警事件进行相关性分析,才能确定产生故障的根本原因。因此,告警相关性分析就是指对告警进行合并和转化,并将多条告警记录合并成一条具有更多信息量的告警,形成能准确反应故障根本原因的告警,并且可以准确定位故障。此外,告警相关性还可用于对产生多个告警进行解释,这就为最初定义的告警事件增加了新含义。
在故障处理过程,采集上来的故障告警数据的特定信息中已经包含了某种告警信息及其对应的故障问的关联,即对于某一个告警信息,指定了相应的目标输出,因此在人工神经网络的训练算法中需要选择一种有师学习的算法。BP算法是目前应用最广泛的有师学习算法,且其实现过程比较简单,三层BP神经网络能够解决绝大部分模式识别方面的问题,因此无线网络告警管理关联分析系统选用了BP神经网络作为网络故障告警关联分析中的人工神经网络方法(ANN,Artificial Neural Network),并对其进行了有针对性的优化和改良。其中,BP神经网络是一种单向传播的多层前向网络,具有较强的学习能力。BP网络具有三层或者三层以上的神经元层,包括输入层、一个或多个隐含层和输出层。上下层之间实现全连接,而每层神经元之间无连接,各个神经元只影响与它相连接的神经元。其学习过程由正向传播和反向传播组成:正向传播的过程中,输入信息从输入层经各隐含层处理后,传至输出层;如果在输出层得不到期望的输出,就转为反向传播,按照减少目标输出与实际结构误差的方向,把误差信号沿原连接路径返回,并通过逐层修正各连接的权值,使误差信号最小。同时,这些BP网络中的隐含层节点相当于用户对一类信息进行分类的感知器。通过逐层修正各连接的权值,使误差信号最小。同时,这些BP网络中的隐含层节点相当于用户对一类信息进行分类的感知器。
无线网络告警管理关联分析系统依托上述人工神经网络,具有如下优点:
依托上述人工神经网络,能对大规模数据进行处理,它通过多个网络节点同时输入,使得系统具有高度的并行结构和并行处理能力,对输入进行实时的动态处理来完成大规模告警处理。许多研究工作也证实人工神经网络在故障诊断中的应用是成功,是实现智能化诊断的一个较完善的方案。
告警关联过程的核心其实就是一种对关键告警进行模式匹配的过程,人工神经网络技术作为一种网络告警关联分析技术之一,在模式匹配领域具有较强的功能,通过人工神经网络的多节点同时工作的模式,可以实现对大规模网络告警的快速匹配,进而完成网络告警故障的分类。人工神经网络作为一种现阶段应用越来越广泛的关联分析技术,并且是一种非常具有学习能力的和自适应能力的系统。作为一种由神经元模型构成的系统,它能够通过在学习阶段分析整个内部及外部信息来改变每个神经元与神经元之间的连接权系数动态调整自身结构,实现智能化的处理,具有相应的自适应能力,满足了系统需要根据告警数据进行自适应变化、能够学习的特点。
虽然神经网络在具体应用前,需要经过大量的训练,即需要从通信网络中获取到适合的告警训练数据,训练时间也会由于服务器性能问题而比较长,给实际操作过程带来了一定的困难,但是在通过一定的采集手段能够获得足够的训练数据的情况下,且服务器的处理速度随着技术的进步也越来越高,人工神经网络在处理方面存在的问题也是能够得到有效解决的。
无线网络告警管理关联分析系统针对移动通信网络故障告警的特点,能够对移动通信网络故障发生时产生的规模型告警数据进行分析,自动识别当前告警数据的各个类型,从而通过分析这些告警数据所对应的故障设备,找出具体的故障设备点,实现智能化的故障告警管理。这种故障告警分析能够减少监控人员日常排查方式查找故障所消耗的时间,在提高监控处理人员工作效率的同时,加快网络故障告警的处理速度。
本发明实施例所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样,本发明实施例不限制于任何特定的硬件和软件结合。
相应的,本发明实施例还提供一种计算机存储介质,其中存储有计算机程序,该计算机程序用于执行本发明实施例的无线网络告警管理的关联分析方法。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。

Claims (10)

1.一种无线网络告警管理的关联分析方法,其特征在于,所述方法包括:
以分布式告警采集方式实时采集当前网络中的X个告警信息,所述X为大于1的自然数;
对采集到的所述X个告警信息进行过滤,以消除与故障告警管理无关的告警信息和/或误告警信息,得到Y个待处理的告警信息,1≦Y<X;
对所述Y个待处理的告警信息进行归一化处理,得到告警信息规格一致的Y个告警信息;
对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,根据所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联来确定告警信息对应的故障设备,并实现对故障设备的故障告警管理。
2.根据权利要求1所述的方法,其特征在于,以分布式告警采集方式实时采集当前网络中的X个告警信息,包括:
为不同的设备类型分别配置不同的告警采集方式;
在不同的设备上分别采取对应当前设备类型的告警采集方式,对当前网络中的X个告警信息进行实时采集;
其中,用于进行所述实时采集的采集端分布于多台设备中,或者驻留在同一台设备中。
3.根据权利要求1所述的方法,其特征在于,对采集到的所述X个告警信息进行过滤,包括:
对采集到的所述X个告警信息通过告警过滤链的方式进行过滤;
所述告警过滤链,由低安全级别到高安全级别,包括:关键字链、告警对象链、网元链、网元类型链、网管链、告警类型链、专业链、告警级别链中的至少一条告警链。
4.根据权利要求1所述的方法,其特征在于,对所述Y个待处理的告警信息进行归一化处理,包括:
轮询当前采集数据库,所述当前采集数据库包括所述Y个待处理的告警信息;
检测到所述当前采集数据库中的底层采集表中包含有与当前临时告警表中的不同项,则触发归一化处理,将所述Y个待处理的告警信息中指定信息的内容处理成一致的格式。
5.根据权利要求1至4中任一项所述的方法,其特征在于,对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,包括:
根据误差反向传播BP神经网络建立告警相关性分析模型,所述告警相关性分析模型用于多级网络告警的关联分析;
将所述Y个告警信息与告警相关性分析模型中的告警相关规则进行匹配,以识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联;
其中,所述BP神经网络具有三层或者三层以上的神经元层,包括输入层、一个或多个隐含层和输出层;上下层之间实现全连接,而每层神经元之间无连接,各个神经元只影响与它相连接的神经元。
6.一种无线网络告警管理的关联分析系统,其特征在于,所述系统包括:告警采集模块、告警过滤模块、告警归一化模块、告警关联分析模块;其中,
所述告警采集模块,用于以分布式告警采集方式实时采集当前网络中的X个告警信息,所述X为大于1的自然数;
所述告警过滤模块,用于对采集到的所述X个告警信息进行过滤,以消除与故障告警管理无关的告警信息和/或误告警信息,得到Y个待处理的告警信息,1≦Y<X;
所述告警归一化模块,用于对所述Y个待处理的告警信息进行归一化处理,得到告警信息规格一致的Y个告警信息;
所述告警关联分析模块,用于对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,根据所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联来确定告警信息对应的故障设备,并实现对故障设备的故障告警管理。
7.根据权利要求6所述的系统,其特征在于,以分布式告警采集方式实时采集当前网络中的X个告警信息,包括:
为不同的设备类型分别配置不同的告警采集方式;
在不同的设备上分别采取对应当前设备类型的告警采集方式,对当前网络中的X个告警信息进行实时采集;
其中,用于进行所述实时采集的采集端分布于多台设备中,或者驻留在同一台设备中。
8.根据权利要求6所述的系统,其特征在于,对采集到的所述X个告警信息进行过滤,包括:
对采集到的所述X个告警信息通过告警过滤链的方式进行过滤;
所述告警过滤链,由低安全级别到高安全级别,包括:关键字链、告警对象链、网元链、网元类型链、网管链、告警类型链、专业链、告警级别链中的至少一条告警链。
9.根据权利要求6所述的系统,其特征在于,对所述Y个待处理的告警信息进行归一化处理,包括:
轮询当前采集数据库,所述当前采集数据库包括所述Y个待处理的告警信息;
检测到所述当前采集数据库中的底层采集表中包含有与当前临时告警表中的不同项,则触发归一化处理,将所述Y个待处理的告警信息中指定信息的内容处理成一致的格式。
10.根据权利要求6至9中任一项所述的系统,其特征在于,对所述Y个告警信息进行相关性分析,根据相关性分析的结果识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联,包括:
根据误差反向传播BP神经网络建立告警相关性分析模型,所述告警相关性分析模型用于多级网络告警的关联分析;
将所述Y个告警信息与告警相关性分析模型中的告警相关规则进行匹配,以识别出所述Y个告警信息分别所属的各个类型和/或所述Y个告警信息中各个告警信息之间的关联;
其中,所述BP神经网络具有三层或者三层以上的神经元层,包括输入层、一个或多个隐含层和输出层;上下层之间实现全连接,而每层神经元之间无连接,各个神经元只影响与它相连接的神经元。
CN201610690956.8A 2016-08-17 2016-08-17 一种无线网络告警管理的关联分析方法及系统 Pending CN107770797A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610690956.8A CN107770797A (zh) 2016-08-17 2016-08-17 一种无线网络告警管理的关联分析方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610690956.8A CN107770797A (zh) 2016-08-17 2016-08-17 一种无线网络告警管理的关联分析方法及系统

Publications (1)

Publication Number Publication Date
CN107770797A true CN107770797A (zh) 2018-03-06

Family

ID=61262552

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610690956.8A Pending CN107770797A (zh) 2016-08-17 2016-08-17 一种无线网络告警管理的关联分析方法及系统

Country Status (1)

Country Link
CN (1) CN107770797A (zh)

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109634233A (zh) * 2018-12-06 2019-04-16 南京邮电大学 工业大数据智能分析决策方法、可读存储介质和终端
CN110222202A (zh) * 2019-05-28 2019-09-10 北京信远通科技有限公司 基于信息技术标准的松耦合元数据模型设计方法及系统
CN110309009A (zh) * 2019-05-21 2019-10-08 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
CN110908956A (zh) * 2019-11-19 2020-03-24 许继集团有限公司 一种保信主站系统及其故障信息归档方法
CN111260504A (zh) * 2020-02-11 2020-06-09 吴龙圣 智能电网监控方法、系统及智能电网控制器
CN111431754A (zh) * 2020-04-13 2020-07-17 广东电网有限责任公司东莞供电局 配用电通信网故障分析方法和系统
CN111786806A (zh) * 2019-04-04 2020-10-16 大唐移动通信设备有限公司 一种网元异常处理方法及网管系统
CN111814999A (zh) * 2020-07-08 2020-10-23 上海燕汐软件信息科技有限公司 一种故障工单生成方法、装置、设备
CN112736878A (zh) * 2021-01-25 2021-04-30 国电南瑞南京控制系统有限公司 一种电网连锁故障告警方法及系统
CN113347654A (zh) * 2020-03-03 2021-09-03 中国移动通信集团贵州有限公司 一种针对退服基站的故障类型确定方法和装置
CN113407507A (zh) * 2018-04-23 2021-09-17 华为技术有限公司 告警日志压缩方法、装置及系统、存储介质
CN113950086A (zh) * 2020-07-16 2022-01-18 中国移动通信集团设计院有限公司 确定无线网络问题根因的方法、系统、设备及存储介质
CN114070719A (zh) * 2020-11-03 2022-02-18 北京市天元网络技术股份有限公司 一种告警业务处理方法及系统
CN116016121A (zh) * 2023-03-24 2023-04-25 卡奥斯工业智能研究院(青岛)有限公司 告警数据的关联数据确定方法、装置、设备及存储介质
EP4102775A4 (en) * 2020-03-18 2023-08-02 Huawei Technologies Co., Ltd. RECOMMENDATION PROCEDURES FOR SIMILAR FAULTS AND ASSOCIATED DEVICE

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101242549A (zh) * 2007-11-22 2008-08-13 中国移动通信集团山东有限公司 通信网络告警关联的神经网络构建方法
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置
CN103441868A (zh) * 2013-08-19 2013-12-11 国家电网公司 一种基于电力通信传输网告警的方法
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101242549A (zh) * 2007-11-22 2008-08-13 中国移动通信集团山东有限公司 通信网络告警关联的神经网络构建方法
CN103001811A (zh) * 2012-12-31 2013-03-27 北京启明星辰信息技术股份有限公司 故障定位方法和装置
CN103441868A (zh) * 2013-08-19 2013-12-11 国家电网公司 一种基于电力通信传输网告警的方法
CN105656699A (zh) * 2016-03-29 2016-06-08 网宿科技股份有限公司 内容分发网络的告警管理方法及系统

Cited By (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113407507A (zh) * 2018-04-23 2021-09-17 华为技术有限公司 告警日志压缩方法、装置及系统、存储介质
CN113407507B (zh) * 2018-04-23 2022-04-29 华为技术有限公司 告警类型关联规则的生成方法、装置及系统、存储介质
US11436196B2 (en) 2018-04-23 2022-09-06 Huawei Technologies Co., Ltd. Alarm log compression method, apparatus, and system, and storage medium
CN110609759A (zh) * 2018-06-15 2019-12-24 华为技术有限公司 一种故障根因分析的方法及装置
US11438212B2 (en) 2018-06-15 2022-09-06 Huawei Technologies Co., Ltd. Fault root cause analysis method and apparatus
CN110609759B (zh) * 2018-06-15 2021-09-14 华为技术有限公司 一种故障根因分析的方法及装置
CN109634233A (zh) * 2018-12-06 2019-04-16 南京邮电大学 工业大数据智能分析决策方法、可读存储介质和终端
CN111786806A (zh) * 2019-04-04 2020-10-16 大唐移动通信设备有限公司 一种网元异常处理方法及网管系统
CN111786806B (zh) * 2019-04-04 2022-03-01 大唐移动通信设备有限公司 一种网元异常处理方法及网管系统
CN110309009A (zh) * 2019-05-21 2019-10-08 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN110309009B (zh) * 2019-05-21 2022-05-13 北京云集智造科技有限公司 基于情境的运维故障根因定位方法、装置、设备及介质
CN110222202A (zh) * 2019-05-28 2019-09-10 北京信远通科技有限公司 基于信息技术标准的松耦合元数据模型设计方法及系统
CN110908956A (zh) * 2019-11-19 2020-03-24 许继集团有限公司 一种保信主站系统及其故障信息归档方法
CN111260504A (zh) * 2020-02-11 2020-06-09 吴龙圣 智能电网监控方法、系统及智能电网控制器
CN113347654A (zh) * 2020-03-03 2021-09-03 中国移动通信集团贵州有限公司 一种针对退服基站的故障类型确定方法和装置
EP4102775A4 (en) * 2020-03-18 2023-08-02 Huawei Technologies Co., Ltd. RECOMMENDATION PROCEDURES FOR SIMILAR FAULTS AND ASSOCIATED DEVICE
US11757701B2 (en) 2020-03-18 2023-09-12 Huawei Technologies Co., Ltd. Method for recommending similar incident, and related device
CN111431754A (zh) * 2020-04-13 2020-07-17 广东电网有限责任公司东莞供电局 配用电通信网故障分析方法和系统
CN111814999A (zh) * 2020-07-08 2020-10-23 上海燕汐软件信息科技有限公司 一种故障工单生成方法、装置、设备
CN111814999B (zh) * 2020-07-08 2024-01-16 上海燕汐软件信息科技有限公司 一种故障工单生成方法、装置、设备
CN113950086A (zh) * 2020-07-16 2022-01-18 中国移动通信集团设计院有限公司 确定无线网络问题根因的方法、系统、设备及存储介质
CN113950086B (zh) * 2020-07-16 2023-08-01 中国移动通信集团设计院有限公司 确定无线网络问题根因的方法、系统、设备及存储介质
CN114070719A (zh) * 2020-11-03 2022-02-18 北京市天元网络技术股份有限公司 一种告警业务处理方法及系统
CN114070719B (zh) * 2020-11-03 2024-03-29 北京市天元网络技术股份有限公司 一种告警业务处理方法及系统
CN112736878B (zh) * 2021-01-25 2022-07-29 国电南瑞南京控制系统有限公司 一种电网连锁故障告警方法及系统
CN112736878A (zh) * 2021-01-25 2021-04-30 国电南瑞南京控制系统有限公司 一种电网连锁故障告警方法及系统
CN116016121A (zh) * 2023-03-24 2023-04-25 卡奥斯工业智能研究院(青岛)有限公司 告警数据的关联数据确定方法、装置、设备及存储介质

Similar Documents

Publication Publication Date Title
CN107770797A (zh) 一种无线网络告警管理的关联分析方法及系统
US11971898B2 (en) Method and system for implementing machine learning classifications
US10795753B2 (en) Log-based computer failure diagnosis
CN105159964B (zh) 一种日志监控方法及系统
CN115809183A (zh) 基于知识图谱的信创终端故障发现及处置的方法
CN112769605B (zh) 一种异构多云的运维管理方法及混合云平台
CN117473571B (zh) 一种数据信息安全处理方法及系统
CN114338746B (zh) 一种用于物联网设备数据收集的分析预警方法及系统
CN112181960A (zh) 一种基于AIOps的智能运维框架系统
CN112559237B (zh) 运维系统排障方法、装置、服务器和存储介质
Khan et al. Discovering and utilising expert knowledge from security event logs
Xie et al. Logm: Log analysis for multiple components of hadoop platform
CN110245077A (zh) 一种程序异常的响应方法及设备
García et al. Automatic alarm prioritization by data mining for fault management in cellular networks
Zhao et al. Design of wireless sensor network middleware for agricultural applications
CN116611813B (zh) 一种基于知识图谱的智能运维管理方法及系统
Li et al. Microservice anomaly detection based on tracing data using semi-supervised learning
CN107454089A (zh) 一种基于多节点关联性的网络安全态势诊断方法
Mamoutova et al. Ontological approach to automated analysis of enterprise data storage systems log files
Li et al. An integrated data-driven framework for computing system management
CN114629776B (zh) 基于图模型的故障分析方法及装置
CN114579809A (zh) 事件分析方法、装置、电子设备及存储介质
Nehme Database, heal thyself
CN117436073B (zh) 一种基于智能标签的安全日志告警方法、介质和设备
CN118101532B (zh) 一种多协议兼容的网络设备自适应测试系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180306