一种基于设备级并行度的无线网元管理系统告警处理方法
技术领域
本发明涉及无线通信领域中的大容量网管监控技术领域,尤其涉及到大容量网管系统中的并行告警处理方法;具体地说,该方法是一种在大容量的网元管理系统中,如何处理大量不同类型设备上报告警的并行处理方法。
背景技术
告警管理作为网元管理系统的一项重要管理功能,能为运营商及时可靠地提供详尽的设备故障告警数据。在网管系统中,告警业务处理单元按照用户预配置的过滤规则处理告警信息,屏蔽不影响业务使用的告警,确认已知原因的告警,清除正在处理的告警,显示用户终端所关心的告警,这些告警过滤规则可以帮助用户集中精力处理关注业务。随着所管理网元种类的多样化、网元数目的急剧增加,告警业务处理单元的处理效率成为亟待解决的问题,可以设备级并行度处理告警,从而提高网管系统的并行处理效率。
以4G LTE(the 4th Generation Long Term Evolution,第四代长期演进技术)设备为例,其通话质量及数据通信速度远优于传统通信设备,随着网络结构升级及服务质量要求提高,运营商对设备状态的监控实时性提出了更高要求。当大批量设备集中上报告警且比较密集时,单一运行的故障告警处理模式无法满足大容量的设备监控要求,如千级、万级的设备数量,按行政区域划分并行处理的方法对性能有所提高但也无法完全满足要求,因此需要一种更为高效的并行告警处理方法。
发明内容
本发明目的在于克服现有技术存在的问题和不足,提供一种设备级并行度的告警处理方法,该方法无论集中式管理还是分布式管理模式都能适用,只要是海量网管系统,可极大的提升OMC-R(Operation and Maintenance Center–Radio,无线网元管理系统)网管告警处理的高效性。
本发明技术方案提供一种基于设备级并行度的无线网元管理系统告警处理方法,包括以下步骤,
步骤1,建立告警解析池和告警处理池,通过协议帧解析例程数目M对告警解析池进行配置,通过告警处理例程数目N对告警处理池进行配置;
步骤2,设备主动告警上报或网管告警同步后,将设备上报或应答的告警加入设备告警协议帧队列;
步骤3,针对设备告警协议帧队列,告警解析池并行处理,获取告警协议帧,解析各类设备告警,加入待处理告警队列;若主动告警上报,则发送告警应答给设备;
步骤4,针对待处理告警队列,告警处理池以设备级并行度并行处理,使用负载均衡方式分配处理设备告警,将告警存储入库,上报告警给操作终端;使用负载均衡方式分配处理设备告警时,同一时刻仅允许同一设备分配一个处理例程处理告警,不同设备分配不同处理例程并行处理告警,但并行度不能高于所配置的告警处理例程数目N。
而且,告警解析例程按照设备类型分别进行解析,解析成预定义数据结构的待处理告警。
而且,告警处理例程按照负载均衡方法来处理设备告警,将待处理告警处理成预定义数据结构的告警日志,存储到数据库并上报操作终端。
而且,告警解析池的协议帧解析例程数目M根据设备告警上报速度设定,告警处理池的告警处理例程数目N根据设备数量级、告警处理速度设定。
而且,告警处理流程进行告警屏蔽规则过滤处理,若告警被屏蔽则不予入库且不予上报操作终端。
而且,告警处理流程进行告警确认规则过滤处理,更改告警的确认状态。
而且,告警处理流程进行告警清除规则过滤处理,更改告警的清除状态。
而且,告警处理流程对在线用户进行授权判断,并对每个在线授权用户进行告警过滤规则处理,若被过滤掉则该告警仅入库但不予上报操作终端。
而且,所述无线网元管理系统为集中式管理网管系统或分布式管理网管系统。
本发明具有下列优点和积极效果:
1、大容量网管系统中,海量设备以设备级并行度处理告警,使设备告警处理效率大幅提升;
2、设备管理与设备通信协议、设备类型等特征相分离,网管系统可同时管理宏基站、核心网、Nanocell基站、Nanocell网关等不同类型设备,便于管理的统一性;
3、同时适合于集中式管理、分布式管理的网管系统中,具备普遍适用性。
本发明适用于需要处理网元故障相关的应用系统,提供了一种新的并行处理设备故障告警方法。该方法基于设备级并行度处理告警,尤其适用于海量设备监控管理系统,极大地提高了告警处理效率,在无线通信领域具有重要的市场价值。
附图说明
图1为本发明实施例中提供的一种基于设备级并行度的告警处理过程图。
图2为本发明实施例中提供的一种基于设备级并行度的告警处理方法的流程图。
具体实施方式
下面通过实施例,对本发明的技术方案作进一步具体的说明。
本发明提供设备级并行度的告警处理方法,该方法不仅适合于目前广泛使用的集中式网管系统,更适合于目前发展迅猛的分布式管理应用场景,在分布式系统中更能体现其性能高效性。
设备级并行度的告警处理方法主要是针对设备主动告警上报或告警同步的一种并行处理方法,该方法最大并行度可达设备级,极大地提高了告警处理效率。参见图1,本发明实施例包括下列处理步骤:
步骤S0:初始化建立告警解析池、告警处理池,池表示一类并行处理例程对指定数据队列进行并行处理形成的队列。具体实施时,本领域技术人员可根据测试结果的要求预先配置M、N的值。其中,告警解析池的配置取决于设备告警上报速度(Report Rate,简称RR),通过协议帧解析例程数目M进行配置,优选地,当RR<=2000时M=1,当RR>2000时M=2;告警处理池的配置取决于设备数量级(Device Count,简称DC)、告警处理速度(Deal Rate,简称DR),通过告警处理例程数目N进行配置,优选地,当DC<=20时N=DC,当DC<=100且要求DR<=1500时N的取值范围是(20,30],否则N的取值范围是(30,50]。即具体配置是根据实际测试结果进行的最优配置,告警解析池的配置:若设备上报告警速度<=2000条/s则配置一个协议解析例程,否则配置两个;告警处理池的配置:当设备数目<=20时,告警处理例程数目=设备数目,当设备数目<=100且要求告警处理速度<=1500,告警处理例程数目(20,30],否则,告警处理例程数目(30,50]。
步骤S1:设备主动告警上报或网管定时/自动告警同步后,将设备上报或应答的告警加入设备告警协议帧队列。通过网管主动从设备上获取活动告警列表的行为,称为告警同步,可以分为定时告警同步和自动告警同步两种方式。设备告警协议帧队列即待解析告警队列。
步骤S2:针对设备告警协议帧队列,告警解析池并行处理,获取告警协议帧,解析各类设备告警,加入待处理告警队列,若主动告警上报则发送告警应答给设备;其中,告警解析例程按照设备类型分别进行解析,将其解析成预定义数据结构的待处理告警。则待处理告警队列是设备上报告警协议帧经过解析后按预定义数据结构存储的待处理告警队列。
协议解析例程处理时不区分设备仅区分设备类型,根据FIFO策略均衡到M个例程中处理。设备来源于系统所管理的网元类型如宏基站、核心网、Nanocell基站、Nanocell网关等。具体地,M=1可以视为简化地并行处理,是最简配置;M=2是并行处理,但不是设备级并行处理,可以配置成M>=2统一并行处理。
步骤S3:针对待处理告警队列,告警处理池以设备级并行度并行处理,使用负载均衡方法来分配处理设备告警,将告警存储入库,上报告警给操作终端。注意,同一时刻仅允许同一设备分配一个处理例程处理告警,不同设备可分配不同处理例程并行处理告警,但其并行度不能高于上述步骤S0所配置的告警处理例程数目N。比如当告警处理例程数目配置N=30时,若设备数n<=30的设备上报告警,则实际并行度为n;当设备数n>30的设备上报告警,则实际并行度为N。设备来源于系统所管理的网元类型如宏基站、核心网、Nanocell基站、Nanocell网关等。告警处理例程按照负载均衡方法来处理设备告警时,将待处理告警处理成预定义数据结构的告警日志,存储到数据库、缓存到设备的活动告警列表并上报操作终端。通过N个告警处理例程并行处理,将设备待处理告警均衡地派发到各告警处理例程来处理,使每个告警处理例程的负载是基本均衡的。
更进一步地:
告警处理流程进行告警屏蔽规则过滤处理,若告警被屏蔽则不予入库且不予上报操作终端。
告警处理流程进行告警确认规则过滤处理,更改告警的确认状态。
告警处理流程进行告警清除规则过滤处理,更改告警的清除状态。
告警处理流程对在线用户进行授权判断,并对每个在线授权用户进行告警过滤规则处理,若被过滤掉则该告警仅入库但不予上报操作终端。
具体实施时,本领域技术人员可自行预设告警屏蔽规则、告警确认规则、告警清除规则和告警过滤规则。
参见图2,实施例提供了一种基于设备级并行度的告警处理方法的具体实时流程,包括以下步骤:
(一)S1:当设备发生故障时主动告警上报,或设备自动/定时告警同步,进行以下处理:
①S101:将设备的告警协议帧加入到设备告警协议帧队列;
(二)S2:告警解析池并行解析告警,当判断“设备告警协议帧队列是否存在待解析告警数据可以处理”为是时,启动告警解析例程进行处理。单个告警解析例程包括以下子步骤:
②S201:获取告警协议帧,解析告警;根据判断是否为主动告警上报的结果,分别执行S202和S204;
③S202:若主动告警上报,则组建告警应答确认帧,然后进入S203,同时执行步骤204;
④S203:发送告警应答确认帧给设备,对该告警解析完成;
⑤S204:无论是告警上报/告警同步,将解析后告警加入待处理告警队列,返回步骤S2循环下一次处理,以实现对设备告警协议帧队列中待解析告警数据继续进行处理;
(三)S3:告警处理池并行处理告警,当判断“设备待处理告警队列是否存在待处理的告警数据”为是时,启动告警处理例程进行处理。单个告警处理例程包括以下子步骤:
⑥S301:从待处理告警队列头获取设备的待处理告警,判断设备是否正在处理告警,若该设备正在处理告警,则返回S204,将待处理告警继续放回待处理告警队列尾;若该设备未处理告警,则进入S302;因为同一台设备可能连续产生并上报多条告警,但一台设备的告警只能分派到一个处理例程来处理,即同台设备的多条告警无法并行处理,并行处理的只能是不同设备的告警;所以对于正在处理告警的设备而言,若新获取的待处理告警的设备正在处理中,则只能将该待处理告警放入原始的待处理告警队列,等待该设备的当前处理处理告警完毕后,才能再次派发进行处理;
⑦S302:进行告警预处理,包括检测告警编号、设备信息的有效性,判断基站/RRU/小区告警分类,然后进入S303;
⑧S303:调用告警屏蔽规则进行过滤处理,若被屏蔽则该告警不予入库且不上报操作终端,返回步骤S3循环下一次处理,否则进入S304继续处理;
⑨S304:调用告警确认规则进行过滤处理,若符合则更新告警的确认状态标识;
⑩S305:调用告警清除规则进行过滤处理,若符合则更新告警的清除状态标识;根据设备相应的设备告警队列是否存在该告警信息判断是否为新告警状态,若设备告警队列不存在该告警信息则为新产生告警,执行S306,否则,因为设备告警队列已存在该告警信息则不为新产生告警,执行S307;
S306:插入新告警信息到数据库,并将告警缓存到相应设备的设备告警队列中,进入S308;
S307:更新清除告警信息到数据库,并从设备告警队列中移除该告警,进入S308;设备告警队列是已经经过处理后的设备告警相应的缓存队列,告警业务处理单元为每台设备都相应缓存有一个告警队列;只有产生告警的设备其缓存的告警列表非空,未产生告警的设备该列表为空;设备可以上报新告警,也可以上报清除告警。其中,新告警是指活动告警需要缓存到设备告警队列中,清除告警是指历史告警需要从设备告警队列中移除,无论是新告警还是清除告警,都需要上报给客户端知晓,更新设备的最新告警状态;
S308:遍历在线用户列表,判断能管理该产生告警的设备的授权用户,获取授权在线用户列表,若列表非空则进入S309,否则返回步骤S3循环下一次处理;
S309:遍历授权在线用户列表,针对每个授权用户,调用该用户的告警过滤规则进行过滤处理,判断是否需要发送给该用户的操作终端,进入S310;
S310:若需要发送,则上报新告警通知或清除告警通知给操作终端显示;所有授权在线用户列表处理完毕后,返回步骤S3循环下一次处理,以实现对待处理告警队列中待处理告警数据继续进行处理。
具体实施时,本发明实施例所提供流程可采用计算机软件技术在告警业务处理单元实现自动运行。
需要强调的是,本发明所述的实施例是说明性的,而不是限定性的。因此本发明包括并不限于具体实施方式中所述的实施例,凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式,同样属于本发明保护的范围。