发明内容
本发明的技术任务是针对以上不足之处,提供一种实用性强、获取移动网络故障定位和故障预警的方法。
一种获取移动网络故障定位和故障预警的方法,其具体实现过程为:
在网管系统中将相关的告警进行分析,找出其中的潜在关系,将所有的关系拆分成可以配置的数据,维护这些数据相关的配置表;
获取每一个标题的告警数据相应的资源或者故障信息;
将当前告警和其他已经获取相关信息的告警进行关联比较,然后将告警进行关联分析,获取告警产生的原因;
根据不同的告警进行故障判断,将判断过程和结论根据配置好的数据进行派单和短信发送,使相关人员能快速定位问题,预测隐患。
所述拆分数据相关的配置表包括规则表、衍生关系表、主次关系表、告警定位表、关联表、结论表、派单规则表、短信设置表,在一个完整的规则里面,主次和衍生关系表只能用到一个,衍生是根据当前现有的告警在生成一条新的告警;主次是一条告警是主告警,另一条是次告警,都是采集上来的告警,进行关联就是增加它们之间的关系。
所述配置表中,各规则表的具体内容为:
规则表,包括规则名字、规则类型清除方式、衍生时的衍生门限、以及厂家、设备类型、关联资源说明、是否启用信息,所述规则类型清楚方式中的规则类型是指主次或衍生;
衍生关系表,配置衍生告警标题和次告警标题的衍生规则关系,哪些类型的次告警,限时内发生n条时则衍生一条新的告警;
主次关系表,是指哪些主告警标题和哪些次告警标题可以进行关联的关系表, 限时内进行关联;主次关联有优先级,当优先级高的存在时,则优先级低的不处理,相对应的结论表针对不同的优先级,也有不同的故障结论;
告警定位表,根据梳理好的规则,查找到告警相关的信息,其中包括机房、电路、局站、归属的告警相关信息是告警之间关联的依据;
定位关系表,在定位函数中,将需要关联的字段写到定位结果表中的相关字段中RELATION_LOCATION和SYNTHE_RELATED_ACT_ALARM,两个表中的数据是一样的,字段名字不同,关联关系表中将字段之间的关系标注,把多条具有相关关系的告警关联到一起,当衍生超过一定数量时衍生出一条告警,当主次关联时则挂接到一起;
结论表,根据告警相关信息,分析告警产生的可能原因,记录下判断过程,以及判断结论;
派单规则表和短信配置表,将故障结论和故障判断过程等信息进行工单派发和短信通知给设备相关人员。
所述告警的具体预警过程为:
当活动告警发出后,首先进行标准化入库,然后再判断是否需要进行告警定位;
如果不需要到此结束,如果需要,则进行告警定位并将定位结果入库,然后再获取此条告警相关的关联规则;
如果是衍生,则判断是否符合衍生条件,不符合则去定位库中查找其他符合此规则的告警,再判断是否符合衍生条件,如果不符合则结束,符合就衍生,判断故障过程并获得结论,然后再判断是否需要派单和短信,不符合就结束,符合就派单和短信通知;
如果是主次,判断是否符合主次关联规则,如果符合就关联,判断故障原因和故障结论,然后判断是否需要派单和短信通知,然后结束。
还包括新规则加入的步骤,该新规则的具体增加过程为:
首先获取活动告警,增加规则信息;
根据告警标题添加定位函数;
确定告警为主次告警还是衍生告警:当为主次告警时,增加主次告警标题的关联规则;当为衍生告警时,增加衍生标题和次告警的关联规则;
增加定位关系表、结论表结论;
确定是否需要拍单或短信:需要时则设置短信或工单规则并结束;不需要时则直接结束。
本发明的一种获取移动网络故障定位和故障预警的方法,与现有技术相比,具有以下优点:
本发明提出的一种获取移动网络故障定位和故障预警的方法,可以避免维护人员的大工作量告警数据分析,降低了工作的复杂度,更好的优化网络质量;可以自动实现告警故障的快速定位,以及隐患预警,快速定位是指通过单个告警很难发现故障产生的原因,综合有关系的多条件就可以快速定位,减少了维护人员的工作量,提高了工作效率;隐患预警是指可以通过此次告警,找出故障点,可以预防其他相关设备产生同样的问题,例如有四个交换机产生了挂接在了同一个CE上,产生了相关告警,这个CE上工挂接了六个交换机,那么就可以预测其他的两个交换机是不是也会有问题,这样就可以进行故障预警,提高网络质量;自动化是指需要将相关的规则进行拆分,配置相关数据就可以自动根据需要进行判断,远比维护人员去分析来得快,来得准确,还可以随时添加新的规则来进行更多方面的预警,而且可以节省开发时间,降低了开发的复杂度,提高了开发效率,实用性强,易于推广。
具体实施方式
下面结合附图和具体实施例对本发明作进一步说明。
现结合某移动网络运营维护的实践经验和现实需求,提供一种获取移动网络故障定位和故障预警的方法,
如附图1所示,其具体实现过程为:
在网管系统中将相关的告警进行分析,找出其中的潜在关系,将所有的关系拆分成可以配置的数据,维护这些数据相关的配置表;
获取每一个标题的告警数据相应的资源或者故障信息;
将当前告警和其他已经获取相关信息的告警进行关联比较,然后将告警进行关联分析,获取告警产生的原因;
根据不同的告警进行故障判断,将判断过程和结论根据配置好的数据进行派单和短信发送,使相关人员能快速定位问题,预测隐患。
所述拆分数据相关的配置表包括规则表、衍生关系表、主次关系表、告警定位表、关联表、结论表、派单规则表、短信设置表,在一个完整的规则里面,主次和衍生关系表只能用到一个,衍生是根据当前现有的告警在生成一条新的告警;主次是一条告警是主告警,另一条是次告警,都是采集上来的告警,进行关联就是增加它们之间的关系。
所述配置表中,各规则表的具体内容为:
规则表,包括规则名字、规则类型清除方式、衍生时的衍生门限、以及厂家、设备类型、关联资源说明、是否启用信息,所述规则类型清楚方式中的规则类型是指主次或衍生;
衍生关系表,配置衍生告警标题和次告警标题的衍生规则关系,哪些类型的次告警,限时内发生n条时则衍生一条新的告警;
主次关系表,是指哪些主告警标题和哪些次告警标题可以进行关联的关系表, 限时内进行关联;主次关联有优先级,当优先级高的存在时,则优先级低的不处理,相对应的结论表针对不同的优先级,也有不同的故障结论;
告警定位表,根据梳理好的规则,查找到告警相关的信息,其中包括机房、电路、局站、归属的告警相关信息是告警之间关联的依据;
定位关系表,在定位函数中,将需要关联的字段写到定位结果表中的相关字段中RELATION_LOCATION和SYNTHE_RELATED_ACT_ALARM,两个表中的数据是一样的,字段名字不同,关联关系表中将字段之间的关系标注,把多条具有相关关系的告警关联到一起,当衍生超过一定数量时衍生出一条告警,当主次关联时则挂接到一起;
结论表,根据告警相关信息,分析告警产生的可能原因,记录下判断过程,以及判断结论;
派单规则表和短信配置表,将故障结论和故障判断过程等信息进行工单派发和短信通知给设备相关人员。
所述告警的具体预警过程为:
当活动告警发出后,首先进行标准化入库,然后再判断是否需要进行告警定位;
如果不需要到此结束,如果需要,则进行告警定位并将定位结果入库,然后再获取此条告警相关的关联规则;
如果是衍生,则判断是否符合衍生条件,不符合则去定位库中查找其他符合此规则的告警,再判断是否符合衍生条件,如果不符合则结束,符合就衍生,判断故障过程并获得结论,然后再判断是否需要派单和短信,不符合就结束,符合就派单和短信通知;
如果是主次,判断是否符合主次关联规则,如果符合就关联,判断故障原因和故障结论,然后判断是否需要派单和短信通知,然后结束。
还包括新规则加入的步骤,该新规则的具体增加过程为:
首先获取活动告警,增加规则信息;
根据告警标题添加定位函数;
确定告警为主次告警还是衍生告警:当为主次告警时,增加主次告警标题的关联规则;当为衍生告警时,增加衍生标题和次告警的关联规则;
增加定位关系表、结论表结论;
确定是否需要拍单或短信:需要时则设置短信或工单规则并结束;不需要时则直接结束。
衍生实例:监控平台在同一时段(5分钟之内)发现大于等于2个交换网元(SERVER/MGW)出现告警(见下表),获取这些设备的归属CE,如果这些交换网元连接在同一CE上,则衍生出一条CE的IP承载网H.248 断连的告警。
配置数据:
关联规则配置:
衍生规则配置:
定位函数配置:
告警定位结果表RELATION_LOCATION表内容:
关联关系配置:
因为归属CE是多个,所以需要将CE拆分,关联关系就不需要配置,程序中拆分获取。
故障结论表:
生成的告警相关信息:
告警标题:[衍生预警]交换H.248故障衍生CE设备预警。
告警级别:一级告警。
设备类型:CE。
设备名称:UNCS-NGN-CE23-HWNE40E。
厂商:华为。
所在地市:长沙。
机房名称:CE所在机房名称。
告警发生时间:CE告警衍生时间。
告警正文:
1)告警类型:ip承载网;
2)问题网元:UNCS-NGN-CE23-HWNE40E;
3)影响范围:根据综合资管中MSS,MGW网元-覆盖范围;
4)厂商:华为;
5)告警发生时间;
6)原始子告警信息:告警流水1、网元名称1、告警时间1、告警标题1;告警流水2、网元名称2、告警时间2、告警标题2;(不同厂商)……;
7)数据侧CE原始告警;
8)所属机房。
此条告警的规章结论和故障判断过程如下:
派单规则配置:
短信规则配置:
短信发送的内容通过选择的告警列名称进行组合获得。
方案是来一条告警,通过告警定位函数获取此告警的归属CE,然后在查找5分钟之内是否有其他符合告警标题有归属CE相同的告警,如果没有则定位信息保存,留作新告警来的时候再进行判断使用,如果有,则判断CE是否为工程网元,如果是工程网元,则不生成新的告警,如果不是, 结论是交换机故障由CE设备引起的,触发一条新的告警,告警对象为CE, 并将告警关联规则名称、关联告警的信息(包含专业、网元名称、告警标题、告警发生时间)、故障结论以及CE侧是否有告警的情况进行汇总组合为新告警的告警内容,根据派单规则对该CE包机人派发预警工单,发送给CE包机人,请相关人员检查是否是CE故障引起的这一系列的交换告警,并及时进行短信通知。
交换网元及对应告警标题包含如下:
主次实例:
当系统检测到某一华为交换机(MGW/SERVE),产生“配电框输入电压低压告警”或“任一路电压超过高门限告警”的告警时,查询是否存在同一交换机的“配电框异常”告警,告警信息中是否存在告警原因为“配电框输入电压低压”(MGW);
如果检测到该交换机的此类告警,则为交换故障;
记录故障判断过程及故障结论;在告警“配电框输入电压低压告警”或“任一路电压超过高门限告警”上可查询判断过程及故障结论。
故障结论:交换机故障由设备自身故障引起;
判断日志:告警关联规则名称、关联告警的信息(包含专业、网元名称、告警标题、告警发生时间)、故障结论;
如果没有检测到该交换机的此类告警:
则根据该交换机名称在综合资管-核心网-交换网络节点(SS网元、MGW网元)将该交换机的电源路由信息查询出来,找出路由信息中的动力节点,再从动环告警系统中去查询是否存在这些动力节点的相关告警信息。(目前动环系统的电源告警是以机房名称来命名,交换设备与电源设备属于同一个机房,就可将这2个告警关联到一起。)
若动环系统中产生上面的告警则为动力故障, 对该动力节点向动力专业派发预警工单;
如果动环系统中没有上面的告警信息,那么对交换专业派发预警工单,并抄送给动力专业,要求两专业协调查找告警产生的原因,排查故障.记录故障判断过程及故障结论;在告警“配电框输入电压低压告警”或“任一路电压超过高门限告警”上可查询判断过程及故障结论。
故障结论:动力故障引起交换机故障;
判断日志:告警关联规则名称、关联告警的信息(包含专业、网元名称、告警标题、告警发生时间)、故障结论;
主次规则配置:
根据这个表的信息,可以获取此规则中告警的清除方式,以及规则是否启用。
告警标题配置:
根据此表的配置可以知道什么标题的主告警和什么标题的次告警进行关联,优先级可以扩展,可以增加二,三,在优先级一关联上之后不使用优先级二,如果存在优先级一,则低优先级不再关联。
定位函数配置:
根据此函数可以获取告警需要的定位信息,并将相关信息保存到关联关系表中的字段中,然后根据字段信息和逻辑关系进行关联。本规则是获取告警对象,主告警机房,以及机房中的电源设备,以及次告警发生的原因,满足条件时info12=1。
定位函数结果RELATION_LOCATION表内容:
定位关联配置:
规则的正负代表是主告警先到还是次告警先到进行关联的,两个表中配置的字段内容保存的同样的信息,就是字段名字不一样,本次配置表示满足主告警网元存在同一交换机的“配电框异常”告警,且次告警的原因配电框输入电压低压,是将主次告警进行关联
故障结论表:
判断次告警,如果根据规则可以关联上,结论为优先级1的结论,记录判断过程,此次关联结束;如果没有关联上,则判断结论首先是优先级2的结论,在根据是否有和电源设备在相同机房的动环告警,进行下一步的判断,记录下中间的判断过程。
此次关联只是使用了两个优先级,可以扩展为多个优先级,如果优先级一的没有,则为优先级二,二的没有,则使用优先级三得关系,可以依次类推。进行故障的多方面判断和定位。
判断过程和故障结论实例如下:
短信设置和派单设置同衍生告警。
上述具体实施方式仅是本发明的具体个案,本发明的专利保护范围包括但不限于上述具体实施方式,任何符合本发明的一种获取移动网络故障定位和故障预警的方法的权利要求书的且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利保护范围。