发明内容
本发明的目的在于网络资源紧张的情况下,出现无源故障时,控制平面可以根据业务和网络的具体情况,动态的调整尝试的过程,使得重路由恢复既不会因为尝试次数不够而无法恢复,也不会因为尝试次数过多,导致对资源的冲击和软件运行效率的浪费。
为实现上述目的,按照本发明的一个方面,提供了一种资源短缺时无源故障恢复方法,包括:
控制平面收到告警,根据网络情况得到X因子和Y因子,根据X因子和Y因子计算重路由的最大次数,制定重路由策略;其中X因子为门限达标链路个数,Y因子为门限达标的链路中被排除的链路个数;
根据重路由策略依次执行重路由;
当业务成功恢复,或者达到最大次数后,停止重路由尝试。
本发明的一个实施例中,所述重路由策略为尽量使用原始路由。
本发明的一个实施例中,所述重路由的最大次数N的计算如下:
本发明的一个实施例中,所述方法还包括,估计网络长期运行的变化,实时获取链路性能,并且根据链路性能和链路性能门限,实时更新X因子。
本发明的一个实施例中,所述方法还包括,当某段链路由于多次被排除,并且被记录为可能故障的链路时记录该链路为下次无源倒换的故障链路,并对Y因子进行更新。
本发明的一个实施例中,所述某段链路由于多次被排除,并且被记录为可能故障,具体为:对于一条业务的原始链路,在发生无源倒换时,发现多次排除其中某段链路后,业务能够正常恢复,则认为该段链路为可能故障的链路。
本发明的一个实施例中,所述多次是指:业务倒换后返回到原始路由,然后又因为无源故障发生了倒换。
本发明的一个实施例中,所述对Y因子进行更新,具体为:某段链路由于多次被排除,并且被记录为可能故障的链路时则记录该链路为下次无源倒换的故障链路,则Y因子加1,代表这个原始路由需要被排除的链路个数增加了一个。
按照本发明的另一方面,还提供了一种资源短缺时无源故障恢复系统,链路因子计算模块、重路由模块和重路由终止模块,其中:
所述链路因子计算模块,用于在控制平面收到告警时,根据网络情况确认X因子和Y因子,根据X因子和Y因子计算重路由的最大次数,制定重路由策略;其中X因子为门限达标链路个数,Y因子为门限达标的链路中被排除的链路个数;
所述重路由模块,用于根据重路由策略依次执行重路由;
所述重路由终止模块,用于当业务成功恢复,或者达到最大次数后,停止重路由尝试。
本发明的一个实施例中,所述重路由的最大次数N的计算如下:
总体而言,通过本发明所构思的以上技术方案与现有技术相比,具有如下有益效果:
(1)本发明主要在尝试无源恢复时,尽量使用原始资源,并且根据网络情况调整尝试次数提升资源利用率、恢复率和效率:
(2)由于无源故障可能需要多次重试,故使用原始资源,避免了对空闲资源的占用和冲击;
(3)根据业务和网络的具体情况,计算尝试次数,保障业务能够尽量恢复的同时又避免无意义的重路由尝试;
(4)根据网络的变化和多次倒换的故障记录,动态的调整尝试次数,更加灵活和合理的提升无源倒换的恢复效率。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。此外,下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。
如图1所示,本发明提供了一种资源短缺时无源故障恢复方法,包括:
S1、控制平面收到告警,根据网络情况得到X因子和Y因子,根据X因子和Y因子计算重路由的最大次数,制定重路由策略;其中X因子为门限达标链路个数,Y因子为门限达标的链路中被排除的链路个数;
其中,所述重路由策略为尽量使用原始路由;
所述重路由的最大次数N的计算如下:
S2、根据重路由策略依次执行重路由;
S3、当业务成功恢复,或者达到最大次数后,停止重路由尝试。
如图2所示,为本发明实施例中WSON网络中控制平面软件收到无源故障后的处理流程图,主要的处理方式如下:
(1)当无源故障开始时,控制平面会收到相关告警,并准备开始进行重路由尝试恢复业务;
(2)尝试恢复时,由于网络资源的紧张,故需要尽量使用原始路由(使用更多的原路由的链路,能够更加节省网络资源,提高资源的复用度),在路由计算时,会逐一的排除某一段或者几段原始的链路,并尽量使用其他的原始链路,从而能够使资源的利用尽量的重复,达到节省资源的效果;
(3)业务根据网络情况,得到X因子和Y因子,其中X为门限达标的链路个数,Y为门限达标的链路中被排除的链路个数;
(4)如果业务恢复失败,则根据X和Y因子计算尝试次数,如果没有达到尝试次数,则继续进行恢复尝试;
(5)当业务成功恢复,或者达到尝试次数后,停止重路由尝试;
(6)估计网络长期运行的变化,实时获取链路性能,并且根据性能和链路性能门限,实时更新X因子(链路的性能门限变化设备可以自动报给WSON软件,当发现某些链路门限不达标时,即可马上更新);
(7)某段链路由于多次被排除,并且被记录为可能故障的链路时(对于一条业务的原始链路,在发生无源倒换时,发现多次排除其中某段链路后,业务能够正常恢复,则认为该段链路为可能故障的链路(此为Y因子的更新方式,比如一条业务的原始为A-B-C-D,在发生无源倒换时,发现多次排除A-B后,业务能够正常恢复(这里的多次,指业务倒换后返回到原始路由,然后又因为无源故障发生了倒换;“多次”可根据不同网络的要求进行不同的次数规定),则认为A-B为大概率故障链路),则记录该链路为下次无源倒换的故障链路,并对Y因子进行更新(比如当A-B认为不可用时,则Y因子加1,代表这个原始路由,需要被排除的链路个数增加了一个);
(8)再次出现无源故障时,根据更新的X和Y因子,重新计算尝试次数。
对于上述步骤(4)中,尝试次数的计算如下:
N:尝试次数 X:门限达标的链路个数 Y:门限达标的链路中被排除的链路个数
公式含义说明:
1、由于不知道故障源,故需要尝试排除每一条链路或者多条链路的组合进行重路由尝试,该公式所整理得到的数值,是在X和Y因子都考虑的情况下,可以把尝试的次数设置到最合理的数值,既不会因为尝试的次数过少,导致本可恢复的业务无法恢复成功,也不会因为尝试次数的过多,导致网络资源的不断冲击和软件重复的无效运行降低效率;
2、X因子为业务的各链路中,门限达到工程制定的标准的值:在长期运行的过程中,由于光纤的损耗、性能的下降等等因数,链路的性能指标会也会降低,当性能没有达到预设的标准值时,则认为该链路在下次倒换时不考虑,并且改变X因子,将X因子可用链路减少,X≤业务最大路由链路;
3、根据多次倒换的记录,如果某一个链路,或者某几个链路,出现M次(该次数可根据实际情况进行改变)故障,则认为该链路出问题的几率较大,那么在后续的尝试中,不再考虑这些链路,从而减少重试的次数。
图3为该方法的举例拓扑,具体示例如下:
1、通道的原始路由为A-B-E-G-F,并且所有链路都达到性能门限;
2、首次无源故障发生前,X=4,Y=0,故次数N=15;在无源故障时,根据逐一排除和尽量使用原始路由的算法,最多进行15次尝试恢复(这里的示例原始路由有4段链路,由于业务建立成功,所以4段链路在没有发生网络波动时,认为都门限达标,故X=4;因为是首次发生无源倒换,故还没有记录哪个链路有多次故障被记录,所以Y=0);
3、例如在排除B-E后,得到新的路由A-B-D-E-G-F,业务恢复成功;
4、并在长期运行中B-E间断性恢复,业务人工返回到原始路由A-B-E-G-F(由于是无源倒换,所以B-E链路并不是真的完全故障,如果是完全故障,则是有源倒换。B-E可能只是某些性能有短时间抖动(这里的抖动只是举个例子,真实网络中有很多种可能,导致B-E链路并没有实际故障,但是由于性能或者光功率等等原因,导致业务中断),导致业务受损并发生重路由。当B-E在人工检查后发现是正常的,为了网络资源和规划的合理,故需要业务返回到原始路由保持运行,故这里描述人工返回);
5、后续多次出现无源故障,并且在多次无源倒换的结果中,有M次都是因为排除B-E后使业务恢复成功,则人为该链路故障链较高,那么不作为下次的计算条件,Y因子加1;
6、下次再次出现无源故障时,X=4,Y=1,故次数N=7;再次倒换到新路由A-B-D-E-G-F上;
7、对于新的通道A-B-D-E-G-F,多次无源倒换后,E-G和D-E的被排除后成功恢复同样达到M次,则对于恢复通道而言,Y=2;
8、那么恢复通道再次出现无源故障时,X=5,Y=2,故次数N=7;倒换到新的路由上,例如路由为A-B-D-G-F;
9、如果在上述步骤8之前,出现网络性能劣化,F-G的性能出现衰耗,导致没有能够达到门限值,那么X则需要减1(这里X为门限达标的链路个数,由于示例种F-G出现了性能衰耗无法达标,故门限达标的链路个数需要减少一个,故为X需要减1),并排除F-G;
10、再次无源倒换时,X=4,Y=2,故次数N=3;那么下次倒换使,只需要尝试最多3次,则可使用新的路由A-B-D-C-F。
进一步地,如图4所示,本发明还提供了一种资源短缺时无源故障恢复系统,包括链路因子计算模块、重路由模块和重路由终止模块,其中:
所述链路因子计算模块,用于在控制平面收到告警时,根据网络情况确认X因子和Y因子,根据X因子和Y因子计算重路由的最大次数,制定重路由策略;其中X因子为门限达标链路个数,Y因子为门限达标的链路中被排除的链路个数;
所述重路由模块,用于根据重路由策略依次执行重路由;
所述重路由终止模块,用于当业务成功恢复,或者达到最大次数后,停止重路由尝试。
其中所述重路由的最大次数N的计算如下:
本领域的技术人员容易理解,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。