CN114257499B - 一种网络故障恢复方法、装置和电子设备 - Google Patents

一种网络故障恢复方法、装置和电子设备 Download PDF

Info

Publication number
CN114257499B
CN114257499B CN202111565424.9A CN202111565424A CN114257499B CN 114257499 B CN114257499 B CN 114257499B CN 202111565424 A CN202111565424 A CN 202111565424A CN 114257499 B CN114257499 B CN 114257499B
Authority
CN
China
Prior art keywords
fault
link
candidate transmission
transmission path
scene
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111565424.9A
Other languages
English (en)
Other versions
CN114257499A (zh
Inventor
孟维良
张宇超
黄浩强
王文东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Chuangshi Cloud Technology Co ltd
Original Assignee
Beijing Chuangshi Cloud Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Chuangshi Cloud Technology Co ltd filed Critical Beijing Chuangshi Cloud Technology Co ltd
Priority to CN202111565424.9A priority Critical patent/CN114257499B/zh
Publication of CN114257499A publication Critical patent/CN114257499A/zh
Application granted granted Critical
Publication of CN114257499B publication Critical patent/CN114257499B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0668Management of faults, events, alarms or notifications using network fault recovery by dynamic selection of recovery network elements, e.g. replacement by the most appropriate element after failure

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种网络故障恢复方法、装置和电子设备,其中,该方法包括:当网络中出现故障链路时,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为故障链路的多个候选传输路径;通过多个候选传输路径得到多个故障场景,计算得到多个故障场景中各故障场景的发生概率;利用计算得到的各故障场景的发生概率,从多个候选传输路径中选择出替代故障链路的传输路径,并将故障链路中的流量转移到被选择的传输路径上进行传输。通过本发明实施例提供的网络故障恢复方法、装置和电子设备,减小网络中的链路出现故障的概率,大大提高网络的通畅性。

Description

一种网络故障恢复方法、装置和电子设备
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种网络故障恢复方法、装置和电子设备。
背景技术
目前,网络承载的数据量随传输速率的增加而大幅增加。根据HKUST的数据,数据中心的链路容量由最初的1/10G迅速发展到如今的100G,而流量任务的大小相对变化不大,这使得60%~90%的流量任务能够在一个RTT之内完成。当网络故障发生时,链路上承载的大量流量任务无法完成。因此,数据中心对网络可靠性的要求在不断增高。然而,网络的故障十分常见,在具有大于200个路由器和6000条链路的网络中,数据平面每5分钟内发生故障的概率为25%,这对故障恢复机制的速度提出了严苛的要求。
发明内容
为解决上述问题,本发明实施例的目的在于提供一种网络故障恢复方法、装置和电子设备。
第一方面,本发明实施例提供了一种网络故障恢复方法,包括:
当网络中出现故障链路时,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径;
通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;
利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,并将所述故障链路中的流量转移到被选择的所述传输路径上进行传输。
第二方面,本发明实施例还提供了一种网络故障恢复装置,包括:
选择模块,用于当网络中出现故障链路时,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径;
第一处理模块,用于通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;
第二处理模块,用于利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,并将所述故障链路中的流量转移到被选择的所述传输路径上进行传输。
第三方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述第一方面所述的方法的步骤。
第四方面,本发明实施例还提供了一种电子设备,所述电子设备包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行权利要求1-4任一项所述的方法的步骤。
本发明实施例上述第一方面至第四方面提供的方案中,当网络中出现故障链路时,先确定所述故障链路的多个候选传输路径;通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,与相关技术中网络中出现故障链路时,需要进行全局重路由才能恢复的方式相比,无需进行重路由就可以进行网络恢复,大大缩短了网络的恢复时间;而且,在从所述多个候选传输路径中选择出替代所述故障链路的传输路径之前,通过设置不同的候选传输路径出现故障而得到多个故障场景,通过计算得到的多个所述故障场景中各所述故障场景的发生概率,从多个候选传输路径中选择未来发生故障概率较低的候选传输路径作为替代所述故障链路的传输路径。从而减小网络中的链路出现故障的概率,大大提高网络的通畅性。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出了本发明实施例1所提供的一种网络故障恢复方法的流程图;
图2示出了本发明实施例1所提供的一种网络故障恢复方法中提出的一种网络拓扑结构;
图3示出了本发明实施例2所提供的一种网络故障恢复装置的结构示意图;
图4示出了本发明实施例3所提供的一种电子设备的结构示意图。
具体实施方式
在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
在本发明中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”、“固定”等术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
目前,网络承载的数据量随传输速率的增加而大幅增加。根据HKUST的数据,数据中心的链路容量由最初的1/10G迅速发展到如今的100G,而流量任务的大小相对变化不大,这使得60%~90%的流量任务能够在一个RTT之内完成。当网络故障发生时,链路上承载的大量流量任务无法完成。因此,数据中心对网络可靠性的要求在不断增高。然而,网络的故障十分常见,在具有大于200个路由器和6000条链路的网络中,数据平面每5分钟内发生故障的概率为25%,这对故障恢复机制的速度提出了严苛的要求。
传统的网络故障恢复方法在故障发生后,通过计算流量任务在幸存路径上的分配比例最优解,重新调整流量来进行恢复,这在过去的网络规模中表现较好。但在如今的数据中心网络中面临速度慢、效率低的问题。随着网络规模的扩大,传统故障恢复方法的候选路径空间随之变得庞大,其中大部分路径上的流量并不需要重新调配,因而在恢复过程中造成大量冗余,重路由的无意义开销大。此外,传统的故障恢复方法无法感知未来的网络状况,当前的决策可能由于未来的链路故障而需要再次重路由,多次重路由十分影响网络性能。以上两点使得传统的网络故障恢复方法无法满足数据中心网络对故障恢复的效率和可靠性要求。
随着数据中心网络的变化,故障恢复方法也在不断适应更新。一部分工作侧重于预先估计故障发生的情况来减少重路由的概率,从而避免直接进行故障恢复,直观地提升网络性能。例如,FFC机制通过预设同时发生的故障上限,空出部分链路作为备用容量,以此保障预设配置下的无拥塞。然而,一旦故障数量超过预设上限,FFC的容错性能就难以再得到保障;此外,FFC牺牲了部分链路,利用率不高。TEAVAR通过在TrafficEngineering(TE)增加可用性约束的方式而考虑了大部分的故障场景,但仍不能避免故障的发生。这些工作存在的共同问题是,遇到无法绕开的故障,则仍然需要进行全局重路由。这成为了快速故障恢复的限制,导致流量传输的损失,影响网络的性能。
基于此,本实施例提出一种网络故障恢复方法、装置和电子设备,当网络中出现故障链路时,先确定所述故障链路的多个候选传输路径;通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,与相关技术中网络中出现故障链路时,需要进行全局重路由才能恢复的方式相比,无需进行重路由就可以进行网络恢复,大大缩短了网络的恢复时间;而且,在从所述多个候选传输路径中选择出替代所述故障链路的传输路径之前,通过设置不同的候选传输路径出现故障而得到多个故障场景,通过计算得到的多个所述故障场景中各所述故障场景的发生概率,从多个候选传输路径中选择未来发生故障概率较低的候选传输路径作为替代所述故障链路的传输路径。从而减小网络中的链路出现故障的概率,大大提高网络的通畅性。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请做进一步详细的说明。
实施例1
本实施例提出的一种网络故障恢复方法的执行主体是数据中心。
参见图1所示的一种网络故障恢复方法的流程图,本实施例提出一种网络故障恢复方法,包括:
步骤100、当网络中出现故障链路时,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径。
在上述步骤100中,当网络中出现故障链路时,获取所述故障链路的源节点与目的节点,然后采用使用局部查找路径搜索算法,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径。
具体地,为了选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径,上述步骤100可以执行以下步骤(1)至步骤(2):
(1)确定所述故障链路中需要转移的流量大小;
(2)选择连接故障链路的所述源节点与所述目的节点之间,可使用流量大于所述故障链路中需要转移的流量大小的链路组成所述故障链路的多个候选传输路径。
在上述步骤(1)中,所述数据中心会将故障链路正在传输的流量大小确定为所述故障链路中需要转移的流量大小。
在上述步骤(2)中,采用使用局部查找路径搜索算法,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径。
在网络中发生链路故障后,抽取网络信息,建立网络故障模型。
首先,定义链路与路径。数据中心网络中的任意两个数据中心之间都存在一条链路;路径由一条到多条链路构成,是数据中心之间的连接道路,构成了数据中心网络的主干道。
然后,抽取网络信息,建立链路故障矩阵E=e1,e2,e3…en,表示链路的可用状况。其中ei=1表示链路状态正常,可以传输任务;ei=0表示链路故障,需要对链路上原有的流量任务进行恢复处理。
然后,生成候选传输路径的矩阵
,每条候选传输路径包含不同的链路集,不同的候选传输路径可能归属于同一个路径的源节点和目的节点。在生成候选传输路径矩阵的过程中,使用局部查找实现剪枝。
具体地,局部查找路径搜索算法的具体实现过程如下:对于ej=0的故障链路,其连接源节点(src,下同)和目的节点(des,下同)两端,从入端路口处查找相邻链路,对于候选传输路径矩阵中的相邻链路ei,要求ei=1,即链路ei可用。查找首先采用非回溯的方法,从故障链路的入端路口src向出端路口des查找所有从src到des的可用链路,并且满足条件:这些链路上的剩余容量之和足够容纳本条故障链路上的流量任务,即:约定除非从src到des只剩一条候选传输路径,否则至少需要候选传输路径的集合中包含两条不同的候选传输路径,以保证恢复方案的可用性。若从入端路口处开始的查询结果无法满足要求,则向后回溯一个节点,重复上述查找过程,直到可用链路集满足不等式。将上述结果保存到候选传输路径矩阵中。
若整个数据中心网络的正常链路空间仅包含两条或以下的候选传输路径,则该增量恢复方案即是全量恢复方案;当数据中心网络规模越大,增量恢复就显得越轻量、迅速。在包含100条路径的数据中心网络中,增量恢复方案至多可以达到全量恢复方案规模的2%。
步骤102、通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率。
计算候选传输路径在未来可能发生故障的情况,用以评估不同候选传输路径的流量分配风险。故障场景分为无故障情况和故障情况两大部分。其中,无故障情况即候选传输路径中的所有链路均无故障的理想化场景;故障情况即候选传输路径中某些链路发生故障的场景。需考虑所有可能的故障场景。
具体地,为了计算得到多个所述故障场景中各所述故障场景的发生概率,可以执行以下步骤(1)至步骤(4):
(1)获取多个候选传输路径中的各链路的链路故障次数和链路检测次数;
(2)根据各链路的链路故障次数和链路检测次数,对各链路的故障概率进行计算;
(3)对于多个所述候选传输路径中的各条链路,分别设置不同数量的链路发生故障,以得到不同的故障情况场景,并将所述不同的故障情况场景与无故障场景作为得到的多个所述故障场景;
(4)通过以下公式对多个所述故障场景中各所述故障场景的发生概率,包括:
其中,pi表示故障场景yi的发生概率;σ表示预设比例值;表示故障场景yi中第k个链路的可用系数,故障场景yi中第k个链路被设置为故障链路,则/>故障场景yi中第k个链路被设置为正常链路,则/>lk表示故障场景yi中第k个链路的故障概率。
在上述步骤(1)中,所述数据中心中存储有各链路的链路故障次数和链路检测次数。
在上述步骤(2)中,通过以下公式对各链路的故障概率进行计算:
各链路的故障概率=各链路的链路故障次数/各链路的链路检测次数
在上述步骤(3)中,定义故障场景矩阵Y。对于候选传输路径中的链路集合ES=(ei,ei+1…ei+n),分别令其中的部分链路故障,从而得到不同的故障场景,并加入故障场景矩阵Y,得到Y=(y1,y2,...yn)=((1,1...1),(0,1...1),(1,0...1),...),其中,y1(1,1...1)表示无故障的理想场景;y2(0,1...1)表示候选传输路径中的链路e1发生故障时的故障场景;y3(1,0...1)表示候选传输路径中的链路e2发生故障时的故障场景。
在上述步骤(4)中,所述预设比例值σ,缓存在所述数据中心中。
步骤104、利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,并将所述故障链路中的流量转移到被选择的所述传输路径上进行传输。
为了从所述多个候选传输路径中选择出替代所述故障链路的传输路径,可以执行以下步骤(1)至步骤(4):
(1)获取由所述故障场景中的链路组成的候选传输路径的流量需求大小,并向由所述故障场景中的链路组成的候选传输路径分配需要重新传输的流量大小;
(2)通过以下公式对各所述故障场景中的候选传输路径流量损失累积值进行计算:
其中,Lq表示故障场景q中的候选传输路径的流量损失累积值;S表示故障场景q中所有的候选传输路径;s表示故障场景q中的任一候选传输路径;df表示故障场景q中需要重新传输的一条流量大小;表示向故障场景q中的候选传输路径s分配的需要重新传输的流量大小;/>表示故障场景q中的候选传输路径s的可用系数,当故障场景q中候选传输路径s中有故障链路时,则/>当故障场景q中候选传输路径s中无故障链路时,则/>
(3)利用各所述故障场景中的候选传输路径流量损失累积值与各所述故障场景的发生概率,计算得到各所述故障场景的流量损失度;
(4)选择各所述故障场景中所述流量损失度最小的故障场景中的候选传输路径作为替代所述故障链路的传输路径。
在上述步骤(1)中,所述数据中心获取到的由所述故障场景中的链路组成的候选传输路径的流量需求大小,就是故障场景中需要重新传输的流量大小。
在上述步骤(3)中,通过以下公式计算各所述故障场景的流量损失度:
各所述故障场景的流量损失度=∑qpqLq
其中,pq表示故障场景q的发生概率。
通过以上步骤(1)至步骤(4)的描述,以步骤(4)中的流量损失度的最小值为目标函数,步骤(1)至步骤(4)的其他公式为限制,并加入以下两个限制:
其中,表示向故障场景q中的候选传输路径s分配的需要重新传输的流量大小;cl表示路径s中任意链路l的容量。本公式限制
在任意路径s上分配的流量大小之和不得超过路径s中任意链路的容量。
其中,表示向故障场景q中的候选传输路径s分配的需要重新传输的流量大小;df表示故障场景q中一条等待重传的流量的大小。本公式限制在所有路径上为流f分配的大小之和不得超过其本身请求的大小。
基于上述线性规划,求解目标函数,可以得到流量分配策略矩阵,将其部署到网络中,完成流量恢复。
下面结合附图及两个案例,对本实施例提出的网络故障恢复方法进行描述和说明。
案例一:
网络拓扑结构如图2所示。假设在每条链路容量均为1Gbps的单向链路集中,链路10发生了故障,此时链路状态信息如表1所示,链路10上待完成的流量共454MB,这部分流量任务需要重分配到其他路径中。
表1
假设要求恢复方案需满足可用性ψ(x,ξ)≥β=94%。
步骤a:抽取网络信息。生成链路故障矩阵,在该网络场景中,链路10故障,于是e10=0,从而链路故障矩阵E=(1,1,1,1,1,1,1,1,1,0,1,1,1)。
步骤b:生成候选传输路径矩阵S。从故障链路入端路口DC1查找到达出端路口DC2的候选传输路径,直到满足剩余容量≥454MB且候选传输路径至少有两条。得到两条路径:链路1→链路2→链路3;链路4→链路5→链路6。其剩余容量总和为:783+628+412+426+641+523=3413≥454(MB),满足在路径集上恢复的要求,停止查找,并生成候选传输路径矩阵
步骤c:生成需求矩阵D。抽取源-目的节点对(src,des)=(DC1,DC2)上,故障链路信息和候选传输路径矩阵信息,得到需求矩阵D=(241,396,612,598,383,501,454)+76=(317,472,688,674,459,577)。
步骤d:生成故障场景
共46种场景。而所有可能的故障场景共26=64种,经过剪枝后场景规模缩小到71.9%。
步骤e:生成链路故障概率矩阵L。链路故障历史信息表如表2所示,对应到候选传输路径矩阵上的链路,生成链路故障概率矩阵
表2
/>
步骤f:生成故障场景概率矩阵。所生成的故障场景覆盖所有可能场景的95.5%,从而场景概率矩阵系数于是根据公式/> 故障场景概率矩阵为/>
步骤g:初始化流量分配矩阵X。从抽取得到的网络信息中,对应候选传输路径当前的流量分配情况,得到X:
步骤h:添加约束项。
步骤h.1:添加流量上下限约束,任意路径上的链路流量不大于路径容量,链路流量不大于其自身容量,即∑e∈p xp≤ce,从而为流量分配矩阵添加约束:/>
步骤h.2:添加辅助变量v的下限约束:v≥max{∑L(x,y)-ψ,0}。
步骤i:线性规划求解使目标函数最小的流量分配。首先得到初始分配/>根据分配比例,得到流量任务最优分配/>
步骤j:将最优解决方案X应用到实际链路场景实现重分配。
案例二:与全量恢复方案对比
以案例一的数据,基于VaR风险评估方法(即:本实施例提出的网络故障恢复方法),使用全量恢复方案对网络故障进行恢复,候选路径空间有8条从DC1到DC2的不同路径,包含除链路10以外的16条链路,即使经过剪枝生成1579种场景,压缩到原有规模的2.7%,其规模仍有增量恢复的34倍。
两种方案的对比如表3所示。从表中可以看到,增量恢复使用全量恢复37%的时间,达到了与全量恢复效果相近的结果。
表3
综上所述,本实施例提出一种网络故障恢复方法,当网络中出现故障链路时,先确定所述故障链路的多个候选传输路径;通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,与相关技术中网络中出现故障链路时,需要进行全局重路由才能恢复的方式相比,无需进行重路由就可以进行网络恢复,大大缩短了网络的恢复时间;而且,在从所述多个候选传输路径中选择出替代所述故障链路的传输路径之前,通过设置不同的候选传输路径出现故障而得到多个故障场景,通过计算得到的多个所述故障场景中各所述故障场景的发生概率,从多个候选传输路径中选择未来发生故障概率较低的候选传输路径作为替代所述故障链路的传输路径。从而减小网络中的链路出现故障的概率,大大提高网络的通畅性。
实施例2
本实施例提出的一种网络故障恢复装置,用于实施上述实施例1提出的网络故障恢复方法。
参见图3所述一种网络故障恢复装置的结构示意图,本实施例提出一种网络故障恢复装置,包括:
选择模块300,用于当网络中出现故障链路时,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径;
第一处理模块302,用于通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;
第二处理模块304,用于利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,并将所述故障链路中的流量转移到被选择的所述传输路径上进行传输。
具体地,所述选择模块300,具体用于:
确定所述故障链路中需要转移的流量大小;
选择连接故障链路的所述源节点与所述目的节点之间,可使用流量大于所述故障链路中需要转移的流量大小的链路组成所述故障链路的多个候选传输路径。
具体地,所述第一处理模块302,具体用于:
获取多个候选传输路径中的各链路的链路故障次数和链路检测次数;
根据各链路的链路故障次数和链路检测次数,对各链路的故障概率进行计算;
对于多个所述候选传输路径中的各条链路,分别设置不同数量的链路发生故障,以得到不同的故障情况场景,并将所述不同的故障情况场景与无故障场景作为得到的多个所述故障场景;
通过以下公式对多个所述故障场景中各所述故障场景的发生概率,包括:
其中,pi表示故障场景yi的发生概率;σ表示预设比例值;表示故障场景yi中第k个链路的可用系数,故障场景yi中第k个链路被设置为故障链路,则/>故障场景yi中第k个链路被设置为正常链路,则/>lk表示故障场景yi中第k个链路的故障概率。
具体地,所述第二处理模块304,具体用于:
获取由所述故障场景中的链路组成的候选传输路径的流量需求大小,并向由所述故障场景中的链路组成的候选传输路径分配需要重新传输的流量大小;
通过以下公式对各所述故障场景中的候选传输路径流量损失累积值进行计算:
其中,Lq表示故障场景q中的候选传输路径的流量损失累积值;S表示故障场景q中所有的候选传输路径;s表示故障场景q中的任一候选传输路径;df表示故障场景q中需要重新传输的一条流量大小;表示向故障场景q中的候选传输路径s分配的需要重新传输的流量大小;/>表示故障场景q中的候选传输路径s的可用系数,当故障场景q中候选传输路径s中有故障链路时,则/>当故障场景q中候选传输路径s中无故障链路时,则/>
利用各所述故障场景中的候选传输路径流量损失累积值与各所述故障场景的发生概率,计算得到各所述故障场景的流量损失度;
选择各所述故障场景中所述流量损失度最小的故障场景中的候选传输路径作为替代所述故障链路的传输路径。
综上所述,本实施例提出一种网络故障恢复装置,当网络中出现故障链路时,先确定所述故障链路的多个候选传输路径;通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,与相关技术中网络中出现故障链路时,需要进行全局重路由才能恢复的方式相比,无需进行重路由就可以进行网络恢复,大大缩短了网络的恢复时间;而且,在从所述多个候选传输路径中选择出替代所述故障链路的传输路径之前,通过设置不同的候选传输路径出现故障而得到多个故障场景,通过计算得到的多个所述故障场景中各所述故障场景的发生概率,从多个候选传输路径中选择未来发生故障概率较低的候选传输路径作为替代所述故障链路的传输路径。从而减小网络中的链路出现故障的概率,大大提高网络的通畅性。
实施例3
本实施例提出一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述实施例1描述的网络故障恢复方法的步骤。具体实现可参见方法实施例1,在此不再赘述。
此外,参见图4所示的一种电子设备的结构示意图,本实施例还提出一种电子设备,上述电子设备包括总线51、处理器52、收发机53、总线接口54、存储器55和用户接口56。上述电子设备包括有存储器55。
本实施例中,上述电子设备还包括:存储在存储器55上并可在处理器52上运行的一个或者一个以上的程序,经配置以由上述处理器执行上述一个或者一个以上程序用于进行以下步骤(1)至步骤(3):
(1)当网络中出现故障链路时,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径;
(2)通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;
(3)利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,并将所述故障链路中的流量转移到被选择的所述传输路径上进行传输。
收发机53,用于在处理器52的控制下接收和发送数据。
其中,总线架构(用总线51来代表),总线51可以包括任意数量的互联的总线和桥,总线51将包括由处理器52代表的一个或多个处理器和存储器55代表的存储器的各种电路链接在一起。总线51还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本实施例不再对其进行进一步描述。总线接口54在总线51和收发机53之间提供接口。收发机53可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。例如:收发机53从其他设备接收外部数据。收发机53用于将处理器52处理后的数据发送给其他设备。取决于计算系统的性质,还可以提供用户接口56,例如小键盘、显示器、扬声器、麦克风、操纵杆。
处理器52负责管理总线51和通常的处理,如前述上述运行通用操作系统。而存储器55可以被用于存储处理器52在执行操作时所使用的数据。
可选的,处理器52可以是但不限于:中央处理器、单片机、微处理器或者可编程逻辑器件。
可以理解,本发明实施例中的存储器55可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read-Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double DataRateSDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本实施例描述的系统和方法的存储器55旨在包括但不限于这些和任意其它适合类型的存储器。
在一些实施方式中,存储器55存储了如下的元素,可执行模块或者数据结构,或者它们的子集,或者它们的扩展集:操作系统551和应用程序552。
其中,操作系统551,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序552,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本发明实施例方法的程序可以包含在应用程序552中。
综上所述,本实施例提出一种,当网络中出现故障链路时,先确定所述故障链路的多个候选传输路径;通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,与相关技术中网络中出现故障链路时,需要进行全局重路由才能恢复的方式相比,无需进行重路由就可以进行网络恢复,大大缩短了网络的恢复时间;而且,在从所述多个候选传输路径中选择出替代所述故障链路的传输路径之前,通过设置不同的候选传输路径出现故障而得到多个故障场景,通过计算得到的多个所述故障场景中各所述故障场景的发生概率,从多个候选传输路径中选择未来发生故障概率较低的候选传输路径作为替代所述故障链路的传输路径。从而减小网络中的链路出现故障的概率,大大提高网络的通畅性。
综上所述,本实施例提出一种计算机可读存储介质和电子设备,当网络中出现故障链路时,先确定所述故障链路的多个候选传输路径;通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,与相关技术中网络中出现故障链路时,需要进行全局重路由才能恢复的方式相比,无需进行重路由就可以进行网络恢复,大大缩短了网络的恢复时间;而且,在从所述多个候选传输路径中选择出替代所述故障链路的传输路径之前,通过设置不同的候选传输路径出现故障而得到多个故障场景,通过计算得到的多个所述故障场景中各所述故障场景的发生概率,从多个候选传输路径中选择未来发生故障概率较低的候选传输路径作为替代所述故障链路的传输路径。从而减小网络中的链路出现故障的概率,大大提高网络的通畅性。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。

Claims (6)

1.一种网络故障恢复方法,其特征在于,包括:
当网络中出现故障链路时,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径;
通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;
利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,并将所述故障链路中的流量转移到被选择的所述传输路径上进行传输;
所述通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率,包括:
获取多个候选传输路径中的各链路的链路故障次数和链路检测次数;
根据各链路的链路故障次数和链路检测次数,对各链路的故障概率进行计算;
对于多个所述候选传输路径中的各条链路,分别设置不同数量的链路发生故障,以得到不同的故障情况场景,并将所述不同的故障情况场景与无故障场景作为得到的多个所述故障场景;
通过以下公式对多个所述故障场景中各所述故障场景的发生概率进行计算,包括:
其中,pi表示故障场景yi的发生概率;σ表示预设比例值;表示故障场景yi中第k个链路的可用系数,故障场景yi中第k个链路被设置为故障链路,则/>故障场景yi中第k个链路被设置为正常链路,则/>lk表示故障场景yi中第k个链路的故障概率;
所述利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,包括:
获取由所述故障场景中的链路组成的候选传输路径的流量需求大小,并向由所述故障场景中的链路组成的候选传输路径分配需要重新传输的流量大小;
通过以下公式对各所述故障场景中的候选传输路径流量损失累积值进行计算:
其中,Lq表示故障场景q中的候选传输路径的流量损失累积值;S表示故障场景q中所有的候选传输路径;s表示故障场景q中的任一候选传输路径;df表示故障场景q中需要重新传输的一条流量大小;表示向故障场景q中的候选传输路径s分配的需要重新传输的流量大小;/>表示故障场景q中的候选传输路径s的可用系数,当故障场景q中候选传输路径s中有故障链路时,则/>当故障场景q中候选传输路径s中无故障链路时,则/>
利用各所述故障场景中的候选传输路径流量损失累积值与各所述故障场景的发生概率,计算得到各所述故障场景的流量损失度;
选择各所述故障场景中所述流量损失度最小的故障场景中的候选传输路径作为替代所述故障链路的传输路径。
2.根据权利要求1所述的方法,其特征在于,所述选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径,包括:
确定所述故障链路中需要转移的流量大小;
选择连接故障链路的所述源节点与所述目的节点,可使用流量大于所述故障链路中需要转移的流量大小的链路组成所述故障链路的多个候选传输路径。
3.一种网络故障恢复装置,其特征在于,包括:
选择模块,用于当网络中出现故障链路时,选择能够连接故障链路的源节点与目的节点之间的链路组成的多个传输路径作为所述故障链路的多个候选传输路径;
第一处理模块,用于通过多个所述候选传输路径得到多个故障场景,计算得到多个所述故障场景中各所述故障场景的发生概率;
第二处理模块,用于利用计算得到的各所述故障场景的发生概率,从所述多个候选传输路径中选择出替代所述故障链路的传输路径,并将所述故障链路中的流量转移到被选择的所述传输路径上进行传输;
所述第一处理模块,具体用于:
获取多个候选传输路径中的各链路的链路故障次数和链路检测次数;
根据各链路的链路故障次数和链路检测次数,对各链路的故障概率进行计算;
对于多个所述候选传输路径中的各条链路,分别设置不同数量的链路发生故障,以得到不同的故障情况场景,并将所述不同的故障情况场景与无故障场景作为得到的多个所述故障场景;
通过以下公式对多个所述故障场景中各所述故障场景的发生概率进行计算,包括:
其中,pi表示故障场景yi的发生概率;σ表示预设比例值;表示故障场景yi中第k个链路的可用系数,故障场景yi中第k个链路被设置为故障链路,则/>故障场景yi中第k个链路被设置为正常链路,则/>lk表示故障场景yi中第k个链路的故障概率;
所述第二处理模块,具体用于:
获取由所述故障场景中的链路组成的候选传输路径的流量需求大小,并向由所述故障场景中的链路组成的候选传输路径分配需要重新传输的流量大小;
通过以下公式对各所述故障场景中的候选传输路径流量损失累积值进行计算:
其中,Lq表示故障场景q中的候选传输路径的流量损失累积值;S表示故障场景q中所有的候选传输路径;s表示故障场景q中的任一候选传输路径;df表示故障场景q中需要重新传输的一条流量大小;表示向故障场景q中的候选传输路径s分配的需要重新传输的流量大小;/>表示故障场景q中的候选传输路径s的可用系数,当故障场景q中候选传输路径s中有故障链路时,则/>当故障场景q中候选传输路径s中无故障链路时,则/>
利用各所述故障场景中的候选传输路径流量损失累积值与各所述故障场景的发生概率,计算得到各所述故障场景的流量损失度;
选择各所述故障场景中所述流量损失度最小的故障场景中的候选传输路径作为替代所述故障链路的传输路径。
4.根据权利要求3所述的装置,其特征在于,所述选择模块,具体用于:
确定所述故障链路中需要转移的流量大小;
选择连接故障链路的所述源节点与所述目的节点,可使用流量大于所述故障链路中需要转移的流量大小的链路组成所述故障链路的多个候选传输路径。
5.一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行上述权利要求1或者2所述的方法的步骤。
6.一种电子设备,其特征在于,所述电子设备包括有存储器,处理器以及一个或者一个以上的程序,其中所述一个或者一个以上程序存储于所述存储器中,且经配置以由所述处理器执行权利要求1或者2所述的方法的步骤。
CN202111565424.9A 2021-12-20 2021-12-20 一种网络故障恢复方法、装置和电子设备 Active CN114257499B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111565424.9A CN114257499B (zh) 2021-12-20 2021-12-20 一种网络故障恢复方法、装置和电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111565424.9A CN114257499B (zh) 2021-12-20 2021-12-20 一种网络故障恢复方法、装置和电子设备

Publications (2)

Publication Number Publication Date
CN114257499A CN114257499A (zh) 2022-03-29
CN114257499B true CN114257499B (zh) 2024-02-02

Family

ID=80796175

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111565424.9A Active CN114257499B (zh) 2021-12-20 2021-12-20 一种网络故障恢复方法、装置和电子设备

Country Status (1)

Country Link
CN (1) CN114257499B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115022260A (zh) * 2022-05-31 2022-09-06 苏州浪潮智能科技有限公司 一种白盒交换机的节能控制方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012106925A1 (zh) * 2011-07-25 2012-08-16 华为技术有限公司 Ip网络故障定位方法、装置及系统
CN106209621A (zh) * 2016-06-17 2016-12-07 中国人民解放军空军工程大学 服务质量约束的链路故障恢复方法
CN106506362A (zh) * 2016-11-23 2017-03-15 重庆邮电大学 一种最小故障风险损失的弹性光网络多链路故障概率保护方法
CN107204935A (zh) * 2017-07-12 2017-09-26 苏州大学 频谱灵活光网络的故障概率和负载均衡折衷方法和系统
CN113347102A (zh) * 2021-05-20 2021-09-03 中国电子科技集团公司第七研究所 基于q-学习的sdn链路抗毁方法、存储介质及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9590892B2 (en) * 2013-12-02 2017-03-07 University Of Ontario Institute Of Technology Proactive controller for failure resiliency in communication networks

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012106925A1 (zh) * 2011-07-25 2012-08-16 华为技术有限公司 Ip网络故障定位方法、装置及系统
CN106209621A (zh) * 2016-06-17 2016-12-07 中国人民解放军空军工程大学 服务质量约束的链路故障恢复方法
CN106506362A (zh) * 2016-11-23 2017-03-15 重庆邮电大学 一种最小故障风险损失的弹性光网络多链路故障概率保护方法
CN107204935A (zh) * 2017-07-12 2017-09-26 苏州大学 频谱灵活光网络的故障概率和负载均衡折衷方法和系统
CN113347102A (zh) * 2021-05-20 2021-09-03 中国电子科技集团公司第七研究所 基于q-学习的sdn链路抗毁方法、存储介质及系统

Also Published As

Publication number Publication date
CN114257499A (zh) 2022-03-29

Similar Documents

Publication Publication Date Title
CN109495300B (zh) 一种可靠的sdn虚拟网络映射方法
US10057339B2 (en) Resource allocation protocol for a virtualized infrastructure with reliability guarantees
US6744727B2 (en) Apparatus and method for spare capacity allocation
JP3141808B2 (ja) ネットワークの設計方法
US20020091845A1 (en) Reliability for interconnect fabrics
CN114257499B (zh) 一种网络故障恢复方法、装置和电子设备
JP5134006B2 (ja) プロテクション強化のためのパスマネージメント
CN106059791A (zh) 一种存储系统中业务的链路切换方法和存储设备
Huang et al. System reliability analysis for a cloud-based network under edge server capacity and budget constraints
CN108572888A (zh) 磁盘快照创建方法和磁盘快照创建装置
Hsieh et al. Reliable and economic resource allocation in an unreliable flow network
US20230283534A1 (en) Availability SLO-Aware Network Optimization
US6938187B2 (en) Tandem connection monitoring
EP2307994A1 (en) Method and apparatus for computing a detailed routability estimation
CN110990197A (zh) 一种基于超级计算机的应用级多层检查点的优化方法
CN112929913B (zh) 网络切片下基于路由可生存性的虚拟网服务故障恢复方法
CN115883469A (zh) 一种数据流负载平衡方法、装置、网络拓扑及数据中心
CN112231142B (zh) 系统备份恢复方法、装置、计算机设备和存储介质
JP3257515B2 (ja) 通信ネットワーク設計回路及びその方法並びにプログラムを記録した機械読み取り可能な記録媒体
Huang et al. Reliability evaluation of a cloud–fog computing network considering transmission mechanisms
CN107577548A (zh) 一种用于航空电子系统的实时动态重构方法
CN112543048A (zh) 增量补偿健壮拓扑控制方法、系统、介质、设备、终端
Lin Reliability evaluation of a multistate network under routing policy
CN110738234B (zh) 角色预测方法及装置
CN116405373A (zh) 去中心化的多智能体平台及其实现方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant