CN110213162A

CN110213162A - 一种面向大规模计算机系统的容错路由方法

Info

Publication number: CN110213162A
Application number: CN201910485273.2A
Authority: CN
Inventors: 肖立权; 徐佳庆; 赖明澈; 常俊胜; 庞征斌; 张建民; 曹继军; 刘路; 罗章; 王强; 蔡东京; 唐付桥
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2019-06-05
Filing date: 2019-06-05
Publication date: 2019-09-06
Anticipated expiration: 2039-06-05
Also published as: CN110213162B

Abstract

针对传统容错路由方法在光模块发生故障时、互连故障在系统中持续时间过长的技术问题，本发明提供一种面向大规模计算机系统的容错路由方法，包括以下步骤：第一步，记故障交换机为源交换机i，i为交换机的编号，i≥0，基于上行链路进行容错路由，将源交换机i相应的流量均匀分配到其他可用的链路上来实现路由容错；第二步，基于下行链路进行容错路由，通过修改源交换机i的上行链路的路由来避开故障端口；第三步，结束。本发明分别基于上行链路和下行链路重构容错路由，可以无需增加网络资源且能保持路径上的跳步数保持不变，即网络延迟保持不变。此外，本发明可以容忍同时发生多个互连故障，并且仅带来小幅的带宽性能下降。

Description

一种面向大规模计算机系统的容错路由方法

技术领域

本发明涉及超级计算机中的路由容错方法，特别是一种面向大规模计算机系统的容错路由方法。

背景技术

互连故障是高性能计算机中一类重要的故障。与结点故障不同的是，单条链路或单个交换机故障往往会影响多个甚至全系统所有结点间的通信。故障的持续时间是从故障的发生到其解决。我们可以将这个时间分为两部分：容错时间和故障修复时间。对于链路故障，使用动态网络重新配置的容错时间通常为毫秒到秒。然而，更换故障光纤通常需要至少10分钟。因此，故障修复时间几乎是容错时间的一千倍。随着链路速率从14Gbps转换到28Gbps，甚至达到56Gbps，芯片面积和功率密度，LR(Long Reach，长距离)、MR(MediumReach，中等距离)SerDes的限制将被VSR(Very Short Reach，甚短距离)、USR(Ultra ShortReach，超短距离)SerDes取代。如今，越来越多的超级计算机开始使用板载光学而不是AOC(Active Optical Cables，有源光缆)。根据我们的操作和维护经验，更换板载光学系统大约需要20分钟，这大约是更换AOC的两倍。显然，容错网络故障的容错时间和故障修复时间之间的差距正在扩大。此外，HPC(High Performance Computing，高性能计算)系统中的大多数应用程序都是非实时科学计算。我们认为，当网络元素停止正常运行时，更好的容错策略能够在接近其标称容量的情况下运行并具有适当的容错时间。但是，大多数研究工作都集中在如何在故障排除之前缩短容错时间而不是性能下降。

互连网络中的容错可以根据应用流量是否在时间上停止而分为两类，静态或动态容错。静态容错非常耗时，并且需要定期检查应用程序，以便在重新配置网络后重新启动它们。随着超级计算机规模的增加，检查点的成本也会增加，静态容错对于当前和未来的大型超级计算机来说变得越来越不可用。动态容错通常可以分为三种方法：第一种方法依赖于连接到多个目的地的每个源，并且每个目的地连接到多个源。也有很多混合方法，将多个路径与多个路径中的路由相结合，以实现更大程度的容错。但是，这将使跳步数和网络延迟的数量翻倍，并显著降低网络性能。第二种是添加硬件资源，有些方法通过在网络中添加额外的交换机或额外链路来提供多条路径，另一种方法是在交换机芯片中添加计算单元，根据收到的FRN(Fault Recovery Notification，故障恢复通知)更新路由功能。所有上述方法都以增加额外硬件资源为代价。第三种方法依赖于链路故障周围的错误路由。这种方法还会增加跳步数并导致网络延迟增加。此外，错误路由会改变网络带宽均衡，导致网络性能下降。所有这三种方法都会增加额外的跳步数，这将增加网络延迟并降低网络资源的利用率。同时，它将导致本地网络流量的增加，影响网络的平衡，从而形成性能瓶颈。

近年来，为了解决高速信号传输质量的问题，短距离HSS(High Speed SerDes，高速传输接口)+板载光模块+无源光纤的解决方案正在逐渐替换原有的长距离HSS+AOC的交换机间互连方案。当光模块发生故障时，其替换时间将远高于AOC的更换时间，这就增加了互连故障在系统中的持续时间。在不暂停作业运行的前提下，如何通过容错路由方法减少互连网络性能的降级，从而大大提升故障持续期间系统整体的可用性至关重要。

胖树是当今超级计算机的主要拓扑结构。有三个属性使胖树成为高性能互连的首选拓扑：(a)死锁自由，使用树结构可以在不使用虚拟通道的情况下路由胖树，从而避免死锁；(b)固有的容错性，各个源目的地对之间存在多条路径，使得处理网络故障变得更加容易；(c)完全二分带宽，网络可以维持网络两半之间的全速通信。

设计针对胖树拓扑的容错路由方法，在大规模系统中不增加硬件资源并且保持网络延迟不变，至关重要。

发明内容

针对传统容错路由方法在光模块发生故障时、互连故障在系统中持续时间过长的技术问题，本发明提供一种面向大规模计算机系统的容错路由方法，分别基于上行路径和下行路径重构容错路由，可以无需增加网络资源且能保持路径上的跳步数保持不变，即网络延迟保持不变。此外，本发明可以容忍同时发生多个互连故障，并且仅带来小幅的带宽性能下降。

具体技术方案如下：

一种面向大规模计算机系统的容错路由方法，包括以下步骤：

第一步，记故障交换机为源交换机i，i为交换机的编号，i≥0，基于上行链路进行容错路由，将源交换机i相应的流量均匀分配到其他可用的链路上来实现路由容错；

第二步，基于下行链路进行容错路由，通过修改源交换机i的上行链路的路由来避开故障端口；

第三步，结束。

作为本发明技术方案的进一步改进，基于上行链路进行容错路由具体包括以下步骤：

步骤1.1获取源交换机i的可用上行端口，标记为集合P，若P为空集，进入步骤1.2；否则，集合P非空，转步骤1.3；

步骤1.2P为空集，当交换机i位于最底层时，若交换机i跟服务器相连，则进行告警，然后转第二步；若交换机i跟结点相连，则隔离连接到交换机i的所有结点，然后转第二步；当交换机i不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路来避开故障交换机i，转第二步；

步骤1.3集合P非空，结合目的端口的状态生成相应的路由表，转第二步。

作为本发明技术方案的进一步改进，基于下行链路进行容错路由，具体步骤为：

步骤2.1获取故障端口所在交换机i的可用下行端口，标记为集合P’，若P’为空集，进入步骤2.2；否则，集合P’非空，转步骤2.3；

步骤2.2P’为空集，当交换机i位于最底层时，若交换机i跟服务器相连，则进行告警，然后转第三步；若交换机i跟结点相连，则隔离连接到交换机i的所有结点，然后转第三步；当交换机i不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路来避开故障交换机i，然后转第三步；

步骤2.3集合P’非空，当与交换机i同级的源交换机m’的下行端口可达时，获取这个源交换机m’的所有可用端口集合并标记为Q，结合可用端口的状态生成相应的路由表，转第三步。

作为本发明技术方案的进一步改进，步骤1.3中，集合P非空，结合目的端口的状态生成相应的路由表，具体方法如下：当与交换机i同级的目的交换机m的上行端口可达时，获取目的交换机m的所有可用端口集合并标记为Q，其中，i≠m；选取Q和P的交集O，即为从源交换机可到达目的交换机的端口集合；判断集合O的情况：集合O非空时，则根据集合O创建到达这个目的交换机的路由表，然后转第二步；O为空集时，当交换机i和交换机m位于最底层时，若交换机i和交换机m都跟服务器相连，则进行告警，然后转第二步；若交换机i和交换机m中一个连接到结点，而另一个连接到服务器，则隔离连接到结点的那个交换机的所有结点，然后转第二步；若交换机i和交换机m都连接到结点，则隔离连接到交换机i的所有结点，然后转第二步；当交换机i和交换机m不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路的路由来避开相应的交换机，然后转第二步。

作为本发明技术方案的进一步改进，步骤2.3中结合可用端口的状态生成相应的路由表，具体方法如下：选取Q和P’的交集O’，即为从源交换机可到达目的交换机的端口集合；判断集合O’的情况：集合O’非空时，则根据集合O’创建到达这个目的交换机的路由表，转第三步；O’为空集时，当交换机i和交换机m’位于最底层时，若交换机i和交换机m’都跟服务器相连，则进行告警，转第三步；若交换机i和交换机m’中一个连接到结点，而另一个连接到服务器，则隔离连接到结点的那个交换机的所有结点，转第三步；若交换机i和交换机m’都连接到结点，则隔离连接到交换机i的所有结点，转第三步；当交换机i和交换机m’不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路的路由来避开相应的交换机。

作为本发明技术方案的进一步改进，当交换机i不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路来避开故障交换机i，具体修改方法如下：记故障交换机i的上行端口集合为M，M非空，下行端口集合为K，K非空，则与K相连的为交换机j的同一端口u，当集合M中的所有交换机都发生故障时，把与集合M相连的所有交换机j的u端口都视为故障端口，然后修改所有交换机j的路由表，避开它们的u端口；其中，j为交换机编号，j≠i，j≥0；u为交换机的端口编号，u≥0。

采用本发明可以达到以下有益效果：

本发明首先基于上行链路进行容错路由，通过将相应的流量均匀分配到其他可用的链路上来实现路由容错；然后基于下行链路进行容错路由，通过修改对应的上行链路的路由来避开故障端口。进而，本发明可以在不增加硬件资源且保持路径上的跳步数保持不变，即网络延迟保持不变的前提下，高性能计算机系统在出现较多故障时，仍然能够保持较高的性能。

附图说明

图1是本发明的链路路由容错方法总体流程图；

图2是本发明的上行链路路由容错方法流程图；

图3是本发明的下行链路路由容错方法流程图；

图4是本发明实施方式中上行链路容错原理示例图；

图5是本发明实施方式中交换机故障示例图；

图6是本发明实施例中修复上行链路故障的原理示意图；

图7是本发明实施例中具有冗余路径的下行链路故障恢复原理示意图；

图8是本发明实施例中无冗余路径的下行链路故障恢复原理示意图。

具体实施方式

本发明提供一种面向大规模计算机系统的容错路由方法，如图1所示，本发明具体包括以下步骤：

第一步，基于上行链路进行容错路由。对于上行链路而言，系统存在多条冗余路径，将相应的流量均匀分配到其他可用的链路上来实现路由容错。如图2所示，基于上行链路进行容错路由包括以下步骤：

步骤1.1记故障交换机为源交换机i，i为交换机的编号，i≥0，获取源交换机i的可用上行端口，标记为集合P，若P为空集，进入步骤1.2；否则，集合P非空，转步骤1.3；

步骤1.2P为空集，当交换机i位于最底层时，此时与之相连的端点没有冗余路径，若交换机i跟服务器相连，则进行告警，然后转第二步；若交换机i跟结点相连，则隔离连接到交换机i的所有结点，然后转第二步；当交换机i不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路来避开故障交换机i，具体修改方法如下：记故障交换机i的上行端口集合为M(M非空)，下行端口集合为K(K非空)，则与K相连的为交换机j(j为交换机编号，j≠i，j≥0)的同一端口u(u为交换机的端口编号，u≥0)，当集合M中的所有交换机都发生故障时，把与集合M相连的所有交换机j的u端口都视为故障端口，然后修改所有交换机j的路由表，避开它们的u端口；完成后转到第二步；

步骤1.3集合P非空，结合目的端口的状态生成相应的路由表。对胖树拓扑的网络来说，其同级的上行端口与下行端口一一对应。当与交换机i同级的目的交换机m的上行端口可达时，获取目的交换机m的所有可用端口集合并标记为Q，其中，i≠m；选取Q和P的交集O，即为从源交换机可到达目的交换机的端口集合。判断集合O的情况：集合O非空时，则根据集合O创建到达这个目的交换机的路由表，然后转第二步；O为空集时，当交换机i和交换机m位于最底层时，若交换机i和交换机m都跟服务器相连，则进行告警，然后转第二步；若交换机i和交换机m中一个连接到结点，而另一个连接到服务器，则隔离连接到结点的那个交换机的所有结点，然后转第二步；若交换机i和交换机m都连接到结点，则隔离连接到交换机i的所有结点，然后转第二步；当交换机i和交换机m不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路的路由来避开相应的交换机，修改方法与步骤1.2相同，然后转第二步。

第二步，基于下行链路进行容错路由。对于链路的下行链路而言，类似于判断上行链路中可用端口合集P是否非空，对于胖树结构的网络，一般而言，其下行链路不会存在冗余路径，因此通过修改对应的上行链路的路由来避开该端口。下行链路和上行链路的容错路由模式完全相同，可以看成是同一问题的两个方面，上行链路容错考虑的是从一个源交换机到n(n≥2)个目的交换机，而下行是从n(n≥2)个源交换机到达一个目的交换机。如图3所示，基于下行链路进行容错路由具体包括以下步骤：

步骤2.1获取故障端口所在交换机i的可用下行端口，标记为集合P’，并判断P’的情况。

步骤2.2P’为空集时，当交换机i位于最底层时，若交换机i跟服务器相连，则进行告警，然后转第三步；若交换机i跟结点相连，则隔离连接到交换机i的所有结点，然后转第三步；当交换机i不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路来避开故障交换机i，修改方法与步骤1.2相同，然后转第三步。

步骤2.3集合P’非空时，当与交换机i同级的源交换机m’的下行端口可达时，获取这个源交换机m’的所有可用端口集合并标记为Q；选取Q和P’的交集O’，即为从源交换机可到达目的交换机的端口集合。判断集合O’的情况：集合O’非空时，则根据集合O’创建到达这个目的交换机的路由表，然后转第三步，结束；O’为空集时，当交换机i和交换机m’位于最底层时，若交换机i和交换机m’都跟服务器相连，则进行告警，然后转第三步；若交换机i和交换机m’中一个连接到结点，而另一个连接到服务器，则隔离连接到结点的那个交换机的所有结点，然后转第三步；若交换机i和交换机m’都连接到结点，则隔离连接到交换机i的所有结点，然后转第三步；当交换机i和交换机m’不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路的路由来避开相应的交换机，修改方法与步骤1.2相同，然后转第三步。

第三步，结束。

接下来结合具体实施例，对本发明容错路由方法进行详细的描述。

对于具有确定性路由的胖树拓扑，其路由是所有可选路由的子集。将第i个交换机定义为交换机i(i≥0)，其上的第j(j≥0)个端口是交换机i.j。如图4所示，交换机0.0的可选上行端口为交换机0.3，交换机0.4和交换机0.5。例如，当端口交换机0.4发生故障时，通过交换机0.4到目标结点的路径将无法访问。其他上游端口交换机0.3和交换机0.5可以选择实现容错路由。新选择的端口也是所有可选胖树路由的子集。由于所有可选的胖树路由均不会出现死锁，因此在整个路由容错过程中，只是可选子集的改变，并不会出现新的路由方式，所以不可能出现死锁问题。

几乎所有的互连故障都是链路故障和交换机故障。对于交换机故障，可以将其视为多条链路故障。如图5所示，当交换机33发生故障时，可以认为是连接到它的六条虚线且标有X的链路有故障，通过修改相应端口的路由以避开交换机33，来实现交换机的路由容错。

在胖树拓扑中，链路故障应分为上行故障和下行故障。对于上行链路，系统中有多条冗余路径。一般原则是将相应的流量均匀地分配给其他可用链路以实现容错。首先，应确保上行链路集合P是否为空，即是否存在可用的上行链路。如果是空集，则需要根据故障交换机的具体位置单独讨论。如果故障交换机处于最低级别，则连接到它的端点没有冗余路径。当故障交换机不在最低级别时，可以通过修改连接到故障交换机的下层交换机的上行链路来容错。在图5中，当端口交换机33.3，交换机33.4和交换机33.5发生故障时，交换机15.3，交换机16.3和交换机17.3也被视为故障端口。

当上行链路的集合P不为空时，需要结合目的端口的状态来生成相应的路由表。对于具有胖树拓扑的互连网络，同一级别的上行端口和下行端口必然是一一对应的。如图6所示，当报文从交换机0.3到达交换机18.0后，它到达的是交换机1-17中的任何一个交换机i(1≤i≤17)，其必然从交换机i.3端口到达。因此，仅需要确保连接到与源交换机的端口对应的目的地交换机的端口同等可用，即可确保该报文可以顺利的从上一级交换机到达该级的目的交换机，通过每一层的约束，每次选择上行端口时均考虑同级的目的交换机是否可达，从而保证报文从源端达到目的端。

具体操作时，针对每一个目的交换机，获取其可达的端口合集Q。选取Q和P的交集O，即从源交换机可到达目的交换机的端口集合。如图6，从node0到node3，当故障链路为交换机0.4上行端口出现故障，则其上行端口合集P＝(交换机0.3，交换机0.5)，到达目的端口交换机1.5的下行链路出现故障，则其可达的端口集合Q＝(交换机0.3，交换机0.4)，则O＝(交换机0.3)，从交换机0到交换机1可以从交换机0.3到达交换机18，再到达交换机1.3，路径如图6中密集虚线且标记1、2的链路所示；类似的，从node0到达node45，而连接交换机15.3的链路出现故障，则Q＝(交换机0.4，交换机0.5)，O＝(交换机0.5)，从交换机0.5出，再回到交换机15.5，路径用图6中的虚线且标记1-4的链路所示。

而当交集Q为空集时，与P为空集时情形类似，只是需要根据源交换机和目的交换机连接的端点的状态以及PQ的数量判断隔离的结点，另外源交换机连接的结点被隔离后，循环退出；非底层交换机同样通过下一层交换机避开。对于下行链路，它可以分为两种情况：具有冗余路径或不具有冗余路径。在胖树拓扑中，通常，下行链路没有冗余路径。但是，在工程中，当系统规模较小时，有一种特殊类型：逻辑上需要的交换机端口数小于交换机端口数的1/2。在这种情况下，一个交换机可以被视为多个交换机，并且在同一交换机上具有相同逻辑位置的端口可以被视为彼此的冗余端口，以将流量均匀地分配给其他端口。

如图7所示，逻辑上需要三个6端口交换机。实际上，一个18端口交换机可以被视为三个6端口逻辑交换机(交换机36，交换机37和交换机38)。当连接到交换机33.5的链路出现故障时，可以直接从端口36.5和37.5到达目标交换机。当所有下行链路都出现故障时，情况与无冗余路径相同。

对于没有冗余路径的情况，通过修改相应上行链路的路由来避免故障端口。在上述上行路由的容错算法中，考虑到所需的下行链路可达性，使用冗余上行链路来避免相应的不可达下行链路。因此，两者的路由算法可以视为同一问题的两个方面。上行链路容错考虑从一个源交换机到n(n≥2)个目的地交换机，并且下行链路容错是从n(n≥2)个源交换机到一个目的地交换机。两者的算法模式完全相同。

如图8所示，从node3到node0，如果端口交换机19.0发生故障，则目的交换机的端口合集为P＝(交换机1.3，交换机1.5)。当上行链路交换机1.5出现故障时，可用端口集Q＝(交换机1.3，交换机1.4)，则交集O＝(交换机1.3)，路径是从交换机1.3到交换机18，然后到达端口交换机0.3，路径如图8中密集虚线且标记1、2的链路所示。同样，如果数据包从node45到node0，当上行链路交换机15.3发生故障时，P＝(交换机15.3，交换机15.5)，Q＝(交换机15.4，交换机15.5)，那么O＝(交换机15.5)，路径从端口交换机15.5开始，然后返回端口交换机0.5，路径如图8中虚线且标记1-4的链路所示。

最后所应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种面向大规模计算机系统的容错路由方法，其特征在于，包括以下步骤：

第三步，结束。

2.如权利要求1所述的面向大规模计算机系统的容错路由方法，其特征在于，第一步基于上行链路进行容错路由具体包括以下步骤：

步骤1.2 P为空集，当交换机i位于最底层时，若交换机i跟服务器相连，则进行告警，然后转第二步；若交换机i跟结点相连，则隔离连接到交换机i的所有结点，然后转第二步；当交换机i不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路来避开故障交换机i，转第二步；

3.如权利要求1所述的面向大规模计算机系统的容错路由方法，其特征在于，第二步基于下行链路进行容错路由，具体步骤为：

步骤2.2 P’为空集，当交换机i位于最底层时，若交换机i跟服务器相连，则进行告警，然后转第三步；若交换机i跟结点相连，则隔离连接到交换机i的所有结点，然后转第三步；当交换机i不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路来避开故障交换机i，然后转第三步；

4.如权利要求2所述的面向大规模计算机系统的容错路由方法，其特征在于，步骤1.3中，集合P非空，结合目的端口的状态生成相应的路由表，具体方法如下：当与交换机i同级的目的交换机m的上行端口可达时，获取目的交换机m的所有可用端口集合并标记为Q，其中，i≠m；选取Q和P的交集O，即为从源交换机可到达目的交换机的端口集合；判断集合O的情况：集合O非空时，则根据集合O创建到达这个目的交换机的路由表，然后转第二步；O为空集时，当交换机i和交换机m位于最底层时，若交换机i和交换机m都跟服务器相连，则进行告警，然后转第二步；若交换机i和交换机m中一个连接到结点，而另一个连接到服务器，则隔离连接到结点的那个交换机的所有结点，然后转第二步；若交换机i和交换机m都连接到结点，则隔离连接到交换机i的所有结点，然后转第二步；当交换机i和交换机m不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路的路由来避开相应的交换机，然后转第二步。

5.如权利要求3所述的面向大规模计算机系统的容错路由方法，其特征在于，步骤2.3中结合可用端口的状态生成相应的路由表，具体方法如下：选取Q和P’的交集O’，即为从源交换机可到达目的交换机的端口集合；判断集合O’的情况：集合O’非空时，则根据集合O’创建到达这个目的交换机的路由表，转第三步；O’为空集时，当交换机i和交换机m’位于最底层时，若交换机i和交换机m’都跟服务器相连，则进行告警，转第三步；若交换机i和交换机m’中一个连接到结点，而另一个连接到服务器，则隔离连接到结点的那个交换机的所有结点，转第三步；若交换机i和交换机m’都连接到结点，则隔离连接到交换机i的所有结点，转第三步；当交换机i和交换机m’不在最底层时，则通过修改下一层与之相连的所有交换机的上行链路的路由来避开相应的交换机。

6.如权利要求1至5中任一项所述的面向大规模计算机系统的容错路由方法，其特征在于，当交换机i不在最底层时，修改下一层与之相连的所有交换机的上行链路来避开故障交换机i，具体修改方法如下：记故障交换机i的上行端口集合为M，M非空，下行端口集合为K，K非空，则与K相连的为交换机j的同一端口u，当集合M中的所有交换机都发生故障时，把与集合M相连的所有交换机j的u端口都视为故障端口，然后修改所有交换机j的路由表，避开它们的u端口；其中，j为交换机编号，j≠i，j≥0；u为交换机的端口编号，u≥0。