CN112104510A

CN112104510A - 故障处理方法、装置、系统、电子设备、计算机可读介质

Info

Publication number: CN112104510A
Application number: CN202011141945.7A
Authority: CN
Inventors: 吴桐; 刘小军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2020-12-18
Anticipated expiration: 2040-10-22
Also published as: CN112104510B

Abstract

本公开提供了一种故障处理方法，涉及通信技术、计算机技术和云计算技术领域。该方法包括：在检测到本转发设备中的任一端口发生故障的情况下，确定发生故障的端口所属的端口组；其中，端口组中的端口用于本转发设备与指定转发设备的连接，且端口组中的端口对应的链路之间为等价路径；在端口组中发生故障的端口的数量大于或等于冗余端口数量阈值的情况下，将端口组设置为阻塞状态。本公开还提供了一种故障处理装置、系统、电子设备、计算机可读介质。根据该方法，能够解决组网系统中基于等价路径原则进行报文转发的短板效应问题，实现减少端口故障带来的带宽损失的效果。

Description

故障处理方法、装置、系统、电子设备、计算机可读介质

技术领域

本公开涉及通信技术、计算机技术和云计算技术领域，特别涉及故障处理方法、装置、系统、电子设备、计算机可读介质。

背景技术

数据中心组网时通常采用多级组网，每级包含多个转发设备，每两个不同级别的转发设备之间通过多条链路互联。转发设备之间可以通过等价多路径(Equal Cost MultiPath，ECMP)的转发原则，将流量平分到多个转发设备，并通过每个转发设备的多条链路，实现负载均衡和冗余传输。但是在上述组网方案中，如果其中一条等价路径发生故障，将导致整个组网中的可用带宽急剧下降。

公开内容

本公开实施例提供一种故障处理方法、装置、系统、电子设备、计算机可读介质。

第一方面，本公开实施例提供一种故障处理方法，包括：在检测到本转发设备中的任一端口发生故障的情况下，确定发生故障的端口所属的端口组；其中，端口组中的端口用于本转发设备与指定转发设备的连接，且端口组中的端口对应的链路之间为等价路径；在端口组中发生故障的端口的数量大于或等于冗余端口数量阈值的情况下，将端口组设置为阻塞状态。

第二方面，本公开实施例提供一种故障处理装置，包括：端口组确定模块，用于在检测到本转发设备中的任一端口发生故障的情况下，确定发生故障的端口所属的端口组；其中，端口组中的端口用于本转发设备与指定转发设备的连接，且端口组中的端口对应的链路之间为等价路径；状态设置模块，用于在端口组中发生故障的端口的数量大于或等于冗余端口数量阈值的情况下，将端口组设置为阻塞状态。

第三方面，本公开实施例提供一种网络系统，包括：一个或多个核心层交换机、一个或多个汇聚层交换机、以及一个或多个接入层交换机，其中，每个汇聚层交换机与同一核心层交换机连接的不同端口被配置为一个端口组，以及，每个汇聚层交换机与同一接入层交换机连接的不同端口被配置为一个端口组；每个汇聚层交换机还用于执行上述任一种故障处理方法。

第四方面，本公开实施例提供一种电子设备，其包括：一个或多个处理器；存储器，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器上述任意一种故障处理方法；一个或多个I/O接口，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

第五方面，本公开实施例提供一种计算机可读介质，其上存储有计算机程序，程序被处理器执行时实现上述任意一种故障处理方法。

本公开实施例提供的故障处理方法、装置、系统、电子设备、计算机可读介质，本转发设备与同一指定转发设备的连接的端口被配置为一个端口组，该端口组中的每个端口所对应的链路之间为等价路径，在该端口组中发生故障的端口数量大于或等于冗余端口数量阈值的情况下，将这端口组中的所有端口设置为阻塞状态，解决组网系统中ECMP短板效应问题，实现了减少端口故障带来的带宽损失的效果。

附图说明

附图用来提供对本公开实施例的进一步理解，并且构成说明书的一部分，与本公开的实施例一起用于解释本公开，并不构成对本公开的限制。通过参考附图对详细示例实施例进行描述，以上和其它特征和优点对本领域技术人员将变得更加显而易见，在附图中：

图1为本公开实施例的组网系统结构示意图；

图2为本公开实施例提供的一种故障处理方法的流程图；

图3为本公开另一实施例的组网系统结构示意图；

图4为本公开一示例性实施例提供的端口故障处理流程图；

图5为本公开一示例性实施例提供的端口恢复处理流程图；

图6为本公开实施例提供的故障处理装置的组成框图；

图7为本公开实施例提供的网络的组成框图；

图8为本公开实施例提供的一种电子设备的组成框图；

图9为本公开实施例提供的一种计算机可读介质的组成框图。

具体实施方式

为使本领域的技术人员更好地理解本公开的技术方案，下面结合附图对本公开提供故障处理方法、装置、系统、电子设备、计算机可读介质进行详细描述。

在下文中将参考附图更充分地描述示例实施例，但是所述示例实施例可以以不同形式来体现且不应当被解释为限于本文阐述的实施例。反之，提供这些实施例的目的在于使本公开透彻和完整，并将使本领域技术人员充分理解本公开的范围。

在不冲突的情况下，本公开各实施例及实施例中的各特征可相互组合。如本文所使用的，术语“和/或”包括一个或多个相关列举条目的任何和所有组合。

本文所使用的术语仅用于描述特定实施例，且不意欲限制本公开。如本文所使用的，单数形式“一个”和“该”也意欲包括复数形式，除非上下文另外清楚指出。还将理解的是，当本说明书中使用术语“包括”和/或“由……制成”时，指定存在所述特征、整体、步骤、操作、元件和/或组件，但不排除存在或添加一个或多个其它特征、整体、步骤、操作、元件、组件和/或其群组。

除非另外限定，否则本文所用的所有术语(包括技术和科学术语)的含义与本领域普通技术人员通常理解的含义相同。还将理解，诸如那些在常用字典中限定的那些术语应当被解释为具有与其在相关技术以及本公开的背景下的含义一致的含义，且将不解释为具有理想化或过度形式上的含义，除非本文明确如此限定。

图1为本公开实施例的组网系统结构示意图。在图1所示的组网系统中，数据中心的组网系统包括一个或多个第一级转发设备、一个或多个第二级转发设备、以及一个或多个第三级转发设备。

在本公开实施例中，该组网系统中的转发设备可以是交换机(Switch)、路由器(Router)等网络转发设备。

为了简化描述起见，本文下述的多个实施例以Switch为例来阐述组网系统结构和具体工作方式。但该描述并不能被解读为限制本方案的范围或实施可能性，交换机以外的其他网络转发设备的处理方法与对交换机的处理方法保持一致。

在图1中，组网系统中的一个或多个第一级(Layer1)Switch，例如Layer1Switch1、Layer1 Switch2、……、Layer1 SwitchN；一个或多个第二级(Layer2)Switch，例如Layer2 Switch1、Layer2 Switch2、……、Layer2SwitchX；以及，一个或多个第三级(Layer3)Switch，例如Layer3 Switch1、Layer3 Switch2、……、Layer3 SwitchY。其中，N、X、Y均为大于或等于1的整数，N、X、Y的具体数值可以根据实际组网需求进行设定，本公开实施例不做具体限定。

如图1所示，每个Layer2 Switch与一个Layer3 Switch之间存在多条链路，以及每个Layer2 Switch与一个Layer1 Switch之间存在多条链路。每个Layer2 Switch与一个Layer3 Switch之间的链路条数，以及每个Layer2Switch与一个Layer1 Switch之间的链路条数可以根据实际组网需求进行设定，本公开实施例不做具体限定。

示例性地，每个Layer2 Switch与同一个Layer3 Switch之间，以及每个Layer2Switch与同一个Layer1 Switch之间均可以存在3条链路；或者，每个Layer2 Switch与同一个Layer3 Switch之间，以及每个Layer2 Switch与同一个Layer1 Switch之间均可以存在5条链路；或者，每个Layer2Switch与同一个Layer3 Switch之间可以存在5条链路，每个Layer2 Switch与同一个Layer1 Switch之间可以存在4条链路等。

为了简化描述起见，本文下述的多个实施例以Layer2 Switch的数量为16，每个Layer2 Switch与一个Layer3 Switch之间存在3条链路，以及，每个Layer2 Switch与一个Layer1 Switch之间存在3条链路为例，描述本公开实施例的组网系统结构和具体工作方式。

在实际应用场景中，Layer2 Switch的数量、每个Layer2 Switch与一个Layer3Switch之间的链路条数，以及，每个Layer2 Switch与一个Layer1 Switch之间的链路条数可以根据实际需要进行设定，本公开实施例不做具体限定。

如图1所示，Layer3 Switch在访问Layer1 Switch时，存在48条路径，平均分布在16个Layer2 Switch。根据ECMP转发原则，流量将平分成48份，每条链路一份，每个Layer2Switch承担3份。若Layer2 Switch1与Layer1 Switch1的互联链路故障一条，Layer2Switch1只能向Layer1 Swith1发送2份流量，丢弃1份，Layer3 Switch与Layer1 Switch通信将出现大量丢包。

为避免丢包，Layer3 Switch只能发出32份流量，每个Layer2 Switch承担2份。也就是说，当Layer2 Switch1与Layer1 Switch1之间故障1条链路，需要每个Layer2 Switch与一个Layer1 Switch之间的链路均减少一条，造成Layer3 Switch发出的流量从48份变成32份，损失1/3的带宽。

造成这一现象的根本原因就是ECMP短板效应，Layer2 Swich1与Layer1 Switch1的互联链路从3条变成2条，成为短板，因此导致每个Layer2 Switch与Layer1 Swich1互联链路虽为3条，却只能转发2份流量，造成可用带宽急剧下降。

在本公开的一些实施例中，Layer3 Switch为核心层交换设备，核心层位于网络主干部分，被布置在网络主干部分的交换设备即核心层交换设备；Layer2 Switch为汇聚层交换设备，汇聚层也被称为分布层，汇聚层交换设备用于连接核心层交换设备和接入层交换设备；Layer1 Switch为接入层交换设备，接入层位于网络中直接面向用户连接或访问网络的部分。

在一些实施例中，核心层交换设备为网络三层交换设备，汇聚层交换设备通常是三层交换设备，接入层交换设备可以是二层交换设备。在一些实施例中，汇聚层交换设备也可以是二层交换设备。

基于此，本公开实施例提供一种故障处理方法、装置、系统、电子设备、计算机可读介质，能够解决上述ECMP短板效应问题，减少带宽损失。

第一方面，本公开实施例提供一种故障处理方法，该方法可以应用于数据中心组网的每个汇聚层交换设备。图2为本公开实施例的故障处理方法的流程图。

参照图2，本公开实施例提供的故障处理方法可以包括如下步骤。

S110，在检测到本转发设备中的任一端口发生故障的情况下，确定发生故障的端口所属的端口组；其中，端口组中的端口用于本转发设备与指定转发设备的连接，且端口组中的端口对应的链路之间为等价路径。

S120，在端口组中发生故障的端口的数量大于或等于冗余端口数量阈值的情况下，将端口组设置为阻塞状态。

根据本公开实施例的故障处理方法，本转发设备与同一指定转发设备的连接的端口被配置为一个端口组，该端口组中的每个端口所对应的链路之间为等价路径，在该端口组中发生故障的端口数量大于或等于冗余端口数量阈值的情况下，将这端口组中的所有端口设置为阻塞状态。

图3示出本公开另一实施例的组网系统结构示意图。图3与图1中相同或等同的组件使用相同的标号。

在图3中，示意地将Layer2 Switch1与一个Layer1 Switch连接的不同三层端口配置为端口组Group1，当Layer2 Switch1为三层交换机时，该端口组也可以记为L3 Group1；以及，示意地示出Layer2 Switch2与一个Layer1 Switch连接的不同三层端口配置为端口组L3 Group2，Layer2 Switch16与一个Layer1 Switch连接的不同三层端口配置为端口组L3 Group3。

在本公开实施例中，三层端口可以用于表示，根据网络层协议进行报文转发的端口。

如图3所示，在本公开实施例中，当Layer2 Switch1与Layer1 Switch1互联链路故障1条时，则将这两个Switch之间互联的3条链路全部Down掉。这样操作之后，Layer3Switch不再将流量发送到Layer2 Switch1，Layer3 Switch仍可发送45份流量到Layer2Switch2～Layer2 Switch16，损失带宽仅为1/16，相比ECMP短板效应，故障带宽损失可减少13/16(81.25％)。

在本公开实施例中，端口组包括转发状态和阻塞状态。其中，端口组的阻塞状态，即端口组中的每个端口的阻塞状态，可以用于表示端口组中的每个端口被配置为不允许参与指定报文的转发；端口组的转发状态，可以用于表示端口组中的每个端口被配置为允许参与指定报文的转发。

在一些实施例中，本转发设备为汇聚层交换设备指定转发设备为核心层交换设备或接入层交换设备。

将汇聚交换机和同一台核心交换机的连接的不同三层端口配置成一个组，将N个三层端口划分到一个端口组中。若这个端口组中有M个三层端口因故障宕机(down)，则将这个端口组中所有三层端口设置为阻塞状态。

在一些实施例中，S120中的将端口组设置为阻塞状态的步骤，具体可以包括如下步骤。

S11，将端口组中的每个端口设置为阻塞状态，阻塞状态用于阻塞每个端口转发指定的路由协议报文，以及允许每个端口参与其他报文的转发，其他报文为路由协议报文以外的报文。

在该实施例中，故障端口所属的端口组被设置为阻塞状态时，由于只是阻塞路由协议报文，其他协议报文还是允许通过，因此阻塞状态的端口组中的每个端口依旧可以转发诊断链路状态的相关报文。例如，使用发送回显信息(ping)、访问控制列表(AccessControl List，ACL)流量统计等网络管理工具时相关报文，为故障端口的修复工作带来极大便利。

在一些实施例中，在确定发生故障的端口所属的端口组的情况下，本公开实施例的故障处理方法还包括如下步骤。

S21，在端口组为阻塞状态的情况下，保持端口组的阻塞状态。

在该实施例中，若发生故障的端口所属的端口组已经是阻塞状态，当该端口组中又故障一个端口时，保持该端口组的阻塞状态。

S22，在端口组为转发状态，且端口组中发生故障的端口数量小于冗余端口数量阈值的情况下，保持端口组的转发状态。

在该实施例中，每个端口组具有带宽冗余设置，当端口组中的故障端口数小于M个时，端口组带宽仍符合基于ECMP转发原则进行报文转发的带宽需求，其中，M为大于或等于1的整数。

作为示例，为满足报文转发的带宽需求，每个Layer2 Switch与一个Layer1Switch之间至少需要配置例如5条链路，基于带宽冗余设置，可以预先为每个Layer2Switch与一个Layer1 Switch之间配置例如7条链路，此时冗余端口数量阈值M等于2。在该带宽冗余设置下，当一个Layer2Switch与一个Layer1 Switch之间的故障端口的数量为1，即一个Layer2Switch与一个Layer1 Switch之间的互联链路故障为1时，即使整个组网系统损失1/3的带宽，Layer2 Switch与Layer1 Switch之间的报文转发仍符合基于ECMP转发原则的报文转发带宽需求。从而，通过该带宽冗余设置增加组网系统的健壮性。

在一些实施例中，在发生故障的端口不属于转发设备中的任一端口组的情况下，不进行故障处理。

在该实施例中，若发生故障的端口不属于转发设备中的任一端口组，表示该端口用于单链路数据传输，即无需通过等价过路径的数据传输，因此该端口的故障状态，不会造成等价多路径的端口损失，可以不进行本公开实施例中的故障处理，提高故障处理效率。

在一些实施例中，在将端口组设置为阻塞状态之后，本公开实施例中的故障处理方法还可以包括如下步骤。

S31，在检测到发生故障的端口恢复为可用状态，且端口组中可用状态的端口的数量大于或等于第一阈值的情况下，将端口组设置为转发状态；其中，第一阈值为端口组中端口总数与冗余端口数量阈值的差值。

在该实施例中，若检测到端口组中可用状态的端口的数量大于或等于第一阈值，则可以将端口组设置为转发状态。

在一些实施例中，在步骤S31中，在将端口组设置为转发状态之前，本公开实施例中的故障处理方法还可以包括：在检测到发生故障的所述端口恢复为可用状态，且所述端口组中可用状态的端口的数量大于或等于第一阈值的情况下，确定恢复为可用状态的端口当前为非抑制状态。

在本公开实施例中，若端口为可用状态且为非抑制状态，则该端口可以用于进行报文转发，若端口为抑制状态，则该端口的报文转发功能被抑制，即被禁止用于进行报文转发。

在该实施例中，若检测到端口组中可用且非抑制状态的端口的数量大于或等于第一阈值的情况下，则可以将端口组设置为转发状态，以避免端口组恢复为转发状态后的频繁抖动，增强系统稳定性。

在一些实施例中，在检测到发生故障的端口恢复可用的情况下，本公开实施例中的故障处理方法还可以包括如下步骤。

S41，在端口组为转发状态的情况下，保持端口组的转发状态。

在该步骤中，若检测到发生故障的端口恢复可用，且该端口所属的端口组当前为转发状态，表示在端口组的带宽冗余设置下，该端口故障时未影响端口组的转发状态，则其重新恢复可用时，继续保持端口组的当前转发状态，从而在带宽冗余设置下保证系统的稳定性。

S42，在发生故障的端口当前为抑制状态的情况下，保持端口组的当前状态。

在该步骤中，端口组的当前状态可以是转发状态或阻塞状态。若该端口所属的端口组当前为阻塞状态，该端口重新恢复可用但抖动频繁，则保持端口组的阻塞状态；若该端口所属的端口组当前为转发状态，该端口重新恢复可用但抖动频繁，也保持端口组的转发状态。

在一些实施例中，在恢复可用状态的端口不属于转发设备中的任一端口组的情况下，不进行本公开实施例的故障处理。

在该实施例中，若恢复可用状态的端口不属于转发设备中的任一端口组的情况下，表示该端口用于单链路数据传输，即无需通过等价过路径的数据传输，因此该端口恢复可用后，也不会造成等价多路径的端口损失，可以不进行本公开实施例中的故障处理，提高故障处理效率。

在一些实施例中，本公开实施例中的故障处理方法还可以包括如下步骤。

S51，在检测到端口组中的任一端口的状态发生变化的情况下，增加状态发生变化的端口对应的抖动惩罚值，其中，状态发生变化包括发生故障或恢复可用状态；S52，在抖动惩罚值达到预设的端口抖动抑制阈值的情况下，将状态发生变化的端口设置为抑制状态。

在该实施例中，端口抖动惩罚初始值，以及每次增加的抖动惩罚值，可以根据实际需要进行设定，本公开实施例不做具体限定。示例性地，端口抖动惩罚初始值可以设置为0，每当端口状态发生一次变化，则抖动惩罚值加1；当端口抖动惩罚值超过抖动抑制阈值(Suppress Threshold)后，将该端口设置为抑制状态设置。例如，可以在计算三层端口组的状态时，该端口按照Down状态进行计算，以减少端口抖动对组网系统转发过程的影响。

S61，在端口组中的任一端口保持当前状态的情况下，每经过预设的端口抖动惩罚值衰减周期，减少保持当前状态的端口对应的抖动惩罚值，其中，保持当前端口状态包括保持故障状态或保持可用状态；S62，在抖动惩罚值小于预设的端口抖动解除阈值的情况下，将保持当前状态的端口设置为当前实际端口状态。

在该实施例中，每次减少的抖动惩罚值，可以根据实际需要进行设定，本公开实施例不做具体限定。示例性地，每经过端口抖动惩罚值衰减周期(Half-Time)，端口的抖动惩罚值减1；当端口抖动惩罚值低于端口抖动解除阈值(Reusing Threshold)之后，则在计算三层端口组的状态时，该端口按照实际状态进行计算。从而，通过设置端口状态抖动惩罚机制，防止端口状态频繁变化，造成路由协议振荡，维持组网系统的稳定性。

图4示出本公开一示例性实施例提供的端口故障处理流程图。如图4所示，该端口故障处理流程可以包括如下步骤。

S401，确定组网系统中是否存在三层端口，若不存在，则结束流程，若存在，则执行步骤S402。

S402，判断本转发设备的三层端口是否发生故障，若未发生故障，则结束流程，若发生故障，则执行步骤S403。

S403，判断发生故障的三层端口是否隶属于本转发设备的三层端口组，若否，则结束流程；若是，则执行步骤S404。

S404，判断该三层端口组是否处于阻塞状态，若是，则结束流程；若否，则执行步骤S405；

S405，判断该三层端口组中存活的三层端口数是否小于故障端口阈值M，若否，则结束流程，若是，则执行步骤S406；

S406，阻塞该端口组中的所有三层端口。

通过上述步骤S401-S406，本转发设备检测到端口发生故障时，查找使用该端口所属的端口组，在该三层端口所属的端口组中存活的(未发生故障的)三层端口数大于或等于M(M为大于或等于1的整数)时，将端口组设置为阻塞状态，以用于阻塞该端口组中的所有三层端口，解决组网系统中ECMP短板效应问题，减少带宽损失。

图5示出本公开一示例性实施例提供的端口恢复处理流程图。如图5所示，该端口故障处理流程可以包括如下步骤。

S501，确定组网系统中是否存在三层端口，若不存在，则结束流程，若存在，则执行步骤S502。

S502，判断本转发设备的三层端口的故障是否已经修复，若未修复，则结束流程，若修复后恢复可用状态，则执行步骤S503。

S503，判断发生故障的三层端口是否隶属于本转发设备的三层端口组，若否，则结束流程；若是，则执行步骤S504。

S504，判断该三层端口组是否处于阻塞状态，若是，则结束流程；若否，则执行步骤S505。

S505，判断该三层端口是否处于抑制状态，若是，则结束流程；若否，则执行步骤S506。

S506，判断该三层端口组中存活的三层端口数是否大于或等于第一阈值，若否，则结束流程，若是，则执行步骤S507；

该步骤中，第一阈值为三层端口组中的端口总数与故障端口阈值M的差值。

S507，放行该端口组中的所有三层端口。

通过上述步骤S501-S507，本转发设备检测到端口恢复可用时，查找使用该端口所属的端口组，在该三层端口所属的端口组中存活且非抑制状态的三层端口数大于第一阈值时，将端口组设置为转发状态，以放行该端口组中的所有三层端口。从而采用自动处理流流程对端口重新恢复情况进行处理，减少端口抖动和组网设备的稳定运行。

根据本公开实施例的故障处理方法，在减少端口故障情况下的带宽损失的同时，可以采用软件处理流流程，对端口故障、端口重新恢复，以及端口抖动情况分别进行处理，时效性高，由于处理过程在每台转发设备上运行，而不依赖于组网系统中的控制器的网络拓扑感知以及网络进行通信，因此操作准确率和时效性均较高。

并且，在本公开实施例的故障处理过程中，由于只是阻塞路由协议，二层聚合口中的成员口链路故障时，依旧可以通过流量统计等工具诊断链路状态，为修复工作带来极大便利，提高端口修复效率。

第二方面，本公开实施例提供一种故障处理装置。图6为本公开实施例提供的故障处理装置的组成框图。参照图6，该故障处理装置可以包括如下模块。

端口组确定模块610，用于在检测到本转发设备中的任一端口发生故障的情况下，确定发生故障的端口所属的端口组；其中，端口组中的端口用于本转发设备与指定转发设备的连接，且端口组中的端口对应的链路之间为等价路径。

状态设置模块620，用于在端口组中发生故障的端口的数量大于或等于冗余端口数量阈值的情况下，将端口组设置为阻塞状态。

根据本公开实施例的故障处理装置，本转发设备与同一指定转发设备的连接的端口被配置为一个端口组，该端口组中的每个端口所对应的链路之间为等价路径，在该端口组中发生故障的端口数量大于或等于冗余端口数量阈值的情况下，将这端口组中的所有端口设置为阻塞状态。

在一些实施例中，端口组包括转发状态和阻塞状态；状态设置模块620，在确定发生故障的端口所属的端口组的情况下，还用于：在端口组为阻塞状态的情况下，保持端口组的阻塞状态；在端口组为转发状态，且端口组中发生故障的端口数量小于冗余端口数量阈值的情况下，保持端口组的转发状态。

在一些实施例中，状态设置模块620，在将端口组设置为阻塞状态之后，还用于：在检测到发生故障的端口恢复为可用状态，且端口组中可用状态的端口的数量大于或等于第一阈值的情况下，将端口组设置为转发状态；其中，第一阈值为端口组中端口总数与冗余端口数量阈值的差值。

在一些实施例中，状态设置模块620，在将端口组设置为转发状态之前，还用于：在检测到发生故障的所述端口恢复为可用状态，且所述端口组中可用状态的端口的数量大于或等于第一阈值的情况下，确定恢复为可用状态的端口当前为非抑制状态。

在一些实施例中，状态设置模块620，在检测到发生故障的端口恢复为可用状态的情况下，还用于：在端口组当前为转发状态的情况下，保持端口组的转发状态；在发生故障的端口当前为抑制状态的情况下，保持端口组的当前状态。

在一些实施例中，故障处理装置还包括：抖动惩罚值增加模块，用于在检测到端口组中的任一端口的状态发生变化的情况下，增加状态发生变化的端口对应的抖动惩罚值，其中，状态发生变化包括发生故障或恢复可用状态；状态设置模块620，还用于在抖动惩罚值达到预设的端口抖动抑制阈值的情况下，将状态发生变化的端口设置为抑制状态。

在一些实施例中，故障处理装置还包括：抖动惩罚值减少模块，用于在端口组中的任一端口保持当前状态的情况下，每经过预设的端口抖动惩罚值衰减周期，减少保持当前状态的端口对应的抖动惩罚值，其中，保持当前端口状态包括保持故障状态或保持可用状态；状态设置模块620，还用于在抖动惩罚值小于预设的端口抖动解除阈值的情况下，将保持当前状态的端口设置为当前实际端口状态。

在一些实施例中，状态设置模块620，在用于将端口组设置为阻塞状态时，具体用于将端口组中的每个端口设置为阻塞状态，阻塞状态用于阻塞每个端口转发指定的路由协议报文，以及允许每个端口参与其他报文的转发，其他报文为路由协议报文以外的报文。

在一些实施例中，本转发设备为汇聚层转发设备，指定转发设备为核心层转发设备或接入层转发设备。

根据本公开实施例的故障处理装置，可以采用软件处理流流程，对端口故障、端口重新恢复，以及端口抖动情况分别进行处理，时效性高，由于处理过程在每台转发设备上运行，而不依赖于组网系统中的控制器的网络拓扑感知以及网络进行通信，提高操作准确率和时效性，保障转发设备在组网系统中的稳定运行，减少端口发生故障时的带宽损失。

第三方面，本公开实施例提供一种网络系统。图7为本公开实施例提供的网络的组成框图。参照图7，该网络系统可以包括：一个或多个核心层交换机710、一个或多个汇聚层交换机720、以及一个或多个接入层交换机730。

在一个实施例中，每个汇聚层交换机720与同一核心层交换机710连接的不同端口被配置为一个端口组，并执行本公开实施例中的故障处理方法；每个汇聚层交换机720与同一接入层交换机730连接的不同端口被配置为一个端口组，并执行本公开实施例中的故障处理方法。

需要明确的是，本公开并不局限于上文实施例中所描述并在图中示出的特定配置和处理。为了描述的方便和简洁，这里省略了对已知方法的详细描述，并且上述描述的系统、模块和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

第四方面，本公开实施例提供一种电子设备。图8示出本公开实施例提供的一种电子设备的组成框图。

参照图8，该电子设备包括：一个或多个处理器801；存储器802，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述任意一项的故障处理方法；一个或多个I/O接口803，连接在处理器与存储器之间，配置为实现处理器与存储器的信息交互。

其中，处理器801为具有数据处理能力的器件，其包括但不限于中央处理器(CPU)等；存储器802为具有数据存储能力的器件，其包括但不限于随机存取存储器(RAM，更具体如SDRAM、DDR等)、只读存储器(ROM)、带电可擦可编程只读存储器(EEPROM)、闪存(FLASH)；I/O接口(读写接口)803连接在处理器801与存储器802间，能实现处理器801与存储器802的信息交互，其包括但不限于数据总线(Bus)等。

在一些实施例中，处理器801、存储器802和I/O接口803通过总线相互连接，进而与计算设备的其它组件连接。

第五方面，本公开实施例提供一种计算机可读介质。图9示出本公开实施例提供的一种计算机可读介质的组成框图。

参照图9，该计算机可读介质上存储有计算机程序，程序被处理器执行时实现上述任意一种故障处理方法。

在本公开实施例中，计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决传统物理主机与虚拟专用服务器(Virtual Private Server，VPS)服务中存在的管理难度大，业务扩展性弱的缺陷。

本公开实施例中的处理过程可以通过云计算来实现。云计算(Cloud Computing)，指的是通过网络接入弹性可扩展的共享物理或虚拟资源池，资源可以包括服务器、操作系统、网络、软件、应用和存储设备等，并可以以按需、自服务的方式对资源进行部署和管理的技术体系。通过云计算技术，可以为人工智能、区块链等技术应用、模型训练提供高效强大的数据处理能力。

本领域普通技术人员可以理解，上文中所公开方法中的全部或某些步骤、系统、装置中的功能模块/单元可以被实施为软件、固件、硬件及其适当的组合。在硬件实施方式中，在以上描述中提及的功能模块/单元之间的划分不一定对应于物理组件的划分；例如，一个物理组件可以具有多个功能，或者一个功能或步骤可以由若干物理组件合作执行。某些物理组件或所有物理组件可以被实施为由处理器，如中央处理器、数字信号处理器或微处理器执行的软件，或者被实施为硬件，或者被实施为集成电路，如专用集成电路。这样的软件可以分布在计算机可读介质上，计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的，术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其它数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其它的介质。此外，本领域普通技术人员公知的是，通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其它传输机制之类的调制数据信号中的其它数据，并且可包括任何信息递送介质。

本文已经公开了示例实施例，并且虽然采用了具体术语，但它们仅用于并仅应当被解释为一般说明性含义，并且不用于限制的目的。在一些实例中，对本领域技术人员显而易见的是，除非另外明确指出，否则可单独使用与特定实施例相结合描述的特征、特性和/或元素，或可与其它实施例相结合描述的特征、特性和/或元件组合使用。因此，本领域技术人员将理解，在不脱离由所附的权利要求阐明的本公开的范围的情况下，可进行各种形式和细节上的改变。

Claims

1.一种故障处理方法，包括：

在检测到本转发设备中的任一端口发生故障的情况下，确定发生故障的所述端口所属的端口组；其中，所述端口组中的端口用于本转发设备与指定转发设备的连接，且所述端口组中的端口对应的链路之间为等价路径；

在所述端口组中发生故障的端口的数量大于或等于冗余端口数量阈值的情况下，将所述端口组设置为阻塞状态。

2.根据权利要求1所述的方法，其中，所述端口组包括转发状态和阻塞状态；在确定发生故障的所述端口所属的端口组的情况下，所述方法还包括：

在所述端口组为阻塞状态的情况下，保持所述端口组的阻塞状态；

在所述端口组为转发状态，且所述端口组中发生故障的端口数量小于所述冗余端口数量阈值的情况下，保持所述端口组的转发状态。

3.根据权利要求1所述的方法，其中，在将所述端口组设置为阻塞状态之后，所述方法还包括：

在检测到发生故障的所述端口恢复为可用状态，且所述端口组中可用状态的端口的数量大于或等于第一阈值的情况下，将所述端口组设置为转发状态；其中，所述第一阈值为所述端口组中端口总数与所述冗余端口数量阈值的差值。

4.根据权利要求3所述的方法，其中，在将所述端口组设置为转发状态之前，所述方法还包括：

在检测到发生故障的所述端口恢复为可用状态，且所述端口组中可用状态的端口的数量大于或等于第一阈值的情况下，确定恢复为可用状态的所述端口当前为非抑制状态。

5.根据权利要求3所述的方法，其中，所述端口组包括转发状态和阻塞状态；在检测到发生故障的所述端口恢复为可用状态的情况下，所述方法还包括：

在所述端口组当前为转发状态的情况下，保持所述端口组的转发状态；

在发生故障的所述端口当前为抑制状态的情况下，保持所述端口组的当前状态。

6.根据权利要求1-5中任一项所述的方法，其中，所述方法还包括：

在检测到所述端口组中的任一端口的状态发生变化的情况下，增加状态发生变化的所述端口对应的抖动惩罚值，其中，所述状态发生变化包括发生故障或恢复可用状态；

在所述抖动惩罚值达到预设的端口抖动抑制阈值的情况下，将状态发生变化的所述端口设置为抑制状态。

7.根据权利要求1-5中任一项所述的方法，其中，所述方法还包括：

在所述端口组中的任一端口保持当前状态的情况下，每经过预设的端口抖动惩罚值衰减周期，减少保持当前状态的所述端口对应的抖动惩罚值，其中，所述保持当前端口状态包括保持故障状态或保持可用状态；

在所述抖动惩罚值小于预设的端口抖动解除阈值的情况下，将保持当前状态的所述端口设置为当前实际端口状态。

8.根据权利要求1-5中任一项所述的方法，其中，所述将所述端口组设置为阻塞状态，包括：

将所述端口组中的每个端口设置为阻塞状态，其中，所述阻塞状态用于阻塞所述每个端口转发指定的路由协议报文，以及，用于允许所述每个端口参与其他报文的转发，所述其他报文为所述路由协议报文以外的报文。

9.根据权利要求要求1-5中任一项所述的方法，其中，

本转发设备为汇聚层转发设备，指定转发设备为核心层转发设备或接入层转发设备。

10.一种故障处理装置，包括：

端口组确定模块，用于在检测到本转发设备中的任一端口发生故障的情况下，确定发生故障的所述端口所属的端口组；其中，所述端口组中的端口用于本转发设备与指定转发设备的连接，且所述端口组中的端口对应的链路之间为等价路径；

状态设置模块，用于在所述端口组中发生故障的端口的数量大于或等于冗余端口数量阈值的情况下，将所述端口组设置为阻塞状态。

11.一种网络系统，包括：一个或多个核心层交换机、一个或多个汇聚层交换机、以及一个或多个接入层交换机，其中，

每个汇聚层交换机与同一核心层交换机连接的不同端口被配置为一个端口组，以及，所述每个汇聚层交换机与同一接入层交换机连接的不同端口被配置为一个端口组；

所述每个汇聚层交换机还用于执行权利要求1-9中任意一项所述的故障处理方法。

12.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现根据权利要求1-9中任意一项所述的故障处理方法；

一个或多个I/O接口，连接在所述处理器与存储器之间，配置为实现所述处理器与存储器的信息交互。

13.一种计算机可读介质，其上存储有计算机程序，所述程序被处理器执行时实现根据权利要求1-9中任意一项所述的故障处理方法。