CN115514623A

CN115514623A - 故障处理方法、堆叠设备及存储介质

Info

Publication number: CN115514623A
Application number: CN202110686363.5A
Authority: CN
Inventors: 林宁
Original assignee: ZTE Corp
Current assignee: ZTE Corp
Priority date: 2021-06-21
Filing date: 2021-06-21
Publication date: 2022-12-23
Also published as: WO2022267938A1

Abstract

本发明实施例涉及通信领域，公开了一种故障处理方法、堆叠设备及存储介质。本申请的部分实施例中年，故障处理方法应用于堆叠设备，包括：若确定堆叠端口出现故障，将堆叠端口的生成树状态设置为阻塞状态；若确定堆叠端口恢复正常，将堆叠端口的生成树状态设置为转发状态。本申请实施例提供的技术方案可以降低了堆叠系统出现单纤运行的危险状态的概率。

Description

故障处理方法、堆叠设备及存储介质

技术领域

本发明实施例涉及通信领域，特别涉及一种故障处理方法、堆叠设备及存储介质。

背景技术

一般情况下，交换机堆叠系统的堆叠端口是交换机堆叠系统内的堆叠设备之间的桥梁。堆叠系统选择的堆叠端口，一般要求具备较高的可靠性。若堆叠系统的堆叠端口出现故障，整个堆叠系统跨设备的流量将会出现比较严重的影响，从而影响网络的可靠性和稳定性。为了保证堆叠端口的可靠性，一般情况下，会将多个堆叠端口捆绑成一个聚合组。若某个堆叠端口出现故障，其他堆叠端口还可以维持堆叠系统的正常运转。

目前，堆叠系统的堆叠端口的故障防护方法是：

1、使用动态链路捆绑的链路聚合控制协议(Link Aggregation ControlProtocol，LACP)进行处理，在感知堆叠端口出现故障的时刻，通过运算LACP协议将其隔离。

2、使用静态链路捆绑，在感知堆叠端口出现故障的时候，直接通过底层芯片处理，将堆叠口移除。

由此可见，目前的技术中，为了保证堆叠系统的稳定性，可以采用动态和静态两种方式对故障堆叠口进行隔离和移除。然而，无论采用动态链路捆绑或静态链路捆绑的方式，堆叠端口一旦被移除，则再无恢复的可能性，导致堆叠系统可能出现单纤运行的危险状态。

发明内容

本发明实施方式的目的在于提供一种故障处理方法、堆叠设备及存储介质，可以降低了堆叠系统出现单纤运行的危险状态的概率。

为解决上述技术问题，第一方面，本发明实施例提供了一种故障处理方法，应用于堆叠设备，包括：若确定堆叠端口出现故障，将堆叠端口的生成树状态设置为阻塞状态；判断堆叠端口是否恢复正常；将堆叠端口的生成树状态设置为转发状态。

第二方面，本发明实施例提供了一种堆叠设备，包括：第一判断模块、第二判断模块和处理模块；第一判断模块用于判断堆叠端口是否出现故障；处理模块用于若确定堆叠端口出现故障，将堆叠端口的生成树状态设置为阻塞状态；第二判断模块用于判断堆叠端口是否恢复正常；处理模块还用于若确定堆叠端口恢复正常，将堆叠端口的生成树状态设置为转发状态。

第三方面，本发明实施例提供了一种堆叠设备，包括：至少一个处理器；以及，与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述实施方式提及的故障处理方法。

第四方面，本发明实施例提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时，实现上述实施方式提及的故障处理方法。

本发明实施例提供的故障处理方法、堆叠设备及存储介质，堆叠设备在堆叠端口出现故障的情况下，将该堆叠端口的生成树状态设置为阻塞(block)状态。堆叠端口的生成树状态为阻塞状态时，并未将该堆叠端口从链路捆绑中移除，但该堆叠端口不再转发业务转发报文。堆叠系统将自动选择其他生成树状态为转发状态的堆叠端口。由于出现故障的堆叠端口并未从链路捆绑中移除，在出现故障的堆叠端口恢复正常后，将该堆叠端口的生成树状态设置为转发(forward)状态，即可使得该堆叠端口开始转发业务转发报文，恢复该堆叠端口所在的堆叠链路的正常通信。相对于在堆叠端口出现故障后直接移除该堆叠端口，在出现故障的堆叠端口恢复正常后将出现故障的堆叠端口恢复转发状态，继续转发业务转发报文，降低了堆叠系统出现单纤运行的危险状态的概率。

部分实施例中，在所述若确定堆叠端口出现故障，将所述堆叠端口的生成树状态设置为阻塞状态之前，还包括：判断堆叠端口是否接收到对端设备发送的心跳报文或响应报文；若确定未接收到心跳报文或响应报文，确定堆叠端口出现故障。

部分实施例中，在确定未接收到心跳报文或响应报文之后，在确定堆叠端口出现故障之前，故障处理方法还包括：确定未接收到心跳报文或响应报文的时长大于预设时长。

部分实施例中，在所述若确定所述堆叠端口恢复正常，将所述堆叠端口的生成树状态设置为转发状态之前，还包括：判断堆叠端口是否接收到对端设备发送的心跳报文或响应报文；若确定接收到心跳报文或响应报文，确定堆叠端口恢复正常。

部分实施例中，在确定接收到心跳报文或响应报文之后，在确定堆叠端口恢复正常之前，故障处理方法还包括：确定连续接收到心跳报文或响应报文的次数大于预设次数。

部分实施例中，心跳报文携带有对端设备的认证信息，或者，响应报文携带有堆叠设备发送的心跳报文中的认证信息。

部分实施例中，认证信息包括序列号和/或时间戳。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是本申请实施例中的故障处理方法的流程图；

图2是本申请实施例中的另一故障处理方法的示意图；

图3是本申请实施例中的又一故障处理方法的示意图；

图4是本申请实施例中堆叠系统的堆叠端口均正常通信时堆叠系统的结构示意图；

图5是本申请实施例中端口A2和端口B2之间出现通信异常状态时堆叠系统的结构示意图；

图6是本申请实施例中的堆叠设备的结构示意图；

图7是本申请实施例中的堆叠设备的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本发明各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本发明的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

在本发明公开的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明公开的描述中，除非另有说明，“多个”的含义是两个或两个以上。

本申请实施例中，如图1所示的故障处理方法，由堆叠系统中的堆叠设备执行，如交换机，包括如下步骤。

步骤101：若确定堆叠端口出现故障，将堆叠端口的生成树状态设置为阻塞状态。

步骤102：若确定堆叠端口恢复正常，将堆叠端口的生成树状态设置为转发状态。

本申请实施例中，堆叠设备在堆叠端口出现故障的情况下，将该堆叠端口的生成树状态设置为阻塞(block)状态。堆叠端口的生成树状态为阻塞状态时，并未将该堆叠端口从链路捆绑中移除，但该堆叠端口不再转发业务转发报文。堆叠系统将自动选择其他生成树状态为转发状态的堆叠端口。由于出现故障的堆叠端口并未从链路捆绑中移除，在出现故障的堆叠端口恢复正常后，将该堆叠端口的生成树状态设置为转发(forward)状态，即可使得该堆叠端口开始转发业务转发报文，恢复该堆叠端口所在的堆叠链路的正常通信。相对于在堆叠端口出现故障后直接移除该堆叠端口，在出现故障的堆叠端口恢复正常后将出现故障的堆叠端口恢复转发状态，继续转发业务转发报文，降低了堆叠系统出现单纤运行的危险状态的概率。

在一个实施例中，在所述若确定堆叠端口出现故障，将所述堆叠端口的生成树状态设置为阻塞状态之前，还包括：判断堆叠端口是否接收到对端设备发送的心跳报文或响应报文；若确定未接收到心跳报文或响应报文，确定堆叠端口出现故障。

具体地，堆叠设备和对端设备之间通过心跳报文交互的方式检测故障。堆叠设备和对端设备中的一方(以下称为发送方)向另一方(以下称为接收方)发送心跳报文，若两者间通信正常，接收方在接收到心跳报文后，发送响应报文给发送方。接收方接收到心跳报文，确定接收方的堆叠端口正常。发送方接收到响应报文，确定接收方的堆叠端口正常。若两者间通信异常，接收方无法接收到心跳报文，也无法发送响应报文给发送方。接收方未接收到心跳报文，确定接收方的堆叠端口出现故障。发送方未接收到响应报文，确定发送方的堆叠端口出现故障。

通过上述内容可知，若堆叠设备为发送方，对端设备为接收方，判断堆叠端口是否出现故障，包括：判断堆叠端口是否接收到对端设备发送的响应报文；若确定未接收到响应报文，确定堆叠端口出现故障。若堆叠设备为接收方，对端设备为发送方，判断堆叠端口是否出现故障，包括：判断堆叠端口是否接收到对端设备发送的心跳报文；若确定未接收到心跳报文，确定堆叠端口出现故障。

值得一提的是，通过心跳报文判断堆叠端口是否出现故障，使得堆叠系统的任意一侧的堆叠端口出现故障时，出现故障的堆叠端口和堆叠系统另一侧的与出现故障的堆叠端口对应的堆叠端口都可以被发现，并及时将其生成树状态设置为block状态。由于堆叠系统两侧的出现故障的堆叠端口的生成树状态均被设置为block状态，使得堆叠系统在发送业务转发报文时，可以绕开出现故障的堆叠端口，避免只移除一侧的堆叠端口导致大量丢包的情况。此外，由于堆叠设备和对端设备之间通过心跳报文交互的方式检测故障，心跳报文的发送频率可以达到毫秒级。相对于通过秒级的LACP报文感知堆叠系统异常的动态链路捆绑方法，感知堆叠系统的故障的速度更快，减少了大量丢包的情况，减少了堆叠系统恢复所消耗的时间。

需要说明的是，本领域技术人员可以理解，除通过心跳报文检测故障以外，还可以通过其他方式检测堆叠端口是否发生故障，本实施例不一一列举。

可选择的，在确定未接收到心跳报文或响应报文之后，在确定堆叠端口出现故障之前，故障处理方法还包括：确定未接收到心跳报文或响应报文的时长大于预设时长。堆叠设备在预设时长未接收到心跳报文或响应报文后，再将堆叠端口的生成树状态设置为block状态，可以减少由于个别心跳报文传输出差导致将未出现故障的堆叠端口设置为block状态，造成浪费该堆叠端口的资源的情况。

需要说明的是，本领域技术人员可以理解，预设时长可以根据堆叠设备和对端设备之间的心跳报文的发送频率确定，例如，心跳报文的发送频率为X毫秒/次，则预设时长可以设置为aX毫秒；其中，a为正整数。本实施例不限制预设时长的具体取值。

需要说明的是，本领域技术人员可以理解，堆叠设备设置的预设时长和对端设备设置的预设时长可以相同，也可以不同，本实施例不做限制。

可选择的，在所述若确定所述堆叠端口恢复正常，将所述堆叠端口的生成树状态设置为转发状态之前，还包括：判断堆叠端口是否接收到对端设备发送的心跳报文或响应报文；若确定接收到心跳报文或响应报文，确定堆叠端口恢复正常。

具体地，堆叠系统中的发送方继续往设置为block的堆叠端口发送心跳报文。由于堆叠系统将此故障堆叠端口设置了block状态，堆叠端口的生成树状态为block状态时，屏蔽通过此堆叠端口的业务转发报文，但并不会屏蔽心跳报文，故堆叠系统的发送方不会因为该堆叠端口被设置了block状态而无法发送心跳报文。若堆叠端口的故障未得到排除，接收方仍然无法接收到此心跳报文，而发送方也无法得到接收方的响应报文。因此，在堆叠端口故障持续阶段，堆叠系统的发送方和接收方的堆叠端口继续保持生成树状态为block状态。若堆叠端口故障得到排除，接收方可以接收到发送方发送的心跳报文，并发送响应报文至发送方。接收方接收到心跳报文后，可以将自身接收到心跳报文的堆叠端口的生成树状态设置为forward状态。发送方也能够接收到接收方的回应的心跳报文。发送方接收到接收方回应的响应报文后，可以将自身的接收到响应报文的堆叠端口的生成树状态设置为forward状态。堆叠系统两侧的堆叠端口的生成树状态均设置为forward状态，堆叠系统的此堆叠端口自动恢复正常状态。

通过上述内容可知，若堆叠设备为发送方，对端设备为接收方，判断堆叠端口是否恢复正常，包括：判断堆叠端口是否接收到对端设备发送的响应报文；若确定接收到响应报文，确定堆叠端口恢复正常。若堆叠设备为接收方，对端设备为发送方，判断堆叠端口是否恢复正常，包括：判断堆叠端口是否接收到对端设备发送的心跳报文；若确定接收到心跳报文，确定堆叠端口恢复正常。

可选择的，在确定接收到心跳报文或响应报文之后，在确定堆叠端口恢复正常之前，故障处理方法还包括：确定连续接收到心跳报文或响应报文的次数大于预设次数。堆叠设备在连续接收到预设次数的心跳报文或响应报文后，再将堆叠端口的生成树状态设置为forward状态，可以避免出现故障的堆叠端口未完全排除故障时，频繁改变堆叠端口的生成树状态造成系统紊乱的情况。

需要说明的是，本领域技术人员可以理解，预设次数可以根据堆叠系统中的堆叠设备数量等确定，例如，预设次数可以设置为2，或者其他大于1的正整数。本实施例不限制预设次数的具体取值。

需要说明的是，本领域技术人员可以理解，堆叠设备设置的预设次数和对端设备设置的预设次数可以相同，也可以不同，本实施例不做限制。

在一个实施例中，心跳报文携带有对端设备的认证信息，或者，响应报文携带有堆叠设备发送的心跳报文中的认证信息。

具体地，若堆叠设备为发送方，对端设备为接收方，堆叠设备在发送心跳报文时，在心跳报文中携带堆叠设备的认证信息。对端设备在接收到心跳报文后，反馈响应报文至堆叠设备，响应报文中携带有堆叠设备的心跳报文中的认证信息。若堆叠设备为接收方，对端设备为发送方，对端设备在发送心跳报文时，在该心跳报文中携带对端设备的认证信息。堆叠设备在接收到心跳报文后，反馈响应报文至对端设备，响应报文中携带有对端设备的心跳报文中的认证信息。在心跳报文和响应报文中携带认证信息，避免堆叠系统中其他堆叠端口的心跳报文或响应报文无法送至该堆叠设备的该堆叠端口，导致堆叠设备误判断堆叠设备的状态，提高了堆叠系统的可靠性。

可选择的，认证信息包括序列号和/或时间戳。具体地，若堆叠设备为发送方，序列号为堆叠设备的序列号，时间戳为堆叠设备的时间戳。若堆叠设备为接收方，序列号为对端设备的序列号，时间戳为对端设备的时间戳。

需要说明的是，本领域技术人员可以理解，认证信息还可以堆叠设备或对端设备的其他独有的认证信息，本实施例不起限定作用。

以上各实施例可以相互结合相互引用，例如下面是各实施例结合后的例子，然并不以此为限；各实施例在不矛盾的前提下可以任意结合成为一个新的实施例。

如图2所示，以堆叠设备为心跳报文的发送方为例，堆叠设备执行的故障处理方法包括以下步骤。

步骤201：周期性发送心跳报文至对端设备的堆叠端口。

具体地，堆叠设备通过自身的堆叠端口周期性地向对端设备发送心跳报文。

可选择的，该心跳报文可包含堆叠设备的认证信息。

步骤202：判断自身的堆叠端口是否接收到对端设备发送的响应报文。

具体地，若堆叠设备的堆叠端口和对端设备的堆叠端口均未出现故障，通信正常，对端设备可以接收到心跳报文。对端设备在接收到心跳报文后，通过对端设备的堆叠端口向堆叠设备的堆叠端口发送响应报文。若堆叠设备的堆叠端口或对端设备的堆叠端口出现故障，通信异常，对端设备无法接收到心跳报文。对端设备无法向堆叠设备的堆叠端口发送响应报文。因此，若自身的堆叠端口接收到响应报文，说明堆叠设备的堆叠端口和对端设备的堆叠端口均未出现故障，不改变堆叠设备的堆叠端口的生成树状态，继续执行步骤202。若自身的堆叠端口未接收到响应报文，说明堆叠设备的堆叠端口或对端设备的堆叠端口出现故障，执行步骤203。

可选择的，响应报文中携带心跳报文中的认证信息。

步骤203：确定堆叠端口出现故障。

步骤204：将堆叠端口的生成树状态设置为阻塞状态。

相应地，对端设备无法接收到心跳报文，对端设备确定对端设备的堆叠端口出现故障，对端设备的堆叠端口的生成树状态设置为阻塞状态。

步骤205：周期性发送心跳报文至对端设备的堆叠端口。

步骤206：判断自身的堆叠端口是否接收到对端设备发送的响应报文。

具体地，若堆叠设备的堆叠端口或对端设备的堆叠端口的故障未消除，堆叠设备仍然无法接收到响应报文，若堆叠设备的堆叠端口或对端设备的堆叠端口的故障消除，通信正常，对端设备可以接收到心跳报文。对端设备在接收到心跳报文后，通过对端设备的堆叠端口向堆叠设备的堆叠端口发送响应报文。因此，若自身的堆叠端口接收到响应报文，说明堆叠设备的堆叠端口或对端设备的堆叠端口的故障已消除，改变堆叠设备的堆叠端口的生成树状态，执行步骤207。若自身的堆叠端口未接收到响应报文，说明堆叠设备的堆叠端口或对端设备的堆叠端口的故障未消除，继续执行步骤206。

步骤207：确定堆叠端口恢复正常。

步骤208：将堆叠端口的生成树状态设置为转发状态。

具体地，在将堆叠端口的生成树状态设置为转发状态后，返回执行步骤201。

相应地，对端设备接收到心跳报文，对端设备确定对端设备的堆叠端口故障消除，恢复正常，对端设备的堆叠端口的生成树状态设置为转发状态。

如图3所示，以堆叠设备为心跳报文的接收方为例，堆叠设备执行的故障处理方法包括以下步骤。

步骤301：判断自身的堆叠端口是否接收到对端设备发送的心跳报文。

具体地，对端设备通过对端设备的堆叠端口周期性地向堆叠设备发送心跳报文。若堆叠设备的堆叠端口和对端设备的堆叠端口均未出现故障，通信正常，堆叠设备可以接收到心跳报文。若堆叠设备的堆叠端口或对端设备的堆叠端口出现故障，通信异常，堆叠设备无法接收到心跳报文。因此，若堆叠设备的堆叠端口接收到心跳报文，说明堆叠设备的堆叠端口和对端设备的堆叠端口均未出现故障，不改变堆叠设备的堆叠端口的生成树状态，继续执行步骤301。若堆叠设备的堆叠端口未接收到心跳报文，说明堆叠设备的堆叠端口或对端设备的堆叠端口出现故障，执行步骤302。

可选择的，响应报文中携带心跳报文中的认证信息。

步骤302：确定堆叠端口出现故障。

步骤303：将堆叠端口的生成树状态设置为阻塞状态。

相应地，对端设备无法接收到响应报文，对端设备确定对端设备的堆叠端口出现故障，对端设备的堆叠端口的生成树状态设置为阻塞状态。对端设备的堆叠端口设置为阻塞状态后，继续周期性地向堆叠设备发送心跳报文。

步骤304：判断自身的堆叠端口是否接收到对端设备发送的响应报文。

具体地，若堆叠设备的堆叠端口或对端设备的堆叠端口的故障未消除，堆叠设备仍然无法接收到心跳报文，若堆叠设备的堆叠端口或对端设备的堆叠端口的故障消除，通信正常，堆叠设备可以接收到心跳报文。因此，若自身的堆叠端口接收到心跳报文，说明堆叠设备的堆叠端口或对端设备的堆叠端口的故障已消除，改变堆叠设备的堆叠端口的生成树状态，执行步骤305。若自身的堆叠端口未接收到心跳报文，说明堆叠设备的堆叠端口或对端设备的堆叠端口的故障未消除，继续执行步骤304。

步骤305：确定堆叠端口恢复正常。

步骤306：将堆叠端口的生成树状态设置为转发状态。

具体地，在将堆叠端口的生成树状态设置为转发状态后，返回执行步骤301。

相应地，对端设备接收到响应报文，对端设备确定对端设备的堆叠端口故障消除，恢复正常，对端设备的堆叠端口的生成树状态设置为转发状态。

以下以堆叠设备和对端设备均为交换机为例，对本实施例提及的故障处理方法进行举例说明。

例如，堆叠系统包括交换机A401和交换机B402，交换机A401是堆叠主设备。交换机A401使用端口A1作为堆叠端口连接交换机B402的端口B1，交换机A401使用端口A2作为堆叠端口连接交换机的端口B2，以使交换机A401和交换机B402进行堆叠通信。交换机A401为堆叠设备，交换机B402为对端设备，或者，交换机A401为对端设备，交换机B402为堆叠设备。心跳报文的发送周期为50毫秒，预设时长为150毫秒，预设次数为2次，认证信息为时间戳信息。

若堆叠系统的堆叠端口均正常通信，堆叠系统的结构示意图如图4所示。交换机A401的端口A1和交换机B402的端口B1通信，交换机A401的端口A2和交换机B402的端口B2通信。交换机A401和交换机B402之间交互心跳报文。

若交换机A401的端口A2和交换机B402的端口B2之间出现通信异常状态，堆叠系统的结构示意图如图5所示。交换机A401每50ms向交换机B402发送心跳报文，携心跳报文携带交换机A401的时间戳信息。由于交换机A401的端口A2和交换机B402的端口B2之间出现通信异常，交换机B402的端口B2无法收到交换机A401的心跳报文。若3个周期(150毫秒)内，交换机B402的端口B2持续未收到交换机A401的心跳报文，将交换机B402的端口B2的生成树状态设置为block状态。交换机A401在3个周期(150毫秒)内，未在端口A2上收到交换机B402携带的A设备时间戳信息的响应报文，立刻将交换机A401的端口A2端口的生成树状态设置为block状态。交换机A401的端口A2和交换机B402的端口B2的生成树状态全部被设置为block状态。这两个堆叠口不会再转发业务报文，交换机A401与交换机B402构成的堆叠系统将通过剩下的端口A1和端口B1的连接线路转发跨堆叠设备的业务报文。交换机A401继续往已经设置block状态的端口A2持续每50ms发送心跳报文。虽然交换机A401的端口A2和交换机B402的端口B2的生成树状态设置为block状态，但block状态不影响心跳报文的转发，故交换机A401向端口A2发送心跳报文的动作未受到影响。若端口A2和端口B2之间的异常故障状态未得到排除，交换机B402的端口B2无法收到心跳报文，而交换机A401的端口A2页无法得到交换机B402的响应报文。因此，在故障持续阶段，交换机A401的端口A2和交换机B402的端口B2的生成树状态继续保持为block状态。

若交换机A401的端口A2和交换机B402的端口B2持续通信异常被排除，由于端口A2和端口B2之间异常故障状态已经得到排除，交换机B402立刻可以在端口B2接收到交换机A401的心跳报文，并且将响应报文从端口B2回复给交换机A401。交换机A401在端口A2收到交换机B402回应的带有正确时间戳信息的响应报文。交换机B402将响应报发送给交换机A401后，再等待50ms，又在端口B2收到一次交换机A401的心跳报文，则交换机B402将端口B2的生成树状态设置为forward状态。交换机A401从端口A2接收到交换机B402发送的带有正确时间戳信息的响应报文后，即可将端口A2的生成树状态设置为forward状态。至此，交换机A401的端口A2和交换机B402的端口B2的生成树状态均设置为forward状态，交换机A401和交换机B402构成的堆叠系统的端口A2和端口B2之间的链路自动恢复正常状态。

通过上述内容可知，本实施例提及的故障处理方法，利用堆叠系统两侧进行带有认证信息的心跳报文交互，可以快速探测到堆叠端口出现链路转发异常的状态，并且通过对心跳报文的接收状态的判定，可以将异常的堆叠端口的生成树状态设置为block状态，从堆叠系统中移除出现故障的堆叠端口，从而达到快速排除故障堆叠端口的效果，防止网络出现大量丢包。而生成树状态的设置，并不会影响此心跳报文的发送流程，因此，堆叠系统还可以正常的发送此心跳报文，只不过在堆叠端口异常期间，此心跳报文不会被堆叠系统的接收侧收到。而在故障被排除之后，心跳报文会立刻恢复正常收发，而堆叠系统的两侧会根据心跳报文的接收状态，自动将已经排除故障的堆叠端口的成树状态设置为forward，以重新恢复此堆叠端口在堆叠系统中的正常工作。

通过本实施例提及的故障处理方法，堆叠系统既可以快速的排除异常堆叠端口，使其不再对堆叠系统造成严重影响，又可以在故障恢复的时候，无需人为干预，即可快速恢复此堆叠端口在堆叠系统中的正常工作状态。因此，采用本实施例提及的故障处理方法可以大大增强堆叠系统对堆叠口链路故障的自动排障处理和自动恢复处理，有效的增强了网络设备的可靠性可维护性和稳定性。

上面各种方法的步骤划分，只是为了描述清楚，实现时可以合并为一个步骤或者对某些步骤进行拆分，分解为多个步骤，只要包括相同的逻辑关系，都在本专利的保护范围内；对算法中或者流程中添加无关紧要的修改或者引入无关紧要的设计，但不改变其算法和流程的核心设计都在该专利的保护范围内。

本申请实施例还提供一种堆叠设备，如图6所示，包括：第一判断模块601、第二判断模块602和处理模块603。第一判断模块601用于判断堆叠端口是否出现故障；处理模块603用于若确定堆叠端口出现故障，将堆叠端口的生成树状态设置为阻塞状态；第二判断模块602用于判断堆叠端口是否恢复正常；处理模块603还用于若确定堆叠端口恢复正常，将堆叠端口的生成树状态设置为转发状态。

不难发现，本实施例为与上述方法实施例相对应的装置实施方式，本实施例可与上述方法实施例互相配合实施。上述方法实施例中提到的相关技术细节在本实施例中依然有效，为了减少重复，这里不再赘述。相应地，本实施例中提到的相关技术细节也可应用在上述方法实施例中。

值得一提的是，本实施例中所涉及到的各模块均为逻辑模块，在实际应用中，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现。此外，为了突出本发明的创新部分，本实施例中并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，但这并不表明本实施例中不存在其它的单元。

本申请实施例还提供一种堆叠设备，如图7所示，包括：至少一个处理器701；以及与至少一个处理器701通信连接的存储器702；其中，存储器存储有可被至少一个处理器701执行的指令，指令被至少一个处理器701执行，以使至少一个处理器701能够执行上述方法实施例。

其中，存储器702和处理器701采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器701和存储器702的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器701处理的数据通过天线在无线介质上进行传输，进一步，天线还接收数据并将数据传送给处理器701。

处理器701负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器702可以被用于存储处理器701在执行操作时所使用的数据。

本申请实施例还提供一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-OnlyMemory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本发明的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种故障处理方法，其特征在于，应用于堆叠设备，包括：

若确定堆叠端口出现故障，将所述堆叠端口的生成树状态设置为阻塞状态；

若确定所述堆叠端口恢复正常，将所述堆叠端口的生成树状态设置为转发状态。

2.根据权利要求1所述的故障处理方法，其特征在于，在所述若确定堆叠端口出现故障，将所述堆叠端口的生成树状态设置为阻塞状态之前，还包括：

判断所述堆叠端口是否接收到对端设备发送的心跳报文或响应报文；

若确定未接收到所述心跳报文或所述响应报文，确定所述堆叠端口出现故障。

3.根据权利要求2所述的故障处理方法，其特征在于，在确定未接收到所述心跳报文或所述响应报文之后，在所述确定所述堆叠端口出现故障之前，所述故障处理方法还包括：

确定未接收到所述心跳报文或所述响应报文的时长大于预设时长。

4.根据权利要求2所述的故障处理方法，其特征在于，在所述若确定所述堆叠端口恢复正常，将所述堆叠端口的生成树状态设置为转发状态之前，还包括：

判断所述堆叠端口是否接收到对端设备发送的心跳报文或所述响应报文；

若确定接收到所述心跳报文或所述响应报文，确定所述堆叠端口恢复正常。

5.根据权利要求4所述的故障处理方法，其特征在于，在确定接收到所述心跳报文或所述响应报文之后，在所述确定所述堆叠端口恢复正常之前，所述故障处理方法还包括：

确定连续接收到所述心跳报文或所述响应报文的次数大于预设次数。

6.根据权利要求2至5中任一项所述的故障处理方法，其特征在于，所述心跳报文携带有所述对端设备的认证信息，或者，所述响应报文携带有所述堆叠设备发送的心跳报文中的认证信息。

7.根据权利要求6所述的故障处理方法，其特征在于，所述认证信息包括序列号和/或时间戳。

8.一种堆叠设备，其特征在于，包括：第一判断模块、第二判断模块和处理模块；

所述第一判断模块用于判断堆叠端口是否出现故障；

所述处理模块用于若确定堆叠端口出现故障，将所述堆叠端口的生成树状态设置为阻塞状态；

所述第二判断模块用于判断所述堆叠端口是否恢复正常；

所述处理模块还用于若确定所述堆叠端口恢复正常，将所述堆叠端口的生成树状态设置为转发状态。

9.一种堆叠设备，其特征在于，包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一项所述的故障处理方法。

10.一种计算机可读存储介质，存储有计算机程序，其特征在于，所述计算机程序被处理器执行时，实现如权利要求1至7中任一项所述的故障处理方法。