CN105656645A

CN105656645A - 堆叠系统的故障处理的决策方法和装置

Info

Publication number: CN105656645A
Application number: CN201410637355.1A
Authority: CN
Inventors: 陈世兴; 周晓东
Original assignee: Hangzhou H3C Technologies Co Ltd
Current assignee: Hangzhou H3C Technologies Co Ltd
Priority date: 2014-11-12
Filing date: 2014-11-12
Publication date: 2016-06-08
Anticipated expiration: 2034-11-12
Also published as: US10277454B2; WO2016074622A1; US20170331676A1; CN105656645B

Abstract

本申请提供一种堆叠系统的故障处理的决策方法，应用在有成员设备离开的堆叠系统的主设备上，所述方法包括：根据预置的保留策略，收集本端设备组的决策参数值；所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组；将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备；接收携带对端设备组决策参数值的分裂检测报文；根据本端设备组决策参数值和对端设备组决策参数值，应用保留策略决策出要保留的设备组。本申请的技术方案使得堆叠分裂后更为符合应用环境需求的设备组能够被保留，实现了基于应用场景的故障恢复。

Description

堆叠系统的故障处理的决策方法和装置

技术领域

本申请涉及网络通信技术领域，尤其涉及一种堆叠系统的故障处理的决策方法和装置。

背景技术

IRF(IntelligentResilientFramework，智能弹性架构)是一种堆叠交换机系统，利用软件虚拟化技术，将至少两台网络设备连接在一起，进行必要的配置后，虚拟化成一台“分布式设备”。使用这种虚拟化技术可以集合多台设备的硬件资源和软件处理能力，实现多台设备的协同工作、统一管理和不间断维护。

IRF能够简化管理，在形成之后，用户通过任意成员设备的任意端口都可以登录IRF系统，对IRF内所有成员设备进行统一管理。IRF的高可靠性体现在多个方面，例如：IRF由多台成员设备组成，Master(主)设备负责IRF的运行、管理和维护，Slave(从)设备在作为备份的同时也可以处理业务；一旦Master设备故障，系统会迅速自动选举新的Master，以保证业务不中断，从而实现了设备的1:N备份；此外，成员设备之间的IRF链路支持聚合功能，IRF和上、下层设备之间的物理链路也支持聚合功能，多条链路之间可以互为备份也可以进行负载分担，从而进一步提高了IRF的可靠性。IRF有良好的扩展能力，通过增加成员设备，可以轻松自如的扩展IRF的端口数、带宽；因为各成员设备都有CPU，能够独立处理协议报文、进行报文转发，所以IRF还能够轻松自如的扩展处理能力。

随着语音、视频等新网络业务的出现和发展，对网络的可靠性和性能都提出了更高的要求。IRF不仅需要提供高的可靠性，还要尽量减少故障对所运行业务性能的影响。因此，在发生故障后如何能根据具体的应用场景进行故障恢复，就成为IRF技术需要解决的问题。

发明内容

有鉴于此，本申请提供一种堆叠系统的故障处理的决策方法，应用在有成员设备离开的堆叠系统的主设备上，所述方法包括：

根据预置的保留策略，收集本端设备组的决策参数值；所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组；

将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备；

接收携带对端设备组决策参数值的分裂检测报文；

根据本端设备组决策参数值和对端设备组决策参数值，应用保留策略决策出要保留的设备组。

本申请还提供了一种堆叠系统的故障处理的决策装置，应用在有成员设备离开的堆叠系统的主设备上，所述装置包括：

决策参数收集单元，用于根据预置的保留策略，收集本端设备组的决策参数值；所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组；

检测报文发送单元，用于将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备；

检测报文接收单元，用于接收携带对端设备组决策参数值的分裂检测报文；

分裂决策单元，用于根据本端设备组决策参数值和对端设备组决策参数值，应用保留策略决策出要保留的设备组。

由以上技术方案可见，本申请的实施例中利用保留策略来体现堆叠系统所在的应用环境的具体需求，在堆叠系统有成员设备离开后，通过采集并交换两端设备组的决策参数值并将决策参数值通知对端设备组，将两端设备组的决策参数值应用于保留策略来确定所要保留的设备组，使得堆叠分裂后更为符合应用环境需求的设备组能够继续分裂前堆叠系统的业务，实现了基于应用场景的故障恢复。

附图说明

图1是一个例子中堆叠系统的组网结构示例图；

图2是一个例子中堆叠系统成员设备的硬件架构示意图；

图3是一个例子中一种堆叠系统的故障处理的决策方法的流程图；

图4是另一个例子中一种堆叠系统的故障处理的决策方法的流程图；

图5是一个例子中一种堆叠系统的故障处理的决策装置的逻辑结构图。

具体实施方式

在堆叠系统的一种实现方式中，成员设备间通过具有特殊功能的堆叠口连接，通过堆叠口交互Hello报文来通告成员设备的状态、成员设备编号、成员设备优先级、成员设备的连接关系等内容。每个成员设备在本地记录已知的拓扑信息并将已知的拓扑信息周期性的从堆叠口发送出去，在收到其他成员设备的拓扑信息后，更新本地记录的拓扑信息，这样，所有成员设备都会收集到完整的拓扑信息。

当某个成员设备发生故障或某两个堆叠口之间的连接链路发生故障后，与故障点直接连接的成员设备感知到故障发生，会将发生故障的消息广播给堆叠系统中的其他成员设备，收到这些消息的成员设备更新本地记录的拓扑信息。更新拓扑信息后，不可达的成员设备被认为离开了堆叠系统。如果主设备离开，则在当前在线的从设备中选举新的主设备，继续原堆叠系统的转发业务。

一些故障可能导致堆叠系统分成两个设备组，这两个设备组之间无法通过堆叠口通信，并且都认为对端设备组已经离开堆叠系统，这种情况称为分裂。分裂后，每个设备组都成为一个独立的堆叠系统，并且都具有与原堆叠系统相同的地址和配置。

例如，在图1所示的堆叠系统中，成员设备110、120、130、140和150通过各自的堆叠口连接为链形拓扑，并且分别通过各自的其他端口连接到网络设备161和网络设备162，成员设备150为堆叠系统的主设备。当连接成员设备120的堆叠口122和成员设备130的堆叠口131的链路断开时，成员设备110和120认为成员设备130、140和150已经离开，选举出新的主设备——成员设备110；而成员设备130、140和150也认为成员设备110和120已经离开，继续以成员设备150为主设备。这样，成员设备110和120作为一个设备组，成员设备130、140和150作为另一个设备组，形成两个地址相同、配置相同的堆叠系统。类似的，当成员设备130发生故障宕机时，也会发生堆叠系统的分裂。

现有技术中，MAD(Multi-ActiveDetection，多活跃检测)技术用来防止网络中出现两个相同地址、相同配置的堆叠系统。具体而言，当堆叠系统中有成员设备离开后，主设备生成分裂检测报文，其中带有本端设备组的ActiveID(活跃标识)。通常将主设备在堆叠系统中的成员编号作为该设备组的ActiveID，堆叠系统中的每个成员设备的编号都不相同，因此如果堆叠分裂为两个设备组，则其主设备的成员编号必定不同。主设备将生成的分裂检测报文通过其他端口(非堆叠口)发送给堆叠系统中的其他成员设备。如果主设备接收到来自其他成员设备的分裂检测报文，该报文携带的ActiveID不同于本端设备组的ActiveID，则可以判定堆叠系统发生分裂。两个设备组的主设备比较本端设备组和对端设备组的ActiveID，保留ActiveID较大或较小的一个设备组，将另一个设备组的业务端口关闭。业务端口包括用于堆叠系统业务转发的端口，但不包括堆叠口。这样，网络中将不会同时存在两个相同地址、相同配置的堆叠系统。并非所有有成员离开的情况都会导致堆叠分裂(例如图1中的成员设备110宕机)，此时主设备不会收到具有不同ActiveID的分裂检测报文，不需进行堆叠分裂的保留决策和处理。

在堆叠系统发生分裂后，根据设备组ActiveID的大小来决定保留哪个设备组，可能使得更为符合应用环境需要的设备组被关闭。仍以图1所示的堆叠系统为例，当成员设备110的堆叠口112和成员设备120的堆叠口121之间的链路中断后，成员设备110成为一个设备组并成为该设备组的主设备，其成员设备编号10成为该设备组的ActiveID；成员设备120、130、140和150成为一个设备组并仍以成员设备150为主设备，成员设备150的编号50成为该设备组的ActiveID；如果保留ActiveID较小的设备组，则拥有4个设备、带宽和处理能力更高的设备组将被关闭，并且原堆叠系统的主设备——成员设备150上的业务主进程也将被关闭，成员设备110需要重新进行路由计算以获得原来的主设备150上已有的数据。再如，如果因为成员设备110的堆叠口所在的板卡故障导致与成员设备120之间的通信故障，则不仅堆叠业务会迁移到带宽较小、处理能力较差的设备组，并且还是故障点所在的设备组，在该设备组进行故障修复的过程中，很可能需要堆叠业务的再次切换，影响网络的性能和稳定性。

在本申请的一个例子中，运行在有成员设备离开的堆叠系统的主设备上的故障处理决策控制逻辑能够按照预先配置的保留策略，根据堆叠系统的具体情形进行设备组的保留决策。请参考图2，堆叠系统成员设备20包括处理器211、内存212、以及网络接口214，这些硬件通过内部总线215相互连接；此外，成员设备20还可以包括机框、电源、风扇、网络转发芯片、以太网模块或光模块等部件。成员设备在启动后将故障处理决策控制逻辑加载到内存212中，当堆叠系统有成员设备离开后，主设备上的处理器211将运行内存212中的故障处理决策控制逻辑，其运行流程如图3所示。

步骤310，根据预置的保留策略，收集本端设备组的决策参数值。

本例中，在堆叠系统的成员设备上预先设置保留策略，保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组。当堆叠系统中发生有成员设备离开的事件后，通过堆叠口仍然可达的若干个成员设备成为一个设备组，如果离开的是从设备，则设备组的主设备保持不变；如果离开的是主设备，则在该设备组的成员设备中选举中新的主设备。对保留策略中所采用的决策参数，主设备获取所在设备组(即本端设备组)当前这些决策参数的具体值。视故障点的不同，离开的若干个成员设备可能成为另一个设备组，这个设备组的主设备也会执行本步骤，收集本端设备组的决策参数值。

保留策略的设置可以采用多种方式，如由管理员对堆叠系统的保留策略进行设置；或者提供缺省的保留策略，在管理员未进行设置则采用缺省的保留策略；还可以预先设置几种保留策略，由堆叠系统根据其业务、成员设备的配置情况等自动采用其中的一种；在本例中对具体的设置方式不做限定。

可以根据堆叠系统所在的网络环境、具体的应用场景来确定保留策略中要采用哪些决策参数，以及将这些决策参数应用于怎样的判断条件，来确定要保留的设备组。所有主设备可以获得的设备组的硬件配置、软件配置、性能指标、运行状态等参数都可以作为决策参数，包括但不限于：硬件配置、硬件健康状况、软件配置、软件健康状况、成员设备数量、业务流量的大小和重要性等，这些参数可以通过主设备或者堆叠系统的健康检测特性、业务流量监控功能、系统软件监控功能等来获得。以下为几个保留策略的示例：

示例一：采用故障级别作为决策参数，保留策略为：当两端设备组的故障级别不同时，保留故障级别低的设备组。可以将主设备可以收集到的各种硬件和/或软件故障对应于不同的故障级别，主设备根据收集到的故障确定本端设备组的故障级别值。主设备可以利用堆叠系统本身的健康检查功能、故障检测功能、成员设备的硬件及软件监测功能等来确定发生的故障，考虑故障对设备组的影响、排除故障时对业务的影响等因素来设置对应的故障级别。例如，如果本端设备组发生硬件故障或软件故障，将故障级别置为高；否则将故障级别置为普通。

示例二：以设备组中是否包括有成员设备离开前堆叠系统的主设备为决策参数，保留策略为：保留有成员设备离开前堆叠系统主设备所在的设备组。主设备上通常运行着堆叠系统的业务主进程，保存有最为全面的路由数据，保留原主设备所在的设备组可以避免路由数据的重新计算，减少对网络稳定性的影响。

示例三：以设备组中的设备数量为决策参数，保留策略为：保留设备数量多的设备组。通常堆叠系统会采用带宽和处理能力接近的成员设备，因此两个设备组中的设备数量的对比往往能够近似的衡量两个设备组带宽和处理能力的对比，保留设备数量多的设备组，使得保留的堆叠系统可以提供更大的带宽和更高的处理能力。

示例四：以成员设备在堆叠系统中的优先级为决策参数，保留策略为：保留具有最高堆叠优先级的成员设备所在的设备组。成员设备的优先级可以由管理员指定，也可以在加入堆叠时由堆叠系统自动生成，根据具体的场景，成员设备的优先级高可能表示该成员设备上运行更为重要的业务、有更高的硬件或软件配置等情况。

示例五：以设备组中是否包括具有指定编号的成员设备为决策参数，保留策略为：保留具有指定编号的成员设备所在的设备组。例如，将转发重要业务数据的成员设备作为指定编号的成员设备，可以尽量避免堆叠系统分裂时对重要业务的影响。

另外，可以基于两个以上的决策参数，采用多个判断条件来设置保留策略，这些决策参数之间可以具有相同或不同的优先级，对具有不同优先级的情形，只有在两端设备组所收集的优先级更高的决策参数值相同的时候，才考虑较低优先级的决策参数。在一个例子中，可以将故障级别作为最高优先级的决策参数，而将上述示例中的其他决策参数分别作为较低优先级的决策参数来设置四种保留策略：当两端设备组的故障级别不同时，保留故障级别低的设备组；当两端设备组的故障级别相同时，保留的分裂前主设备所在的设备组、保留设备数量多的设备组、保留具有最高堆叠优先级的成员设备所在的设备组、或保留具有指定编号的成员设备所在的设备组。

需要说明的是，在特定的情况下，依据某些保留策略，两端设备组所收集的决策参数值可能完全相同。例如，上述示例一中两端设备组的故障级别相同，示例二中主设备宕机导致堆叠分裂，示例三中两端设备组设备数量相同等等。此时，保留策略无法决策出要保留的设备组。可以在保留策略外，指定其他条件作为最终判断条件来在这种情况下确定要保留设备组，最终判断条件采用的参数能够确保两端设备组的该参数值不同。例如，可以采用现有技术中按照设备组的ActiveID来确定要保留的设备组的方法。

步骤320，将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备。

在收集到本端设备组的决策参数值后，主设备将这些决策参数值封装在分裂检测报文中，发送给堆叠系统的成员设备。分裂检测报文可以采用对现有的协议报文的扩展格式，也可以采用自定义的格式，能够发送到其他成员设备并能被其他成员设备正确解读即可。在一个例子中，可以将LACP(LinkAggregationControlProtocol，链路聚合控制协议)报文作为分裂检测报文，在其扩展TLV(Type-Length-Value，类型-长度-值)字段携带决策参数值。

在发生堆叠系统分裂后，两端设备组的主设备都生成并发送分裂检测报文。分裂检测报文通过非堆叠口发送，如果发生堆叠分裂后的对端设备组与本端设备组在网络上连通，则对端设备组的主设备会收到该分裂检测报文；如果发生两端的设备组分别在两个不连通的网络中，则两个设备组同时在线，在各自连通的网络范围内以堆叠系统的地址和配置运行不会产生冲突。

如前所述，如果按照某些保留策略，可能发生两端设备组决策参数值完全相同的情形，则可以用其他条件作为最终判断条件来决策要保留的设备组。这种情况下，这些判断依据所采用的设备组的参数也可以在分裂检测报文中发送给对端设备组。

步骤330，接收携带对端设备组决策参数值的分裂检测报文。

如果主设备未收到对端设备组的分裂检测报文，则可能发生的情况有两种，一种是堆叠系统并未发生分裂(如离开的成员设备已宕机)，另一种是分裂后的两端设备组在网络中不连通。这两种情况下本端设备组均可以以堆叠系统正常运行，不必进行设备组是否保留的决策。

需要说明的是，步骤330与步骤340之间没有时序关系。

步骤340，根据本端设备组决策参数值和对端设备组决策参数值，应用保留策略决策出要保留的设备组。

在收到对端设备组的主设备发送的分裂检测报文后，主设备从中解析出对端设备组的决策参数值，将本端设备组决策参数值和对端设备组决策参数值应用于预置保留策略，确定出要保留的设备组。

在堆叠系统的运行过程中，可能出现成员设备上的保留策略不同的情况，例如，两个预置保留策略不同的堆叠系统合并。为了避免两端设备组应用不同的保留策略不同进行决策，可以在分裂检测报文中携带本端设备组的保留策略、以及前述最终判断条件所采用的参数，发送给对端设备组。在收到对端设备组的分裂检测报文后，主设备先比较本端设备组的保留策略和对端设备组的保留策略是否相同，如果相同则应用保留策略决策出要保留的设备组；否则根据最终判断条件所采用的参数来确定要保留的设备组。

一个例子中，在主设备应用保留策略决策出要保留的设备组后，可以将决策结果发送给对端设备组。两端设备组的主设备在收到对端的决策结果后，与本端的决策结果进行比较，如果相同则执行决策结果，或者保留本端设备组，或则关闭本端设备组的业务端口；否则根据最终判断条件来确定要保留的设备组。

需要说明的是，当决策参数包括故障级别时，对分布式的成员设备收集故障信息有可能耗时较长，此时应等待分布式设备的故障信息状态稳定后再生成分裂检测报文或者进行与对端故障级别的比较，以得到准确的决策结果。

可见，本例中用保留策略来描述堆叠系统所在的应用环境的具体需求，在堆叠系统发生分裂后，通过采集两端设备组的决策参数值并将决策参数值通知对端设备组，由两端设备组的主设备分别将两端的决策参数值应用于相同的保留策略，以确定所要保留的设备组，使得堆叠分裂后更为符合应用环境需求的设备组能够被保留，从而实现了基于应用场景的故障恢复。由于两端设备组的主设备将同样的决策参数应用于相同的保留策略来得出结果，两端设备组会得出同样的决策结果，一端设备组得以保留，另一端关闭业务。

仍以图1所示的堆叠系统为例，假设其应用场景中，堆叠系统具有的带宽和处理能力最为关键，由于每个成员设备的带宽和处理能力几乎相同，因而在每个成员设备上预置的保留策略为：当两端设备组的故障级别不同时，保留故障级别低的设备组；当两端设备组的故障级别相同时，保留设备数量多的设备组。堆叠系统的工作过程中，当连接成员设备120的堆叠口122和成员设备130的堆叠口131的链路断开时，成员设备110和120认为成员设备130、140和150已经离开，成员设备110和120成为第一设备组，选举出新的主设备——成员设备110；而成员设备130、140和150也认为成员设备110和120已经离开，成员设备130、140和150成为第二设备组，继续以成员设备150为主设备。

第一设备组的主设备110收集本端设备组的故障级别和设备数量，假设链路中断对应的故障级别为普通，则其得到的第一设备组的决策参数值为：故障级别普通，设备数量2。主设备110将这两个决策参数值封装在LACP报文的扩展TLV字段，从连接网络设备161和162的端口发送给原堆叠系统的各个成员设备。同样，第二设备组的主设备150收集本端设备组的故障级别和设备数量，由于链路中断对应的故障级别为普通，则第二设备组的决策参数值为：故障级别普通，设备数量3。主设备150将这两个决策参数值携带在LACP报文中，从连接网络设备161和162的端口发送给原堆叠系统的各个成员设备。

第一设备组的主设备110和第二设备组的主设备150分别收到对端设备组的LACP报文，从中得到对端设备组的决策参数值，并将两端的决策参数值应用于保留策略：由于两端设备组的故障级别相同，因此保留设备数量多的设备组，即第二设备组。第一设备组的主设备110关闭本设备上的业务端口，并通知其成员设备120关闭业务端口。第二设备组成为分裂后的堆叠系统，继续其业务。

在本申请的另一个例子中，主设备在分裂检测报文中携带本端设备组的ActiveID，作为最终判断条件来确定要保留的设备组；并携带本端设备组的保留策略来避免出现两端设备组所应用的保留策略不同。本例的流程如图4所示：

步骤401，检测到堆叠系统中有成员设备离开。

步骤402，根据预置的保留策略，主设备收集本端设备组的决策参数值。

步骤403，将本端设备组的ActiveID、保留策略、收集的决策参数值封装在分裂检测报文中，发送给堆叠系统的成员设备。其中，保留策略可以是用约定格式描述的保留策略本身，也可以是对应于预定的若干个保留策略的编号，或者其他能够表明所应用的保留策略的代码，本例中不做限定。

步骤404，接收对端设备组的分裂检测报文，其中同样携带有对端设备组的ActiveID、保留策略和决策参数值。

步骤405，判断本端设备组的保留策略与对端设备组是否相同，如果相同，执行步骤406，否则转步骤410。

步骤406，根据本端设备组决策参数值和对端设备组决策参数值，应用保留策略决策出要保留的设备组。

步骤407，将本端设备组应用保留策略的决策结果发送给对端设备组。

步骤408，接收对端设备组应用保留策略的决策结果。

步骤409，判断本端设备组的决策结果与对端设备的决策结果是否相同，如果相同，转步骤411；否则执行步骤410。

步骤410，根据本端设备组和对端设备组的ActiveID确定要保留的设备组。

步骤411，判断本端设备组是否为要保留的设备组，如果是，执行步骤412；否则执行步骤413。

步骤412，保留本设备组，采用分裂前堆叠系统的地址和配置继续完成原堆叠系统的业务，流程结束。

步骤413，关闭本端设备组的业务端口，流程结束。

需要说明的是，步骤403与步骤404之间没有时序关系，步骤407和步骤408之间也没有时序关系。

本例中，两端设备组在分别应用保留策略得出决策结果后，将本端的决策结果通知对端，在两端决策结果一致时按照决策结果关闭其中之一的设备组，否则按照ActiveID来决策。在两端设备组交换决策参数、应用保留策略的过程中，本端的决策参数可能发生变化，本例中增加决策结果的确认过程，可以防止这种情形导致的两端决策结果不一致，以避免两端设备组均保留或均关闭的情况出现。

与上述流程实现对应，本申请还提供了堆叠系统的故障处理的决策装置，应用在有成员设备离开的堆叠系统的主设备上，该装置可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，可以通过图2中的处理器211将故障处理决策控制逻辑读取到内存212中运行而形成。

图5所示为本申请一个例子中的一种堆叠系统的故障处理的决策装置，应用在有成员设备离开的堆叠系统的主设备上，所述装置包括决策参数收集单元510、检测报文发送单元520、检测报文接收单元530和分裂决策单元540，其中：决策参数收集单元510用于根据预置的保留策略，收集本端设备组的决策参数值；所述保留策略基于至少一个决策参数来确定在堆叠系统发生分裂时保留的设备组；检测报文发送单元520用于将携带本端设备组决策参数值的分裂检测报文发送给堆叠系统的成员设备；检测报文接收单元530用于接收携带对端设备组决策参数值的分裂检测报文；分裂决策单元540用于根据本端设备组决策参数值和对端设备组决策参数值，应用保留策略决策出要保留的设备组。

所述决策参数可以包括故障级别；所述保留策略可以包括：当两端设备组的故障级别不同时，保留故障级别低的设备组。

在将故障级别用作决策参数时，所述决策参数收集单元510可以具体用于：当本端设备组发生硬件故障或软件故障时，将故障级别置为高；否则将故障级别置为普通。

所述保留策略还可以包括：当两端设备组的故障级别相同时，保留有成员设备离开前堆叠系统主设备所在的设备组、保留设备数量多的设备组、保留具有最高堆叠优先级的成员设备所在的设备组、或保留具有指定编号的成员设备所在的设备组。

一个例子中，所述分裂检测报文还携带有设备组的活跃标识ActiveID；所述装置还包括决策结果发送单元、决策结果接收单元和决策结果确认单元，其中：决策结果发送单元用于将本端设备组应用保留策略的决策结果发送给对端设备组；决策结果接收单元用于接收对端设备组应用保留策略的决策结果；决策结果确认单元用于当两端的决策结果相同时，按照决策结果保留本端设备组或关闭本端设备组的业务端口；否则根据ActiveID来决定要保留的设备组。

所述分裂检测报文还可以携带有设备组的ActiveID和保留策略；此时，所述分裂决策单元540具体用于：比较本端设备组的保留策略和对端设备组的保留策略，如果相同则应用保留策略决策出要保留的设备组；否则根据ActiveID来确定要保留的设备组。

所述分裂检测报文可以是LACP报文。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种堆叠系统的故障处理的决策方法，应用在有成员设备离开的堆叠系统的主设备上，其特征在于，所述方法包括：

接收携带对端设备组决策参数值的分裂检测报文；

2.根据权利要求1所述的方法，其特征在于，所述决策参数包括故障级别；所述保留策略包括：当两端设备组的故障级别不同时，保留故障级别低的设备组。

3.根据权利要求2所述的方法，其特征在于，所述收集本端设备组的决策参数值，包括：如果本端设备组发生硬件故障或软件故障，将故障级别置为高；否则将故障级别置为普通。

4.根据权利要求2所述的方法，其特征在于，所述保留策略还包括：当两端设备组的故障级别相同时，保留有成员设备离开前堆叠系统主设备所在的设备组、保留设备数量多的设备组、保留具有最高堆叠优先级的成员设备所在的设备组、或保留具有指定编号的成员设备所在的设备组。

5.根据权利要求1所述的方法，其特征在于，所述分裂检测报文还携带有设备组的活跃标识ActiveID；

所述方法还包括：

将本端设备组应用保留策略的决策结果发送给对端设备组；

接收对端设备组应用保留策略的决策结果；

如果两端的决策结果相同，则按照决策结果保留本端设备组或关闭本端设备组的业务端口；否则根据ActiveID来决定要保留的设备组。

6.根据权利要求1所述的方法，其特征在于，所述分裂检测报文还携带有设备组的ActiveID和保留策略；

所述应用保留策略决策出要保留的设备组，包括：比较本端设备组的保留策略和对端设备组的保留策略，如果相同则应用保留策略决策出要保留的设备组；否则根据ActiveID来确定要保留的设备组。

7.根据权利要求1所述的方法，其特征在于，所述分裂检测报文为链路聚合控制协议LACP报文。

8.一种堆叠系统的故障处理的决策装置，应用在有成员设备离开的堆叠系统的主设备上，其特征在于，所述装置包括：

9.根据权利要求8所述的装置，其特征在于，所述决策参数包括故障级别；所述保留策略包括：当两端设备组的故障级别不同时，保留故障级别低的设备组。

10.根据权利要求9所述的装置，其特征在于，所述决策参数收集单元具体用于：当本端设备组发生硬件故障或软件故障时，将故障级别置为高；否则将故障级别置为普通。

11.根据权利要求9所述的装置，其特征在于，所述保留策略还包括：当两端设备组的故障级别相同时，保留有成员设备离开前堆叠系统主设备所在的设备组、保留设备数量多的设备组、保留具有最高堆叠优先级的成员设备所在的设备组、或保留具有指定编号的成员设备所在的设备组。

12.根据权利要求8所述的装置，其特征在于，所述分裂检测报文还携带有设备组的活跃标识ActiveID；

所述装置还包括：

决策结果发送单元，用于将本端设备组应用保留策略的决策结果发送给对端设备组；

决策结果接收单元，用于接收对端设备组应用保留策略的决策结果；

决策结果确认单元，用于当两端的决策结果相同时，按照决策结果保留本端设备组或关闭本端设备组的业务端口；否则根据ActiveID来决定要保留的设备组。

13.根据权利要求8所述的装置，其特征在于，所述分裂检测报文还携带有设备组的ActiveID和保留策略；

所述分裂决策单元具体用于：比较本端设备组的保留策略和对端设备组的保留策略，如果相同则应用保留策略决策出要保留的设备组；否则根据ActiveID来确定要保留的设备组。

14.根据权利要求8所述的装置，其特征在于，所述分裂检测报文为链路聚合控制协议LACP报文。