CN102244589B

CN102244589B - 处理虚拟交换单元系统中链路故障的方法及对端设备

Info

Publication number: CN102244589B
Application number: CN2011102026426A
Authority: CN
Inventors: 石伟玉; 陈佑建
Original assignee: Beijing Star Net Ruijie Networks Co Ltd
Current assignee: Beijing Star Net Ruijie Networks Co Ltd; Ruijie Networks Co Ltd
Priority date: 2011-07-19
Filing date: 2011-07-19
Publication date: 2013-12-25
Anticipated expiration: 2031-07-19
Also published as: CN102244589A

Abstract

本发明涉及一种处理虚拟交换单元系统中链路故障的方法及对端设备，方法包括：接收虚拟交换单元系统各成员设备发送的主用设备信息；通过比对所述各成员设备发送的主用设备信息是否一致，判断所述虚拟交换单元系统是否发生虚拟交换链路故障；若所述各成员设备发送的主用设备信息不一致，则从所述虚拟交换单元系统的成员设备中选择一个作为转发主用设备，将与所述虚拟交换单元系统中被选择为转发主用设备以外的其余成员设备连接的端口设置为阻塞状态。解决了在VSL链路故障后当主用设备出现故障，进入恢复模式的成员设备无法接替成为新主用设备的问题，增强了VSU组网应用的可靠性，有效提高了VSU网络的自行修复抗故障能力。

Description

处理虚拟交换单元系统中链路故障的方法及对端设备

技术领域

本发明涉及虚拟交换单元技术，尤其涉及一种处理虚拟交换单元系统中链路故障的方法及虚拟交换单元系统的上下联对端设备。

背景技术

虚拟交换单元(Virtual Switch Unit，VSU)系统是将传统网络结构中的两台或者多台设备通过虚拟交换链路(Virtual Switching Link，VSL)连接在一起，组成单一的逻辑实体，易于增加网络设备的带宽、提高报文处理能力、以及提供更加稳定的多链路备份。

如图1所示，汇聚层的VSU系统可以看作一台设备，与核心层、接入层进行交互。接入层的设备通过二层聚合链路接入到VSU汇聚层，VSU汇聚层通过三层聚合链路接入到核心层的设备，即接入层和核心层设备通常都是通过聚合链路连接到VSU系统中。VSU系统的成员设备之间通过内部VSL组成逻辑实体，并通过一定的选举协议确定主备身份：其中一台VSU成员设备选举为主用设备，其余的作为备用设备。

以两台成员设备组成的VSU系统为例，如果主用设备和备用设备之间的VSL链路出现故障，VSU系统将分成两个工作在VSU模式下的独立设备，备用设备也会切换成为主用设备，但由于原来的主用设备仍然在运行，此时VSU系统中就会存在两台全局配置完全相同的主用设备，这些主用设备同时接入到网络中，引起IP地址冲突、协议计算错误等一系列问题。因此，对于VSU系统需要提供一种检测出现多主用设备冲突的方法。

现有技术中，针对上述VSU系统可能出现多个主用设备的问题，通常采用多Active检测(Multi-Active Detection，MAD)机制来解决。MAD机制主要有：利用双向转发检测(Bidirectional Forwarding Detection，BFD)技术、利用链路聚合控制协议(Link Aggregation Control Protocol，LACP)检测技术及利用免费地址解析协议(Address Resolution Protocol，ARP)检测技术等。

BFD技术如图2所示，在VSU系统的两台成员设备上各选取一个路由口，用来配置不同网段的IP地址，以建立连接，组成用于传输BFD检测消息的BFD心跳线。当VSL正常工作时，BFD会话处于关闭(down)状态；当VSL出现故障时，BFD检测功能被激活，两台成员设备通过BFD心跳线建立会话交换信息，检测出VSU系统当前存在双主用设备的情况。当检测出双主用设备时，非主用设备关闭自身的除了VSL端口和例外端口之外的所有端口，进入恢复模式。其中，例外端口是在配置VSU系统时，事先把一些端口定义为例外端口，以在进入恢复模式时不关闭该端口。

LACP检测技术如图3所示，VSU系统与上下联对端设备进行跨成员设备聚合，VSU系统的各成员设备向上下联对端设备发送LACP报文。该LACP报文预留字段中携带ACTVIE_ID参数，ACTVIE_ID表示VSU主用设备号，其值由作为主用设备的成员设备编号决定。当上下联对端设备接收到该LACP报文，发现其中的预留字段不为0，确定该LACP报文的发送端是VSU系统的成员设备，则将该LACP报文从其他汇聚成员端口转发出去。当VSU系统的成员设备收到LACP报文后，把接收到的LACP报文中的ACTIVE_ID参数的值与自身ACTIVE_ID进行比较，如果相同，则表示VSL正常，VSU系统中只有一个主用设备；如果不同，则表示VSL故障，VSU系统中有多个主用设备，从而检测出冲突。当检测出多主用设备冲突，选取ACTIVE_ID较小的成员设备继续工作，其余成员设备关闭本地除了VSL端口和例外端口之外的所有业务接口进入恢复模式。

免费ARP检测技术如图4所示，在VSU系统的成员设备之间增加一条ARP检测链路，并对免费ARP报文进行扩展，在扩展字段中携带当前VSU系统主用设备的ACTVIE_ID参数，方法与LACP检测技术类似。当检测出多主用设备冲突，选取ACTIVE_ID较小的设备继续工作，其余成员设备关闭本地除了VSL端口和例外端口之外的所有业务接口进入恢复模式。

现有技术存在的缺陷在于：当检测出多主用设备时，被选择为非主用的设备关闭除了VSL端口和例外端口之外的所有业务接口进入恢复模式，以保证VSU系统中只有一个主用设备正常工作，但是在VSL故障恢复前，当被选择为主用设备的成员设备运行也出现故障时，进入恢复模式的非主用设备将无法接替成为新的主用设备。

发明内容

本发明提出一种处理虚拟交换单元系统中链路故障的方法及虚拟交换单元系统的上下联对端设备，以解决在VSL故障后当主用设备出现故障，进入恢复模式的成员设备无法接替成为新主用设备的问题。

本发明提供了一种处理虚拟交换单元系统中链路故障的方法，包括：

接收虚拟交换单元系统各成员设备发送的主用设备信息；

通过比对所述各成员设备发送的主用设备信息是否一致，判断所述虚拟交换单元系统是否发生虚拟交换链路故障；

若所述各成员设备发送的主用设备信息不一致，则从所述虚拟交换单元系统的成员设备中选择一个作为转发主用设备，将与所述虚拟交换单元系统中被选择为转发主用设备以外的其余成员设备连接的端口设置为阻塞状态。

本发明还提供了一种虚拟交换单元系统的上下联对端设备，包括：

信息接收单元，用于接收虚拟交换单元系统各成员设备发送的主用设备信息；

判断单元，用于通过比对所述各成员设备发送的主用设备信息是否一致，判断所述虚拟交换单元系统是否发生虚拟交换链路故障；

处理单元，用于若所述各成员设备发送的主用设备信息不一致，则从所述虚拟交换单元系统的成员设备中选择一个作为转发主用设备，将与所述虚拟交换单元系统中被选择为转发主用设备以外的其余成员设备连接的端口设置为阻塞状态。

本发明提供的处理虚拟交换单元系统中链路故障的方法及虚拟交换单元系统的上下联对端设备，通过将与未被选择为转发主用设备的其余成员设备相连的端口设置为阻塞状态，使得未被选择为转发主用设备的其余成员设备仍处于正常工作状态且不会转发报文影响转发主用设备的报文转发，解决了在VSL链路故障后当主用设备出现故障，进入恢复模式的成员设备无法接替成为新主用设备的问题，增强了VSU组网应用的可靠性，有效提高了VSU网络的自行修复抗故障能力。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为汇聚层的VSU系统的结构示意图；

图2为BFD技术的应用示意图；

图3为LACP检测技术的应用示意图；

图4为免费ARP检测技术的应用示意图；

图5为本发明实施例提供的一种处理虚拟交换单元系统中链路故障的方法的流程图；

图6为本发明实施例提供的另一种处理虚拟交换单元系统中链路故障的方法的流程图；

图7为本发明实施例提供的处理虚拟交换单元系统中链路故障的方法中免费ARP报文格式示意图；

图8为本发明实施例提供的处理虚拟交换单元系统中链路故障的方法应用的VSU系统示意图；

图9为本发明实施例提供的处理虚拟交换单元系统中链路故障的方法中逻辑端口组的示意图；

图10a为本发明实施例提供的处理虚拟交换单元系统中链路故障的方法的一种应用环境示意图；

图10b为本发明实施例提供的处理虚拟交换单元系统中链路故障的方法的另一种应用环境示意图；

图11为本发明实施例提供的虚拟交换单元系统的上下联对端设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图5为本发明实施例提供的一种处理虚拟交换单元系统中链路故障的方法的流程图。如图5所示，处理方法包括：

步骤51、接收VSU系统各成员设备发送的主用设备信息；

步骤52、通过比对所述各成员设备发送的主用设备信息是否一致，判断所述VSU系统是否发生虚拟交换链路故障；

步骤53、若所述各成员设备发送的主用设备信息不一致，则从所述VSU系统的成员设备中选择一个作为转发主用设备，将与所述VSU系统中被选择为转发主用设备以外的其余成员设备连接的端口设置为阻塞状态。

本实施例中，当VSL故障导致VSU系统中出现多主用设备时，上下联对端设备根据收到的主用设备信息，检测出VSU系统中存在多主用设备的情况，从而选举出一台转发主用设备为网络提供转发任务，并把自身与其余VSU系统成员设备相连的汇聚成员端口设置成阻塞(block)状态。这样，处于阻塞状态的汇聚成员端口将不能转发报文，只能接收报文，所有的数据流报文就只能经由转发主用设备进行转发。

本发明实施例提供的处理VSU系统中链路故障的方法还可包括：

再次接收所述虚拟交换单元系统各成员设备发送的主用设备信息；

通过比对所述各成员设备发送的主用设备信息是否一致，判断所述VSU系统是否发生虚拟交换链路故障；

若所述各成员设备发送的主用设备信息一致，则将设置为阻塞状态的端口恢复为转发状态。

接收VSU系统各成员设备发送的主用设备信息的同时，还可包括：接收所述各成员设备发送的链路故障信息，所述链路故障信息为与发送所述链路故障信息的成员设备之间的链路发生故障的上下联对端设备的数量。

从所述VSU系统的成员设备中选择一个作为转发主用设备的过程，包括：从所述虚拟交换单元系统的成员设备中，选择发送的链路故障信息中链路发生故障的上下联对端设备的数量最少的成员设备作为转发主用设备。

从所述VSU系统的成员设备中选择一个作为转发主用设备之前，还可包括：

判断不一致的所述主用设备信息是否是在收到所述各成员设备发送的主用设备信息一致后，第一次接收到的主用设备信息，所述主用设备信息为作为主用设备的成员设备编号；

从所述VSU系统的成员设备中选择一个作为转发主用设备的过程，包括：

若是第一次，则从所述VSU系统中选择发送的主用设备信息的值最小的成员设备作为转发主用设备，否则，保持之前选择的主用设备不变。

上述步骤51～步骤53的执行主体可为上述步骤51～步骤53中VSU系统的上下联对端设备。

上述主用设备信息及链路故障信息可通过链路聚合控制协议(LinkAggregation Control Protocol，LACP)、双向转发检测(Bidirectional ForwardingDetection，BFD)、链路层发现协议(Link Layer Discovery Protocol，LLDP)、标签分发协议(Label Distribution Protocol，LDP)、免费ARP等协议，从VSU系统的各成员设备发送到上下联对端设备。

在VSL故障期间，当进行转发的转发主用设备也出现故障时，上下联对端设备会根据收到的主用设备信息选举出新的转发主用设备。具体地，将与出现故障的转发主用设备互连的汇聚成员端口的状态设置成阻塞(block)状态，并将与重新选举出的转发主用设备互连的汇聚成员端口从阻塞(block)状态转化为转发(forwarding)状态。这样，后续所有的数据流报文仅经由重新选举出的转发主用设备进行转发。

当VSL故障恢复，VSU系统中各成员设备通过VSL恢复成正常的VSU主备模式，则各成员设备后续发送的主用设备信息一致，上下联对端设备收到后，把所有汇聚成员端口中处于阻塞(block)状态的成员端口都转为转发(forwarding)状态。

需要注意的是：转发主用设备是由VSU系统的上下联对端设备选择出来的，而主用设备是VSU系统内部各成员设备通过VSL选举出来或者在VSL故障时备用设备自动切换得到的。

图6为本发明实施例提供的另一种处理虚拟交换单元系统中链路故障的方法的流程图。本实施例中，VSU系统中各成员设备定期向上下联设备发送免费ARP报文，也就是说，VSU系统中各成员设备采用免费ARP协议向上下联对端设备发送主用设备信息及链路故障信息。如图6所示，处理方法包括：

步骤61、VSU系统的上下联对端设备接收VSU系统中各成员设备发送的免费ARP报文。

免费ARP报文格式如图7所示，扩展了字段，用来携带主用设备信息和链路故障信息。用来携带主用设备信息的字段定义为ACTIVE_ID，当主设备信息为VSU系统中作为主用设备的成员设备编号时，ACTIVE_ID的值为成员设备编号。例如编号为1的成员设备作为主用设备时，ACTIVE_ID的值为1，编号为2的成员设备作为主用设备时，ACTIVE_ID的值为2。本领域技术人员应理解为，主用设备信息还可为VSU系统中作为主用设备的成员设备的MAC地址等，只要通过ACTIVE_ID的值能够确定VSU系统中哪一个成员设备为主用设备即可。

当上下联对端设备从VSU系统各成员设备接收到的免费ARP报文的ACTIVE_ID值相同时，表明此时VSU系统只有一个主用设备，VSL正常；当上下联对端设备从VSU系统各成员设备接收到的免费ARP报文的ACTIVE_ID值不同时，表明此时VSU系统存在多个主用设备，VSL故障。

用来携带链路故障信息的字段为FAULT。如FAULT的值为0，表示发送该免费ARP报文的成员设备与上下联对端设备之间的互联链路均正常，没有出现故障；该FAULT的值为非0，表示发送该免费ARP报文的成员设备与上下联对端设备之间的互联链路发生故障，且该FAULT的值等于与发送该免费ARP报文的成员设备之间链路发生故障的上下联对端设备的个数。

这里，VSU系统的成员设备与上下联对端设备之间链路发生的故障，指一个成员设备与一个上下联对端设备之间的所有链路都断开，对应的所有成员端口的状态都为关闭(down)状态。例如，当VSU系统中，某一成员设备与一个上下联对端设备间的链路发生故障，则该成员设备能够发送出去的免费ARP报文中FAULT＝1。相应地，该成员设备与N个上下联对端设备之间链路发生故障，则该成员设备能够发送出去的免费ARP报文中FAULT＝N。

免费ARP报文的原始部分中，发送端IP和目的IP都用发送报文端自己的IP，源MAC是发送免费ARP报文的成员设备的MAC，目的MAC是广播。

步骤62、上下联对端设备比对各成员设备发送的免费ARP报文中ACTIVE_ID的值是否一致，若一致，说明VSL正常，保持自身与VSU系统各成员设备连接的端口状态不变；若不一致，说明发送免费ARP报文的VSU系统中VSL故障，则执行步骤63。

步骤63、上下联对端设备从发送免费ARP报文的VSU系统中选择一个成员设备作为转发报文的转发主用设备，将与所述VSU系统中被选择为转发主用设备以外的其余成员设备连接的端口设置为阻塞(block)状态。

具体地，上下联对端设备先比较各成员设备发送的免费ARP报文中FAULT的值，当FAUTL值不同时，从VSU系统中选择发送的免费ARP报文中FAULT值最小的成员设备作为转发报文的转发主用设备，将VSU系统中的其余成员设备作为非转发主用设备，将与转发主用设备相连的端口设置为转发(forwarding)状态，并将自身与非转发主用设备互联的汇聚成员端口设置成阻塞(block)状态。

当VSU系统中各成员设备发出的免费ARP报文中FAULT的值相同时，可以从VSU系统中选择任意一台成员设备作为转发报文的转发主用设备。为了避免频繁的二次切换，在选择转发主用设备前，可先判断接收到的VSU系统各成员设备发送的前一个免费ARP报文的ACTIVE_ID值是否一致，也即判断当前接收的免费ARP报文是否是在收到所述各成员设备发送的主用设备信息一致后第一次接收到的免费ARP报文，若VSU系统各成员设备发送的前一个免费ARP报文的ACTIVE_ID值一致，也即上述步骤61中上下联对端设备接收的免费ARP报文是在收到所述各成员设备发送的主用设备信息一致后第一次接收到的免费ARP报文，则从VSU系统中选取发送免费ARP报文中ACTIVE_ID最小的成员设备作为转发主用设备；否则，说明VSU系统发生VSU故障上下联对端设备选择转发主用设备时，非转发主用设备与上下联对端设备之间的链路发生故障，之后非转发主用设备与上下联对端设备之间的链路故障恢复，而VSU系统中VSL故障仍未恢复，导致未被选择为转发主用设备的成员设备恢复发送免费ARP报文，使得上下联对端设备接收到转发主用设备及VSU系统中其余成员设备发送的ACTIVE_ID值不同的多个免费ARP报文，这种情况下，保持之前选择的转发主用设备不变，以避免重复切换。

VSU系统中，每个成员设备与上下联对端设备互联的汇聚接口可能存在多个成员端口，为了便于描述，将VSU系统的每个成员设备分别与上下联对端设备互联的汇聚接口可能包含的所有成员端口，视为一个逻辑端口组。本领域技术人员应理解为：上联或下联对端设备上某一个逻辑端口组在一个周期内未收到免费ARP报文，如可能由于当VSU系统中主用设备重启、主用设备与上下联对端设备相连的链路断开或是主用设备CPU处理负荷太高等原因而导致，则对该未收到免费ARP报文的逻辑端口组作以下处理：若该逻辑端口组物理状态为关闭(down)状态，则不作处理；若逻辑端口组物理状态为开启(up)状态，则设置为阻塞(block)状态。上联或下联对端设备对于其余有收到免费ARP报文的逻辑端口组作以下处理：如果有多个逻辑端口组收到免费ARP报文，则按以上比较免费ARP报文参数方式处理；如果只剩一个逻辑端口组收到免费ARP报文，则不管该逻辑端口组之前是什么状态，直接设置为转发(forwarding)状态，与该端口相连的主用设备即成为转发主用设备。

步骤64、上下联对端设备再次接收VSU系统各设备成员发送的免费ARP报文。

具体地，当VSU系统中的VSL恢复时，各主用设备即VSU系统中的所有成员设备通过VSL重新选举，其中一个成员设备被选举为主用设备，其余未被选举为主用设备的成员设备自动重启，重启完成后，成为VSU系统的备用设备。VSU系统中，重新恢复成主备模式的各成员设备均向上行联对端设备发送免费ARP报文。

步骤65、上下联对端设备根据再次接收到的免费ARP报文修改相应的端口状态。

由于VSL恢复后，只有一个成员设备选举为主用设备，其余成员设备都为备用设备，因此，各成员设备发出的免费ARP报文中ACTIVE_ID的值都一样。如选举出编号为1的成员设备为主用设备，则各成员设备发送的免费ARP报文中的ACTIVE_ID的值都为1；如选举出编号为2的成员设备为主用设备，则各成员设备发送的免费ARP报文中的ACTIVE_ID的值都为2。

上下联对端设备在各成员设备发送的免费ARP报文中ACTIVE_ID的值相同的情况下，把所有与VSU系统相连且处于阻塞状态的端口都置为转发状态。

本实施例中，免费ARP报文由VSU系统各成员设备周期性发送，发送周期可以根据实际应用如对网络中断时间的要求进行调节。对上下联对端设备而言，当VSL故障时，VSU成员设备发送的免费ARP报文中ACTIVE_ID的值不同，可以将免费ARP报文称为VSL链路故障通告报文；当VSL链路恢复，VSU成员设备发送的免费ARP报文中ACTIVE_ID的值相同，可以把免费ARP报文称为VSL恢复通告报文。

在VSL故障期间，当正在运行的转发主用设备出现整机故障时，则与该转发主用设备相连的上下联对端设备的端口状态变为关闭(down)状态，收不到任何通告报文。如果上下联对端设备上与另一台主用设备相连的端口可以收到通告报文，则该端口自动由阻塞(block)状态转成转发(forwarding)状态，实现转发主用设备的切换。当出现整机故障的主用设备重新启动时，因检测到VSL故障，则启动后仍然为VSU系统中的主用设备，与转发主用设备一起，继续发送链路故障通告报文，再由上下联对端设备选举转发主用设备。

当VSL故障恢复时，各主用设备则通过VSL实现主备选举，恢复到VSU系统的主备模式，并继续发送VSL恢复通告报文给上下联对端设备。上下联对端设备收到VSL恢复通告报文后，把自身所有与VSU系统相连的端口都转为转发(forwarding)状态。因此，不管VSL是否有故障，本实施例都能实现主备设备间的转换，即：VSL无故障时，通过VSL选举主用设备和备用设备；VSL故障期间，通过上下联对端设备修改自身端口状态，选择转发主用设备。

下面以如图8所示的VSU系统为例，对处理VSU系统中链路故障的方法进行更为详细说明。VSU系统包括两个成员设备：设备编号1的汇聚层设备A和设备编号2的设备B，汇聚层设备A与汇聚层设备B之间通过VSL连接。下联对端设备D通过二层聚合链路接入到VSU汇聚层，VSU汇聚层通过三层聚合链路接入到上联对端设备C。C1、D1分别为上下联对端设备C、D与汇聚层设备A互联的逻辑端口组；C2、D2分别为上下联对端设备C、D与汇聚层设备B互联的逻辑端口组。如图9所示，每个VSU成员端口与上下联对端设备互联都通过一个逻辑端口组，故障通告报文和故障恢复通告报文均在逻辑端口组上进行收发：当上下联对端设备从逻辑端口组中的任何1个成员端口收到故障通告报文或故障恢复通告报文时，即认为收到从该VSU系统成员设备发送的通告报文。

假设VSU系统开始运行时，汇聚层设备A为主用设备，汇聚层设备B为备用设备。

当汇聚层设备A、汇聚层设备B与上联对端设备C、下联对端设备D相连的链路正常时，执行如下操作：

当VSL正常时，汇聚层设备A和汇聚层设备B周期性的发送通告报文给上联对端设备C、下联对端设备D。二者发送的通告报文中扩展字段的值相同，均为：FAULT＝0 ACTIVE_ID＝1。上下联对端设备确定收到的是ACTIVE值相同的VSL恢复通告报文，自身又没有处于阻塞(block)状态的汇聚成员端口，因此，对接收到的VSL恢复通告报文不作处理。

当VSL故障时，作为备用设备的汇聚层设备B由于无法通过VSL接收到作为主用设备的汇聚层设备A发来的信息，就认为作为主用设备的汇聚层设备A出现故障，而自己切换成为新主用设备。作为主用设备的汇聚层设备A、汇聚层设备B向上联对端设备C、下联对端设备D发送故障通告报文。汇聚层设备A发送的通告报文中：FAULT＝0 ACTIVE_ID＝1；汇聚层设备B发送的通告报文中：FAULT＝0 ACTIVE_ID＝2。

上联对端设备C、下联对端设备D对比汇聚层设备A与汇聚层设备B发送的通告报文中的ACTIVE_ID的值，由于二者发送的通告报文中的ACTIVE_ID的值不同，因而可判定接收到的是故障通告报文。由于两个作为主用设备的汇聚层设备A、汇聚层设备B发出的通告报文中FAULT参数值一样，则选取ACTIVE_ID值较小的汇聚层设备A为转发主用设备。因此上联对端设备C、下联对端设备分别把与汇聚层设备A相连的逻辑端口组C1、逻辑端口组D1设置为转发(forwarding)状态，把与汇聚层设备B相连的逻辑端口组C2、逻辑端口组D2置为阻塞(block)状态。

VSU系统继续运行一段时间后，当作为转发主用设备的汇聚层设备A出现如掉电等整机故障，而导致上联对端设备C、下联对端设备D与汇聚层设备A相连的逻辑端口组C1、逻辑端口组D1的状态变为关闭(down)。此时，只有与汇聚层设备B相连的逻辑端口组C2、逻辑端口组D2能收到通告报文。则把与汇聚层设备B相连的逻辑端口组C2、逻辑端口组D2由阻塞(block)状态转为转发(forwarding)状态，切换汇聚层设备B成为转发主用设备。

备注：这里整机故障，简单指设备掉电等故障。

当作为非转发主用设备的汇聚层设备A整机重启，故障恢复后，会继续和作为转发主用设备的汇聚层设备B一起发送故障通告报文给上下联对端设备。汇聚层设备A发送的通告报文中：FAULT＝0 ACTIVE_ID＝1，汇聚层设备B发送的通告报文中：FAULT＝0 ACTIVE_ID＝2。由于上联对端设备C、下联对端设备D不是第一次在收到VSL恢复通告报文后比较故障通告报文，此时即使故障通告报文中的FAULT值一样，也不比较第二个参数ACTIVE_ID，还是由汇聚层设备B作为转发主用设备。

备注：汇聚层设备A整机重启时，因检测到VSL故障，则启动后还是为VSU系统中的主用设备。

当VSL故障恢复，汇聚层设备A、汇聚层设备B通过VSL恢复成VSU主备模式，并同时发送ACTIVE_ID值一样的VSL恢复通告报文给上联对端设备C、下联对端设备D。上联对端设备C、下联对端设备D收到VSL恢复通告报文后，把与汇聚层设备A、汇聚层设备B相连且处于阻塞(block)状态的逻辑端口组C1、逻辑端口组D1都变为转发(forwarding)状态，恢复正常的VSU主备模式。

备注：如果VSL恢复，则汇聚层设备A和汇聚层设备B会重新进行VSU主备选举，被选为备用的汇聚层设备将重启。备用设备重启过程中，只有主用设备会发送通告报文，上下联对端设备对主用设备发送的通告报文处理方式类似上述作为转发主用设备时的汇聚层设备A出现如掉电等整机故障的处理方式。

利用上述处理故障的方法，当网络中可能出现如下故障时，处理方式如下：

第一种故障情况：当VSL出现故障的同时，汇聚层设备A、汇聚层设备B也出现整机故障，那么，上下联对端设备逻辑端口组接口中无法收到报文，不作处理。

第二种故障情况：当VSL出现故障的同时，汇聚层设备A与上联对端设备C之间的链路也有故障。此时，汇聚层设备A发送的通告报文中：FAULT＝1 ACTIVE_ID＝1；汇聚层设备B发送的通告报文中：FAULT＝0 ACTIVE_ID＝2。由于上联对端设备C的逻辑端口组C1接口状态为关闭(down)状态，无法收到故障通告报文，则不作处理，逻辑端口组C2收到通告报文中FAULT＝0 ACTIVE_ID＝2，则设置为转发(forwarding)状态；下联对端设备D的逻辑端口组D1收到通告报文中FAULT＝1 ACTIVE_ID＝1，逻辑端口组D2收到通告报文中FAULT＝0 ACTIVE_ID＝2，通过比较通告报文中FAULT的值，把收到的通告报文中FAULT值较大的逻辑端口组D1置为阻塞(block)状态，把收到的通告报文中FAULT值较小的逻辑端口组D2置为转发(forwarding)状态。此时上联对端设备C、下联对端设备D都选择汇聚层设备B作为转发主用设备。

第三种故障情况：当VSL正常，而汇聚层设备A与上联对端设备C之间的链路出现故障。此时，A发送的通告报文：FAULT＝1 ACTIVE_ID＝1；B发送的通告报文：FAULT＝0 ACTIVE_ID＝1。上联对端设备C的逻辑端口组C1收不到故障通告报文，则不作处理，逻辑端口组C2收到的通告报文中FAULT＝0 ACTIVE_ID＝1，由于逻辑端口组C2本身就处于转发(forwarding)状态，因此，也不作处理；下联对端设备D逻辑端口组D1收到的通告报文中FAULT＝1 ACTIVE_ID＝1，逻辑端口组D2收到的通告报文中FAULT＝0ACTIVE_ID＝1，由于两个逻辑端口组收到的通告报文中ACTIVE_ID值相同，确定通告报文为VSL恢复通告报文，且由于逻辑端口组D1、逻辑端口组D2本身为转发(forwarding)状态，因此，不作处理。

第四种故障情况：VSL故障期间，汇聚层设备A由于CPU利用率太高等原因而导致无法发送通告报文，则上下联对端设备按上述步骤63中的说明进行处理，选取汇聚层设备B作为转发主用设备。

第五种故障情况：VSL故障期间，汇聚层设备A或汇聚层设备B与上联对端设备C、下联对端设备D之间的链接出现出故障，处理过程类似上述第二种故障情况下的处理。

第六种故障情况：VSL链路正常时，汇聚层设备A或汇聚层设备B与上联对端设备C、下联对端设备D之间的链接出现出故障，处理过程类似上述第三种故障情况下的处理。

上述处理故障的方法也可应用于如图10a所示的环境，即上下联对端设备可以是多台，但单个VSU成员设备与单个上下联对端设备连接的AP口内只有一个成员端口。当单个VSU成员设备与单个上下联设备连接的AP口内有多个成员端口时，如图10b所示，此时，与单个上下联设备连接的多个成员端口视为一个逻辑端口组，上述故障通告报文及VSL恢复通告报文在这个逻辑端口组上进行收发。

上述实施例利用现有的网络结构，在VSL出现故障的情况下，实现多主用设备冲突的检测，并利用上下联对端设备对转发主用设备进行选取和切换，使得VSU系统中各成员设备间无需增加额外链路，并有效地解决了VSU系统出现多主用设备时所带来的IP冲突、网络不通等问题。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成，前述的程序可以存储于一计算机可读取存储介质中，该程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

图11为本发明实施例提供的虚拟交换单元系统的上下联对端设备的结构示意图。如图11所示，VSU系统的上下联对端设备包括：信息接收单元111、设备信息判断单元112及处理单元113。

信息接收单元111用于接收VSU系统各成员设备发送的主用设备信息；设备信息判断单元112用于通过比对所述各成员设备发送的主用设备信息是否一致，判断所述VSU系统是否发生VSL故障；处理单元113用于若所述各成员设备发送的主用设备信息不一致，则从所述VSU系统的成员设备中选择一个作为转发主用设备，将与所述VSU系统中被选择为转发主用设备以外的其余成员设备连接的端口设置为阻塞状态。

所述信息接收单元111还可用于再次接收所述虚拟交换单系统各成员设备发送的主用设备信息；所述设备信息判断单元112还可用于通过比对所述各成员设备发送的主用设备信息是否一致，判断所述VSU系统是否发生VSL故障；所述处理单元113还可用于若所述各成员设备发送的主用设备信息一致，则将设置为阻塞状态的端口恢复为转发状态。

所述信息接收单元111还可用于在接收VSU系统各成员设备发送的主用设备信息的同时，接收所述各成员设备发送的链路故障信息，所述链路故障信息为与发送所述链路故障信息的成员设备之间的链路发生故障的上下联对端设备的数量。

所述处理单元113还可具体用于从所述VSU系统的成员设备中，选择发送的链路故障信息中链路发生故障的上下联对端设备的数量最少的成员设备作为转发主用设备。

本发明实施例提供的VSU系统的上下联对端设备还可包括：接收次数判断单元，用于从所述VSU系统的成员设备中选择一个作为转发主用设备之前，判断不一致的所述主用设备信息是否是在收到所述各成员设备发送的主用设备信息一致后第一次接收到的主用设备信息，所述主用设备信息为作为主用设备的成员设备编号，详见上述方法实施例中的说明。

所述处理单元113还可具体用于若是第一次，则从所述VSU系统中选择发送的主用设备信息的值最小的成员设备作为转发主用设备，否则，保持之前选择的转发主用设备不变。

所述处理单元113还可用于将物理状态为开启且未收到所述VSU系统成员设备的主用设备信息的端口设置为阻塞状态。

所述处理单元113还可用于若仅收到所述VSU系统中一个成员设备发送的主用设备信息，则将与所述VSU系统中其余成员设备连接的端口设置为阻塞状态。

所述处理单元113还可用于在与选择的转发主用设备相连的端口的物理状态转变为关闭状态的情况下，将自身收到其余成员设备发送的主用设备信息的端口设置为转发状态。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种处理虚拟交换单元系统中链路故障的方法，其特征在于，包括：

接收虚拟交换单元系统各成员设备发送的主用设备信息；

2.根据权利要求1所述的处理虚拟交换单元系统中链路故障的方法，其特征在于，还包括：

3.根据权利要求1或2所述的处理虚拟交换单元系统中链路故障的方法，其特征在于，接收虚拟交换单元系统各成员设备发送的主用设备信息的同时，还包括：接收所述各成员设备发送的链路故障信息，所述链路故障信息为与发送所述链路故障信息的成员设备之间的链路发生故障的上下联对端设备的数量。

4.根据权利要求3所述的处理虚拟交换单元系统中链路故障的方法，其特征在于，从所述虚拟交换单元系统的成员设备中选择一个作为转发主用设备的过程，包括：从所述虚拟交换单元系统的成员设备中，选择发送的链路故障信息中链路发生故障的上下联对端设备的数量最少的成员设备作为转发主用设备。

5.根据权利要求3所述的处理虚拟交换单元系统中链路故障的方法，其特征在于，在所述各成员设备发送的链路故障信息一致的情况下，从所述虚拟交换单元系统的成员设备中选择一个作为转发主用设备之前，还包括：

判断不一致的所述主用设备信息是否是在收到所述各成员设备发送的主用设备信息一致后第一次接收到的主用设备信息，所述主用设备信息为作为主用设备的成员设备编号；

从所述虚拟交换单元系统的成员设备中选择一个作为转发主用设备的过程，包括：

若是第一次，则从所述虚拟交换单元系统中选择发送的主用设备信息的值最小的成员设备作为转发主用设备，否则，保持之前选择的转发主用设备不变。

6.根据权利要求1或2所述的处理虚拟交换单元系统中链路故障的方法，其特征在于，将自身与所述虚拟交换单元系统成员设备相连的、物理状态为开启且未收到所述虚拟交换单元系统成员设备的主用设备信息的端口设置为阻塞状态。

7.根据权利要求1或2所述的处理虚拟交换单元系统中链路故障的方法，其特征在于，还包括：

在与选择的转发主用设备相连的端口的物理状态转变为关闭状态的情况下，将自身收到其余成员设备发送的主用设备信息的端口设置为转发状态。

8.一种虚拟交换单元系统的上下联对端设备，其特征在于，包括：

设备信息判断单元，用于通过比对所述各成员设备发送的主用设备信息是否一致，判断所述虚拟交换单元系统是否发生虚拟交换链路故障；

9.根据权利要求8所述的虚拟交换单元系统的上下联对端设备，其特征在于，

所述信息接收单元还用于再次接收所述虚拟交换单元系统各成员设备发送的主用设备信息；

所述设备信息判断单元还用于通过比对所述各成员设备发送的主用设备信息是否一致，判断所述虚拟交换单元系统是否发生虚拟交换链路故障；

所述处理单元还用于若所述各成员设备发送的主用设备信息一致，则将设置为阻塞状态的端口恢复为转发状态。

10.根据权利要求8或9所述的虚拟交换单元系统的上下联对端设备，其特征在于，所述信息接收单元还用于在接收虚拟交换单元系统各成员设备发送的主用设备信息的同时，接收所述各成员设备发送的链路故障信息，所述链路故障信息为与发送所述链路故障信息的成员设备之间的链路发生故障的上下联对端设备的数量。

11.根据权利要求10所述的虚拟交换单元系统的上下联对端设备，其特征在于，所述处理单元具体用于从所述虚拟交换单元系统的成员设备中，选择发送的链路故障信息中链路发生故障的上下联对端设备的数量最少的成员设备作为转发主用设备。

12.根据权利要求10所述的虚拟交换单元系统的上下联对端设备，其特征在于，还包括：

接收次数判断单元，用于在所述各成员设备发送的链路故障信息一致的情况下，在从所述虚拟交换单元系统的成员设备中选择一个作为转发主用设备之前，判断不一致的所述主用设备信息是否是在收到所述各成员设备发送的主用设备信息一致后第一次接收到的主用设备信息，所述主用设备信息为作为主用设备的成员设备编号；

所述处理单元，具体用于若是第一次，则从所述虚拟交换单元系统中选择发送的主用设备信息的值最小的成员设备作为转发主用设备，否则，保持之前选择的转发主用设备不变。

13.根据权利要求8或9所述的虚拟交换单元系统的上下联对端设备，其特征在于，所述处理单元还用于将物理状态为开启且未收到所述虚拟交换单元系统成员设备的主用设备信息的端口设置为阻塞状态。

14.根据权利要求8或9所述的虚拟交换单元系统的上下联对端设备，其特征在于，所述处理单元还用于在与选择的转发主用设备相连的端口的物理状态转变为关闭状态的情况下，将自身收到其余成员设备发送的主用设备信息的端口设置为转发状态。