CN102664755A

CN102664755A - 控制通道故障确定方法及其装置

Info

Publication number: CN102664755A
Application number: CN2012101191882A
Authority: CN
Inventors: 王�锋; 游君平
Original assignee: Hangzhou H3C Technologies Co Ltd
Current assignee: New H3C Technologies Co Ltd
Priority date: 2012-04-20
Filing date: 2012-04-20
Publication date: 2012-09-12
Anticipated expiration: 2032-04-20
Also published as: CN102664755B

Abstract

本发明提供了控制通道故障确定方法和装置。其中一种方法中，通过携带序列号的双向发包检测机制检测确定非主CPU和主CPU之间的控制通道是否故障，并在确定非主CPU和主CPU之间的控制通道故障时，进一步依据非主CPU回复的应答报文确定出所述故障的类型。

Description

控制通道故障确定方法及其装置

技术领域

本发明涉及网络通信技术，特别涉及控制通道故障确定方法及其装置。

背景技术

在网络通信中，典型的分布式网络设备结构如图1所示，其至少包括以下几个单板：主控板、线卡板、交换网板和背板。其中，主控板、线卡板以及交换网板上都包含至少一个CPU，选举主控板上的Main CPU作为分布式网络设备的主CPU，将剩余的CPU作为非主CPU，主CPU至各个非主CPU之间的链路称为控制通道，图1示出了控制通道。

控制通道用于完成整个分布式网络设备控制层面的相关功能，如果出现故障，必将影响整个分布式网络设备的运行。参见图2，图2示出了现有控制通道检测机制原理图。如图2所示，该控制通道检测机制包括以下步骤：

步骤201，主CPU定期在分布式网络设备中单播发送检测报文。

步骤202，分布式网络设备中每一非主CPU收到主CPU发送的检测报文后，立刻回复确认报文至主CPU。

步骤203，主CPU如果在发送检测报文之后的一段时间内接收到来自一非主CPU回复的确认报文，则认定该非主CPU状态OK，也进一步认定本主CPU与该非主CPU之间的控制通道正常，否则，直接认定该非主CPU故障，通过硬件控制信号直接重启该非主CPU。

也就是说，在现有控制通道检测机制中，只要主CPU在发送检测报文之后的一定时间内接收不到非主CPU回复的确认报文就直接确定该非主CPU故障。但是，这种确定非主CPU故障的方式太过笼统，完全缺乏对分布式网络设备内部控制通道拓扑结构的深入分析，事实上，主CPU接收不到非主CPU回复的确认报文，并非仅因为非主CPU故障，非主CPU状态OK、但非主CPU与主CPU之间的单向控制通道故障或者主CPU与非主CPU之间的单向控制通道故障都会导致主CPU无法接收到确认报文，而这些控制通道故障是现有控制通道检测机制无法检测出来的。

发明内容

本发明提供了分布式网络设备及其控制通道故障确定方法，避免现有控制通道检测机制笼统确定故障所带来的问题。

本发明提供的技术方案包括：

一种控制通道故障确定方法，该方法应用于包含主CPU和非主CPU的分布式网络设备；该方法包括：

主CPU接收非主CPU的检测触发后，通过至非主CPU的主用控制通道向非主CPU发送携带了第一序列号的检测报文；

主CPU在发送检测报文的设定时间内收到非主CPU回复的携带了第二序列号的应答报文，比较该应答报文携带的第二序列号是否与所述第一序列号一致，如果否，则确定主CPU至非主CPU的主用控制通道故障。

一种分布式网络设备上控制通道故障确定方法，所述分布式网络设备为分布式系统中的一个设备，包含主CPU和非主CPU，所述分布式系统由多个分布式网络设备逻辑组成；该方法包括：

从分布式系统中选择一个分布式网络设备上的主CPU作为系统主CPU；

分布式网络设备的主CPU被选择为系统主CPU时，通过至非系统主CPU的主用控制通道发送携带了序列号1的检测报文至非系统主CPU，并在发送该检测报文的第一设定时间内收到非系统主CPU回复的携带了序列号2的应答报文，比较该应答报文携带的序列号2是否与所述序列号1一致，如果否，则确定系统主CPU至非系统主CPU的主用控制通道故障；其中，非系统主CPU为分布式系统中除系统主CPU所在分布式网络设备之外任一分布式网络设备上的主CPU和非主CPU；

分布式网络设备上的主CPU未被选择为系统主CPU时，针对系统主CPU发送的检测报文回复应答报文，以及按照如权利要求1至3任一所述的主CPU执行的操作执行。

一种应用于控制通道故障确定的装置，该装置为分布式网络设备的主CPU；包括：

检测单元，用于接收非主CPU的检测触发后，通过至非主CPU的主用控制通道向非主CPU发送携带了第一序列号的检测报文；

第一故障确定单元，用于在所述检测单元发送检测报文的设定时间内收到非主CPU回复的携带了第二序列号的应答报文，比较该应答报文携带的第二序列号是否与所述第一序列号一致，如果否，则确定主CPU至非主CPU的主用控制通道故障。

一种应用于控制通道故障确定的装置，该装置为分布式网络设备的主CPU，所述分布式网络设备为分布式系统中的一个设备，所述分布式系统由多个分布式网络设备逻辑组成；所述装置包括：

选择模块，用于从分布式系统中选择一个分布式网络设备上的主CPU作为系统主CPU；

第一故障确定模块，用于在被选择为系统主CPU时，通过至非系统主CPU的主用控制通道发送携带了序列号1的检测报文至非系统主CPU，并在发送该检测报文的第一设定时间内收到非系统主CPU回复的携带了序列号2的应答报文，比较该应答报文携带的序列号2是否与所述序列号1一致，如果否，则确定系统主CPU至非系统主CPU的主用控制通道故障；其中，非系统主CPU为分布式系统中除系统主CPU所在分布式网络设备之外任一分布式网络设备上的主CPU和非主CPU；

第二故障确定模块，用于在未被选择为系统主CPU时，针对系统主CPU发送的检测报文回复应答报文，并包含如权利要求9至11任一所述装置所包含的单元。

由以上技术方案可以看出，本发明中，通过携带序列号的双向发检测报文机制检测控制通道是否故障，这相比于现有技术，一方面，能够实现控制通道故障的检测，另一方面，在接收不到非主CPU回复的确认报文就笼统地确定该非主CPU故障，避免现有控制通道检测机制笼统确定故障所带来的问题。

附图说明

图1示出了控制通道示意图；

图2示出了现有控制通道检测机制原理图；

图3为本发明实施例1提供的方法流程图；

图4为本发明实施例1的详细流程示意图；

图5为本实施例2提供的方法流程图；

图6为本发明实施例2提供的SPT树示意图；

图7为本发明实施例提供的装置1的结构图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

本发明提供的控制通道故障确定方法中，通过携带序列号的双向发检测报文机制检测控制通道是否故障，这相比于现有技术，一方面，能够实现控制通道故障的检测，另一方面，在接收不到非主CPU回复的确认报文就笼统地确定该非主CPU故障，避免现有控制通道检测机制笼统确定故障所带来的问题。下面通过两个实施例对本发明提供的方法进行描述：

实施例1：

本发明实施例1提供的方法应用于一个分布式网络设备中，该分布式网路设备的控制通道如图1所示。图3示出了本发明实施例1提供的方法。

参见图3，图3为本发明实施例1提供的方法流程图。如图3所示，该流程可包括以下步骤：

步骤301，主CPU接收任一非主CPU发送的检测触发，通过至非主CPU的主用控制通道向非主CPU发送携带了第一序列号的检测报文；

本步骤301中，所述检测触发是非主CPU在初始回复正常(NORMAL)时向主CPU发送检测开始报文实现的。而主CPU在接收到非主CPU发送的检测触发后才开始向该非主CPU发送检测报文进行检测，这避免了在该非主CPU未NORMAL之前，主CPU误以为该非主CPU故障。

另外，本步骤301中，如果主CPU与非主CPU之间仅存在一条控制通道，则将该仅存在的一条控制通道作为主CPU至非主CPU的主用控制通道，而如果存在两条以上的控制通道，则可选择其中一条作为主用控制通道，其他作为备用控制通道。

步骤302，主CPU在发送检测报文的设定时间内收到非主CPU回复的携带了第二序列号的应答报文，比较该应答报文携带的第二序列号是否与所述第一序列号一致，如果否，则确定主CPU至非主CPU的主用控制通道故障。

优选地，在步骤302比较出应答报文携带的第二序列号与所述第一序列号一致时，可直接确定主CPU和非主CPU之间的双向控制通道正常，之后在到达设定的检测时间，由主CPU继续发送携带了另一序列号的检测报文，并返回步骤302，其中，主CPU每次发送的检测报文所携带的序列号不同，比如，依次递增或者依次递减等，本发明并不具体限定。

下面对图3所示流程进行举例描述：

参见图4，图4为本发明实施例1的详细方法流程示意图。如图5所示，该流程可包括以下步骤：

步骤401，分布式网络设备中的每一非主CPU(以下简称CPU2)在自身状态为NORMAL后，向主CPU(以下简称CPU1)发送检测触发。

优选地，步骤401中，进一步包括：CPU2在发送检测触发后周期性地通过至CPU1的主用控制通道发送检测报文至CPU1。其中，CPU2周期性地发送检测报文，目的是为了CPU1及时、有效地确定出故障，具体见步骤405的描述。另外，CPU2发送的检测报文可携带序列号也可不携带序列号，本发明并不具体限定。

步骤402，CPU1收到CPU2发送的检测触发后，通过至CPU2的主用控制通道向CPU2单播发送携带第一序列号的检测报文。

步骤403，CPU2收到CPU1单播发送的携带第一序列号的检测报文后，单播回复携带第一序列号的应答报文至CPU1。

步骤404，CPU1在发送携带第一序列号的检测报文之后的设定时间(记为设定时间1)内收到CPU2发送的应答报文，则比较该应答报文携带的序列号是否与第一序列号一致，如果一致，则确定CPU1和CPU2之间的双向主用控制通道正常，如果不一致，则确定CPU1至CPU2的主用控制通道故障。

如果应答报文携带的序列号与第一序列号不一致，则表示CPU1发送的携带第一序列号的检测报文没有被CPU2接收到，因此，可以确定CPU1至CPU2的主用控制通道故障。

优选地，确定CPU1和CPU2之间的双向主用控制通道正常后，如果设定的检测时间到达，CPU1继续发送携带第二序列号的检测报文至CPU2，之后按照类似步骤403至步骤404的操作执行，只不过此时将步骤403至步骤404中的第一序列号替换为第二序列号。

步骤405，CPU1在设定时间1内未接收到CPU2回复的应答报文、且也未收到CPU2周期性发送的检测报文，则确定至CPU2的主用控制通道是否存在对应的备用控制通道，如果是，执行步骤406，否则，执行步骤407。

在未收到CPU2周期性发送的检测报文，首先可以确定CPU2至CPU1的主用控制通道故障，至于是单纯地CPU2至CPU1的主用控制通道故障还是CPU2与CPU1之间的双向主用控制通道故障，则还需要进一步细分，具体见步骤406。

步骤406，尝试通过该存在的备用控制通道发送未携带序列号的检测报文，在发送了该检测报文的设定时间内收到CPU2回复的应答报文，若该应答报文携带了第一序列号，则确定CPU2至CPU1的主用控制通道故障，若该应答报文未携带第一序列号，则尝试通过该存在的备用控制通道发送携带第三序列号的检测报文，在发送了该携带第三序列号的检测报文的设定时间内收到携带了第三序列号的应答报文，则确定CPU1与CPU2之间的双向主用控制通道故障，在发送了该携带第三序列号的检测报文的设定时间内未收到携带了第三序列号的应答报文，则确定CPU2故障。

步骤407，确定CPU2故障或者确定CPU2至CPU1的主用控制通道故障。

CPU1在该CPU1至CPU2的主用控制通道不存在对应的备用控制通道时，可以认为该CPU2处于独立的叶子节点，无法区分是控制通道故障还是CPU2本身故障，因此，可以视作CPU2故障或者确定CPU2至CPU1的主用控制通道故障。

至此，完成图4所示的流程。需要说明的是，上述步骤405至步骤407与步骤404并没有固定的时间先后顺序，可以同时进行。

优选地，本实施例1中，CPU1在确定出故障之后，可进一步针对确定出的不同类型的故障执行不同的修复操作，以便从根本上去除故障，具体为：

在确定出控制通道故障时，如果故障控制通道存在对应的备用控制通道，则将该故障控制通道切换至对应的备用控制通道，否则，隔离受到该故障控制通道影响的非主CPU；

在确定出非主CPU故障时，通过硬件复位信号复位重启该故障的非主CPU。

至此，完成实施例1的描述。

实施例1是以单一的分布式设备为例进行描述的。而随着分布式网络设备的虚拟化技术和集群技术的发展，出现了将多台分布式网络设备虚拟化一个逻辑实体或者集群一个更大的逻辑实体。其中，该逻辑实体可称为分布式系统。分布式系统中分布式设备数量比较多，相应地，控制通道也就比较多、且结构复杂，针对这种数目比较多、且结构复杂的分布式系统，现有并没有一种机制能够确定出该分布式系统中控制通道故障的方法。基于此，本发明还提供了该用于确定出分布式系统中控制通道故障的方法，具体如实施例2的描述。

实施例2：

参见图5，图5为本实施例2提供的方法流程图。如上所述，该流程应用于上述的分布式系统，具体包括图5所示的步骤：

步骤501，从分布式系统中选择一个分布式网络设备上的主CPU作为系统主CPU。

步骤502，分布式网络设备的主CPU被选择为系统主CPU时，通过至非系统主CPU的主用控制通道发送携带了序列号1的检测报文至非系统主CPU，并在发送该检测报文的第一设定时间内收到非系统主CPU回复的携带了序列号2的应答报文，比较该应答报文携带的序列号2是否与所述序列号1一致，如果否，则确定系统主CPU至非系统主CPU的主用控制通道故障。

其中，非系统主CPU为分布式系统中除系统主CPU所在分布式网络设备之外任一分布式网络设备上的主CPU和非主CPU。

步骤503，分布式网络设备上的主CPU未被选择为系统主CPU时，针对系统主CPU发送的检测报文回复应答报文，以及按照如实施例1中主CPU执行的操作执行。

下面重点描述步骤502。

在实施例1中，因为主CPU和非主CPU都处于同一分布式网络设备，主CPU可以单播发送携带序列号的检测报文给非主CPU，非主CPU也可单播应答，这对于主CPU和非主CPU的压力不大。但是，在包含数量较多比如4台，8台甚至16台分布式网络设备的分布式系统中，系统主CPU管理的CPU数量可以多达几十甚至几百个，并且，分布式网络设备虚拟化组成分布式系统之后，相互之间的拓扑结构也会灵活多变，如此，如果本实施例2还由系统主CPU通过单播方式检测与非系统主CPU之间的控制通道，会加大系统主CPU的压力。

基于此，上述步骤502中，系统主CPU通过至非系统主CPU的主用控制通道发送携带了序列号1的检测报文至非系统主CPU可通过以下两种方式实现：

方式1，广播机制：由系统主CPU在分布式系统内发送一个广播检测报文，以广播到非系统主CPU。但是由于分布式系统内部控制通道十分复杂，广播检测报文可能会在分布式系统内部产生广播环路风暴，为了解决该问题，本方式1中的广播机制还需要系统主CPU进一步建立针对分布式系统内部控制通道的转发最短路径树比如SPT树。当分布式系统形成以后，该分布式系统内部所有分布式网络设备之间的拓扑状态就已经稳定，基于此，系统主CPU就可以开始在控制通道内部建立SPT树，该SPT树上包含了系统主CPU至每一非系统主CPU的最短路径，具体如图6所示。之后，系统主CPU通过建立的转发最短路径树将携带了序列号的检测报文广播至非系统主CPU，这完全避免广播环路风暴。

方式2，组播机制：由系统主CPU根据实际需求比如故障收敛速度相同的CPU处于同一组播组等从其他所有CPU中选择出若干个作为组播组，基于此，可针对组播组建立转发最短路径树比如SPT树，之后通过该建立的转发最短路径树将携带了序列号的检测报文组播转发至组播组中的每一非系统主CPU。这种方式保证了检测报文只发送给指定的CPU，实现了不同CPU之间的差异化检测机制。

需要说明的是，基于上述方式1和方式2，非系统主CPU回复的应答报文除了携带上述检测报文中的序列号外，还携带自身的标识。另外，由于上述方式1和方式2均依赖建立的转发最短路径树，为尽快诊断故障，本实施例2中，当分布式系统内分布式网络设备的拓扑结构发生变化时，系统主CPU要立即更新转发最短路径树，并保证转发最短路径树的稳定时间要远小于控制通道故障的超时时间，以保证快速、准确地确定控制通道的故障。

另外，步骤502中，还进一步执行以下故障确定：

非系统主CPU故障：系统主CPU在第一设定时间内未收到非系统主CPU回复的应答报文，则在尝试通过至该非系统主CPU的备用控制通道发送检测报文时也未收到该非系统主CPU回复的应答报文，确定非系统主CPU故障。比如，图6中，系统主CPU通过SPT树上至CPU1的最短路径(系统主CPU-＞LSW1-＞CPU1，简称至CPU1的主用控制通道)向CPU1广播发送检测报文，如果在第一设定时间内未收到CPU1回复的应答报文，则尝试通过至CPU1的备用控制通道(系统主CPU-＞LSW1-＞LSW 2-＞CPU1)发送检测报文，如果在第二设定时间内未收到CPU1回复的应答报文，则确定CPU1故障。

交换芯片LSW故障：系统主CPU在第一设定时间内未收到非系统主CPU回复的应答报文，则确定连接该非系统主CPU的LSW，如果确定出在向该LSW所连接的其他各个非系统主CPU发送检测报文之后的第一设定时间内也未收到该各个非系统主CPU回复的应答报文，则确定LSW故障。比如，图6中，系统主CPU通过SPT树上至CPU2的最短路径(即CPU2的主用控制通道)向CPU2发送检测报文，如果在发送该检测报文之后的第一设定时间内未收到CPU2回复的应答报文，并且，发现通过SPT树上至CPU5的最短路径(即CPU5的主用控制通道)向CPU5发送检测报文之后的第一设定时间内也未收到CPU5回复的应答报文，由于系统主CPU向CPU2和CPU5发送检测报文所采用的最短路径均经过LSW3，故认定LSW3故障。

系统主CPU与非系统主CPU之间的双向主用控制通道故障：系统主CPU在第一设定时间内未收到该非系统主CPU回复的应答报文、且在第一设定时间内未收到非系统主CPU周期向系统主CPU发送的检测报文，则尝试通过至该非系统主CPU的备用控制通道发送检测报文时收到该非系统主CPU回复的应答报文，若该应报报文携带了故障标识，故障标识指示了该非系统主CPU未收到系统主CPU通过主用控制通道发送的检测报文，则确定系统主CPU与非系统主CPU之间的双向主用控制通道故障。比如，图6中，系统主CPU通过SPT树上至CPU1的最短路径(系统主CPU-＞LSW1-＞CPU1)作为主用控制通道向CPU1发送检测报文，如果在第一设定时间内未收到CPU1回复的应答报文，则尝试通过至CPU1的备用控制通道(系统主CPU-＞LSW1-＞LSW 2-＞CPU1)发送检测报文，如果在设定时间内收到CPU1回复的应答报文，且该应答报文携带了CPU1未收到系统主CPU通过主用控制通道：系统主CPU-＞LSW1-＞CPU1发送的检测报文，由此，认定系统主CPU与CPU1之间的双向主用控制通道链路故障(即系统主CPU-＞LSW1-＞CPU1、以及CPU1-＞LSW1-＞系统主CPU这两条主用控制通道故障)。

分布式网络设备故障：系统主CPU在第一设定时间内未收到非系统主CPU回复的应答报文，若向该非系统主CPU所处分布式网络设备上的其他各个非系统CPU发送检测报文后均未收到对应的应答报文、且在尝试通过至该分布式网络设备上各个非系统主CPU的备用控制通道发送检测报文时仍未收到各个非系统主CPU回复的应答报文，则确定分布式网络设备故障。图6中，系统主CPU通过SPT树上至分布式网络设备1上各个CPU的最短路径作为主用控制通道发送检测报文，如果在发送检测报文之后的第一设定时间内未收到任一CPU回复的应答报文，并且，在尝试通过至该分布式网络设备1上各个CPU的备用控制通道发送检测报文时仍未收到任一CPU回复的应答报文，则确定分布式网络设备1故障。

在完成以上故障确定后，系统主CPU可针对不同类型的故障执行不同的修复工作，具体为：

在确定出非系统主CPU故障时，若该非系统主CPU为分布式网络设备的主CPU时，则将该主CPU切换至该主CPU的备份，在该非系统主CPU为分布式网络设备上的非主CPU时，通知该分布式网络设备上的主CPU，由该主CPU通过硬件复位信号将该非主CPU重启；

在确定出控制通道故障时，若该故障控制通道存在对应的备用控制通道，则切换至备用控制通道，否则，隔离受该故障控制通道影响的CPU；

在确定出分布式网络设备故障时，将故障的分布式网络设备从分布式系统中去除；

在确定出LSW故障时，若从系统主CPU至该故障LSW连接的CPU之间无其他链路，则按照非系统主CPU故障的处理方式处理该故障LSW连接的每一CPU，若从系统主CPU至该故障LSW连接的CPU之间存在不经过该故障LSW的其他链路，则将本系统主CPU至该故障LSW连接的CPU之间的链路切换至该存在的其他链路。

至此，完成本实施例2的描述。

需要说明的是，在实施例2中，系统主CPU也有可能故障，为了保证快速诊断系统主CPU故障和修复该故障，本实施例2中，需要从分布式系统中除系统主CPU所处分布式网络设备之外的其他分布式网络设备中选择至少一个分布式网络设备上的主CPU作为系统主CPU的备份；所述备份在未收到系统主CPU发送的检测报文时，在分布式系统中广播查询报文至其他非系统主CPU，并在接收到其他非系统主CPU返回的用于表示无法与系统主CPU进行通信的报文时，确定系统主CPU故障，接替系统主CPU继续工作。

至此，完成实施例2的描述。

需要说明的是，上述的设定时间可根据实际情况设置，比如第一设定时间可为从系统主CPU发出检测报文的时间开始至预估出非主CPU可能回复应答报文的时间结束的一段时间，其他类似。

以上对本发明提供的方法进行了描述，下面对本发明提供的装置进行描述：

本发明提供了两种类型的装置，下面分别进行描述：

装置1：

参见图7，图7为本发明实施例提供的装置1结构图。该装置为分布式网络设备的主CPU，应用于上述的实施例1中，具体可包括：

优选地，如图7所示，所述装置进一步包括：报文接收单元、第二故障确定单元和修复单元；

其中，报文接收单元，用于接收所述非主CPU发送检测触发后周期性地向主CPU发送的检测报文；

第二故障确定单元，用于在所述检测单元发送检测报文的设定时间内未接收到非主CPU回复的应答报文、且所述报文接收单元也未收到非主CPU周期发送的检测报文，则，

确定至非主CPU的主控制通道是否存在对应的备用控制通道，

如果是，则尝试通过该存在的备用控制通道发送未携带序列号的检测报文，在发送了该检测报文的设定时间内收到非主CPU回复的应答报文，若该应答报文携带了第一序列号，则确定非主CPU至主CPU的主用控制通道故障，若该应答报文未携带第一序列号，则尝试通过该存在的备用控制通道发送携带第三序列号的检测报文，在发送了该携带第三序列号的检测报文的设定时间内收到携带了第二序列号的应答报文，则确定非主CPU与主CPU之间的双向主用控制通道故障，在发送了该携带第三序列号的检测报文的设定时间内未收到携带了第二序列号的应答报文，则确定非主CPU故障；

如果否，则确定非主CPU故障或者确定非主CPU至主CPU的主用控制通道故障。

修复单元，用于在确定出控制通道故障时，如果故障控制通道存在对应的备用控制通道，则将该故障控制通道切换至对应的备用控制通道，否则，隔离受到该故障控制通道影响的非主CPU；以及，

至此，完成图7所示的装置1的描述。

装置2：

本发明实施例提供的装置2为分布式网络设备的主CPU，所述分布式网络设备为分布式系统中的一个设备，所述分布式系统由多个分布式网络设备逻辑组成；所述装置应用于上述实施例2，具体可包括：

第二故障确定模块，用于在未被选择为系统主CPU时，针对系统主CPU发送的检测报文回复应答报文，并包含如图7所示装置所包含的单元。

优选地，本发明中，所述第一故障确定模块还用于进一步确定以下故障：

非系统主CPU故障：系统主CPU在第一设定时间内未收到非系统主CPU回复的应答报文，则尝试通过至该非系统主CPU的备用控制通道发送检测报文时未在第二设定时间内收到该非系统主CPU回复的应答报文，确定非系统主CPU故障；

分布式网络设备故障：系统主CPU在第一设定时间内未收到非系统主CPU回复的应答报文，若向该非系统主CPU所处分布式网络设备上的其他各个非系统CPU发送检测报文后均未收到对应的应答报文、且在尝试通过至该分布式网络设备上各个非系统主CPU的备用控制通道发送检测报文时仍未收到各个非系统主CPU回复的应答报文，则确定分布式网络设备故障；

交换芯片LSW故障：系统主CPU在第一设定时间内未收到非系统主CPU回复的应答报文，则确定连接该非系统主CPU的LSW，如果确定出在向该LSW所连接的其他各个非系统主CPU发送检测报文之后的第一设定时间内也未收到该各个非系统主CPU回复的应答报文，则确定LSW故障；

系统主CPU与非系统主CPU之间的双向主用控制通道故障：系统主CPU在第一设定时间内未收到该非系统主CPU回复的应答报文、且在第一设定时间内未收到非系统主CPU周期向系统主CPU发送的检测报文，则尝试通过至该非系统主CPU的备用控制通道发送检测报文时收到该非系统主CPU回复的应答报文，若该应报报文携带了故障标识，故障标识指示了该非系统主CPU未收到系统主CPU通过主用控制通道发送的检测报文，则确定系统主CPU与非系统主CPU之间的双向主用控制通道故障。

优选地，本发明中，所述装置在被选择为系统主CPU时，进一步包括：

修复模块，用于在确定出非系统主CPU故障时，若该非系统主CPU为分布式网络设备的主CPU时，则将该主CPU切换至该主CPU的备份，在该非系统主CPU为分布式网络设备上的非主CPU时，通知该分布式网络设备上的主CPU，由该主CPU通过硬件复位信号将该非主CPU重启；在确定出控制通道故障时，若该故障控制通道存在对应的备用控制通道，则切换至备用控制通道，否则，隔离受该故障控制通道影响的CPU；在确定出分布式网络设备故障时，将故障的分布式网络设备从分布式系统中去除；在确定出LSW故障时，若从系统主CPU至该故障LSW连接的CPU之间无其他链路，则按照非系统主CPU故障的处理方式处理该故障LSW连接的每一CPU，若从系统主CPU至该故障LSW连接的CPU之间存在不经过该故障LSW的其他链路，则将本系统主CPU至该故障LSW连接的CPU之间的链路切换至该存在的其他链路。

至此，完成本发明提供的装置描述。

由以上技术方案可以看出，本发明中，通过携带序列号的双向发检测报文机制检测控制通道是否故障，这相比于现有技术，一方面，能够实现控制通道故障的检测，另一方面，在接收不到非主CPU回复的确认报文就笼统地确定该非主CPU故障，避免现有控制通道检测机制笼统确定故障所带来的问题；

进一步地，本发明中，通过对分布式网络设备内部控制通道拓扑的深入分析，确定出不同类型的故障，并基于不同类型的故障执行不同的修复操作，以保证从根本上去除故障。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种控制通道故障确定方法，该方法应用于包含主CPU和非主CPU的分布式网络设备；其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述非主CPU在发送检测触发后进一步周期性地通过至主CPU的主用控制通道向主CPU发送检测报文；

该方法进一步包括：

主CPU在发送检测报文的设定时间内未接收到非主CPU回复的应答报文、且也未收到非主CPU周期性发送的检测报文，

则，确定至非主CPU的主用控制通道是否存在对应的备用控制通道，

如果是，则尝试通过该存在的备用控制通道发送未携带序列号的检测报文，在发送了该检测报文的设定时间内收到非主CPU回复的应答报文，若该应答报文携带了第一序列号，则确定非主CPU至主CPU的主用控制通道故障，若该应答报文未携带第一序列号，则尝试通过该存在的备用控制通道发送携带第三序列号的检测报文，在发送了该携带第三序列号的检测报文的设定时间内收到携带了第三序列号的应答报文，则确定非主CPU与主CPU之间的双向主用控制通道故障，在发送了该携带第三序列号的检测报文的设定时间内未收到携带了第三序列号的应答报文，则确定非主CPU故障；

3.根据权利要求2所述的方法，其特征在于，该方法进一步包括：

4.一种控制通道故障确定方法，所述分布式网络设备为分布式系统中的一个设备，包含主CPU和非主CPU，所述分布式系统由多个分布式网络设备逻辑组成；其特征在于，该方法包括：

5.根据权利要求4所述的方法，其特征在于，系统主CPU通过至非系统主CPU的主用控制通道发送携带了序列号1的检测报文至非系统主CPU包括：

系统主CPU建立转发最短路径树；

系统主CPU将转发最短路径树中从本系统主CPU至非系统主CPU的最短路径作为本系统主CPU至非系统主CPU的主用控制通道，通过该主用控制通道将携带了序列号1的检测报文广播至非系统主CPU或者组播转发至非系统主CPU。

6.根据权利要求4或5所述的方法，其特征在于，系统主CPU还进一步执行以下故障确定：

7.根据权利要求6所述的方法，其特征在于，该方法进一步包括：

从除系统主CPU所处分布式网络设备之外的其他分布式网络设备中选择至少一个分布式网络设备上的主CPU作为系统主CPU的备份；

所述备份在未收到系统主CPU发送的检测报文时，在分布式系统中广播查询报文至其他非系统主CPU；

所述备份接收到其他非系统主CPU返回的用于表示无法与系统主CPU进行通信的报文时，确定系统主CPU故障，接替系统主CPU继续工作。

8.根据权利要求6所述的方法，其特征在于，该方法进一步包括：

9.一种应用于控制通道故障确定的装置，该装置为分布式网络设备的主CPU；其特征在于，该装置包括：

10.根据权利要求9所述的装置，其特征在于，所述装置进一步包括：

报文接收单元，用于接收所述非主CPU发送检测触发后周期性地向主CPU发送的检测报文；

确定至非主CPU的主控制通道是否存在对应的备用控制通道，

11.根据权利要求10所述的装置，其特征在于，所述装置进一步包括：

12.一种应用于控制通道故障确定的装置，该装置为分布式网络设备的主CPU，所述分布式网络设备为分布式系统中的一个设备，所述分布式系统由多个分布式网络设备逻辑组成；其特征在于，所述装置包括：

13.根据权利要求12所述的装置，其特征在于，所述第一故障确定模块还用于进一步确定以下故障：

14.根据权利要求13所述的装置，其特征在于，所述装置在被选择为系统主CPU时，进一步包括：