CN107682188A

CN107682188A - 一种故障感知方法和装置

Info

Publication number: CN107682188A
Application number: CN201710909156.5A
Authority: CN
Inventors: 吴文; 汪亮; 刘辉
Original assignee: New H3C Technologies Co Ltd
Current assignee: New H3C Technologies Co Ltd
Priority date: 2017-09-29
Filing date: 2017-09-29
Publication date: 2018-02-09
Anticipated expiration: 2037-09-29
Also published as: CN107682188B

Abstract

本公开公开了一种故障感知方法和装置。所述方法包括：堆叠单板运行写所述堆叠单板硬件逻辑的任务；主控板监测所述堆叠单板的任务运行情况，若监测到所述任务运行异常，则检测所述主控板与该堆叠单板之间的交互报文信息，根据所述交互报文信息判断所述堆叠单板是否故障，若所述堆叠单板故障，则去使能所述堆叠单板对应的堆叠链路。本公开能够快速感应每个堆叠单板的状态，对堆叠单板的堆叠链路进行管理。

Description

一种故障感知方法和装置

技术领域

本公开涉及网络通信技术领域，特别涉及一种故障感知方法和装置。

背景技术

IRF(Intelligent Resilient Framework，智能弹性架构)是H3C自主研发的软件虚拟化技术。它的核心思想是将多台设备连接在一起，进行必要的配置后，虚拟化成一台设备，本公开将采用IRF技术虚拟化成的设备称为堆叠设备。使用这种虚拟化技术可以集合多台设备的硬件资源和软件处理能力，实现多台设备的协同工作、统一管理和不间断维护。

参考图1所示，图1中示例性示出堆叠框1和堆叠框2堆叠形成的堆叠设备，堆叠框1包括三个堆叠单板，堆叠框2包括两个堆叠单板，堆叠单板主要是用于传输堆叠保活报文、堆叠框1与堆叠框2之间的协议交互报文和跨框的数据流量报文等。当堆叠框的某个堆叠单板故障时，堆叠设备的全局主控不能及时感知，影响数据流量的转发、协议交互和同步。

发明内容

本公开提供一种堆叠单板的故障感知方法和装置，以解决无法及时感知堆叠单板故障导致而影响数据流量转发、协议交换和同步的技术问题。

为达到上述目的，本公开的技术方案是这样实现的：

一方面，本公开提供了一种故障感知方法，应用于堆叠设备的主控板，堆叠设备还包括堆叠单板，堆叠单板运行有写本堆叠单板硬件逻辑的任务；所述方法包括：

监测堆叠单板的任务运行情况，若监测到任务运行异常，则检测主控板与该堆叠单板之间的交互报文信息；

根据交互报文信息判断堆叠单板是否故障，若堆叠单板故障，则去使能堆叠单板对应的堆叠链路。

本公开还提供了一种故障感知方法，应用于堆叠设备的堆叠单板，堆叠设备还包括主控板；

运行写堆叠单板硬件逻辑的任务，以使监测堆叠单板任务运行情况的主控板若监测到任务运行异常，则检测主控板与该堆叠单板之间的交互报文信息，以根据交互报文信息判断堆叠单板是否故障，若堆叠单板故障，则去使能堆叠单板对应的堆叠链路。

另一方面，本公开提供了一种故障感知装置，应用于堆叠设备的主控板，堆叠设备还包括堆叠单板，堆叠单板运行有写本堆叠单板硬件逻辑的任务；所述装置包括：

监测单元，用于监测堆叠单板的任务运行情况；

检测单元，用于若监测单元监测到任务运行异常，检测主控板与该堆叠单板之间的交互报文信息；

判断单元，用于根据交互报文信息判断堆叠单板是否故障，若堆叠单板故障，则去使能堆叠单板对应的堆叠链路。

本公开还提供了一种故障感知装置，应用于堆叠设备的堆叠单板，堆叠设备还包括主控板；所述装置包括：任务运行单元；

任务运行单元，用于运行写堆叠单板硬件逻辑的任务，以使监测所述堆叠单板任务运行情况的主控板若监测到所述任务运行异常，则检测所述主控板与该堆叠单板之间的交互报文信息，以根据所述交互报文信息判断所述堆叠单板是否故障，若所述堆叠单板故障，则去使能所述堆叠单板对应的堆叠链路。

另一方面，本公开提供了一种故障感知装置，包括处理器和机器可读存储介质，该机器可读存储介质存储有能够被处理器执行的机器可执行指令，该处理器被机器可执行指令促使：执行上述的故障感知方法。

另一方面，本公开提供了一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，该机器可执行指令促使处理器：执行上述的故障感知方法。

本公开的有益效果是：基于主控板和堆叠单板之间的硬件逻辑互联的前提，每个堆叠单板在启动后，均运行一个写本堆叠单板硬件逻辑的任务，通过利用主控板监测每个堆叠单板的任务运行情况以及检测堆叠单板与主控板之间的交换报文数量来判断堆叠单板是否故障，快速感应每个堆叠单板的状态，以对堆叠单板的堆叠链路进行管理。

附图说明

图1为本公开示出的堆叠设置结构示意图；

图2为本公开实施例示出的应用于主控板的故障感知方法流程图；

图3为本公开实施例示出的应用于堆叠单板的故障感知方法流程图；

图4为本公开实施例示出的全局主控板Master M与备用主控板Slave N的交互流程图；

图5为本公开实施例示出的应用于主控板的故障感知装置结构框图；

图6为本公开实施例示出的应用于堆叠单板的故障感知装置结构框图；

图7为本公开实施例示出的故障感知装置的硬件结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

在本公开使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

如图1所示，当堆叠框2上的堆叠单板Slot E发生故障时，堆叠单板Slot E与堆叠单板Slot B、Slot C之间的堆叠链路是UP的，但堆叠单板Slot B、Slot C发送给堆叠单板Slot E的堆叠保活报文、协议报文、跨框的数据流量报文到达堆叠单板Slot E后不能正常处理，而此时的堆叠单板Slot B、Slot C还无法及时感知，会导致软件队列繁忙或者CPU处理繁忙，从而影响数据流量的转发、协议交互和同步。

目前，一般根据握手复位重启方式感知堆叠单板的故障，进行链路切换。堆叠框上的各接口板都会定期向堆叠设备的全局主控板发送报道消息，在一定时间内，若全局主控板没有收到某个接口板的报道消息，参考图1，假设全局主控板Master M没有接收到堆叠单板Slot E的报道消息，则认为堆叠单板Slot E发生故障，全局主控板Master M向所有堆叠单板和备用主控板Slave N发送广播消息，通知所有堆叠单板和备用主控板Slave N该堆叠单板Slot E发生了故障，并把堆叠单板Slot B和Slot C连接堆叠单板Slot E的堆叠口从Active状态切换为Inactive状态，全局主控板Master M再发单播消息给备用主控板SlaveN，由备用主控板Slave N通知本堆叠框内的堆叠单板Slot E进行重启尝试恢复。

但利用上述握手复位重启方式进行故障感知的时间比较慢，会影响数据流量转发、协议交换和同步。本公开针对上述情况，根据板间硬件逻辑之间的监测，当堆叠单板故障时，触发中断并结合交互报文数量判断故障已经发生，从而缩短堆叠板出现故障以后的协议和流量切换时间，减少对业务的影响。

图2为本公开实施例示出的应用于主控板的故障感知方法流程图，本公开实施例的方法应用于堆叠设备的主控板，本公开的堆叠设备还包括堆叠单板，堆叠单板运行有写本堆叠单板硬件逻辑的任务。

实际应用中，堆叠设备通常由两个以上的堆叠框堆叠形成，每个堆叠框包括主控板和堆叠单板。本公开实施例是利用主控板感知主控板所在的堆叠框上的每个堆叠单板是否故障。如图1所示，图1示出由两个堆叠框堆叠形成堆叠设备，堆叠框1包括三个堆叠单板和主控板，堆叠框2包括两个堆叠单板和主控板；本公开实施例是利用堆叠框1的主控板感知堆叠框1上的堆叠单板是否故障，利用堆叠框2的主控板感知堆叠框2上的堆叠单板是否故障。

如图2所示，本公开实施例的方法包括：

S210，监测堆叠单板的任务运行情况，若监测到任务运行异常，则检测主控板与该堆叠单板之间的交互报文信息。

由于主控板和堆叠单板之间的硬件逻辑是互联的，因此主控板可以通过感知堆叠单板的硬件逻辑来监测堆叠单板的任务运行情况。

本实施例的主控板可以为堆叠设备的备用主控板或堆叠设备的全局主控板。参考图1，堆叠框1的主控板为堆叠设备的全局主控板Mater M，堆叠框1的主控板为即备用主控板Slave N；此时，全局主控板Mater M监测堆叠单板Slot A、Slot B和Slot C的任务运行情况，备用主控板Slave N监测堆叠单板Slot D和Slot E的任务运行情况。

S220，根据交互报文信息判断堆叠单板是否发生故障，若堆叠单板故障，则去使能堆叠单板对应的堆叠链路。

堆叠单板在正常情况下，与主控板之间时刻在交互各类协议报文，诸如路由器/交换机设备上的路由表、ARP表、MAC表等信息，如果堆叠单板的硬件芯片发生了故障，这个堆叠单板发给主控板的交互报文的数量会显著减少，因此本公开实施例在监测到某个堆叠单板的任务运行异常时，通过检测主控板与该堆叠单板之间的交互报文数量，来感知该堆叠单板是否发生故障。

本公开实施例去使能堆叠单板对应的堆叠链路可以理解为：若感知堆叠单板故障的主控板为堆叠设备的全局主控板，全局主控板将该故障堆叠单板对应的堆叠链路切换为Inactive；若感知堆叠单板故障的主控板为堆叠设备的备用主控板，备用主控板需要将堆叠单板故障广播通知堆叠设备，堆叠设备的全局主控板根据该广播通知将该故障堆叠单板对应的堆叠链路切换为Inactive。本公开实施例的全局主控板在将故障堆叠单板对应的堆叠链路切换为Inactive后，还可以建立其他新的堆叠链路，或者配置其他堆叠链路优先级，对堆叠保活报文、协议报文、跨框的数据流量报文等进行转发。

本实施例基于主控板和堆叠单板之间的硬件逻辑是互联的前提，每个堆叠单板在启动后，均运行一个写本堆叠单板硬件逻辑的任务，通过利用主控板监测每个堆叠单板的任务运行情况以及检测堆叠单板与主控板之间的交换报文数量来判断堆叠单板是否故障，快速感应每个堆叠单板的状态，以对堆叠单板的堆叠链路进行管理。

在本公开的一个实施例中，堆叠单板在正常启动后，都启动一个定时写本堆叠单板的硬件逻辑的任务，如写本堆叠单板的CPLD逻辑的任务，该任务按照设定频率对堆叠单板的逻辑电平进行改写，如对CPLD逻辑电平中的某一位进行定时改写，可以设置为1秒改写1次，第1秒从0改写为1，第2秒从1改写为0，依次类推，在堆叠单板正常工作的状态下，该逻辑电平的改写永不停止，如果堆叠单板出现硬件芯片故障，则这个逻辑电平的定时改写任务会停止。那么，可以利用主控板的硬件逻辑感知上述逻辑电平是否按照设定频率被改写，若逻辑电平未被改写，则监测上述任务运行异常。

实际应用中，可以利用主控板硬件逻辑感知逻辑电平是否按照设定频率跳变，如果这个逻辑电平的跳变异常，则主控板的硬件逻辑会上报一个硬件中断给主控板的CPU，因此可以利用主控板的硬件部分和软件部分监测上述任务是否出现异常。

在感知到堆叠单板运行的改写逻辑电平的任务出现异常时，可以检测这个堆叠单板在预设时间间隔内发送给主控板的交互报文数量，若发送给主控板的交互报文数量少于数量阈值，则判断堆叠单板发生故障；若堆叠单板在预设时间间隔内发送给主控板的交互报文数量多于数量阈值，则再次检测堆叠单板预设时间间隔内发送给所述主控板的交互报文数量。实际应用中，若堆叠单板在预设时间间隔内发送给主控板的交互报文数量多于数量阈值，则可以定期循环监测堆叠单板在预设时间间隔内发送给主控板的交互报文数量，直至满足停止检测条件时停止检测交互报文数量。

其中，可以在发送给主控板的交互报文数量少于数量阈值时停止检测交互报文数量。例如，可以通过检测堆叠单板在2秒发送给主控板的交互报文数量是否大于5来确定堆叠单板是否发生故障，若2秒发送的交互报文数量小于5，可以确定堆叠单板已经发生了故障；若2秒发送的交互报文数量大于5，检测堆叠单板在下一个2秒发送给主控板的交互报文数量是否大于5，直至判断堆叠单板在2秒发送的交互报文数量小于5，停止检测。

本公开实施例还可以在感知堆叠单板的任务正常运行时停止检测交互报文数量。

在本公开的另一个实施例中，主控板在确定堆叠单板发生故障后，向堆叠设备发送广播消息，广播消息指示堆叠单板故障，使堆叠设备根据通知消息管理堆叠链路。

本实施例的主控板在确认堆叠单板发生故障后，不再单播消息通知堆叠设备，而是立即进行广播通知，通知堆叠设备的全局主控板和其他各接口板，将该故障堆叠单板对应的堆叠链路切换为Inactive后，全局主控板进行广播，通知各接口板将重启故障堆叠单板尝试进行恢复，然后，全局主控板向故障堆叠单板的主控板发送单播消息，由故障堆叠单板的主控板通知该故障堆叠单板进行重启，该故障堆叠单板进行重启，以尝试恢复。

图3为本公开实施例示出的应用于堆叠单板的故障感知方法流程图，本公开实施例的故障感知方法应用于堆叠设备的堆叠单板，本公开实施例的堆叠设备还包括主控板。

如图3所示，本公开实施例的方法包括：

S310，运行写堆叠单板硬件逻辑的任务，以使监测堆叠单板任务运行情况的主控板若监测到任务运行异常，则检测主控板与该堆叠单板之间的交互报文信息，以根据交互报文信息判断堆叠单板是否故障，若堆叠单板故障，则去使能堆叠单板对应的堆叠链路。

本公开实施例通过在堆叠单板上运行写本堆叠单板硬件逻辑的任务，能够使得主控板基于该任务运行情况、堆叠单板与主控板之间的交换报文数量来判断堆叠单板是否故障，快速感应每个堆叠单板的状态，以对堆叠单板的堆叠链路进行管理。

本公开以图2示出的堆叠设备为例，详细说明本公开感知堆叠单板故障和链路切换的过程。

本实施例为便于描述，以感知堆叠单板Slot E是否发生故障为例进行说明，堆叠设备的其他堆叠单板的故障状态感知过程可以参见堆叠单板Slot E。

图4为本公开实施例示出的全局主控板Master M与备用主控板Slave N的交互流程图，如图4所示，对堆叠单板Slot E的故障状态感知过程如下：

S410，备用主控板Slave N监测堆叠单板Slot E的写堆叠单板Slot E的硬件逻辑的任务运行情况。

本实施例中的堆叠单板Slot A～Slot E在正常启动后，都启动一个定时改写本堆叠单板的CPLD逻辑的任务，对CPLD逻辑电平中的某一位进行定时改写，如可以设置每一秒改写一次，第1秒从0改写为1，第2秒从1改写为0，依次类推。

S420，备用主控板Slave N感知堆叠单板Slot E的任务运行异常。

由于堆叠单板Slot E如果出现硬件故障，如CPU芯片故障、转发芯片故障等，堆叠单板Slot E的CPLD逻辑电平定时改写停止，且由于备用主控板Slave N和堆叠单板Slot E之间硬件逻辑上是互联的，若备用主控板Slave N硬件逻辑感知到这个逻辑电平跳变异常，则会立即上报一个硬件中断给备用主控板Slave N的CPU，由此备用主控板Slave N感知到堆叠单板Slot E的任务运行异常。

S430，备用主控板Slave N检测堆叠单板Slot E发送给备用主控板Slave N的交互报文的数量，并基于该交互报文的数量确定堆叠单板Slot E是否故障。

备用主控板Slave N在感知到上述硬件中断时，立即启动定时器，在△t时间内，统计堆叠单板Slot E发给备用主控板Slave N的交互消息的数量。

正常情况下，备用主控板Slave N和堆叠单板Slot E之间是时刻在交互各类协议报文的，典诸如路由器/交换机设备上的路由表、ARP表、MAC表等信息，如果堆叠单板Slot E已经故障，堆叠单板Slot E发给备用主控板Slave N的交互报文的数量会显著低于正常值。如当设置△t＝2秒，在判断堆叠单板Slot E发给备用主控板Slave N的交互报文的数量低于数量阈值(如5)时，可以确定堆叠单板Slot E已经故障。

如果备用主控板Slave N判断交互报文的数量在△t时间内依然是正常的(即交互报文的数量大于数量阈值)，说明堆叠单板Slot E内部处理没有发现严重的问题，但CPLD逻辑改写任务有疑似问题，此时一般不影响堆叠单板对数量流量和协议的处理，不需要进行下一步处理，但需要继续启动定时器，在每一个△t时间内，统计和观察堆叠单板Slot E发给备用主控板Slave N的交互报文的数量是否低于数量阈值，低于数量阈值则进行步骤S440，等于或者高于数量阈值则继续循环下一个△t。

S440，备用主控板Slave N在确定堆叠单板Slot E故障时发送广播消息，通知堆叠设备堆叠单板Slot E故障。

本实施例的备用主控板Slave N在确定堆叠单板Slot E故障后，立即广播通知全局主控板Master M和各个接口板。

S450，全局主控板Master M进行链路切换，并尝试恢复堆叠单板Slot E。

全局主控板Master M在接收到上述广播消息时，将堆叠单板Slot B和Slot C连接堆叠单板Slot E的堆叠口从Active切换为Inactive，以将走堆叠单板Slot B和Slot C的协议报文和数据流量报文都切换到堆叠单板Slot A和Slot E上。

在切换链路状态后，全局主控板Master M进行广播，通知各接口板和备用主控板Slave N将重启堆叠单板Slot E，尝试恢复堆叠单板Slot E；广播通知后，全局主控板Master M再向备用主控板Slave N发送单播消息，通知备用主控板Slave N重启堆叠单板Slot E。

S460，备用主控板Slave N接收单播消息，并通知堆叠单板Slot E进行重启，尝试恢复。

与上述故障感知方法相对应的，本公开该提供了故障感知装置。

图5为本公开实施例示出的应用于主控板的故障感知装置结构框图，该装置应用于堆叠设备的主控板，堆叠设备还包括堆叠单板，本公开实施例的堆叠单板运行有写本堆叠单板硬件逻辑的任务。

如图5所示，本实施例的装置50包括：监测单元51、检测单元52和判断单元53；

监测单元51，用于监测堆叠单板的任务运行情况；

检测单元52，用于若监测单元51监测到任务运行异常，检测主控板与该堆叠单板之间的交互报文信息；

判断单元53，用于根据交互报文信息判断堆叠单板是否故障，若堆叠单板故障，则去使能堆叠单板对应的堆叠链路。

在本实施例的一个实现方案中，上述任务按照设定频率对堆叠单板的逻辑电平进行改写；则监测单元51，具体用于利用主控板的硬件逻辑感知逻辑电平是否按照设定频率被改写，若逻辑电平未被改写，则监测任务运行异常。

在本实施例的另一个实现方案中，检测单元52，用于检测堆叠单板预设时间间隔内发送给主控板的交互报文数量；判断单元53，用于若检测单元52检测发送给主控板的交互报文数量少于数量阈值，判断堆叠单板故障。

判断单元53，还用于若检测单元52检测堆叠单板预设时间间隔内发送给主控板的交互报文数量多于数量阈值，驱动检测单元52再次检测堆叠单板预设时间间隔内发送给主控板的交互报文数量。

图6为本公开实施例示出的应用于堆叠单板的故障感知装置结构框图，该装置应用于堆叠设备的堆叠单板，堆叠设备还包括主控板。

如图6所示，本实施例的装置60包括：任务运行单元61；

任务运行单元61，用于运行写堆叠单板硬件逻辑的任务，以使监测堆叠单板任务运行情况的主控板若监测到任务运行异常，则检测主控板与该堆叠单板之间的交互报文信息，以根据交互报文信息判断堆叠单板是否故障，若堆叠单板故障，则去使能堆叠单板对应的堆叠链路。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

本公开提供的故障感知装置可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，参照图7所示，本公开提供的故障感知装置50、60可包括处理器701、存储有机器可执行指令的机器可读存储介质702。处理器701与机器可读存储介质702可经由系统总线703通信。并且，通过读取并执行机器可读存储介质702中与故障感知逻辑对应的机器可执行指令，处理器701可执行上文描述的故障感知方法。

本公开中提到的机器可读存储介质702可以是任何电子、磁性、光学或其它物理存储装置，可以包含或存储信息，如可执行指令、数据，等等。例如，机器可读存储介质可以是：RAM(Radom Access Memory，随机存取存储器)、易失存储器、非易失性存储器、闪存、存储驱动器(如硬盘驱动器)、固态硬盘、任何类型的存储盘(如光盘、DVD等)，或者类似的存储介质，或者它们的组合。

根据本公开公开的示例，本公开还提供了一种包括机器可执行指令的机器可读存储介质，例如图7中的机器可读存储介质702，所述机器可执行指令可由故障感知装置50、60中的处理器701执行以实现以上描述的故障感知方法。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上所述仅为本公开的较佳实施例而已，并非用于限定本公开的保护范围。凡在本公开的精神和原则之内所作的任何修改、等同替换、改进等，均包含在本公开的保护范围内。

Claims

1.一种故障感知方法，其特征在于，应用于堆叠设备的主控板，所述堆叠设备还包括堆叠单板，所述堆叠单板运行有写本堆叠单板硬件逻辑的任务；所述方法包括：

监测所述堆叠单板的任务运行情况，若监测到所述任务运行异常，则检测所述主控板与该堆叠单板之间的交互报文信息；

根据所述交互报文信息判断所述堆叠单板是否故障，若所述堆叠单板故障，则去使能所述堆叠单板对应的堆叠链路。

2.根据权利要求1所述的方法，其特征在于，所述任务按照设定频率对所述堆叠单板的逻辑电平进行改写；

所述监测所述堆叠单板的任务运行情况，包括：

利用所述主控板的硬件逻辑感知所述逻辑电平是否按照设定频率被改写，若所述逻辑电平未被改写，则监测所述任务运行异常。

3.根据权利要求1所述的方法，其特征在于，所述检测所述主控板与该堆叠单板之间的交互报文信息，包括：

检测所述堆叠单板预设时间间隔内发送给所述主控板的交互报文数量，若发送给所述主控板的交互报文数量少于数量阈值，则判断所述堆叠单板故障。

4.根据权利要求3所述的方法，其特征在于，所述检测所述堆叠单板预设时间间隔内发送给所述主控板的交互报文数量，还包括：

若所述堆叠单板预设时间间隔内发送给所述主控板的交互报文数量多于数量阈值，则再次检测所述堆叠单板预设时间间隔内发送给所述主控板的交互报文数量。

5.一种故障感知方法，其特征在于，应用于堆叠设备的堆叠单板，所述堆叠设备还包括主控板；

运行写所述堆叠单板硬件逻辑的任务，以使监测所述堆叠单板任务运行情况的主控板若监测到所述任务运行异常，则检测所述主控板与该堆叠单板之间的交互报文信息，以根据所述交互报文信息判断所述堆叠单板是否故障，若所述堆叠单板故障，则去使能所述堆叠单板对应的堆叠链路。

6.一种故障感知装置，其特征在于，应用于堆叠设备的主控板，所述堆叠设备还包括堆叠单板，所述堆叠单板运行有写本堆叠单板硬件逻辑的任务；所述装置包括：

监测单元，用于监测所述堆叠单板的任务运行情况；

检测单元，用于若所述监测单元监测到所述任务运行异常，检测所述主控板与该堆叠单板之间的交互报文信息；

判断单元，用于根据所述交互报文信息判断所述堆叠单板是否故障，若所述堆叠单板故障，则去使能所述堆叠单板对应的堆叠链路。

7.根据权利要求6所述的装置，其特征在于，所述任务按照设定频率对所述堆叠单板的逻辑电平进行改写；

所述监测单元，用于利用所述主控板的硬件逻辑感知所述逻辑电平是否按照设定频率被改写，若所述逻辑电平未被改写，则监测所述任务运行异常。

8.根据权利要求6所述的装置，其特征在于，

所述检测单元，用于检测所述堆叠单板预设时间间隔内发送给所述主控板的交互报文数量；

所述判断单元，用于若所述检测单元检测发送给所述主控板的交互报文数量少于数量阈值，判断所述堆叠单板故障。

9.根据权利要求8所述的装置，其特征在于，所述判断单元，还用于若所述检测单元检测所述堆叠单板预设时间间隔内发送给所述主控板的交互报文数量多于数量阈值，驱动所述检测单元再次检测所述堆叠单板预设时间间隔内发送给所述主控板的交互报文数量。

10.一种故障感知装置，其特征在于，应用于堆叠设备的堆叠单板，所述堆叠设备还包括主控板；所述装置包括：任务运行单元；

所述任务运行单元，用于运行写所述堆叠单板硬件逻辑的任务，以使监测所述堆叠单板任务运行情况的主控板若监测到所述任务运行异常，则检测所述主控板与该堆叠单板之间的交互报文信息，以根据所述交互报文信息判断所述堆叠单板是否故障，若所述堆叠单板故障，则去使能所述堆叠单板对应的堆叠链路。

11.一种堆叠单板的故障感知装置，包括处理器和机器可读存储介质，所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令，所述处理器被所述机器可执行指令促使：执行如权利要求1～5任一所述的故障感知方法，或权利要求6所述的故障感知方法。

12.一种机器可读存储介质，存储有机器可执行指令，在被处理器调用和执行时，所述机器可执行指令促使所述处理器：执行如权利要求1～5任一所述的故障感知方法，或权利要求6所述的故障感知方法。