CN107332697B

CN107332697B - 一种故障检测方法及装置

Info

Publication number: CN107332697B
Application number: CN201710456616.3A
Authority: CN
Inventors: 贾成跃
Original assignee: Huawei Technologies Co Ltd
Current assignee: Huawei Technologies Co Ltd
Priority date: 2017-06-16
Filing date: 2017-06-16
Publication date: 2020-07-07
Anticipated expiration: 2037-06-16
Also published as: CN107332697A

Abstract

一种故障检测方法及装置，用以在网络设备发生故障时确定故障源头。方法包括：第一网络设备通过指定接口板向第二网络设备发送第一诊断报文，并在指定接口板的物理接口卡中设置环回标记，该环回标记用于指示第一诊断报文在传输至PIC后不发送至第二网络设备、并按原路径经过指定接口板中的多个芯片环回；第一网络设备检测第一环回报文与第一诊断报文是否一致，该第一环回报文为第一诊断报文在多个芯片间环回后得到的报文；第一网络设备在第一环回报文与第一诊断报文不一致时，确定第一网络设备发生故障。

Description

一种故障检测方法及装置

技术领域

本申请涉及计算机网络技术领域，尤其涉及一种故障检测方法及装置。

背景技术

当计算机网络出现故障时，网络设备间发送报文会出现丢包、改包或发送失败的现象。而网络设备故障和设备间的链路故障是导致上述业务故障的两个重要原因。

现有的针对计算机网络的故障检测方案通常用于检测链路故障，比如通过发送BFD(Bidirectional Forwarding Detection，双向转发检测)报文的方式检测设备间的链路是否发生故障，或者通过OAM(Operation Administration and Maintenance，操作、管理和维护)的维护操作来检测设备间的链路是否发生故障等。这种故障检测方案只能检测到某两个网络设备间的链路故障，若网络故障是由于网络设备的故障引起的，采用现有的故障检测方案无法确定网络故障具体是由哪个网络设备导致的，即无法确定故障源头，也就无法针对故障源头采取相应措施来恢复网络。

综上，现有技术中提供的方案中，当网络设备发生故障时，存在无法确定故障源头的问题。

发明内容

本申请提供一种故障检测方法及装置，用以在网络设备发生故障时确定故障源头。

第一方面，本申请实施例提供一种故障检测方法，该方法包括如下步骤：第一网络设备通过指定接口板向第二网络设备发送第一诊断报文，并在指定接口板的物理接口卡(Physical Interface Card，PIC)中设置环回标记，该环回标记用于指示第一诊断报文在传输至PIC后不发送至第二网络设备、并按原路径经过指定接口板中的多个芯片环回；第一网络设备检测第一环回报文与第一诊断报文是否一致，第一环回报文为第一诊断报文在多个芯片间环回后得到的报文；第一网络设备在第一环回报文与第一诊断报文不一致时，确定第一网络设备发生故障。

其中，第一诊断报文的目的媒体接入控制(Media Access Control，MAC)地址可以为第二网络设备的MAC地址、目的互联网协议(Internet Protocol，IP)地址可以为第一网络设备的IP地址。当然，第一诊断报文的目的MAC地址和目的IP地址也可不按此方式设置，本申请实施例中对此不做限定。

通过上述故障检测方法，由于第一网络设备在通过指定接口板发送第一诊断报文时在指定接口板的PIC中设置了环回标记，因而该第一诊断报文在传输至PIC后会按原路径经过指定接口板中的多个芯片环回，因而第一网络设备可在接收到第一环回报文后，通过判断第一环回报文与第一诊断报文是否一致，来判断自身是否发生故障：当第一环回报文与第一诊断报文不一致时，第一网络设备确定自身发生故障。因而，采用上述方法可确定第一网络设备是否发生故障。特别地，当确定第一网络设备和第二网络设备间已经发生业务故障后，可采用上述方法来确定该业务故障的故障来源。

需要说明的是，通过执行上述方法，第一网络设备可确定自身是否发生故障，但是第一网络设备并不能确定第二网络设备是否发生故障。若要确定第二网络设备是否发生故障，可通过第二网络设备执行上述方法实现。比如，在确定第一网络设备和第二网络设备间已经发生业务故障后，第一网络设备通过执行上述方法确定自身没有发生故障后，第二网络设备可通过执行上述方法来确定自身是否发生故障，若第二网络设备也确定自身没有发生故障，那么则可以确定导致该业务故障的原因是第一网络设备和第二网络设备间的链路发生故障。

此外，在上述方法中，第一网络设备可同时通过多个接口板发送第一诊断报文，来分别诊断多个接口板是否发生故障。

在一个可能的设计中，在第一网络设备通过指定接口板向第二网络设备发送第一诊断报文之前，还包括：重复执行如下步骤N次，N＞1：第一网络设备通过指定接口板向第二网络设备发送检测报文；第一网络设备接收转发报文，转发报文为第二网络设备在接收到检测报文后转发给第一网络设备的报文；第一网络设备检测转发报文与检测报文是否一致，并在转发报文与检测报文一致时保持M的值不变、在转发报文与检测报文不一致时将M的值加一，M的初始值为0。第一网络设备确定M与N的比值超过预设阈值。

其中，检测报文的目的MAC地址可以为第二网络设备的MAC地址、目的IP地址可以为第一网络设备的IP地址。当然，检测报文的目的MAC地址和目的IP地址也可不按此方式设置，本申请实施例中对此不做限定。

需理解，检测报文和第一诊断报文并没有实际上的差别，只是检测报文可用于检测第一网络设备和第二网络设备间是否发生业务故障，而第一诊断报文用于确定第一网络设备是否发生故障，且第一网络设备在发送第一诊断报文时在PIC中设置环回标记。本申请实施例中为了将第一网络设备执行不同操作时发送的报文加以区分，分别用检测报文和第一诊断报文命名。

在上述方案中，第一网络设备可以通过向第二网络设备发送N个检测报文，并通过检测N个检测报文经第二网络设备转发回第一网络设备后得到的N个转发报文与发送的N个检测报文的一致性，来确定第一网络设备与第二网络设备间发生业务故障。具体地，在上述方案中，M的含义是指第一网络设备接收到的N个转发报文中，与检测报文不一致的转发报文的数量，那么M与N的比值即代表N个转发报文在由第一网络设备发送至第二网络设备，然后经第二网络设备转发回第一网络设备后检测报文的丢包率或改包率。当检测报文的丢包率或改包率超过预设阈值时，第一网络设备即可以确定第一网络设备与第二网络设备间发生业务故障。

采用上述方法，可以通过统计检测报文的丢包率或改包率来判断第一网络设备和第二网络设备间是否发生业务故障，可以提高判断的准确性。

在一个可能的设计中，在第一网络设备检测第一环回报文与第一诊断报文是否一致之后，还包括：第一网络设备在第一环回报文与第一诊断报文一致时，确定第一网络设备未发生故障。

在一个可能的设计中，在第一网络设备首次执行通过指定接口板向第二网络设备发送检测报文的步骤之前，还包括：第一网络设备通过指定接口板向第二网络设备发送检测报文；第一网络设备接收转发报文；第一网络设备检测到转发报文与检测报文不一致。

通过上述方法，第一网络设备可在向第二网络设备发送一个检测报文并确定转发报文和检测报文不一致时，初步判断第一网络设备和第二网络设备间可能已经发生业务故障。

在一个可能的设计中，在第一网络设备确定第一网络设备发生故障之后，还包括：第一网络设备通过指定接口板向第二网络设备发送P个第一诊断报文，并在PIC中设置环回标记，P＞1；第一网络设备根据多个芯片中每个芯片基于P个第一诊断报文的流量统计结果，确定多个芯片中的至少一个芯片发生故障，流量统计结果用于指示多个芯片中每个芯片的发送报文数和/或接收报文数。

当设置指定接口板进行流量统计时，指定接口板中的每个芯片均会对自身的发送报文数和/或接收报文数进行统计。因此，通过上述方法，第一网络设备可通过指定接口板向第二网络设备发送P个第一诊断报文，并根据每个芯片的流量统计结果确定多个芯片中的至少一个芯片发生故障。

在一个可能的设计中，在第一网络设备确定至少一个芯片发生故障之后，还包括：第一网络设备执行恢复操作，恢复操作包含如下至少一种操作：对至少一个芯片进行重新加载；对至少一个芯片进行复位；将至少一个芯片下电。

通过上述方法，第一网络设备可实现至少一个芯片的故障恢复和隔离，从而修复第一网络设备的故障。

在一个可能的设计中，在第一网络设备执行恢复操作之后，还包括：第一网络设备通过指定接口板向第二网络设备发送第二诊断报文，并在PIC中设置环回标记；第一网络设备检测第二环回报文与第二诊断报文是否一致，第二环回报文为第二诊断报文在多个芯片间环回后得到的报文；第一网络设备在第二环回报文与第二诊断报文一致时，确定第一网络设备发生的故障已修复。

通过上述方法，第一网络设备可在执行恢复操作后，通过再次发送第二诊断报文，并检测第二环回报文与发送的第二诊断报文是否一致，来判断第一网络设备的故障是否修复。

在一个可能的设计中，在第一网络设备通过指定接口板向第二网络设备发送第一诊断报文之前，还包括：第一网络设备从预设的多个报文模板中选择指定报文模板；第一网络设备通过指定接口板向第二网络设备发送第一诊断报文，包括：第一网络设备按照指定报文模板生成第一诊断报文，并向第二网络设备发送第一诊断报文。

其中，按照指定报文模板生成的第一诊断报文，可以是报文长度为固定长度(比如100字节)的报文，也可以是包含特定内容的报文。第一网络设备可根据先前的统计结果将导致业务故障概率较高的报文模板作为指定报文模板，发送按照该指定报文模板生成的第一诊断报文更易于检测到业务故障。

第二方面，本申请实施例提供一种故障检测装置，该装置具有实现上述方法的功能。所述功能可以通过硬件实现，也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。

在一个可能的设计中，所述装置的结构中包括发送单元和处理单元，可选包括接收单元。这些单元可以执行上述方法示例中的相应功能，具体参见方法示例中的详细描述，此处不做赘述。

在一个可能的设计中，所述装置的结构中包括收发器、处理器、总线以及存储器，所述收发器用于该装置进行通信交互，所述处理器被配置为支持上述方法中相应的功能。所述存储器与所述处理器耦合，其保存该装置必要的程序指令和数据。

基于同一发明构思，由于该装置解决问题的原理以及有益效果可以参见上述第一方面或上述第一方面的任意一种设计提供的方法及其有益效果，因此该装置的实施可以参见方法的实施，重复之处不再赘述。

第三方面，本申请实施例提供一种计算机程序产品，所述计算机程序产品包括存储在上述第一种非暂态性计算机存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，使所述计算机执行第一方面或上述第一方面的任意一种设计提供的方法。

第四方面，本申请实施例提供一种计算机存储介质，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令在被计算机调用时，使所述计算机执行第一方面或上述第一方面的任意一种设计提供的方法。

附图说明

图1为本申请提供的一种报文在接口板的传输路径的示意图；

图2为本申请提供的另一种报文在接口板的传输路径的示意图；

图3为本申请提供的一种故障检测方法的流程示意图；

图4为本申请提供的另一种故障检测方法的流程示意图；

图5为本申请提供的一种主动免疫维护系统的结构示意图；

图6为本申请提供的一种故障检测装置的结构示意图；

图7为本申请提供的另一种故障检测装置的结构示意图。

具体实施方式

当某个网络设备向另一个网络设备发送的报文出现丢包或改包的现象时，这两个网络设备间发生了业务故障。通常，导致两个设备间的业务故障的原因主要有两个：1、网络设备发生故障；2、网络设备间的链路发生故障。

现有技术中，当两个网络设备间发生业务故障时，通常的做法是通过发送BFD报文的方式检测网络设备间的链路是否发生故障，或者通过OAM的维护操作来检测设备间的链路是否发生故障等。这种故障检测方案只能检测到网络设备间的链路是否发生故障。若业务故障是由于网络设备的故障引起的，采用现有的故障检测方案无法确定网络故障具体是由发送端的网络设备的故障导致的，还是由接收端的网络设备的故障导致的，即无法确定故障源头，也就无法针对故障源头采取相应措施来恢复网络。

本申请提供一种故障检测方法及装置，用以在网络设备发生故障时确定故障源头。其中，方法和装置是基于同一发明构思的，由于方法及装置解决问题的原理相似，因此装置与方法的实施可以相互参见，重复之处不再赘述。

为了使本申请更容易被理解，下面首先对本申请实施例涉及的一些基本概念进行解释。需要说明的是，这些解释是为了让本申请实施例更容易被理解，而不应该视为对本申请所要求的保护范围的限定。

一、网络设备

本申请实施例中，网络设备可以为业务链中的三层设备。其中，三层设备包括但不限于路由器、负载均衡器(Load Balance，LB)、网络地址转换(Network AddressTranslation，NAT)设备。当然，网络设备也可以是其他网络设备，本申请实施例中对此不做限定。

二、接口板

本申请中，接口板是指网络设备中的实际物理接口，接口板中的芯片主要有：信号处理器、物理接口卡(PIC)、网络处理器(Network Processer，NP)芯片以及流量管理(Traffic Management，TM)芯片。信号处理器、PIC、NP芯片和TM芯片之间可以通过总线连接传输报文。信号处理器是接口板的控制中心，用于控制报文在PIC、NP芯片以及TM芯片中转发。

信号处理器可以是中央处理器(Central Processing Unit，CPU)，或者是CPU和硬件芯片的组合。硬件芯片可以是以下一种或多种的组合：专用集成电路(Application-Specific Integrated Circuit，ASIC)、现场可编程逻辑门阵列(Field-ProgrammableGate Array，FPGA)、复杂可编程逻辑器件(Complex Programmable Logic Device，CPLD)。

在信号处理器为CPU或者CPU与硬件芯片的组合的情况下，接口板中还可以包括存储器，存储器用于存储程序代码，信号处理器从存储器中获得存储的程序代码，按照获得的程序代理执行相应地处理。存储器可以是易失性存储器，例如随机存取存储器(Random-Access Memory，RAM)；存储器也可以是非易失性存储器，例如只读存储器(Read-OnlyMemory，ROM)、快闪存储器、硬盘(Hard Disk Drive，HDD)或固态硬盘(Solid-State Drive，SSD)，或者上述种类的存储器的组合。

通常，网络设备中包含多个接口板，网络设备中的主控制器通过交换网板与多个接口板连接。主控制器可通过接口板发送报文。

本申请中，报文在接口板中的传输路径可如图1所示，信号处理器将报文传输至NP芯片，NP芯片将报文处理后传输至TM芯片，TM芯片将报文进行组包处理后传输至NP芯片，NP芯片将报文通过PIC发送出去。

因此，本申请中所述的接口板中的多个芯片主要是指信号处理器、PIC、NP芯片、TM芯片。

由于网络设备是通过接口板向另一个网络设备发送报文的，因此，本申请中所述的确定网络设备发生故障，实际上是确定网络设备中用以发送该报文的接口板发生故障。在进一步确定网络设备的多个芯片中的至少一个芯片发生故障时，实际上是确定该接口板中的至少一个芯片发生故障。其中，至少一个芯片包含信号处理器、PIC、NP芯片、TM芯片中的一种或几种。

三、环回标记

本申请实施例中，可在接口板的PIC中设置环回标记。当PIC中设置环回标记时，通过该接口板发送的报文在传输至PIC后，并不会发送至对端，而是按该报文传输至PIC的原路径、经过接口板中的多个芯片环回。

如前所述，图1已经示出了报文在接口板中的传输路径。那么，当接口板中的PIC中设置环回标记时，该报文在接口板的传输路径可如图2所示。由图2可以看出，该报文在传输至PIC后由按照该报文传输至PIC的原路径、经过PIC→NP芯片→TM芯片→NP芯片后环回至信号处理器。

四、诊断报文和检测报文

本申请实施例中，检测报文的目的MAC地址可以为第二网络设备的MAC地址、目的IP地址可以为第一网络设备的IP地址。通过在两个网络设备间发送检测报文，可以检测两个网络设备间是否发生业务故障。

本申请实施例中，诊断报文的目的MAC地址可以为第二网络设备的MAC地址、目的IP地址可以为第一网络设备的IP地址。诊断报文可用于网络设备检测自身是否发生故障。

需要说明的是，本申请实施例中，检测报文和诊断报文的类型可以是ICMP报文(也称为ping报文)，这是因为：ICMP可以报告处理数据过程中的错误和异常情况。当检测报文和诊断报文均为ICMP报文时，可以提供关于业务故障的更多信息，使得网络设备易于确定故障原因，并采取相应措施恢复网络。

为了使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请作进一步地详细描述。

需要理解的是，在本申请的描述中，“第一”、“第二”等词汇，仅用于区分描述的目的，而不能理解为指示或暗示相对重要性，也不能理解为指示或暗示顺序。本申请中所涉及的多个，是指两个或两个以上。

参见图3，为本申请提供的一种故障检测方法的流程图。该方法包括如下步骤：

S301：第一网络设备通过指定接口板向第二网络设备发送第一诊断报文，并在指定接口板的PIC中设置环回标记。

其中，该环回标记用于指示第一诊断报文在传输至PIC后不发送至第二网络设备、并按原路径经过指定接口板中的多个芯片环回。

其中，第一诊断报文的目的MAC地址可以为第二网络设备的MAC地址、目的IP地址可以为第一网络设备的IP地址。当然，第一诊断报文的目的MAC地址和目的IP地址也可不按此方式设置，本申请实施例中对此不做限定。

S301中，由于指定接口板的PIC中设置有环回标记，因而第一网络设备在通过指定接口板发送第一诊断报文时，第一诊断报文并不会发送至第二网络设备，而是在传输至PIC后按照原路径经过指定接口板中的多个芯片环回。其中，指定接口板中的多个芯片可以包含信号处理器、PIC、NP芯片、TM芯片等。

需要说明的是，指定接口板是指用于发送第一诊断报文的指定接口板。本申请实施例中，由于第一网络设备是通过指定接口板向第二网络设备发送第一诊断报文的，因此，本申请实施例中所述的确定第一网络设备发生故障，实际上是确定第一网络设备中用以发送该第一诊断报文的指定接口板发生故障。

也就是说，第一网络设备通过执行图3所示的方法可确定指定接口板是否发生故障。若第一网络设备想要确定除指定接口板之外的其他接口板是否发生故障，还需通过该接口板向第二网络设备发送诊断报文，并根据环回报文和诊断报文是否一致来判断该接口板是否发生故障。

在S301中，第一网络设备通过指定接口板向第二网络设备发送第一诊断报文之前，第一网络设备可从预设的多个报文模板中选择指定报文模板；然后，按照指定报文模板生成第一诊断报文，并向第二网络设备发送第一诊断报文。

S302：第一网络设备检测第一环回报文与第一诊断报文是否一致。

其中，第一环回报文为第一诊断报文在指定接口板中的多个芯片间环回后得到的报文。当第一环回报文与第一诊断报文一致时，则说明第一诊断报文在多个芯片间环回后没有出现丢包或改包的情况；当第一环回报文与第一诊断报文不一致时，则说明第一诊断报文在多个芯片间环回后出现了丢包或改包的情况。

S303：第一网络设备在第一环回报文与第一诊断报文不一致时，确定第一网络设备发生故障。

当第一环回报文与第一诊断报文不一致时，说明第一诊断报文在多个芯片间环回后出现了丢包或改包的情况，也就是说在指定接口板中传输该第一诊断报文时会出现错误，也就说明了指定接口板发生了故障，即第一网络设备发生故障。此时，若第一网络设备通过指定接口板向第二网络设备发送报文，会由于第一网络设备的故障而导致报文的丢包或改包。

图3所示的故障检测方法可用于第一网络设备自检，即第一网络设备向第二网络设备发送报文之前可执行图3所示方法，从而使得第一网络设备可确定自身是否发生故障。此外，图3所示方法也可以用于第一网络设备与第二网络设备间发生业务故障后，第一网络设备检测该业务故障是否是由于自身故障导致的。

若图3所示方法用于第一网络设备与第二网络设备间发生业务故障后，那么一种确定第一网络设备和第二网络设备间发生业务故障的方法可以是：

在第一网络设备通过指定接口板向第二网络设备发送第一诊断报文之前，重复执行如下步骤N次，N＞1：第一网络设备通过指定接口板向第二网络设备发送检测报文；第一网络设备接收转发报文，转发报文为第二网络设备在接收到检测报文后转发给第一网络设备的报文；第一网络设备检测转发报文与检测报文是否一致，并在转发报文与检测报文一致时保持M的值不变、在转发报文与检测报文不一致时将M的值加一，M的初始值为0。

然后，第一网络设备确定M与N的比值超过预设阈值。

此外，上述方案只是一种触发第一网络设备执行图3所示方法来检测自身是否发生故障的触发条件，M与N的比值超过预设阈值时并不能说明第一网络设备与第二网络设备间一定发生了业务故障。

需要说明的是，本申请实施例中，检测报文和第一诊断报文并没有实际上的差别，只是检测报文可以用于检测第一网络设备和第二网络设备间是否发生业务故障，而第一诊断报文可以用于确定第一网络设备是否发生故障，且第一网络设备在发送第一诊断报文时在PIC中设置环回标记。本申请实施例中为了将第一网络设备执行不同操作时发送的报文加以区分，分别用检测报文和诊断报文命名。

在上述方案中，第一网络设备通过向第二网络设备发送N个检测报文，并通过检测N个检测报文经第二网络设备转发回第一网络设备后得到的N个转发报文与发送的N个检测报文的一致性，来确定第一网络设备是否执行检测自身故障的方法。具体地，在上述实现方式中，M的含义是指第一网络设备接收到的N个转发报文中，与检测报文不一致的转发报文的数量，那么M与N的比值即代表N个转发报文在由第一网络设备发送至第二网络设备，然后经第二网络设备转发回第一网络设备后检测报文的丢包率或改包率。当检测报文的丢包率或改包率超过预设阈值时，则第一网络设备可执行上述故障检测方法。

采用上述方案，通过统计检测报文的丢包率或改包率来判断第一网络设备是否执行上述故障检测方法，提供了一种执行上述故障检测方法的触发条件。

此外，在上述方案中，在第一网络设备首次执行通过指定接口板向第二网络设备发送检测报文的步骤之前，第一网络设备还可通过如下方式初步判断第一网络设备和第二网络设备间可能了发生业务故障：第一网络设备通过指定接口板向第二网络设备发送检测报文；第一网络设备接收转发报文后，检测到转发报文与检测报文不一致。

也就是说，在实际实现时，第一网络设备可在向第二网络设备发送一个检测报文并确定转发报文和检测报文不一致时，初步判断第一网络设备和第二网络设备间可能发生了业务故障。

在确定第一网络设备与第二网络设备间发生业务故障后，第一网络设备通过执行图3所示的故障检测方法，可在第一环回报文与第一诊断报文不一致时确定第一网络设备发生故障。此外，若第一环回报文与第一诊断报文一致，则说明第一网络设备没有发生故障，那么第一网络设备可以确定导致第一网络设备和第二网络设备间的业务故障的原因是第二网络设备发生故障或者第一网络设备和第二网络设备间的链路发生故障。

进一步地，在第一网络设备确定自身发生故障之后，第一网络设备还可以进一步确定指定接口板中具体哪个芯片发生了故障，以便采取相应措施来修复第一网络设备的故障。具体方式是：第一网络设备通过指定接口板向第二网络设备发送P个第一诊断报文，并在PIC中设置环回标记，P＞1；第一网络设备根据多个芯片中每个芯片基于P个第一诊断报文的流量统计结果，确定多个芯片中的至少一个芯片发生故障。其中，流量统计结果用于指示多个芯片中每个芯片的发送报文数和/或接收报文数。

本申请实施例中，当设置指定接口板进行流量统计时，指定接口板中的每个芯片均会对自身的发送报文数和/或接收报文数进行统计。第一网络设备可通过指定接口板向第二网络设备发送P个第一诊断报文，并根据每个芯片的流量统计结果确定多个芯片中的至少一个芯片发生故障。

其中，芯片的流量统计结果与第一诊断报文在指定接口板中的传输结果相关。以第一诊断报文在指定接口板中的传输路径如图2所示为例，若第一网络设备通过指定接口板向第二网络设备发送P个第一诊断报文，图2中的信号处理器的发送报文数和接收报文数均应该为P，若信号处理器的流量统计结果中的发送报文数小于P或者接收报文数小于P，那么可以判断指定接口板中的信号处理器发生故障；若第一网络设备通过指定接口板向第二网络设备发送P个第一诊断报文，图2中的TM的发送报文数和接收报文数均应该为2P，若TM的流量统计结果中的发送报文数小于2P或者接收报文数小于2P，那么可以判断指定接口板中的TM发生故障。

进一步地，在采用图3所示的故障检测方法确定至少一个芯片发生故障之后，第一网络设备可执行恢复操作来修复第一网络设备的故障。具体地，恢复操作包含如下至少一种操作：对至少一个芯片进行重新加载；对至少一个芯片进行复位；将至少一个芯片下电。

在第一网络设备执行上述恢复操作后，第一网络设备可实现至少一个芯片的故障恢复和隔离，从而修复第一网络设备的故障。

为了检测第一网络设备的故障是否修复，在执行上述恢复操作之后，第一网络设备可通过指定接口板向第二网络设备发送第二诊断报文，并在PIC中设置环回标记；然后，第一网络设备检测第二环回报文与第二诊断报文是否一致，该第二环回报文为第二诊断报文在多个芯片间环回后得到的报文；第一网络设备在第二环回报文与第二诊断报文一致时确定第一网络设备发生的故障已修复。

采用图3所示的故障检测方法，由于第一网络设备在通过指定接口板发送第一诊断报文时在指定接口板的PIC中设置了环回标记，因而该第一诊断报文在传输至PIC后会按原路径经过指定接口板中的多个芯片环回，因而第一网络设备可在接收到第一环回报文后，通过判断第一环回报文与第一诊断报文是否一致，来判断自身是否发生故障：当第一环回报文与第一诊断报文不一致时，第一网络设备确定自身发生故障。因而，采用图3所示的故障检测方法可确定第一网络设备是否发生故障。特别地，当确定第一网络设备和第二网络设备间已经发生业务故障后，可采用图3所示的方法来确定该业务故障的故障来源。

需要说明的是，通过执行图3所示的方法，第一网络设备可确定自身是否发生故障，但是第一网络设备并不能确定第二网络设备是否发生故障。若要确定第二网络设备是否发生故障，可通过第二网络设备执行图3所示的方法实现。比如，在确定第一网络设备和第二网络设备间已经发生业务故障后，第一网络设备通过执行图3所示方法确定自身没有发生故障后，第二网络设备可通过执行图3所示方法来确定自身是否发生故障，若第二网络设备也确定自身没有发生故障，那么则可以确定导致该业务故障的原因是第一网络设备和第二网络设备间的链路发生故障。

此外，在本申请实施例提供的故障检测方法中，第一网络设备可同时通过多个接口板发送第一诊断报文，来分别诊断多个接口板是否发生故障。

在图3所示的故障检测方法中，第一网络设备有如下几种状态：启动第一网络设备的状态(初始态)、未发生业务故障的状态(正常态)、初步判断可能发生业务故障的状态(趋近态)、确定发生业务故障的状态(诊断态)。

基于以上实施例，本申请还提供一种故障检测方法，该故障检测方法从上述第一网络设备的几种状态的角度描述，可视为图3所示方法的一个具体示例。参见图4，该方法包括如下步骤：

(1)在初始态选择可以发送大心跳报文的接口板，如果有满足条件的接口板并且该接口板没有故障标志则将该接口板由初始态转为正常态，并通过该接口板发送大心跳报文。

其中，大心跳报文为一种ICMP报文，可视为图3所示的故障检测方法中的检测报文的一个具体示例。

在步骤(1)中，满足条件的接口板可以是一个，也可以是多个。当满足条件的接口板为多个时，分别通过多个接口板发送大心跳报文。

(2)在正常态的一个检测周期内检测到大心跳报文发生改包或丢包时，将发送该大心跳报文的接口板转为趋近态进行检测。

通过执行步骤(2)可初步判断第一网络设备和第二网络设备间存在业务故障。

(3)在趋近态的一个检测周期内检测到大心跳报文的丢包率或改包率达到预设阈值时，则通知SAID(System of Active Immunization and Diagnosis，主动免疫维护系统)模块进行诊断。

其中，SAID模块为一种用于诊断本端的网络设备(第一网络设备)是否发生故障的诊断模块。

通过执行步骤(3)可确定第一网络设备和第二网络设备间存在业务故障。

(4)SAID模块将该第一网络设备置为停止发包状态，将触发诊断的接口板由趋近态转为诊断态，其他接口板则回到初始态。SAID模块选择一个报文模板，第一网络设备通过该接口板、按照该报文模板发送第一诊断报文，并将触发诊断的接口板中的PIC置上环回标记。

(5)第一诊断报文发送完成后，由SAID模块获取第一环回报文。

(6)SAID模块根据第一环回报文与第一诊断报文的一致性判断触发诊断的接口板是否发生故障，当第一环回报文与第一诊断报文不一致时将该接口板置上故障标志，并在判断完成后将该接口板设置为初始态。

将步骤(1)～步骤(6)执行一次可视为将图3所示的故障检测方法执行了一次。

(7)将置有故障标志的接口板由正常态转为趋近态，并通过置有故障标志的接口板、按照步骤(4)中选择的报文模板发送大心跳报文；

(8)针对在趋近态的检测到大心跳报文的丢包率或改包率没有达到预设阈值的接口板，进入下一轮趋近态检测；

(9)针对在趋近态没有检测到丢包或改包的接口板，清除该接口板的故障标志，回到正常态检测。

(10)针对步骤(8)中转为趋近态的接口板以及步骤(9)中转为正常态的接口板，若发送大心跳报文的丢包率或改包率没有达到预设阈值，则说明这些接口板的故障已修复，此时将这些接口板置为初始态。

通过执行步骤(7)～步骤(10)，可进一步检测步骤(6)确定的、发生故障的接口板的故障是否清除。

在图4所示的故障检测方法中，提出了SAID模块的概念。在本申请实施例中，以SAID模块为核心的SAID子系统可用于执行故障检测、诊断和恢复等操作。其中，检测操作是指检测本端网络设备和对端网络设备间是否发生业务故障的操作，诊断操作是指在发生业务故障的前提下诊断故障来源的操作，恢复操作是指在确定故障来源以后用于消除故障、恢复业务的操作。网络设备中的SAID子系统组成可如图5所示。

在图5所示的SAID子系统中，SAID模块的各个操作的具体含义是：

(1)SAID模块通知其他模块进行预防性动作，或获取当前状态；

(2)SAID模块通知其他模块进行定时检测；

(3)ISIS模块发现异常，主动通知SAID模块；

(4)SAID模块将消息过滤后进行处理；

(5)SAID模块检测发现异常后，进入诊断处理；

(6)SAID模块调用RM模块的诊断接口进行模块内诊断；

(7)SAID模块诊断完成后，进入恢复处理；

(8)SAID模块调用RM模块的恢复接口尝试模块内恢复；

(9)本SAID模块通知其他模块继续故障诊断；

(10)SAID模块将信息输入到SAID溯源模块。

需要说明的是，图5所述的SAID子系统是按照软件功能进行模块划分的，SAID子系统的组成也可按照不同的软件功能进行不同的模块划分，只要SAID子系统能够实现故障检测、诊断和恢复即可。

基于以上实施例，本申请还提供一种故障检测装置，该装置可用于执行图3所示的方法。参见图6，该故障检测装置600(以下简称“装置600”)包括发送单元601和处理单元602。

发送单元601用于通过指定接口板向第二网络设备发送第一诊断报文，并在指定接口板的PIC中设置环回标记，该环回标记用于指示第一诊断报文在传输至PIC后不发送至第二网络设备、并按原路径经过指定接口板中的多个芯片环回。

处理单元602用于检测第一环回报文与第一诊断报文是否一致，该第一环回报文为第一诊断报文在多个芯片间环回后得到的报文。

处理单元602，还用于在第一环回报文与第一诊断报文不一致时，确定装置600发生故障。

其中，第一诊断报文的目的MAC地址可以为第二网络设备的MAC地址、目的IP地址可以为装置600的IP地址。当然，第一诊断报文的目的MAC地址和目的IP地址也可不按此方式设置，本申请实施例中对此不做限定。

可选地，装置600还包括：接收单元；发送单元601、接收单元以及处理单元602还用于：在发送单元601通过指定接口板向第二网络设备发送第一诊断报文之前，重复执行如下步骤N次，N＞1：发送单元601通过指定接口板向第二网络设备发送检测报文；接收单元接收转发报文，转发报文为第二网络设备在接收到检测报文后转发给装置600的报文；处理单元602检测转发报文与检测报文是否一致，并在转发报文与检测报文一致时保持M的值不变、在转发报文与检测报文不一致时将M的值加一，M的初始值为0。

处理单元602，还用于：确定M与N的比值超过预设阈值。

其中，检测报文的目的MAC地址可以为第二网络设备的MAC地址、目的IP地址可以为装置600的IP地址。当然，检测报文的目的MAC地址和目的IP地址也可不按此方式设置，本申请实施例中对此不做限定。

可选地，处理单元602还用于：在检测第一环回报文与第一诊断报文是否一致之后，若第一环回报文与第一诊断报文一致，则确定装置600未发生故障。

可选地，发送单元601还用于：在首次执行通过指定接口板向第二网络设备发送检测报文的步骤之前，通过指定接口板向第二网络设备发送检测报文；接收单元还用于：接收转发报文；处理单元602还用于：检测到转发报文与检测报文不一致。

可选地，发送单元601还用于：在处理单元602确定装置600发生故障之后，通过指定接口板向第二网络设备发送P个第一诊断报文，并在PIC中设置环回标记，P＞1；处理单元602还用于：根据多个芯片中每个芯片基于P个第一诊断报文的流量统计结果，确定多个芯片中的至少一个芯片发生故障，流量统计结果用于指示多个芯片中每个芯片的发送报文数和/或接收报文数。

可选地，处理单元602还用于：在确定至少一个芯片发生故障之后，执行恢复操作；其中，恢复操作包含如下至少一种操作：对至少一个芯片进行重新加载；对至少一个芯片进行复位；将至少一个芯片下电。

可选地，发送单元601还用于：在处理单元602执行恢复操作之后，通过指定接口板向第二网络设备发送第二诊断报文，并在所述PIC中设置环回标记；接收单元还用于：检测第二环回报文与第二诊断报文是否一致，该第二环回报文为第二诊断报文在所述多个芯片间环回后得到的报文；在第二环回报文与第二诊断报文一致时，确定所述装置发生的故障已修复。

可选地，处理单元602还用于：在发送单元601通过指定接口板向第二网络设备发送第一诊断报文之前，从预设的多个报文模板中选择指定报文模板；发送单元601在通过指定接口板向第二网络设备发送第一诊断报文时，用于：按照指定报文模板生成第一诊断报文，并向第二网络设备发送第一诊断报文。

需要说明的是，本申请中对单元的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是，装置600可用于执行图3所示的方法，因此装置600中未详尽描述的实现方式以及有益效果可参见图3所示方法中的相关描述，重复之处不再赘述。

基于以上实施例，本申请实施例还提供了一种故障检测装置，该故障检测装置可执行图3对应的实施例提供的方法，可以与图6所示的故障检测装置600相同。

参见图7，故障检测装置700包括至少一个处理器701、存储器702和通信接口703；所述至少一个处理器701、所述存储器702和所述通信接口703均通过总线704连接；

所述存储器702，用于存储计算机执行指令；

所述至少一个处理器701，用于执行所述存储器702存储的计算机执行指令，使得所述故障检测装置700通过所述通信接口703与其它设备(比如第二网络设备)进行数据交互来执行上述实施例提供的故障检测方法。

至少一个处理器701，可以包括不同类型的处理器701，或者包括相同类型的处理器701；处理器701可以是以下的任一种：中央处理器(Central Processing Unit，简称CPU)、ARM处理器、现场可编程门阵列(Field Programmable Gate Array，简称FPGA)、专用处理器等具有计算处理能力的器件。一种可选实施方式，所述至少一个处理器701还可以集成为众核处理器。

存储器702可以是以下的任一种或任一种组合：随机存取存储器(Random AccessMemory，简称RAM)、只读存储器(read only memory，简称ROM)、非易失性存储器(non-volatile memory，简称NVM)、固态硬盘(Solid State Drives，简称SSD)、机械硬盘、磁盘、磁盘阵列等存储介质。

通信接口703用于故障检测装置700与其他设备(例如第二网络设备)进行数据交互。通信接口703可以是以下的任一种或任一种组合：网络接口(例如以太网接口)、无线网卡等具有网络接入功能的器件。

该总线704可以包括地址总线、数据总线、控制总线等，为便于表示，图7用一条粗线表示该总线。总线704可以是以下的任一种或任一种组合：工业标准体系结构(IndustryStandard Architecture，简称ISA)总线、外设组件互连标准(Peripheral ComponentInterconnect，简称PCI)总线、扩展工业标准结构(Extended Industry StandardArchitecture，简称EISA)总线等有线数据传输的器件。

综上，本申请实施例提供一种故障检测方法及装置，采用本申请实施例可在确定第一网络设备和第二网络设备间已经发生业务故障后，确定该业务故障的故障来源。

本领域内的技术人员应明白，本申请的实施例可提供为方法、系统、或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样，倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内，则本申请也意图包含这些改动和变型在内。

Claims

1.一种故障检测方法，其特征在于，包括：

第一网络设备通过指定接口板向第二网络设备发送第一诊断报文，并在所述指定接口板的物理接口卡PIC中设置环回标记，所述环回标记用于指示所述第一诊断报文在传输至所述PIC后不发送至所述第二网络设备、并按原路径经过所述指定接口板中的多个芯片环回；

所述第一网络设备检测第一环回报文与所述第一诊断报文是否一致，所述第一环回报文为所述第一诊断报文在所述多个芯片间环回后得到的报文；

所述第一网络设备在所述第一环回报文与所述第一诊断报文不一致时，确定所述第一网络设备发生故障。

2.如权利要求1所述的方法，其特征在于，在所述第一网络设备通过所述指定接口板向所述第二网络设备发送所述第一诊断报文之前，还包括：

重复执行如下步骤N次，N＞1：所述第一网络设备通过所述指定接口板向所述第二网络设备发送检测报文；所述第一网络设备接收转发报文，所述转发报文为所述第二网络设备在接收到所述检测报文后转发给所述第一网络设备的报文；所述第一网络设备检测所述转发报文与所述检测报文是否一致，并在所述转发报文与所述检测报文一致时保持M的值不变、在所述转发报文与所述检测报文不一致时将M的值加一，M的初始值为0；

所述第一网络设备确定M与N的比值超过预设阈值。

3.如权利要求1或2所述的方法，其特征在于，在所述第一网络设备检测第一环回报文与所述第一诊断报文是否一致之后，还包括：

所述第一网络设备在所述第一环回报文与所述第一诊断报文一致时，确定所述第一网络设备未发生故障。

4.如权利要求2所述的方法，其特征在于，在所述第一网络设备首次执行通过所述指定接口板向所述第二网络设备发送所述检测报文的步骤之前，还包括：

所述第一网络设备通过所述指定接口板向所述第二网络设备发送所述检测报文；

所述第一网络设备接收所述转发报文；

所述第一网络设备检测到所述转发报文与所述检测报文不一致。

5.如权利要求1或2所述的方法，其特征在于，在所述第一网络设备确定所述第一网络设备发生故障之后，还包括：

所述第一网络设备通过所述指定接口板向所述第二网络设备发送P个所述第一诊断报文，并在所述PIC中设置环回标记，P＞1；

所述第一网络设备根据所述多个芯片中每个芯片基于所述P个第一诊断报文的流量统计结果，确定所述多个芯片中的至少一个芯片发生故障，所述流量统计结果用于指示所述多个芯片中每个芯片的发送报文数和/或接收报文数。

6.如权利要求5所述的方法，其特征在于，在所述第一网络设备确定所述至少一个芯片发生故障之后，还包括：

所述第一网络设备执行恢复操作，所述恢复操作包含如下至少一种操作：

对所述至少一个芯片进行重新加载；

对所述至少一个芯片进行复位；

将所述至少一个芯片下电。

7.如权利要求6所述的方法，其特征在于，在所述第一网络设备执行恢复操作之后，还包括：

所述第一网络设备通过所述指定接口板向所述第二网络设备发送第二诊断报文，并在所述PIC中设置所述环回标记；

所述第一网络设备检测第二环回报文与所述第二诊断报文是否一致，所述第二环回报文为所述第二诊断报文在所述多个芯片间环回后得到的报文；

所述第一网络设备在所述第二环回报文与所述第二诊断报文一致时，确定所述第一网络设备发生的故障已修复。

8.如权利要求1或2所述的方法，其特征在于，在所述第一网络设备通过所述指定接口板向所述第二网络设备发送所述第一诊断报文之前，还包括：

所述第一网络设备从预设的多个报文模板中选择指定报文模板；

所述第一网络设备通过所述指定接口板向所述第二网络设备发送所述第一诊断报文，包括：

所述第一网络设备按照所述指定报文模板生成所述第一诊断报文，并向所述第二网络设备发送所述第一诊断报文。

9.一种故障检测装置，其特征在于，包括：

发送单元，用于通过指定接口板向第二网络设备发送第一诊断报文，并在所述指定接口板的PIC中设置环回标记，所述环回标记用于指示所述第一诊断报文在传输至所述PIC后不发送至所述第二网络设备、并按原路径经过所述指定接口板中的多个芯片环回；

处理单元，用于检测第一环回报文与所述第一诊断报文是否一致，所述第一环回报文为所述第一诊断报文在所述多个芯片间环回后得到的报文；

所述处理单元，还用于在所述第一环回报文与所述第一诊断报文不一致时，确定所述装置发生故障。

10.如权利要求9所述的装置，其特征在于，所述装置还包括：接收单元；所述发送单元、所述接收单元以及所述处理单元还用于：

在所述发送单元通过所述指定接口板向所述第二网络设备发送所述第一诊断报文之前，重复执行如下步骤N次，N＞1：所述发送单元通过所述指定接口板向所述第二网络设备发送检测报文；所述接收单元接收转发报文，所述转发报文为所述第二网络设备在接收到所述检测报文后转发给所述装置的报文；所述处理单元检测所述转发报文与所述检测报文是否一致，并在所述转发报文与所述检测报文一致时保持M的值不变、在所述转发报文与所述检测报文不一致时将M的值加一，M的初始值为0；

所述处理单元，还用于确定M与N的比值超过预设阈值。

11.如权利要求10所述的装置，其特征在于，所述处理单元还用于：在检测第一环回报文与所述第一诊断报文是否一致之后，若所述第一环回报文与所述第一诊断报文一致，则确定所述装置未发生故障。

12.如权利要求10或11所述的装置，其特征在于，所述发送单元还用于：

在首次执行通过所述指定接口板向所述第二网络设备发送所述检测报文的步骤之前，通过所述指定接口板向所述第二网络设备发送所述检测报文；

所述接收单元还用于：接收所述转发报文；

所述处理单元还用于：检测到所述转发报文与所述检测报文不一致。

13.如权利要求9或10所述的装置，其特征在于，所述发送单元还用于：在所述处理单元确定所述装置发生故障之后，通过所述指定接口板向所述第二网络设备发送P个所述第一诊断报文，并在所述PIC中设置环回标记，P＞1；

所述处理单元还用于：根据所述多个芯片中每个芯片基于所述P个第一诊断报文的流量统计结果，确定所述多个芯片中的至少一个芯片发生故障，所述流量统计结果用于指示所述多个芯片中每个芯片的发送报文数和/或接收报文数。

14.如权利要求13所述的装置，其特征在于，所述处理单元还用于：在确定所述至少一个芯片发生故障之后，执行恢复操作，所述恢复操作包含如下至少一种操作：

对所述至少一个芯片进行重新加载；

对所述至少一个芯片进行复位；

将所述至少一个芯片下电。

15.如权利要求14所述的装置，其特征在于，所述发送单元还用于：在所述处理单元执行恢复操作之后，通过所述指定接口板向所述第二网络设备发送第二诊断报文，并在所述PIC中设置所述环回标记；

所述处理单元还用于：检测第二环回报文与所述第二诊断报文是否一致，所述第二环回报文为所述第二诊断报文在所述多个芯片间环回后得到的报文；在所述第二环回报文与所述第二诊断报文一致时，确定所述装置发生的故障已修复。

16.如权利要求9或10所述的装置，其特征在于，所述处理单元还用于：在所述发送单元通过所述指定接口板向所述第二网络设备发送所述第一诊断报文之前，从预设的多个报文模板中选择指定报文模板；

所述发送单元在通过所述指定接口板向所述第二网络设备发送所述第一诊断报文时，用于：

按照所述指定报文模板生成所述第一诊断报文，并向所述第二网络设备发送所述第一诊断报文。

17.一种计算机存储介质，其特征在于，所述计算机存储介质存储有计算机可执行指令，所述计算机可执行指令在被计算机调用时，使所述计算机执行如权利要求1～8任一项所述的方法。