CN106059824B

CN106059824B - 一种故障处理方法及装置

Info

Publication number: CN106059824B
Application number: CN201610533516.1A
Authority: CN
Inventors: 刘永奎; 王伟
Original assignee: New H3C Technologies Co Ltd
Current assignee: New H3C Technologies Co Ltd
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2019-12-06
Anticipated expiration: 2036-06-30
Also published as: CN106059824A

Abstract

本申请提供一种故障处理方法及装置，所述方法包括：当互联节点上的互联端口所在主环上的公共链路发生故障时，互联节点判断所述主环上是否存在多点故障；其中，互联端口为互联节点所在主环和子环的公共链路上的端口；如果主环上存在多点故障，则互联节点依据从非互联端口接收到的链路故障SF报文确定所述故障互联节点到互联节点的跳数；其中，非互联端口为主环上除互联端口外的端口；如果跳数小于所述互联节点到主节点的基准跳数，则互联节点在所述互联节点的子环端口上发送人工切换MS报文后，阻塞所述互联节点上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL。有效解决子环流量不通的问题。

Description

一种故障处理方法及装置

技术领域

本申请涉及网络技术领域，特别涉及一种故障处理方法及装置。

背景技术

以太网保护切换(ERPS，Ethernet Ring Protection Switching)是一个专门应用于以太网环的链路层协议。它在以太网环完整时能够防止数据环路引起的广播风暴，而当以太网环上一条链路断开时能迅速恢复环网上各个节点之间的通信通路，具备较高的收敛速度。

ERPS环网中包括：主(Owner)节点、邻居(Neighbor)节点、普通(Normal)节点、互联(Interconnection)节点四种节点类型，其中Owner节点和Neighbor节点之间的链路为环网保护链路(RPL，Ring Protection Link)，连接主环和子环的节点为Interconnection节点，其他的都为Normal节点。

发明内容

有鉴于此，本申请提供一种故障处理方法及装置，以解决由于现有技术中需要在子环端口增加内向MEP进行连通性检测，导致现有设备开销和硬件成本增加的技术问题。

具体地，本申请是通过如下技术方案实现的：

根据本申请实施例的第一方面，提供一种故障处理方法，包括：

当互联节点上的互联端口所在主环上的公共链路发生故障时，所述互联节点判断所述主环上是否存在多点故障；其中，所述互联端口为所述互联节点所在主环和子环的公共链路上的端口；

如果所述主环上存在多点故障，则所述互联节点依据从非互联端口接收到的链路故障SF报文确定故障节点到所述互联节点的跳数；其中，所述非互联端口为所述互联节点所在主环上除所述互联端口外的端口；

如果所述故障节点到所述互联节点的跳数小于所述互联节点到主节点的基准跳数，则所述互联节点在所述互联节点的子环端口上发送人工切换MS报文后，阻塞所述互联节点上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL。

根据本申请实施例的第二方面，提供一种故障处理装置，包括：

第一判断单元，用于在互联节点上的互联端口所在主环上的公共链路发生故障时，所述互联节点判断所述主环上是否存在多点故障；其中，所述互联端口为所述互联节点所在主环和子环的公共链路上的端口；

确定单元，用于在所述第一判断单元判定所述主环上存在多点故障时，依据从非互联端口接收到的SF报文确定故障节点到所述互联节点的跳数；其中，所述非互联端口为所述互联节点所在主环上除所述互联端口外的端口；

第二判断单元，用于判断故障节点到所述互联节点的跳数是否小于所述互联节点到主节点的基准跳数；

发送单元，用于在所述第二判断单元判定所述故障节点到所述互联节点的跳数小于所述互联节点到主节点的基准跳数时，在所述互联节点的子环端口上发送人工切换MS报文；

阻塞单元，用于在所述发送单元发送所述MS报文后，阻塞所述互联节点上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL。

本申请实施例中，在互联端口发生故障时，互联节点通过判断主环上是否存在多点故障，并在存在多点故障时，根据故障情况，依据从非互联端口接收到的SF报文确定所述互联节点到主节点的跳数，如果所述跳数小于所述互联节点到主节点的基准跳数，则所述互联节点在所述互联节点的子环端口上发送人工切换MS报文后，阻塞所述互联节点上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL。通过此方法，可以在不增加现有设备开销与硬件成本的情况下，有效解决在主环存在多点故障时导致子环流量不通的问题。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

图1是本申请实施例示出的一种故障处理方法的流程图；

图2是本申请实施例示出的一种故障处理方法的另一流程图；

图3是本申请实施例提供的一种多子环正常的组网应用实例图；

图4是本申请实施例提供的一种互联端口出现故障的示意图；

图5是本申请实施例提供的一种互联端口和非互联端口出现故障的示意图；

图6是本申请实施例提供的一种非互联端口出现故障的示意图；

图7是本申请实施例提供的一种互联端口和非互联端口出现故障进行处理后的示意图；

图8是本申请实施例示出的一种非互联端口出现故障进行处理后的示意图；

图9是本申请实施例提供的一种故障处理装置所在设备的一种硬件结构图；

图10是本申请实施例示出的一种故障处理装置的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

在ERPS环网中，如果有设备发生链路故障，故障节点阻塞故障端口，并且周期性的发送链路故障(SF，Signal fail)消息，通告环路中的其他节点此链路已经故障。其他节点在接收到SF消息后，打开非故障阻塞端口，并刷新MAC和ARP/ND表项。这样，Owner节点和Neighbor节点收到SF消息后，就会放开之前阻塞的RPL端口，将业务切换到RPL链路上，完成了环路的保护切换。

但是，在ERPS环网中包括多环的情况下，如果互联节点的链路出现故障，此时，由于子环无法感知，还是阻塞自己的RPL链路，从而会导致网络流量部分中断。

为了解决此问题，现有技术中，在互联节点的子环端口增加内向MEP(可以使用主环的R-APS通道对应的VLAN或者数据VLAN中的任何一个)进行连通性检测(CC，continuitycheck)。当互联节点通过连通性检测检测出主环链路发生故障时，通知子环，转换为人工切换(MS，Manual Switch)事件，让子环放开阻塞端口。

由此可知，通过在子环端口增加内向MEP进行连通性检测解决子环链路不通的问题，但是，这种方式配置要求较高，要求主环的其他节点上都不能配置同级别的外向MEP，以便于与配置的内向MEP相混淆；而且，还需要特殊硬件的支持，导致硬件成本高。

为了便于理解本申请，下面先介绍几个本申请中的术语：

互联(Interconnection)节点：多环模型中连接多个环的节点，互联节点属于主环，子环无互联节点。子环的协议报文在互联节点终结，数据报文不被终结；

第一互联节点：流量从该互联节点向另外一个互联节点转发，即流量的上游节点，该互联节点就称为master互联节点；

第二互联节点：流量从对端的互联节点向本互联节点转发，即流量的下游节点，该互联节点就称为backup互联节点；

互联端口：两个互联节点相连的端口称为互联端口，master互联节点和backup互联节点这两个互联节点相连的端口称为互联端口；

主(Owner)节点：负责阻塞和放开本节点上位于RPL上的端口，防止形成环路，从而进行链路倒换；

邻居(Neighbor)节点：环网保护链路(RPL，Ring Protection Link)上和Owner节点相连的节点，协同Owner节点阻塞和放开本节点上位于RPL上的端口，进行链路倒换。

主环链路正常情况下收到R-APS(SF)报文不会进行多点故障检测，如果互联节点的互联端口出现故障，会触发开启多点故障检测。

本申请提供的是一种环路上(比如ERPS)多点故障的处理方法和装置，应用于包括一个主环和至少一个子环的网络。本申请实施例中，针对一个主环上的两个互联节点，其中一个定义为第一互联节点，另一个定义为第二互联节点：首先，第一互联节点和第二互联节点所在主环和子环的公共链路上的端口称为互联端口，也就是说，该互联端口为主环和子环所在的公共链路上的端口，此外，该第一互联节点和第二互联节点上还包括非互联端口和子环端口，其中，非互联端口为所述主环上除所述互联端口外的其他端口，子环端口为第一互联节点和第二互联节点在与互联端口同一子环上的除互联端口外的其他端口。其次，要求用户在互联节点上配置与自身关联相同子环且直接连接的互联节点(即相邻互联节点)的媒体接入控制(MAC，Medium Access Control)地址，即INTER_MAC，以及配置与自身关联相同子环、与本互联节点的互联端口连接的节点的MAC地址，即N_MAC。也就是说，同时要求用户在互联节点(比如第一互联节点)上配置关联子环时指明另外一个关联相同子环的互联节点(比如第二互联节点)的MAC地址，为便于本文描述，本文同一称之为INTER_MAC，如果另外一个关联相同子环的互联节点与本互联节点不是直连(默认情况是直连的)，那么还要指明与本互联节点的互联端口连接的节点MAC地址，本文统一称之为N_MAC。

请参阅图1，为本申请实施例示出的一种故障处理方法的流程图，所述方法包括：

步骤101：当互联节点上的互联端口所在主环上的公共链路发生故障时，所述互联节点判断所述主环上是否存在多点故障；其中，所述互联端口为所述互联节点所在主环和子环的公共链路上的端口；

该实施例中，只有在互联节点上的互联端口发生故障时，才会触发主环上的多点故障检测，即判断所述主环上是否存在多点故障，一种判断方式为：

所述互联节点判断所述非互联端口是否发生故障，如果没有发生故障，则检查从所述非互联端口上接收到的链路故障SF报文中的节点标识；

所述互联节点判断所述节点标识是否与自身配置的关联相同子环的互联节点的媒体接入控制MAC地址相匹配，如果不相匹配，则判定所述主环上存在多点故障。

其中，所述互联节点判断所述节点标识是否与自身配置的关联相同子环的互联节点的媒体接入控制MAC地址相匹配，具体包括：

所述互联节点判断所述节点标识是否与自身配置的关联相同子环的相邻互联节点的媒体接入控制INTER_MAC地址相匹配，如果不匹配，继续判断所述节点标识是否与自身配置的关联相同子环、与本互联节点的互联端口连接的节点的媒体接入控制N_MAC地址相匹配，如果不相匹配，则判定所述主环上存在多点故障。

步骤102：如果所述主环上存在多点故障，则所述互联节点依据从非互联端口接收到的链路故障SF报文确定所述故障节点到互联节点的跳数；其中，所述非互联端口为所述互联节点所在主环上除所述互联端口外的端口；

该步骤中，确定所述故障节点到互联节点的跳数，具体包括：

所述互联节点获取从非互联端口接收到的故障节点发送的链路故障(SF，signalfailed)报文，所述SF报文中携带生命时间TTL值；

所述互联节点提取所述SF报文中的TTL值；

所述互联节点根据所述TTL值确定所述互联节点到故障节点的跳数。其中，确定所述互联节点到主节点的跳数的计算公式为：255-TTL值。

在该步骤中，所述互联节点按照下述方式确定所述互联节点到主节点的基准跳数，具体包括：

当所述互联节点为第一互联节点时，按照公式255-X计算所述第一互联节点到主节点的基准跳数；其中，X为所述第一互联节点接收所述主节点发送的NRRB报文中包括的TTL值，该X值为不经过互联链路的值；或者

当所述互联节点为第二互联节点时，按照公式Y-Z+1计算所述第二互联节点到主节点的基准跳数；其中，所述第一互联节点和第二互联节点为相邻的互联节点；Y为所述第二互联节点接收到所述主节点发送的NRRB报文中包括的TTL值，该Y值为经过互联链路的值；Z为主环上与所述第二互联节点相邻的相邻(neighbor)节点接收到所述主节点发送的所述NRRB报文中包括的TTL值，该Z值为经过互联链路的值，由于相邻(neighbor)节点与主节点之间的跳数为1，所以，第二互联节点与主节点之间的跳数为Y-Z+1。

也就是说，NRRB报文是由主(owner)节点往外发送的，该NRRB报文中的TTL值用255来填充，在第一个互联节点上获取相应消息的TTL值X1，然后进行255-X1计算，该值即为该第一互联节点到owner节点的基准跳数T1；在第二个互联节点上获取相应的TTL值为X2，然后进行255-X2计算，在与第二互联节点相邻的相邻(neighbor)节点上获取相应的TTL值为Y，然后进行255-Y计算，从而计算出该互联节点与owner节点之间的基准跳数T2为X2-Y+1。

需要说明的是，互联节点与主节点之间的基准跳数，可以根据NRRB报文根据上述过程来确定，也可以事先在相应互联节点上配置，只要能获得互联节点与主节点之间的基准跳数即可，获得方式在此不做限定。

步骤103：如果所述故障节点到所述互联节点的跳数小于所述互联节点到主节点的基准跳数，则所述互联节点在所述互联节点的子环端口上发送人工切换MS报文后，阻塞所述互联节点上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL。

也就是说，所述互联节点为第一互联节点时，所述第一互联节点根据收到的SF报文中携带的TTL计算故障节点与本互联节点之间的跳数M1；然后第一互联节点将M1与T1进行比较，如果M1小于T1时，第一互联节点发送MS报文，之后，阻塞所述第一互联节点上发送的MS报文的子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL。如果M1大于等于T1，则第一互联节点不做任何处理。

所述互联节点为第二互联节点时，所述第二互联节点根据收到的SF报文中携带的TTL计算故障节点与本互联节点之间的跳数M2；然后第二互联节点将M2与T2进行比较，如果M2小于T2时，第二互联节点发送MS报文，之后，阻塞所述第二互联节点上发送的MS报文的子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL。如果M2大于等于T2，则第二互联节点不做任何处理。

本申请实施例中，在互联端口发生故障时，如果判定主环上存在多点故障，依据从非互联端口接收到的SF报文来确定所述互联节点到主节点的跳数，并在该跳数小于所述互联节点到主节点的基准跳数时，通过子环端口发出MS报文来通知子环节点放开对应的阻塞端口，并阻塞该发出MS报文的子环端口。通过此方法，可以在不增加现有设备开销与硬件成本的情况下，有效解决子环流量不通的问题。

还请参阅图2，为本申请实施例提供的一种故障处理方法的另一流程图，所述方法包括：

步骤201：判断所述互联节点上的互联端口所在主环上的公共链路是否发生故障，如果是，执行步骤202：否则，执行步骤212；

步骤202：所述互联节点判定所述非互联端口是否发生故障，如果否，执行步骤203；如果是，执行步骤209；

步骤203：检查从所述非互联端口上接收到的链路故障SF报文中的节点标识；

步骤204：所述互联节点判断所述节点标识是否与自身配置的关联相同子环的互联节点的媒体接入控制MAC地(比如INTER_MAC或N_MAC)相匹配，如果不相匹配，执行步骤205；如果相匹配，执行步骤210；

步骤205：所述互联节点获取从非互联端口接收到的SF报文；

步骤206：所述互联节点提取所述SF报文中的生命时间TTL值；

步骤207：所述互联节点根据所述TTL值确定故障节点到所述互联节点的跳数；

其中，所述互联节点获取从非互联端口接收到的SF报文，所述SF报文中携带生命时间TTL值；所述互联节点提取所述SF报文中的TTL值；所述互联节点根据所述TTL值确定故障节点到所述互联节点的跳数。其中，确定所述故障节点到互联节点的跳数的计算公式为：255-TTL值。

步骤208：判断所述故障节点到所述互联节点的跳数是否小于所述互联节点到主节点的基准跳数，如果小于，执行步骤209；否则，执行步骤211；

其中，所述互联节点按照下述方式确定该互联节点到主节点的基准跳数：

所述互联节点为第一互联节点时，按照公式255-X计算第一互联节点到主节点的基准跳数；其中，X为所述第一互联节点接收所述主节点发送的NRRB报文中包括的TTL值，且所述X值为不经过互联链路的值；或者

当所述互联节点为第二互联节点时，按照公式Y-Z+1计算所述第二互联节点到所述主节点的基准跳数；其中，所述第一互联节点和第二互联节点为相邻的互联节点；Y为所述第二互联节点接收到所述主节点发送的所述NRRB报文中包括的TTL值；Z为主环上与所述第二互联节点相邻的相邻节点接收到所述主节点发送的所述NRRB报文中包括的TTL值，其中，所述Y值为经过互联链路的值，Z值为不经过互联链路的值。

步骤209：所述互联节点在所述互联节点的子环端口上发送人工切换MS报文后，阻塞所述互联节点上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL；

步骤210：直接丢弃报文，不在处理。

步骤211：不触发多点故障检测。

本申请实施例中，在互联端口发生故障时，互联节点通过判断主环上的非互联端口是否发生故障，如果非互联端口没有发生故障时，互联节点检查从非互联端口收到的R-APS(SF)报文携带的NodeID，判断NodeID是否为INTER_MAC，如果为INTER_MAC，不做特殊处理，处理流程同原来一样；如果不是INTER_MAC，则继续判断是否为N_MAC，如果是N_MAC，不做特殊处理，处理流程同原来一样；如果不是N_MAC，则说明主环存在多点故障；然后，互联节点上根据收到的SF报文，获取其TTL值M，若255-M小于该互联节点到owner节点的基准跳数，则该互联节点的子环端口触发发送MS报文，阻塞该端口，同时子环上的PRL链路放开阻塞；若255-M大于等于互联节点到owner节点的基准跳数，则该互联节点不做任何处理。通过此方法，可以在不增加现有设备开销与硬件成本的情况下，有效解决在主环存在多点故障时导致子环流量不通的问题。

为了便于理解，下面以具体的应用实例来说明。

还请参阅图3，为本申请实施例提供一种多子环正常的组网应用实例图。正常情况下，主环和子环都阻塞RPL链路，不转发数据报文，但可以转发其他报文或消息，如图3所示，主环阻塞节点A和节点B的P1端口，子环1阻塞节点E和节点F的P2端口，子环2阻塞节点G的P2和节点H的P1端口，于是整个网络中所有设备都可互通，但是没有产生环路。此种环境下，主环上AB、BC、AD三条链路上出现单点或者多点故障，子环1都不会做任何处理；主环上AB、AD、DC三条链路上出现单点或者多点故障，子环2都不会做任何处理。

首先，需要获取互联节点与owner节点之间的基准跳数，可以根据owner节点发出的NRRB报文获取相应的TTL值X(没有经过互联链路)，然后根据TTL值来计算该互联节点与owner节点的基准跳数为255-X；在另一个互联节点上，获取相应的TTL值为Y(经过互联链路)，在neighbor节点上获取相应的TTL值为Z(不经过互联链路)，从而到到另外一个互联节点到owner节点的跳数为T＝Y-Z+1；

如果互联节点C和D之间的互联端口出现故障，如图4所示，图4为本申请实施例中提供的互联端口出现故障的示意图；这种情况会触发开启多点故障检测，然后按照如下流程进行处理：

1)互联节点检查从非互联端口收到的R-APS(SF)报文携带的NodeID，判断是否为INTER_MAC，如果为INTER_MAC，不做特殊处理，处理流程同原来一样；如果不是INTER_MAC，则继续判断是否为N_MAC，如果是N_MAC，不做特殊处理，处理流程同原来一样；如果不是N_MAC，则说明主环存在多点故障；并执行2)；

2)互联节点上根据收到的SF报文，获取其TTL值M，若255-M小于该互联节点到owner节点的基准跳数，则该互联节点的子环端口触发发送MS报文，阻塞该端口，同时子环上的PRL链路放开阻塞；若255-M大于等于该互联节点到owner节点的基准跳数，则该互联节点不做任何处理。

具体的处理流程详见上述图2，在此不再赘述。

需要说明的是，基于图4中的情况，如果只有单点故障，互联节点不会触发向子环发送MS报文。

主环多点故障的情况有两种情况，分别如图5和图6所示，图5为本申请实施例中互联端口和非互联端口均出现故障的示意图；图6为本申请实施例中提供的非互联端口出现故障的示意图。下面以2个互联节点(即互联节点C和互联节点D)的处理过程为例，本文中，触发发送MS报文的互联节点称为master互联节点，另一个互联节点称为backup互联节点。

具体处理流程如下：

1、主(owner)节点往外(即向主环上的其他节点)发送的NRRB报文(也可以称为消息等)，该报文中包括的TTL值用255来填充，在第一个互联节点(即互联节点D)上获取相应报文的TTL值为X1，然后进行255-X1计算，得到的值即为该互联节点D到owner节点的基础跳数T1；在第二个互联节点(即互联节点C)上获取相应的TTL值为X2，然后进行255-X2计算，在与该互联节点C相连的相邻(neighbor)节点上获取相应的TTL值为Y，然后进行255-Y进行计算，从而计算出该互联节点C与owner节点之间的跳数T2为X2-Y+1；

2、如果发现互联端口发生故障，进行主环多点故障检测；

3、检查非互联端口是否同时发生故障；

1)如果同时发生故障了，如图5所示，则在互联节点C的子环端口上发送MS报文，然后，阻塞所述互联节点C上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL，子环流量转发正常。也就是说，互联节点E和F在接收到对应级别的MS报文时，放开对应的子环端口，即打开互联节点E上的阻塞端口P2，以及打开互联节点F的阻塞端口P2，具体如图7所示，图7为本申请实施例提供的子环节点E、F分别打开对应的PRL阻塞端口的示意图。

2)如果没有同时发生故障，但主环的其他链路出现故障了，如图5所示：

a)互联节点C检查从非互联端口收到的R-APS(SF)报文中携带的NodeID，如果R-APS(SF)报文中携带的NodeID为互联节点B的MAC地址，这与互联节点C上已配置的INTER_MAC和N_MAC均不相同，则说明主环存在多点故障；

b)互联节点C通过获取接收到的SF报文中的TTL值，来计算出故障节点(比如节点B)到互联节点C的跳数为M1，若M1小于T1，则在互联节点C的子环端口发送MS报文，以便于接收到该MS报文的子环节点放开子环的RPL链路，子环流量转发正常，具体如图8所示，图8中，节点E、F收到后分别打开对应的阻塞端口然后，互联节点C还要阻塞该发送MS报文的子环端口；否则，不处理；

c)同理，互联节点D通过获取接收到的SF报文中的TTL值，计算出故障节点到互联节点D的跳数为M2，若M2小于T2，则在互联节点D的子环端口发送MS报文，以便于接收到该MS报文的子环节点放开子环的RPL链路，子环流量转发正常，然后，互联节点C还要阻塞该发送MS报文的子环端口；否则，不处理。

经过本文的方法处理后，图5最终会转化为图7的情况，子环流量转发正常，图6会转化为图8的情况，子环流量转发正常，对于多个子环的情况，处理方法与上述过程类似，在此不再赘述。

与前述故障处理方法的实施例相对应，本申请还提供了故障处理装置的实施例。

本申请提供的环路多点故障的处理装置的实施例可以应用在设备上。装置实施例可以通过软件实现，也可以通过硬件或者软硬件结合的方式实现。以软件实现为例，作为一个逻辑意义上的装置，是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言，如图9所示，为本申请提供的故障处理装置所在设备的一种硬件结构图，除了图9所示的处理器、内存、网络接口、以及非易失性存储器之外，实施例中装置所在的设备通常根据该设备的实际功能，还可以包括其他硬件，对此不再赘述。

请参考图10，为本申请提供的一种故障处理装置的结构示意图，所述装置集成在任一个互联节点中，所述装置包括：第一判断单元110、确定单元111、第二判断单元112，发送单元113和阻塞单元114，其中，

第一判断单元110，用于在互联节点上的互联端口所在主环上的公共链路发生故障时，所述互联节点判断所述主环上是否存在多点故障；其中，所述互联端口为所述互联节点所在主环和子环的公共链路上的端口；

确定单元111，用于在所述第一判断单元110判定所述主环上存在多点故障时，依据从非互联端口接收到的SF报文确定所述互联节点到主节点的跳数；其中，所述非互联端口为所述互联节点所在主环上除所述互联端口外的端口；

第二判断单元112，用于判断所述跳数是否小于所述互联节点到主节点的基准跳数；

发送单元113，用于在所述第二判断单元判定所述跳数小于所述互联节点到主节点的基准跳数时，在所述互联节点的子环端口上发送人工切换MS报文；

阻塞单元114，用于在所述发送单元113发送所述MS报文后，阻塞所述互联节点上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL。

可选的，在另一实施例中，所述装置还包括：获取单元，提取单元(图中未示出)，其中，

所述获取单元，用于获取从非互联端口接收到的主节点发送的SF报文，所述SF报文中携带生命时间TTL值；

所述提取单元，用于提取所述SF报文中的TTL值；

所述确定单元111，用于根据所述TTL值确定所述互联节点到主节点的跳数。其中，确定所述互联节点到主节点的跳数的计算公式为：255-TTL值。

可选的，在另一实施例中，所述确定单元111，还用于确定所述互联节点到主节点的基准跳数。

其中，所述确定单元111，用于在所述互联节点为第一互联节点时，按照公式255-X计算所述第一互联节点到主节点的基准跳数；其中，X为所述第一互联节点接收到主节点发送的NRRB报文中包括的TTL值，所述X值为经过互联链路的值；

所述确定单元111，用于在所述互联节点为第二互联节点时，按照公式Y-Z+1计算所述第二互联节点到主节点的基准跳数；其中，所述第一互联节点和第二互联节点为相邻的互联节点；Y为所述第二互联节点接收到所述主节点发送的所述NRRB报文中包括的TTL值；Z为主环上与所述第二互联节点相邻的相邻节点接收到所述主节点发送的所述NRRB报文中包括的TTL值，其中，所述Y值为经过互联链路的值，Z值为经过互联链路的值。

可选的，再另一实施例中，所述装置还包括：故障判断单元，检测单元(图中未示出)，其中，

所述故障判断单元，用于判断所述非互联端口是否发生故障；

所述检测单元，用于在所述故障判断单元判定所述非互联端没有发生故障时，检测从所述非互联端口上接收到的故障SF报文中的节点标识；

所述第一判断单元110，用于判断所述检测单元检测的节点标识是否与自身配置的关联相同子环的互联节点的媒体接入控制MAC地址相匹配；如果不匹配，则判定所述主环上存在多点故障。

可选的，在另一实施例中，所述第一判断单元110，用于判断所述节点标识是否与自身配置的关联相同子环的相邻互联节点的媒体接入控制INTER_MAC地址相匹配；

所述第一判断单元110，还用于在判定所述节点标识与自身配置的关联相同子环的相邻互联节点的媒体接入控制INTER_MAC地址不相匹配时，继续判断所述节点标识是否与自身配置的关联相同子环的与本互联节点的互联端口连接节点的媒体接入控制N_MAC地址相匹配；如果不相匹配，则判定所述主环上存在多点故障。

可选的，在另一实施例中，所述发送单元113，用于在所述故障判断单元判断所述非互联端口发生故障时，在所述互联节点的子环端口上发送人工切换MS报文。

在所述发送单元113发送所述MS报文后，所述阻塞单元，阻塞所述互联节点上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL。

上述装置中各个单元的功能和作用的实现过程具体详见上述方法中对应步骤的实现过程，在此不再赘述。

本申请实施例中，在互联端口发生故障时，互联节点通过判断非互联端口是否发生故障，来判断主环上是否存在多点故障，如果在主环上存在多点故障时，就根据故障情况，互联节点通过子环端口发送MS报文来通知子环节点放开对应的阻塞端口，并阻塞发送该MS报文的子环端口。通过此方法，可以在不增加现有设备开销与硬件成本的情况下，有效解决在主环存在多点故障时导致子环流量不通的问题。

对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

以上所述仅为本申请的较佳实施例而已，并不用以限制本申请，凡在本申请的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本申请保护的范围之内。

Claims

1.一种故障处理方法，其特征在于，包括：

如果所述主环上存在多点故障，则，

所述互联节点在非互联端口故障时，在所述互联节点的子环端口上发送人工切换MS报文后，阻塞所述互联节点上的所述子环端口，以便于接收到所述MS报文的子环节点打开阻塞的环网保护链路RPL；其中，所述非互联端口为所述互联节点所在主环上除所述互联端口外的端口；

所述互联节点在非互联端口未故障时，依据从非互联端口接收到的链路故障SF报文确定故障节点到所述互联节点的跳数；

2.根据权利要求1所述的方法，其特征在于，所述互联节点依据从非互联端口接收到的SF报文确定故障节点到所述互联节点的跳数包括：

所述互联节点获取从非互联端口接收到的SF报文，所述SF报文中携带生命时间TTL值；

所述互联节点提取所述SF报文中的TTL值；

所述互联节点根据所述TTL值确定故障节点到所述互联节点的跳数。

3.根据权利要求1所述的方法，其特征在于，还包括：按照下述方式确定所述互联节点到主节点的基准跳数：

当所述互联节点为第一互联节点时，按照公式255-X计算所述第一互联节点到主节点的基准跳数；其中，X为所述第一互联节点接收所述主节点发送的无请求环网保护链路阻塞NRRB报文中包括的TTL值；且所述X为不经过互联链路的值；所述第一互联节点为主master互联节点；或者

当所述互联节点为第二互联节点时，所述第二互联节点为备backup互联节点，按照公式Y-Z+1计算所述第二互联节点到所述主节点的基准跳数；其中，所述第一互联节点和第二互联节点为相邻的互联节点；Y为所述第二互联节点接收到所述主节点发送的无请求环网保护链路阻塞NRRB报文中包括的TTL值；Z为主环上与所述第二互联节点相邻的相邻节点接收到所述主节点发送的无请求环网保护链路阻塞NRRB报文中包括的TTL值，其中，所述Y、所述Z为经过互联链路的值。

4.根据权利要求1至3任一项所述的方法，其特征在于，判断所述主环上是否存在多点故障的判断方式包括：

所述互联节点判断所述非互联端口是否发生故障，如果没有发生故障，则检查从所述非互联端口上接收到的SF报文中的节点标识；

5.根据权利要求4所述的方法，其特征在于，所述互联节点判断所述节点标识是否与自身配置的关联相同子环的互联节点的媒体接入控制MAC地址相匹配，具体包括：

所述互联节点判断所述节点标识是否与自身配置的关联相同子环的相邻互联节点的媒体接入控制INTER_MAC地址相匹配，如果不匹配，继续判断所述节点标识是否与自身配置的关联相同子环的与本互联节点的互联端口连接的节点的媒体接入控制N_MAC地址相匹配，如果不相匹配，则判定所述主环上存在多点故障。

6.一种故障处理装置，其特征在于，包括：

第一判断单元，用于在互联节点上的互联端口所在主环上的公共链路发生故障时，判断所述主环上是否存在多点故障；其中，所述互联端口为所述互联节点所在主环和子环的公共链路上的端口；

确定单元，用于在所述第一判断单元判定所述主环上存在多点故障且所述互联节点的非互联端口未故障时，依据从非互联端口接收到的链路故障SF报文确定故障节点到所述互联节点的跳数；其中，所述非互联端口为所述互联节点所在主环上除所述互联端口外的端口；

发送单元，用于在所述第二判断单元判定所述故障节点到所述互联节点的跳数小于所述互联节点到主节点的基准跳数时，在所述互联节点的子环端口上发送人工切换MS报文；或者，在所述第一判断单元判定所述主环上存在多点故障且所述互联节点的非互联端口故障时，在所述互联节点的子环端口上发送人工切换MS报文；

7.根据权利要求6所述的装置，其特征在于，所述装置还包括：

获取单元，用于获取从非互联端口接收到的主节点发送的SF报文，所述SF报文中携带生命时间TTL值；

提取单元，用于提取所述SF报文中的TTL值；

所述确定单元，用于根据提取单元获得的所述TTL值计算所述故障节点到所述互联节点的跳数。

8.根据权利要求6所述的装置，其特征在于，

所述确定单元，还用于确定所述互联节点到主节点的基准跳数。

9.根据权利要求8所述的装置，其特征在于，

所述确定单元，用于在所述互联节点为第一互联节点时，按照公式255-X计算所述互联节点到所述主节点的基准跳数；其中，X为所述第一互联节点接收到主节点发送的无请求环网保护链路阻塞NRRB报文中包括的TTL值，所述X为经过互联链路的值；所述第一互联节点为主master互联节点；或者，

所述确定单元，用于在所述互联节点为第二互联节点时，所述第二互联节点为备backup互联节点，按照公式Y-Z+1计算所述故障节点到第二互联节点的基准跳数；其中，所述第一互联节点和第二互联节点为相邻的互联节点；Y为所述第二互联节点接收到所述主节点发送的无请求环网保护链路阻塞NRRB报文中包括的TTL值；Z为主环上与所述第二互联节点相邻的相邻节点接收到所述主节点发送的无请求环网保护链路阻塞NRRB报文中包括的TTL值，其中，所述Y、Z为经过互联链路的值。

10.根据权利要求6至9任一项所述的装置，其特征在于，所述装置还包括：

故障判断单元，用于判断所述非互联端口是否发生故障；

检测单元，用于在所述故障判断单元判定所述非互联端没有发生故障时，检测从所述非互联端口上接收到的SF报文中的节点标识；

所述第一判断单元，用于判断所述检测单元检测的节点标识是否与自身配置的关联相同子环的互联节点的媒体接入控制MAC地址相匹配；如果不匹配，则判定所述主环上存在多点故障。

11.根据权利要求10所述的装置，其特征在于，

所述第一判断单元，

用于判断所述节点标识是否与自身配置的关联相同子环得相邻互联节点的媒体接入控制INTER_MAC地址相匹配；

还用于在判定所述节点标识与自身配置的关联相同子环的相邻互联节点的媒体接入控制INTER_MAC地址不相匹配时，继续判断所述节点标识是否与自身配置的关联相同子环的与本互联节点的互联端口连接的节点的媒体接入控制N_MAC地址相匹配；如果不相匹配，则判定所述主环上存在多点故障。