CN109039761A - 集群控制通道中故障链路处理方法和装置 - Google Patents

集群控制通道中故障链路处理方法和装置 Download PDF

Info

Publication number
CN109039761A
CN109039761A CN201810978610.7A CN201810978610A CN109039761A CN 109039761 A CN109039761 A CN 109039761A CN 201810978610 A CN201810978610 A CN 201810978610A CN 109039761 A CN109039761 A CN 109039761A
Authority
CN
China
Prior art keywords
cluster
mouth
cluster mouth
control channel
lcc
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810978610.7A
Other languages
English (en)
Other versions
CN109039761B (zh
Inventor
孙祥宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Information Technologies Co Ltd
Original Assignee
New H3C Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd filed Critical New H3C Technologies Co Ltd
Priority to CN201810978610.7A priority Critical patent/CN109039761B/zh
Publication of CN109039761A publication Critical patent/CN109039761A/zh
Application granted granted Critical
Publication of CN109039761B publication Critical patent/CN109039761B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0659Management of faults, events, alarms or notifications using network fault recovery by isolating or reconfiguring faulty entities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0681Configuration of triggering conditions
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0847Transmission error
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/16Threshold monitoring
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity

Abstract

本公开提供了一种集群控制通道中故障链路处理方法和装置,涉及通信技术领域,该方法包括:统计第一集群口接收到循环冗余校验CRC错误报文的数量,第一集群口为集群路由器中第一LCC的主控处理单元的端口;基于数量确定第一集群口和第二集群口之间目标控制通道是否发生链路异常,其中,第二集群口为集群路由器中向第一LCC的主控处理单元发送报文的其他LCC的主控处理单元的集群口;如果发生了链路异常,则断开的目标控制通道,本公开缓解了由于集群路由器的控制通道出现故障导致的集群路由器的异常运行的技术问题。

Description

集群控制通道中故障链路处理方法和装置
技术领域
本公开涉及通信技术领域,尤其是涉及一种集群控制通道中故障链路处理方法和装置。
背景技术
集群路由器是多台单机路由器相互直连组成的系统,多台单机路由器的主控处理单元(Main Process Unit,MPU)之间通过光纤相互连接,实现相互通信。集群路由器中单机路由器的主控处理单元之间的控制通道用来收发控制报文,以在集群路由器内部各集群线卡框(Line Card Chassis,LCC)之间发现和寻找路由器。
目前集群路由器主要分为背靠背集群路由器和多框集群路由器。不论是背靠背集群路由器,还是多框集群路由器,集群路由器中主控处理单元之间的控制通道数据传输的可靠性是至关重要的。如果集群路由器的控制通道中的数据收发出现故障,会引起集群线卡框之间关系异常,不同集群线卡框之间数据出现差错,甚至可能引起整个集群路由器的异常运行。
发明内容
有鉴于此,本公开的目的在于提供一种集群控制通道中故障链路处理方法和装置,以缓解了由于集群路由器的控制通道出现故障导致的集群路由器的异常运行的技术问题。
第一方面,本公开实施例提供了一种集群控制通道中故障链路处理方法,包括:统计第一集群口接收到循环冗余校验CRC错误报文的数量,所述第一集群口为集群路由器中第一LCC的主控处理单元的端口;基于所述数量确定所述第一集群口和第二集群口之间目标控制通道是否发生链路异常,其中,所述第二集群口为所述集群路由器中向所述第一LCC的主控处理单元发送报文的其他LCC的主控处理单元的集群口;如果发生了链路异常,则断开所述的目标控制通道。
第二方面,本公开实施例还提供了一种集群控制通道中故障链路处理装置,包括:统计单元,用于统计第一集群口接收到循环冗余校验CRC错误报文的数量,所述第一集群口为集群路由器中第一LCC的主控处理单元的端口;确定单元,用于基于所述数量确定所述第一集群口和第二集群口之间目标控制通道是否发生链路异常,其中,所述第二集群口为所述集群路由器中向所述第一LCC的主控处理单元发送报文的其他LCC的主控处理单元的集群口;隔离单元,用于在确定出发生了链路异常的情况下,则断开所述的目标控制通道。
在本公开实施例中,首先,统计第一集群口接收到CRC错误报文的数量,然后,基于该数量确定第一集群口和第二集群口之间的目标控制通道是否发生了链路异常,其中,如果判断出发生了链路异常,则断开第一集群口与第二集群口之间的通道。在本实施例中,通过上述处理方式,能够在集群路由器的主控处理单元之间的控制通道出现故障时,主动进行检测和故障处理,保证集群路由器运行的稳定性和可靠性,进而缓解了由于集群路由器的控制通道出现故障导致的集群路由器的异常运行的技术问题。
本公开的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本公开而了解。本公开的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本公开的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本公开具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开实施例的一种集群控制通道中故障链路处理方法的流程图;
图2是根据本公开实施例的一种背靠背集群路由器中主控处理单元MPU之间的控制通道的结构示意图;
图3是根据本公开实施例的一种多框集群路由器中主控处理单元MPU之间的控制通道的结构示意图;
图4是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图;
图5是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图;
图6是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图;
图7是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图;
图8是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图;
图9是根据本公开实施例的一种集群控制通道中故障链路处理装置的示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合附图对本公开的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
实施例1:
根据本公开实施例,提供了一种集群控制通道中故障链路处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本公开实施例的一种集群控制通道中故障链路处理方法的流程图,如图1所示,该方法包括如下步骤:
步骤S102,统计第一集群口接收到循环冗余校验CRC错误报文的数量,所述第一集群口为集群路由器中第一LCC的主控处理单元的端口;
步骤S104,基于所述数量确定所述第一集群口和第二集群口之间目标控制通道是否发生链路异常,其中,所述第二集群口为所述集群路由器中向所述第一LCC的主控处理单元发送报文的其他LCC的主控处理单元的集群口;
步骤S106,如果发生了链路异常,则断开所述的目标控制通道。
需要说明的是,在本实施例中,上述步骤S102至步骤S106所描述的方法可以应用在集群路由器中,该集群路由器可以为背靠背集群路由器,还可以为多框集群路由器。
如图2所示的即为背靠背集群路由器中主控处理单元MPU之间的控制通道的结构示意图。需要说明的是,背靠背集群路由器中包括多个集群线卡框LCC,在图2中,以两个集群线卡框LCC为例进行说明。如图2所示,这两个集群线卡框LCC分别为第一集群线卡框LCC(简称LCC1)和第二集群线卡框LCC(简称LCC2)。LCC1中包括第一主控处理单元MPU(简称MPU1),LCC2中包括第二主控处理单元MPU(简称MPU2)。从图2中可以看出,MPU1上设置有多个集群口,且MPU2上也设置有多个集群口,例如,MPU1上的集群口a与MPU2上的集群口c相连接,以组成控制通道,MPU1上的集群口b与MPU2上的集群口d相连接,以组成另一个控制通道。也就是说,如图2所示,在背靠背集群路由器中,LCC1上的主控处理单元和LCC2上的主控处理单元之间通过集群口相连接。
如图3所示的即为多框集群路由器中主控处理单元MPU之间的控制通道的结构示意图。需要说明的是,多框集群路由器中包括集群交换框(Fabric Central Chassis,FCC)和多个集群线卡框LCC。在如图3所示的示意图中,以1+2的集群路由器为例来进行说明,其中,“1+2”是指两个LCC和一个FCC,且这一个FCC设置在两个之间,这两个集群线卡框LCC分别为第一集群线卡框LCC(以下均简称LCC1)和第二集群线卡框LCC(以下均简称LCC2)。如图3所示,LCC1上的主控处理单元和LCC2上的主控处理单元之间通过交换框FCC上的控制连接单元(Control Connection Unit,CCU)相连。控制报文从LCC1的主控处理单元的集群口发送到交换框CCU的集群口,然后从CCU的另一个集群口转发到LCC2的主控处理单元的集群口。
通过上述描述可知,如果集群路由器的控制通道中的数据收发出现故障,可能会引起集群线卡框之间关系异常,不同集群线卡框之间数据出现差错,甚至可能引起整个集群路由器的异常运行。针对该问题,本实施例提出了一种集群控制通道中故障链路处理方法。
该方法的具体过程为:首先,统计第一集群口接收到CRC错误报文的数量,然后,基于该数量确定第一集群口和第二集群口之间的目标控制通道是否发生了链路异常,其中,如果判断出发生了链路异常,则断开第一集群口与第二集群口之间的通道。在本实施例中,通过上述处理方式,能够在集群路由器的主控处理单元之间的控制通道出现故障时,主动进行检测和故障处理,保证集群路由器运行的稳定性和可靠性,进而缓解了由于集群路由器的控制通道出现故障导致的集群路由器的异常运行的技术问题。
如果上述步骤S102至步骤S106应用在如图2或如图3所示的集群路由器中,那么步骤S102至步骤S106中的第一LCC可以为图2或图3中接收报文的集群线卡框LCC,步骤S104中所述的其他LCC可以为图2或图3中向第一LCC发送报文的其他集群线卡框LCC。
通过上述描述可知,第二集群口与第一LCC的主控处理单元的第一集群口之间的控制通道为目标控制通道,其中,第二集群口为向第一LCC的主控处理单元中向第一LCC发送报文的其他LCC的主控处理单元的集群口。需要说明的是,第二集群口并不代表为步骤S104中向第一LCC发送报文的其他LCC的主控处理单元的第二个集群口,第二集群口的描述是为了与第一集群口进行区分。步骤S104中向第一LCC发送报文的其他LCC的主控处理单元通过第二集群口向第一LCC的主控处理单元的第一集群口发送控制报文。在骤S104中向第一LCC发送报文的其他LCC的主控处理单元通过第二集群口发送该控制报文之前,会在控制报文的后面添加一个循环冗余校验码(Cyclic Redundancy Check,CRC)的值。然后,在将添加CRC值的控制报文发送至第一LCC,第一LCC的主控处理单元接收到该控制报文之后,重新计算该控制报文的CRC值,如果第一LCC的主控处理单元重新计算出的CRC值与实际接收到的控制报文中CRC值不相等,则确定该报文即为CRC错误报文。
在本实施例的一个可选实施方式中,步骤S102,统计第一集群口接收到循环冗余校验CRC错误报文的数量包括:统计所述第一集群口在多个连续目标时长内接收到循环冗余校验CRC错误报文的数量。
步骤S104,基于所述数量确定所述第一集群口和第二集群口之间的目标控制通道是否发生链路异常包括:基于所述数量统计所述第一集群口在所述多个连续目标时长内接收到超过预设数量的CRC错误报文的次数,并基于所述次数确定所述目标控制通道是否发生链路异常。
具体地,在本实施例中,可以通过第一LCC的主控处理单元统计第一集群口在连续多个目标时长内接收到超过预设数量的CRC错误报文的数量。进而,基于数量统计第一集群口在多个连续目标时长内接收到超过预设数量的CRC错误报文的次数。
例如,可以将目标时长设定为1秒。具体地,如果第一集群口连续N次检测到每秒收到的CRC错误报文的数量大于预设数量,则可以基于该次数(即,N)来判断与该第一集群口相连接的控制通道是否发生了链路异常。
在本公开实施例中,预先设定了一个阈值,即预设次数。如果判断出统计得到的次数大于或者等于预设次数,则确定目标控制通道发生了链路异常。如果判断出统计得到的次数次小于预设次数,则确定目标控制通道未发生链路异常。
需要说明的是,在本实施例中,如果预设次数设置为5,且假设判断出第一集群口在连续4个目标时长内接收到超过预设数量的CRC错误报文的次数。但是,在第5个目标时长内接收到的CRC错误报文未超过预设数量,此时,将该次数进行清零操作,即重新开始统计第一集群口在连续多个目标时长内接收到超过预设数量的CRC错误报文的数量,并基于该数量统计第一集群口在多个连续目标时长内接收到超过预设数量的CRC错误报文的次数,进而,根据该次数确定目标控制通道是否发生链路异常。
实施例2:
图4是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图。
在本实施例中,断开所述目标控制通道包括:对第一集群口进行隔离处理,以断开目标控制通道。如图4所示,在图1的基础上,对所述第一集群口进行隔离,以断开所述第一集群口与所述第二集群口之间的目标控制通道包括如下步骤:
步骤S401,若所述第一LCC的主控处理单元中除第一集群口之外还存在其他处于正常运行状态的集群口,则对第一集群口进行隔离,以断开第一集群口与所述第二集群口之间的目标控制通道。
其中,若第一LCC的主控处理单元中不存在其他处于正常运行状态的集群口,则终止执行断开第一集群口与所述第二集群口之间的目标控制通道的步骤。
具体地,在本实施例中,当检测到与第一集群口相连的目标控制通道处于异常状态时,需要判断该第一LCC的主控处理单元的集群口是否是本主控处理单元的最后一个处于正常连接状态的集群口。也就是说,判断第一LCC的主控处理单元中除了第一集群口之外是否还包含其他处于正常运行状态的集群口。
如果第一集群口是第一LCC的主控处理单元中最后一个处于正常运行状态的集群口,则不做任何处理,以防止第一LCC的主控处理单元的控制通道连接断开。如果第一集群口不是第一LCC的主控处理单元中最后一个处于正常运行状态的集群口,则隔离该第一集群口,使该第一集群口连接的控制通道链路断开,从而使第一LCC和其他LCC之间的控制报文从其他的集群口收发,以消除与该条连接状态异常的目标控制通道相连的集群口在接收控制报文时引起的通信异常。
需要说明的是,在本实施例中,通过隔离该第一集群口,使得该第一集群口处于DOWN状态。当第一集群口处于DOWN状态时,第一集群口与第二集群口之间的目标控制通道处于断开的状态。此时,当步骤S104中的其他LCC的主控处理单元向第一LCC的主控处理单元发送控制报文时,将自动选择除第二集群口之外的其他的集群口向第一LCC的主控处理单元发送该控制报文。
需要说明的是,在本实施例中,在对第一集群口进行隔离之后,还可以生成提示信息,以提示用户该第一集群口处于隔离状态,以提醒用户检查该条通道(即,第一集群口与第二集群口之间目标控制通道)。
实施例3:
图5是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图,如图5所示,在图1的基础上,该方法还包括如下步骤:
步骤S501,若在判断出所述次数超过预设次数之前,判断是否检测到第一集群口由DOWN状态变换为UP状态;
步骤S502,如果检测到所述第一集群口由DOWN状态变换为UP状态,则对所述次数进行清零操作。
在本实施例中,在基于次数判断目标控制通道是否发生链路异常之前,如果检测到第一集群口由DOWN状态变换为UP状态,则将该第一集群口的次数进行清零操作,以防止端口插拔时产生的CRC影响链路状态检测的准确性。
实施例4:
图6是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图,如图6所示,在图1的基础上,该方法还包括如下步骤:
步骤S601,在对所述第一集群口进行隔离之后,若检测到光模块插拔事件,则解除所述第一集群口的隔离状态,以使第一集群口由DOWN状态变换为UP状态,其中,所述光模块为所述第一LCC所对应的路由器中与所述第一集群口相连接的光模块;或者
步骤S602,在对所述第一集群口进行隔离之后,若检测到用户输入的解除命令,则按照所述解除命令解除所述第一集群口的隔离状态,以使第一集群口由DOWN状态变换为UP状态。
在第一集群口进入隔离状态后,如果检测到光模块插拔事件,则表明该第一集群口连接的光模块经过了用户的插拔,此时自动将该第一集群口从隔离状态解除,以保证与该第一集群口相连的目标控制通道在经过用户检查状态恢复正常后,可以重新从该第一集群口收发控制报文。
除此之外,在第一集群口进入隔离状态后,如果检测到用户输入的解除命令,则按照解除命令解除所述第一集群口的隔离状态,以使第一集群口由DOWN状态变换为UP状态,表明目标控制通道处于连接状态。
通过上述描述可知,在本实施例中,提供了一种集群控制通道中故障链路处理方法,该方法通过计算集群线卡框的主控处理单元的集群口收到的CRC错误报文的数量,来判断与该集群口相连接的控制通道的连接状态是否正常,如果不正常则对该集群口作相应处理。通过上述处理方式,能够在集群路由器的主控处理单元之间的控制通道出现故障时,主动进行检测和故障处理,保证集群路由器运行的稳定性和可靠性,进而缓解了由于集群路由器的控制通道出现故障导致的集群路由器的异常运行的技术问题。
实施例5:
图7是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图,如图7所示,方法包括如下步骤:
步骤S701,统计第一集群口在连续多个目标时长内接收到超过预设数量的CRC错误报文的次数,其中,所述第一集群口为集群路由器中第一LCC的主控处理单元的端口,第二集群口为集群路由器中向第一LCC的主控处理单元发送报文的其他LCC的主控处理单元的集群口;
步骤S702,判断是否检测到第一集群口由DOWN状态变换为UP状态;其中,如果判断出是,则执行步骤S703,否则执行步骤S704;
步骤S703,对次数进行清零操作,并返回执行步骤S701;
步骤S704,判断该次数是否超于预设次数,其中,如果判断出是,则执行步骤S705,否则返回执行步骤S701;
步骤S705,判断第一LCC的主控处理单元中除第一集群口之外是否还存在其他处于正常运行状态的集群口,如果判断出是,则执行步骤S706,否则不执行任何操作;
步骤S706,对第一集群口进行隔离,以断开第一集群口与第二集群口之间的目标控制通道。具体实现过程如上所述,这里不再赘述。
实施例6:
图8是根据本公开实施例的一种可选地集群控制通道中故障链路处理方法的流程图,如图8所示,方法包括如下步骤:
步骤S801,统计第一集群口在连续多个目标时长内接收到超过预设数量的CRC错误报文的次数,其中,所述第一集群口为集群路由器中第一LCC的主控处理单元的端口,第二集群口为集群路由器中向第一LCC的主控处理单元发送报文的其他LCC的主控处理单元的集群口;
步骤S802,基于次数判断目标控制通道是否发生链路异常,目标控制通道为所述集群路由器中所述第一集群口和所述第二集群口之间的通道;
步骤S803,如果判断出是,则对所述第一集群口进行隔离,以断开第一集群口与所述第二集群口之间的目标控制通道;
步骤S804,判断是否检测到光模块插拔事件;若是,则执行步骤S805,否则执行步骤S806;
步骤S805,解除第一集群口的隔离状态,以使目标控制通道处于连接状态,其中,光模块为所述第一LCC所对应的路由器中与所述第一集群口相连接的光模块;
步骤S806,判断是否检测到用户输入的解除命令,若是,则执行步骤S805,否则返回执行步骤S804。具体实现过程如上所述,这里不再赘述。
实施例7:
本公开实施例还提供了一种集群控制通道中故障链路处理装置,该集群控制通道中故障链路处理装置主要用于执行本公开实施例上述内容所提供的集群控制通道中故障链路处理方法,以下对本公开实施例提供的集群控制通道中故障链路处理装置做具体介绍。
图9是根据本公开实施例的一种集群控制通道中故障链路处理装置的示意图,如图9所示,该集群控制通道中故障链路处理装置主要包括统计单元10,确定单元20和隔离单元30,其中:
统计单元,用于统计第一集群口接收到循环冗余校验CRC错误报文的数量,所述第一集群口为集群路由器中第一LCC的主控处理单元的端口;
确定单元,用于基于所述数量确定所述第一集群口和第二集群口之间目标控制通道是否发生链路异常,其中,所述第二集群口为所述集群路由器中向所述第一LCC的主控处理单元发送报文的其他LCC的主控处理单元的集群口;
隔离单元,用于在确定出发生了链路异常的情况下,则断开所述的目标控制通道。
在本公开实施例中,首先,统计第一集群口接收到CRC错误报文的数量,然后,基于该数量确定第一集群口和第二集群口之间的目标控制通道是否发生了链路异常,其中,如果判断出发生了链路异常,则断开第一集群口与第二集群口之间的通道。在本实施例中,通过上述处理方式,能够在集群路由器的主控处理单元之间的控制通道出现故障时,主动进行检测和故障处理,保证集群路由器运行的稳定性和可靠性,进而缓解了由于集群路由器的控制通道出现故障导致的集群路由器的异常运行的技术问题。
可选地,所述统计单元包括:第一统计模块,用于统计第一集群口接收到循环冗余校验CRC错误报文的数量包括:统计所述第一集群口在多个连续目标时长内接收到循环冗余校验CRC错误报文的数量;第二统计模块,用于基于所述数量确定所述第一集群口和第二集群口之间的目标控制通道是否发生链路异常包括:基于所述数量统计所述第一集群口在所述多个连续目标时长内接收到超过预设数量的CRC错误报文的次数,并基于所述次数确定所述目标控制通道是否发生链路异常。
可选地,所述隔离单元用于:对所述第一集群口进行隔离处理,以断开所述目标控制通道。
可选地,所述装置还用于:若所述第一LCC的主控处理单元中不存在其他处于正常运行状态的集群口,则终止执行断开所述第一集群口与所述第二集群口之间的目标控制通道的步骤。
可选地,所述装置还包括:清零单元,用于若检测到所述第一集群口由DOWN状态变换为UP状态,则对所述次数进行清零操作。
可选地,所述装置还包括:第一解除单元,用于在对所述第一集群口进行隔离之后,若检测到光模块插拔事件,则解除所述第一集群口的隔离状态,以使所述第一集群口由DOWN状态变换为UP状态,其中,所述光模块为所述第一LCC所对应的路由器中与所述第一集群口相连接的光模块。
可选地,所述装置还包括:第二解除单元,用于在对所述第一集群口进行隔离之后,若检测到用户输入的解除命令,则按照所述解除命令解除所述第一集群口的隔离状态,以使所述第一集群口由DOWN状态变换为UP状态。
本公开实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
另外,在本公开实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本公开中的具体含义。
在本公开的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本公开和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本公开的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本公开的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本公开的具体实施方式,用以说明本公开的技术方案,而非对其限制,本公开的保护范围并不局限于此,尽管参照前述实施例对本公开进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本公开揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本公开实施例技术方案的精神和范围,都应涵盖在本公开的保护范围之内。因此,本公开的保护范围应所述以权利要求的保护范围为准。

Claims (14)

1.一种集群控制通道中故障链路处理方法,其特征在于,应用于集群路由器,所述方法包括:
统计第一集群口接收到循环冗余校验CRC错误报文的数量,所述第一集群口为集群路由器中第一LCC的主控处理单元的端口;
基于所述数量确定所述第一集群口和第二集群口之间目标控制通道是否发生链路异常,其中,所述第二集群口为所述集群路由器中向所述第一LCC的主控处理单元发送报文的其他LCC的主控处理单元的集群口;
如果发生了链路异常,则断开所述的目标控制通道。
2.根据权利要求1所述的方法,其特征在于,
统计第一集群口接收到循环冗余校验CRC错误报文的数量包括:统计所述第一集群口在多个连续目标时长内接收到循环冗余校验CRC错误报文的数量;
基于所述数量确定所述第一集群口和第二集群口之间的目标控制通道是否发生链路异常包括:基于所述数量统计所述第一集群口在所述多个连续目标时长内接收到超过预设数量的CRC错误报文的次数,并基于所述次数确定所述目标控制通道是否发生链路异常。
3.根据权利要求1所述的方法,其特征在于,所述断开所述目标控制通道包括:
对所述第一集群口进行隔离处理,以断开所述目标控制通道。
4.根据权利要求1所述的方法,其特征在于,若所述第一LCC的主控处理单元中不存在其他处于正常运行状态的集群口,则终止执行断开所述第一集群口与所述第二集群口之间的目标控制通道的步骤。
5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
若检测到所述第一集群口由DOWN状态变换为UP状态,则对所述次数进行清零操作。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
在对所述第一集群口进行隔离之后,若检测到光模块插拔事件,则解除所述第一集群口的隔离状态,以使所述第一集群口由DOWN状态变换为UP状态,其中,所述光模块为所述第一LCC所对应的路由器中与所述第一集群口相连接的光模块。
7.根据权利要求5或6所述的方法,其特征在于,所述方法还包括:
在对所述第一集群口进行隔离之后,若检测到用户输入的解除命令,则按照所述解除命令解除所述第一集群口的隔离状态,以使所述第一集群口由DOWN状态变换为UP状态。
8.一种集群控制通道中故障链路处理装置,其特征在于,应用于集群路由器,包括:
统计单元,用于统计第一集群口接收到循环冗余校验CRC错误报文的数量,所述第一集群口为集群路由器中第一LCC的主控处理单元的端口;
确定单元,用于基于所述数量确定所述第一集群口和第二集群口之间目标控制通道是否发生链路异常,其中,所述第二集群口为所述集群路由器中向所述第一LCC的主控处理单元发送报文的其他LCC的主控处理单元的集群口;
隔离单元,用于在确定出发生了链路异常的情况下,则断开所述的目标控制通道。
9.根据权利要求8所述的装置,其特征在于,所述统计单元包括:
第一统计模块,用于统计第一集群口接收到循环冗余校验CRC错误报文的数量包括:统计所述第一集群口在多个连续目标时长内接收到循环冗余校验CRC错误报文的数量;
第二统计模块,用于基于所述数量确定所述第一集群口和第二集群口之间的目标控制通道是否发生链路异常包括:基于所述数量统计所述第一集群口在所述多个连续目标时长内接收到超过预设数量的CRC错误报文的次数,并基于所述次数确定所述目标控制通道是否发生链路异常。
10.根据权利要求8所述的装置,其特征在于,所述隔离单元用于:
对所述第一集群口进行隔离处理,以断开所述目标控制通道。
11.根据权利要求8所述的装置,其特征在于,所述装置还用于:
若所述第一LCC的主控处理单元中不存在其他处于正常运行状态的集群口,则终止执行断开所述第一集群口与所述第二集群口之间的目标控制通道的步骤。
12.根据权利要求9所述的装置,其特征在于,所述装置还包括:
清零单元,用于若检测到所述第一集群口由DOWN状态变换为UP状态,则对所述次数进行清零操作。
13.根据权利要求12所述的装置,其特征在于,所述装置还包括:
第一解除单元,用于在对所述第一集群口进行隔离之后,若检测到光模块插拔事件,则解除所述第一集群口的隔离状态,以使所述第一集群口由DOWN状态变换为UP状态,其中,所述光模块为所述第一LCC所对应的路由器中与所述第一集群口相连接的光模块。
14.根据权利要求12或13所述的装置,其特征在于,所述装置还包括:
第二解除单元,用于在对所述第一集群口进行隔离之后,若检测到用户输入的解除命令,则按照所述解除命令解除所述第一集群口的隔离状态,以使所述第一集群口由DOWN状态变换为UP状态。
CN201810978610.7A 2018-08-24 2018-08-24 集群控制通道中故障链路处理方法和装置 Active CN109039761B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810978610.7A CN109039761B (zh) 2018-08-24 2018-08-24 集群控制通道中故障链路处理方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810978610.7A CN109039761B (zh) 2018-08-24 2018-08-24 集群控制通道中故障链路处理方法和装置

Publications (2)

Publication Number Publication Date
CN109039761A true CN109039761A (zh) 2018-12-18
CN109039761B CN109039761B (zh) 2022-08-12

Family

ID=64624611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810978610.7A Active CN109039761B (zh) 2018-08-24 2018-08-24 集群控制通道中故障链路处理方法和装置

Country Status (1)

Country Link
CN (1) CN109039761B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861745A (zh) * 2019-01-02 2019-06-07 新华三技术有限公司 一种故障处理方法和集群路由器
CN112039436A (zh) * 2020-09-03 2020-12-04 成都易联智通信息技术有限公司 综合光伏逆变器工作状态和实时数据分析电站状态的方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439888A (zh) * 2011-09-05 2012-05-02 华为技术有限公司 一种快速通道互连链路监控方法和设备及系统
KR20140147675A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 채널 호핑 시간 다중화 무선 링크 기반 저전력 무선 메시 네트워크 구성을 위한 라우팅 장치 및 방법
CN104394012A (zh) * 2014-11-12 2015-03-04 北京华为数字技术有限公司 集群路由器、mpu及其故障的确定方法、感知控制器
CN107547279A (zh) * 2017-09-08 2018-01-05 江门市知了科技有限公司 一种自动处理网络故障的系统及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102439888A (zh) * 2011-09-05 2012-05-02 华为技术有限公司 一种快速通道互连链路监控方法和设备及系统
KR20140147675A (ko) * 2013-06-20 2014-12-30 한국전자통신연구원 채널 호핑 시간 다중화 무선 링크 기반 저전력 무선 메시 네트워크 구성을 위한 라우팅 장치 및 방법
CN104394012A (zh) * 2014-11-12 2015-03-04 北京华为数字技术有限公司 集群路由器、mpu及其故障的确定方法、感知控制器
CN107547279A (zh) * 2017-09-08 2018-01-05 江门市知了科技有限公司 一种自动处理网络故障的系统及方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109861745A (zh) * 2019-01-02 2019-06-07 新华三技术有限公司 一种故障处理方法和集群路由器
CN109861745B (zh) * 2019-01-02 2021-05-07 新华三技术有限公司 一种故障处理方法和集群路由器
CN112039436A (zh) * 2020-09-03 2020-12-04 成都易联智通信息技术有限公司 综合光伏逆变器工作状态和实时数据分析电站状态的方法
CN112039436B (zh) * 2020-09-03 2023-11-17 苏州奥维斯数字技术有限公司 综合光伏逆变器工作状态和实时数据分析电站状态的方法

Also Published As

Publication number Publication date
CN109039761B (zh) 2022-08-12

Similar Documents

Publication Publication Date Title
CN104170322B (zh) 一种PCIe链路故障的处理方法、设备及系统
CN105700510B (zh) Can通信系统的错误分散检测方法及can通信系统
EP3316520B1 (en) Bfd method and apparatus
CN110808873B (zh) 一种检测链路故障的方法及装置
CN104601394A (zh) 一种业务链连通性检测的方法、装置及系统
CN106789386A (zh) 检测通信总线上错误的方法以及用于网络系统的检错器
CN109039761A (zh) 集群控制通道中故障链路处理方法和装置
US11477087B2 (en) Monitoring apparatus, network system, topology management method, and computer readable medium
JP2017510169A5 (zh)
EP3223459A1 (en) Method and device for detecting connectivity
US8830842B2 (en) Communication apparatus and communication method
JP4616020B2 (ja) ネットワーク監視プログラム及びネットワークシステム
CN102594643A (zh) 一种控制器局域网总线通讯控制方法、装置及系统
EP2015182A3 (en) Distributed system
CN103916281A (zh) 一种动态lacp聚合链路故障恢复方法
CN105704187B (zh) 一种集群脑裂的处理方法及装置
US11258666B2 (en) Method, device, and system for implementing MUX machine
JP2016046702A (ja) 通信システム,異常制御装置および異常制御方法
CN105721232A (zh) 一种实现链路检测的方法和装置
CN113273145B (zh) 监视装置、网络系统、拓扑管理方法以及记录介质
CN106664232A (zh) 控制装置
CN109120558A (zh) 一种单板端口故障自动排除方法及系统
CN107659413B (zh) 小型通信设备
CN105939224A (zh) 一种解决双机热备双主问题的方法及装置
KR101263218B1 (ko) 단일 세션 내 단일 패킷 집성 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20230616

Address after: 310052 11th Floor, 466 Changhe Road, Binjiang District, Hangzhou City, Zhejiang Province

Patentee after: H3C INFORMATION TECHNOLOGY Co.,Ltd.

Address before: 310052 Changhe Road, Binjiang District, Hangzhou, Zhejiang Province, No. 466

Patentee before: NEW H3C TECHNOLOGIES Co.,Ltd.

TR01 Transfer of patent right