CN109120558A - 一种单板端口故障自动排除方法及系统 - Google Patents

一种单板端口故障自动排除方法及系统 Download PDF

Info

Publication number
CN109120558A
CN109120558A CN201710496519.7A CN201710496519A CN109120558A CN 109120558 A CN109120558 A CN 109120558A CN 201710496519 A CN201710496519 A CN 201710496519A CN 109120558 A CN109120558 A CN 109120558A
Authority
CN
China
Prior art keywords
port
veneer
failure
state
close state
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710496519.7A
Other languages
English (en)
Other versions
CN109120558B (zh
Inventor
林宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ZTE Corp
Original Assignee
ZTE Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ZTE Corp filed Critical ZTE Corp
Priority to CN201710496519.7A priority Critical patent/CN109120558B/zh
Publication of CN109120558A publication Critical patent/CN109120558A/zh
Application granted granted Critical
Publication of CN109120558B publication Critical patent/CN109120558B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors
    • H04L49/557Error correction, e.g. fault recovery or fault tolerance
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0654Management of faults, events, alarms or notifications using network fault recovery
    • H04L41/0663Performing the actions predefined by failover planning, e.g. switching to standby network elements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/30Peripheral units, e.g. input or output ports

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明实施例提供一种单板端口故障自动排除方法及系统,该方法包括:在第一单板的第一端口出现故障的情况下,第一单板向与第一端口连接的第二单板发送端口故障信息,并将第一端口从第一单板的主干线组中移除;第二单板从自身的端口连接关系表中查询出第二端口,第二端口为第二单板与第一端口相连的端口;第二单板将第二端口设置为关闭状态,并且将第二端口从第二单板的主干线组中移除;采用上述方案,第一单板与第二单板不使用自协商模式,仍然采用强制模式,可以保持原有的端口强制速率设置的状态不变,使得现网业务能通过正常端口转发,同时使得设备的对接端口的可维护性增强,对于故障的冗余性的处理能力也增强,并且增强了网络的稳定性。

Description

一种单板端口故障自动排除方法及系统
技术领域
本发明涉及通信领域,尤其涉及一种单板端口故障自动排除方法及系统。
背景技术
分布式交换机或者路由器的交换板是连接业务板之间的桥梁,交换板与业务板之间的连接端口,一般是产品的带宽最大的端口,而这样的端口,为了保证其稳定性,一般不会配置为端口自协商模式,而是选择配置强制模式,这样的模式下,可以保证端口带宽固定为最大值而不至于使用自协商模式出现可能将端口带宽协商成低速率的风险。
但是,由于强制模式的配置,会导致一旦交换板或者业务板其中一方的互联端口出现故障时,就会出现单方面端口down(端口处于关闭状态)或者其他异常导致无法收包的现象,而另外一方是无法感知的,这样就直接导致设备进行业务转发的时候,从端口正常的一方转发的流量会因为另外一方出现端口down或者其他异常导致转发流量出现异常,影响现网业务正常转发。
发明内容
本发明实施例主要解决的技术问题是,提供一种单板端口故障自动排除方法及系统,解决现有技术中,交换板或者业务板其中一方的互联端口出现故障时,另外一方无法感知该故障,影响现网业务正常转发的问题。
为解决上述技术问题,本发明实施例提供一种单板端口故障自动排除方法,包括:
在第一单板的第一端口出现故障的情况下,第一单板向与第一端口连接的第二单板发送端口故障信息,并将第一端口从第一单板的主干线组中移除;
第二单板从自身的端口连接关系表中查询出第二端口,第二端口为第二单板与第一端口相连的端口;
第二单板将第二端口设置为关闭状态,并且将第二端口从第二单板的主干线组中移除。
为解决上述技术问题,本发明实施例提供一种单板端口故障自动排除系统,包括:
第一单板,用于在自身的第一端口出现故障的情况下,向与第一端口连接的第二单板发送端口故障信息,并将第一端口从第一单板的主干线组中移除;
第二单板,用于从自身的端口连接关系表中查询出第二端口,第二端口为第二单板与第一端口相连的端口;并将第二端口设置为关闭状态,并且将第二端口从第二单板的主干线组中移除。
为解决上述技术问题,本发明实施例还提供一种计算机存储介质,计算机存储介质中存储有计算机可执行指令,计算机可执行指令用于执行前述的单板端口故障自动排除方法。
本发明的有益效果是:
根据本发明实施例提供的一种单板端口故障自动排除方法及系统,该单板端口故障自动排除方法包括:在第一单板的第一端口出现故障的情况下,第一单板向与第一端口连接的第二单板发送端口故障信息,并将第一端口从第一单板的主干线组中移除;第二单板从自身的端口连接关系表中查询出第二端口,第二端口为第二单板与第一端口相连的端口;第二单板将第二端口设置为关闭状态,并且将第二端口从第二单板的主干线组中移除;采用上述方案,第一单板与第二单板不使用自协商模式,仍然采用强制模式,可以保持原有的端口强制速率设置的状态不变,在第一单板的第一端口出现故障时,将端口故障信息告知与第一端口有连接关系的第二单板,使得非故障的一方感知到故障一方的情况,进而对自己的端口状态进行变更,使得现网业务能通过正常端口进行转发,同时使得设备的对接端口的可维护性大大增强,对于故障的冗余性的处理能力也大大增强,并且增强了网络的稳定性。
附图说明
图1为本发明实施例一提供的一种单板端口故障自动排除方法的流程图;
图2为本发明实施例一、六提供的一种正常情况下交换板与业务板之间的连接状态的示意图;
图3为本发明各个实施例提供的一种交换板的A2端口出现故障的示意图;
图4为本发明实施例六提供的一种单板端口故障自动排除系统的示意图。
具体实施方式
下面通过具体实施方式结合附图对本发明实施例作进一步详细说明。
实施例一
设备交换板与业务板之间的端口带宽配置为强制模式,并且配置为最大值;交换板与某块业务板之间若存在多对连接关系,会使能TRUNK(主干线)模式的配置,即将交换板与某块业务板之间的所有端口配置为一个TRUNK聚合组;交换板与业务板之间的业务转发通过交换芯片的HASH(哈希)算法决定负载均衡,在交换板与业务板之间的端口进行转发;若交换板与业务板之间某端口出现故障,无需采用自协商模式,仍在强制模式下,采用以下方案可以使现网业务通过正常端口进行转发:
本实施例提供一种单板端口故障自动排除方法,参见图1,图1为本实施例提供的一种单板端口故障自动排除方法的流程图,该单板端口故障自动排除方法包括以下步骤:
S101:在第一单板的第一端口出现故障的情况下,第一单板向与第一端口连接的第二单板发送端口故障信息,并将第一端口从第一单板的TRUNK(主干线)组中移除;
本实施例提供的单板为分布式交换机或路由器产品等的单板;
第一单板可以为交换板,此时第二单板为业务板;第一单板也可以为业务板,此时第二单板为交换板;
参见图2,图2为本实施例提供的一种正常情况下交换板与业务板之间的连接状态的示意图;图2中,交换板A用A1、A2、A3、A4端口分别连接业务板B的B1、B2、B3、B4端口进行通信,交换板A的A1、A2、A3、A4端口设置为一个TRUNK组,业务板B的B1、B2、B3、B4端口设置为一个TRUNK组,流量在四个端口中负荷分担转发。
其中,第一单板的第一端口出现故障的故障种类包括:
第一单板的第一端口出现端口down(端口处于关闭状态)的故障、第一单板的第一端口出现端口状态异常的故障、以及第一单板的第一端口出现无法正常收包的故障。
其中,第一单板的第一端口出现端口状态异常的故障,例如端口大量错包、CRC(Cyclic Redundancy Check,循环冗余校验)校验错误、端口速率错误、速率双工状态错误、端口其他状态错误等,这类端口故障是端口可判定的状态异常。
其中,第一单板的第一端口出现无法正常收包的故障,这类端口故障是端口不可判定的状态异常。
其中,第一单板的第一端口出现端口down的故障时的故障获取方式包括:
第一单板的第一端口出现端口down的故障,直接将端口出现down的信息上报给第一单板的CPU;
其中,第一单板的第一端口出现端口状态异常的故障时的故障获取方式包括:
第一单板的CPU定时对第一端口的状态进行查询,且查询到第一单板的第一端口出现端口状态异常的故障;
其中,第一单板的第一端口出现无法正常收包的故障时的故障获取方式包括:
第一单板的第一端口未收到第二单板的第二端口发出的定时检测报文,则可确定第一单板的第一端口出现无法正常收包的故障,并上报给第一单板的CPU。
端口出现不可判定的状态异常,则需要通过第一单板与第二单板之间定时进行检测的检测报文来感知,若在一段时间内,第一单板未收到第二单板发送过来的检测报文,则认定第一单板出现端口状态异常,通过异常消息上报给第一单板的CPU。
S101中第一单板向与第一端口连接的第二单板发送端口故障信息包括:
第一单板通过带外的CPU专项通道,向与第一端口连接的第二单板发送端口故障信息;
或者,第一单板通过处于工作状态的端口的带内通道,向与第一端口连接的第二单板发送端口故障信息。
参见图3,图3为本实施例提供的一种交换板的A2端口出现故障的示意图;图3中,交换板端口A2出现异常,交换板的CPU(Central Processing Unit,中央处理器)通过带外的CPU专项通道(图3中箭头所示的通道)将端口故障信息发至业务板的CPU,或者通过处于工作状态的端口的带内通道(图3中端口A1、B1之间的通道,或者端口A3、B3之间的通道,或者端口A4、B4之间的通道)将端口故障信息发至业务板的CPU;并将A2端口从交换板的TRUNK组中移除。
在第一单板的第一端口出现故障的情况下,还可以向用户进行告警提示,提示用户重启单板,或者对设备板卡进行更换。
S102:第二单板从自身的端口连接关系表中查询出第二端口,第二端口为第二单板与第一端口相连的端口;
例如,图3中的业务板的端口连接关系表参见下表1:
业务板的端口号 与业务板的端口号对应连接的交换板的端口号
B1 A1
B2 A2
B3 A3
B4 A4
表1
交换板的端口A2出现故障,则可以从上述表1中查询出对应的业务板的端口为B2。
S103:第二单板将第二端口设置为shutdown(端口处于关闭状态),并且将第二端口从第二单板的TRUNK组中移除。
端口down表明该端口自身出现故障,所以处于关闭状态;端口Shutdown表明该端口是由于对方端口出现故障,所以处于关闭状态。
例如,图3中的业务板收到交换板的端口A2的故障信息,则查看自身的端口连接关系表发现端口B2与其相连,则将B2端口主动设置为shutdown,并且将B2端口从业务板的TRUNK组内移除。
可选的,第二单板将第二端口设置为shutdown之后,还包括:
将第二端口打上将该端口主动设置为关闭状态的标记,标记用于区分该端口处于关闭状态的原因,端口处于关闭状态的原因包括该端口是由于出现故障导致该端口down,以及将该端口主动设置为shutdown。
也即,该标记用于判断端口是由于发生异常导致down,还是由于主动设置为shutdown。
在第二单板上线的时候,需要主动进行端口正常状态通报,端口正常状态通报的作用是为了让之前由于自动处理端口故障而将端口主动设置为shutdown的第二端口,恢复为up(端口正常工作)的状态,并且恢复TRUNK组可用的状态,从而自动恢复设备整体的转发正常。
在S103将第二端口从第二单板的TRUNK组中移除之后,还包括:
当第一单板的第一端口的故障被排除后,向第二单板发送第一单板的所有端口的状态信息;
当第一单板的第一端口的故障被排除后,例如第一单板被重新启动,或者被更换为另一块单板,即单板重新上线时,则通过第一单板的CPU向第二单板发送第一单板的所有端口的状态信息;
第二单板在收到第一单板的第一端口状态正常的信息之后,第二单板解除第二端口的shutdown状态,将第二端口设置为up状态,并将第二端口接入第二单板的TRUNK组中,恢复第二端口的正常转发能力。
例如,图3中的业务板在收到交换板的A2端口状态正常的信息之后,则业务板解除B2端口的shutdown状态,将B2端口设置为up状态,并将B2端口接入业务板的TRUNK组中。
其中,第一单板感知第一端口恢复正常,主要是通过以下几种情况:
1、端口down状态消失,恢复为UP状态,直接将端口down状态消失,恢复为UP状态的消息上报给第一单板的CPU;
2、第一单板的CPU通过定时查询端口状态,获知之前故障的端口可判定的状态异常已经消失;
3、之前不可判定的状态异常,通过报文检测发现已经恢复报文正常收发,则认定第一端口已经恢复正常,将恢复正常消息上报给第一单板的CPU。
本实施例通过使用另外一种报文或者消息交互的方法来通告交换板与业务板之间的业务异常的情况,而通过处理这种通告报文来使得非故障的一方感知到故障一方的情况,进而对自身端口状态的判断和处理,并且对用户预警,并在用户排除了故障之后,会再次进行报文或者消息交互,通报端口正常状态,而使得之前由于感知异常状态进行处理的正常侧的端口将端口重新设置为up状态,并将该端口接入TRUNK组中,从而使设备恢复正常,而在此过程中,所有的动作都是自动执行的。
本实施例的方案既可以保持原有的端口强制速率设置的状态不变,又没有增加太多的报文或者消息交互,即可完成对交换板和业务板之间端口异常的自动探测和自动处理,并且在故障恢复之后,还可以将端口自动恢复为正常状态,通过这样的方法,使得设备的对接端口的可维护性大大增强,对于故障的冗余性的处理能力也大大增强,并且增强了网络的稳定性。
实施例二
参见图3,图3中,交换板A的A2端口出现端口down故障;
交换板A的A2端口出现down故障,交换板A感知到A2端口上报的down故障事件;
交换板A的CPU通过带外的CPU专项通道,将端口A2出现端口down故障的报文或消息发送给与其A2端口有连接关系的业务板B,并将故障端口A2从交换板A的TRUNK组中移除;
业务板B收到交换板A发出的A2端口出现down故障的报文或消息;
业务板B查询自身的端口连接关系表,找到与交换板A的A2端口相连的端口为业务板B的B2端口;
业务板B将B2端口设置为shutdown状态,并且将B2端口从业务板B的TRUNK组中移除。
实施例三
参见图3,图3中,交换板A的A2端口出现大量CRC校验错故障;
交换板A的A2端口出现大量CRC校验错故障,交换板A感知到A2端口上报的大量CRC校验错事件;
交换板A的CPU通过带外的CPU专项通道,将端口A2出现CRC校验错故障的报文或消息发送给与其A2端口有连接关系的业务板B,并将故障端口A2从交换板A的TRUNK组中移除;
业务板B收到交换板A发出的A2端口出现down故障的报文或消息;
业务板B查询自身的端口连接关系表,找到与交换板A的A2端口相连的端口为业务板B的B2端口;
业务板B将B2端口设置为shutdown状态,并且将B2端口从业务板B的TRUNK组中移除。
实施例四
参见图3,图3中,交换板A的A2端口出现无法正常收包故障;
交换板A的A2端口发现已经在保持时间内再未收到业务板B的B2端口发出的检测报文;交换板A的A2端口即认定自身出现无法正常收包的故障;
交换板A的CPU通过带外的CPU专项通道,将端口A2出现无法正常收包故障的报文或消息发送给与其A2端口有连接关系的业务板B,并将故障端口A2从交换板A的TRUNK组中移除;
业务板B收到交换板A发出的A2端口出现down故障的报文或消息;
业务板B查询自身的端口连接关系表,找到与交换板A的A2端口相连的端口为业务板B的B2端口;
业务板B将B2端口设置为shutdown状态,并且将B2端口从业务板B的TRUNK组中移除。
实施例五
参见图3,图3中,交换板A的A2端口恢复正常;
交换板A发送自身的所有端口正常状态信息的报文或信息到所有与其相连的业务板;
业务板B收到交换板A的报文或信息,与自身的被主动shutdown处理的端口B2进行比较,发现A2端口状态已经正常,而自身的B2端口仍处于主动shutdown状态,此时则认定为可以执行恢复动作;
业务板B将B2端口重新配置进TRUNK组中,并将B2端口的shutdown状态重新设置为UP状态。
实施例六
设备交换板与业务板之间的端口带宽配置为强制模式,并且配置为最大值;交换板与某块业务板之间若存在多对连接关系,会使能TRUNK模式的配置,即将交换板与某块业务板之间的所有端口配置为一个TRUNK聚合组;交换板与业务板之间的业务转发通过交换芯片的HASH算法决定负载均衡,在交换板与业务板之间的端口进行转发;若交换板与业务板之间某端口出现故障,无需采用自协商模式,仍在强制模式下,采用以下方案可以使现网业务通过正常端口进行转发:
本实施例提供一种单板端口故障自动排除系统,请参见图4,图4为本实施例提供的一种单板端口故障自动排除系统的示意图,该单板端口故障自动排除系统包括:
第一单板201,用于在自身的第一端口出现故障的情况下,向与第一端口连接的第二单板202发送端口故障信息,并将第一端口从第一单板201的TRUNK组中移除;
本实施例提供的单板为分布式交换机或路由器产品等的单板;
第一单板201可以为交换板,此时第二单板202为业务板;第一单板201也可以为业务板,此时第二单板202为交换板;
参见图2,图2为本实施例提供的一种正常情况下交换板与业务板之间的连接状态的示意图;图2中,交换板A用A1、A2、A3、A4端口分别连接业务板B的B1、B2、B3、B4端口进行通信,交换板A的A1、A2、A3、A4端口设置为一个TRUNK组,业务板B的B1、B2、B3、B4端口设置为一个TRUNK组,流量在四个端口中负荷分担转发。
其中,第一单板201的第一端口出现故障的故障种类包括:
第一单板201的第一端口出现端口down(端口处于关闭状态)的故障、第一单板201的第一端口出现端口状态异常的故障、以及第一单板201的第一端口出现无法正常收包的故障。
其中,第一单板201的第一端口出现端口状态异常的故障,例如端口大量错包、CRC校验错误、端口速率错误、速率双工状态错误、端口其他状态错误等,这类端口故障是端口可判定的状态异常。
其中,第一单板201的第一端口出现无法正常收包的故障,这类端口故障是端口不可判定的状态异常。
其中,第一单板201的第一端口出现端口down的故障时的故障获取方式包括:
第一单板201的第一端口出现端口down的故障,直接将端口出现down的信息上报给第一单板201的CPU;
其中,第一单板201的第一端口出现端口状态异常的故障时的故障获取方式包括:
第一单板201的CPU定时对第一端口的状态进行查询,且查询到第一单板201的第一端口出现端口状态异常的故障;
其中,第一单板201的第一端口出现无法正常收包的故障时的故障获取方式包括:
第一单板201的第一端口未收到第二单板202的第二端口发出的定时检测报文,则可确定第一单板201的第一端口出现无法正常收包的故障,并上报给第一单板201的CPU。
端口出现不可判定的状态异常,则需要通过第一单板201与第二单板202之间定时进行检测的检测报文来感知,若在一段时间内,第一单板201未收到第二单板202发送过来的检测报文,则认定第一单板201出现端口状态异常,通过异常消息上报给第一单板201的CPU。
其中,第一单板201用于通过带外的CPU专项通道,向与第一端口连接的第二单板202发送端口故障信息;
或者,第一单板201用于通过处于工作状态的端口的带内通道,向与第一端口连接的第二单板202发送端口故障信息。
参见图3,图3为本实施例提供的一种交换板的A2端口出现故障的示意图;图3中,交换板端口A2出现异常,交换板的CPU通过带外的CPU专项通道(图3中箭头所示的通道)将端口故障信息发至业务板的CPU,或者通过处于工作状态的端口的带内通道(图3中端口A1、B1之间的通道,或者端口A3、B3之间的通道,或者端口A4、B4之间的通道)将端口故障信息发至业务板的CPU;并将A2端口从交换板的TRUNK组中移除。
在第一单板201的第一端口出现故障的情况下,还可以向用户进行告警提示,提示用户重启单板,或者对设备板卡进行更换。
第二单板202,用于从自身的端口连接关系表中查询出第二端口,第二端口为第二单板202与第一端口相连的端口;并将第二端口设置为shutdown(端口处于关闭状态),并且将第二端口从第二单板202的TRUNK组中移除。
例如,图3中的业务板的端口连接关系表参见下表2:
表2
交换板的端口A2出现故障,则可以从上述表2中查询出对应的业务板的端口为B2。
端口down表明该端口自身出现故障,所以处于关闭状态;端口Shutdown表明该端口是由于对方端口出现故障,所以处于关闭状态。
例如,图3中的业务板收到交换板的端口A2的故障信息,则查看自身的端口连接关系表发现端口B2与其相连,则将B2端口主动设置为shutdown,并且将B2端口从业务板的TRUNK组内移除。
可选的,第二单板202还用于在将第二端口设置为shutdown之后,将第二端口打上将该端口主动设置为关闭状态的标记,标记用于区分该端口处于关闭状态的原因,端口处于关闭状态的原因包括该端口是由于出现故障导致该端口down,以及将该端口主动设置为shutdown。
也即,该标记用于判断端口是由于发生异常导致down,还是由于主动设置为shutdown。
在第二单板202上线的时候,需要主动进行端口正常状态通报,端口正常状态通报的作用是为了让之前由于自动处理端口故障而将端口主动设置为shutdown的第二端口,恢复为up(端口正常工作)的状态,并且恢复TRUNK组可用的状态,从而自动恢复设备整体的转发正常。
第二单板202还用于在将第二端口从第二单板202的TRUNK组中移除之后,且当第一单板201的第一端口的故障被排除后,向第二单板202发送第一单板201的所有端口的状态信息;
当第一单板201的第一端口的故障被排除后,例如第一单板201被重新启动,或者被更换为另一块单板,即单板重新上线时,则通过第一单板201的CPU向第二单板202发送第一单板201的所有端口的状态信息;
第二单板202在收到第一单板201的第一端口状态正常的信息之后,第二单板202解除第二端口的shutdown状态,将第二端口设置为up状态,并将第二端口接入第二单板202的TRUNK组中,恢复第二端口的正常转发能力。
例如,图3中的业务板在收到交换板的A2端口状态正常的信息之后,则业务板解除B2端口的shutdown状态,将B2端口设置为up状态,并将B2端口接入业务板的TRUNK组中。
其中,第一单板201感知第一端口恢复正常,主要是通过以下几种情况:
1、端口down状态消失,恢复为UP状态,直接将端口down状态消失,恢复为UP状态的消息上报给第一单板201的CPU;
2、第一单板201的CPU通过定时查询端口状态,获知之前故障的端口可判定的状态异常已经消失;
3、之前不可判定的状态异常,通过报文检测发现已经恢复报文正常收发,则认定第一端口已经恢复正常,将恢复正常消息上报给第一单板201的CPU。
本实施例通过使用另外一种报文或者消息交互的方法来通告交换板与业务板之间的业务异常的情况,而通过处理这种通告报文来使得非故障的一方感知到故障一方的情况,进而对自身端口状态的判断和处理,并且对用户预警,并在用户排除了故障之后,会再次进行报文或者消息交互,通报端口正常状态,而使得之前由于感知异常状态进行处理的正常侧的端口将端口重新设置为up状态,并将该端口接入TRUNK组中,从而使设备恢复正常,而在此过程中,所有的动作都是自动执行的。
本实施例的方案既可以保持原有的端口强制速率设置的状态不变,又没有增加太多的报文或者消息交互,即可完成对交换板和业务板之间端口异常的自动探测和自动处理,并且在故障恢复之后,还可以将端口自动恢复为正常状态,通过这样的方法,使得设备的对接端口的可维护性大大增强,对于故障的冗余性的处理能力也大大增强,并且增强了网络的稳定性。
显然,本领域的技术人员应该明白,上述本发明实施例的各模块或各步骤可以用通用的计算系统来实现,它们可以集中在单个的计算系统上,或者分布在多个计算系统所组成的网络上,可选地,它们可以用计算系统可执行的程序代码来实现,从而,可以将它们存储在存储介质(ROM/RAM、磁碟、光盘)中由计算系统来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以,本发明不限制于任何特定的硬件和软件结合。
以上内容是结合具体的实施方式对本发明实施例所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。

Claims (12)

1.一种单板端口故障自动排除方法,包括:
在第一单板的第一端口出现故障的情况下,所述第一单板向与所述第一端口连接的第二单板发送端口故障信息,并将所述第一端口从所述第一单板的主干线组中移除;
所述第二单板从自身的端口连接关系表中查询出第二端口,所述第二端口为所述第二单板与所述第一端口相连的端口;
所述第二单板将所述第二端口设置为关闭状态,并且将所述第二端口从所述第二单板的主干线组中移除。
2.如权利要求1所述的单板端口故障自动排除方法,其特征在于,所述将所述第二端口从所述第二单板的主干线组中移除之后,还包括:
当所述第一单板的第一端口的故障被排除后,向所述第二单板发送所述第一单板的所有端口的状态信息;
所述第二单板将所述第二端口设置为工作状态,并将所述第二端口接入所述第二单板的主干线组中。
3.如权利要求1或2所述的单板端口故障自动排除方法,其特征在于,所述第一单板向与所述第一端口连接的第二单板发送端口故障信息包括:
所述第一单板通过带外的中央处理器专项通道,向与所述第一端口连接的第二单板发送端口故障信息;
或者,所述第一单板通过处于工作状态的端口的带内通道,向与所述第一端口连接的第二单板发送端口故障信息。
4.如权利要求1或2所述的单板端口故障自动排除方法,其特征在于,所述第二单板将所述第二端口设置为关闭状态之后,还包括:
将所述第二端口打上将该端口主动设置为关闭状态的标记,所述标记用于区分该端口处于关闭状态的原因,所述端口处于关闭状态的原因包括该端口是由于出现故障导致该端口处于关闭状态,以及将该端口主动设置为关闭状态。
5.如权利要求1或2所述的单板端口故障自动排除方法,其特征在于,所述第一单板的第一端口出现故障的故障种类包括:
所述第一单板的第一端口出现端口处于关闭状态的故障、所述第一单板的第一端口出现端口状态异常的故障、以及所述第一单板的第一端口出现无法正常收包的故障。
6.如权利要求5所述的单板端口故障自动排除方法,其特征在于,
所述第一单板的第一端口出现端口处于关闭状态的故障时的故障获取方式包括:
所述第一单板的第一端口出现端口处于关闭状态的故障,并上报给所述第一单板的中央处理器;
所述第一单板的第一端口出现端口状态异常的故障时的故障获取方式包括:
所述第一单板的中央处理器定时对所述第一端口的状态进行查询,且查询到所述第一单板的第一端口出现端口状态异常的故障;
所述第一单板的第一端口出现无法正常收包的故障时的故障获取方式包括:
所述第一单板的第一端口未收到所述第二单板的第二端口发出的定时检测报文,则可确定所述第一单板的第一端口出现无法正常收包的故障,并上报给所述第一单板的中央处理器。
7.一种单板端口故障自动排除系统,包括:
第一单板,用于在自身的第一端口出现故障的情况下,向与所述第一端口连接的第二单板发送端口故障信息,并将所述第一端口从所述第一单板的主干线组中移除;
所述第二单板,用于从自身的端口连接关系表中查询出第二端口,所述第二端口为所述第二单板与所述第一端口相连的端口;并将所述第二端口设置为关闭状态,并且将所述第二端口从所述第二单板的主干线组中移除。
8.如权利要求7所述的单板端口故障自动排除系统,其特征在于,所述第一单板还用于在所述第二单板将所述第二端口从所述第二单板的主干线组中移除之后,且当所述第一单板的第一端口的故障被排除后,向所述第二单板发送所述第一单板的所有端口的状态信息;
所述第二单板还用于将所述第二端口设置为工作状态,并将所述第二端口接入所述第二单板的主干线组中。
9.如权利要求7或8所述的单板端口故障自动排除系统,其特征在于,
所述第一单板用于通过带外的中央处理器专项通道,向与所述第一端口连接的第二单板发送端口故障信息;
或者,所述第一单板用于通过处于工作状态的端口的带内通道,向与所述第一端口连接的第二单板发送端口故障信息。
10.如权利要求7或8所述的单板端口故障自动排除系统,其特征在于,所述第二单板还用于将所述第二端口设置为关闭状态之后,将所述第二端口打上将该端口主动设置为关闭状态的标记,所述标记用于区分该端口处于关闭状态的原因,所述端口处于关闭状态的原因包括该端口是由于出现故障导致该端口处于关闭状态,以及将该端口主动设置为关闭状态。
11.如权利要求7或8所述的单板端口故障自动排除系统,其特征在于,所述第一单板的第一端口出现故障的故障种类包括:
所述第一单板的第一端口出现端口处于关闭状态的故障、所述第一单板的第一端口出现端口状态异常的故障、以及所述第一单板的第一端口出现无法正常收包的故障。
12.如权利要求11所述的单板端口故障自动排除系统,其特征在于,
所述第一单板的第一端口出现端口处于关闭状态的故障时的故障获取方式包括:
所述第一单板的第一端口出现端口处于关闭状态的故障,并上报给所述第一单板的中央处理器;
所述第一单板的第一端口出现端口状态异常的故障时的故障获取方式包括:
所述第一单板的中央处理器定时对所述第一端口的状态进行查询,且查询到所述第一单板的第一端口出现端口状态异常的故障;
所述第一单板的第一端口出现无法正常收包的故障时的故障获取方式包括:
所述第一单板的第一端口未收到所述第二单板的第二端口发出的定时检测报文,则可确定所述第一单板的第一端口出现无法正常收包的故障,并上报给所述第一单板的中央处理器。
CN201710496519.7A 2017-06-26 2017-06-26 一种单板端口故障自动排除方法及系统 Active CN109120558B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710496519.7A CN109120558B (zh) 2017-06-26 2017-06-26 一种单板端口故障自动排除方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710496519.7A CN109120558B (zh) 2017-06-26 2017-06-26 一种单板端口故障自动排除方法及系统

Publications (2)

Publication Number Publication Date
CN109120558A true CN109120558A (zh) 2019-01-01
CN109120558B CN109120558B (zh) 2022-11-01

Family

ID=64821855

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710496519.7A Active CN109120558B (zh) 2017-06-26 2017-06-26 一种单板端口故障自动排除方法及系统

Country Status (1)

Country Link
CN (1) CN109120558B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112165429A (zh) * 2020-09-11 2021-01-01 烽火通信科技股份有限公司 分布式交换设备的链路聚合收敛方法和设备
CN112187679A (zh) * 2020-09-22 2021-01-05 锐捷网络股份有限公司 报文处理方法及装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972213A (zh) * 2006-11-27 2007-05-30 华为技术有限公司 一种以太网保护方法和装置
CN101102222A (zh) * 2007-06-05 2008-01-09 中兴通讯股份有限公司 一种通讯网络连接方法及其装置
CN101895423A (zh) * 2010-07-15 2010-11-24 华为技术有限公司 以太网中的数据传输方法和系统
CN101989933A (zh) * 2009-08-03 2011-03-23 中兴通讯股份有限公司 一种故障检测的方法和系统
CN102769568A (zh) * 2012-07-19 2012-11-07 中兴通讯股份有限公司 一种基于虚拟交换集群的流量转发方法及系统
CN106789139A (zh) * 2015-11-24 2017-05-31 大唐移动通信设备有限公司 一种多点故障处理方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1972213A (zh) * 2006-11-27 2007-05-30 华为技术有限公司 一种以太网保护方法和装置
CN101102222A (zh) * 2007-06-05 2008-01-09 中兴通讯股份有限公司 一种通讯网络连接方法及其装置
CN101989933A (zh) * 2009-08-03 2011-03-23 中兴通讯股份有限公司 一种故障检测的方法和系统
CN101895423A (zh) * 2010-07-15 2010-11-24 华为技术有限公司 以太网中的数据传输方法和系统
CN102769568A (zh) * 2012-07-19 2012-11-07 中兴通讯股份有限公司 一种基于虚拟交换集群的流量转发方法及系统
CN106789139A (zh) * 2015-11-24 2017-05-31 大唐移动通信设备有限公司 一种多点故障处理方法及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112165429A (zh) * 2020-09-11 2021-01-01 烽火通信科技股份有限公司 分布式交换设备的链路聚合收敛方法和设备
CN112187679A (zh) * 2020-09-22 2021-01-05 锐捷网络股份有限公司 报文处理方法及装置

Also Published As

Publication number Publication date
CN109120558B (zh) 2022-11-01

Similar Documents

Publication Publication Date Title
US9106523B2 (en) Communication device and method of controlling the same
CN103181133A (zh) 基于pcie交换的服务器系统及其倒换方法和设备
US9402205B2 (en) Traffic forwarding method and system based on virtual switch cluster
CN103929334A (zh) 网络异常通知方法和装置
CN110581852A (zh) 一种高效型拟态防御系统及方法
US6868067B2 (en) Hybrid agent-oriented object model to provide software fault tolerance between distributed processor nodes
CN108462529A (zh) 主备板卡切换方法、光传送网络设备及存储介质
CN102088415A (zh) Mac地址撤销的方法及设备
CN109120558A (zh) 一种单板端口故障自动排除方法及系统
CN112217658A (zh) 一种堆叠分裂处理方法及装置
CN105704187B (zh) 一种集群脑裂的处理方法及装置
CN101888284A (zh) 一种用于数据单向传输的方法及其装置
CN106100988A (zh) 一种实现链路聚合快速切换的方法
US20140298076A1 (en) Processing apparatus, recording medium storing processing program, and processing method
CN115220937A (zh) 存储管理的方法、电子设备和程序产品
JP2009152729A (ja) 冗長方法及びスイッチ装置
CN110990903B (zh) 一种云端系统以及云端系统保护方法
US8208370B1 (en) Method and system for fast link failover
CN109039761B (zh) 集群控制通道中故障链路处理方法和装置
CN109218179A (zh) 负载分担方法及装置、交换机及计算机可读存储介质
US10181997B2 (en) Methods, systems and computer readable media for providing receive port resiliency in a network equipment test device
WO2022267938A1 (zh) 故障处理方法、堆叠设备及存储介质
CN103414591A (zh) 一种端口故障恢复时的快速收敛方法和系统
KR102018225B1 (ko) 연결 방법
CN109684136A (zh) 一种灵活配置主控的通信架构系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant