CN112564931B - 一种故障处理方法、装置和存储介质 - Google Patents

一种故障处理方法、装置和存储介质 Download PDF

Info

Publication number
CN112564931B
CN112564931B CN201910912860.5A CN201910912860A CN112564931B CN 112564931 B CN112564931 B CN 112564931B CN 201910912860 A CN201910912860 A CN 201910912860A CN 112564931 B CN112564931 B CN 112564931B
Authority
CN
China
Prior art keywords
interface board
network device
message
interface
board
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910912860.5A
Other languages
English (en)
Other versions
CN112564931A (zh
Inventor
刘家兵
孟浩
金宝
李红
许柯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN201910912860.5A priority Critical patent/CN112564931B/zh
Publication of CN112564931A publication Critical patent/CN112564931A/zh
Application granted granted Critical
Publication of CN112564931B publication Critical patent/CN112564931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/74Address processing for routing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L49/00Packet switching elements
    • H04L49/55Prevention, detection or correction of errors

Abstract

本申请提供了一种故障处理方法、装置及存储介质。在一种故障处理方法中,第一网络设备和第二网络设备为运行有双向收发检测BFD的网络设备,当第一网络设备有多个接口板之间对BFD报文进行负载分担转发,且运行有BFD状态机的接口板故障时,第一网络设备的主控板或接口板能够及时发现第一接口板故障,并发送第一报文通知第二网络设备第一网络设备BFD管理宕。通过这种方法,可以减少因为接口板故障出现的业务丢包的情况。

Description

一种故障处理方法、装置和存储介质
技术领域
本申请涉及通信领域,尤其涉及一种故障处理方法、装置和存储介质。
背景技术
双向转发检测(bidirectional forwarding detection,BFD)提供一种轻负载、快速检测两台网络设备之间转发路径连通状态的方法。BFD是一个简单的“Hello”协议,一对设备在它们之间的通道上周期性的发送BFD控制报文,如果某个设备在协商好的会话宕(down)确认时间内没有接收到对端设备发送的BFD控制报文,则认为到对端系统的通道出了故障。
通常,为了减少网络设备的负担,会将BFD状态机运行在接口板上,主控板负责BFD的协商和故障通知,多个接口板负责BFD探测报文的接收和发送。此种方案,存在当运行BFD状态机的接口板故障,导致BFD故障误报,导致上层业务如边界网关协议(Border GatewayProtocol,BGP)或开放式最短路优先协议(open shortest path fist,OSPF)收敛,出现路由震荡和业务丢包的情况。
发明内容
本申请提供了一种故障处理方法、装置和存储介质,用于解决运行BFD状态机的接口板故障,导致BFD故障误报,进而导致上层业务如BGP或OSPF收敛的问题。
第一方面,提供了一种故障处理方法,所述方法应用于第一网络设备,所述第一网络设备可以是互联网协议(Internet Protocol,IP)网络设备,如:路由器、交换机等,也可以是运行在通用服务器上的具有IP转发功能的虚拟网络设备,还可以是分组传送网(packet transport network,PTN)设备、接入传输(access transport network,ATN)设备,本申请不做具体限定。该方法包括:第一网络设备确定第一接口板故障,所述第一接口板为运行有BFD状态机的接口板,所述第一网络设备包括主控板、所述第一接口板和第二接口板;响应于确定第一接口板故障,所述第一网络设备生成第一报文,所述第一报文用于向第二网络设备通告所述第一网络设备BFD管理宕;所述第一网络设备通过所述第二接口板向所述第二网络设备发送所述第一报文。
通过以上第一方面提供的故障处理方法,当第一网络设备运行有BFD状态机的故障之后,通过第一网络设备主动向第二网络设备发送一个管理宕的报文,避免了由于BFD故障误报而导致第一网络设备和第二网络设备的上层业务如BGP或OSPF进行业务收敛的问题。
在一种可能的方式中,所述第一网络设备有到达所述第二网络设备的多条路由,所述多条路由的出接口包括所述第一接口板的出接口和所述第二接口板的出接口。
通过多条路由负载分担的方式,可以减小第一网络设备收发BFD报文的压力。在多条路由负载分担的情况下,即使运行有BFD状态机的接口板故障,也不会影响第一网络设备和第二网络设备之间的通信。此时如果不做特殊处理,则可能导致两台设备BFD会话宕,从而导致上层业务收敛。通过上述可选方式,通过第一网络设备向第二网络设备通告BFD管理宕的方式,则避免了上层业务收敛的情况。
在一种可能的方式中,所述第一网络设备确定所述第一接口板故障,包括:所述主控板确定所述第一接口板故障;或所述第二接口板确定所述第一接口板故障。
通过主控板或第二接口板确定第一接口板故障的方式,可以及时发现运行有BFD状态机的接口板故障,避免故障误报,导致BFD会话宕,从而导致上层业务收敛。
在一种可能的方式中,所述第一网络设备生成第一报文,包括:当所述确定第一接口板故障为所述主控板确定所述第一接口板故障时,所述主控板生成所述第一报文;或当所述确定第一接口板故障为所述第二接口板确定第一接口板故障时,所述第二接口板生成所述第一报文。
通过第二接口板直接生成第一报文的方式,可以减少故障处理的复杂度以及减少处理的时间。
在一种可能的方式中,在所述第二接口板确定所述第一接口板故障之后,所述方法还包括:所述第二接口板向所述主控板发送消息,所述消息指示第一BFD管理宕。
通过第二接口板向主控板发送消息的方式,知会主控板第一接口板故障,可以在较短的时间内让主控板针对BFD管理宕进行处理,减少故障处理时间。
在一种可能的方式中,所述第二接口板生成所述第一报文,包括:在所述第二接口板确定所述第一接口板故障之前,所述第一网络设备接收所述第二网络设备发送的第二报文;所述第一报文的源地址为所述第二报文的目的地址,所述第一报文的目的地址为所述第二报文的源地址,所述第一报文的状态字为管理宕。
通过第二接口板直接根据第二报文生成第一报文的方式,可以减少故障处理的复杂度以及减少处理的时间。
在一种可能的方式中,所述第二接口板确定所述第一接口板故障,包括:所述第二接口板在时间间隔内未收到所述第一接口板发送的探测报文,所述第二接口板确定所述第一接口板故障;所述时间间隔小于第一网络设备和第二网络设备的BFD会话宕确认时间。
通过在多个接口板之间互相发送探测报文,可以及时的发现接口板故障,减少故障处理时间。
在一种可能的方式中,所述第二接口板向所述主控板发送消息,包括:所述第二接口板根据所述第二报文生成所述消息,所述消息指示所述主控板修改所述第一网络设备的BFD状态;所述第二接口板向所述主控板发送所述消息。
通过第二接口板根据第二报文生成消息,并向主控板发送该消息的方式,知会主控板第一接口板故障,可以在较短的时间内让主控板针对BFD管理宕进行处理,减少故障处理时间。
在一种可能的方式中,在所述第一网络设备确定所述第一接口板故障之后,所述第一网络设备修改BFD状态为管理宕或者宕。
通过修改BFD状态,可以使得第一网络设备尽快启动与第二网络设备的新的BFD会话协商,尽快恢复第一网络设备与第二网络设备互相发送BFD报文,减少故障处理时间,减少对上层业务的影响。
第二方面,提供了一种第一网络设备,所述第一网络设备具有实现上述第一方面或第一方面任一种可选方式的故障处理方法的功能。所述第一网络设备可以是IP网络设备,如:路由器设备、交换机设备,也可以是运行在通用服务器上的具有IP转发功能的虚拟网络设备,还可以是PTN设备、ATN设备,本申请不做具体限定。所述第一网络设备包括:主控板、第一接口板、第二接口板、处理器和网络接口,所述处理器位于所述第二接口板或所述主控板,所述处理器可以是一个或多个处理器,所述网络接口位于所述第二接口板。所述处理器,用于确定第一接口板故障,所述第一接口板为运行有BFD状态机的接口板;响应于确定第一接口板故障,所述处理器还用于生成第一报文,所述第一报文用于向第二网络设备通告所述BFD管理宕;所述网络接口,用于向所述第二网络设备发送所述第一报文。
在一种可能的方式中,所述第一网络设备有到达所述第二网络设备的多条路由,所述多条路由的出接口包括所述第一接口板的网络接口和所述第二接口板的网络接口。
在一种可能的方式中,当所述处理器位于所述第二接口板时,在所述处理器用于确定所述第一接口板故障之后,还包括:所述第二接口板向所述主控板发送消息,所述消息指示BFD管理宕。
在一种可能的方式中,所述处理器还用于生成所述第一报文,包括:在所述处理器确定所述第一接口板故障之前,所述第二接口板的网络接口还用于接收所述第二网络设备发送的第二报文;所述第一报文的源地址为所述第二报文的目的地址,所述第一报文的目的地址为所述第二报文的源地址。
在一种可能的方式中,当所述处理器为所述第二接口板的处理器时,所述处理器用于确定所述第一接口板故障,具体为:所述第二接口板的网络接口还用于接收所述第一接口板发送的探测报文,当所述第二接口板的网络接口在时间间隔内未收到所述探测报文时所述处理器确定所述第一接口板故障;所述时间间隔小于第一网络设备和第二网络设备的BFD会话宕确认时间。
在一种可能的方式中,所述第二接口板向所述主控板发送消息,包括:所述处理器还用于根据所述第二报文生成所述消息,所述消息指示所述主控板修改所述第一网络设备的BFD状态;所述第二接口板向所述主控板发送所述消息。
在一种可能的方式中,在所述第一网络设备确定所述第一接口板故障之后,所述主控板上的处理器还用于修改所述第一网络设备的BFD状态为管理宕或者宕。
第三方面,提供了一种第一网络设备,所述第一网络设备具有实现上述第一方面或第一方面任一种可选方式的故障处理方法的功能。所述功能可基于硬件实现,也可以基于硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。所述第一网络设备可以是IP网络设备,如:路由器设备、交换机设备,也可以是运行在通用服务器上的具有IP转发功能的虚拟网络设备,还可以是PTN设备、ATN设备,本申请不做具体限定。所述第一网络设备包括:主控板、第一接口板、第二接口板、处理单元和收发单元,所述处理单元位于所述第二接口板或所述主控板;所述处理单元,用于确定第一接口板故障,所述第一接口板为运行有BFD状态机的接口板,所述收发单元位于所述第二接口板;响应于确定第一接口板故障,所述处理单元还用于生成第一报文,所述第一报文用于向第二网络设备通告所述BFD管理宕;所述收发单元,用于向所述第二网络设备发送所述第一报文。
在一种可能的方式中,所述第一网络设备有到达所述第二网络设备的多条路由,所述多条路由经过的收发单元包括所述第一接口板的收发单元和所述第二接口板的收发单元。
在一种可能的方式中,当所述处理单元位于所述第二接口板时,在所述处理单元用于确定所述第一接口板故障之后,还包括:所述收发单元为所述第二接口板的收发单元,所述第二接口板向所述主控板发送消息,所述消息指示BFD管理宕。
在一种可能的方式中,所述处理单元还用于生成所述第一报文,包括:在所述处理单元确定所述第一接口板故障之前,所述第二接口板的收发单元还用于接收所述第二网络设备发送的第二报文;所述第一报文的源地址为所述第二报文的目的地址,所述第一报文的目的地址为所述第二报文的源地址。
在一种可能的方式中,所述处理单元用于确定所述第一接口板故障,具体为:所述第二接口板的收发单元还用于接收所述第一接口板发送的探测报文,当所述第二接口板的收发单元在故障时间间隔内未收到所述探测报文时所述处理单元确定所述第一接口板故障;所述故障时间间隔小于第一网络设备和第二网络设备的BFD会话宕确认时间。
在一种可能的方式中,所述第二接口板的收发单元还用于向所述主控板发送消息,包括:所述处理单元还用于根据所述第二报文生成所述消息,所述消息指示所述主控板修改所述第一网络设备的BFD状态;所述第二接口板向所述主控板发送所述消息。
在一种可能的方式中,在所述第一网络设备确定所述第一接口板故障之后,所述主控板上的处理单元还用于修改所述第一网络设备的BFD状态为管理宕或者宕。
第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行如第一方面以及第一方面的任一种可选方式所提供的故障处理方法。
第五方面,提供了一种计算机程序产品,所述计算机程序产品包括指令,当该指令在计算机上执行时,使得计算机执行前述第一方面或第一方面任一种可选方式所述的方法。
附图说明
为了更清楚地说明本发明的技术方案,下面将对实施例中使用的附图作简单地介绍。显而易见地,下面附图只是本发明的一些实施例的附图,对于本领域普通技术人员来说,在不付出创造性劳动性的前提下,还可以根据这些附图获得同样能实现本发明的其他技术方案和附图。这些技术方案和附图也应该被认为是在本发明的范围之内。
图1为本申请实施例提供的一种场景图;
图2为本申请实施例提供的一种通信系统的组网图;
图3为本申请实施例提供的一种故障处理方法流程图;
图4为本申请实施例提供的一种故障处理方法流程图;
图5为本申请实施例提供的一种网络设备的结构示意图;
图6为本申请实施例提供的一种网络设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
本申请中术语“第一”“第二”“第三”“第N”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第三”和“第N”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。
以下,示例性介绍本申请的系统架构。
参见图1,示出了一种BFD通信系统的场景图,该场景包括两个运行了BFD协议的网络设备,两个网络设备之间互相发送BFD控制报文,从而快速的检测出双方的双向通道的某个部分发生了故障。
如图1所示,假如第一网络设备到第二网络设备方向的链路故障或第一网络设备故障,那么第二网络设备在探测周期内没有收到第一网络设备发送的BFD控制报文,就会将本端的会话状态置宕,同时在发送的BFD控制报文中标识端会话状态为down;那么在第二网络设备收到第一网络设备发送的第一网络设备状态为down的BFD控制报文之后,就知道系统间的通信已经发生故障了,第二网络设备将把本地的会话状态也置为down,进一步的,当BFD会话down之后,第一网络设备或第二网络设备的BFD会通知运行在其上的业务或协议,如BGP或OSPF进行收敛,从而导致对业务的影响。
参见图2,示出了一种BFD通信系统的组网图,该网络中包括第一网络设备201、第二网络设备202和第三网络设备203,其中,第一网络设备201与第三网络设备202相连,第一网络设备和第二网络设备之间互相发送BFD控制报文,检测该两台设备之间的通道是否故障。第一网络设备201包括一个主控板和多个接口板,该多个接口板之间有多条到达第二网络设备202的路由;假设接口板1、接口板2、以及接口板3上形成3路负载分担,第一网络设备201发送的BFD控制报文,可能通过接口板1、接口板2、或接口板3发送给第二网络设备202,同样的,当第二网络设备发送的BFD控制报文到达到第三网络设备203之后,同样可能通过接口板1、接口板2、或接口板3转发到第一网络设备201。为了减少卡间通信和主控卡的负担,通常BFD状态机(负责检测功能的模块)运行在某个接口板上,主控板负责协商和故障通知(协商BFD会话,以及将BFD会话状态通知给上层业务),该方案极大的提升了设备整体性能。在现有技术中,该方案同时也存在一个BFD故障误报的问题,如,当第一网络设备201的BFD状态机运行在接口板1上,且接口板1故障时,可能导致:1、第一网络设备201主控板感知到接口板1故障,BFD会话down,主控板BFD模块通知本端上层业务如BGP或OSPF进行收敛;2、在第一网络设备201接口板1故障,在第一网络设备201和第二网络设备202之间的BFD重新协商起来(UP)之前,一般情况下该事件较长,由于第一网络设备201的BFD状态机故障,无法正常发送探测报文,第二网络设备202在BFD会话宕确认时间间隔内没有接收到第一网络设备201发送的BFD控制报文,判定BFD会话down,上层业务如BGP或OSPF进行路由收敛,导致业务出现丢包。而实际情况是,第一网络设备201的接口板1故障,但是接口板2和接口板3到第二网络设备依然路由可达,其实,上层路由不需要进行收敛,从而避免业务出现丢包。
参见图3,该图为本申请实施例提供的一种故障处理方法流程图。如图3所示,该方法主要应用于如图2所示的场景中的第一网络设备,该方法可以包括如下步骤:
可选的步骤S301:第一网络设备中的第二接口板接收第二网络设备发送的第二报文,该报文为BFD控制报文。
可选的,该第一网络设备有到达第二网络设备的多条路由,该多条路由的出接口包括第一接口板的出接口和第二接口板的出接口。
步骤S302:该第二接口板确定第一接口板故障。
可选的,第二接口板确定第一接口板故障的方法可以包括:1、第二接口板和第二接口板上都运行一个探测程序,当第二接口板接收到第二网络设备发送的第二报文时,第二接口板运行该程序向第一接口板发送探测报文,并在时间间隔内未收到第一接口板发送的相应的探测报文,则第二接口板确定第一接口板故障。2、第二接口板有一个硬件装置,在接收到第二网络设备发送的第二报文时,第二接口板的该硬件装置向第一接口板发送一个信号,在时间间隔内,该硬件装置未收到该第一接口板的相应的反馈,则第二接口板确定该第一接口板故障。
可选的,该时间间隔小于第一网络设备和第二网络设备的BFD会话宕确认时间。
在一个示例中,该时间间隔为第二接口板接收第一接口板发送的探测报文的时间的倍数,比如,第二接口板接收第一接口板发送的探测报文的时间为1000毫秒,倍数为1,则该时间间隔为1000毫秒,或者该倍数为2,则该时间间隔为2000毫秒(1000*2)。
在一个示例中,BFD会话宕确认时间是本端接收BFD探测报文的时间间隔的倍数,如第一网络设备接收BFD探测报文的时间间隔是1000毫秒,第一网络设备与第二网络设备协商的会话宕的确认次数为4,即:当第一网络设备在4000毫秒(1000*4)内没有接收到第二网络设备发送的探测报文,则认为第一网络设备与第二网络设备的通道之间存在故障。而第一网络设备上定义的故障时间间隔为如1000毫秒,小于会话down确认时间,能够及时发现接口板故障问题,避免故障误报。
步骤S303:该第二接口板确定第一接口板故障之后,该第二接口板生成第一报文。
可选的,该第一报文的源地址为该第二报文的目的地址,该第一报文的目的地址为该第二报文的源地址,第一报文的状态字(state)为管理宕。
可选的,第二接口板根据第二报文生成第一报文的方式为,第二接口板调换第二报文中的源地址和目的地址,并修改第二报文中的状态字为管理宕,从而得到第一报文。
可选的,该第一报文的诊断字(diagnostic)为管理性宕(administrativelydown)。
步骤S304:该第二接口板确定第一接口板故障之后,向主控板发送消息,该消息指示第一接口板故障。
可选的,该消息为第二接口板根据第二报文生成的第三报文,该第三报文的状态字为管理宕(admindown)。
可选的,该消息为第二接口板生成的内部消息,指示第一接口板故障。
步骤S305:该主控板根据该消息修改本端BFD会话状态。
可选的,修改后的会话状态可以为down或admindown。
可选的,该主控板还将该会话状态的修改原因记录为:接收到admindown(receiveadmindown)。
步骤S306:该第二接口板向第二网络设备发送第一报文,该第一报文用于向第二网络设备通告第一网络设备BFD管理宕。
应理解,上述步骤S305和步骤S306并不区分先后顺序,第一网络设备可以是先向第二网络设备发送第一报文,也可以是先修改本端BFD会话状态,本申请不做具体限定。
参见图4,该图为本申请实施例提供的另一种故障处理方法流程图。如图4所示,该方法主要应用于第一网络设备,该方法可以包括如下步骤:
步骤S401:第一网络设备的主控板确定第一接口板故障。
可选的,该第一网络设备有到达第二网络设备的多条路由,该多条路由的出接口包括第一接口板的出接口和第二接口板的出接口。
可选的,该主控板确定第一接口板故障的方法为:第一接口板主动上报故障给主控板。
步骤S402:该主控板确定第一接口板故障之后,该主控板根据该消息修改第一网络设备的BFD会话状态。
可选的,修改后的会话状态可以为down或admindown。
可选的,该主控板还将该会话状态的修改原因记录为:单板故障。
步骤S403:该主控板确定第一接口板故障之后,该第二接口板生成第一报文,该第一报文的状态字(state)为管理宕。
可选的,该第一报文的diagnostic为管理性宕(Administratively Down)。
步骤S404:第一网络设备向第二网络设备发送第一报文。
可选的,第一网络设备通过第二接口板向第二网络设备发送第一报文。
应理解,上述步骤S402和步骤S403并不区分先后顺序,第一网络设备可以是先向第二网络设备发送第一报文,也可以是先修改本端BFD会话状态,本申请不做具体限定。
以上介绍了本申请实施例的故障处理方法,以下介绍本申请实施例提供的第一设备。
图5是本申请实施例提供的一种网络设备500,该网络设备500包括主控板510;接口板520A、接口板520B和接口板520C,至接口板520N,应理解,上述各接口板的结构一致,为减少赘述,仅以接口板520B即第二接口板作为示例,展开其中的器件;主控板510与各接口板之间通过通信装置530进行通信,该通信装置530可以是总线(bus)结构,也可以是交换网(fabric)或者其他的结构,本申请不做具体限定。
该主控板510包括1个或多个处理器511,该处理器511用于执行如上述图3所述的步骤305以及上述图4所述的步骤S401、S402、S403以及各步骤相关的可选方式。
该接口板520B即第二接口板,包括1个或多个处理器521,和网络接口522,该处理器521用于执行如上述图3所述的步骤S302和步骤S303以及各步骤相关的可选方式。该网络接口522用于执行如上述图3所述的步骤S301、步骤S304和步骤S306以及上述图4所述的步骤S404以及各步骤相关的可选方式。
可选的,接口板520C至接口板520N均包括网络接口522,皆可用于执行如上述图4所述的步骤S404。
应理解,处理器511和处理器521可以是一个通用中央处理器(centralprocessing unit,CPU)、特定应用集成电路(application-specific integratedcircuit,ASIC)或一个或多个用于控制本申请方案程序执行的集成电路。
应理解,但凡具备上述图5中的第一网络设备的特征的任何形态的产品,都落入本申请的保护范围。还应理解,以上介绍仅为举例,不限制本申请实施例的第一网络设备的产品形态。
应理解,上述各种产品形态的第一网络设备,分别具有上述方法实施例中第一网络设备的任意功能,此处不再赘述。
图6是本申请实施例提供的一种网络设备600,该网络设备600包括主控板610;接口板620A、接口板620B和接口板620C,至接口板620N,应理解,上述各接口板的结构一致,为减少赘述,仅以接口板620B即第二接口板作为示例,展开其中的器件;主控板610与各接口板之间通过通信结构630进行通信,该结构可以是总线(bus)结构,也可以是交换网(fabric)或者其他的结构,本申请不做具体限定。
该主控板610包括处理单元611,该处理单元611用于执行如上述图3所述的步骤305以及上述图4所述的步骤S401、S402、S403以及各步骤相关的可选方式。
该接口板620B即第二接口板,包括处理单元621,和收发单元622,该处理器621用于执行如上述图3所述的步骤S302和步骤S303以及各步骤相关的可选方式。该收发单元622用于执行如上述图3所述的步骤S301、步骤S304和步骤S306以及上述图4所述的步骤S404以及各步骤相关的可选方式。
应理解,接口板520C至接口板520N皆可用于执行如上述图4所述的接口板520C所执行的方法。
需要说明的一点是,图6实施例提供的网络设备在故障处理时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将第一网络设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的第一网络设备与上述图3或图4所述故障处理方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例中描述的各方法步骤和单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参见前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,该单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
该作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例中方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机程序指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如,数字视频光盘(digital video disc,DVD)、或者半导体介质(例如固态硬盘)等。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (17)

1.一种故障处理方法,其特征在于,包括:
第一网络设备确定第一接口板故障,所述第一接口板为运行有双向转发检测BFD状态机的接口板,所述第一网络设备包括主控板、所述第一接口板和第二接口板;
响应于确定第一接口板故障,所述第一网络设备生成第一报文,所述第一报文用于向第二网络设备通告所述第一网络设备BFD管理宕,以避免所述第一网络设备和所述第二网络设备进行上层业务或协议收敛,所述上层业务运行边界网关协议BGP或开放式最短路优先协议OSPF,所述协议包括边界网关协议BGP或开放式最短路优先协议OSPF;
所述第一网络设备通过所述第二接口板向所述第二网络设备发送所述第一报文。
2.根据权利要求1所述的方法,其特征在于,所述第一网络设备有到达所述第二网络设备的多条路由,所述多条路由的出接口包括所述第一接口板的出接口和所述第二接口板的出接口。
3.根据权利要求1或2所述的方法,其特征在于,所述第一网络设备确定所述第一接口板故障,包括:
所述主控板确定所述第一接口板故障;或
所述第二接口板确定所述第一接口板故障。
4.根据权利要求1或2所述的方法,其特征在于,所述第一网络设备生成第一报文,包括:
当所述确定第一接口板故障为所述主控板确定所述第一接口板故障时,所述主控板生成所述第一报文;或
当所述确定第一接口板故障为所述第二接口板确定第一接口板故障时,所述第二接口板生成所述第一报文。
5.根据权利要求3所述的方法,其特征在于,在所述第二接口板确定所述第一接口板故障之后,所述方法还包括:
所述第二接口板向所述主控板发送消息,所述消息指示BFD管理宕。
6.根据权利要求4所述的方法,其特征在于,所述第二接口板生成所述第一报文,包括:
在所述第二接口板确定所述第一接口板故障之前,所述第一网络设备接收所述第二网络设备发送的第二报文;
所述第一报文的源地址为所述第二报文的目的地址,所述第一报文的目的地址为所述第二报文的源地址,所述第一报文的状态字为管理宕。
7.根据权利要求3所述的方法,其特征在于,所述第二接口板确定所述第一接口板故障,包括:
所述第二接口板在时间间隔内未收到所述第一接口板发送的探测报文,所述第二接口板确定所述第一接口板故障;
所述时间间隔小于第一网络设备和第二网络设备的BFD会话宕确认时间。
8.根据权利要求6所述的方法,其特征在于,所述第二接口板向所述主控板发送消息,包括:
所述第二接口板根据所述第二报文生成所述消息,所述消息指示所述主控板修改所述第一网络设备的BFD状态;
所述第二接口板向所述主控板发送所述消息。
9.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
在所述第一网络设备确定所述第一接口板故障之后,所述第一网络设备修改所述第一网络设备的BFD状态为管理宕或者宕。
10.一种第一网络设备,其特征在于,包括:
主控板、第一接口板、第二接口板、处理器和网络接口,所述处理器位于所述第二接口板或位于所述主控板,所述网络接口位于所述第二接口板;
所述处理器,用于确定第一接口板故障,所述第一接口板为运行有双向转发检测BFD状态机的接口板;
响应于确定第一接口板故障,所述处理器还用于生成第一报文,所述第一报文用于向第二网络设备通告所述第一网络设备BFD管理宕,以避免所述第一网络设备和所述第二网络设备进行上层业务或协议收敛,所述上层业务运行边界网关协议BGP或开放式最短路优先协议OSPF,所述协议包括边界网关协议BGP或开放式最短路优先协议OSPF;
所述网络接口,用于向所述第二网络设备发送所述第一报文。
11.根据权利要求10所述的第一网络设备,其特征在于,所述第一网络设备有到达所述第二网络设备的多条路由,所述多条路由的出接口包括所述第一接口板的网络接口和所述第二接口板的网络接口。
12.根据权利要求10或11所述的第一网络设备,其特征在于,当所述处理器位于所述第二接口板时,在所述处理器用于确定所述第一接口板故障之后,还包括:
所述第二接口板还向所述主控板发送消息,所述消息指示BFD管理宕。
13.根据权利要求10或11所述的第一网络设备,其特征在于,所述处理器生成所述第一报文包括:
在所述处理器确定所述第一接口板故障之前,所述第二接口板的网络接口还用于接收所述第二网络设备发送的第二报文;
所述第一报文的源地址为所述第二报文的目的地址,所述第一报文的目的地址为所述第二报文的源地址。
14.根据权利要求10或11所述的第一网络设备,其特征在于,所述处理器用于确定所述第一接口板故障,具体为:
所述第二接口板的网络接口还用于接收所述第一接口板发送的探测报文,当所述第二接口板的网络接口在时间间隔内未收到所述探测报文时所述处理器确定所述第一接口板故障;
所述故障时间间隔小于第一网络设备和第二网络设备的BFD会话宕确认时间。
15.根据权利要求13所述的第一网络设备,其特征在于,所述第二接口板向所述主控板发送消息,包括:
所述处理器还用于根据所述第二报文生成所述消息,所述消息指示所述主控板修改所述第一网络设备的BFD状态;
所述第二接口板向所述主控板发送所述消息。
16.根据权利要求10或11所述的第一网络设备,其特征在于,还包括:
在所述第一网络设备确定所述第一接口板故障之后,所述主控板上的处理器还用于修改所述第一网络设备的BFD状态为管理宕或者宕。
17.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行以上权利要求1-9任意一项所述的故障处理方法。
CN201910912860.5A 2019-09-25 2019-09-25 一种故障处理方法、装置和存储介质 Active CN112564931B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910912860.5A CN112564931B (zh) 2019-09-25 2019-09-25 一种故障处理方法、装置和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910912860.5A CN112564931B (zh) 2019-09-25 2019-09-25 一种故障处理方法、装置和存储介质

Publications (2)

Publication Number Publication Date
CN112564931A CN112564931A (zh) 2021-03-26
CN112564931B true CN112564931B (zh) 2022-08-19

Family

ID=75029379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910912860.5A Active CN112564931B (zh) 2019-09-25 2019-09-25 一种故障处理方法、装置和存储介质

Country Status (1)

Country Link
CN (1) CN112564931B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231684A (zh) * 2011-06-16 2011-11-02 华为技术有限公司 接口板状态检测方法、多核中央处理器、接口板及路由器
CN104426691A (zh) * 2013-08-26 2015-03-18 华为技术有限公司 故障处理方法、汇聚网关和无线侧网关
WO2017054547A1 (zh) * 2015-09-28 2017-04-06 中兴通讯股份有限公司 双向转发检测的方法和装置
CN106817267A (zh) * 2015-11-27 2017-06-09 华为技术有限公司 一种故障检测方法和设备
CN107026790A (zh) * 2016-01-30 2017-08-08 华为技术有限公司 一种转发控制方法及设备
CN107547257A (zh) * 2017-07-14 2018-01-05 新华三技术有限公司 一种服务器集群实现方法及装置
CN109495345A (zh) * 2018-11-22 2019-03-19 北京华三通信技术有限公司 一种bfd处理方法及网络设备
CN109889411A (zh) * 2019-03-22 2019-06-14 新华三技术有限公司 一种数据传输的方法及装置
CN109981491A (zh) * 2019-03-29 2019-07-05 新华三技术有限公司 异常处理方法及接口板

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101483558B (zh) * 2008-01-10 2012-07-04 华为技术有限公司 网络设备接入分组交换网络的方法、系统及装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102231684A (zh) * 2011-06-16 2011-11-02 华为技术有限公司 接口板状态检测方法、多核中央处理器、接口板及路由器
CN104426691A (zh) * 2013-08-26 2015-03-18 华为技术有限公司 故障处理方法、汇聚网关和无线侧网关
WO2017054547A1 (zh) * 2015-09-28 2017-04-06 中兴通讯股份有限公司 双向转发检测的方法和装置
CN106817267A (zh) * 2015-11-27 2017-06-09 华为技术有限公司 一种故障检测方法和设备
CN107026790A (zh) * 2016-01-30 2017-08-08 华为技术有限公司 一种转发控制方法及设备
CN107547257A (zh) * 2017-07-14 2018-01-05 新华三技术有限公司 一种服务器集群实现方法及装置
CN109495345A (zh) * 2018-11-22 2019-03-19 北京华三通信技术有限公司 一种bfd处理方法及网络设备
CN109889411A (zh) * 2019-03-22 2019-06-14 新华三技术有限公司 一种数据传输的方法及装置
CN109981491A (zh) * 2019-03-29 2019-07-05 新华三技术有限公司 异常处理方法及接口板

Also Published As

Publication number Publication date
CN112564931A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
EP3373547B1 (en) Method for realizing disaster tolerance backup
US10148554B2 (en) System and methods for load placement in data centers
CN108574614A (zh) 一种报文处理方法、设备及网络系统
US7197664B2 (en) Stateless redundancy in a network device
Moazzeni et al. On reliability improvement of software-defined networks
CN111698158B (zh) 主设备选举方法、装置及机器可读存储介质
CN101483558A (zh) 网络设备接入分组交换网络的方法、系统及装置
EP3029883B1 (en) Network protection method and apparatus, next-ring node, and system
CN107465613B (zh) 链路聚合接口通信状态切换方法及装置
JP2009303092A (ja) ネットワーク装置および回線切替方法
WO2008014696A1 (fr) Méthode et dispositif pour effectuer un transfert de communications
CN110278094B (zh) 链路恢复方法及装置、系统、存储介质、电子装置
CN111585797B (zh) 以太网链路切换方法、装置、设备及计算机可读存储介质
US20060159010A1 (en) Information processing system, information processing device, and information processing method and program therefor
CN105939254B (zh) Vrrp备份组状态切换的方法及装置
JP2006504293A (ja) 通信ネットワークの状態のモニタリング
CN101635671A (zh) 加快组播收敛的方法、系统和设备
CN112564931B (zh) 一种故障处理方法、装置和存储介质
JP2007027954A (ja) パケットネットワークおよびレイヤ2スイッチ
CN107623607B (zh) Bfd会话连接建立方法及装置
JP5518771B2 (ja) 冗長ネットワークシステム、終端装置及び中継点隣接装置
CN113037622B (zh) 一种防止bfd震荡的系统及方法
US11290319B2 (en) Dynamic distribution of bidirectional forwarding detection echo sessions across a multi-processor system
CN113992571A (zh) Sdn网络中多路径业务收敛方法、装置和存储介质
JP2005354579A (ja) パケット中継装置並びに送信元及び宛先アドレスによる経路選択方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant