CN114448772A - 一种故障诊断方法及其装置 - Google Patents

一种故障诊断方法及其装置 Download PDF

Info

Publication number
CN114448772A
CN114448772A CN202111646182.6A CN202111646182A CN114448772A CN 114448772 A CN114448772 A CN 114448772A CN 202111646182 A CN202111646182 A CN 202111646182A CN 114448772 A CN114448772 A CN 114448772A
Authority
CN
China
Prior art keywords
network device
message
packet
centralized management
rule
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111646182.6A
Other languages
English (en)
Inventor
庄顺万
李振斌
徐世萍
路凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Priority to CN202111646182.6A priority Critical patent/CN114448772A/zh
Publication of CN114448772A publication Critical patent/CN114448772A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/28Routing or path finding of packets in data switching networks using route fault recovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0805Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
    • H04L43/0811Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking connectivity
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/02Topology update or discovery
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L45/00Routing or path finding of packets in data switching networks
    • H04L45/42Centralised routing

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供一种故障诊断方法及其装置,其中方法包括如下步骤:集中管理装置通过第一IGP监控协议会话接收来自第一网络设备的第一报文,第一报文包括第一网络设备向第二网络设备发送的第一消息;集中管理装置通过第二IGP监控协议会话接收来自第二网络设备的第二报文,第二报文包括第二网络设备向第一网络设备发送的第二消息,第二消息与第一消息的消息类型相同;集中管理装置根据第一报文和第二报文进行故障诊断。采用本申请实施例,可以克服人工诊断故障方法的弊端,可以缩短故障诊断的耗时,减少对网络设备正常工作效率的影响。

Description

一种故障诊断方法及其装置
本申请是向中国知识产权局提交的申请日为2018年03月9日、申请号为201810198167.1、发明名称为“一种故障诊断方法及其装置”的申请的分案申请。
技术领域
本申请实施例涉及通信技术领域,具体涉及一种故障诊断方法及其装置。
背景技术
内部网关协议(Internal Gateway Protocol,IGP)是一种用于一个自治系统(例如,某个当地社区范围内的一个自治系统)中网关间交换数据流转通道信息的协议。网际互联协议(Internet Protocol,IP)或者其它的网络协议常常通过这些通道信息来决断怎样传送数据流。网关可以是主机,也可以是路由器。IGP可以包括路由信息协议(RoutingInformation Protocol,RIP)、开放式最短路径优先(open shortest path first,OSPF)协议和中间系统到中间系统(intermediate system to intermediate system,IS-IS)协议等。
采用IGP的网络,可能会出现路由器1无法建立与路由器2之间的连接,路由学习失败等故障,其中,路由器1与路由器2在网络中互为邻居。目前,采用人工诊断故障的方法来确定故障,即管理员在网络中的每个路由器上,通过输入命令行来查询IGP以及邻居的状态信息,进而确定网络存在故障。这种人工诊断故障的方法,依赖管理员判断,耗时较长;频繁查询不仅会影响路由器的正常工作效率,甚至会导致路由器死机。
发明内容
本申请实施例所要解决的技术问题在于,提供一种故障诊断方法及其装置,可以克服人工诊断故障方法的弊端,可以缩短故障诊断的耗时,减少对网络设备正常工作效率的影响。
本申请实施例的第一方面提供一种故障诊断方法,包括:
集中管理装置通过第一IGP监控协议会话接收来自第一网络设备的第一报文,第一报文包括第一网络设备向第二网络设备发送的第一消息;集中管理装置通过第二IGP监控协议会话接收来自第二网络设备的第二报文,第二报文包括第二网络设备向第一网络设备发送的第二消息,第二消息与第一消息的消息类型相同;集中管理装置根据第一报文和第二报文进行故障诊断。
第一方面,集中管理装置通过IGP监控协议会话接收来自第一网络设备的第一报文,第二网络设备的第二报文,并根据第一报文和第二报文进行故障诊断,从而实现集中管理装置进行故障诊断,进而可以缩短故障诊断的耗时,减少对网络设备正常工作效率的影响。
其中,第一网络设备与第二网络设备用于举例,实际集中管理装置可以根据多个网络设备中每个网络设备发送的报文进行故障诊断。
结合第一方面,在一种可能的实现方式中,上述第一消息和上述第二消息为同类型的消息,即同为邻居发现消息,或同为链路状态数据库信息,或同为其它消息等。由于第一消息和第二消息为同类型的消息,那么第一报文和第二报文的协议消息类型相同,以便集中管理装置检测第一报文和第二报文是否满足报文规则。可以理解的是,在第一报文和第二报文的协议消息类型相同的情况下,集中管理装置才会进行故障诊断。
结合第一方面,在一种可能的实现方式中,集中管理装置在第一报文和第二报文不满足报文规则的情况下,进行故障诊断,以便集中管理装置可以确定故障,该故障可能是第一网络设备上的故障,也可以是第二网络设备上的故障,还可能是第一网络设备与第二网络设备之间的连接故障,即无法建立第一网络设备与第二网络设备之间的连接,还可能是路由学习故障,即第一网络设备或第二网络设备路由学习失败等等。
结合第一方面,在一种可能的实现方式中,在第一消息和第二消息为邻居发现消息的情况下,报文规则为IGP连接建立规则。其中,邻居发现消息包括认证方式、系统标识、中间系统到中间系统IS-IS等级和最大传输单元值中的至少一种。IGP连接建立规则包括链路两端的认证方式需匹配的规则、链路两端的系统标识需不相同的规则、链路两端的IS-IS等级需匹配的规则和链路两端的最大传输单元值需相同的规则。集中管理装置检测第一网络设备与第二网络设备的认证方式、系统标识、IS-IS等级和最大传输单元值中的至少一种是否满足IGP连接建立规则,并在第一路由与第二网络设备的认证方式、系统标识、IS-IS等级和最大传输单元值中的至少一种不满足IGP连接建立规则的情况下,确定第一报文和第二报文不满足报文规则。集中管理装置可确定存在无法建立第一网络设备与第二网络设备之间连接的故障,即在第一消息和第二消息为邻居消息,第一报文和第二报文不满足报文规则的情况下,集中管理装置可诊断出故障类型,即无法建立第一网络设备与第二网络设备之间连接的故障。
结合第一方面,在一种可能的实现方式中,在第一消息携带第一网络设备的认证方式,第二消息携带第二网络设备的认证方式的情况下,IGP连接建立规则为链路两端的认证方式需相同,其中认证方式即为接口认证方式,集中管理装置检测第一网络设备的认证方式和第二网络设备的认证方式是否匹配,若不匹配,即可确定第一报文和第二报文不满足报文规则。
在该种实现方式中,集中管理装置还可以确定故障原因为第一网络设备的认证方式与第二网络设备的认证方式不匹配,以便管理员调整第一网络设备或第二网络设备的认证方式,使得两者匹配,从而满足IGP连接建立规则,便于建立第一网络设备与第二网络设备之间的连接。
结合第一方面,在一种可能的实现方式中,在第一消息携带第一网络设备的系统标识,第二消息携带第二网络设备的系统标识的情况下,IGP连接建立规则为链路两端的系统标识需不相同,集中管理装置检测第一网络设备的认证方式和第二网络设备的系统标识是否相同,若相同,即可确定第一报文和第二报文不满足报文规则。
在该种实现方式中,集中管理装置还可以确定故障原因为第一网络设备的系统标识与第二网络设备的系统标识相同,以便管理员调整第一网络设备或第二网络设备的系统标识,使得两者不相同,从而满足IGP连接建立规则,便于建立第一网络设备与第二网络设备之间的连接。
结合第一方面,在一种可能的实现方式中,在第一消息携带第一网络设备的IS-IS等级,第二消息携带第二网络设备的IS-IS等级的情况下,IGP连接建立规则为链路两端的IS-IS等级需匹配,集中管理装置检测第一网络设备的IS-IS等级和第二网络设备的IS-IS等级是否匹配,若不匹配,即可确定第一报文和第二报文不满足报文规则。
在该种实现方式中,集中管理装置还可以确定故障原因为第一网络设备的IS-IS等级与第二网络设备的IS-IS等级不匹配,以便管理员调整第一网络设备或第二网络设备的IS-IS等级,使得两者匹配,从而满足IGP连接建立规则,便于建立第一网络设备与第二网络设备之间的连接。
结合第一方面,在一种可能的实现方式中,在第一消息携带第一网络设备的最大传输单元值,第二消息携带第二网络设备的最大传输单元值的情况下,IGP连接建立规则为链路两端的最大传输单元值需相同,集中管理装置检测第一网络设备的最大传输单元值和第二网络设备的最大传输单元值是否相同,若不相同,即可确定第一报文和第二报文不满足报文规则。
在该种实现方式中,集中管理装置还可以确定故障原因为第一网络设备的最大传输单元值与第二网络设备的最大传输单元值不相同,以便管理员调整第一网络设备或第二网络设备的最大传输单元值,使得两者相同,从而满足IGP连接建立规则,便于建立第一网络设备与第二网络设备之间的连接。
结合第一方面,在一种可能的实现方式中,第一网络设备与第二网络设备的最大传输单元值不满足IGP连接建立规则,且第一网络设备或第二网络设备的最大传输单元值小于最大传输单元阈值,则集中管理装置生成最大传输单元值调整信息,最大传输单元值调整信息用于通知管理员调整第一网络设备或第二网络设备的最大传输单元值。例如,集中管理装置生成并输出最大传输单元调整信息,管理员在获取到该信息的情况下,查询两个网络设备的最大传输单元值,以决定是否要对第一网络设备或第二网络设备的最大传输单元值进行调整,以优化IGP的运行。
结合第一方面,在一种可能的实现方式中,集中管理装置在确定存在无法建立第一网络设备与第二网络设备之间连接的故障的情况下,生成告警信息来指示该故障,以便管理员进行相应地调整。该告警信息可携带故障原因,以便管理员根据故障原因进行针对性调整。
无需管理员对从每个网络设备获取的信息进行比对来确定故障原因,由集中管理装置在确定存在故障的情况下,根据第一报文和第二报文即可确定故障原因,可以提高集中管理装置的智能性、灵活性。
结合第一方面,在一种可能的实现方式中,第一消息和第二消息为链路状态数据库信息,链路状态报文数据库信息包括至少一个链路状态报文。集中管理装置检测第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文是否一致,并在第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文不一致的情况下,确定第一报文和第二报文不满足报文规则。此时,报文规则为第一报文所包括的链路状态数据库信息与第二报文所包括的链路状态数据库信息需一致。
集中管理装置可确定存在路由学习故障,该路由学习故障为第一网络设备或第二网络设备路由学习失败。
结合第一方面,在一种可能的实现方式中,若第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文不匹配,则集中管理装置确定第一报文和第二报文不满足报文规则。
若第一网络设备发出的链路状态报文1包含一个IP前缀P1,即第一报文的链路状态报文1携带IP前缀P1,但是第一网络设备将链路状态报文1同步至第二网络设备时,这个IP前缀P1不携带在链路状态报文1中,即第二报文的链路状态报文1不携带IP前缀P1,那么集中管理装置可以确定第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文不匹配。
若第一网络设备发出的链路状态报文1包含一个IP前缀P1,即第一报文的链路状态报文1携带IP前缀P1,但是第一网络设备将链路状态报文1同步至第二网络设备时,链路状态报文1除携带IP前缀P1外,还携带IP前缀P2,即第二报文的链路状态报文1携带IP前缀P1和P2,那么集中管理装置可以确定第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文不匹配。
在该种实现方式中,集中管理装置还可以确定路由学习故障的故障原因为第一网络设备或第二网络设备发送的路由前缀有误,以便管理员及时处理。例如,上述第一报文的链路状态报文1携带IP前缀P1,上述第二报文的链路状态报文1不携带IP前缀P1,或上述第二报文的链路状态报文1携带IP前缀P1和P2,那么集中管理装置可确定故障原因为第一网络设备发送的路由前缀有误。
结合第一方面,在一种可能的实现方式中,若第一报文所包括的至少一个链路状态报文不包括第二报文所包括的至少一个链路状态报文,或第二报文所包括的至少一个链路状态报文不包括第一报文所包括的至少一个链路状态报文,换言之,一个网络设备发送的至少一个链路状态报文,在另一个网络设备上查询不到,则集中管理装置确定第一报文和第二报文不满足报文规则。例如,第一报文包括链路状态报文1和链路状态报文2,链路状态报文1为第一网络设备产生的报文,但是第二报文不包括链路状态报文1,那么集中管理装置确定第一报文和第二报文不满足报文规则。
在该种实现方式中,集中管理装置还可以确定路由学习故障的故障原因为第一网络设备或第二网络设备接收的链路状态报文有误,以便管理员及时处理。例如,上述第一报文包括链路状态报文1和链路状态报文2,链路状态报文1为第一网络设备产生的报文,但是上述第二报文不包括链路状态报文1,那么集中管理装置可确定故障原因为第二网络设备接收的链路状态报文有误,即第二网络设备未接收到链路状态报文1。
结合第一方面,在一种可能的实现方式中,集中管理装置在确定存在路由学习故障的情况下,生成告警信息来指示该故障,以便管理员及时处理。
无需管理员对从每个网络设备获取的信息进行比对来确定故障原因,由集中管理装置在确定存在故障的情况下,根据第一报文和第二报文即可确定故障原因,可以提高集中管理装置的智能性、灵活性。
结合第一方面,在一种可能的实现方式中,集中管理装置在通过IGP监控协议会话接收来自网络设备的报文之前,建立与网络设备之间的IGP监控协议会话,以便网络设备可以向集中管理装置发送报文,进而便于集中管理装置进行故障诊断。
以建立第一IGP监控协议会话流程为例,该流程可包括:集中管理装置配置IGP监控协议会话的第一IP地址和传输控制协议TCP端口号,通过TCP端口号接收来自第一网络设备的TCP连接建立请求,该TCP连接建立请求包括第一网络设备配置的建立IGP监控协议会话的第二IP地址,并建立集中管理装置与第一网络设备之间的第一IGP监控协议会话。
本申请实施例的第二方面提供一种故障诊断方法,包括:
第一网络设备采用IGP监控协议封装消息,得到报文,该消息为第一网络设备向第二网络设备发送的消息;第一网络设备通过IGP监控协议会话向集中管理装置发送报文。
第二方面,通过第一网络设备采用IGP监控协议对消息进行封装,得到报文,并通过IGP监控协议会话将该报文发送至集中管理装置,以便集中管理装置根据各个网络设备发送的报文进行故障诊断。
结合第二方面,在一种可能的实现的方式,第一网络设备配置建立IGP监控协议会话的第二IP地址、集中管理装置建立IGP监控协议会话的第一IP地址和TCP端口号;通过TCP端口号向集中管理装置发送TCP连接建立请求,该TCP连接建立请求包括第二IP地址,该TCP连接建立请求用于建立IGP监控协议会话,以便集中管理装置建立IGP监控协议会话,以便第一网络设备通过IGP监控协议会话向集中管理装置发送报文。
需要说明的是,第一网络设备可以是IGP域中的任意一个路由器。
本申请实施例第三方面提供一种集中管理装置,该集中管理装置具有实现第一方面提供方法的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的单元。
在一种可能的实现方式中,该集中管理装置包括:收发单元和处理单元;收发单元,用于通过第一内部网关协议IGP监控协议会话接收来自第一网络设备的第一报文,第一报文包括第一网络设备向第二网络设备发送的第一消息;收发单元,还用于通过第二IGP监控协议会话接收来自第二网络设备的第二报文,第二报文包括第二网络设备向第一网络设备发送的第二消息,第二消息与第一消息的消息类型相同;处理单元,用于根据第一报文和第二报文进行故障诊断。
在一种可能的实现方式中,该集中管理装置包括:处理器、收发器和存储器,其中,收发器用于接收和发送信息,存储器中存储计算机执行指令,处理器通过总线与存储器和收发器连接,处理器执行存储器中存储的计算机执行指令,以使该集中管理装置执行以下操作:通过第一内部网关协议IGP监控协议会话接收来自第一网络设备的第一报文,第一报文包括第一网络设备向第二网络设备发送的第一消息;通过第二IGP监控协议会话接收来自第二网络设备的第二报文,第二报文包括第二网络设备向第一网络设备发送的第二消息,第二消息与第一消息的消息类型相同;根据第一报文和第二报文进行故障诊断。
基于同一发明构思,由于该集中管理装置解决问题的原理以及有益效果可以参见第一方面所述的方法以及所带来的有益效果,因此该集中管理装置的实施可以参见方法的实施,重复之处不再赘述。
本申请实施例第四方面提供一种第一网络设备,该第一网络设备具有实现第二方面提供方法的功能。功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。硬件或软件包括一个或多个与上述功能相对应的单元。
在一种可能的实现方式中,该第一网络设备包括:处理单元和收发单元;处理单元,用于采用IGP监控协议封装消息,得到报文,该消息为第一网络设备向第二网络设备发送的消息;收发单元,用于通过IGP监控协议会话向集中管理装置发送报文。
在一种可能的实现方式中,该第一网络设备包括:处理器、收发器和存储器,其中,收发器用于接收和发送信息,存储器中存储计算机执行指令,处理器通过总线与存储器和收发器连接,处理器执行存储器中存储的计算机执行指令,以使该集中管理装置执行以下操作:采用IGP监控协议封装消息,得到报文,该消息为第一网络设备向第二网络设备发送的消息;通过IGP监控协议会话向集中管理装置发送报文。
基于同一发明构思,由于该第一网络设备解决问题的原理以及有益效果可以参见第二方面所述的方法以及所带来的有益效果,因此该第一网络设备的实施可以参见方法的实施,重复之处不再赘述。
本申请实施例第五方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本申请实施例第六方面提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
本申请实施例第七方面提供一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第二方面所述的方法。
本申请实施例第八方面提供一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第二方面所述的方法。
附图说明
为了更清楚地说明本申请实施例或背景技术中的技术方案,下面将对本申请实施例或背景技术中所需要使用的附图进行说明。
图1为本申请实施例提供的网络架构示意图;
图2为本申请实施例提供的故障诊断方法的流程示意图;
图3为本申请实施例提供的IGP监控协议的协议消息类型的示例图;
图4为本申请实施例提供的通用消息头的格式的示例图;
图5为本申请实施例提供的故障诊断方法的示例图1;
图6为本申请实施例提供的故障诊断方法的示例图2;
图7为本申请实施例提供的集中管理装置的逻辑结构示意图;
图8a为本申请实施例提供的集中管理装置的集中式实体结构简化示意图;
图8b为本申请实施例提供的集中管理装置的分布式实体结构简化示意图;
图9为本申请实施例提供的第一网络设备的逻辑结构示意图;
图10为本申请实施例提供的第一网络设备的实体结构简化示意图。
具体实施方式
下面将对本申请实施例涉及的名称或术语进行介绍:
协议数据单元(protocol data unit,PDU),是指对等层之间传输的数据单位。物理层的PDU是数据位(bit),数据链路层的PDU是数据帧(frame),网络层的PDU是数据包(packet),传输层的PDU是数据段(segment),其他更高层次的PDU是报文(message)。本申请实施例所涉及的PDU是报文。需要说明的是,本申请实施例中PDU可以为报文,报文也可以为PDU。
OSPF,是链路状态路由协议,而RIP是距离向量路由协议。链路用于是路由器之间连接,OSPF也称为接口状态路由协议。OSPF通过路由器之间通告网络接口的状态来建立链路状态数据库,生成最短路径树,每个OSPF路由器使用这些最短路径构造路由表。OSPF路由器收集其所在网络区域上各路由器的连接状态信息,即链路状态信息(link-state),生成链路状态数据库(link-state database)。路由器掌握了该区域上所有路由器的链路状态信息,也就等于了解了整个网络的拓扑状况。OSPF路由器利用最短路径优先(shortestpath first,SPF)算法,独立地计算出到达任意目的地的路由。
IS-IS,也是链路状态路由协议。每个IS-IS路由器独立地建立了网络的拓扑数据库,汇总被洪水淹没的网络信息。IS-IS在路由域内采用两级的分层结构。一个大的路由域被分成一个或多个区域(Areas),并定义了路由器的三种角色:Level-1、Level-2、Level-1-2。区域内的路由通过Level-1路由器管理,区域间的路由通过Level-2路由器管理。
其中,等级为Level-1的路由器负责区域内的路由,它只与属于同一区域的Level-1和Level-1-2路由器形成邻居关系,维护一个Level-1的链路状态数据库,该链路状态数据库包含本区域的路由信息,到区域外的报文转发给最近的Level-1-2路由器。等级为Level-2的路由器负责区域间的路由,可以与同一区域或者其它区域的Level-2和Level-1-2路由器形成邻居关系,维护一个Level-2的链路状态数据库,该链路状态数据库包含区域间的路由信息。
上述两种链路状态路由协议的工作原理可以包括:每台路由器通过使用Hello报文与它的邻居之间建立邻接关系;每台路由器向每个邻居发送链路状态报文(link-statePDU,LSP)LSP;每个邻居在收到LSP之后要依次向它的邻居转发这些LSP;每台路由器要在数据库中保存一份它所收到的LSP的备份,所有路由器的数据库应该相同;依照拓扑数据库,每台路由器使用SPF算法计算出到每个网络的最短路径,并将结果输出到路由选择表中。
IGP监控协议(IGP monitoring protocol)是本申请实施例提供的一个协议,通过该协议,集中管理装置可以监控网络中IGP运行请求并进行集中诊断。换言之,IGP监控协议为集中管理装置与路由器之间的协议。
IGP监控协议会话,是基于IGP监控协议的会话,即IGP监控协议会话为集中管理装置与路由器之间的会话,路由器可通过IGP监控协议会话向集中管理装置上报IGP信息,集中管理装置可根据这些IGP信息,诊断出网络中存在的故障信息。
其中,IGP信息指的是路由器与路由器之间采用IGP的信息,例如采用OSPF的信息,或者采用IS-IS的信息。IGP信息可以包括但不限于链路状态报文、Hello报文、路由信息等。
需要说明的是,IGP监控协议,IGP监控协议会话这两个名词并不构成对本申请实施例的限定,其它用于描述IGP监控协议,IGP监控协议会话的技术本质的名称也理应落入本申请实施例的保护范围。
采用IGP的网络,可能会出现路由器1无法建立与路由器2之间的连接,路由学习失败等故障,其中,路由器1与路由器2在网络中互为邻居。
IGP以IS-IS为例,IS-IS路由器1无法建立与IS-IS路由器2之间的链接的原因可能是:IS-IS路由器1或者IS-IS路由器2底层故障或者链路故障;IS-IS路由器1或者IS-IS路由器2无法正常收发Hello报文;IS-IS路由器1与IS-IS路由器2的接口的IP地址不在同一网段;IS-IS路由器1与IS-IS路由器2的接口的最大传输单元(maximum transmission unit,MTU)设置不一致;IS-IS路由器1与IS-IS路由器2配置的系统标识(system ID)相同;IS-IS路由器1与IS-IS路由器2的IS-IS等级不匹配;IS-IS路由器1与IS-IS路由器2的IS-IS接口认证方式不匹配;建立IS-IS level-1邻居时,IS-IS路由器1与IS-IS路由器2的区域地址不匹配。
IS-IS路由器之间路由学习失败的原因可能是:LSP没有正常接收或路由前缀没有正常发布。
目前,采用人工诊断故障的方法来确定故障,即管理员在网络中的每个路由器上,通过输入命令行来查询IGP以及邻居的状态信息,进而确定网络存在故障。若需确定故障原因,则管理员需要比较各个路由器上获取的信息,进而确定出故障发生的原因。
鉴于人工诊断故障方法存在耗时长、影响路由器正常工作效率的弊端,本申请实施例提供一种故障诊断方法及其装置,可以克服人工诊断故障方法的弊端,可以缩短故障诊断的耗时,减少对路由器正常工作效率的影响。
请参见图1,为应用本申请实施例的网络架构示意图。图1所示的网络架构包括集中管理装置和IGP域,IGP域包括六个路由器,分别为路由器1(R1)、路由器2(R2)、路由器3(R3)、路由器4(R4)、路由器5(R5)和路由器6(R6)。需要说明的是,图1所示的集中管理装置和路由器的设备形态以及数量并不构成对本申请实施例的限定。
IGP域即为自治系统,一个自治系统就是处于一个管理机构控制之下的路由器和网络群组。它可以是一个路由器直接连接到一个局域网(local area network,LAN)上,同时也连接到互联网(Internet)上;它可以是一个由企业骨干网互连的多个局域网。在一个自治系统中的所有路由器相互连接,运行相同的路由协议,同时分配同一个自治系统编号。IGP域内,路由器与路由器之间建立连接,即路由器与路由器之间建立IGP会话,通过IGP会话传输信息。换言之,IGP域内,路由器与路由器之间采用相同的IGP进行信息传输,例如采用OSPF协议进行信息传输。
集中管理装置可以是独立于IGP域的一个设备,该设备可以路由器或交换机,也可以是运行在该设备上的一个应用程序,还可以是集成在该设备上的功能模块等。集中管理装置可以是IGP域中的一个路由器,也可以是集成在该路由器上的功能模块。集中管理装置可以是软件定义网络(software defined network,SDN)中的控制器或网管设备,也可以是该设备上的一个应用程序,还可以是集成在该设备上的功能模块等。
集中管理装置可与IGP域中的每个路由器建立IGP监控协议会话,以监控路由器之间IGP的运行情况,并进行故障诊断。换言之,每个路由器通过IGP监控协议会话向集中管理装置上报IGP信息,从而集中管理装置根据这些IGP信息监控IGP的运行情况,并进行故障诊断。
需要说明的是,集中管理装置这个名称并不构成对本申请实施例的限定,也可以将其称为控制器、集中管理设备、网络管理设备/装置、网管设备/装置等。
需要说明的是,本申请实施例中涉及的网络设备可以是路由器或交换机等。
请参见图2,为本申请实施例提供的故障诊断方法的流程示意图,该方法以两个网络设备与集中管理装置交互为例进行介绍,该方法可以包括但不限于:
步骤S201,第一网络设备采用IGP监控协议封装第一消息,得到第一报文。
在一种可能的实现方式中,第一网络设备在采用IGP监控协议封装第一消息之前,或在通过第一IGP监控协议会话向集中管理装置发送第一报文之前,第一网络设备建立与集中管理装置之间的第一IGP监控协议会话。
第一网络设备建立与集中管理装置之间的第一IGP监控协议会话的过程可包括:
1)集中管理装置配置用于建立IGP监控协议会话的IP地址(例如IP地址1),以及用于监听的传输控制协议(Transmission Control Protocol,TCP)端口号(例如port1)。该TCP端口号用于集中管理装置监听网络设备发送的TCP连接建立请求。集中管理装置在完成配置的情况下,进入等待建立连接状态。集中管理装置配置这些信息的具体方法在本申请实施例中不做限定。
2)第一网络设备配置用于建立IGP监控协议会话的IP地址(例如IP地址2)、集中管理装置预先配置的TCP端口号port1和集中管理装置预先配置的IP地址1。换言之,第一网络设备配置的TCP端口号与集中管理装置所配置的用于监听的TCP端口号相同,第一网络设备用其所配置的TCP端口号发送TCP连接建立请求。第一网络设备配置这些信息的具体方法在本申请实施例中不做限定。
3)第一网络设备在完成配置的情况下,向集中管理装置发送TCP连接建立请求。第一网络设备可通过TCP端口号(port1)向集中管理装置发送TCP连接建立请求。该TCP连接建立请求可包括第一网络设备的IP地址2。该TCP连接建立请求用于建立第一IGP监控协议会话。
4)集中管理装置在接收到来自第一网络设备的TCP连接建立请求的情况下,通过IP地址1与IP地址2建立集中管理装置与第一网络设备建立第一IGP监控协议会话。
第一网络设备采用IGP监控协议封装第一消息,得到第一报文。其中,第一消息为第一网络设备向第二网络设备发送的消息,该消息可能已经发送至第二网络设备,也可能将要发送至第二网络设备。
第一消息可以是邻居发现消息,也可以是链路状态数据库信息,还可以其他消息。
其中,邻居发现消息可以是IGP Hello报文,例如IS-IS Hello报文,OSPF Hello报文。IS-IS Hello报文用于建立和维护邻居关系,也可称为IIH(IS-IS Hello PDUs)。广播网中的Level-1IS-IS使用Level-1 LAN IIH;广播网中的Level-2 IS-IS使用Level-2 LANIIH;非广播网络中则使用(point to point,P2P)IIH。Level-1/level-2LAN IIH的报文格式与P2P IIH的报文格式有所不同,具体在本申请实施例中不做介绍。
其中,链路状态数据库信息包括至少一个LSP。第一网络设备向第二网络设备发送的链路状态数据库信息包含第一网络设备的LSP,还包含其它网络设备的LSP,例如在图1所示的网络架构中,R1向R2发送的链路状态数据库信息包括R1的LSP,还包括R2的LSP、R3的LSP、R4的LSP、R5的LSP和R6的LSP。LSP可以是IS-IS LSP,也可以是OSPF LSP,一个链路状态数据库信息所包括的LSP的IGP相同。
IS-IS LSP用于交换链路状态信息。LSP分为两种:Level-1 LSP和Level-2 LSP。Level-1 LSP由Level-1 IS-IS传送,Level-2 LSP由Level-2 IS-IS传送。LSP的具体格式在本申请实施例中不做介绍。
第一网络设备根据IGP监控协议所定义的协议消息类型对第一消息进行封装,得到第一报文。请参见图3,为本申请实施例提供的IGP监控协议的协议消息类型的示例图。需要说明的是,图3中只举例了两种类型的协议消息,实际应用中可能还包括其它类型的协议消息,本申请实施例不再一一列举。
若第一消息为链路状态数据库信息,则第一网络设备采用type0,即链路状态报文监控(LSP monitoring)对第一消息进行封装,得到第一报文。此时,第一报文的报文格式为通用消息头(common header)+链路状态报文(LSP)。第一网络设备可将其所有的LSP采用type0封装,一次性上报至集中管理装置,即第一报文包括第一网络设备上的所有LSP。第一网络设备可在LSP发生变化的情况下,将发生变化的LSP采用type0封装,上报至集中管理装置,即第一报文包括发生变化的LSP。
若第一消息为邻居发现消息,则第一网络设备采用type1,即邻居发现(neighbordiscovery)对第一消息进行封装,得到第一报文。此时,第一报文的报文格式为通用消息头(common header)+Hello报文(Hello PDU)。第一网络设备可以在发现一个活跃的邻居的情况下,对第一消息进行封装得到第一报文,此时第一报文可以指示所发现的活跃的邻居;也可以在发现一个活跃的邻居撤销退出网络的情况下,对第一消息进行封装得到第一报文,此时第一报文可以指示所退出的邻居;也可以在发现邻居的配置参数发生变化的情况下,对第一消息进行封装得到第一报文,此时第一报文可以指示配置参数发生变化的邻居,且该邻居的配置参数发生变化。
其中,通用消息头的格式可参见图4所示,图4为本申请实施例所定义的通用消息头的格式,包括版本号(Version)、协议标识(Protocol-ID)、OSPF邻居标识(Neighbor ID)/IS-IS系统标识(System-ID)、消息长度(Message Length)和消息类型(Message Type)。需要说明的是,图4所示的通用消息头的格式用于举例,并不构成对本申请实施例的限定,实际应用中,可能还包括其他信息。
版本号,用于标识当前协议支持的版本号。协议标识,用于标识当前所监控的协议类型,可以是IS-IS level 1、IS-IS level 2、OSPFv2、OSPFv3等协议类型中的一种。OSPF邻居标识/IS-IS系统标识,根据协议标识确定,若协议标识与OSPF相关,则此字段为OSPF邻居标识;若协议标识与IS-IS相关,则此字段为系统标识。
步骤S202,第一网络设备通过第一IGP监控协议会话向集中管理装置发送第一报文。相应地,集中管理装置通过第一IGP监控协议会话接收来自第一网络设备的第一报文。
第一网络设备在于集中管理装置建立第一IGP监控协议会话的情况下,通过第一IGP监控协议会话向集中管理装置发送第一报文。
步骤S203,第二网络设备采用IGP监控协议封装第二消息,得到第二报文。
步骤S204,第二网络设备通过第二IGP监控协议会话向集中管理装置发送第二报文。相应地,集中管理装置通过第二IGP监控协议会话接收来自第二网络设备的第二报文。
步骤S203和步骤S204的实现过程与步骤S201和步骤S202类似,不同之处在于:第二IGP监控协议会话为集中管理装置与第二网络设备之间的会话;第二消息是第二网络设备向第一网络设备发送的消息。
需要说明的是,第一消息和第二消息是同类型的消息,例如均为邻居发现消息,或均为链路状态数据库信息。那么,第一报文与第二报文所采用的协议消息类型相同,例如,均采用type0或type1。
需要说明的是,本申请实施例中不限定步骤S201和步骤S203的先后顺序,可以同时,也可以不同时,视具体情况而定。
步骤S205,集中管理装置根据第一报文和第二报文进行故障诊断。
集中管理装置在接收到第一报文和第二报文的情况下,对第一报文和第二报文进行解析,获取协议消息类型,若第一报文和第二报文所采用的协议消息类型相同,则根据第一报文和第二报文进行故障诊断。
集中管理装置在第一报文和第二报文不满足报文规则的情况下,进行故障诊断。集中管理装置在第一报文和第二报文满足报文规则的情况下,不做任何处理。
在图2所示的实施例中,无管理员输入的查询指令,直接由集中管理装置进行故障诊断,从而可以克服人工诊断故障方法的弊端,可以缩短故障诊断的耗时,减少对网络设备正常工作效率的影响。
需要说明的是,图2所示的实施例以两个网络设备与集中管理装置交互为例,实际应用中,集中管理装置可以与IGP域中的每个网络设备建立IGP监控协议会话,收集各个网络设备发送的报文,根据报文所采用的协议消息类型对IGP域中的网络设备进行实时监控和故障诊断。
下面将以第一消息和第二消息为邻居发现消息,链路状态数据库信息为例进行介绍。
请参见图5,为本申请实施例提供的故障诊断方法的示例图1,该示例中,第一消息和第二消息为邻居发现消息,即为IGP Hello报文。
步骤S301,第一网络设备采用IGP监控协议封装第一IGP Hello报文,得到第一报文。
结合图3所示的示例图,第一网络设备采用type1,即邻居发现(neighbordiscovery)对第一IGP Hello报文进行封装,得到第一报文。
步骤S302,第一网络设备通过第一IGP监控协议会话向集中管理装置发送第一报文。相应地,集中管理装置通过第一IGP监控协议会话接收来自第一网络设备的第一报文。
步骤S303,第二网络设备采用IGP监控协议封装第二IGP Hello报文,得到第二报文。
步骤S304,第二网络设备通过第二IGP监控协议会话向集中管理装置发送第二报文。相应地,集中管理装置通过第二IGP监控协议会话接收来自第二网络设备的第二报文。
步骤S305,集中管理装置根据第一报文和第二报文进行故障诊断。
集中管理装置在第一报文和第二报文不满足IGP连接建立规则的情况下,进行故障诊断,可诊断出存在无法建立所述第一网络设备与所述第二网络设备之间连接的故障,即第一网络设备无法建立与第二网络设备之间连接,或第二网络设备无法建立与第一网络设备之间的连接。
上述第一IGP Hello报文和第二IGP Hello报文可以携带本端接口的IP地址、认证方式、系统标识、IS-IS等级和MTU值等信息中的至少一种。
在一种可能实现的方式中,第一IGP Hello报文携带第一网络设备的IP地址1,第二IGP Hello报文携带第二网络设备的IP地址2,集中管理装置检测IP地址1和IP地址2是否在同一网段,若不在同一网段,即可确定第一报文和第二报文不满足IGP连接建立规则。此时,IGP连接建立规则可以是链路两端的IP地址需在同一网段。
进一步地,集中管理装置可确定IGP邻居故障的故障原因为第一网络设备与第二网络设备的IP地址不在同一网段,以便管理员可以对第一网络设备或第二网络设备的IP地址进行调整。可以理解的是,第一网络设备与第二网络设备的IP地址不在同一网段,导致无法建立第一网络设备与第二网络设备之间的连接。
在一种可能实现的方式中,第一IGP Hello报文携带第一网络设备的认证方式,第二IGP Hello报文携带第二网络设备的认证方式,该认证方式为接口认证方式,若IGP为IS-IS协议,则该认证方式可以是IS-IS接口认证方式;若IGP为OSPF协议,则该认证方式可以是OSPF接口认证方式。集中管理装置检测第一网络设备的认证方式和第二网络设备的认证方式是否匹配,若不匹配,即可确定第一报文和第二报文不满足IGP连接建立规则。此时,IGP连接建立规则可以是链路两端的接口认证方式需匹配。
进一步地,集中管理装置可确定IGP邻居故障的故障原因为第一网络设备与第二网络设备的认证方式不匹配,以便管理员可以对第一网络设备或第二网络设备的接口认证方式进行调整。可以理解的是,第一网络设备与第二网络设备的认证方式不匹配,导致无法建立第一网络设备与第二网络设备之间的连接。
在一种可能实现的方式中,第一IGP Hello报文携带第一网络设备的系统标识,第二IGP Hello报文携带第二网络设备的系统标识,集中管理装置检测第一网络设备的系统标识和第二网络设备的系统标识是否相同,若相同,即可确定第一报文和第二报文不满足IGP连接建立规则。此时,IGP连接建立规则可以是链路两端的系统标识需不相同。其中,系统标识可以是IS-IS协议中规定的系统标识(system ID)。
进一步地,集中管理装置可确定IGP邻居故障的故障原因为第一网络设备与第二网络设备的系统标识相同或冲突,以便管理员可以对第一网络设备或第二网络设备的系统标识进行调整。可以理解的是,第一网络设备与第二网络设备的系统标识相同,导致无法建立第一网络设备与第二网络设备之间的连接。
在一种可能实现的方式中,第一IGP Hello报文携带第一网络设备的IS-IS等级,第二IGP Hello报文携带第二网络设备的IS-IS等级,集中管理装置检测第一网络设备的IS-IS等级和第二网络设备的IS-IS等级是否匹配,若不匹配,即可确定第一报文和第二报文不满足IGP连接建立规则。此时,IGP连接建立规则可以是链路两端的IS-IS等级需匹配。例如,第一网络设备的IS-IS等级为Level-1,第二网络设备的IS-IS等级为Level-2,Level-1与Level-2不匹配,集中管理装置可以确定第一报文和第二报文不满足IGP连接建立规则。
进一步地,集中管理装置可确定IGP邻居故障的故障原因为第一网络设备与第二网络设备的IS-IS等级不匹配,以便管理员可以对第一网络设备或第二网络设备的IS-IS等级进行调整。可以理解的是,第一网络设备与第二网络设备的IS-IS等级不匹配,导致无法建立第一网络设备与第二网络设备之间的连接。
在一种可能实现的方式中,第一IGP Hello报文携带第一网络设备的MTU值,第二IGP Hello报文携带第二网络设备的MTU值,集中管理装置检测第一网络设备的MTU值和第二网络设备的MTU值是否相同,若不相同,即可确定第一报文和第二报文不满足IGP连接建立规则。此时,IGP连接建立规则可以是链路两端的MTU值需相同。
进一步地,集中管理装置可确定IGP邻居故障的故障原因为第一网络设备与第二网络设备的MTU值不相同,以便管理员可以对第一网络设备或第二网络设备的MTU值进行调整。可以理解的是,第一网络设备与第二网络设备的MTU值不相同,导致无法建立第一网络设备与第二网络设备之间的连接。
进一步地,若第一网络设备的MTU值或第二网络设备的MTU值小于MTU阈值,导致IGP协议报文被分成了多个小片段,则集中管理装置生成MTU值调整信息,MTU值调整信息用于通知管理员调整第一网络设备或第二网络设备的最大传输单元值。例如,集中管理装置生成并输出最大传输单元调整信息,管理员在获取到该信息的情况下,查询两个网络设备的最大传输单元值,以决定是否要对第一网络设备或第二网络设备的最大传输单元值进行调整,以优化IGP的运行。
需要说明的是,上述几种方式为比较常见的举例,实际应用中可能还包括其它方式,在此不再列举。
集中管理装置在确定存在无法建立第一网络设备与第二网络设备之间连接的故障的情况下,生成告警信息来指示该故障,以便管理员进行相应地调整。该告警信息可携带故障原因,以便管理员根据故障原因进行针对性调整。
图5所示的示例中,集中管理装置收集采用type0封装得到的报文,进行故障诊断,还可以诊断出故障原因,以便管理员对相应的网络设备进行相应地调整。
请参见图6,为本申请实施例提供的故障诊断方法的示例图2,该示例中,第一消息和第二消息为链路状态数据库信息。
步骤S401,第一网络设备生成第一链路状态数据库信息。
第一网络设备将其产生的LSP以及从其它网络设备接收的LSP进行汇总,生成一个LSP数据库,例如LSP DB 1,将这个LSP数据库称第一链路状态数据库信息。
可以理解的是,第一链路状态数据库信息包括第一网络设备产生的LSP以及从其它网络设备接收的LSP。换言之,第一链路状态数据库信息包括至少一个LSP。需要说明的是,链路状态数据库信息这个名称并不够成对本申请实施例的限定,用于描述包括至少一个LSP的其它名称理应落入本申请实施例的保护范围。例如,将其称为链路状态信息或链路状态报文信息等。
举例来说,图1所示的网络架构示意图,假设第一网络设备为R1,第二网络设备为R2,R1向R2发送的第一链路状态数据库信息包括6个LSP,即R1产生的LSP1、R2产生的LSP2、R3产生的LSP3、R4产生的LSP4、R5产生的LSP5和R6的LSP6。
第一网络设备在生成第一链路状态数据库信息的情况下,可将第一链路状态数据库信息同步至第二网络设备,即第一网络设备向第二网络设备发送第一链路状态数据库信息,即第一消息。
第二网络设备在接收到第一链路状态数据库信息的情况下,可对第二网络设备生成的第二链路状态数据库信息进行更新。
若第一网络设备与第二网络设备不存在路由学习故障,则第一链路状态数据库信息与第二链路状态数据库信息一致。一致,指的是所包括的LSP的数量一致,包括相同的LSP,且对于任意一个LSP,所包括的内容应相同。例如,第一链路状态数据库信息包括LSP1和LSP2,第二链路状态数据库信息包括LSP1和LSP2,且两个信息所包括的LSP1的内容相同,LSP2所包括的内容相同,那么第一链路状态数据库信息与第二链路状态数据库信息一致。
步骤S402,第一网络设备采用IGP监控协议封装第一链路状态数据库信息,得到第一报文。
结合图3所示的示例图,第一网络设备采用type0,即链路状态报文监控(LSPmonitoring)对第一链路状态数据库信息进行封装,得到第一报文。
步骤S403,第一网络设备通过第一IGP监控协议会话向集中管理装置发送第一报文。相应地,集中管理装置通过第一IGP监控协议会话接收来自第一网络设备的第一报文。
步骤S404,第二网络设备生成第二链路状态数据库信息。
步骤S405,第二网络设备采用IGP监控协议封装第二链路状态数据库信息,得到第二报文。
步骤S406,第二网络设备通过第二IGP监控协议会话向集中管理装置发送第二报文。相应地,集中管理装置通过第二IGP监控协议会话接收来自第二网络设备的第二报文。
步骤S407,集中管理装置根据第一报文和第二报文进行故障诊断。
在图6所示的示例下,集中管理装置在第一报文和第二报文不满足报文规则的情况下,进行故障诊断,可诊断出存在路由学习故障,该路由学习故障为第一网络设备或第二网络设备路由学习失败。
其中,报文规则为链路两端的链路状态数据库信息需一致。链路状态数据库信息包括至少一个链路状态报文。
在一种可能实现的方式中,若第一报文所包括的至少一个链路状态报文不包括第二报文所包括的至少一个链路状态报文,或第二报文所包括的至少一个链路状态报文不包括第一报文所包括的至少一个链路状态报文,换言之,一个网络设备发送的至少一个链路状态报文,在另一个网络设备上查询不到,则集中管理装置确定第一报文和第二报文不满足报文规则。例如,第一报文包括LSP1和LSP2,LSP1为第一网络设备产生的报文,但是第二报文不包括LSP1,那么集中管理装置确定第一报文和第二报文不满足报文规则。
进一步地,集中管理装置可确定路由学习故障的故障原因为第一网络设备或第二网络设备接收的链路状态报文有误,即第一网络设备或第二网络设备未成功接收到链路状态报文。例如,第一报文包括LSP1和LSP2,LSP1为第一网络设备产生的报文,但是第二报文不包括LSP1,那么集中管理装置可确定故障原因为第二网络设备接收的链路状态报文有误,即第二网络设备未接收到链路状态报文1,即未接收到第一网络设备向其发送的链路状态报文1。
在一种可能的实现方式中,若第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文不匹配,则集中管理装置确定第一报文和第二报文不满足报文规则。
若第一网络设备发出的LSP1包含一个IP前缀P1,即第一报文的LSP1携带IP前缀P1,但是第一网络设备将LSP1同步至第二网络设备时,这个IP前缀P1不携带在LSP1中,即第二报文的LSP1不携带IP前缀P1,那么集中管理装置可以确定第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文不匹配。
若第一网络设备发出的LSP1包含一个IP前缀P1,即第一报文的LSP1携带IP前缀P1,但是第一网络设备将LSP1同步至第二网络设备时,LSP1除携带IP前缀P1外,还携带IP前缀P2,即第二报文的LSP1携带IP前缀P1和P2,那么集中管理装置可以确定第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文不匹配。
进一步地,集中管理装置可确定路由学习故障的故障原因为第一网络设备或第二网络设备发送的路由前缀有误。该路由前缀可以为IP前缀。例如,第一报文的LSP1携带IP前缀P1,第二报文的LSP不携带IP前缀P1或携带IP前缀P1和IP前缀P2,那么集中管理装置可确定故障原因为第一网络设备发送的路由前缀有误。
需要说明的是,上述几种方式为比较常见的举例,实际应用中可能还包括其它方式,在此不再列举。
集中管理装置在确定存在路由学习故障的情况下,生成告警信息来指示该故障,以便管理员可以及时处理。
在一种可能实现的方式中,在链路状态数据库信息包括的LSP数量较多的情况下,报文可能会被拆为多个片段进行发送,集中管理装置可根据片段所采用的协议消息类型进行针对性收集,从而便于进行IGP监控和故障诊断。例如,采用type1封装第一链路状态数据库信息得到的第一报文被拆为三个片段,集中管理装置收集type1的信息,以便进行IGP监控和故障诊断。
图5所示的示例中,集中管理装置可收集采用type1封装得到的报文,进行路由学习故障诊断,还可以诊断出故障原因,以便管理员可以及时处理。
需要说明的是,图5和图6所示的示例用于举例,实际应用中,集中管理装置还可以收集采用其它协议消息类型封装得到报文,进行故障诊断。
上述详细阐述了本申请实施例的方法,下面提供了本申请实施例的装置。
请参见图7,是本申请实施例提供的集中管理装置的逻辑结构示意图,该集中管理装置50可以包括收发单元501和处理单元502。
收发单元501,用于通过第一内部网关协议IGP监控协议会话接收来自第一网络设备的第一报文,第一报文包括第一网络设备向第二网络设备发送的第一消息。
收发单元501,还用于通过第二IGP监控协议会话接收来自第二网络设备的第二报文,第二报文包括第二网络设备向第一网络设备发送的第二消息,第二消息与第一消息的消息类型相同。
处理单元502,用于根据第一报文和第二报文进行故障诊断。
需要说明的是,上述收发单元501用于执行图2所示实施例中的步骤S202和步骤S204,上述处理单元502用于执行图2所示实施例中的步骤S205,具体可参见图2所示实施例的具体描述,在此不再赘述。
在一种可能的实现方式中,处理单元502具体用于在第一报文和第二报文不满足报文规则的情况下,进行故障诊断。
在一种可能的实现方式中,第一消息和第二消息为邻居发现消息,邻居发现消息包括认证方式、系统标识、中间系统到中间系统IS-IS等级和最大传输单元值中的至少一种;报文规则为IGP连接建立规则,IGP连接建立规则包括链路两端的认证方式需匹配的规则、链路两端的系统标识需不相同的规则、链路两端的IS-IS等级需匹配的规则和链路两端的最大传输单元值需相同的规则;
处理单元502,还用于若第一网络设备的认证方式与第二网络设备的认证方式不匹配,则确定第一报文和第二报文不满足报文规则;
处理单元502,还用于若第一网络设备的系统标识与第二网络设备的系统标识相同,则确定第一报文和第二报文不满足报文规则;
处理单元502,还用于若第一网络设备的IS-IS等级与第二网络设备的IS-IS等级不匹配,则确定第一报文和第二报文不满足报文规则;
处理单元502,还用于若第一网络设备的最大传输单元值与第二网络设备的最大传输单元值不相同,则确定第一报文和第二报文不满足报文规则。
在一种可能的实现方式中,处理单元502具体用于确定无法建立第一网络设备与第二网络设备之间连接的故障;
若第一网络设备的认证方式与第二网络设备的认证方式不匹配,则处理单元502具体用于确定故障的故障原因为第一网络设备的认证方式与第二网络设备的认证方式不匹配;
若第一网络设备的系统标识与第二网络设备的系统标识相同,则处理单元502具体用于确定故障的故障原因为第一网络设备的系统标识与第二网络设备的系统标识相同;
若第一网络设备的IS-IS等级与第二网络设备的IS-IS等级不匹配,则处理单元502具体用于确定故障的故障原因为第一网络设备的IS-IS等级与第二网络设备的IS-IS等级不匹配;
若第一网络设备的最大传输单元值与第二网络设备的最大传输单元值不相同,则处理单元502具体用于确定故障的故障原因为第一网络设备的最大传输单元值与第二网络设备的最大传输单元值不相同。
在一种可能的实现方式中,处理单元502,还用于生成告警信息,告警信息用于指示存在无法建立第一网络设备与第二网络设备之间连接的故障。
在一种可能的实现方式中,处理单元502,还用于若第一网络设备与第二网络设备的最大传输单元值不满足IGP连接建立规则,且第一网络设备或第二网络设备的最大传输单元值小于最大传输单元阈值,则生成最大传输单元值调整信息,最大传输单元值调整信息用于通知管理员调整第一网络设备或第二网络设备的最大传输单元值。
在一种可能的实现方式中,第一消息和第二消息为链路状态数据库信息,链路状态报文数据库信息包括至少一个链路状态报文;
处理单元502,还用于若第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文不一致,则确定第一报文和第二报文不满足报文规则。
在一种可能的实现方式中,处理单元502具体用于确定存在路由学习故障,路由学习故障为第一网络设备或第二网络设备路由学习失败;
若第一报文所包括的至少一个链路状态报文与第二报文所包括的至少一个链路状态报文不匹配,则处理单元502具体用于确定路由学习故障的故障原因为第一网络设备或第二网络设备发送的路由前缀有误;
若第一报文所包括的至少一个链路状态报文不包括第二报文所包括的至少一个链路状态报文,或第二包括所包括的至少一个链路状态报文不包括第一报文所包括的至少一个链路状态报文,则处理单元502具体用于确定路由学习故障的故障原因为第一网络设备或第二网络设备接收的链路状态报文有误。
在一种可能的实现方式中,处理单元502,还用于生成告警信息,告警信息用于指示存在路由学习故障。
在一种可能的实现方式中,处理单元502,还用于配置建立IGP监控协议会话的第一IP地址和TCP端口号;
收发单元501,还用于通过TCP端口号接收来自第一网络设备的TCP连接建立请求,TCP连接建立请求包括第一网络设备配置的建立IGP监控协议会话的第二IP地址;
处理单元502,还用于建立第一IGP监控协议会话。
该集中管理装置50可以实现前述方法实施例中集中管理装置的功能,该集中管理装置50中各个单元执行详细过程可以参见前述方法实施例集中管理装置的执行步骤,此处不在赘述。
请参见图8a,是本申请实施例提供的集中管理装置的集中式实体结构简化示意图,该集中管理装置60a包括收发器601a、处理器602a和存储器603a。收发器601a、处理器602a和存储器603a可以通过总线604a相互连接,也可以通过其它方式相连接。图7所示的收发单元501所实现的相关功能可以通过收发器601a来实现。图7所示的处理单元502所实现的相关功能可以通过处理器602a来实现。
收发器601a用于发送数据和/或信令,以及接收数据和/或信令。应用在本申请实施例中,收发器601a用于接收报文和数据信息等,例如,执行图2所示实施例中的步骤S202和步骤S204。
处理器602a可以包括是一个或多个处理器,例如包括一个或多个中央处理器(central processing unit,CPU),在处理器602a是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。应用在本申请实施例中,处理器602a用于执行上述方法实施例中报文处理相关内容,例如,执行图2所示实施例中的步骤S205。
存储器603a包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmableread only memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器603a用于相关指令及数据。存储器603a用于存储集中管理装置60a的程序代码和数据。
请参见图8b,是本申请实施例提供的集中管理装置的分布式实体结构简化示意图,该集中管理装置60b包括主控板601b和接口板602b。
其中,主控板601b包括处理器6011b和存储器6012b。主控板601b应用在本申请实施例中,用于报文的处理,例如执行图2所示实施例中的步骤S205。报文的处理具体可由处理器6011b执行,存储器6012b存储有处理器6011b执行报文处理的相关指令和数据。
其中,接口板602b包括处理器6021b、存储器6022b和接口卡6023b。接口板602b应用在本申请实施例中,用于报文的接收,例如执行图2所示实施例中的步骤S202和步骤S204。报文的接收具体可由接口卡6023b执行,处理器6021b用于控制接口卡6023b执行报文的接收,存储器6022b存储有处理器6021b控制接口卡6023b执行报文接收的相关指令和数据。
可以理解的是,图8a和图8b仅仅示出了集中管理装置的简化设计。在实际应用中,集中管理装置还可以分别包含必要的其他元件,包含但不限于任意数量的收发器、处理器、控制器、存储器、通信单元等,而所有可以实现本申请的装置都在本申请的保护范围之内。
需要说明的是,图7、图8a或图8b所示的集中管理装置可以是独立于IGP域的路由器或交换机,也可以是集成在该路由器或该交换机中的功能模块。
请参见图9,为本申请实施例提供的第一网络设备的逻辑结构示意图,该第一网络设备70可以包括处理单元701和收发单元702。
处理单元701,用于采用IGP监控协议封装消息,得到报文,该消息为第一网络设备向第二网络设备发送的消息。
收发单元702,用于通过IGP监控协议会话向集中管理装置发送报文。
需要说明的是,上述处理单元701用于执行图2所示实施例中的步骤S201,上述收发单元702用于执行图2所示实施例中的步骤S202,具体可参见图2所示实施例的具体描述,在此不再赘述。
在一种可能的实现方式中,处理单元701,还用于配置建立IGP监控协议会话的第二IP地址、集中管理装置建立IGP监控协议会话的第一IP地址和TCP端口号;
收发单元702,还用于通过TCP端口号向集中管理装置发送TCP连接建立请求,TCP连接建立请求包括第二IP地址,该TCP连接建立请求用于建立IGP监控协议会话。
该第一网络设备70可以实现前述方法实施例中第一网络设备的功能,该第一网络设备70中各个单元执行详细过程可以参见前述方法实施例第一网络设备的执行步骤,此处不在赘述。
请参见图10,为本申请实施例提供的第一网络设备的实体结构简化示意图,该第一网络设备80包括收发器801、处理器802和存储器803。收发器801、处理器802和存储器803可以通过总线804相互连接,也可以通过其它方式相连接。图9所示的处理单元701所实现的相关功能可以通过处理器802来实现。图9所示的收发单元702所实现的相关功能可以通过收发器801来实现。
收发器801用于发送数据和/或信令,以及接收数据和/或信令。应用在本申请实施例中,收发器801用于发送报文和数据信息等,例如,执行图2所示实施例中的步骤S202。
处理器802可以包括是一个或多个处理器,例如包括一个或多个CPU,在处理器802是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。应用在本申请实施例中,处理器802用于执行图2所示实施例中的步骤S201。
存储器803包括但不限于是RAM、ROM、EPROM、或CD-ROM,该存储器803用于相关指令及数据。存储器803用于存储第一网络设备80的程序代码和数据。
可以理解的是,图10仅仅示出了第一网络设备的简化设计。在实际应用中,第一网络设备还可以分别包含必要的其他元件,包含但不限于任意数量的收发器、处理器、控制器、存储器、通信单元等,而所有可以实现本申请的装置都在本申请的保护范围之内。
需要说明的是,图9或图10所示的第一网络设备可以是IGP域中的任意一个路由器。
本申请实施例还提供一种故障诊断系统,包括集中管理装置和至少两个网络设备。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,该流程可以由计算机程序来指令相关的硬件完成,该程序可存储于计算机可读取存储介质中,该程序在执行时,可包括如上述各方法实施例的流程。而前述的存储介质包括:ROM或随机存储记忆体RAM、磁碟或者光盘等各种可存储程序代码的介质。因此,本申请又一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本申请又一实施例还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述各方面所述的方法。
本领域普通技术人员可以意识到,结合本申请中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者通过所述计算机可读存储介质进行传输。所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriberline,DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(solid state disk,SSD))等。

Claims (26)

1.一种故障诊断方法,其特征在于,包括:
集中管理装置通过第一监控协议会话接收来自第一网络设备的第一报文,所述第一报文包括所述第一网络设备向第二网络设备发送的第一消息,所述第一消息包括链路状态信息;
所述集中管理装置通过第二监控协议会话接收来自所述第二网络设备的第二报文,所述第二报文包括所述第二网络设备向所述第一网络设备发送的第二消息,所述第二消息与所述第一消息的消息类型相同;
所述集中管理装置在所述第一报文和所述第二报文不满足报文规则的情况下,进行故障诊断。
2.根据权利要求1所述的方法,其特征在于,所述第一消息和所述第二消息为邻居发现消息,所述邻居发现消息包括认证方式、系统标识、中间系统到中间系统IS-IS等级和最大传输单元值中的至少一种;所述报文规则为内部网关协议IGP连接建立规则,所述IGP连接建立规则包括链路两端的认证方式需匹配的规则、链路两端的系统标识需不相同的规则、链路两端的IS-IS等级需匹配的规则和链路两端的最大传输单元值需相同的规则;
所述集中管理装置在所述第一报文和所述第二报文不满足报文规则的情况下,进行故障诊断之前,还包括:
若所述第一网络设备的认证方式与所述第二网络设备的认证方式不匹配,则所述集中管理装置确定所述第一报文和所述第二报文不满足报文规则;
或,若所述第一网络设备的系统标识与所述第二网络设备的系统标识相同,则所述集中管理装置确定所述第一报文和所述第二报文不满足报文规则;
或,若所述第一网络设备的IS-IS等级与所述第二网络设备的IS-IS等级不匹配,则所述集中管理装置确定所述第一报文和所述第二报文不满足报文规则;
或,若所述第一网络设备的最大传输单元值与所述第二网络设备的最大传输单元值不相同,则所述集中管理装置确定所述第一报文和所述第二报文不满足报文规则。
3.根据权利要求2所述的方法,其特征在于,所述集中管理装置进行故障诊断,包括:
所述集中管理装置确定存在无法建立所述第一网络设备与所述第二网络设备之间连接的故障;
若所述第一网络设备的认证方式与所述第二网络设备的认证方式不匹配,则所述集中管理装置确定所述故障的故障原因为所述第一网络设备的认证方式与所述第二网络设备的认证方式不匹配;
或,若所述第一网络设备的系统标识与所述第二网络设备的系统标识相同,则所述集中管理装置确定所述故障的故障原因为所述第一网络设备的系统标识与所述第二网络设备的系统标识相同;
或,若所述第一网络设备的IS-IS等级与所述第二网络设备的IS-IS等级不匹配,则所述集中管理装置确定所述故障的故障原因为所述第一网络设备的IS-IS等级与所述第二网络设备的IS-IS等级不匹配;
或,若所述第一网络设备的最大传输单元值与所述第二网络设备的最大传输单元值不相同,则所述集中管理装置确定所述故障的故障原因为所述第一网络设备的最大传输单元值与所述第二网络设备的最大传输单元值不相同。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
所述集中管理装置生成告警信息,所述告警信息用于指示存在无法建立所述第一网络设备与所述第二网络设备之间连接的故障。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:
若所述第一网络设备的最大传输单元值与所述第二网络设备的最大传输单元值不相同,且所述第一网络设备或所述第二网络设备的最大传输单元值小于最大传输单元阈值,则所述集中管理装置生成最大传输单元值调整信息,所述最大传输单元值调整信息用于通知管理员调整所述第一网络设备或所述第二网络设备的最大传输单元值。
6.根据权利要求1所述的方法,其特征在于,所述第一消息和所述第二消息为链路状态报文数据库信息,所述链路状态报文数据库信息包括至少一个链路状态报文;
所述集中管理装置在所述第一报文和所述第二报文不满足报文规则的情况下,进行故障诊断之前,还包括:
若所述第一报文所包括的至少一个链路状态报文与所述第二报文所包括的至少一个链路状态报文不一致,则所述集中管理装置确定所述第一报文和所述第二报文不满足报文规则。
7.根据权利要求6所述的方法,其特征在于,所述集中管理装置进行故障诊断,包括:
所述集中管理装置确定存在路由学习故障,所述路由学习故障为所述第一网络设备或所述第二网络设备路由学习失败;
若所述第一报文所包括的至少一个链路状态报文与所述第二报文所包括的至少一个链路状态报文不匹配,则所述集中管理装置确定所述路由学习故障的故障原因为所述第一网络设备或所述第二网络设备发送的路由前缀有误;
或,若所述第一报文所包括的至少一个链路状态报文不包括所述第二报文所包括的至少一个链路状态报文,或所述第二包括所包括的至少一个链路状态报文不包括所述第一报文所包括的至少一个链路状态报文,则所述集中管理装置确定所述路由学习故障的故障原因为所述第一网络设备或所述第二网络设备接收的链路状态报文有误。
8.根据权利要求7所述的方法,其特征在于,所述方法还包括:
所述集中管理装置生成告警信息,所述告警信息用于指示存在所述路由学习故障。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述集中管理装置通过第一监控协议会话接收来自第一网络设备的第一报文之前,还包括:
所述集中管理装置配置建立IGP监控协议会话的第一IP地址和传输控制协议TCP端口号;
所述集中管理装置通过所述TCP端口号接收来自所述第一网络设备的TCP连接建立请求,所述TCP连接建立请求包括所述第一网络设备配置的建立监控协议会话的第二IP地址;
所述集中管理装置建立所述第一监控协议会话。
10.一种故障诊断方法,其特征在于,包括:
第一网络设备根据监控协议封装消息,得到第一报文,所述消息为所述第一网络设备向第二网络设备发送的消息;
所述第一网络设备通过监控协议会话向集中管理装置发送所述第一报文,以便于所述集中管理装置根据所述第一报文和从所述第二网络设备接收的第二报文进行故障诊断。
11.根据权利要求10所述的方法,其特征在于,所述第一网络设备采用监控协议封装消息之前,还包括:
所述第一网络设备配置建立监控协议会话的第二IP地址、所述集中管理装置建立监控协议会话的第一IP地址和TCP端口号;
所述第一网络设备通过所述TCP端口号向所述集中管理装置发送TCP连接建立请求,所述TCP连接建立请求包括所述第二IP地址,所述TCP连接建立请求用于建立所述监控协议会话。
12.一种集中管理装置,其特征在于,包括:
收发单元,用于通过第一监控协议会话接收来自第一网络设备的第一报文,所述第一报文包括所述第一网络设备向第二网络设备发送的第一消息,所述第一消息包括链路状态信息;
所述收发单元,还用于通过第二监控协议会话接收来自所述第二网络设备的第二报文,所述第二报文包括所述第二网络设备向所述第一网络设备发送的第二消息,所述第二消息与所述第一消息的消息类型相同;
处理单元,用于在所述第一报文和所述第二报文不满足报文规则的情况下,进行故障诊断。
13.根据权利要求12所述的装置,其特征在于,所述第一消息和所述第二消息为邻居发现消息,所述邻居发现消息包括认证方式、系统标识、中间系统到中间系统IS-IS等级和最大传输单元值中的至少一种;所述报文规则为内部网关协议IGP连接建立规则,所述IGP连接建立规则包括链路两端的认证方式需匹配的规则、链路两端的系统标识需不相同的规则、链路两端的IS-IS等级需匹配的规则和链路两端的最大传输单元值需相同的规则;
所述处理单元,还用于若所述第一网络设备的认证方式与所述第二网络设备的认证方式不匹配,则确定所述第一报文和所述第二报文不满足报文规则;
或,所述处理单元,还用于若所述第一网络设备的系统标识与所述第二网络设备的系统标识相同,则确定所述第一报文和所述第二报文不满足报文规则;
或,所述处理单元,还用于若所述第一网络设备的IS-IS等级与所述第二网络设备的IS-IS等级不匹配,则确定所述第一报文和所述第二报文不满足报文规则;
或,所述处理单元,还用于若所述第一网络设备的最大传输单元值与所述第二网络设备的最大传输单元值不相同,则确定所述第一报文和所述第二报文不满足报文规则。
14.根据权利要求13所述的装置,其特征在于,
所述处理单元具体用于确定无法建立所述第一网络设备与所述第二网络设备之间连接的故障;
若所述第一网络设备的认证方式与所述第二网络设备的认证方式不匹配,则所述处理单元具体用于确定所述故障的故障原因为所述第一网络设备的认证方式与所述第二网络设备的认证方式不匹配;
或,若所述第一网络设备的系统标识与所述第二网络设备的系统标识相同,则所述处理单元具体用于确定所述故障的故障原因为所述第一网络设备的系统标识与所述第二网络设备的系统标识相同;
或,若所述第一网络设备的IS-IS等级与所述第二网络设备的IS-IS等级不匹配,则所述处理单元具体用于确定所述故障的故障原因为所述第一网络设备的IS-IS等级与所述第二网络设备的IS-IS等级不匹配;
或,若所述第一网络设备的最大传输单元值与所述第二网络设备的最大传输单元值不相同,则所述处理单元具体用于确定所述故障的故障原因为所述第一网络设备的最大传输单元值与所述第二网络设备的最大传输单元值不相同。
15.根据权利要求14所述的装置,其特征在于,所述处理单元,还用于生成告警信息,所述告警信息用于指示存在无法建立所述第一网络设备与所述第二网络设备之间连接的故障。
16.根据权利要求14所述的装置,其特征在于,
所述处理单元,还用于若所述第一网络设备与所述第二网络设备的最大传输单元值不满足所述IGP连接建立规则,且所述第一网络设备或所述第二网络设备的最大传输单元值小于最大传输单元阈值,则生成最大传输单元值调整信息,所述最大传输单元值调整信息用于通知管理员调整所述第一网络设备或所述第二网络设备的最大传输单元值。
17.根据权利要求12所述的装置,其特征在于,所述第一消息和所述第二消息为链路状态信息,所述链路状态报文数据库信息包括至少一个链路状态报文;
所述处理单元,还用于若所述第一报文所包括的至少一个链路状态报文与所述第二报文所包括的至少一个链路状态报文不一致,则确定所述第一报文和所述第二报文不满足报文规则。
18.根据权利要求17所述的装置,其特征在于,
所述处理单元具体用于确定存在路由学习故障,所述路由学习故障为所述第一网络设备或所述第二网络设备路由学习失败;
若所述第一报文所包括的至少一个链路状态报文与所述第二报文所包括的至少一个链路状态报文不匹配,则所述处理单元具体用于确定所述路由学习故障的故障原因为所述第一网络设备或所述第二网络设备发送的路由前缀有误;
或,若所述第一报文所包括的至少一个链路状态报文不包括所述第二报文所包括的至少一个链路状态报文,或所述第二包括所包括的至少一个链路状态报文不包括所述第一报文所包括的至少一个链路状态报文,则所述处理单元具体用于确定所述路由学习故障的故障原因为所述第一网络设备或所述第二网络设备接收的链路状态报文有误。
19.根据权利要求18所述的装置,其特征在于,所述处理单元,还用于生成告警信息,所述告警信息用于指示存在所述路由学习故障。
20.根据权利要求12-19任一项所述的装置,其特征在于,
所述处理单元,还用于配置建立监控协议会话的第一IP地址和TCP端口号;
所述收发单元,还用于通过所述TCP端口号接收来自所述第一网络设备的TCP连接建立请求,所述TCP连接建立请求包括所述第一网络设备配置的建立监控协议会话的第二IP地址;
所述处理单元,还用于建立所述第一监控协议会话。
21.一种第一网络设备,其特征在于,包括:
处理单元,用于根据监控协议封装消息,得到第一报文,所述消息为所述第一网络设备向第二网络设备发送的消息;
收发单元,用于通过监控协议会话向集中管理装置发送所述第一报文,以便于所述集中管理装置根据所述第一报文和从所述第二网络设备接收的第二报文进行故障诊断。
22.根据权利要求21所述的第一网络设备,其特征在于,
所述处理单元,还用于配置建立监控协议会话的第二IP地址、所述集中管理装置建立监控协议会话的第一IP地址和TCP端口号;
所述收发单元,还用于通过所述TCP端口号向所述集中管理装置发送TCP连接建立请求,所述TCP连接建立请求包括所述第二IP地址,所述TCP连接建立请求用于建立所述监控协议会话。
23.一种集中管理装置,其特征在于,包括处理器、收发器和存储器,其中,所述收发器用于接收和发送信息,所述存储器中存储计算机执行指令,所述处理器通过总线与所述存储器和所述收发器连接,所述处理器执行所述存储器中存储的计算机执行指令,以使所述集中管理装置执行如权利要求1-9任一项所述的方法。
24.一种第一网络设备,其特征在于,包括处理器、收发器和存储器,其中,所述收发器用于接收和发送信息,所述存储器中存储计算机执行指令,所述处理器通过总线与所述存储器和所述收发器连接,所述处理器执行所述存储器中存储的计算机执行指令,以使所述第一网络设备执行如权利要求10-11任一项所述的方法。
25.一种计算机可读存储介质,包括指令,当其在计算机上执行时,使得所述计算机执行如权利要求1至9任一项所述的方法。
26.一种计算机可读存储介质,包括指令,当其在计算机上执行时,使得所述计算机执行如权利要求10-11任一项所述的方法。
CN202111646182.6A 2018-03-09 2018-03-09 一种故障诊断方法及其装置 Pending CN114448772A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111646182.6A CN114448772A (zh) 2018-03-09 2018-03-09 一种故障诊断方法及其装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810198167.1A CN108599980B (zh) 2018-03-09 2018-03-09 一种故障诊断方法及其装置
CN202111646182.6A CN114448772A (zh) 2018-03-09 2018-03-09 一种故障诊断方法及其装置

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
CN201810198167.1A Division CN108599980B (zh) 2018-03-09 2018-03-09 一种故障诊断方法及其装置

Publications (1)

Publication Number Publication Date
CN114448772A true CN114448772A (zh) 2022-05-06

Family

ID=63625902

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111646182.6A Pending CN114448772A (zh) 2018-03-09 2018-03-09 一种故障诊断方法及其装置
CN201810198167.1A Active CN108599980B (zh) 2018-03-09 2018-03-09 一种故障诊断方法及其装置

Family Applications After (1)

Application Number Title Priority Date Filing Date
CN201810198167.1A Active CN108599980B (zh) 2018-03-09 2018-03-09 一种故障诊断方法及其装置

Country Status (4)

Country Link
US (2) US11463349B2 (zh)
EP (1) EP3754933A4 (zh)
CN (2) CN114448772A (zh)
WO (1) WO2019170085A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114448772A (zh) * 2018-03-09 2022-05-06 华为技术有限公司 一种故障诊断方法及其装置
US11374856B1 (en) * 2021-01-13 2022-06-28 Hewlett Packard Enterprise Development IP System and method for performing synchronization of maximum transmission unit with router redundancy
CN115277362A (zh) * 2022-07-06 2022-11-01 中国电信股份有限公司 故障诊断方法、装置、电子设备和计算机可读介质

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5623481A (en) * 1995-06-07 1997-04-22 Russ; Will Automated path verification for SHN-based restoration
US6173324B1 (en) * 1998-07-15 2001-01-09 At&T Corp Method and apparatus for fault detection and isolation in data
US7466661B1 (en) * 2003-09-22 2008-12-16 Cisco Technology, Inc. Method and apparatus for establishing adjacency for a restarting router during convergence
US8572234B2 (en) * 2004-11-30 2013-10-29 Hewlett-Packard Development, L.P. MPLS VPN fault management using IGP monitoring system
US20060291446A1 (en) * 2005-06-24 2006-12-28 Donald Caldwell Systems, methods, and devices for managing routing
CN101562531B (zh) * 2008-04-15 2012-08-15 中国移动通信集团公司 一种网络故障处理方法、系统及路由器
US8014275B1 (en) * 2008-12-15 2011-09-06 At&T Intellectual Property L, L.P. Devices, systems, and/or methods for monitoring IP network equipment
EP2441218B1 (en) * 2009-06-09 2013-03-27 Telefonaktiebolaget LM Ericsson (publ) A communications network and a method in a communications network
JP5533112B2 (ja) * 2010-03-24 2014-06-25 富士通株式会社 監視装置,監視方法および監視プログラム
US8885484B2 (en) * 2011-07-25 2014-11-11 Alcatel Lucent Bootstrapping fault detection sessions over a P2MP tunnel
CN102404155A (zh) * 2011-12-01 2012-04-04 华为数字技术有限公司 一种诊断网络故障的方法及装置
WO2014186986A1 (zh) * 2013-05-24 2014-11-27 华为技术有限公司 流转发方法、设备及系统
CN103442386B (zh) * 2013-08-15 2016-03-30 华为技术有限公司 一种故障检测方法及节点设备
US9479409B2 (en) * 2014-08-18 2016-10-25 Telefonaktiebolaget L M Ericsson (Publ) Passive reachability measurement for inline service chaining
US9705769B1 (en) * 2014-12-17 2017-07-11 Juniper Networks, Inc. Service latency monitoring using two way active measurement protocol
US10206170B2 (en) * 2015-02-05 2019-02-12 Apple Inc. Dynamic connection path detection and selection for wireless controllers and accessories
US9596099B2 (en) * 2015-05-06 2017-03-14 Cisco Technology, Inc. Scalable network virtualization with aggregate endpoints
US9973412B2 (en) * 2015-08-20 2018-05-15 Level 3 Communications, Llc Method and system for generating routing tables from link specific events
US10084672B2 (en) * 2015-11-10 2018-09-25 Dynatrace Llc System and method for measuring performance and availability of applications utilizing monitoring of distributed systems processes combined with analysis of the network communication between the processes
CN114448772A (zh) * 2018-03-09 2022-05-06 华为技术有限公司 一种故障诊断方法及其装置
EP3925172B1 (en) * 2019-03-15 2024-07-17 Huawei Technologies Co., Ltd. Fast flooding topology protection

Also Published As

Publication number Publication date
US20200403908A1 (en) 2020-12-24
EP3754933A1 (en) 2020-12-23
EP3754933A4 (en) 2021-04-21
CN108599980A (zh) 2018-09-28
CN108599980B (zh) 2022-01-07
WO2019170085A1 (zh) 2019-09-12
US11463349B2 (en) 2022-10-04
US20230010837A1 (en) 2023-01-12

Similar Documents

Publication Publication Date Title
JP4840236B2 (ja) ネットワークシステム及びノード装置
US11563641B1 (en) Shifting network traffic from a network device
US20170111231A1 (en) System and method for communication
EP3082309B1 (en) Sdn controller, data centre system and router connection method
US8259593B2 (en) Apparatus and method for segmenting a communication network
US20230010837A1 (en) Fault diagnosis method and apparatus thereof
WO2017089933A1 (en) A method and apparatus for autonomously relaying statistics to a network controller in a software-defined networking network
EP3142303A1 (en) Network control method and apparatus
US11290394B2 (en) Traffic control in hybrid networks containing both software defined networking domains and non-SDN IP domains
CN112187649A (zh) 一种报文转发方法、报文处理方法及装置
CN108737183B (zh) 一种转发表项的监测方法及装置
CN105472486A (zh) 一种pon接入系统防止路由环路的处理方法
WO2022194023A1 (zh) 报文处理的方法、网络设备及控制器
WO2022121707A1 (zh) 报文传输方法、设备及系统
US6931441B1 (en) Method and apparatus for managing a network using link state information
US20070230458A1 (en) Communication Network, Communication Apparatus, Communication Control Method and Communication Control Program
US9571346B2 (en) Fault tolerant communication system, method, and device that uses tree searching
CN105637806A (zh) 网络拓扑确定方法和装置、集中式网络状态信息存储设备
CN101102231B (zh) 一种ppp链路路由设备的自动发现方法和装置
US8934492B1 (en) Network systems and methods for efficiently dropping packets carried by virtual circuits
KR20160072718A (ko) 소프트웨어 정의 네트워크에서 인접 네트워크 장비 발견 시스템 및 방법
CN109995657B (zh) 一种流量转发的方法及装置
WO2021224931A1 (en) System and a method to efficiently exchange echo and stats messages between sdn controller and the open vswitches
CN110071874B (zh) 一种跨域sdn网络中实现拓扑发现链接的方法和系统
JP2008060961A (ja) 動的トラフィック振り分け装置、その方法およびそのプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination