CN117376182A - 一种网络故障诊断方法和相关设备 - Google Patents
一种网络故障诊断方法和相关设备 Download PDFInfo
- Publication number
- CN117376182A CN117376182A CN202210752944.9A CN202210752944A CN117376182A CN 117376182 A CN117376182 A CN 117376182A CN 202210752944 A CN202210752944 A CN 202210752944A CN 117376182 A CN117376182 A CN 117376182A
- Authority
- CN
- China
- Prior art keywords
- sla
- path
- backup
- equipment
- response message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000003745 diagnosis Methods 0.000 title claims abstract description 30
- 230000004044 response Effects 0.000 claims abstract description 83
- 238000001514 detection method Methods 0.000 claims abstract description 74
- 230000002159 abnormal effect Effects 0.000 claims description 47
- 239000000523 sample Substances 0.000 claims description 45
- 238000004891 communication Methods 0.000 claims description 26
- 230000015654 memory Effects 0.000 claims description 24
- 238000012545 processing Methods 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 6
- 208000033748 Device issues Diseases 0.000 claims description 3
- 238000005259 measurement Methods 0.000 description 23
- 230000005540 biological transmission Effects 0.000 description 8
- 230000006870 function Effects 0.000 description 7
- 238000012544 monitoring process Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000011022 operating instruction Methods 0.000 description 3
- 235000008694 Humulus lupulus Nutrition 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000008901 benefit Effects 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 238000000691 measurement method Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 210000004556 brain Anatomy 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000003012 network analysis Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/06—Generation of reports
- H04L43/065—Generation of reports related to network devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/10—Active monitoring, e.g. heartbeat, ping or trace-route
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/12—Network monitoring probes
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/50—Testing arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Cardiology (AREA)
- General Health & Medical Sciences (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请实施例公开了一种网络故障诊断方法和相关设备,用于诊断用户网络到云服务提供商之间的运营商网络故障。本申请中,第一SLA设备首先通过第一ISP向目标设备发送backup探测报文,backup探测报文为进行自治域AS加跳后的SLA探测报文,第一SLA设备属于云服务商的第一存在点POP,目标设备属于AS。然后,第一SLA设备接收第二SLA设备通过云服务商的骨干网发送的backup响应报文,第二SLA属于云服务商的第二POP,backup响应报文为backup探测报文的响应,第一SLA设备基于backup响应报文对第一ISP进行链路故障诊断,从而可以确定出云路径是否存在故障,实现精细化的故障诊断。
Description
技术领域
本申请涉及数据通信领域,尤其涉及一种网络故障诊断方法和相关设备。
背景技术
云服务一般部署在云数据中心内,用户通过运营商的网络接入并访问云数据中心部署的云服务。运营商网络经常会因为人为变更、设备故障等原因导致网络拥塞,或者由于施工、自然灾害导致的线路中断。当网络故障发生时,经常会导致用户的业务受损,例如无法访问,用户的连接大量掉线等。
对于云服务提供商来说,运营商的网络是一个黑盒,无法对其进行控制。业界传统的做法就是通过对运营商网络进行广泛的拨测监控来感知故障,并通过路由控制的方式来绕开故障点,从而减轻故障造成的影响。拨测监控是通过对运营商网络中的可探测目标主动发送探测报文,并根据探测报文的响应情况来计算网络的时延和丢包率等测量指标,从而感知网络是否发生了故障。
传统的原因拨测监控的测量工具都是构造测量报文并发送给测量目标,然后测量目标对其进行响应,测量端根据报文发送时刻到接收到响应来计算其往返时延(round-trip time,RTT),根据收到响应包的数量来计算丢包率。这种测量方法的优点是不需要测量目标做额外的支持,在测量目标侧的操作系统传输控制协议/网际协议(transmissioncontrol protocol/internet protocol,TCP/IP)协议栈都是默认支持。
但是,由于路由都是单向的,因此当故障发生的时候有可能是用户到云服务商的数据中心这个方向(后续称入云)发生了故障,也有可能是从云服务商的数据中心到用户侧(后续称出云)发生了故障。上述方法仅在整个往返路径上测量时延、丢包率指标,因此无法区分出单个方向的网络性能。
发明内容
本申请实施例提供了一种网络故障诊断方法和相关设备,用于诊断用户网络到云服务提供商之间的运营商网络故障。
本申请第一方面提供了一种网络故障诊断方法,包括:
第一SLA设备首先通过第一ISP向目标设备发送backup探测报文,backup探测报文为进行自治域AS加跳后的SLA探测报文,第一SLA设备属于云服务商的第一存在点POP,目标设备属于AS。然后,第一SLA设备接收第二SLA设备通过云服务商的骨干网发送的backup响应报文,第二SLA属于云服务商的第二POP,backup响应报文为backup探测报文的响应,第一SLA设备基于backup响应报文对第一ISP进行链路故障诊断,从而可以确定出云路径是否存在故障,实现精细化的故障诊断。
在一些可行的实现方式中,所述第一SLA设备通过所述第一ISP向所述目标设备发送SLA探测报文,然后接收所述目标设备通过所述第一ISP发送的SLA响应报文,从而确定入云路径和出云路径中至少一个路径是否存在故障,若存在故障,则可以结合第一方面提供的方法进一步确定是入云路径和出云路径中哪个出现故障,实现精细化的故障诊断。
在一些可行的实现方式中,所述第一SLA设备基于所述SLA响应报文确定第一路径是否出现异常,所述第一路径为所述SLA探测报文和所述SLA响应报文所经过的路径;所述第一SLA设备基于所述SLA响应报文确定第二路径是否出现异常,所述第二路径为所述backup探测报文和所述backup响应报文所经过的路径;若所述第一路径出现异常,且所述第二路径未出现异常,则所述第一SLA设备确定从所述SLA设备到所述目标设备的入云路径发生故障;若所述第一路径出现异常,且所述第二路径出现异常,且所述第一路径和所述第二路径的丢包率一致,则所述第一SLA设备确定从所述目标设备到所述SLA设备的出云路径发生故障;若所述第一路径出现异常,且所述第二路径出现异常,且所述第一路径和所述第二路径的丢包率不一致,则所述第一SLA设备确定所述入云路径和所述出云路径均发生故障。从而实现了对入云路径和出云路径的精细化诊断。
在一些可行的实现方式中,所述backup探测报文的AS PATH列表包括一个或多个伪AS编号,从而实现AS加跳,使得backup探测报文可以发送到第二POP的第二SLA设备。
在一些可行的实现方式中,所述SLA探测报文的源IP地址为第一IP地址,所述backup探测报文的源IP地址的第二IP地址,所述第一SLA设备分别发布了所述第一IP地址和所述第二IP地址,使得backup探测报文可以发送到第二POP的第二SLA设备。
本申请第二方面提供了一种网络故障诊断方法,第二SLA设备接收目标设备通过第二ISP发送的backup探测报文,所述第二SLA设备属于云服务商的第二POP,所述目标设备属于AS,然后向第一SLA设备发送backup响应报文,所述第一SLA设备属于云服务商的第一存在点POP,从而可以使得第一SLA设备确定出云路径是否存在故障,实现精细化的故障诊断。
第三方面,本申请提供一种SLA设备,所述SLA设备用于执行前述第一方面中任一项所述的方法。
第四方面,本申请提供一种SLA设备,所述SLA设备用于执行前述第二方面中任一项所述的方法。
第五方面,本申请提供一种通信系统,包括:第一SLA设备和第二SLA设备,其中,所述第一SLA设备用于执行前述第一方面中所述SLA设备执行的任意一种方法;所述第二SLA设备用于执行前述第二方面中所述SLA设备执行的任意一种方法。
第六方面,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面中任一项所述的方法。
第七方面提供一种计算机程序产品,该计算机程序产品包括计算机执行指令,该计算机执行指令存储在计算机可读存储介质中;设备的至少一个处理器可以从计算机可读存储介质读取该计算机执行指令,至少一个处理器执行该计算机执行指令使得设备实施上述第一方面或者第二方面的任一种可能的实现方式所提供的方法。
本申请第八方面提供一种通信装置,该通信装置可以包括至少一个处理器、存储器和通信接口。至少一个处理器与存储器和通信接口耦合。存储器用于存储指令,至少一个处理器用于执行该指令,通信接口用于在至少一个处理器的控制下与其他通信装置进行通信。该指令在被至少一个处理器执行时,使至少一个处理器执行第一方面或第二方面的任意可能的实现方式中的方法。
本申请第九方面提供了一种芯片系统,该芯片系统包括处理器,用于支持实现上述第一方面或第二方面任意一种可能的实现方式中所涉及的功能。
在一种可能的设计中,芯片系统还可以包括存储器,存储器,用于保存必要的程序指令和数据。该芯片系统,可以由芯片构成,也可以包含芯片和其他分立器件。
其中,第三至第九方面或者其中任一种可能实现方式所带来的技术效果可参见第一方面或第二方面不同可能实现方式所带来的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种通信系统的组成结构示意图;
图2-1为本申请实施例提供的一种网络故障诊断方法的流程示意图;
图2-2为本申请实施例提供的一种网络故障诊断方法的流程示意图;
图2-3为本申请实施例提供的判定网络故障方法的流程示意图;
图3为本申请实施例提供的一种SLA设备的结构示意图;
图4为本申请实施例提供的一种SLA设备的结构示意图;
图5为本申请实施例提供的一种通信装置的结构示意图。
具体实施方式
本申请实施例提供了一种网络故障诊断方法和相关设备,用诊断用户网络到云服务提供商之间的运营商网络故障。
下面结合附图,对本申请的实施例进行描述。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的术语在适当情况下可以互换,这仅仅是描述本申请的实施例中对相同属性的对象在描述时所采用的区分方式。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,以便包含一系列单元的过程、方法、系统、产品或设备不必限于那些单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它单元。
请参阅图1所示,为本申请实施例可应用于一种通信系统100,包括:自治域系统(autonomous system,AS)110、第一网络业务提供商(internet service provider,ISP)121、第二ISP122、云服务商的第一存在点(point of presence,POP)131、第二存在点132、云服务商的骨干网(backbone)140和云服务控制器150。
AS 110可以包括至少一个路由器以及与路由器连接的一个或多个用户设备,其中,路由器和连接该路由器的一个或多个用户设备可以构成一个局域网。AS 110可以是一个简单的网络,例如由一个路由器直接连接到一个局域网上,同时也连到网络上,还可以是一个由企业骨干网互连的多个局域网。AS 110中的所有路由器相互连接,运行相同的路由协议,同时分配同一个AS编号。而不同AS的路由器之间的连接需要使用外部路由协议,例如边界网关协议(border gateway protocol,BGP)。
第一ISP 121/第一ISP 122属于营运商,连接AS 110,向AS 110提供互联网接入业务、信息业务和增值业务。第一ISP 121/第一ISP 122包括多个网络设备,用于连接AS 110和第一POP 131/第二POP 132,为AS 110和第一POP 131/第二POP 132之间提供传输数据所需的路径。其中,第一ISP 121/第一ISP 122中的网络设备可以是交换机或路由器(router)等在通信网络中用于转发业务报文的设备,其中,路由器是连接两个或多个通信网络的硬件设备,在通信网络间起网关的作用,路由器是能够读取业务报文中的目的地址并决定如何根据该目的地址传送该业务报文的专用智能性的网络设备;路由器能够理解不同的协议,例如某个局域网使用的以太网协议,因特网使用的传输控制协议/互联协议(transmission control protocol/internet protocol,TCP/IP)协议等,这样路由器可以分析各种不同类型网络传来的业务报文的目的地址,把非TCP/IP地址转换成TCP/IP地址,或者反之;再根据选定的路由算法把各个业务报文按最佳传输路径传送到目的地址,所以路由器可以把非TCP/IP网络连接到因特网上。
第一POP 131/第二POP 132为云服务提供商的网络接入点。其中,第一POP 131包括第一对等路由器(peering router,PR)和第一服务等级协议(service-levelagreement,SLA)设备,第二POP 132包括第二PR和第二SLA设备。其中,第一PR/第二PR为与运营商对接的路由器设备,与运营商对端的对等设备建立边界网关协议(border gatewayprotocol,BGP)邻居来交互路由。如图1所示,该第一POP 131中具有第一PR,该第一POP 131中具有第二PR。在一些可行的实现方式中,一个POP中可以有2个PR,提供流量的负载分担和可靠性。第一SLA设备/第二SLA设备是一台专门部署的物理服务器设备,第一SLA设备与第一PR相连,第二SLA设备与第二PR相连,第一PR/第二PR具有专门的公网地址,其功能是产生并发送探测报文。骨干网140是云服务提供商自建的高质量骨干网络,用于连接第一POP131/第二POP 132。
其中,云服务控制器150是未来云化网络的大脑,融合了网络管理、业务控制和网络分析等功能,是实现网络资源池化、网络连接自动化和自优化以及运维自动化的核心使能系统。该云服务控制器150可以是部署在服务器中的功能模块,或者是一台服务器,或者由若干台服务器组成的服务器集群,或者是一个云计算服务中心,本申请实施例对此不做限定。其中,服务器也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求并进行处理,提供可靠的服务,因此一般来说服务器应具备承担服务并且保障服务的能力,该服务器需要具备较强的处理能力、高稳定性、高可靠性、高安全性、可扩展性以及可管理性。在本申请实施例中,所述服务器可以是x86服务器,x86服务器又称复杂指令集(complexinstruction set computer,CISC)架构服务器,即通常所讲的个人计算机(personalcomputer,PC)服务器,它是基于PC机体系结构,使用英特尔(intel)或其它兼容x86指令集的处理器芯片和windows操作系统的服务器。
云服务一般部署在云数据中心内,用户通过运营商的网络接入并访问云数据中心部署的云服务。运营商网络经常会因为人为变更、设备故障等原因导致网络拥塞,或者由于施工、自然灾害导致的线路中断。当网络故障发生时,经常会导致用户的业务受损,例如无法访问,用户的连接大量掉线等。
对于云服务提供商来说,运营商的网络是一个黑盒,无法对其进行控制。业界传统的做法就是通过对运营商网络进行广泛的拨测监控来感知故障,并通过路由控制的方式来绕开故障点,从而减轻故障造成的影响。拨测监控是通过对运营商网络中的可探测目标主动发送探测报文,并根据探测报文的响应情况来计算网络的时延和丢包率等测量指标,从而感知网络是否发生了故障。
传统的原因拨测监控的测量工具都是构造测量报文并发送给测量目标,然后测量目标对其进行响应,测量端根据报文发送时刻到接收到响应来计算其RTT,根据收到响应包的数量来计算丢包率。这种测量方法的优点是不需要测量目标做额外的支持,在测量目标侧的TCP/IP协议栈都是默认支持。
但是,由于路由都是单向的,因此当故障发生的时候有可能是用户到云服务商的数据中心这个方向(后续称入云)发生了故障,也有可能是从云服务商的数据中心到用户侧(后续称出云)发生了故障。上述方法仅在整个往返路径上测量时延、丢包率指标,因此无法区分出单个方向的网络性能。
在本申请中,第一SLA设备首先通过第一ISP向目标设备发送backup探测报文,backup探测报文为进行自治域AS加跳后的SLA探测报文,第一SLA设备属于云服务商的第一存在点POP,目标设备属于AS。然后,第一SLA设备接收第二SLA设备通过云服务商的骨干网发送的backup响应报文,第二SLA属于云服务商的第二POP,backup响应报文为backup探测报文的响应,第一SLA设备基于backup响应报文对第一ISP进行链路故障诊断,从而可以确定出云路径是否存在故障,实现精细化的故障诊断。
前述实施例介绍了本申请提供给的通信系统,接下来介绍基于该通信系统执行的网络故障诊断方法,请参阅图2-1所示,本申请实施例提供的一种网络故障诊断方法主要包括如下步骤:
201、第一SLA设备通过第一ISP向目标设备发送SLA探测报文,目标设备属于AS。
需要说明的是,服务级别协议(service level agreement,SLA)是指提供服务的企业与客户之间就服务的品质、水准、性能等方面所达成的双方共同认可的协议或契约。在本申请实施例中,SLA探测报文用于检测第一ISP的SLA质量。
在本申请实施例中,SLA探测报文以AS中的路由器或用户设备的IP地址为目的IP地址,以第一SLA设备的IP地址为源IP地址,第一SLA设备通过第一POP中的第一PR向第一ISP发送,第一ISP中的网络设备则基于SLA探测报文中的目的IP地址转发。示例性的,SLA探测报文的源IP地址为IP1,所属的网段为Prefix1,Prefix1为第一SLA通过第一PR发布的。
需要说明的是,SLA探测报文用于探测出云路径的链路质量,出云路径即为从云服务商到AS的路径。若第一SLA设备到AS的出云路径没有异常,则AS可以顺利及时接收到SLA探测报文;反之,若第一SLA设备到AS的出云路径存在异常,则可能会出现SLA探测报文的时延过大、丢包等问题。需要说明的是,AS中路由器可以接收SLA探测报文,并基于目的IP地址将SLA探测报文转发给AS中的用户设备。
需要说明的是,SLA探测报文的数据格式可以符合因特网控制报文协议(internetcontrol message protocol,ICMP)等标准的传输控制协议/网际协议(transmissioncontrol protocol/internet protocol,TCP/IP)协议。
202、目标设备通过第一ISP向第一SLA设备发送SLA响应报文。
在本申请实施例中,当AS中作为目的IP地址对应的路由器或用户设备接收到SLA探测报文后,可以基于标准的TCP/IP协议进行响应,向第一SLA设备返回与SLA探测报文对应的SLA响应报文。需要说明的是,AS的路由器基于SLA探测报文中的源IP地址作为SLA响应报文的目的IP地址。示例性的,SLA探测报文的源IP地址为IP1,所属的网段为Prefix1,则SLA响应报文的目的IP地址为IP1,所属的网段为Prefix1。
需要说明的是,AS通过第一ISP向第一SLA设备发送的SLA响应报文相当于探测入云路径的链路质量,入云路径即从AS到云服务商的路径。若AS到第一SLA设备的入云路径没有异常,则第一SLA设备可以顺利及时接收到SLA响应报文。
203、第一SLA设备通过第一ISP向目标设备发送backup探测报文。
在本申请实施例中,第二POP的第二PR同样发布的所属网段为Prefix2,并让第一POP的第一PR可以发布所属网段为Prefix2。接着,基于接收到的SLA响应报文获知其ASPATH列表,可以确定从AS到第一POP的AS跳数。然后,为了让AS接收到backup探测报文后,可以确定AS跳数更短的路径2,可以在第一SLA设备为SLA探测报文进行AS加跳,得到候补backup探测报文。需要说明的是,为SLA探测报文进行AS加跳的方法可以为在SLA探测报文的AS PATH列表中填入若干个(如上述例子,可以填入3个或以上)伪AS编号,以使得第一POP发送backup探测报文时,backup探测报文的AS PATH列表就有若干个AS编号。
在本申请实施例中,backup探测报文以AS中的路由器或用户设备的IP地址为目的IP地址,以第一SLA设备的IP地址为源IP地址,第一SLA设备通过第一POP中的至少一个PR向第一ISP发送,第一ISP中的网络设备则基于backup探测报文中的目的IP地址转发。示例性的,backup探测报文的源IP地址为IP2,所属的网段为Prefix2,Prefix2为第一SLA通过第一POP中的PR发布的。
需要说明的是,第一SLA设备通过第一ISP向AS中的路由器或用户设备发送的backup探测报文,用于探测出云路径的链路质量,即从云服务商到AS的链路质量。若出云路径没有异常,则AS可以顺利及时接收到backup探测报文;反之,若出云路径存在异常,则可能会出现backup探测报文的时延过大、丢包等情况。需要说明的是,AS可以通过路由器接收SLA探测报文,并转发给AS中的用户设备。
需要说明的是,backup探测报文的数据格式可以符合因特网控制报文协议(internet control message protocol,ICMP)等标准的传输控制协议/网际协议(transmission control protocol/internet protocol,TCP/IP)协议。
204、目标设备通过第二ISP向第二SLA设备返回backup响应报文。
在本申请实施例中,当AS中作为目的IP地址对应的路由器或的用户设备接收到backup探测报文后,可以基于标准的TCP/IP协议进行响应,即发送backup响应报文。需要说明的是,AS的路由器基于backup探测报文中的源IP地址作为backup响应报文的目的IP地址。示例性的,backup探测报文的源IP地址为IP2,所属的网段为Prefix2,则backup响应报文的目的IP地址为IP2,所属的网段为Prefix2。
然后,由于第一POP的第一PR和第二POP的第二PR均发布了Prefix2,AS的路由器基于目的IP地址对应的Prefix2可以确定第一POP和第二POP。但是,由于backup探测报文进行了AS加跳,使得来自第一POP的backup探测报文中的AS PATH列表较长,第二POP的AS PATH列表较短,那么AS中的路由器会选择AS PATH列表较短的第二POP作为backup响应报文的目的地。那么,AS中的用户设备通过路由器、第二ISP向第二SLA设备发送与backup探测报文对应的backup响应报文。
205、第二SLA设备通过骨干网向第一SLA设备转发该backup响应报文。
在本申请实施例中,当第二SLA设备接收到backup响应报文后,可以通过骨干网向第一POP转发该backup响应报文。需要说明的是,第二SLA设备通过骨干网向第一SLA设备转发的backup响应报文时,可以对backup响应报文为负载(payload)进行封装,再通过骨干网发送给第一SLA设备,使得第一SLA可以获取backup响应报文中的源IP地址和目的IP地址。
示例性的,如图2-2所示,第一POP为华东region,第二POP为华南region,AS为广西用户。那么,华东region通过第一ISP的出云路径向广西用户发送SLA探测报文,然后广西用户基于SLA探测报文,通过第一ISP的向华东region返回SLA响应报文。另外,华东region通过第一ISP的出云路径向广西用户发送AS加跳后的backup探测报文,然后广西用户基于backup探测报文确定华东region和华南region,基于AS PATH列表确定华南region,并通过第二ISP的向华南region返回SLA响应报文。最后,华南region通过骨干网向华东region发送SLA响应报文。
206、第一SLA设备基于SLA响应报文和backup响应报文对第一ISP进行链路故障诊断。
在一些可行的实现方式中,把上述步骤201-202中SLA探测报文的出云路径和SLA响应报文的入云路径合称为路径1。需要说明的是,SLA探测报文用于主探测任务,当SLA探测报文发现路径1出现异常,就会进入链路故障诊断的流程。示例性的,当路径1(SLA探测报文)出现异常时,首先判断路径2(Backup探测报文)是否也出现异常。如果路径1出现异常,说明入云路径或出云路径至少有一个存在问题。
示例性的,判断流程可以如图2-3所示,如果路径1出现异常的情况下,路径2未出现异常,由于入云路径属于路径1而不属于路径2,则可以推理得到入云路径存在故障;如果路径1出现异常的情况下,路径2也出现异常,且丢包率一致,由于出云路径是路径1和路径2的共同路径,即可推理得到出云路径存在故障;如果路径1出现异常的情况下,路径2也出现异常,且丢包率不一致,由于出云路径是路径1和路径2的共同路径,即可推导得到出云路径存在故障,由于入云路径属于路径1而不属于路径2,基于二者丢包率不一致,可推导得到入云路径也存在故障。
若路径1存在异常,例如第一SLA接收到SLA响应报文时,进行检测,发送时延过大、丢包率过高等,即出云路径和/或入云路径存在异常。那么,第一SLA设备可以继续执行下述步骤203-205。在一些可行的实现方式中,也可以无需预先进行检测,而是直接执行下述步骤203-205,此处不做限定。
在一些可行的实现方式中,第一SLA设备也可以对SLA响应报文和backup响应报文进行统计,将统计结果发送给控制器,让控制器对第一ISP进行链路故障诊断,此处不做限定。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
为便于更好的实施本申请实施例的上述方案,下面还提供用于实施上述方案的相关装置。
请参阅图3所示,本申请实施例提供的一种SLA设备300,可以包括:收发模块301和处理模块302,其中,
收发模块301,用于通过第一网络业务提供商ISP向目标设备发送backup探测报文,所述backup探测报文为进行AS加跳后的SLA探测报文,所述第一SLA设备属于云服务商的第一POP,所述目标设备属于AS;
所述收发模块301,还用于接收第二SLA设备通过云服务商的骨干网发送的backup响应报文,所述第二SLA属于所述云服务商的第二POP,所述backup响应报文为所述backup探测报文的响应;
处理模块302,用于基于所述backup响应报文对所述第一ISP进行链路故障诊断。
在一些可行的实现方式中,所述收发模块301,还用于通过所述第一ISP向所述目标设备发送SLA探测报文;所述收发模块301,还用于接收所述目标设备通过所述第一ISP发送的SLA响应报文。
在一些可行的实现方式中,所述处理模块302,具体用于:
基于所述SLA响应报文确定第一路径是否出现异常,所述第一路径为所述SLA探测报文和所述SLA响应报文所经过的路径;
基于所述SLA响应报文确定第二路径是否出现异常,所述第二路径为所述backup探测报文和所述backup响应报文所经过的路径;
若所述第一路径出现异常,且所述第二路径未出现异常,则确定从所述SLA设备到所述目标设备的入云路径发生故障;
若所述第一路径出现异常,且所述第二路径出现异常,且所述第一路径和所述第二路径的丢包率一致,则确定从所述目标设备到所述SLA设备的出云路径发生故障;
若所述第一路径出现异常,且所述第二路径出现异常,且所述第一路径和所述第二路径的丢包率不一致,则确定所述入云路径和所述出云路径均发生故障。
在一些可行的实现方式中,所述backup探测报文的AS PATH列表包括一个或多个伪AS编号。
在一些可行的实现方式中,所述SLA探测报文的源IP地址为第一IP地址,所述backup探测报文的源IP地址的第二IP地址,所述第一SLA设备分别发布了所述第一IP地址和所述第二IP地址。
请参阅图4所示,本申请实施例提供的一种SLA设备400,可以包括:收发模块401,用于接收目标设备通过第二ISP发送的backup探测报文,所述第二SLA设备属于云服务商的第二POP,所述目标设备属于AS,并向第一SLA设备发送backup响应报文,所述第一SLA设备属于云服务商的第一存在点POP。
需要说明的是,上述装置各模块/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其带来的技术效果与本申请方法实施例相同,具体内容可参见本申请前述所示的方法实施例中的叙述,此处不再赘述。
本申请实施例还提供一种计算机存储介质,其中,该计算机存储介质存储有程序,该程序执行包括上述方法实施例中记载的部分或全部步骤。
接下来介绍本申请实施例提供的另一种通信装置,请参阅图5所示,通信装置500包括:
接收器501、发射器502、处理器503和存储器504。在本申请的一些实施例中,接收器501、发射器502、处理器503和存储器504可通过总线或其它方式连接,其中,图5中以通过总线连接为例。
存储器504可以包括只读存储器和随机存取存储器,并向处理器503提供指令和数据。存储器504的一部分还可以包括非易失性随机存取存储器(non-volatile randomaccess memory,NVRAM)。存储器504存储有操作系统和操作指令、可执行模块或者数据结构,或者它们的子集,或者它们的扩展集,其中,操作指令可包括各种操作指令,用于实现各种操作。操作系统可包括各种系统程序,用于实现各种基础业务以及处理基于硬件的任务。
处理器503控制网络装置的操作,处理器503还可以称为中央处理单元(centralprocessing unit,CPU)。具体的应用中,网络装置的各个组件通过总线系统耦合在一起,其中总线系统除包括数据总线之外,还可以包括电源总线、控制总线和状态信号总线等。但是为了清楚说明起见,在图中将各种总线都称为总线系统。
上述本申请实施例揭示的方法可以应用于处理器503中,或者由处理器503实现。处理器503可以是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器503中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器503可以是通用处理器、数字信号处理器(digital signal processing,DSP)、专用集成电路(application specific integrated circuit,ASIC)、现场可编程门阵列(field-programmable gate array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器504,处理器503读取存储器504中的信息,结合其硬件完成上述方法的步骤。
接收器501可用于接收输入的数字或字符信息,以及产生相关设置以及功能控制有关的信号输入,发射器502可包括显示屏等显示设备,发射器502可用于通过外接接口输出数字或字符信息。
本申请实施例中,处理器503,用于执行前述网络设备执行的网络故障诊断方法。
在另一种可能的设计中,当网络装置为芯片时,包括:处理单元和通信单元,所述处理单元例如可以是处理器,所述通信单元例如可以是输入/输出接口、管脚或电路等。该处理单元可执行存储单元存储的计算机执行指令,以使该终端内的芯片执行上述第一方面任意一项的无线报告信息的发送方法。可选地,所述存储单元为所述芯片内的存储单元,如寄存器、缓存等,所述存储单元还可以是所述终端内的位于所述芯片外部的存储单元,如只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)等。
其中,上述任一处提到的处理器,可以是一个通用中央处理器,微处理器,ASIC,或一个或多个用于控制上述方法的程序执行的集成电路。
另外需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本申请提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。
通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本申请可借助软件加必需的通用硬件的方式来实现,当然也可以通过专用硬件包括专用集成电路、专用CPU、专用存储器、专用元器件等来实现。一般情况下,凡由计算机程序完成的功能都可以很容易地用相应的硬件来实现,而且,用来实现同一功能的具体硬件结构也可以是多种多样的,例如模拟电路、数字电路或专用电路等。但是,对本申请而言更多情况下软件程序实现是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘、U盘、移动硬盘、ROM、RAM、磁碟或者光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述的方法。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。
所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘(Solid State Disk,SSD))等。
Claims (17)
1.一种网络故障诊断方法,其特征在于,包括:
第一服务等级协议SLA设备通过第一网络业务提供商ISP向目标设备发送候补backup探测报文,所述backup探测报文为进行自治域AS加跳后的SLA探测报文,所述第一SLA设备属于云服务商的第一存在点POP,所述目标设备属于AS;
所述第一SLA设备接收第二SLA设备通过云服务商的骨干网发送的backup响应报文,所述第二SLA属于所述云服务商的第二POP,所述backup响应报文为所述backup探测报文的响应;
所述第一SLA设备基于所述backup响应报文对所述第一ISP进行链路故障诊断。
2.根据权利要求1所述方法,其特征在于,所述第一SLA设备通过第一ISP向目标设备发送backup探测报文之前,还包括:
所述第一SLA设备通过所述第一ISP向所述目标设备发送SLA探测报文;
所述第一SLA设备接收所述目标设备通过所述第一ISP发送的SLA响应报文。
3.根据权利要求2所述方法,其特征在于,所述第一SLA设备基于所述backup响应报文对所述第一ISP进行链路故障诊断,包括:
所述第一SLA设备基于所述SLA响应报文确定第一路径是否出现异常,所述第一路径为所述SLA探测报文和所述SLA响应报文所经过的路径;
所述第一SLA设备基于所述SLA响应报文确定第二路径是否出现异常,所述第二路径为所述backup探测报文和所述backup响应报文所经过的路径;
若所述第一路径出现异常,且所述第二路径未出现异常,则所述第一SLA设备确定从所述SLA设备到所述目标设备的入云路径发生故障;
若所述第一路径出现异常,且所述第二路径出现异常,且所述第一路径和所述第二路径的丢包率一致,则所述第一SLA设备确定从所述目标设备到所述SLA设备的出云路径发生故障;
若所述第一路径出现异常,且所述第二路径出现异常,且所述第一路径和所述第二路径的丢包率不一致,则所述第一SLA设备确定所述入云路径和所述出云路径均发生故障。
4.根据权利要求1-3中任一项所述方法,其特征在于,所述backup探测报文的AS PATH列表包括一个或多个伪AS编号。
5.根据权利要求1-4中任一项所述方法,其特征在于,所述SLA探测报文的源IP地址为第一IP地址,所述backup探测报文的源IP地址的第二IP地址,所述第一SLA设备分别发布了所述第一IP地址和所述第二IP地址。
6.一种网络故障诊断方法,其特征在于,包括:
第二SLA设备接收目标设备通过第二ISP发送的backup探测报文,所述第二SLA设备属于云服务商的第二POP,所述目标设备属于AS;
所述第二SLA设备向第一SLA设备发送backup响应报文,所述第一SLA设备属于云服务商的第一存在点POP。
7.一种服务等级协议SLA设备,其特征在于,作为第一SLA设备,包括:
收发模块,用于通过第一网络业务提供商ISP向目标设备发送候补backup探测报文,所述backup探测报文为进行AS加跳后的SLA探测报文,所述第一SLA设备属于云服务商的第一存在点POP,所述目标设备属于自治域AS;
所述收发模块,还用于接收第二SLA设备通过云服务商的骨干网发送的backup响应报文,所述第二SLA属于所述云服务商的第二POP,所述backup响应报文为所述backup探测报文的响应;
处理模块,用于基于所述backup响应报文对所述第一ISP进行链路故障诊断。
8.根据权利要求7所述SLA设备,其特征在于,
所述收发模块,还用于通过所述第一ISP向所述目标设备发送SLA探测报文;
所述收发模块,还用于接收所述目标设备通过所述第一ISP发送的SLA响应报文。
9.根据权利要求8所述SLA设备,其特征在于,所述处理模块,具体用于:
基于所述SLA响应报文确定第一路径是否出现异常,所述第一路径为所述SLA探测报文和所述SLA响应报文所经过的路径;
基于所述SLA响应报文确定第二路径是否出现异常,所述第二路径为所述backup探测报文和所述backup响应报文所经过的路径;
若所述第一路径出现异常,且所述第二路径未出现异常,则确定从所述SLA设备到所述目标设备的入云路径发生故障;
若所述第一路径出现异常,且所述第二路径出现异常,且所述第一路径和所述第二路径的丢包率一致,则确定从所述目标设备到所述SLA设备的出云路径发生故障;
若所述第一路径出现异常,且所述第二路径出现异常,且所述第一路径和所述第二路径的丢包率不一致,则确定所述入云路径和所述出云路径均发生故障。
10.根据权利要求7-9中任一项所述SLA设备,其特征在于,所述backup探测报文的ASPATH列表包括一个或多个伪AS编号。
11.根据权利要求7-10中任一项所述SLA设备,其特征在于,所述SLA探测报文的源IP地址为第一IP地址,所述backup探测报文的源IP地址的第二IP地址,所述第一SLA设备分别发布了所述第一IP地址和所述第二IP地址。
12.一种SLA设备,其特征在于,作为第二SLA设备,包括:
收发模块,用于接收目标设备通过第二ISP发送的backup探测报文,所述第二SLA设备属于云服务商的第二POP,所述目标设备属于AS;
所述收发模块,还用于向第一SLA设备发送backup响应报文,所述第一SLA设备属于云服务商的第一存在点POP。
13.一种通信系统,其特征在于,包括:第一SLA设备和第二SLA设备,其中,
所述第一SLA设备用于执行前述权利要求1-5中任一项所述的方法;
所述第二SLA设备用于执行前述权利要求6所述的方法。
14.一种计算机可读存储介质,其特征在于,该计算机可读存储介质存储有程序,所述程序使得计算机设备执行如权利要求1-6中任一项所述的方法。
15.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机执行指令,所述计算机执行指令存储在计算机可读存储介质中;设备的至少一个处理器从所述计算机可读存储介质中读取所述计算机执行指令,所述至少一个处理器执行所述计算机执行指令使得所述设备执行如权利要求1-6中任一项所述的方法。
16.一种通信装置,其特征在于,所述通信装置包括至少一个处理器、存储器和通信接口;
所述至少一个处理器与所述存储器和所述通信接口耦合;
所述存储器用于存储指令,所述处理器用于执行所述指令,所述通信接口用于在所述至少一个处理器的控制下与其他通信装置进行通信;
所述指令在被所述至少一个处理器执行时,使所述至少一个处理器执行如权利要求1-6中任一项所述的方法。
17.一种芯片系统,其特征在于,所述芯片系统包括处理器和存储器,所述存储器和所述处理器通过线路互联,所述存储器中存储有指令,所述处理器用于执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210752944.9A CN117376182A (zh) | 2022-06-29 | 2022-06-29 | 一种网络故障诊断方法和相关设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210752944.9A CN117376182A (zh) | 2022-06-29 | 2022-06-29 | 一种网络故障诊断方法和相关设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117376182A true CN117376182A (zh) | 2024-01-09 |
Family
ID=89406372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210752944.9A Pending CN117376182A (zh) | 2022-06-29 | 2022-06-29 | 一种网络故障诊断方法和相关设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117376182A (zh) |
-
2022
- 2022-06-29 CN CN202210752944.9A patent/CN117376182A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10917322B2 (en) | Network traffic tracking using encapsulation protocol | |
JP5213854B2 (ja) | リンクアグリゲーショングループ接続を持つネットワークにおける接続性障害管理(cfm) | |
CN112311614B (zh) | 评估网络节点相关传输性能的系统、方法以及相关设备 | |
US11368386B2 (en) | Centralized error telemetry using segment routing header tunneling | |
US10033602B1 (en) | Network health management using metrics from encapsulation protocol endpoints | |
CN112751733B (zh) | 一种链路检测方法、装置、设备、系统及交换机 | |
US11509517B2 (en) | Service OAM virtualization | |
CN111245715B (zh) | 报文传输方法和系统 | |
US20080298258A1 (en) | Information transfer capability discovery apparatus and techniques | |
US10855546B2 (en) | Systems and methods for non-intrusive network performance monitoring | |
CN115733727A (zh) | 用于企业网络的网络管理系统及方法和存储介质 | |
WO2021050435A1 (en) | Determining connectivity between compute nodes in multi-hop paths | |
US10996971B2 (en) | Service OAM for virtual systems and services | |
CN114826979B (zh) | 网络链路质量获取方法、装置、系统、设备及存储介质 | |
CN117376182A (zh) | 一种网络故障诊断方法和相关设备 | |
US11765059B2 (en) | Leveraging operation, administration and maintenance protocols (OAM) to add ethernet level intelligence to software-defined wide area network (SD-WAN) functionality | |
CN115955690A (zh) | 不良网络链路性能的基于无线信号强度的检测 | |
EP3977680A1 (en) | Trace routing in virtual networks | |
US7898949B2 (en) | Brownout detection | |
WO2020179704A1 (ja) | ネットワーク管理方法、ネットワークシステム、集約解析装置、端末装置、及びプログラム | |
CN107104837A (zh) | 路径检测的方法和控制设备 | |
James | Measuring failover time for high availability network | |
US11902404B1 (en) | Retaining key parameters after a transmission control protocol (TCP) session flap | |
WO2014057610A1 (ja) | 通信装置 | |
Campanile | Investigating black holes in segment routing networks: identification and detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |