CN116781573A - 故障检测方法、装置、设备、系统及计算机可读存储介质 - Google Patents
故障检测方法、装置、设备、系统及计算机可读存储介质 Download PDFInfo
- Publication number
- CN116781573A CN116781573A CN202210234111.3A CN202210234111A CN116781573A CN 116781573 A CN116781573 A CN 116781573A CN 202210234111 A CN202210234111 A CN 202210234111A CN 116781573 A CN116781573 A CN 116781573A
- Authority
- CN
- China
- Prior art keywords
- service data
- network device
- packet loss
- data flow
- message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 142
- 238000004891 communication Methods 0.000 claims abstract description 62
- 238000000034 method Methods 0.000 claims abstract description 56
- 230000005540 biological transmission Effects 0.000 claims description 141
- 230000000977 initiatory effect Effects 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 16
- 238000010586 diagram Methods 0.000 description 12
- 238000004590 computer program Methods 0.000 description 9
- 230000003287 optical effect Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000004044 response Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 239000004744 fabric Substances 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 238000004549 pulsed laser deposition Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000003491 array Methods 0.000 description 1
- 238000004422 calculation algorithm Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000802 evaporation-induced self-assembly Methods 0.000 description 1
- RGNPBRKPHBKNKX-UHFFFAOYSA-N hexaflumuron Chemical compound C1=C(Cl)C(OC(F)(F)C(F)F)=C(Cl)C=C1NC(=O)NC(=O)C1=C(F)C=CC=C1F RGNPBRKPHBKNKX-UHFFFAOYSA-N 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000005055 memory storage Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 230000000644 propagated effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0805—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability
- H04L43/0817—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters by checking availability by checking functioning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L41/00—Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
- H04L41/06—Management of faults, events, alarms or notifications
- H04L41/0677—Localisation of faults
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/08—Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
- H04L43/0823—Errors, e.g. transmission errors
- H04L43/0829—Packet loss
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L43/00—Arrangements for monitoring or testing data switching networks
- H04L43/50—Testing arrangements
Landscapes
- Engineering & Computer Science (AREA)
- Computer Networks & Wireless Communication (AREA)
- Signal Processing (AREA)
- Environmental & Geological Engineering (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本申请公开了一种故障检测方法、装置、设备、系统及计算机可读存储介质,涉及通信技术领域。第一网络设备记录业务数据流的统计信息,并根据统计信息中的流标识、报文接收信息和报文发送信息,统计该业务数据流在第一网络设备上的丢包结果,以此确定第一网络设备的故障检测结果。其中,报文接收信息包括第一网络设备在统计起始报文和统计结束报文之间接收的该业务数据流的报文数量,报文发送信息包括第一网络设备在统计起始报文和统计结束报文之间发送的该业务数据流的报文数量。该方法实现了网络设备能够主动感知各个业务数据流在统计起始报文和统计结束报文之间的丢包结果,进而使得根据该丢包结果确定的故障检测结果更准确。
Description
技术领域
本申请涉及通信技术领域,特别涉及故障检测方法、装置、设备、系统及计算机可读存储介质。
背景技术
随着通信技术的发展,越来越多的业务依赖通信网络来传输报文。当通信网络出现故障时,会导致传输的报文丢失,进而造成对业务的影响。因此,需要及时地对通信网络出现的故障进行检测。
当前,在数据中心网络中设置分析器,利用远程流镜像能力,将传输控制协议(Transmission Control Protocol,TCP)会话建立/拆除过程中发送的控制报文拷贝下来并发送给分析器,分析器会通过算法将控制报文的转发路径还原出来,根据转发路径的状态来检测网络故障。
但是,上述的故障检测方法需要将控制报文拷贝发送至分析器,故障检测的效率较低、准确性较差。
发明内容
本申请提供了一种故障检测方法、装置、设备、系统及计算机可读存储介质,用于提高故障检测的效率和准确性。
第一方面,提供了一种故障检测方法,由第一网络设备执行。第一网络设备记录业务数据流的统计信息,并根据统计信息中的报文接收信息和报文发送信息,统计该业务数据流在第一网络设备上的丢包结果。统计得到的业务数据流在第一网络设备上的丢包结果用于确定第一网络设备的故障检测结果。其中,该统计信息包括该业务数据流的流标识、报文接收信息以及报文发送信息,报文接收信息包括第一网络设备在统计起始报文和统计结束报文之间接收的该业务数据流的报文数量,报文发送信息包括第一网络设备在统计起始报文和统计结束报文之间发送的该业务数据流的报文数量。
该方法由网络设备根据业务数据流的统计信息来统计业务数据流在网络设备上的丢包结果,实现了网络设备能够主动感知业务数据流在统计起始报文和统计结束报文之间的丢包结果,进而使得根据该丢包结果确定的故障检测结果更准确。进一步地,相比于将控制报文拷贝发送至分析器,由分析器进行故障检测的方法,该方法能够降低隐私合规风险,减少对通信网络带来额外的传输负载压力。
在一种可能的实施方式中,统计起始报文为请求报文,请求报文包括流标识;第一网络设备在记录业务数据流的统计信息之前接收到业务数据流的请求报文,通过接收的业务数据流的请求报文获取业务数据流的流标识;在接收到业务数据流的请求报文后,记录该业务数据流的流标识、第一网络设备从请求报文开始接收的业务数据流的报文数量、以及第一网络设备从请求报文开始发送的业务数据流的报文数量。
在接收到请求报文后开始记录该业务数据流的统计信息,使得记录的业务数据流的报文接收信息和报文发送信息更准确。
在一种可能的实施方式中,统计结束报文为完成报文;第一网络设备在接收该业务数据流的完成报文后,确定记录的报文接收信息中的该业务数据流的报文数量与报文发送信息中的该业务数据流的报文数量之间的第一差值,基于该第一差值确定该业务数据流在第一网络设备上的丢包结果。
在接收到完成报文后确定该业务数据流的丢包结果,使得确定的丢包结果更准确。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的下一跳设备为第二网络设备;第一网络设备获取第二网络设备接收的该业务数据流的报文数量,并确定该第二网络设备接收的该业务数据流的报文数量与报文发送信息中的该业务数据流的报文数量之间的第二差值,进一步基于该第二差值来确定该业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。其中,业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果用于确定第一网络设备与第二网络设备之间的传输路径上的故障检测结果。
第一网络设备通过获取下一跳设备上接收的业务数据流的报文数量,能够主动确定业务数据流在第一网络设备与下一跳设备之间的传输路径上的丢包结果,进而能够用于确定网络设备间的传输路径上的故障检测结果。
在一种可能的实施方式中,对于作为业务数据流的传输路径上的第一网络设备的下一跳设备的第二网络设备,还可以由第一网络设备向第二网络设备发送报文发送信息中的该业务数据流的报文数量,使得第二网络设备能够基于接收的第一网络设备发送该业务数据流的报文数量和记录的接收该业务数据流的报文数量,来确定业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。
业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果,既可以由第一网络设备统计得到,也可以由第二网络设备统计得到,使得传输路径上的丢包结果的获取方式更灵活。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的上一跳设备为第三网络设备;第一网络设备获取第三网络设备发送的该业务数据流的报文数量,并确定该第三网络设备发送的该业务数据流的报文数量与报文接收信息中的该业务数据流的报文数量之间的第三差值,进一步基于该第三差值来确定该业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。其中,业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果用于确定第一网络设备与第三网络设备之间的传输路径上的故障检测结果。
第一网络设备通过获取上一跳设备发送的业务数据流的报文数量,能够确定业务数据流在第一网络设备与上一跳设备之间的传输路径上的丢包结果,实现了第一网络设备能够主动感知业务数据流在两个网络设备之间的丢包结果,进而使得根据该丢包结果能够确定网络设备间的故障检测结果,使得故障检测结果的准确性更高。
在一种可能的实施方式中,对于作为业务数据流的传输路径上的第一网络设备的上一跳设备的第三网络设备,还可以由第一网络设备向第三网络设备发送报文接收信息中的该业务数据流的报文数量,使得第三网络设备能够基于接收的第一网络设备接收该业务数据流的报文数量和记录的发送该业务数据流的报文数量,来确定业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,当第一网络设备确定的业务数据流在第一网络设备上的丢包结果指示该业务数据流存在丢包时,第一网络设备向分析器发送该业务数据流的第一丢包信息,以使分析器基于该业务数据流的第一丢包信息对第一网络设备所在的通信网络进行故障感知与定位。其中,业务数据流的第一丢包信息包括第一网络设备的标识、业务数据流的流标识以及该业务数据流在第一网络设备上的丢包结果。
在一种可能的实施方式中,当第一网络设备确定的业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果指示该业务数据流存在丢包时,第一网络设备向分析器发送该业务数据流的第二丢包信息,以使分析器基于该业务数据流的第二丢包信息对第一网络设备所在的通信网络进行故障感知与定位。其中,业务数据流的第二丢包信息包括第一网络设备的标识、第二网络设备的标识、业务数据流的流标识以及该业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,当第一网络设备确定的业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果指示业务数据流存在丢包时,第一网络设备向分析器发送该业务数据流的第三丢包信息,以使分析器基于该业务数据流的第三丢包信息对第一网络设备所在的通信网络进行故障感知与定位。其中,业务数据流的第三丢包信息包括第一网络设备的标识、第三网络设备的标识、业务数据流的流标识以及业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。
第一网络设备将业务数据流在第一网络设备上的第一丢包信息、业务数据流在第一网络设备与第二网络设备之间的传输路径上的第二丢包信息、以及业务数据流在第一网络设备与第三网络设备之间的传输路径上的第三丢包信息发送给分析器,使得分析器能够直接呈现业务数据流在通信网络中的丢包情况,减小了分析器的分析性能压力,降低了分析器的部署成本。并且由分析器根据直接获取的丢包信息进行的故障感知与定位,使得故障感知的结果更直观,故障定位的效率和准确性更高。
此外,除了第一网络设备向分析器发送第二丢包信息外,如果第二网络设备也向分析器发送了第一网络设备与第二网络设备之间的传输路径上的丢包信息,分析器还可对第一网络设备和第二网络设备各自发送的传输路径上的丢包信息进行一致性校对,以进一步提高故障感知与定位的准确性。
在一种可能的实施方式中,业务数据流的流标识包括该业务数据流的源IP地址、目的IP地址、源端口和目的端口。
第二方面,提供了一种故障检测装置,该装置包括记录模块和统计模块。
记录模块,用于记录业务数据流的统计信息,统计信息包括该业务数据流的流标识、报文接收信息以及报文发送信息,报文接收信息包括第一网络设备在统计起始报文和统计结束报文之间接收的该业务数据流的报文数量,报文发送信息包括第一网络设备在统计起始报文和统计结束报文之间发送的该业务数据流的报文数量;
统计模块,用于根据报文接收信息和报文发送信息,统计该业务数据流在第一网络设备上的丢包结果,业务数据流在第一网络设备上的丢包结果用于确定第一网络设备的故障检测结果。
在一种可能的实施方式中,该装置还包括:
接收模块,用于基于接收的业务数据流的请求报文,请求报文为统计起始报文;
记录模块,用于基于该请求报文获取业务数据流的流标识,记录该流标识、第一网络设备从请求报文开始接收的业务数据流的报文数量、以及第一网络设备从请求报文开始发送的业务数据流的报文数量。
在一种可能的实施方式中,接收模块,还用于接收该业务数据流的完成报文,完成报文为统计结束报文;
统计模块,用于确定记录的报文接收信息中的该业务数据流的报文数量与报文发送信息中的该业务数据流的报文数量之间的第一差值,基于该第一差值确定该业务数据流在第一网络设备上的丢包结果。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的下一跳设备为第二网络设备;统计模块,还用于获取第二网络设备接收的该业务数据流的报文数量,并确定该第二网络设备接收的该业务数据流的报文数量与报文发送信息中的该业务数据流的报文数量之间的第二差值,基于该第二差值来确定该业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。其中,业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果用于确定第一网络设备与第二网络设备之间的传输路径上的故障检测结果。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的下一跳设备为第二网络设备;该装置还包括第一发送模块,用于向第二网络设备发送报文发送信息中的该业务数据流的报文数量,使得第二网络设备能够基于接收的第一网络设备发送该业务数据流的报文数量和记录的接收该业务数据流的报文数量,来确定业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,该装置还包括第二发送模块,用于当业务数据流在第一网络设备上的丢包结果指示该业务数据流存在丢包时,向分析器发送该业务数据流的第一丢包信息,以使分析器基于该业务数据流的第一丢包信息对第一网络设备所在的通信网络进行故障感知与定位。其中,业务数据流的第一丢包信息包括第一网络设备的标识、业务数据流的流标识以及该业务数据流在第一网络设备上的丢包结果。
在一种可能的实施方式中,第二发送模块,还用于当业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果指示该业务数据流存在丢包时,向分析器发送该业务数据流的第二丢包信息,以使分析器基于该业务数据流的第二丢包信息对第一网络设备所在的通信网络进行故障感知与定位。其中,业务数据流的第二丢包信息包括第一网络设备的标识、第二网络设备的标识、业务数据流的流标识以及业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的上一跳设备为第三网络设备;统计模块,还用于获取第三网络设备发送的该业务数据流的报文数量,并确定该第三网络设备发送的该业务数据流的报文数量与报文接收信息中的该业务数据流的报文数量之间的第三差值,基于该第三差值来确定该业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。其中,业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果用于确定第一网络设备与第三网络设备之间的传输路径上的故障检测结果。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的上一跳设备为第三网络设备;该装置还包括第三发送模块,用于向第三网络设备发送报文接收信息中的该业务数据流的报文数量,使得第三网络设备能够基于接收的第一网络设备接收该业务数据流的报文数量和记录的发送该业务数据流的报文数量,来确定业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,第二发送模块,还用于当业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果指示业务数据流存在丢包时,向分析器发送该业务数据流的第三丢包信息,以使分析器基于该业务数据流的第三丢包信息对第一网络设备所在的通信网络进行故障感知与定位。其中,业务数据流的第三丢包信息包括第一网络设备的标识、第三网络设备的标识、业务数据流的流标识以及业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,业务数据流的流标识包括该业务数据流的源IP地址、目的IP地址、源端口和目的端口。
第三方面,提供了一种故障检测设备,该故障检测设备包括:处理器,所述处理器与存储器耦合,所述存储器中存储有至少一条程序指令或代码,所述至少一条程序指令或代码由所述处理器加载并执行,以使所述故障检测设备实现如上第一方面任一所述的故障检测方法。
可选地,所述处理器为一个或多个,所述存储器为一个或多个。
可选地,所述存储器可以与所述处理器集成在一起,或者所述存储器与处理器分离设置,当所述存储器与处理器分离设置时,其可以与处理器集成在同一块芯片上,也可以分别设置在不同的芯片上。
第四方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行,以使计算机实现上述第一方面的任一种可能的实施方式中的方法。
第五方面,提供了一种计算机程序(产品),所述计算机程序(产品)包括:计算机程序代码,当所述计算机程序代码被计算机运行时,使得所述计算机执行上述第一方面或第一方面的任一种可能的实施方式中的方法。
第六方面,提供了一种芯片,用于实现上述第一方面或第一方面的任一种可能的实施方式中的方法。
第七方面,提供了一种故障检测系统,包括上述第三方面所述的故障检测设备以及分析器,该分析器用于接收该故障检测设备发送的丢包信息,根据该丢包信息对该故障检测设备所在的通信网络进行故障感知与定位。
应当理解的是,本申请的第二方面至第七方面技术方案及对应的可能的实施方式所取得的有益效果可以参见上述对第一方面及其对应的可能的实施方式的技术效果,此处不再赘述。
附图说明
图1为本申请实施例提供的一种数据中心网络的网络架构示意图;
图2为本申请实施例提供的另一种数据中心网络的网络架构示意图;
图3为本申请实施例提供的一种故障检测方法的流程图;
图4为本申请实施例提供的一种第一网络设备的示意图;
图5为本申请实施例提供的另一种故障检测方法的流程图;
图6为本申请实施例提供的一种第一网络设备和第二网络设备的示意图;
图7为本申请实施例提供的一种故障检测装置的结构示意图;
图8为本申请实施例提供的一种故障检测设备的结构示意图;
图9为本申请实施例提供的另一种故障检测设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
在基于通信网络的业务的交互中,若通信网络出现故障会对业务的数据传输造成影响,因此,需要及时检测网络出现的故障,以能够采取相关措施减少网络故障对业务的影响。基于此,本申请实施例提供了一种故障检测方法,该方法由通信网络中的网络设备实时统计业务数据流的丢包结果,进而根据丢包结果实现对通信网络的故障检测。
在介绍本申请实施例提供的故障检测方法之前,首先对本申请实施例的实施环境进行举例说明。本申请实施例的实施环境为通信网络,通信网络由至少一个网络设备组成,网络设备可以为路由器或交换机等。服务器或终端可以连接到通信网络,对于连接到通信网络中的服务器与服务器、服务器与终端或终端与终端之间可以在通信网络中通过传输层协议建立连接,并使用建立的连接来传输业务数据流。可选地,传输层协议可以为TCP、网际协议(Internet Protocol,IP)或者用户数据报协议(User Datagram Protocol,UDP)等,本申请实施例不对通信网络中使用的传输层协议进行限定。
可选地,通信网络可以是数据中心网络(data center network,DCN)、城域网络、广域网络或园区网络等,通信网络可以是两层网络或三层网络,本申请实施例不对通信网络的类型进行限定。以下将以通信网络为数据中心网络为例说明本申请的技术方案。
示例性地,参见图1,图1为本申请实施例提供的一种数据中心网络的网络架构示意图。如图1所示,该数据中心网络由多个网络设备101组成,该数据中心网络为两层网络,包括汇聚层和接入层。汇聚层包括2个汇聚层网络设备101a1和101a2,接入层包括4个接入层网络设备101b1-101b4。在一种可能的实施方式中,汇聚层网络设备102a1和102a2为脊(spine)交换机,接入层网络设备101b1-101b4为叶(leaf)交换机。每个leaf交换机的上行链路数等于spine交换机的数量,每个spine交换机的下行链路数等于leaf交换机的数量。
对于图1中的任意两个服务器102之间,任意两个终端103之间,或者,服务器102与终端103之间可以通过多次控制报文的交互,在数据中心网络中建立传输层协议的连接,以通过该连接来传输业务数据流。
示例性地,以终端103b1与服务器102a1在数据中心网络通过TCP连接来传输业务数据流为例,对终端103b1与服务器102a1建立TCP连接和拆除TCP连接的过程进行简单说明。
终端103b1与服务器102a1建立TCP连接的过程为:终端103b1向服务器102a1发送Syn报文,该Syn报文经过至少一个网络设备101(分别经过网络设备101b3、网络设备101a1和网络设备101b1)传输至服务器102a1。服务器102a1接收该Syn报文,向终端103b1发送第一确认(acknowledge,Ack)报文。终端103b1接收第一Ack报文后,向服务器102a1发送第二Ack报文。服务器102a1接收第二Ack报文后,该终端103b1到服务器102a1之间的TCP连接建立成功。终端103b1与服务器102a1之间开始通过该至少一个网络设备101(分别经过网络设备101b1、网络设备101a1和网络设备101b3)传输业务数据流。
终端103b1与服务器102a1拆除TCP连接的过程为:终端103b1向服务器102a1发送完成(finish,Fin)报文,该Fin报文经过至少一个网络设备101(分别经过网络设备101b3、网络设备101a1和网络设备101b1)传输至服务器102a1。服务器102a1接收该Fin报文,向终端103b1发送第三Ack报文。终端103b1接收第三Ack报文后,向服务器102a1发送第四Ack报文。服务器102a1接收第四Ack报文后,该终端103b1到服务器102a1之间的TCP连接拆除成功。终端103b1与服务器102a1之间结束传输业务数据流。
在本申请实施例中,对于任一个网络设备101,网络设备101会记录网络设备101所传输的业务数据流的统计信息,进而网络设备101根据记录的各个业务数据流的统计信息来分析各个业务数据流在网络设备101内是否存在丢包。可选地,传输同一业务数据流的相互连接的两个网络设备101之间可以互相发送记录的该业务数据流的统计信息,使得任一网络设备101能够根据互相发送的业务数据流的统计信息来分析业务数据流在两个网络设备101之间的传输路径是否存在丢包。
在一种可能的实施方式中,参见图2,数据中心网络中还设置有分析器104,分析器104可以与任一网络设备101建立连接,任一网络设备101将统计的丢包信息向分析器104发送。可选地,分析器104可以接收到不同的网络设备101在不同时间发送的不同业务数据流的丢包信息,分析器104根据接收的每个网络设备101的丢包信息来检测故障。
基于图1或图2所示的数据中心网络的网络架构,本申请实施例提供了一种故障检测方法,该方法可由图1或图2所示的网络设备101执行。示例性地,以第一网络设备为图1或图2所示的网络设备101a1为例,参见图3,图3为本申请实施例提供的一种故障检测方法的流程图,该方法包括但不限于如下步骤301和步骤302。
步骤301,第一网络设备记录业务数据流的统计信息,统计信息包括业务数据流的流标识、报文接收信息以及报文发送信息,报文接收信息包括第一网络设备在统计起始报文和统计结束报文之间接收的该业务数据流的报文数量,报文发送信息包括第一网络设备在统计起始报文和统计结束报文之间发送的该业务数据流的报文数量。
在本申请实施例中,第一网络设备可以传输多条业务数据流,每条业务数据流包括对应的流标识,本申请实施例中的业务数据流为第一网络设备传输的多条业务数据流中的任意一条业务数据流。可选地,业务数据流包括从外部接收且由网络设备转发出去的报文,即业务数据流不包括由网络设备自身生成的报文。
在一种可能的实施方式中,业务数据流的流标识包括该业务数据流的源IP地址、目的IP地址、源端口和目的端口,可选地,业务数据流的流标识为五元组信息,五元组信息包括源IP地址、源端口、目的IP地址、目的端口和传输层协议。同一条业务数据流的报文由同一个发送端向同一个接收端发送,同一条业务数据流的报文包括相同的五元组信息,因此,根据报文中携带的五元组信息能够确定报文所属的业务数据流。在本申请实施例中,统计起始报文和统计结束报文包括对应的业务数据流的流标识。
本申请中的业务数据流可以是一个完整的业务数据流,也可以是一个传输周期内传输的业务数据流。对于一个完整的数据流,该业务数据流的统计起始报文用于指示该条业务数据流开始传输报文,统计结束报文用于指示该条业务数据流结束传输报文;对于一个传输周期内传输的业务数据流,该业务数据流的统计起始报文用于指示该传输周期的开始,以及上一个传输周期的结束,该业务数据流的统计结束报文用于指示该传输周期的结束,以及下一个传输周期的开始。因此,报文接收信息包括在统计起始报文和统计结束报文之间接收的该业务数据流的报文数量,用于表示第一网络设备在一个完整的业务数据流的传输过程中接收的报文数量,或一个业务数据流在一个传输周期接收的报文的数量;报文发送信息包括第一网络设备在统计起始报文和统计结束报文之间发送的该业务数据流的报文数量,用于表示第一网络设备在一个完整的业务数据流的传输过程中发送的报文数量,或一个业务数据流在一个传输周期发送的报文的数量。
可以理解的是,对于不同的传输层协议,业务数据流的统计起始报文和统计结束报文的报文类型不同。例如,以业务数据流为TCP流为例,Syn报文用于请求建立TCP连接,能够指示TCP流开始传输报文,因而可将Syn报文作为该TCP流的统计起始报文;Fin报文用于拆除建立的TCP连接,能够指示TCP流结束传输报文,因而可将Fin报文作为该TCP流的统计结束报文;或者,Reset报文用于释放建立的TCP连接,能够指示TCP流结束传输报文,因而也可将Reset报文作为该TCP流的统计结束报文。
对于应用保活机制的业务数据流来说,当通信双方建立会话连接后,一方或双方会周期性发送保活报文来保持该会话连接。此时,一个保活报文可以为该业务数据流前一个统计周期的统计结束报文,同时为该业务数据流后一个统计周期的统计开始报文。也就是说,同一条业务数据流可能对应多个统计周期,每个统计周期包括对应的统计起始报文和统计结束报文。
在一种可能的实施方式中,统计起始报文为Syn报文;第一网络设备记录业务数据流的统计信息之前,还包括:第一网络设备接收业务数据流的Syn报文。第一网络设备记录业务数据流的统计信息,包括:第一网络设备基于该Syn报文获取业务数据流的流标识;第一网络设备记录该流标识、第一网络设备从Syn报文开始接收的该业务数据流的报文数量、以及第一网络设备从Syn报文开始发送的该业务数据流的报文数量。可选地,报文数量包括报文数或字节数中的至少一种。
由于网络设备通常包括多个网络接口(interface),该多个网络接口包括至少一个入接口和至少一个出接口,至少一个入接口用于接收报文,至少一个出接口用于发送报文。示例性地,以图4所示的第一网络设备为例,第一网络设备包括入接口1、入接口2、出接口3和出接口4。可选地,网络设备接收同一条业务数据流的报文的入接口相同,发送同一条业务数据流的报文的出接口相同。
在一种可能的实施方式中,报文接收信息还包括接收该业务数据流的入接口和该业务数据流的流状态,报文发送信息还包括发送该业务数据流的出接口和该业务数据流的流状态。流状态用于指示业务数据流的传输状态,例如,当接收到该业务数据流的统计起始报文(如Syn报文)时,代表该业务数据流的传输状态为开始传输,当接收到该业务数据流的统计结束报文(如Fin报文)时,代表该业务数据流的传输状态为结束传输。
示例性地,第一网络设备记录业务数据流的统计信息的过程可以为:当第一网络设备的接收到Syn报文时,记录Syn报文中的五元组信息作为该条业务数据流的流标识,记录接收Syn报文的入接口1作为该条业务数据流的入接口,将该条业务数据流的流状态标记为Syn,代表该条业务数据流开始传输,并初始化该条业务数据流的接收的报文数量和发送的报文数量,例如,初始化接收的报文数量和发送的报文数量为1或0;当第一网络设备发送该Syn报文时,记录发送该Syn报文的出接口3作为该条业务数据流的出接口;之后每当入接口1接收到包括该流标识的报文时,将该条业务数据流的接收的报文数量加1,每当出接口3发送包括该流标识的报文时,将该条业务数据流的发送的报文数量加1;直至入接口1接收到包括该流标识的Fin报文时,将该条业务数据流的流状态标记为Syn/Fin,代表该条业务数据流结束传输。由此,第一网络设备完成记录该条业务数据流的统计信息,进而能够根据统计信息中的报文接收信息以及报文发送信息分析该条业务数据流在第一网络设备上的丢包情况。
在一种可能的实施方式中,第一网络设备以统计流表的形式记录业务数据流的统计信息。表1为图4所示的第一网络设备的入方向的统计流表,该统计流表包括4条业务数据流的统计信息,统计信息包括源IP地址、目的IP地址、源端口、目的端口、入接口、流状态、入报文数和入字节数。表2为图4所示的第一网络设备的出方向的统计流表,该统计流表包括4条业务数据流的统计信息,统计信息包括源IP地址、目的IP地址、源端口、目的端口、出接口、流状态、出报文数和出字节数。表1和表2中可以包括报文数和字节数中的一种或两种。在另一种可能的实施方式中,表1和表2可以合并为一个表,该表中包括流标识(源IP地址、目的IP地址、源端口、目的端口)、报文接收信息(入接口、入报文数和/或入字节数)、报文发送信息(出接口、出报文数和/或出字节数)以及流状态。
在本申请实施例中,由于第一网络设备会在接收到统计起始报文后,记录接收该业务数据流的报文数量与发送该业务数据流的报文数量,因此,当第一网络设备接收到统计结束报文后,即可获取到第一网络设备在统计起始报文和统计结束报文之间接收的该业务数据流的报文数量,以及第一网络设备在统计起始报文和统计结束报文之间发送的该业务数据流的报文数量。
表1
表2
步骤302,第一网络设备根据报文接收信息和报文发送信息,统计该业务数据流在第一网络设备上的丢包结果,业务数据流在第一网络设备上的丢包结果用于确定第一网络设备的故障检测结果。
在本申请实施例中,对于同一业务数据流的统计信息中的报文接收信息和报文发送信息,当接收的报文数量与发送的报文数量相同时,则可以确定该条业务数据流在该网络设备内不存在丢包;当接收的报文数量与发送的报文数量不同时,则可以确定该条业务数据流在该网络设备内存在丢包,丢包数量即为接收的报文数量与发送的报文数量的差值。
在一种可能的实施方式中,以统计结束报文为业务数据流的完成报文(例如,TCP业务的Fin报文)为例,第一网络设备根据报文接收信息和报文发送信息,统计业务数据流在第一网络设备上的丢包结果,包括:第一网络设备接收业务数据流的完成报文;第一网络设备确定报文接收信息中的该业务数据流的报文数量与报文发送信息中的该业务数据流的报文数量之间的第一差值,基于该第一差值确定该业务数据流在第一网络设备上的丢包结果。该丢包结果包括是否丢包和/或丢包数量。
示例性地,以表1和表2所示的第一网络设备的入方向和出方向的统计流表为例。当业务数据流结束传输时,此时统计流表中该业务数据流的流状态显示为Syn/Fin,即代表该业务数据流已经发送了Syn报文和Fin报文,则第一网络设备即可对该业务数据流的入方向和出方向的统计流表进行统计分析,确定该业务数据流在第一网络设备内的丢包结果是否存在丢包的结果,进而能够根据丢包结果检测该第一网络设备内的故障。
例如,对于表1和表2中的业务数据流(1.1.1.1:2222-->1.1.1.2:80),在该第一网络设备内,业务数据流(1.1.1.1:2222-->1.1.1.2:80)的流状态为Syn/Fin,通过表1中的报文数2000、字节数2000000和表2中的报文数1800、字节数1800000可知,业务数据流(1.1.1.1:2222-->1.1.1.2:80)在第一网络设备的入接口1到第一网络设备的出接口4之间存在丢包,丢包数量为200个报文、200000个字节。根据丢包的报文数量与接收的报文数量还可以计算该业务数据流的丢包率,例如,业务数据流(1.1.1.1:2222-->1.1.1.2:80)在第一网络设备的入接口1到第一网络设备的出接口4之间的丢包率为200/2000=10%。
在本申请实施例中,根据不同的业务数据流的统计信息,能够统计得到不同的业务数据流在第一网络设备内的丢包结果,可以根据不同的业务数据流的丢包结果来确定第一网络设备的故障检测结果。例如,在表1和表2中所示的4条业务数据流中,只有业务数据流(1.1.1.1:2222-->1.1.1.2:80)发生了丢包,则可以推测第一网络设备的入接口1到第一网络设备的出接口4之间可能存在故障。
由于本申请实施例根据业务数据流的统计信息来统计丢包结果,业务数据流的统计信息包括接收的该业务数据流的报文数量和发送的该业务数据流的报文数量。因此,本申请实施例获取业务数据流的丢包结果的方式类似于黑盒逻辑,即由网络设备对传输的业务数据流进行实时的报文数量统计,无论是网络设备能够感知的丢包还是网络设备不能感知的丢包,本申请实施例的方法均能统计出来。其中,导致丢包的原因可能有多种,包括但不限于由网络设备内的网络接口故障、光模块故障、芯片故障或各模块间的连接故障导致的丢包,或者,由丢包处理策略导致的丢包。由于本申请实施例提供的方法是根据业务数据流的统计信息来统计丢包结果,因此,无论是哪种原因导致的丢包,本申请实施例均能够获取到丢包结果。
在一种可能的实施方式中,第一网络设备根据报文接收信息和报文发送信息,统计业务数据流在第一网络设备上的丢包结果之后,还包括:当该业务数据流在第一网络设备上的丢包结果指示业务数据流存在丢包时,向分析器发送业务数据流的第一丢包信息,业务数据流的第一丢包信息包括第一网络设备的标识、业务数据流的流标识和获取的业务数据流在第一网络设备上的丢包结果。以使分析器能够根据业务数据流的第一丢包信息对第一网络设备所在的通信网络进行故障感知与定位,分析器可以可视化呈现第一网络设备上的各个业务数据流的丢包信息。
在本申请实施例中,网络设备能够根据业务数据流的统计信息统计丢包结果,并在丢包结果指示存在丢包时,向分析器发送第一丢包信息。由于网络设备能够自身统计丢包结果,无需将业务数据流的统计信息发送至分析器,也无需由分析器来统计各个业务数据流在各个网络设备的丢包结果,降低了分析器的分析性能压力。本申请实施例中的分析器能够直接根据多个网络设备发送的第一丢包信息,可视化通信网络中各个业务数据流在各个网络设备的丢包情况,更直观的获取不同业务数据流在同一网络设备的丢包情况,或者,同一业务数据流在不同网络设备的丢包情况,使得通过分析器对通信网络的故障感知与定位的结果更准确、更有效。可选地,当该业务数据流在第一网络设备上的丢包结果指示业务数据流存在丢包时,第一网络设备还可以直接向分析器发送如表1和表2所示的统计流表,或者,表1和表2合并后的统计流表,此时,分析器根据如表1和表2所示的统计流表,或者,表1和表2合并后的统计流表中包括的信息来计算并可视化呈现第一网络设备上的各个业务数据流的丢包信息。在该情况下,分析器不仅能够呈现第一网络设备上的各个业务数据流的丢包,还能够呈现接收的报文数量、发送的报文数量、接收的入接口和发送的出接口等信息,有助于分析器更具体地对第一网络设备所在的通信网络进行故障感知与定位。
在一种可能的实施方式中,当该业务数据流在第一网络设备上的丢包结果指示该业务数据流存在丢包时,第一网络设备可以不上报第一网络设备上的全部业务数据流的统计流表,而是仅将存在丢包的业务数据流的统计流表上报给分析器。例如,针对表1和表2所示的第一网络设备的入方向和出方向的统计流表,第一网络设备仅向分析器发送表1和表2中的业务数据流(1.1.1.1:2222-->1.1.1.2:80)的统计流表。分析器根据业务数据流(1.1.1.1:2222-->1.1.1.2:80)的统计流表中包括的信息来计算并可视化呈现第一网络设备上存在丢包的业务数据流的丢包信息。
由于第一网络设备仅上报存在丢包的业务数据流的统计流表,而无需上报第一网络设备上的全部统计流表,较小了通信网络的转发压力,使得分析器只需计算第一网络设备上报的存在丢包的业务数据流的丢包结果,无需计算第一网络设备没有丢包的业务数据流的丢包结果,减小了分析器的计算量,还能够呈现存在丢包的业务数据流的接收的报文数量、发送的报文数量、接收的入接口和发送的出接口等更具体的丢包信息。
在一种可能的实施方式中,参见图5,本申请实施例提供的故障检测方法还包括如下步骤303和步骤304。
步骤303,第一网络设备获取第二网络设备接收的该业务数据流的报文数量,第二网络设备为业务数据流的传输路径上的该第一网络设备的下一跳设备。
在本申请实施例中,当业务数据流的传输路径包括多个网络设备时,如图1或图2中所示的终端103b1与服务器102a1之间的业务数据流,其传输路径包括网络设备101b3、网络设备101a1和网络设备101b1,第二网络设备为网络设备101b1或网络设备101b3。可以理解的是,终端103b1与服务器102a1之间可以互相发送业务数据流,当业务数据流为终端103b1发往服务器102a1的业务数据流时,第二网络设备为网络设备101b1,当业务数据流为服务器102a1发往终端103b1的业务数据流时,第二网络设备为网络设备101b3。
可选地,第一网络设备获取第二网络设备接收的该业务数据流的报文数量,包括:当第一网络设备接收到业务数据流的统计结束报文时,第一网络设备向第二网络设备发送获取指令,第二网络设备根据接收到的获取指令向第一网络设备发送第二网络设备接收的该业务数据流的报文数量;或者,当第二网络设备接收到业务数据流的统计结束报文时,第二网络设备主动向第一网络设备发送第二网络设备接收的该业务数据流的报文数量。
在一种可能的实施方式中,参见图6,第二网络设备通过带外网管口向第一网络设备发送第二网络设备接收的该业务数据流的报文数量,第一网络设备通过带外网管口接收第二网络设备发送的第二网络设备接收的该业务数据流的报文数量。可选地,第二网络设备通过网络设备间交互的链路层发现协议(Link Layer Discovery Protocol,LLDP)报文可感知第一网络设备的管理IP地址,第二网络设备通过使用第一网络设备的管理IP地址作为目的IP地址,来将第二网络设备接收的该业务数据流的报文数量发送至第一网络设备。
在本申请实施例中,第一网络设备除了获取第二网络设备接收的该业务数据流的报文数量之外,还可以获取第二网络设备的标识、该业务数据流的标识、第二网络设备接收该业务数据流的入接口、第二网络设备记录的该业务数据流的流状态中的至少一种。
在一种可能的实施方式中,表3为图6所示的第二网络设备的入方向的统计流表,该统计流表包括4条业务数据流的统计信息,表3中包括源IP地址、目的IP地址、源端口、目的端口、入接口、流状态、入报文数和入字节数。可选地,在表3所示的4条业务数据流的流状态为Syn/Fin时,第二网络设备将表3所示的第二网络设备的入方向的统计流表发送至第一网络设备。
表3
/>
步骤304,第一网络设备基于第二网络设备接收的业务数据流的报文数量与报文发送信息,统计该业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果,该业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果用于确定第一网络设备与第二网络设备之间的传输路径上的故障检测结果。
可选地,第一网络设备基于第二网络设备接收的业务数据流的报文数量与报文发送信息,统计该业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果,与上述第一网络设备根据报文接收信息和报文发送信息,统计该业务数据流在第一网络设备上的丢包结果的方式相似,可参见上述内容描述,在此不再赘述。
在一种可能的实施方式中,第一网络设备基于第二网络设备接收的业务数据流的报文数量与报文发送信息,统计该业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果,包括:确定第二网络设备接收的业务数据流的报文数量与报文发送信息中的业务数据流的报文数量之间的第二差值,基于第二差值确定业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。
示例性地,以表2和表3中所示的业务数据流(1.1.1.1:1111-->1.1.1.2:80)为例,在第一网络设备与第二网络设备之间,业务数据流(1.1.1.1:1111-->1.1.1.2:80)的流状态为传输完成,通过表3中的报文数800、字节数800000和表2中的报文数1000、字节数1000000可知,业务数据流(1.1.1.1:1111-->1.1.1.2:80)在第一网络设备的出接口3与第二网络设备的入接口1之间的传输路径上存在丢包,丢包数量为200个报文、200000个字节。表2和表3中可以包括报文数和字节数中的一种或两种。在另一种可能的实施方式中,表2和表3可以合并为一个表,该表中包括流标识(源IP地址、目的IP地址、源端口、目的端口)、第二网络设备的报文接收信息(入接口、入报文数和/或入字节数)、第一网络设备的报文发送信息(出接口、出报文数和/或出字节数)以及流状态。
在一种可能的实施方式中,基于第二网络设备接收的业务数据流的报文数量与报文发送信息,统计该业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果之后,还包括:当业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果指示业务数据流存在丢包时,向分析器发送该业务数据流的第二丢包信息,业务数据流的第二丢包信息包括第一网络设备的标识、第二网络设备的标识、业务数据流的流标识以及业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。以使分析器对第一网络设备和第二网络设备所在的通信网络进行故障感知与定位。
可选地,当业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果指示业务数据流存在丢包时,第一网络设备还可以直接向分析器发送如表2和表3所示的统计流表,或者,表2和表3合并后的统计流表,分析器根据如表2和表3所示的统计流表,或者,表2和表3合并后的统计流表中包括的信息来计算并可视化呈现第一网络设备和第二网络设备之间的各个业务数据流的丢包信息。
由此,通过相连的第一网络设备和第二网络设备之间的统计信息的交互,使得第一网络设备除了能够统计第一网络设备内的丢包结果,还能统计第一网络设备和第二网络设备之间的传输路径上的丢包结果。因此,分析器能够结合通信网络中的各个业务数据流在各个网络设备内的丢包情况,以及各个业务数据流在各个网络设备之间的传输路径的丢包情况,对通信网络进行故障感知与定位,使得故障感知与定位的结果更准确。
在本申请实施例中,网络设备实现了分布式的丢包结果的获取方式,即由每个网络设备获取业务数据流在每个网络设备内的丢包结果以及每个网络设备相连的传输路径上的丢包结果,无需由分析器来统计各个业务数据流在各个网络设备之间的传输路径上的丢包结果,同样降低了分析器的分析性能压力,降低了分析器的部署成本。
可以理解的是,业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果也可以由第二网络设备统计。示例性地,第一网络设备向第二网络设备发送报文发送信息中的业务数据流的报文数量,第二网络设备确定业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果,当业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果指示业务数据流存在丢包时,第二网络设备向分析器发送业务数据流的第二丢包信息。
在上述步骤303和步骤304所示的统计业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果的基础上,基于同样的统计原理,第一网络设备还能够统计第一网络设备与第三网络设备的传输路径上的丢包结果,第三网络设备为业务数据流的传输路径上的第一网络设备的上一跳设备。示例性地,如图1或图2中所示的终端103b1与服务器102a1之间的业务数据流,当业务数据流为终端103b1发往服务器102a1的业务数据流时,第三网络设备为网络设备101b3,当业务数据流为服务器102a1发往终端103b1的业务数据流时,第三网络设备为网络设备101b1。
在一种可能的实施方式中,当第三网络设备为业务数据流的传输路径上的第一网络设备的上一跳设备时,本申请实施例提供的故障检测方法,还包括:第一网络设备获取第三网络设备发送的业务数据流的报文数量;第一网络设备确定第三网络设备发送的业务数据流的报文数量以及报文接收信息中的业务数据流的报文数量之间的第三差值,基于第三差值确定业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果;业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果用于确定第一网络设备与第三网络设备之间的传输路径上的故障检测结果。
可选地,基于第三差值确定业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果之后,还包括:当业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果指示业务数据流存在丢包时,向分析器发送业务数据流的第三丢包信息,业务数据流的第三丢包信息包括第一网络设备的标识、第三网络设备的标识、业务数据流的流标识以及该业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。以使分析器基于业务数据流的第三丢包信息对第一网络设备所在的通信网络进行故障感知与定位。
在本申请实施例中,当业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果由第三网络设备来统计时,本申请实施例提供的故障检测方法,还包括:第一网络设备向第三网络设备发送报文接收信息中的业务数据流的报文信息;第三网络设备基于确定业务数据流在第三网络设备与第一网络设备之间的传输路径的丢包结果。当业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果指示业务数据流存在丢包时,第三网络设备向分析器发送业务数据流的第三丢包信息。
本申请实施例提供的故障检测方法,由网络设备根据各个业务数据流的统计信息来统计各个业务数据流在网络设备上的丢包结果,实现了网络设备能够主动感知各个业务数据流在统计起始报文和统计结束报文之间的丢包结果,进而使得根据该丢包结果确定的故障检测结果更准确。相比于将控制报文拷贝发送至分析器,由分析器进行故障检测的方法,本申请实施例提供的故障检测方法,能够降低隐私合规风险,也能够降低对通信网络带来额外的传输负载压力。
以上介绍了本申请实施例的故障检测方法,与上述方法对应,本申请实施例还提供了故障检测装置,图7是本申请实施例提供的一种故障检测装置的结构示意图。基于图7所示的如下多个模块,该图7所示的故障检测装置能够执行第一网络设备所执行的全部或部分操作。应理解到,该装置可以包括比所示模块更多的附加模块或者省略其中所示的一部分模块,本申请实施例对此并不进行限制。如图7所示,该装置包括:
记录模块701,用于记录业务数据流的统计信息,统计信息包括该业务数据流的流标识、报文接收信息以及报文发送信息,报文接收信息包括第一网络设备在统计起始报文和统计结束报文之间接收的该业务数据流的报文数量,报文发送信息包括第一网络设备在统计起始报文和统计结束报文之间发送的该业务数据流的报文数量;
统计模块702,用于根据报文接收信息和报文发送信息,统计该业务数据流在第一网络设备上的丢包结果,业务数据流在第一网络设备上的丢包结果用于确定第一网络设备的故障检测结果。
在一种可能的实施方式中,参见图7,该装置还包括:
接收模块703,用于基于接收的业务数据流的请求报文,请求报文为统计起始报文;
记录模块701,用于基于该请求报文获取业务数据流的流标识,记录该流标识、第一网络设备从请求报文开始接收的业务数据流的报文数量、以及第一网络设备从请求报文开始发送的业务数据流的报文数量。
在一种可能的实施方式中,接收模块703,还用于接收该业务数据流的完成报文,完成报文为统计结束报文;
统计模块702,用于确定记录的报文接收信息中的该业务数据流的报文数量与报文发送信息中的该业务数据流的报文数量之间的第一差值,基于该第一差值确定该业务数据流在第一网络设备上的丢包结果。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的下一跳设备为第二网络设备;统计模块702,还用于获取第二网络设备接收的该业务数据流的报文数量,并确定该第二网络设备接收的该业务数据流的报文数量与报文发送信息中的该业务数据流的报文数量之间的第二差值,基于该第二差值来确定该业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。其中,业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果用于确定第一网络设备与第二网络设备之间的传输路径上的故障检测结果。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的下一跳设备为第二网络设备;参见图7,该装置还包括:
第一发送模块704,用于向第二网络设备发送报文发送信息中的该业务数据流的报文数量,使得第二网络设备能够基于接收的第一网络设备发送该业务数据流的报文数量和记录的接收该业务数据流的报文数量,来确定业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,参见图7,该装置还包括第二发送模块705,用于当业务数据流在第一网络设备上的丢包结果指示该业务数据流存在丢包时,向分析器发送该业务数据流的第一丢包信息,以使分析器基于该业务数据流的第一丢包信息对第一网络设备所在的通信网络进行故障感知与定位。其中,业务数据流的第一丢包信息包括第一网络设备的标识、业务数据流的流标识以及该业务数据流在第一网络设备上的丢包结果。
在一种可能的实施方式中,该第二发送模块705,还用于当业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果指示该业务数据流存在丢包时,向分析器发送该业务数据流的第二丢包信息,以使分析器基于该业务数据流的第二丢包信息对第一网络设备所在的通信网络进行故障感知与定位。其中,业务数据流的第二丢包信息包括第一网络设备的标识、第二网络设备的标识、业务数据流的流标识以及业务数据流在第一网络设备与第二网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的上一跳设备为第三网络设备;统计模块702,还用于获取第三网络设备发送的该业务数据流的报文数量,并确定该第三网络设备发送的该业务数据流的报文数量与报文接收信息中的该业务数据流的报文数量之间的第三差值,基于该第三差值来确定该业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。其中,业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果用于确定第一网络设备与第三网络设备之间的传输路径上的故障检测结果。
在一种可能的实施方式中,该业务数据流的传输路径上的第一网络设备的上一跳设备为第三网络设备;参见图7,该装置还包括第三发送模块706,用于向第三网络设备发送报文接收信息中的该业务数据流的报文数量,使得第三网络设备能够基于接收的第一网络设备接收该业务数据流的报文数量和记录的发送该业务数据流的报文数量,来确定业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,该第二发送模块705,还用于当业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果指示业务数据流存在丢包时,向分析器发送该业务数据流的第三丢包信息,以使分析器基于该业务数据流的第三丢包信息对第一网络设备所在的通信网络进行故障感知与定位。其中,业务数据流的第三丢包信息包括第一网络设备的标识、第三网络设备的标识、业务数据流的流标识以及业务数据流在第一网络设备与第三网络设备之间的传输路径上的丢包结果。
在一种可能的实施方式中,业务数据流的流标识包括该业务数据流的源IP地址、目的IP地址、源端口和目的端口。
本申请实施例提供的故障检测装置,由网络设备根据各个业务数据流的统计信息来统计各个业务数据流在网络设备上的丢包结果,实现了网络设备能够主动感知各个业务数据流在统计起始报文和统计结束报文之间的丢包结果,进而使得根据该丢包结果确定的故障检测结果更准确。
应理解的是,上述图7提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。另外,上述实施例提供的装置与方法实施例为同一构思,其具体实现过程详见方法实施例,这里不再赘述。
参见图8,图8示出了本申请一个实施例提供的故障检测设备2000的结构示意图。图8所示的故障检测设备2000用于执行上述图3和图5所示的故障检测方法所涉及的操作。该故障检测设备2000例如是交换机、路由器等,该故障检测设备2000可以由一般性的总线体系结构来实现。
如图8所示,故障检测设备2000包括处理器2001、存储器2003以及至少一个通信接口2004。
处理器2001例如是通用中央处理器(central processing unit,CPU)、数字信号处理器(digital signal processor,DSP)、网络处理器(network processer,NP)、图形处理器(Graphics Processing Unit,GPU)、神经网络处理器(neural-network processingunits,NPU)、数据处理单元(Data Processing Unit,DPU)、微处理器或者一个或多个用于实现本申请方案的集成电路。例如,处理器2001包括专用集成电路(application-specificintegrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。PLD例如是复杂可编程逻辑器件(complex programmable logic device,CPLD)、现场可编程逻辑门阵列(field-programmable gate array,FPGA)、通用阵列逻辑(generic array logic,GAL)或其任意组合。其可以实现或执行结合本发明实施例公开内容所描述的各种逻辑方框、模块和电路。所述处理器也可以是实现计算功能的组合,例如包括一个或多个微处理器组合,DSP和微处理器的组合等等。
可选的,故障检测设备2000还包括总线2002。总线2002用于在故障检测设备2000的各组件之间传送信息。总线2002可以是外设部件互连标准(peripheral componentinterconnect,PCI)总线或扩展工业标准结构(extended industry standardarchitecture,EISA)总线等。总线2002可以分为地址总线、数据总线、控制总线等。为便于表示,图8中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
存储器2003例如是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其它类型的静态存储设备,又如是随机存取存储器(random access memory,RAM)或者可存储信息和指令的其它类型的动态存储设备,又如是电可擦可编程只读存储器(electrically erasable programmable read-only Memory,EEPROM)、只读光盘(compactdisc read-only memory,CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备,或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质,但不限于此。存储器2003例如是独立存在,并通过总线2002与处理器2001相连接。存储器2003也可以和处理器2001集成在一起。
通信接口2004使用任何收发器一类的装置,用于与其它设备或通信网络通信,通信网络可以为以太网、无线接入网(radio access network,RAN)或无线局域网(wirelesslocal area networks,WLAN)等。通信接口2004可以包括有线通信接口,还可以包括无线通信接口。具体的,通信接口2004可以为以太(Ethernet)接口、快速以太(Fast Ethernet,FE)接口、千兆以太(Gigabit Ethernet,GE)接口,异步传输模式(Asynchronous TransferMode,ATM)接口,无线局域网(wireless local area networks,WLAN)接口,蜂窝网络通信接口或其组合。以太网接口可以是光接口,电接口或其组合。在本申请实施例中,通信接口2004可以用于故障检测设备2000与其他设备进行通信。
在具体实现中,作为一种实施例,处理器2001可以包括一个或多个CPU,如图8中所示的CPU0和CPU1。这些处理器中的每一个可以是单核(single-core CPU)处理器,也可以是多核(multi-core CPU)处理器。
在具体实现中,作为一种实施例,故障检测设备2000可以包括多个处理器,如图8中所示的两个处理器2001。
在具体实现中,作为一种实施例,故障检测设备2000还可以包括输出设备和输入设备。输出设备和处理器2001通信,可以以多种方式来显示信息。例如,输出设备可以是液晶显示器(liquid crystal display,LCD)、发光二级管(light emitting diode,LED)显示设备、阴极射线管(cathode ray tube,CRT)显示设备或投影仪(projector)等。输入设备和处理器2001通信,可以以多种方式接收用户的输入。例如,输入设备可以是鼠标、键盘、触摸屏设备或传感设备等。
在一些实施例中,存储器2003用于存储执行本申请方案的程序代码2010,处理器2001可以执行存储器2003中存储的程序代码2010。也即是,故障检测设备2000可以通过处理器2001以及存储器2003中的程序代码2010,来实现方法实施例提供的故障检测方法。程序代码2010中可以包括一个或多个软件模块。可选地,处理器2001自身也可以存储执行本申请方案的程序代码或指令。
在具体实施例中,本申请实施例的故障检测设备2000可对应于上述各个方法实施例中的第一网络设备,故障检测设备2000中的处理器2001读取存储器2003中的指令,使图8所示的故障检测设备2000能够执行第一网络设备所执行的全部或部分操作。
具体的,处理器2001用于记录业务数据流的统计信息,统计信息包括业务数据流的流标识、报文接收信息以及报文发送信息,报文接收信息包括第一网络设备在统计起始报文和统计结束报文之间接收的业务数据流的报文数量,报文发送信息包括第一网络设备在统计起始报文和统计结束报文之间发送的业务数据流的报文数量;处理器2001还用于根据统计信息中的报文接收信息和报文发送信息,统计该业务数据流在第一网络设备上的丢包结果。
其他可选的实施方式,为了简洁,在此不再赘述。
故障检测设备2000还可以对应于上述图7所示的故障检测装置,故障检测装置中的每个功能模块采用故障检测设备2000的软件实现。换句话说,故障检测装置包括的功能模块为程序代码2010中的软件模块。
可选地,图3或图5所示的故障检测方法的各步骤也可以通过故障检测设备2000的处理器中的硬件的集成逻辑电路完成。
参见图9,图9示出了本申请另一个实施例提供的故障检测设备2100的结构示意图,图9所示的故障检测设备2100用于执行上述图3或图5所示的故障检测方法所涉及的全部或部分操作。该故障检测设备2100例如是交换机、路由器等,该故障检测设备2100可以由一般性的总线体系结构来实现。
如图9所示,故障检测设备2100包括:主控板2110和接口板2130。
主控板也称为主处理单元(main processing unit,MPU)或路由处理卡(routeprocessor card),主控板2110用于对故障检测设备2100中各个组件的控制和管理,包括路由计算、设备管理、设备维护、协议处理功能。主控板2110包括:中央处理器2111和存储器2112。
接口板2130也称为线路接口单元(line processing unit,LPU)、线卡(linecard)或业务板。接口板2130用于提供各种业务接口并实现数据包的转发。业务接口包括而不限于以太网接口、POS(Packet over SONET/SDH)接口等,以太网接口例如是灵活以太网业务接口(Flexible Ethernet Clients,FlexE Clients)。接口板2130包括:中央处理器2131网络处理器2132、转发表项存储器2134和物理接口卡(physical interface card,PIC)2133。
接口板2130上的中央处理器2131用于对接口板2130进行控制管理并与主控板2110上的中央处理器2111进行通信。
网络处理器2132用于实现数据包的转发处理。网络处理器2132的形态可以是转发芯片。转发芯片可以是网络处理器(network processor,NP)。在一些实施例中,转发芯片可以通过专用集成电路(application-specific integrated circuit,ASIC)或现场可编程门阵列(field programmable gate array,FPGA)实现。具体而言,网络处理器2132用于记录业务数据流的统计信息;或者,网络处理器2132用于根据统计信息中的报文接收信息和报文发送信息,统计该业务数据流在第一网络设备上的丢包结果。在一些实施例中,中央处理器也可执行转发芯片的功能,比如基于通用CPU实现软件转发,从而接口板中不需要转发芯片。
物理接口卡2133用于实现物理层的对接功能,原始的流量由此进入接口板2130,以及处理后的数据包从该物理接口卡2133发出。物理接口卡2133也称为子卡,可安装在接口板2130上,负责将光电信号转换为数据包并对数据包进行合法性检查后转发给网络处理器2132处理。在一些实施例中,中央处理器2131也可执行网络处理器2132的功能,比如基于通用CPU实现软件转发,从而物理接口卡2133中不需要网络处理器2132。
可选地,故障检测设备2100包括多个接口板,例如故障检测设备2100还包括接口板2140,接口板2140包括:中央处理器2141、网络处理器2142、转发表项存储器2144和物理接口卡2143。接口板2140中各部件的功能和实现方式与接口板2130相同或相似,在此不再赘述。
可选地,故障检测设备2100还包括交换网板2120。交换网板2120也可以称为交换网板单元(switch fabric unit,SFU)。在故障检测设备2100有多个接口板的情况下,交换网板2120用于完成各接口板之间的数据交换。例如,接口板2130和接口板2140之间可以通过交换网板2120通信。
主控板2110和接口板耦合。例如。主控板2110、接口板2130和接口板2140,以及交换网板2120之间通过系统总线与系统背板相连实现互通。在一种可能的实现方式中,主控板2110和接口板2130及接口板2140之间建立进程间通信协议(inter-processcommunication,IPC)通道,主控板2110和接口板2130及接口板2140之间通过IPC通道进行通信。
在逻辑上,故障检测设备2100包括控制面和转发面,控制面包括主控板2110和中央处理器2111,转发面包括执行转发的各个组件,比如转发表项存储器2134、物理接口卡2133和网络处理器2132。控制面执行路由器、生成转发表、处理信令和协议包、配置与维护故障检测设备的状态等功能,控制面将生成的转发表下发给转发面,在转发面,网络处理器2132基于控制面下发的转发表对物理接口卡2133收到的数据包查表转发。控制面下发的转发表可以保存在转发表项存储器2134中。在有些实施例中,控制面和转发面可以完全分离,不在同一故障检测设备上。
主控板可能有一块或多块,有多块的时候可以包括主用主控板和备用主控板。接口板可能有一块或多块,故障检测设备的故障检测能力越强,提供的接口板越多。接口板上的物理接口卡也可以有一块或多块。交换网板可能没有,也可能有一块或多块,有多块的时候可以共同实现负荷分担冗余备份。在集中式转发架构下,故障检测设备可以不需要交换网板,接口板承担整个系统的业务数据的处理功能。在分布式转发架构下,故障检测设备可以有至少一块交换网板,通过交换网板实现多块接口板之间的数据交换,提供大容量的数据交换和处理能力。所以,分布式架构的故障检测设备的数据接入和处理能力要大于集中式架构的故障检测设备。可选地,故障检测设备的形态也可以是只有一块板卡,即没有交换网板,接口板和主控板的功能集成在该一块板卡上,此时接口板上的中央处理器和主控板上的中央处理器在该一块板卡上可以合并为一个中央处理器,执行两者叠加后的功能,这种形态故障检测设备的数据交换和处理能力较低(例如,低端交换机或路由器等故障检测设备)。具体采用哪种架构,取决于具体的组网部署场景,此处不做任何限定。
在具体实施例中,故障检测设备2100对应于上述图7所示的故障检测装置。在一些实施例中,图7所示的故障检测装置中的记录模块701和统计模块702相当于故障检测设备2100中的中央处理器2111或网络处理器2132,接收模块703、第一发送模块704、第二发送模块705和第三发送模块706相当于故障检测设备2100中的物理接口卡2133。
本申请实施例还提供了一种故障检测系统,该故障检测系统包括:故障检测设备和分析器。可选地,故障检测设备用于执行第一网络设备所执行的任一方法,分析器用于接收该故障检测设备发送的丢包信息,根据该丢包信息对该故障检测设备所在的通信网络进行故障感知与定位。例如,故障检测设备为图8所示的故障检测设备2000或图9所示的故障检测设备2100。第一网络设备所执行的故障检测方法可参见上述图3或图5所示实施例的相关描述,此处不再加以赘述。
本申请实施例还提供了一种计算机可读存储介质,存储介质中存储有至少一条指令,指令由处理器加载并执行,以使计算机实现如上任一所述的故障检测方法。
该计算机可读介质可以是包含或存储用于或有关于指令执行系统、装置或设备的程序的任何有形介质。机器可读介质可以是机器可读信号介质或机器可读存储介质。机器可读介质可以包括但不限于电子的、磁的、光学的、电磁的、红外的或半导体系统、装置或设备,或其任意合适的组合。机器可读存储介质的更详细示例包括带有一根或多根导线的电气连接、便携式计算机磁盘、硬盘、随机存储存取器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光存储设备、磁存储设备,或其任意合适的组合。
本申请实施例还提供了一种计算机程序(产品),当计算机程序被计算机执行时,可以使得处理器或计算机执行上述方法实施例中对应的各个步骤和/或流程。
该计算机程序产品包括一个或多个计算机程序指令。作为示例,本申请实施例的方法可以在机器可执行指令的上下文中被描述,机器可执行指令诸如包括在目标的真实或者虚拟处理器上的器件中执行的程序模块中。一般而言,程序模块包括例程、程序、库、对象、类、组件、数据结构等,其执行特定的任务或者实现特定的抽象数据结构。在各实施例中,程序模块的功能可以在所描述的程序模块之间合并或者分割。用于程序模块的机器可执行指令可以在本地或者分布式设备内执行。在分布式设备中,程序模块可以位于本地和远程存储介质二者中。
用于实现本申请实施例的方法的计算机程序代码可以用一种或多种编程语言编写。这些计算机程序代码可以提供给通用计算机、专用计算机或其他可编程的故障检测装置的处理器,使得程序代码在被计算机或其他可编程的故障检测装置执行的时候,引起在流程图和/或框图中规定的功能/操作被实施。程序代码可以完全在计算机上、部分在计算机上、作为独立的软件包、部分在计算机上且部分在远程计算机上或完全在远程计算机或服务器上执行。
在本申请实施例的上下文中,计算机程序代码或者相关数据可以由任意适当载体承载,以使得设备、装置或者处理器能够执行上文描述的各种处理和操作。载体的示例包括信号、计算机可读介质等等。信号的示例可以包括电、光、无线电、声音或其它形式的传播信号,诸如载波、红外信号等。
本申请实施例还提供了一种芯片,用于执行如上任一所述的故障检测方法。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、设备和模块的具体工作过程,可以参见前述方法实施例中的对应过程,在此不再赘述。
本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分,应理解,“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系,也不对数量和执行顺序进行限定。还应理解,尽管以下描述使用术语第一、第二等来描述各种元素,但这些元素不应受术语的限制。这些术语只是用于将一元素与另一元素区别分开。
还应理解,在本申请的各个实施例中,各个过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
本申请中术语“至少一个”的含义是指一个或多个,本申请中术语“多个”的含义是指两个或两个以上。本文中术语“系统”和“网络”经常可互换使用。
应理解,在本文中对各种所述示例的描述中所使用的术语只是为了描述特定示例,而并非旨在进行限制。如在对各种所述示例的描述和所附权利要求书中所使用的那样,单数形式“一个(“a”,“an”)”和“该”旨在也包括复数形式,除非上下文另外明确地指示。
还应理解,术语“包括”(也称“includes”、“including”、“comprises”和/或“comprising”)当在本说明书中使用时指定存在所陈述的特征、整数、步骤、操作、元素、和/或部件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元素、部件、和/或其分组。
还应理解,术语“若”和“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地,根据上下文,短语“若确定...”或“若检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。
应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其它信息确定B。
还应理解,说明书通篇中提到的“一个实施例”、“一实施例”、“一种可能的实现方式”意味着与实施例或实现方式有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”、“一种可能的实现方式”未必一定指相同的实施例。此外,这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。
以上描述仅为本申请的可选实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (17)
1.一种故障检测方法,其特征在于,所述方法包括:
第一网络设备记录业务数据流的统计信息,所述统计信息包括所述业务数据流的流标识、报文接收信息以及报文发送信息,所述报文接收信息包括所述第一网络设备在统计起始报文和统计结束报文之间接收的所述业务数据流的报文数量,所述报文发送信息包括所述第一网络设备在所述统计起始报文和所述统计结束报文之间发送的所述业务数据流的报文数量;
所述第一网络设备根据所述报文接收信息和所述报文发送信息,统计所述业务数据流在所述第一网络设备上的丢包结果,所述业务数据流在所述第一网络设备上的丢包结果用于确定所述第一网络设备的故障检测结果。
2.根据权利要求1所述的方法,其特征在于,所述第一网络设备记录业务数据流的统计信息之前,还包括:
所述第一网络设备接收所述业务数据流的请求报文,所述请求报文为所述统计起始报文;
所述第一网络设备记录业务数据流的统计信息,包括:
所述第一网络设备基于所述请求报文获取所述业务数据流的流标识;
所述第一网络设备记录所述流标识、所述第一网络设备从所述请求报文开始接收的所述业务数据流的报文数量、以及所述第一网络设备从所述请求报文开始发送的所述业务数据流的报文数量。
3.根据权利要求2所述的方法,其特征在于,所述第一网络设备根据所述报文接收信息和所述报文发送信息,统计所述业务数据流在所述第一网络设备上的丢包结果之前,还包括:
所述第一网络设备接收所述业务数据流的完成报文,所述完成报文为所述统计结束报文;
所述第一网络设备根据所述报文接收信息和所述报文发送信息,统计所述业务数据流在所述第一网络设备上的丢包结果,包括:
所述第一网络设备确定所述报文接收信息中的所述业务数据流的报文数量与所述报文发送信息中的所述业务数据流的报文数量之间的第一差值,基于所述第一差值确定所述业务数据流在所述第一网络设备上的丢包结果。
4.根据权利要求1-3中任一所述的方法,其特征在于,所述方法还包括:
所述第一网络设备获取第二网络设备接收的所述业务数据流的报文数量,所述第二网络设备为所述业务数据流的传输路径上的所述第一网络设备的下一跳设备;
所述第一网络设备确定所述第二网络设备接收的所述业务数据流的报文数量与所述报文发送信息中的所述业务数据流的报文数量之间的第二差值,基于所述第二差值确定所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果,所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果用于确定所述第一网络设备与所述第二网络设备之间的传输路径上的故障检测结果。
5.根据权利要求1-3中任一所述的方法,其特征在于,所述方法还包括:
所述第一网络设备向第二网络设备发送所述报文发送信息中的所述业务数据流的报文数量,所述第二网络设备为所述业务数据流的传输路径上的所述第一网络设备的下一跳设备,所述业务数据流的报文数量用于所述第二网络设备确定所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果;
所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果用于确定所述第一网络设备与所述第二网络设备之间的传输路径上的故障检测结果。
6.根据权利要求1-5中任一所述的方法,其特征在于,所述第一网络设备根据所述报文接收信息和所述报文发送信息,统计所述业务数据流在所述第一网络设备上的丢包结果之后,所述方法还包括:
当所述业务数据流在所述第一网络设备上的丢包结果指示所述业务数据流存在丢包时,向分析器发送所述业务数据流的第一丢包信息,所述业务数据流的第一丢包信息用于所述分析器对所述第一网络设备所在的通信网络进行故障感知与定位,所述业务数据流的第一丢包信息包括所述第一网络设备的标识、所述业务数据流的流标识以及所述业务数据流在所述第一网络设备上的丢包结果。
7.根据权利要求4所述的方法,其特征在于,所述基于所述第二差值确定所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果之后,所述方法还包括:
当所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果指示所述业务数据流存在丢包时,向分析器发送所述业务数据流的第二丢包信息,所述业务数据流的第二丢包信息用于所述分析器对所述第一网络设备所在的通信网络进行故障感知与定位,所述业务数据流的第二丢包信息包括所述第一网络设备的标识、所述第二网络设备的标识、所述业务数据流的流标识以及所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果。
8.一种故障检测装置,其特征在于,所述装置包括:
记录模块,用于记录业务数据流的统计信息,所述统计信息包括所述业务数据流的流标识、报文接收信息以及报文发送信息,所述报文接收信息包括所述第一网络设备在统计起始报文和统计结束报文之间接收的所述业务数据流的报文数量,所述报文发送信息包括所述第一网络设备在所述统计起始报文和所述统计结束报文之间发送的所述业务数据流的报文数量;
统计模块,用于根据所述报文接收信息和所述报文发送信息,统计所述业务数据流在所述第一网络设备上的丢包结果,所述业务数据流在所述第一网络设备上的丢包结果用于确定所述第一网络设备的故障检测结果。
9.根据权利要求8所述的装置,其特征在于,所述装置还包括接收模块,
所述接收模块,用于接收所述业务数据流的请求报文,所述请求报文为所述统计起始报文;
所述记录模块,用于基于所述请求报文获取所述业务数据流的流标识,记录所述流标识、所述第一网络设备从所述请求报文开始接收的所述业务数据流的报文数量、以及所述第一网络设备从所述请求报文开始发送的所述业务数据流的报文数量。
10.根据权利要求9所述的装置,其特征在于,
所述接收模块,还用于接收所述业务数据流的完成报文,所述完成报文为所述统计结束报文;
所述统计模块,用于确定所述报文接收信息中的所述业务数据流的报文数量与所述报文发送信息中的所述业务数据流的报文数量之间的第一差值,基于所述第一差值确定所述业务数据流在所述第一网络设备上的丢包结果。
11.根据权利要求8-10中任一所述的装置,其特征在于,所述统计模块,还用于:
获取第二网络设备接收的所述业务数据流的报文数量,所述第二网络设备为所述业务数据流的传输路径上的所述第一网络设备的下一跳设备;
确定所述第二网络设备接收的所述业务数据流的报文数量与所述报文发送信息中的所述业务数据流的报文数量之间的第二差值;
基于所述第二差值确定所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果,所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果用于确定所述第一网络设备与所述第二网络设备之间的传输路径上的故障检测结果。
12.根据权利要求8-10中任一所述的装置,其特征在于,所述装置还包括:
第一发送模块,用于向第二网络设备发送所述报文发送信息中的所述业务数据流的报文数量,所述第二网络设备为所述业务数据流的传输路径上的所述第一网络设备的下一跳设备,所述业务数据流的报文数量用于所述第二网络设备确定所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果,所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果用于确定所述第一网络设备与所述第二网络设备之间的传输路径上的故障检测结果。
13.根据权利要求8-12中任一所述的装置,其特征在于,所述装置还包括:
第二发送模块,用于当所述业务数据流在所述第一网络设备上的丢包结果指示所述业务数据流存在丢包时,向分析器发送所述业务数据流的第一丢包信息,所述业务数据流的第一丢包信息用于所述分析器对所述第一网络设备所在的通信网络进行故障感知与定位,所述业务数据流的第一丢包信息包括所述第一网络设备的标识、所述业务数据流的流标识以及所述业务数据流在所述第一网络设备上的丢包结果。
14.根据权利要求11所述的装置,其特征在于,所述装置还包括:
第二发送模块,用于当所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果指示所述业务数据流存在丢包时,向分析器发送所述业务数据流的第二丢包信息,所述业务数据流的第二丢包信息用于所述分析器对所述第一网络设备所在的通信网络进行故障感知与定位,所述业务数据流的第二丢包信息包括所述第一网络设备的标识、所述第二网络设备的标识、所述业务数据流的流标识以及所述业务数据流在所述第一网络设备与所述第二网络设备之间的传输路径上的丢包结果。
15.一种故障检测设备,其特征在于,所述故障检测设备包括:处理器,所述处理器与存储器耦合,所述存储器中存储有至少一条程序指令或代码,所述至少一条程序指令或代码由所述处理器加载并执行,以使所述故障检测设备实现权利要求1-7中任一所述的故障检测方法。
16.一种计算机可读存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令,所述至少一条指令由处理器加载并执行,以使计算机实现如权利要求1-7中任一所述的故障检测方法。
17.一种故障检测系统,其特征在于,包括权利要求15所述的故障检测设备以及分析器,所述分析器用于接收所述故障检测设备发送的丢包信息,根据所述丢包信息对所述故障检测设备所在的通信网络进行故障感知与定位。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210234111.3A CN116781573A (zh) | 2022-03-10 | 2022-03-10 | 故障检测方法、装置、设备、系统及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210234111.3A CN116781573A (zh) | 2022-03-10 | 2022-03-10 | 故障检测方法、装置、设备、系统及计算机可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116781573A true CN116781573A (zh) | 2023-09-19 |
Family
ID=87984736
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210234111.3A Pending CN116781573A (zh) | 2022-03-10 | 2022-03-10 | 故障检测方法、装置、设备、系统及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116781573A (zh) |
-
2022
- 2022-03-10 CN CN202210234111.3A patent/CN116781573A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113709057B (zh) | 网络拥塞的通告方法、代理节点、网络节点及计算机设备 | |
US11902080B2 (en) | Congestion avoidance in a slice-based network | |
CN110971445B (zh) | 一种网络的oam方法及装置 | |
JP7313480B2 (ja) | スライスベースネットワークにおける輻輳回避 | |
US10958579B2 (en) | Congestion avoidance in a slice-based network | |
US10277493B2 (en) | Packet throughput and loss ratio measurements of a service function chain | |
CN108337179B (zh) | 链路流量控制方法及装置 | |
JP2015057931A (ja) | ネットワーク装置、通信システム、異常トラヒックの検出方法およびプログラム | |
US20230102193A1 (en) | Network Performance Measurement Method, Apparatus, Device, and System, and Storage Medium | |
CN108449228A (zh) | 报文处理方法及网络设备 | |
CN105656708A (zh) | 单板测试方法及装置 | |
CN115484047A (zh) | 云平台中的泛洪攻击的识别方法、装置、设备及存储介质 | |
CN110278094A (zh) | 链路恢复方法及装置、系统、存储介质、电子装置 | |
WO2022057431A1 (zh) | 网络仿真方法、装置、设备及计算机可读存储介质 | |
CN112584261A (zh) | 一种光传送网设备及业务数据的确定方法 | |
CN116781573A (zh) | 故障检测方法、装置、设备、系统及计算机可读存储介质 | |
CN116962161A (zh) | 路径检测方法、装置、系统及计算机可读存储介质 | |
CN114710424B (zh) | 基于软件定义网络的主机侧数据包处理延时测量方法 | |
CN117579522B (zh) | 一种ib网络交换芯片的带宽及延时性能测量方法和电路 | |
US20230394373A1 (en) | Method, apparatus, and system for determining collection period, device, and storage medium | |
CN114697218B (zh) | 网络管理方法和设备 | |
WO2023005817A1 (zh) | 路径确定方法、装置、设备、系统及计算机可读存储介质 | |
WO2024021878A1 (zh) | 一种发送负载信息的方法、发送报文的方法及装置 | |
CN109347678B (zh) | 一种路由环路的确定方法及装置 | |
US20240205141A1 (en) | Path Determining Method, Apparatus, Device, and System, and Computer-Readable Storage Medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication |