CN113708995B - 一种网络故障诊断方法、系统、电子设备及存储介质 - Google Patents

一种网络故障诊断方法、系统、电子设备及存储介质 Download PDF

Info

Publication number
CN113708995B
CN113708995B CN202110962026.4A CN202110962026A CN113708995B CN 113708995 B CN113708995 B CN 113708995B CN 202110962026 A CN202110962026 A CN 202110962026A CN 113708995 B CN113708995 B CN 113708995B
Authority
CN
China
Prior art keywords
fault
diagnosis
task
equipment
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110962026.4A
Other languages
English (en)
Other versions
CN113708995A (zh
Inventor
周志远
张帆
张啸宇
熊浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Forward Industrial Co Ltd
Original Assignee
Shenzhen Forward Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Forward Industrial Co Ltd filed Critical Shenzhen Forward Industrial Co Ltd
Priority to CN202110962026.4A priority Critical patent/CN113708995B/zh
Publication of CN113708995A publication Critical patent/CN113708995A/zh
Application granted granted Critical
Publication of CN113708995B publication Critical patent/CN113708995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/14Arrangements for monitoring or testing data switching networks using software, i.e. software packages

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供了一种网络故障诊断方法、系统、电子设备及存储介质,属于通信技术领域。本发明利用专用网络设备主动发送探测报文探测网络,该探测报文可以探测指定目的地址路径的网络设备变化、线路连接变化、路由变化等多角度的网络状态和网络故障,主动探测报文收集路径上网络设备的信息,分析网络状态和故障原因,可以为网络管理员提供智能化的网络管理方式,自动定位网络故障时间、地点以及故障原因,可以给管理员快速排除故障、恢复网络正常提供极大的帮助,为快速定位网络故障,解决网络问题提供了基础。

Description

一种网络故障诊断方法、系统、电子设备及存储介质
技术领域
本发明属于通信技术领域,尤其涉及一种网络故障诊断方法、系统、电子设备及存储介质。
背景技术
随着业务应用的推陈出新和用户规模的不断增长,网络呈现出“高速率、大规模、多接入、不可预期”的特点,传统网络管控方式和手段已经难以解决现有网络和未来网络的挑战,因此,网络管理者迫切需要颠覆传统网络监测及故障排除方法,提出能够应对网络状态测量、网络失效检测、故障定位与恢复等场景用例的实时灵活的测量解决方案。网络测量是网络管控的基础手段和数据来源,按照测量方式的不同,传统意义上的网络测量可以分为主动测量、被动测量和混合测量。
带内网络遥测是一种不需要网络控制平面干预,网络数据平面收集和报告网络状态的框架,在带内网络遥测架构中,交换设备转发处理携带遥测指令的数据包,当遥测数据包经过该设备时,这些遥测指令告诉具备网络遥测功能的网络设备应该收集并写入何种网络状态信息。带内遥测技术有不占用带宽的优点,在较为稳定的网络中能对网络性能指标有较好的测量效果,但在拓扑变化较为频繁,震荡较多,数据流量时有时无的专用网络中,遥测技术无法很好地监控网络状态。
发明内容
针对现有技术中的上述不足,本发明提供的一种网络故障诊断方法、系统、电子设备及存储介质,本发明利用专用网络设备主动发送探测报文探测网络,该报文可以探测指定路径的网络设备变化、线路连接变化、路由变化等多角度的网络状态和网络故障,可以较好地诊断专用网络中的网络问题,为快速定位网络故障和解决网络问题提供了基础。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种网络故障诊断方法,包括以下步骤:
S1、由故障诊断服务器设置包括源目IP地址以及诊断报文内容配置的诊断任务,并将所述诊断任务下发至源目IP地址所在的任务首设备,通过所述任务首设备发送路径探测报文,并由中间设备收集每一跳设备的路径信息,并通过任务尾设备统一上报所述诊断任务的所有路径信息至故障诊断服务器,确定诊断任务的转发路径;
S2、根据所述转发路径,利用源目IP地址对应的任务首设备主动发送诊断探测报文至目的IP地址对应的任务尾设备,并通过所有路径上的设备接收并解析诊断探测报文的内容,获取并分析整体任务路径上的探测信息,完成对网络故障的诊断。
本发明的有益效果是:本发明利用专用网络设备主动发送探测报文探测网络,该探测报文可以探测指定目的地址路径的网络设备变化、线路连接变化、路由变化等多角度的网络状态和网络故障,主动探测报文收集路径上网络设备的信息,分析网络状态和故障原因,可以为网络管理员提供智能化的网络管理方式,自动定位网络故障时间、地点以及故障原因,可以给管理员快速排除故障、恢复网络正常提供极大的帮助,为快速定位网络故障,解决网络问题提供了基础。
进一步地,所述步骤S1包括以下步骤:
S101、由故障诊断控制器设置包括源目IP地址以及诊断报文内容配置的诊断任务,分别找到源目IP地址对应的任务首设备以及目的IP地址对应的任务尾设备,并向源目IP地址所在的任务首设备设下达诊断任务的指令;
S102、由任务首设备根据诊断任务的指令在设备转发平面发送路径探测报文,并通过设备转发平面查询路由信息,根据所述路由信息将路径探测报文发送至下一跳设备,针对该下一跳设备接收路径探测报文后开启诊断任务,并将所述路径探测报文再转发至下一跳设备,且利用TLV逐跳扩展的方式记录所述路径探测报文在设备传输过程中每一跳设备的路径信息;
S103、针对下一跳设备接收到转发后的路径探测报文后,判断该下一跳设备是否为任务尾设备,若是,则诊断任务开启成功,并丢弃所述路径探测报文,停止转发,并进入步骤S104,否则,返回步骤S102;
S104、由任务尾设备统一上报所述诊断任务的所有路径信息至故障诊断服务器,获取该诊断任务的转发路径,并进入步骤S2。
上述进一步方案的有益效果是:通过尾设备上报本任务的转发路径信息后,后续如果发生了路径的切换,故障诊断服务器也能够快速发现,从而进一步去分析路径切换的原因,比如中间设备故障,导致路由切换;修改了配置,导致路由切换等。
再进一步地,所述步骤S2包括以下步骤:
S201、基于所述转发路径,由任务首设备根据诊断任务主动发送诊断探测报文,并利用TLV逐跳扩展的方式由设备转发平面查询路由信息,并根据所述路由信息将诊断探测报文发送至下一跳设备;
S202、若下一跳设备为任务尾设备,由任务尾设备接收与记录诊断探测报文,停止转发并丢弃诊断探测报文;
S203、判断任务首设备是否主动发送完当前轮次的诊断探测报文,若是,则发送end报文,并标记与结束当前轮次的诊断任务,并进入步骤S204,否则,返回步骤S1;
S204、判断中间设备是否接收到end报文,若是,则完成对网络故障的诊断,否则,进行单机故障分析,并收集所有设备的当前状态,上传至故障诊断服务器,并根据所有设备的当前状态,由故障诊断服务器获取并分析整体任务路径上的探测信息;或
判断诊断探测报文的数量是否达到阈值,若是,则完成对网络故障的诊断,否则,进行单机故障分析,并收集所有设备的当前状态,上传至故障诊断服务器,并根据所有设备的当前状态,由故障诊断服务器获取并分析整体任务路径上的探测信息,完成对网络故障的诊断完成网络故障的诊断。
上述进一步方案的有益效果是:本发明提出一种主动探测报文发送方式,使用定制的协议模块,在网络诊断任务的源设备通过指定协议主动发送探测报文,目的地设备接收探测报文并解析报文内容,通过探测报文获取整条任务路径上的探测信息,分析网络设备和链路状态,即本发明通过网络设备主动发送探测报文,行自动故障诊断,原因初步分析,提示网络管理员故障位置和故障原因,提高网络管理效率。
再进一步地,所述步骤S204中由故障诊断服务器获取并分析整体任务路径上的探测信息,其具体为:
A1、按顺序遍历所有设备的最新故障信息,找到各设备的最新故障信息;
A2、检查是否有离线设备,若是,则进入步骤A3,否则,返回步骤A1,其中,所述离线设备为未上传诊断任务的设备;
A3、根据检查结果,由故障诊断服务器按顺序分析每一个最新故障信息,完成获取并分析整体任务路径上的探测信息。
上述进一步方案的有益效果是:单台设备分析出的故障,不一定是网络故障最本质的原因,本发明通过每台设备将故障信息上报到诊断服务器,由服务器综合分析每台设备的故障信息,最终得到最本质的故障原因。
再进一步地,所述步骤A3中按顺序分析每一个最新故障信息,其具体包括:按顺序依次分析丢包故障信息、分析线卡或子卡故障信息、分析接口故障信息、分析硬件收发包故障信息、分析EAP认证故障信息、分析路由故障信息以及分析离线设备故障信息。
上述进一步方案的有益效果是:按照优先级分析故障,可以使得出的结论更加准确,比如接口故障了,EAP认证肯定失败,这个时候会优先上报接口故障,忽略认证故障。
再进一步地,所述分析丢包故障信息,其具体为:检查是否是第一个有效故障,且丢包率达到100%,是则设置故障分析结果为当前设备的上一个转发节点发生了故障;检查是否丢包,若是则设置故障分析结果为丢包并记录丢包信息;
所述分析线卡或子卡故障信息,其具体为:检查是否为线卡或子卡故障,若是,则设置分析结果为线卡故障,并记录故障信息;
所述分析接口故障信息,其具体为:检查是否是shutdown,若是,则设置故障分析结果为手动shutdown,否则,设置故障分析结果为接口故障,以及若是任务首设备输入接口故障,则设置故障分析结果为源link down,若是任务尾设备输出接口故障,则设置故障分析结果为目的link down;若前一个故障为输出接口故障,本故障为输入接口故障,且前一个故障的设备和本故障的设备中间隔着一个设备,且该中间隔着的设备失联,则设置故障分析结果为该中间隔着的设备故障;
所述分析硬件收发包故障信息,其具体为:若是硬件收发包故障,则设置故障分析结果为硬件收发包错误,并找到第一台收包或发包错误的设备;
所述分析EAP认证故障信息,其具体为:若是未插UKEY,则设置故障分析结果为未插UKEY;若是任务首任务输入接口EAP认证故障,则设置故障分析结果为源认证失败,若是任务尾设备输出接口EAP认证故障,则设置故障分析结果为目的认证失败;若前一个故障为输出接口EAP认证故障,本故障为输入接口EAP认证故障,且前一个故障的设备和本故障的设备中间隔着一个中间设备,其中,若该中间设备失联,则设置故障分析结果为该中间设备不可用,若前后EAP认证故障均为对端且无UKEY,则设置故障分析结果为该设备无UKEY;若前一个故障设备与本故障设备相邻,则设置故障分析结果为EAP认证故障,并记录两端设备;若是EAP认证故障,则设置分析故障结果为EAP认证故障,并记录单个故障信息;
分析路由故障信息,其具体为:根据整体任务路径上的变化情况设置分析结果为路径切换或路由切换;
所述分析离线设备故障信息,其具体为:根据离线故障信息设置故障分析结果为源目的离线或设备离线。
上述进一步方案的有益效果是:按照优先级分析故障,可以使得出的结论更加准确,比如接口故障了,EAP认证肯定失败,这个时候会优先上报接口故障,忽略认证故障。
基于上述方法,本发明提供了一种网络故障诊断系统,包括:
设置诊断任务模块,用于由故障诊断服务器设置包括源目IP地址以及诊断报文内容配置的诊断任务,并将所述诊断任务下发至源目IP地址所在的任务首设备,通过所述任务首设备发送路径探测报文,并由中间设备收集每一跳设备的路径信息,并通过任务尾设备统一上报所述诊断任务的所有路径信息至故障诊断服务器,确定诊断任务的转发路径;
故障诊断模块,用于根据所述转发路径,利用源目IP地址对应的任务首设备主动发送诊断探测报文至目的IP地址对应的任务尾设备,并通过所有路径上的设备接收并解析诊断探测报文的内容,获取并分析整体任务路径上的探测信息,完成对网络故障的诊断。
本发明的有益效果是:本发明利用专用网络设备主动发送探测报文探测网络,该探测报文可以探测指定目的地址路径的网络设备变化、线路连接变化、路由变化等多角度的网络状态和网络故障,主动探测报文收集路径上网络设备的信息,分析网络状态和故障原因,可以为网络管理员提供智能化的网络管理方式,自动定位网络故障时间、地点以及故障原因,可以给管理员快速排除故障、恢复网络正常提供极大的帮助,为快速定位网络故障,解决网络问题提供了基础。
本发明还提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现所述的网络故障诊断方法。
本发明还提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行,以实现任一所述的网络故障诊断方法。
附图说明
图1为本发明的方法流程图。
图2为本发明基于主动探测报文的网络故障诊断方法的整体架构图。
图3为本发明的系统结构示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例1
常见的用于网络故障管理的标准协议有:SNMP、SYSLOG、CLI等,以上协议工作在设备的控制平面,通过控制平面获取的信息来进行故障诊断和分析,并不能很好的反应设备转发平面的问题,有鉴于此,本发明由设备控制平面配合,主要在设备转发平面实现,目的在于通过网络设备主动发送探测报文,行自动故障诊断,原因初步分析,提示网络管理员故障位置和故障原因,提高网络管理效率。
如图1所示,本发明提供了一种网络故障诊断方法,包括以下步骤:
S1、由故障诊断服务器设置包括源目IP地址以及诊断报文内容配置的诊断任务,并将所述诊断任务下发至源目IP地址所在的任务首设备,通过所述任务首设备发送路径探测报文,并由中间设备收集每一跳设备的路径信息,并通过任务尾设备统一上报所述诊断任务的所有路径信息至故障诊断服务器,确定诊断任务的转发路径;
S2、根据所述转发路径,利用源目IP地址对应的任务首设备主动发送诊断探测报文至目的IP地址对应的任务尾设备,并通过所有路径上的设备接收并解析诊断探测报文的内容,获取并分析整体任务路径上的探测信息,完成对网络故障的诊断。
本实施例中,本发明提出一种主动探测报文发送方式,使用定制的协议模块,在网络诊断任务的源设备通过指定协议主动发送探测报文,通过探测报文获取整条任务路径上的探测信息,诊断服务器依据这些信息分析网络设备和链路状态,目的地设备接收探测报文并解析报文内容。
本实施例中,本发明提出一种探测报文格式,通过TLV逐跳扩展的方式记录网络上每一跳的设备、链路情况。
本实施例中,自动故障诊断采用分布式架构,分为故障诊断控制器(TSC server)和故障诊断代理程序(TSA)。TSC运行在诊断服务器上,是整个故障诊断系统的服务端,提供cli界面供用户使用,负责诊断任务的下发,故障的收集和综合分析,TSA运行于设备作为TSC与设备CLI之间的桥梁处理和收集相关信息,在设备上的诊断代理程序,负责任务报文的发送和统计,单机故障信息的收集并上报。自动故障诊断功能包括链路监控、单机故障诊断、综合故障诊断。链路监控如图2所示(图2中AR表示接入路由器,AS表示接入交换机,Start PKT表示路径探测报文,End pkt表示end报文),包括以下步骤:
S101、由故障诊断控制器设置包括源目IP地址以及诊断报文内容配置的诊断任务,分别找到源目IP地址对应的任务首设备以及目的IP地址对应的任务尾设备,并向源目IP地址所在的任务首设备设下达诊断任务的指令;
S102、由任务首设备根据诊断任务的指令在设备转发平面发送路径探测报文,并通过设备转发平面查询路由信息,根据所述路由信息将路径探测报文发送至下一跳设备,针对该下一跳设备接收路径探测报文后开启诊断任务,并将所述路径探测报文再转发至下一跳设备,且利用TLV逐跳扩展的方式记录所述路径探测报文在设备传输过程中每一跳设备的路径信息;
S103、针对下一跳设备接收到转发后的路径探测报文后,判断该下一跳设备是否为任务尾设备,若是,则诊断任务开启成功,并丢弃所述路径探测报文,停止转发,并进入步骤S104,否则,返回步骤S102;
S104、由任务尾设备统一上报所述诊断任务的所有路径信息至故障诊断服务器,获取该诊断任务的转发路径,并进入步骤S2。
S201、基于所述转发路径,由任务首设备根据诊断任务主动发送诊断探测报文,并利用TLV逐跳扩展的方式由设备转发平面查询路由信息,并根据所述路由信息将诊断探测报文发送至下一跳设备;
S202、若下一跳设备为任务尾设备,由任务尾设备接收与记录诊断探测报文,停止转发并丢弃诊断探测报文;
S203、判断任务首设备是否主动发送完当前轮次的诊断探测报文,若是,则发送end报文,并标记与结束当前轮次的诊断任务,并进入步骤S204,否则,返回步骤S1;
S204、判断中间设备是否接收到end报文,若是,则完成对网络故障的诊断,否则,进行单机故障分析,并收集所有设备的当前状态,上传至故障诊断服务器,并根据所有设备的当前状态,由故障诊断服务器获取并分析整体任务路径上的探测信息;或
判断诊断探测报文的数量是否达到阈值,若是,则完成对网络故障的诊断,否则,进行单机故障分析,并收集所有设备的当前状态,上传至故障诊断服务器,并根据所有设备的当前状态,由故障诊断服务器获取并分析整体任务路径上的探测信息,完成对网络故障的诊断完成网络故障的诊断。
本实施例中,诊断任务的配置包括源目IP地址,探测报文的大小,速率等。S1步骤只需要根据配置的源目地址来发送报文,目的是为了获取任务源目地址在网络中的转发路径,只需要在任务首设备发送一个路径探测报文,中间设备在这个路径探测报文基础上增加路径信息,最后至尾设备获取完整路径后,上报到故障服务器。S2步骤是根据任务配置中的探测报文大小、速率等配置,按照轮次来发送诊断探测报文,比如报文大小为512字节,发送速率为1000pps,首设备在1s内发送1000个报文到尾设备,该任务路径上的所有设备需要统计本轮次收到的报文个数是否为1000个,如果不足1000个,则说明发生了丢包,并将信息上报到服务器,由服务器开始查询本轮探测的故障原因。
本实施例中,单机故障分析主要功能是针对诊断报文丢包时,尝试从设备内部板卡的状态、主要元器件的状态、设备之间的连接状态、转发统计、是否环路等方面查找丢包原因。单机故障分析的结果主要有两类:
可以明确丢包原因的故障:主要包括设备内部关键器件工作状态异常、设备板卡之间连接异常、设备接口没有link、光纤和光模块是否匹配、软件状态异常、报文内容错误等,这类故障上报到TSC后,可以根据相邻设备上报的故障,很容易分析出故障原因。
不明确丢包原因的故障:这种故障表现为偶尔会丢极少数的报文,通过单机故障诊断分析后,无法得出具体原因。此时只能将设备的一些关键信息综合整理后,上报到TSC,由TSC根据多台设备的状态,综合分析丢包原因。关键信息包括:设备状态、转发模块的各种统计计数、设备各个接口的带宽利用率等。
单机故障诊断只能诊断出本设备的故障原因,是否是真正导致网络异常的根本原因,单机诊断无法得出结论,比如当前设备接口down了,有可能是上一跳设备接口down导致,也可能导致下一跳设备接口down。当前设备硬件发包故障,会导致下一跳设备收不到诊断报文,在这些情况下,无法得出最终的原因。因此需要在TSC上启动综合故障诊断流程,由TSC结合多台设备上报的状态进行综合分析,综合故障诊断流程步骤如下:
A1、按顺序遍历所有设备的最新故障信息,找到各设备的最新故障信息;
A2、检查是否有离线设备,若是,则进入步骤A3,否则,返回步骤A1,其中,所述离线设备为未上传诊断任务的设备;
A3、根据检查结果,由故障诊断服务器按顺序分析每一个最新故障信息,完成获取并分析整体任务路径上的探测信息。
所述中按顺序分析每一个故障信息,其具体包括:按顺序依次分析丢包故障信息、分析线卡或子卡故障信息、分析接口故障信息、分析硬件收发包故障信息、分析EAP认证故障信息、分析路由故障信息以及分析离线设备故障信息。
所述分析丢包故障信息,其具体为:检查是否是第一个有效故障,且丢包率达到100%,是则设置故障分析结果为前一设备发生了故障;检查是否丢包,若是则设置故障分析结果为丢包并记录丢包信息;
所述分析线卡或子卡故障信息,其具体为:检查是否为线卡或子卡故障,若是,则设置分析结果为线卡故障,并记录故障信息;
所述分析接口故障信息,其具体为:检查是否是shutdown,若是,则设置故障分析结果为手动shutdown,否则,设置故障分析结果为接口故障,以及若是任务首设备输入接口故障,则设置故障分析结果为源link down,若是任务尾设备输出接口故障,则设置故障分析结果为目的link down;若前一个故障为输出接口故障,本故障为输入接口故障,且前一个故障的设备和本故障的设备中间隔着一个设备,且该中间隔着的设备失联,则设置故障分析结果为该中间隔着的设备故障,其中,shutdown故障一般是在设备上手动将接口关闭了,属于管理员对设备的操作;link down一般是线路故障,比如网线、光纤损坏,光纤和光模块不匹配等;
所述分析硬件收发包故障信息,其具体为:若是硬件收发包故障,则设置故障分析结果为硬件收发包错误,并找到第一台收包或发包错误的设备;
所述分析EAP认证故障信息,其具体为:若是未插UKEY,则设置故障分析结果为未插UKEY;若是任务首任务输入接口EAP认证故障,则设置故障分析结果为源认证失败,若是任务尾设备输出接口EAP认证故障,则设置故障分析结果为目的认证失败;若前一个故障为输出接口EAP认证故障,本故障为输入接口EAP认证故障,且前一个故障的设备和本故障的设备中间隔着一个中间设备,其中,若该中间设备失联,则设置故障分析结果为该中间设备不可用,若前后EAP认证故障均为对端且无UKEY,则设置故障分析结果为该设备无UKEY;若前一个故障设备与本故障设备相邻,则设置故障分析结果为EAP认证故障,并记录两端设备;若是EAP认证故障,则设置分析故障结果为EAP认证故障,并记录单个故障信息;
分析路由故障信息,其具体为:根据整体任务路径上的变化情况设置分析结果为路径切换或路由切换;
所述分析离线设备故障信息,其具体为:根据离线故障信息设置故障分析结果为源目的离线或设备离线。
本发明主动探测报文收集路径上网络设备的信息,分析网络状态和故障原因,可以为网络管理员智能化的网络管理方式,自动定位网络故障时间、地点以及故障原因,可以给管理员快速排除故障、恢复网络正常提供极大的帮助。
实施例2
如图3所示,本发明提供了一种网络故障诊断系统,包括:
设置诊断任务模块,用于由故障诊断服务器设置包括源目IP地址以及诊断报文内容配置的诊断任务,并将所述诊断任务下发至源目IP地址所在的任务首设备,通过所述任务首设备发送路径探测报文,并由中间设备收集每一跳设备的路径信息,并通过任务尾设备统一上报所述诊断任务的所有路径信息至故障诊断服务器,确定诊断任务的转发路径;
故障诊断模块,用于根据所述转发路径,利用源目IP地址对应的任务首设备主动发送诊断探测报文至目的IP地址对应的任务尾设备,并通过所有路径上的设备接收并解析诊断探测报文的内容,获取并分析整体任务路径上的探测信息,完成对网络故障的诊断。
如图3所示实施例提供的网络故障诊断系统可以执行上述方法实施例所示的技术方案,其实现原理与有益效果类似,此处不再赘述。
实施例3
本发明提供了一种电子设备,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现实施例1中任一所述的网络故障诊断方法。
本实施例中,电子设备可以包括:处理器,存储器,总线和通信接口,处理器、通信接口和存储器通过总线连接,存储器中存储有可在处理器上运行的计算机程序,处理器运行该计算机程序时执行本申请前述实施例1所提供的网络故障诊断方法。
实施例4
本发明提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序被处理器执行,以实现前述实施例1所提供的网络故障诊断方法。
上述计算机可读存储介质可以中由任何类型的易失性或非易失性存储设备或他们的组合实现,如静态随机存取存储器(SRAM),可擦除可维和只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘,可读存储介质可以是通用或专用计算机能够存取的任何可用介质。可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息,可读存储介质也可以是处理器组成部分,处理器和可读存储介质可以位于专用集成电路(ASIC)中,处理器和可读存储介质也可以作为分立组件存在于网络故障诊断系统中。
本申请的实施例可提供为方法、装置、或计算机程序产品,因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且本发明可采用一个或多个其中包括有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程和/或方框图来描述的,应理解可由计算机程序指令实现流程图和/或方框图中每一流程和/或方框图、以及流程图和/或方框图的结合,可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。这些计算机程序指令也可装到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图中一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

Claims (7)

1.一种网络故障诊断方法,其特征在于,包括以下步骤:
S1、由故障诊断服务器设置包括源目IP地址以及诊断报文内容配置的诊断任务,并将所述诊断任务下发至源目IP地址所在的任务首设备,通过所述任务首设备发送路径探测报文,并由中间设备收集每一跳设备的路径信息,并通过任务尾设备统一上报所述诊断任务的所有路径信息至故障诊断服务器,确定诊断任务的转发路径;
S2、根据所述转发路径,利用源目IP地址对应的任务首设备主动发送诊断探测报文至目的IP地址对应的任务尾设备,并通过所有路径上的设备接收并解析诊断探测报文的内容,获取并分析整体任务路径上的探测信息,完成对网络故障的诊断;
所述步骤S1包括以下步骤:
S101、由故障诊断控制器设置包括源目IP地址以及诊断报文内容配置的诊断任务,分别找到源目IP地址对应的任务首设备以及目的IP地址对应的任务尾设备,并向源目IP地址所在的任务首设备设下达诊断任务的指令;
S102、由任务首设备根据诊断任务的指令在设备转发平面发送路径探测报文,并通过设备转发平面查询路由信息,根据所述路由信息将路径探测报文发送至下一跳设备,针对该下一跳设备接收路径探测报文后开启诊断任务,并将所述路径探测报文再转发至下一跳设备,且利用TLV逐跳扩展的方式记录所述路径探测报文在设备传输过程中每一跳设备的路径信息;
S103、针对下一跳设备接收到转发后的路径探测报文后,判断该下一跳设备是否为任务尾设备,若是,则诊断任务开启成功,并丢弃所述路径探测报文,停止转发,并进入步骤S104,否则,返回步骤S102;
S104、由任务尾设备统一上报所述诊断任务的所有路径信息至故障诊断服务器,获取该诊断任务的转发路径,并进入步骤S2;
所述步骤S2包括以下步骤:
S201、基于所述转发路径,由任务首设备根据诊断任务主动发送诊断探测报文,并利用TLV逐跳扩展的方式由设备转发平面查询路由信息,并根据所述路由信息将诊断探测报文发送至下一跳设备;
S202、若下一跳设备为任务尾设备,由任务尾设备接收与记录诊断探测报文,停止转发并丢弃诊断探测报文;
S203、判断任务首设备是否主动发送完当前轮次的诊断探测报文,若是,则发送end报文,并标记与结束当前轮次的诊断任务,并进入步骤S204,否则,返回步骤S1;
S204、判断中间设备是否接收到end报文,若是,则完成对网络故障的诊断,否则,进行单机故障分析,并收集所有设备的当前状态,上传至故障诊断服务器,并根据所有设备的当前状态,由故障诊断服务器获取并分析整体任务路径上的探测信息;或
判断诊断探测报文的数量是否达到阈值,若是,则完成对网络故障的诊断,否则,进行单机故障分析,并收集所有设备的当前状态,上传至故障诊断服务器,并根据所有设备的当前状态,由故障诊断服务器获取并分析整体任务路径上的探测信息,完成对网络故障的诊断完成网络故障的诊断。
2.根据权利要求1所述的网络故障诊断方法,其特征在于,所述步骤S204中由故障诊断服务器获取并分析整体任务路径上的探测信息,其具体为:
A1、按顺序遍历所有设备的最新故障信息,找到各设备的最新故障信息;
A2、检查是否有离线设备,若是,则进入步骤A3,否则,返回步骤A1,其中,所述离线设备为未上传诊断任务的设备;
A3、根据检查结果,由故障诊断服务器按顺序分析每一个最新故障信息,完成获取并分析整体任务路径上的探测信息。
3.根据权利要求2所述的网络故障诊断方法,其特征在于,所述步骤A3中按顺序分析每一个最新故障信息,其具体包括:按顺序依次分析丢包故障信息、分析线卡或子卡故障信息、分析接口故障信息、分析硬件收发包故障信息、分析EAP认证故障信息、分析路由故障信息以及分析离线设备故障信息。
4.根据权利要求3所述的网络故障诊断方法,其特征在于,所述分析丢包故障信息,其具体为:检查是否是第一个有效故障,且丢包率达到100%,是则设置故障分析结果为当前设备的上一个转发节点发生了故障;检查是否丢包,若是则设置故障分析结果为丢包并记录丢包信息;
所述分析线卡或子卡故障信息,其具体为:检查是否为线卡或子卡故障,若是,则设置分析结果为线卡故障,并记录故障信息;
所述分析接口故障信息,其具体为:检查是否是shutdown,若是,则设置故障分析结果为手动shutdown,否则,设置故障分析结果为接口故障,以及若是任务首设备输入接口故障,则设置故障分析结果为源link down,若是任务尾设备输出接口故障,则设置故障分析结果为目的link down;若前一个故障为输出接口故障,本故障为输入接口故障,且前一个故障的设备和本故障的设备中间隔着一个设备,且该中间隔着的设备失联,则设置故障分析结果为该中间隔着的设备故障;
所述分析硬件收发包故障信息,其具体为:若是硬件收发包故障,则设置故障分析结果为硬件收发包错误,并找到第一台收包或发包错误的设备;
所述分析EAP认证故障信息,其具体为:若是未插UKEY,则设置故障分析结果为未插UKEY;若是任务首设备输入接口EAP认证故障,则设置故障分析结果为源认证失败,若是任务尾设备输出接口EAP认证故障,则设置故障分析结果为目的认证失败;若前一个故障为输出接口EAP认证故障,本故障为输入接口EAP认证故障,且前一个故障的设备和本故障的设备中间隔着一个中间设备,其中,若该中间设备失联,则设置故障分析结果为该中间设备不可用,若前后EAP认证故障均为对端且无UKEY,则设置故障分析结果为该中间设备无UKEY;若前一个故障设备与本故障设备相邻,则设置故障分析结果为EAP认证故障,并记录两端设备;若是EAP认证故障,则设置分析故障结果为EAP认证故障,并记录单个故障信息;
分析路由故障信息,其具体为:根据整体任务路径上的变化情况设置分析结果为路径切换或路由切换;
所述分析离线设备故障信息,其具体为:根据离线故障信息设置故障分析结果为源或目的离线,所述离线设备为未上传诊断任务的设备。
5.一种执行如权利要求1-4任一所述的网络故障诊断方法的网络故障诊断系统,其特征在于,包括:
设置诊断任务模块,用于由故障诊断服务器设置包括源目IP地址以及诊断报文内容配置的诊断任务,并将所述诊断任务下发至源目IP地址所在的任务首设备,通过所述任务首设备发送路径探测报文,并由中间设备收集每一跳设备的路径信息,并通过任务尾设备统一上报所述诊断任务的所有路径信息至故障诊断服务器,确定诊断任务的转发路径;
故障诊断模块,用于根据所述转发路径,利用源目IP地址对应的任务首设备主动发送诊断探测报文至目的IP地址对应的任务尾设备,并通过所有路径上的设备接收并解析诊断探测报文的内容,获取并分析整体任务路径上的探测信息,完成对网络故障的诊断。
6.一种电子设备,其特征在于,包括存储器、处理器及存储在所述存储器上并在所述处理器上运行的计算机程序,所述处理器执行所述程序,以实现权利要求1-4中任一所述的网络故障诊断方法。
7.一种计算机可读存储介质,其存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现如权利要求1-4中任一所述的网络故障诊断方法。
CN202110962026.4A 2021-08-20 2021-08-20 一种网络故障诊断方法、系统、电子设备及存储介质 Active CN113708995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110962026.4A CN113708995B (zh) 2021-08-20 2021-08-20 一种网络故障诊断方法、系统、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110962026.4A CN113708995B (zh) 2021-08-20 2021-08-20 一种网络故障诊断方法、系统、电子设备及存储介质

Publications (2)

Publication Number Publication Date
CN113708995A CN113708995A (zh) 2021-11-26
CN113708995B true CN113708995B (zh) 2023-04-07

Family

ID=78653717

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110962026.4A Active CN113708995B (zh) 2021-08-20 2021-08-20 一种网络故障诊断方法、系统、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113708995B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114866398B (zh) * 2022-03-24 2024-01-09 阿里巴巴(中国)有限公司 网络故障诊断方法及装置
CN116938808B (zh) * 2022-03-30 2024-09-24 腾讯科技(深圳)有限公司 信息处理方法、装置、设备、存储介质及计算机程序产品
CN114760225B (zh) * 2022-03-31 2024-10-11 深信服科技股份有限公司 一种故障诊断方法、系统和存储介质
CN115242621B (zh) * 2022-07-21 2024-01-02 北京天一恩华科技股份有限公司 网络专线监控方法、装置、设备及计算机可读存储介质
CN115348153B (zh) * 2022-08-15 2023-07-18 中国联合网络通信集团有限公司 转发设备的控制方法、装置、设备及存储介质
CN116074184B (zh) * 2023-03-21 2023-06-27 云南莱瑞科技有限公司 一种电力调度中心网络故障预警系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106612211A (zh) * 2015-10-23 2017-05-03 华为技术有限公司 VxLAN中的路径探测方法,控制器和网络设备
CN109495322A (zh) * 2018-12-25 2019-03-19 华为技术有限公司 网络故障定位方法、相关设备及计算机存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101192997A (zh) * 2006-11-24 2008-06-04 中国科学院沈阳自动化研究所 分布式设备远程状态监测与故障诊断系统
CN104270268B (zh) * 2014-09-28 2017-12-05 曙光信息产业股份有限公司 一种分布式系统网络性能分析及故障诊断方法
CN105743711B (zh) * 2016-04-13 2019-10-18 华为技术有限公司 一种网络路径的故障检测方法、装置及网络设备
CN106789430B (zh) * 2016-12-26 2019-11-05 深圳市风云实业有限公司 一种点到点链路故障检测方法
CN109428741A (zh) * 2017-08-22 2019-03-05 中兴通讯股份有限公司 一种网络故障的检测方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106612211A (zh) * 2015-10-23 2017-05-03 华为技术有限公司 VxLAN中的路径探测方法,控制器和网络设备
CN109495322A (zh) * 2018-12-25 2019-03-19 华为技术有限公司 网络故障定位方法、相关设备及计算机存储介质

Also Published As

Publication number Publication date
CN113708995A (zh) 2021-11-26

Similar Documents

Publication Publication Date Title
CN113708995B (zh) 一种网络故障诊断方法、系统、电子设备及存储介质
US10103851B2 (en) Network link monitoring and testing
US7213179B2 (en) Automated and embedded software reliability measurement and classification in network elements
CN112564964B (zh) 一种基于软件定义网络的故障链路检测与恢复方法
US7010718B2 (en) Method and system for supporting network system troubleshooting
US7036049B2 (en) System and method for collecting statistics for a communication network
JP5207082B2 (ja) コンピュータシステム、及びコンピュータシステムの監視方法
US7430688B2 (en) Network monitoring method and apparatus
CN102158360A (zh) 一种基于时间因子因果关系定位的网络故障自诊断方法
CN111740877B (zh) 一种链路检测方法及系统
CN114338509B (zh) 一种基于带内网络遥测技术的数据包转发环路实时检测系统及检测方法
CN110071843B (zh) 一种基于流路径分析的故障定位方法及装置
CN113098725B (zh) 一种双网交织异常检测方法及系统
CN112003747A (zh) 云虚拟网关的故障定位方法
CN110932878A (zh) 一种分布式网络的管理方法、设备及系统
CN114244682B (zh) 一种设备告警丢失补漏方法及装置
CN114553678B (zh) 一种云网络软slb流量问题的诊断方法
JP2013030927A (ja) ネットワーク分析システム、並びに、ネットワーク分析装置及びネットワーク分析プログラム、並びに、データ処理モジュール及びデータ処理プログラム
KR100887874B1 (ko) 인터넷 망의 장애 관리 시스템 및 그 방법
CN101431435A (zh) 一种基于面向连接的业务配置与管理方法
CN113132140B (zh) 一种网络故障检测方法、装置、设备及存储介质
CN110896545B (zh) 在线计费漫游故障定位方法及相关装置、存储介质
CN114500247A (zh) 工控网络故障诊断方法、装置、电子设备及可读存储介质
CN107846292B (zh) 防止故障处理延迟的方法和装置
CN118483976B (zh) 集散控制系统、交换机环网监测方法、装置和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant