CN114157554B - 故障排查方法、装置、存储介质及计算机设备 - Google Patents

故障排查方法、装置、存储介质及计算机设备 Download PDF

Info

Publication number
CN114157554B
CN114157554B CN202111575496.1A CN202111575496A CN114157554B CN 114157554 B CN114157554 B CN 114157554B CN 202111575496 A CN202111575496 A CN 202111575496A CN 114157554 B CN114157554 B CN 114157554B
Authority
CN
China
Prior art keywords
source address
address
data packet
network
route tracking
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111575496.1A
Other languages
English (en)
Other versions
CN114157554A (zh
Inventor
王志伟
吉文海
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Vipshop Guangzhou Software Co Ltd
Original Assignee
Vipshop Guangzhou Software Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Vipshop Guangzhou Software Co Ltd filed Critical Vipshop Guangzhou Software Co Ltd
Priority to CN202111575496.1A priority Critical patent/CN114157554B/zh
Publication of CN114157554A publication Critical patent/CN114157554A/zh
Application granted granted Critical
Publication of CN114157554B publication Critical patent/CN114157554B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • H04L41/065Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis involving logical or physical relationship, e.g. grouping and hierarchies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/12Discovery or management of network topologies
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/10Active monitoring, e.g. heartbeat, ping or trace-route

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Health & Medical Sciences (AREA)
  • Cardiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明提供的故障排查方法、装置、存储介质及计算机设备,可以依据获取到的路由追踪结果来确定数据包从源地址传输至目标地址时途径的网络设备,并生成网络拓扑图,由于网络拓扑图中包含各网络设备之间的端口连接关系,及各端口的指标数据,因此,可以根据预设的故障指标阈值来对网络拓扑图中各端口的指标数据进行排查,以确定网络拓扑图中各端口的指标数据是否异常,并将排查结果进行展示;上述过程中,数据包从源地址传输至目标地址时途径的网络设备、网络拓扑图的生成以及故障排查均可以自动完成,无需人工干预,可快速提升运维效率,降低运维成本。

Description

故障排查方法、装置、存储介质及计算机设备
技术领域
本发明涉及网络运维技术领域,尤其涉及一种故障排查方法、装置、存储介质及计算机设备。
背景技术
目前,当数据中心出现服务器之间通信异常时,现有的网络故障排查方法一般分为如下4个步骤:
步骤1、利用traceroute工具,查找互相通信的服务器之间经过的IP;
步骤2、查询步骤1中的IP对应的网络设备;
步骤3、利用线下的端口连接表或者网管工具的LLDP表,查找步骤2中各网络设备之间的互联接口;
步骤4、查询步骤3中的互联接口对应的CRC、discard等,并根据查询结果进行故障排查。
由上述内容可知,现有的网络故障排查方法需要多个排查工具一起操作,并需要大量的人工查询操作,该过程耗费的时间较长,且操作较为复杂,导致故障排查的准确率较低。
发明内容
本发明的目的旨在至少能解决上述的技术缺陷之一,特别是现有技术中的网络故障排查方法耗费的时间较长,且操作较为复杂,导致故障排查的准确率较低的技术缺陷。
本发明提供了一种故障排查方法,其特征在于,所述方法包括:
获取数据包从源地址传输至目标地址的路由追踪结果;
基于所述路由追踪结果确定所述数据包从所述源地址传输至所述目标地址时途径的网络设备,并生成相应的网络拓扑图,所述网络拓扑图包含各网络设备之间的端口连接关系,及各端口的指标数据;
根据预设的故障指标阈值对所述网络拓扑图中各端口的指标数据进行排查,确定所述网络拓扑图中各端口的指标数据是否异常,并将排查结果进行显示。
可选地,所述获取数据包从源地址传输至目标地址的路由追踪结果的步骤之前,还包括:
从数据中心交换机处采集网络中所有的交换机信息;
利用采集到的所述网络中所有的交换机信息构建网络设备互联信息,并确定所述网络设备互联信息中各个网络设备之间的层级关系。
可选地,所述获取数据包从源地址传输至目标地址的路由追踪结果的步骤,包括:
接收用户输入的源地址和目标地址;
确定与所述源地址对应的服务器中是否安装有远程指令探针;
若有,则向所述源地址对应的服务器发送路由追踪指令,所述路由追踪指令用于供所述源地址对应的服务器中的远程指令探针通过操作系统指令向所述目标地址发送携带有数据包的路由追踪请求,并由所述目标地址对应的服务器操作系统向所述源地址对应的服务器返回路由追踪结果;
从所述源地址对应的服务器中获取所述数据包从所述源地址传输至所述目标地址的路由追踪结果。
可选地,若确定与所述源地址对应的服务器中未安装远程指令探针,所述方法还包括:
通过远程控制指令调用与所述源地址对应的服务器的登录界面;
在检测到用户登录所述源地址对应的服务器,并执行向所述目标地址发送携带有数据包的路由追踪请求后,获取所述目标地址对应的服务器返回的所述数据包从所述源地址传输至所述目标地址的路由追踪结果。
可选地,基于所述路由追踪结果确定所述数据包从所述源地址传输至所述目标地址时途径的网络设备的步骤,包括:
按照所述路由追踪结果中的源地址和目标地址,从数据库中查找与所述源地址对应的服务器的第一接入交换机,以及与所述目标地址对应的服务器的第二接入交换机;
按照所述路由追踪结果中的途径地址,从所述数据库中查找所述数据包从所述第一接入交换机传输至所述第二接入交换机时途径的中间交换机;
将所述第一接入交换机、所述第二接入交换机以及所述中间交换机作为所述数据包从所述源地址传输至所述目标地址时途径的网络设备。
可选地,所述生成相应的网络拓扑图的步骤,包括:
在数据库中查找所述数据包从所述源地址传输至所述目标地址时途径的网络设备之间的端口连接关系;
获取所述数据包从所述源地址传输至所述目标地址时,各端口的指标数据;
根据所述端口连接关系及各端口的指标数据生成对应的网络拓扑图。
可选地,所述根据预设的故障指标阈值对所述网络拓扑图中各端口的指标数据进行排查,确定所述网络拓扑图中各端口的指标数据是否异常的步骤,包括:
确定与预设查询时段对应的所述网络拓扑图中各端口的指标数据;
将预设的故障指标阈值与所述网络拓扑图中各端口的指标数据进行比对,根据比对结果确定所述网络拓扑图中各端口的指标数据是否异常。
本发明还提供了一种故障排查装置,包括:
结果获取模块,用于获取数据包从源地址传输至目标地址的路由追踪结果;
拓扑生成模块,用于基于所述路由追踪结果确定所述数据包从所述源地址传输至所述目标地址时途径的网络设备,并生成相应的网络拓扑图,所述网络拓扑图包含各网络设备之间的端口连接关系,及各端口的指标数据;
故障排查模块,用于根据预设的故障指标阈值对所述网络拓扑图中各端口的指标数据进行排查,确定所述网络拓扑图中各端口的指标数据是否异常,并将排查结果进行显示。
本发明还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述故障排查方法的步骤。
本发明还提供了一种计算机设备,所述计算机设备中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述故障排查方法的步骤。
从以上技术方案可以看出,本发明实施例具有以下优点:
本发明提供的故障排查方法、装置、存储介质及计算机设备,在进行故障排查时,首先可以获取数据包从源地址传输至目标地址的路由追踪结果,然后基于该路由追踪结果来确定数据包从源地址传输至目标地址时途径的网络设备,并生成相应的网络拓扑图,由于网络拓扑图中包含各网络设备之间的端口连接关系,及各端口的指标数据,因此,可以根据预设的故障指标阈值来对网络拓扑图中各端口的指标数据进行排查,以确定网络拓扑图中各端口的指标数据是否异常,并将排查结果进行展示;与现有技术相比,本申请中数据包从源地址传输至目标地址时途径的网络设备、网络拓扑图的生成以及故障排查均可以自动完成,无需人工干预,可快速提升运维效率,降低运维成本,并且,本申请后续可以通过增加采集其他设备指标的方式,来增加故障分析的维度,从而进一步提高本申请的可扩展性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
图1为本发明实施例提供的一种故障排查方法的流程示意图;
图2为本发明实施例提供的端口指标趋势数据的页面展示图;
图3为本发明实施例提供的一种源地址到目标地址的traceroute查询页面展示图;
图4为本发明实施例提供的另一种源地址到目标地址的traceroute查询页面展示图;
图5为本发明实施例提供的服务器10.224.1.23与服务器10.141.75.37之间的网络拓扑图;
图6为本发明实施例提供的一种故障排查装置的结构示意图;
图7为本发明实施例提供的一种计算机设备的内部结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
目前,现有的网络故障排查方法需要多个排查工具一起操作,并需要大量的人工查询操作,该过程耗费的时间较长,且操作较为复杂,导致故障排查的准确率较低。
基于此,本申请提出如下技术方案,具体参加下文所示:
在一个实施例中,如图1所示,图1为本发明实施例提供的一种故障排查方法的流程示意图;本发明提供了一种故障排查方法,所述方法可以包括:
S110:获取数据包从源地址传输至目标地址的路由追踪结果。
本步骤中,当需要对两个服务器之间的通信异常进行具体的故障排查与定位时,可以先获取数据包从源地址传输至目标地址的路由追踪结果,接着根据该路由追踪结果来进行故障排查。
需要说明的是,这里的源地址指的是发送数据包的服务器对应的IP地址;这里的目标地址指的是接收数据包的服务器对应的IP地址;这里的路由追踪结果指的是数据包从源地址传输至目标地址的过程中途径的网络设备及其对应的IP地址;可以理解的是,在互联网中,信息的传送是通过互联网中许多段的传输介质和网络设备(如路由器,交换机,服务器,网关等)从一端到达另一端,每一个连接在Internet上的网络设备,如主机、路由器、接入服务器等一般情况下都会有一个独立的IP地址。
进一步地,本申请在获取数据包从源地址传输至目标地址的路由追踪结果时,可以使用traceroute命令来获取路由追踪结果。可以理解的是,traceroute命令主要是利用ICMP协议定位源地址和目标地址之间的所有路由器,通过执行traceroute命令可以知道信息从一端主机到互联网另一端主机走的怎样路径。在linux系统中一般称为traceroute命令,而在MS Windows中称之为tracert命令。traceroute命令通过发送小的数据包到目的设备直到其返回,来测量其需要多长时间,输出结果中包括每次测试的时间(ms)、网络设备的名称及其IP地址。
例如,当检测到服务器10.224.1.23到服务器10.141.75.37之间有通信异常,需要快速定位网络故障位置时,可以用服务器拓扑展示的输入模块,单独查看服务器所在机房的网络拓扑结构,如查看服务器10.224.1.23与服务器10.141.75.37两台服务器中各自的网络情况。接着,可以在服务器10.224.1.23中执行traceroute命令来获取服务器10.224.1.23与服务器10.141.75.37之间的路由追踪结果,以便根据获取到的路由追踪结果来进行故障排查。
S120:基于路由追踪结果确定数据包从源地址传输至目标地址时途径的网络设备,并生成相应的网络拓扑图。
本步骤中,通过S110获取到数据包从源地址传输至目标地址的路由追踪结果后,可以根据该路由追踪结果来确定数据包从源地址传输至目标地址时途径的网络设备,并生成网络拓扑图。
由上述内容可知,本申请获取到的路由追踪结果中包含有数据包从源地址传输至目标地址的过程中途径的网络设备及其对应的IP地址,因此,当获取到路由追踪结果后,可以根据该路由追踪结果来确定数据包从源地址传输至目标地址时途径的网络设备。并且,系统预先采集获得了网络设备各端口的邻居信息,依据该信息提前构建了网络设备之间的端口互联关系。如此通过路由追踪结果的IP地址对应到网络设备,再由网络设备的端口互联关系共同构建生成了路径拓扑图,接着再结合各个端口的指标数据,即生成了最终附带指标数据的网络拓扑图。
可以理解的是,本申请为了构建不同网络设备之间的网络拓扑关系,进而通过数据中心交换机等来获取整个互联网中各个网络设备的连接关系信息,即设备互联信息;并且,本申请为了构建具有层次感的网络拓扑关系,预先为每一类网络设备在网络拓扑中设置对应的层级,以及各个网络设备之间的层级关系;另外,本申请为了能够分析异常,并查看趋势数据,预先采集各个网络设备的端口对应的历史指标数据和实时指标数据,从而为后续进行故障排查进行数据基础。
进一步地,本申请中各个端口的指标数据包括但不限于CRC、discard、接收数据包数/字节数、发送数据包数/字节数、接口收发光功率、接口收发速率、接口协商速率,还可以包括CPU利用率、内存利用率、syslog告警、TRAP告警等,具体可以依据实际情况进行设置,并可以实时更新。
S130:根据预设的故障指标阈值对网络拓扑图中各端口的指标数据进行排查,确定网络拓扑图中各端口的指标数据是否异常,并将排查结果进行显示。
本步骤中,通过S120确定数据包从源地址传输至目标地址时途径的网络设备,并生成相应的网络拓扑图后,可以根据预设的故障指标阈值对网络拓扑图中各个端口的指标数据进行排查,确定网络拓扑图中各个端口的指标数据是否异常,并将最终的排查结果进行显示。
具体地,在判断网络拓扑图中各个端口的端口指标是否异常时,可以根据预设的故障指标阈值来进行判断,而这里的故障指标阈值可以是不同类型的指标数据对应的故障指标阈值,例如针对接口收发光功率、接口收发速率、接口协商速率等指标数据,可以设置与接口收发光功率对应的故障指标阈值、与接口收发速率对应的故障指标阈值,以及与接口协商速率对应的故障指标阈值。
当确定不同类型的指标数据对应的故障指标阈值后,可以将该故障指标阈值与对应端口的指标数据进行比对,从而确定网络拓扑图中各端口的指标数据是否异常,并将排查结果进行显示。
示意性地,如图2所示,图2为本发明实施例提供的端口指标趋势数据的页面展示图;图2中的端口指标趋势图的横坐标为时间,纵坐标为指标值,通过查看横纵坐标的趋势数据,运维人员可以很清晰地查看某一时间范围内所选定的指标的波动,通过这些波动即可判断异常情况。
进一步地,本申请在选择了指标项的前提下,点击网络拓扑图中任意的网络设备与连接,都可以查看网络设备或者连接中包含的端口指标趋势数据,方便对异常影响进行判断。
上述实施例中,在进行故障排查时,首先可以获取数据包从源地址传输至目标地址的路由追踪结果,然后基于该路由追踪结果来确定数据包从源地址传输至目标地址时途径的网络设备,并生成相应的网络拓扑图,由于网络拓扑图中包含各网络设备之间的端口连接关系,及各端口的指标数据,因此,可以根据预设的故障指标阈值来对网络拓扑图中各端口的指标数据进行排查,以确定网络拓扑图中各端口的指标数据是否异常,并将排查结果进行展示;与现有技术相比,本申请中数据包从源地址传输至目标地址时途径的网络设备、网络拓扑图的生成以及故障排查均可以自动完成,无需人工干预,可快速提升运维效率,降低运维成本,并且,本申请后续可以通过增加采集其他设备指标的方式,来增加故障分析的维度,从而进一步提高本申请的可扩展性。
在一个实施例中,S110获取数据包从源地址传输至目标地址的路由追踪结果的步骤之前,还可以包括:
S101:从数据中心交换机处采集网络中所有的交换机信息。
S102:利用采集到的所述网络中所有的交换机信息构建网络设备互联信息,并确定所述网络设备互联信息中各个网络设备之间的层级关系。
本实施例中,为了构建不同网络设备之间的网络拓扑关系,可以从数据中心交换机处采集网络中所有的交换机信息,并利用采集到的网络中所有的交换机信息构建网络设备互联信息;并且,本申请为了构建具有层次感的网络拓扑关系,预先为每一类网络设备在网络拓扑中设置对应的层级,并确定网络设备互联信息中各个网络设备之间的层级关系。
具体地,本申请中,采集器可以定期通过SNMP/CLI从数据中心交换机处采集如下交换机信息,并写入相关数据库:
i.接入交换机的ARP/MAC表;
ii.所有交换机的接口IP;
iii.所有交换机LLDP邻居表;
iv.所有交换机接口指标,包括:CRC、discard、接收数据包数/字节数、发送数据包数/字节数、接口收发光功率、接口收发速率、接口协商速率等。
当采集到上述交换机信息后,可以通过ARP/MAC、LLDP、接口IP等数据来构建设备互联信息,并通过前端配置页面,配置每一类网络设备所处的层级,以及各个网络设备之间的层级关系,从而构建具有层次感的网络拓扑关系。
在一个实施例中,S110中获取数据包从源地址传输至目标地址的路由追踪结果的步骤,可以包括:
S111:接收用户输入的源地址和目标地址。
S112:确定与所述源地址对应的服务器中是否安装有远程指令探针。
S113:若有,则向所述源地址对应的服务器发送路由追踪指令,所述路由追踪指令用于供所述源地址对应的服务器中的远程指令探针通过操作系统指令向所述目标地址发送携带有数据包的路由追踪请求,并由所述目标地址对应的服务器操作系统向所述源地址对应的服务器返回路由追踪结果。
S114:从所述源地址对应的服务器中获取所述数据包从所述源地址传输至所述目标地址的路由追踪结果。
本实施例中,在获取数据包从源地址传输至目标地址的路由追踪结果时,首先可以根据用户输入的源地址来确定源地址对应的服务器中是否安装有远程指令探针,若服务器中安装有远程指令探针,则可以向源地址对应的服务器发送路由追踪指令,当源地址对应的服务器中的远程指令探针接收到该路由追踪指令后,可以根据该路由追踪指令向目标地址发送携带有数据包的路由追踪请求,当目标地址对应的服务器操作系统接收到该路由追踪请求后,可以响应于该路由追踪请求,向源地址对应的服务器返回路由追踪结果,接着,系统可以从源地址对应的服务器中获取数据包从所述源地址传输至目标地址的路由追踪结果。
在一种具体的实现方式中,本申请为了能够进行traceroute查询,系统可以预先在每一台服务器上安装有远程指令系统,允许其他系统通过远程指令系统调用每一台服务器的指令,并进行汇总操作。接着,本申请可以使用服务器至服务器的traceroute展示的源地址、目标地址输入模块来输入源地址和目标地址。如图3所示,图3为本发明实施例提供的一种源地址到目标地址的traceroute查询页面展示图,通过该页面展示图中的相应输入框可以输入源地址和目标地址,并点击traceroute查询进行查询操作,进行traceroute查询时,系统会通过部署在每一台服务器上的探针,向源地址对应的服务器请求路由追踪结果,源地址对应的服务器中的探针收到请求后,会向目标地址发送traceroute请求,目标地址对应的服务器根据该traceroute请求返回相应的路由追踪结果,当源地址对应的服务器获得路由追踪结果后,可以通过探针返回给系统,系统再通过路由追踪结果来结合现有的设备连接关系数据,分析路径的网络情况。
进一步地,如图3所示,在进行traceroute查询时,还可以输入相应的查询时间和查询指标,以便更为精准的进行故障排查。
在一个实施例中,若确定与所述源地址对应的服务器中未安装远程指令探针,所述方法还可以包括:
S115:通过远程控制指令调用与所述源地址对应的服务器的登录界面。
S116:在检测到用户登录所述源地址对应的服务器,并手动执行向所述目标地址发送携带有数据包的路由追踪请求后,获取所述目标地址对应的服务器返回的所述数据包从所述源地址传输至所述目标地址的路由追踪结果。
本实施例中,当源地址对应的服务器中未安装有远程指令探针,本申请可以通过远程控制指令调用与所述源地址对应的服务器的登录界面,用户可以在该登录界面中登录源地址对应的服务器,当系统检测到用户登录源地址对应的服务器,并手动执行向目标地址发送携带有数据包的路由追踪请求后,系统可以获取目标地址对应的服务器返回的路由追踪结果,并根据该路由追踪结果来生成相应的网络拓扑图。
具体地,如图4所示,图4为本发明实施例提供的另一种源地址到目标地址的traceroute查询页面展示图;当用户自行登陆到源地址对应的服务器10.224.1.23,并向目标地址对应的服务器10.141.75.37执行路由追踪请求后,可以得到目标地址对应的服务器返回的路由追踪结果,接着,用户可以将该路由追踪结果复制粘贴至图4中的文本框中,当系统获取到路由追踪结果、源地址、目标地址后,可以根据用户点击的查询操作进行traceroute查询,并自动生成traceroute的拓扑路径,以及分析traceroute路径的网络情况。
进一步地,如图4所示,在进行traceroute查询时,还可以输入相应的查询时间和查询指标,以便更为精准的进行故障排查。
在一个实施例中,S120中基于所述路由追踪结果确定所述数据包从所述源地址传输至所述目标地址时途径的网络设备的步骤,可以包括:
S121:按照所述路由追踪结果中的源地址和目标地址,从数据库中查找与所述源地址对应的服务器的第一接入交换机,以及与所述目标地址对应的服务器的第二接入交换机。
S122:按照所述路由追踪结果中的途径地址,从所述数据库中查找所述数据包从所述第一接入交换机传输至所述第二接入交换机时途径的中间交换机。
S123:将所述第一接入交换机、所述第二接入交换机以及所述中间交换机作为所述数据包从所述源地址传输至所述目标地址时途径的网络设备。
本实施例中,当获取到路由追踪结果后,可以将该路由追踪结果录入到分析器中,分析器可以自动按照路由追踪结果中的源地址、目标地址,在“ARP/MAC”数据库中进行检索,定位出源地址对应的服务器的第一接入交换机,以及目标地址对应的服务器的第二交换机。
接着,分析器可以自动按照路由追踪结果中的途经地址,从“接口IP”数据库中查找对应的中间交换机,并依据设备互联信息与设备层级数据,可得出途经的逐跳的所有网络设备,从而生成相应的网络拓扑图。
在一个实施例中,S120中生成相应的网络拓扑图的步骤,可以包括:
S210:在数据库中查找所述数据包从所述源地址传输至所述目标地址时途径的网络设备之间的端口连接关系。
S211:获取所述数据包从所述源地址传输至所述目标地址时,各端口的指标数据。
S212:根据所述端口连接关系及各端口的指标数据生成对应的网络拓扑图。
本实施例中,当获取到路由追踪结果后,可以将该路由追踪结果录入到分析器中,分析器可以自动按照途经的逐跳的所有网络设备,从“设备互联信息”数据库中查找各个网络设备之间的端口连接关系,并获取数据包从源地址传输至目标地址时,各端口的指标数据,接着根据端口连接关系及各端口的指标数据来生成对应的网络拓扑图。
如图5所示,图5为本发明实施例提供的服务器10.224.1.23与服务器10.141.75.37之间的网络拓扑图;图5中,服务器10.224.1.23中的数据包首先经过IDC-接入交换机10.204.122.42到达IDC-汇聚交换机10.204.122.6,接着数据包分别经过两路中间交换机后到达IDC-接入交换机10.204.123.198,最终通过IDC-接入交换机10.204.123.198到达服务器10.141.75.37。
在一个实施例中,S130中根据预设的故障指标阈值对所述网络拓扑图中各端口的指标数据进行排查,确定所述网络拓扑图中各端口的指标数据是否异常的步骤,可以包括:
S131:确定与预设查询时段对应的所述网络拓扑图中各端口的指标数据。
S132:将预设的故障指标阈值与所述网络拓扑图中各端口的指标数据进行比对,根据比对结果确定所述网络拓扑图中各端口的指标数据是否异常。
本实施例中,当生成网络拓扑图后,可以确定与预设查询时段对应的网络拓扑图中各端口的指标数据,并将预设的故障指标阈值与网络拓扑图中各端口的指标数据进行比对,再根据比对结果来判断网络拓扑图中各端口的指标数据是否异常。
例如,运维人员可以定义故障指标阈值,如“CRC>=1”、“discard>=1”等,分析器获取到该故障指标阈值后,可以自动将网络拓扑图中所有的链路对应的端口的指标数据与该故障指标阈值进行比对,并将符合故障指标阈值定义条件的线路标红色,方便用户查看。
下面对本申请实施例提供的故障排查装置进行描述,下文描述的故障排查装置与上文描述的故障排查方法可相互对应参照。
在一个实施例中,如图6所示,图6为本发明实施例提供的一种故障排查装置的结构示意图;本发明还提供了一种故障排查装置,包括结果获取模块210、拓扑生成模块220、故障排查模块230,具体包括如下:
结果获取模块210,用于获取数据包从源地址传输至目标地址的路由追踪结果。
拓扑生成模块220,用于基于所述路由追踪结果确定所述数据包从所述源地址传输至所述目标地址时途径的网络设备,并生成相应的网络拓扑图,所述网络拓扑图包含各网络设备之间的端口连接关系,及各端口的指标数据。
故障排查模块230,用于根据预设的故障指标阈值对所述网络拓扑图中各端口的指标数据进行排查,确定所述网络拓扑图中各端口的指标数据是否异常,并将排查结果进行显示。
上述实施例中,在进行故障排查时,首先可以获取数据包从源地址传输至目标地址的路由追踪结果,然后基于该路由追踪结果来确定数据包从源地址传输至目标地址时途径的网络设备,并生成相应的网络拓扑图,由于网络拓扑图中包含各网络设备之间的端口连接关系,及各端口的指标数据,因此,可以根据预设的故障指标阈值来对网络拓扑图中各端口的指标数据进行排查,以确定网络拓扑图中各端口的指标数据是否异常,并将排查结果进行展示;与现有技术相比,本申请中数据包从源地址传输至目标地址时途径的网络设备、网络拓扑图的生成以及故障排查均可以自动完成,无需人工干预,可快速提升运维效率,降低运维成本,并且,本申请后续可以通过增加采集其他设备指标的方式,来增加故障分析的维度,从而进一步提高本申请的可扩展性。
在一个实施例中,所述装置还可以包括:
信息获取模块,用于从数据中心交换机处采集网络中所有的交换机信息。
层级关系确定模块,用于利用采集到的所述网络中所有的交换机信息构建网络设备互联信息,并确定所述网络设备互联信息中各个网络设备之间的层级关系。
在一个实施例中,所述结果获取模块210可以包括:
地址接收模块,用于接收用户输入的源地址和目标地址。
探针确定模块,用于确定与所述源地址对应的服务器中是否安装有远程指令探针。
路由追踪模块,用于若有,则向所述源地址对应的服务器发送路由追踪指令,所述路由追踪指令用于供所述源地址对应的服务器中的远程指令探针通过操作系统指令向所述目标地址发送携带有数据包的路由追踪请求,并由所述目标地址对应的服务器中的操作系统向所述源地址对应的服务器返回路由追踪结果。
第一结果获取子模块,用于从所述源地址对应的服务器中获取所述数据包从所述源地址传输至所述目标地址的路由追踪结果。
在一个实施例中,若确定与所述源地址对应的服务器中未安装远程指令探针,所述装置还可以包括:
登录模块,用于通过远程控制指令调用与所述源地址对应的服务器的登录界面。
第二结果获取子模块,用于在检测到用户登录所述源地址对应的服务器,并手动执行向所述目标地址发送携带有数据包的路由追踪请求后,获取所述目标地址对应的服务器返回的所述数据包从所述源地址传输至所述目标地址的路由追踪结果。
在一个实施例中,所述拓扑生成模块220可以包括:
第一查找模块,用于按照所述路由追踪结果中的源地址和目标地址,从数据库中查找与所述源地址对应的服务器的第一接入交换机,以及与所述目标地址对应的服务器的第二接入交换机。
第二查找模块,用于按照所述路由追踪结果中的途径地址,从所述数据库中查找所述数据包从所述第一接入交换机传输至所述第二接入交换机时途径的中间交换机。
设备确定模块,用于将所述第一接入交换机、所述第二接入交换机以及所述中间交换机作为所述数据包从所述源地址传输至所述目标地址时途径的网络设备。
在一个实施例中,所述拓扑生成模块220可以包括:
第三查找模块,用于在数据库中查找所述数据包从所述源地址传输至所述目标地址时途径的网络设备之间的端口连接关系。
指标数据获取模块,用于获取所述数据包从所述源地址传输至所述目标地址时,各端口的指标数据。
拓扑生成子模块,用于根据所述端口连接关系及各端口的指标数据生成对应的网络拓扑图。
在一个实施例中,所述故障排查模块230可以包括:
指标确定模块,用于确定与预设查询时段对应的所述网络拓扑图中各端口的指标数据。
指标比对模块,用于将预设的故障指标阈值与所述网络拓扑图中各端口的指标数据进行比对,根据比对结果确定所述网络拓扑图中各端口的指标数据是否异常。
在一个实施例中,本发明还提供了一种存储介质,所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述故障排查方法的步骤。
在一个实施例中,本发明还提供了一种计算机设备,所述计算机设备中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如上述实施例中任一项所述故障排查方法的步骤。
示意性地,如图7所示,图7为本发明实施例提供的一种计算机设备的内部结构示意图,该计算机设备300可以被提供为一服务器。参照图7,计算机设备300包括处理组件302,其进一步包括一个或多个处理器,以及由存储器301所代表的存储器资源,用于存储可由处理组件302的执行的指令,例如应用程序。存储器301中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外,处理组件302被配置为执行指令,以执行上述任意实施例的故障排查方法。
计算机设备300还可以包括一个电源组件303被配置为执行计算机设备300的电源管理,一个有线或无线网络接口304被配置为将计算机设备300连接到网络,和一个输入输出(I/O)接口305。计算机设备300可以操作基于存储在存储器301的操作系统,例如WindowsServer TM、Mac OS XTM、Unix TM、Linux TM、Free BSDTM或类似。
本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间可以根据需要进行组合,且相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (7)

1.一种故障排查方法,其特征在于,所述方法包括:
获取数据包从源地址传输至目标地址的路由追踪结果;
基于所述路由追踪结果确定所述数据包从所述源地址传输至所述目标地址时途经的网络设备,并生成相应的网络拓扑图,所述网络拓扑图包含各网络设备之间的端口连接关系,及各端口的指标数据;
根据预设的故障指标阈值对所述网络拓扑图中各端口的指标数据进行排查,确定所述网络拓扑图中各端口的指标数据是否异常,并将排查结果进行显示;
所述生成相应的网络拓扑图的步骤,包括:
在数据库中查找所述数据包从所述源地址传输至所述目标地址时途经的网络设备之间的端口连接关系;
获取所述数据包从所述源地址传输至所述目标地址时,各端口的指标数据;
根据所述端口连接关系及各端口的指标数据生成对应的网络拓扑图;
所述获取数据包从源地址传输至目标地址的路由追踪结果的步骤,包括:
接收用户输入的源地址和目标地址;
确定与所述源地址对应的服务器中是否安装有远程指令探针;
若有,则向所述源地址对应的服务器发送路由追踪指令,所述路由追踪指令用于供所述源地址对应的服务器中的远程指令探针通过操作系统指令向所述目标地址发送携带有数据包的路由追踪请求,并由所述目标地址对应的服务器操作系统向所述源地址对应的服务器返回路由追踪结果;
从所述源地址对应的服务器中获取所述数据包从所述源地址传输至所述目标地址的路由追踪结果;
若无,则通过远程控制指令调用与所述源地址对应的服务器的登录界面;
在检测到用户登录所述源地址对应的服务器,并执行向所述目标地址发送携带有数据包的路由追踪请求后,获取所述目标地址对应的服务器返回的所述数据包从所述源地址传输至所述目标地址的路由追踪结果。
2.根据权利要求1所述的故障排查方法,其特征在于,所述获取数据包从源地址传输至目标地址的路由追踪结果的步骤之前,还包括:
从数据中心交换机处采集网络中所有的交换机信息;
利用采集到的所述网络中所有的交换机信息构建网络设备互联信息,并确定所述网络设备互联信息中各个网络设备之间的层级关系。
3.根据权利要求1所述的故障排查方法,其特征在于,基于所述路由追踪结果确定所述数据包从所述源地址传输至所述目标地址时途经的网络设备的步骤,包括:
按照所述路由追踪结果中的源地址和目标地址,从数据库中查找与所述源地址对应的服务器的第一接入交换机,以及与所述目标地址对应的服务器的第二接入交换机;
按照所述路由追踪结果中的途经地址,从所述数据库中查找所述数据包从所述第一接入交换机传输至所述第二接入交换机时途经的中间交换机;
将所述第一接入交换机、所述第二接入交换机以及所述中间交换机作为所述数据包从所述源地址传输至所述目标地址时途经的网络设备。
4.根据权利要求1所述的故障排查方法,其特征在于,所述根据预设的故障指标阈值对所述网络拓扑图中各端口的指标数据进行排查,确定所述网络拓扑图中各端口的指标数据是否异常的步骤,包括:
确定与预设查询时段对应的所述网络拓扑图中各端口的指标数据;
将预设的故障指标阈值与所述网络拓扑图中各端口的指标数据进行比对,根据比对结果确定所述网络拓扑图中各端口的指标数据是否异常。
5.一种故障排查装置,其特征在于,包括:
结果获取模块,用于获取数据包从源地址传输至目标地址的路由追踪结果;
拓扑生成模块,用于基于所述路由追踪结果确定所述数据包从所述源地址传输至所述目标地址时途经的网络设备,并生成相应的网络拓扑图,所述网络拓扑图包含各网络设备之间的端口连接关系,及各端口的指标数据;
故障排查模块,用于根据预设的故障指标阈值对所述网络拓扑图中各端口的指标数据进行排查,确定所述网络拓扑图中各端口的指标数据是否异常,并将排查结果进行显示;
所述拓扑生成模块,包括:
在数据库中查找所述数据包从所述源地址传输至所述目标地址时途经的网络设备之间的端口连接关系;
获取所述数据包从所述源地址传输至所述目标地址时,各端口的指标数据;
根据所述端口连接关系及各端口的指标数据生成对应的网络拓扑图;
所述结果获取模块,包括:
接收用户输入的源地址和目标地址;
确定与所述源地址对应的服务器中是否安装有远程指令探针;
若有,则向所述源地址对应的服务器发送路由追踪指令,所述路由追踪指令用于供所述源地址对应的服务器中的远程指令探针通过操作系统指令向所述目标地址发送携带有数据包的路由追踪请求,并由所述目标地址对应的服务器操作系统向所述源地址对应的服务器返回路由追踪结果;
从所述源地址对应的服务器中获取所述数据包从所述源地址传输至所述目标地址的路由追踪结果;
若无,则通过远程控制指令调用与所述源地址对应的服务器的登录界面;
在检测到用户登录所述源地址对应的服务器,并执行向所述目标地址发送携带有数据包的路由追踪请求后,获取所述目标地址对应的服务器返回的所述数据包从所述源地址传输至所述目标地址的路由追踪结果。
6.一种存储介质,其特征在于:所述存储介质中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至4中任一项所述故障排查方法的步骤。
7.一种计算机设备,其特征在于:所述计算机设备中存储有计算机可读指令,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至4中任一项所述故障排查方法的步骤。
CN202111575496.1A 2021-12-21 2021-12-21 故障排查方法、装置、存储介质及计算机设备 Active CN114157554B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111575496.1A CN114157554B (zh) 2021-12-21 2021-12-21 故障排查方法、装置、存储介质及计算机设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111575496.1A CN114157554B (zh) 2021-12-21 2021-12-21 故障排查方法、装置、存储介质及计算机设备

Publications (2)

Publication Number Publication Date
CN114157554A CN114157554A (zh) 2022-03-08
CN114157554B true CN114157554B (zh) 2024-02-23

Family

ID=80451677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111575496.1A Active CN114157554B (zh) 2021-12-21 2021-12-21 故障排查方法、装置、存储介质及计算机设备

Country Status (1)

Country Link
CN (1) CN114157554B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114422337A (zh) * 2022-03-09 2022-04-29 中国建设银行股份有限公司 网络抓包定位故障的方法及相关装置
CN114666373A (zh) * 2022-04-01 2022-06-24 明阳产业技术研究院(沈阳)有限公司 物联网终端的维护方法及相关设备
CN114844772A (zh) * 2022-05-06 2022-08-02 上海欣诺通信技术股份有限公司 一种基于Zabbix监控平台的管理方法及系统
CN115225462B (zh) * 2022-07-21 2024-02-02 北京天融信网络安全技术有限公司 网络故障诊断方法及装置
CN114969163B (zh) * 2022-07-21 2022-12-09 北京宏数科技有限公司 一种基于大数据的设备运维方法及系统
CN115834330B (zh) * 2022-11-18 2024-05-17 中国联合网络通信集团有限公司 群障检测方法、装置、设备及存储介质

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002252625A (ja) * 2001-02-26 2002-09-06 Nippon Telegr & Teleph Corp <Ntt> ネットワーク障害監視方法および装置
CN105450442A (zh) * 2015-11-06 2016-03-30 广东电网有限责任公司电力科学研究院 一种网络拓扑排查方法及其系统
CN107809346A (zh) * 2016-09-09 2018-03-16 太阳风环球有限责任公司 路由追踪节点和相关联的设备的标识
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及系统
CN107995030A (zh) * 2017-11-28 2018-05-04 车智互联(北京)科技有限公司 一种网络探测方法、网络故障检测方法及系统
CN109347670A (zh) * 2018-10-24 2019-02-15 杭州数梦工场科技有限公司 路径追踪方法及装置、电子设备、存储介质
CN110430080A (zh) * 2019-08-07 2019-11-08 国家计算机网络与信息安全管理中心 网络拓扑探测方法及装置
CN113542017A (zh) * 2021-07-01 2021-10-22 天翊谛晟(深圳)科技有限公司 基于网络拓扑和多指标的一种网络故障定位方法
CN113709043A (zh) * 2021-10-28 2021-11-26 阿里云计算有限公司 路径追踪方法及设备

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002252625A (ja) * 2001-02-26 2002-09-06 Nippon Telegr & Teleph Corp <Ntt> ネットワーク障害監視方法および装置
CN105450442A (zh) * 2015-11-06 2016-03-30 广东电网有限责任公司电力科学研究院 一种网络拓扑排查方法及其系统
CN107809346A (zh) * 2016-09-09 2018-03-16 太阳风环球有限责任公司 路由追踪节点和相关联的设备的标识
CN107835098A (zh) * 2017-11-28 2018-03-23 车智互联(北京)科技有限公司 一种网络故障检测方法及系统
CN107995030A (zh) * 2017-11-28 2018-05-04 车智互联(北京)科技有限公司 一种网络探测方法、网络故障检测方法及系统
CN109347670A (zh) * 2018-10-24 2019-02-15 杭州数梦工场科技有限公司 路径追踪方法及装置、电子设备、存储介质
CN110430080A (zh) * 2019-08-07 2019-11-08 国家计算机网络与信息安全管理中心 网络拓扑探测方法及装置
CN113542017A (zh) * 2021-07-01 2021-10-22 天翊谛晟(深圳)科技有限公司 基于网络拓扑和多指标的一种网络故障定位方法
CN113709043A (zh) * 2021-10-28 2021-11-26 阿里云计算有限公司 路径追踪方法及设备

Also Published As

Publication number Publication date
CN114157554A (zh) 2022-03-08

Similar Documents

Publication Publication Date Title
CN114157554B (zh) 故障排查方法、装置、存储介质及计算机设备
CN110661669B (zh) 一种基于icmp、tcp、udp协议的网络设备的网络拓扑自动发现方法
US8443074B2 (en) Constructing an inference graph for a network
US8051163B2 (en) Synthetic transactions based on system history and load
WO2013186870A1 (ja) サービス監視システム、及び、サービス監視方法
JP7293270B2 (ja) 障害回復方法および障害回復装置、ならびに記憶媒体
WO2010038327A1 (ja) イベント情報取得外のit装置を対象とする根本原因解析方法、装置、プログラム。
CN114584401B (zh) 一种面向大规模网络攻击的追踪溯源系统及方法
US20080155327A1 (en) Method and system for monitoring network health
US20060047809A1 (en) Method and apparatus for assessing performance and health of an information processing network
KR101761781B1 (ko) It 통합 관리 프레임워크를 위한 오픈소스 데이터베이스를 적용한 빅데이터 처리 방법 및 장치
CN111030873A (zh) 一种故障诊断方法及装置
JP2008283621A (ja) ネットワーク輻輳状況監視装置、ネットワーク輻輳状況監視方法及びプログラム
US20110093954A1 (en) Apparatus and method for remotely diagnosing security vulnerabilities
CN113572656A (zh) 一种网络设备巡检项目灵活组合巡检的方法及装置
Bahl et al. Discovering dependencies for network management
CN105812210A (zh) 分布式网络性能测量系统
CN111934936A (zh) 网络状态检测方法、装置、电子设备及存储介质
CN104639351A (zh) 用以建构网络结构部署图的处理系统及其方法
US8467301B2 (en) Router misconfiguration diagnosis
CN114006734B (zh) 一种城域网路由流量虚假源地址分析方法及装置
CN111988172B (zh) 一种网络信息管理平台、装置及安全管理方法
CN104539941B (zh) 基于改进代码书的交通视频专网故障定位方法
Cisco Glossary
Vargas-Arcila et al. Peripheral diagnosis for propagated network faults

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant