CN114221858A - Sdn网络故障定位方法、装置、设备及可读存储介质 - Google Patents

Sdn网络故障定位方法、装置、设备及可读存储介质 Download PDF

Info

Publication number
CN114221858A
CN114221858A CN202111535101.5A CN202111535101A CN114221858A CN 114221858 A CN114221858 A CN 114221858A CN 202111535101 A CN202111535101 A CN 202111535101A CN 114221858 A CN114221858 A CN 114221858A
Authority
CN
China
Prior art keywords
suspected
switch
target
sequence
data packet
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111535101.5A
Other languages
English (en)
Other versions
CN114221858B (zh
Inventor
陈鹏飞
王本然
郑子彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sun Yat Sen University
Original Assignee
Sun Yat Sen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University filed Critical Sun Yat Sen University
Priority to CN202111535101.5A priority Critical patent/CN114221858B/zh
Publication of CN114221858A publication Critical patent/CN114221858A/zh
Application granted granted Critical
Publication of CN114221858B publication Critical patent/CN114221858B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0677Localisation of faults
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请公开了SDN网络故障定位方法、装置、设备及可读存储介质,方法包括:获取多个目标数据包的传输耗时和经过的交换机路径;根据各个目标数据包的传输耗时,为每个交换机路径标注正常或异常标签;针对每条疑似序列,在正常和异常交换机路径中分别确定包含疑似序列的交换机路径的出现次数,疑似序列为在异常数据集中出现次数达到设定要求的交换机序列;根据各出现次数确定SDN网络故障的位置。显然,本申请获取多个目标数据包的传输时延和经过的交换机路径,不需要人工设置主动探测来获得数据包,且将采集到的多条交换机路径分为正常和异常,进而可以对比正常和异常的交换机路径,对比两者可以准确定位网络故障并可以降低误判的风险。

Description

SDN网络故障定位方法、装置、设备及可读存储介质
技术领域
本申请涉及网络监测技术领域,更具体地说,涉及一种SDN网络故障定位方法、装置、设备及可读存储介质。
背景技术
随着SDN网络(SDN,Software Defined Network,软件定义网络)结构日益繁杂,SDN网络设备的数目变得越来越庞大,服务量也随之攀升,SDN网络异常的处理需要更准确及时。
目前用于SDN网络故障定位的测量手段可以分为三种,分别是主动测量、被动测量和混合测量。主动测量通过向网络主动发送探针数据包,收集响应时间等数据,但主动测量会带来额外的网络流量开销,也会影响被观察的设备或服务的状态,而且采样效果与探针的采样频率有关,在快速变化的网络中可能不能抓取得到实时的信息,采样得到的数据可能与实际网络情况并不相符,也不能准确的揭示任意端到端的流信息。被动测量则是收集流经过的测量点的网络数据,但被动测量方法一般使用采样的方式制进行数据采集,但仅对采样得到的异常数据进行分析,有可能会将正常运行的网络节点误判为故障节点或难以确定真正的故障节点。
当前技术要么采集网络数据的粒度不够精细,要么无法根据采集数据进行准确的故障定位。因此,在SDN网络故障定位时如何减少对被监测的设备的影响并提高故障定位的准确率是一个十分重要的问题。
发明内容
有鉴于此,本申请提供了一种SDN网络故障定位方法、装置、设备及可读存储介质,用于在SDN网络故障定位时减少对被监测的设备的影响并获取全面的测量数据。
为了实现上述目的,现提出的方案如下:
一种SDN网络故障定位方法,包括:
获取并解析多个目标数据包,得到每个所述目标数据包从起始节点到目的节点的传输耗时和经过的交换机路径;
根据各个目标数据包的传输耗时,为每个所述目标数据包经过的交换机路径标注正常或异常标签,其中,标注有正常标签的交换机路径加入正常数据集,标注有异常标签的交换机路径加入异常数据集;
针对每条疑似序列,在所述异常数据集中和所述正常数据集中分别确定包含所述疑似序列的交换机路径的出现次数,所述疑似序列为在所述异常数据集中出现次数与所述异常数据集中交换机路径总条数的比值,达到设定比值的交换机序列;
根据所述出现次数,确定每条所述疑似序列的疑似故障得分;
基于所述疑似故障得分确定目标疑似序列并根据所述目标疑似序列确定SDN网络故障的位置。
优选地,获取多个目标数据包的过程,包括:
接收各个交换机以设定的监测采样频率发送的多个采样数据包,并解析得到每个所述采样数据包从起始节点到目的节点的传输耗时;
根据每个所述采样数据包的传输耗时确定每个所述采样数据包是否传输异常;
若是,则确定传输异常的采样数据包可能经过的嫌疑交换机;
向所述嫌疑交换机发送排故转发指令,以供所述嫌疑交换机按照所述排故转发指令以比所述监测采样频率更高的排故采样频率转发与所述传输异常的采样数据包的目的节点相同的目标数据包;
接收所述嫌疑交换机发送的所述目标数据包。
优选地,在所述向所述嫌疑交换机发送排故转发指令之后,还包括:
经过设定的时间阈值后,向所述嫌疑交换机发送监测转发指令,以供所述嫌疑交换机按照所述监测转发指令以所述监测采样频率转发采样数据包。
优选地,所述根据各个目标数据包的传输耗时,为每个所述目标数据包经过的所述交换机路径标注正常或异常标签,包括:
确定所有所述目标数据包的传输耗时的中位数;
针对每个所述目标数据包,若所述目标数据包的传输耗时与所述中位数的差值在预设的范围内,则为所述目标数据包经过的所述交换机路径标注正常标签,否则标注异常标签。
优选地,所述根据所述出现次数,确定每条所述疑似序列的疑似故障得分,包括:
针对每条疑似序列:
确定所述异常数据集中包含所述疑似序列的交换机路径的第一出现次数与,所述第一出现次数和所述正常数据集中包含所述疑似序列的交换机路径的第二出现次数的和值的第一比值;
确定所述异常数据集中不包含所述疑似序列的交换机路径的第三出现次数与,所述第三出现次数和所述正常数据集中不包含所述疑似序列的交换机路径的第四出现次数的和值的第二比值;
确定所述第一比值与所述第二比值的比值,所述比值作为每条所述疑似序列的疑似故障得分。
优选地,所述基于所述疑似故障得分确定目标疑似序列,包括:
绘制包含每个所述目标数据包的传输耗时的时延图像;
根据所述时延图像的离群峰的个数N值,确定疑似故障得分最高的前N个仅包含一个交换机的疑似序列,作为第一目标疑似序列;
确定比所述第一目标疑似序列的疑似故障得分更高的,且包含任意一个所述第一目标疑似序列的第二目标疑似序列,所述第一目标疑似序列和所述第二目标疑似序列作为目标疑似序列。
优选地,所述SDN网络故障定位方法,还包括:
对所述网络故障的位置进行可视化展示。
一种SDN网络故障定位装置,包括:
数据获取单元,用于获取并解析多个目标数据包,得到每个所述目标数据包从起始节点到目的节点的传输耗时和经过的交换机路径;
标签标注单元,用于根据各个目标数据包的传输耗时,为每个所述目标数据包经过的交换机路径标注正常或异常标签,其中,标注有正常标签的交换机路径加入正常数据集,标注有异常标签的交换机路径加入异常数据集;
路径统计单元,用于针对每条疑似序列,在所述异常数据集中和所述正常数据集中分别确定包含所述疑似序列的交换机路径的出现次数,所述疑似序列为在所述异常数据集中出现次数与所述异常数据集中交换机路径总条数的比值,达到设定比值的交换机序列;
得分确定单元,用于根据所述出现次数,确定每条所述疑似序列的疑似故障得分;
故障确定单元,用于基于所述疑似故障得分确定目标疑似序列并根据所述目标疑似序列确定SDN网络故障的位置。
一种SDN网络故障定位设备,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现上述SDN网络故障定位方法的各个步骤。
一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述SDN网络故障定位方法的各个步骤。
从上述方案可以看出,本申请提供的SDN网络故障定位方法包括:获取多个目标数据包的传输耗时和经过的交换机路径;根据各个目标数据包的传输耗时,为每个交换机路径标注正常或异常标签;针对每条疑似序列,在正常和异常交换机路径中分别确定包含疑似序列的交换机路径的出现次数,疑似序列为在异常数据集中出现次数达到设定要求的交换机序列;根据各出现次数确定SDN网络故障的位置。显然,本申请获取并解析多个目标数据包,可以得到多个目标数据包的传输时延和经过的多条交换机路径,不需要人工设置主动探测来获得数据包,并且采集到的多条交换机路径分为正常和异常,进而可以对比正常和异常的交换机路径,对比两者的结果可以准确定位网络故障节点并可以降低误判的风险。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种SDN网络故障定位方法的流程示意图;
图2为本申请实施例提供的一种包含每个数据包的传输耗时的图像;
图3为本申请实施例提供的一种网络故障可视化展示的示意图;
图4为本申请实施例公开的一种SDN网络故障定位装置的结构示意图;
图5为本申请实施例公开的一种SDN网络故障定位设备的硬件结构框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
接下来对本申请的SDN网络故障定位方法进行详细的介绍,请参照图1,图1为本申请实施例中提供的一种SDN网络故障定位方法的流程示意图,该方法包括:
步骤S100:获取并解析多个目标数据包,得到每个所述目标数据包从起始节点到目的节点的传输耗时和经过的交换机路径。
具体的,为了获取每个目标数据包的传输耗时,针对各个目标数据包,可以先获取目标数据包在进入每个交换机的时间戳以及目标数据包在每个交换机的处理时间。
一种可选的方式下,可以使用INT(In-band Network Telemetry,带内遥测)方法获取上述的时间戳和处理时间,具体可以参照以下过程:
P4语言可以自定义获取数据包在经过交换机时的信息,可以通过修改对数据包的解析过程,可以实现INT的方法。其中,P4语言是一种协议无关的数据包处理编程语言,P4语言支持用户自定义匹配字段,协议解析过程和转发过程,从而能实现真正意义上的协议无关可编程网络数据平面。
本申请可以采用INT-MX类型,可以目标数据包在发送到下一个交换机的过程中将目标数据包复制一份,因此可以编写P4程序,定义在目标数据包的传输过程中需要抓取的信息,示例如上述介绍的时间戳和处理时间。进而可以将时间戳和处理时间附带在复制的目标数据包中并可以传输到专门用于收集INT数据的收集服务器,以便收集服务器解析目标数据包时得到目标数据包附带的信息,原始的目标数据包则可以正常发送给下一个交换机。
进一步,若有其它数据分析需求导致需要更多的目标数据包在经过交换机时的信息,此时可以使用P4语言定义抓取更多的信息,示例如:目标数据包从上一个交换机到当前交换机的时延、入口端口号、出口端口号、交换机编号以及当前交换机是否为目标数据包经过的最后一个交换机等。
可以理解的是,每个目标数据包解析之后得到的是目标数据包在一个交换机的进入时间戳,因此可以根据时间戳的先后顺序确定每个目标数据包经过的交换机路径,其中,交换机路径可以是由交换机编号组成的序列。
另外,可以根据目标数据包进入第一个交换机的时间戳,以及目标数据包进入最后一个交换机的时间戳和处理时间,确定目标数据包的传输耗时。
步骤S110:根据各个目标数据包的传输耗时,为每个所述目标数据包经过的交换机路径标注正常或异常标签,其中,标注有正常标签的交换机路径加入正常数据集,标注有异常标签的交换机路径加入异常数据集。
具体的,可以根据设定的传输耗时阈值确定每个目标数据包在传输过程中是否发生异常,从而可以确定每个目标数据包经过的交换机路径是否为异常。
经过对每条交换机路径标注标签后,可以得到正常数据集合异常数据集,其中,正常数据集可以包含标注有正常标签的交换机路径,异常数据集中可以包含标注有异常标签的交换机路径。
步骤S120:针对每条疑似序列,在所述异常数据集中和所述正常数据集中分别确定包含所述疑似序列的交换机路径的出现次数,所述疑似序列为在所述异常数据集中出现次数与所述异常数据集中交换机路径总条数的比值,达到设定比值的交换机序列。
具体的,在异常数据集中出现次数越多的交换机可以认为更有可能是发生故障的根因。因此本申请采用可以频繁序列挖掘算法来筛选出频繁出现在异常数据集中的交换机。通过频繁序列挖掘算法可以得到异常数据集中的交换机序列,即可以在发生异常的交换机路径中挖掘出频繁出现的一个或多个的交换机序列。这些频繁序列可以认为是潜在的引发异常的故障的嫌疑交换机,可以用于进一步故障定位分析。
为了减少数据冗余,可以对每条挖掘出的交换机序列计算其在所有交换机序列中的比值,将达到设定比值的交换机序列作为疑似序列,未达到设定比值的交换机序列可以不用于后续的步骤。
得到疑似序列之后,针对每一条疑似序列,可以分别在异常数据集合正常数据集中确定,包含该疑似序列的交换机路径及其出现次数,用于后续故障分析。
步骤S130:根据所述出现次数,确定每条所述疑似序列的疑似故障得分。
具体的,疑似序列可以用于分析频繁出现的交换机序列与异常的关联性是强是弱,若仅仅分析异常数据集的频繁出现的交换机序列,可能会与普遍的频繁序列相混淆。为了筛选出确实与异常相关联的交换机序列,还需要与正常数据集作对比。正常数据集中出现得越频繁的交换机序列,则可以认为与异常的关联性越低。
因此,可以结合疑似序列在异常数据集中的出现次数,以及疑似序列在正常数据集中的出现次数,根据两者的对比结果对网络故障作分析,进而可以得到每条疑似序列的疑似故障得分。并且可以疑似故障得分从高到低进行排序,排序越靠前,则可以认为该疑似序列越有可能是根因。
步骤S140:基于所述疑似故障得分确定目标疑似序列并根据所述目标疑似序列确定SDN网络故障的位置。
具体的,可以根据疑似故障得分的排序结果确定目标疑似序列,该目标疑似序列可以认为是引发故障的目标交换机序列。
根据该目标交换机序列可以确定目标交换机的机器编号,以及根据已知的网络结构,可以确定SDN网络故障的位置。
从上述方案可以看出,本申请获取多个目标数据包的传输时延和经过的交换机路径,不需要人工设置主动探测的来获得数据包,并且将采集到的多条交换机路径信息分为正常和异常,进而可以对比正常和异常的交换机路径,对比两者可以准确定位SDN网络故障并可以降低误判的风险。
在本申请的一些实施例中,介绍了上述步骤S100,获取并解析多个目标数据包的过程,接下来将对获取多个目标数据包的过程作进一步说明。
具体的,获取多个目标数据包的过程可以包括以下步骤:
S1、接收各个交换机以设定的监测采样频率发送的多个采样数据包,并解析得到每个所述采样数据包从起始节点到目的节点的传输耗时。
具体的,为了降低网络开销,监测采样频率可以设定为较低的频率,示例如:每1/1000秒进行一次数据包采样。
使用采样频率采样可以获取到多个采样数据包,进而可以解析多个采样数据包,得到每个采样数据包从起始节点到目的节点的传输耗时,其中,采样数据包的传输耗时的确定过程可以与上述目标数据包的传输耗时的确定过程一致,此处不再赘述。
S2、根据每个所述采样数据包的传输耗时确定每个所述采样数据包是否传输异常,若是,执行步骤S3。
具体的,可以判断每个采样数据包的传输耗时是否超过设定的传输时间阈值,传输耗时超过设定的传输时间阈值的采样数据包可以判定为传输异常,否则可以判定为传输正常。
S3、确定传输异常的采样数据包可能经过的嫌疑交换机。
具体的,可以先确定异常的采样数据包的目的节点的地址,以及根据已知的网络结构,可以确定传输异常的采样数据包可能经过的嫌疑交换机。
S4、向所述嫌疑交换机发送排故转发指令,以供所述嫌疑交换机按照所述排故转发指令以比所述监测采样频率更高的排故采样频率转发与所述传输异常的采样数据包的目的节点相同的目标数据包。
具体的,排故转发指令可以包含异常的采样数据包的目的节点的地址,以及排故采样频率,其中,排故采样频率可以是比监测采样频率更高的采样频率。
进一步,嫌疑交换机在收到排故转发指令后,可以按照排故转发指令将与传输异常的采样数据包的目的节点相同的目标数据包复制一份,并可以将复制的目标数据包发送至收集服务器,原本的数据包则可以不作变动继续发送至下一个交换机。
S5、接收所述嫌疑交换机发送的所述目标数据包。
具体的,可以接收嫌疑交换机按照排故转发指令转发的多个目标数据包。
为了减少网络开销,在向所述嫌疑交换机发送排故转发指令之后,本申请实施例还可以增加一个发送监测转发指令,以便嫌疑交换机以原本的监测采样频率对数据包进行采样的过程。
具体的,发送监测转发指令的过程可以包括以下步骤:
经过设定的时间阈值后,向所述嫌疑交换机发送监测转发指令,以供所述嫌疑交换机按照所述监测转发指令以所述监测采样频率转发采样数据包。
经过设定的时间阈值的转发目标数据包后,转发的目标数据包的数量可以足够用于网络故障分析,因此,可以向嫌疑交换机发送监测转发指令,使嫌疑交换机按照原本的频率较低的监测采样频率来进行数据包采样。
进一步,本申请实施例还可以提供另一种实施方式,用于实现使嫌疑交换机在一定时间内以排故采样频率转发目标数据包,具体可以包括以下过程:
向嫌疑交换机发送排故转发指令不仅可以包含异常的采样数据包的目的节点的地址和排故采样频率,还可以包含嫌疑交换机以排故采样频率采样的运行时间,经过该运行时间之后,嫌疑交换机自动换回原本的监测采样频率进行数据包采样,无需以新的转发指令告知嫌疑交换机切换采样频率。
在本申请的一些实施例中,介绍了上述步骤S110,根据各个目标数据包的传输耗时,为每个所述目标数据包经过的交换机路径标注正常或异常标签的过程,接下来将对该过程作进一步说明。
具体的,该过程可以包括以下步骤:
S1、确定所有所述目标数据包的传输耗时的中位数。
具体的,为了保证数据的时效性,可以计算最近的一定时间段内接收的所有目标数据包的传输耗时的中位数。
需要说明的是,不同时间段内接收的目标数据包的数量有可能不一样,有时接收的目标数据包的数量可以比以往任何时间段接收的都要多,此时为了避免大量的计算以及确保数据的时效性,针对最近的一定时间段内、接收时间相对久远的历史目标数据包,这些数据包可以不用于此阶段的中位数的计算,仅使用接收时间相对较新的目标数据包计算此阶段的中位数。
S2、针对每个所述目标数据包,若所述目标数据包的传输耗时与所述中位数的差值在预设的范围内,则为所述目标数据包经过的所述交换机路径标注正常标签,否则标注异常标签。
具体的,针对每个目标数据包,若标数据包的传输耗时与中位数的差值在预设的范围内,示例如:该差值在目标数据包的传输时延的三个标准差内,可以为目标数据包经过的交换机路径标注正常标签,否则标注异常标签。
在本申请的一些实施例中,介绍了上述步骤S130,根据所述出现次数,确定每条所述疑似序列的疑似故障得分的过程,接下来将对该过程作进一步说明。
具体的,针对每条疑似序列,该过程可以包括以下步骤:
S1、确定所述异常数据集中包含所述疑似序列的交换机路径的第一出现次数与,所述第一出现次数和所述正常数据集中包含所述疑似序列的交换机路径的第二出现次数的和值的第一比值。
具体的,可以确定异常数据集中包含该疑似序列的交换机路径的出现次数,与异常数据集和正常数据集中包含该疑似序列的交换机路径的总和出现次数的第一比值。
S2、确定所述异常数据集中不包含所述疑似序列的交换机路径的第三出现次数与,所述第三出现次数和所述正常数据集中不包含所述疑似序列的交换机路径的第四出现次数的和值的第二比值。
具体的,可以确定异常数据集中不包含该疑似序列的交换机路径的出现次数,与异常数据集和正常数据集中不包含该疑似序列的交换机路径的总和出现次数的第二比值。
S3、确定所述第一比值与所述第二比值的比值,所述比值作为每条所述疑似序列的疑似故障得分。
具体的,疑似故障得分越高,对应的疑似序列越有可能是引发故障的根因。
根据上述步骤可以确定疑似故障得分的计算公式,针对每一条疑似序列,
Figure BDA0003412891210000101
可以表示异常数据集中包含该疑似序列的交换机路径的出现次数,
Figure BDA0003412891210000102
可以表示正常数据集中包含该疑似序列的交换机路径的出现次数,|T|可以表示异常数据集中所有交换机路径的出现次数,|R|可以表示正常数据集中所有交换机路径的出现次数。那么,第一比值可以表示为
Figure BDA0003412891210000111
第二比值可以表示为
Figure BDA0003412891210000112
最终可以得到如下的疑似故障得分计算公式:
Figure BDA0003412891210000113
接下来将以具体示例说明计算疑似故障得分的过程。
具体的,假定可以得到疑似序列(s2,s10),异常数据集中包含该疑似序列的交换机路径的出现次数为29,异常数据集中所有交换机路径的出现次数为54,正常数据集中包含该疑似序列的交换机路径的出现次数为99,正常数据集中所有交换机路径的出现次数为1105,那么由上述的公式可以得到如下的疑似序列(s2,s10)的疑似故障得分计算过程:
[29/(29+99)]/[(54-29)/(54-29+1105-99)]
=(29/128)/(25/1031)
=29899/3200
=9.3434375
即可以得到疑似序列(s2,s10)的疑似故障得分为9.3434375,其中,计算结果保留的小数位数可以依据实际情况来确定,此处不作严格限定。
从上述方案可以看出,本申请实施例不仅仅考虑疑似序列在异常数据集中的占比情况,还结合正常数据集的占比情况并确定每条疑似序列在异常数据集和正常数据集的比值,以及其余疑似序列在异常数据集和正常数据集的比值,使用了正常数据集作对比,可以减少误判故障位置的风险。
在本申请的一些实施例中,介绍了上述步骤S140,基于所述疑似故障得分确定目标疑似序列并根据所述目标疑似序列确定网络故障的位置的过程,接下来将对基于疑似故障得分确定目标疑似序列的过程作进一步说明。
具体的,基于疑似故障得分确定目标疑似序列的过程可以包括以下步骤:
S1、绘制包含每个所述目标数据包的传输耗时的时延图像。
具体的,时延图像可以表征每个目标数据包的在传输过程的传输耗时,因此,可以取每个目标数据包进入第一个交换机的时间戳作为时延图像的横坐标,取每个目标数据包的传输耗时作为时延图像的纵坐标。
S2、根据所述时延图像的离群峰的个数N值,确定疑似故障得分最高的前N个仅包含一个交换机的疑似序列,作为第一目标疑似序列。
具体的,N值对应着发生故障的交换机个数,因此疑似故障得分最高的前N个仅包含一个交换机的疑似序列可以确定为引发故障的交换机。
S3、确定比所述第一目标疑似序列的疑似故障得分更高的,且包含任意一个所述第一目标疑似序列的第二目标疑似序列,所述第一目标疑似序列和所述第二目标疑似序列作为目标疑似序列。
具体的,包含第一目标疑似序列、且疑似故障得分比第一目标疑似序列更高的第二目标疑似序列,不仅包含引发故障的交换机序列,还包含目标数据包在经过该故障交换机之后的下一个交换机序列,因此第二目标疑似序列可以表明交换机发生故障的路径方向。
第一目标疑似序列和第二目标疑似序列组合为目标疑似序列,可以用于确定故障所在的位置。
接下来将以具体示例来说明上述确定目标疑似序列的过程。
具体的,请参照图2,图2示出了一种包含每个目标数据包的传输耗时的时延图像。
图2的横坐标可以表示为每个目标数据包进入第一个交换机的时间戳,纵坐标可以表示为每个目标数据包的传输耗时。可以看出时延图像中有两个离群峰,因此可以在仅包含一个交换机序列的疑似序列中确定疑似故障得分最高的两个疑似序列,作为第一目标疑似序列,包含该两个疑似序列中任意一个、且疑似故障得分比任意一个第一目标疑似序列高的疑似序列,作为第二目标疑似序列,第一、第二目标疑似序列组合为目标疑似序列。
为了让运维人员更直观的看到故障所在,本申请实施例还可以增加一个故障可视化展示的过程。
具体的,该过程可以包括以下步骤:
对所述网络故障的位置进行可视化展示。
具体的,可以在已知的网络结构图上确定故障的交换机以及发生故障的路径方向,并展示该网络结构图。示例如:可以在已知的网络结构图上以区别于其它交换机的颜色标注发生故障的交换机,以及发生故障的路径方向。
接下来将以具体示例说明上述可视化展示的过程,详情参见图3。
图3中,圆点可以表示为交换机,带箭头的线条可以表示为数据包传输的路径方向,其中,空白圆点可以表示为故障的交换机,带箭头的虚线可以表示为发生故障的路径方向。通过图3的可视化展示,可以使维护人员快速确定发生故障的交换机以及故障的路径方向,从而使运维人员高效地确定故障所在的位置并进行维修。
下面对本申请实施例提供的SDN网络故障定位装置进行描述,下文描述的SDN网络故障定位装置与上文描述的SDN网络故障定位方法可相互对应参照。
首先,结合图4对SDN网络故障定位装置进行介绍,如图2所示,该SDN网络故障定位装置可以包括:
数据获取单元100,用于获取并解析多个目标数据包,得到每个所述目标数据包从起始节点到目的节点的传输耗时和经过的交换机路径;
标签标注单元110,用于根据各个目标数据包的传输耗时,为每个所述目标数据包经过的交换机路径标注正常或异常标签,其中,标注有正常标签的交换机路径加入正常数据集,标注有异常标签的交换机路径加入异常数据集;
路径统计单元120,用于针对每条疑似序列,在所述异常数据集中和所述正常数据集中分别确定包含所述疑似序列的交换机路径的出现次数,所述疑似序列为在所述异常数据集中出现次数与所述异常数据集中交换机路径总条数的比值,达到设定比值的交换机序列;
得分确定单元130,用于根据所述出现次数,确定每条所述疑似序列的疑似故障得分;
故障确定单元140,用于基于所述疑似故障得分确定目标疑似序列并根据所述目标疑似序列确定SDN网络故障的位置。
可选的,所述数据获取单元110可以包括目标数据获取单元,用于获取多个目标数据包,所述采样数据获取单元可以包括:
采样数据获取单元,用于接收各个交换机以设定的监测采样频率发送的多个采样数据包,并解析得到每个所述采样数据包从起始节点到目的节点的传输耗时;
异常判断单元,用于根据每个所述采样数据包的传输耗时确定每个所述采样数据包是否传输异常;
嫌疑交换机确定单元,用于若所述采样数据包为传输异常,则确定传输异常的采样数据包可能经过的嫌疑交换机;
指令发送单元,用于向所述嫌疑交换机发送排故转发指令,以供所述嫌疑交换机按照所述排故转发指令以比所述监测采样频率更高的排故采样频率转发与所述传输异常的采样数据包的目的节点相同的目标数据包;
目标数据接收单元,用于接收所述嫌疑交换机发送的所述目标数据包。
可选的,所述目标数据获取单元,还可以包括:
采样恢复单元,用于在所述向所述嫌疑交换机发送排故转发指令之后,且经过设定的时间阈值后,向所述嫌疑交换机发送监测转发指令,以供所述嫌疑交换机按照所述监测转发指令以所述监测采样频率转发采样数据包。
可选的,所述标签标注单元110,可以包括:
中位数确定单元,用于确定所有所述目标数据包的传输耗时的中位数;
交换机路径标注单元,用于针对每个所述目标数据包,若所述目标数据包的传输耗时与所述中位数的差值在预设的范围内,则为所述目标数据包经过的所述交换机路径标注正常标签,否则标注异常标签。
可选的,所述得分确定单元130,可以包括:
针对每条疑似序列:
第一比值确定单元,用于确定所述异常数据集中包含所述疑似序列的交换机路径的第一出现次数与,所述第一出现次数和所述正常数据集中包含所述疑似序列的交换机路径的第二出现次数的和值的第一比值;
第二比值确定单元,用于确定所述异常数据集中不包含所述疑似序列的交换机路径的第三出现次数与,所述第三出现次数和所述正常数据集中不包含所述疑似序列的交换机路径的第四出现次数的和值的第二比值;
疑似故障得分确定单元,用于确定所述第一比值与所述第二比值的比值,所述比值作为每条所述疑似序列的疑似故障得分。
可选的,所述故障确定单元140,可以包括:
图像绘制单元,用于绘制包含每个所述目标数据包的传输耗时的时延图像;
第一目标疑似序列确定单元,用于根据所述时延图像的离群峰的个数N值,确定疑似故障得分最高的前N个仅包含一个交换机的疑似序列,作为第一目标疑似序列;
第二目标疑似序列确定单元,用于确定比所述第一目标疑似序列的疑似故障得分更高的,且包含任意一个所述第一目标疑似序列的第二目标疑似序列,所述第一目标疑似序列和所述第二目标疑似序列作为目标疑似序列。
可选的,所述SDN网络故障定位装置,还可以包括:
故障位置展示单元,用于对所述网络故障的位置进行可视化展示。
本申请实施例提供的SDN网络故障定位装置可应用于SDN网络故障定位设备。图5示出了SDN网络故障定位设备的硬件结构框图,参照图5,SDN网络故障定位设备的硬件结构可以包括:至少一个处理器1,至少一个通信接口2,至少一个存储器3和至少一个通信总线4;
在本申请实施例中,处理器1、通信接口2、存储器3、通信总线4的数量为至少一个,且处理器1、通信接口2、存储器3通过通信总线4完成相互间的通信;
处理器1可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;
存储器3可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatilememory)等,例如至少一个磁盘存储器;
其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:
获取并解析多个目标数据包,得到每个所述目标数据包从起始节点到目的节点的传输耗时和经过的交换机路径;
根据各个目标数据包的传输耗时,为每个所述目标数据包经过的交换机路径标注正常或异常标签,其中,标注有正常标签的交换机路径加入正常数据集,标注有异常标签的交换机路径加入异常数据集;
针对每条疑似序列,在所述异常数据集中和所述正常数据集中分别确定包含所述疑似序列的交换机路径的出现次数,所述疑似序列为在所述异常数据集中出现次数与所述异常数据集中交换机路径总条数的比值,达到设定比值的交换机序列;
根据所述出现次数,确定每条所述疑似序列的疑似故障得分;
基于所述疑似故障得分确定目标疑似序列并根据所述目标疑似序列确定SDN网络故障的位置。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
本申请实施例还提供一种存储介质,该存储介质可存储有适于处理器执行的程序,所述程序用于:
获取并解析多个目标数据包,得到每个所述目标数据包从起始节点到目的节点的传输耗时和经过的交换机路径;
根据各个目标数据包的传输耗时,为每个所述目标数据包经过的交换机路径标注正常或异常标签,其中,标注有正常标签的交换机路径加入正常数据集,标注有异常标签的交换机路径加入异常数据集;
针对每条疑似序列,在所述异常数据集中和所述正常数据集中分别确定包含所述疑似序列的交换机路径的出现次数,所述疑似序列为在所述异常数据集中出现次数与所述异常数据集中交换机路径总条数的比值,达到设定比值的交换机序列;
根据所述出现次数,确定每条所述疑似序列的疑似故障得分;
基于所述疑似故障得分确定目标疑似序列并根据所述目标疑似序列确定SDN网络故障的位置。
可选的,所述程序的细化功能和扩展功能可参照上文描述。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (10)

1.一种SDN网络故障定位方法,其特征在于,包括:
获取并解析多个目标数据包,得到每个所述目标数据包从起始节点到目的节点的传输耗时和经过的交换机路径;
根据各个目标数据包的传输耗时,为每个所述目标数据包经过的交换机路径标注正常或异常标签,其中,标注有正常标签的交换机路径加入正常数据集,标注有异常标签的交换机路径加入异常数据集;
针对每条疑似序列,在所述异常数据集中和所述正常数据集中分别确定包含所述疑似序列的交换机路径的出现次数,所述疑似序列为在所述异常数据集中出现次数与所述异常数据集中交换机路径总条数的比值,达到设定比值的交换机序列;
根据所述出现次数,确定每条所述疑似序列的疑似故障得分;
基于所述疑似故障得分确定目标疑似序列并根据所述目标疑似序列确定SDN网络故障的位置。
2.根据权利要求1所述的方法,其特征在于,获取多个目标数据包的过程,包括:
接收各个交换机以设定的监测采样频率发送的多个采样数据包,并解析得到每个所述采样数据包从起始节点到目的节点的传输耗时;
根据每个所述采样数据包的传输耗时确定每个所述采样数据包是否传输异常;
若是,则确定传输异常的采样数据包可能经过的嫌疑交换机;
向所述嫌疑交换机发送排故转发指令,以供所述嫌疑交换机按照所述排故转发指令以比所述监测采样频率更高的排故采样频率转发与所述传输异常的采样数据包的目的节点相同的目标数据包;
接收所述嫌疑交换机发送的所述目标数据包。
3.根据权利要求2所述的方法,其特征在于,在所述向所述嫌疑交换机发送排故转发指令之后,还包括:
经过设定的时间阈值后,向所述嫌疑交换机发送监测转发指令,以供所述嫌疑交换机按照所述监测转发指令以所述监测采样频率转发采样数据包。
4.根据权利要求1所述的方法,其特征在于,所述根据各个目标数据包的传输耗时,为每个所述目标数据包经过的所述交换机路径标注正常或异常标签,包括:
确定所有所述目标数据包的传输耗时的中位数;
针对每个所述目标数据包,若所述目标数据包的传输耗时与所述中位数的差值在预设的范围内,则为所述目标数据包经过的所述交换机路径标注正常标签,否则标注异常标签。
5.根据权利要求1所述的方法,其特征在于,所述根据所述出现次数,确定每条所述疑似序列的疑似故障得分,包括:
针对每条疑似序列:
确定所述异常数据集中包含所述疑似序列的交换机路径的第一出现次数与,所述第一出现次数和所述正常数据集中包含所述疑似序列的交换机路径的第二出现次数的和值的第一比值;
确定所述异常数据集中不包含所述疑似序列的交换机路径的第三出现次数与,所述第三出现次数和所述正常数据集中不包含所述疑似序列的交换机路径的第四出现次数的和值的第二比值;
确定所述第一比值与所述第二比值的比值,所述比值作为每条所述疑似序列的疑似故障得分。
6.根据权利要求1所述的方法,其特征在于,所述基于所述疑似故障得分确定目标疑似序列,包括:
绘制包含每个所述目标数据包的传输耗时的时延图像;
根据所述时延图像的离群峰的个数N值,确定疑似故障得分最高的前N个仅包含一个交换机的疑似序列,作为第一目标疑似序列;
确定比所述第一目标疑似序列的疑似故障得分更高的,且包含任意一个所述第一目标疑似序列的第二目标疑似序列,所述第一目标疑似序列和所述第二目标疑似序列作为目标疑似序列。
7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
对所述网络故障的位置进行可视化展示。
8.一种SDN网络故障定位装置,其特征在于,包括:
数据获取单元,用于获取并解析多个目标数据包,得到每个所述目标数据包从起始节点到目的节点的传输耗时和经过的交换机路径;
标签标注单元,用于根据各个目标数据包的传输耗时,为每个所述目标数据包经过的交换机路径标注正常或异常标签,其中,标注有正常标签的交换机路径加入正常数据集,标注有异常标签的交换机路径加入异常数据集;
路径统计单元,用于针对每条疑似序列,在所述异常数据集中和所述正常数据集中分别确定包含所述疑似序列的交换机路径的出现次数,所述疑似序列为在所述异常数据集中出现次数与所述异常数据集中交换机路径总条数的比值,达到设定比值的交换机序列;
得分确定单元,用于根据所述出现次数,确定每条所述疑似序列的疑似故障得分;
故障确定单元,用于基于所述疑似故障得分确定目标疑似序列并根据所述目标疑似序列确定SDN网络故障的位置。
9.一种SDN网络故障定位设备,其特征在于,包括存储器和处理器;
所述存储器,用于存储程序;
所述处理器,用于执行所述程序,实现如权利要求1-7任一项的SDN网络故障定位方法的各个步骤。
10.一种可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现如权利要求1-7任一项的SDN网络故障定位方法的各个步骤。
CN202111535101.5A 2021-12-15 2021-12-15 Sdn网络故障定位方法、装置、设备及可读存储介质 Active CN114221858B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111535101.5A CN114221858B (zh) 2021-12-15 2021-12-15 Sdn网络故障定位方法、装置、设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111535101.5A CN114221858B (zh) 2021-12-15 2021-12-15 Sdn网络故障定位方法、装置、设备及可读存储介质

Publications (2)

Publication Number Publication Date
CN114221858A true CN114221858A (zh) 2022-03-22
CN114221858B CN114221858B (zh) 2022-09-30

Family

ID=80702375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111535101.5A Active CN114221858B (zh) 2021-12-15 2021-12-15 Sdn网络故障定位方法、装置、设备及可读存储介质

Country Status (1)

Country Link
CN (1) CN114221858B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844760A (zh) * 2022-05-05 2022-08-02 鹏城实验室 一种网络故障感知与定位方法、装置、终端及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108123824A (zh) * 2016-11-30 2018-06-05 华为技术有限公司 一种网络故障检测方法及装置
CN109088903A (zh) * 2018-11-07 2018-12-25 湖南大学 一种基于流式的网络异常流量检测方法
CN110209551A (zh) * 2019-05-24 2019-09-06 北京奇艺世纪科技有限公司 一种异常设备的识别方法、装置、电子设备及存储介质
JP2019204407A (ja) * 2018-05-25 2019-11-28 エンカレッジ・テクノロジ株式会社 異常操作検知装置、異常操作検知方法、およびプログラム
CN113282686A (zh) * 2021-06-03 2021-08-20 光大科技有限公司 一种不平衡样本的关联规则确定方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108123824A (zh) * 2016-11-30 2018-06-05 华为技术有限公司 一种网络故障检测方法及装置
JP2019204407A (ja) * 2018-05-25 2019-11-28 エンカレッジ・テクノロジ株式会社 異常操作検知装置、異常操作検知方法、およびプログラム
CN109088903A (zh) * 2018-11-07 2018-12-25 湖南大学 一种基于流式的网络异常流量检测方法
CN110209551A (zh) * 2019-05-24 2019-09-06 北京奇艺世纪科技有限公司 一种异常设备的识别方法、装置、电子设备及存储介质
CN113282686A (zh) * 2021-06-03 2021-08-20 光大科技有限公司 一种不平衡样本的关联规则确定方法及装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114844760A (zh) * 2022-05-05 2022-08-02 鹏城实验室 一种网络故障感知与定位方法、装置、终端及存储介质

Also Published As

Publication number Publication date
CN114221858B (zh) 2022-09-30

Similar Documents

Publication Publication Date Title
US11442803B2 (en) Detecting and analyzing performance anomalies of client-server based applications
US20190279098A1 (en) Behavior Analysis and Visualization for a Computer Infrastructure
JP4758259B2 (ja) ネットワーク監視装置及び方法
US6363384B1 (en) Expert system process flow
US20070274234A1 (en) Network management method
CN113328872B (zh) 故障修复方法、装置和存储介质
US20220038348A1 (en) Machine Learning-Based Network Analytics, Troubleshoot, and Self-Healing System and Method
CN115118581B (zh) 一种基于5g的物联网数据全链路监控和智能保障系统
CN114221858B (zh) Sdn网络故障定位方法、装置、设备及可读存储介质
JP2004165792A (ja) Catv伝送路監視装置、方法及びプログラム
CN111934936A (zh) 网络状态检测方法、装置、电子设备及存储介质
CN110071843B (zh) 一种基于流路径分析的故障定位方法及装置
CN111082979A (zh) 基于交换机的智能变电站过程层二次回路故障诊断方法及故障诊断主机
JP2004320267A (ja) 障害通報装置および障害通報方法
CN113721581A (zh) 一种基于关键路径的故障诊断显示装置及方法
JP4169725B2 (ja) パケット廃棄箇所探索方法及び装置
CN110943887A (zh) 探针调度方法、装置、设备和存储介质
Zhang et al. PCA-based network-wide correlated anomaly event detection and diagnosis
JP3711879B2 (ja) ネットワーク障害解析装置およびネットワーク障害解析方法
CN113037564B (zh) 一种网络故障诊断方法及装置
JPH09307550A (ja) ネットワークシステム監視装置
CN108390790B (zh) 路由设备故障诊断方法及装置
EP4198803A1 (en) Fault processing method and apparatus, network device and storage medium
CN114006840B (zh) 一种电路流量异常识别方法
CN111552605B (zh) 基于网络端数据流信息的故障定位方法、系统和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant