CN108989135B - 网络设备故障检测方法及装置 - Google Patents

网络设备故障检测方法及装置 Download PDF

Info

Publication number
CN108989135B
CN108989135B CN201811152164.0A CN201811152164A CN108989135B CN 108989135 B CN108989135 B CN 108989135B CN 201811152164 A CN201811152164 A CN 201811152164A CN 108989135 B CN108989135 B CN 108989135B
Authority
CN
China
Prior art keywords
packet loss
loss rate
historical
network equipment
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811152164.0A
Other languages
English (en)
Other versions
CN108989135A (zh
Inventor
王雪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
New H3C Technologies Co Ltd Hefei Branch
Original Assignee
New H3C Technologies Co Ltd Hefei Branch
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by New H3C Technologies Co Ltd Hefei Branch filed Critical New H3C Technologies Co Ltd Hefei Branch
Priority to CN201811152164.0A priority Critical patent/CN108989135B/zh
Publication of CN108989135A publication Critical patent/CN108989135A/zh
Application granted granted Critical
Publication of CN108989135B publication Critical patent/CN108989135B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/06Management of faults, events, alarms or notifications
    • H04L41/0631Management of faults, events, alarms or notifications using root cause analysis; using analysis of correlation between notifications, alarms or events based on decision criteria, e.g. hierarchy, tree or time analysis
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0823Errors, e.g. transmission errors
    • H04L43/0829Packet loss
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters
    • H04L43/0876Network utilisation, e.g. volume of load or congestion level
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/50Testing arrangements

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Environmental & Geological Engineering (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本申请实施例提供了一种网络设备故障检测方法及装置,本申请实施例,首先基于网络设备接收的第一报文流量和网络设备发送的第二报文流量,确定网络设备的丢包率;之后,基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,获取故障检测阈值;最后基于丢包率和获取的故障检测阈值,确定网络设备是否出现故障。与现有技术中的利用端口的当前报文流量与其历史报文流量进行对比以检测故障是否发生的技术方案相比,本申请实施例的上述技术方案能够在网络设备所在的网络架构发生变化,或与网络设备进行报文传送的其他设备发生故障时,精准、高效的检测该网络设备是否发生故障。

Description

网络设备故障检测方法及装置
技术领域
本申请涉及网络管理技术领域,尤其是涉及一种网络设备故障检测方法及装置、电子设备。
背景技术
网络设备故障检测对及时发现和排除网络设备故障非常重要,一个高效的网络设备故障检测机制能够最大程度的保证用户对网络的正常使用。目前在网络运维实践中,一般通过如下手段检测网络设备是否出现故障:首先获取网络设备各个物理端口的报文的流量,之后将当前物理端口的报文的流量与该端口的历史报文流量进行对比,如果当前的报文流量出现明显的上升或下降,则初步判定网络设备出现故障,继而需要运维人员排查网络,进一步定位故障、隔离故障。
上述故障检测的技术手段,把网络设备的各个端口的流量数据作为分立的数据,单独进行处理,理论上能够检测出网络设备的故障,但是在很多复杂地或发生变化的网络场景中会出现检测失误的情况,例如,在发生业务变更时,会调整报文流量的路径,此时会造成某个物理端口的报文流量骤增或骤降,利用上面的技术手段显然会出现故障误报的情况。再例如,如果与网络设备连接的某核心设备发生故障,在其上的流量下降会导致其他与其相连的网络设备的报文流量也出现大幅降低。此时,网管平台报出海量故障报警,导致无法快速找到发生故障的网络设备,降低了故障检测和排除的效率。
综上,现有技术无法准确、快速的检测发生故障的网络设备。
发明内容
有鉴于此,本申请的目的在于提供网络设备故障检测方法和装置,以提高网络设备故障检测的精确度和效率。
第一方面,本申请实施例提供了一种网络设备故障检测方法,包括:
检测网络设备接收的第一报文流量和网络设备发送的第二报文流量;
基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率;
基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,获取故障检测阈值;
基于所述丢包率和所述故障检测阈值,确定所述网络设备是否出现故障。
结合第一方面,本申请实施例提供了第一方面的第一种可能的实施方式,其中,根据以下步骤获取所述故障检测阈值:
基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,确定所述网络设备的至少一个历史丢包率;
基于所述至少一个历史丢包率,确定所述故障检测阈值。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第二种可能的实施方式,其中,所述基于所述至少一个历史丢包率,确定所述故障检测阈值,包括:
从所述至少一个历史丢包率中选取最大的历史丢包率;
基于设置的判定系数和所述最大的历史丢包率,确定所述故障检测阈值。
结合第一方面的第一种可能的实施方式,本申请实施例提供了第一方面的第三种可能的实施方式,其中,所述基于所述至少一个历史丢包率,确定所述故障检测阈值,包括:
选取最大的历史丢包率和次大的历史丢包率;
基于所述最大的历史丢包率和次大的历史丢包率,确定所述故障检测阈值。
结合第一方面,本申请实施例提供了第一方面的第四种可能的实施方式,其中,根据以下步骤确定所述第一报文流量:
获取所述网络设备的每一个物理端口接收报文的流量,将所述网络设备的至少一个物理端口分别对应的所述接收报文的流量的总和,确定为所述第一报文流量;
以及,根据以下步骤确定所述第二报文流量:
获取所述网络设备的每一个物理端口发送报文的流量,将所述网络设备的至少一个物理端口分别对应的所述发送报文的流量的总和,确定为所述第二报文流量。
第二方面,本申请实施例提供了一种网络设备故障检测装置,包括:
检测模块,用于检测网络设备接收的第一报文流量和网络设备发送的第二报文流量;
第一丢包率确定模块,用于基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率;
阈值获取模块,用于基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,获取故障检测阈值;
故障检测模块,用于基于所述丢包率和所述故障检测阈值,确定所述网络设备是否出现故障。
结合第二方面,本申请实施例提供了第二方面的第一种可能的实施方式,其中,网络故障检测装置还包括:
第二丢包率确定模块,用于基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,确定所述网络设备的至少一个历史丢包率;
阈值确定模块,用于基于所述至少一个历史丢包率,确定所述故障检测阈值。
结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第二种可能的实施方式,其中,所述阈值确定模块具体用于:
从所述至少一个历史丢包率中选取最大的历史丢包率;
基于设置的判定系数和所述最大的历史丢包率,确定所述故障检测阈值。
结合第二方面的第一种可能的实施方式,本申请实施例提供了第二方面的第三种可能的实施方式,其中,所述阈值确定模块具体用于:
选取最大的历史丢包率和次大的历史丢包率;
基于所述最大的历史丢包率和次大的历史丢包率,确定所述故障检测阈值。
结合第二方面,本申请实施例提供了第二方面的第四种可能的实施方式,其中,所述检测模块具体用于:
获取所述网络设备的每一个物理端口接收报文的流量,将所述网络设备的至少一个物理端口分别对应的所述接收报文的流量的总和,确定为所述第一报文流量;
获取所述网络设备的每一个物理端口发送报文的流量,将所述网络设备的至少一个物理端口分别对应的所述发送报文的流量的总和,确定为所述第二报文流量。
第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第一方面,或第一方面的任一种实施方式中的步骤。
第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第一方面,或第一方面的任一种实施方式中的步骤。
本申请实施例提供的网络设备故障检测方法及装置,首先检测网络设备接收的第一报文流量和网络设备发送的第二报文流量,之后基于第一报文流量和第二报文流量,确定网络设备的丢包率;之后基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,获取故障检测阈值;最后基于丢包率和获取的故障检测阈值,确定网络设备是否出现故障。相比于现有技术中只是根据单独的某一个端口的流量变化来检测故障相比,上述技术方案结合网络设备所有物理端口接收的报文流量和所有物理端口发送的报文流量检测网络设备是否发生故障,避免了利用单独端口流量变化检测故障带来的检查片面性,能够准确的检测网络设备是否发生故障。同时,在网络设备所在的网络架构发生变化,或与网络设备进行报文传送的其他设备发生故障时,集合网络设备当前所有物理端口接收/发送的报文流量和网络设备所有物理端口接收/发送的历史报文流量差值的波动幅度,进行故障检测的技术方案,能够快速找到发生故障的网络设备,提高了故障检测的速度。
为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1示出了本申请实施例一所提供的网络设备故障检测方法的流程图;
图2示出了本申请实施例一中网络设备接受报文和发送报文的示意图;
图3示出了本申请实施例二所提供的网络设备故障检测方法的流程图;
图4示出了本申请实施例三所提供的网络设备故障检测方法的流程图;
图5示出了本申请实施例四所提供的网络设备故障检测方法的流程图;
图6示出了本申请实施例五所提供的网络设备故障检测装置的结构示意图;
图7示出了本申请实施例六所提供的网络设备故障检测装置的结构示意图;
图8示出了本申请实施例七所提供的一种电子设备的结构示意图。
具体实施方式
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
考虑到现有技术中网络设备故障检测方法,容易受到网路设备所在的网络结构以及与网络设备传送报文的其他设备的影响,而造成故障检测精度不高的缺陷,本申请实施例提供了一种网络设备故障检测方法和装置,下面通过实施例进行描述。
为便于对本实施例进行理解,首先对本申请实施例所公开的一种网络设备故障检测方法进行详细介绍。
实施例一
本实施例提供了一种网络设备故障检测方法,该方法基于网络设备的丢包率、网络设备历史接收报文流量和历史发送报文流量的差值的波动幅度进行故障检测,能够有效避免与当前网络设备传送报文的其他设备在发生故障情况下,对当前网络设备的故障检测精度造成的影响,有效提高了网络设备故障检测的精度和适应性。具体地,如图1所示,本实施例的网络设备故障检测方法包括如下步骤:
S110、检测网络设备接收的第一报文流量和网络设备发送的第二报文流量。
这里,网络设备可以是交换机、路由器等具有多个物理端口的设备。此时,第一报文流量可以是网络设备的所有的物理端口接收的报文流量的和,对应地,第二报文流量就是网络设备的所有的物理端口发送的报文流量的和。那么,本步骤可以具体利用如下子步骤实现:
S1101、获取所述网络设备的每一个物理端口接收报文的流量,将所述网络设备的至少一个物理端口分别对应的所述接收报文的流量的总和,确定为所述第一报文流量。
S1102、获取所述网络设备的每一个物理端口发送报文的流量,将所述网络设备的至少一个物理端口分别对应的所述发送报文的流量的总和,确定为所述第二报文流量。
应当说明的是,上述第一报文流量和第二报文流量可以是网络设备在当前采集周期的报文流量。
S120、基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率。
这里,可以根据如下步骤确定网络设备的丢包率:首先计算第一报文流量和所述第二报文流量的差值,再将该差值与第一报文流量进行比较,得到丢包率。
再在具体实施时,可以利用如下公式确定丢包率:
Figure BDA0001818189560000081
式中,S_ratio表示所述丢包率,S_in表示所述第一报文流量,S_out表示所述第二报文流量。
S130、基于网络设备的历史接收报文流量与历史发送报文流量的差值的波动幅度,获取故障检测阈值;
这里,为了提高网络设备故障检测的准确度,可以基于网络设备在正常运行状态的情况下,其历史接收报文流量与历史发送报文流量的差值的波动幅度的最大值,确定故障检测阈值。
S140、基于所述丢包率和获取的故障检测阈值,确定所述网络设备是否出现故障。
这里,可以具体利用如下子步骤确定所述网络设备是否出现故障:
S1401、判断所述丢包率是否大于或等于与所述故障检测阈值,;
S1402、若在所述丢包率大于或等于所述故障检测阈值的情况下,判定确定所述网络设备出现故障。
这里,网络设备主要功能是转发报文,自身产生的报文数量相对较少。如图2所示,对于较为常见的普通二/三层转发场景,在网络设备在非故障状态下,总接收流量与总发送流量不会有较大的偏差。因此,如果网络设备的总接收流量与总发送流量的差值出现较大波动,则表明其极有可能存在故障。本实施例,利用丢包率表示网络设备当前总接收流量与总发送流量的差值的波动幅度,结合根据历史接收报文流量与历史发送报文流量的差值的波动幅度获取的故障检测阈值,能够准确的检测当前网络设备是否发生故障。
在具体实施时,在网络中,除了转发报文,还有设备之间交互的各种各样的协议报文,其中有一些协议使用单播报文进行通信。此外,网络中也存在一些进入网络设备就终止转发的报文,如攻击网络设备的报文。所以,大多数情况下丢包率不严格为0。而是近似为0。
从分析可知网络设备的丢包率取值在0到1之间。在网络稳定时,报文流量都有周期变化的规律。所以丢包率也有周期变化的规律。
因此,故障检测阈值可以是根据历史上网络设备接收报文流量与发送报文流量的差值的波动幅度,预先设定的一个总接收流量与总发送流量波动幅度的最大值,例如将故障检测阈值设置为0.1。当然,故障检测阈值也可以是根据网络设备的历史的总接收流量与总发送流量经过计算确定的值。
应当说明的是,本实施例是基于网络设备总接收流量与总发送流量的比例检测网络设备故障的思想,设计的网络设备故障检测方法。根据该方法运维人员可以快速检测故障,从而隔离故障设备以恢复业务。
实施例二
本实施例提供了一种网络设备故障检测方法,该方法公开了根据网络设备的历史的总接收流量与总发送流量,确定故障检测阈值的技术方案。具体地,如图3所示,本实施例的网络设备故障检测方法包括如下步骤:
S310、检测网络设备接收的第一报文流量和网络设备发送的第二报文流量,并基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率。
S320、基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,确定所述网络设备的至少一个历史丢包率。
这里,历史接收报文流量可以是网络设备的所有的物理端口,在历史的至少一个采集周期接收的报文流量的和,对应地,历史发送报文流量就是网络设备的所有的物理端口,在历史的至少一个采集周期发送的报文流量的和。
这里,根据某一个历史采集周期对应的历史接收报文流量和历史发送报文流量,就能确定该历史采集周期对应的历史丢包率。历史丢包率的计算方法与当前采集周期的丢包率的计算方法相同,这里不再进行赘述。
S330、基于所述至少一个历史丢包率,确定所述故障检测阈值。
这里,历史丢包率表示网络设备在之前的历史采集周期中,总接收流量与总发送流量的差值的波动幅度,因此,根据历史丢包率可以确定网络设备在之前的采集周期中的总接收流量与总发送流量波动幅度的最大值,继而根据该最大值就可以直接或间接确定一个用于判断网络设备是否发生故障的故障检测阈值。
S340、基于所述丢包率和所述故障检测阈值,确定所述网络设备是否出现故障。
进一步地,本实施例还公开了下述三种根据历史丢包率确定故障检测阈值的技术方案:
方案一:
计算历史丢包率的均值,并将得到的均值作为所述故障检测阈值。
本方案,利用历史丢包率的均值表示网络设备的总接收流量与总发送流量波动幅度的最大值,当前采集周期的丢包率超高该均值,就表示网络设备发生了故障。
方案二:
从所述至少一个历史丢包率中选取最大的历史丢包率,得到所述故障检测阈值。
本方案,利用最大的历史丢包率表示网络设备的总接收流量与总发送流量波动幅度的最大值,当前采集周期的丢包率超高该最大的历史丢包率,就表示网络设备发生了故障。本方案确定的故障检测阈值,能够保证在一定程度上的正常的网络波动,不会造成故障误报。只有超出历史同一时期最大的历史丢包率,能发出故障报警。
方案三:
从所述至少一个历史丢包率中选取最大的历史丢包率;基于设置的判定系数和所述最大的历史丢包率,确定所述故障检测阈值。
具体地,可以通过计算判定系数和所述最大的历史丢包率的乘积,得到所述故障检测阈值。在具体实施时,可以利用如下公式计算故障检测阈值:
T=K×Max(S_ratio1,S_ratio2,...S_ratioM)
式中,T表示故障检测阈值,K表示判定系数,S_ratio1、S_ratio2,…,S_ratioM表示历史丢包率。
本方案中,可以预先设置一个判定系数,并将该判定系数与最大的历史丢包率相乘,得到故障检测阈值。例如设定判定系数为1.1,此时,得到故障检测阈值表示,对于当前采集周期的丢包率超出历史丢包率最大值的10%的情况,可以容忍,是正常情况。这样故障检测阈值以动态向增长和减少两个方向移动。当然,也可以将设定判定系数为1,此时,本方式实质上是,从至少一个历史丢包率中选取最大的历史丢包率,得到故障检测阈值,与上面的方案二相同。
应当说明的是,本实施例中,用于确定故障检测阈值的历史丢包率,可以先结合均方差计算,剔除明显失常的历史丢包率。比如,经过上述计算剔除了正好处于变更时段或故障时段获得的历史丢包率,这样,能够有效提高计算得到的故障检测阈值的准确度。这里,具体可以通过如下步骤剔除明显失常的历史丢包率:计算当前所有历史丢包率的均值和标准差,之后计算每个有历史丢包率与上述均值的差值,再判断该差值是否大于3倍的标准差,在该差值大于3倍的标准差的情况下,该差值对应的历史丢包率明显失常,应当剔除。
实施例三
本实施例提供了一种网络设备故障检测方法,该方法公开了根据历史丢包率确定故障检测阈值的技术方案。具体地,如图4所示,本实施例的网络设备故障检测方法包括如下步骤:
S410、检测网络设备接收的第一报文流量和网络设备发送的第二报文流量,并基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率。
S420、基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,确定所述网络设备的至少一个历史丢包率。
S430、选取最大的历史丢包率和次大的历史丢包率。
S440、基于所述最大的历史丢包率和次大的历史丢包率,确定所述故障检测阈值。
这里具体地,根据最大的历史丢包率和次大的历史丢包率,可以确定一个容错系数,继而利用该容错系数与最大的历史丢包率相乘,得到故障检测阈值。
在具体实施中,可以利用如下公式确定上述容错系数:
Figure BDA0001818189560000121
式中,K表示容错系数,Srmax2表示次大的历史丢包率,Srmax1表示最大的历史丢包率。
故障检测阈值可以利用如下公式确定:
T=K×Srmax1
进一步地,将本实施例用于计算故障检测阈值的两个公式进行合并,得到如下公式:
T=K×Srmax1=Srmax1+(Srmax1-Srmax2)=2×Srmax1-Srmax2
可见,在具体实施例时,可以不去计算容错系数,只需要计算最大的历史丢包率与次大的历史丢包率的差值,再计算该差值与最大的历史丢包率的和就能够得到故障检测阈值。该计算方法表示,以历史上丢包率的最大值和次大值的差作为丢包率超出最大值后的正常波动的幅度。
或者,在具体实施例时,可以不去计算容错系数,只需要计算两倍的最大的历史丢包率与次大的历史丢包率的差,就能够得到故障检测阈值。
S450、基于所述丢包率和获取的故障检测阈值,确定所述网络设备是否出现故障。
基于上述故障检测阈值的计算方案,在当前采集周期的丢包率成为历史数据后,故障检测阈值的具体数值可以利用本实施例中的公式重新计算,保证了故障检测阈值的准确性和实时性。
实施例四
以上实施例均是利用采集周期对应的丢包率进行故障检测,基于相同的发明构思,也可以利用采集周期中某一时刻的丢包率进行故障检测,本实施例的方法能够检测网络设备在某一时刻是否发生故障。如图5所示,本实施例公开了利用某一时刻的丢包率进行网络故障检测的方法,包括如下步骤:
S510、检测网络设备的所有物理端口在预定时刻接收报文的速率,检测网络设备的所有物理端口在预定时刻发送报文的速率;
这里,可以通过简单网络管理协议(Simple network mannagement protocol,SNMP)/网络配置协议(Network Configuration protocol,NETCONF)/命令行(CommandLine,CLI)等,使用自动化方法获取到网络设备所有物理端口的接收报文或发送报文的实时速率。物理端口的接收报文或发送报文的实时速率也可以通过物理端口的接收报文或发送报文的流量总计数除以采集数据周期计算得出。当然,也可以通过直接读取网络设备物理端口报文的实时速率获取。流速应以每秒报文数量pps为单位。
S520、基于上述接收报文的速率和发送报文的速率,确定网络设备在预定时刻的丢包率;
这里,可以通过如下步骤确定网络设备在预定时刻的丢包率:首先计算接收报文的速率和发送报文的速率的差值,再将该差值与接收报文的速率进行比较,得到网络设备在预定时刻的丢包率。
再具体实施时,可以利用如下步骤确定预定时刻的丢包率:
Figure BDA0001818189560000141
其中,
Figure BDA0001818189560000142
Figure BDA0001818189560000143
式中,S_ratio(t)表示预定时刻的丢包率,S_in(t)表示网络设备的所有物理端口在预定时刻的接收报文的总速率,S_out(t)表示网络设备的所有物理端口在预定时刻发送报文的总速率,N表示网络设备的物理端口的数量,in(t,n)表示第n个物理端口在预定时刻接收报文的速率,out(t,n)表示第n个物理端口在预定时刻发送报文的速率。
S530、获取网络设备在历史采集周期中与预定时刻对应的时刻的历史丢包率,并基于历史丢包率确定故障检测阈值;
这里,可以具体通过如下步骤确定故障检测阈值:选取最大的历史丢包率,并计算最大的历史丢包率与一个判定系数或容错系数的乘积,得到故障检测阈值。其中,利用历史丢包率中的次大值与历史丢包率中的最大值的比值可以确定上述判定系数或容错系数。在具体实施时,可以利用如下公式确定故障检测阈值:
T(t)=K×Max(S_ratio(t1),S_ratio(t2),...S_ratio(tM))
其中,
Figure BDA0001818189560000151
式中,T(t)表示网络设备在预定时刻t的故障检测阈值,K表示判定系数或容错系数,S_ratio(t1),S_ratio(t2),...S_ratio(tM)表示历史丢包率,Srmax1表示历史丢包率中的最大值,Srmax2表示历史丢包率中的次大值。
S540、基于网络设备在预定时刻的丢包率以及故障检测阈值,确定所述网络设备是否出现故障。
基于相同的技术构思,本申请实施例还提供一种网络故障检测装置、电子设备、以及计算机存储介质等,具体可参见以下实施例。
实施例五
本实施例公开了一种网络设备故障检测装置,如图6所示,该装置包括:
检测模块601,用于检测网络设备接收的第一报文流量和网络设备发送的第二报文流量。
第一丢包率确定模块602,用于基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率。
阈值获取模块603,用于基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,获取故障检测阈值。
故障检测模块604,用于基于所述丢包率和获取的故障检测阈值,确定所述网络设备是否出现故障。
实施例六
本实施例公开了一种网络设备故障检测装置,如图7所示,该装置包括:
检测模块701,用于检测网络设备接收的第一报文流量和网络设备发送的第二报文流量。
第一丢包率确定模块702,用于基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率。
第二丢包率确定模块703,用于基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,确定所述网络设备的至少一个历史丢包率。
阈值确定模块704,用于基于所述至少一个历史丢包率,确定所述故障检测阈值。
故障检测模块705,用于基于所述丢包率和获取的故障检测阈值,确定所述网络设备是否出现故障。
进一步地,所述阈值确定模块具体用于:
从所述至少一个历史丢包率中选取最大的历史丢包率,得到所述故障检测阈值。
进一步地,所述阈值确定模块具体用于:
从所述至少一个历史丢包率中选取最大的历史丢包率;
基于设置的判定系数和所述最大的历史丢包率,确定所述故障检测阈值。
进一步地,所述阈值确定模块具体用于:
选取最大的历史丢包率和次大的历史丢包率;
基于所述最大的历史丢包率和次大的历史丢包率,确定所述故障检测阈值。
进一步地,所述检测模块具体用于:
获取所述网络设备的每一个物理端口接收报文的流量,将所述网络设备的至少一个物理端口分别对应的所述接收报文的流量的总和,确定为所述第一报文流量;
获取所述网络设备的每一个物理端口发送报文的流量,将所述网络设备的至少一个物理端口分别对应的所述发送报文的流量的总和,确定为所述第二报文流量。
实施例七
本实施例公开了一种电子设备,如图8所示,包括:处理器801、存储器802和总线803,所述存储器802存储有所述处理器801可执行的机器可读指令,当电子设备运行时,所述处理器801与所述存储器802之间通过总线803通信。
所述机器可读指令被所述处理器801执行时执行以下网络设备故障检测方法的步骤:
检测网络设备接收的第一报文流量和网络设备发送的第二报文流量;
基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率;
基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,获取故障检测阈值;基于所述丢包率所述故障检测阈值,确定所述网络设备是否出现故障。
在具体实施时,所述处理器801根据以下步骤获取所述故障检测阈值:
基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,确定所述网络设备的至少一个历史丢包率;
基于所述至少一个历史丢包率,确定所述故障检测阈值。
在具体实施时,所述处理器801基于所述至少一个历史丢包率,确定所述故障检测阈值,包括:
从所述至少一个历史丢包率中选取最大的历史丢包率,得到所述故障检测阈值。
在具体实施时,所述处理器801基于所述至少一个历史丢包率,确定所述故障检测阈值,包括:
从所述至少一个历史丢包率中选取最大的历史丢包率;
基于设置的判定系数和所述最大的历史丢包率,确定所述故障检测阈值。
在具体实施时,所述处理器801基于所述至少一个历史丢包率,确定所述故障检测阈值,包括:
选取最大的历史丢包率和次大的历史丢包率;
基于所述最大的历史丢包率和次大的历史丢包率,确定所述故障检测阈值。
在具体实施时,所述处理器801根据以下步骤确定所述第一报文流量:
获取所述网络设备的每一个物理端口接收报文的流量,将所述网络设备的至少一个物理端口分别对应的所述接收报文的流量的总和,确定为所述第一报文流量;
在具体实施时,所述处理器801根据以下步骤确定所述第二报文流量:
获取所述网络设备的每一个物理端口发送报文的流量,将所述网络设备的至少一个物理端口分别对应的所述发送报文的流量的总和,确定为所述第二报文流量。
实施例八
本实施例公开了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述实施例的网络设备故障检测方法中的步骤。
本申请实施例还提供了一种进行文本检错计算机程序产品,其包括存储了处理器可执行的非易失的程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本申请的具体实施方式,用以说明本申请的技术方案,而非对其限制,本申请的保护范围并不局限于此,尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本申请实施例技术方案的精神和范围,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应所述以权利要求的保护范围为准。

Claims (7)

1.一种网络设备故障检测方法,其特征在于,包括:
检测网络设备接收的第一报文流量和网络设备发送的第二报文流量,其中,所述第一报文流量指的是所述网络设备的所有的物理端口接收的报文流量的和,所述第二报文流量指的是所述网络设备的所有的物理端口发送的报文流量的和;
基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率;
基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,获取故障检测阈值;
基于所述丢包率和获取的所述故障检测阈值,确定所述网络设备是否出现故障;
根据以下步骤获取所述故障检测阈值:
基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,确定所述网络设备的至少一个历史丢包率;
基于所述至少一个历史丢包率,确定所述故障检测阈值;
所述基于所述至少一个历史丢包率,确定所述故障检测阈值,包括:
从所述至少一个历史丢包率中选取最大的历史丢包率;
基于设置的判定系数和所述最大的历史丢包率,确定所述故障检测阈值;
通过以下公式确定所述故障检测阈值:
T(t)=K·Max(S_ratio1,S_ratio2,…S_ratioM)
其中,T为所述故障检测阈值,K为所述判定系数,S_ratio1,S_ratio2,…S_ratioM为所述历史丢包率。
2.根据权利要求1所述的方法,其特征在于,所述基于所述至少一个历史丢包率,确定所述故障检测阈值,包括:
选取最大的历史丢包率和次大的历史丢包率;
基于所述最大的历史丢包率和次大的历史丢包率,确定所述故障检测阈值。
3.根据权利要求1所述的方法,其特征在于,根据以下步骤确定所述第一报文流量:
获取所述网络设备的每一个物理端口接收报文的流量,将所述网络设备的至少一个物理端口分别对应的所述接收报文的流量的总和,确定为所述第一报文流量;
以及,根据以下步骤确定所述第二报文流量:
获取所述网络设备的每一个物理端口发送报文的流量,将所述网络设备的至少一个物理端口分别对应的所述发送报文的流量的总和,确定为所述第二报文流量。
4.一种网络设备故障检测装置,其特征在于,包括:
检测模块,用于检测网络设备接收的第一报文流量和网络设备发送的第二报文流量,其中,所述第一报文流量指的是所述网络设备的所有的物理端口接收的报文流量的和,所述第二报文流量指的是所述网络设备的所有的物理端口发送的报文流量的和;
第一丢包率确定模块,用于基于所述第一报文流量和所述第二报文流量,确定所述网络设备的丢包率;
阈值获取模块,用于基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,获取故障检测阈值;
故障检测模块,用于基于所述丢包率和所述故障检测阈值,确定所述网络设备是否出现故障;
第二丢包率确定模块,用于基于网络设备历史接收报文流量与历史发送报文流量的差值的波动幅度,确定所述网络设备的至少一个历史丢包率;
阈值确定模块,用于基于所述至少一个历史丢包率,确定所述故障检测阈值;
所述阈值确定模块具体用于:
从所述至少一个历史丢包率中选取最大的历史丢包率;
基于设置的判定系数和所述最大的历史丢包率,确定所述故障检测阈值;
通过以下公式确定所述故障检测阈值:
T(t)=K·Max(S_ratio1,S_ratio2,…S_ratioM)
其中,T为所述故障检测阈值,K为所述判定系数,S_ratio1,S_ratio2,…S_ratioM为所述历史丢包率。
5.根据权利要求4所述的装置,其特征在于,所述阈值确定模块具体用于:
选取最大的历史丢包率和次大的历史丢包率;
基于所述最大的历史丢包率和次大的历史丢包率,确定所述故障检测阈值。
6.根据权利要求4所述的装置,其特征在于,所述检测模块具体用于:
获取所述网络设备的每一个物理端口接收报文的流量,将所述网络设备的至少一个物理端口分别对应的所述接收报文的流量的总和,确定为所述第一报文流量;
获取所述网络设备的每一个物理端口发送报文的流量,将所述网络设备的至少一个物理端口分别对应的所述发送报文的流量的总和,确定为所述第二报文流量。
7.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如权利要求1至3任一所述的网络设备故障检测方法的步骤。
CN201811152164.0A 2018-09-29 2018-09-29 网络设备故障检测方法及装置 Active CN108989135B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811152164.0A CN108989135B (zh) 2018-09-29 2018-09-29 网络设备故障检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811152164.0A CN108989135B (zh) 2018-09-29 2018-09-29 网络设备故障检测方法及装置

Publications (2)

Publication Number Publication Date
CN108989135A CN108989135A (zh) 2018-12-11
CN108989135B true CN108989135B (zh) 2021-12-07

Family

ID=64543224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811152164.0A Active CN108989135B (zh) 2018-09-29 2018-09-29 网络设备故障检测方法及装置

Country Status (1)

Country Link
CN (1) CN108989135B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110224885B (zh) * 2019-05-31 2021-09-17 东软集团股份有限公司 设备监控的告警方法、装置、存储介质及电子设备
CN112242971B (zh) * 2019-07-16 2023-06-16 中兴通讯股份有限公司 一种流量异常检测方法、装置、网络设备及存储介质
CN110460498A (zh) * 2019-08-22 2019-11-15 北京世纪互联宽带数据中心有限公司 一种流量监控方法及系统
CN111200520A (zh) * 2019-12-27 2020-05-26 咪咕文化科技有限公司 网络监控方法、服务器和计算机可读存储介质
CN111629281B (zh) * 2020-04-13 2021-02-02 北京创享苑科技文化有限公司 一种视频传输中基于网络丢包率分布的在线连续检验方法
CN112600705A (zh) * 2020-12-14 2021-04-02 国网四川省电力公司信息通信公司 一种网络设备自动化运维的方法
CN113542061B (zh) * 2021-07-08 2023-03-31 阳光电源股份有限公司 一种数据传输控制方法及相关装置
CN114301817A (zh) * 2021-12-17 2022-04-08 中电信数智科技有限公司 基于Netconf协议的设备监测阈值设置方法和系统
CN114584491B (zh) * 2022-04-21 2023-09-08 腾讯科技(深圳)有限公司 检测方法、装置、存储介质及设备
CN115426244B (zh) * 2022-08-09 2024-03-15 武汉虹信技术服务有限责任公司 一种基于大数据的网络设备故障检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201947A (zh) * 2010-03-24 2011-09-28 中兴通讯股份有限公司 吞吐量测量方法及维护端节点
CN104283718A (zh) * 2014-10-27 2015-01-14 杭州华三通信技术有限公司 网络设备及用于网络设备的硬件故障诊断方法
CN106230634A (zh) * 2016-08-01 2016-12-14 青岛海信宽带多媒体技术有限公司 一种链路故障的诊断方法、装置和机顶盒
CN107864084A (zh) * 2016-09-22 2018-03-30 腾讯科技(深圳)有限公司 数据包的传输方法和装置
CN108259254A (zh) * 2016-12-28 2018-07-06 华为技术有限公司 一种路径质量检测方法及网络设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008146399A1 (ja) * 2007-05-31 2008-12-04 Fujitsu Limited 情報取得装置、情報取得方法および情報取得プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102201947A (zh) * 2010-03-24 2011-09-28 中兴通讯股份有限公司 吞吐量测量方法及维护端节点
CN104283718A (zh) * 2014-10-27 2015-01-14 杭州华三通信技术有限公司 网络设备及用于网络设备的硬件故障诊断方法
CN106230634A (zh) * 2016-08-01 2016-12-14 青岛海信宽带多媒体技术有限公司 一种链路故障的诊断方法、装置和机顶盒
CN107864084A (zh) * 2016-09-22 2018-03-30 腾讯科技(深圳)有限公司 数据包的传输方法和装置
CN108259254A (zh) * 2016-12-28 2018-07-06 华为技术有限公司 一种路径质量检测方法及网络设备

Also Published As

Publication number Publication date
CN108989135A (zh) 2018-12-11

Similar Documents

Publication Publication Date Title
CN108989135B (zh) 网络设备故障检测方法及装置
CN110213068B (zh) 一种消息中间件的监控方法及相关设备
JP5767617B2 (ja) ネットワーク障害検出システムおよびネットワーク障害検出装置
CN105049291A (zh) 一种检测网络流量异常的方法
CN107426033B (zh) 一种对物联网接入终端进行状态预测的方法和装置
US20110215920A1 (en) Alarm processing method, device, and system
CN111104283B (zh) 一种分布式存储系统的故障检测方法、装置、设备及介质
CN111786804A (zh) 一种链路故障监控方法及装置
CN106302001B (zh) 数据通信网络中业务故障检测方法、相关装置及系统
CN110677480A (zh) 一种节点健康管理方法、装置和计算机可读存储介质
CN111142801B (zh) 分布式存储系统网络亚健康检测方法及装置
CN111130821A (zh) 一种掉电告警的方法、处理方法及装置
US8521869B2 (en) Method and system for reporting defects within a network
CN105490837B (zh) 一种网络监控处理方法以及装置
CN104954190A (zh) 应用服务器故障检测方法及装置
CN103916272A (zh) 一种主控单板及一种主控单板故障检测方法
CN109510730B (zh) 分布式系统及其监控方法、装置、电子设备及存储介质
CN109039761B (zh) 集群控制通道中故障链路处理方法和装置
CN115002001B (zh) 一种检测集群网络亚健康的方法、装置、设备及介质
CN109120558B (zh) 一种单板端口故障自动排除方法及系统
US8566634B2 (en) Method and system for masking defects within a network
CN114661506A (zh) 故障隔离方法和故障隔离装置
EP2646917B1 (en) Change message broadcast error detection
JP6513001B2 (ja) 故障検知装置、故障検知方法、及びプログラム
CN112866030B (zh) 流量切换方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant