CN106685749B - 网络流量的检验方法和装置 - Google Patents

网络流量的检验方法和装置 Download PDF

Info

Publication number
CN106685749B
CN106685749B CN201510758297.2A CN201510758297A CN106685749B CN 106685749 B CN106685749 B CN 106685749B CN 201510758297 A CN201510758297 A CN 201510758297A CN 106685749 B CN106685749 B CN 106685749B
Authority
CN
China
Prior art keywords
network flow
time
tested
data
prediction data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510758297.2A
Other languages
English (en)
Other versions
CN106685749A (zh
Inventor
王蒙
饶峰云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Gridsum Technology Co Ltd
Original Assignee
Beijing Gridsum Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Gridsum Technology Co Ltd filed Critical Beijing Gridsum Technology Co Ltd
Priority to CN201510758297.2A priority Critical patent/CN106685749B/zh
Publication of CN106685749A publication Critical patent/CN106685749A/zh
Application granted granted Critical
Publication of CN106685749B publication Critical patent/CN106685749B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L43/00Arrangements for monitoring or testing data switching networks
    • H04L43/08Monitoring or testing based on specific metrics, e.g. QoS, energy consumption or environmental parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Environmental & Geological Engineering (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请公开了一种网络流量的检验方法和装置。其中,该方法包括:获取待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,其中,参考时间为在待检验时间之前并与待检验时间相邻的时间;基于待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,计算待检验时间内网络流量的预测数据;计算待检验时间内网络流量的实际数据和预测数据之间的误差;根据预测数据和误差确定待检验时间内网络流量的预测范围;以及如果检验出待检验时间内网络流量的实际数据超出预测范围,则确定待检验时间内网络流量出现异常。本申请解决了现有技术中检验网络流量的效率比较低的技术问题。

Description

网络流量的检验方法和装置
技术领域
本申请涉及数据处理领域,具体而言,涉及一种网络流量的检验方法和装置。
背景技术
对于网络流量数据,通常需要进行流量异常与否的检验,现有技术中进行流量异常检验的方式有很多,较常用的有基于域值的检验方式,基于统计的检验方式,基于小波的检验方式,基于马尔可夫等随机过程模型的方式和一些基于机器学习、数据挖掘和神经网络等检验方式。
以上方式,具体检验过程均需要人工干预,导致整体的检验速度低,效率低下。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种网络流量的检验方法和装置,以至少解决现有技术中检验网络流量的效率比较低的技术问题。
根据本申请实施例的一个方面,提供了一种网络流量的检验方法,包括:获取待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,其中,所述参考时间为在所述待检验时间之前并与所述待检验时间相邻的时间;基于所述待检验时间内网络流量的实际数据和所述参考时间内网络流量的实际数据,计算所述待检验时间内网络流量的预测数据;计算所述待检验时间内网络流量的实际数据和所述预测数据之间的误差;根据所述预测数据和所述误差确定所述待检验时间内网络流量的预测范围;以及如果检验出所述待检验时间内网络流量的实际数据超出所述预测范围,则确定所述待检验时间内网络流量出现异常。
进一步地,基于所述待检验时间内网络流量的实际数据和所述参考时间内网络流量的实际数据,计算所述待检验时间内网络流量的预测数据包括:获取计算网络流量的初始递推公式,其中,所述初始递推公式中含有未知预设参数;以所述参考时间内网络流量的实际数据作为训练数据,代入所述初始递推公式,计算出所述未知预设参数;以及将所述待检验时间内网络流量的实际数据代入目标递推公式,得到所述预测数据,其中,所述目标递推公式为计算出所述未知预设参数后的所述初始递推公式。
进一步地,获取到的所述初始递推公式的数量为多个,以所述参考时间内网络流量的实际数据作为训练数据,代入所述初始递推公式,计算出所述未知预设参数包括:将所述参考时间内网络流量的实际数据依次代入每个所述初始递推公式,计算出每个所述初始递推公式的所述未知预设参数,将所述待检验时间内网络流量的实际数据代入目标递推公式,得到所述预测数据包括:将所述待检验时间内网络流量的实际数据代入每个所述目标递推公式,得到多组所述预测数据,计算所述待检验时间内网络流量的实际数据和所述预测数据之间的误差包括:计算所述待检验时间内网络流量的实际数据和每一组所述预测数据之间的误差,得到多个所述误差,根据所述预测数据和所述误差确定所述待检验时间内网络流量的预测范围包括:从多个所述误差中筛选出最小误差;以及根据与所述最小误差对应的一组所述预测数据和所述最小误差确定所述预测范围。
进一步地,所述误差为均方差,根据所述预测数据和所述误差确定所述待检验时间内网络流量的预测范围包括:计算所述均方差所对应的标准差;确定所述预测数据与预设倍数的所述标准差之和为所述预测范围的上界;以及确定所述预测数据与所述预设倍数的所述标准差之差为所述预测范围的下界。
进一步地,所述待检验时间包括多个时间节点,所述预测数据包括每个所述时间节点的预测数据,确定所述预测数据与预设倍数的所述标准差之和为所述预测范围的上界包括:确定时间节点j的所述预测数据与所述预设倍数的所述标准差之和为所述时间节点j的所述预测范围的上界,其中,j依次取1至N,时间节点1至时间节点N构成所述多个时间节点,确定所述预测数据与所述预设倍数的所述标准差之差为所述预测范围的下界包括:确定所述时间节点j的所述预测数据与所述预设倍数的所述标准差之差为所述时间节点j的所述预测范围的下界。
进一步地,在确定所述时间节点j的所述预测数据与所述预设倍数的所述标准差之差为所述时间节点j的所述预测范围的下界之后,所述方法还包括:绘制所述预测范围基于每个所述时间节点的图形;以及将每个所述时间节点的实际数据绘制在所述图形上。
进一步地,如果检验出所述待检验时间内网络流量的实际数据超出所述预测范围,则确定所述待检验时间内网络流量出现异常包括:如果检验出时间节点X内网络流量的实际数据超出所述时间节点X的所述预测范围,则确定所述时间节点X内网络流量出现异常,其中,所述时间节点X为所述时间节点1至时间节点N中的时间节点;以及返回所述时间节点X。
根据本申请实施例的一个方面,提供了一种网络流量的检验装置,包括:获取单元,用于获取待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,其中,所述参考时间为在所述待检验时间之前并与所述待检验时间相邻的时间;第一计算单元,用于基于所述待检验时间内网络流量的实际数据和所述参考时间内网络流量的实际数据,计算所述待检验时间内网络流量的预测数据;第二计算单元,用于计算所述待检验时间内网络流量的实际数据和所述预测数据之间的误差;第一确定单元,用于根据所述预测数据和所述误差确定所述待检验时间内网络流量的预测范围;以及第二确定单元,用于在检验出所述待检验时间内网络流量的实际数据超出所述预测范围的情况下,确定所述待检验时间内网络流量出现异常。
进一步地,所述第一计算单元包括:获取子单元,用于获取计算网络流量的初始递推公式,其中,所述初始递推公式中含有未知预设参数;第一代入子单元,用于以所述参考时间内网络流量的实际数据作为训练数据,代入所述初始递推公式,计算出所述未知预设参数;以及第二代入子单元,用于将所述待检验时间内网络流量的实际数据代入目标递推公式,得到所述预测数据,其中,所述目标递推公式为计算出所述未知预设参数后的所述初始递推公式。
进一步地,所述获取子单元获取到的所述初始递推公式的数量为多个,所述第一代入子单元包括:第一代入模块,用于将所述参考时间内网络流量的实际数据依次代入每个所述初始递推公式,计算出每个所述初始递推公式的所述未知预设参数,所述第二代入子单元包括:第二代入模块,用于将所述待检验时间内网络流量的实际数据代入每个所述目标递推公式,得到多组所述预测数据,所述第二计算单元包括:第一计算子单元,用于计算所述待检验时间内网络流量的实际数据和每一组所述预测数据之间的误差,得到多个所述误差,所述第一确定单元包括:筛选子单元,用于从多个所述误差中筛选出最小误差;以及第一确定子单元,用于根据与所述最小误差对应的一组所述预测数据和所述最小误差确定所述预测范围。
进一步地,所述误差为均方差,所述第一确定单元包括:第二计算子单元,用于计算所述均方差所对应的标准差;第二确定子单元,用于确定所述预测数据与预设倍数的所述标准差之和为所述预测范围的上界;以及第三确定子单元,用于确定所述预测数据与所述预设倍数的所述标准差之差为所述预测范围的下界。
进一步地,所述待检验时间包括多个时间节点,所述预测数据包括每个所述时间节点的预测数据,所述第二确定子单元包括:第一确定模块,用于确定时间节点j的所述预测数据与所述预设倍数的所述标准差之和为所述时间节点j的所述预测范围的上界,其中,j依次取1至N,时间节点1至时间节点N构成所述多个时间节点,所述第三确定子单元包括:第二确定模块,用于确定所述时间节点j的所述预测数据与所述预设倍数的所述标准差之差为所述时间节点j的所述预测范围的下界。
进一步地,所述装置还包括:第一绘制单元,用于在所述第二确定模块确定所述时间节点j的所述预测数据与所述预设倍数的所述标准差之差为所述时间节点j的所述预测范围的下界之后,绘制所述预测范围基于每个所述时间节点的图形;以及第二绘制单元,用于将每个所述时间节点的实际数据绘制在所述图形上。
进一步地,所述第二确定单元包括:第四确定子单元,用于在检验出时间节点X内网络流量的实际数据超出所述时间节点X的所述预测范围的情况下,确定所述时间节点X内网络流量出现异常,其中,所述时间节点X为所述时间节点1至时间节点N中的时间节点;以及返回子单元,用于返回所述时间节点X。
在本申请实施例中,采用获取待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,其中,参考时间为在待检验时间之前并与待检验时间相邻的时间;基于待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,计算待检验时间内网络流量的预测数据;计算待检验时间内网络流量的实际数据和预测数据之间的误差;根据预测数据和误差确定待检验时间内网络流量的预测范围;以及如果检验出待检验时间内网络流量的实际数据超出预测范围,则确定待检验时间内网络流量出现异常。通过利用待检验时间内网络流量的实际数据和待参考时间内网络流量的实际数据,来计算待检验时间内网络流量的预测数据,进而基于预测数据检验待检验时间内网络流量的实际数据异常与否,当实际数据超出由预测数据确定出的预测范围时,确定该数据为检验出的异常数据,此种检验方式只需要人工设定好待检验时间,即可自动执行整个检验方案,而具体检验过程不需要人工干预,能够有效避免人工干预检验过程所导致的检验速度低的弊端,解决了现有技术中检验网络流量的效率比较低的技术问题,达到了在保证检验准确度的基础上提高检验效率、缩短检验时间的技术效果。
附图说明
此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例的一种网络流量的检验方法的流程图;
图2是根据本申请实施例的网络流量的检验方法计算模型递推公式中初始值的流程图;以及
图3是根据本申请实施例的一种网络流量的检验装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本申请实施例,提供了一种网络流量的检验方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本申请实施例的一种网络流量的检验方法的流程图,如图1所示,该方法主要包括如下步骤S102至步骤S110:
S102:获取待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,其中,参考时间为在待检验时间之前并与待检验时间相邻的时间。
在本申请实施例中,关于网络流量的相关数据可以从进行流量数据保存的相关数据库中获取。所选取的待检验时间通常是一个月,而参考时间则是一个比待检验时间长的时间,以便能够得到足够的参考时间内网络流量的实际数据,对于待检验时间为一个月的情况,参考时间可以为在待检验时间之前并与待检验时间相邻的60天。
S104:基于待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,计算待检验时间内网络流量的预测数据,其中,可以采用模型训练方式进行计算,得到预测数据。
S106:计算待检验时间内网络流量的实际数据和预测数据之间的误差,其中,可以采用均方差计算方式计算二者之间的均方差,作为误差。
S108:根据预测数据和误差确定待检验时间内网络流量的预测范围,其中,预测范围可以是由预测数据和对均方差开根号得到的标准差确定出的上下界构成的范围。
S110:如果检验出待检验时间内网络流量的实际数据超出预测范围,则确定待检验时间内网络流量出现异常,即不在预测范围内的网络流量数据为检验出的异常数据,其中,离预测范围中心越远的数据越可能是异常数据,即离预测数据越远的数据越可能是异常数据。
本申请实施例所提供的网络流量的检验方法,通过利用待检验时间内网络流量的实际数据和待参考时间内网络流量的实际数据,来计算待检验时间内网络流量的预测数据,进而基于预测数据检验待检验时间内网络流量的实际数据异常与否,当实际数据超出由预测数据确定出的预测范围时,确定该数据为检验出的异常数据,此种检验方式只需要人工设定好待检验时间,即可自动执行整个检验方案,而具体检验过程不需要人工干预,能够有效避免人工干预检验过程所导致的检验速度低的弊端,解决了现有技术中检验网络流量的效率比较低的技术问题,达到了在保证检验准确度的基础上提高检验效率、缩短检验时间的技术效果。
具体地,在本申请实施例中,采用模型训练方式进行计算得到预测数据,可以通过模型训练递推公式进行,对于模型训练递推公式而言,每个递推公式通常都具有未知预设参数,本申请实施例对网络流量数据训练过程中,先获取到相关初始递推公式,然后将参考时间内网络流量的每个实际数据作为训练数据代入初始递推公式,计算出未知预设参数,未知预设参数计算出后,初始递推公式可称作目标递推公式,然后将待检验时间内网络流量的实际数据代入目标递推公式,得到预测数据。即,步骤S104可以包括获取计算网络流量的初始递推公式,该初始递推公式中含有未知预设参数;以参考时间内网络流量的实际数据作为训练数据,代入初始递推公式,计算出未知预设参数;以及待检验时间内网络流量的实际数据代入目标递推公式,得到预测数据,其中,目标递推公式为计算出未知预设参数后的初始递推公式。
优选地,获取到的初始递推公式的数量可以为多个,相应地,在未知预设参数的计算过程中,需要将参考时间内网络流量的实际数据依次代入每个初始递推公式,计算出每个初始递推公式的未知预设参数;在预测数据的计算过程中,需要将待检验时间内网络流量的实际数据依次代入每个目标递推公式,得到多组预测数据;误差计算过程中,则需计算待检验时间内网络流量的实际数据和每一组预测数据之间的误差,得到多个误差;预测范围的确定则可以是:首先,从多个误差中筛选出最小误差;然后,根据与最小误差对应的一组预测数据和最小误差确定预测范围。
通过利用多个递推公式进行预测数据的计算,进而最终根据与最小误差对应的一组预测数据和最小误差确定出预测范围,实现了综合考虑不同递推公式的优点,选择出最小误差来确定预测范围,以进一步提高检验的精确度。
在本申请实施例中,多个初始递推公式可以包括加法Holt-Winters模型递推公式、乘法Holt-Winters模型递推公式和Holts模型递推公式,其中,各个初始递推公式具体表示如下:
加法Holt-Winters模型递推公式:
乘法Holt-Winters模型递推公式:
Holts模型递推公式:
其中,α、β、γ参数为未知预设参数,yt表示模型训练公式中时间序列在时刻t的取值,yt-1同理表示时间序列在时刻t-1的取值。lt、bt、st是模型假设的在时刻t时,时间序列的状态量,分别称为level(水平值),slope(增长率),season(周期项)。Holt-Winters模型中时间序列由三种成分(level,slope,season)组成。Holts模型中时间序列由两种成分(level,slope)组成,m是所训练的数据的周期值,h为预测的步长,yt+h|t为以时刻t之前的取值和在时刻t的取值来预测t+h时刻的取值。
在本申请实施例中,对于训练数据为参考时间内网络流量的实际数据而言,由于网络流量的监控,得到的相关数据一般是以一个星期7天为周期,所以,m的取值可以为7,假如参考时间为60天,则时刻t即表示60天中的第1天、第2天,……直至第60天;yt和yt-1均表示对应天的网络流量;lt、bt、st表示相应天的网络流量中的水平值的取值、增长率的取值和周期项的取值。
为了得到能够计算预测数据的目标递推公式,需要计算出各个公式中的未知预设参数α、β、γ,在计算未知预设参数α、β、γ之前,需要先计算出各个公式中的lt、bt、st的初始值。以下具体说明本申请实施例中进行模型公式计算的过程:
关于Holt-Winters模型,在具体训练过程中,可以通过滑动平均(Moving Average,也可以称移动平滑)和线性回归方式来估算出Holt-Winters模型递推公式中的水 平值、增长率和周期项,具体估算步骤在图2中示出,如图2所示:以Xn表示训练数据,即参考 时间内网络流量的实际数据,Yn表示对训练数据进行移动平滑后的数据,Zn=Xn-Yn
对于网络流量数据通常以7天为周期的情况,则需要估算出的初始周期项有7个,假设分别为s1、s2…s7,需要用到Z4至Z17共14个数据;移动平滑过程中,对于某个数据,通过是用一个周期内这个数据的前后几个数据一起进行平均,假设周期为T,当T为奇数时,对数据Xn进行移动平滑的公式为当T为偶数时,对数据Xn进行移动平滑的公式为由于网络流量数据的周期为7,所以移动平滑过程中,对于某个数据,需要用到这个数据之前和之后的各3个数据进行移动平滑,因此
由于Zn=Xn-Yn,若需要计算出Z4至Z17共14个数据,则相应地需要X4至X17和Y4至Y17,而因此需要X1至X20共20个数据作为训练模型中的基础数据来进行周期性的计算。具体计算步骤如下:
步骤S201,从参考时间内网络流量的实际数据中取出前20个数据分别记为X1至X20
步骤S202,按照公式进行移动平滑计算,得到经过移动平滑后的14个数据Y4至Y17
步骤S203,按照公式Zn=Xn-Yn进行计算,得到Z4至Z17
步骤S204,按照公式进行计算,得到初始周期项s1、s2…s7
步骤S205,按照公式tn=Xn-s(n-4)%7+1(其中,%表示取模运算)进行计算,得到t4至t17共14个数据不含有周期项的数据。
步骤S206,使用曲线拟合方式,对t4至t17进行直线拟合,拟合出tn关于n一条直线,具体地,在本申请实施例中,可以采用普通最小二乘法(Ordinary Least Square,简称OLS)对t4至t17进行直线拟合,其中,拟合出的直线的斜率就是Holt-Winters模型递推公式中的初始增长率,直线的截距加上13倍的初始增长率就是Holt-Winters模型递推公式中的初始水平值。
通过以上步骤,得到了加法Holt-Winters模型递推公式和乘法Holt-Winters模型递推公式中的lt、bt、st初始值。
关于Holts模型,由于Holts模型不具备周期项,因此,可以直接从参考时间内网络流量的实际数据中抽取多个(比如10个)数据作为训练数据,对训练数据进行直线拟合,拟合出的直线的斜率就是Holts模型递推公式中的初始增长率,直线的截距加上9倍的初始增长率就是Holts模型递推公式中的初始水平值,得到模型递推公式中的lt、bt初始值。其中,直线拟合方式和Holt-Winters模型中相同,同样可以采用OLS算法。
得到加法Holt-Winters模型递推公式、乘法Holt-Winters模型递推公式和Holts模型递推公式的初始值之后,将初始值和参考时间内网络流量的实际数据中初始值之后的数据代入模型递推公式中,得到参考时间内的相关预测值。
具体而言,在本申请实施例中,加法Holt-Winters模型递推公式和乘法Holt-Winters模型递推公式中,参考时间内网络流量的实际数据中的前20天的数据参与了初始值计算得到了第18天的初始值,这里可以将第18天至第60天的数据代入加法Holt-Winters模型递推公式和乘法Holt-Winters模型递推公式中,相应地得到第18天至第60天的预测数据,预测数据含有α、β、γ参数;把第18天至第60天的预测数据和第18天至第60天的实际数据代入误差计算公式,得到一个含有α、β、γ参数的目标函数,其中,误差计算公式可以是MSE计算公式,其中,表示第i天的预测数据,Xi表示第i天的实际数据。
其中,α、β、γ参数的搜索范围是[0,1],BFGS是从一个初始点开始在一个搜索范围内一步一步找最优解的过程,α=0.3、β=0.1、γ=0.1是这个搜索过程的初始点,调用fmin_l_bfgs_b可以求出α,β,γ的值。
Holts模型递推公式中,假设参考时间内网络流量的实际数据中的前10天的数据参与了初始值计算,这里可以将第11天至第60天的数据代入Holts模型递推公式中,相应地得到第11天至第60天的预测数据,预测数据含有α、β参数;把第11天至第60天的预测数据和第11天至第60天的实际数据代入误差计算公式,得到一个含有α、β参数的目标函数,其中,误差计算公式可以是MSE计算公式,其中,表示第i天的预测数据,Xi表示第i天的实际数据。
其中,α、β参数的搜索范围同样可以是[0,1],同样BFGS是从一个初始点开始在一个搜索范围内一步一步找最优解的过程,α=0.3、β=0.1是这个搜索过程的初始点,调用fmin_l_bfgs_b可以求出α,β的值。
未知预设参数求解出来后,加法Holt-Winters模型递推公式和乘法Holt-Winters模型递推公式中的α、β、γ参数已知,Holts模型递推公式中的α、β参数已知,各个参数已知的模型递推公式称作目标递推公式,将待检验时间内网络流量的实际数据每代入一个目标递推公式后,得到一组预测数据,依次代入三个目标递推公式后,得到三组预测数据。然后计算待检验时间内网络流量的实际数据和每一组预测数据之间的误差,得到多个误差,从多个误差中筛选出最小误差,最终根据与最小误差对应的一组预测数据和最小误差确定预测范围。
具体地,在本申请实施例中,所确定出的预测范围可以是上下界构成的范围,即根据预测数据和误差确定待检验时间内网络流量的预测范围可以包括:计算均方差所对应的标准差;确定预测数据与预设倍数的标准差之和为预测范围的上界;以及确定预测数据与预设倍数的标准差之差为预测范围的下界。预设倍数可以是两倍,也可以根据实际精度的需求,经预设倍数设置为其它倍数。
其中,待检验时间包括多个时间节点,预测数据则相应地包括每个时间节点的预测数据,对于每一个时间节点均需要确定出该节点上的预测范围的上下界,假设多个时间节点包括时间节点1至时间节点N,确定预测数据与预设倍数的标准差之和为预测范围的上界包括:确定时间节点j的预测数据与预设倍数的标准差之和为时间节点j的预测范围的上界,其中,j依次取1至N,确定预测数据与预设倍数的标准差之差为预测范围的下界包括:确定时间节点j的预测数据与预设倍数的标准差之差为时间节点j的预测范围的下界。
对于包括多个时间节点的情况,其中,如果检验出哪个时间节点内网络流量的实际数据超出该时间节点的预测范围,则确定该时间节点内网络流量出现异常,并可以返回该时间节点。即,在本申请实施例中,如果检验出待检验时间内网络流量的实际数据超出预测范围,则确定待检验时间内网络流量出现异常包括:如果检验出时间节点X内网络流量的实际数据超出时间节点X的预测范围,则确定时间节点X内网络流量出现异常,返回时间节点X,其中,时间节点X为时间节点1至时间节点N中的时间节点,时间节点X并不一定是一个时间节点,凡是时间节点内网络流量的实际数据超出预测范围的时间节点均称作时间节点X。其中,返回的时间节点X可以提供给检测人员,用于检测在该时间节点发生异常的原因。
优选地,在确定时间节点j的预测数据与预设倍数的标准差之差为时间节点j的预测范围的下界之后,本申请实施例所提供的网络流量的检验方法还包括:绘制预测范围基于每个时间节点的图形;以及将每个时间节点的实际数据绘制在图形上。即以图形的方式将每个时间节点的预测范围展示出来,并在该图形上显示各个时间节点的实际数据,实现直观地将时间数据和预测范围的情况展示给数据检验者的技术效果。
根据本发明实施例,还提供了一种网络流量的检验装置。该网络流量的检验装置可以执行上述网络流量的检验方法,上述网络流量的检验方法也可以通过该网络流量的检验装置实施。
图3是根据本申请实施例的网络流量的检验装置的示意图。如图3所示,该网络流量的检验主要包括获取单元10、第一计算单元20、第二计算单元30、第一确定单元40和第二确定单元50,其中:
获取单元10用于获取待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,其中,参考时间为在待检验时间之前并与待检验时间相邻的时间。
在本申请实施例中,关于网络流量的相关数据可以从进行流量数据保存的相关数据库中获取。所选取的待检验时间通常是一个月,而参考时间则是一个比待检验时间长的时间,以便能够得到足够的参考时间内网络流量的实际数据,对于待检验时间为一个月的情况,参考时间可以为在待检验时间之前并与待检验时间相邻的60天。
第一计算单元20用于基于待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,计算待检验时间内网络流量的预测数据,其中,可以采用模型训练方式进行计算,得到预测数据。
第二计算单元30用于计算待检验时间内网络流量的实际数据和预测数据之间的误差,其中,可以采用均方差计算方式计算二者之间的均方差,作为误差。
第一确定单元40用于根据预测数据和误差确定待检验时间内网络流量的预测范围,其中,预测范围可以是由预测数据和对均方差开根号得到的标准差确定出的上下界构成的范围。
第二确定单元50用于在检验出待检验时间内网络流量的实际数据超出预测范围的情况下,确定待检验时间内网络流量出现异常,即不在预测范围内的网络流量数据为检验出的异常数据,其中,离预测范围中心越远的数据越可能是异常数据,即离预测数据越远的数据越可能是异常数据。
本申请实施例所提供的网络流量的检验装置,通过利用待检验时间内网络流量的实际数据和待参考时间内网络流量的实际数据,来计算待检验时间内网络流量的预测数据,进而基于预测数据检验待检验时间内网络流量的实际数据异常与否,当实际数据超出由预测数据确定出的预测范围时,确定该数据为检验出的异常数据,此种检验方式只需要人工设定好待检验时间,即可自动执行整个检验方案,而具体检验过程不需要人工干预,能够有效避免人工干预检验过程所导致的检验速度低的弊端,解决了现有技术中检验网络流量的效率比较低的技术问题,达到了在保证检验准确度的基础上提高检验效率、缩短检验时间的技术效果。
具体地,在本申请实施例中,采用模型训练方式进行计算得到预测数据,可以通过模型训练递推公式进行,对于模型训练递推公式而言,每个递推公式通常都具有未知预设参数,本申请实施例对网络流量数据训练过程中,先获取到相关初始递推公式,然后将参考时间内网络流量的每个实际数据作为训练数据代入初始递推公式,计算出未知预设参数,未知预设参数计算出后,初始递推公式可称作目标递推公式,然后将待检验时间内网络流量的实际数据代入目标递推公式,得到预测数据。即,第一计算单元20包括获取子单元、第一代入子单元和第二代入子单元,其中,获取子单元用于获取计算网络流量的初始递推公式,其中,初始递推公式中含有未知预设参数;第一代入子单元用于以参考时间内网络流量的实际数据作为训练数据,代入初始递推公式,计算出未知预设参数;第二代入子单元用于将待检验时间内网络流量的实际数据代入目标递推公式,得到预测数据,其中,目标递推公式为计算出未知预设参数后的初始递推公式。
优选地,获取子单元获取到的初始递推公式的数量为多个,相应地,第一代入子单元包括第一代入模块,该第一代入模块用于将参考时间内网络流量的实际数据依次代入每个初始递推公式,计算出每个初始递推公式的未知预设参数。第二代入子单元包括第二代入模块,该第二代入模块用于将待检验时间内网络流量的实际数据代入每个目标递推公式,得到多组预测数据。第二计算单元包括第一计算子单元,该第一计算子单元用于计算待检验时间内网络流量的实际数据和每一组预测数据之间的误差,得到多个误差。第一确定单元包括筛选子单元和第一确定子单元,其中,筛选子单元用于从多个误差中筛选出最小误差;第一确定子单元,用于根据与最小误差对应的一组预测数据和最小误差确定预测范围。
通过利用多个递推公式进行预测数据的计算,进而最终根据与最小误差对应的一组预测数据和最小误差确定出预测范围,实现了综合考虑不同递推公式的优点,选择出最小误差来确定预测范围,以进一步提高检验的精确度。
在本申请实施例中,多个初始递推公式可以包括加法Holt-Winters模型递推公式、乘法Holt-Winters模型递推公式和Holts模型递推公式,具体利用各个递推公式进行预测数据计算的方式,与本申请上述的方法实施例部分所提供的方式相同,此处不再赘述。
可选地,第一确定单元40包括第二计算子单元、第二确定子单元和第三确定子单元,其中,第二计算子单元用于计算均方差所对应的标准差;第二确定子单元用于确定预测数据与预设倍数的标准差之和为预测范围的上界;第三确定子单元用于确定预测数据与预设倍数的标准差之差为预测范围的下界。预设倍数可以是两倍,也可以根据实际精度的需求,经预设倍数设置为其它倍数。
在本申请实施例中,待检验时间包括多个时间节点,预测数据包括每个时间节点的预测数据,对于每一个时间节点均需要确定出该节点上的预测范围的上下界,第二确定子单元包括第一确定模块,第三确定子单元包括第二确定模块,假设多个时间节点包括时间节点1至时间节点N,第一确定模块用于确定时间节点j的预测数据与预设倍数的标准差之和为时间节点j的预测范围的上界,其中,j依次取1至N;第二确定模块用于确定时间节点j的预测数据与预设倍数的标准差之差为时间节点j的预测范围的下界。
对于包括多个时间节点的情况,其中,如果检验出哪个时间节点内网络流量的实际数据超出该时间节点的预测范围,则确定该时间节点内网络流量出现异常,并可以返回该时间节点。即,在本申请实施例中,第二确定单元50包括第四确定子单元和返回子单元,如果检验出时间节点X内网络流量的实际数据超出时间节点X的预测范围,第四确定子单元用于确定时间节点X内网络流量出现异常,返回子单元用于返回时间节点X,其中,时间节点X为时间节点1至时间节点N中的时间节点,时间节点X并不一定是一个时间节点,凡是时间节点内网络流量的实际数据超出预测范围的时间节点均称作时间节点X。
优选地,本申请实施例所提供的网络流量的检验装置还包括第一绘制单元和第二绘制单元,在第二确定模块确定时间节点j的预测数据与预设倍数的标准差之差为时间节点j的预测范围的下界之后,第一绘制单元,用于绘制预测范围基于每个时间节点的图形;第二绘制单元用于将每个时间节点的实际数据绘制在图形上。即以图形的方式将每个时间节点的预测范围展示出来,并在该图形上显示各个时间节点的实际数据,实现直观地将时间数据和预测范围的情况展示给数据检验者的技术效果。
所述网络流量的检验装置包括处理器和存储器,上述获取单元10、第一计算单元20、第二计算单元30、第一确定单元40和第二确定单元50等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来在保证检验准确度的基础上提高检验效率、缩短检验时间。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:获取待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,其中,参考时间为在待检验时间之前并与待检验时间相邻的时间;基于待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,计算待检验时间内网络流量的预测数据;计算待检验时间内网络流量的实际数据和预测数据之间的误差;根据预测数据和误差确定待检验时间内网络流量的预测范围;以及如果检验出待检验时间内网络流量的实际数据超出预测范围,则确定待检验时间内网络流量出现异常。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (8)

1.一种网络流量的检验方法,其特征在于,包括:
获取待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,其中,所述参考时间为在所述待检验时间之前并与所述待检验时间相邻的时间;
基于所述待检验时间内网络流量的实际数据和所述参考时间内网络流量的实际数据,计算所述待检验时间内网络流量的预测数据;
计算所述待检验时间内网络流量的实际数据和所述预测数据之间的误差;
根据所述预测数据和所述误差确定所述待检验时间内网络流量的预测范围;以及
如果检验出所述待检验时间内网络流量的实际数据超出所述预测范围,则确定所述待检验时间内网络流量出现异常;
其中,基于所述待检验时间内网络流量的实际数据和所述参考时间内网络流量的实际数据,计算所述待检验时间内网络流量的预测数据包括:
获取计算网络流量的初始递推公式,其中,所述初始递推公式中含有未知预设参数;
以所述参考时间内网络流量的实际数据作为训练数据,代入所述初始递推公式,计算出所述未知预设参数;以及
将所述待检验时间内网络流量的实际数据代入目标递推公式,得到所述预测数据,其中,所述目标递推公式为计算出所述未知预设参数后的所述初始递推公式。
2.根据权利要求1所述的方法,其特征在于,获取到的所述初始递推公式的数量为多个,
以所述参考时间内网络流量的实际数据作为训练数据,代入所述初始递推公式,计算出所述未知预设参数包括:将所述参考时间内网络流量的实际数据依次代入每个所述初始递推公式,计算出每个所述初始递推公式的所述未知预设参数,
将所述待检验时间内网络流量的实际数据代入目标递推公式,得到所述预测数据包括:将所述待检验时间内网络流量的实际数据代入每个所述目标递推公式,得到多组所述预测数据,
计算所述待检验时间内网络流量的实际数据和所述预测数据之间的误差包括:计算所述待检验时间内网络流量的实际数据和每一组所述预测数据之间的误差,得到多个所述误差,
根据所述预测数据和所述误差确定所述待检验时间内网络流量的预测范围包括:
从多个所述误差中筛选出最小误差;以及
根据与所述最小误差对应的一组所述预测数据和所述最小误差确定所述预测范围。
3.根据权利要求1所述的方法,其特征在于,所述误差为均方差,根据所述预测数据和所述误差确定所述待检验时间内网络流量的预测范围包括:
计算所述均方差所对应的标准差;
确定所述预测数据与预设倍数的所述标准差之和为所述预测范围的上界;以及
确定所述预测数据与所述预设倍数的所述标准差之差为所述预测范围的下界。
4.根据权利要求3所述的方法,其特征在于,所述待检验时间包括多个时间节点,所述预测数据包括每个所述时间节点的预测数据,
确定所述预测数据与预设倍数的所述标准差之和为所述预测范围的上界包括:确定时间节点j的所述预测数据与所述预设倍数的所述标准差之和为所述时间节点j的所述预测范围的上界,其中,j依次取1至N,时间节点1至时间节点N构成所述多个时间节点,
确定所述预测数据与所述预设倍数的所述标准差之差为所述预测范围的下界包括:确定所述时间节点j的所述预测数据与所述预设倍数的所述标准差之差为所述时间节点j的所述预测范围的下界。
5.根据权利要求4所述的方法,其特征在于,在确定所述时间节点j的所述预测数据与所述预设倍数的所述标准差之差为所述时间节点j的所述预测范围的下界之后,所述方法还包括:
绘制所述预测范围基于每个所述时间节点的图形;以及
将每个所述时间节点的实际数据绘制在所述图形上。
6.根据权利要求4所述的方法,其特征在于,如果检验出所述待检验时间内网络流量的实际数据超出所述预测范围,则确定所述待检验时间内网络流量出现异常包括:
如果检验出时间节点X内网络流量的实际数据超出所述时间节点X的所述预测范围,则确定所述时间节点X内网络流量出现异常,其中,所述时间节点X为所述时间节点1至时间节点N中的时间节点;以及
返回所述时间节点X。
7.一种网络流量的检验装置,其特征在于,包括:
获取单元,用于获取待检验时间内网络流量的实际数据和参考时间内网络流量的实际数据,其中,所述参考时间为在所述待检验时间之前并与所述待检验时间相邻的时间;
第一计算单元,用于基于所述待检验时间内网络流量的实际数据和所述参考时间内网络流量的实际数据,计算所述待检验时间内网络流量的预测数据;
第二计算单元,用于计算所述待检验时间内网络流量的实际数据和所述预测数据之间的误差;
第一确定单元,用于根据所述预测数据和所述误差确定所述待检验时间内网络流量的预测范围;以及
第二确定单元,用于在检验出所述待检验时间内网络流量的实际数据超出所述预测范围的情况下,确定所述待检验时间内网络流量出现异常;
其中,所述第一计算单元包括:
获取子单元,用于获取计算网络流量的初始递推公式,其中,所述初始递推公式中含有未知预设参数;
第一代入子单元,用于以所述参考时间内网络流量的实际数据作为训练数据,代入所述初始递推公式,计算出所述未知预设参数;以及
第二代入子单元,用于将所述待检验时间内网络流量的实际数据代入目标递推公式,得到所述预测数据,其中,所述目标递推公式为计算出所述未知预设参数后的所述初始递推公式。
8.根据权利要求7所述的装置,其特征在于,所述获取子单元获取到的所述初始递推公式的数量为多个,
所述第一代入子单元包括:第一代入模块,用于将所述参考时间内网络流量的实际数据依次代入每个所述初始递推公式,计算出每个所述初始递推公式的所述未知预设参数,
所述第二代入子单元包括:第二代入模块,用于将所述待检验时间内网络流量的实际数据代入每个所述目标递推公式,得到多组所述预测数据,
所述第二计算单元包括:第一计算子单元,用于计算所述待检验时间内网络流量的实际数据和每一组所述预测数据之间的误差,得到多个所述误差,
所述第一确定单元包括:
筛选子单元,用于从多个所述误差中筛选出最小误差;以及
第一确定子单元,用于根据与所述最小误差对应的一组所述预测数据和所述最小误差确定所述预测范围。
CN201510758297.2A 2015-11-09 2015-11-09 网络流量的检验方法和装置 Active CN106685749B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510758297.2A CN106685749B (zh) 2015-11-09 2015-11-09 网络流量的检验方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510758297.2A CN106685749B (zh) 2015-11-09 2015-11-09 网络流量的检验方法和装置

Publications (2)

Publication Number Publication Date
CN106685749A CN106685749A (zh) 2017-05-17
CN106685749B true CN106685749B (zh) 2019-09-20

Family

ID=58863320

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510758297.2A Active CN106685749B (zh) 2015-11-09 2015-11-09 网络流量的检验方法和装置

Country Status (1)

Country Link
CN (1) CN106685749B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107070952A (zh) * 2017-05-27 2017-08-18 郑州云海信息技术有限公司 一种网络节点流量异常分析方法及系统
CN110020000B (zh) * 2017-12-22 2021-04-13 北京金风慧能技术有限公司 判定异常风速数据的方法和装置
CN109936487A (zh) * 2019-04-19 2019-06-25 浙江中烟工业有限责任公司 一种网络广播包的实时分析与监测方法及系统
US11108621B1 (en) 2020-05-29 2021-08-31 Accedian Networks Inc. Network performance metrics anomaly detection
CN111983478A (zh) * 2020-07-07 2020-11-24 江苏大学 一种基于Holt线性趋势模型的电化学储能电站SOC异常检测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826996A (zh) * 2010-03-19 2010-09-08 中国科学院计算机网络信息中心 域名系统流量检测方法与域名服务器
CN103716180A (zh) * 2013-12-04 2014-04-09 国网上海市电力公司 基于网络流量实际预测的网络异常预警方法
CN104301895A (zh) * 2014-09-28 2015-01-21 北京邮电大学 一种基于流量预测的双层触发入侵检测方法
CN104717106A (zh) * 2015-03-04 2015-06-17 贵州电网公司信息通信分公司 一种基于多变量序贯分析的分布式网络流量异常检测方法
CN104811336A (zh) * 2015-04-02 2015-07-29 南京邮电大学 基于智能优化的分布式网络流量预测方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101826996A (zh) * 2010-03-19 2010-09-08 中国科学院计算机网络信息中心 域名系统流量检测方法与域名服务器
CN103716180A (zh) * 2013-12-04 2014-04-09 国网上海市电力公司 基于网络流量实际预测的网络异常预警方法
CN104301895A (zh) * 2014-09-28 2015-01-21 北京邮电大学 一种基于流量预测的双层触发入侵检测方法
CN104717106A (zh) * 2015-03-04 2015-06-17 贵州电网公司信息通信分公司 一种基于多变量序贯分析的分布式网络流量异常检测方法
CN104811336A (zh) * 2015-04-02 2015-07-29 南京邮电大学 基于智能优化的分布式网络流量预测方法

Also Published As

Publication number Publication date
CN106685749A (zh) 2017-05-17

Similar Documents

Publication Publication Date Title
CN106685749B (zh) 网络流量的检验方法和装置
Lancichinetti et al. Statistical significance of communities in networks
CN107808122B (zh) 目标跟踪方法及装置
CN106796716B (zh) 用于为低分辨率图像提供超分辨率的设备和方法
EP3635637A1 (en) Pre-training system for self-learning agent in virtualized environment
CN110363286A (zh) 神经网络模型的生成方法及装置
CN104217433B (zh) 一种分析图像的方法及装置
CN107633323A (zh) 核保难度预测的方法、装置、计算机设备及存储介质
CN111914936B (zh) 语料数据的数据特征增强方法、装置及计算机设备
CN107463904A (zh) 一种确定事件周期值的方法及装置
RU2011104085A (ru) Способ и устройство частотного анализа данных
CN109685097A (zh) 一种基于gan的图像检测方法及装置
CN110209551B (zh) 一种异常设备的识别方法、装置、电子设备及存储介质
CN109259764A (zh) 一种确定动态脑功能网络阈值方法
Fligner et al. Nonparametric two-sample methods for ranked-set sample data
CN106682448A (zh) 基于多目标遗传规划算法的序贯测试优化方法
CN109558952A (zh) 数据处理方法、系统、设备及存储介质
CN108805180A (zh) 目标对象的检测方法及装置
CN110377521A (zh) 一种目标对象验证方法及装置
Adler et al. The coupon subset collection problem
CN106908747A (zh) 化学位移编码成像方法及装置
CN105045906B (zh) 投放信息点击率的预估方法和装置
Zhang et al. A hypothesis testing framework for modularity based network community detection
Shestopaloff et al. On Bayesian inference for the M/G/1 queue with efficient MCMC sampling
CN108491559A (zh) 一种基于归一化互信息估计的时间序列异常检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100083 No. 401, 4th Floor, Haitai Building, 229 North Fourth Ring Road, Haidian District, Beijing

Applicant after: Beijing Guoshuang Technology Co.,Ltd.

Address before: 100086 Cuigong Hotel, 76 Zhichun Road, Shuangyushu District, Haidian District, Beijing

Applicant before: Beijing Guoshuang Technology Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant