CN111163092A - 流量异常检测方法、装置、设备及存储介质 - Google Patents

流量异常检测方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111163092A
CN111163092A CN201911398541.3A CN201911398541A CN111163092A CN 111163092 A CN111163092 A CN 111163092A CN 201911398541 A CN201911398541 A CN 201911398541A CN 111163092 A CN111163092 A CN 111163092A
Authority
CN
China
Prior art keywords
flow
data
sample
training
historical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201911398541.3A
Other languages
English (en)
Inventor
黄磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sangfor Technologies Co Ltd
Original Assignee
Sangfor Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sangfor Technologies Co Ltd filed Critical Sangfor Technologies Co Ltd
Priority to CN201911398541.3A priority Critical patent/CN111163092A/zh
Publication of CN111163092A publication Critical patent/CN111163092A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Abstract

本发明公开了一种流量异常检测方法、装置、设备及存储介质。其中,该方法包括:包括:获取预测样本,所述预测样本包括:基于时间先后顺序排列的m个单位时长的流量数据;对所述预测样本基于流量预测模型进行预测,得到目标单位时长对应的流量基线;基于所述流量基线对所述目标单位时长内的流量进行异常检测,得到所述目标单位时长内流量是否异常的检测结果。本发明实施例不需要人工设定阈值,且流量基线基于预测样本和流量预测模型生成,可以适应流量的变化,泛化能力强,检测速度快,且能够满足流量异常检测的检测精度要求。

Description

流量异常检测方法、装置、设备及存储介质
技术领域
本发明涉及网络安全领域,尤其涉及一种流量异常检测方法、装置、设备及存储介质。
背景技术
流量是系统的重要指标之一,能够直观反映系统的运行状态。健康的系统流量通常平稳波动变化,当流量突然上涨或者下降时可能预示系统中存在故障。相关技术中,流量异常检测大多是基于阈值和统计的方法,也有少数基于深度学习的方法。
基于阈值的方法通常是计算同比、环比波动幅度,比如同比波动20%、环比波动10%则触发异常报警;或者是设置一个水位线,低于(或高于)水位,则触发异常报警。这种方式实现简单,然而实际应用中,效果却不理想,阈值的设置依赖人们的经验,而且由于静态阈值没有适应变化的能力,需要人工维护。
基于统计的方法往往假设数据服从正态分布或对数正态分布,通过计算均值和方差,把偏离均值n倍方差的流量视为异常。这种模型对数据的分布要求比较高,如果数据不服从假设的分布,则检测效果不好。有的统计方法是使用ARIMA模型(AutoregressiveIntegrated Moving Average model,差分整合移动平均自回归模型),ARIMA模型能结合部分历史数据进行时间序列的趋势预测,然而也有很多不足,该算法的一个技术难点就是时间序列的平稳化,平稳化的时间序列对于预测结果的好坏起着至关重要的作用。
发明内容
有鉴于此,本发明实施例提供了一种流量异常检测方法、装置、设备及存储介质,旨在保证流量异常检测的检测精度的前提下,提高检测速度。
本发明实施例的技术方案是这样实现的:
本发明实施例提供了一种流量异常检测方法,包括:
获取预测样本,所述预测样本包括:基于时间先后顺序排列的m个单位时长的流量数据;
对所述预测样本基于流量预测模型进行预测,得到目标单位时长对应的流量基线;
基于所述流量基线对所述目标单位时长内的流量进行异常检测,得到所述目标单位时长内流量是否异常的检测结果;
其中,m为大于或等于1的自然数。
本发明实施例还提供了一种流量异常检测装置,包括:
获取模块,用于获取预测样本,所述预测样本包括:基于时间先后顺序排列的m个单位时长的流量数据;
预测模块,用于对所述预测样本基于流量预测模型进行预测,得到目标单位时长对应的流量基线;
检测模块,用于基于所述流量基线对所述目标单位时长内的流量进行异常检测,得到所述目标单位时长内流量是否异常的检测结果;
其中,m为大于或等于1的自然数。
本发明实施例又提供了一种流量异常检测设备,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,所述处理器,用于运行计算机程序时,执行本发明任一实施例所述方法的步骤。
本发明实施例还提供了一种存储介质,所述存储介质上存储有计算机程序,所述计算机程序被处理器执行时,实现本发明任一实施例所述方法的步骤。
本发明实施例提供的技术方案,可以基于预测样本和流量预测模型得到目标单位时长对应的流量基线,基于所述流量基线对所述目标单位时长内的流量进行异常检测,不需要人工设定阈值,且流量基线基于预测样本和流量预测模型生成,可以适应流量的变化,泛化能力强,检测速度快,且能够满足流量异常检测的检测精度要求。
附图说明
图1为本发明实施例流量异常检测方法的流程示意图;
图2为本发明实施例中流量预测模型训练的流程示意图;
图3为本发明应用实施例流量异常检测方法的流程示意图;
图4为本发明实施例流量异常检测装置的结构示意图;
图5为本发明实施例流量异常检测设备的结构示意图。
具体实施方式
下面结合附图及实施例对本发明再作进一步详细的描述。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
本发明实施例提供了一种流量异常检测方法,应用于流量异常检测设备,如图1所示,该方法包括:
步骤101,获取预测样本,所述预测样本包括:基于时间先后顺序排列的m个单位时长的流量数据;
这里,流量异常检测设备可以获取网络设备当前单位时长的流量数据,并根据该网络设备对应的历史流量数据,生成预测样本,比如,m为3时,该预测样本包括当前单位时长的流量数据及之前的两个历史单位时长的流量数据。流量异常检测设备可以为设置于网络设备侧的流量数据监控设备。其中,m为大于或等于1的自然数;流量数据可以为网络设备对应的用户访问量大小或者数据访问量大小。
实际应用中,单位时长(又称为时间粒度)可以根据需求进行设置,以实现对相应时间粒度的流量数据进行异常检测。比如,可以将单位时长设置为小时、天、周、月等,可以根据各网络设备的监控需求进行合理设置。
步骤102,对所述预测样本基于流量预测模型进行预测,得到目标单位时长对应的流量基线;
这里,目标单位时长可以为所述预测样本中最后一个单位时长之后的下一单位时长,所述流量预测模型是基于历史流量数据中的多个训练样本训练生成的。
需要说明的是,各训练样本包括:所述历史流量数据中基于时间先后顺序排列的m个单位时长的流量数据。各训练样本还具有对应的样本标签,所述样本标签为基于时间序列确定的相应训练样本中最后一个单位时长的下一个单位时长对应的流量数据,根据各训练样本对该基于时间序列确定的相应训练样本中最后一个单位时长的下一个单位时长对应的流量数据的模型进行训练得到基流量基线。
步骤103,基于所述流量基线对所述目标单位时长内的流量进行异常检测,得到所述目标单位时长内流量是否异常的检测结果。
这里,可以获取目标单位时长内的真实流量数据,通过比较真实流量数据与预测的流量基线,判断目标单位时长内的流量是否异常,得到目标单位时长内的流量是否异常的检测结果。
在一实施例中,所述基于所述流量基线对所述目标单位时长内的流量进行异常检测,得到所述目标单位时长内流量是否异常的检测结果,包括:获取目标单位时长内的真实流量数据,确定所述真实流量数据与所述流量基线的偏离量大于设定阈值,生成流量异常的检测结果。
实际应用中,可以根据不同的网络设备设置不同的设定阈值,在一应用示例中,假定设定阈值为流量基线的50%,比较目标单位时长内的真实流量数据与流量基线的偏离量,若偏离量大于50%,即真实流量数据大于(1+50%)*流量基线,则生成流量异常的报警信息,否则,认定网络设备的流量正常。
本发明实施例流量异常检测方法,可以基于预测样本和流量预测模型得到目标单位时长对应的流量基线,基于所述流量基线对所述目标单位时长内的流量进行异常检测,不需要人工设定阈值,且流量基线基于预测样本和流量预测模型生成,可以适应流量的变化,泛化能力强,检测速度快,且能够满足流量异常检测的检测精度要求。
实际应用中,对于取小时为时间粒度的情形,训练样本和预测样本可以选取基于时间先后顺序,连续排列的m个小时的流量数据作为样本。在一实施例中,为了使得预测的流量基线能够尽可能的符合流量数据趋势,可以取每天中相应小时的流量数据为各单位时长的流量数据,比如,为了预测明天八点至九点之间的流量数据,可以取今天及今天之前m-1天八点至九点之间的流量数据构成预测样本,同理,选取历史流量数据中连续m天八点至九点之间的历史流量数据生成训练样本,基于多个训练样本训练得到用于预测八点至九点的流量基线的流量预测模型,一天中其他以小时为时间粒度的时段对应的流量预测模型,可以依此类推。
实际应用中,由于需要基于流量预测模型预测流量基线,基于此,在一实施例中,所述流量异常检测方法还包括:基于历史流量数据中的多个训练样本训练生成流量预测模型。
如图2所示,在一实施例中,基于历史流量数据中的多个训练样本训练生成流量预测模型,包括:
步骤201,获取设定时长的历史流量数据;
这里,设定时长可以根据需求进行合理选择。既不要太长也不要太短,太长对预测未来的流量数据趋势的作用不大,太短则难以反映流量数据趋势。在一应用示例中,获取网络设备对应的最近一个月或者两个月的历史流量数据。
步骤202,对所述设定时长的历史流量数据根据所述单位时长进行划分,生成多个训练样本;
这里,各所述训练样本包括:所述历史流量数据中基于时间先后顺序排列的m个单位时长的流量数据。
在一实施例中,对所述设定时长的历史流量数据根据所述单位时长进行划分,得到划分后的各单位时长的流量数据;对划分后的各单位时长的流量数据,基于设定的滑动窗口生成多个训练样本;其中,所述滑动窗口为基于时间先后顺序确定的m个单位时长。
实际应用中,生成训练样本时,相邻滑动窗口的滑动步长可以为是一个单位时长,也可以是大于一个的单位时长,本领域技术人员可以根据需求进行合理选择。
步骤203,确定各所述训练样本的样本标签;所述样本标签为基于时间序列确定的相应训练样本中最后一个单位时长的下一个单位时长对应的流量数据;
以设定时长为n天的历史流量数据为例进行举例说明,先将历史流量数据划分为n天的流量数据,接下来,对n天的流量数据生成训练样本和对应的样本标签。假定滑动窗口为m天,m<n,基于时间先后顺序,取m天的历史流量数据构成一个训练样本,第m+1天的流量数据作为该训练样本的样本标签,依次类推。
以m=7,滑动窗口的滑动步长为1为例,则训练样本和相应的样本标签分别为:
{[x1,x2,x3,x4,x5,x6,x7],x8},
{[x2,x3,x4,x5,x6,x7,x8],x9},
..........,
{[xn-7,xn-6,xn-5,xn-4,xn-3,xn-2,xn-1],xn}
步骤204,基于所述多个训练样本及相应训练样本的样本标签,训练生成所述流量预测模型。
这里,可以对步骤203生成的训练样本及相应的样本标签输入初始模型进行训练,得到流量预测模型。
在一实施例中,所述基于所述多个训练样本及相应训练样本的样本标签,训练生成所述流量预测模型,包括:根据回归树算法,对所述多个训练样本及相应训练样本的样本标签进行模型训练,得到所述流量预测模型。
实际应用中,得到流量预测模型后,就可以对预测样本进行预测,得到目标单位时长对应的流量基线。比如,可以使用序列[xn-6,xn-5,xn-4,xn-3,xn-2,xn-1,xn]作为预测样本,来预测第n+1天的流量数据xn+1,xn+1即可作为第n+1天的流量基线。同时,xn+1又可以作为序列的一部分,生成新的预测样本,用来预测第n+2天的流量基线xn+2,依次类推,这样,预测的目标单位时长的流量基线可以不限于当前单位时长的下一单位时长的流量基线,还可以为预测时间相距更远的单位时长对应的流量基线,可以扩大预测的流量基线的范围。
这里,回归树(Regression Tree),是可以基于回归的决策树模型,一个回归树对应着输入空间(即特征空间)的一个划分以及在划分单元上的输出值。输出的是连续值,而不是离散的分类类别。本发明实施例通过采用回归树算法,对历史流量数据进行曲线拟合,得到一个拟合历史流量数据最佳的函数关系,该函数关系即流量预测模型,用于对预测样本生成目标单位时长的流量基线。
基于回归树算法的训练方法,可以有效提高训练速度,且对数据分布没有要求,泛化能力(generalization ability)强。该泛化能力是指机器学习算法对新鲜样本的适应能力。
实际应用中,回归树算法包括但不限于:GBDT(Gradient Boosting DecisionTree,梯度提升树)、XGBoost(eXtreme Gradient Boosting,极端梯度提升)、LightGBM(Light Gradient Boosting Machine,轻型梯度提升机器)等算法。
考虑到历史流量数据中若存在异常流量数据,会影响预测结果的准确性。基于此,在一实施例中,所述对所述设定时长的历史流量数据根据所述单位时长进行划分,生成多个训练样本之前,所述方法还包括:对所述设定时长的历史流量数据进行预处理,所述预处理包括:基于流量分布确定所述设定时长的历史流量数据中的异常点,对确定的异常点进行处理,得到异常点处理后的历史流量数据。
这里,可以使用基于高斯分布函数筛选出历史流量数据中的异常点,或者基于标准方差筛选出历史流量数据中的异常点。比如,将所述历史流量数据中的流量片段数据输入高斯分布函数,确定函数值小于设定阈值的流量片段数据为异常点。示例性地,使用高斯分布函数筛选出函数值小于0.01的流量片段数据为异常点。另一示例中,将流量片段数据的标准方差绝对值大于1的流量片段数据确定为异常点。这里,流量片段数据可以是历史流量数据中基于单位时长划分的流量数据。可以理解的是,流量片段数据还可以采用小于单位时长的时长进行划分,以对时间粒度更小的流量数据进行异常点的确认。
对于筛选出的异常点,可以采用以下之一进行处理:剔除异常点或对异常点基于平均值进行修正。
具体地,可以从历史流量数据中直接剔除异常点,避免异常点对流量数据预测产生影响。在基于平均值进行修正时,可以分为两种情况:可以计算历史流量数据对应的平均值,利用计算出的平均值替换异常点,以对历史流量数据进行修正;或者计算该异常点最近的一个滑动窗口内的流量数据对应的滑动平均值,利用滑动窗口对应的滑动平均值替换异常点,以对历史流量数据进行修正,从而避免异常点对流量数据预测产生影响。
在一实施例中,所述预处理还包括:对异常点处理后的历史流量数据进行归一化处理,得到归一化的历史流量数据。这样,可以确保各单位时长的流量数据都规范在同一空间内,便于提升流量数据预测的准确性。
实际应用中,归一化处理的方法可以包括但不限于:1)对异常点处理后的历史流量数据中的流量片段数据通过线性变换,映射至设定的数据区间,比如映射到[0,1]区间;2)对异常点处理后的历史流量数据中的流量片段数据基于均值和标准差转换为归一化的数据,利用归一化的数据替换原始的流量片段数据。
若检测天级别的流量数据,为了提高流量异常检测的准确性,可以将工作日和节假日分开训练和预测。基于此,在一实施例中,若所述单位时长为天,所述对所述设定时长的历史流量数据根据所述单位时长进行划分,生成多个训练样本,包括:
将所述设定时长的历史流量数据划分为工作日对应的工作日流量数据、节假日对应的节假日流量数据;
对所述工作日流量数据基于设定的滑动窗口生成多个第一训练样本;
对所述节假日流量数据基于设定的滑动窗口生成多个第二训练样本;
所述确定各训练样本对应的样本标签,包括:
确定各第一训练样本对应的样本标签;
确定各第二训练样本对应的样本标签;
所述基于所述多个训练样本及相应训练样本的样本标签,训练生成所述流量预测模型,包括:
基于多个第一训练样本及相应第一训练样本的样本标签,训练生成用于确定工作日的流量基线的第一流量预测模型;
基于多个第二训练样本及相应第二训练样本的样本标签,训练生成用于确定节假日的流量基线的第二流量预测模型。
需要预测工作日的流量基线时,获取的预测样本为工作日对应的预测样本,比如,m为7,预测本周一的流量基线,需要根据上上周的周四、周五的流量数据、上周周一至周五的流量数据构成工作日对应的预测样本,并基于第一流量预测模型,预测得到本周一的流量基线。节假日的流量基线的预测可以依此类推。
实际应用中,还可以根据对流量预测模型进行更新。比如,以一个星期为周期,基于最近的历史流量数据更新流量预测模型,可以提高流量预测模型的准确性。这里,最近的历史流量数据可以是最近设定时长内的历史流量数据,比如,获取网络设备最近一个月的历史流量数据,基于该一个月的历史流量数据根据时间粒度进行划分,生成多个训练样本并确定各训练样本的样本标签,根据回归树算法,对所述多个训练样本及相应训练样本的样本标签进行模型训练,得到新生成的流量预测模型,并将新生成的流量预测模型替换原有的流量预测模型,实现流量预测模型的更新。
图3示出了本发明应用实施例流量异常检测方法的流程示意图。下面结合应用实施例对本发明再作进一步详细的描述。
如图3所示,本应用实施例流量异常检测方法包括:
步骤301,获取历史流量数据;
这里,可以获取网络设备对应的最近一个月或者两个月的历史流量数据。
步骤302,异常点处理;
这里,可以使用基于高斯分布函数筛选出历史流量数据中的异常点,或者基于标准方差筛选出历史流量数据中的异常点。比如,使用高斯分布函数筛选出函数值小于0.01,或者标准方差绝对值大于1的流量数据点。
对于筛选出的异常点,可以采用以下之一进行处理:剔除异常点或对异常点基于平均值进行修正。从而避免异常点对流量数据预测产生影响。
步骤303,归一化处理;
这里,归一化处理的方法可以包括但不限于:1)对异常点处理后的历史流量数据中的流量片段数据通过线性变换,映射至设定的数据区间,比如映射到[0,1]区间;2)对异常点处理后的历史流量数据中的流量片段数据基于均值和标准差转换为归一化的数据,利用归一化的数据替换原始的流量片段数据。
步骤304,生成样本及标签;
历史流量数据通过步骤302及步骤303的预处理后,得到的流量数据是比较纯净的数据,能够准确反映出流量趋势。
以设定时长为n天的历史流量数据为例进行举例说明,先将历史流量数据划分为n天的流量数据,接下来,对n天的流量数据生成训练样本和对应的样本标签。假定滑动窗口为m天,m<n,基于时间先后顺序,取m天的历史流量数据构成一个训练样本,第m+1天的流量数据作为该训练样本的样本标签,依次类推。
以m=7,滑动窗口的滑动步长为1为例,则训练样本和相应的样本标签分别为:
{[x1,x2,x3,x4,x5,x6,x7],x8},
{[x2,x3,x4,x5,x6,x7,x8],x9},
..........,
{[xn-7,xn-6,xn-5,xn-4,xn-3,xn-2,xn-1],xn}
步骤305,模型训练;
根据回归树算法,对所述多个训练样本及相应训练样本的样本标签进行模型训练,得到所述流量预测模型。
步骤306,预测及生成流量基线;
得到流量预测模型后,就可以对预测样本进行预测,得到目标单位时长对应的流量基线。比如,可以使用序列[xn-6,xn-5,xn-4,xn-3,xn-2,xn-1,xn]作为预测样本,来预测第n+1天的流量数据xn+1,xn+1即可作为第n+1天的流量基线。同时,xn+1又可以作为序列的一部分,生成新的预测样本,用来预测第n+2天的流量基线xn+2,依次类推。
步骤307,判断真实流量数据是否偏离流量基线。
将真实流量数据和流量基线进行比较,如果真实流量数据偏离流量基线较大则认为是异常流量数据,否则为正常流量数据。偏离程度可以根据不同的场景自定义容忍度,比如,容忍度定为50%,则真实流量数据大于(1+50%)*基线流量数据,即认为流量异常,生成报警信息,否则,认定流量正常。
本应用实施例流量异常检测方法,不需要人工设定阈值,可以在保证精度的前提下快速的训练,从而能对异常流量做出准确的判断。此外,该方法相较于深度学习方法,训练和预测的速度均有较大的提高,避免了深度学习方法导致的训练成本高的缺陷。
为了实现本发明实施例的方法,本发明实施例还提供一种流量异常检测装置。该流量异常检测装置与上述流量异常检测方法对应,上述流量异常检测方法实施例中的各步骤也完全适用于本实施例。
如图4所示,该流量异常检测装置包括:获取模块401、预测模块402、检测模块403。其中,获取模块401,用于获取预测样本,所述预测样本包括:基于时间先后顺序排列的m个单位时长的流量数据;预测模块402,用于对所述预测样本基于流量预测模型进行预测,得到目标单位时长对应的流量基线;检测模块403,用于基于所述流量基线对所述目标单位时长内的流量进行异常检测,得到所述目标单位时长内流量是否异常的检测结果;其中,m为大于或等于1的自然数,所述目标单位时长可以为所述预测样本中最后一个单位时长之后的下一单位时长,所述流量预测模型是基于历史流量数据中的多个训练样本训练生成的。
在一些实施例中,该流量异常检测装置还包括训练模块404,用于:
获取设定时长的历史流量数据;
对所述设定时长的历史流量数据根据所述单位时长进行划分,生成多个训练样本;其中,各所述训练样本包括:所述历史流量数据中基于时间先后顺序排列的m个单位时长的流量数据;
确定各所述训练样本的样本标签;所述样本标签为基于时间序列确定的相应训练样本中最后一个单位时长的下一个单位时长对应的流量数据;
基于所述多个训练样本及相应训练样本的样本标签,训练生成所述流量预测模型。
在一些实施例中,训练模块404具体用于:
根据回归树算法,对所述多个训练样本及相应训练样本的样本标签进行模型训练,得到所述流量预测模型。
在一些实施例中,训练模块404还用于:对所述设定时长的历史流量数据进行预处理,所述预处理包括:基于流量分布确定所述设定时长的历史流量数据中的异常点,对确定的异常点进行处理,得到异常点处理后的历史流量数据。
在一些实施例中,训练模块404具体用于:将所述历史流量数据中的流量片段数据输入高斯分布函数,确定函数值小于设定阈值的流量片段数据为异常点。
在一些实施例中,训练模块404具体用于以下之一:剔除异常点、对异常点基于平均值进行修正。
在一些实施例中,训练模块404还用于:对异常点处理后的历史流量数据进行归一化处理,得到归一化的历史流量数据。
在一些实施例中,训练模块404具体用于以下之一:
对异常点处理后的历史流量数据中的流量片段数据通过线性变换,映射至设定的数据区间;
对异常点处理后的历史流量数据中的流量片段数据基于均值和标准差转换为归一化的数据。
在一些实施例中,训练模块404具体用于:
对所述设定时长的历史流量数据根据所述单位时长进行划分,得到划分后的各单位时长的流量数据;
对划分后的各单位时长的流量数据,基于设定的滑动窗口生成多个训练样本;其中,所述滑动窗口为基于时间先后顺序确定的m个单位时长。
在一些实施例中,若所述单位时长为天,所述训练模块404具体用于:
将所述设定时长的历史流量数据划分为工作日对应的工作日流量数据、节假日对应的节假日流量数据;
对所述工作日流量数据基于设定的滑动窗口生成多个第一训练样本;
对所述节假日流量数据基于设定的滑动窗口生成多个第二训练样本;
确定各第一训练样本对应的样本标签;
确定各第二训练样本对应的样本标签;
基于多个第一训练样本及相应第一训练样本的样本标签,训练生成用于确定工作日的流量基线的第一流量预测模型;
基于多个第二训练样本及相应第二训练样本的样本标签,训练生成用于确定节假日的流量基线的第二流量预测模型。
在一些实施例中,检测模块403具体用于:
获取目标单位时长内的真实流量数据,确定所述真实流量数据与所述流量基线的偏离量大于设定阈值,生成流量异常的检测结果。
实际应用时,获取模块401、预测模块402、检测模块403及训练模块404,可以由流量异常检测装置中的处理器来实现。当然,处理器需要运行存储器中的计算机程序来实现它的功能。
需要说明的是:上述实施例提供的流量异常检测装置在进行流量异常检测时,仅以上述各程序模块的划分进行举例说明,实际应用中,可以根据需要而将上述处理分配由不同的程序模块完成,即将装置的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分处理。另外,上述实施例提供的流量异常检测装置与流量异常检测方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
基于上述程序模块的硬件实现,且为了实现本发明实施例的方法,本发明实施例还提供一种流量异常检测设备。图5仅仅示出了该流量异常检测设备的示例性结构而非全部结构,根据需要可以实施图5示出的部分结构或全部结构。
如图5所示,本发明实施例提供的流量异常检测设备500包括:至少一个处理器501、存储器502、用户接口503和至少一个网络接口504。流量异常检测设备500中的各个组件通过总线系统505耦合在一起。可以理解,总线系统505用于实现这些组件之间的连接通信。总线系统505除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图5中将各种总线都标为总线系统505。
其中,用户接口503可以包括显示器、键盘、鼠标、轨迹球、点击轮、按键、按钮、触感板或者触摸屏等。
本发明实施例中的存储器502用于存储各种类型的数据以支持流量异常检测设备500的操作。这些数据的示例包括:用于在流量异常检测设备500上操作的任何计算机程序。
本发明实施例揭示的流量异常检测方法可以应用于处理器501中,或者由处理器501实现。处理器501可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,流量异常检测方法的各步骤可以通过处理器501中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器501可以是通用处理器、数字信号处理器(DSP,Digital SignalProcessor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。处理器501可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者任何常规的处理器等。结合本发明实施例所公开的方法的步骤,可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于存储介质中,该存储介质位于存储器502,处理器501读取存储器502中的信息,结合其硬件完成本发明实施例提供的流量异常检测方法的步骤。
在示例性实施例中,流量异常检测设备500可以被一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、FPGA、通用处理器、控制器、微控制器(MCU,Micro Controller Unit)、微处理器(Microprocessor)、或者其他电子元件实现,用于执行前述方法。
可以理解,存储器502可以是易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(ROM,Read Only Memory)、可编程只读存储器(PROM,Programmable Read-Only Memory)、可擦除可编程只读存储器(EPROM,Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM,Electrically Erasable Programmable Read-Only Memory)、磁性随机存取存储器(FRAM,ferromagnetic random access memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM,Compact Disc Read-Only Memory);磁表面存储器可以是磁盘存储器或磁带存储器。易失性存储器可以是随机存取存储器(RAM,Random AccessMemory),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(SRAM,Static Random Access Memory)、同步静态随机存取存储器(SSRAM,Synchronous Static Random Access Memory)、动态随机存取存储器(DRAM,Dynamic Random Access Memory)、同步动态随机存取存储器(SDRAM,SynchronousDynamic Random Access Memory)、双倍数据速率同步动态随机存取存储器(DDRSDRAM,Double Data Rate Synchronous Dynamic Random Access Memory)、增强型同步动态随机存取存储器(ESDRAM,Enhanced Synchronous Dynamic Random Access Memory)、同步连接动态随机存取存储器(SLDRAM,SyncLink Dynamic Random Access Memory)、直接内存总线随机存取存储器(DRRAM,Direct Rambus Random Access Memory)。本发明实施例描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
在示例性实施例中,本发明实施例还提供了一种存储介质,即计算机存储介质,具体可以是计算机可读存储介质,例如包括存储计算机程序的存储器502,上述计算机程序可由流量异常检测设备500的处理器501执行,以完成本发明实施例方法所述的步骤。计算机可读存储介质可以是ROM、PROM、EPROM、EEPROM、Flash Memory、磁表面存储器、光盘、或CD-ROM等存储器。
需要说明的是:“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。
另外,本发明实施例所记载的技术方案之间,在不冲突的情况下,可以任意组合。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (14)

1.一种流量异常检测方法,其特征在于,包括:
获取预测样本,所述预测样本包括:基于时间先后顺序排列的m个单位时长的流量数据;
对所述预测样本基于流量预测模型进行预测,得到目标单位时长对应的流量基线;
基于所述流量基线对所述目标单位时长内的流量进行异常检测,得到所述目标单位时长内流量是否异常的检测结果;
其中,m为大于或等于1的自然数。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取设定时长的历史流量数据;
对所述设定时长的历史流量数据根据所述单位时长进行划分,生成多个训练样本;其中,各所述训练样本包括:所述历史流量数据中基于时间先后顺序排列的m个单位时长的流量数据;
确定各所述训练样本的样本标签;所述样本标签为基于时间序列确定的相应训练样本中最后一个单位时长的下一个单位时长对应的流量数据;
基于所述多个训练样本及相应训练样本的样本标签,训练生成所述流量预测模型。
3.根据权利要求2所述的方法,其特征在于,所述基于所述多个训练样本及相应训练样本的样本标签,训练生成所述流量预测模型,包括:
根据回归树算法,对所述多个训练样本及相应训练样本的样本标签进行模型训练,得到所述流量预测模型。
4.根据权利要求2所述的方法,其特征在于,所述对所述设定时长的历史流量数据根据所述单位时长进行划分,生成多个训练样本之前,所述方法还包括:对所述设定时长的历史流量数据进行预处理,所述预处理包括:
基于流量分布确定所述设定时长的历史流量数据中的异常点,对确定的异常点进行处理,得到异常点处理后的历史流量数据。
5.根据权利要求4所述的方法,所述基于流量分布确定所述设定时长的历史流量数据中的异常点,包括:
将所述历史流量数据中的流量片段数据输入高斯分布函数,确定函数值小于设定阈值的流量片段数据为异常点。
6.根据权利要求4所述的方法,所述对确定的异常点进行处理,包括以下之一:
剔除异常点;
对异常点基于平均值进行修正。
7.根据权利要求4所述的方法,其特征在于,所述预处理还包括:
对异常点处理后的历史流量数据进行归一化处理,得到归一化的历史流量数据。
8.根据权利要求7所述的方法,其特征在于,所述对异常点处理后的历史流量数据进行归一化处理,包括以下之一:
对异常点处理后的历史流量数据中的流量片段数据通过线性变换,映射至设定的数据区间;
对异常点处理后的历史流量数据中的流量片段数据基于均值和标准差转换为归一化的数据。
9.根据权利要求2所述的方法,其特征在于,所述对所述设定时长的历史流量数据根据所述单位时长进行划分,生成多个训练样本,包括:
对所述设定时长的历史流量数据根据所述单位时长进行划分,得到划分后的各单位时长的流量数据;
对划分后的各单位时长的流量数据,基于设定的滑动窗口生成多个训练样本;其中,所述滑动窗口为基于时间先后顺序确定的m个单位时长。
10.根据权利要求2所述的方法,其特征在于,若所述单位时长为天,所述对所述设定时长的历史流量数据根据所述单位时长进行划分,生成多个训练样本,包括:
将所述设定时长的历史流量数据划分为工作日对应的工作日流量数据、节假日对应的节假日流量数据;
对所述工作日流量数据基于设定的滑动窗口生成多个第一训练样本;
对所述节假日流量数据基于设定的滑动窗口生成多个第二训练样本;
所述确定各训练样本对应的样本标签,包括:
确定各第一训练样本对应的样本标签;
确定各第二训练样本对应的样本标签;
所述基于所述多个训练样本及相应训练样本的样本标签,训练生成所述流量预测模型,包括:
基于多个第一训练样本及相应第一训练样本的样本标签,训练生成用于确定工作日的流量基线的第一流量预测模型;
基于多个第二训练样本及相应第二训练样本的样本标签,训练生成用于确定节假日的流量基线的第二流量预测模型。
11.根据权利要求1所述的方法,其特征在于,所述基于所述流量基线对所述目标单位时长内的流量进行异常检测,得到所述目标单位时长内流量是否异常的检测结果,包括:
获取目标单位时长内的真实流量数据,确定所述真实流量数据与所述流量基线的偏离量大于设定阈值,生成流量异常的检测结果。
12.一种流量检测装置,其特征在于,包括:
获取模块,用于获取预测样本,所述预测样本包括:基于时间先后顺序排列的m个单位时长的流量数据;
预测模块,用于对所述预测样本基于流量预测模型进行预测,得到目标单位时长对应的流量基线;
检测模块,用于基于所述流量基线对所述目标单位时长内的流量进行异常检测,得到所述目标单位时长内流量是否异常的检测结果;
其中,m为大于或等于1的自然数。
13.一种流量异常检测设备,其特征在于,包括:处理器和用于存储能够在处理器上运行的计算机程序的存储器,其中,
所述处理器,用于运行计算机程序时,执行权利要求1至11任一项所述方法的步骤。
14.一种存储介质,所述存储介质上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时,实现权利要求1至11任一项所述方法的步骤。
CN201911398541.3A 2019-12-30 2019-12-30 流量异常检测方法、装置、设备及存储介质 Pending CN111163092A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911398541.3A CN111163092A (zh) 2019-12-30 2019-12-30 流量异常检测方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911398541.3A CN111163092A (zh) 2019-12-30 2019-12-30 流量异常检测方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN111163092A true CN111163092A (zh) 2020-05-15

Family

ID=70559549

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911398541.3A Pending CN111163092A (zh) 2019-12-30 2019-12-30 流量异常检测方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111163092A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111614520A (zh) * 2020-05-25 2020-09-01 杭州东方通信软件技术有限公司 一种基于机器学习算法的idc流量数据预测方法及装置
CN111783356A (zh) * 2020-06-29 2020-10-16 清华大学深圳国际研究生院 一种基于人工智能的石油产量预测方法和装置
CN112436968A (zh) * 2020-11-23 2021-03-02 恒安嘉新(北京)科技股份公司 一种网络流量的监测方法、装置、设备及存储介质
CN112770112A (zh) * 2021-01-28 2021-05-07 卓望数码技术(深圳)有限公司 流量数据异常检测方法、装置、电子设备及存储介质
CN112822046A (zh) * 2021-01-04 2021-05-18 新华三大数据技术有限公司 流量的预测方法及装置
CN113590392A (zh) * 2021-06-30 2021-11-02 中国南方电网有限责任公司超高压输电公司昆明局 换流站设备异常检测方法、装置、计算机设备和存储介质
CN113765881A (zh) * 2021-07-20 2021-12-07 奇安信科技集团股份有限公司 异常网络安全行为的检测方法、装置、电子设备及存储介质
CN115118466A (zh) * 2022-06-14 2022-09-27 深信服科技股份有限公司 一种策略生成方法、装置、电子设备和存储介质
CN115242513A (zh) * 2022-07-22 2022-10-25 中国工商银行股份有限公司 广域网链路流量异常告警方法、装置、设备、介质和程序产品

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086944A (zh) * 2017-06-22 2017-08-22 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN108921688A (zh) * 2018-07-02 2018-11-30 阿里巴巴集团控股有限公司 构建预测模型的方法及装置
CN110086649A (zh) * 2019-03-19 2019-08-02 深圳壹账通智能科技有限公司 异常流量的检测方法、装置、计算机设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107086944A (zh) * 2017-06-22 2017-08-22 北京奇艺世纪科技有限公司 一种异常检测方法和装置
CN108921688A (zh) * 2018-07-02 2018-11-30 阿里巴巴集团控股有限公司 构建预测模型的方法及装置
CN110086649A (zh) * 2019-03-19 2019-08-02 深圳壹账通智能科技有限公司 异常流量的检测方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
李眩: "基于网络流量的实时入侵检测", 《信息安全与通信保密》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111614520A (zh) * 2020-05-25 2020-09-01 杭州东方通信软件技术有限公司 一种基于机器学习算法的idc流量数据预测方法及装置
CN111614520B (zh) * 2020-05-25 2021-12-14 杭州东方通信软件技术有限公司 一种基于机器学习算法的idc流量数据预测方法及装置
CN111783356A (zh) * 2020-06-29 2020-10-16 清华大学深圳国际研究生院 一种基于人工智能的石油产量预测方法和装置
CN111783356B (zh) * 2020-06-29 2024-03-29 清华大学深圳国际研究生院 一种基于人工智能的石油产量预测方法和装置
CN112436968B (zh) * 2020-11-23 2023-10-17 恒安嘉新(北京)科技股份公司 一种网络流量的监测方法、装置、设备及存储介质
CN112436968A (zh) * 2020-11-23 2021-03-02 恒安嘉新(北京)科技股份公司 一种网络流量的监测方法、装置、设备及存储介质
CN112822046A (zh) * 2021-01-04 2021-05-18 新华三大数据技术有限公司 流量的预测方法及装置
CN112770112A (zh) * 2021-01-28 2021-05-07 卓望数码技术(深圳)有限公司 流量数据异常检测方法、装置、电子设备及存储介质
CN113590392A (zh) * 2021-06-30 2021-11-02 中国南方电网有限责任公司超高压输电公司昆明局 换流站设备异常检测方法、装置、计算机设备和存储介质
CN113590392B (zh) * 2021-06-30 2024-04-02 中国南方电网有限责任公司超高压输电公司昆明局 换流站设备异常检测方法、装置、计算机设备和存储介质
CN113765881A (zh) * 2021-07-20 2021-12-07 奇安信科技集团股份有限公司 异常网络安全行为的检测方法、装置、电子设备及存储介质
CN115118466A (zh) * 2022-06-14 2022-09-27 深信服科技股份有限公司 一种策略生成方法、装置、电子设备和存储介质
CN115118466B (zh) * 2022-06-14 2024-04-12 深信服科技股份有限公司 一种策略生成方法、装置、电子设备和存储介质
CN115242513B (zh) * 2022-07-22 2024-02-27 中国工商银行股份有限公司 广域网链路流量异常告警方法、装置、设备和介质
CN115242513A (zh) * 2022-07-22 2022-10-25 中国工商银行股份有限公司 广域网链路流量异常告警方法、装置、设备、介质和程序产品

Similar Documents

Publication Publication Date Title
CN111163092A (zh) 流量异常检测方法、装置、设备及存储介质
CN107528722B (zh) 一种时间序列中异常点检测方法及装置
US9954882B2 (en) Automatic baselining of anomalous event activity in time series data
CN109034861B (zh) 基于移动端日志行为数据的用户流失预测方法及装置
EP3182346A1 (en) A system for maintenance recommendation based on performance degradation modeling and monitoring
CN105406991A (zh) 基于网络监控指标由历史数据生成业务阈值的方法及系统
JP6531079B2 (ja) スマートアラートのためのシステム及び方法
US20110307743A1 (en) False alarm mitigation
CN110750429A (zh) 运维管理系统的异常检测方法、装置、设备及存储介质
CN110874674A (zh) 一种异常检测方法、装置及设备
CN105593864B (zh) 用于维护设备的分析设备退化
CN106611023B (zh) 网站访问异常的检测方法及装置
CN107357764B (zh) 数据分析方法、电子设备及计算机存储介质
CN108984376B (zh) 一种系统异常检测方法、装置及设备
CN111832841B (zh) 一种封站条件下的轨道交通短时客流预测方法及系统
US11257001B2 (en) Prediction model enhancement
CN115794532A (zh) 多指标智能动态阈值监控方法及系统
CN112965876A (zh) 一种监控报警方法及装置
CN110399903B (zh) 异常数据的检测方法及装置、计算机可读存储介质
JP2010152431A (ja) 不正アクセス検知装置及び不正アクセス検知プログラム及び記録媒体及び不正アクセス検知方法
Fahmy et al. Drift time detection and adjustment procedures for processes subject to linear trend
JP2008109101A (ja) モデル作成装置並びにプロセス異常分析装置およびそれらの方法並びにプログラム
CN114722972A (zh) 一种异常检测的方法及装置
Baier et al. Identifying failure root causes by visualizing parameter interdependencies with spectrograms
CN110874601A (zh) 识别设备运行状态的方法、状态识别模型训练方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200515

RJ01 Rejection of invention patent application after publication