CN113746862A - 一种基于机器学习的异常流量检测方法、装置和设备 - Google Patents

一种基于机器学习的异常流量检测方法、装置和设备 Download PDF

Info

Publication number
CN113746862A
CN113746862A CN202111075333.7A CN202111075333A CN113746862A CN 113746862 A CN113746862 A CN 113746862A CN 202111075333 A CN202111075333 A CN 202111075333A CN 113746862 A CN113746862 A CN 113746862A
Authority
CN
China
Prior art keywords
data set
time sequence
sequence data
data
periodic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111075333.7A
Other languages
English (en)
Inventor
韩晓愈
史帅
尚程
杨满智
傅强
梁彧
蔡琳
陈晓光
田野
王杰
金红
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eversec Beijing Technology Co Ltd
Original Assignee
Eversec Beijing Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eversec Beijing Technology Co Ltd filed Critical Eversec Beijing Technology Co Ltd
Priority to CN202111075333.7A priority Critical patent/CN113746862A/zh
Publication of CN113746862A publication Critical patent/CN113746862A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Signal Processing (AREA)
  • Computer Hardware Design (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于机器学习的异常流量检测方法、装置和设备。一种基于机器学习的异常流量检测方法,包括:获取网络流量数据;根据所述网络流量数据得到底层流量数据话单;对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;确定时序数据集中大小超过时序数据集基线范围的第一异常数据。本实施例的技术方案,解决了人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障的问题,达到了精确地确定网络流量中的异常数据的效果。

Description

一种基于机器学习的异常流量检测方法、装置和设备
技术领域
本发明实施例涉及网络安全及机器学习技术,尤其涉及一种基于机器学习的异常流量检测方法、装置和设备。
背景技术
随着计算机网络的日益发展,网络规模扩大,创新性的应用模式和需求的不断涌现,导致呈现出了越来越多的安全问题,出现各种安全事件和网络异常的可能性增大,这些安全事件和网络异常极大地增加了检测和管理的难度。
现有技术中,网络管理者通过人工实时对网络流量进行检测可以及时有效地发觉网络异常,并产生相应的报警,防止异常的进一步传播和扩大,从而为阻断网络异常行为提供决策依据,并为网络安全的管控提供技术支持和保障。
然而,发明人在实现本发明的过程中,发现现有技术存在如下缺陷:人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障。
发明内容
本发明提供一种基于机器学习的异常流量检测方法、装置和设备,以实现精确地确定网络流量中的异常数据的效果。
第一方面,本发明实施例提供了一种基于机器学习的异常流量检测方法,包括:
获取网络流量数据;
根据所述网络流量数据得到底层流量数据话单;
对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
第二方面,本发明实施例还提供了一种基于机器学习的异常流量检测装置,包括:
网络流量获取模块,用于获取网络流量数据;
数据话单获取模块,用于根据所述网络流量数据得到底层流量数据话单;
数据预处理模块,用于对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
第一异常数据确定模块,用于确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
第三方面,本发明实施例还提供了一种设备,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如实施例中任一所述的基于机器学习的异常流量检测方法。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,该计算机可执行指令被处理器执行时实现如实施例中任一所述的基于机器学习的异常流量检测方法。
本实施例的技术方案,通过获取网络流量数据;根据所述网络流量数据得到底层流量数据话单;对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;确定时序数据集中大小超过时序数据集基线范围的第一异常数据,解决了人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障的问题,达到了精确地确定网络流量中的异常数据的效果。
附图说明
图1为本发明实施例一提供的一种基于机器学习的异常流量检测方法的流程图;
图2为对时序数据进行预处理的流程图;
图3为本发明实施例二提供的一种基于机器学习的异常流量检测方法的流程图;
图4为得到周期时序数据集阈值基线的流程图;
图5为得到非周期时序数据集阈值基线的流程图;
图6为本发明实施例三提供的一种基于机器学习的异常流量检测装置的结构图;
图7为本发明实施例四提供的一种设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
机器学习是人工智能研究领域的核心课题之一,具有深刻的理论内蕴,在本发明中主要体现在通过已有的数据来对检测机制进行训练和优化,从而准确地对异常流量进行检测。
实施例一
图1为本发明实施例一提供的一种基于机器学习的异常流量检测方法的流程图,本实施例可适用于利用机器学习技术来对网络数据中的异常流量进行检测的情况,该方法可以由一种基于机器学习的异常流量检测装置来执行,具体包括如下步骤:
S110、获取网络流量数据。
本发明所检测的异常,主要体现在数据量的异常上,例如,某IP对应的客户端通常情况下在早8点至9点之间网络流量数据量为5GB,如果某天该IP对应的客户端在早8点至9点之间网络流量数据量为50GB,远大于通常的5GB,则认为50GB的网络流量数据量可能存在异常。
这里所述的获取网络流量数据是指获取一段时间内的流量数据,例如,1天内、1周内或者1月内的流量数据。
S120、根据所述网络流量数据得到底层流量数据话单。
获取的网络流量数据较为原始,因此需要将所述网络流量数据转化为更适合后续处理的底层流量数据话单,底层流量数据话单中包含各个时间处的网络流量数据量。
S130、对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集。
由于本发明对网络流量数据量的检测是与时间相关联的,因此,对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集,包括:计算所述时序数据的缺失值,对所述缺失值进行填充;对填充后的时序数据进行周期性检测;对周期性检测后的周期时序数据进行噪声过滤,得到时序数据集;或根据周期性检测后的非周期时序数据得到时序数据集。
图2为对时序数据进行预处理的流程图,如图所示:
S210、计算所述时序数据的缺失值,对所述缺失值进行填充。
底层流量话单中的时序数据可能由于传输或检测中的故障导致某一时间处的时序数据有缺失,例如,在表示1月内流量数据量的底层流量话单中,第3天早8点至早9点之间的时序数据量为0,此时认为底层流量话单中缺失第3天早8点至早9点之间的时序数据,而不是该时间段中的时序数据量实际为0。
因此,需要对所述缺失值进行填充。可选的,本发明提供了4种不同的缺失值填充方法以供选择,包括总体均值填充、特定值填充、中位数填充和前后数值的均值填充。例如,对早8点至9点之间的时序数据进行填充,可以采用1月内平均得到的1小时时序数据量进行填充,采用预先确定的填充值进行填充,采用1月内1小时时序数据量的中位数进行填充,还可以采用早7点至8点以及早9点至10点这个两个相邻数据量的平均值进行填充。可选地,返回时序数据的缺失率,作为检测结果的一部分进行输出。
S220、对填充后的时序数据进行周期性检测。
判断填充后的时序数据是否具有周期性,若是,执行S230,若否,结束流程,直接得到时序数据集。
可选的,可以使用ADF(Augmented Dickey Fuller)检测方法来检测时序数据是否存在周期性。在使用ADF检测方法进行周期性检验时,由于ADF检测方法无法检测周期函数和线性函数的叠加,因此需要在进行周期性检测之前首先使用线性拟合,得到数据的整体趋势,并去除趋势,从而得到没有与线性函数进行叠加的周期函数或非周期函数,继而对其进行周期性检测。
S230、对周期性检测后的周期时序数据进行噪声过滤。
对于存在周期的时序数据,可以采用滤波函数来去除数据中的噪声。例如,在表示1月内流量数据量的底层流量话单中,其流量数据量可能以星期为单位具有周期性,即每个周一的流量数据量相似,每个周六的流量数据量相似,以此类推。此时,可以根据所述时序数据的周期性进行噪声过滤,需要注意的是,如果所述时序数据不具有周期性,则不进行噪声过滤。
可选的,根据情况使用合适的滤波方法,例如,卡尔曼滤波、移动平均滤波、有限长单位冲击响应(Finite Impulse Response,FIR)滤波等方法来过滤数据中存在的噪声信息。
S140、确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
根据得到的时序数据集确定所述时序数据集中各个数据应该满足的阈值的范围,例如,通过对时序数据集进行分析,认为每小时正常的数据流量的量应该小于等于5GB,则某小时的数据流量的量为10GB,就认为这属于第一异常数据。需要注意的是,这里的“第一”只是为了对异常数据的类型进行区分,数据量的异常是数据异常中的一种重要的类型,同样还会有其他指标来表征其他类型的数据异常。
本实施例的技术方案,通过获取网络流量数据;根据所述网络流量数据得到底层流量数据话单;对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;确定时序数据集中大小超过时序数据集基线范围的第一异常数据,解决了人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障的问题,达到了精确地确定网络流量中的异常数据的效果。
实施例二
图3为本发明实施例二提供的一种基于机器学习的异常流量检测方法的流程图,本实施例所述的异常流量检测方法对实施例一中的异常流量检测算法进行了进一步的细化,具体地,对S140进行了进一步的细化,该方法可以由一种基于机器学习的异常流量检测装置来执行,具体包括如下步骤,其中与实施例一中相同的步骤将不再赘述:
S310、获取网络流量数据。
S320、根据所述网络流量数据得到底层流量数据话单。
S330、对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集。
S340、对时序数据集进行周期性检测,得到周期时序数据集或非周期时序数据集。
需要注意的是,这里所述的周期性检测也可以使用S220中所述的周期性检测的方法,但是这里所述的周期性检测是对噪声过滤之后的数据再次进行的,从而对于周期性的时序数据得到更加精确的周期。
S350、得到周期时序数据集阈值基线或得到非周期时序数据集阈值基线。
对于周期时序数据集和非周期时序数据集而言,分别计算阈值基线。例如,假设1个月内的底层流量数据话单中的数据不具备周期性,即对于非周期时序数据集而言,可以设置恒定的阈值,流量数据的量超过阈值范围的部分就认为是异常数据。假设1个月内的底层流量数据话单中的数据具备周期性,并且以星期为周期,则可以设置变化的阈值,例如工作日采用一个阈值,休息日采用另一个阈值,流量数据的量超过相应时间对应的阈值范围的部分就认为是异常数据。
可选的,所述得到周期时序数据集阈值基线,包括:使用傅里叶变换,得到周期时序数据集的变换周期;利用所述变换周期的周期长度,对所述周期时序数据集进行STL分解,得到残差项;使用三西格玛方法对所述残差项进行处理,得到周期时序数据集阈值基线;其中,所述STL为一种时间序列分解算法。
图4为得到周期时序数据集阈值基线的流程图,具体包括:
S410、使用傅里叶变换,得到周期时序数据集的变换周期。
对于周期性数据,我们需要考虑到周期性变化对于数据的影响,不能简单的认为一个极大值或极小值就是异常数据。因此,对周期时序数据集进行傅里叶变换,从而得到所述时序数据集的周期。
S420、利用所述变换周期的周期长度,对所述周期时序数据集进行STL分解,得到残差项。
其中,所述STL(Seasonal-Trend decomposition procedure based on Loess)为一种时间序列分解算法。通过STL分解,能够去除数据本身的趋势性和周期性,仅得到数据的残差。
S430、使用三西格玛方法对所述残差项进行处理,得到周期时序数据集阈值基线。
对残差项使用三西格玛方法,得到周期时序数据集中正常数据的阈值上下限,以便根据阈值来检测异常数据。
可选的,得到非周期时序数据集阈值基线,包括:判断非周期时序数据集能够进行对数变换;对非周期时序数据集进行对数变换,得到变换后非周期时序数据集;使用KS检验,找出所述非周期时序数据集和变换后非周期时序数据集中最接近正太分布的数据集;使用K西格玛方法对所述最接近正太分布的数据集进行处理,得到能够进行对数变换条件下的所述非周期时序数据集阈值基线。
图5为得到非周期时序数据集阈值基线的流程图,具体包括:
S510、判断非周期时序数据集能够进行对数变换。
对于非周期性数据,可以直接使用K西格玛算法得到非周期时序数据集的阈值基线,但是由于使用K西格玛算法的前提是数据集接近正态分布,即在数据集接近正态分布的条件下,K西格玛算法计算得到的结果才是相对准确的,因此,需要对非周期时序数据集进行适当的变换操作,使其接近于正态分布。
判断非周期时序数据集是否可以进行对数变换,对于能够进行对数变换的非时序数据集进行对数变换。
S520、对非周期时序数据集进行对数变换,得到变换后非周期时序数据集。
S530、使用KS检验,找出所述非周期时序数据集和变换后非周期时序数据集中最接近正太分布的数据集。
将对数变换前后的非周期时序数据集进行比较,通过KS(Kolmogorov-Smirnov)检验方法确定最接近正态分布的形式。
S540、使用K西格玛方法对所述最接近正太分布的非周期时序数据集进行处理,得到能够进行对数变换条件下的所述非周期时序数据集阈值基线。
可选的,所述得到非周期时序数据集阈值基线的流程还可以包括:判断非周期时序数据集不能进行对数变换;使用K西格玛方法对所述非周期时序数据集进行处理,得到不能进行对数变换条件下的所述非周期时序数据集阈值基线。
也就是说,对于不能进行对数变换的非周期时序数据集而言,直接使用K西格玛方法得到其阈值基线。
本实施例的技术方案,通过对时序数据集进行周期性检测,得到周期时序数据集或非周期时序数据集;得到周期时序数据集阈值基线或得到非周期时序数据集阈值基线;确定周期时序数据集中大小超过周期时序数据集阈值基线的第一异常数据或非周期时序数据集中大小超过非周期时序数据集阈值基线的第一异常数据,解决了周期时序数据集与非周期时序数据集使用相同的阈值确定方法来确定阈值导致阈值确定不准确,进而导致异常数据确定不准确的问题,达到了细分阈值类型,提高异常数据检测准确率的效果。
可选的,本发明所述的基于机器学习的异常流量检测方法还可以包括:使用变点检测算法对所述时序数据集进行处理,得到第二异常数据;所用数据离散程度分析算法对所述时序数据集进行处理,得到第三异常数据。
也就是说,异常数据的类型可以是多种的,单位时间内网络流量数据的数据量大小的异常变化是异常数据的一种类型,同时也可以利用其他算法来检测其他类型的异常数据。
可选的,可以采用PELT(Per-Entity Load Tracking)变点检测算法对所述时序数据集进行分析,从而得到表征网络流量数据稳定性的第二异常数据;亦可以采用数据离散程度分析算法来满足分析端口扫描的场景需求。也就是说,可以使用多种异常检测算法来全方位的检测网络流量数据中可能存在的异常数据。
这样设置的好处在于,可以对网络流量数据中的异常数据进行更加全面的检测,满足异常数据监测中的各种需求。
实施例三
本发明实施例所提供的一种基于机器学习的异常流量检测装置可执行本发明任意实施例所提供的一种基于机器学习的异常流量检测方法,具备执行方法相应的功能模块和有益效果。图6为本发明实施例三提供的一种基于机器学习的异常流量检测装置的结构图。
一种基于机器学习的异常流量检测装置,包括:
网络流量获取模块610,用于获取网络流量数据;
数据话单获取模块620,用于根据所述网络流量数据得到底层流量数据话单;
数据预处理模块630,用于对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
第一异常数据确定模块640,用于确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
可选的,所述数据预处理模块630,包括:
填充子模块,用于计算所述时序数据的缺失值,对所述缺失值进行填充;
周期性检测子模块,用于对填充后的时序数据进行周期性检测;
时序数据集获得子模块,用于对周期性检测后的周期时序数据进行噪声过滤,得到时序数据集;或根据周期性检测后的非周期时序数据得到时序数据集。
可选的,所述第一异常数据确定模块640,包括:
周期性检测子模块,用于对时序数据集进行周期性检测,得到周期时序数据集或非周期时序数据集;
阈值基线获取子模块,用于得到周期时序数据集阈值基线或得到非周期时序数据集阈值基线;
第一异常数据获取子模块,用于确定周期时序数据集中大小超过周期时序数据集阈值基线的第一异常数据或非周期时序数据集中大小超过非周期时序数据集阈值基线的第一异常数据。
可选的,所述阈值基线获取子模块,包括:
变换周期获取单元,用于使用傅里叶变换,得到周期时序数据集的变换周期;
残差项获取单元,用于利用所述变换周期的周期长度,对所述周期时序数据集进行STL分解,得到残差项;
周期阈值基线获取单元,用于使用三西格玛方法对所述残差项进行处理,得到周期时序数据集阈值基线。
可选的,所述阈值基线获取子模块,包括:
对数变换判断单元,用于判断非周期时序数据集能够进行对数变换;
非周期时序数据集获取单元,用于对非周期时序数据集进行对数变换,得到变换后非周期时序数据集;
KS检验单元,用于使用KS检验,找出所述非周期时序数据集和变换后非周期时序数据集中最接近正太分布的数据集;
非周期阈值基线获取单元,用于使用K西格玛方法对所述最接近正太分布的非周期时序数据集进行处理,得到能够进行对数变换条件下的所述非周期时序数据集阈值基线。
可选的,所述对数变换判断单元,还用于:判断非周期时序数据集不能进行对数变换;
非周期阈值基线获取单元,还用于:使用K西格玛方法对所述非周期时序数据集进行处理,得到不能进行对数变换条件下的所述非周期时序数据集阈值基线。
可选的,所述基于机器学习的异常流量检测装置,还包括:
第二异常数据确定模块,用于使用变点检测算法对所述时序数据集进行处理,得到第二异常数据;
第三异常数据确定模块,用于所用数据离散程度分析算法对所述时序数据集进行处理,得到第三异常数据。
本实施例的技术方案,通过获取网络流量数据;根据所述网络流量数据得到底层流量数据话单;对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;确定时序数据集中大小超过时序数据集基线范围的第一异常数据,解决了人工对网络流量进行检测需要耗费大量人力,准确性也难以得到保障的问题,达到了精确地确定网络流量中的异常数据的效果。
实施例四
图7为本发明实施例四提供的一种设备的结构示意图,如图7所示,该设备包括处理器720、存储器710、输入装置730和输出装置740;设备中处理器720的数量可以是一个或多个,图7中以一个处理器720为例;设备中的处理器720、存储器710、输入装置730和输出装置740可以通过总线或其他方式连接,图7中以通过总线连接为例。
存储器710作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的一种基于机器学习的异常流量检测方法对应的程序指令/模块(例如,一种基于机器学习的异常流量检测装置中的网络流量获取模块610、数据话单获取模块620、数据预处理模块630和第一异常数据确定模块640)。处理器720通过运行存储在存储器710中的软件程序、指令以及模块,从而执行设备/终端/服务器的各种功能应用以及数据处理,即实现上述的基于机器学习的异常流量检测方法。
存储器710可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器710可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器710可进一步包括相对于处理器720远程设置的存储器,这些远程存储器可以通过网络连接至设备/终端/服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
输入装置730可用于接收输入的数字或字符信息,以及产生与设备的用户设置以及功能控制有关的键信号输入。输出装置740可包括显示屏等显示设备。
实施例五
本发明实施例五还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种基于机器学习的异常流量检测方法,该方法包括:
获取网络流量数据;
根据所述网络流量数据得到底层流量数据话单;
对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的一种基于机器学习的异常流量检测方法中的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (10)

1.一种基于机器学习的异常流量检测方法,其特征在于,包括:
获取网络流量数据;
根据所述网络流量数据得到底层流量数据话单;
对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
2.根据权利要求1所述的异常流量检测方法,其特征在于,所述对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集,包括:
计算所述时序数据的缺失值,对所述缺失值进行填充;
对填充后的时序数据进行周期性检测;
对周期性检测后的周期时序数据进行噪声过滤,得到时序数据集;或
根据周期性检测后的非周期时序数据得到时序数据集。
3.根据权利要求1所述的异常流量检测方法,其特征在于,确定时序数据集中大小超过时序数据集基线范围的第一异常数据,包括:
对时序数据集进行周期性检测,得到周期时序数据集或非周期时序数据集;
得到周期时序数据集阈值基线或得到非周期时序数据集阈值基线;
确定周期时序数据集中大小超过周期时序数据集阈值基线的第一异常数据或非周期时序数据集中大小超过非周期时序数据集阈值基线的第一异常数据。
4.根据权利要求3所述的异常流量检测方法,其特征在于,得到周期时序数据集阈值基线,包括:
使用傅里叶变换,得到周期时序数据集的变换周期;
利用所述变换周期的周期长度,对所述周期时序数据集进行STL分解,得到残差项;
使用三西格玛方法对所述残差项进行处理,得到周期时序数据集阈值基线;
其中,所述STL为一种时间序列分解算法。
5.根据权利要求3所述的异常流量检测方法,其特征在于,得到非周期时序数据集阈值基线,包括:
判断非周期时序数据集能够进行对数变换;
对非周期时序数据集进行对数变换,得到变换后非周期时序数据集;
使用KS检验,找出所述非周期时序数据集和变换后非周期时序数据集中最接近正太分布的数据集;
使用K西格玛方法对所述最接近正太分布的非周期时序数据集进行处理,得到能够进行对数变换条件下的所述非周期时序数据集阈值基线。
6.根据权利要求5所述的异常流量检测方法,其特征在于,还包括:
判断非周期时序数据集不能进行对数变换;
使用K西格玛方法对所述非周期时序数据集进行处理,得到不能进行对数变换条件下的所述非周期时序数据集阈值基线。
7.根据权利要求1所述的异常流量检测方法,其特征在于,还包括:
使用变点检测算法对所述时序数据集进行处理,得到第二异常数据;
所用数据离散程度分析算法对所述时序数据集进行处理,得到第三异常数据。
8.一种基于机器学习的异常流量检测装置,其特征在于,包括:
网络流量获取模块,用于获取网络流量数据;
数据话单获取模块,用于根据所述网络流量数据得到底层流量数据话单;
数据预处理模块,用于对所述底层流量数据话单中的时序数据进行预处理,得到时序数据集;
第一异常数据确定模块,用于确定时序数据集中大小超过时序数据集基线范围的第一异常数据。
9.一种设备,其特征在于,所述设备包括:
一个或多个处理器;
存储器,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7中任一所述的基于机器学习的异常流量检测方法。
10.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,该计算机可执行指令被处理器执行时实现如权利要求1-7中任一所述的基于机器学习的异常流量检测方法。
CN202111075333.7A 2021-09-14 2021-09-14 一种基于机器学习的异常流量检测方法、装置和设备 Pending CN113746862A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111075333.7A CN113746862A (zh) 2021-09-14 2021-09-14 一种基于机器学习的异常流量检测方法、装置和设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111075333.7A CN113746862A (zh) 2021-09-14 2021-09-14 一种基于机器学习的异常流量检测方法、装置和设备

Publications (1)

Publication Number Publication Date
CN113746862A true CN113746862A (zh) 2021-12-03

Family

ID=78738923

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111075333.7A Pending CN113746862A (zh) 2021-09-14 2021-09-14 一种基于机器学习的异常流量检测方法、装置和设备

Country Status (1)

Country Link
CN (1) CN113746862A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115016433A (zh) * 2022-06-01 2022-09-06 哈尔滨工业大学(威海) 一种车载can总线流量异常检测方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019095719A1 (zh) * 2017-11-14 2019-05-23 深圳中兴网信科技有限公司 网络流量异常检测方法、装置、计算机设备和存储介质
CN112436968A (zh) * 2020-11-23 2021-03-02 恒安嘉新(北京)科技股份公司 一种网络流量的监测方法、装置、设备及存储介质
WO2021056724A1 (zh) * 2019-09-23 2021-04-01 平安科技(深圳)有限公司 异常检测方法、装置、电子设备及存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019095719A1 (zh) * 2017-11-14 2019-05-23 深圳中兴网信科技有限公司 网络流量异常检测方法、装置、计算机设备和存储介质
WO2021056724A1 (zh) * 2019-09-23 2021-04-01 平安科技(深圳)有限公司 异常检测方法、装置、电子设备及存储介质
CN112436968A (zh) * 2020-11-23 2021-03-02 恒安嘉新(北京)科技股份公司 一种网络流量的监测方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115016433A (zh) * 2022-06-01 2022-09-06 哈尔滨工业大学(威海) 一种车载can总线流量异常检测方法及系统

Similar Documents

Publication Publication Date Title
CN110839016B (zh) 异常流量监测方法、装置、设备及存储介质
WO2021212756A1 (zh) 指标异常分析方法、装置、电子设备及存储介质
CN113518011B (zh) 异常检测方法和装置、电子设备及计算机可读存储介质
CN110807024B (zh) 动态阈值异常检测方法、系统、存储介质及智能设备
CN111309539A (zh) 一种异常监测方法、装置和电子设备
CN110830450A (zh) 基于统计的异常流量监测方法、装置、设备及存储介质
CN108599977B (zh) 基于统计方法监控系统可用性的系统及方法
CN110647447B (zh) 用于分布式系统的异常实例检测方法、装置、设备和介质
CN115454778A (zh) 大规模云网络环境下的时序指标异常智能监控系统
CN114338372B (zh) 网络信息安全监控方法及系统
CN114936675A (zh) 一种故障预警方法、装置、存储介质及电子设备
US9116804B2 (en) Transient detection for predictive health management of data processing systems
CN113746862A (zh) 一种基于机器学习的异常流量检测方法、装置和设备
WO2024104406A1 (zh) 异常检测的方法和云网络平台
CN112256548B (zh) 异常数据的监听方法、装置、服务器及存储介质
CN116991675A (zh) 一种异常访问监控方法、装置、计算机设备及存储介质
CN112532643A (zh) 基于深度学习的流量异常检测方法、系统、终端及介质
CN111125195A (zh) 一种数据异常检测方法及装置
CN116108376A (zh) 一种反窃电的监测系统、方法、电子设备及介质
CN111611483B (zh) 一种对象画像构建方法、装置、设备及存储介质
CN114328078A (zh) 一种阈值动态计算方法、装置及计算机可读存储介质
CN117439827B (zh) 一种网络流量大数据分析方法
US20230409421A1 (en) Anomaly detection in computer systems
CN113992496B (zh) 基于四分位算法的异动告警方法、装置及计算设备
CN112187555B (zh) 一种基于机器学习的实时kpi数据异常检测方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination