CN113242207B - 一种迭代聚类的网络流量异常检测方法 - Google Patents

一种迭代聚类的网络流量异常检测方法 Download PDF

Info

Publication number
CN113242207B
CN113242207B CN202110362634.1A CN202110362634A CN113242207B CN 113242207 B CN113242207 B CN 113242207B CN 202110362634 A CN202110362634 A CN 202110362634A CN 113242207 B CN113242207 B CN 113242207B
Authority
CN
China
Prior art keywords
data
network
cluster
flow
network flow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110362634.1A
Other languages
English (en)
Other versions
CN113242207A (zh
Inventor
曾涛
许峰
吕鑫
王鑫元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hohai University HHU
Original Assignee
Hohai University HHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hohai University HHU filed Critical Hohai University HHU
Priority to CN202110362634.1A priority Critical patent/CN113242207B/zh
Publication of CN113242207A publication Critical patent/CN113242207A/zh
Application granted granted Critical
Publication of CN113242207B publication Critical patent/CN113242207B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1425Traffic logging, e.g. anomaly detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computer Hardware Design (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种迭代聚类的网络流量异常检测方法,包括网络流量历史数据预处理;网络流量样本数据降维;采用迭代聚类方法聚类,得到带伪标签的流量样本和检测异常网络流量四个步骤;具有能够处理大量数据、实时性强、灵活、扩展性强、鲁棒的实现实时且稳定的网络流量异常检测的特点。

Description

一种迭代聚类的网络流量异常检测方法
技术领域
本发明属于深度学习和网络安全的交叉领域,涉及一种迭代聚类的网络流量异常检测方法。
背景技术
互联网技术在各行业的普及为人们工作生活带来极大的便利,越来越多的业务和设备需要网络的支持,但同时,网络攻击的手段及规模也在发展,造成的损失和影响也越来越大,网络安全面临巨大威胁,入侵检测是当前各公司及政府部门主要防范网络安全威胁的主要手段之一。入侵检测是一类通过主动监控流量数据以识别攻击并发出警报的网络攻击检测方法。早期的入侵检测系统主要是通过人工识别特征码,再通过特征码检测技术实现,该方法易漏报新型攻击手段,随后出现了基于行为建模的检测方法,利用数据挖掘和机器学习等手段,但当网络流量较大时,模型需要的计算量较大,无法满足当前的需求,且该类方法需要预先标记大量数据,成本较大。近年来,深度神经网络优秀的学习能力和非线性优化能力,使得其在图像识别、语音识别、机器翻译和异常检测领域成果显著,在网络流量异常检测中引入人工智能技术,采用数据驱动的方式研究网络流量异常检测方法成为重点。
目前,通过学习数据本身的特征进行网络流量异常判别逐步替代了基于手工特征的异常流量检测技术,而基于深度神经网络的方法被认为是最合适的学习数据特征表达的方法。深度学习技术能够取得巨大成功,得益于数有效数据的积累和计算能力的提升。深度学习方法按照对数据的依赖程度不同可分为三类:监督学习、半监督学习和无监督学习,顾名思义,监督学习的训练数据依赖于带标签的数据训练模型,而无监督学习的所用的数据没有标签,半监督学习则只需要少量带标签数据即可,随着标签可用率的降低,模型性能也随之下降。Al-Qatf等提出结合稀疏自编码和支持向量机的入侵检测方法,但是针对大量数据的检测,支持向量机无法满足需求。Mirsky等人和Al-Hawawreh等人都采用自编码网络进行数据的无监督学习,但模型的训练过程漫长,且对新型攻击手段的发现能力不足。Mirza等人则是考虑引入时间维度进行特征提取,并融合自编码提取的特征,实现入侵检测,时间维度的引入会影响检测的实时性。
当基于深度神经网络的网络流量异常检测方法在真实网络环境中实施时,带标签数据稀少导致性能较好的监督学习模型不能采用,无监督学习模型因其可靠性不足得不到用户的认可,而网络流量数据量巨大,计算复杂的深度网络模型无法提供实时检测的需求。且考虑到流量数据特征较多,直接参与计算,会使得计算量急剧增加,且维度高会引起聚合度降低,进一步加大了特征学习的难度。Xiao等人提出采用CNN选择流量特征,并根据异常数据量设置每个类别的损失函数权重系数,解决类别不均衡问题,但是其过度依赖数据集,应用场景受限。
综上,在当前网络流量数据急剧增加的环境下,实现实时且稳定的网络流量异常检测方法,需要满足处理大量数据、实时性、灵活、扩展性强、鲁棒等需求。
发明内容
本发明针对大量无标签的网络流量样本数据,以及少量带标签的网络流量样本数据,通过训练得到入侵检测模型,用来对网络流量实时数据进行分类,检测出异常数据。
本发明采用的技术方案是:
一种迭代聚类的网络流量异常检测方法,包括以下步骤:
对网络流量历史数据进行抽样,再进行预处理,得到网络流量样本数据;
构建自编码降维模型,对网络流量样本数据进行降维,得到降维后的流量样本数据;
采用迭代聚类方法对降维后的流量样本数据进行聚类,得到聚类后的流量样本数据,再结合现有异常流量数据,对聚类后的流量样本数据打上伪标签,得到带伪标签的流量样本;
采用带伪标签的流量样本数据训练分类器,采用训练好的分类器对预处理后的网络流量实时数据进行分类,检测出异常的网络流量。
进一步的,所述对网络流量历史数据进行抽样,再进行预处理,得到网络流量样本数据,具体为:
采用分层抽样的方式,对网络流量历史数据进行抽样按天或者小时进行抽样,得到网络流量抽样数据;
对网络流量抽样数据进行清洗,去除请求日期属性、时间戳属性和报文内容属性,将标识属性、流量类型属性、访问协议属性、请求类型属性以及攻击类型进行one-hot编码,得到网络流量样本数据。
进一步的,所述构建自编码降维模型,对网络流量样本数据进行降维,得到降维后的流量样本数据,具体为:
采用预处理后的流量数据训练自编码网络,得到自编码降维模型,用于对网络流量数据进行降维;
使用自编码降维模型对训练数据进行降维操作,得到网络流量低维样本数据。
进一步的,所述采用迭代聚类方法对降维后的流量样本数据进行聚类,得到聚类后的流量样本数据,再结合现有异常流量数据,对聚类后的流量样本数据打上伪标签,得到带伪标签的流量样本,具体为:
将所述降维后的流量样本数据,记为簇A,聚类后得到两个簇,记为B、C;
采用评价函数S对簇A进行评价,得到评价结果SA
采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C;
采用评价函数S对簇B、C等进行评价,得到评价结果SB、SC
若SA小于SB、SC,则将得到的所有簇记为A1、A2、…、An,历史数据中带标签的网络流量样本数据中标签为异常的数据点记为N1、N2、…、Nn,dis(Ax,Ny)为簇Ax中所有点到点Ny的平均距离。取dis(A1,N1)、dis(A1,N2)、...、dis(A1,Ni)中值最小的10组数据求平均值,小于一定阈值则给簇A1赋予伪标签异常,否则赋予伪标签正,A2、…、An赋予伪标签方式同A1
若SA大于SB,将簇B记为簇A,则再次采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C;
若SA大于SC,将簇C记为簇A,则再次采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C。
进一步的,所述步骤自编码网络由编码器和解码器2个部分组成,所述编码器由3层带激活函数的全连接网络组成,所述激活函数为Tanh,编码器用于将高维的网络流量样本数据以低维的形式表示;所述解码器由3层全连接网络组成,解码器用于将低维形式的数据重新还原成与输入相同的维度,编码器的输出数据是解码器的输入数据,自编码网络训练阶段采用的损失函数公式如下:
loss=(decoded-original-data)2+λTw
其中,decoded表示解码器输出,original_data表示原始流量样本数据,λ是正则项的系数,
Figure BDA0003006189210000031
是权重正则项,防止模型过拟合,L表示层数,I和J表示权重W的索引。
进一步的,所述评价函数S为:
Figure BDA0003006189210000032
其中,Count(·)表示计数函数,r和R代表聚类半径,且当计算簇A的SA时,R的值等于簇A的半径,
Figure BDA0003006189210000041
进一步的,所述采用带伪标签的流量样本数据训练分类器,采用训练好的分类器对预处理后的网络流量实时数据进行分类,检测出异常的网络流量,具体为:
将网络流量实时数据样本输入编码器,由编码器输出的数据特征作为网络流量实时数据样本的扩展属性,连同带伪标签的网络流量数据构成新的样本SN
采用监督学习的方法,在样本SN数据集上训练一个分类器,分类器选择多层感知机模型,网络层数设为3,神经元的个数与样本的数据特征个数相同,损失函数采用交叉熵损失,并带有权重正则项,优化算法选择随机梯度下降算法,并采取早停策略判断模型参数是否达到最优,模型训练停止后,得到最优检测模型;
对网络流量实时数据进行清洗,清洗方式与训练集相同,并将清洗后的网络流量实时数据输入编码器,输出的数据特征与原始特征组合后,输入检测模型,得到检测结果。
与现有技术相比,本发明所达到的有益效果为:
1、本发明所述的异常流量检测方法是采用无监督学习的方法,通过学习网络流量的表征,并基于该表征进行聚类以达到为流量数据标记伪标签的目的,采用带伪标签数据训练分类器,实现异常流量的检测,相比于直接采用无监督学习的方法训练的检测器更加简洁,能够满足大流量下的实时检测需求。
2、本发明所述的迭代聚类方法能够对一次聚类无法满足要求的缺陷进行改善,引入评价函数S实现迭代聚类。
3、本发明所述的分类器在训练和推断期间,输入的数据既包含预处理后的原始属性信息,也包含采用编码器提取的表征信息,提高了数据的利用率。
附图说明
图1为本发明的总流程图;
图2为本发明的自编码网络结构图;
图3为本发明方法的迭代DBSCAN流程图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
本发明提供一种迭代聚类的异常流量检测方案,如图1所示,包括以下步骤:
步骤S1、对网络流量历史数据进行抽样并预处理,获得大量无标签的网络流量样本数据。
步骤S11、采用分层抽样的方式,按天或者小时进行抽样,然后按照以下两种方法处理:
①相同SessionID提取流量属性数据,一次会话会有多个流量产生,多个流量可统计出此次会话期间的流量条数、流间平均时间、流量正反向数据包的大小平均值、标准差、最大值、最小值和中位数等扩展属性。
②采用滑动窗口按时间段提取流量属性数据,是统计一段时间内的流量属性数据,如流量条数、流间平均时间、流量正反向数据包的大小平均值、标准差、最大值、最小值和中位数等属性。
由此得到网络流量样本数据。
步骤S12、对网络流量样本数据进行清洗,去除请求日期、时间戳、报文内容三个不必要的属性,将标识、流量类型、访问协议、请求类型属性及攻击类型进行one-hot编码,得到无标签的网络流量样本数据。
步骤S2、采用预处理后的样本数据训练自编码网络,采用训练得到的模型对网络流量样本数据进行降维。
步骤S21、如图2所示,设计一个自编码结构网络,用于训练降维模型。自编码网络由编码器和解码器2个部分组成;编码器由3层带激活函数的全连接网络组成(激活函数为Tanh),编码器的任务是将高维的网络流量样本数据Xoriginal以低维的形式表示,即中间特征表征Vmid;解码器由3层全连接网络组成,解码器的任务是将流量的低维特征表征Vmid还原为与输入相同维度的数据。编码器的输出是解码器的输入数据Xdecoded。编码器与解码器中的全连接网络可采用一维卷积实现。该网络训练阶段采用的损失函数公式如下:
loss=(Xdecoded-Xoriginal)2+λTw
其中,Xdecoded表示解码器输出,Xoriginal表示原始流量样本数据,λ是正则项的系数,
Figure BDA0003006189210000051
是权重正则项,约束权重不要太大,L表示层数,I和J表示权重W的索引。
本实施例中,自编码网络的训练可以看作是对数据集的分布进行学习,自编码模块是学习数据分布的低维流形,得到数据的低维表征,实现降维的目的,而解码器是学习数据的重构,采用低维表征重构出原始数据,将原始数据与重构数据的差别作为一种损失,采用梯度下降算法优化网络参数,通过迭代训练,可以得到训练好的网络网络模型。
步骤S22、采用预处理后的流量数据输入自编码网络,采用梯度下降算法优化训练自编码网络,得到自编码降维模型。
步骤S23、采用自编码降维模型对预处理后的流量数据进行降维,得到网络流量数据的低维特征。
步骤S3、采用迭代DBSCAN聚类方法对降维后的流量样本数据进行聚类,结合现有异常流量数据的特点,对聚类后的流量样本数据添加伪标签。
如图3所示,本实施例的迭代DBSCAN流程图,其过程如下:
步骤S31、将步骤S23中得到的低维度数据记为簇A,聚类后得到两个簇,记为B、C。
步骤S32、采用评价函数S对簇A进行评价,得到评价结果SA。评价函数S可定义为
Figure BDA0003006189210000061
其中,Count(·)表示计数函数,r和R代表聚类半径。当计算簇A的SA时,R的值等于簇A的半径,
Figure BDA0003006189210000062
步骤S33、采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C等。
步骤S34、采用评价函数S对簇B、C等进行评价,得到评价结果SB、SC等。
步骤S35、若SA小于SB、SC等,转至步骤S36;若SA大于SB,将簇B记为簇A,转至步骤S33,对该簇进行聚类;若SA大于SC等,将簇C记为簇A,转至步骤S33,对该簇进行聚类。
步骤S36、将得到的所有簇记为A1、A2、…、An,历史数据中带标签的网络流量样本数据中标签为异常的数据点记为N1、N2、…、Nn,dis(Ax,Ny)为簇Ax中所有点到点Ny的平均距离。取dis(A1,N1)、dis(A1,N2)、…、dis(A1,Ni)中值最小的10组数据求平均值,小于一定阈值则给簇A1赋予伪标签异常,否则赋予伪标签正常。A2、…、An赋予伪标签方式同A1
本实施例中,
Figure BDA0003006189210000063
上述标签为异常的数据点来源于历史数据中极少数的带有异常标签的数据,其作为训练数据集之外的先验知识,为伪标签的赋值提供锚点。
步骤S4、采用伪标签与流量样本数据训练分类器;对网络流量实时数据进行预处理;采用训练好的分类器对预处理后的网络流量实时数据进行分类,检测出异常流量。
本实施例中,步骤S4中训练分类器具体包括:
步骤S41、将预处理后的样本输入编码器,输出的特征作为样本的扩展属性,连同带伪标签的数据构成新的样本SN
步骤S42、采用监督学习的方法,在样本SN数据集上训练分类器,分类器可选择多层感知机模型,网络层数设为3,神经元的个数与样本的特征个数相同,损失函数采用交叉熵损失,并带有权重正则项,优化方法为梯度下降法。经过一定时间的训练,得到异常流量检测模型;
基于以上两个步骤,可以得到训练好的,能够用于异常流量检测的模型。
步骤S43、对实时数据进行预处理,预处理方法采用步骤S11提到的预处理方法,并将处理好的数据输入编码器得到特征,与原始属性数据组合后,输入步骤S42得到的异常流量检测模型,检测出实时流量数据中的异常数据。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变形,这些改进和变形也应视为本发明的保护范围。

Claims (6)

1.一种迭代聚类的网络流量异常检测方法,其特征在于,包括以下步骤:
对网络流量历史数据进行抽样,再进行预处理,得到网络流量样本数据;
构建自编码降维模型,对网络流量样本数据进行降维,得到降维后的流量样本数据;
将所述降维后的流量样本数据,记为簇A,聚类后得到两个簇,记为B、C;
采用评价函数S对簇A进行评价,得到评价结果SA
采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C;
采用评价函数S对簇B、C进行评价,得到评价结果SB、SC
若SA小于SB、SC,则将得到的所有簇记为A1、A2、…、An,历史数据中带标签的网络流量样本数据中标签为异常的数据点记为N1、N2、…、Nm,dis(Ax,Ny)为簇Ax中所有点到点Ny的平均距离,取dis(A1,N1)、dis(A1,N2)、...、dis(A1,Ni)中值最小的10组数据求平均值,小于一定阈值则给簇A1赋予伪标签异常,否则赋予伪标签正,A2、…、An赋予伪标签方式同A1
若SA大于SB,将簇B记为簇A,则再次采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C;
若SA大于SC,将簇C记为簇A,则再次采用DBSCAN聚类方法对簇A进行聚类,得到簇B、C;
采用带伪标签的流量样本数据训练分类器,采用训练好的分类器对预处理后的网络流量实时数据进行分类,检测出异常的网络流量。
2.根据权利要求1所述的一种迭代聚类的网络流量异常检测方法,其特征在于,所述对网络流量历史数据进行抽样,再进行预处理,得到网络流量样本数据,具体为:
采用分层抽样的方式,对网络流量历史数据进行抽样按天或者小时进行抽样,得到网络流量抽样数据;
对网络流量抽样数据进行清洗,去除请求日期属性、时间戳属性和报文内容属性,将标识属性、流量类型属性、访问协议属性、请求类型属性以及攻击类型进行one-hot编码,得到网络流量样本数据。
3.根据权利要求2所述的一种迭代聚类的网络流量异常检测方法,其特征在于,所述构建自编码降维模型,对网络流量样本数据进行降维,得到降维后的流量样本数据,具体为:
采用预处理后的流量数据训练自编码网络,得到自编码降维模型,用于对网络流量数据进行降维;
使用自编码降维模型对训练数据进行降维操作,得到网络流量低维样本数据。
4.根据权利要求3所述的一种迭代聚类的网络流量异常检测方法,其特征在于,所述步骤自编码网络由编码器和解码器2个部分组成,所述编码器由3层带激活函数的全连接网络组成,所述激活函数为Tanh,编码器用于将高维的网络流量样本数据以低维的形式表示;所述解码器由3层全连接网络组成,解码器用于将低维形式的数据重新还原成与输入相同的维度,编码器的输出数据是解码器的输入数据,自编码网络训练阶段采用的损失函数公式如下:
loss=(decoded-original_data)2+λTw
其中,decoded表示解码器输出,original_data表示原始流量样本数据,λ是正则项的系数,
Figure FDA0003463279110000021
是权重正则项,防止模型过拟合,L表示层数,I和J表示权重W的索引。
5.根据权利要求1所述的一种迭代聚类的网络流量异常检测方法,其特征在于,所述评价函数S为:
Figure FDA0003463279110000022
其中,Count(·)表示计数函数,r和R代表聚类半径,且当计算簇A的SA时,R的值等于簇A的半径,r=αR,其中,1/2<α<1。
6.根据权利要求4所述的一种迭代聚类的网络流量异常检测方法,其特征在于,所述采用带伪标签的流量样本数据训练分类器,采用训练好的分类器对预处理后的网络流量实时数据进行分类,检测出异常的网络流量,具体为:
将网络流量实时数据样本输入编码器,由编码器输出的数据特征作为网络流量实时数据样本的扩展属性,连同带伪标签的网络流量数据构成新的样本SN
采用监督学习的方法,在样本SN数据集上训练一个分类器,分类器选择多层感知机模型,网络层数设为3,神经元的个数与样本的数据特征个数相同,损失函数采用交叉熵损失,并带有权重正则项,优化算法选择随机梯度下降算法,并采取早停策略判断模型参数是否达到最优,模型训练停止后,得到最优检测模型;
对网络流量实时数据进行清洗,清洗方式与训练集相同,并将清洗后的网络流量实时数据输入编码器,输出的数据特征与原始特征组合后,输入检测模型,得到检测结果。
CN202110362634.1A 2021-04-02 2021-04-02 一种迭代聚类的网络流量异常检测方法 Active CN113242207B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110362634.1A CN113242207B (zh) 2021-04-02 2021-04-02 一种迭代聚类的网络流量异常检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110362634.1A CN113242207B (zh) 2021-04-02 2021-04-02 一种迭代聚类的网络流量异常检测方法

Publications (2)

Publication Number Publication Date
CN113242207A CN113242207A (zh) 2021-08-10
CN113242207B true CN113242207B (zh) 2022-06-17

Family

ID=77131005

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110362634.1A Active CN113242207B (zh) 2021-04-02 2021-04-02 一种迭代聚类的网络流量异常检测方法

Country Status (1)

Country Link
CN (1) CN113242207B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113765921B (zh) * 2021-09-08 2023-04-07 沈阳理工大学 一种面向工业物联网的异常流量分级检测方法
CN114390002A (zh) * 2021-12-15 2022-04-22 南京理工大学 基于分组条件熵的网络流量多模块聚类异常检测方法
CN114495498B (zh) * 2022-01-20 2023-01-10 青岛海信网络科技股份有限公司 一种交通数据分布有效性判别方法及装置
CN114584350B (zh) * 2022-02-17 2024-03-29 上海师范大学 基于流形的网络数据包特征的降维及聚类的攻击识别方法
CN114860922B (zh) * 2022-03-25 2023-04-18 南京脑科医院 心理测评量表的分类模型获取方法、筛查方法及系统
CN116055413B (zh) * 2023-03-07 2023-08-15 云南省交通规划设计研究院有限公司 一种基于云边协同的隧道网络异常识别方法
CN116244612B (zh) * 2023-05-12 2023-08-29 国网江苏省电力有限公司信息通信分公司 一种基于自学习参数度量的http流量聚类方法及装置
CN117527446B (zh) * 2024-01-03 2024-03-12 上海人工智能网络系统工程技术研究中心有限公司 一种网络异常流量精细化检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109218223A (zh) * 2018-08-08 2019-01-15 西安交通大学 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN110365603A (zh) * 2019-06-28 2019-10-22 西安交通大学 一种基于5g网络能力开放的自适应网络流量分类方法
CN111078911A (zh) * 2019-12-13 2020-04-28 宁波大学 一种基于自编码器的无监督哈希方法
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111211994B (zh) * 2019-11-28 2022-08-19 南京邮电大学 一种基于SOM与K-means融合算法的网络流量分类方法
CN111107102A (zh) * 2019-12-31 2020-05-05 上海海事大学 基于大数据实时网络流量异常检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109218223A (zh) * 2018-08-08 2019-01-15 西安交通大学 一种基于主动学习的鲁棒性网络流量分类方法及系统
CN110365603A (zh) * 2019-06-28 2019-10-22 西安交通大学 一种基于5g网络能力开放的自适应网络流量分类方法
CN111078911A (zh) * 2019-12-13 2020-04-28 宁波大学 一种基于自编码器的无监督哈希方法
CN111914873A (zh) * 2020-06-05 2020-11-10 华南理工大学 一种两阶段云服务器无监督异常预测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Clustering Noisy Trajectories via Robust Deep Attention Auto-Encoders;Rui Zhang等;《2019 20th IEEE International Conference on Mobile Data Management (MDM)》;20190613;全文 *
基于深度学习和半监督聚类的入侵检测技术研究;郭旭东;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20200215;全文 *
基于深度学习的复杂时间序列分析和预测;蔡木庆;《中国优秀博硕士学位论文全文数据库(硕士)基础科学辑》;20210215;全文 *

Also Published As

Publication number Publication date
CN113242207A (zh) 2021-08-10

Similar Documents

Publication Publication Date Title
CN113242207B (zh) 一种迭代聚类的网络流量异常检测方法
Farahnakian et al. A deep auto-encoder based approach for intrusion detection system
CN115606162A (zh) 异常流量检测方法和系统、及计算机存储介质
CN111914873A (zh) 一种两阶段云服务器无监督异常预测方法
CN108737406A (zh) 一种异常流量数据的检测方法及系统
CN111314331A (zh) 一种基于条件变分自编码器的未知网络攻击检测方法
CN111556016B (zh) 一种基于自动编码器的网络流量异常行为识别方法
CN109446804B (zh) 一种基于多尺度特征连接卷积神经网络的入侵检测方法
CN111859010B (zh) 一种基于深度互信息最大化的半监督音频事件识别方法
CN112948155B (zh) 模型训练方法、状态预测方法、装置、设备及存储介质
CN113918367A (zh) 一种基于注意力机制的大规模系统日志异常检测方法
CN113554094A (zh) 网络异常检测方法、装置、电子设备及存储介质
CN114757432A (zh) 基于流程日志和多任务学习的未来执行活动及时间预测方法及系统
CN113556319A (zh) 物联网下基于长短期记忆自编码分类器的入侵检测方法
CN113269228A (zh) 一种图网络分类模型的训练方法、装置、系统及电子设备
CN115795351A (zh) 一种基于残差网络和2d特征表示的电梯大数据风险预警方法
Wadekar et al. Hybrid CAE-VAE for unsupervised anomaly detection in log file systems
Yue et al. Hybrid fuzzy integrated convolutional neural network (HFICNN) for similarity feature recognition problem in abnormal netflow detection
CN110650124A (zh) 一种基于多层回声状态网络的网络流量异常检测方法
Bhasin et al. Feature selection for steganalysis based on modified Stochastic Diffusion Search using Fisher score
CN116545679A (zh) 一种工业情境安全基础框架及网络攻击行为特征分析方法
CN116633589A (zh) 社交网络中恶意账户检测方法、设备及存储介质
CN113469247B (zh) 网络资产异常检测方法
Wang et al. An efficient intrusion detection model combined bidirectional gated recurrent units with attention mechanism
Pavuluri et al. A Deep Learning Approach to Video Anomaly Detection using Convolutional Autoencoders

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant