CN115865459B - 一种基于二次特征提取的网络流量异常检测方法及系统 - Google Patents

一种基于二次特征提取的网络流量异常检测方法及系统 Download PDF

Info

Publication number
CN115865459B
CN115865459B CN202211492575.0A CN202211492575A CN115865459B CN 115865459 B CN115865459 B CN 115865459B CN 202211492575 A CN202211492575 A CN 202211492575A CN 115865459 B CN115865459 B CN 115865459B
Authority
CN
China
Prior art keywords
network
network traffic
data
traffic data
abnormal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211492575.0A
Other languages
English (en)
Other versions
CN115865459A (zh
Inventor
潘成胜
李志祥
杨雯升
蔡凌云
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202211492575.0A priority Critical patent/CN115865459B/zh
Publication of CN115865459A publication Critical patent/CN115865459A/zh
Application granted granted Critical
Publication of CN115865459B publication Critical patent/CN115865459B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了一种基于二次特征提取的网络流量异常检测方法及系统,通过使用双向长短期记忆网络学习网络流量数据之间的特征关系,完成网络流量数据的一次特征提取,并在此基础上,定义一种基于注意力机制的特征重要性权重评估规则,依据特征重要性大小对双向长短期记忆网络生成的特征向量给予相应的权重,完成数据的二次特征提取。最后,提出一种“先总分后细分”的设计思想构建网络流量数据检测模型,实现多分类网络流量数据的异常检测。本发明有效提高了网络流量数据异常检测的准确率、精确率、召回率和F1值,并且该模型并且具有良好的泛化能力。

Description

一种基于二次特征提取的网络流量异常检测方法及系统
技术领域
本发明涉及网络流量异常检测领域,具体涉及一种基于二次特征提取的网络流量异常检测方法,还涉及一种基于二次特征提取的网络流量异常检测系统。
背景技术
随着信息技术的发展,互联网已经深刻渗透到人们的工作和生活当中,然而伴随着互联网快速发展的同时,网络数据量的不断激增,网络环境的日益复杂,也导致网络安全问题的日渐突出。此外,在军事领域中,由于战场环境复杂、作战单元众多,以及持续有效的供给等实际需求,如果不能及时准确地检测出网络异常,将会造成不可估计的损失。因此,如何及时检测出网络异常,实时保障网络的正常运行,对于维护网络安全具有重要意义。维护网络安全是一个攻防博弈的过程,网络流量异常检测作为保障网络安全的先决条件,通过分析流量数据检测网络中的突发异常事件,检测到异常后做出应对措施,对于发现潜在网络威胁、降低网络攻击、减少网络损失提供有效的防护和帮助。
近年来,传统的机器学习算法已经广泛应用到网络流量异常检测中,如朴素贝叶斯、随机森林、支持向量机和K近邻算法。这些方法虽然在识别的准确率上有了一定的提升,但是统一存在表达复杂函数的能力有限、泛化能力较弱的问题。在面对复杂的网络环境和数据的爆炸性増长的情况下,模型的性能将会大大降低,因此不能较好地处理复杂分类问题。目前,由于深度学习优异的表示能力引起了人们的广泛关注,研究人员将深度学习的算法引入到异常检测领域。基于深度学习的算法主要有卷积神经网络(ConvolutionalNeural Networks,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM)、注意力机制等。深度学习的神经网络层数很多,宽度很广,可以映射到任意函数,因此能够解决复杂的检测和分类问题;深度学习高度依赖数据,数据量越大,它的表现就越好。所以在如今数据量激增的网络环境下,使用深度学习的方法进行网络流量异常检测之取得了非常不错的效果。
虽然深度学习的算法在网络流量异常检测领域取得了不错的效果,但是仍然存在以下不足:使用网络流量数据作为RNN或者LSTM的输入,会导致模型无法编码从后到前的信息。当在更细粒度的分类时,不能更好地获取流量前后之间特征的关系;2)进行网络流量异常检测时,对数据的特征提取是至关重要的,研究人员还未考虑到对网络流量数据进行二次特征提取,对网络流量的关键特征给予更高的关注度,获得更加重要的流量特征;3)目前大多数数据集大多存在样本分布不均衡的问题,即正常样本的数量多,异常样本的数量少,使用这样的数据集会影响检测效率。
发明内容
本发明目的:在于提供一种基于二次特征提取的网络流量异常检测方法及系统,通过使用双向长短期记忆网络学习网络流量数据之间的特征关系,完成网络流量数据的一次特征提取,并在此基础上,定义一种基于注意力机制的特征重要性权重评估规则,依据特征重要性大小对双向长短期记忆网络生成的特征向量给予相应的权重,完成数据的二次特征提取。最后,提出一种“先总分后细分”的设计思想构建网络流量数据检测模型,实现多分类网络流量数据的异常检测。本发明有效提高了网络流量数据异常检测的准确率、精确率、召回率和F1值,并且该模型并且具有良好的泛化能力。
为实现以上功能,本发明设计一种基于二次特征提取的网络流量异常检测方法,执行以下步骤S1-步骤S6,构建并训练异常网络流量数据检测模型,并应用训练好的异常网络流量数据检测模型,完成各待检测网络流量数据的检测:
执行如下步骤S1-步骤S4,构建异常网络流量数据检测待训练模型:
步骤S1:分别采集各种类的网络流量数据样本,包括正常网络状态下的正常网络流量数据样本和各预设类型异常网络状态下的异常网络流量数据样本;
步骤S2:分别对各网络流量数据样本进行预处理,预处理包括数据清洗、数值化、归一化,以经过预处理的各网络流量数据样本构建网络流量数据集;
步骤S3:构建双向长短期记忆网络-注意力机制二次特征提取模型,以网络流量数据集中的各网络流量数据作为双向长短期记忆网络的输入,基于双向长短期记忆网络对各网络流量数据进行特征提取,获得各网络流量数据的特征向量,以各种类的网络流量数据的特征向量所组成的总特征向量作为双向长短期记忆网络的输出;其中,针对双向长短期记忆网络的每一层加入批归一化算法,以使双向长短期记忆网络保持输入的网络流量数据分布的一致性;
基于注意力机制,计算各网络流量数据与总特征向量之间的相关性,即针对总特征向量中的各特征向量赋予相应的权重,通过计算总特征向量中的各特征向量的加权和,获得各网络流量数据对应的重要特征;
步骤S4:基于softmax分类器函数,对步骤S3所获得的重要特征进行二层分类,第一层分类为二分类,将各网络流量数据中的正常网络流量数据、异常网络流量数据分开;第二层分类为多分类,将各异常网络流量数据按照其所属的各预设类型进行分类;
步骤S5:基于步骤S1-步骤S4所构建的异常网络流量数据检测待训练模型,以各网络流量数据样本为输入,以各网络流量数据样本所对应的正常或异常分类结果,以及各异常网络流量数据样本所对应的预设类型为输出,对异常网络流量数据检测待训练模型进行训练,获得训练好的异常网络流量数据检测模型;
步骤S6:应用异常网络流量数据检测模型,针对实时输入的各待检测网络流量数据,完成各待检测网络流量数据的异常检测,针对待检测网络流量数据中的异常网络流量数据,根据预设类型对其进行分类。
作为本发明的一种优选技术方案:步骤S3的具体步骤如下:
步骤S31:将经过步骤S2预处理的网络流量数据集X={x1,x2,…,xt,…,xn}输入双向长短期记忆网络,其中xt为网络流量数据集X中第t个网络流量数据,n为网络流量数据总数,双向长短期记忆网络通过更新门信息对各网络流量数据进行特征提取,具体如下式:
Figure BDA0003964039180000031
Figure BDA0003964039180000032
Figure BDA0003964039180000033
双向长短期记忆网络由一个前向LSTM层和一个后向LSTM层组成,两个LSTM层分别为从左到右处理序列、从右到左处理序列,式中,
Figure BDA0003964039180000034
分别为输入xt所对应的前向LSTM层、后向LSTM层的输出,/>
Figure BDA0003964039180000035
分别代表网络隐藏层的参数,/>
Figure BDA0003964039180000036
分别为前向LSTM层、后向LSTM层的偏置值,W U和W V分别是对应于前向和后向矩单位状态的权重系数,Ct为双向长短期记忆网络输出的特征向量;
步骤S32:针对双向长短期记忆网络的每一层加入批归一化算法,以使双向长短期记忆网络保持输入的网络流量数据分布的一致性,具体如下式:
Figure BDA0003964039180000041
Figure BDA0003964039180000042
Figure BDA0003964039180000043
yn=μx′n
式中,xn为归一化前的值,xn∈{x1,x2,…,xz},z为归一化前的值的总数,x′n为归一化后的值,μ和ρ为学习的参数,γρ为均值,
Figure BDA0003964039180000044
为方差,τ为预设数值的正数,以避免除数为0;
步骤S33:计算网络流量数据xn与特征向量Ct之间的相关性,采用softmax分类器函数对相关性进行归一化,获得特征向量Ct与网络流量数据之间的权重ot,具体如下式:
Figure BDA0003964039180000045
步骤S34:通过计算总特征向量中的各特征向量的加权和,获得网络流量数据的重要特征M,具体如下式:
M=∑otCt
作为本发明的一种优选技术方案:步骤S4中基于softmax分类器函数,对步骤S3所获得的重要特征进行二层分类,二层分类计算过程如下式:
y=softmax(KhM+qh)
式中,M为重要特征,Kh、qh为可训练的参数,y为二层分类的分类结果。
本发明还设计一种基于二次特征提取的网络流量异常检测系统,包括计算模块、存储模块、输入模块、输出模块,以实现所述的一种基于二次特征提取的网络流量异常检测方法;
其中,输入模块用于接收各种类的网络流量数据,输出模块用于显示异常网络流量数据检测模型输出的检测结果;存储模块用于存储各种类的网络流量数据,以及异常网络流量数据所对应的各预设类型;
计算模块包括数据获取模块、数据预处理模块、训练模块、异常检测模块、恢复备份模块,所述数据获取模块用于调取输入模块所接收的各网络流量数据,数据预处理模块对各网络流量数据进行预处理,训练模块用于构建并训练异常网络流量数据检测模型,异常检测模块用于应用异常网络流量数据检测模型,对实时的网络流量数据进行异常检测,并形成检测报告,恢复备份模块用于对网络流量数据进行统一恢复和备份。
有益效果:相对于现有技术,本发明的优点包括:
1、本发明构建了一种基于双向长短期记忆网络(BiLSTM)的特征提取模型。使用双向长短期记忆网络模型来提取网络流量数据特征,并且在模型中加入了批量归一化(BatchNormalization,BN)算法,在保持数据分布一致性的同时提高了网络收敛的速度。
2、本发明设计了一种基于注意力机制的特征重要性权重评估规则。考虑到直接使用双向长短期记忆网络生成的特征向量进行流量异常检测,不能给予数据的重要特征更高的关注度,检测的效率会大大降低。因此,本发明通过使用注意力机制,并且依据特征重要性大小对双向长短期记忆网络生成的特征向量给予相应的权重,完成数据的二次特征提取,大大提高了网络流量异常检测的准确率。
3、本发明提出了一种面向不均衡数据的网络流量异常检测方法。传统的过采样和欠采样方法在处理数据分布不均衡问题上,存在少数类样本的过拟合和多数类样本的重要信息丢失等问题。因此,本发明提出一种“先总分后细分”的设计思想构建网络流量异常检测模型,通过先将异常网络流量作为一个整体,优先检测出正常网络流量,再进一步细分检测出剩余的不同异常类型的网络流量,从而实现多分类网络流量的异常检测,解决了数据集分布不均衡而导致对小样本流量数据检测效率低的问题。
附图说明
图1是根据本发明实施例提供的二次特征提取的网络流量异常检测方法的流程图;
图2是根据本发明实施例提供的双向长短期记忆网络结构图;
图3是面向不均衡网络流量数据的网络流量异常检测框架图。
图4a是多分类场景下不同模型的准确率指标比较图;
图4b是多分类场景下不同模型的精确率指标比较图;
图4c是多分类场景下不同模型的召回率指标比较图;
图4d是多分类场景下不同模型的F1值指标比较图;
图5a是有无使用面向不均衡数据的二次特征提取的网络流量异常检测方法在准确率指标比较图;
图5b是有无使用面向不均衡数据的二次特征提取的网络流量异常检测方法在召回率指标比较图;
图5c是有无使用面向不均衡数据的二次特征提取的网络流量异常检测方法在F1值指标比较图;
图6是面向网络系统的异常网络流量数据检测模型图;
图7是本发明实施例提供的基于二次特征提取的网络流量异常检测系统示意图;
图8是本发明实施例提供的计算模块示意图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参照图1,本发明实施例提供的一种基于二次特征提取的网络流量异常检测方法,执行以下步骤S1-步骤S6,构建并训练异常网络流量数据检测模型,并应用训练好的异常网络流量数据检测模型,完成各待检测网络流量数据的检测:
执行如下步骤S1-步骤S4,构建异常网络流量数据检测待训练模型:
步骤S1:分别采集各种类的网络流量数据样本,包括正常网络状态下的正常网络流量数据样本和各预设类型异常网络状态下的异常网络流量数据样本;
步骤S2:分别对各网络流量数据样本进行预处理,预处理包括数据清洗、数值化、归一化,以经过预处理的各网络流量数据样本构建网络流量数据集;
网络流量数据集中各预设类型的异常网络流量数据样本见表1:
表1
Figure BDA0003964039180000061
Figure BDA0003964039180000071
表1中数据标签0代表正常网络流量数据样本、数据标签1-11分别代表各预设类型的异常网络流量数据样本。
所述预处理所包括的数据清洗、数值化、归一化具体方法如下:
数据清洗:由于网络流量数据样本是从真实的网络环境中抓取的,所以存在无效网络流量数据样本的可能性非常大。本发明删除无效网络流量数据样本,以提高实验结果的准确性。另外从原始网络流量数据样本中提取的特征有80多个,其中包括了IP地址、协议、端口号等特征,但这些特征并不是所需要的,所以发明将这些不需要的特征字段删除,最终保留了流持续时间、在正向上包的数量、在反向上包的数量、正向数据包的总大小、包在正向上的最大大小等75个网络流量数据特征。
数值化:采用one-hot方法将字符型特征转化为数值型特征。
归一化:即对数值进行缩放,使其落入一个预设区间,使不同的特征都具有相同的量级,便后续的计算处理。本发明利用max-min归一化方法将网络流量数据样本线性化在[0,1]区间上,具体公式如下:
Figure BDA0003964039180000072
其中,x′是归一化处理后的网络流量数据样本特征值,x是归一化处理前的网络流量数据样本特征值,xmax是网络流量数据样本特征值的最大值,xmin是网络流量数据样本特征值的最小值。
步骤S3:构建双向长短期记忆网络-注意力机制二次特征提取模型(BiLSTM-Attention),以网络流量数据集中的各网络流量数据作为双向长短期记忆网络(BiLSTM)的输入,基于双向长短期记忆网络对各网络流量数据进行特征提取,获得各网络流量数据的特征向量,以各种类的网络流量数据的特征向量所组成的总特征向量作为双向长短期记忆网络的输出;
其中双向长短期记忆网络是由一个前向长短期记忆网络(LSTM)和一个后向长短期记忆网络组合而成的,可以对网络流量数据进行高级抽象和非线性变换,分析双向数据信息,提供更细粒度的计算,使用双向长短期记忆网络可以获得网络流量数据之间的特征关系,提取的特征向量更加精确。
针对双向长短期记忆网络的每一层加入批归一化算法(Batch Normalization,BN),以使双向长短期记忆网络保持输入的网络流量数据分布的一致性;
在训练的过程中,前一层训练参数的更新将导致后一层输入网络流量数据分布的变化。以双向长短期记忆网络第二层为例:网络的第二层输入,是由第一层的参数和输入计算得到的,而第一层的参数在整个训练过程中一直在变化,因此必然会引起后面每一层输入网络流量数据分布的改变。所以,本发明在双向长短期记忆网络的每一层加入批归一化算法,以使双向长短期记忆网络保持输入的网络流量数据分布的一致性;
基于注意力机制,计算各网络流量数据与总特征向量之间的相关性,即针对总特征向量中的各特征向量赋予相应的权重,通过计算总特征向量中的各特征向量的加权和,获得各网络流量数据对应的重要特征;
本发明设计了一种基于注意力机制的特征重要性权重评估规则。考虑到直接使用双向长短期记忆网络生成的特征向量进行网络流量数据异常检测,不能给予网络流量数据的一些重要特征更高的关注度,检测的效率会大大降低。计算各网络流量数据与总特征向量之间的相关性,得到每种网络流量数据的重要特征(相关性权重系数越高,说明该特征越重要),将这些相关性权重系数高的特征相加就可以得到每种网络流量数据的特征。在下面的异常检测中,就不会产生因为网络流量数据之间的特征相似性较高而产生误报的结果。
步骤S3的具体步骤如下:
步骤S31:将经过步骤S2预处理的网络流量数据集X={x1,x2,…,xt,…,xn}输入双向长短期记忆网络,其中xt为网络流量数据集X中第t个网络流量数据,n为网络流量数据总数,双向长短期记忆网络通过更新门信息对各网络流量数据进行特征提取,具体如下式:
Figure BDA0003964039180000081
Figure BDA0003964039180000082
Figure BDA0003964039180000083
双向长短期记忆网络结构图参照图2,双向长短期记忆网络由一个前向LSTM层和一个后向LSTM层组成,两个LSTM层分别为从左到右处理序列、从右到左处理序列,式中,
Figure BDA0003964039180000084
分别为输入xt所对应的前向LSTM层、后向LSTM层的输出,/>
Figure BDA0003964039180000091
分别代表网络隐藏层的参数,/>
Figure BDA0003964039180000092
分别为前向LSTM层、后向LSTM层的偏置值,WU和WV分别是对应于前向和后向矩单位状态的权重系数,Ct为双向长短期记忆网络输出的特征向量;
步骤S32:由于在使用双向长短期记忆网络分析网络流量数据后,网络中的网络流量数据分布会发生变化。为了解决此问题,本发明在使用双向长短期记忆网络的基础上引入了批归一化(BN)算法进行一次特征提取。将前一层的输入网络流量数据经过激活函数的非线性变换后进行归一化,保证网络的可训练性,并使网络能够持续保持输入网络流量数据分布的一致性,从而减少变化网络中的节点分布。BN算法可以加快网络的收敛速度,保持网络的表示能力。
针对双向长短期记忆网络的每一层加入批归一化算法,以使双向长短期记忆网络保持输入的网络流量数据分布的一致性,具体如下式:
Figure BDA0003964039180000093
Figure BDA0003964039180000094
Figure BDA0003964039180000095
yn=μx′n
式中,xn为归一化前的值,xn∈{x1,x2,…,xz},z为归一化前的值的总数,x′n为归一化后的值,μ和ρ为学习的参数,γρ为均值,
Figure BDA0003964039180000096
为方差,τ为预设数值的正数,以避免除数为0。
由于每种网络流量数据之间的某些特征可能会相同,例如DoS Hulk和DoSSlowhttp这两种网络流量数据都有流持续时间特征,但是此特征对检测出该种网络流量数据的帮助却是不一样的,如果模型不能对这些特征区别对待,那么模型就会产生误报,检测的准确率就会降低,影响异常检测效果。因此,本发明提出基于注意力机制的特征重要性权重评估规则实现数据的二次特征提取,通过对网络流量数据的特征给予不同的权重值,可以使模型更加关注网络流量数据的重要特征,对网络流量数据的次要特征给予较低的关注度,从而在异常检测时能够提高检测效率。具体方法如步骤S33-步骤S34。
步骤S33:计算网络流量数据xn与特征向量Ct之间的相关性,采用softmax分类器函数对相关性进行归一化,获得特征向量Ct与网络流量数据之间的权重ot,具体如下式:
Figure BDA0003964039180000101
步骤S34:通过计算总特征向量中的各特征向量的加权和,获得网络流量数据的重要特征M,具体如下式:
M=∑otCt
无论是在民用还是军事领域中,网络中异常网络流量数据的占比都是较小的。但是研究人员在进行网络流量数据异常检测时,如果不对这些异常网络流量数据进行处理,那么模型就会出现对大样本的检测效率高而对小样本检测效率低的情况。针对异常网络流量数据存在数据不均衡的问题,本发明提出了一种“先总分后细分”的设计思想构建异常网络流量数据检测模型。通过先将各异常网络流量数据作为一个整体,优先检测出正常网络流量数据,再进一步细分检测出剩余的异常网络流量数据分别所属的各预设类型,从而实现多分类网络流量数据的异常检测。这样可以使得数据集处于一个相对平衡的状态,不会对异常检测效果产生较大的影响。具体方法如步骤S4。
步骤S4:基于softmax分类器函数,对步骤S3所获得的重要特征进行二层分类,第一层分类为二分类,将各网络流量数据中的正常网络流量数据、异常网络流量数据分开;第二层分类为多分类,将各异常网络流量数据按照其所属的各预设类型进行分类;
参照图3,该步骤提出一种“先总分后细分”的设计思想构建异常网络流量数据检测模型,通过先将异常网络流量数据作为一个整体,优先检测出正常网络流量数据,再进一步细分检测出剩余的各异常网络流量数据分别所属的各预设类型,从而实现多分类网络流量数据的异常检测。通过不断训练,完成异常网络流量数据检测模型的建立。
步骤S4中基于softmax分类器函数,对步骤S3所获得的重要特征进行二层分类,二层分类计算过程如下式:
y=softmax(KhM+qh)
式中,M为重要特征,Kh、qh为可训练的参数,y为二层分类的分类结果。
步骤S5:基于步骤S1-步骤S4所构建的异常网络流量数据检测待训练模型,以各网络流量数据样本为输入,以各网络流量数据样本所对应的正常或异常分类结果,以及各异常网络流量数据样本所对应的预设类型为输出,对异常网络流量数据检测待训练模型进行训练,获得训练好的异常网络流量数据检测模型;
步骤S6:应用异常网络流量数据检测模型,针对实时输入的各待检测网络流量数据,完成各待检测网络流量数据的异常检测,针对待检测网络流量数据中的异常网络流量数据,根据预设类型对其进行分类。
本发明的一个实施例如下:
本实施例采用的数据集是CICIDS2017数据集,该数据集是加拿大网络安全研究所于2017年开源的入侵检测和入侵防御数据集。其中,Benign表示正常网络流量数据样本,其余流量类型表示网络流量数据样本。使用80%数据集作为训练集,20%作为测试集。实施例中涉及的参数如下:使用的单次训练样本数batch-size为256,训练轮数epochs为100,学习率为0.0001,采用的是AdamOptimizer优化器,均方误差来计算训练过程的成本。使用2层BiLSTM层,每层结点为256个,其中每一层都采用了Batch Normalization机制使得每一个训练过程都保持同分布性。
为了验证本发明所提出的方法的有效性,首先进行了消融实验,即对比有无注意力机制对实验带来的影响,然后使用二分类实验检测正常网络流量数据样本和异常网络流量数据样本,最后使用多分类实验检测出异常网络流量数据样本所属的各预设类型。同时设置了通过比较本发明所提出的方法与LSTM、BiLSTM、自适应提升算法(AdaptiveBoosting,Adaboost)、多层感知器(Multilayer Perceptron,MLP)算法作为对比。
(1)有无注意力机制前后对比
为了验证注意力机制对异常网络流量数据检测模型性能的影响,本发明做了有无注意力机制的消融实验,实验结果如表2所示。
表2
Figure BDA0003964039180000111
从表2可以看出,引入注意力机制后,异常网络流量数据检测模型的准确性、精确率、召回率分别提高了1.35%、1.5%和1.21%,说明了注意力机制对整体模型有着重要的贡献。注意力机制可以让异常网络流量数据检测模型更加关注对检测和分类更加重要的特征,例如,对Dos GlodenEye这种异常网络流量数据样本而言,后向数据包长度标准差、流到达时间最小值、前向流到达时间最小值、流到达时间平均值是用来检测的最佳特征,注意力机制给予它们不同的关注度,可以提高检测准确率。
(2)异常检测结果
在二分类实验中,此模型检测出了68493个正常网络流量数据样本,43507个异常网络流量数据样本。接下来进行多分类实验,将这43507个异常网络流量数据样本分类出具体异常类型。具体实验结果如图4a-图4d所示,本发明提出的异常网络流量数据检测模型的准确率达到了99.88%,精确率为99.93%,召回率为99.83%,F1值为0.9988,性能都优于对比模型。由于本发明进行了两次特征提取,可以获得更加重要的分类特征,是使得模型效率高的重要原因。
接下来验证本发明提出的“先总分后细分”的设计思想进行异常网络流量数据检测的方法,和未使用面向不均衡数据的异常网络流量数据检测模型的方法进行对比。图5a-图5c分别表示了10种异常网络流量数据样本在精确率、召回率值、F1值三项指标上的结果。从图中可以看出,本发明所提出的“先总分后细分”的设计思想进行异常网络流量数据检测的方法,在精确率、召回率值、F1值都要优于直接进行“细分”的检测方法。此外从图5a-图5c中还可以看出,本发明提出的异常网络流量数据检测模型检测Dos Slowhttp、DosSlowloris、SSH Patator、FTP Patator、Web Attack、BotNet六种异常网络流量数据样本时,得到的准确率、召回率值、F1值要远高于未使用本发明模型的方法。这是因为这六种异常网络流量数据样本在数据集中的占比十分稀少,如果直接对这些异常网络流量数据样本进行检测就会导致模型对大样本检测效率高而对小样本检测效率低的情况。本发明提出的这种“先总分后细分”的设计思想构建的异常网络流量数据检测模型,通过先将异常网络流量数据样本作为一个整体,优先检测出正常网络流量数据样本,再进一步细分检测出剩余的异常网络流量数据样本分别所属的各预设类型,这样可以使得数据集处于一个相对平衡的状态,模型不会对大样本数据敏感而忽略小样本。
综上,本发明提出的“先总分后细分”的设计思想进行异常网络流量数据检测的方法,先二分类方法将网络流量数据样本检测出正常和异常,再使用多分类的方法细分出异常网络流量数据样本类型,有效避免了异常网络流量数据样本分布不均衡而导致检测效果差的问题。因此,本发明提出的方法对于异常检测具有重要的意义。
(3)验证泛化能力
为了验证泛化能力,本发明使用CICIDS2017中不同的子数据集作为测试数据,分别为P1~P6,并且和LSTM模型进行了比较,如表3所示。
表3
Figure BDA0003964039180000131
从表3中可以看出,本发明模型准确率的均值为99.52%,精确率的均值为99.51%,召回率的均值为98.98%,F1-Score的均值为99.24%,本发明提出的模型的性能比LSTM的性能高得多,因此该模型的泛化能力较好。由于本发明使用BiLSTM模型来提取流量数据之间的特征关系,而不是仅仅学习单个流量本身的特征,利用网络流量数据样本之间的特征关系进行异常网络流量数据检测,可以提高模型的表征能力。表征能力和泛化能力是呈正相关的,模型的表征能力越好,说明提取的特征向量更加精确,在不同的数据子集上进行异常检测时,模型的检测效率会大大提高,泛化能力也因此提升。
综上所述,本发明提供的方法在异常网络流量数据检测方面的有效性和优越性;以及该方法能够有效的处理不均衡的异常网络流量数据样本,训练基于深度学习的异常网络流量数据检测模型,提升检测异常网络流量数据样本的能力,具有实际意义。
图6为本发明提供的面向网络系统的异常网络流量数据检测模型图,本发明通过从网络系统采集到的网络流量数据,使用基于BiLSTM-Attention的网络模型进行二次特征提取,结合提出的面向不均衡数据的异常网络流量数据检测框架,从而使得异常网络流量数据检测能力大幅度提升。
本发明实施例还提供一种基于二次特征提取的网络流量异常检测系统,参照图7,包括计算模块、存储模块、输入模块、输出模块,以实现所述的一种基于二次特征提取的网络流量异常检测方法;
其中,输入模块用于接收各种类的网络流量数据,输出模块用于显示异常网络流量数据检测模型输出的检测结果;存储模块用于存储各种类的网络流量数据,以及异常网络流量数据所对应的各预设类型,另外,存储设备的规格需满足大容量数据的读写要求,保证设备在处理大规模网络异常数据时,能快速有序运转;
计算模块是基于二次特征提取的网络流量异常检测系统的核心,参照图8,计算模块包括数据获取模块、数据预处理模块、训练模块、异常检测模块、恢复备份模块,所述数据获取模块用于调取输入模块所接收的各网络流量数据,数据预处理模块对各网络流量数据进行预处理,进行原始网络流量数据的数据清洗、数值化和归一化,删除无用的特征信息,统一数据类型,使不同的特征都具有相同的量级,便后续的计算处理;训练模块用于构建并训练异常网络流量数据检测模型,异常检测模块用于应用异常网络流量数据检测模型,对实时的网络流量数据进行异常检测,并形成检测报告,恢复备份模块用于对网络流量数据进行统一恢复和备份。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (3)

1.一种基于二次特征提取的网络流量异常检测方法,其特征在于,执行以下步骤S1-步骤S6,构建并训练异常网络流量数据检测模型,并应用训练好的异常网络流量数据检测模型,完成各待检测网络流量数据的检测:
执行如下步骤S1-步骤S4,构建异常网络流量数据检测待训练模型:
步骤S1:分别采集各种类的网络流量数据样本,包括正常网络状态下的正常网络流量数据样本和各预设类型异常网络状态下的异常网络流量数据样本;
步骤S2:分别对各网络流量数据样本进行预处理,预处理包括数据清洗、数值化、归一化,以经过预处理的各网络流量数据样本构建网络流量数据集;
步骤S3:构建双向长短期记忆网络-注意力机制二次特征提取模型,以网络流量数据集中的各网络流量数据作为双向长短期记忆网络的输入,基于双向长短期记忆网络对各网络流量数据进行特征提取,获得各网络流量数据的特征向量,以各种类的网络流量数据的特征向量所组成的总特征向量作为双向长短期记忆网络的输出;其中,针对双向长短期记忆网络的每一层加入批归一化算法,以使双向长短期记忆网络保持输入的网络流量数据分布的一致性;
基于注意力机制,计算各网络流量数据与总特征向量之间的相关性,即针对总特征向量中的各特征向量赋予相应的权重,通过计算总特征向量中的各特征向量的加权和,获得各网络流量数据对应的重要特征;
步骤S3的具体步骤如下:
步骤S31:将经过步骤S2预处理的网络流量数据集
Figure QLYQS_1
输入双向长短期记忆网络,其中x t 为网络流量数据集X中第t个网络流量数据,n为网络流量数据总数,双向长短期记忆网络通过更新门信息对各网络流量数据进行特征提取,具体如下式:
Figure QLYQS_2
双向长短期记忆网络由一个前向LSTM层和一个后向LSTM层组成,两个LSTM层分别为从左到右处理序列、从右到左处理序列,式中,
Figure QLYQS_3
分别为输入x t 所对应的前向LSTM层、后向LSTM层的输出,/>
Figure QLYQS_4
分别代表网络隐藏层的参数,/>
Figure QLYQS_5
分别为前向LSTM层、后向LSTM层的偏置值,/>
Figure QLYQS_6
和/>
Figure QLYQS_7
分别是对应于前向和后向矩单位状态的权重系数,C t 为双向长短期记忆网络输出的特征向量;
步骤S32:针对双向长短期记忆网络的每一层加入批归一化算法,以使双向长短期记忆网络保持输入的网络流量数据分布的一致性,具体如下式:
Figure QLYQS_8
式中,x n 为归一化前的值,
Figure QLYQS_9
z为归一化前的值的总数,/>
Figure QLYQS_10
为归一化后的值,μ和ρ为学习的参数,/>
Figure QLYQS_11
为均值,/>
Figure QLYQS_12
为方差,τ为预设数值的正数,以避免除数为0;
步骤S33:计算网络流量数据x n 与特征向量C t 之间的相关性,采用softmax分类器函数对相关性进行归一化,获得特征向量C t 与网络流量数据之间的权重o t ,具体如下式:
Figure QLYQS_13
步骤S34:通过计算总特征向量中的各特征向量的加权和,获得网络流量数据的重要特征M,具体如下式:
Figure QLYQS_14
步骤S4:基于softmax分类器函数,对步骤S3所获得的重要特征进行二层分类,第一层分类为二分类,将各网络流量数据中的正常网络流量数据、异常网络流量数据分开;第二层分类为多分类,将各异常网络流量数据按照其所属的各预设类型进行分类;
步骤S5:基于步骤S1-步骤S4所构建的异常网络流量数据检测待训练模型,以各网络流量数据样本为输入,以各网络流量数据样本所对应的正常或异常分类结果,以及各异常网络流量数据样本所对应的预设类型为输出,对异常网络流量数据检测待训练模型进行训练,获得训练好的异常网络流量数据检测模型;
步骤S6:应用异常网络流量数据检测模型,针对实时输入的各待检测网络流量数据,完成各待检测网络流量数据的异常检测,针对待检测网络流量数据中的异常网络流量数据,根据预设类型对其进行分类。
2.根据权利要求1所述的二次特征提取的网络流量异常检测方法,其特征在于,步骤S4中基于softmax分类器函数,对步骤S3所获得的重要特征进行二层分类,二层分类计算过程如下式:
Figure QLYQS_15
式中,M为重要特征,K h q h 为可训练的参数,y为二层分类的分类结果。
3.一种基于二次特征提取的网络流量异常检测系统,其特征在于,包括计算模块、存储模块、输入模块、输出模块,以实现如权利要求1-2任意一项所述的一种基于二次特征提取的网络流量异常检测方法;
其中,输入模块用于接收各种类的网络流量数据,输出模块用于显示异常网络流量数据检测模型输出的检测结果;存储模块用于存储各种类的网络流量数据,以及异常网络流量数据所对应的各预设类型;
计算模块包括数据获取模块、数据预处理模块、训练模块、异常检测模块、恢复备份模块,所述数据获取模块用于调取输入模块所接收的各网络流量数据,数据预处理模块对各网络流量数据进行预处理,训练模块用于构建并训练异常网络流量数据检测模型,异常检测模块用于应用异常网络流量数据检测模型,对实时的网络流量数据进行异常检测,并形成检测报告,恢复备份模块用于对网络流量数据进行统一恢复和备份。
CN202211492575.0A 2022-11-25 2022-11-25 一种基于二次特征提取的网络流量异常检测方法及系统 Active CN115865459B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211492575.0A CN115865459B (zh) 2022-11-25 2022-11-25 一种基于二次特征提取的网络流量异常检测方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211492575.0A CN115865459B (zh) 2022-11-25 2022-11-25 一种基于二次特征提取的网络流量异常检测方法及系统

Publications (2)

Publication Number Publication Date
CN115865459A CN115865459A (zh) 2023-03-28
CN115865459B true CN115865459B (zh) 2023-06-27

Family

ID=85666611

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211492575.0A Active CN115865459B (zh) 2022-11-25 2022-11-25 一种基于二次特征提取的网络流量异常检测方法及系统

Country Status (1)

Country Link
CN (1) CN115865459B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117811850B (zh) * 2024-03-01 2024-05-28 南京信息工程大学 一种基于STBformer模型的网络入侵检测方法及系统

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115296853A (zh) * 2022-07-06 2022-11-04 国网山西省电力公司信息通信分公司 一种基于网络时空特征的网络攻击检测方法

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1719059A (zh) * 2005-08-11 2006-01-11 上海交通大学 能承受高扭转载荷的波纹管联轴器
CN202158297U (zh) * 2011-06-09 2012-03-07 安徽宏瑞波纹管有限公司 一种法兰式波纹管接头
CN103685008B (zh) * 2012-08-31 2017-02-15 中国电信股份有限公司 双向报文优先级标记方法和系统
CN203018425U (zh) * 2012-12-18 2013-06-26 江苏东杰环保机械设备制造有限公司 一种移动通风槽吸尘小车
CN103398242A (zh) * 2013-08-19 2013-11-20 南通中正机械有限公司 固定式法兰波纹管
CN105591971B (zh) * 2015-10-28 2019-06-07 新华三技术有限公司 一种QoS的实现方法和装置
CN107204891A (zh) * 2016-03-18 2017-09-26 中兴通讯股份有限公司 一种海量规则下报文识别的方法及装置
CN205955808U (zh) * 2016-08-01 2017-02-15 辽宁石油机械制造有限公司 一种野营房用柴油机排烟机构
CN111245726A (zh) * 2019-12-27 2020-06-05 国家计算机网络与信息安全管理中心 一种ip网段高效匹配的实现方法
CN111651980B (zh) * 2020-05-27 2023-05-23 河南师范大学 混合神经网络融合Attention机制的小麦抗寒性识别方法
CN111858929A (zh) * 2020-06-22 2020-10-30 网宿科技股份有限公司 一种基于图神经网络的网络爬虫检测方法、系统及装置
CN113609284A (zh) * 2021-08-02 2021-11-05 河南大学 一种融合多元语义的文本摘要自动生成方法及装置
CN113901802A (zh) * 2021-09-29 2022-01-07 浪潮云信息技术股份公司 Crnn网络融合注意力机制的短文本相似度匹配方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115296853A (zh) * 2022-07-06 2022-11-04 国网山西省电力公司信息通信分公司 一种基于网络时空特征的网络攻击检测方法

Also Published As

Publication number Publication date
CN115865459A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
Zhou et al. Deep learning approach for cyberattack detection
Farahnakian et al. A deep auto-encoder based approach for intrusion detection system
Yuan et al. DeepDefense: identifying DDoS attack via deep learning
Tuor et al. Recurrent neural network language models for open vocabulary event-level cyber anomaly detection
Haggag et al. Implementing a deep learning model for intrusion detection on apache spark platform
Abd Jalil et al. Comparison of machine learning algorithms performance in detecting network intrusion
Gharib et al. Autoids: auto-encoder based method for intrusion detection system
Ma et al. A deep learning-based DDoS detection framework for Internet of Things
Zhao et al. A hybrid intrusion detection system based on feature selection and weighted stacking classifier
Dhillon et al. Towards network traffic monitoring using deep transfer learning
Bodström et al. State of the art literature review on network anomaly detection with deep learning
Verma et al. A network intrusion detection approach using variant of convolution neural network
CN115865459B (zh) 一种基于二次特征提取的网络流量异常检测方法及系统
Hongwei et al. Research on intrusion detection based on KPCA-BP neural network
Manimaran et al. A comprehensive novel model for network speech anomaly detection system using deep learning approach
Disha et al. A Comparative study of machine learning models for Network Intrusion Detection System using UNSW-NB 15 dataset
Chen et al. An efficient network intrusion detection model based on temporal convolutional networks
Soleymanzadeh et al. A Stable generative adversarial network architecture for network intrusion detection
Yao A network intrusion detection approach combined with genetic algorithm and back propagation neural network
Huynh et al. On the performance of intrusion detection systems with hidden multilayer neural network using DSD training
Joo et al. Efficient network traffic classification and visualizing abnormal part via Hybrid Deep Learning Approach: Xception+ bidirectional gru
Gu et al. Learning-based intrusion detection for high-dimensional imbalanced traffic
She et al. A convolutional autoencoder based method with smote for cyber intrusion detection
Wang et al. Deep feature extraction in intrusion detection system
Thwaini Anomaly Detection in Network Traffic using Machine Learning for Early Threat Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20230328

Assignee: NANJING ELECTRIC POWER AUTOMATION EQUIPMENT THIRD FACTORY Co.,Ltd.

Assignor: Nanjing University of Information Science and Technology

Contract record no.: X2023980047114

Denomination of invention: A Network Traffic Anomaly Detection Method and System Based on Secondary Feature Extraction

Granted publication date: 20230627

License type: Common License

Record date: 20231115

EE01 Entry into force of recordation of patent licensing contract