CN116318928A - 一种基于数据增强和特征融合的恶意流量识别方法及系统 - Google Patents
一种基于数据增强和特征融合的恶意流量识别方法及系统 Download PDFInfo
- Publication number
- CN116318928A CN116318928A CN202310206294.2A CN202310206294A CN116318928A CN 116318928 A CN116318928 A CN 116318928A CN 202310206294 A CN202310206294 A CN 202310206294A CN 116318928 A CN116318928 A CN 116318928A
- Authority
- CN
- China
- Prior art keywords
- data
- malicious
- traffic
- flow
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 55
- 230000004927 fusion Effects 0.000 title claims abstract description 41
- 238000012549 training Methods 0.000 claims abstract description 54
- 238000013145 classification model Methods 0.000 claims abstract description 41
- 238000005457 optimization Methods 0.000 claims abstract description 28
- 238000000605 extraction Methods 0.000 claims abstract description 20
- 238000007781 pre-processing Methods 0.000 claims abstract description 16
- 238000004422 calculation algorithm Methods 0.000 claims description 34
- 230000006870 function Effects 0.000 claims description 26
- 230000007246 mechanism Effects 0.000 claims description 26
- 239000002245 particle Substances 0.000 claims description 24
- 230000008569 process Effects 0.000 claims description 12
- 238000013528 artificial neural network Methods 0.000 claims description 10
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 238000010606 normalization Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 9
- 230000011218 segmentation Effects 0.000 claims description 9
- 230000002457 bidirectional effect Effects 0.000 claims description 7
- 238000004891 communication Methods 0.000 claims description 7
- 238000010276 construction Methods 0.000 claims description 6
- 238000004140 cleaning Methods 0.000 claims description 5
- 238000003860 storage Methods 0.000 claims description 5
- 239000013589 supplement Substances 0.000 claims description 5
- 230000006399 behavior Effects 0.000 claims description 4
- 230000005540 biological transmission Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 10
- 238000013461 design Methods 0.000 abstract description 6
- 238000003062 neural network model Methods 0.000 abstract description 3
- 238000010187 selection method Methods 0.000 abstract description 3
- 239000000523 sample Substances 0.000 description 23
- 238000001514 detection method Methods 0.000 description 19
- 230000004913 activation Effects 0.000 description 18
- 238000010586 diagram Methods 0.000 description 9
- 238000009826 distribution Methods 0.000 description 9
- 230000000694 effects Effects 0.000 description 9
- 238000013136 deep learning model Methods 0.000 description 6
- 238000011176 pooling Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 5
- 239000011159 matrix material Substances 0.000 description 5
- 230000007547 defect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000002159 abnormal effect Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 235000004257 Cordia myxa Nutrition 0.000 description 2
- 244000157795 Cordia myxa Species 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 230000002708 enhancing effect Effects 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000016273 neuron death Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 230000003321 amplification Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 125000004122 cyclic group Chemical group 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 235000013305 food Nutrition 0.000 description 1
- 230000014509 gene expression Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 208000013409 limited attention Diseases 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 210000002569 neuron Anatomy 0.000 description 1
- 238000003199 nucleic acid amplification method Methods 0.000 description 1
- 239000000047 product Substances 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 101150037604 selU gene Proteins 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/14—Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
- H04L63/1441—Countermeasures against malicious traffic
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D30/00—Reducing energy consumption in communication networks
- Y02D30/50—Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Security & Cryptography (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Hardware Design (AREA)
- Data Exchanges In Wide-Area Networks (AREA)
Abstract
本发明提出了一种基于数据增强和特征融合的恶意流量识别方法及系统,涉及网络安全领域,对原始流量数据集进行预处理、特征选择和流量平衡,得到数据增强后的训练集;基于多头注意力,构建恶意流量分类模型,用于特征提取和特征融合;通过参数寻优和模型训练,得到最终的恶意流量分类模型;将待识别的流量,输入到恶意流量分类模型中,输出分类结果;本发明设计了一种能够识别网络流量、自动提取特征并解决数据可用性不足问题的恶意流量分类模型,利用特征选择方法准确地过滤掉冗余特征,利用数据增强技术使各类流量数据均衡、去重叠数据,准确地进行神经网络模型参数权重的优化调整,获得更加合理的模型超参数,提高恶意流量识别的准确性和性能。
Description
技术领域
本发明属于网络安全领域,尤其涉及一种基于数据增强和特征融合的恶意流量识别方法及系统。
背景技术
本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
随着移动通信系统在技术上不断发展,攻击者越来越多地试图发现漏洞并利用漏洞,以获得未经授权的访问、损坏或窃取信息、资产、网络或任何类型的敏感数据。网络流量承载着系统状态、商业秘密、用户隐私等相关信息,通过分析网络流量数据的特点,识别出网络中的异常情况,为网络态势感知提供参考,并制定相应的防范策略,对提高网络防护能力、维护网络安全具有重要意义。
网络流量异常检测是利用各种检测技术对网络流量进行分析判断、发现网络中的潜在攻击,是一种有效的网络安全防护方法。传统的机器学习方法在处理海量、高维、动态的网络流量时,往往面临特征设计困难、误报率高、泛化能力弱等问题。深度学习具有强大的表示能力,可以自主地从原始数据中提取特征。一些研究表明双向门控循环单元可用于提取流中字节序列的前向和后向特征,另一些研究表明CNN用于提取单个数据包的数据包特征,学习网络流量的空间特征。在网络流量识别领域,需要解决恶意样本与正常样本之间的类不平衡问题,研究者提出了很多解决不平衡数据问题的技术,包括欠采样、过采样、压缩最近邻技术,近年来,SMOTE与ENN的结合为解决数据平衡问题提供了新的思路,针对流量检测时训练样本不均衡以及由于数据隐私性导致训练样本不足和更新慢的问题,将流量平衡算法和深度神经网络相结合的流量识别方法成为当今研究网络流量分类的一种新的思路。最后,为了克服深度学习模型的检测效果易受参数影响,获得更加合理的模型超参数,研究者利用元启发式算法来对深度学习的模型学习率、批处理大小等参数寻优,由于这些算法的随机性,避免局部最优的概率很高,具有较好的效果。一些最著名的算法包括蚁群优化(ACO)、粒子群优化(PSO)和遗传算法(GA)等。
因此,现有网络流量异常检测技术,存在以下问题:1)流量的冗余特征会使得一些分类器产生过拟合现象对分类的结果产生较大的影响;2)在流量检测数据集中,正常活动与攻击之间以及不同攻击类之间的类不平衡问题,极大地影响了恶意流量的检测性能;3)深度学习模型方法在处理海量、高维、动态的网络流量时,存在特征设计困难、误报率高、泛化能力弱等问题;这些问题的存在,导致现有恶意流量识别方法误报率高、准确性差、性能不佳。
发明内容
为克服上述现有技术的不足,本发明提供了一种基于数据增强和特征融合的恶意流量识别方法及系统,设计了一种能够识别网络流量、自动提取特征并解决数据可用性不足问题的恶意流量分类模型,利用特征选择方法来准确地过滤掉冗余特征,利用数据增强技术使各类流量数据均衡、去重叠数据,准确地进行神经网络模型参数权重的优化调整,获得更加合理的模型超参数,提高恶意流量识别的准确性和性能。
为实现上述目的,本发明的一个或多个实施例提供了如下技术方案:
本发明第一方面提供了一种基于数据增强和特征融合的恶意流量识别方法;
一种基于数据增强和特征融合的恶意流量识别方法,包括:
对获取的原始流量数据集进行预处理、特征选择和流量平衡,得到数据增强后的训练集;
基于多头注意力,构建恶意流量分类模型,用于特征提取和特征融合;
通过参数寻优和模型训练,得到最终的恶意流量分类模型;
将待识别的流量,输入到所述恶意流量分类模型中,输出分类结果。
进一步的,所述预处理,包括流量切分、清洗、向量化、归一化操作,原始流量数据集经预处理后,得到特征集合;
其中,流量切分是按照预设的细粒度对数据包集合进行切分,表示成会话五元组的形式;
所述五元组,由源I P、目的P、源端口、目的端口、传输协议组成;
所述会话五元组,表示双向通信的过程。
进一步的,所述特征选择,是使用多种基于树的学习模型计算特征的重要程度并消除冗余特征,通过投票机制将多个学习器筛选出的特征进行集成,从中选出对分类结果影响大的特征,组成特征子集。
进一步的,所述流量平衡,使用SMOTE+ENN混合采样算法平衡流量样本,生成足够的新特征流量数据作为原始流量数据集的补充,得到数据增强后的训练集。
进一步的,所述恶意流量分类模型,具体包括:
通过一维卷积神经网络,学习固定时间窗口中数据包的局部区域特征;
使用双向GRU神经网络,进行双向上下文信息提取,学习固定时间窗口间数据包的恶意攻击行为特征;
通过多头注意力机制,按重要性进行加权特征融合;
基于融合后的特征,利用softmax函数进行分类。
进一步的,所述参数寻优,是使用粒子群优化算法PSO进行所述恶意流量分类模型的参数调优,寻找最优参数,得到优化后的恶意流量分类模型。
进一步的,所述模型训练,基于数据增强后的训练集,以会话五元组为输入,以流量类别为输出,对优化后的恶意流量分类模型进行训练。
本发明第二方面提供了一种基于数据增强和特征融合的恶意流量识别系统。
一种基于数据增强和特征融合的恶意流量识别系统,包括训练集构建模块、模型构建模块、模型训练模块和分类识别模块:
训练集构建模块,被配置为:对获取的原始流量数据集进行预处理、特征选择和流量平衡,得到数据增强后的训练集;
模型构建模块,被配置为:基于多头注意力,构建恶意流量分类模型,用于特征提取和特征融合;
模型训练模块,被配置为:通过参数寻优和模型训练,得到最终的恶意流量分类模型;
分类识别模块,被配置为:将待识别的流量,输入到所述恶意流量分类模型中,输出分类结果。
本发明第三方面提供了计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本发明第一方面所述的一种基于数据增强和特征融合的恶意流量识别方法中的步骤。
本发明第四方面提供了电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本发明第一方面所述的一种基于数据增强和特征融合的恶意流量识别方法中的步骤。
以上一个或多个技术方案存在以下有益效果:
在本发明提出的恶意流量识别框架中,针对预处理后的数据,首先使用融合投票法的特征选择方式解决特征冗余问题;随后,使用SMOTE+ENN算法对流量中少数类进行过采样,有效提高分类的性能和精度,生成足够的新特征流量数据作为原始流量数据集的补充,减轻原始数据类别不平衡对检测结果造成的影响和偏差,以增强原始流量特征的多样性。
本发明提出的一个融合多头注意力的1DCNN-attGRU模型,对平衡后的流量进行分类,模型既考虑了空间层面的特征联系,也考虑到时间层面上特征之间的变化规律,在模型中应用了激活函数SELU和a-dropout,可以将自归一化特性的优势融入特征提取器中,增强模型的特征提取能力,保证网络的鲁棒性;最后引入多头注意力机制,通过多头注意力机制将对流量分类有用的特征按其重要性赋予权值,提高对少数恶意攻击流量类的检出率,增强模型的表征能力。
本发明使用粒子群优化算法PSO进行1DCNN-attGRU模型的参数调优,寻找最优特征集,最大化分类性能。
本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
构成本发明的一部分的说明书附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1为第一个实施例的方法流程图。
图2为第一个实施例的整体检测框架。
图3为第一个实施例的特征选择模型图。
图4为第一个实施例的1DCNN的结构图。
图5为第一个实施例的恶意流量分类模型的结构图。
图6为第一个实施例的多头注意力机制的示意图。
图7为第一个实施例的粒子群算法流程图。
图8为第一个实施例的模型组合优化训练算法流程图。
具体实施方式
下面结合附图与实施例对本发明作进一步说明。
在网络流量分类中,流量的冗余特征会使得一些分类器产生过拟合现象对分类的结果产生较大的影响,如何利用特征选择方法来准确地过滤掉冗余特征,是本发明需要解决的问题之一;在流量检测数据集中,正常活动与攻击之间以及不同攻击类之间的类不平衡问题很常见,这极大地影响了恶意流量的检测性能,如何利用数据增强技术使各类流量数据均衡、去重叠数据,是本发明需要解决的问题之一;同时,针对深度学习模型方法在处理海量、高维、动态的网络流量时,存在特征设计困难、误报率高、泛化能力弱等问题,如何设计一个深度学习模型来解决网络异常流量分类中存在的这些问题,也是本发明需要解决的问题之一;最后,如何能够准确地进行神经网络模型参数权重的优化调整,获得更加合理的模型超参数,也是本发明需要解决的问题之一。
实施例一
本实施例公开了一种基于数据增强和特征融合的恶意流量识别方法;
如图1所示,一种基于数据增强和特征融合的恶意流量识别方法,包括:
步骤S1:对获取的原始流量数据集进行预处理、特征选择和流量平衡,得到数据增强后的训练集。
预处理,包括流量切分、清洗、向量化、归一化操作,原始流量数据集经预处理后,得到特征集合;其中,流量切分是按照预设的细粒度对数据包集合进行切分,表示成会话五元组的形式;五元组,由源I P、目的P、源端口、目的端口、传输协议组成;会话五元组,表示双向通信的过程。
特征选择,是使用多种基于树的学习模型计算特征的重要特征,通过投票机制将多个学习器筛选出的特征进行集成,从中选出对分类结果影响大的特征,组成特征子集。
流量平衡,使用SMOTE+ENN混合采样算法平衡流量样本,征流量数据作为原始流量数据集的补充,得到数据增强后的训练集。
步骤S2:基于多头注意力,构建恶意流量分类模型,用于特征提取和特征融合。
恶意流量分类模型,具体包括:
通过一维卷积神经网络,学习固定时间窗口中数据包的局部区域特征;
使用双向GRU神经网络,进行双向上下文信息提取,学习固定时间窗口间数据包的恶意攻击行为特征;
通过多头注意力机制,按重要性进行加权特征融合;
基于融合后的特征,利用softmax函数进行分类。
步骤S3:通过参数寻优和模型训练,得到最终的恶意流量分类模型。
参数寻优,是使用粒子群优化算法PSO进行所述恶意流量分类模型的参数调优,寻找最优参数,得到优化后的恶意流量分类模型。
模型训练,基于数据增强后的训练集,以会话五元组为输入,以流量类别为输出,对优化后的恶意流量分类模型进行训练。
步骤S4:将待识别的流量,输入到所述恶意流量分类模型中,输出分类结果。
下面对本实施例一种基于数据增强和特征融合的恶意流量识别方法的实现过程进行详细说明。
本实施例提出了一种能够识别网络流量、自动提取特征并解决数据可用性不足问题的恶意流量分类模型,或者说是恶意流量检测框架,所提方法的整体检测框架如图2所示,主要包括如下三个方面:
一、数据预处理、特征选择以及基于SMOTE+ENN算法的流量数据平衡策略
首先对原始流量数据集进行流量切分、清洗、向量化、归一化操作等预处理,然后,使用多种基于树的学习模型计算特征的重要程度并消除冗余特征,通过投票机制将多个学习器筛选出的特征进行集成,从中选出对分类结果影响较大的特征;此外,由于流量数据集中类别分布不平衡,我们接着使用SMOTE+ENN混合采样算法平衡流量样本,生成足够的新特征流量数据作为原始流量数据集的补充,减轻流量数据类别不平衡对检测结果造成的影响和偏差。
1、数据预处理
(1)流量切分
流量数据通常以pcap的形式进行保存,pcap文件可以看做是一堆数据包按照一定的规则进行排列的集合。每个数据包并不是孤立的,而是由通信实体之间的通讯产生的,因此需要按照一定的细粒度对数据包集合进行切分,表示成会话五元组的形式,P表示原始pcap文件,经过流量切分之后,会话五元组表示为:
P={P1,...Pi...,Pn}
Pi={S1,...Si...,Sn}
Si={f1,...fi...,fn}
其中,Pi是原始pcap文件中的一段流量文件,Si是切分后的每条会话,fi是拥有相同五元组(源地址和目的地址可以互换)的数据包。
网络流指拥有相同的五元组,即源IP、目的IP、源端口、目的端口、传输协议的数据包的集合,反映了单向通信的过程。
而会话则是在流的基础上考虑双向通信的过程,即五元组中的源IP、源端口、目的IP、目的端口可以互换;考虑到在很多网络攻击中,受害主机往往会发送数据到攻击者,因此采用会话的方式切分流量更加合理,可以包含更多关于网恶意流攻击信息。
(2)流量清洗
在会话数据中,可能会存在数据完全相同的会话数据,在原始数据中也会存在一些不包含信息价值不大的数据包,对于流量分类识别作用不大,如ARP,DHCP,ICMP数据包等,为了提高效率,这些数据包需要过滤掉。
(3)流量向量化
由于后续神经网络的训练需要固定长度的输入,因此需要在每条会话中选取固定数量的数据包,每个数据包截取固定长度的字节序列,过长的序列进行截断,长度不足的填充0字节,使得每条会话数据可以表示为固定长度的向量。
(4)数据归一化
数据集中存在多个属性,每个属性中的数值大小及范围有差异;若直接将未归一化的数据送入模型学习,易导致值域范围大的数据特征具有很高的权重,使其成为主导属性,而值域范围小的数据的权重小,易使得特征丢失;为此,使用数据归一化算法对数据集进行完善,计算过程如式:
其中,x′表示归一化之后的值;x表示初始特征值,xmin表示该属性中的最小特征值,xmax表示该属性中的最大特征值。
2、特征选择
(1)嵌入法
特征选择和算法训练同时进行,首先需要训练学习器,如决策树、XGBoost等,训练后得到各个特征的权值系数,将权值系数从小到大进行排序选出最佳特征子集,其中,权值系数代表了特征对模型的贡献程度。
(2)投票机制
对于分类任务而言,每个弱分类器给出自己的预测结果,再通过投票法得出结合后的最终结果;使用相对多数投票法,也就是常说的少数服从多数,T个弱学习器对样本X的预测结果中,类别数最多的类别C为最终的分类结果;若存在多个类别最终得票数相等且最高,那么就随机选择一个类别作为最终类别,相对多数投票法计算公式为:
(3)特征选择流程
图3是特征选择模型图,如图3所示,基于树的预测模型可以计算特征的重要程度并消除不相关特征,避免冗余特征对分类器产生过拟合现象。使用多种基于树的机器学习算法为基准学习器,对预处理后的数据集进行排序取出重要特征,然后通过投票机制将3个学习器筛选出的特征进行集成,通过多重特征可以选取多个特定的重要特征,具体步骤如下:
1)对数据集T进行预处理。
2)输入预处理后的T,使用不同的学习器Ei(其中i=1,2,3)独立地进行特征选择。
3)筛选出不同学习器Ei(其中i=1,2,3)的特征子集Fi(其中i=1,2,3)。
4)统计每个特征的被选次数,使用投票法的思想将多次出现的重要特征选取出来。
5)输出特征选择之后的特征子集F。
3、基于SMOTE+ENN混合采样的流量数据平衡策略
SMOTE算法是在随机过采样方法的基础上改进的一种算法,它以少数类的一个子集为例,创建类似的新的合成例,原始数据集将收集这些合成例;在这个过程中,它从少数类样本与其邻类样本之间的直线上生成样本;新的数据集可以作为训练样本来训练分类模型;SMOTE算法的基本思想是,对于每个少数类样本x,即特征子集F中的少数类别流量元素,从它们的近邻中随机选择一些样本,并根据下列公式构造新样本:
xnew=xi+(xa-xi)δ
其中,xnew是新样本,xi为少数样本,xa是xi的k个最近邻居之一,δ是一个随机数δ∈[0,1]。
通过这种方式,可以形成新的少数群体样本;然而,由于每个少数类样本将产生一个新样本,可能导致样本重叠的问题,容易导致后续分类算法的分类效果较差。
本实施例采用ENN算法,使用K-NN规则和其余数据对每个样本进行测试,如果一个样本属于少数类,而它的三个近邻中有两个或更多属于多数类,那么该样本将被删除,从而保证类之间的边界更平滑。
虽然过采样方法可以平衡数据分布,但它也会导致一些问题,例如,一些多数类样本可能与少数类样本重叠,因此分类器无法很好地区分它们;为了解决这个问题,SMOTE可以与ENN结合,称为SMOTE+ENN,首先,采用SMOTE方法对训练数据进行过采样,其次,在训练数据中找出每个样本的三个最近邻,第三,去除分类错误的样本,产生更干净的数据,不仅可以平衡数据分布,而且类之间的边界也更加清晰。
使用SMOTE-ENN对少数类进行过采样的具体步骤如下:
1)选取少数类流量样本中的任意样本要素,并计算与少数类中其他样本要素的距离,计算公式为:
其中,xi表示少数类流量样本,xj表示xi流量样本的某个近邻,F是特征向量xi的维数。
2)以xi为中心,选取欧氏距离最近的k个样本,得到xi的k个最近邻。
3)从k个最近邻中随机选择一个样本xa,计算xi和xa之间的线性插值,得到接近xi的样本xnew,δ是一个随机数δ∈[0,1],计算公式为:
xnew=xi+(xa-xi)δ
4)根据多数和少数样本的不平衡比率设置采样比率值,以确定采样放大率;对于每个少数样本,重复上述线性插值过程,最后将少数样本的数量与多数样本的数量进行匹配,以实现样本集的平衡。
5)使用ENN技术,从少数类样本中提取样本,并计算样本的k个相邻点;如果样本中超过一半的相邻点不属于多数类,则样本将被消除。对样本中的所有少数样本重复此过程,直到所有少数样本均已清洁。
二、融合多头注意力机制的1DCNN-attGRU模型进行流量分类
设计一个融合多头注意力的1DCNN-attGRU分类模型对平衡后的流量进行分类,考虑流量空间维度的特征联系,同时考虑时间层面上特征之间的变化规律;首先通过1D-CNN模型对流量数据进行一次特征提取,以获取流量数据的局部空间特征;使用BiGRU代替普通的GRU,捕获流量数据包之间的长距离依赖关系以及上下文语义特征,同时我们在模型中应用了激活函数SELU和a-dropout,进一步增强网络的鲁棒性和特征提取能力;最后在BiGRU中引入多头注意力机制,通过多头注意力机制将对流量分类有用的特征按其重要性赋予权值,对少数恶意攻击流量类的精确检出,增强模型的表征能力,最后利用softmax函数进行多分类。
1、一维卷积神经网络1DCNN
1DCNN是一种以1维网格形式获取序列数据进行特征识别的CNN,通过堆叠1维卷积层和池化层来实现局部空间特征提取功能,解决局部特征丢失问题;图4是1DCNN的结构图,如图4所示,典型1DCNN由输入层、卷积层、池化层、全连接层和输出层组成。
卷积层:卷积层是卷积神经网络的核心部分,卷积层通过卷积核对前一层的特征图进行卷积得到相应特征,再使用合适的激活函数进行非线性变换获得新的特征图,表示为:
池化层:池化层在保留重要特征的基础上,通过降采样操作,改变特征图的大小,达到降维降参、提高运算速度的效果,同时避免网络结构出现过拟合的现象。
2、BiGRU
BiGRU又叫双向GRU神经网络,是GRU的一个变体,实现正、反向双向传播,使得输出层在正向传播的基础上再进行一次反向传播,将每个训练序列向前和向后分别呈现给两个单独的隐藏层,之后将这两个层连接到相同的输出层,在这种情况下,输出层将具有输入序列中每个点的完整过去和将来的信息;相比单向的GRU模型,BiGRU收敛时间快,不容易过度拟合,它的输出取决于前向状态和后向状态的双重影响,使得最后的输出结果更加准确。
3、本实施例提出的1DCNN-attGRU模型结构
原始流量数据经过预处理和流量平衡的操作后进入特征提取阶段,本阶段中使用的是融合多头注意力机制的1DCNN-BiGRU的混合模型,即恶意流量分类模型;在网络流量的数据分析及特征提取中,既需要分析空间层面的特征联系,也应该考虑到时间层面上特征之间的变化规律;
图5是恶意流量分类模型的结构图,如图5所示,包括空间特征提取模块、时间特征提取模块、多头注意力融合模块和softmax分类模块,
(1)空间特征提取模块,利用一维卷积神经网络CNN学习固定时间窗口中数据包的局部区域特征,即提取同一条会话流在一段时间内的数据包所隐含的属性特征,在卷积运算后进行SELU激活以及BN操作以减少内部协变量移位,然后紧跟最大池化操作即在一个给定窗口只保持最高激活值以减少输入的长度。
(2)时间特征提取模块,利用双向GRU进行双向上下文信息提取,从而学习固定时间窗口间数据包的恶意攻击行为特征。
(3)多头注意力融合模块,在BiGRU中引入多头注意力机制,图6是多头注意力机制的示意图,如图6所示,根据所提取的数据包特征对分类结果的贡献程度进行相应的权重分配,将有限注意力资源聚焦于高价值信息从而提高检测性能,提高对少数恶意攻击流量类的检出率;对于CNN和BiGRU融合后的特征来说,注意力机制对其隐层向量输出表达式进行加权求和,通过分配概率代替原始随机分配权重,具体来说注意力机制就是计算查询Q和键K的相似度,并以此为根据计算权重分配给值V,公式如下:
其中,Q、K是维度为dk的向量,V是维度为dv的向量,QKT表示查询矩阵Q与键矩阵K进行点积得到对应的权重;QKT的值越大,表示Q和K的余弦相似度就越高,当QKT为0时,表示Q和K正交,没有相似度;当Q、K的维度dk比较大的时候,将QKT缩放倍后再使用Softmax函数可以避免出现梯度消失的情况;多头注意力机制基于注意力机制,针对不同的特征量进行分头学习,最后再将取得的结果进行拼接得到最终的注意力,是将Q、K、V投影到一个低维空间,投影h次,然后再做h次的注意力函数,得到h个低维输出O′,最后合并所有O′并投影得到输出O,多头注意力机制的公式如下:
O=Multihead(Q,K,V)=Concat(O′1,...,O′h)WO
其中,Wi Q,Wi K,Wi V分别代表对第i个自注意力机制的Q、K、V进行线性变换的矩阵,QWi Q,KWi K,VWi V分别表示Q,K,V在第i个注意力头的权重矩阵,WO表示多头注意力机制的权重矩阵,利用融合层对多头注意力机制的输出进行拼接。
(4)softmax分类模块,在模型中做了部分改进,使用SELU作为激活函数,而不是RELU函数,增强网络的鲁棒性和特征提取能力,由于Relu在x<0的时候梯度为0,容易导致神经元死亡,Relu激活函数定义如下:
当x>0时,Relu的导数始终为1,能够使该处的梯度不衰减,从而减少了梯度消失的问题;但是当x<0时,Relu的梯度值为0,会产生了神经元死亡;SELU激活函数的收敛速度比Relu激活函数要快,通过该激活函数,可以将样本分布自动归一化到0均值和单位方差,确保在训练过程中梯度不会爆炸或消失;SELU激活函数定义如下:
当x≤0时,SELU激活函数的斜率较为平缓,在激活操作中方差过大时可以使其减小,从而防止梯度爆炸;当x>0时,其斜率λ是大于1的数,方差过小时可以使其增大,从而防止梯度消失;这样使得该激活函数自带归一化操作,即使加深网络层次,每层的输出依旧是均值为0、方差为1,得到更丰富的特征;所以,将激活函数SeLU应用于模型的卷积层和门控单元层,可以将自归一化特性的优势融入特征提取器中,增强模型的特征提取能力,此外,还可以保证网络的鲁棒性。
其次,由于α-dropout能够对输出特征进行归一化,用它代替dropout,所以在池化层之后增加α-dropout层可以避免模型过拟合。最后,将激活函数SELU和a-dropout应用于全连接层,进一步提高了模型的特征提取能力,最后进行softmax层进行分类。
三、使用粒子群优化算法PSO进行参数调优。
使用粒子群优化算法PSO进行1DCNN-attGRU模型的参数调优,寻找最优参数,最大化分类性能。
神经网络技术被广泛应用于网络安全领域,在网络异常流量检测中能够实现网络攻击的主动检测和攻击分类;然而随着恶意攻击的不断演化,神经网络技术存在的弊端日益显现,考虑深度学习模型的检测效果易受参数影响,存在的初始值随机性较大以及易陷入局部最优的问题;以学习率为例,学习率的参数选取大都采用经验设置,经过多次尝试后,选取相对较为合理、实验效果较好的数值,此类方法不仅耗时耗力,还未能确保找到最优值。
本实施例利用粒子群优化算法较强的寻优性能,对模型学习率等参数寻优,寻找最优特征集,最大化分类性能;粒子群算法是基于群体协助,模拟群鸟寻找食物的天性而演化出的计算模型;作为一种搜索最优解的算法,利用PSO求解优化问题时,粒子群求解到最优解需要一次一次迭代,图7是粒子群算法流程图,如图7所示,在迭代的每一次中,粒子通过初始化和更新的速度以及位置,获得当前个体极值以及全局极值进行下一次迭代,其中,群体极值就是群体最优解。
粒子群算法将首先初始化粒子群及其各个粒子的初始位置和速度,然后优化卷积神经网络各层的过滤器大小、卷积核大小、GRU神经元数、优化器的学习率、批处理大小等;经模型训练出的损失,然后通过粒子群算法相关操作后获得最优化参数,再次进行1DCNN-attGRU模型的训练。
图8是其组合优化训练算法流程图,如图8所示,组合优化训练算法的具体步骤如下:
1)构建1DCNN-attGRU模型,确定粒子群的参数、上下边界等;
2)初始化粒子群大小、初始位置和速度;
3)根据下列公式更新粒子的位置和速度:
vi=w×vi+c1×rand()×(pbesti-xi)+c2×rand()×(gbesti-xi)
xi=xi+vi
其中,w表示惯性因子,非负数,vi表示粒子的速度,xi表示粒子的位置,rand()是介于(0,1)之间的随机数,c1和c2表示学习因子,pbesti,和gbesti分别表示当前个体极值和全局极值。
4)由粒子群优化产生的参数,生成1DCNN-attGRU模型进行训练;
5)根据目标函数计算出各粒子当前的pbesti,求解群体的gbesti。
模型训练阶段选用交叉熵损失函数衡量模型输出值和真实值之间的误差,称为loss,本模型都选用交叉熵损失函数计算l oss,公式为:
其中N表示类别个数,q(xi)表示模型针对xi这一类别的预测概率分布,p(xi)为真实概率分布。
实施例二
本实施例公开了一种基于数据增强和特征融合的恶意流量识别系统;
一种基于数据增强和特征融合的恶意流量识别系统,包括训练集构建模块、模型构建模块、模型训练模块和分类识别模块:
训练集构建模块,被配置为:对获取的原始流量数据集进行预处理、特征选择和流量平衡,得到数据增强后的训练集;
模型构建模块,被配置为:基于多头注意力,构建恶意流量分类模型,用于特征提取和特征融合;
模型训练模块,被配置为:通过参数寻优和模型训练,得到最终的恶意流量分类模型;
分类识别模块,被配置为:将待识别的流量,输入到所述恶意流量分类模型中,输出分类结果。
实施例三
本实施例的目的是提供计算机可读存储介质。
计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本公开实施例一所述的一种基于数据增强和特征融合的恶意流量识别方法中的步骤。
实施例四
本实施例的目的是提供电子设备。
电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的程序,所述处理器执行所述程序时实现如本公开实施例一所述的一种基于数据增强和特征融合的恶意流量识别方法中的步骤。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (10)
1.一种基于数据增强和特征融合的恶意流量识别方法,其特征在于,包括:
对获取的原始流量数据集进行预处理、特征选择和流量平衡,得到数据增强后的训练集;
基于多头注意力,构建恶意流量分类模型,用于特征提取和特征融合;
通过参数寻优和模型训练,得到最终的恶意流量分类模型;
将待识别的流量,输入到所述恶意流量分类模型中,输出分类结果。
2.如权利要求1所述的一种基于数据增强和特征融合的恶意流量识别方法,其特征在于,所述预处理,包括流量切分、清洗、向量化、归一化操作,原始流量数据集经预处理后,得到特征集合;
其中,流量切分是按照预设的细粒度对数据包集合进行切分,表示成会话五元组的形式;
所述五元组,由源IP、目的P、源端口、目的端口、传输协议组成;
所述会话五元组,表示双向通信的过程。
3.如权利要求2所述的一种基于数据增强和特征融合的恶意流量识别方法,其特征在于,所述特征选择,是使用多种基于树的学习模型计算特征的重要程度并消除冗余特征,通过投票机制将多个学习器筛选出的特征进行集成,从中选出对分类结果影响大的特征,组成特征子集。
4.如权利要求1所述的一种基于数据增强和特征融合的恶意流量识别方法,其特征在于,所述流量平衡,使用SMOTE+ENN混合采样算法平衡流量样本,生成足够的新特征流量数据作为原始流量数据集的补充,得到数据增强后的训练集。
5.如权利要求1所述的一种基于数据增强和特征融合的恶意流量识别方法,其特征在于,所述恶意流量分类模型,具体包括:
通过一维卷积神经网络,学习固定时间窗口中数据包的局部区域特征;
使用双向GRU神经网络,进行双向上下文信息提取,学习固定时间窗口间数据包的恶意攻击行为特征;
通过多头注意力机制,按重要性进行加权特征融合;
基于融合后的特征,利用softmax函数进行分类。
6.如权利要求1所述的一种基于数据增强和特征融合的恶意流量识别方法,其特征在于,所述参数寻优,是使用粒子群优化算法PSO进行所述恶意流量分类模型的参数调优,寻找最优参数,得到优化后的恶意流量分类模型。
7.如权利要求2所述的一种基于数据增强和特征融合的恶意流量识别方法,其特征在于,所述模型训练,基于数据增强后的训练集,以会话五元组为输入,以流量类别为输出,对优化后的恶意流量分类模型进行训练。
8.一种基于数据增强和特征融合的恶意流量识别系统,其特征在于,包括训练集构建模块、模型构建模块、模型训练模块和分类识别模块:
训练集构建模块,被配置为:对获取的原始流量数据集进行预处理、特征选择和流量平衡,得到数据增强后的训练集;
模型构建模块,被配置为:基于多头注意力,构建恶意流量分类模型,用于特征提取和特征融合;
模型训练模块,被配置为:通过参数寻优和模型训练,得到最终的恶意流量分类模型;
分类识别模块,被配置为:将待识别的流量,输入到所述恶意流量分类模型中,输出分类结果。
9.一种电子设备,其特征是,包括:
存储器,用于非暂时性存储计算机可读指令;以及
处理器,用于运行所述计算机可读指令,
其中,所述计算机可读指令被所述处理器运行时,执行上述权利要求1-7任一项所述的方法。
10.一种存储介质,其特征是,非暂时性地存储计算机可读指令,其中,当所述非暂时性计算机可读指令由计算机执行时,执行权利要求1-7任一项所述方法的指令。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206294.2A CN116318928A (zh) | 2023-02-28 | 2023-02-28 | 一种基于数据增强和特征融合的恶意流量识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310206294.2A CN116318928A (zh) | 2023-02-28 | 2023-02-28 | 一种基于数据增强和特征融合的恶意流量识别方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116318928A true CN116318928A (zh) | 2023-06-23 |
Family
ID=86825173
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310206294.2A Pending CN116318928A (zh) | 2023-02-28 | 2023-02-28 | 一种基于数据增强和特征融合的恶意流量识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116318928A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117040942A (zh) * | 2023-10-10 | 2023-11-10 | 深圳创拓佳科技有限公司 | 一种基于深度学习的网络安全测试评估方法及系统 |
CN117240799A (zh) * | 2023-11-16 | 2023-12-15 | 北京中科网芯科技有限公司 | 用于汇聚分流设备的报文去重方法及其系统 |
CN118054972A (zh) * | 2024-04-11 | 2024-05-17 | 石家庄学院 | 基于异常流量样本增强的检测方法、系统、设备及介质 |
-
2023
- 2023-02-28 CN CN202310206294.2A patent/CN116318928A/zh active Pending
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117040942A (zh) * | 2023-10-10 | 2023-11-10 | 深圳创拓佳科技有限公司 | 一种基于深度学习的网络安全测试评估方法及系统 |
CN117040942B (zh) * | 2023-10-10 | 2024-02-27 | 深圳创拓佳科技有限公司 | 一种基于深度学习的网络安全测试评估方法及系统 |
CN117240799A (zh) * | 2023-11-16 | 2023-12-15 | 北京中科网芯科技有限公司 | 用于汇聚分流设备的报文去重方法及其系统 |
CN117240799B (zh) * | 2023-11-16 | 2024-02-02 | 北京中科网芯科技有限公司 | 用于汇聚分流设备的报文去重方法及其系统 |
CN118054972A (zh) * | 2024-04-11 | 2024-05-17 | 石家庄学院 | 基于异常流量样本增强的检测方法、系统、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109768985B (zh) | 一种基于流量可视化与机器学习算法的入侵检测方法 | |
Bao et al. | Iot device type identification using hybrid deep learning approach for increased iot security | |
CN116318928A (zh) | 一种基于数据增强和特征融合的恶意流量识别方法及系统 | |
CN111783442A (zh) | 入侵检测方法、设备和服务器、存储介质 | |
CN112884204B (zh) | 网络安全风险事件预测方法及装置 | |
CN114172688B (zh) | 基于gcn-dl的加密流量网络威胁关键节点自动提取方法 | |
CN113821793B (zh) | 基于图卷积神经网络的多阶段攻击场景构建方法及系统 | |
CN115811440B (zh) | 一种基于网络态势感知的实时流量检测方法 | |
Wang et al. | Res-TranBiLSTM: An intelligent approach for intrusion detection in the Internet of Things | |
CN113901448A (zh) | 基于卷积神经网络和轻量级梯度提升机的入侵检测方法 | |
Singh et al. | Autoencoder-based unsupervised intrusion detection using multi-scale convolutional recurrent networks | |
CN116915450A (zh) | 基于多步网络攻击识别和场景重构的拓扑剪枝优化方法 | |
Wang et al. | Fcnn: An efficient intrusion detection method based on raw network traffic | |
Shao et al. | Deep learning hierarchical representation from heterogeneous flow-level communication data | |
Liu et al. | Automatic feature extraction and selection for machine learning based intrusion detection | |
Gohari et al. | DEEP LEARNING-BASED INTRUSION DETECTION SYSTEMS: A COMPREHENSIVE SURVEY OF FOUR MAIN FIELDS OF CYBER SECURITY. | |
CN114519605A (zh) | 广告点击欺诈检测方法、系统、服务器和存储介质 | |
Wanjau et al. | Discriminative spatial-temporal feature learning for modeling network intrusion detection systems | |
Dharaneish et al. | Comparative analysis of deep learning and machine learning models for network intrusion detection | |
Meng et al. | Deep Learning SDN Intrusion Detection Scheme Based on TW-Pooling | |
Lin et al. | Behaviour classification of cyber attacks using convolutional neural networks | |
Dinesh et al. | Enhancing Performance of Intrusion detection System in the NSL-KDD Dataset using Meta-Heuristic and Machine Learning Algorithms-Design thinking approach | |
CN115442309B (zh) | 一种基于图神经网络的包粒度网络流量分类方法 | |
CN117579324B (zh) | 基于门控时间卷积网络与图的入侵检测方法 | |
Flores et al. | Hybrid network anomaly detection–learning hmms through evolutionary computation |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |