CN111740971A - 基于类不平衡处理的网络入侵检测模型sgm-cnn - Google Patents

基于类不平衡处理的网络入侵检测模型sgm-cnn Download PDF

Info

Publication number
CN111740971A
CN111740971A CN202010539812.9A CN202010539812A CN111740971A CN 111740971 A CN111740971 A CN 111740971A CN 202010539812 A CN202010539812 A CN 202010539812A CN 111740971 A CN111740971 A CN 111740971A
Authority
CN
China
Prior art keywords
data
network
sgm
sample
class
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN202010539812.9A
Other languages
English (en)
Inventor
张宏坡
黄璐璐
董忠仁
张洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhengzhou University
Original Assignee
Zhengzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhengzhou University filed Critical Zhengzhou University
Priority to CN202010539812.9A priority Critical patent/CN111740971A/zh
Publication of CN111740971A publication Critical patent/CN111740971A/zh
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Abstract

针对数据类不平衡问题,本发明提供了一种有效的基于Synthetic Minority Over‑Sampling Technique(SMOTE)和高斯混合模型(Gaussian Mixture Model,GMM)的基于数据流的网络入侵检测模型SGM‑CNN。本发明技术方案首先获取待识别的网络数据流;对数据流进行预处理,然后输入到预先建立的基于一维卷积神经网络(1D CNN)的网络入侵检测模型中,输出网络数据流的检测结果。本发明提出了一种针对大规模数据的类不平衡处理技术:SGM。SGM首先使用SMOTE对少数类样本进行过采样,然后使用GMM对多数类样本进行基于聚类的降采样,最终平衡各个类别的数据。SGM方法不仅避免了过采样造成的昂贵的时间和空间成本,而且避免了随机降采样丢失重要样本的情况,显著提高了少数类的检测率。

Description

基于类不平衡处理的网络入侵检测模型SGM-CNN
技术领域
本发明属于网络安全中的入侵检测领域,具体涉及一种基于类不平衡处理的基于数据流的网络入侵检测模型。
背景技术
根据思科的预测,从2017年到2022年,联网智能设备的数量将翻一番,导致数据流量快速增长五倍。随着网络范围和规模的不断扩大,网络入侵的威胁比以往任何时候都更加严重。在这种情况下,广泛用于嗅探和检测不同类型网络入侵的入侵检测系统(IDS)需要与时俱进,以满足日益增长的网络安全保障需求。现代NIDS主要分为两大类:基于规则的误用检测和基于统计的异常检测。前者用于存储所有已知攻击的属性的数据库,如果提取的属性与数据库中的属性匹配,则将网络流量分类为攻击。这种NIDS能够高效、准确地识别已知的攻击,但无法检测到新的攻击,这是现代网络中经常发生0-day攻击的一个关键问题。因此,近年来基于异常检测的NIDS越来越受到研究者的关注。它的基本原理是检测网络流的特征或分布中的异常,从而帮助识别未知的攻击。
近年来机器学习和深度学习技术在基于异常检测的NIDS实现中得到了广泛的应用。但随着攻击类别的多样化和网络流量的激增,像传统机器学习技术这样的浅层学习已不再适合大规模入侵检测的要求。研究表明,深度学习的NIDS在处理大数据时性能更好。然而先前的研究没有考虑数据的类不平衡问题对分类性能造成的影响,这大大降低了检出率,尤其是少数类的检出率。所以在数据存在严重的类不平衡问题的情况下,可靠准确的检测出各种攻击行为仍然是一个巨大的挑战。
发明内容
本发明针对现有技术的不足,提供一种基于类不平衡处理技术的基于数据流的网络入侵检测模型。具体方案如下:
获取待识别的网络数据流;
将所述待识别的网络数据流输入到预先建立的基于一维卷积神经网络(1DCNN)的入侵检测模型中,输出网络数据流的检测结果;
其中,所述的网络入侵检测模型通过以下方式建立:
获取网络数据流样本,对数据流样本进行数据预处理;
使用SGM对预处理后的用于模型训练的样本进行类不平衡处理;
建立一个六层的卷积神经网络结构;其中有四个一维卷积层,两个全连接层;每两个卷积层后有一个一维最大池化层;除最后一个全连接层使用Softmax激活函数外,其余各层均使用Relu激活函数;
将处理后的网络数据流输入至所述网络结构进行训练,生成所述网络入侵检测模型。
基于上述,所述获取待识别的网络数据流的步骤,包括:使用抓包工具(如Wireshark,BurpSuite,Tcpump等)捕获网络数据流;提取原始数据流的流特征、基本特征、内容特征、时间特征、通用特征、连接特征等特征,得到特征提取后的网络数据流样本。
基于上述,所述对数据流样本进行数据预处理的步骤,包括:首先使用One-hot编码将样本数据中的非数值化特征转换为数值化特征;对样本中的缺失值(NaN)进行补零,对无穷大值(infinity)使用所在列最大值+1进行替换;删除一些对模型分类冗余和无意义的特征,如IP地址和端口号;然后根据
Figure BDA0002538514600000021
对样本数据x进行标准化,其中x'为标准化后的数据,μ和δ分别为样本数据的平均值和标准差;最后使用加权去噪自编码器(DenoisingAutoencoder,DAE)选择出少量重要的特征,用于最终模型训练。
基于上述,所述使用DAE进行特征选择,步骤为:DAE是一种将损坏数据作为输入,经过训练将原始数据的预测作为输出的特征的自动编码器。首先通过添加标准差为σ的噪声的方式损坏原始数据X,损坏过程可以定义为:
Figure BDA0002538514600000022
其中,I表示单位矩阵。然后根据变形后的数据构建原始样本的重构版本,重构误差使用均方误差表示,计算公式为:
Figure BDA0002538514600000023
其中,g(x)和sig(x)分别为解码函数和sigmoid激活函数,WE和bE分别为编码过程中的权重矩阵和偏置向量。通过比较WE行向量的l2范数可以找到最重要的特征,为了更好的选择,在DAE训练中使用l2,1正则化。正则化引起的损失表示为:
Figure BDA0002538514600000031
其中,Wij为权重矩阵WE第i行j列的元素,α是决定正则化强度的系数。
为了突出攻击类样本的重要性,将正常类样本和攻击类样本赋予不同的权重。如果正常类和攻击类分别用“0”和“1”表示,权重矩阵可定义为:
WL=(β-1)·Y+1 (4)
其中,矩阵Y是标签矩阵,1是一个元素值全为1的矩阵,β增加了攻击样本的权重系数。将加权矩阵集成到MSE损耗中,可得到基于DAE的特征选择器的最终损失函数,定义为:
Figure BDA0002538514600000032
在特征选择过程中,首先对DAE进行训练,最小化公式(5)中的损失函数;然后比较行向量的l2范数,选择k个最大值;根据行向量的索引选择特征,并存储选择结果。
基于上述,所述使用SGM对训练集D={Di,1,2,…,C}进行类不平衡处理的步骤,包括:首先计算统一实例数IResample,定义为:
Figure BDA0002538514600000033
其中,N是训练集的总样本数,C是训练集的总类别数。
对于训练集中的每个类别的数据Di,如果Di的样本数少于统一实例数IResample,则使用SMOTE方法将该类样本数过采样到与IResample平衡。如果Di的样本数大于统一实例数IResample,则首先使用GMM方法将Di聚类成C个簇,然后从每个簇中随机的选择出
Figure BDA0002538514600000041
个样本构成样本集Di'。此时Di'的样本数与IResample平衡。将不平衡处理后的各类数据整合到一起就得到了一个平衡的训练集D'。
基于上述,所述六层的卷积神经网络包括四个一维的卷积层和两个池化层。前两个卷积层均有32个过滤器,后面紧跟一个参数为0.2的Dropout层和一个参数为2的最大池化层。后两个卷积层均有64个过滤器,后面同样紧跟一个参数为0.2的Dropout层和一个参数为2的最大池化层。本发明采用两用卷积层堆叠的方法进行特征学习,这种卷积层堆叠的方式可以增强CNN的特征学习能力。与大尺寸卷积层相比,多个卷积层堆叠的方式具有更少的参数和更多的非线性变换。将数据展平后输入有32个神经单元的全连接层,最后使用神经单元数与类别数相同的全连接层进行分类。除了最后用于分类的全连接层使用Softmax作为激活函数外,其余各层均使用Relu激活函数。
本发明相对现有的技术具有突出的实质性特点和显著提高,具体地说,本发明提出了一种有效的基于SMOTE和GMM的基于数据流的网络入侵检测模型SGM-CNN。本发明提出了一种针对大规模数据的类不平衡处理技术:SGM。SGM首先使用SMOTE对少数类样本进行过采样,然后使用GMM对多数类样本进行基于聚类的降采样,最终平衡各个类别的数据。SGM方法不仅避免了过采样造成的昂贵的时间和空间成本,而且避免了随机降采样丢失重要样本的情况,显著提高了少数类的检测率。
附图说明
图1本发明网络入侵检测模型的架构。
具体实施方式
下面通过具体实施方式,对本发明的技术方案做进一步的详细描述。
如图1所示,一种基于类不平衡处理技术的网络入侵检测方法,该方法包括:
获取待识别的网络数据流;
将所述待识别的网络数据流输入到预先建立的基于一维卷积神经网络(1DCNN)的入侵检测模型中,输出网络数据流的检测结果。
所述基于类不平衡处理技术的网络入侵检测模型通过以下方式建立:
获取待识别的网络数据流,对数据流样本进行数据预处理。
具体的,采用如下方式对数据样本进行数据预处理:
(1)特征数值化:由于机器学习算法无法直接处理名词性特征,而提取到的一些特征属于名词性特征,如“proto”、“state”、“service”等特征的特征值均为名词性的字符串,而非数值特征。需要先将非数值化的特征数值化。本发明采用one-hot编码进行数值化。
(2)替换特殊值:对样本中的缺失值(NaN)用零替换;对无穷大值(infinity)使用所在列最大值+1进行替换。
(3)特征简约:删除一些对模型分类冗余和无意义的特征,如“srcip”、“dstip”、“sport”、“dsport”和时间戳等特征。
(4)标准化:标准化是将数据缩放到一个特定的区间,并消除数据的单位限制。可以提高模型的收敛速度和精度。本发明根据
Figure BDA0002538514600000051
对样本数据x进行标准化,其中x'为标准化后的数据,μ和δ分别为样本数据的平均值和标准差。将原始数据缩放到[-1,+1]之间,分布呈高斯分布。标准化后的数据与原始数据保持相同的线性关系。
(5)特征选择:网络流量数据规模十分庞大,特征选择可以以保留重要特征的方式减少数据维度,降低学习任务的难度。本发明使用DAE进行特征选择。DAE是一种将损坏数据作为输入,经过训练将原始数据的预测作为输出的特征的自动编码器。首先通过添加标准差为σ的噪声的方式损坏原始数据X,损坏过程可以定义为:
Figure BDA0002538514600000052
其中,I表示单位矩阵。然后根据变形后的数据构建原始样本的重构版本,重构误差使用均方误差表示,计算公式为:
Figure BDA0002538514600000053
其中,g(x)和sig(x)分别为解码函数和sigmoid激活函数,WE和bE分别为编码过程中的权重矩阵和偏置向量。通过比较WE行向量的l2范数可以找到最重要的特征,为了更好的选择,在DAE训练中使用l2,1正则化。正则化引起的损失表示为:
Figure BDA0002538514600000061
其中,Wij为权重矩阵WE第i行j列的元素,α是决定正则化强度的系数。
为了突出攻击类样本的重要性,将正常类样本和攻击类样本赋予不同的权重。如果正常类和攻击类分别用“0”和“1”表示,权重矩阵可定义为:
WL=(β-1)·Y+1 (4)
其中,矩阵Y是标签矩阵,1是一个元素值全为1的矩阵,β增加了攻击样本的权重系数。将加权矩阵集成到MSE损耗中,可得到基于DAE的特征选择器的最终损失函数,定义为:
Figure BDA0002538514600000062
在特征选择过程中,首先对DAE进行训练,最小化公式(5)中的损失函数;然后比较行向量的l2范数,选择k个最大值;根据行向量的索引选择特征,并存储选择结果。
对获取到的网络流量数据进行数据预处理后,将数据集按照训练集:验证集:测试集=7:1:2的比例分裂为三个数据子集。之后使用SGM方法仅对训练集样本D={Di,1,2,…,C}进行类不平衡处理。首先计算统一实例数IResample,定义为:
Figure BDA0002538514600000063
其中,N是训练集的总样本数,C是训练集的总类别数。对于训练集中的每个类别的数据Di,如果Di的样本数少于统一实例数IResample,则使用SMOTE方法将该类样本数过采样到与IResample平衡。如果Di的样本数大于统一实例数IResample,则首先使用GMM方法将Di聚类成C个簇,然后从每个簇中随机的选择出
Figure BDA0002538514600000071
个样本构成样本集Di'。此时Di'的样本数与IResample平衡。将不平衡处理后的各类数据整合到一起就得到了一个平衡的训练集D'。SGM方法既能避免单纯使用过采样造成的时间和空间成本过高,又能防止随机降采样丢失重要样本的情况,而且能显著提高少数类的检测率。算法1为SGM方法的伪代码。
Figure BDA0002538514600000072
构建的六层的卷积神经网络包括四个一维的卷积层和两个池化层。前两个卷积层均有32个过滤器,后面紧跟一个参数为0.2的Dropout层和一个参数为2的最大池化层。后两个卷积层均有64个过滤器,后面同样紧跟一个参数为0.2的Dropout层和一个参数为2的最大池化层。将数据展平后输入有32个神经单元的全连接层,最后使用神经单元数与类别数相同的全连接层进行分类。除了最后用于分类的全连接层使用Softmax作为激活函数外,其余各层均使用Relu激活函数。
具体的网络入侵检测模型网络参数设置:
SGM-CNN超参数的优化是一个重要组成部分。在卷积神经网络中,卷积层中卷积核个数直接影响着模型的结果。为了得到一个较优的CNN模型,本发明在经过特征选择之后的UNSW-NB15数据集上进行了一组二分类实验。在该组实验中,仅改变卷积核的个数,其它参数均不变。其中,第一个全连接层的神经单元个数为32,输出层有两个神经单元,优化算法使用“nadam”,学习率为0.008,损失函数采用“categorical_crossentropy”。实验结果显示,当四个卷积层卷积核个数分别为32、32、64和64时网络性能最优。
有研究证实,nadam是目前性能最好的优化算法,但不同的学习率也会影响模型效果。本发明对不同值的学习率也做了对比实验,保持卷积核个数(32-32-64-64)和其它参数不变,将学习率的值分别设置为0.5、0.1、0.05、0.03、0.01、0.008、0.005、0.002和0.0005。实验结果显示,几个不同学习率下Accuracy值没有太大变化,综合各指标考虑,当学习率为0.008时,模型的性能较优,故本发明在最终的模型中使用的学习率值为0.008。
在所述网络入侵检测模型训练过程中,epochs设置为100,batch_size设置为256。本发明采用的CNN模型结构和参数设置如表1所示。四个一维卷积层的卷积核个数分别为32-32-64-64。本发明采用两用卷积层堆叠的方法进行特征学习,这种卷积层堆叠的方式可以增强CNN的特征学习能力。与大尺寸卷积层相比,多个卷积层堆叠的方式具有更少的参数和更多的非线性变换。最大池化层将卷积层的参数下采样2倍。除输出层使用Softmax激活函数外,其余层均使用Relu激活函数。此外,在每个池化层后面我们还加入了参数为0.2的Dropout层来防止过拟合。表1中参数F为输入模型的数据集的特征数;最终输出的参数个数C代表类别数。
表1 CNN模型结构和参数设置
Figure BDA0002538514600000081
验证实验
实验使用了两个公开的数据集:UNSW-NB15数据集和CICIDS2017数据集。UNSW-NB15数据集是由澳大利亚网络安全中心(ACCS)的网络安全研究小组整理收集的。CICIDS2017数据集是由加拿大网络安全研究所在2017年底收集整理的。本发明使用DAE在UNSW-NB15数据集中选择出了12个较重要的特征;经过数据预处理后CICIDS2017数据集共有77个特征。
本发明方法的目的是识别出网络数据流中的攻击类样本。在UNSW-NB15数据集的二分类实验中,为了显示本发明提出的SGM方法的有效性,共对比了五种不同的类不平衡处理技术,包括ROS、SMOTE、ADASYN三种著名的过采样技术,以及用RUS、K-means替换算法1中的GMM用于降采样。
如表2所示,在UNSW-NB15数据集的二分类实验中,基于所设计的卷积神经网络对比了包括SGM方法在内的六种类不平衡处理技术。实验结果表明,当使用SGM方法进行类不平衡处理时,二分类实验结果最优,ACC为98.82%,DR为99.74%,FAR为1.31%,Precision为91.66%,F1score为95.53%。且SGM方法的时间成本远小于SMOTE的时间成本。
表2 UNSW-NB15数据集的二分类实验结果(%)
Figure BDA0002538514600000091
如表3所示,在UNSW-NB15数据集的多分类实验中,共对比了包括SGM在内的五种不同的类不平衡处理方法。其中表3重点列出了每个类别的检出率。由表3可以看出,经过类不平衡处理后的CNN模型能显著提高攻击类的检出率,尤其是“Backdoor”、“Shellcode”和“Worms”。由整体精度来看,SGM方法的效果最优,DR、Precision和F_measure分别为96.54%、98.30%和97.26%。SGM方法在精度上略优于SMOTE,而且SGM方法大大缩短了测试时间,由SMOTE的52.63s缩短到了8.26s。在本组实验中,单独使用过采样的方法优于RUS/K-means降采样和SMOTE的组合,但都不如基于GMM聚类降采样和SMOTE的组合。
表3 CNN分类算法在UNSW-NB15数据集上的多分类检出率(%)
Figure BDA0002538514600000101
为了验证本发明所提出SGM-CNN网络结构在不同数据集上的普适性,分析了该网络在CICIDS2017数据集上的多分类实验结果,对比结果如表4所示。由表4的与其它方法的对比可以看出,在CICIDS2017数据集上,SGM-CNN也得到了最优的分类结果,ACC为99.85%。这证明了本发明提出的SGM-CNN方法可以推广到不同的数据集上。
表4 CNN分类算法在CICIDS2017数据集上的多分类检出率(%)
Figure BDA0002538514600000102
Figure BDA0002538514600000111
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制;尽管参照较佳实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者对部分技术特征进行等同替换;而不脱离本发明技术方案的精神,其均应涵盖在本发明请求保护的技术方案范围当中。

Claims (6)

1.一种基于数据流的网络入侵检测方法SGM-CNN,其特征在于,该方法包括:
获取待识别的网络数据流;
将所述待识别的网络数据流输入到预先建立的基于一维卷积神经网络(1DCNN)的入侵检测模型中,输出网络数据流的检测结果;
其中,所述的网络入侵检测模型通过以下方式建立:
获取网络数据流样本,对数据流样本进行数据预处理;
使用SGM对预处理后的用于模型训练的样本进行类不平衡处理;
建立一个六层的卷积神经网络结构;其中有四个一维卷积层,两个全连接层;每两个卷积层后有一个一维最大池化层;除最后一个全连接层使用Softmax激活函数外,其余各层均使用Relu激活函数;
将处理后的网络数据流输入至所述网络结构进行训练,生成所述网络入侵检测模型。
2.根据权利要求1所述的基于数据流的网络入侵检测方法SGM-CNN,其特征在于,所述获取待识别的网络数据流的步骤,包括:使用抓包工具(如Wireshark,BurpSuite,Tcpump等)捕获网络数据流;提取原始数据流的流特征、基本特征、内容特征、时间特征、通用特征、连接特征等特征,得到特征提取后的网络数据流样本。
3.根据权利要求1所述的基于数据流的网络入侵检测方法SGM-CNN,其特征在于,所述对数据流样本进行数据预处理的步骤,包括:首先使用One-hot编码将样本数据中的非数值化特征转换为数值化特征;对样本中的缺失值(NaN)进行补零,对无穷大值(infinity)使用所在列最大值+1进行替换;删除一些对模型分类冗余和无意义的特征,如IP地址和端口号;然后根据
Figure FDA0002538514590000011
对样本数据x进行标准化,其中x'为标准化后的数据,μ和δ分别为样本数据的平均值和标准差;最后使用加权去噪自编码器(Denoising Autoencoder,DAE)选择出少量重要的特征,用于最终模型训练。
4.根据权利要求3所述的基于数据流的网络入侵检测方法SGM-CNN,其特征在于,所述使用DAE进行特征选择,步骤为:DAE是一种将损坏数据作为输入,经过训练将原始数据的预测作为输出的特征的自动编码器。首先通过添加标准差为σ的噪声的方式损坏原始数据X,损坏过程可以定义为:
Figure FDA0002538514590000021
其中,I表示单位矩阵。然后根据变形后的数据构建原始样本的重构版本,重构误差使用均方误差表示,计算公式为:
Figure FDA0002538514590000022
其中,g(x)和sig(x)分别为解码函数和sigmoid激活函数,WE和bE分别为编码过程中的权重矩阵和偏置向量。通过比较WE行向量的l2范数可以找到最重要的特征,为了更好的选择,在DAE训练中使用l2,1正则化。正则化引起的损失表示为:
Figure FDA0002538514590000023
其中,Wij为权重矩阵WE第i行j列的元素,α是决定正则化强度的系数。
为了突出攻击类样本的重要性,将正常类样本和攻击类样本赋予不同的权重。如果正常类和攻击类分别用“0”和“1”表示,权重矩阵可定义为:
WL=(β-1)·Y+1 (4)
其中,矩阵Y是标签矩阵,1是一个元素值全为1的矩阵,β增加了攻击样本的权重系数。将加权矩阵集成到MSE损耗中,可得到基于DAE的特征选择器的最终损失函数,定义为:
Figure FDA0002538514590000024
在特征选择过程中,首先对DAE进行训练,最小化公式(5)中的损失函数;然后比较行向量的l2范数,选择k个最大值;根据行向量的索引选择特征,并存储选择结果。
5.根据权利要求1所述的基于数据流的网络入侵检测方法SGM-CNN,其特征在于,使用SGM对训练集D={Di,1,2,…,C}进行类不平衡处理的步骤,包括:首先计算统一实例数IResample,定义为:
Figure FDA0002538514590000031
其中,N是训练集的总样本数,C是训练集的总类别数。
对于训练集中的每个类别的数据Di,如果Di的样本数少于统一实例数IResample,则使用SMOTE方法将该类样本数过采样到与IResample平衡。如果Di的样本数大于统一实例数IResample,则首先使用GMM方法将Di聚类成C个簇,然后从每个簇中随机的选择出
Figure FDA0002538514590000032
个样本构成样本集Di'。此时Di'的样本数与IResample平衡。将不平衡处理后的各类数据整合到一起就得到了一个平衡的训练集D'。
6.根据权利要求1所述的基于数据流的网络入侵检测方法SGM-CNN,其特征在于,所述的六层的卷积神经网络包括四个一维的卷积层和两个池化层。前两个卷积层均有32个过滤器,后面紧跟一个参数为0.2的Dropout层和一个参数为2的最大池化层。后两个卷积层均有64个过滤器,后面同样紧跟一个参数为0.2的Dropout层和一个参数为2的最大池化层。本发明采用两用卷积层堆叠的方法进行特征学习,这种卷积层堆叠的方式可以增强CNN的特征学习能力。与大尺寸卷积层相比,多个卷积层堆叠的方式具有更少的参数和更多的非线性变换。将数据展平后输入有32个神经单元的全连接层,最后使用神经单元数与类别数相同的全连接层进行分类。除了最后用于分类的全连接层使用Softmax作为激活函数外,其余各层均使用Relu激活函数。
CN202010539812.9A 2020-06-15 2020-06-15 基于类不平衡处理的网络入侵检测模型sgm-cnn Withdrawn CN111740971A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010539812.9A CN111740971A (zh) 2020-06-15 2020-06-15 基于类不平衡处理的网络入侵检测模型sgm-cnn

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010539812.9A CN111740971A (zh) 2020-06-15 2020-06-15 基于类不平衡处理的网络入侵检测模型sgm-cnn

Publications (1)

Publication Number Publication Date
CN111740971A true CN111740971A (zh) 2020-10-02

Family

ID=72649099

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010539812.9A Withdrawn CN111740971A (zh) 2020-06-15 2020-06-15 基于类不平衡处理的网络入侵检测模型sgm-cnn

Country Status (1)

Country Link
CN (1) CN111740971A (zh)

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112491797A (zh) * 2020-10-28 2021-03-12 北京工业大学 一种基于非平衡工控数据集的入侵检测方法及系统
CN112613536A (zh) * 2020-12-08 2021-04-06 燕山大学 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN112688911A (zh) * 2020-11-03 2021-04-20 桂林理工大学 一种基于PCA+ADASYN和Xgboost的网络入侵检测系统
CN112862000A (zh) * 2021-03-17 2021-05-28 中山大学 一种基于协同表示的样本不平衡分类方法
CN113033614A (zh) * 2021-02-27 2021-06-25 中国人民解放军战略支援部队信息工程大学 网络流量数据处理方法及系统
CN113098862A (zh) * 2021-03-31 2021-07-09 昆明理工大学 一种基于混合采样与膨胀卷积相结合的入侵检测方法
CN113194094A (zh) * 2021-04-29 2021-07-30 哈尔滨工程大学 一种基于神经网络的异常流量检测方法
CN113313138A (zh) * 2021-04-09 2021-08-27 中国烟草总公司郑州烟草研究院 基于概率生成模型的入侵行为特征转换方法、检测方法
CN113542241A (zh) * 2021-06-30 2021-10-22 杭州电子科技大学 一种基于CNN-BiGRU混合模型的入侵检测方法及装置
CN113762005A (zh) * 2020-11-09 2021-12-07 北京沃东天骏信息技术有限公司 特征选择模型的训练、对象分类方法、装置、设备及介质
CN113901448A (zh) * 2021-09-03 2022-01-07 燕山大学 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
CN114710306A (zh) * 2021-04-15 2022-07-05 郑州大学 基于LightGBM算法和卷积神经网络的两阶段细粒度网络入侵检测模型
CN115174268A (zh) * 2022-09-05 2022-10-11 北京金睛云华科技有限公司 基于结构化正则项的入侵检测方法
KR102518394B1 (ko) 2021-09-30 2023-04-05 단국대학교 산학협력단 설명 가능한 딥러닝 분석을 활용한 멀웨어 패밀리 분류 네트워크 시스템
CN116015787A (zh) * 2022-12-14 2023-04-25 西安邮电大学 基于混合持续变分量子神经网络的网络入侵检测方法
CN116340006A (zh) * 2023-05-26 2023-06-27 江苏网进科技股份有限公司 一种基于深度学习的算力资源空闲预测方法和存储介质
CN116827607A (zh) * 2023-06-02 2023-09-29 广州大学 一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法
CN117579324A (zh) * 2023-11-14 2024-02-20 湖北华中电力科技开发有限责任公司 基于门控时间卷积网络与图的入侵检测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
H. ZHANG等: ""An effective deep learning based scheme for network intrusion detection"", 《2018 24TH INTERNATIONAL CONFERENCE ON PATTERN RECOGNITION (ICPR)》 *
ZHANG H等: ""An effective convolutional neural network based on SMOTE and Gaussian mixture model for intrusion detection in imbalanced dataset"", 《COMPUTER NETWORKS》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112491797A (zh) * 2020-10-28 2021-03-12 北京工业大学 一种基于非平衡工控数据集的入侵检测方法及系统
CN112688911A (zh) * 2020-11-03 2021-04-20 桂林理工大学 一种基于PCA+ADASYN和Xgboost的网络入侵检测系统
CN112688911B (zh) * 2020-11-03 2023-04-18 桂林理工大学 一种基于PCA+ADASYN和Xgboost的网络入侵检测系统
CN113762005A (zh) * 2020-11-09 2021-12-07 北京沃东天骏信息技术有限公司 特征选择模型的训练、对象分类方法、装置、设备及介质
CN112613536A (zh) * 2020-12-08 2021-04-06 燕山大学 一种基于smote和深度学习的近红外光谱柴油牌号识别方法
CN113033614A (zh) * 2021-02-27 2021-06-25 中国人民解放军战略支援部队信息工程大学 网络流量数据处理方法及系统
CN112862000A (zh) * 2021-03-17 2021-05-28 中山大学 一种基于协同表示的样本不平衡分类方法
CN112862000B (zh) * 2021-03-17 2023-09-15 中山大学 一种基于协同表示的样本不平衡分类方法
CN113098862A (zh) * 2021-03-31 2021-07-09 昆明理工大学 一种基于混合采样与膨胀卷积相结合的入侵检测方法
CN113313138A (zh) * 2021-04-09 2021-08-27 中国烟草总公司郑州烟草研究院 基于概率生成模型的入侵行为特征转换方法、检测方法
CN114710306A (zh) * 2021-04-15 2022-07-05 郑州大学 基于LightGBM算法和卷积神经网络的两阶段细粒度网络入侵检测模型
CN113194094B (zh) * 2021-04-29 2022-07-15 哈尔滨工程大学 一种基于神经网络的异常流量检测方法
CN113194094A (zh) * 2021-04-29 2021-07-30 哈尔滨工程大学 一种基于神经网络的异常流量检测方法
CN113542241A (zh) * 2021-06-30 2021-10-22 杭州电子科技大学 一种基于CNN-BiGRU混合模型的入侵检测方法及装置
CN113901448A (zh) * 2021-09-03 2022-01-07 燕山大学 基于卷积神经网络和轻量级梯度提升机的入侵检测方法
KR102518394B1 (ko) 2021-09-30 2023-04-05 단국대학교 산학협력단 설명 가능한 딥러닝 분석을 활용한 멀웨어 패밀리 분류 네트워크 시스템
CN115174268A (zh) * 2022-09-05 2022-10-11 北京金睛云华科技有限公司 基于结构化正则项的入侵检测方法
CN116015787A (zh) * 2022-12-14 2023-04-25 西安邮电大学 基于混合持续变分量子神经网络的网络入侵检测方法
CN116340006A (zh) * 2023-05-26 2023-06-27 江苏网进科技股份有限公司 一种基于深度学习的算力资源空闲预测方法和存储介质
CN116340006B (zh) * 2023-05-26 2024-05-17 江苏网进科技股份有限公司 一种基于深度学习的算力资源空闲预测方法和存储介质
CN116827607A (zh) * 2023-06-02 2023-09-29 广州大学 一种集成XGBoost和LightGBM模型的车载CAN总线入侵检测算法
CN117579324A (zh) * 2023-11-14 2024-02-20 湖北华中电力科技开发有限责任公司 基于门控时间卷积网络与图的入侵检测方法
CN117579324B (zh) * 2023-11-14 2024-04-16 湖北华中电力科技开发有限责任公司 基于门控时间卷积网络与图的入侵检测方法

Similar Documents

Publication Publication Date Title
CN111740971A (zh) 基于类不平衡处理的网络入侵检测模型sgm-cnn
CN109768985B (zh) 一种基于流量可视化与机器学习算法的入侵检测方法
CN110287983B (zh) 基于最大相关熵深度神经网络单分类器异常检测方法
CN111556016B (zh) 一种基于自动编码器的网络流量异常行为识别方法
CN109522926A (zh) 基于信息熵聚类的异常检测方法
CN114172748A (zh) 一种加密恶意流量检测方法
CN111901340B (zh) 一种面向能源互联网的入侵检测系统及其方法
CN109446804B (zh) 一种基于多尺度特征连接卷积神经网络的入侵检测方法
CN114492768B (zh) 一种基于小样本学习的孪生胶囊网络入侵检测方法
CN111695597A (zh) 基于改进式孤立森林算法的信贷欺诈团伙识别方法和系统
CN113918367A (zh) 一种基于注意力机制的大规模系统日志异常检测方法
CN113098862A (zh) 一种基于混合采样与膨胀卷积相结合的入侵检测方法
CN111507385A (zh) 一种可扩展的网络攻击行为分类方法
CN112615881B (zh) 一种基于区块链的数据流检测系统
CN112134862A (zh) 基于机器学习的粗细粒度混合网络异常检测方法及装置
Zheng Intrusion detection based on convolutional neural network
CN115277888B (zh) 一种移动应用加密协议报文类型解析方法及系统
CN113556319A (zh) 物联网下基于长短期记忆自编码分类器的入侵检测方法
CN116582300A (zh) 基于机器学习的网络流量分类方法及装置
CN113609480B (zh) 基于大规模网络流的多路学习入侵检测方法
CN116756225B (zh) 一种基于计算机网络安全的态势数据信息处理方法
CN113132291B (zh) 一种边缘侧基于网络流量的异构终端特征生成及识别方法
CN112422546A (zh) 一种基于变邻域算法和模糊聚类的网络异常检测方法
CN111797997A (zh) 网络入侵检测方法、模型构建方法、装置及电子设备
CN115982722B (zh) 一种基于决策树的漏洞分类检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20201002