CN114978613B - 基于数据增强和自监督特征增强的网络入侵检测方法 - Google Patents

基于数据增强和自监督特征增强的网络入侵检测方法 Download PDF

Info

Publication number
CN114978613B
CN114978613B CN202210473224.9A CN202210473224A CN114978613B CN 114978613 B CN114978613 B CN 114978613B CN 202210473224 A CN202210473224 A CN 202210473224A CN 114978613 B CN114978613 B CN 114978613B
Authority
CN
China
Prior art keywords
network
self
data set
data
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210473224.9A
Other languages
English (en)
Other versions
CN114978613A (zh
Inventor
行鸿彦
梁欣怡
侯天浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Information Science and Technology
Original Assignee
Nanjing University of Information Science and Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Information Science and Technology filed Critical Nanjing University of Information Science and Technology
Priority to CN202210473224.9A priority Critical patent/CN114978613B/zh
Publication of CN114978613A publication Critical patent/CN114978613A/zh
Application granted granted Critical
Publication of CN114978613B publication Critical patent/CN114978613B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/14Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic
    • H04L63/1408Network architectures or network communication protocols for network security for detecting or protecting against malicious traffic by monitoring network traffic
    • H04L63/1416Event detection, e.g. attack signature detection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/16Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks using machine learning or artificial intelligence
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/20Network architectures or network communication protocols for network security for managing network security; network security policies in general
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/50Reducing energy consumption in communication networks in wire-line communication networks, e.g. low power modes or reduced link rate

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Security & Cryptography (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Hardware Design (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)

Abstract

本发明公开了基于数据增强和自监督特征增强的网络入侵检测方法,该方法包括:对数据进行预处理,预处理后的数据集包括正常样本和攻击类样本,使用自编码器对攻击类样本进行数据增强,扩充攻击类样本数;构建CNN‑BiLSTM神经网络和自编码器组成半自监督模型分别提取高维流量特征和自监督特征;将特征增强后的组合特征作为最终特征输入到分类模型中进行预测,对网络流量进行分类判断其是否是攻击流量,实现网络入侵检测的功能。本方法对攻击类样本进行数据增强的同时,还利用自监督模型提取自监督特征对流量特征进行增强,辅助CNN‑BiLSTM网络完成后续的分类任务,进一步提高了网络入侵的检测精度,提高了对未知攻击的检测功能,降低了误报率。

Description

基于数据增强和自监督特征增强的网络入侵检测方法
技术领域
本发明涉及网络技术领域,具体涉及基于数据增强和自监督特征增强的网络入侵检测方法。
背景技术
随着互联网技术的快速发展,我国已然进入信息化大数据时代。物联网,云计算等互联网新技术的应用在给人们带来巨大便利的同时,也让人们处在网络安全隐患威胁当中。特别是数据泄露、网络入侵等网络安全问题日益严峻,引起了人们对网络安全的高度重视。
尽管网络入侵检测技术已经发展了数十年,但是现有的网络入侵检测技术仍然面临着日益复杂的互联网攻击和海量数据入侵检测的挑战,准确检测异常流量对于网络安全性和可靠性尤为重要,现有的基于传统的机器学习方法是简单的浅层特征学习,面对大规模高维网络流量数据,往往需要进行复杂的特征提取工程,且准确率较低。而深度学习网络不需要复杂的特征工程就可以自动进行高维数据的特征选择,更适合用于网络入侵检测。
在目前使用自编码器网络的网络入侵检测模型中,绝大多数自编码器网络用于降维或者数据增强,然而自编码器作为自监督模型的一种,最主要的目的就是学习到更丰富的信息表征。实际上我们不仅可以用自编码器进行数据增强扩充攻击流量的数量,还可以用自编码器从原始网络中学习到更丰富的特征以增加流量的特征信息对流量特征进行增强。
虽然现有的基于数据增强的网络入侵检测模型有很多,但是应用于网络入侵检测中的特征增强还鲜少有学者进行研究。本发明在对攻击流量样本进行数据增强的同时还采用半自监督模型对流量特征进行增强。
发明内容
本发明目的:在于提供基于数据增强和自监督特征增强的网络入侵检测方法,设计了一种自编码器对攻击类流量进行流量数据扩充,解决了攻击类样本不足的问题,将扩充后的网络流量数据样本输入到所设计的CNN-BiLSTM神经网络中训练提取高维时空流量特征,并且通过自编码器网络从原始网络流量数据样本中学习更丰富的信息表征进行特征增强,生成自监督特征,将高维时空流量特征和自监督特征形成的组合特征输入分类网络进行分类;该方法能够有效提高网络入侵的检测精度,提高了对未知攻击的检测功能,降低了误报率。
为实现以上功能,本发明设计基于数据增强和自监督特征增强的网络入侵检测方法,基于数据增强和自监督特征增强的网络入侵检测方法,按预设周期执行步骤S1-步骤S4,获得网络入侵检测模型,然后应用网络入侵检测模型,对网络流量进行分类,实现网络入侵检测的功能;
S1:对网络流量数据集做数据分析,根据数据分析结果进行数据预处理,数据预处理方法具体包括:对网络流量数据集进行标准化处理,即采用独热编码将符号特征转换成数值特征表示;并使用四分位距异常值处理算法,对数值特征进行异常值处理;对经过标准化和异常值处理后的数据集进行Min-Max Scaling将数值归一化到0到1之间。以网络流量数据集中的网络流量样本为输入,以经过预处理的网络流量数据集中的网络流量样本为输出,构建网络流量数据预处理模块;
S2:网络流量数据集包括训练数据集、测试数据集,训练数据集、测试数据集中的网络流量样本包括攻击类样本,以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入,构建数据增强自编码器网络对攻击类样本进行数据增强处理,生成预设数量的攻击类样本,基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本,构建最终训练数据集,并输出最终训练数据集,构建攻击类样本增强模块;
S3:以步骤S2所获得的最终训练数据集中的网络流量样本为输入,基于CNN-BiLSTM神经网络和特征增强自编码器网络构建半自监督模型,并应用半自监督模型进行特征提取,以提取到的高维时空流量特征和自监督特征作为输出,构建半自监督特征提取模块;
S4:将半自监督特征提取模块输出的高维时空流量特征和自监督特征合并,获得特征增强后的最终特征,输入到分类网络中进行预测分类,并结合分类结果,采用自定义的损失函数作为评估标准对半自监督模型进行预设次数的迭代训练,对半自监督模型参数进行更新,获得网络入侵检测模型,实现网络入侵检测的功能。
作为本发明的一种优选技术方案:步骤S1中构建网络流量数据预处理模块的具体步骤如下:
S11:网络流量数据集包含的特征类型为数值特征和符号特征,对网络流量数据集进行标准化处理,基于独热编码方法将符号特征转换成数值特征表示。
基于四分位距的异常值处理算法,根据预设步骤S12-S14对于数值特征进行异常值处理:
S12:计算网络流量数据集每个数值特征所有数据的第一四分位数Q1和第三四分位数Q3,根据公式(1)计算每个数值特征所有数据的四分位距IQR;
IQR=Q3-Q1 (1)
S13:基于网络流量数据集中每个数值特征所有数据的第三四分位数Q3和四分位距IQR,根据公式(2)计算网络流量样本的异常值边界OF;
OF=Q3+1.5*IQR (2)
S14:基于步骤S13得到的四分位距IQR和异常值边界OF,提出一种异常值处理算法,其简化形式如公式(3)所示,并应用该异常值处理算法对网络流量数据集进行异常值处理:
Figure GDA0004178993450000031
式(3)中x为网络流量数据集中其中一个数值特征对应的数据,OF为该数值特征所有数据的异常值边界;
S15:基于Min-Max Scaling方法,根据公式(4)对经过标准化处理和异常值处理后的网络流量数据集进行归一化处理:
Figure GDA0004178993450000032
式(4)中,x为网络流量数据集中其中一个数值特征对应的数据,xmax为数值特征对应数据中的最大值,xmin为数值特征对应数据中的最小值,x*表示归一化后的数值特征对应数据。
作为本发明的一种优选技术方案:步骤S2中以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入,构建数据增强自编码器网络对攻击类样本进行数据增强处理,生成预设数量的攻击类样本,基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本,构建最终训练数据集,并输出最终训练数据集,构建攻击类样本增强模块的具体步骤如下:
S21:将经过预处理的训练数据集中的攻击类样本xi输入到数据增强自编码器中,输出攻击类样本对应的重构样本
Figure GDA0004178993450000041
基于攻击类样本及其对应的重构样本经过log_softmax分类器和softmax分类器的数据分布,计算出KL散度,MSE损失,并结合KL散度和MSE损失,构建自定义损失函数L1,具体如公式(5),(6),(7)所示:
Figure GDA0004178993450000042
Figure GDA0004178993450000043
L1=0.5MSE+0.5DKL1 (7)
其中,xi为第i个经过预处理的攻击类样本,其中攻击类样本的总数为n,
Figure GDA0004178993450000045
为攻击类样本xi所对应的重构样本,p1(xi)为攻击类样本xi经过log_softmax分类器的数据分布,q1(xi)为重构样本经过softmax分类器的数据分布,DKL1表示p1(xi)和q1(xi)两个分布之间的KL散度,MSE表示攻击类样本xi和重构样本/>
Figure GDA0004178993450000044
之间的MSE损失,L1表示结合KL散度和MSE损失提出的自定义损失函数;
S22:基于输入的攻击类样本以及输出的重构样本,采用步骤S21所构建的自定义损失函数L1对数据增强自编码器网络进行预设次数的迭代训练,将迭代中损失函数L1的最小值所对应的网络参数保存下来,作为最佳数据增强模型。
S23:基于数据增强自编码器网络,加载步骤S22所获得的最佳模型对训练数据集中的攻击类样本进行数据增强,生成预设数量的攻击类样本;
S24:将S23所获得的预设数量的攻击类样本与步骤S1所获得的经过数据预处理的网络流量数据集中的训练数据集合并,构建最终训练数据集。
作为本发明的一种优选技术方案:步骤S3中以步骤S2所获得的最终训练数据集为输入,基于CNN-BiLSTM神经网络和特征增强自编码器网络,构建半自监督模型,并应用半自监督模型进行特征提取,以提取高维时空流量特征和自监督特征作为输出,构建半自监督特征提取模块的具体步骤如下:
S31:将最终训练数据集中网络流量样本的一维数值特征转换成二维数值特征输入CNN神经网络,提取网络流量样本的空间特征,再通过全连接层整合输入到BiLSTM网络提取网络流量样本的时间特征,最终输出提取到的高维时空流量特征;
S32:将最终训练数据集中的网络流量样本的数值特征输入特征增强自编码器网络,获得训练数据集中的网络流量样本的自监督特征。
作为本发明的一种优选技术方案:步骤S4中将半自监督特征提取模块输出的网络流量样本的高维时空流量特征和自监督特征合并,获得各网络流量样本的最终特征,输入到分类网络中进行预测分类,采用自定义的损失函数L2作为评估标准对半自监督模型进行预设次数的迭代训练,并更新半自监督模型参数,获得网络入侵检测模型,实现网络入侵检测功能具体步骤如下:
S41:将半自监督特征提取模块输出的网络流量样本的高维时空流量特征和自监督特征合并,得到网络流量样本的最终特征;
S42:基于最终训练数据集中的网络流量样本的数值特征xi′及其通过特征增强自编码器生成的自监督特征
Figure GDA0004178993450000051
经过log_softmax分类器和softmax分类器的数据分布,计算出两个数据分布间的KL散度,预测分类值和真实类别之间的交叉熵损失,并结合KL散度和交叉熵损失,构建自定义损失函数L2,具体如公式(8),(9),(10)所示:
Figure GDA0004178993450000052
Figure GDA0004178993450000053
L2=0.8Lc+0.2DKL2 (10)
式中,xi′表示最终训练数据集中的第i个网络流量样本的数值特征,其中网络流量数据样本总数为N,p2(xi′)为网络流量样本的数值特征xi′经过log_softmax分类器处理后的数据分布,q2(xi′)为自监督特征xi′经过softmax分类网络处理后的数据分布,DKL2表示p2(xi′)和q2(xi′)两个数据分布之间的KL散度,Lc表示预测分类值和真实类别之间的交叉熵损失,yi为第i个网络流量样本所对应的标签,其中攻击类样本标签为1,正常样本标签为0,Pi为第i个网络流量样本被预测为攻击类样本的概率,L2表示结合KL散度和交叉熵损失提出的自定义损失函数;
S43:以步骤S42所构建的自定义损失函数L2作为评估标准,对半自监督模型进行预设次数的迭代训练更新模型参数,保存最佳模型作为最终的网络入侵检测模型;
S44:将网络流量数据集中的测试数据集中的网络流量样本输入步骤S44所获得的最佳半自监督模型中进行分类,输出各网络流量数据样本分别所对应的分类结果,检验所提网络入侵检测模型的性能。
有益效果:相对于现有技术,本发明的优点包括:
本发明设计了基于数据增强和自监督特征增强的网络入侵检测方法,其中数据预处理阶段除了采用常规的符号特征数值化和归一化处理之外,还提出一种异常值处理算法以避免离群值检测结果的影响,接着对攻击类样本进行数据增强,生成攻击类样本进行数据平衡,并将CNN-BiLSTM模型提取的高维流量特征和自编码器生成的自监督特征组合输入到分类网络进行识别分类,该方法不仅通过数据增强解决攻击类样本不足的问题,而且通过半自监督模型特征增强生成的组合特征克服流量特征不足的问题,能够有效提高网络入侵的检测精度,提高了对未知攻击的检测功能,降低了误报率。
附图说明
图1是根据本发明实施例提供的网络入侵检测模型结构图;
图2是根据本发明实施例提供的基于数据增强和自监督特征增强的网络入侵检测方法的训练流程示意图;
图3是根据本发明实施例提供的CNN-BiLSTM神经网络结构图;
图4是根据本发明实施例提供的数据增强自编码器网络和特征增强自编码器网络结构图。
具体实施方式
下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
参照图1、图2,本发明实施例提供的基于数据增强和自监督特征增强的网络入侵检测方法,其特征在于,按预设周期执行步骤S1-步骤S4,获得网络入侵检测模型,然后应用网络入侵检测模型,对网络流量进行分类,实现网络入侵检测的功能;
S1:对网络流量数据集做数据分析,根据数据分析结果进行数据预处理,数据预处理方法具体包括:对网络流量数据集进行标准化处理,即采用独热编码将符号特征转换成数值特征表示;并使用四分位距(IQR)异常值处理算法,对数值特征进行异常值处理;对经过标准化和异常值处理后的数据集进行Min-Max Scaling将数值归一化到0到1之间。以网络流量数据集中的网络流量样本为输入,以经过预处理的网络流量数据集中的网络流量样本为输出,构建网络流量数据预处理模块;
本发明实施例所采用的网络流量数据集为NSL-KDD数据集,其中NSL-KDD数据集的特点如下:
NSL-KDD数据集包含训练数据集KDDTrain+和测试数据集KDDTest+。KDDTrain+和KDDTest+都包含多个类标签,本方法中只需要进行二分类任务,即判断网络流量数据样本是正常流量还是异常流量,异常流量即代表受到攻击,对数据集标签进行替换。KDDTrain+数据集包含总共125,973条记录,即67,343条“正常”记录和58,630条“异常”记录。KDDTest+包含总共22,544条记录,即9,711条“正常”记录和12833个“异常”记录。其中每一条流量记录包含41维特征。
步骤S1中构建网络流量数据预处理模块的具体步骤如下:
S11:网络流量数据集包含的特征类型为数值特征和符号特征,对网络流量数据集进行标准化处理,基于独热编码方法将符号特征转换成数值特征表示。
NSL-KDD数据集包括38个数值特征和3个符号特征,3个符号特征分别为protocol_type特征、service特征、flag特征,基于独热编码,将protocol_type特征转化为3个与其对应的数值特征,将service特征转化为70个与其对应的数值特征,将flag特征转化为11个与其对应的数值特征,将各符号特征所转化的数值特征与38个数值特征合并,将原41维的网络流量数据集转换为122维,其中数值特征num_outbound_cmds为全0,将其删除获得121维的网络流量数据集。
针对网络流量数据集的38个数值特征做数据分析,发现部分数值特征数据分布差异超过预设阈值范围。由于数据集中,大于预设阈值上限或小于预设阈值下限的极端数据都是离群值,会影响到分析结果,尤其是在分类预测时,需要对离群值进行谨慎处理。本发明基于四分位距的异常值处理算法,对网络流量数据集的数值特征进行异常值处理,可以避免离群值对检测结果的影响,根据预设步骤S12-步骤S14对于数值特征进行异常值处理:
S12:计算网络流量数据集每个数值特征所有数据的第一四分位数Q1和第三四分位数Q3,根据公式(1)计算每个数值特征所有数据的四分位距IQR;
IQR=Q3-Q1 (1)
S13:基于网络流量数据集中每个数值特征所有数据的第三四分位数Q3和四分位距IQR,根据公式(2)计算网络流量样本的异常值边界OF;
OF=Q3+1.5*IQR (2)
S14:基于步骤S13得到的四分位距IQR和异常值边界OF,提出一种异常值处理算法,其简化形式如公式(3)所示,并应用该异常值处理算法对网络流量数据集进行异常值处理:
Figure GDA0004178993450000081
式(3)中x为网络流量数据集中其中一个数值特征对应的数据,OF为该数值特征所有数据的异常值边界;
四分位距异常值处理方法如表1所示:
表1
Figure GDA0004178993450000082
S15:基于Min-Max Scaling方法,根据公式(4)对经过标准化处理和异常值处理后的网络流量数据集进行归一化处理:
Figure GDA0004178993450000083
式(4)中,x为网络流量数据集中其中一个数值特征对应的数据,xmax为数值特征对应的数据中的最大值,xmin为数值特征对应的数据中的最小值,x*表示归一化后的数值特征对应的数据;
S2:网络流量数据集包括训练数据集、测试数据集,训练数据集、测试数据集中的网络流量样本包括攻击类样本,以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入,构建数据增强自编码器网络对攻击类样本进行数据增强处理,生成预设数量的攻击类样本,基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本,构建最终训练数据集,并输出最终训练数据集,构建攻击类样本增强模块;
步骤S2的具体步骤如下:
S21:将经过预处理的训练数据集中的攻击类样本xi输入到数据增强自编码器中,输出攻击类样本对应的重构样本
Figure GDA0004178993450000091
基于攻击类样本及其对应的重构样本经过log_softmax分类器和softmax分类器的数据分布,计算出KL散度,MSE损失,并结合KL散度和MSE损失,构建一个区别于常规损失函数的自定义损失函数L1,具体如公式(5),(6),(7)所示:
Figure GDA0004178993450000092
Figure GDA0004178993450000093
L1=0.5MSE+0.5DKL1 (7)
其中,xi为第i个经过预处理的攻击类样本,其中攻击类样本的总数为n,
Figure GDA0004178993450000094
为攻击类样本xi所对应的重构样本,p1(xi)为攻击类样本xi经过log_softmax分类器的数据分布,q1(xi)为重构样本经过softmax分类器的数据分布,DKL1表示p1(xi)和q1(xi)两个分布之间的KL散度,MSE表示攻击类样本xi和重构样本/>
Figure GDA0004178993450000095
之间的MSE损失,L1表示结合KL散度和MSE损失提出的自定义损失函数;
S22:基于输入的攻击类样本以及输出的重构样本,采用步骤S21所构建的自定义损失函数L1对数据增强自编码器网络进行预设次数的迭代训练,将迭代中损失函数L1的最小值所对应的网络参数保存下来,作为最佳数据增强模型。
S23:基于数据增强自编码器网络,加载步骤S22所获得的最佳模型对训练数据集中的攻击类样本进行数据增强,生成预设数量的攻击类样本;
S24:将S23所获得的预设数量的攻击类样本与步骤S1所获得的经过数据预处理的网络流量数据集中的训练数据集合并,构建最终训练数据集。
在一个实施例中,预设迭代次数为500轮。
S3:以步骤S2所获得的最终训练数据集中的网络流量样本为输入,基于CNN-BiLSTM神经网络和特征增强自编码器网络构建半自监督模型,并应用半自监督模型进行特征提取,以提取到的高维时空流量特征和自监督特征作为输出,构建半自监督特征提取模块;
步骤S3中的具体步骤如下:
S31:参考图3,将最终训练数据集中网络流量样本的一维数值特征转换成二维数值特征输入CNN神经网络,提取网络流量样本的空间特征,再通过全连接层整合输入到BiLSTM网络提取网络流量样本的时间特征,最终输出提取到的高维时空流量特征;其中CNN神经网络由输入层、二维卷积层、池化层、全连接层、以及输出层组成,卷积层和池化层交替叠加的深层网络能够迭代提取更复杂的流量空间特征;BiLSTM神经网络是双向长短时记忆神经网络,是一种特殊的LSTM网络,由前向LSTM与后向LSTM组合而成,可以更好地捕捉双向的依赖关系,因此应用BiLSTM神经网络来提取最终训练数据集中网络流量样本的时间特征。
S32:参考图4,将最终训练数据集中的网络流量样本的数值特征输入特征增强自编码器网络,获得训练数据集中的网络流量样本的自监督特征,所述特征增强自编码器网络由输入层,全连接层,批量正则化层,Dropout层组成。
S4:将半自监督特征提取模块输出的高维时空流量特征和自监督特征合并,获得特征增强后的最终特征,输入到分类网络中进行预测分类,并结合分类结果,采用自定义的损失函数作为评估标准对半自监督模型进行预设次数的迭代训练,对半自监督模型参数进行更新,获得网络入侵检测模型,实现网络入侵检测的功能。
步骤S4的具体步骤如下:
S41:将半自监督特征提取模块输出的网络流量样本的高维时空流量特征和自监督特征合并,得到网络流量样本的最终特征;
S42:基于最终训练数据集中的网络流量样本的数值特征xi′及其通过特征增强自编码器生成的自监督特征
Figure GDA0004178993450000101
经过log_softmax分类器和softmax分类器的数据分布,计算出两个数据分布间的KL散度,预测分类值和真实类别之间的交叉熵损失,并结合KL散度和交叉熵损失,构建一个区别于常规损失函数的自定义损失函数L2,具体如公式(8),(9),(10)所示:
Figure GDA0004178993450000111
Figure GDA0004178993450000112
L2=0.8Lc+0.2DKL2 (10)
式中,xi′表示最终训练数据集中的第i个网络流量样本的数值特征,其中网络流量数据样本总数为N,p2(xi′)为网络流量样本的数值特征xi′经过log_softmax分类器处理后的数据分布,q2(xi′)为自监督特征xi′经过softmax分类网络处理后的数据分布,DKL2表示p2(xi′)和q2(xi′)两个数据分布之间的KL散度,Lc表示预测分类值和真实类别之间的交叉熵损失,yi为第i个网络流量样本所对应的标签,其中攻击类样本标签为1,正常样本标签为0,Pi为第i个网络流量样本被预测为攻击类样本的概率,L2表示结合KL散度和交叉熵损失提出的自定义损失函数;
S43:以步骤S42所构建的自定义损失函数L2作为评估标准,对半自监督模型进行预设次数的迭代训练更新模型参数,保存最佳模型作为最终的网络入侵检测模型;
S44:将网络流量数据集中的测试数据集中的网络流量样本输入步骤S44所获得的最佳半自监督模型中进行分类,输出各网络流量数据样本分别所对应的分类结果,检验所述网络入侵检测模型的性能。
采用所述网络入侵检测模型,实现快速、高效、准确的网络入侵检测。
在一个实施例中,所述各模型均使用AdamW优化器,数据增强自编码器网络和特征增强自编码器网络采用tanh激活函数,CNN-BiLSTM神经网络中的CNN层采用relu函数作为激活函数,BiLSTM层采用sigmoid函数作为激活函数,并且在初始化参数时采用kaming初始化方法和xavier初始化方法。
上面结合附图对本发明的实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims (2)

1.基于数据增强和自监督特征增强的网络入侵检测方法,其特征在于,按预设周期执行步骤S1-步骤S4,获得网络入侵检测模型,然后应用网络入侵检测模型,对网络流量进行分类,实现网络入侵检测的功能;
S1:对网络流量数据集做数据分析,根据数据分析结果进行数据预处理,数据预处理方法具体包括:对网络流量数据集进行标准化处理,即采用独热编码将符号特征转换成数值特征表示;并使用四分位距异常值处理算法,对数值特征进行异常值处理;对经过标准化和异常值处理后的数据集进行Min-Max Scaling将数值归一化到0到1之间;以网络流量数据集中的网络流量样本为输入,以经过预处理的网络流量数据集中的网络流量样本为输出,构建网络流量数据预处理模块;
S2:网络流量数据集包括训练数据集、测试数据集,训练数据集、测试数据集中的网络流量样本包括攻击类样本,以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入,构建数据增强自编码器网络对攻击类样本进行数据增强处理,生成预设数量的攻击类样本,基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本,构建最终训练数据集,并输出最终训练数据集,构建攻击类样本增强模块;
步骤S2的具体步骤如下:
S21:将经过预处理的训练数据集中的攻击类样本xi输入到数据增强自编码器中,输出攻击类样本对应的重构样本
Figure QLYQS_1
基于攻击类样本及其对应的重构样本经过log_softmax分类器和softmax分类器的数据分布,计算出KL散度,MSE损失,并结合KL散度和MSE损失,构建自定义损失函数L1,具体如公式(5),(6),(7)所示:
Figure QLYQS_2
Figure QLYQS_3
L1=0.5MSE+0.5DKL1 (7)
其中,xi为第i个经过预处理的攻击类样本,其中攻击类样本的总数为n,
Figure QLYQS_4
为攻击类样本xi所对应的重构样本,p1(xi)为攻击类样本xi经过log_softmax分类器的数据分布,q1(xi)为重构样本经过softmax分类器的数据分布,DKL1表示p1(xi)和q1(xi)两个分布之间的KL散度,MSE表示攻击类样本xi和重构样本/>
Figure QLYQS_5
之间的MSE损失,L1表示结合KL散度和MSE损失提出的自定义损失函数;
S22:基于输入的攻击类样本以及输出的重构样本,采用步骤S21所构建的自定义损失函数L1对数据增强自编码器网络进行预设次数的迭代训练,将迭代中损失函数L1的最小值所对应的网络参数保存下来,作为最佳数据增强模型;
S23:基于数据增强自编码器网络,加载步骤S22所获得的最佳模型对训练数据集中的攻击类样本进行数据增强,生成预设数量的攻击类样本;
S24:将S23所获得的预设数量的攻击类样本与步骤S1所获得的经过数据预处理的网络流量数据集中的训练数据集合并,构建最终训练数据集;
S3:以步骤S2所获得的最终训练数据集中的网络流量样本为输入,基于CNN-BiLSTM神经网络和特征增强自编码器网络构建半自监督模型,并应用半自监督模型进行特征提取,以提取到的高维时空流量特征和自监督特征作为输出,构建半自监督特征提取模块;
步骤S3具体步骤如下:
S31:将最终训练数据集中网络流量样本的一维数值特征转换成二维数值特征输入CNN神经网络,提取网络流量样本的空间特征,再通过全连接层整合输入到BiLSTM网络提取网络流量样本的时间特征,最终输出提取到的高维时空流量特征;
S32:将最终训练数据集中的网络流量样本的数值特征输入特征增强自编码器网络,获得训练数据集中的网络流量样本的自监督特征;
S4:将半自监督特征提取模块输出的高维时空流量特征和自监督特征合并,获得特征增强后的最终特征,输入到分类网络中进行预测分类,并结合分类结果,采用自定义的损失函数作为评估标准对半自监督模型进行预设次数的迭代训练,对半自监督模型参数进行更新,获得网络入侵检测模型,实现网络入侵检测的功能;
步骤S4具体步骤如下:
S41:将半自监督特征提取模块输出的网络流量样本的高维时空流量特征和自监督特征合并,得到网络流量样本的最终特征;
S42:基于最终训练数据集中的网络流量样本的数值特征xi′及其通过特征增强自编码器生成的自监督特征
Figure QLYQS_6
经过log_softmax分类器和softmax分类器的数据分布,计算出两个数据分布间的KL散度,预测分类值和真实类别之间的交叉熵损失,并结合KL散度和交叉熵损失,构建自定义损失函数L2,具体如公式(8),(9),(10)所示:
Figure QLYQS_7
Figure QLYQS_8
L2=0.8Lc+0.2DKL2 (10)
式中,xi′表示最终训练数据集中的第i个网络流量样本的数值特征,其中网络流量数据样本总数为N,p2(xi′)为网络流量样本的数值特征xi′经过log_softmax分类器处理后的数据分布,q2(xi′)为自监督特征xi′经过softmax分类网络处理后的数据分布,DKL2表示p2(xi′)和q2(xi′)两个数据分布之间的KL散度,Lc表示预测分类值和真实类别之间的交叉熵损失,yi为第i个网络流量样本所对应的标签,其中攻击类样本标签为1,正常样本标签为0,Pi为第i个网络流量样本被预测为攻击类样本的概率,L2表示结合KL散度和交叉熵提出的自定义损失函数;
S43:以步骤S42所构建的自定义损失函数L2作为评估标准,对半自监督模型进行预设次数的迭代训练更新模型参数,保存最佳模型作为最终的网络入侵检测模型;
S44:将网络流量数据集中的测试数据集中的网络流量样本输入步骤S44所获得的最佳半自监督模型中进行分类,输出各网络流量数据样本分别所对应的分类结果,检验所提网络入侵检测模型的性能。
2.根据权利要求1所述的基于数据增强和自监督特征增强的网络入侵检测方法,其特征在于,步骤S1中构建网络流量数据预处理模块的具体步骤如下:
S11:网络流量数据集包含的特征类型为数值特征和符号特征,对网络流量数据集进行标准化处理,基于独热编码方法将符号特征转换成数值特征表示;
基于四分位距的异常值处理算法,根据预设步骤S12-步骤S14对于数值特征进行异常值处理:
S12:计算网络流量数据集每个数值特征所有数据的第一四分位数Q1和第三四分位数Q3,根据公式(1)计算每个数值特征所有数据的四分位距IQR;
IQR=Q3-Q1 (1)
S13:基于网络流量数据集中每个数值特征所有数据的第三四分位数Q3和四分位距IQR,根据公式(2)计算网络流量样本的异常值边界OF;
OF=Q3+1.5*IQR (2)
S14:基于步骤S13得到的四分位距IQR和异常值边界OF,提出一种异常值处理算法,其简化形式如公式(3)所示,并应用该异常值处理算法对网络流量数据集进行异常值处理:
Figure QLYQS_9
式(3)中x为网络流量数据集中其中一个数值特征对应的数据,OF为该数值特征所有数据的异常值边界;
S15:基于Min-Max Scaling方法,根据公式(4)对经过标准化处理和异常值处理后的网络流量数据集进行归一化处理:
Figure QLYQS_10
式(4)中,x为网络流量数据集中其中一个数值特征对应的数据,xmax为数值特征对应数据中的最大值,xmin为数值特征对应数据中的最小值,x*表示归一化后的数值特征对应数据。
CN202210473224.9A 2022-04-29 2022-04-29 基于数据增强和自监督特征增强的网络入侵检测方法 Active CN114978613B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210473224.9A CN114978613B (zh) 2022-04-29 2022-04-29 基于数据增强和自监督特征增强的网络入侵检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210473224.9A CN114978613B (zh) 2022-04-29 2022-04-29 基于数据增强和自监督特征增强的网络入侵检测方法

Publications (2)

Publication Number Publication Date
CN114978613A CN114978613A (zh) 2022-08-30
CN114978613B true CN114978613B (zh) 2023-06-02

Family

ID=82979369

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210473224.9A Active CN114978613B (zh) 2022-04-29 2022-04-29 基于数据增强和自监督特征增强的网络入侵检测方法

Country Status (1)

Country Link
CN (1) CN114978613B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115277258B (zh) * 2022-09-27 2022-12-20 广东财经大学 一种基于时空特征融合的网络攻击检测方法和系统
CN115811440B (zh) * 2023-01-12 2023-06-09 南京众智维信息科技有限公司 一种基于网络态势感知的实时流量检测方法
CN117614742B (zh) * 2024-01-22 2024-05-07 广州大学 一种蜜点感知增强的恶意流量检测方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139236A1 (zh) * 2020-06-30 2021-07-15 平安科技(深圳)有限公司 基于自编码器的异常检测方法、装置、设备及存储介质
CN113518063A (zh) * 2021-03-01 2021-10-19 广东工业大学 基于数据增强和BiLSTM的网络入侵检测方法及系统
CN114003900A (zh) * 2021-10-25 2022-02-01 广东电网有限责任公司广州供电局 变电站二次系统网络入侵检测方法、装置及系统
CN114389843A (zh) * 2021-12-06 2022-04-22 云南电网有限责任公司信息中心 一种基于变分自编码器的网络异常入侵检测系统和方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139236A1 (zh) * 2020-06-30 2021-07-15 平安科技(深圳)有限公司 基于自编码器的异常检测方法、装置、设备及存储介质
CN113518063A (zh) * 2021-03-01 2021-10-19 广东工业大学 基于数据增强和BiLSTM的网络入侵检测方法及系统
CN114003900A (zh) * 2021-10-25 2022-02-01 广东电网有限责任公司广州供电局 变电站二次系统网络入侵检测方法、装置及系统
CN114389843A (zh) * 2021-12-06 2022-04-22 云南电网有限责任公司信息中心 一种基于变分自编码器的网络异常入侵检测系统和方法

Also Published As

Publication number Publication date
CN114978613A (zh) 2022-08-30

Similar Documents

Publication Publication Date Title
CN114978613B (zh) 基于数据增强和自监督特征增强的网络入侵检测方法
CN111061843B (zh) 一种知识图谱引导的假新闻检测方法
CN112052763B (zh) 基于双向回顾生成对抗网络的视频异常事件检测方法
CN110390340B (zh) 特征编码模型、视觉关系检测模型的训练方法及检测方法
CN111738054B (zh) 一种基于时空自编码器网络和时空cnn的行为异常检测方法
CN111159407A (zh) 训练实体识别和关系分类模型的方法、装置、设备及介质
CN112039903B (zh) 基于深度自编码神经网络模型的网络安全态势评估方法
CN109635010B (zh) 一种用户特征及特征因子抽取、查询方法和系统
CN114120041B (zh) 一种基于双对抗变分自编码器的小样本分类方法
CN110719289B (zh) 一种基于多层特征融合神经网络的工控网络入侵检测方法
CN115471216B (zh) 智慧实验室管理平台的数据管理方法
CN112015901A (zh) 文本分类方法及装置、警情分析系统
CN114048468A (zh) 入侵检测的方法、入侵检测模型训练的方法、装置及介质
CN116910752B (zh) 一种基于大数据的恶意代码检测方法
CN114330541A (zh) 道路交通事故风险预测深度学习算法
CN116522265A (zh) 工业互联网时序数据异常检测方法及装置
CN117081831A (zh) 基于数据生成和注意力机制的网络入侵检测方法及系统
Kopčan et al. Anomaly detection using Autoencoders and Deep Convolution Generative Adversarial Networks
CN114299305A (zh) 聚合密集和注意力多尺度特征的显著性目标检测算法
CN116935292B (zh) 一种基于自注意力模型的短视频场景分类方法及系统
CN116306780B (zh) 一种动态图链接生成方法
CN116662866A (zh) 基于数据插补和表征学习的端到端不完整时间序列分类方法
CN110705638A (zh) 一种利用深度网络学习模糊信息特征技术的信用评级预测分类方法
CN115795038A (zh) 基于国产化深度学习框架的意图识别方法和装置
CN115859989A (zh) 基于远程监督的实体识别方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant