CN114978613B

CN114978613B - 基于数据增强和自监督特征增强的网络入侵检测方法

Info

Publication number: CN114978613B
Application number: CN202210473224.9A
Authority: CN
Inventors: 行鸿彦; 梁欣怡; 侯天浩
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2022-04-29
Filing date: 2022-04-29
Publication date: 2023-06-02
Anticipated expiration: 2042-04-29
Also published as: CN114978613A

Abstract

本发明公开了基于数据增强和自监督特征增强的网络入侵检测方法，该方法包括：对数据进行预处理，预处理后的数据集包括正常样本和攻击类样本，使用自编码器对攻击类样本进行数据增强，扩充攻击类样本数；构建CNN‑BiLSTM神经网络和自编码器组成半自监督模型分别提取高维流量特征和自监督特征；将特征增强后的组合特征作为最终特征输入到分类模型中进行预测，对网络流量进行分类判断其是否是攻击流量，实现网络入侵检测的功能。本方法对攻击类样本进行数据增强的同时，还利用自监督模型提取自监督特征对流量特征进行增强，辅助CNN‑BiLSTM网络完成后续的分类任务，进一步提高了网络入侵的检测精度，提高了对未知攻击的检测功能，降低了误报率。

Description

基于数据增强和自监督特征增强的网络入侵检测方法

技术领域

本发明涉及网络技术领域，具体涉及基于数据增强和自监督特征增强的网络入侵检测方法。

背景技术

随着互联网技术的快速发展，我国已然进入信息化大数据时代。物联网，云计算等互联网新技术的应用在给人们带来巨大便利的同时，也让人们处在网络安全隐患威胁当中。特别是数据泄露、网络入侵等网络安全问题日益严峻，引起了人们对网络安全的高度重视。

尽管网络入侵检测技术已经发展了数十年，但是现有的网络入侵检测技术仍然面临着日益复杂的互联网攻击和海量数据入侵检测的挑战，准确检测异常流量对于网络安全性和可靠性尤为重要，现有的基于传统的机器学习方法是简单的浅层特征学习，面对大规模高维网络流量数据，往往需要进行复杂的特征提取工程，且准确率较低。而深度学习网络不需要复杂的特征工程就可以自动进行高维数据的特征选择，更适合用于网络入侵检测。

在目前使用自编码器网络的网络入侵检测模型中，绝大多数自编码器网络用于降维或者数据增强，然而自编码器作为自监督模型的一种，最主要的目的就是学习到更丰富的信息表征。实际上我们不仅可以用自编码器进行数据增强扩充攻击流量的数量，还可以用自编码器从原始网络中学习到更丰富的特征以增加流量的特征信息对流量特征进行增强。

虽然现有的基于数据增强的网络入侵检测模型有很多，但是应用于网络入侵检测中的特征增强还鲜少有学者进行研究。本发明在对攻击流量样本进行数据增强的同时还采用半自监督模型对流量特征进行增强。

发明内容

本发明目的：在于提供基于数据增强和自监督特征增强的网络入侵检测方法，设计了一种自编码器对攻击类流量进行流量数据扩充，解决了攻击类样本不足的问题，将扩充后的网络流量数据样本输入到所设计的CNN-BiLSTM神经网络中训练提取高维时空流量特征，并且通过自编码器网络从原始网络流量数据样本中学习更丰富的信息表征进行特征增强，生成自监督特征，将高维时空流量特征和自监督特征形成的组合特征输入分类网络进行分类；该方法能够有效提高网络入侵的检测精度，提高了对未知攻击的检测功能，降低了误报率。

为实现以上功能，本发明设计基于数据增强和自监督特征增强的网络入侵检测方法，基于数据增强和自监督特征增强的网络入侵检测方法，按预设周期执行步骤S1-步骤S4，获得网络入侵检测模型，然后应用网络入侵检测模型，对网络流量进行分类，实现网络入侵检测的功能；

S1:对网络流量数据集做数据分析，根据数据分析结果进行数据预处理，数据预处理方法具体包括：对网络流量数据集进行标准化处理，即采用独热编码将符号特征转换成数值特征表示；并使用四分位距异常值处理算法，对数值特征进行异常值处理；对经过标准化和异常值处理后的数据集进行Min-Max Scaling将数值归一化到0到1之间。以网络流量数据集中的网络流量样本为输入，以经过预处理的网络流量数据集中的网络流量样本为输出，构建网络流量数据预处理模块；

S2:网络流量数据集包括训练数据集、测试数据集，训练数据集、测试数据集中的网络流量样本包括攻击类样本，以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入，构建数据增强自编码器网络对攻击类样本进行数据增强处理，生成预设数量的攻击类样本，基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本，构建最终训练数据集，并输出最终训练数据集，构建攻击类样本增强模块；

S3:以步骤S2所获得的最终训练数据集中的网络流量样本为输入，基于CNN-BiLSTM神经网络和特征增强自编码器网络构建半自监督模型，并应用半自监督模型进行特征提取，以提取到的高维时空流量特征和自监督特征作为输出，构建半自监督特征提取模块；

S4:将半自监督特征提取模块输出的高维时空流量特征和自监督特征合并，获得特征增强后的最终特征，输入到分类网络中进行预测分类，并结合分类结果，采用自定义的损失函数作为评估标准对半自监督模型进行预设次数的迭代训练，对半自监督模型参数进行更新，获得网络入侵检测模型，实现网络入侵检测的功能。

作为本发明的一种优选技术方案：步骤S1中构建网络流量数据预处理模块的具体步骤如下：

S11:网络流量数据集包含的特征类型为数值特征和符号特征，对网络流量数据集进行标准化处理，基于独热编码方法将符号特征转换成数值特征表示。

基于四分位距的异常值处理算法，根据预设步骤S12-S14对于数值特征进行异常值处理:

S12:计算网络流量数据集每个数值特征所有数据的第一四分位数Q₁和第三四分位数Q₃，根据公式(1)计算每个数值特征所有数据的四分位距IQR；

IQR＝Q₃-Q₁ (1)

S13:基于网络流量数据集中每个数值特征所有数据的第三四分位数Q₃和四分位距IQR，根据公式(2)计算网络流量样本的异常值边界OF；

OF＝Q₃+1.5*IQR (2)

S14：基于步骤S13得到的四分位距IQR和异常值边界OF，提出一种异常值处理算法，其简化形式如公式(3)所示，并应用该异常值处理算法对网络流量数据集进行异常值处理：

式(3)中x为网络流量数据集中其中一个数值特征对应的数据，OF为该数值特征所有数据的异常值边界；

S15：基于Min-Max Scaling方法，根据公式(4)对经过标准化处理和异常值处理后的网络流量数据集进行归一化处理：

式(4)中，x为网络流量数据集中其中一个数值特征对应的数据，x_max为数值特征对应数据中的最大值，x_min为数值特征对应数据中的最小值，x^*表示归一化后的数值特征对应数据。

作为本发明的一种优选技术方案：步骤S2中以经过预处理的网络流量数据集中训练数据集的攻击类样本为输入，构建数据增强自编码器网络对攻击类样本进行数据增强处理，生成预设数量的攻击类样本，基于生成的攻击类样本和步骤S1所获得的经过预处理的网络流量数据集中训练数据集中的网络流量样本，构建最终训练数据集，并输出最终训练数据集，构建攻击类样本增强模块的具体步骤如下：

S21:将经过预处理的训练数据集中的攻击类样本x_i输入到数据增强自编码器中，输出攻击类样本对应的重构样本

基于攻击类样本及其对应的重构样本经过log_softmax分类器和softmax分类器的数据分布，计算出KL散度，MSE损失，并结合KL散度和MSE损失，构建自定义损失函数L₁,具体如公式(5)，(6)，(7)所示：

L₁＝0.5MSE+0.5D_KL1 (7)

其中，x_i为第i个经过预处理的攻击类样本，其中攻击类样本的总数为n，

为攻击类样本x_i所对应的重构样本，p₁(x_i)为攻击类样本x_i经过log_softmax分类器的数据分布，q₁(x_i)为重构样本经过softmax分类器的数据分布，D_KL1表示p₁(x_i)和q₁(x_i)两个分布之间的KL散度，MSE表示攻击类样本x_i和重构样本/>

之间的MSE损失，L₁表示结合KL散度和MSE损失提出的自定义损失函数；

S22:基于输入的攻击类样本以及输出的重构样本，采用步骤S21所构建的自定义损失函数L₁对数据增强自编码器网络进行预设次数的迭代训练，将迭代中损失函数L₁的最小值所对应的网络参数保存下来，作为最佳数据增强模型。

S23:基于数据增强自编码器网络，加载步骤S22所获得的最佳模型对训练数据集中的攻击类样本进行数据增强，生成预设数量的攻击类样本；

S24:将S23所获得的预设数量的攻击类样本与步骤S1所获得的经过数据预处理的网络流量数据集中的训练数据集合并，构建最终训练数据集。

作为本发明的一种优选技术方案：步骤S3中以步骤S2所获得的最终训练数据集为输入，基于CNN-BiLSTM神经网络和特征增强自编码器网络，构建半自监督模型，并应用半自监督模型进行特征提取，以提取高维时空流量特征和自监督特征作为输出，构建半自监督特征提取模块的具体步骤如下：

S31:将最终训练数据集中网络流量样本的一维数值特征转换成二维数值特征输入CNN神经网络，提取网络流量样本的空间特征，再通过全连接层整合输入到BiLSTM网络提取网络流量样本的时间特征，最终输出提取到的高维时空流量特征；

S32:将最终训练数据集中的网络流量样本的数值特征输入特征增强自编码器网络，获得训练数据集中的网络流量样本的自监督特征。

作为本发明的一种优选技术方案：步骤S4中将半自监督特征提取模块输出的网络流量样本的高维时空流量特征和自监督特征合并，获得各网络流量样本的最终特征，输入到分类网络中进行预测分类，采用自定义的损失函数L₂作为评估标准对半自监督模型进行预设次数的迭代训练，并更新半自监督模型参数，获得网络入侵检测模型，实现网络入侵检测功能具体步骤如下：

S41:将半自监督特征提取模块输出的网络流量样本的高维时空流量特征和自监督特征合并，得到网络流量样本的最终特征；

S42:基于最终训练数据集中的网络流量样本的数值特征x_i′及其通过特征增强自编码器生成的自监督特征

经过log_softmax分类器和softmax分类器的数据分布，计算出两个数据分布间的KL散度，预测分类值和真实类别之间的交叉熵损失，并结合KL散度和交叉熵损失，构建自定义损失函数L₂，具体如公式(8)，(9)，(10)所示：

L₂＝0.8L_c+0.2D_KL2 (10)

式中，x_i′表示最终训练数据集中的第i个网络流量样本的数值特征，其中网络流量数据样本总数为N，p₂(x_i′)为网络流量样本的数值特征x_i′经过log_softmax分类器处理后的数据分布，q₂(x_i′)为自监督特征x_i′经过softmax分类网络处理后的数据分布，D_KL2表示p₂(x_i′)和q₂(x_i′)两个数据分布之间的KL散度，L_c表示预测分类值和真实类别之间的交叉熵损失，y_i为第i个网络流量样本所对应的标签，其中攻击类样本标签为1，正常样本标签为0，P_i为第i个网络流量样本被预测为攻击类样本的概率，L₂表示结合KL散度和交叉熵损失提出的自定义损失函数；

S43:以步骤S42所构建的自定义损失函数L₂作为评估标准，对半自监督模型进行预设次数的迭代训练更新模型参数，保存最佳模型作为最终的网络入侵检测模型；

S44:将网络流量数据集中的测试数据集中的网络流量样本输入步骤S44所获得的最佳半自监督模型中进行分类，输出各网络流量数据样本分别所对应的分类结果，检验所提网络入侵检测模型的性能。

有益效果：相对于现有技术，本发明的优点包括：

本发明设计了基于数据增强和自监督特征增强的网络入侵检测方法，其中数据预处理阶段除了采用常规的符号特征数值化和归一化处理之外，还提出一种异常值处理算法以避免离群值检测结果的影响，接着对攻击类样本进行数据增强，生成攻击类样本进行数据平衡，并将CNN-BiLSTM模型提取的高维流量特征和自编码器生成的自监督特征组合输入到分类网络进行识别分类，该方法不仅通过数据增强解决攻击类样本不足的问题，而且通过半自监督模型特征增强生成的组合特征克服流量特征不足的问题，能够有效提高网络入侵的检测精度，提高了对未知攻击的检测功能，降低了误报率。

附图说明

图1是根据本发明实施例提供的网络入侵检测模型结构图；

图2是根据本发明实施例提供的基于数据增强和自监督特征增强的网络入侵检测方法的训练流程示意图；

图3是根据本发明实施例提供的CNN-BiLSTM神经网络结构图；

图4是根据本发明实施例提供的数据增强自编码器网络和特征增强自编码器网络结构图。

具体实施方式

下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

参照图1、图2，本发明实施例提供的基于数据增强和自监督特征增强的网络入侵检测方法，其特征在于，按预设周期执行步骤S1-步骤S4，获得网络入侵检测模型，然后应用网络入侵检测模型，对网络流量进行分类，实现网络入侵检测的功能；

S1:对网络流量数据集做数据分析，根据数据分析结果进行数据预处理，数据预处理方法具体包括：对网络流量数据集进行标准化处理，即采用独热编码将符号特征转换成数值特征表示；并使用四分位距(IQR)异常值处理算法，对数值特征进行异常值处理；对经过标准化和异常值处理后的数据集进行Min-Max Scaling将数值归一化到0到1之间。以网络流量数据集中的网络流量样本为输入，以经过预处理的网络流量数据集中的网络流量样本为输出，构建网络流量数据预处理模块；

本发明实施例所采用的网络流量数据集为NSL-KDD数据集，其中NSL-KDD数据集的特点如下：

NSL-KDD数据集包含训练数据集KDDTrain+和测试数据集KDDTest+。KDDTrain+和KDDTest+都包含多个类标签，本方法中只需要进行二分类任务，即判断网络流量数据样本是正常流量还是异常流量，异常流量即代表受到攻击，对数据集标签进行替换。KDDTrain+数据集包含总共125,973条记录，即67,343条“正常”记录和58,630条“异常”记录。KDDTest+包含总共22,544条记录，即9,711条“正常”记录和12833个“异常”记录。其中每一条流量记录包含41维特征。

步骤S1中构建网络流量数据预处理模块的具体步骤如下：

NSL-KDD数据集包括38个数值特征和3个符号特征，3个符号特征分别为protocol_type特征、service特征、flag特征，基于独热编码，将protocol_type特征转化为3个与其对应的数值特征，将service特征转化为70个与其对应的数值特征，将flag特征转化为11个与其对应的数值特征，将各符号特征所转化的数值特征与38个数值特征合并，将原41维的网络流量数据集转换为122维，其中数值特征num_outbound_cmds为全0，将其删除获得121维的网络流量数据集。

针对网络流量数据集的38个数值特征做数据分析，发现部分数值特征数据分布差异超过预设阈值范围。由于数据集中，大于预设阈值上限或小于预设阈值下限的极端数据都是离群值，会影响到分析结果，尤其是在分类预测时，需要对离群值进行谨慎处理。本发明基于四分位距的异常值处理算法，对网络流量数据集的数值特征进行异常值处理，可以避免离群值对检测结果的影响，根据预设步骤S12-步骤S14对于数值特征进行异常值处理:

IQR＝Q₃-Q₁ (1)

OF＝Q₃+1.5*IQR (2)

四分位距异常值处理方法如表1所示：

表1

式(4)中，x为网络流量数据集中其中一个数值特征对应的数据，x_max为数值特征对应的数据中的最大值，x_min为数值特征对应的数据中的最小值，x^*表示归一化后的数值特征对应的数据；

步骤S2的具体步骤如下：

基于攻击类样本及其对应的重构样本经过log_softmax分类器和softmax分类器的数据分布，计算出KL散度，MSE损失，并结合KL散度和MSE损失，构建一个区别于常规损失函数的自定义损失函数L₁,具体如公式(5)，(6)，(7)所示：

L₁＝0.5MSE+0.5D_KL1 (7)

在一个实施例中，预设迭代次数为500轮。

步骤S3中的具体步骤如下：

S31:参考图3，将最终训练数据集中网络流量样本的一维数值特征转换成二维数值特征输入CNN神经网络，提取网络流量样本的空间特征，再通过全连接层整合输入到BiLSTM网络提取网络流量样本的时间特征，最终输出提取到的高维时空流量特征；其中CNN神经网络由输入层、二维卷积层、池化层、全连接层、以及输出层组成，卷积层和池化层交替叠加的深层网络能够迭代提取更复杂的流量空间特征；BiLSTM神经网络是双向长短时记忆神经网络，是一种特殊的LSTM网络，由前向LSTM与后向LSTM组合而成，可以更好地捕捉双向的依赖关系，因此应用BiLSTM神经网络来提取最终训练数据集中网络流量样本的时间特征。

S32:参考图4，将最终训练数据集中的网络流量样本的数值特征输入特征增强自编码器网络，获得训练数据集中的网络流量样本的自监督特征，所述特征增强自编码器网络由输入层，全连接层，批量正则化层，Dropout层组成。

步骤S4的具体步骤如下：

经过log_softmax分类器和softmax分类器的数据分布，计算出两个数据分布间的KL散度，预测分类值和真实类别之间的交叉熵损失，并结合KL散度和交叉熵损失，构建一个区别于常规损失函数的自定义损失函数L₂，具体如公式(8)，(9)，(10)所示：

L₂＝0.8L_c+0.2D_KL2 (10)

S44:将网络流量数据集中的测试数据集中的网络流量样本输入步骤S44所获得的最佳半自监督模型中进行分类，输出各网络流量数据样本分别所对应的分类结果，检验所述网络入侵检测模型的性能。

采用所述网络入侵检测模型，实现快速、高效、准确的网络入侵检测。

在一个实施例中，所述各模型均使用AdamW优化器，数据增强自编码器网络和特征增强自编码器网络采用tanh激活函数，CNN-BiLSTM神经网络中的CNN层采用relu函数作为激活函数，BiLSTM层采用sigmoid函数作为激活函数，并且在初始化参数时采用kaming初始化方法和xavier初始化方法。

上面结合附图对本发明的实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下做出各种变化。

Claims

1.基于数据增强和自监督特征增强的网络入侵检测方法，其特征在于，按预设周期执行步骤S1-步骤S4，获得网络入侵检测模型，然后应用网络入侵检测模型，对网络流量进行分类，实现网络入侵检测的功能；

S1:对网络流量数据集做数据分析，根据数据分析结果进行数据预处理，数据预处理方法具体包括：对网络流量数据集进行标准化处理，即采用独热编码将符号特征转换成数值特征表示；并使用四分位距异常值处理算法，对数值特征进行异常值处理；对经过标准化和异常值处理后的数据集进行Min-Max Scaling将数值归一化到0到1之间；以网络流量数据集中的网络流量样本为输入，以经过预处理的网络流量数据集中的网络流量样本为输出，构建网络流量数据预处理模块；

步骤S2的具体步骤如下：

L₁＝0.5MSE+0.5D_KL1 (7)

S22:基于输入的攻击类样本以及输出的重构样本，采用步骤S21所构建的自定义损失函数L₁对数据增强自编码器网络进行预设次数的迭代训练，将迭代中损失函数L₁的最小值所对应的网络参数保存下来，作为最佳数据增强模型；

S24:将S23所获得的预设数量的攻击类样本与步骤S1所获得的经过数据预处理的网络流量数据集中的训练数据集合并，构建最终训练数据集；

步骤S3具体步骤如下：

S32:将最终训练数据集中的网络流量样本的数值特征输入特征增强自编码器网络，获得训练数据集中的网络流量样本的自监督特征；

S4:将半自监督特征提取模块输出的高维时空流量特征和自监督特征合并，获得特征增强后的最终特征，输入到分类网络中进行预测分类，并结合分类结果，采用自定义的损失函数作为评估标准对半自监督模型进行预设次数的迭代训练，对半自监督模型参数进行更新，获得网络入侵检测模型，实现网络入侵检测的功能；

步骤S4具体步骤如下：

L₂＝0.8L_c+0.2D_KL2 (10)

式中，x_i′表示最终训练数据集中的第i个网络流量样本的数值特征，其中网络流量数据样本总数为N，p₂(x_i′)为网络流量样本的数值特征x_i′经过log_softmax分类器处理后的数据分布，q₂(x_i′)为自监督特征x_i′经过softmax分类网络处理后的数据分布，D_KL2表示p₂(x_i′)和q₂(x_i′)两个数据分布之间的KL散度，L_c表示预测分类值和真实类别之间的交叉熵损失，y_i为第i个网络流量样本所对应的标签，其中攻击类样本标签为1，正常样本标签为0，P_i为第i个网络流量样本被预测为攻击类样本的概率，L₂表示结合KL散度和交叉熵提出的自定义损失函数；

2.根据权利要求1所述的基于数据增强和自监督特征增强的网络入侵检测方法，其特征在于，步骤S1中构建网络流量数据预处理模块的具体步骤如下：

S11:网络流量数据集包含的特征类型为数值特征和符号特征，对网络流量数据集进行标准化处理，基于独热编码方法将符号特征转换成数值特征表示；

基于四分位距的异常值处理算法，根据预设步骤S12-步骤S14对于数值特征进行异常值处理:

IQR＝Q₃-Q₁ (1)

OF＝Q₃+1.5*IQR (2)