CN114760128A

CN114760128A - 一种基于重采样的网络异常流量检测方法

Info

Publication number: CN114760128A
Application number: CN202210372804.9A
Authority: CN
Inventors: 沈华; 王同力; 慕德俊
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-04-11
Filing date: 2022-04-11
Publication date: 2022-07-15

Abstract

本发明提供一种基于重采样的网络异常流量检测方法。首先，结合条件生成对抗网络和基于Wasserstein距离的生成对抗网络，搭建基于Wasserstein距离的条件生成对抗网络模型，使用训练完成的生成器进行少数类别重采样；然后，搭建堆叠去噪自编码器，训练自编码器模型使得重构误差最小化以重构数据；最后，通过自编码器的编码器网络结合Softmax网络对网络流量数据进行异常检测；本发明解决了网络流量数据类别不平衡问题，使得少数类别的识别率得到了显著提升，同时整体识别率也得到了提升。

Description

一种基于重采样的网络异常流量检测方法

技术领域

本发明涉及网络信息领域，具体涉及网络安全技术。

背景技术

近些年来，计算机网络被攻击的次数日益增多，网络安全也在中国互联网发展体系中占据了至关重要的位置。网络攻击通常包括拒绝服务攻击、僵尸网络、蠕虫等，这些攻击手段对计算机系统或网络产生了恶劣的影响，破坏了计算机系统或网络的可用性、完整性或机密性。异常网络流量便是由各种网络攻击引起，它可以影响网络的性能。因此，随着网络流量趋于海量、复杂化，监测和分析网络流量已经成为网络安全领域重要的挑战和研究。由于网络流量数据类别不平衡的特点，导致了异常检测过程中少数异常类别检出率低。专利“基于联合特征选择的网络流量异常检测方法，2021，CN 113505826 A”公开了一种异常流量检测方法，该方法通过对网络流量数据进行特征选择，并进行特征集成，然后使用随机森林分类模型进行异常检测。该专利所述的方法仅提高了网络流量数据的整体检测率，并未解决原始数据集类别不平衡问题，少数类别依然存在检测率低的问题。

发明内容

为了克服现有的网络流量异常检测方法对少数异常类别检测率低的不足，本发明提出了一种基于重采样的网络异常流量检测方法，该方法基于生成对抗网络模型进行少数类别重采样、基于自编码器网络进行数据重构以及基于自编码器的编码器网络结合Softmax网络进行网络流量数据异常检测。

本发明解决其技术问题所采用的技术方案：一种基于重采样的网络异常流量检测方法，其特点是包括下述步骤：

(a)网络流量数据预处理。

原始网络流量数据中包含字符类型的特征和数值类型的特征。首先，采用独热化编码将字符类型特征转化为数值类型特征，即离散型的特征转化为连续型的特征；然后，删除或替换数值类型的特征中的非法数值；最后，将处理后的数值类型的特征进行标准化、归一化。

(b)数据重采样。

首先，构建基于Wasserstein的条件生成对抗网络模型WBCGAN，生成器G模型为三层隐层的神经网络结构，判别器D模型同样为三层隐层的神经网络结构，生成器G的输入根据不同网络流量数据的特征进行变化，生成器G的输出根据不同网络流量数据的攻击类型进行变化。

提出的基于Wasserstein的条件生成对抗网络模型的目标函数为：

式中，z是输入的噪声变量，p_z(z)是输入噪声变量的先验分布，p_r(x)是生成器G在真实数据x上的分布，p_d(x)是生成器G生成样本的分布，G(z)为生成器G生成的伪数据，||||₂代表2范数，随机插值采样得到

计算公式为

ε在[0,1]上服从均匀分布。

然后，输入随机噪声向量和类别标签作为生成器G的输入，训练生成器G以输出伪造样本；固定生成器，输入伪造样本和真实样本作为判别器D的输入，训练判别器D以输出样本分类概率；通过生成器G和判别器D之间依次训练，使得生成器G的目标函数最小化、判别器D的目标函数最大化；使用训练完成的生成器G生成特定类别标签的少数类别样本，并将生成的少数类别样本加入原始数据的训练集中，组成新的训练集。

(c)数据重构以及异常检测

首先，构建堆叠去噪自编码器网络模型SDAE，使用经过数据重采样后得到的新训练集，对堆叠去噪自编码器进行训练，使得输入数据与输出数据之间的重构误差最小化，其中堆叠去噪自编码器的目标函数为：

式中，

是解码器的输出结果，x是输入数据，N为样本容量，S为数据集。

然后，将编码器网络结构与Softmax网络进行结合形成分类器，分类器的输出为每个类别预测的概率值。将重构的数据输入至分类器，以端对端的形式对分类器进行训练，使得对数损失函数最小化；输入测试数据，使用训练完成的分类器，得到预测结果。

本发明的有益效果是：通过生成对抗网络模型进行少数类别重采样、通过自编码器网络的数据重构以及通过自编码器的编码器网络结合Softmax网络的网络流量数据异常检测，既解决了网络流量数据的类别不平衡问题，又通过堆叠去噪自编码器获得了网络流量数据的潜在表示。在网络流量异常检测中，降低了误报率，提高了少数异常类别的检测率和整体检测率。

图1是本发明提出方法的整体流程图，图2是使用本发明进行重采样的流程图，图3是使用本发明进行网络异常流量检测的流程图。图4是使用本发明提出的重采样方法与其他重采样方法的结果对比图，从图中可见，提出的基于Wasserstein距离的条件生成对抗网络模型在处理类别不平衡数据时，比原有的SMOTE等算法具有更好的效果。图5是使用本发明提出的堆叠去噪自编码器模型与其他异常检测模型的结果对比图，从图中可见，提出的堆叠去噪自编码器模型在F1值上明显高于其他异常检测模型。

附图说明

图1是本发明提出的一种基于重采样的网络异常流量检测的整体流程图。

图2是本发明提出的基于生成对抗网络模型的数据重采样流程图。

图3是本发明提出的基于堆叠去噪自编码器模型的异常检测流程图。

图4是本发明提出的基于Wasserstein距离的条件生成对抗网络模型WBCGAN与其他重采样算法的结果对比图。

图5是本发明提出的基于堆叠去噪自编码器SDAE模型与其他异常检测模型的结果对比图。

下面结合具体实施方式对本发明作详细说明。

具体实施方式

1、网络流量数据预处理。

本发明在NSL-KDD、CICIDS2017网络入侵检测数据集上验证了本发明的性能。其中，NSL-KDD和CICIDS2017数据集分别包含了4种和14种不同类型的网络攻击。

首先，针对NSL-KDD数据集，该数据集中一共包含了41个特征，首先使用独热化编码将其中三个离散型特征转化为连续性特征，然后，对其进行独热编码形成122维特征向量；针对CICIDS2017数据集，该数据集中特征维度为78维，这些特征中不存在离散型特征，只需要对15个类别标签进行编码。

然后，筛选并删除数据集中的空数据和坏数据。

最后，将NSL-KDD数据集和CICIDS2017数据上的数值类型特征进行归一化；将不同范围的数值类型特征都归一化至0-1范围内。

2、数据重采样。

首先，构建基于Wasserstein距离的条件生成对抗网络模型WBCGAN，生成器G模型为三层隐层的神经网络结构，判别器D模型同样为三层隐层的神经网络结构，生成器G的输入根据不同网络流量数据的特征进行变化，生成器G的输出根据不同网络流量数据的攻击类型进行变化。

式中，z是输入的噪声变量，p_z(z)是输入噪声变量的先验分布，p_r(x)是生成器G在真实数据x上的分布，p_d(x)是生成器G生成样本的分布，G(z)为生成器G生成的伪数据，∥∥₂代表2范数，随机插值采样得到

计算公式为

ε在[0,1]上服从均匀分布。

基于Wasserstein的条件生成对抗网络模型训练过程如下：

(1)随机噪声向量z和类别标签y为生成器G的输入，输出少数类伪造样本G(z)。此时少数类伪造样本之间的相似度很低，而且真实样本非常少；

(2)固定生成器G，训练判别器D。判别器D的输入为生成的伪造样本结合真实训练数据x。判别器D的输出是属于真实样本x和伪样本G(z)的样本分类概率值。然后将概率值转换为标签，并使得判别器D的目标函数最大化；

(3)通过判别器D和生成器G之间的对抗，迭代的训练生成器G。经过步骤(2)的训练，识别器D的识别能力得到了提高。此时，训练生成器G以生成仿真度较高的少数类伪造样本，并使得生成器G的目标函数最小化；

(4)循环执行步骤(2)和步骤(3)。判别器D和生成器G交替训练，使生成的伪造样本更接近真实样本。同时利用Adam算法对梯度更新过程进行优化，不断优化生成对抗网络的目标函数。

然后，使用训练完成得到的生成器G，根据输入的少数类别标签，分别生成不同数量的少数类别样本，并且在训练集中加入生成的少数类别样本，得到新的训练集：

(1)原始数据集划分为训练集和测试集，分别将训练集、类别标签以及随机噪声输入至生成对抗网络的生成器G中；

(2)根据输入的类别标签，训练好的生成器G输出具有相同类别标签的数据；

(3)将生成的少数类别样本加入训练集中，组成新的训练集。

3、数据重构以及异常检测。

首先，使用引入噪声来重建原始输入信号的方法来训练自编码器，得到去噪编码器DAE，然后，将多个去噪自编码器DAE级联起来，采用逐层贪婪训练的方法进行训练，从而学习到更高阶的特征。本发明中使用自编码器的损失函数定义如下：

式中，

堆叠去噪自编码器SDAE训练步骤如下：

(1)输入经过数据重采样后得到的新训练集；

(2)使用逐层贪婪训练的方法训练多个去噪自编码器，即每次单独训练一个自编码器，将上一个去噪自编码器的编码器输出作为下一个去噪自编码器的输入，使得自编码器的损失函数最小化；

(3)将分别训练完成的去噪自编码器级联起来，得到堆叠去噪自编码器；

最后，将训练完成的堆叠去噪自编码器的编码器结构与Softmax结构组成分类器，进行网络流量数据异常检测，其步骤如下：

(1)获取堆叠去噪自编码器的编码器网络，在最后一个隐藏层后面加上Softmax层，得到了基于堆叠去噪自编码器的分类器；

(2)输入重构后的训练数据，以端对端的形式对分类器进行参数微调，并得到训练完成的分类器；

(3)输入测试集，进行异常检测，得到结果进行分析。

Claims

1.一种基于重采样的网络异常流量检测方法，其特征在于：基于生成对抗网络模型的少数类别重采样、基于自编码器网络的数据重构以及基于自编码器的编码器网络结合Softmax网络的网络流量数据异常检测。

2.根据权利要求1所述的基于生成对抗网络模型的少数类别重采样，其特征在于使用基于Wasserstein的条件生成对抗网络对网络流量数据中的少数攻击类别进行重采样。

3.根据权利要求1所述的基于自编码器网络的数据重构，其特征在于使用堆叠去噪自编码器网络对重采样后的网络流量数据进行数据重构。

4.根据权利要求1所述的基于自编码器的编码器网络结合Softmax网络的网络流量数据异常检测，其特征在于使用训练后得到的自编码器的编码器网络结合Softmax网络形成分类器，然后对网络流量数据进行异常检测。