CN114301667A

CN114301667A - 基于wgan动态惩罚的网络安全不平衡数据集分析方法

Info

Publication number: CN114301667A
Application number: CN202111617202.7A
Authority: CN
Inventors: 许艳萍; 裘振亮; 仇建; 叶挺聪; 张桦; 吴以凡; 张灵均; 陈政
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-12-27
Filing date: 2021-12-27
Publication date: 2022-04-08
Anticipated expiration: 2041-12-27
Also published as: CN114301667B

Abstract

本发明公开了基于WGAN动态惩罚的网络安全不平衡数据集分析方法，针对不平衡数据集中的少类样本构建WGAN模型。在判别器损失函数中添加一项惩罚项，约束损失函数的梯度范数，惩罚项在真实数据分布上叠加一个随机分布作为过渡分布，惩罚项的系数为真实分布与生成分布之间的均方距离。在模型训练过程中，两个数据分布之间的均方距离不断变化，即对判别器损失函数的惩罚是动态更新的，有助于提高模型训练的稳定性和效率。本发明提出的基于WGAN动态惩罚的网络安全不平衡数据集分析方法，通过生成大量少类样本，与原始样本融合，实现数据集的平衡。在基于浅层机器学习算法对数据分类时，实现对原始少类数据的高效正确检测。

Description

基于WGAN动态惩罚的网络安全不平衡数据集分析方法

技术领域

本发明属于数据分析处理领域，涉及网络安全大数据分析和建模，具体涉及基于WGAN动态惩罚的网络安全不平衡数据集分析方法。

背景技术

在网络空间中，通过多种途径获取的数据集通常是不平衡的，即数据集中包含的各个类别的样本数目不同，如网络入侵检测中，大部分情况下都是正常访问流量，异常流量出现的情况较少；应用软件中，良性应用的数目要远远多于恶意应用的数目，但是占比较低的恶意应用一旦因为应用不当而广泛传播，将会给用户带来无法估计的损失。样本数量不平衡的数据集很常见，在使用数据挖掘算法和机器学习算法对其进行分析时，通常会产生很多问题，如少类样本数量较少，不利于分类器的学习和训练，以至于模型对训练集中的少类样本分类精度较差；在分类边界上分布较少的少类样本，造成分类面向少类样本偏离，使得少类样本的误分概率较大；当少类样本数量极少，又被分类器划分到更多子空间时，容易被当作噪声数据抛弃，进而形成数据碎片。随着深度学习、人工智能计算的不断发展，以及深度学习技术在计算机视觉、自然语言处理等方面的成功应用，将深度学习技术应用于处理网络安全不平衡数据集，实现网络安全数据分类，可以提高网络数据中占少类的威胁检测。

对抗生成网络GAN是一个典型的深度生成式模型，其设计灵感来自于博弈论，一般由生成器和判别器两个神经网络构成，生成器用于尽量生成与真实数据相近的新数据去欺骗判别器，判别器的目标是尽量辨别出真实数据和由生成器生成的假数据。通过对抗方式进行多次训练，最后得到一个性能优异的生成器。但是，GAN存在训练不稳定、梯度消失、模式崩溃的问题，为了解决这些问题，WGAN被提了出来，成功地对GAN进行了改进，表现为四点：(1)判别器的最后一层网络模型去掉Sigmoid；(2)生成器和判别器的损失函数不取对数；(3)判别器参数更新的过程中对损失函数值做截断；(4)不使用基于动量的优化算法。但是，不管是GAN还是WGAN，都没有考虑的一点是对抗式生成网络存在训练不平衡的问题，如果判别器训练得太好，生成器就无法得到足够的梯度继续优化，而如果判别器训练得太弱，指示作用不显著，同样不能让生成器进行有效的学习。这样一来，判别器的训练次数就非常难把控。

发明内容

针对现有技术的不足，本发明提出了基于WGAN动态惩罚的网络安全不平衡数据集分析方法，针对网络安全不平衡数据集，利用生成器生成与原始的少类样本相似的新样本后，与原样本进行融合形成新的数据集，再输入浅层机器学习算法中进行分类，改善因样本不平衡导致的分类错误，通过对WGAN增加动态惩罚项，改善WGAN训练不稳定的缺陷。

基于WGAN训练收敛的不平衡数据集分析方法，具体包括以下步骤：

步骤一、数据采集与预处理

采集网络安全数据，按照类别标签将网络安全数据分割成多类数据子集和少类数据子集，并计算两个子集间的不平衡度与过采样率。

步骤二、构建WGAN模型

构建包含生成器和判别器的WGAN模型，将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中，按照过采样率确定需要生成的新的少类数据的数量。

步骤三、训练WGAN模型

针对GAN模型中潜在的训练不稳定的问题，在判别器损失函数中添加一项惩罚项，用于约束损失函数的梯度范数。对WGAN模型中的生成器与判别器进行多次交叉迭代训练，在一次迭代中首先固定判别器，训练生成器，然后再固定生成器，训练判别器。经过多轮迭代，得到稳定的WGAN训练模型，生成与真实数据相近的少类新样本。

所述惩罚项采用在真实数据分布上叠加一个随机分布作为过渡分布的形式，惩罚项的系数为真实数据分布与生成数据分布之间的均方距离。随着模型训练的迭代，真实数据分布和生成数据分布之间的均方距离不断变化，因此该惩罚项对判别器损失函数的惩罚是动态更新的。可以加快生成数据的分布向真实数据分布逼近，从而有效提高训练的稳定性和效率。

步骤四、数据融合

使用步骤三训练后的WGAN模型，输出符合要求数量的新的少类数据，将其与步骤一中的少类数据子集融合后再与多类数据子集融合，形成带标签的网络安全数据集。

步骤五、数据分类

将步骤四得到的网络安全数据集输入浅层机器学习模型中，对浅层机器学习模型模型进行训练。然后再收集无标签的网络安全数据，输入训练后的浅层机器学习模型，输出对应的预测标签，完成网络安全数据的分类。

作为优选，所述浅层机器学习模型为支持向量机、决策树或朴素贝叶斯模型。

本发明具有以下有益效果：

1、针对GAN模型中潜在的训练不稳定的问题，在判别器损失函数中添加一项惩罚项，约束损失函数的梯度范数，惩罚项采用在真实数据分布上叠加一个随机分布作为过渡分布的形式，惩罚项的系数为真实分布与生成分布之间的均方距离。这样可以加快生成数据的分布向真实数据分布逼近，从而有效提高训练的稳定性和效率。

2、使用训练后的WGAN模型生成更多的少类数据后与原数据集融合，平衡数据集中不同的样本数量，再对浅层机器学习模型进行训练，有效降低由于数据不平衡带来的分类误差。

附图说明

图1为一种基于WGAN训练平衡的不平衡数据集分析方法。

具体实施方式

以下结合附图对本发明作进一步的解释说明；

如图1所示，基于WGAN训练收敛的不平衡数据集分析方法，具体包括以下步骤：

步骤一、数据采集与预处理

对原始的网络安全数据进行One-hot编码，构建尺寸为N*D的网络安全数据集X，按照类别标签将网络安全数据分割成多类数据子集和少类数据子集，其中多类数据X_d的数量为N₊，

少类数据X_s的数量为N_-，

定义不同类别数据间的不平衡度IR和过采样率R分别为：

其中，

表示对数据向下取整。

为了实现不同类别的样本达到数目上的平衡，需要生成的少类数据的数量为原有少类数据数量的(IR-1)倍。

步骤二、构建WGAN模型

构建包含生成器G和判别器D的WGAN模型，生成器G和判别器D的网络结构由全连接层构成。将噪声数据X_Nosie以及步骤一中的少类数据子集X_s输入到WGAN模型中，使用生成器G生成新的少类数据集X_f，大小为R*N_-。

步骤三、训练WGAN模型

对WGAN模型中的生成器G与判别器D进行多次交叉迭代训练，训练过程即为减小生成器Loss和判别器Loss的过程。本实施例选择Wasserstein距离作为WGAN模型的损失函数：

其中，P_D是判别器D的数据分布，P_G是生成器G的数据分布，W(P_D,P_G)是P_D和P_G组成的所有可能联合分布的集合。对于联合分布γ来说，数据子集X_s和数据集X_f符合分布(X_s,X_f)～γ，||X_s-X_f||表示两个数据集的样本之间的距离，在联合分布下样本距离的期望值为

取下界定义为Wasserstein距离。

为求解公式(3)，引入K-Lipschitz限制条件：

|f_w(X_s)-f_w(X_f)|≤K*|X_s-X_f| (4)

其中，f_w(·)表示神经网络模型函数，K为Lipschitz常数。

求解公式(4)的近似解：

表示新生成的样本。Lipschitz常数K将梯度的值放大K倍，但不影响梯度的方向。公式(5)可以表示一个含参数w、并且删去最后一层非线性激活层的判别器网络。公式(5)表示对所有满足1-Lipschitz限制的函数f_w(·)取上界，即Lipschitz限制规定了一个连续函数的最大局部变动幅度。在限制w不超过某个范围的条件下，Wasserstein距离转化为

在训练过程中，如果生成器G要近似地最小化Wasserstein距离，需要最小化

考虑到

的第一项与生成器无关，因此可以将

拆分为

和

分别表示判别器D的损失和生成器G的损失：

公式(7)与公式(6)互反，可以指示训练进程，其数值越小，表示真实分布与生成分布的Wasserstein距离越小，GAN训练得越好。

在生成器和判别器交替训练过程中，判别器用来分辨生成器生产的数据和真实数据。如果生产的数据与真实数据差异较大，则判别器的损失函数值就较大，对后续的训练收敛和样本生成质量都有较大影响。

为了加快生成器和判别器的迭代过程，提高WGAN的训练稳定性，我们在判别器损失函数

中添加一项惩罚项，约束损失函数的梯度范数。惩罚项采用在真实数据分布上叠加一个随机分布作为过渡分布的方式，惩罚项的系数为真实数据分布与生成数据分布之间的均方距离。添加惩罚项后判别器D的损失函数

表示为：

η＝MSE(X_f,X_s) (10)

MSE(·)表示均方误差函数。即判别器D的损失函数不仅与真实数据分布、生成数据分布有关，也与生成数据的分布与真实数据分布差异相关。WGAN模型训练早期，生成数据的分布与真实数据分布差异较大，它们的均方误差也较大，即惩罚系数较大，会导致惩罚项较大，进而对判别器的损失减小产生较大影响。在WGAN模型训练后期，生成数据的分布会越来越接近真实数据分布，它们之间的均方误差也会减小，有助于判别器的损失函数尽快收敛，从而有效提高模型训练的稳定性。

步骤四、数据融合

使用步骤三训练后的WGAN模型，输出符合要求数量的新的少类数据集X_f，将其与步骤一中的少类数据子集融合后得到新的少类数据子集X_f+X_s，再与多类数据子集融合X_d，形成新的网络安全数据集X_f+X_s+X_d。

步骤五、数据分类

将步骤四得到的新的网络安全数据集X_f+X_s+X_d输入浅层机器学习模型中进行训练。然后再将无标签的网络安全数据输入训练后的浅层机器学习模型中，输出对应的预测标签，完成网络安全数据的分类。