CN113537313A

CN113537313A - 一种基于wgan训练收敛的不平衡数据集分析方法

Info

Publication number: CN113537313A
Application number: CN202110736686.0A
Authority: CN
Inventors: 许艳萍; 裘振亮; 章霞; 叶挺聪; 仇建; 张桦; 吴以凡; 张灵均; 陈政
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2021-06-30
Filing date: 2021-06-30
Publication date: 2021-10-22
Anticipated expiration: 2041-06-30
Also published as: CN113537313B

Abstract

本发明公开了一种基于WGAN训练收敛的不平衡数据集分析方法，针对不平衡数据集中的少类样本构建包含生成器和判别器的WGAN模型。生成器生成数据，再利用判别器对生成的新数据和原始数据进行判断，进而将判别结果以代价的形式反馈给生成器，使生成器生成与原始数据更相近的新数据。在WGAN模型训练过程中，生成器和判别器交替训练，每一轮以判别器的代价函数收敛作为生成器和判别器训练平衡的纳什均衡点，指导生成器和判别器的训练更替。本发明提出的基于WGAN训练收敛的不平衡数据集分析方法，可以通过生成大量少类样本，与原始样本融合，实现数据集的平衡，当基于浅层机器学习算法对数据分类时，实现对原始少类数据的高效正确检测。

Description

一种基于WGAN训练收敛的不平衡数据集分析方法

技术领域

本发明属于数据分析处理领域，涉及网络安全大数据分析和建模，具体涉及一种基于WGAN训练收敛的不平衡数据集分析方法。

背景技术

在网络空间中，通过多种途径获取的数据集通常是不平衡的，即数据集中包含的各个类别的样本数目不同，如网络入侵检测中，大部分情况下都是正常访问流量，异常流量出现的情况较少；应用软件中，良性应用的数目要远远多于恶意应用的数目，而恶意应用一旦因为应用不当而广泛传播，将会给用户带来无法估计的损失。不平衡的数据集很常见，在使用数据挖掘算法和机器学习算法进行分析时，通常会产生很多问题，如少类样本数量较少，不利于分类器的学习和训练，以至于对训练集中的少类样本分类精度较差；在分类边界上分布较少的少类样本，造成分类面向少类样本偏离，使得少类样本的误分概率较大；当少类样本数量极少，又被分类器划分到更多子空间时，容易被当作噪声数据抛弃，进而形成数据碎片。随着深度学习、人工智能计算的不断发展，以及深度学习技术在计算机视觉、自然语言处理等方面的成功应用，我们将深度学习技术应用于处理网络安全不平衡数据集，实现网络安全数据分类，提高网络数据中占少类的威胁检测。

对抗生成网络GAN是一个典型的深度生成式模型，其设计灵感来自于博弈论，一般由生成器和判别器两个神经网络构成，生成器用于尽量生成与真实数据相近的新数据去欺骗判别器，判别器的目标是尽量辨别出生成器生成的假数据和真实数据。通过对抗方式进行多次训练，最后得到一个性能优异的生成器。但是，GAN存在训练不稳定、梯度消失、模式崩溃的问题，为了解决这些问题，WGAN被提了出来，成功地对GAN进行了改进，表现为四点：(1)判别器的最后一层网络模型去掉Sigmoid；(2)生成器和判别器的损失函数不取对数；(3)判别器参数更新的过程中对损失函数值做截断；(4)不使用基于动量的优化算法。但是，不管是GAN，还是WGAN都没有考虑的一点是在训练过程中，对抗式生成网络存在训练不平衡的问题，如果判别器训练得太好，生成器就无法得到足够的梯度继续优化，而如果判别器训练得太弱，指示作用不显著，同样不能让生成器进行有效的学习。这样一来，判别器的训练次数就非常难把控。

发明内容

针对现有技术的不足，本发明提出了一种基于WGAN训练收敛的不平衡数据集分析方法，使用WGAN模型，利用生成器生成与原始的少类样本相似的新样本后，与原样本进行融合形成新的数据集，再输入浅层机器学习算法中进行分类，改善因样本不平衡导致的分类错误。在WGAN模型的训练过程中对生成器与判别器进行交替迭代训练，平衡判别器的指示作用与生成器的有效学习。

一种基于WGAN训练收敛的不平衡数据集分析方法，具体包括以下步骤：

步骤一、数据采集与预处理

采集网络安全数据，按照类别标签将网络安全数据分割成多类数据子集和少类数据子集，并计算两个子集间的不平衡度与过采样率，根据过采样率确定生成少类数据的数量。

步骤二、构建WGAN模型

构建包含生成器和判别器的WGAN模型，将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中，生成符合要求数量的新的少类数据。

步骤三、训练WGAN模型

对WGAN模型中的生成器与判别器进行多次交叉迭代训练，在一次迭代中首先固定判别器，训练生成器，然后再固定生成器，训练判别器。每一轮迭代训练时，生成器的训练次数是固定的，判别器的训练次数根据代价函数的收敛情况动态变化。判别器训练次数为前两轮迭代中判别器收敛时的最小代价的比值向下取整。

步骤四、数据融合

使用步骤三训练后的WGAN模型，输出符合要求数量的新的少类数据，将其与步骤一中的少类数据子集融合后再与多类数据子集融合，形成新的网络安全数据集。

步骤五、数据分类

将步骤四得到的新的网络安全数据集输入浅层机器学习模型中，对浅层机器学习模型模型进行训练。然后再将无标签的网络安全数据输入训练后的浅层机器学习模型，输出对应的预测标签，完成网络安全数据的分类。

作为优选，所述浅层机器学习模型为支持向量机、决策树或朴素贝叶斯模型。

本发明具有以下有益效果：

1、在WGAN模型的训练过程中对生成器与判别器进行交替迭代训练，并且在每一轮的训练过程中以前两轮判别器的代价函数收敛变化情况，确定判别器的训练次数，避免因判别器过优导致的生成器梯度优化不足，或判别器的指示作用不显著导致的生成器无法进行有效的学习。

2、使用训练后的WGAN模型生成更多的少类数据后与原数据集融合，平衡数据集中不同的样本数量，再对浅层机器学习模型进行训练，有效降低由于数据不平衡带来的分类误差。

附图说明

图1为一种基于WGAN训练平衡的不平衡数据集分析方法。

具体实施方式

以下结合附图对本发明作进一步的解释说明；

如图1所示，一种基于WGAN训练收敛的不平衡数据集分析方法，具体包括以下步骤：

步骤一、数据采集与预处理

对原始的网络安全数据进行One-hot编码，构建尺寸为N*D的网络安全数据集X，按照类别标签将网络安全数据分割成多类数据子集和少类数据子集，其中多类数据X_d的数量为N₊，

少类数据X_s的数量为N_-，

定义不同类别数据间的不平衡度IR和过采样率R分别为：

其中，

表示对数据向下取整。

为了实现不同类别的样本达到数目上的平衡，需要合成(IR-1)倍的新的少类数据。

步骤二、构建WGAN模型

构建包含生成器G和判别器D的WGAN模型，生成器G和判别器D的网络结构由全连接层构成。将噪声数据X_Nosie以及步骤一中的少类数据子集X_s输入到WGAN模型中，使用生成器G新的少类数据集X_f，大小为R*N_-。

步骤三、训练WGAN模型

对WGAN模型中的生成器与判别器进行多次交叉迭代训练，训练过程即为减小生成器Loss和判别器Loss的过程。本实施例选择Wasserstein距离作为WGAN模型的损失函数：

其中，P_D是判别器数据，P_G是生成器数据，W(P_D,P_G)是P_D和P_G组成的所有可能联合分布的集合。对于联合分布γ来说，数据子集X_s和数据集X_f符合分布(X_s,X_f)～γ，||X_s-X_f||表示样本之间的距离，在联合分布下样本距离的期望值为

取下界定义为Wasserstein距离。

为求解公式(3)，引入K-Lipschitz限制条件：

|f_w(X_s)-f_w(X_f)|≤K*|X_s-X_f| (4)

其中，f_w(·)表示神经网络模型函数，K为Lipschitz常数。

求解公式(4)的近似解：

Lipschitz常数K将梯度的值放大K倍，但不影响梯度的方向。公式(5)可以表示成一个含参数w、最后一层不是非线性激活层的判别器网络。公式(5)表示对所有满足1-Lipschitz限制的函数f_w(·)取上界，即Lipschitz限制规定了一个连续函数的最大局部变动幅度。在限制w不超过某个范围的条件下，Wasserstein距离转化为

在训练过程中，如果生成器要近似地最小化Wasserstein距离，可以最小化

考虑到

的第一项与生成器无关，因此可以将

拆分为

和

分别表示判别器Loss和生成器Loss。

公式(7)与公式(6)互反，可以指示训练进程，其数值越小，表示真实分布与生成分布的Wasserstein距离越小，GAN训练得越好。

在一次迭代中首先固定判别器，训练生成器，然后再固定生成器，训练判别器。每一轮迭代训练时，判别器的训练次数是不固定的，根据代价函数的收敛情况动态变化。假设生成数据的分布和真实数据的分布近似，在一轮训练迭代中，判别器的识别能力不断增强，最终会收敛，并能够正确将生成数据和真实数据分类。在判别器收敛时，比较上一轮和本轮收敛代价的变化倍数，确定下一轮迭代的次数，用变化倍数作为平衡前后两轮收敛的指标。

(1)代价函数的收敛性证明

假设WGAN模型训练S轮，每一轮，生成器训练1次，判别器训练T次。在第s轮的第t_s次，如果判别器的代价函数

是凸的，并且是K-Lipschitzness的，则迭代方式为

其中，x∈[X_f,X_s]，

为步长，s＝0,1,…S，t_s＝0,1,…T_s。假设x*为代价函数

的最优解，在第t_s轮迭代时取得最优解为x*，

为

的最优值，也表示成

K为Lipschitzness常数，取值为1，则

第一个不等式满足了函数的凸性，第二个不等式基于Lipschitzness连续条件，对上式做累加，得到

同时乘以K²，得到

根据右边有界，得到

最后，在

条件下，

在本发明中，数据是高维数据，我们用Wasserstein距离衡量生成数据和真实数据之间的距离，令W_k表示第k轮判别器训练收敛时生成数据和真实数据之间的Wasserstein距离，上式转换为：

(2)判别器训练次数计算

在满足公式(9)、(12)、(14)的条件下，判别器在第s-1轮训练收敛时的最小代价是

在第s轮训练收敛时的最小代价是

则s+1轮判别器训练次数为

其中，

表示对数据向下取整。

即每一轮判别器训练次数取决于前两轮判别器训练收敛时的最小代价的比值向下取整，如果比值向下取整为0，则判别器训练次数为1。

步骤四、数据融合

使用步骤三训练后的WGAN模型，输出符合要求数量的新的少类数据集X_f，将其与步骤一中的少类数据子集融合后得到新的少类数据子集X_f+X_s，再与多类数据子集融合X_d，形成新的网络安全数据集X_f+X_s+X_d。

步骤五、数据分类

将步骤四得到的新的网络安全数据集X_f+X_s+X_d输入支持向量机模型中进行训练。然后再将无标签的网络安全数据输入训练后的支持向量机模型中，输出对应的预测标签，完成网络安全数据的分类。

Claims

1.一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：该方法具体包括以下步骤：

步骤一、数据采集与预处理

采集网络安全数据，按照类别标签将网络安全数据分割成多类数据子集和少类数据子集，并计算两个子集间的不平衡度与过采样率，根据过采样率确定生成少类数据的数量；

步骤二、构建WGAN模型

构建包含生成器G和判别器D的WGAN模型，将噪声数据以及步骤一中的少类数据子集输入到WGAN模型中，生成符合要求数量的新的少类数据；

步骤三、训练WGAN模型

对WGAN模型中的生成器与判别器进行多次交叉迭代训练，在一次迭代中首先固定判别器，训练生成器，然后再固定生成器，训练判别器；每一轮迭代训练时，生成器的训练次数是固定的，判别器的训练次数根据代价函数的收敛情况动态变化；

步骤四、数据融合

使用步骤三训练后的WGAN模型，输出符合要求数量的新的少类数据，将其与步骤一中的少类数据子集融合后再与多类数据子集融合，形成新的网络安全数据集；

步骤五、数据分类

将步骤四得到的新的网络安全数据集输入浅层机器学习模型中，对浅层机器学习模型模型进行训练；然后再将无标签的网络安全数据输入训练后的浅层机器学习模型，输出对应的预测标签，完成网络安全数据的分类。

2.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：定义不同类别数据间的不平衡度IR和过采样率R分别为：

其中，N₊和N_-分别为采集的网络安全数据中，多类数据和少类数据的数量，

表示对数据向下取整。

3.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：生成器G和判别器D的网络结构由全连接层构成。

4.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：判别器训练次数为前两轮迭代中判别器收敛时的最小代价的比值向下取整。

5.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：所述浅层机器学习模型为支持向量机、决策树或朴素贝叶斯模型。

6.如权利要求1所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：在WGAN模型的训练过程中，选择Wasserstein距离作为损失函数。

7.如权利要求6所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：所述Wasserstein距离的定义为：

其中，P_D是判别器数据，P_G是生成器数据，W(P_D,P_G)是P_D和P_G组成的所有可能联合分布的集合；对于联合分布γ来说，数据子集X_s和数据集X_f符合分布(X_s,X_f)～γ，||X_s-X_f||表示样本之间的距离，在联合分布下样本距离的期望值为

取下界定义为Wasserstein距离。

8.如权利要求6或7所述一种基于WGAN训练收敛的不平衡数据集分析方法，其特征在于：引入K-Lipschitz限制条件|f_w(X_s)-f_w(X_f)|≤K*|X_s-X_f|对Wasserstein距离进行求解，将其转化为：

考虑到

的第一项与生成器无关，因此可以将

拆分为

和

分别表示判别器Loss和生成器Loss；