CN109816044A

CN109816044A - 一种基于wgan-gp和过采样的不平衡学习方法

Info

Publication number: CN109816044A
Application number: CN201910110272.XA
Authority: CN
Inventors: 邓晓衡; 黄戎; 沈海澜
Original assignee: Central South University
Current assignee: Central South University
Priority date: 2019-02-11
Filing date: 2019-02-11
Publication date: 2019-05-28

Abstract

本发明公开了一种基于WGAN‑GP和过采样的不平衡学习方法，包括：生成器网络，由三层全连接网络组成并且每一层的输出都应用了Batch Normalization(BN)归一化去防止梯度弥散，所述生成器网络由于最终需要产生特定标签的样本，将高斯随机噪声z和样本标签y_i∈{0,1}组合成新的向量作为输入，输出样本标签y_i对应的生成样本x；同样由三层全连接网络组成的判别器网络，所述判别器网络的输入为样本标签y_i以及真实样本或生成样本，输出结果为判断样本是真实的或者为被生成的。本发明能大大减少噪声样本的产生，优化生成少数样本的质量，最终提升原始不平衡数据集上训练的分类器的泛化性能。

Description

一种基于WGAN-GP和过采样的不平衡学习方法

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于WGAN-GP和过采样的不平衡学习方法。

背景技术

在不平衡数据集上进行建模学习对于学术界和产业界来说都是一个非常重要的问题。不平衡的学习问题可以定义为来自二分类或多分类数据集的学习问题，其中一类的实例数(成为多数类)明显高于其余类的实例数(成为少数类)。不平衡率(IR)，定义为多数类与每一个少数类之间的比例，这个比例对于不同的应用是不同的，对于二分类问题，不平衡率在100到100000之间。

不平衡问题是多种实际应用场景普遍存在的，例如：异常检测、故障诊断、电子邮件归档、人脸识别、欺诈检测。标准的机器学习方法在不平衡数据集中表现不佳，因为他们会更偏向于多数类，以准确率为导向的学习过程将缺乏对少数类的关注，因此很容易将少数类误判成多数类。然而对人们有价值的数据通常是少数类，这些少数类的错分代价往往非常大，有效提高少数类的分类精度具有实际社会、经济、技术价值。

目前，人们也提出许多方法来解决不平衡分类问题。Galar等人系统地将现有工作分为四类：数据级方法，成本敏感法，算法级方法和集成学习方法。数据级方法通过基于特征空间中最近邻居的过采样或欠采样将不平衡数据转换为平衡数据；成本敏感学习调整传统方法的初始权重，以更多地关注少数人；算法级方法直接修改现有的学习算法，以减轻对多数对象的偏见；最后，集合方法将采样或其他技术与传统的集合方法(如bagging或boosting)相结合，这种方法对于困难的数据具有高度竞争性和鲁棒性综上，不平衡数据集的传统机器学习方法的难点在于：少数类相比多数类的绝对数量劣势，使它不能完整学习少数类的分布。如果数据集中存在子集群，则聚类是学习此类特征的典型可行方法。

发明内容

本发明的重点是过采样技术，这将为少数类生成人工数据，从而将不平衡数据转换为平衡数据。标准的过采样方法受到合成少数类的过采样技术(SMOTE)算法的启发，沿着连接少数类样本的线生成合成样本。数据生成过程的直接方法是使用捕获实际数据分布的生成模型。生成对抗网络(GAN)是一种使用神经网络创建生成模型的最新方法。条件生成对抗网络(cGAN)通过加入类别信息的训练来扩展GAN模型。在发明中，考虑到现实生活中的大部分场景下，数据更一般的形式是结构化存储的，所以我们将针对性的提出一种改进的cGAN，针对结构化数据中的离散category特征，我们会利用Embedding层将其转换成稠密的嵌入向量表示，并且为了解决原始cGAN的训练稳定性问题，修改了原模型的生成器和判别器目标函数。最终的生成器用于为少数类创建人工数据，即生成器对应于过采样算法。

本发明旨在至少解决现有技术中存在的技术问题。为此，本发明公开了一种基于WGAN-GP和过采样的不平衡学习方法，包括：生成器网络，由三层全连接网络组成并且每一层的输出都应用了Batch Normalization(BN)归一化去防止梯度弥散，所述生成器网络由于最终需要产生特定标签的样本，将高斯随机噪声z和样本标签y_i∈{0，1}组合成新的向量作为输入，输出样本标签y_i对应的生成样本x；同样由三层全连接网络组成的判别器网络，所述判别器网络的输入为样本标签y_i以及真实样本或生成样本，输出结果为判断样本是真实的或者为被生成的。

更进一步地，包括以下步骤：

S1.获取原始数据；

S2.将原始数据，分别将少数类样本随机采样，并且与预设量的多数类样本组成多个不同IR率的数据集；

S3.依次训练每一个二分类的不平衡数据集其中n表示当前数据集的样本数，y_i∈{0，1}，y＝1表示的是少数类样本的标签，Conditional WGAN-GP中生成器的输入为样本标签和输入的随机噪声，输出一个生成样本；同时判别器的输入为真实样本与对应标签，或生成样本与其输入标签，输出判断时真实样本还是生成器生成样本，然后用生成器和判别器的损失函数计算损失，利用梯度下降优化模型参数，得到一个可以产生以假乱真样本的生成器；

S4.对步骤S3中得到的生成器，向生成器输入随机噪声和少数类标签(z，y＝1)，生成多个少数类样本，知道使不平衡数据集变成平衡为止；

S5.将得到的平衡数据集用五种不同的分类器进行训练并得到在测试集上的预测结果，将原始数据集利用其它几种对比过采样算法进行过采样操作得到平衡数据集，并同样用五种分类器得到测试集上的预测结果。

更进一步地，判别器的损失函数，如下：

其中，D(·)、G(·)分别表示判别器和生成器模型的函数表达式，P_r表示真实样本的数据分布，P_g表生成器生成样本的数据分布，指的是判别器D(x)的梯度，L(·)表示损失函数。

更进一步地，和生成器的损失函数如下：

其中，D(·)、G(·)分别表示判别器和生成器模型的函数表达式，P_r表示真实样本的数据分布，P_g表生成器生成样本的数据分布，其中指的是判别器D(x)的梯度。

本发明是基于对抗神经网络(GAN)一种改进应用，利用本发明在不平衡数据上训练得到一个可以生成指定标签样本的生成器，从而实现对不平衡数据的过采样使其变成平衡数据集。本发明方法包含一个生成器一个判别器，且都是简单的单隐藏层全连接网络，可以用任何编程语言实现部署。在本发明中，将WGAN-GP对抗神经网络模型应用到了不平衡，并且取得了比较好的效果；针对结构化数据中存在大量类别特征的特点，本发明将每个真实样本的类别特征利用Embedding layer映射到高维稠密空间中，然后再连同其他数值特征一起输入到判别器进行训练，能有效提高模型的性能。

针对实际问题的具体应用方式如下：

S1.获取原始数据(原始数据可以为任一二分类问题存在两个标签的数据，分别为多数类和少数类)；

S2.在计算机上实现本发明的Conditional WGAN-GP网络；

S2.将本发明的Conditional WGAN-GP中生成器的输入为样本标签和输入的随机噪声，输出一个生成样本；同时判别器的输入为真实样本与对应标签，或生成样本与其输入标签，输出判断时真实样本还是生成器生成样本。然后用生成器和判别器的损失函数计算损失，利用梯度下降优化模型参数，得到一个可以产生以假乱真样本的生成器。

S5.通过上述步骤得到平衡数据集之后，就可以拿来训练普通的分类器，这样得到的分类效果往往比直接使用原始不平衡数据的效果要好许多。

综上所述，本发明的有益效果：我们受对抗神经网络的优点启发，基于对WGAN-GP的研究，提出了一种用于不平衡数据集上的过采样方法。相较于传统的过采样方法简单的利用原始数据的统计特性去人工生成少数类样本，本发明通过生成器和判别器的对抗训练过程，可以通过真实数据的本质特征，刻画出样本的数据分布特征，学习从随机高斯噪声到不同类别原始数据的数据分布映射，从而自动生成符合少数类样本真实分布的样本，能大大减少噪声样本的产生，优化生成样本的质量，最终提升原始不平衡数据集上训练的分类器的泛化性能。

附图说明

从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制，而是将重点放在示出实施例的原理上。在图中，在不同的视图中，相同的附图标记指定对应的部分。

图1是本发明的一个实施例中的实验数据集数据；

图2是本发明一个实施例中实验时本发明的Conditional WGAN-GP中的参数设置；

图3是一个实施例中对不同的过采样方法在所有数据集上的平均排序结果；粗体的是表现最好的过采样方法；

图4是本发明算法的结构图。

具体实施方式

实施例一

为了评估新模型作为过采样方法的表现，基于来自机器学习库的12个公开可用数据集进行实验分析。为了在广泛的IR上进行测试，通过对这12个数据集的少数类进行不同程度的欠采样以及添加具有适当特征的10个模拟数据集来扩充数据集个数(具体的数据集组成如图1所示)。然后将提出的方法与随机过采样，SMOTE算法，Borderline SMOTE，ADASYN和Cluster-SMOTE进行比较。对于二分类数据的分类，应用五个分类器和三个评估度量(F-measure，G-mean和Area Under the ROC Curve(AUC))，去比较用不平衡处理技术处理后的数据，在五种分类器(LR、SVM、KNN、DT和GBM)上的性能表现。

接下来对5个对照算法和本发明算法说明：

a.随机过采样：就是简单的对原始少数类抽样并复制，把少数类的数量扩充到与多数类一样。

b.SMOTE算法：利用欧氏距离计算，得到每个少数类的k个近邻样本，然后利用随机采样得到的近邻样本，在当前点和采样的近邻点之间的连线上取到一个新的样本点。通过这种方式将不平衡问题变成平衡问题。

c.Borderline SMOTE算法：这是基于SMOTE算法的改进，不再是简单的欧式近邻样本之间产生新样本，而是只针对边界样本的连接之间，产生新的样本。从而达到过采样的目的。

d.ADASYN算法：产生新样本的方式仍然类似SMOTE，只是针对每个少数类样本计算K个近邻样本中多数类样本的比例，然后通过取平均值，计算每个少数样本应该产生的新样本数目。

e.Cluster-SMOTE算法：先利用聚类的方法进原始数据的聚类，然后在对聚类中心进行SMOTE方式的过采样。

f.本发明是将WGAN-GP改进成生成器带标签输入的Conditional WGAN-GP，我们可以利用输入到生成器的标签指定生成器的生成样本类别，针对不平衡问题，我们对训练好的生成器输入少数类的标签，随机生成少数类样本，直到将不平衡数据变成平衡数据为止。

图2为针对不同数据集，我们的本次实施例进行的网络结构微调，第一列对应了不同的数据集名称，第二列d_z是生成器的输入高斯噪声向量的维度，第三列是生成器的全连接层隐藏层的维度，最后一列是判别器的隐藏层维度。

下面以其中的一种不平衡数据集为例说明实施具体过程：

S1.获取原始数据。

S2.将原始数据按照图1所示，分别将少数类样本随机采样成268、134、67、44、26、17、13其中，并且与500个多数类样本组成7个不同IR率的数据集；

S3.依次训练每一个二分类的不平衡数据集其中n表示当前数据集的样本数，y_i∈{0，1}，y＝1表示的是少数类样本的标签。本发明的Conditional WGAN-GP中生成器的输入为样本标签和输入的随机噪声，输出一个生成样本；同时判别器的输入为真实样本与对应标签，或生成样本与其输入标签，输出判断时真实样本还是生成器生成样本。然后用生成器和判别器的损失函数计算损失，利用梯度下降优化模型参数，得到一个可以产生以假乱真样本的生成器。

S5.将得到的平衡数据集用五种不同的分类器进行训练并得到在测试集上的预测结果。将原始数据集利用其它几种对比过采样算法进行过采样操作得到平衡数据集，并同样用五种分类器得到测试集上的预测结果。

具体实验结果如图3所示，每个数值表示的是不同的过采样方法在所有数据集上测试得到的平均排序结果。

实验分析：粗体表示在该数据集上表现最好的算法，可以观察在三种不同的指标下，利用五种分类器得到的实验结果都证明，本过采样方法得到的预测结果平均排序都是最高的，可说明本发明提出的方法的有效性。

实施例二

本发明是在WGAN-GP上提出一种Conditional WGAN-GP，可以将标签作为生成器的输入，生成标签对应的样本。接下来将从以下几个方面详细介绍本发明内容：模型结构，WGAN-GP理论分析，本发明模型损失函数。

1、模型结构

整个算法模型的结构如图4所示。这个模型被虚线框分为两个部分：

a.左上角是生成器网络，由三层全连接网络组成并且每一层的输出都应用了Batch Normalization(BN)归一化去防止梯度弥散。该网络由于最终需要产生特定标签的样本，所以与WGAN-GP单纯的输入高斯随机噪声z不同，这里将高斯随机噪声z和样本标签y_i∈{0，1}组合成新的向量作为输入，输出样本标签y_i对应的生成样本x。

b.右下角虚线框内的是判别器，同样由三层全连接网络组成。该网络的输入为样本标签y_i和虚线箭头所示的真实样本或者生成样本，输出为判断样本是真实的或者生成的。

2、WGAN-GP理论分析。

对抗神经网络GAN在2014年由lanGoodfellow等人第一次提出，这是一种全新的生成模型，它能通过神经网络学习到真实样本的数据分布。但是GAN存在着训练困难、生成器和判别器的loss无法指示训练进程、生成样本缺乏多样性等问题。从那时起，很多论文都在尝试通过解决，但是效果不尽人意，比如最有名的一个改进DCGAN依靠的是对判别器和生成器的架构进行实验枚举，最终找到一组比较好的网络架构设置，但是实际上是治标不治本，没有彻底解决问题。

但是Wasserstein GAN是由Martin等人在2017年提出的一种通过数学理论分析得到的新的对抗神经网络模型，它主要解决了以下几点：

a.彻底解决GAN训练不稳定的问题，不再需要小心平衡生成器和判别器的训练程度；

b.解决了collapse mode的问题，确保了生成样本的多样性；

c.以上一切优点不需要精心设计的网络架构，最简单的多层全连接网络就可以做到；

而WGAN的关键部分是Lipschitz限制。WGAN中，判别器D和生成器G的loss函数分别是：

其中D(·)、G(·)分别表示判别器和生成器模型的函数表达式，P_r表示真实样本的数据分布，P_g表生成器生成样本的数据分布。公式1表示判别器希望真样本输出置信度尽可能高，假样本的置信度尽可能低，公式2则表示生成器希望尽可能拉高假样本的置信度。

Lipschitz限制指的是，在整个样本空间x上，要求判别器函数D(x)梯度的Lp-norm不大于一个有限的常数K：

其中指的是判别器D(x)的梯度。

直观上解释，就是当输入的样本稍微变化后，判别器给出的分数不能发生太过剧烈的变化。这个限制具体是通过weight clipping的方式实现的：每当更新完一次判别器的参数之后，就检查判别器的所有参数的绝对值有没有超过一个阈值，比如0.01，有的话就把这些参数clip回[-0.01，0.01]范围内。通过在训练过程中保证判别器的所有参数有界，就保证了判别器不能对两个略微不同的样本给出天差地别的分数值，从而间接实现了Lipschitz限制。

但是这种限制判别器参数的实现方式仍然存在十分严重的问题：

a.公式1的目的是让判别器对真假样本的置信度尽可能大，但是这种限制网络参数的方式，最终很容易导致所有判别器的参数都在限制界限的两端(几乎所有的参数都是±0.01)，从而降低了判别器的拟合能力，变成一个简单的映射函数。

b.weight clipping方式很容易导致梯度消失或者爆炸。原因类似多层全连接网络的梯度消失和爆炸，由于是一个堆叠的多层网络，如果阈值设置过小，就会导致传回的梯度越来越小最终消失，如果太大，那就同样导致梯度变得非常大。

为了解决这个问题，提出了一种新的实现Lipschitz限制的方法---gradientpenalty，如前面对Lipschitz限制的解释，为了限制判别器的梯度不超过某个常数K，我们可以直接设置一个额外的损失函数项来作为判别器的梯度乘法。主要有下面两种形式：

这两种形式的损失项具体使用哪一个一般根据具体应用表现随机调整。接着可以直接将K＝1，结合原始的损失函数，我们就得到了新的判别器损失函数：

其中第一个期望是从真实数据集内采样，第二个期望是从高斯随机噪声采样后输入生成器得到生成样本，但是这里仍然有一个问题，第三个期望的x指的是整个样本所在的样本空间，我们需要在这上面采样求整个空间的期望是不现实的，期望的采样数量是巨大的。

所以这里可以简单的变换一下，没必要在整个样本空间施加Lipschitz限制，我们只要集中采样生成样本区域、真实样本区域和他们之间的区域就可以达到优化模型效果的目的。具体操作如下：

a.先采样一对真假样本和0-1之间随机数：

x_r～P_r，x_g～P_g，ε～U(0，1) (7)

b.然后在x_r与x_g之间的连线上进行采样：

c.这样我们将的数据分布记为于是最终判别器的损失变为：

生成器的损失函数仍然不变，即为上述的公式(2)。

3、本发明模型损失函数

综合上述WGAN-GP的理论分析，由于本发明需要的是一个输入特定样本标签能生成对应样本的生成器，所以对WGAN-GP的损失函数和模型进行了改动，产生了本发明的过采样算法Conditional WGAN-GP，模型改动在第一节模型结构中介绍了，这里我们会列出新的判别器和生成器损失函数，如下：

损失函数基本上和WGAN-GP相同，只不过这里我们的生成器和判别器输入都加入了样本的类别标签作为额外信息。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

本领域技术人员应明白，本申请的实施例可提供为方法、系统或计算机程序产品。因此，本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

虽然上面已经参考各种实施例描述了本发明，但是应当理解，在不脱离本发明的范围的情况下，可以进行许多改变和修改。因此，其旨在上述详细描述被认为是例示性的而非限制性的，并且应当理解，以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于WGAN-GP和过采样的不平衡学习方法，其特征在于，包括：生成器网络，由三层全连接网络组成并且每一层的输出都应用了Batch Normalization(一种在训练神经网络时，对每批训练数据进行归一化处理的技术)归一化去防止梯度弥散，所述生成器网络由于最终需要产生特定标签的样本，将高斯随机噪声z和样本标签y_i∈{0,1}组合成新的向量作为输入，输出样本标签y_i对应的生成样本x；同样由三层全连接网络组成的判别器网络，所述判别器网络的输入为样本标签y_i以及真实样本或生成样本，输出结果为判断样本是真实的或者为被生成的。

2.如权利要求1所述的一种基于WGAN-GP和过采样的不平衡学习方法，其特征在于，包括以下步骤：

S1.获取原始数据；

S2.将原始数据,分别将少数类样本随机采样,并且与预设量的多数类样本组成多个不同IR率的数据集；

S3.依次训练每一个二分类的不平衡数据集其中n表示当前数据集的样本数，y_i∈{0,1}，y＝1表示的是少数类样本的标签，Conditional WGAN-GP中生成器的输入为样本标签和输入的随机噪声，输出一个生成样本；同时判别器的输入为真实样本与对应标签，或生成样本与其输入标签，输出判断时真实样本还是生成器生成样本，然后用生成器和判别器的损失函数计算损失，利用梯度下降优化模型参数，得到一个可以产生以假乱真样本的生成器；

S4.对步骤S3中得到的生成器，向生成器输入随机噪声和少数类标签(z,y＝1)，生成多个少数类样本，直到使得不平衡数据集变成平衡为止；

S5.将得到的平衡数据集用五种不同的分类器进行训练并得到在测试集上的预测结果，将原始数据集利用其它几种对比过采样算法进行过采样操作得到平衡数据集，并用同样的五种分类器得到测试集上的预测结果。

3.如权利要求2所述的一种基于WGAN-GP和过采样的不平衡学习方法，其特征在于，判别器的损失函数，如下：

其中，D(·)、G(·)分别表示判别器和生成器模型的函数表达式，P_r表示真实样本的数据分布，P_g表生成器生成样本的数据分布,指的是判别器D(x)的梯度，L(·)表示损失函数，E表示符合某种分布的输入通过函数得到的输出期望。

4.如权利要求3所述的一种基于WGAN-GP和过采样的不平衡学习方法，其特征在于，和生成器的损失函数如下：

其中，D(·)、G(·)分别表示判别器和生成器模型的函数表达式，P_r表示真实样本的数据分布，P_g表生成器生成样本的数据分布,其中指的是判别器D(x)的梯度。