CN109711452A

CN109711452A - 一种基于wgan-gp模型对用户行为的不平衡分类方法

Info

Publication number: CN109711452A
Application number: CN201811567710.7A
Authority: CN
Inventors: 赵艺; 韩晗; 李可; 刘嵩
Original assignee: Sichuan XW Bank Co Ltd
Current assignee: Sichuan XW Bank Co Ltd
Priority date: 2018-12-20
Filing date: 2018-12-20
Publication date: 2019-05-03

Abstract

本发明公开了一种基于WGAN‑GP模型对用户行为的不平衡分类方法，属于用户行为预测、深度学习和不平衡分类技术领域，解决现有技术中以SMOTE算法作为数据增强的生成模型增加了相邻类别数据重叠，且在高维数据下的表现效果差；利用GAN作为数据增强的生成模型通常只用于图像数据，且在离散数据上的生成效果差的问题。本发明将随机噪声输入训练好的WGAN‑GP模型后的生成数据加入不平衡数据集，得到平衡数据集；基于多组平衡数据集训练分类器，得到多个分类器，并对多个训练好的分类器进行优化，然后进行迭代得到最优的分类器；基于用户行为数据使用最优的分类器进行预测，得到最终分类结果。本发明用于用户行为的大数据预测分类。

Description

一种基于WGAN-GP模型对用户行为的不平衡分类方法

技术领域

一种基于WGAN-GP模型对用户行为的不平衡分类方法，用于用户行为的大数据预测分类，属于用户行为预测、深度学习和不平衡分类技术领域。

背景技术

不平衡分类，指的是在不同类别的训练样本数差别很大的情况下进行分类。在现实生活的分类问题中，往往有大量的情况都是不平衡分类，比如信用卡欺诈、罕见疾病检测、搜索引擎的点击预测等。传统的分类算法以降低总体分类精度为目标，将所有样本同等对待，导致在不平衡分类的情况下，学到的分类器在样本个数多的类别(简称多类)上的分类精度较高，而在样本个数少的类别(简称少类)上的分类精度很低。因此，研究如何在样本类别不均衡的情况下进行分类器的学习，具有普遍的应用场景和十分强烈的现实意义。

近年来，机器学习、深度学习大力发展，越来越多的企业利用机器学习等互联网技术来解决实际中遇到的问题，比如利用逻辑回归、GBDT等机器学习算法来预测用户行为数据的可信度。事实上，预测用户是否不可信只是用户行为数据预测的其中一种表现，在互联网领域，用户行为数据预测一直是重要课题，利用数据挖掘技术，分析海量的用户行为数据，根据用户行为数据能够有效地分析预测用户的行为。用户行为预测通常指对用户行为数据进行分类，比如判断用户是否是虚假行为等。而在具体的预测分类中，绝大多数的用户行为预测都属于不平衡分类问题，在实际中，都是通过已有的大量的用户行为数据对新用户行为进行预测(即类似通过用户行为数据进行测谎判断)，以便将少部分不可信的用户行为数据所对应的用户分类出来，而通常情况下，大部分用户都是可信用户，仅有少部分用户是不可信用户，因而采用的分类都是典型的不平衡分类。因此，如何克服样本类别不均衡的问题，在不平衡数据的情况下对用户行为数据进行有效的预测分类，是必须要解决的重要问题。

生成对抗网络(简称GAN)具有强大的学习数据分布的功能，通过拟合数据分布，生成与原数据分布相同的数据。原始GAN主要运用于实数空间(连续型数据)，GAN通过判别器的输出来对生成器做出改变，每次通过略微的改变来使生成器生成的数据不断逼近真实数据的分布，当数据为连续型数据时，很容易对生成数据进行微调；而当数据为离散型数据时，很难通过对生成数据的微调来拟合真实数据的分布。图像数据具有高维、特征维度高相关性、像素值连续等典型特点，因此GAN从2014年提出至今，在图像领域大放异彩，而在自然语言处理以及互联网领域的离散数据上的应用成果极少，而采用现有的GAN，根据无法处理离散数据。

现有技术中与本申请提案最接近的技术方案主要有两个，具体如下：

1.现有技术一：

在解决用户行为预测不平衡分类问题时，利用SMOTE算法来生成一部分少类样本，补充到原不平衡数据集中，从而减缓数据的不平衡性。

该现有技术以SMOTE算法作为数据增强的生成模型。

该现有技术的主要缺点：(1)由少类样本和其邻近少类样本之间的连线随机合成新的少类样本，增加了类之间重叠的可能性。(2)在高维数据下的表现效果较差。

2.现有技术二：

在解决图像分类训练集数据量不足问题时，利用GAN来生成一部分图像，补充到原始数据集中，增加训练集样本数量，从而更好地训练分类器。

该现有技术用于图像领域数据增强，通常局限于图像数据，在离散数据上的生成效果很差。

发明内容

针对上述研究的问题，本发明的目的在于提供一种基于WGAN-GP模型对用户行为的不平衡分类方法，解决现有技术中以SMOTE算法作为数据增强的生成模型增加了相邻类别数据重叠，且在高维数据下的表现效果较差；以GAN模型作为生成模型通常只局限于图像数据，且在离散数据上的生成效果很差的问题。

为了达到上述目的，本发明采用如下技术方案：

一种构建WGAN-GP模型的方法，其特征在于，包括如下步骤：

S1、将不平衡数据集根据各类别数量的多少进行划分，得到多类数据和少类数据；

S2、基于少类数据、给定的超参数和构建好的WGAN-GP结构进行训练，得到训练好的WGAN-GP模型；

S3、输入随机噪声到训练好的WGAN-GP模型，得到多个生成的少类样本，即得到生成数据；

S4、判断步骤S3得到的生成数据是否满足要求，若满足，步骤S2的结果即为最终训练好的WGAN-GP模型，否不满足，调整步骤S2中的超参数后，再执行步骤S2-S4。

进一步，所述步骤S1包括如下步骤：

若不平衡数据集只有两个类别时，根据类别数量，将不平衡数据集划分为多类数据和少类数据，记多类数据有m个多类样本，少类数据有n个少类样本；

若不平衡数据集有多个类别时，通过搭建多个二分类器，通过多个二分类器将不平衡数据集划分为多个多类数据和多个少类数据。

进一步，所述步骤S2包括如下步骤：

S2.1、根据少类数据的维度特征，构建WGAN-GP结构并设置超参数；WGAN-GP结构包括生成器和判别器的结构，生成器和判别器都为三层全连接网络，生成器前两层全连接的激活函数为Relu函数，最后一层去掉了激活函数Sigmoid函数，只保留全连接；判别器前两层全连接的激活函数为Relu函数，最后一层全连接的激活函数为Sigmoid函数；

S2.2、根据所构建的WGAN-GP结构和设置的超参数，用少类数据进行训练，得到训练好的WGAN-GP模型。

进一步，所述步骤S2.1中，判别器的损失函数为：

其中，E指数学期望，D(x)表示判别器的判别结果，p_data表示少类样本的分布，p_G表示生成器生成的少类样本的分布，即生成样本的分布，表示少类样本和生成样本的集合的分布，x指服从p_data分布的少类样本，指服从分布的少类样本和生成样本的集合，γ为超参数；生成器的损失函数为：

L_G＝E_x～P_G[D(x)]。

进一步，所述步骤S3包括如下步骤：

S3.1、输入一个随机噪声到已训练好的WGAN-GP模型，得到一个生成的少类样本；

S3.2、重复步骤S3.1，重复p次，得到p个生成的少类样本，即得到生成数据。

进一步，所述步骤S4中判断步骤S3得到的少类数据是否满足要求包括如下步骤：

对n个原有的少类样本和p个生成的少类样本，分别选择min{p，n}个，画出min{p，n}个原有的少类样本和min{p，n}个生成的少类样本在每个变量上的边际分布图，观察原有的少类数据和生成数据的分布差异，n个原有的少类样本是指不平衡数据集划分后的少类数据中的少类样本；

对min{p，n}个原有的少类样本与m个原有的多类样本，集合在一起，画出集合后的数据的t-SNE降维可视化图，对min{p，n}个生成的少类样本与m个原有的多类样本，集合在一起，画出集合后的数据的t-SNE降维可视化图，对比两个降维可视化图，观察原有少类样本和生成数据的分布差异，m个原有的多类样本是指不平衡数据集划分后的多类数据中的多类样本；

结合上述两种对比方式，得出是否满足要求的结果。

进一步，所述步骤S4中基于TensorFlow框架，随机搜索超参数来调整步骤S2中的超参数。

一种基于WGAN-GP模型对用户行为的不平衡分类方法，其特征在于，包括以下步骤：

步骤1、将随机噪声输入最终训练好的WGAN-GP模型生成多组生成数据分别加入不平衡数据集，得到多组平衡数据集；

步骤2、用多组平衡数据集分别训练分类器，得到多个训练好的分类器，并对多个训练好的分类器进行优化，优化后进行迭代判断处理，得到最优的分类器；

步骤3、基于最优的分类器对待预测的用户行为数据进行预测分类，得到最终的预测分类结果。

进一步，所述步骤1包括以下步骤：

步骤1.1：输入一个随机噪声到最终训练好的WGAN-GP模型，得到生成的少类样本，判断生成样本有无明显异常值，若有，则剔除该生成的少类样本，若无，输入下一个随机噪声，再重复步骤1.1，直到得到K个少类样本，K个少类样本为一组少类数据，K为指定的生成样本的个数，K的取值需让少类数据和多类数据相对平衡，每次需取多个不同的K值；

步骤1.2：将多组少类数据分别加入不平衡数据集，即不平衡数据集划分的n个少类样本和m个多类样本中，构成多组平衡数据集。

进一步，所述步骤2包括以下步骤：

步骤2.1、基于设定的各分类器的超参数，将多组平衡数据集分别用于训练选用的分类器，得到多个训练好的分类器；

步骤2.2、选定与原不平衡数据集比例相同的同一来源数据作为验证集，选择precision、recall、F-measure和G-mean指标作为分类器分类效果的评判指标；

步骤2.3：将各训练好的分类器用于预测验证集，得到分类的评价指标值，若任一个训练好的分类器得到的分类评价指标值未达到最优，调整步骤2.1中的超参数，将此训练好的分类器重复步骤2.1-2.3，否则，所有训练好的分类器得到的分类评价指标值都达到最优，转到步骤2.4；

步骤2.4、判断任一训练好的分类器的分类评价指标值是否达到要求，若达到，选用多个训练好的分类器中最优的一个，作为优化的分类器，否则调整生成的少类样本个数K，生成多组平衡数据集，再重复步骤2.1-2.3。

本发明同现有技术相比，其有益效果表现在：

一，本发明所使用的最终训练好的WGAN-GP模型拟合学习少类数据的分布，能够有效减小生成的少类样本与其他样本之间重叠的可能性，且能很好地拟合高维数据的分布；

二、用户行为预测数据大多具有离散、各维度低相关性等特点时，本发明能拟合离散数据，为了克服传统GAN不能很好地拟合离散数据这一缺陷，本发明采用其变种WGAN-GP模型作为生成模型，通过实践证明，最终训练好的WGAN-GP模型用作数据增强，生成少类数据，能够克服离散等问题、能自动批量生成数据，并减轻用户行为预测分类时的数据不平衡程度，从而能使训练出的分类器较好地判断出用户行为；

三、本发明采用了改进WGAN模型(即WGAN-GP模型)，在判别器的损失函数中引入了引入梯度惩罚，从而克服训练困难等问题。

附图说明

图1为本发明中得到优化的分类器的流程示意图；

图2为本发明中评判指标的二分类混淆矩阵图；

图3为本发明中实施例所用的不平衡数据集的样例数据图；

图4为本发明中的实施例中部分生成数据的样例数据；

图5为本发明中实施例所用的真实的少类数据和生成的数据在变量“f234”上的边际分布图；

图6为本发明中实施例所用的不平衡数据集上的降维可视化图；

图7为本发明中的实施例中加入生成数据后的平衡数据集上的降维可视化图；

图8为本发明中的实施例中加入不同数量的生成数据后的分类实验效果。

具体实施方式

下面将结合附图及具体实施方式对本发明作进一步的描述。

一种生成式对抗网络的方法，包括如下步骤：

S1、将不平衡数据集根据各类别数量的多少进行划分，得到多类数据和少类数据；包括如下步骤：

若不平衡数据集有多个类别时，通过搭建多个二分类器，通过多个二分类器将不平衡数据集划分为多个多类数据和少类数据。比如：针对类别1，设类别1为正类，非类别1为反类，搭建二分类器h_θ1(x)；针对类别2，设类别2为正类，非类别2为反类，搭建二分类器h_θ2(x)；针对类别3，设类别3为正类，非类别3为反类，搭建二分类器h_θ3(x)，以此根据类别数量来设置对应的分类器，将多个多类数据和少类数据划分出来。

S2、基于少类数据、给定的超参数和构建好的WGAN-GP结构进行训练，得到训练好的WGAN-GP模型；包括如下步骤：

S2.1、根据少类数据的维度特征，构建WGAN-GP结构并设置超参数；WGAN-GP结构包括生成器和判别器的结构，生成器和判别器都为三层全连接网络，生成器前两层全连接的激活函数为Relu函数，最后一层去掉了激活函数Sigmoid函数，只保留全连接；判别器前两层全连接的激活函数为Relu函数，最后一层全连接的激活函数为Sigmoid函数。

判别器的损失函数为：

其中，E指数学期望，D(x)表示判别器的判别结果，p_data表示少类样本的分布，p_G表示生成器生成的少类样本的分布，即生成样本的分布，表示少类样本和生成样本的集合的分布，x指服从p_data分布的少类样本，指服从分布的少类样本和生成样本的集合，γ为超参数；

生成器的损失函数为：

S3、输入随机噪声到训练好的WGAN-GP模型，得到多个生成的少类样本，即生成数据；包括如下步骤：

S3.2、重复步骤S3.1，重复p次，得到p个生成的少类样本，即得到生成数据，其中p最好与n相同，即得到与不平衡数据集划分后的少类数据中的少类样本数量相同，若p小于n时，在后续判断中在原有的少数数据中只选用p个进行画边际分布图就可，若p大于n时，在后续判断中在原有的少数数据中只选用n个进行画边际分布图就可。原少类样本有n个，为了对比样本和真实少类样本的相近程度，最好数据量保持相同。

S4、判断步骤S3得到的生成数据是否满足要求，若满足，得到最终训练好的WGAN-GP模型，否不满足，调整步骤S2中的超参数后，再执行步骤S2-S4。

判断步骤S3得到的生成数据是否满足要求包括如下步骤：

结合上述两种对比方式，得出是否满足要求的结果，可通过现有的方式进行判断是否满足要求。

所述步骤S4中基于TensorFlow框架，随机搜索超参数来调整步骤S2中的超参数。

基于得到最终训练好的WGAN-GP模型后，进行分类器训练再进行最终的预测，具体过程为：

步骤1、将随机噪声输入最终训练好的WGAN-GP模型生成多组生成数据分别加入不平衡数据集，得到多组平衡数据集；包括以下步骤：

步骤1.1：输入一个随机噪声到最终训练好的WGAN-GP模型，得到生成的少类样本，判断生成样本有无明显异常值，若有，则剔除该生成的少类样本，比如变量(即少类样本)“年龄”中，原数据(即不平衡数据集)大部分为10岁至50岁之间，而某生成少类样本中，年龄为98岁，则应剔除该样本，若无，输入下一个随机噪声，再重复步骤1.1，直到得到K个少类样本，K个少类样本为一组少类数据，K为指定的生成样本的个数，K的取值是为让少类数据和多类数据相对平衡(如1∶5、1∶4或1∶1等)，取值的最佳范围为K≤m-n且(K+n)/m≥1/4，一般取多个不同的K值(如：同时取50、60、70)，再从多个不同的K值中取效果最佳的K值；

步骤1.2：将多组少类数据分别加入不平衡数据集，即不平衡数据集划分的n个少类样本和m个多类样本中，构成多组平衡数据集，每组少类数据加入不平衡数据集构成一组平衡数据集。

步骤2、用多组平衡数据集分别训练分类器，得到多个训练好的分类器(即用一组平衡数据集训练分类器，得到1个训练好的分类器)，并对多个训练好的分类器进行优化，优化后进行迭代判断处理，得到最优的分类器；具体步骤为：

步骤2.2、选定与原不平衡数据集比例相同的同一来源数据作为验证集，选择precision、recall、F-measure和G-mean指标作为分类器分类效果的评判指标；如图2所示，定义正类为少数样本所在类，负类为多数样本所在类(下同)。TP(True Postive)表示样本是正类并且被预测为正类的个数；FN(False Negative)表示样本是正类，但是被预测成为负类的个数；FP(False Postive)表示样本是负类，但是被预测成为正类的个数；TN(TrueNegative)表示一个样本是负类并且被预测成为负类的个数；N₁表示数据集中正类样本数，N₂表示数据集中负类样本数。

各评价指标的公式如下：

步骤3、基于最优的分类器对待预测的用户行为数据进行预测分类，得到最终的预测分类结果。包括以下步骤：

步骤3.1、将待预测的用户行为数据作为测试集；

步骤3.2、利用最优的分类器对测试集进行预测，得到分类结果。

实施例：

本实施例数据为真实的支付行为数据，目的是对用户行为进行预测，判别用户是否为欺诈行为，属于典型的用户行为预测不平衡分类问题。

具体情况如下：

步骤1)将真实的不平衡数据集中的标签为0的样本划分为多类数据，多类样本为25000个，将数据集中的标签为1的样本划分为少类数据，少类样本500个，特征维度为297维，样例数据如图3所示。

步骤2)用少类数据训练WGAN-GP模型，设置WGAN-GP模型的结构：生成器输入层包含2个节点，隐藏层神经元的个数分别为32、128，输出层包含297个节点；判别器输入层包含297个节点，隐藏层神经元的个数分别为128、32，输出层包含1个节点。采用的优化方法是Adam优化算法，学习率为0.0001。使用批量优化进行训练，每个批次包含100个训练样本，训练次数epochs为20000。本方法使用python3.5实现，使用的深度学习框架是TensorFlow。

步骤3)训练好WGAN-GP模型之后，WGAN-GP模型已学习到少类数据的分布，向已训练好的WGAN-GP模型的生成器随机输入500次2维噪声，相应的，生成器可以输出500个和少类数据服从相同分布的生成样本(生成样本，是无限逼近于离散整数值，在实验时，对生成数据进行了取整操作，比如生成的数据是(1.9999，3.00001，…)，为方便训练分类器，将生成数据取整为(2，3，…))，部分生成样本数据如图4所示。

步骤4)观察WGAN-GP模型的生成效果：

同时画出少类样本为500条的少类数据和500条生成数据在每个变量上的边际分布图，图5展示了在变量“234”上的边际分布图。

对25000条多类数据和500条少类数据做T-SNE降维可视化，如图6所示；在25000条多类数据和500条少类数据的基础上，加入4500条生成数据作为近似的少类数据，降维可视化的效果如图7所示，满足要求，即得到最终训练好的WGAN-GP模型。

步骤5)整合原不平衡数据集和生成数据，将生成数据看作少类数据，从而构成平衡数据集，选用xgboost作为分类器，当生成数据分别为500个、4500个和24500个时(即有三个K值的情况)，分别加入原不平衡数据集，构成三个不同的新数据集，分别训练3个xgboost分类器，分类效果如图8所示。由图8可看出，相较于原不平衡数据集训练的分类器的分类效果，加入生成数据后，所训练出的3个不同分类器的分类效果，都有一定程度的效果提升，有效地证实了本发明提出方法的有效性，选择最优的K值训练分类器进行后续观测即可。

综上所述，本发明中用户利用少类数据训练WGAN-GP模型，有效地学习少类用户行为数据的分布，克服原始GAN难以生成离散数据等特点，人造生成更多的少类用户行为数据，增加少类用户行为数据的数量，减轻了多类数据和少类数据的不平衡程度，使分类器在学习分类时能更好地识别少类数据，即通过数据增强，克服数据类别不平衡的问题，能够更好地对用户行为进行预测分类，从而帮助企业在进行业务决策时提供重要的决策依据。

以上仅是本发明众多具体应用范围中的代表性实施例，对本发明的保护范围不构成任何限制。凡采用变换或是等效替换而形成的技术方案，均落在本发明权利保护范围之内。

Claims

1.一种构建WGAN-GP模型的方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的一种构建WGAN-GP模型的方法，其特征在于，所述步骤S1包括如下步骤：

3.根据权利要求1或2所述的一种构建WGAN-GP模型的方法，其特征在于，所述步骤S2包括如下步骤：

4.根据权利要求3所述的一种构建WGAN-GP模型的方法，其特征在于，所述步骤S2.1中，判别器的损失函数为：

5.根据权利要求4所述的一种构建WGAN-GP模型的方法，其特征在于，所述步骤S3包括如下步骤：

6.根据权利要求5所述的一种构建WGAN-GP模型的方法，其特征在于，所述步骤S4中判断步骤S3得到的少类数据是否满足要求包括如下步骤：

结合上述两种对比方式，得出是否满足要求的结果。

7.根据权利要求6所述的一种构建WGAN-GP模型的方法，其特征在于，所述步骤S4中基于TensorFlow框架，随机搜索超参数来调整步骤S2中的超参数。

8.一种基于WGAN-GP模型对用户行为的不平衡分类方法，其特征在于，包括以下步骤：

9.根据权利要求8所述的一种基于WGAN-GP模型对用户行为的不平衡分类方法，其特征在于，所述步骤1包括以下步骤：

10.根据权利要求9所述的一种基于WGAN-GP模型对用户行为的不平衡分类方法，其特征在于，所述步骤2包括以下步骤：