CN113298230A

CN113298230A - 一种基于生成对抗网络的不平衡数据集的预测方法

Info

Publication number: CN113298230A
Application number: CN202110526629.XA
Authority: CN
Inventors: 王竹荣; 牛亚邦; 黑新宏
Original assignee: Xian University of Technology
Current assignee: Wuhan Chang'e Medical Anti Aging Robot Co ltd
Priority date: 2021-05-14
Filing date: 2021-05-14
Publication date: 2021-08-24
Anticipated expiration: 2041-05-14
Also published as: CN113298230B

Abstract

本发明公开了一种基于生成对抗网络的不平衡数据集的预测方法，过程为：接收预测请求；采集数据，形成数据集，明确数据集中的特征与标签及少数类样本和多数类样本的数量；将数据集中的非数值特征列以及标签列转变为分类数值；将处理的数据集进行标准化并将标准化后数据集中的多数类样本和少数类样本进行分离；用深度卷积对抗网络合成少数类样本a，形成平衡数据集；将平衡数据集划分为训练集和测试集；构建卷积神经网络，用划分好的训练集训练卷积神经网络，得到训练好的卷积神经网络；步骤8，将测试集输入训练好的卷积神经网络得到预测结果。本发明预测方法，解决了现有方法存在处理大数据时生成少数类样本非常困难甚至不能生成的问题。

Description

一种基于生成对抗网络的不平衡数据集的预测方法

技术领域

本发明属于类别不平衡数据集的预测方法技术领域，涉及一种基于生成对抗网络的不平衡数据集的预测方法。

背景技术

随着信息技术的快速发展，各领域的数据正以前所未有的速度产生并被广泛收集和存储，如何实现数据的智能化处理从而利用数据中蕴含的有价值信息已成为理论和应用的研究热点。机器学习是一种主流的智能数据处理技术,分类问题是机器学习领域的重要研究内容之一，现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能，然而现实世界中的数据往往具有不平衡特性，即数据集中某一类的样本数量要小于其他类别样本数量,并且具有少数样本的那类数据相比其他类更加重要,错分代价更高。由于不平衡数据集对机器学习分类器的分类精度影响较大，通常会产生次优的结果，可能会产生偏向多数类且在少数类上导致分类精度低的结果，因而研究用于处理不平衡数据集的预测方法显得相当重要。

传统方法中有过采样方法和欠采样方法以及对两种方法的改进处理不平衡数据集，如SMOTE、单边选择法(one-side select,OSS)、带多数类权重的少数类过采样(MWMOT)等方法。但在处理不平衡数据集的过程中，欠采样可能会删去带重要信息的样本；过采样方法中在生成少数类样本时没有考虑样本分布问题，会出现样本重叠现象；在处理比较大的数据集时，由于需要计算样本的K近邻，计算量呈指数级增长，生成少数类样本非常困难甚至不能生成。

发明内容

本发明的目的是提供一种基于生成对抗网络的不平衡数据集的预测方法，解决了现有方法存在处理大数据时生成少数类样本非常困难甚至不能生成的问题。

本发明所采用的技术方案是，一种基于生成对抗网络的不平衡数据集的预测方法，具体按照以下步骤实施：

步骤1，接收预测请求；

步骤2，采集数据，形成数据集，明确数据集中的特征与标签及少数类样本S_min和多数类样本S_maj的数量；

步骤3，将数据集中的非数值特征列以及标签列转变为分类数值；

步骤4，将步骤3处理的数据集进行标准化并将标准化后数据集中的多数类样本和少数类样本进行分离；

步骤5，用深度卷积对抗网络合成少数类样本a，形成平衡数据集；

步骤6，将平衡数据集划分为训练集和测试集；

步骤7，构建卷积神经网络，用划分好的训练集训练卷积神经网络，得到训练好的卷积神经网络；

步骤8，将测试集输入训练好的卷积神经网络得到预测结果。

本发明的特征还在于，

步骤4中，标准化为将数据集中的数据按比例缩放，使数据属于[0，1]内。

步骤5的具体过程为：

步骤5.1，初始化生成器G和判别器D的参数；

步骤5.2，将步骤4中分离出的少数类样本S_min输入至生成器G中，生成器G利用噪声z生成与输入的少数类样本数量相同的少数类样本a；

步骤5.3，依次循环更新判别器D、生成器G，直至判别概率为0.5为止，完成训练，则少数类样本a和步骤4进行标准化处理后的数据集构成平衡数据集。

生成器G的损失函数为：

G＝log(1-D(G(z))) (1)

式(1)中，G(z)表示生成器的输出，D(G(z))表示判别器D判断生成器G生成的数据为真实数据的概率，z表示噪声；

判别器D的损失函数为：

D＝log(1-D(G(z)))+logD(x) (2)

式(2)中，D(x)表示判别模型的输出，即输入参数x为真实数据的概率；

目标优化函数为：

式(3)中，D(x)表示判别模型的输出，即输入参数x为真实数据的概率；D(G(z))表示判别器D判断生成器G生成的数据为真实数据的概率。

步骤6中，所述平衡数据集中的70％为训练集，30％为测试集。

步骤7中，卷积神经网络的结构依次为输入层、第一卷积层、池化层、第二卷积层、全连接层、输出层；

输入层的输入数据为4×4像素点构成的矩阵；

第一卷积层包含10个特征图，采用3×3的窗口对输入图像进行卷积，得到每个特征图的大小为4×4；

池化层对第一卷积层进行降采样操作，选用最大池化的方式得到10个特征图，每个特征图的大小减小到2×2；

第二卷积层包含20个特征图，采用的卷积核大小为2×2，得到每个特征图的大小为1×1；

第二卷积层得到的特征图经过全连接层，得到大小为1×2的输出结果。

步骤7中，训练的过程为：

步骤7.1，将卷积神经网络权值进行初始化；

步骤7.2，在输入层输入数据，输入数据经过第一卷积层、池化层、第二卷积层、全连接层得到输出值，计算输出值与目标值的误差值；

步骤7.3，当步骤7.2得到的误差值大于期望值时，将误差传回进行反向传播，依次计算全连接层、第二卷积层、池化层、第一卷积层的误差，至误差不大于期望值时，结束训练，得到训练好的卷积神经网络。

步骤7.2中，计算误差值的误差函数为：

式(4)中，

代表第n个样本对应标签的第k维；

代第n个样本对应网络的第k个输出。

步骤7.2中，计算输出值的表达式为：

O_p＝F_l(...(F₂(F₁(W₁X₁))W₂)W_l) (5)

式(5)中，X₁为网络的输入；W₁表示网络第一层的权重系数矩阵；W₂表示网络第二层的权重系数矩阵；W_l表示网络第l层的权重系数矩阵；F₁表示网络第一层的激活函数，采用sigmoid函数，以此类推，F_l表示网络第l层的激活函数，采用sigmoid函数；

步骤7.3中，反向传播计算误差的表达式为：

δ^l＝(W^l+1)^Tδ^l+1×f′(u^l) (6)

u^l＝W^lx^l-1+b^l (7)

式(6)和(7)中，δ^l+1表示第l+1层的误差函数；W^l+1表示第l+1层权重系数矩阵；δ^l表示传播至第l层的误差函数；u^l表示第l层的的输出；b^l表示第l层的的偏置；x^l-1表示第l层的输入。

本发明的有益效果是，本发明一种基于生成对抗网络的不平衡数据集的预测方法，通过将少数类样本a与进行标准化后数据集进行合并，得到平衡数据集，再采用卷积神经网络对平生数据集进行分类预测，避免了传统方法中的欧氏距离计算或者聚类过程，能够生成少数类样本，具有预测结果稳定、预测精度高的特点。

附图说明

图1是本发明一种基于生成对抗网络的不平衡数据集的预测方法的流程图；

图2是本发明预测方法中DCGAN中生成器G的网络结构图；

图3是本发明预测方法中DCGAN中判别器D的网络结构图；

图4是本发明预测方法中CNN训练流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明提供一种基于生成对抗网络的不平衡数据集的预测方法，如图1所示，具体按照以下步骤实施：

步骤1，接收预测请求；

标准化为将数据集中的数据按比例缩放，使数据属于[0，1]内；

步骤5，用深度卷积对抗网络(DCGAN)合成少数类样本a，形成平衡数据集；

深度卷积对抗网络(DCGAN)是将卷积网络引入GAN，利用卷积层强大的特征提取能力来提高GAN的效果，DCGAN是在GAN的基础上进行改进，具体为：

在判别器D中使用带步幅(Strided convolutions)的卷积代替池化层(Pooling)；

生成器G中使Fourfractionally-strided convolution完成从随机噪声到图片的生成过程；

在DCGAN网络结构中，除了生成器G的输出层及其对应的判别器D的输入层，其他层上都使用了批量归一化(Batch normalization)，加入Batch normalization层这一操作解决了初始化差的问题，同时保住梯度传播到每一层，也能够防止生成器G把所有的样本都收敛到同一个点；

去除全连接层，直接使用卷积层连接生成器G和判别器D的输入层和输出层，取消全连接层增加了模型的稳定性，但却使得收敛速度变慢；

生成器G的输出层使用Tanh(双切正切函数)激活函数，其余层使用ReLU(Rectifified linear unit)激活函数；如图2所示，生成器G的结构为：输入是1个10维的随机数据z，服从范围在[-1,1]的均匀分布，生成器G网络的第一层为全连接层，将10维的噪声向量变成2×2×64维的向量，并从第二层开始使用步长卷积做上采样操作，逐步减少通道数，最终的输出为4×4×1的图像；

判别器D的所有层使用Leaky ReLU激活函数；如图3所示，判别器D的结构为：是生成器G的反向操作，输入层为4×4×1的图像数据，经过一系列的卷积降低数据维度，最终输出是一个二分类数据；

用深度卷积对抗网络(DCGAN)合成少数类样本a的具体过程为：

步骤5.1，初始化生成器G和判别器D的参数；

生成器G的损失函数为：

G＝log(1-D(G(z))) (1)

所述判别器D的损失函数为：

D＝log(1-D(G(z)))+logD(x) (2)

目标优化函数为：

式(3)中，D(x)表示判别器的输出，即输入参数x为真实数据的概率；D(G(z))表示判别器D判断生成器G生成的数据为真实数据的概率；

步骤5.2，将步骤4中分离出的少数类样本输入至生成器G中，生成器G利用噪声z生成与输入的少数类样本数量相同的少数类样本a，即：从标准化处理后的数据集中抽取256个样本，生成器G利用噪声z生成256个样本，固定生成器G，训练判别器D，使其尽可能区分真假；

步骤5.3，依次循环更新判别器D、生成器G，直至判别概率为0.5为止，判别器D无法区分样本是来自标准化处理后的数据集，还是来自生成器G生成的少数类样本a，完成训练，则少数类样本a和步骤4进行标准化处理后的数据集构成平衡数据集。

步骤6，将平衡数据集划分为训练集和测试集，平衡数据集中的70％为训练集，30％为测试集；

卷积神经网络的结构依次为输入层、第一卷积层、池化层、第二卷积层、全连接层、输出层；

所述输入层的输入数据为4×4像素点构成的矩阵；

所述第一卷积层包含10个特征图，采用3×3的窗口对输入图像进行卷积，得到每个特征图的大小为4×4；

所述池化层对第一卷积层进行降采样操作，选用最大池化的方式得到10个特征图，每个特征图的大小减小到2×2；

所述第二卷积层包含20个特征图，采用的卷积核大小为2×2，得到每个特征图的大小为1×1；

所述第二卷积层得到的特征图经过全连接层，得到大小为1×2的输出结果；

如图4所示，训练的过程为：

步骤7.1，将卷积神经网络权值进行初始化；

步骤7.2，在输入层输入数据，输入数据经过第一卷积层、池化层、第二卷积层、全连接层得到输出值，表达式为：

O_p＝F_l(...(F₂(F₁(W₁X₁))W₂)W_l) (4)

式(5)中，X₁为网络的输入；W₁表示网络第一层的权重系数矩阵；W₂表示网络第二层的权重系数矩阵；W_l表示网络第l层的权重系数矩阵；F₁表示网络第一层的激活函数，采用sigmoid函数，以此类推，F_l表示网络第l层的激活函数，采用sigmoid函数。

计算输出值与目标值的误差值，表达式为：

式(4)中，

代表第n个样本对应标签的第k维；

代第n个样本对应网络的第k个输出；

步骤7.3，当步骤7.2得到的误差值大于期望值时，将误差传回进行反向传播，依次计算全连接层、第二卷积层、池化层、第一卷积层的误差，至误差不大于期望值时，结束训练，得到训练好的卷积神经网络；

反向传播计算误差的表达式为：

δ^l＝(W^l+1)^Tδ^l+1×f′(u^l) (6)

u^l＝W^lx^l-1+b^l (7)

步骤8，将测试集输入训练好的卷积神经网络得到预测结果。

实施例

为测试本发明所提方法在处理不平衡数据集的效果，本发明以银行电话营销数据集作为不平衡数据进行测试。

本发明所提出方法的测试主要过程是：用DCGAN对原始数据集(不平衡数据集)处理后得到平衡数据集，然后以划分的数据集训练CNN网络，最后采用训练好的CNN网络模型预测银行电话营销活动的效果。特别地，本发明给出所提方法与Smoteen(经常用于处理不平衡的一种方法，即Smote+ENN)应用效果进行对比，说明本发明所提方法的有效性和可行性。

传统的分类学习方法中，一般采用分类精度accuracy(正确分类的样本个数占总样本个数的比例)作为评价指标，但是如果仅用分类精度来评价不平衡数据集，是不合理的。本发明使用公认的不平衡数据集分类器的评价指标准确率accuracy、召回率Recall、特异度Specifity及G-mean。其中这些都建立在混淆矩阵基础上，二分类的混淆矩阵如表1：

表1二分类问题的混淆矩阵

其中TP和TN表示正确分类的正例和反例的样本数量；FN和FP分别表示错误分类的正例和反例的样本数量

为对算法效果进行评价和对比分析，引入以下几个指标。

1)准确率Accuracy＝(TP+TN)/(TP+FP+FN+TN),表示正确预测的样本个数占总样本个数的比例。

2)召回率Recall＝TP/(TP+FN)又被称为敏感度(sensitivity)；查全率，表示所有真实为正例的样本中，被预测正确的样本所占的比例。

3)特异度Specifity＝TN/(FP+TN)，Specifificity表示所有真实为反例的样本中，被正确预测为反例的样本所占的比例。

4)G-mean＝sqrt(specifity*recall)，式中sqrt()是一个求平方根的函数。G-mean是一种综合考虑召回率和特异度的分类评价指标。

5)实例中主要评价指标为准确率Accuracy、召回率Recall、特异度Specifity及G-mean，值越大表示预测用户是否定期存款越准确。

本发明预测方法如下：

步骤1，接收银行电话营销预测请求，其中，银行电话营销预测请求，根据银行电话营销数据预测客户是否将预订定期存款；

步骤2，采集数据。实验数据来源于UCI机器学习网站，是葡萄牙一家银行从2008年5月到2010年11月的电话营销记录；

包含两个数据集：1)具有所有数据记录的bank-full.csv；2)bank.csv10％的数据记录。

本发明选择第1个数据集进行实验；本数据测试的分类目标是预测客户是否将预订定期存款；所选用数据集共45211个样本，有39922个不会预定定期存款，5289个将预定定期存款，共有16个特征：年龄(age)、工作类型(job type)，婚姻状况(marital status)、教育程度(education level)、违约记录(default record)、年平均存款(average annualdeposit)、住房贷款(housing loan)、个人贷款(personal loan)、联系人通讯类型(contact communication type)、该月最后一次联系日(last_day)、一年中最后一次联系月份(last_month)、最后一次联系持续时长(duration)、活动系列期间为此客户电话联系次数(times)、从上一次推荐营销活动最后一次联系客户之后经过的天数(past days)、此次营销活动之前和为此客户执行的联系次数(previous times)、上次营销活动的结果(poutcome)、客户是否定期存款(deposit)，它是一个典型的不平衡数据集；

步骤3，将数据集中的非数值特征列以及标签列(客户是否定期存款)转变为分类数值；

本发明中，数据集中标签列为客户是否定期存款的分类数值转变为0和1，1表示会定期存款，0表示不会定期存款；

然后将非数值特征列转换为以0开始自增1的分类数值；其中违约记录(defaultrecord)特征列中0表示违约，1表示未违约；住房贷款(housing loan)特征列中0表示有住房贷款，1表示没有住房贷款；个人贷款(personal loan)特征列中0表示没有个人贷款，1表示有个人贷款；工作类型(job type)特征列中0表示医生，1表示未知，2表示无业，3表示老师，4表示司机，5表示企业家，6表示学生，7表示其他；婚姻状况(marital status)特征列中0表示已婚，1表示离婚，2表示单身；教育程度(education level)特征列中0表示小学，1表示中学，2表示大学，3表示硕士或博士，4表示其他；联系人通讯类(Contact communicationtype)特征列中0表示电话，1表示面谈，2表示其他；一年中最后一次联系月份(last_month)特征列中分类数值加1表示月份，0表示1月份，1表示2月份，以此类推，11表示12月份；上次营销活动的结果(poutcome)特征列中0表示成功，1表示失败，2表示未知；应注意，上述列出的为未非数值特征列对应的数值，数字特征列不作变换，它们按实际输入值处理；

步骤4，将数据集进行标准化并且将数据集中的多数类样本和少数类样本进行分离，为了生成更接近真实数据的样本，需要将数据集进行标准化，将45211个样本的原始数据集中样本数为39922个少数类样本S_min和5289个多数类样本S_maj分离且标准化形成少数类数据集S_{min_std}和多数类数据集S_{maj_std}；

步骤5，将标准化后的少数类数据集S_{min_std}输入深度卷积对抗网络中生成34633个少数类样本a，

深度卷积对抗网络(DCGAN)参数为：采用小批量随机梯度下降进行训练，最小批量为128，权重初始化使用满足均值为0，标准差为1的高斯分布随机变量，采用激活函数LeakyReLU，使用Adam优化器进行超参数优化，学习率为0.0002；将标准化后的原始数据集(S_{min_std}和S_{maj_std})和生成的少数类样本a进行合并得到79844个样本的平衡数据集data；

步骤6，对平衡数据集data按7:3将数据集分为训练集和测试集；

步骤7，卷积神经网络的超参数：batchsize＝50决定了训练一次网络所提供的样本数量；learningrate＝0.001控制着基于损失梯度调整神经网络权值的速度；epoch＝50代表所有训练样本进行训练的次数，即1次epoch意味着所有的训练样本完成一次前向传(forward propagation，FP)运算以及一次反向传播(back propagation，BP)运算；

实验结果如下：准确率Accuracy＝0.98835266，召回率Recall＝0.9996666，特异度Specifity＝0.97758216，G-mean＝0.9885627。

传统Smote(synthetic minority oversampling technique)的基本思想就是在少数类样本之间进行插值来产生额外的样本，具体地，对于一个少数类样本x_i使用K近邻法(k值需要提前指定)，求出离x_i距离最近的k个少数类样本，其中距离定义为样本之间n维特征空间的欧氏距离。欧氏距离计算公式如下：

其中m为特征空间的维数，x_i表示样本点x的第i维坐标，y_i表示样本点y的第i维坐标；

然后从取欧式距离最小的k个近邻点中随机选取一个，使用下列公式生成新样本：

x_new＝x_i+(x_j-x_i)×δ

其中x_j为选出的k近邻点，δ∈[0,1]是一个随机数。

ENN(Edited Nearest Neighbours)的基本思想是对于属于多数类的一个样本，如果其K个近邻点有超过一半都不属于多数类，则这个样本会被剔除。

Smoteen的主要思想：先用SMOTE算法生成的少数类样本，再用数据清洗技术ENN处理掉重叠样本，从而形成平衡数据集。

用Smoteen算法对45211个样本的原始数据集进行处理形成一个49763的平衡数据集，对平衡数据集按7:3将数据集分为训练集和测试集，训练CNN网络，训练出的模型为Smoteen-CNN，CNN超参数同上面一致。

实验结果如下：准确率Accuracy＝0.95698565，召回率Recall＝0.95310175，特异度Specifity＝0.9668974，G-mean＝0.9599748。

表2本发明和Smoteen-CNN模型预测数据对比

由表2预测数据可知，本发明的各项评价指标都高于Smoteen-CNN模型。由于用DCGAN生成更多的少数类样本，可以使模型更好的学习到少数类样本的特征，训练出更精确的模型，因此通过该模型预测得到的各项指标均有所提高。准确率Accuracy指标表明在所有客户中，所提模型正确预测客户(定期存款或者不定期存款)的比例，该指标在平衡数据集中具有较大的参考价值，在不平衡数据集中由于每条数据表示的客户定期存款的概率是一个较小值，这个指标不能准确表示所有不平衡数据集的某些特定客户的定期存款行为特征。召回率Recall的提升表明在所有要定期存款的客户中，模型能正确预测为定期存款客户所占比的提升。特异度Specifity的提升表明在所有不定期存款的客户中，模型正确预测为不定期存款客户所占比的提升。G-mean是综合召回率和特异度的指标，它考虑在所有要定期存款的客户中，模型能正确预测为定期存款客户所占比，也考虑在所有不定期存款的客户中，模型正确预测为不定期存款客户所占比，因此这个指标具有更高的参考价值和实际意义。

Claims

1.一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，具体按照以下步骤实施：

步骤1，接收预测请求；

步骤6，将平衡数据集划分为训练集和测试集；

步骤8，将测试集输入训练好的卷积神经网络得到预测结果。

2.根据权利要求1所述的一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，所述步骤4中，标准化为将数据集中的数据按比例缩放，使数据属于[0，1]内。

3.根据权利要求1所述的一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，所述步骤5的具体过程为：

步骤5.1，初始化生成器G和判别器D的参数；

4.根据权利要求3所述的一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，所述生成器G的损失函数为：

G＝log(1-D(G(z))) (1)

所述判别器D的损失函数为：

D＝log(1-D(G(z)))+logD(x) (2)

目标优化函数为：

5.根据权利要求1所述的一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，所述步骤6中，所述平衡数据集中的70％为训练集，30％为测试集。

6.根据权利要求1所述的一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，所述步骤7中，卷积神经网络的结构依次为输入层、第一卷积层、池化层、第二卷积层、全连接层、输出层；

所述输入层的输入数据为4×4像素点构成的矩阵；

所述第二卷积层得到的特征图经过全连接层，得到大小为1×2的输出结果。

7.根据权利要求6所述的一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，所述步骤7中，训练的过程为：

步骤7.1，将卷积神经网络权值进行初始化；

8.根据权利要求7所述的一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，所述步骤7.2中，计算误差值的误差函数为：

式(4)中，

代表第n个样本对应标签的第k维；

代第n个样本对应网络的第k个输出。

9.根据权利要求7所述的一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，所述步骤7.2中，计算输出值的表达式为：

O_p＝F_l(...(F₂(F₁(W₁X₁))W₂)W_l) (5)

10.根据权利要求7所述的一种基于生成对抗网络的不平衡数据集的预测方法，其特征在于，所述步骤7.3中，反向传播计算误差的表达式为：

δ^l＝(W^l+1)^Tδ^l+1×f′(u^l) (6)

u^l＝W^lx^l-1+b^l (7)