CN113298230B - 一种基于生成对抗网络的不平衡数据集的预测方法 - Google Patents

一种基于生成对抗网络的不平衡数据集的预测方法 Download PDF

Info

Publication number
CN113298230B
CN113298230B CN202110526629.XA CN202110526629A CN113298230B CN 113298230 B CN113298230 B CN 113298230B CN 202110526629 A CN202110526629 A CN 202110526629A CN 113298230 B CN113298230 B CN 113298230B
Authority
CN
China
Prior art keywords
layer
data
data set
network
representing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110526629.XA
Other languages
English (en)
Other versions
CN113298230A (zh
Inventor
王竹荣
牛亚邦
黑新宏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan Chang'e Medical Anti Aging Robot Co ltd
Original Assignee
Wuhan Chang'e Medical Anti Aging Robot Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Chang'e Medical Anti Aging Robot Co ltd filed Critical Wuhan Chang'e Medical Anti Aging Robot Co ltd
Priority to CN202110526629.XA priority Critical patent/CN113298230B/zh
Publication of CN113298230A publication Critical patent/CN113298230A/zh
Application granted granted Critical
Publication of CN113298230B publication Critical patent/CN113298230B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Business, Economics & Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于生成对抗网络的不平衡数据集的预测方法,过程为:接收预测请求;采集数据,形成数据集,明确数据集中的特征与标签及少数类样本和多数类样本的数量;将数据集中的非数值特征列以及标签列转变为分类数值;将处理的数据集进行标准化并将标准化后数据集中的多数类样本和少数类样本进行分离;用深度卷积对抗网络合成少数类样本a,形成平衡数据集;将平衡数据集划分为训练集和测试集;构建卷积神经网络,用划分好的训练集训练卷积神经网络,得到训练好的卷积神经网络;步骤8,将测试集输入训练好的卷积神经网络得到预测结果。本发明预测方法,解决了现有方法存在处理大数据时生成少数类样本非常困难甚至不能生成的问题。

Description

一种基于生成对抗网络的不平衡数据集的预测方法
技术领域
本发明属于类别不平衡数据集的预测方法技术领域,涉及一种基于生成对抗网络的不平衡数据集的预测方法。
背景技术
随着信息技术的快速发展,各领域的数据正以前所未有的速度产生并被广泛收集和存储,如何实现数据的智能化处理从而利用数据中蕴含的有价值信息已成为理论和应用的研究热点。机器学习是一种主流的智能数据处理技术,分类问题是机器学习领域的重要研究内容之一,现有的一些分类方法都已经相对成熟,用它们来对平衡数据进行分类一般都能取得较好的分类性能,然而现实世界中的数据往往具有不平衡特性,即数据集中某一类的样本数量要小于其他类别样本数量,并且具有少数样本的那类数据相比其他类更加重要,错分代价更高。由于不平衡数据集对机器学习分类器的分类精度影响较大,通常会产生次优的结果,可能会产生偏向多数类且在少数类上导致分类精度低的结果,因而研究用于处理不平衡数据集的预测方法显得相当重要。
传统方法中有过采样方法和欠采样方法以及对两种方法的改进处理不平衡数据集,如SMOTE、单边选择法(one-side select,OSS)、带多数类权重的少数类过采样(MWMOT)等方法。但在处理不平衡数据集的过程中,欠采样可能会删去带重要信息的样本;过采样方法中在生成少数类样本时没有考虑样本分布问题,会出现样本重叠现象;在处理比较大的数据集时,由于需要计算样本的K近邻,计算量呈指数级增长,生成少数类样本非常困难甚至不能生成。
发明内容
本发明的目的是提供一种基于生成对抗网络的不平衡数据集的预测方法,解决了现有方法存在处理大数据时生成少数类样本非常困难甚至不能生成的问题。
本发明所采用的技术方案是,一种基于生成对抗网络的不平衡数据集的预测方法,具体按照以下步骤实施:
步骤1,接收预测请求;
步骤2,采集数据,形成数据集,明确数据集中的特征与标签及少数类样本Smin和多数类样本Smaj的数量;
步骤3,将数据集中的非数值特征列以及标签列转变为分类数值;
步骤4,将步骤3处理的数据集进行标准化并将标准化后数据集中的多数类样本和少数类样本进行分离;
步骤5,用深度卷积对抗网络合成少数类样本a,形成平衡数据集;
步骤6,将平衡数据集划分为训练集和测试集;
步骤7,构建卷积神经网络,用划分好的训练集训练卷积神经网络,得到训练好的卷积神经网络;
步骤8,将测试集输入训练好的卷积神经网络得到预测结果。
本发明的特征还在于,
步骤4中,标准化为将数据集中的数据按比例缩放,使数据属于[0,1]内。
步骤5的具体过程为:
步骤5.1,初始化生成器G和判别器D的参数;
步骤5.2,将步骤4中分离出的少数类样本Smin输入至生成器G中,生成器G利用噪声z生成与输入的少数类样本数量相同的少数类样本a;
步骤5.3,依次循环更新判别器D、生成器G,直至判别概率为0.5为止,完成训练,则少数类样本a和步骤4进行标准化处理后的数据集构成平衡数据集。
生成器G的损失函数为:
G=log(1-D(G(z))) (1)
式(1)中,G(z)表示生成器的输出,D(G(z))表示判别器D判断生成器G生成的数据为真实数据的概率,z表示噪声;
判别器D的损失函数为:
D=log(1-D(G(z)))+logD(x) (2)
式(2)中,D(x)表示判别模型的输出,即输入参数x为真实数据的概率;
目标优化函数为:
式(3)中,D(x)表示判别模型的输出,即输入参数x为真实数据的概率;D(G(z))表示判别器D判断生成器G生成的数据为真实数据的概率。
步骤6中,所述平衡数据集中的70%为训练集,30%为测试集。
步骤7中,卷积神经网络的结构依次为输入层、第一卷积层、池化层、第二卷积层、全连接层、输出层;
输入层的输入数据为4×4像素点构成的矩阵;
第一卷积层包含10个特征图,采用3×3的窗口对输入图像进行卷积,得到每个特征图的大小为4×4;
池化层对第一卷积层进行降采样操作,选用最大池化的方式得到10个特征图,每个特征图的大小减小到2×2;
第二卷积层包含20个特征图,采用的卷积核大小为2×2,得到每个特征图的大小为1×1;
第二卷积层得到的特征图经过全连接层,得到大小为1×2的输出结果。
步骤7中,训练的过程为:
步骤7.1,将卷积神经网络权值进行初始化;
步骤7.2,在输入层输入数据,输入数据经过第一卷积层、池化层、第二卷积层、全连接层得到输出值,计算输出值与目标值的误差值;
步骤7.3,当步骤7.2得到的误差值大于期望值时,将误差传回进行反向传播,依次计算全连接层、第二卷积层、池化层、第一卷积层的误差,至误差不大于期望值时,结束训练,得到训练好的卷积神经网络。
步骤7.2中,计算误差值的误差函数为:
式(4)中,代表第n个样本对应标签的第k维;/>代第n个样本对应网络的第k个输出。
步骤7.2中,计算输出值的表达式为:
Op=Fl(...(F2(F1(W1X1))W2)Wl) (5)
式(5)中,X1为网络的输入;W1表示网络第一层的权重系数矩阵;W2表示网络第二层的权重系数矩阵;Wl表示网络第l层的权重系数矩阵;F1表示网络第一层的激活函数,采用sigmoid函数,以此类推,Fl表示网络第l层的激活函数,采用sigmoid函数;
步骤7.3中,反向传播计算误差的表达式为:
δl=(Wl+1)Tδl+1×f′(ul) (6)
ul=Wlxl-1+bl (7)
式(6)和(7)中,δl+1表示第l+1层的误差函数;Wl+1表示第l+1层权重系数矩阵;δl表示传播至第l层的误差函数;ul表示第l层的的输出;bl表示第l层的的偏置;xl-1表示第l层的输入。
本发明的有益效果是,本发明一种基于生成对抗网络的不平衡数据集的预测方法,通过将少数类样本a与进行标准化后数据集进行合并,得到平衡数据集,再采用卷积神经网络对平生数据集进行分类预测,避免了传统方法中的欧氏距离计算或者聚类过程,能够生成少数类样本,具有预测结果稳定、预测精度高的特点。
附图说明
图1是本发明一种基于生成对抗网络的不平衡数据集的预测方法的流程图;
图2是本发明预测方法中DCGAN中生成器G的网络结构图;
图3是本发明预测方法中DCGAN中判别器D的网络结构图;
图4是本发明预测方法中CNN训练流程图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明提供一种基于生成对抗网络的不平衡数据集的预测方法,如图1所示,具体按照以下步骤实施:
步骤1,接收预测请求;
步骤2,采集数据,形成数据集,明确数据集中的特征与标签及少数类样本Smin和多数类样本Smaj的数量;
步骤3,将数据集中的非数值特征列以及标签列转变为分类数值;
步骤4,将步骤3处理的数据集进行标准化并将标准化后数据集中的多数类样本和少数类样本进行分离;
标准化为将数据集中的数据按比例缩放,使数据属于[0,1]内;
步骤5,用深度卷积对抗网络(DCGAN)合成少数类样本a,形成平衡数据集;
深度卷积对抗网络(DCGAN)是将卷积网络引入GAN,利用卷积层强大的特征提取能力来提高GAN的效果,DCGAN是在GAN的基础上进行改进,具体为:
在判别器D中使用带步幅(Strided convolutions)的卷积代替池化层(Pooling);
生成器G中使Fourfractionally-strided convolution完成从随机噪声到图片的生成过程;
在DCGAN网络结构中,除了生成器G的输出层及其对应的判别器D的输入层,其他层上都使用了批量归一化(Batch normalization),加入Batch normalization层这一操作解决了初始化差的问题,同时保住梯度传播到每一层,也能够防止生成器G把所有的样本都收敛到同一个点;
去除全连接层,直接使用卷积层连接生成器G和判别器D的输入层和输出层,取消全连接层增加了模型的稳定性,但却使得收敛速度变慢;
生成器G的输出层使用Tanh(双切正切函数)激活函数,其余层使用ReLU(Rectifified linear unit)激活函数;如图2所示,生成器G的结构为:输入是1个10维的随机数据z,服从范围在[-1,1]的均匀分布,生成器G网络的第一层为全连接层,将10维的噪声向量变成2×2×64维的向量,并从第二层开始使用步长卷积做上采样操作,逐步减少通道数,最终的输出为4×4×1的图像;
判别器D的所有层使用Leaky ReLU激活函数;如图3所示,判别器D的结构为:是生成器G的反向操作,输入层为4×4×1的图像数据,经过一系列的卷积降低数据维度,最终输出是一个二分类数据;
用深度卷积对抗网络(DCGAN)合成少数类样本a的具体过程为:
步骤5.1,初始化生成器G和判别器D的参数;
生成器G的损失函数为:
G=log(1-D(G(z))) (1)
式(1)中,G(z)表示生成器的输出,D(G(z))表示判别器D判断生成器G生成的数据为真实数据的概率,z表示噪声;
所述判别器D的损失函数为:
D=log(1-D(G(z)))+logD(x) (2)
式(2)中,D(x)表示判别模型的输出,即输入参数x为真实数据的概率;
目标优化函数为:
式(3)中,D(x)表示判别器的输出,即输入参数x为真实数据的概率;D(G(z))表示判别器D判断生成器G生成的数据为真实数据的概率;
步骤5.2,将步骤4中分离出的少数类样本输入至生成器G中,生成器G利用噪声z生成与输入的少数类样本数量相同的少数类样本a,即:从标准化处理后的数据集中抽取256个样本,生成器G利用噪声z生成256个样本,固定生成器G,训练判别器D,使其尽可能区分真假;
步骤5.3,依次循环更新判别器D、生成器G,直至判别概率为0.5为止,判别器D无法区分样本是来自标准化处理后的数据集,还是来自生成器G生成的少数类样本a,完成训练,则少数类样本a和步骤4进行标准化处理后的数据集构成平衡数据集。
步骤6,将平衡数据集划分为训练集和测试集,平衡数据集中的70%为训练集,30%为测试集;
步骤7,构建卷积神经网络,用划分好的训练集训练卷积神经网络,得到训练好的卷积神经网络;
卷积神经网络的结构依次为输入层、第一卷积层、池化层、第二卷积层、全连接层、输出层;
所述输入层的输入数据为4×4像素点构成的矩阵;
所述第一卷积层包含10个特征图,采用3×3的窗口对输入图像进行卷积,得到每个特征图的大小为4×4;
所述池化层对第一卷积层进行降采样操作,选用最大池化的方式得到10个特征图,每个特征图的大小减小到2×2;
所述第二卷积层包含20个特征图,采用的卷积核大小为2×2,得到每个特征图的大小为1×1;
所述第二卷积层得到的特征图经过全连接层,得到大小为1×2的输出结果;
如图4所示,训练的过程为:
步骤7.1,将卷积神经网络权值进行初始化;
步骤7.2,在输入层输入数据,输入数据经过第一卷积层、池化层、第二卷积层、全连接层得到输出值,表达式为:
Op=Fl(...(F2(F1(W1X1))W2)Wl) (4)
式(5)中,X1为网络的输入;W1表示网络第一层的权重系数矩阵;W2表示网络第二层的权重系数矩阵;Wl表示网络第l层的权重系数矩阵;F1表示网络第一层的激活函数,采用sigmoid函数,以此类推,Fl表示网络第l层的激活函数,采用sigmoid函数。
计算输出值与目标值的误差值,表达式为:
式(4)中,代表第n个样本对应标签的第k维;/>代第n个样本对应网络的第k个输出;
步骤7.3,当步骤7.2得到的误差值大于期望值时,将误差传回进行反向传播,依次计算全连接层、第二卷积层、池化层、第一卷积层的误差,至误差不大于期望值时,结束训练,得到训练好的卷积神经网络;
反向传播计算误差的表达式为:
δl=(Wl+1)Tδl+1×f′(ul) (6)
ul=Wlxl-1+bl (7)
式(6)和(7)中,δl+1表示第l+1层的误差函数;Wl+1表示第l+1层权重系数矩阵;δl表示传播至第l层的误差函数;ul表示第l层的的输出;bl表示第l层的的偏置;xl-1表示第l层的输入。
步骤8,将测试集输入训练好的卷积神经网络得到预测结果。
实施例
为测试本发明所提方法在处理不平衡数据集的效果,本发明以银行电话营销数据集作为不平衡数据进行测试。
本发明所提出方法的测试主要过程是:用DCGAN对原始数据集(不平衡数据集)处理后得到平衡数据集,然后以划分的数据集训练CNN网络,最后采用训练好的CNN网络模型预测银行电话营销活动的效果。特别地,本发明给出所提方法与Smoteen(经常用于处理不平衡的一种方法,即Smote+ENN)应用效果进行对比,说明本发明所提方法的有效性和可行性。
传统的分类学习方法中,一般采用分类精度accuracy(正确分类的样本个数占总样本个数的比例)作为评价指标,但是如果仅用分类精度来评价不平衡数据集,是不合理的。本发明使用公认的不平衡数据集分类器的评价指标准确率accuracy、召回率Recall、特异度Specifity及G-mean。其中这些都建立在混淆矩阵基础上,二分类的混淆矩阵如表1:
表1二分类问题的混淆矩阵
其中TP和TN表示正确分类的正例和反例的样本数量;FN和FP分别表示错误分类的正例和反例的样本数量
为对算法效果进行评价和对比分析,引入以下几个指标。
1)准确率Accuracy=(TP+TN)/(TP+FP+FN+TN),表示正确预测的样本个数占总样本个数的比例。
2)召回率Recall=TP/(TP+FN)又被称为敏感度(sensitivity);查全率,表示所有真实为正例的样本中,被预测正确的样本所占的比例。
3)特异度Specifity=TN/(FP+TN),Specifificity表示所有真实为反例的样本中,被正确预测为反例的样本所占的比例。
4)G-mean=sqrt(specifity*recall),式中sqrt()是一个求平方根的函数。G-mean是一种综合考虑召回率和特异度的分类评价指标。
5)实例中主要评价指标为准确率Accuracy、召回率Recall、特异度Specifity及G-mean,值越大表示预测用户是否定期存款越准确。
本发明预测方法如下:
步骤1,接收银行电话营销预测请求,其中,银行电话营销预测请求,根据银行电话营销数据预测客户是否将预订定期存款;
步骤2,采集数据。实验数据来源于UCI机器学习网站,是葡萄牙一家银行从2008年5月到2010年11月的电话营销记录;
包含两个数据集:1)具有所有数据记录的bank-full.csv;2)bank.csv10%的数据记录。
本发明选择第1个数据集进行实验;本数据测试的分类目标是预测客户是否将预订定期存款;所选用数据集共45211个样本,有39922个不会预定定期存款,5289个将预定定期存款,共有16个特征:年龄(age)、工作类型(job type),婚姻状况(marital status)、教育程度(education level)、违约记录(default record)、年平均存款(average annualdeposit)、住房贷款(housing loan)、个人贷款(personal loan)、联系人通讯类型(contact communication type)、该月最后一次联系日(last_day)、一年中最后一次联系月份(last_month)、最后一次联系持续时长(duration)、活动系列期间为此客户电话联系次数(times)、从上一次推荐营销活动最后一次联系客户之后经过的天数(past days)、此次营销活动之前和为此客户执行的联系次数(previous times)、上次营销活动的结果(poutcome)、客户是否定期存款(deposit),它是一个典型的不平衡数据集;
步骤3,将数据集中的非数值特征列以及标签列(客户是否定期存款)转变为分类数值;
本发明中,数据集中标签列为客户是否定期存款的分类数值转变为0和1,1表示会定期存款,0表示不会定期存款;
然后将非数值特征列转换为以0开始自增1的分类数值;其中违约记录(defaultrecord)特征列中0表示违约,1表示未违约;住房贷款(housing loan)特征列中0表示有住房贷款,1表示没有住房贷款;个人贷款(personal loan)特征列中0表示没有个人贷款,1表示有个人贷款;工作类型(job type)特征列中0表示医生,1表示未知,2表示无业,3表示老师,4表示司机,5表示企业家,6表示学生,7表示其他;婚姻状况(marital status)特征列中0表示已婚,1表示离婚,2表示单身;教育程度(education level)特征列中0表示小学,1表示中学,2表示大学,3表示硕士或博士,4表示其他;联系人通讯类(Contact communicationtype)特征列中0表示电话,1表示面谈,2表示其他;一年中最后一次联系月份(last_month)特征列中分类数值加1表示月份,0表示1月份,1表示2月份,以此类推,11表示12月份;上次营销活动的结果(poutcome)特征列中0表示成功,1表示失败,2表示未知;应注意,上述列出的为未非数值特征列对应的数值,数字特征列不作变换,它们按实际输入值处理;
步骤4,将数据集进行标准化并且将数据集中的多数类样本和少数类样本进行分离,为了生成更接近真实数据的样本,需要将数据集进行标准化,将45211个样本的原始数据集中样本数为39922个少数类样本Smin和5289个多数类样本Smaj分离且标准化形成少数类数据集Smin_std和多数类数据集Smaj_std
步骤5,将标准化后的少数类数据集Smin_std输入深度卷积对抗网络中生成34633个少数类样本a,
深度卷积对抗网络(DCGAN)参数为:采用小批量随机梯度下降进行训练,最小批量为128,权重初始化使用满足均值为0,标准差为1的高斯分布随机变量,采用激活函数LeakyReLU,使用Adam优化器进行超参数优化,学习率为0.0002;将标准化后的原始数据集(Smin_std和Smaj_std)和生成的少数类样本a进行合并得到79844个样本的平衡数据集data;
步骤6,对平衡数据集data按7:3将数据集分为训练集和测试集;
步骤7,卷积神经网络的超参数:batchsize=50决定了训练一次网络所提供的样本数量;learningrate=0.001控制着基于损失梯度调整神经网络权值的速度;epoch=50代表所有训练样本进行训练的次数,即1次epoch意味着所有的训练样本完成一次前向传(forward propagation,FP)运算以及一次反向传播(back propagation,BP)运算;
实验结果如下:准确率Accuracy=0.98835266,召回率Recall=0.9996666,特异度Specifity=0.97758216,G-mean=0.9885627。
传统Smote(synthetic minority oversampling technique)的基本思想就是在少数类样本之间进行插值来产生额外的样本,具体地,对于一个少数类样本xi使用K近邻法(k值需要提前指定),求出离xi距离最近的k个少数类样本,其中距离定义为样本之间n维特征空间的欧氏距离。欧氏距离计算公式如下:
其中m为特征空间的维数,xi表示样本点x的第i维坐标,yi表示样本点y的第i维坐标;
然后从取欧式距离最小的k个近邻点中随机选取一个,使用下列公式生成新样本:
xnew=xi+(xj-xi)×δ
其中xj为选出的k近邻点,δ∈[0,1]是一个随机数。
ENN(Edited Nearest Neighbours)的基本思想是对于属于多数类的一个样本,如果其K个近邻点有超过一半都不属于多数类,则这个样本会被剔除。
Smoteen的主要思想:先用SMOTE算法生成的少数类样本,再用数据清洗技术ENN处理掉重叠样本,从而形成平衡数据集。
用Smoteen算法对45211个样本的原始数据集进行处理形成一个49763的平衡数据集,对平衡数据集按7:3将数据集分为训练集和测试集,训练CNN网络,训练出的模型为Smoteen-CNN,CNN超参数同上面一致。
实验结果如下:准确率Accuracy=0.95698565,召回率Recall=0.95310175,特异度Specifity=0.9668974,G-mean=0.9599748。
表2本发明和Smoteen-CNN模型预测数据对比
由表2预测数据可知,本发明的各项评价指标都高于Smoteen-CNN模型。由于用DCGAN生成更多的少数类样本,可以使模型更好的学习到少数类样本的特征,训练出更精确的模型,因此通过该模型预测得到的各项指标均有所提高。准确率Accuracy指标表明在所有客户中,所提模型正确预测客户(定期存款或者不定期存款)的比例,该指标在平衡数据集中具有较大的参考价值,在不平衡数据集中由于每条数据表示的客户定期存款的概率是一个较小值,这个指标不能准确表示所有不平衡数据集的某些特定客户的定期存款行为特征。召回率Recall的提升表明在所有要定期存款的客户中,模型能正确预测为定期存款客户所占比的提升。特异度Specifity的提升表明在所有不定期存款的客户中,模型正确预测为不定期存款客户所占比的提升。G-mean是综合召回率和特异度的指标,它考虑在所有要定期存款的客户中,模型能正确预测为定期存款客户所占比,也考虑在所有不定期存款的客户中,模型正确预测为不定期存款客户所占比,因此这个指标具有更高的参考价值和实际意义。

Claims (10)

1.一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,具体按照以下步骤实施:
步骤1,接收银行电话营销预测请求,其中,银行电话营销预测请求,根据银行电话营销数据预测客户是否将预订定期存款;
步骤2,采集数据,形成数据集,明确数据集中的特征与标签及少数类样本Smin和多数类样本Smaj的数量;
步骤3,将数据集中的非数值特征列以及标签列转变为分类数值;
步骤4,将步骤3处理的数据集进行标准化并将标准化后数据集中的多数类样本和少数类样本进行分离;
步骤5,用深度卷积对抗网络合成少数类样本a,形成平衡数据集;
步骤6,将平衡数据集划分为训练集和测试集;
步骤7,构建卷积神经网络,用划分好的训练集训练卷积神经网络,得到训练好的卷积神经网络;
步骤8,将测试集输入训练好的卷积神经网络得到预测结果。
2.根据权利要求1所述的一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,所述步骤4中,标准化为将数据集中的数据按比例缩放,使数据属于[0,1]内。
3.根据权利要求1所述的一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,所述步骤5的具体过程为:
步骤5.1,初始化生成器G和判别器D的参数;
步骤5.2,将步骤4中分离出的少数类样本Smin输入至生成器G中,生成器G利用噪声z生成与输入的少数类样本数量相同的少数类样本a;
步骤5.3,依次循环更新判别器D、生成器G,直至判别概率为0.5为止,完成训练,则少数类样本a和步骤4进行标准化处理后的数据集构成平衡数据集。
4.根据权利要求3所述的一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,所述生成器G的损失函数为:
G=log(1-D(G(z))) (1)
式(1)中,G(z)表示生成器的输出,D(G(z))表示判别器D判断生成器G生成的数据为真实数据的概率,z表示噪声;
所述判别器D的损失函数为:
D=log(1-D(G(z)))+logD(x) (2)
式(2)中,D(x)表示判别模型的输出,即输入参数x为真实数据的概率;
目标优化函数为:
式(3)中,D(x)表示判别模型的输出,即输入参数x为真实数据的概率;D(G(z))表示判别器D判断生成器G生成的数据为真实数据的概率。
5.根据权利要求1所述的一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,所述步骤6中,所述平衡数据集中的70%为训练集,30%为测试集。
6.根据权利要求1所述的一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,所述步骤7中,卷积神经网络的结构依次为输入层、第一卷积层、池化层、第二卷积层、全连接层、输出层;
所述输入层的输入数据为4×4像素点构成的矩阵;
所述第一卷积层包含10个特征图,采用3×3的窗口对输入图像进行卷积,得到每个特征图的大小为4×4;
所述池化层对第一卷积层进行降采样操作,选用最大池化的方式得到10个特征图,每个特征图的大小减小到2×2;
所述第二卷积层包含20个特征图,采用的卷积核大小为2×2,得到每个特征图的大小为1×1;
所述第二卷积层得到的特征图经过全连接层,得到大小为1×2的输出结果。
7.根据权利要求6所述的一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,所述步骤7中,训练的过程为:
步骤7.1,将卷积神经网络权值进行初始化;
步骤7.2,在输入层输入数据,输入数据经过第一卷积层、池化层、第二卷积层、全连接层得到输出值,计算输出值与目标值的误差值;
步骤7.3,当步骤7.2得到的误差值大于期望值时,将误差传回进行反向传播,依次计算全连接层、第二卷积层、池化层、第一卷积层的误差,至误差不大于期望值时,结束训练,得到训练好的卷积神经网络。
8.根据权利要求7所述的一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,所述步骤7.2中,计算误差值的误差函数为:
式(4)中,代表第n个样本对应标签的第k维;/>代第n个样本对应网络的第k个输出。
9.根据权利要求7所述的一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,所述步骤7.2中,计算输出值的表达式为:
Op=Fl(...(F2(F1(W1X1))W2)Wl) (5)
式(5)中,X1为网络的输入;W1表示网络第一层的权重系数矩阵;W2表示网络第二层的权重系数矩阵;Wl表示网络第l层的权重系数矩阵;F1表示网络第一层的激活函数,采用sigmoid函数,以此类推,Fl表示网络第l层的激活函数,采用sigmoid函数。
10.根据权利要求7所述的一种基于生成对抗网络的不平衡数据集的预测方法,其特征在于,所述步骤7.3中,反向传播计算误差的表达式为:
δl=(Wl+1)Tδl+1×f′(ul) (6)
ul=Wlxl-1+bl (7)
式(6)和(7)中,δl+1表示第l+1层的误差函数;Wl+1表示第l+1层权重系数矩阵;δl表示传播至第l层的误差函数;ul表示第l层的的输出;bl表示第l层的的偏置;xl-1表示第l层的输入。
CN202110526629.XA 2021-05-14 2021-05-14 一种基于生成对抗网络的不平衡数据集的预测方法 Active CN113298230B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110526629.XA CN113298230B (zh) 2021-05-14 2021-05-14 一种基于生成对抗网络的不平衡数据集的预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110526629.XA CN113298230B (zh) 2021-05-14 2021-05-14 一种基于生成对抗网络的不平衡数据集的预测方法

Publications (2)

Publication Number Publication Date
CN113298230A CN113298230A (zh) 2021-08-24
CN113298230B true CN113298230B (zh) 2024-04-09

Family

ID=77322083

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110526629.XA Active CN113298230B (zh) 2021-05-14 2021-05-14 一种基于生成对抗网络的不平衡数据集的预测方法

Country Status (1)

Country Link
CN (1) CN113298230B (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113688941B (zh) * 2021-09-09 2024-06-14 西北工业大学 基于生成对抗网络的小样本声呐图像分类识别优化方法
CN113935460B (zh) * 2021-09-27 2023-08-11 苏州大学 类不平衡数据集下的机械故障智能诊断方法
CN113988908A (zh) * 2021-10-14 2022-01-28 同盾科技有限公司 营销人群的投放方法、装置、电子设备和存储介质
CN114330924B (zh) * 2022-01-10 2023-04-18 中国矿业大学 基于生成式对抗网络的复杂产品变更强度预测方法
CN114417248B (zh) * 2022-01-19 2024-09-10 郑州大学 基于dcgan的线性轮廓过程质量异常监控方法和系统
CN114519798A (zh) * 2022-01-24 2022-05-20 东莞理工学院 一种基于对抗神经网络的多目标图像数据增强方法
CN114565136B (zh) * 2022-01-27 2024-01-26 内蒙古工业大学 一种基于生成对抗网络的空气质量预测优化方法
CN114664452B (zh) * 2022-05-20 2022-09-23 之江实验室 一种基于因果校验数据生成的全科多疾病预测系统
CN114943300B (zh) * 2022-06-02 2024-09-24 西安电子科技大学 基于循环一致生成对抗网络的不平衡数据分类方法
CN118194098B (zh) * 2024-05-16 2024-09-24 中国人民解放军总医院 疾病预测领域中针对不均衡数据的优化分类方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019033636A1 (zh) * 2017-08-16 2019-02-21 哈尔滨工业大学深圳研究生院 基于最小化损失学习的不平衡样本分类方法
CN110427846A (zh) * 2019-07-19 2019-11-08 西安工业大学 一种利用卷积神经网络对不平衡小样本的人脸识别方法
WO2020233207A1 (zh) * 2019-05-20 2020-11-26 广东省智能制造研究所 一种基于半监督学习策略的高光谱数据分析方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019033636A1 (zh) * 2017-08-16 2019-02-21 哈尔滨工业大学深圳研究生院 基于最小化损失学习的不平衡样本分类方法
WO2020233207A1 (zh) * 2019-05-20 2020-11-26 广东省智能制造研究所 一种基于半监督学习策略的高光谱数据分析方法
CN110427846A (zh) * 2019-07-19 2019-11-08 西安工业大学 一种利用卷积神经网络对不平衡小样本的人脸识别方法
CN112070125A (zh) * 2020-08-19 2020-12-11 西安理工大学 一种基于孤立森林学习的不平衡数据集的预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
不均衡数据集下基于生成对抗网络的改进深度模型故障识别研究;包萍;刘运节;;电子测量与仪器学报(第03期);全文 *
不平衡训练数据下的基于深度学习的文本分类;陈志;郭武;;小型微型计算机系统(第01期);全文 *

Also Published As

Publication number Publication date
CN113298230A (zh) 2021-08-24

Similar Documents

Publication Publication Date Title
CN113298230B (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
US7930242B2 (en) Methods and systems for multi-credit reporting agency data modeling
KR102044205B1 (ko) 빅데이터와 기계학습을 이용한 타겟 정보 예측 시스템 및 예측 방법
CN112070125A (zh) 一种基于孤立森林学习的不平衡数据集的预测方法
CN108921604B (zh) 一种基于代价敏感分类器集成的广告点击率预测方法
Nalić et al. Importance of data pre-processing in credit scoring models based on data mining approaches
Lamba et al. A MCDM-based performance of classification algorithms in breast cancer prediction for imbalanced datasets
CN113656707A (zh) 一种理财产品推荐方法、系统、存储介质及设备
CN113159419A (zh) 一种群体特征画像分析方法、装置、设备及可读存储介质
CN114676928A (zh) 一种基于生成对抗网络的不平衡数据集的预测方法
CN115358330A (zh) 客户端用户流失预测方法、装置、设备及存储介质
Jain et al. Telecom churn prediction using seven machine learning experiments integrating features engineering and normalization
Islam et al. Investigating bankruptcy prediction models in the presence of extreme class imbalance and multiple stages of economy
Siregar et al. Classification data for direct marketing using deep learning
CN112884028A (zh) 一种系统资源调整方法、装置及设备
CN113064944A (zh) 数据的处理方法和装置
Polupanov et al. Improving the neural network mathematical model of corporate bankruptcy
CN113688229B (zh) 一种文本推荐方法、系统、存储介质和设备
CN113177604B (zh) 一种基于改进l1正则化和聚类的高维数据特征选择方法
CN116932487B (zh) 一种基于数据段落划分的量化式数据分析方法及系统
CN118364317A (zh) 样本扩充方法、装置、计算机设备和可读存储介质
CN117113131A (zh) 分类模型的确定方法、装置、计算机设备和存储介质
Nawaz Analysis of Transactional Data with Long Short-Term Memory Recurrent Neural Networks
CN118608276A (zh) 用户还款逾期风险的检测方法、装置以及电子设备
Ruud et al. A Comparative Study in Binary Classification for Loan Eligibility Prediction

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240219

Address after: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant after: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region after: China

Address before: 710048 Shaanxi province Xi'an Beilin District Jinhua Road No. 5

Applicant before: XI'AN University OF TECHNOLOGY

Country or region before: China

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240313

Address after: 430000, Room 102, 1st Floor, Building B13, Bioindustry Innovation Base, No. 666 Gaoxin Avenue, Wuhan Donghu New Technology Development Zone, Wuhan City, Hubei Province

Applicant after: WUHAN CHANG'E MEDICAL ANTI-AGING ROBOT CO.,LTD.

Country or region after: China

Address before: 518000 1002, Building A, Zhiyun Industrial Park, No. 13, Huaxing Road, Henglang Community, Longhua District, Shenzhen, Guangdong Province

Applicant before: Shenzhen Wanzhida Technology Co.,Ltd.

Country or region before: China

GR01 Patent grant
GR01 Patent grant