CN110414780A

CN110414780A - 一种基于生成对抗网络的金融交易负样本生成方法

Info

Publication number: CN110414780A
Application number: CN201910525239.3A
Authority: CN
Inventors: 章昭辉; 蒋昌俊; 王鹏伟; 杨丽俊
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2019-06-18
Filing date: 2019-06-18
Publication date: 2019-11-05
Anticipated expiration: 2039-06-18
Also published as: CN110414780B

Abstract

本发明涉及一种基于长短期记忆网络和生成对抗网络的数据生成方法。本发明提出的数据生成方法，可以有效地自然解决样本不均衡问题。从实用性角度出发，通过长短期记忆网络处理交易的时间序列特征，添加基于Wasserstein距离和特征惩罚的约束优化目标函数，有效地预防模式坍塌问题；从数据的相关性角度横向验证生成数据的可靠性，从数据分布的角度纵向验证生成数据的分布，建议了基于LSTM‑GAN的负样本交易生成框架，为解决欺诈交易检测中负样本不足提供了技术支持。

Description

一种基于生成对抗网络的金融交易负样本生成方法

技术领域

本发明涉及一种金融交易负样本生成方法，属于信息技术领域。

背景技术

数据已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。然而，在金融交易领域中存在数据量少，数据稀疏的问题。

对于新兴的金融产品，在以前根本没有出现过，需要重新开始积累样本数据，风险防控人员在初始阶段无法构建完整的风控模型，对检测异常带来了巨大的困难；另外如果借贷过程中出现坏账案例，少则一个月多则几个月，积累借贷数据需要较长周期。另外，对于已收集到的数据集，样本不均衡问题普遍存在。数据不平衡指的是数据集中的类别分布不均衡，如信用卡欺诈检测数据集中，大部分信用卡数据反应的是正常交易，仅有少量数据是欺诈交易，欺诈和非欺诈的类别比例可以达到120:1。

样本不平衡会导致出现以下的问题，少数类所包含的信息很有限，难以确定少数类数据的分布，即难以在内部挖掘规律，造成少数类的识别率低；很多分类方法采用分治法，样本空间的逐渐划分会导致数据碎片问题，这样只能在各个独立的子空间中寻找数据的规律，对于少数类来说每个子空间中包含了很少的数据信息，一些跨空间的数据规律就不能被挖掘出来。如果采用分类模型，而不解决样本不均衡问题，模型将会完全偏向多数类实例，而少数类实例被当作噪声处理，在遇到测试数据时效果会大打折扣，模型的准确性和预测结果不高。不论是使用机器学习技术，还是深层网络结构的风险检测模型，模型越复杂，越具有强表达能力，对未来数据的解释能力越好。这也就需要更多的数据来提高模型预测结果，以保证训练的模型在新的数据上可以有更好的表现。

当前解决数据太少，数据不均衡的方法，主要有三种类型：数据级别方法，算法级方法和混合方法。数据级方法主要分为过采样，欠采样和特征选择。欠采样是指从多数实例中删除某些观察结果的过程，代表方法是KNN欠采样方法；而过采样是指从少数实例中观察随机抽样生成合成数据的过程，代表方法有SMOTE方法。欠采样通过删除多数类样本来提高少数类的分类性能，进而平衡数据集时，最简单的方法是直接随机去掉一些多数类样本来减小多数类的规模，但并没有考虑实例中的可用信息，不能够充分利用已有的信息，并且欠采样后的数据集规模大大降低；过采样方法，基本思想就是通过改变训练数据的分布来消除或减小数据的不平衡。通过增加少数类样本来提高少数类的分类性能，最简单的办法是简单复制少数类样本，缺点是可能导致过拟合，没有给少数类增加任何新的信息。并且这两种方法均会破坏数据分布情况。特征选择方法选择具有显著区分能力的特征进行训练，样本数量分布很不平衡时，特征的分布同样会不平衡。尤其在文本分类问题中，在大类中经常出现的特征，也许在稀有类中根本不出现。如何自然性生成数据，解决样本不均衡问题是需要考虑的。

生成对抗网络在2014年由goodfellow提出，目前已经被证明是很出色的图像生成模型，例如生成面部图像和卧室图像等。越来越多的学者将GAN用于数据集增强，包括样本增强和特征增强。通过提出一个可以生成优质数据的生成模型，模型必然学习到了原始数据的潜在结构。既然模型学习到了潜在结构，预测模型就可以将该表示作为新特征集来利用。并且，相比较传统的模型，存在两个不同的网络，而不是单一的网络，并且训练方式采用的是对抗训练方式；GAN是一种生成式模型，相比较其他生成模型(玻尔兹曼机和GSNs)只用到了反向传播，而不需要复杂的马尔科夫链；相比其他所有模型，GAN可以产生更加清晰，真实的样本；GAN采用的是一种无监督的学习方式训练，可以被广泛用在无监督学习和半监督学习领域；相比于变分自编码器，GANs没有引入任何决定性偏置(deterministic bias)，变分方法引入决定性偏置，因为GANs优化对数似然的下界，而不是似然度本身，这看起来导致了VAEs生成的实例比GANs更模糊；相比VAE，GANs没有变分下界，如果判别器训练良好，那么生成器可以完美的学习到训练样本的分布。换句话说，GANs是渐进一致的，但是VAE是有偏差的。GAN的学习是一个无监督学习过程，所以很难找到一个比较客观的，可量化的评估指标。有许多指标在数值上虽然高，但是生成效果却未必好。目前对GAN的评估，都是从数据分布映射的特征空间进行评价，但忽略了一维数据的属性特性。如何有效的评估生成的负样本数据也是一个需要解决的技术问题。

发明内容

本发明要解决的技术问题是：金融交易负样本稀少和不足。

为了解决上述技术问题，本发明的技术方案是提供了一种基于生成对抗网络的金融交易负样本生成方法，其特征在于，包括以下步骤：

(1)建立需要生成的样本数据集

通过抽样的方法从交易负样本数据中抽取数据集，将数据集经过数据预处理后得到交易负样本数据集；

(2)建立基于LSTM-GAN模型的数据生成方法

LSTM-GAN模型为生成器和判别器的极大极小博弈，LSTM-GAN模型的LSTM层学习金融序列之间的特征关联，生成器通过与判别器对抗学习来覆盖实际数据分布，并且在目标函数中添加特征惩罚以确保生成结果受到约束；在生成器中，LSTM层与输入噪声分布连接，将输入噪声映射为交易间的特征关系，经过MLP层后，生成每一笔交易；在判别器中，LSTM层对输入进行侦测建模，将输入映射为特征向量，最后通过浅层神经网络，将标记为0和1的输入数据区分出来；LSTM-GAN模型训练完成后，通过saver.save函数将TensorFlow参数保存；

(3)建立基于数据分布和数据相关性的数据验证评估模型，将步骤(2)中得到的生成器生成的数据，作为模型结构的输入，多次抽样计算模型的综合评估得分，包括以下步骤：

S301、网络模型读取与数据生成

对于训练好的LSTM-GAN模型，通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中，还原得到生成器模型；抽样生成不同批的交易负样本数据；同时从原始负样本数据集中抽样得到同样大小的样本数据集；

S302、数据分布验证

对原始数据d_raw和生成数据d_gen，寻找在样本空间上的连续函数，求不同分布的样本在连续函数f上的均值，均值作差，得到两个分布对应的均值差异mean discrepancy，找出使差值最小的函数f；均值差异mean discrepancy的值越小，两个分布情况一致，公式表示为：f₁＝MMD²(P_r，P_g)，式中，P_r是真实数据分布，P_g是生成数据分布，MMD²(·)表示最大平均差异；

S303、数据相关性验证

对于原始数据d_raw和生成数据d_gen，计算其不同列之间的协方差矩阵S，然后计算其对应的相关系数矩阵R_r和R_g，寻找使两者差值Dif f_R最小函数；如果Dif f_R足够小，则认为两个分布的相关系数情况一致，公式表示为：

S304、综合计算

将步骤S302和步骤S303中结果加权求和，得到综合评估得分，公式表示为：w₁表示S302中数据分布的权重，w₂表示S303中数据相关性的权重；

(4)建立分类结构，将步骤(2)中模型最终生成的数据作为分类结构的输入，训练分类结构，得到交易数据的欺诈检测结果，包括以下步骤：

S401、数据集合成

对于训练好的LSTM-GAN模型，通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中，还原得到生成器模型；抽样生成不同批的交易负样本数据；将生成的数据与原始数据集合并得到新的平衡数据集；

S402、初始化模型

设置分类结构的模型结构，输入数据进入分类结构的处理层；

S403、训练模型

训练二分类模型，模型将在验证数据集上评估当前模型的检测性能，如果当前性能提升小于设定阈值，模型停止更新；

S404、检测结束，得到交易数据的欺诈检测结果。

优选地，步骤(1)中，所述数据预处理包括以下步骤：

S101、划分数据集

将数据集中带标签样本划分为正样本、负样本，使用sql语句提取出负样本数据；

S102、数据清洗

删除多余的对构建模型无用的列属性，检查缺失数据，删除列中新的字符或其它的字符，删除空格，最后对数据标准化处理，消除变量之间不同数量级造成的数值之间的差异；

S103、返回得到的交易负样本数据集。

优选地，步骤(2)包括以下步骤：

S201、数据输入

获取步骤(1)中预处理得到的交易负样本数据集，作为LSTM-GAN模型判别器结构的输入；随机出服从高斯分布的噪声向量输入到生成器模型中；

S202、初始化LSTM-GAN模型

设置LSTM层和MLP层的层数、每层节点数、网络激活函数、梯度训练函数，对模型参数初始化后，构建初始的LSTM-GAN模型结构；

S203、目标优化

使用Wasserstein距离和特征惩罚优化目标函数，表示为：

判别器优化：

生成器优化：

特征惩罚：

式中，p_data表示真实数据分布，p_z表示生成数据分布，x表示生成数据或样本数据，G(·)表示生成器函数，D(·)表示判别器函数，LSTM(z)表示长短期记忆网络，表示微分运算；

S204、训练模型

先优化辨别网络D，然后再来优化生成网络G模型单独交替迭代训练：在训练判别器网络时，固定住一个生成器网络，然后去训练；训练生成器网络时，固定住判别器网络，训练生成器参；在训练生成网络G的时候，判别辨别网络D的参数不发生变化，只是把loss回传，传到生成网络G后更新生成网络的参数即可；当生成器与判别器达到纳什均衡后，模型停止更新；

S205、网络模型保存

LSTM-GAN模型训练完成后，通过saver.save函数将TensorFlow参数保存。

本发明涉及一种基于长短期记忆网络和生成对抗网络的数据生成和评估方法。本发明提出的数据生成方法，可以有效地自然解决样本不均衡问题。从实用性角度出发，通过长短期记忆网络处理交易的时间序列特征，通过添加Wasserstein距离和特征惩罚的优化函数预防模式坍塌，从数据的相关性角度横向验证生成数据的可靠性，从数据分布的角度纵向验证生成数据的分布，建立了基于LSTM-GAN的负样本交易生成框架，为解决欺诈交易检测中负样本不足提供了技术支持。

附图说明

图1是金融交易数据生成模型的整体框架，检测系统主要由生成器和判别器两个结构组成；

图2是本发明的具体流程图；

图3是基于长短期记忆网络(LSTM)和MLP的生成器流程图；

图4是基于长短期记忆网络(LSTM)和MLP的判别器流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明涉及的负样本生成方法主要有以下三部分内容：

(1)基于长短期记忆网络的负样本交易数据生成方法，添加Wasserstein距离和特征惩罚的优化函数。该生成方法主要使用了生成对抗网络博弈思想，由生成器和判别器组成。可以有效预防模式坍塌；

(2)基于数据分布和数据属性相关性的验证方法。提出从数据潜在分布空间的一致性和交易数据属性间的相关性出发，从数据的纵向和横向两个角度验证交易负样本数据的可靠性和有效性；

(3)基于分类器的数据分布验证。将生成数据与原始数据集合并，训练二分类模型，增强模型的分类效果。

本发明的技术核心在于第(1)部分和第(2)部分，在此基础上提出金融交易负样本数据生成方法。在欺诈交易数据生成任务上，金融交易负样本数据生成方法实现的关键在于两点：一方面欺诈交易呈现出的时间序列性会严重影响数据生成模型的生成效果，数据生成模型中长短期记忆网络对时序数据生成非常重要；GAN网络中，容易出现模式坍塌问题，将Wasserstein距离和特征惩罚添加到优化函数进行预防；同时对于生成样本的验证直观表示了数据生成效果的好坏。针对金融交易中欺诈行为的时间序列性和生成样本的有效性验证，本发明提出了基于长短期记忆网络的数据生成方法和数据分布和数据相关性验证的综合评估方法。

根据以上思想，建立本发明的金融交易负样本数据生成方法的框架如下：

(1)建立模型需要生成的样本数据集，通过抽样的方法从交易负样本数据中抽取数据集，将数据集经过数据清洗一系列操作后得到数据集。主要包括以下几个步骤：

S101、划分数据集

S102、数据清洗

S103、返回数据集；

(2)建立基于LSTM-GAN的数据生成方法。基本原理与原始GAN模型的基本原理相同，即生成器和判别器的极大极小博弈。LSTM层可以学习金融序列之间的特征关联。生成器通过与判别器对抗学习来覆盖实际数据分布。并且在目标函数中更改优化函数计算方式，使用Wasserstein距离并添加特征惩罚以确保生成结果受到约束。在生成器中，LSTM与输入噪声分布连接，将输入噪声映射为交易间的特征关系，经过MLP层后，生成每一笔交易；在判别器中，LSTM对输入进行侦测建模，将输入映射为特征向量，最后通过浅层神经网络，将标记为0和1的输入数据区分出来。包括以下步骤：

S201、数据输入

S202、初始化LSTM-GAN模型

设置LSTM层和MLP层的层数、每层节点数、网络激活函数、梯度训练函数，对模型参数训练次数、网络权值、偏置值、学习率等初始化后，构建初始的模型结构；

S203、目标优化

为了预防模型生成数据单一，出现模式崩溃的问题，使用Wasserstein距离和特征惩罚优化目标函数，表示为：

判别器优化：

生成器优化：

特征惩罚：

其中，p_data表示真实数据分布，p_z表示生成数据分布，x表示生成数据或样本数据，G(·)表示生成器函数，D(·)表示判别器函数，LSTM(z)表示长短期记忆网络，表示微分运算；

S204、训练模型

先优化辨别网络D，然后再来优化生成网络G模型单独交替迭代训练：在训练判别器网络时，固定住一个生成器网络，然后去训练；训练生成器网络时，固定住判别器网络，训练生成器参数。在训练生成网络G的时候，判别网络D的参数不发生变化，只是把loss回传，传到生成网络G后更新生成网络的参数即可。当生成器与判别器达到纳什均衡后，模型停止更新。

S205、网络模型保存

模型训练完成后，通过saver.save函数将TensorFlow模型保存。

S301、网络模型读取与数据生成

对于训练好的LSTM-GAN生成模型，通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中，还原得到生成器模型；抽样生成不同批的交易负样本数据；同时从原始负样本数据集中抽样得到同样大小的样本数据集。

S302、数据分布验证

对原始数据d_raw和生成数据d_gen，寻找在样本空间上的连续函数，求不同分布的样本在连续函数f上的均值，均值作差，得到两个分布对应的均值差异mean discrepancy，找出使差值最小的函数f；均值差异mean discrepancy的值越小，认为两个分布越一致，公式表示为：f₁＝MMD²(P_r，P_g)，其中P_r是真实数据分布，P_g是生成数据分布，MMD²(·)表示最大平均差异；

S303、数据相关性验证

对于原始数据d_raw和生成数据d_gen，计算其不同列之间的协方差矩阵S，然后计算其对应的相关系数矩阵R_r和R_g，寻找使两者差值Dif f_R最小函数；如果Dif f_R足够小，则认为两个分布的相关系数一致，公式表示为：

S304、综合计算

将S302和S303中结果加权求和，得到综合评估得分，公式表示为：式中，w₁表示S302中数据分布的权重，w₂表示S303中数据相关性的权重；

(4)建立分类结构，将(2)中模型最终生成的数据作为分类结构的输入，训练分类结构，得到交易数据的欺诈检测结果，包括以下步骤：

S401、数据集合成

对于训练好的LSTM-GAN生成模型，通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中，还原得到生成器模型；抽样生成不同批的交易负样本数据；将生成的数据与原始数据集合并得到新的平衡数据集；

S402、初始化模型

S403、训练模型

S404、检测结束，得到交易数据的欺诈检测结果。

本发明所述的金融交易负样本生成方法及系统可以应用到某银行等大规模网络服务系统中，本发明应用到国内某主流银行交易系统中实现了银行交易数据生成。

Claims

1.一种基于生成对抗网络的金融交易负样本生成方法，其特征在于，包括以下步骤：

(1)建立需要生成的样本数据集

(2)建立基于LSTM-GAN模型的数据生成方法

S301、网络模型读取与数据生成

S302、数据分布验证

对原始数据d_raw和生成数据d_gen，寻找在样本空间上的连续函数，求不同分布的样本在连续函数f上的均值，均值作差，得到两个分布对应的均值差异mean discrepancy，找出使差值最小的函数f；均值差异mean discrepancy的值越小，两个分布越一致，公式表示为：f₁＝MMD²(P_r，P_g)，式中，P_r是真实数据分布，P_g是生成数据分布，MMD²(·)表示最大评价差异；

S303、数据相关性验证

S304、综合计算

S401、数据集合成

S402、初始化模型

S403、训练模型

S404、检测结束，得到交易数据的欺诈检测结果。

2.如权利要求1所述的一种基于生成对抗网络的金融交易负样本生成方法，其特征在于，步骤(1)中，所述数据预处理包括以下步骤：

S101、划分数据集

S102、数据清洗

S103、返回得到的交易负样本数据集。

3.如权利要求1所述的一种基于生成对抗网络的金融交易负样本生成方法，其特征在于，步骤(2)包括以下步骤：

S201、数据输入

S202、初始化LSTM-GAN模型

S203、目标优化

使用Wasserstein距离和特征惩罚优化目标函数，表示为：

判别器优化：

生成器优化：

特征惩罚：

S204、训练模型

S205、网络模型保存