CN110414780A - 一种基于生成对抗网络的金融交易负样本生成方法 - Google Patents
一种基于生成对抗网络的金融交易负样本生成方法 Download PDFInfo
- Publication number
- CN110414780A CN110414780A CN201910525239.3A CN201910525239A CN110414780A CN 110414780 A CN110414780 A CN 110414780A CN 201910525239 A CN201910525239 A CN 201910525239A CN 110414780 A CN110414780 A CN 110414780A
- Authority
- CN
- China
- Prior art keywords
- data
- model
- network
- lstm
- negative sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- Human Resources & Organizations (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Databases & Information Systems (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Fuzzy Systems (AREA)
- Software Systems (AREA)
- Educational Administration (AREA)
- Probability & Statistics with Applications (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及一种基于长短期记忆网络和生成对抗网络的数据生成方法。本发明提出的数据生成方法,可以有效地自然解决样本不均衡问题。从实用性角度出发,通过长短期记忆网络处理交易的时间序列特征,添加基于Wasserstein距离和特征惩罚的约束优化目标函数,有效地预防模式坍塌问题;从数据的相关性角度横向验证生成数据的可靠性,从数据分布的角度纵向验证生成数据的分布,建议了基于LSTM‑GAN的负样本交易生成框架,为解决欺诈交易检测中负样本不足提供了技术支持。
Description
技术领域
本发明涉及一种金融交易负样本生成方法,属于信息技术领域。
背景技术
数据已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。然而,在金融交易领域中存在数据量少,数据稀疏的问题。
对于新兴的金融产品,在以前根本没有出现过,需要重新开始积累样本数据,风险防控人员在初始阶段无法构建完整的风控模型,对检测异常带来了巨大的困难;另外如果借贷过程中出现坏账案例,少则一个月多则几个月,积累借贷数据需要较长周期。另外,对于已收集到的数据集,样本不均衡问题普遍存在。数据不平衡指的是数据集中的类别分布不均衡,如信用卡欺诈检测数据集中,大部分信用卡数据反应的是正常交易,仅有少量数据是欺诈交易,欺诈和非欺诈的类别比例可以达到120:1。
样本不平衡会导致出现以下的问题,少数类所包含的信息很有限,难以确定少数类数据的分布,即难以在内部挖掘规律,造成少数类的识别率低;很多分类方法采用分治法,样本空间的逐渐划分会导致数据碎片问题,这样只能在各个独立的子空间中寻找数据的规律,对于少数类来说每个子空间中包含了很少的数据信息,一些跨空间的数据规律就不能被挖掘出来。如果采用分类模型,而不解决样本不均衡问题,模型将会完全偏向多数类实例,而少数类实例被当作噪声处理,在遇到测试数据时效果会大打折扣,模型的准确性和预测结果不高。不论是使用机器学习技术,还是深层网络结构的风险检测模型,模型越复杂,越具有强表达能力,对未来数据的解释能力越好。这也就需要更多的数据来提高模型预测结果,以保证训练的模型在新的数据上可以有更好的表现。
当前解决数据太少,数据不均衡的方法,主要有三种类型:数据级别方法,算法级方法和混合方法。数据级方法主要分为过采样,欠采样和特征选择。欠采样是指从多数实例中删除某些观察结果的过程,代表方法是KNN欠采样方法;而过采样是指从少数实例中观察随机抽样生成合成数据的过程,代表方法有SMOTE方法。欠采样通过删除多数类样本来提高少数类的分类性能,进而平衡数据集时,最简单的方法是直接随机去掉一些多数类样本来减小多数类的规模,但并没有考虑实例中的可用信息,不能够充分利用已有的信息,并且欠采样后的数据集规模大大降低;过采样方法,基本思想就是通过改变训练数据的分布来消除或减小数据的不平衡。通过增加少数类样本来提高少数类的分类性能,最简单的办法是简单复制少数类样本,缺点是可能导致过拟合,没有给少数类增加任何新的信息。并且这两种方法均会破坏数据分布情况。特征选择方法选择具有显著区分能力的特征进行训练,样本数量分布很不平衡时,特征的分布同样会不平衡。尤其在文本分类问题中,在大类中经常出现的特征,也许在稀有类中根本不出现。如何自然性生成数据,解决样本不均衡问题是需要考虑的。
生成对抗网络在2014年由goodfellow提出,目前已经被证明是很出色的图像生成模型,例如生成面部图像和卧室图像等。越来越多的学者将GAN用于数据集增强,包括样本增强和特征增强。通过提出一个可以生成优质数据的生成模型,模型必然学习到了原始数据的潜在结构。既然模型学习到了潜在结构,预测模型就可以将该表示作为新特征集来利用。并且,相比较传统的模型,存在两个不同的网络,而不是单一的网络,并且训练方式采用的是对抗训练方式;GAN是一种生成式模型,相比较其他生成模型(玻尔兹曼机和GSNs)只用到了反向传播,而不需要复杂的马尔科夫链;相比其他所有模型,GAN可以产生更加清晰,真实的样本;GAN采用的是一种无监督的学习方式训练,可以被广泛用在无监督学习和半监督学习领域;相比于变分自编码器,GANs没有引入任何决定性偏置(deterministic bias),变分方法引入决定性偏置,因为GANs优化对数似然的下界,而不是似然度本身,这看起来导致了VAEs生成的实例比GANs更模糊;相比VAE,GANs没有变分下界,如果判别器训练良好,那么生成器可以完美的学习到训练样本的分布。换句话说,GANs是渐进一致的,但是VAE是有偏差的。GAN的学习是一个无监督学习过程,所以很难找到一个比较客观的,可量化的评估指标。有许多指标在数值上虽然高,但是生成效果却未必好。目前对GAN的评估,都是从数据分布映射的特征空间进行评价,但忽略了一维数据的属性特性。如何有效的评估生成的负样本数据也是一个需要解决的技术问题。
发明内容
本发明要解决的技术问题是:金融交易负样本稀少和不足。
为了解决上述技术问题,本发明的技术方案是提供了一种基于生成对抗网络的金融交易负样本生成方法,其特征在于,包括以下步骤:
(1)建立需要生成的样本数据集
通过抽样的方法从交易负样本数据中抽取数据集,将数据集经过数据预处理后得到交易负样本数据集;
(2)建立基于LSTM-GAN模型的数据生成方法
LSTM-GAN模型为生成器和判别器的极大极小博弈,LSTM-GAN模型的LSTM层学习金融序列之间的特征关联,生成器通过与判别器对抗学习来覆盖实际数据分布,并且在目标函数中添加特征惩罚以确保生成结果受到约束;在生成器中,LSTM层与输入噪声分布连接,将输入噪声映射为交易间的特征关系,经过MLP层后,生成每一笔交易;在判别器中,LSTM层对输入进行侦测建模,将输入映射为特征向量,最后通过浅层神经网络,将标记为0和1的输入数据区分出来;LSTM-GAN模型训练完成后,通过saver.save函数将TensorFlow参数保存;
(3)建立基于数据分布和数据相关性的数据验证评估模型,将步骤(2)中得到的生成器生成的数据,作为模型结构的输入,多次抽样计算模型的综合评估得分,包括以下步骤:
S301、网络模型读取与数据生成
对于训练好的LSTM-GAN模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;同时从原始负样本数据集中抽样得到同样大小的样本数据集;
S302、数据分布验证
对原始数据draw和生成数据dgen,寻找在样本空间上的连续函数,求不同分布的样本在连续函数f上的均值,均值作差,得到两个分布对应的均值差异mean discrepancy,找出使差值最小的函数f;均值差异mean discrepancy的值越小,两个分布情况一致,公式表示为:f1=MMD2(Pr,Pg),式中,Pr是真实数据分布,Pg是生成数据分布,MMD2(·)表示最大平均差异;
S303、数据相关性验证
对于原始数据draw和生成数据dgen,计算其不同列之间的协方差矩阵S,然后计算其对应的相关系数矩阵Rr和Rg,寻找使两者差值Dif fR最小函数;如果Dif fR足够小,则认为两个分布的相关系数情况一致,公式表示为:
S304、综合计算
将步骤S302和步骤S303中结果加权求和,得到综合评估得分,公式表示为:w1表示S302中数据分布的权重,w2表示S303中数据相关性的权重;
(4)建立分类结构,将步骤(2)中模型最终生成的数据作为分类结构的输入,训练分类结构,得到交易数据的欺诈检测结果,包括以下步骤:
S401、数据集合成
对于训练好的LSTM-GAN模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;将生成的数据与原始数据集合并得到新的平衡数据集;
S402、初始化模型
设置分类结构的模型结构,输入数据进入分类结构的处理层;
S403、训练模型
训练二分类模型,模型将在验证数据集上评估当前模型的检测性能,如果当前性能提升小于设定阈值,模型停止更新;
S404、检测结束,得到交易数据的欺诈检测结果。
优选地,步骤(1)中,所述数据预处理包括以下步骤:
S101、划分数据集
将数据集中带标签样本划分为正样本、负样本,使用sql语句提取出负样本数据;
S102、数据清洗
删除多余的对构建模型无用的列属性,检查缺失数据,删除列中新的字符或其它的字符,删除空格,最后对数据标准化处理,消除变量之间不同数量级造成的数值之间的差异;
S103、返回得到的交易负样本数据集。
优选地,步骤(2)包括以下步骤:
S201、数据输入
获取步骤(1)中预处理得到的交易负样本数据集,作为LSTM-GAN模型判别器结构的输入;随机出服从高斯分布的噪声向量输入到生成器模型中;
S202、初始化LSTM-GAN模型
设置LSTM层和MLP层的层数、每层节点数、网络激活函数、梯度训练函数,对模型参数初始化后,构建初始的LSTM-GAN模型结构;
S203、目标优化
使用Wasserstein距离和特征惩罚优化目标函数,表示为:
判别器优化:
生成器优化:
特征惩罚:
式中,pdata表示真实数据分布,pz表示生成数据分布,x表示生成数据或样本数据,G(·)表示生成器函数,D(·)表示判别器函数,LSTM(z)表示长短期记忆网络,表示微分运算;
S204、训练模型
先优化辨别网络D,然后再来优化生成网络G模型单独交替迭代训练:在训练判别器网络时,固定住一个生成器网络,然后去训练;训练生成器网络时,固定住判别器网络,训练生成器参;在训练生成网络G的时候,判别辨别网络D的参数不发生变化,只是把loss回传,传到生成网络G后更新生成网络的参数即可;当生成器与判别器达到纳什均衡后,模型停止更新;
S205、网络模型保存
LSTM-GAN模型训练完成后,通过saver.save函数将TensorFlow参数保存。
本发明涉及一种基于长短期记忆网络和生成对抗网络的数据生成和评估方法。本发明提出的数据生成方法,可以有效地自然解决样本不均衡问题。从实用性角度出发,通过长短期记忆网络处理交易的时间序列特征,通过添加Wasserstein距离和特征惩罚的优化函数预防模式坍塌,从数据的相关性角度横向验证生成数据的可靠性,从数据分布的角度纵向验证生成数据的分布,建立了基于LSTM-GAN的负样本交易生成框架,为解决欺诈交易检测中负样本不足提供了技术支持。
附图说明
图1是金融交易数据生成模型的整体框架,检测系统主要由生成器和判别器两个结构组成;
图2是本发明的具体流程图;
图3是基于长短期记忆网络(LSTM)和MLP的生成器流程图;
图4是基于长短期记忆网络(LSTM)和MLP的判别器流程图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
本发明涉及的负样本生成方法主要有以下三部分内容:
(1)基于长短期记忆网络的负样本交易数据生成方法,添加Wasserstein距离和特征惩罚的优化函数。该生成方法主要使用了生成对抗网络博弈思想,由生成器和判别器组成。可以有效预防模式坍塌;
(2)基于数据分布和数据属性相关性的验证方法。提出从数据潜在分布空间的一致性和交易数据属性间的相关性出发,从数据的纵向和横向两个角度验证交易负样本数据的可靠性和有效性;
(3)基于分类器的数据分布验证。将生成数据与原始数据集合并,训练二分类模型,增强模型的分类效果。
本发明的技术核心在于第(1)部分和第(2)部分,在此基础上提出金融交易负样本数据生成方法。在欺诈交易数据生成任务上,金融交易负样本数据生成方法实现的关键在于两点:一方面欺诈交易呈现出的时间序列性会严重影响数据生成模型的生成效果,数据生成模型中长短期记忆网络对时序数据生成非常重要;GAN网络中,容易出现模式坍塌问题,将Wasserstein距离和特征惩罚添加到优化函数进行预防;同时对于生成样本的验证直观表示了数据生成效果的好坏。针对金融交易中欺诈行为的时间序列性和生成样本的有效性验证,本发明提出了基于长短期记忆网络的数据生成方法和数据分布和数据相关性验证的综合评估方法。
根据以上思想,建立本发明的金融交易负样本数据生成方法的框架如下:
(1)建立模型需要生成的样本数据集,通过抽样的方法从交易负样本数据中抽取数据集,将数据集经过数据清洗一系列操作后得到数据集。主要包括以下几个步骤:
S101、划分数据集
将数据集中带标签样本划分为正样本、负样本,使用sql语句提取出负样本数据;
S102、数据清洗
删除多余的对构建模型无用的列属性,检查缺失数据,删除列中新的字符或其它的字符,删除空格,最后对数据标准化处理,消除变量之间不同数量级造成的数值之间的差异;
S103、返回数据集;
(2)建立基于LSTM-GAN的数据生成方法。基本原理与原始GAN模型的基本原理相同,即生成器和判别器的极大极小博弈。LSTM层可以学习金融序列之间的特征关联。生成器通过与判别器对抗学习来覆盖实际数据分布。并且在目标函数中更改优化函数计算方式,使用Wasserstein距离并添加特征惩罚以确保生成结果受到约束。在生成器中,LSTM与输入噪声分布连接,将输入噪声映射为交易间的特征关系,经过MLP层后,生成每一笔交易;在判别器中,LSTM对输入进行侦测建模,将输入映射为特征向量,最后通过浅层神经网络,将标记为0和1的输入数据区分出来。包括以下步骤:
S201、数据输入
获取步骤(1)中预处理得到的交易负样本数据集,作为LSTM-GAN模型判别器结构的输入;随机出服从高斯分布的噪声向量输入到生成器模型中;
S202、初始化LSTM-GAN模型
设置LSTM层和MLP层的层数、每层节点数、网络激活函数、梯度训练函数,对模型参数训练次数、网络权值、偏置值、学习率等初始化后,构建初始的模型结构;
S203、目标优化
为了预防模型生成数据单一,出现模式崩溃的问题,使用Wasserstein距离和特征惩罚优化目标函数,表示为:
判别器优化:
生成器优化:
特征惩罚:
其中,pdata表示真实数据分布,pz表示生成数据分布,x表示生成数据或样本数据,G(·)表示生成器函数,D(·)表示判别器函数,LSTM(z)表示长短期记忆网络,表示微分运算;
S204、训练模型
先优化辨别网络D,然后再来优化生成网络G模型单独交替迭代训练:在训练判别器网络时,固定住一个生成器网络,然后去训练;训练生成器网络时,固定住判别器网络,训练生成器参数。在训练生成网络G的时候,判别网络D的参数不发生变化,只是把loss回传,传到生成网络G后更新生成网络的参数即可。当生成器与判别器达到纳什均衡后,模型停止更新。
S205、网络模型保存
模型训练完成后,通过saver.save函数将TensorFlow模型保存。
S301、网络模型读取与数据生成
对于训练好的LSTM-GAN生成模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;同时从原始负样本数据集中抽样得到同样大小的样本数据集。
S302、数据分布验证
对原始数据draw和生成数据dgen,寻找在样本空间上的连续函数,求不同分布的样本在连续函数f上的均值,均值作差,得到两个分布对应的均值差异mean discrepancy,找出使差值最小的函数f;均值差异mean discrepancy的值越小,认为两个分布越一致,公式表示为:f1=MMD2(Pr,Pg),其中Pr是真实数据分布,Pg是生成数据分布,MMD2(·)表示最大平均差异;
S303、数据相关性验证
对于原始数据draw和生成数据dgen,计算其不同列之间的协方差矩阵S,然后计算其对应的相关系数矩阵Rr和Rg,寻找使两者差值Dif fR最小函数;如果Dif fR足够小,则认为两个分布的相关系数一致,公式表示为:
S304、综合计算
将S302和S303中结果加权求和,得到综合评估得分,公式表示为:式中,w1表示S302中数据分布的权重,w2表示S303中数据相关性的权重;
(4)建立分类结构,将(2)中模型最终生成的数据作为分类结构的输入,训练分类结构,得到交易数据的欺诈检测结果,包括以下步骤:
S401、数据集合成
对于训练好的LSTM-GAN生成模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;将生成的数据与原始数据集合并得到新的平衡数据集;
S402、初始化模型
设置分类结构的模型结构,输入数据进入分类结构的处理层;
S403、训练模型
训练二分类模型,模型将在验证数据集上评估当前模型的检测性能,如果当前性能提升小于设定阈值,模型停止更新;
S404、检测结束,得到交易数据的欺诈检测结果。
本发明所述的金融交易负样本生成方法及系统可以应用到某银行等大规模网络服务系统中,本发明应用到国内某主流银行交易系统中实现了银行交易数据生成。
Claims (3)
1.一种基于生成对抗网络的金融交易负样本生成方法,其特征在于,包括以下步骤:
(1)建立需要生成的样本数据集
通过抽样的方法从交易负样本数据中抽取数据集,将数据集经过数据预处理后得到交易负样本数据集;
(2)建立基于LSTM-GAN模型的数据生成方法
LSTM-GAN模型为生成器和判别器的极大极小博弈,LSTM-GAN模型的LSTM层学习金融序列之间的特征关联,生成器通过与判别器对抗学习来覆盖实际数据分布,并且在目标函数中添加特征惩罚以确保生成结果受到约束;在生成器中,LSTM层与输入噪声分布连接,将输入噪声映射为交易间的特征关系,经过MLP层后,生成每一笔交易;在判别器中,LSTM层对输入进行侦测建模,将输入映射为特征向量,最后通过浅层神经网络,将标记为0和1的输入数据区分出来;LSTM-GAN模型训练完成后,通过saver.save函数将TensorFlow参数保存;
(3)建立基于数据分布和数据相关性的数据验证评估模型,将步骤(2)中得到的生成器生成的数据,作为模型结构的输入,多次抽样计算模型的综合评估得分,包括以下步骤:
S301、网络模型读取与数据生成
对于训练好的LSTM-GAN模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;同时从原始负样本数据集中抽样得到同样大小的样本数据集;
S302、数据分布验证
对原始数据draw和生成数据dgen,寻找在样本空间上的连续函数,求不同分布的样本在连续函数f上的均值,均值作差,得到两个分布对应的均值差异mean discrepancy,找出使差值最小的函数f;均值差异mean discrepancy的值越小,两个分布越一致,公式表示为:f1=MMD2(Pr,Pg),式中,Pr是真实数据分布,Pg是生成数据分布,MMD2(·)表示最大评价差异;
S303、数据相关性验证
对于原始数据draw和生成数据dgen,计算其不同列之间的协方差矩阵S,然后计算其对应的相关系数矩阵Rr和Rg,寻找使两者差值Dif fR最小函数;如果Dif fR足够小,则认为两个分布的相关系数情况一致,公式表示为:
S304、综合计算
将步骤S302和步骤S303中结果加权求和,得到综合评估得分,公式表示为:w1表示S302中数据分布的权重,w2表示S303中数据相关性的权重;
(4)建立分类结构,将步骤(2)中模型最终生成的数据作为分类结构的输入,训练分类结构,得到交易数据的欺诈检测结果,包括以下步骤:
S401、数据集合成
对于训练好的LSTM-GAN模型,通过saver.restore将TensorFlow参数保存文件ckpt加载到模型中,还原得到生成器模型;抽样生成不同批的交易负样本数据;将生成的数据与原始数据集合并得到新的平衡数据集;
S402、初始化模型
设置分类结构的模型结构,输入数据进入分类结构的处理层;
S403、训练模型
训练二分类模型,模型将在验证数据集上评估当前模型的检测性能,如果当前性能提升小于设定阈值,模型停止更新;
S404、检测结束,得到交易数据的欺诈检测结果。
2.如权利要求1所述的一种基于生成对抗网络的金融交易负样本生成方法,其特征在于,步骤(1)中,所述数据预处理包括以下步骤:
S101、划分数据集
将数据集中带标签样本划分为正样本、负样本,使用sql语句提取出负样本数据;
S102、数据清洗
删除多余的对构建模型无用的列属性,检查缺失数据,删除列中新的字符或其它的字符,删除空格,最后对数据标准化处理,消除变量之间不同数量级造成的数值之间的差异;
S103、返回得到的交易负样本数据集。
3.如权利要求1所述的一种基于生成对抗网络的金融交易负样本生成方法,其特征在于,步骤(2)包括以下步骤:
S201、数据输入
获取步骤(1)中预处理得到的交易负样本数据集,作为LSTM-GAN模型判别器结构的输入;随机出服从高斯分布的噪声向量输入到生成器模型中;
S202、初始化LSTM-GAN模型
设置LSTM层和MLP层的层数、每层节点数、网络激活函数、梯度训练函数,对模型参数初始化后,构建初始的LSTM-GAN模型结构;
S203、目标优化
使用Wasserstein距离和特征惩罚优化目标函数,表示为:
判别器优化:
生成器优化:
特征惩罚:
式中,pdata表示真实数据分布,pz表示生成数据分布,x表示生成数据或样本数据,G(·)表示生成器函数,D(·)表示判别器函数,LSTM(z)表示长短期记忆网络,表示微分运算;
S204、训练模型
先优化辨别网络D,然后再来优化生成网络G模型单独交替迭代训练:在训练判别器网络时,固定住一个生成器网络,然后去训练;训练生成器网络时,固定住判别器网络,训练生成器参;在训练生成网络G的时候,判别辨别网络D的参数不发生变化,只是把loss回传,传到生成网络G后更新生成网络的参数即可;当生成器与判别器达到纳什均衡后,模型停止更新;
S205、网络模型保存
LSTM-GAN模型训练完成后,通过saver.save函数将TensorFlow参数保存。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525239.3A CN110414780B (zh) | 2019-06-18 | 2019-06-18 | 一种基于生成对抗网络的金融交易数据的欺诈检测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910525239.3A CN110414780B (zh) | 2019-06-18 | 2019-06-18 | 一种基于生成对抗网络的金融交易数据的欺诈检测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414780A true CN110414780A (zh) | 2019-11-05 |
CN110414780B CN110414780B (zh) | 2023-06-23 |
Family
ID=68359240
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910525239.3A Active CN110414780B (zh) | 2019-06-18 | 2019-06-18 | 一种基于生成对抗网络的金融交易数据的欺诈检测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110414780B (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126503A (zh) * | 2019-12-27 | 2020-05-08 | 北京同邦卓益科技有限公司 | 一种训练样本的生成方法和装置 |
CN111428853A (zh) * | 2020-01-16 | 2020-07-17 | 东华大学 | 一种带噪声学习的负样本对抗生成方法 |
CN111814891A (zh) * | 2020-07-15 | 2020-10-23 | 大连东软教育科技集团有限公司 | 医学图像合成方法、装置及存储介质 |
CN112115264A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
CN112307343A (zh) * | 2020-11-05 | 2021-02-02 | 重庆邮电大学 | 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 |
CN113159947A (zh) * | 2021-03-17 | 2021-07-23 | 同济大学 | 一种基于生成对抗网络的困难异常样本检测框架 |
CN113177078A (zh) * | 2021-04-30 | 2021-07-27 | 哈尔滨工业大学(威海) | 基于条件生成模型的高效近似查询处理算法 |
CN113177642A (zh) * | 2021-05-24 | 2021-07-27 | 北京融七牛信息技术有限公司 | 一种针对数据不平衡的自动建模系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108388795A (zh) * | 2018-02-11 | 2018-08-10 | 浙江工业大学 | 一种基于lstm检测器的对抗攻击防御方法 |
CN108428132A (zh) * | 2018-03-15 | 2018-08-21 | 阿里巴巴集团控股有限公司 | 欺诈交易识别方法、装置、服务器及存储介质 |
US20180350191A1 (en) * | 2015-08-03 | 2018-12-06 | Angel Playing Cards Co., Ltd. | Management system for table games, substitute currency for gaming, inspection device, and management system of substitute currency for gaming |
CN109034194A (zh) * | 2018-06-20 | 2018-12-18 | 东华大学 | 基于特征分化的交易欺诈行为深度检测方法 |
-
2019
- 2019-06-18 CN CN201910525239.3A patent/CN110414780B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180350191A1 (en) * | 2015-08-03 | 2018-12-06 | Angel Playing Cards Co., Ltd. | Management system for table games, substitute currency for gaming, inspection device, and management system of substitute currency for gaming |
CN108388795A (zh) * | 2018-02-11 | 2018-08-10 | 浙江工业大学 | 一种基于lstm检测器的对抗攻击防御方法 |
CN108428132A (zh) * | 2018-03-15 | 2018-08-21 | 阿里巴巴集团控股有限公司 | 欺诈交易识别方法、装置、服务器及存储介质 |
CN109034194A (zh) * | 2018-06-20 | 2018-12-18 | 东华大学 | 基于特征分化的交易欺诈行为深度检测方法 |
Non-Patent Citations (3)
Title |
---|
PENG XU,ET AL: "Predicting pipeline leakage in petrochemical system through GAN and LSTM", 《KNOWLEDGE-BASED SYSTEMS》 * |
王文琦 等: "面向中文文本倾向性分类的对抗样本生成方法", 《软件学报》 * |
莫赞 等: "基于GAN}daBoost}T不平衡分类算法的信用卡欺诈分类", 《计算机应用》 * |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111126503A (zh) * | 2019-12-27 | 2020-05-08 | 北京同邦卓益科技有限公司 | 一种训练样本的生成方法和装置 |
CN111126503B (zh) * | 2019-12-27 | 2023-09-26 | 北京同邦卓益科技有限公司 | 一种训练样本的生成方法和装置 |
CN111428853A (zh) * | 2020-01-16 | 2020-07-17 | 东华大学 | 一种带噪声学习的负样本对抗生成方法 |
CN111428853B (zh) * | 2020-01-16 | 2023-07-11 | 东华大学 | 一种带噪声学习的负样本对抗生成方法 |
CN111814891A (zh) * | 2020-07-15 | 2020-10-23 | 大连东软教育科技集团有限公司 | 医学图像合成方法、装置及存储介质 |
CN112115264A (zh) * | 2020-09-14 | 2020-12-22 | 中国科学院计算技术研究所苏州智能计算产业技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
CN112115264B (zh) * | 2020-09-14 | 2024-03-22 | 中科苏州智能计算技术研究院 | 面向数据分布变化的文本分类模型调整方法 |
CN112307343B (zh) * | 2020-11-05 | 2023-04-07 | 重庆邮电大学 | 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 |
CN112307343A (zh) * | 2020-11-05 | 2021-02-02 | 重庆邮电大学 | 基于双层迭代补偿和全貌表示的跨电商书城用户对齐方法 |
CN113159947A (zh) * | 2021-03-17 | 2021-07-23 | 同济大学 | 一种基于生成对抗网络的困难异常样本检测框架 |
CN113177078B (zh) * | 2021-04-30 | 2022-06-17 | 哈尔滨工业大学(威海) | 基于条件生成模型的近似查询处理算法 |
CN113177078A (zh) * | 2021-04-30 | 2021-07-27 | 哈尔滨工业大学(威海) | 基于条件生成模型的高效近似查询处理算法 |
CN113177642A (zh) * | 2021-05-24 | 2021-07-27 | 北京融七牛信息技术有限公司 | 一种针对数据不平衡的自动建模系统 |
Also Published As
Publication number | Publication date |
---|---|
CN110414780B (zh) | 2023-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110414780A (zh) | 一种基于生成对抗网络的金融交易负样本生成方法 | |
CN111882446B (zh) | 一种基于图卷积网络的异常账户检测方法 | |
CN109034194B (zh) | 基于特征分化的交易欺诈行为深度检测方法 | |
CN107291723A (zh) | 网页文本分类的方法和装置,网页文本识别的方法和装置 | |
CN110348437B (zh) | 一种基于弱监督学习与遮挡感知的目标检测方法 | |
CN106296195A (zh) | 一种风险识别方法及装置 | |
CN105279691A (zh) | 基于随机森林模型的金融交易检测方法和设备 | |
CN106250442A (zh) | 一种网络安全数据的特征选择方法及系统 | |
CN110851176B (zh) | 一种自动构造并利用伪克隆语料的克隆代码检测方法 | |
CN109635010B (zh) | 一种用户特征及特征因子抽取、查询方法和系统 | |
CN112417176B (zh) | 基于图特征的企业间隐性关联关系挖掘方法、设备及介质 | |
CN108492001A (zh) | 一种用于担保贷款网络风险管理的方法 | |
CN104463601A (zh) | 一种在线社会媒体系统中检测恶意评分用户的方法 | |
CN110084609A (zh) | 一种基于表征学习的交易欺诈行为深度检测方法 | |
CN114202336A (zh) | 一种金融场景下的风险行为监测方法及系统 | |
CN113343123B (zh) | 一种生成对抗多关系图网络的训练方法和检测方法 | |
Chen et al. | Credit fraud detection based on hybrid credit scoring model | |
CN104572623B (zh) | 一种在线lda模型的高效数据总结分析方法 | |
CN112967053A (zh) | 一种欺诈交易的检测方法及装置 | |
CN111292182A (zh) | 一种信贷欺诈检测方法及系统 | |
CN117010914A (zh) | 风险团伙的识别方法、装置、计算机设备及存储介质 | |
CN117009613A (zh) | 一种图数据分类方法、系统、装置及介质 | |
CN116433333A (zh) | 基于机器学习的数字商品交易风险防控方法及装置 | |
CN112632219B (zh) | 一种垃圾短信的拦截方法和拦截装置 | |
CN112926989B (zh) | 一种基于多视图集成学习的银行贷款风险评估方法及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |