CN111428853B

CN111428853B - 一种带噪声学习的负样本对抗生成方法

Info

Publication number: CN111428853B
Application number: CN202010045213.1A
Authority: CN
Inventors: 章昭辉; 蒋昌俊; 王鹏伟; 杨丽俊
Original assignee: Donghua University
Current assignee: Donghua University
Priority date: 2020-01-16
Filing date: 2020-01-16
Publication date: 2023-07-11
Anticipated expiration: 2040-01-16
Also published as: CN111428853A

Abstract

本发明涉及一种基于自动编码器网络和生成对抗网络的数据生成方法。本发明提出的数据生成方法，可以有效地解决电子交易因样本不均衡问题带来的反欺诈模型构建困难的问题。使用自动编码器的样本表征能力，对输入样本编码结合随机噪声作为生成器输入，为先验噪声添加指导信息，并且编码后的噪声可以公平分配各个样本生成上的概率，有效的提高生成模型对边缘分布数据的捕获能力，该模型为解决欺诈样本不足提供了一种新的技术支持方案，具有一定的实用价值。

Description

一种带噪声学习的负样本对抗生成方法

技术领域

本发明涉及一种电子交易负样本生成方法，属于信息技术领域。

背景技术

在使用深度学习或机器学习方法构建欺诈检测模型时，样本不均衡、数据集高度倾斜问题普遍存在。以电子银行为例，每天交易流水在百万甚至千万量级，然而在交易记录里只有少数案件属于欺诈案例，黑白样本比例悬殊。根据统计数据发现，一百万笔交易中可能只有1000个欺诈案例，欺诈交易比率仅占数据集的0.1％。对kaggle平台的信用卡数据集统计发现，在284807笔交易中，存在492笔欺诈交易。数据集正负样本量极度不平衡，负样本仅占所有数据集的0.172％。

正负样本比例极度不平衡时，不论使用机器学习技术，还是深层神经网络的检测模型，都会严重影响模型的检测效果。准确率和精确率等评估指标无法正确衡量模型的训练结果，在训练时会提供很高的准确率，但是对欺诈样本具有较差的预测性。并且与样本总数相比，负样本数量很少，导致模型很难学习到少数样本的模式。极端情况下，模型将异常数据当作噪声处理，忽略对欺诈特征的学习。

从数据层面解决样本不均衡问题主要方法是过采样，欠采样和这两种方法的混合方法。过采样方法是向数据集中添加样本来平衡数据集，如重复采样，SMOTE和Borderline-SMOTE等。欠采样方法是从多数类别样本出发，在多数类别中删除样本，使之与少数类别样本数量相等或差距不大。这些方法都取得了很好的性能，但是减少样本量的方法会带来信息缺失，丢失有关多数类别的重要信息；相反，添加样本的方法，会导致样本量重叠，带来过拟合问题。并且两种方法在应对具有时间序列特性的数据样本时呈现出性能不足的问题。

深度生成模型以它能处理更为复杂数据集的独特优势越来越受到研究者们的青睐，为解决样本不均衡问题提供了“灵感”。深度生成模型主要以变分自编码器(Variational Autocoder，VAE)和生成对抗网络(Generative Adversarial Network，GAN)为代表。目前已经成功的生成了各种复杂的数据，包括手写数字、面部和CIFAR图像等。相比较于其他生成模型，生成对抗网络在训练时具有很强的灵活性，对于数据分布的捕捉不需要太多的数学条件假设以及各种近似推理，因此模型在训练时训练效率高效，训练难度大大降低，在生成质量上具有不错的效果。

生成对抗网络这种神经网络结构，包含生成器和判别器两部分。生成器从潜在空间(latent space)中随机取样，目标是模仿输出训练集中的真实样本。判别器的输入是真实样本或者生成器网络的输出，其目标是尽可能的分别真实数据与生成数据。与其他生成模型相比，生成对抗网络具有很强的灵活性。它不需要变分下界和马尔可夫链，以及训练过程中的各种近似推理，大大提高了训练效率，降低了训练难度。生成器参数通过鉴别器的反向传播方法而不是直接从数据样本更新，这是与传统生成方法相比最有利的一点。

在一维数据领域也逐渐被应用，Lou等人将有监督信号引入Wasserstein GAN网络中，应用于数据增强，输入数据是从自动编码器获得的潜在空间样本，补充生成电子设备数据。One-class adversarial nets(OCAN)是仅使用良性用户的数据训练欺诈检测网络。首先使用LSTM-Autoencoder从用户的在线活动序列中学习良性用户的表示，然后训练与GAN模型不同的补充GAN网络来检测异常用户。实验表明OCAN优于最先进的单样本分类模型，并与多源长短期记忆网络实现了相当的性能。Kumar等人建立ecGAN和ec2GAN，经过训练后的模型，生成器可以生成任意数量的合理订单。ec2GAN可以生成特定产品系列的订单，帮助管理人员探索商品与购买客户之间的关系。生成对抗网络在数据生成中渐渐取得了很好的表现，受到越来越多研究者的青睐。

2006年，杰弗里·辛顿(G.Hinton)提出了深度学习的概念，随后与其团队在文章《A fast Learning Algorithm for Deep Belief Nets》中提出了深度学习模型之一，深度信念网络，并给出了一种高效的半监督算法：逐层贪心算法，来训练深度信念网络的参数，打破了长期以来深度网络难以训练的僵局。从此，深度学习的大门打开，在各大政府、高校和企业中掀起了研究深度学习的大浪潮。2009年，Yoshua Bengio提出了深度学习另一常用模型：堆叠自动编码器(Stacked Auto-Encoder，SAE)，采用自动编码器来代替深度信念网络的基本单元：限制玻尔兹曼机，来构造深度网络。Autoencoder是Feedforward NeuralNetwork的一种，曾经主要用于数据的降维或者特征的抽取，而现在也被扩展用于生成模型中。

自动编码器以无监督的方式学习数据编码。训练该网络忽略“噪声”，学习出一组数据的编码，经常用于数据降维和数据去噪。该结构中主要包含两个网络：编码器网络和解码器网络。编码器网络会创建一个或多个隐藏层，训练网络得到包含输入数据特征的低维向量。解码器函数，基于上述得到的低维向量对输入数据进行重构输出。自动编码器虽然学习的是输入输出一致的恒等函数，但是这里主要的意义是编码层，这个过程相当于数据降维。因此自动编码器的用途主要是特征降维，特征提取等。

针对以上提出的问题，在生成对抗网络的基础上，对如何生成分布一致的电子欺诈交易展开研究。

发明内容

本发明要解决的问题是：在生成对抗网络中生成器的输入是服从高斯分布的噪声向量，并没有为输入噪声添加任何语义信息，为生成器训练带来了一定的弊端。比如在模型训练允许使用label标签时，依然无法控制生成样本的质量，无法融入训练模型中取得很好的生成表现。另外，对于生成的样本数据，此时已经输入噪声经过高度耦合处理，噪声的输入与生成器输出的数据不具有任何关联可解释性。

为了解决上述技术问题，本发明的技术方案是提供了一种带噪声学习的对抗样本生成方法，其特征在于，基于噪声分布的模型，该模型采用自动编码器结合生成对抗网络的结构，包括编码器E、解码生成器G和判别器D，其中，编码器对输入的每一条交易数据学习其欺诈特征模式，进行压缩编码后，得到输入交易的特征空间z；将自动编码器中的解码器和生成对抗网络中的生成器结构合二为一，两个网络共享权值参数，形成解码生成器G，解码生成器G一方面完成输出样本尽可能接近原始样本的任务，另一方面完成从潜在特征空间到样本空间的映射任务；判别器D是一个分类器模型，判别器D不仅会读取原始数据，标记为true，还会将解码生成器G生成的数据作为输入，标记为false，给出true或者false的结果，所述对抗样本生成方法包括以下步骤：

步骤1、依据数据集中带标签样本的标签，将所有带标签样本划分为不同的样本数据集，通过数据抽取方法从交易负样本数据中抽取出负样本数据集；

步骤2、建立模型，并利用上一步获得的负样本数据集对该噪声学习的模型进行训练，包括以下步骤：

S201、初始化模型

获取上一步得到的交易负样本数据集，作为生成模型中编码器E和判别器D的输入；设置模型的网络层数、节点数、激活函数、梯度训练函数，对模型的参数训练次数、网络权值、偏置值、学习率初始化后，构建初始的模型；

S202、模型训练

根据给定的训练次数、迭代方案、优化目标，对模型进行对抗训练，编码器E、解码生成器G和判别器D的优化目标分别表示为：

编码器E优化目标：

式中，L_Encoder表示编码器损失、X表示原始数据、e＝E(X)表示通过编码器重建的样本；

判别器优化：

式中，

表示损失函数，x表示生成数据或样本数据、D＝D(x)表示判别器输出，p_data表示真实数据分布，/>

表示真实数据下的损失，p_z表示生成数据分布，z表示随机噪声，G(z)表示生成数据样本，D(G(z))表示判别器对生成样本的区分，G(E(X))表示编码器指导下生成样本，D(G(E(X)))表示判别器对G(E(X))的区分，/>

表示生成数据下的损失；

解码生成器优化：

当编码器E、解码生成器G和判别器D达到优化目标后，模型停止更新；

S203、模型保存；

步骤3、对模型进行数据生成质量检验；

步骤4、对模型进行分类实验检验：

将步骤2中模型最终生成的数据作为分类结构的输入，训练分类结构，得到交易数据的欺诈检测结果。

优选地，所述步骤1之后，并所述步骤2之前还包括：

分析上一步得到的负样本数据集的缺失、异常和重复情况，对负样本数据集清洗，对缺失值进行删除或者填补，噪声数据光滑处理，离群点删除或平滑，完成数据清理工作。

优选地，步骤S203中，模型训练完成后，通过TensorFlow将模型保存。

优选地，所述步骤3包括以下步骤：

S301、网络模型读取与生成器加载

对于训练好的模型，通过TensorFlow参数保存文件加载到模型中，还原得到生成器模型；抽样生成不同批的交易负样本数据；同时从原始负样本数据集中抽样得到同样大小的样本数据集；

S302、数据生成结果验证

从数据分布和数据相关性两个角度验证数据生成质量；

S303、综合计算

将步骤S302结果加权求和，得到综合评估得分。

优选地，所述步骤4包括以下步骤：

S401、数据集合成

执行步骤S301，抽样生成不同批的交易负样本数据；将生成的数据与原始数据集合并得到新的平衡数据集；

S402、初始化模型

设置分类结构的模型结构，输入数据进入分类结构的处理层；

S403、训练模型

训练二分类模型，模型将在验证数据集上评估当前模型的检测性能，如果当前性能提升小于阈值，模型停止更新，记录下模型训练结果。

本发明涉及一种基于噪声学习的生成对抗网络的电子交易负样本生成方法对输入数据使用编码器获得样本特征空间，生成器与解码器合二为一，输入生成器的噪声是包含样本特征的先验噪声信息，从而指导生成器生成样本，让输入噪声对生成器学习能力更强。同时也解决了模型在对抗过程中，生成器较弱容易受随机噪声干扰的问题。本发明使用自动编码器的样本表征能力减少输入噪声对生成器生成的影响。编码器编码输入样本，为输入噪声提供指定先验交易信息，弥补生成器生成较弱的缺陷并降低输入噪声为生成模型带来的不确定性。将解码器模型与生成器模型合二为一，根据得到的先验噪声信息，均匀分配各种特征的生成概率。建模样本时，生成器为边缘分布给予同等生成权重，提升生成器输出结果。

本发明所构建的基于噪声学习的电子交易负样本生成方法具有很好的实验效果，该方法针对生成对抗网络中输入噪声过于“自由”、无先验信息的问题，利用自动编码器网络来处理输入数据，并结合生成对抗过程，以此来提高对于生成数据分布的捕获能力，提高数据生成质量。

附图说明

图1是电子交易数据生成模型的整体流程；

图2是本发明的模型框架图；

图3是自动编码器网络结构图；

图4是编码器结构图；

图5是解码生成器结构图；

图6是判别器结构图；

图7是模型训练流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明涉及的一种基于噪声学习的对抗样本生成方法主要有以下三部分内容：

(1)模型基本框架

该系统的基本框架是一个自动编码器结合生成对抗网络的结构，具体网络结构如图2所示。该结构由生成对抗网络和自动编码器构成，自动编码器中解码器和生成对抗网络中生成器共享模型参数。

输入数据在通过解码器学习到欺诈特征模式后，结合随机噪声进入解码生成器，最后通过与判别器对抗学习，输出模仿的交易数据。解码生成器需要完成输出样本尽可能接近原始样本的任务，还要完成从潜在特征空间到样本空间的映射任务。生成器接收编码器的先验信息，加上随机噪声，作为解码生成器的输入。对于已经学习到所有特征模式的先验噪声，在解码生成器训练时，帮助生成器在不同的样本类别的生成时公平分配条件概率，也能解决生成样本对边缘数据点不敏感的问题。解决输入噪声不具有任何先验学习信息的问题，让输入的噪声更具有学习能力。判别器同时从生成样本和真实样本接收样本，其模型结构也是一个分类器模型，在训练时最大化生成器输出和原始输入之间的差异。

模型训练中，自动编码器和生成对抗网络是一个相反的过程，编码器Encoder是从X映射到z，再从z重建到X′，从正确数据转换成特征表示；而GAN是从z映射到X′，从基础的高斯分布转变为有用的正确数据，其中，X表示真实数据，z表示随机噪声分布，X′表示生成样本。

(2)模型结构

网络主要包含三部分：编码器E，解码生成器G和判别器D

编码器E读取输入数据X，其中X属于原始数据集。将其正向传递到编码器网络中，在经过批处理和激活函数激活后，编码器E将输入压缩为内部潜在表示——latentcode，latent code是压缩X后的最小维度的最佳表示，省略了中间层结构后如图4所示，公式表示为：z＝E(X)。

解码生成器，编码器和解码器学习到的数据映射内部潜在表示latent code，作为G的输入z。此时G的输入来说不再是随机采样的噪声z，而是经过编码E(X)后的特征向量。G在进行解码时，也是一个生成器。该网络目的是重建从潜在空间到数据空间的映射，训练映射使得重建的数据尽可能接近原始数据，公式表示为：X′＝G(E(X))。

判别器，其结构如图6所示，判别器网络D不仅会读取原始数据X，还会将G生成的数据X′作为输入，其实D相当于一个二分类网络，给出true或者false的结果。

(3)利用自动编码器进行输入编码功能的设计与研究

为了使用自动编码器为生成对抗网络提供可解释的潜在变量，将输入样本经过学习映射到低维空间，作为生成器输入，输入噪声由随机噪声改为服从样本数据分布的先验噪声，改变随机噪声带来的不确定性。其网络结构如图3所示：

·编码器(Encoder)：减少输入数据X的维度，并将输入数据压缩编码形式；

·中间层z：输入数据压缩表示层，即输入数据能够被压缩的最小维度；

·解码器(Decoder)：将z重建数据X′，并尽可能接近原始输入数据X；

·重建损失：测量解码器性能以及输出与原始输入之间相似程度的方法；

模型可以被定义为：

在给定输入数据X∈Rⁿ情况下，编码器将输入Enc(X∈Rⁿ)＝z，其中z∈R^m(m＜＜n)。在只有一层隐含层的模型中：z＝Enc(X)＝s(WX+b)

z指压缩后的低维向量，或者称为latent code。s是激活函数，比如sigmoid函数，W是权重矩阵，b是偏置向量。W和b是被随机初始化后，通过反向传播算法更新。在解码器阶段，将z映射为Dec(z∈R^m)＝X′，X′∈Rⁿ:X′＝Dec(z)＝σ′(W′z+b′)

σ′，W′和b′都是解码器参数，更新与编码器中的σ，W和b参数密切相关。自动编码器需要最小化重建损失，一般使用平方误差函数或交叉熵损失函数，损失函数被定义为：L(X,X′)＝∑‖X-X′‖²

在训练时，为了避免过拟合问题，可以在优化目标中加入正则函数项R(W)，损失函数变为：

式中，J(X,X′)表示损失函数，λ表示权重权值，W表示权重项。

本发明提出了基于噪声学习的电子欺诈交易生成模型，编码器编码输入样本，为输入噪声提供指定先验交易信息，弥补生成器生成较弱的缺陷并降低输入噪声为生成模型带来的不确定性，让先验噪声具备更强的学习能力。将解码器模型与生成器模型合二为一，根据得到的先验噪声信息，均匀分配各种特征的生成概率。建模样本时，生成器为边缘分布给予同等生成权重，提升输出结果。

根据以上思想，建立本发明的电子交易负样本数据生成方法的框架如下：

(1)准备数据集，数据预处理，并返回数据集。通过数据抽取方法从交易负样本数据中抽取数据集，将数据集经过数据清洗一系列操作后得到数据集。主要包括以下几个步骤：

S101、数据集抽取

将数据集中带标签样本划分为不同的样本数据集，抽取出负样本数据集；

S102、数据清洗

分析目标生成数据集的缺失、异常和重复情况，对数据集清洗。对缺失值进行删除或者填补，噪声数据光滑处理，离群点删除或平滑，完成数据清理工作；

S103、返回数据集，准备模型初始化训练工作；

(2)建立模型，构建基于噪声学习模型的数据生成方法。该模型的基本原理与原始GAN模型的基本原理相同，即生成器和判别器的极大极小博弈，包括以下步骤：

S201、初始化模型

获取步骤(1)中预处理得到的交易负样本数据集，作为模型中编码器和判别器结构的输入；设置网络的层数、节点数、激活函数、梯度训练函数，对模型参数训练次数、网络权值、偏置值、学习率等初始化后，构建初始的模型结构；

S202、模型训练

根据模型给定的训练次数、迭代方案、优化目标，对模型进行对抗训练。

三个网络结构的优化目标分别表示为：

编码器优化：

判别器优化：

解码生成器优化：

其中p_data表示真实数据分布，p_z表示生成数据分布，x表示生成数据或样本数据；当编码器，解码生成器与判别器达到优化目标后，模型停止更新。

S203、模型保存

模型训练完成后，通过TensorFlow将模型保存。

(3)数据生成质量检验

S301、网络模型读取与生成器加载

对于训练好的模型，通过TensorFlow参数保存文件加载到模型中，还原得到生成器模型；抽样生成不同批的交易负样本数据；同时从原始负样本数据集中抽样得到同样大小的样本数据集。

S302、数据生成结果验证

从数据分布和数据相关性两个角度验证数据生成质量

S303、综合计算

将S302结果加权求和，得到综合评估得分

(4)分类实验检验，将步骤(2)中模型最终生成的数据作为分类结构的输入，训练分类结构，得到交易数据的欺诈检测结果，包括以下步骤：

S401、数据集合成

执行S301步骤，抽样生成不同批的交易负样本数据；将生成的数据与原始数据集合并得到新的平衡数据集；

S402、初始化模型

S403、训练模型

训练二分类模型，模型将在验证数据集上评估当前模型的检测性能，如果当前性能提升小于阈值，模型停止更新；记录下模型训练结果。

本发明所述的电子交易负样本生成方法及系统可以应用到某银行等大规模网络服务系统中，解决样本不均衡问题。

Claims

1.一种基于噪声学习的对抗样本生成方法，其特征在于，采用自动编码器结合生成对抗网络的结构，包括编码器E、解码生成器G和判别器D，其中，编码器对输入的每一条交易数据学习其欺诈特征模式，进行压缩编码后，得到输入交易的特征空间z；将自动编码器中的解码器和生成对抗网络中的生成器结构合二为一，两个网络共享权值参数，形成解码生成器G；判别器D是一个分类器模型，判别器D不仅会读取原始数据，标记为true，还会将解码生成器G生成的数据作为输入，标记为false，给出true或者false的结果，所述对抗样本生成方法包括以下步骤：

步骤2、建立模型，并利用上一步获得的负样本数据集对模型进行训练，包括以下步骤：

S201、初始化模型

获取上一步得到的交易负样本数据集，作为模型中编码器E和判别器D的输入；设置模型的网络层数、节点数、激活函数、梯度训练函数，对模型的参数训练次数、网络权值、偏置值、学习率初始化后，构建初始的模型；

S202、模型训练

编码器E优化目标：