CN106960358A

CN106960358A - 一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统

Info

Publication number: CN106960358A
Application number: CN201710024603.9A
Authority: CN
Inventors: 徐兵; 荣畅畅; 王楷
Original assignee: Chongqing Little Rich Kang Kang Agricultural Science And Technology Service Co Ltd
Current assignee: Chongqing Little Rich Kang Kang Agricultural Science And Technology Service Co Ltd
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-07-18

Abstract

本发明公开一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统，通过建立农村电子商务大数据特征学习的模型，挖掘农村电子商务大数据的金融欺诈行为特征，将特征输入异常行为检测模型，能有效、快速、准确的识别金融欺诈行为，量化欺诈风险等级，提前做好相关防范工作，避免金融欺诈行为带来不必要的损失。

Description

一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统

技术领域

本发明涉及金融风险控制领域，具体地说，涉及一种金融欺诈行为的异常检测量化方法。

背景技术

互联网金融的兴起，带来了普惠金融，却也成了骗贷群体的分食盛宴。由于这些新生的互联网消费金融平台，风险控制比银行简单太多，借款人只需通过互联网提交提供部分资料，就可以获取贷款。骗贷者利用这些金融平台的风控漏洞，以极低的成本非法获取或伪造借款人资料，骗取了大量现金。钱一到手，人就消失，成为永久“坏账”。

采用大数据的方法进行风险控制是目前大多数金融平台采用的方法。现有技术中具有较多是基于大数据的信用评价系统，对于欺诈行为(如贷款目的、资料的真实性、重复质押等)的检测却没有更好的办法。大多数欺诈检测系统通常只是对有问题的交易进行被动的事后分析，但已经无法挽回已经造成的损失。

另外，这些系统大部分是直接将预处理好的原始数据带入学习算法中构建反欺诈检测模型。存在的不足是：在将原始数据带入算法中训练之前，会有人为的数据清洗、数据特征选择或者数据降维的过程。由于人为的主观因素存在，在特征选取过程中，一些原始数据之间的深层次数据特征有可能被过滤掉或丢失，从而影响后面检测模型的准确性和可靠度,导致检测效果不理想。

发明内容

本发明的目的是解决农村金融工作中，客户欺诈行为无法预测的问题，使得普惠金融服务更加贴近农民，适合广大农村区域。

为实现本发明目的而采用的技术方案是这样的，一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统:搭建Hadoop分布式架构的硬件系统，并安装根据步骤1)～4)所述方法建立的预测模型，进而通过步骤5)所述的计算系统对待测样本进行金融欺诈行为的风险评级：

1)数据的获取：

1-1)将电子商务购物平台的用户按照收货地址区分为城镇地区用户和农村地区用户；获取农村地区用户的如下数据：

用户属性：用于描述一个人基本特征的信息。

信用属性：用于描述用户收入潜力和收入情况。

消费特征：用于描述客户主要消费习惯和消费偏好。

兴趣爱好：用于描述客户具有哪方面的兴趣爱好。

社交信息：用于描述用户在社交媒体的活动。

1-2)获取m个如1-1)所述的农村地区用户数据，形成农村电子商务大数据训练集R，R中每个样例都是由以上的三大部分信息组成的高维数据，每个样例总共有n维数据。

2)数据预处理

2-1)将样例中的文字信息转化成数字信息，将有单位要求的列的信息单位统一化，得到数据集X：

其中，t代表处理后的维度；

2-2)用min-max标准化:(x_i(i＝1,2,3,…,t)为X中的某一列，min和max分别为该列中的最小值和最大值，z_i为归一化后的列信息)，对X的每一列分别进行归一化处理，使每一列的数据都映射到[0,1]之间，得到归一化后的数据集H。

3)深度特征学习：

基于自动编码算法构建一个含有多个隐藏层的深度特征学习模型，预训练原始数据，具体步骤如下：

3-1)确定该网络的结构，设定其总共有q+2层，其中有1个输入层，q个隐藏层和1个输出层；

3-2)把数据预处理得到的最终数据集H作为特征学习模型的作为输入层，数据集H经过第一次编码器C⁽¹⁾＝HW编码得到特征集C⁽¹⁾，W代表权重值矩阵。

k表示经过第一次编码后的维度。

3-3)再将C⁽¹⁾作为下一个编码器的输入，不断重复步骤3-1)和3-2)(对于不同的问题重复次数不同)最终得到q层的稀疏自动编码模型(q表示我们最终得到的特征学习模型的层数)的输出V^(q)，即为最终学习的到的特征集。

p为经过q次编码后特征的维度。

即可将经过深度学习提取的特征集V^(q)，代入异常检测算法Isolation Forest(孤立森林)做反欺诈异常检测。

4)欺诈行为检测量化学习；

将深度学习提取到的特征集V^(q)作为异常检测输入数据集，利用孤立森林算法进行建模，得到孤立森林模型，然后将模型得到的检测结果进行量化，得到评分分级体系。

5)金融欺诈行为量化检测：

5-1)采集与训练集R相同数据结构的待评价样本，并将其保存至矩阵RX中；

5-2)采用与步骤2)相同的方法，将矩阵RX去噪归一化处理得到矩阵HX

5-3)设定与步骤3)中相同结构和权值的自编码神经网络，并将矩阵HX作为自编码神经网络的输入，得到数据集VX^(q)。

5-4)将得到的数据集VX^(q)代入步骤4)建立的孤立森林模型中进行欺诈行为检测，得到异常的数据点，从而达到对农村电子商务金融贸易中的欺诈行为进行检测的目的，然后输出评分s，利用步骤4)获取的评分分级体系，得到待评价样本的欺诈行为风险评定。

值得说明的是，本专利采用深度学习算法中的自动编码，可以直接从原始训练数据中学习深度特征，并通过反向传播算法反馈回来调整前面的网络参数，确保学习到的特征有效性，避免了一些有效信息的丢失。然后将学习到的特征带入到后面的反欺诈检测模型进行检测，最后我们将检测得到的异常分数值，对农村电子金融贸易的欺诈行为数据做一个量化。

本发明能够建立起一种针对农村金融欺诈行为量化检测系统，通过建立农村电子商务大数据特征学习的模型，挖掘农村电子商务大数据的金融欺诈行为特征，将特征输入异常行为检测模型，能有效、快速、准确的识别金融欺诈行为，量化欺诈风险等级，提前做好相关防范工作，避免金融欺诈行为带来不必要的损失。

附图说明

图1自动编码结构示意图

图2Hadoop集群示意图

图3模型整体流程图

图4测试数据1(两种方法的比较)

图5测试数据2(两种方法的比较)

图6测试结果对比图。

具体实施方式

下面结合实施例对本发明作进一步说明，但不应该理解为本发明上述主题范围仅限于下述实施例。在不脱离本发明上述技术思想的情况下，根据本领域普通技术知识和惯用手段，做出各种替换和变更，均应包括在本发明的保护范围内。

本实施例采用的硬件构架如下：

硬件系统采用Hadoop分布式架构，本架构由9个节点组成，1个主机(Master)，8个从机(Salve)，节点之间局域网连接，可以相互ping通。主机主要配置NameNode和JobTracker的角色，负责总管分布式数据和分解任务的执行；8个从机配置DataNode和TaskTracker的角色，负责分布式数据存储以及任务的执行。一个Map/Reduce作业(job)通常会把输入的数据集切分为若干独立的数据块，由map任务(task)以完全并行的方式处理它们。框架会对map的输出先进行排序，Map函数接受一组数据并将其转换为一个键/值对列表，输入域中的每个元素对应一个键/值对。Reduce函数接受Map函数生成的列表，然后根据它们的键(为每个键生成一个键/值对)缩小键/值对列表。Mapper负责“分”，即把复杂的任务分解为若干个“简单的任务”来处理。“简单的任务”包含三层含义：一是数据或计算的规模相对原任务要大大缩小；二是就近计算原则，即任务会分配到存放着所需数据的节点上进行计算；三是这些小任务可以并行计算，彼此间几乎没有依赖关系。Reducer负责对map阶段的结果进行汇总。通常作业的输入和输出都会被存储在文件系统中。

运行环境：

7台服务器，操作系统都是Ubuntu 16.04LTS。

内存:8G

CPU型号：Xeon X5660

CPU:2.8GHz

JDK版本：jdk-7u25-linux-i586

Hadoop版本：hadoop-1.1.2

其特征在于:搭建Hadoop分布式架构的硬件系统，并安装根据步骤1)～4)所述方法建立的预测模型，进而通过步骤5)所述的计算系统对待测样本进行金融欺诈行为的风险评级：

1)数据的获取：

表1：

2)数据预处理

其中，t代表处理后的维度；

3)深度特征学习：

特征学习模型选用稀疏自动编码Sparse AutoEncoder。自动编码器就是一种尽可能复现输入信号的神经网络，将输入数据输入到一个encoder编码器，就会得到一个code，这个code也就是输入的一个表示，如果输出的这个信息和一开始的输入数据是很相似的，那我们相信这个code是原始数据另一种抽象表达。并利用反向传播的方式训练网络权值，调整encoder和decoder的参数，使得重构误差最小，这时候我们就得到了输入input信号的一个表示，其结构图如附图1所示。在AutoEncoder的基础上加上L1的Regularity限制(L1主要是约束每一层中的节点中大部分都要为0，只有少数不为0，这就是Sparse名字的来源)，我们就可以得到稀疏自动编码Sparse AutoEncoder法。

k表示经过第一次编码后的维度。

值得进一步说明的是，我们有样本集H作为自动编码器的输入信号，输入信号H首先经过自动编码器得到输入层的另一种表示C⁽¹⁾，其映射关系可以由以下编码表达式确定：

C⁽¹⁾＝HW隐藏层的输出C⁽¹⁾通过解码的方式再重构一个与H同样大小规格信号E。解码表达式：

E＝C⁽¹⁾W^T,T代表矩阵的转置运算

E与H之间的重构误差可以用下面的一种公式表示：

即将编码的到的C⁽¹⁾经过一个E＝C⁽¹⁾W^T解码得到解码后的数据集E,T代表矩阵的转置运算。

如果得到的数据集E与原来的数据集H基本一样(理性情况下是一样的)，我们就得到了输入H的另一种表示即C⁽¹⁾。E与H之间的重构误差可以用下面的一种公式表示：

其中第一项表示E与H差的2范数的平方，第二项是L1约束，λ为约束系数。

p为经过q次编码后特征的维度。

4)欺诈行为检测量化学习；

值得说明的是，农村电子商务金融贸易中的欺诈异常检测采用的是孤立森林异常检测算法。Isolation Forest是一种异常检测算法，或者说基于离群点的挖掘算法，得益于随机森林的思想，通常用于网络安全中的攻击检测和流量异常等分析。Isolation Forest算法在实际的应用中具有不错的效果，能快速处理高维数据和海量数据，算法效果好，时间效率高。

假设数据集有N条数据，构建一颗Isolation tree时，从N条数据中均匀抽样(一般是无放回抽样)出ψ个样本出来，作为这颗树的训练样本。在样本中随机选一个特征，并在这个特征的所有值范围内(最小值与最大值之间)随机选一个值，对样本进行二叉划分，将样本中小于该值的划分到节点的左边，大于等于该值的划分到节点的右边。

这样得到了一个分裂条件和左、右两边的数据集，然后分别在左右两边的数据集上重复上面的过程，直到达到终止条件。终止条件有两个，一个是数据本身不可再分(只包括一个样本，或者全部样本相同)，另外一个是树的高度达到lof₂(ψ)。不同于决策树，Isolation tree在算法里面已经限制了树的高度。当然不限制也可以，只是算法为了效率考虑，只需要达到lof₂(ψ)深度即可。

把所有的Isolation tree树构建好了，就可以进行步骤5)，对测试数据进行预测了。预测的过程就是把测试数据在Isolation tree树上沿对应的条件分支往下走，直到达到叶子节点，并记录这过程中经过的路径长度h(x)，即从根节点，穿过中间的节点，最后到达叶子节点，所走过的边的数量(path length)。

将h(x)带入，计算每条待测数据的异常分数(Anomaly Score)，其计算公式为：

其中c(n)＝2H(n-1)-(2(n-1)/n)是二叉搜索树的平均路径长度，用来对结果进行归一化处理,其中的H(i)可以通过公式ln(i)+0.5772156649来估计，0.5772156649是欧拉常数。h(x)为路径长度，E(h(x))为森林中所有Isolation tree树的平均路径长度。根据异常分数，具有以下性质：

当E(h(x))→c(n),s→0.5

当E(h(x))→0,s→1

当E(h(x))→n–1,s→0

当计算得到的异常分数s值非常接近1，我们可以判定它是异常数据，如果s比0.5要小很多，可以判定它为正常数据，如果s约等于0.5，那么数据没有明显的表现出异常。

在本专利中，以特征学习得到的特征集V(^q)为异常检测算法Isolation Forest(孤立森林)的输入，获得反欺诈异常检测模型：V^(q)为模型的输入矩阵。我们根据孤立森林异常检测算法得出的分数s值，对农村金融贸易数据做一个欺诈行为检测量化评级。将得分0≤s<0.25划为欺诈性低，得分0.25≤s<0.5划为欺诈性中，得分0.5≤s<0.75划为欺诈性较高，得分0.75≤s≤1划为欺诈性高。

5)金融欺诈行为量化检测：

5-4)将得到的数据集VX^(q)代入步骤4)建立的孤立森林模型中进行欺诈行为检测，得到异常的数据点，从而达到对农村电子商务金融贸易中的欺诈行为进行检测的目的，然后输出评分s，利用步骤4)获取的评分分级体系，得到待评价样本的欺诈行为风险评定。将得分0≤s<0.25划为欺诈性低，得分0.25≤s<0.5划为欺诈性中，得分0.5≤s<0.75划为欺诈性较高，得分0.75≤s≤1划为欺诈性高。

对比实验：

参见图4～6，我们采用了两组不同的测试数据集，并利用专利的异常检测方法(Isolation Forest)和One-Class SVM进行一个数据测试对比。通过实验训练结果表明，本专利采用的方法的测试结果的误差率在3.1％，而One-Class SVM的错误率在13.7％。精确率明显有很大的提升，同时，本专利异常检测算法得出的异常分数s值，对农村金融贸易数据做一个欺诈行为检测量化评级。将得分0≤s<0.25划为欺诈性低，得分0.25≤s<0.5划为欺诈性中，得分0.5≤s<0.75划为欺诈性较高，得分0.75≤s≤1划为欺诈性高。

对比实验结果表明，经过深度学习提取原始数据的特征后，结果明显得到优化，反欺诈检测模型的准确率得到提高。说明深度学习模型能够从原始数据集中学习到更有效更抽象的特征表达，更深层次的表达出数据特征之间的潜在深层次规律。因此该方法可以有效的用来构建农业养殖大数据的农村电子商务金融反欺诈检测模型。对于农村电子商务金融的大力发展有积极的推动作用。

Claims

1.一种基于农村电子商务大数据深度学习的金融欺诈行为量化检测系统，其特征在于:搭建Hadoop分布式架构的硬件系统，并安装根据步骤1)～4)所述方法建立的预测模型，进而通过步骤5)所述的计算系统对待测样本进行金融欺诈行为的风险评级：

1)数据的获取：

1-1)将所述电子商务购物平台的用户按照收货地址区分为城镇地区用户和农村地区用户；获取农村地区用户的如下数据：

用户属性：用于描述一个人基本特征的信息。

信用属性：用于描述用户收入潜力和收入情况。

消费特征：用于描述客户主要消费习惯和消费偏好。

兴趣爱好：用于描述客户具有哪方面的兴趣爱好。

社交信息：用于描述用户在社交媒体的活动。

1-2)获取m个如1-1)所述的农村地区用户数据，形成农村电子商务大数据训练集R。

2)数据预处理

其中，t代表处理后的维度；

2-2)对X的每一列分别进行归一化处理，使每一列的数据都映射到[0,1]之间，得到归一化后的数据集H。

3)深度特征学习：

3-2)把数据预处理得到的最终数据集H作为特征学习模型的作为输入层，数据集H经过第一次编码器C⁽¹⁾＝HW编码得到特征集C⁽¹⁾，W代表权重值矩阵,该矩阵是由输入矩阵和下一层的神经元共同来确定的。

k表示经过第一次编码后的维度。

3-3)再将C⁽¹⁾作为下一个编码器的输入，不断重复步骤3-1)和3-2)最终得到q层的稀疏自动编码模型的输出V^(q)，即为最终学习的到的特征集。

p为经过q次编码后特征的维度。

4)欺诈行为检测量化学习；

5)金融欺诈行为量化检测：