CN111178902A

CN111178902A - 基于自动化特征工程的网络支付欺诈检测方法

Info

Publication number: CN111178902A
Application number: CN201911275482.0A
Authority: CN
Inventors: 王成; 王昌琪
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-12-12
Filing date: 2019-12-12
Publication date: 2020-05-19
Anticipated expiration: 2039-12-12
Also published as: CN111178902B

Abstract

本发明涉及自动化特征工程技术和互联网金融网络支付的反欺诈检测。一种基于自动化特征工程的网络支付欺诈检测方法，分为两个部分，其特征在于：第一个部分是自动化特征构造部分，在在线网络支付原始特征的基础上，利用定制化特征构造树的自动化特征工程方法，获得所有新特征的构造过程集合；第二个部分是模型训练与欺诈检测部分，对于训练数据集，根据新特征向量的构造过程集合，构造出新特征，将所有特征和标签输入到机器学习模型进行训练，得到欺诈检测模型；对于实时测试数据集，同样根据新特征的构造过程集合，构造出新特征，将所有特征输入进欺诈检测模型进行欺诈预测。实现网络支付的异常检测。

Description

基于自动化特征工程的网络支付欺诈检测方法

技术领域

本发明涉及自动化特征工程技术和互联网金融网络支付的反欺诈检测。

背景技术

随着移动互联网的兴起，各种传统的业务逐渐转至线上，互联网金融，电子商务迅速发展，网络在线支付的产生将带来大量的电子交易数据，同时伴随着在线支付欺诈交易数量的大量增加。攻击者通过窃取用户账户，盗取个人隐私信息，甚至恶意攻击服务器等方式来完成欺诈。为保障用户和公司业务安全，需要建立切实有效的网络支付欺诈模型。

在互联网金融领域，风控工作至关重要，而在网络支付反欺诈模型的开发过程中，特征工程是最重要的步骤。特征工程是从原始数据中提取特征以供算法和模型使用。目前互联网金融领域的特征工程通常需要风控数据专家进行人工分析、设计和清洗生成特征变量，这种方法费时费力，而且受限于人工经验也常会遗漏有效特征。人工生成特征会带来大量的人工成本和时间成本问题，影响模型应用的效果和模型运营的效率。如果这些工作可以集中到一起由机器自动完成，相比传统模式，收到的效果会大大提高，而且可以极大的降低风控成本。

发明内容

如何在网络支付的场景下，应用自动机器学习的方法来生成特征变量，有效利用和复用知识，减少人工和时间成本，自动化生成高效能、全方面的特征，提升欺诈检测模型的性能，是本发明需要完成的发明任务。

为此，本发明公开一种基于自动化特征工程的网络支付欺诈检测方法。对互联网金融领域的在线网络支付欺诈检测，利用定制化特征构造树的自动化特征构造方法进行了实践探索以提高特征构造的效率，减少人工成本，提升欺诈检测模型的性能，为风险防控工作带来便捷。

技术方案

一种基于自动化特征工程的网络支付欺诈检测方法，分为两个部分，其特征在于：

第一个部分是自动化特征构造部分，在在线网络支付原始特征的基础上，利用定制化特征构造树的自动化特征工程方法，获得所有新特征的构造过程集合；

第二个部分是模型训练与欺诈检测部分，对于训练数据集，根据新特征向量的构造过程集合，构造出新特征，将所有特征和标签输入到机器学习模型进行训练，得到欺诈检测模型；对于实时测试数据集，同样根据新特征的构造过程集合，构造出新特征，将所有特征输入进欺诈检测模型进行欺诈预测。

进一步的技术方案，所述第一个部分：

1.1面向网络支付欺诈检测，搜集互联网金融网络支付交易记录，从中筛选出原始字段，见表1网络支付交易记录可利用的原始字段

表1可利用原始字段

获得原始数据样本集合D，D＝{X,Y}，其中

X＝{x₁,x₂,…x_n}，其中x_i对应的是第i条交易记录的各个字段，即一条特征向量，X代表所有交易记录的特征向量集合；Y＝{y₁,y₂,…y_n}，其中y_i对应的是第i条交易记录是否是欺诈，其取值y_i＝{0,1}，0为正常，1为异常；

Y代表所有交易记录标签的集合；

X、Y两者共同组成了整个数据集D，数据集中交易记录样本的总数为n；进入1.2进行特征构造；

1.2定制化特征构造树的自动化特征工程方法

定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合D的基础上构造新特征，还存在转换函数的组合，即在构造出来的新特征的基础上继续构造特征；所述特征构造树保留了父节点上构造出的用来划分数据集的特征，与原始特征组成新的、扩充的特征空间，在此扩充的特征空间上再进行特征构造并选择划分数据集的特征；定制化特征构造树中对转换函数权重向量的时效性进行更新。

进一步的技术方案，所述第二部分利用生成的特征进行网络支付欺诈检测模型训练与实时欺诈检测，具体的，训练网络支付欺诈检测分类器和实施实时检测的步骤如下：

步骤2-1，在网络支付交易记录的训练数据集上应用步骤1所示的自动化特征工程方法，由步骤1.2.6中返回获得所有新特征的构造过程集合；

步骤2-2，利用获得的新特征的构造过程集合，对训练数据集中的所有网络支付交易记录进行特征构造，为每一条交易记录都生成新特征向量；

步骤2-3，将训练集的所有交易记录数据的新特征、原始特征和标签输入进分类器模型进行训练，得到欺诈检测模型；

步骤2-4，对新来一条的网络支付交易记录数据，利用步骤2-1中获得的新特征的构造过程集合，先进行特征构造，生成新特征，将原始特征和新特征输入进欺诈检测模型，输出该条交易记录是欺诈交易的概率；

步骤2-5，重复步骤2-4，实现实时的在线网络支付交易欺诈检测。

本发明的主要内容是针对互联网金融领域的网络支付欺诈检测实现。通过一种定制化特征构造树的自动化特征工程方法实现特征生成的自动化，构造出来的特征作为欺诈检测模型的输入，进而训练和应用欺诈检测模型，实现网络支付的异常检测。

有益效果

本发明旨在在互联网金融在线网络支付方面，克服传统人工手动特征构造方法的低效率问题，减少网络支付欺诈模型构建的时间成本，提高生成特征的质量从而提升欺诈检测模型的性能，为风险防控工作带来便捷。同时这也为互联网金融信息化时代网络支付安全领域的自动化特征工程工作上提供了新的思路和解决方法。

附图说明

图1特征构造树算法

图2纵向方式的转换函数的作用域

图3横向方式的转换函数的作用域

图4时间窗口方式的转换函数的作用域

图5特征构造树结构

图6特征构造树单个节点处构造特征流程图

图7转换函数权重向量更新机制流程图

图8训练样本集合

图9基于定制化特征构造树的自动化特征工程方法的网络支付欺诈检测流程图。

图10实施例系统输出结果图

具体实施方式

一种基于自动化特征工程的网络支付欺诈检测方法，如图6所示。整个方案分为两个部分：

第一个部分是自动化特征构造算法部分。在在线网络支付原始特征的基础上，利用定制化特征构造树的自动化特征工程方法，获得所有新特征的构造过程集合；

第二个部分是模型训练与欺诈检测部分。对于训练数据集，根据新特征向量的构造过程集合，构造出新特征，将所有特征和标签输入到机器学习模型进行训练，得到欺诈检测模型；对于实时测试数据集，同样根据新特征的构造过程集合，构造出新特征，将所有特征输入进欺诈检测模型进行欺诈预测。

第一个部分：

1.1面向网络支付欺诈检测，搜集互联网金融网络支付交易记录，从中筛选出原始字段，见表1网络支付交易记录可利用的原始字段。

表1可利用原始字段

获得原始数据样本集合D，D＝{X,Y}。其中

X＝{x₁,x₂,…x_n}，其中x_i对应的是第i条交易记录的各个字段，即一条特征向量，X代表所有交易记录的特征向量集合；Y＝{y₁,y₂,…y_n}，其中y_i对应的是第i条交易记录是否是欺诈，其取值y_i＝{0,1}，0为正常，1为异常，

Y代表所有交易记录标签的集合。

X、Y两者共同组成了整个数据集D，数据集中交易记录样本的总数为n。进入1.2进行特征构造。

1.2定制化特征构造树的自动化特征工程方法

如图1所示。定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合D的基础上构造新特征，还存在转换函数的组合，即在构造出来的新特征的基础上继续构造特征。这里特征构造树保留了父节点上构造出的用来划分数据集的特征，与原始特征组成新的、扩充的特征空间，在此扩充的特征空间上再进行特征构造并选择划分数据集的特征。这种局部特征构造流程增加了转换函数的组合功能，扩充了特征空间的搜寻范围。定制化特征构造树中对转换函数权重向量的时效性进行更新。

所述转换函数：针对互联网金融在线网络支付特点，本发明设计了特有的转换函数，转换函数及其具体设置操作方法如表2所示，按照其工作域划分为纵向方式的转换函数、横向方式的转换函数和时间窗口方式的转换函数：

表2转换函数设置操作表

所述纵向方式的转换函数，是作用在单个特征或特征属性之间的转换函数，作用于单个列特征进行计算频率、求平方、开方、sigmod和tanh操作而生成新一列特征，作用在两个列特征之间作加法、减法、乘法操作而生成新一列特征。如图2所示，其是对单个列特征或多个列特征之间进行操作的转换函数。

所述横向方式的转换函数，是作用在同一个特征的多个不同样本间的转换函数，对某个特征作个体累积和群体累积的加法，对时间和交易金额特征作不同交易记录样本的差。如图3所示，其是对多个样本之间在同一个列特征上进行操作的转换函数。

所述时间窗口方式的转换函数，是利用了滑动时间窗口的概念，这对于分析在一段时间内的交易行为特征具有重要的作用，具体地有下列转换函数：时间窗口内的累积求和、求极值、均值、方差、计数、非重计数和最频繁。如图4所示，其是对时间窗口内的多个样本之间在同一个列特征上进行操作的转换函数。

上述转换函数是一类映射函数的集合，是一些代数运算操作，或是一些在给定特征上的集成操作等，通过转换函数操作从而把输入的特征从原始空间映射到一个全新的特征空间当中去，或改变原始特征的分布状况，或改变原始特征的取值覆盖范围等。

令O表示转换函数的集合，W＝{w₁,w₂,…,w_k}表示转换函数的权重向量，其中w_i(1≤i≤k)代表第i个转换函数的权重，即各个转换函数被选中的概率，转换函数的总个数为k。

所述特征构造树，如图5所示的每个节点处的局部特征构造。

F_o表示数据集中的原始字段的特征集合；

F_a表示当前节点上包含新特征的特征总集合，其既包括原始的特征又包括能够通过转换函数新构造出来的并用来划分数据集的特征；

F_s表示树中节点处被选择用来划分数据集的新特征及其构造过程的集合。

表3为各特征集合的示例。

表3各特征集合介绍示例

所述节点处局部特征构造流程，如图6所示。

步骤1.2.1，初始化转换函数集合O中的转换函数的权值向量W，其中每个 w_i＝1/|W|；初始化每个转换函数o的最近平均信息增益效用列表l_o，列表的长度设为m，其中的每个值的初始值为0，初始化

(

表示空集)；提供给步骤1.2.2；

步骤1.2.2，在决策树的某个节点上，根据转换函数的权值向量W，其中的某转换函数的权重值越大，其被选中的概率越大，先依概率选中一个转换函数。若其为一元转换函数，则在此节点对应的数据集上，从数据集中所有的s个特征中选择出r个不同的特征，其中r≤s，并且s＝|F_a|，即特征集合F_a的大小。在这r个特征上应用此转换函数，构造出r个新特征；若其为二元转换函数，则在此节点对应的数据集上，从数据集中所有的s个特征中选择出r组不同的特征对，

在这r组特征对上应用此转换函数，构造出r个新特征；提供给步骤1.2.3；

步骤1.2.3，对新构造出来的r个特征和节点中原来的特征F_a，分别计算用每个特征作为划分属性的信息增益g_f(或者是数据集划分后的GINI指数)，选择信息增益最大(若是GINI指数则选择GINI指数最小)的特征

作为划分属性，根据特征

的具体划分值将数据集划分成左右两部分，并分裂成左右两部分子树，将样本中特征

的取值小于具体划分值的样本归并到左子树中，相对地，另外一部分归并到右子树中，它们分别对应左儿子和右儿子节点。若特征

为新构造出来的特征，则将特征

添加到新构造出来的特征集合F_a当中去，即

且将特征

及其构造过程并入集合F_s中去；

步骤1.2.4，按照转换函数权重向量的时效性更新机制更新转换函数的权重值；

步骤1.2.5，分别进入左儿子和右儿子节点，判断节点中子数据集样本数是否低于设定的最小阈值T，或子数据集样本的纯度是否高于设定的阈值G；若是，则到达叶子节点，结束流程，若不是，则重复步骤1.2.2～1.2.4，直至到达叶子节点。当树构造完毕，则进入步骤1.2.6；

步骤1.2.6，整棵树构造完毕后，最终得到特征集合Fs中的特征即为由特征构造树构造出来的新特征及其构造过程，提供给第二部分。

所述步骤1.2.4转换函数权重向量的时效性更新机制，其流程步骤图如图7所示，其具体步骤如下：

步骤1.2.4.1，若当前节点选择出的转换函数为o，则根据其构造出所有r个新特征，分别将其作为数据集的划分属性，按照以下公式计算得到的平均信息增益g_o，

其中，

代表使用由转换函数o构造出的第i个新特征f_i作为划分属性得到的信息增益。

步骤1.2.4.2，根据步骤1.2.4.1得到的平均信息增益g_o，更新当前转换函数的最近平均信息增益效用列表。

代表转换函数o的最近m次被选中的平均信息增益效用的列表，m是列表l_o的长度，

代表使用t时刻选择的转换函数o生成的所有新特征，作为划分属性得到的平均信息增益效用值。利用g_o来更新当前转换函数o的最近平均信息增益效用列表l_o，将此平均信息增益g_o添加到列表l_o的末尾，删除列表l_o头的第一个值，即：

t时刻：

t+1时刻：

其中

步骤1.2.4.3，根据当前转换函数o的最近平均信息增益效用列表l_o和平均信息增益g_o，计算出当前转换函数o的奖励值β，其中，

表示列表l_o中的中值，

表示列表l_o中的最大值，公式(2)限定了β∈[0,1]：

步骤1.2.4.4，根据当前转换函数o的奖励值β，按照公式(3)更新转换函数的权值向量，再按照公式(4)进行转换函数权值向量的归一化：

其中，w_o表示转换函数o的权值，公式(3)中w_o随着奖励值β的增加单调增加，也就是说奖励值越高，转换函数的权重增加的幅度便会越大，α控制着权重更新的速率；公式(4)中w_i表示第i个转换函数的权值，

表示所有转换函数的权值总和。

第二部分

利用生成的特征进行网络支付欺诈检测模型训练与实时欺诈检测

分类器环境：

Python，scikit-learn，RandomForest(或XGBoost)模型

输入：

利用定制化特征构造树的自动化特征工程方法生成网络支付交易记录的特征向量；

输出：

当笔网络支付交易存在欺诈的可能性概率

训练网络支付欺诈检测分类器和实施实时检测的步骤如下：

步骤2-3，将训练集的所有交易记录数据的新特征、原始特征和标签(训练样本集合如图8所示)输入进RandomForest(或XGBoost)分类器模型进行训练，得到欺诈检测模型；

实施例

得益于当前互联网金融产生的丰富交易信息数据，我们可以对此进行分析、处理、利用，以此作为基础，借助特征工程方法生成各种特征用来建模，设计反欺诈检测系统，保护用户和企业的安全。

本发明通过在真实互联网金融银行的B2C(商户对用户)在线网络支付交易数据集上进行检验，这份数据包含了从2017年04月01日到2017年06月30日的三个月的交易记录数据，其正负样本分布如表4所示。

表4各特征集合介绍示例

本发明利用定制化特征构造树的自动化特征工程方法进行特征生成，并使用RandomForest(或XGBoost)模型进行欺诈检测，如图10所示的系统结果输出，得出在打扰率(误拦截率，False Positive Rate)小于1％，0.5％，0.1％和0.05％时的召回率(拦截率,True Positive Rate)，并由此验证所构造出的特征的性能在此指标上可以取得2％-5％的提升。同时此欺诈检测模型在此指标上和计算时间上都优于先前的研究。

本项目的创新点

1.在互联网金融在线网络支付方面，利用自动化特征工程的方法，克服传统人工手动特征构造方法的低效率问题，减少网络支付欺诈模型构建的时间成本，提高生成特征的质量；

2.在自动化特征工程方法上，针对互联网金融在线网络支付领域，设计了定制化的特征构造树算法，设计了定制化的转换函数；

3.在定制化的特征构造树算法上，增加转换函数的组合功能，扩充特征空间的搜寻范围。保留了父节点构造出的用来划分数据节点的派生特征，结合原始特征，在扩充的特征空间上再进行特征构造并选择划分特征，由此可以增加复杂特征的生成；

4.在定制化的特征构造树算法上，考虑转换函数权重向量的时效性更新机制。每个转换函数维护一个最近平均信息增益效用列表，根据最近的性能表现更新对应的权重向量，增强时效性。

批注：本发明中的有关术语以及对于先前的主要技术可参见如下资料。

[1]Erik Cuevas,Daniel Zaldivar,and Marco A.P′erez Cisneros.Seekingmulti-thresholds for image segmentation with learning automata.CoRR, abs/1405.7361,2014.

[2]Fan W,Zhong E,Peng J,et al.Generalized and Heuristic-Free FeatureConstruction for Improved Accuracy.Proc SIAM Int Conf Data Min,2010.

[3]Maheshwary S,Kaul A,Pudi V.Data Driven Feature Learning.International Conference on Machine Learning(ICML),2017.

[4]Kaul A,Maheshwary S,Pudi V.AutoLearn-Automated Feature Generationand Selection.IEEE International Conference on Data Mining (ICDM),2017.

[5]Khurana U,Turaga D,Samulowitz H,et al.Cognito:Automated FeatureEngineering for Supervised Learning.IEEE ICDMW,2016.

[6]Kanter J M,Veeramachaneni K.Deep feature synthesis:Towardsautomating data science endeavors.IEEE DSAA,2015.

[7]Nargesian F,Samulowitz H,Khurana U,Khalil E.B and Turaga D.Learning feature engineering for classification.In Proceedings of the Twenty-sixth International Joint Conference on Artificial Intelligence, 2529–2535。