CN111275447B

CN111275447B - 基于自动化特征工程的在线网络支付欺诈检测系统

Info

Publication number: CN111275447B
Application number: CN202010055739.8A
Authority: CN
Inventors: 王成; 王昌琪
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2020-01-17
Filing date: 2020-01-17
Publication date: 2023-08-29
Anticipated expiration: 2040-01-17
Also published as: CN111275447A

Abstract

一种基于自动化特征工程的在线网络支付欺诈检测系统。用户与商户之间通过各自的PC或者移动端在网络上发生的实时交易数据记录由银行数据中心负责接收汇总；银行数据中心通过二次处理筛选出所需特征字段，将这些原始特征提供给自动化特征工程模块；自动化特征工程模块在在线网络支付原始特征的基础上，进行特征构造获得所有新特征的构造过程集合，提供给欺诈检测模块进行异常鉴定；欺诈检测模块，根据新特征向量的构造过程集合，构造出新特征，将所有特征和标签输入到机器学习模型进行判别，对正常交易进行放行，对异常交易的用户提出二次身份认证。后续二次认证成功则重新允许用户再次进行交易，否则锁定用户账号，拒绝其进行任何交易。

Description

基于自动化特征工程的在线网络支付欺诈检测系统

技术领域

本发明所属互联网金融技术领域。

背景技术

随着移动互联网的兴起，各种传统的业务逐渐转至线上，互联网金融，电子商务迅速发展，网络在线支付的产生将带来大量的电子交易数据，同时伴随着在线支付欺诈交易数量的大量增加。攻击者通过窃取用户账户，盗取个人隐私信息，甚至恶意攻击服务器等方式来完成欺诈。为保障用户和公司业务安全，需要建立切实有效的网络支付欺诈系统。

在互联网金融领域，风控工作至关重要，而在网络支付反欺诈模型的开发过程中，特征工程是最重要的步骤。特征工程是从原始数据中提取特征以供算法和模型使用。目前互联网金融领域的特征工程通常需要风控数据专家进行人工分析、设计和清洗生成特征变量，这种方法费时费力，而且受限于人工经验也常会遗漏有效特征。人工生成特征会带来大量的人工成本和时间成本问题，影响模型应用系统的运行效果和运营的效率。如果这些工作可以集中到一起由机器自动完成，相比传统模式，收到的效果会大大提高，而且可以极大的降低整体系统乃至行业的风控成本。

发明内容

如何在网络支付的场景下，应用自动机器学习的方法来生成特征变量，有效利用和复用知识，减少人工和时间成本，自动化生成高效能、全方面的特征，提升欺诈检测系统的性能，是本发明需要完成的发明任务。

为此，本发明公开一种基于自动化特征工程的在线网络支付欺诈检测系统，实施对互联网金融领域的在线网络支付欺诈检测，利用定制化特征构造树的自动化特征构造方法进行了实践探索以提高特征构造的效率，减少人工成本，提升欺诈检测系统的性能，为金融行业风险防控工作带来便捷。

技术方案

本发明的主要内容是针对互联网金融领域的网络支付欺诈检测系统实现。通过一种定制化特征构造树的自动化特征工程方法实现特征生成的自动化，构造出来的特征作为欺诈检测模型的输入，进而训练和应用欺诈检测模型，实现系统实时对网络支付欺诈的异常行为检测和预警，做到防范金融风险。

一种基于自动化特征工程的在线网络支付欺诈检测系统，其特征在于，包括个人客户端、商户端、银行数据中心，还包括自动化特征工程模块、欺诈检测模块；

用户与商户之间通过各自的PC或者移动端在网络上发生的实时交易数据记录由银行数据中心负责接收汇总；银行数据中心通过二次处理筛选出所需特征字段，将这些原始特征提供给自动化特征工程模块；

自动化特征工程模块在在线网络支付原始特征的基础上，进行特征构造获得所有新特征的构造过程集合，提供给欺诈检测模块进行异常鉴定；

欺诈检测模块，对于自动化特征工程模块输出的训练数据集，根据新特征向量的构造过程集合，构造出新特征，将所有特征和标签输入到机器学习模型进行训练，得到欺诈检测模型；对于同样由自动化特征工程模块输出的实时测试数据集，也根据新特征的构造过程集合，构造出新特征，将所有特征输入进欺诈检测模型进行欺诈预测。欺诈检测模块结合判别结果，对正常交易进行放行，对异常交易的用户提出二次身份认证。后续二次认证成功则重新允许用户再次进行交易，否则锁定用户账号，拒绝其进行任何交易。

有益效果

本发明旨在在互联网金融在线网络支付方面，克服传统人工手动特征构造方法的低效率问题，减少网络支付欺诈模型构建的时间成本，提高生成特征的质量从而提升欺诈检测模型系统的性能，为风险防控工作带来便捷。同时这也为互联网金融信息化时代网络支付安全领域的自动化特征工程工作上提供了新的思路和解决方法。

附图说明

图1特征构造树算法

图2纵向方式的转换函数的作用域

图3横向方式的转换函数的作用域

图4时间窗口方式的转换函数的作用域

图5特征构造树结构

图6特征构造树单个节点处构造特征流程图

图7转换函数权重向量更新机制流程图

图8训练样本集合

图9基于定制化特征构造树的自动化特征工程方法的网络支付欺诈检测流程图。

图10实施例系统输出结果图

图11实施例应用系统关系图

具体实施方式

以下通过实施例和附图对本发明技术方案做进一步说明。

实施例

如图11所示，本实施例设计实现了在银行B2C在线支付场景下进行反欺诈检测的系统，其特征在于，包括个人客户端、商户端、银行数据中心，还包括自动化特征工程模块、欺诈检测模块；

第一部分

第二部分

第三部分

以下详述之

第一个部分：

银行数据中心搜集互联网金融网络支付交易记录，从中通过二次处理即筛选出原始字段，见表1网络支付交易记录可利用的原始字段。

表1 可利用原始字段

第二个部分：

包括数据集、定制化特征构造树的自动化特征工程模块。

1.1构建整个数据集D

利用银行数据中心筛选出的原始字段制作原始数据样本集合D，D＝{X,Y}。

其中

X＝{x₁,x₂,…x_n}，其中x_i对应的是第i条交易记录的各个字段，即一条特征向量，X代表所有交易记录的特征向量集合；Y＝{y₁,y₂,…y_n}，其中y_i对应的是第i条交易记录是否是欺诈，其取值y_i＝{0,1}，0为正常，1为异常，

Y代表所有交易记录标签的集合。

X、Y两者共同组成了整个数据集D，数据集中交易记录样本的总数为n。进入1.2进行特征构造。

1.2定制化特征构造树的自动化特征工程模块，包括局部特征构造模块。

如图1所示。定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合D的基础上构造新特征，还存在转换函数的组合，即在构造出来的新特征的基础上继续构造特征。这里特征构造树保留了父节点上构造出的用来划分数据集的特征，与原始特征组成新的、扩充的特征空间，在此扩充的特征空间上再进行特征构造并选择划分数据集的特征。局部特征构造模块，设计的局部特征构造流程增加了转换函数的组合功能，扩充了特征空间的搜寻范围。定制化特征构造树中对转换函数权重向量的时效性进行更新。

所述转换函数：针对互联网金融在线网络支付特点，本发明设计了特有的转换函数，转换函数及其具体设置操作方法如表2所示，按照其工作域划分为纵向方式的转换函数、横向方式的转换函数和时间窗口方式的转换函数：

表2 转换函数设置操作表

所述纵向方式的转换函数，是作用在单个特征或特征属性之间的转换函数，作用于单个列特征进行计算频率、求平方、开方、sigmod和tanh操作而生成新一列特征，作用在两个列特征之间作加法、减法、乘法操作而生成新一列特征。如图2所示，其是对单个列特征或多个列特征之间进行操作的转换函数。

所述横向方式的转换函数，是作用在同一个特征的多个不同样本间的转换函数，对某个特征作个体累积和群体累积的加法，对时间和交易金额特征作不同交易记录样本的差。如图3所示，其是对多个样本之间在同一个列特征上进行操作的转换函数。

所述时间窗口方式的转换函数，是利用了滑动时间窗口的概念，这对于分析在一段时间内的交易行为特征具有重要的作用，具体地有下列转换函数：时间窗口内的累积求和、求极值、均值、方差、计数、非重计数和最频繁。如图4所示，其是对时间窗口内的多个样本之间在同一个列特征上进行操作的转换函数。

上述转换函数是一类映射函数的集合，是一些代数运算操作，或是一些在给定特征上的集成操作等，通过转换函数操作从而把输入的特征从原始空间映射到一个全新的特征空间当中去，或改变原始特征的分布状况，或改变原始特征的取值覆盖范围等。

令O表示转换函数的集合，W＝{w₁,w₂,…,w_k}表示转换函数的权重向量，其中w_i(1≤i≤k)代表第i个转换函数的权重，即各个转换函数被选中的概率，转换函数的总个数为k。

所述特征构造树，如图5所示的每个节点处的局部特征构造。

F_o表示数据集中的原始字段的特征集合；

F_a表示当前节点上包含新特征的特征总集合，其既包括原始的特征又包括能够通过转换函数新构造出来的并用来划分数据集的特征；

F_s表示树中节点处被选择用来划分数据集的新特征及其构造过程的集合。

表3为各特征集合的示例。

表3 各特征集合介绍示例

所述局部特征构造模块，其节点处的局部特征构造流程，如图6所示。

步骤1.2.1，初始化转换函数集合O中的转换函数的权值向量W，其中每个w_i＝1/|W|；初始化每个转换函数o的最近平均信息增益效用列表l_o，列表的长度设为m，其中的每个值的初始值为0，初始化F_a＝F_o,(/>表示空集)；提供给步骤1.2.2；

步骤1.2.2，在决策树的某个节点上，根据转换函数的权值向量W，其中的某转换函数的权重值越大，其被选中的概率越大，先依概率选中一个转换函数。若其为一元转换函数，则在此节点对应的数据集上，从数据集中所有的s个特征中选择出r个不同的特征，其中r≤s，并且s＝|F_a|，即特征集合F_a的大小。在这r个特征上应用此转换函数，构造出r个新特征；若其为二元转换函数，则在此节点对应的数据集上，从数据集中所有的s个特征中选择出r组不同的特征对，在这r组特征对上应用此转换函数，构造出r个新特征；提供给步骤1.2.3；

步骤1.2.3，对新构造出来的r个特征和节点中原来的特征F_a，分别计算用每个特征作为划分属性的信息增益g_f(或者是数据集划分后的GINI指数)，选择信息增益最大(若是GINI指数则选择GINI指数最小)的特征作为划分属性，根据特征/>的具体划分值将数据集划分成左右两部分，并分裂成左右两部分子树，将样本中特征/>的取值小于具体划分值的样本归并到左子树中，相对地，另外一部分归并到右子树中，它们分别对应左儿子和右儿子节点。若特征/>为新构造出来的特征，则将特征/>添加到新构造出来的特征集合F_a当中去，即/> 且将特征/>及其构造过程并入集合F_s中去；

步骤1.2.4，按照转换函数权重向量的时效性更新机制更新转换函数的权重值；

步骤1.2.5，分别进入左儿子和右儿子节点，判断节点中子数据集样本数是否低于设定的最小阈值T，或子数据集样本的纯度是否高于设定的阈值G；若是，则到达叶子节点，结束流程，若不是，则重复步骤1.2.2～1.2.4，直至到达叶子节点。当树构造完毕，则进入步骤1.2.6；

步骤1.2.6，整棵树构造完毕后，最终得到特征集合F_s中的特征即为由特征构造树构造出来的新特征及其构造过程，提供给第二部分。

所述步骤1.2.4转换函数权重向量的时效性更新机制，其流程步骤图如图7所示，其具体步骤如下：

步骤1.2.4.1，若当前节点选择出的转换函数为o，则根据其构造出所有r个新特征，分别将其作为数据集的划分属性，按照以下公式计算得到的平均信息增益g_o，

其中，代表使用由转换函数o构造出的第i个新特征f_i作为划分属性得到的信息增益。

步骤1.2.4.2，根据步骤1.2.4.1得到的平均信息增益g_o，更新当前转换函数的最近平均信息增益效用列表。代表转换函数o的最近m次被选中的平均信息增益效用的列表，m是列表l_o的长度，/>代表使用t时刻选择的转换函数o生成的所有新特征，作为划分属性得到的平均信息增益效用值。利用g_o来更新当前转换函数o的最近平均信息增益效用列表l_o，将此平均信息增益g_o添加到列表l_o的末尾，删除列表l_o头的第一个值，即：

t时刻：

t+1时刻：

其中

步骤1.2.4.3，根据当前转换函数o的最近平均信息增益效用列表l_o和平均信息增益g_o，计算出当前转换函数o的奖励值β，其中，表示列表l_o中的中值，/>表示列表l_o中的最大值，公式(2)限定了β∈[0,1]：

步骤1.2.4.4，根据当前转换函数o的奖励值β，按照公式(3)更新转换函数的权值向量，再按照公式(4)进行转换函数权值向量的归一化：

其中，w_o表示转换函数o的权值，公式(3)中w_o随着奖励值β的增加单调增加，也就是说奖励值越高，转换函数的权重增加的幅度便会越大，α控制着权重更新的速率；公式(4)中w_i表示第i个转换函数的权值，表示所有转换函数的权值总和。

第三部分

欺诈检测模块包括训练网络支付欺诈检测分类器模型和实时检测算法模块，

所述分类器模型，本实施例的环境设置为Python语言，scikit-learn，RandomForest(或XGBoost)模型；

所述实时检测算法模块，向分类器模型输入定制化特征构造树的自动化特征工程模块生成网络支付交易记录的特征向量，输出当笔网络支付交易存在欺诈的可能性概率，通过概率得到判别结果，即交易是否正常；将所有特征输入进欺诈检测模型进行欺诈预测。

欺诈检测模块结合判别结果，对正常交易进行放行，对异常交易的用户提出二次身份认证。后续二次认证成功则重新允许用户再次进行交易，否则锁定用户账号，拒绝其进行任何交易。

所述实时检测算法模块，过程为：

步骤2-1，在网络支付交易记录的训练数据集上应用步骤1所示的自动化特征工程方法，由步骤1.2.6中返回获得所有新特征的构造过程集合；

步骤2-2，利用获得的新特征的构造过程集合，对训练数据集中的所有网络支付交易记录进行特征构造，为每一条交易记录都生成新特征向量；

步骤2-3，将训练集的所有交易记录数据的新特征、原始特征和标签(训练样本集合如图8所示)输入进RandomForest(或XGBoost)分类器模型进行训练，得到欺诈检测模型；

步骤2-4，对新来一条的网络支付交易记录数据，利用步骤2-1中获得的新特征的构造过程集合，先进行特征构造，生成新特征，将原始特征和新特征输入进欺诈检测模型，输出该条交易记录是欺诈交易的概率；

步骤2-5，重复步骤2-4，实现实时的在线网络支付交易欺诈检测。

实施例效果验证

得益于当前互联网金融产生的丰富交易信息数据，我们可以对此进行分析、处理、利用，以此作为基础，借助特征工程方法生成各种特征用来建模，设计反欺诈检测系统，保护用户和企业的安全。

本发明通过在互联网金融银行的B2C(商户对用户)在线网络支付交易数据集上进行检验，这份数据包含了从2017年04月01日到2017年06月30日的三个月的交易记录数据，其正负样本分布如表4所示。

表4 各特征集合介绍示例

本发明系统利用定制化特征构造树的自动化特征工程方法进行特征生成，并使用RandomForest(或XGBoost)模型进行欺诈检测，如图10所示的实施例结果输出，得出在打扰率(误拦截率，False Positive Rate)小于1％，0.5％，0.1％和0.05％时的召回率(拦截率,True Positive Rate)，并由此验证所构造出的特征的性能在此指标上可以取得2％-5％的提升。同时此欺诈检测模型在此指标上和计算时间上都优于先前的研究。

批注：本发明中的有关术语以及对于先前的主要技术可参见如下资料。

[1]Erik Cuevas,Daniel Zaldivar,and Marco A.P′erez Cisneros.Seekingmulti-thresholds for image segmentation with learning automata.CoRR,abs/1405.7361,2014.

[2]Fan W,Zhong E,Peng J,et al.Generalized and Heuristic-Free FeatureConstruction for Improved Accuracy.Proc SIAM Int Conf Data Min,2010.

[3]Maheshwary S,Kaul A,Pudi V.Data Driven FeatureLearning.International Conference on Machine Learning(ICML),2017.

[4]Kaul A,Maheshwary S,Pudi V.AutoLearn-Automated Feature Generationand Selection.IEEE International Conference on Data Mining(ICDM),2017.

[5]Khurana U,Turaga D,Samulowitz H,et al.Cognito:Automated FeatureEngineering for Supervised Learning.IEEE ICDMW,2016.

[6]Kanter J M,Veeramachaneni K.Deep feature synthesis:Towardsautomating data science endeavors.IEEE DSAA,2015.

[7]Nargesian F,Samulowitz H,Khurana U,Khalil E.B and TuragaD.Learning feature engineering for classification.In Proceedings of theTwenty-sixth International Joint Conference on Artificial Intelligence,2529–2535.

Claims

1.一种基于自动化特征工程的在线网络支付欺诈检测系统，其特征在于，包括个人客户端、商户端、银行数据中心，还包括自动化特征工程模块、欺诈检测模块；

欺诈检测模块，对于自动化特征工程模块输出的训练数据集，根据新特征向量的构造过程集合，构造出新特征，将所有特征和标签输入到机器学习模型进行训练，得到欺诈检测模型；对于同样由自动化特征工程模块输出的实时测试数据集，也根据新特征的构造过程集合，构造出新特征，将所有特征输入进欺诈检测模型进行欺诈预测；欺诈检测模块结合判别结果，对正常交易进行放行，对异常交易的用户提出二次身份认证；后续二次认证成功则重新允许用户再次进行交易，否则锁定用户账号，拒绝其进行任何交易；

第一部分：

银行数据中心搜集互联网金融网络支付交易记录，从中通过二次处理即筛选出原始字段，见表1网络支付交易记录可利用的原始字段；

表1可利用原始字段

第二个部分：包括数据集、定制化特征构造树的自动化特征工程模块；

1.1构建整个数据集D

利用银行数据中心筛选出的原始字段制作原始数据样本集合D，D＝{X,Y}，其中

Y代表所有交易记录标签的集合；

X、Y两者共同组成了整个数据集D，数据集中交易记录样本的总数为n；进入1.2进行特征构造；

1.2定制化特征构造树的自动化特征工程模块，包括局部特征构造模块；

定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合D的基础上构造新特征，还存在转换函数的组合，即在构造出来的新特征的基础上继续构造特征；这里特征构造树保留了父节点上构造出的用来划分数据集的特征，与原始特征组成新的、扩充的特征空间，在此扩充的特征空间上再进行特征构造并选择划分数据集的特征；局部特征构造模块，设计的局部特征构造流程增加了转换函数的组合功能，扩充了特征空间的搜寻范围；定制化特征构造树中对转换函数权重向量的时效性进行更新；

所述转换函数：转换函数及其具体设置操作方法如表2所示，按照其工作域划分为纵向方式的转换函数、横向方式的转换函数和时间窗口方式的转换函数：

表2转换函数设置操作表

所述纵向方式的转换函数，是作用在单个特征或特征属性之间的转换函数，作用于单个列特征进行计算频率、求平方、开方、sigmod和tanh操作而生成新一列特征，作用在两个列特征之间作加法、减法、乘法操作而生成新一列特征；

所述横向方式的转换函数，是作用在同一个特征的多个不同样本间的转换函数，对某个特征作个体累积和群体累积的加法，对时间和交易金额特征作不同交易记录样本的差；

所述时间窗口方式的转换函数，是利用了滑动时间窗口的概念，这对于分析在一段时间内的交易行为特征具有重要的作用，具体地有下列转换函数：时间窗口内的累积求和、求极值、均值、方差、计数、非重计数和最频繁；

令O表示转换函数的集合，W＝{w₁,w₂,…,w_k}表示转换函数的权重向量，其中w_i代表第i个转换函数的权重，1≤i≤k，即各个转换函数被选中的概率，转换函数的总个数为k；

每个节点处的局部特征构造：

F_o表示数据集中的原始字段的特征集合；

F_s表示树中节点处被选择用来划分数据集的新特征及其构造过程的集合；

所述局部特征构造模块，其节点处的局部特征构造流程：

步骤1.2.1，初始化转换函数集合O中的转换函数的权值向量W，其中每个w_i＝1/|W|；初始化每个转换函数o的最近平均信息增益效用列表l_o，列表的长度设为m，其中的每个值的初始值为0，初始化F_a＝F_o, 表示空集；提供给步骤1.2.2；

步骤1.2.2，在决策树的某个节点上，根据转换函数的权值向量W，其中的某转换函数的权重值越大，其被选中的概率越大，先依概率选中一个转换函数；若其为一元转换函数，则在此节点对应的数据集上，从数据集中所有的s个特征中选择出r个不同的特征，其中r≤s，并且s＝|F_a|，即特征集合F_a的大小；在这r个特征上应用此转换函数，构造出r个新特征；若其为二元转换函数，则在此节点对应的数据集上，从数据集中所有的s个特征中选择出r组不同的特征对，在这r组特征对上应用此转换函数，构造出r个新特征；提供给步骤1.2.3；

步骤1.2.3，对新构造出来的r个特征和节点中原来的特征F_a，分别计算用每个特征作为划分属性的信息增益g_f，选择信息增益最大的特征作为划分属性，根据特征/>的具体划分值将数据集划分成左右两部分，并分裂成左右两部分子树，将样本中特征/>的取值小于具体划分值的样本归并到左子树中，相对地，另外一部分归并到右子树中，它们分别对应左儿子和右儿子节点；若特征/>为新构造出来的特征，则将特征/>添加到新构造出来的特征集合F_a当中去，即/>且将特征/>及其构造过程并入集合F_s中去；

步骤1.2.5，分别进入左儿子和右儿子节点，判断节点中子数据集样本数是否低于设定的最小阈值T，或子数据集样本的纯度是否高于设定的阈值G；若是，则到达叶子节点，结束流程，若不是，则重复步骤1.2.2～1.2.4，直至到达叶子节点；当树构造完毕，则进入步骤1.2.6；

步骤1.2.6，整棵树构造完毕后，最终得到特征集合F_s中的特征即为由特征构造树构造出来的新特征及其构造过程，提供给第二部分；

所述步骤1.2.4转换函数权重向量的时效性更新机制，其具体步骤如下：

其中，代表使用由转换函数o构造出的第i个新特征f_i作为划分属性得到的信息增益；

步骤1.2.4.2，根据步骤1.2.4.1得到的平均信息增益g_o，更新当前转换函数的最近平均信息增益效用列表；代表转换函数o的最近m次被选中的平均信息增益效用的列表，m是列表l_o的长度，/>代表使用t时刻选择的转换函数o生成的所有新特征，作为划分属性得到的平均信息增益效用值；利用g_o来更新当前转换函数o的最近平均信息增益效用列表l_o，将此平均信息增益g_o添加到列表l_o的末尾，删除列表l_o头的第一个值，即：

t时刻：

t+1时刻：

其中

其中，w_o表示转换函数o的权值，公式(3)中w_o随着奖励值β的增加单调增加，也就是说奖励值越高，转换函数的权重增加的幅度便会越大，α控制着权重更新的速率；公式(4)中w_i表示第i个转换函数的权值，表示所有转换函数的权值总和；

第三部分

欺诈检测模块包括训练网络支付欺诈检测分类器模型和实时检测算法模块，所述实时检测算法模块，向分类器模型输入定制化特征构造树的自动化特征工程模块生成网络支付交易记录的特征向量，输出当笔网络支付交易存在欺诈的可能性概率，通过概率得到判别结果，即交易是否正常；将所有特征输入进欺诈检测模型进行欺诈预测；

欺诈检测模块结合判别结果，对正常交易进行放行，对异常交易的用户提出二次身份认证；后续二次认证成功则重新允许用户再次进行交易，否则锁定用户账号，拒绝其进行任何交易；

所述实时检测算法模块，过程为：

步骤2-3，将训练集的所有交易记录数据的新特征、原始特征和标签输入进分类器模型进行训练，得到欺诈检测模型；

2.如权利要求1所述的一种基于自动化特征工程的在线网络支付欺诈检测系统，其特征在于，所述分类器为RandomForest或XGBoost。