CN111178902A - 基于自动化特征工程的网络支付欺诈检测方法 - Google Patents

基于自动化特征工程的网络支付欺诈检测方法 Download PDF

Info

Publication number
CN111178902A
CN111178902A CN201911275482.0A CN201911275482A CN111178902A CN 111178902 A CN111178902 A CN 111178902A CN 201911275482 A CN201911275482 A CN 201911275482A CN 111178902 A CN111178902 A CN 111178902A
Authority
CN
China
Prior art keywords
feature
features
conversion function
new
fraud detection
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911275482.0A
Other languages
English (en)
Other versions
CN111178902B (zh
Inventor
王成
王昌琪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tongji University
Original Assignee
Tongji University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tongji University filed Critical Tongji University
Priority to CN201911275482.0A priority Critical patent/CN111178902B/zh
Publication of CN111178902A publication Critical patent/CN111178902A/zh
Application granted granted Critical
Publication of CN111178902B publication Critical patent/CN111178902B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/018Certifying business or products
    • G06Q30/0185Product, service or business identity fraud
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Accounting & Taxation (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及自动化特征工程技术和互联网金融网络支付的反欺诈检测。一种基于自动化特征工程的网络支付欺诈检测方法,分为两个部分,其特征在于:第一个部分是自动化特征构造部分,在在线网络支付原始特征的基础上,利用定制化特征构造树的自动化特征工程方法,获得所有新特征的构造过程集合;第二个部分是模型训练与欺诈检测部分,对于训练数据集,根据新特征向量的构造过程集合,构造出新特征,将所有特征和标签输入到机器学习模型进行训练,得到欺诈检测模型;对于实时测试数据集,同样根据新特征的构造过程集合,构造出新特征,将所有特征输入进欺诈检测模型进行欺诈预测。实现网络支付的异常检测。

Description

基于自动化特征工程的网络支付欺诈检测方法
技术领域
本发明涉及自动化特征工程技术和互联网金融网络支付的反欺诈检测。
背景技术
随着移动互联网的兴起,各种传统的业务逐渐转至线上,互联网金融,电子商务迅速发展,网络在线支付的产生将带来大量的电子交易数据,同时伴随着在线支付欺诈交易数量的大量增加。攻击者通过窃取用户账户,盗取个人隐私信息,甚至恶意攻击服务器等方式来完成欺诈。为保障用户和公司业务安全,需要建立切实有效的网络支付欺诈模型。
在互联网金融领域,风控工作至关重要,而在网络支付反欺诈模型的开发过程中,特征工程是最重要的步骤。特征工程是从原始数据中提取特征以供算法和模型使用。目前互联网金融领域的特征工程通常需要风控数据专家进行人工分析、设计和清洗生成特征变量,这种方法费时费力,而且受限于人工经验也常会遗漏有效特征。人工生成特征会带来大量的人工成本和时间成本问题,影响模型应用的效果和模型运营的效率。如果这些工作可以集中到一起由机器自动完成,相比传统模式,收到的效果会大大提高,而且可以极大的降低风控成本。
发明内容
如何在网络支付的场景下,应用自动机器学习的方法来生成特征变量,有效利用和复用知识,减少人工和时间成本,自动化生成高效能、全方面的特征,提升欺诈检测模型的性能,是本发明需要完成的发明任务。
为此,本发明公开一种基于自动化特征工程的网络支付欺诈检测方法。对互联网金融领域的在线网络支付欺诈检测,利用定制化特征构造树的自动化特征构造方法进行了实践探索以提高特征构造的效率,减少人工成本,提升欺诈检测模型的性能,为风险防控工作带来便捷。
技术方案
一种基于自动化特征工程的网络支付欺诈检测方法,分为两个部分,其特征在于:
第一个部分是自动化特征构造部分,在在线网络支付原始特征的基础上,利用定制化特征构造树的自动化特征工程方法,获得所有新特征的构造过程集合;
第二个部分是模型训练与欺诈检测部分,对于训练数据集,根据新特征向量的构造过程集合,构造出新特征,将所有特征和标签输入到机器学习模型进行训练,得到欺诈检测模型;对于实时测试数据集,同样根据新特征的构造过程集合,构造出新特征,将所有特征输入进欺诈检测模型进行欺诈预测。
进一步的技术方案,所述第一个部分:
1.1面向网络支付欺诈检测,搜集互联网金融网络支付交易记录,从中筛选出原始字段,见表1网络支付交易记录可利用的原始字段
表1可利用原始字段
Figure BDA0002315443890000021
获得原始数据样本集合D,D={X,Y},其中
X={x1,x2,…xn},其中xi对应的是第i条交易记录的各个字段,即一条特征向量,X代表所有交易记录的特征向量集合;Y={y1,y2,…yn},其中yi对应的是第i条交易记录是否是欺诈,其取值yi={0,1},0为正常,1为异常;
Y代表所有交易记录标签的集合;
X、Y两者共同组成了整个数据集D,数据集中交易记录样本的总数为n;进入1.2进行特征构造;
1.2定制化特征构造树的自动化特征工程方法
定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合D的基础上构造新特征,还存在转换函数的组合,即在构造出来的新特征的基础上继续构造特征;所述特征构造树保留了父节点上构造出的用来划分数据集的特征,与原始特征组成新的、扩充的特征空间,在此扩充的特征空间上再进行特征构造并选择划分数据集的特征;定制化特征构造树中对转换函数权重向量的时效性进行更新。
进一步的技术方案,所述第二部分利用生成的特征进行网络支付欺诈检测模型训练与实时欺诈检测,具体的,训练网络支付欺诈检测分类器和实施实时检测的步骤如下:
步骤2-1,在网络支付交易记录的训练数据集上应用步骤1所示的自动化特征工程方法,由步骤1.2.6中返回获得所有新特征的构造过程集合;
步骤2-2,利用获得的新特征的构造过程集合,对训练数据集中的所有网络支付交易记录进行特征构造,为每一条交易记录都生成新特征向量;
步骤2-3,将训练集的所有交易记录数据的新特征、原始特征和标签输入进分类器模型进行训练,得到欺诈检测模型;
步骤2-4,对新来一条的网络支付交易记录数据,利用步骤2-1中获得的新特征的构造过程集合,先进行特征构造,生成新特征,将原始特征和新特征输入进欺诈检测模型,输出该条交易记录是欺诈交易的概率;
步骤2-5,重复步骤2-4,实现实时的在线网络支付交易欺诈检测。
本发明的主要内容是针对互联网金融领域的网络支付欺诈检测实现。通过一种定制化特征构造树的自动化特征工程方法实现特征生成的自动化,构造出来的特征作为欺诈检测模型的输入,进而训练和应用欺诈检测模型,实现网络支付的异常检测。
有益效果
本发明旨在在互联网金融在线网络支付方面,克服传统人工手动特征构造方法的低效率问题,减少网络支付欺诈模型构建的时间成本,提高生成特征的质量从而提升欺诈检测模型的性能,为风险防控工作带来便捷。同时这也为互联网金融信息化时代网络支付安全领域的自动化特征工程工作上提供了新的思路和解决方法。
附图说明
图1特征构造树算法
图2纵向方式的转换函数的作用域
图3横向方式的转换函数的作用域
图4时间窗口方式的转换函数的作用域
图5特征构造树结构
图6特征构造树单个节点处构造特征流程图
图7转换函数权重向量更新机制流程图
图8训练样本集合
图9基于定制化特征构造树的自动化特征工程方法的网络支付欺诈检测流程图。
图10实施例系统输出结果图
具体实施方式
一种基于自动化特征工程的网络支付欺诈检测方法,如图6所示。整个方案分为两个部分:
第一个部分是自动化特征构造算法部分。在在线网络支付原始特征的基础上,利用定制化特征构造树的自动化特征工程方法,获得所有新特征的构造过程集合;
第二个部分是模型训练与欺诈检测部分。对于训练数据集,根据新特征向量的构造过程集合,构造出新特征,将所有特征和标签输入到机器学习模型进行训练,得到欺诈检测模型;对于实时测试数据集,同样根据新特征的构造过程集合,构造出新特征,将所有特征输入进欺诈检测模型进行欺诈预测。
第一个部分:
1.1面向网络支付欺诈检测,搜集互联网金融网络支付交易记录,从中筛选出原始字段,见表1网络支付交易记录可利用的原始字段。
表1可利用原始字段
Figure BDA0002315443890000041
Figure BDA0002315443890000051
获得原始数据样本集合D,D={X,Y}。其中
X={x1,x2,…xn},其中xi对应的是第i条交易记录的各个字段,即一条特征向量,X代表所有交易记录的特征向量集合;Y={y1,y2,…yn},其中yi对应的是第i条交易记录是否是欺诈,其取值yi={0,1},0为正常,1为异常,
Y代表所有交易记录标签的集合。
X、Y两者共同组成了整个数据集D,数据集中交易记录样本的总数为n。进入1.2进行特征构造。
1.2定制化特征构造树的自动化特征工程方法
如图1所示。定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合D的基础上构造新特征,还存在转换函数的组合,即在构造出来的新特征的基础上继续构造特征。这里特征构造树保留了父节点上构造出的用来划分数据集的特征,与原始特征组成新的、扩充的特征空间,在此扩充的特征空间上再进行特征构造并选择划分数据集的特征。这种局部特征构造流程增加了转换函数的组合功能,扩充了特征空间的搜寻范围。定制化特征构造树中对转换函数权重向量的时效性进行更新。
所述转换函数:针对互联网金融在线网络支付特点,本发明设计了特有的转换函数,转换函数及其具体设置操作方法如表2所示,按照其工作域划分为纵向方式的转换函数、横向方式的转换函数和时间窗口方式的转换函数:
表2转换函数设置操作表
Figure BDA0002315443890000052
Figure BDA0002315443890000061
所述纵向方式的转换函数,是作用在单个特征或特征属性之间的转换函数,作用于单个列特征进行计算频率、求平方、开方、sigmod和tanh操作而生成新一列特征,作用在两个列特征之间作加法、减法、乘法操作而生成新一列特征。如图2所示,其是对单个列特征或多个列特征之间进行操作的转换函数。
所述横向方式的转换函数,是作用在同一个特征的多个不同样本间的转换函数,对某个特征作个体累积和群体累积的加法,对时间和交易金额特征作不同交易记录样本的差。如图3所示,其是对多个样本之间在同一个列特征上进行操作的转换函数。
所述时间窗口方式的转换函数,是利用了滑动时间窗口的概念,这对于分析在一段时间内的交易行为特征具有重要的作用,具体地有下列转换函数:时间窗口内的累积求和、求极值、均值、方差、计数、非重计数和最频繁。如图4所示,其是对时间窗口内的多个样本之间在同一个列特征上进行操作的转换函数。
上述转换函数是一类映射函数的集合,是一些代数运算操作,或是一些在给定特征上的集成操作等,通过转换函数操作从而把输入的特征从原始空间映射到一个全新的特征空间当中去,或改变原始特征的分布状况,或改变原始特征的取值覆盖范围等。
令O表示转换函数的集合,W={w1,w2,…,wk}表示转换函数的权重向量,其中wi(1≤i≤k)代表第i个转换函数的权重,即各个转换函数被选中的概率,转换函数的总个数为k。
所述特征构造树,如图5所示的每个节点处的局部特征构造
Fo表示数据集中的原始字段的特征集合;
Fa表示当前节点上包含新特征的特征总集合,其既包括原始的特征又包括能够通过转换函数新构造出来的并用来划分数据集的特征;
Fs表示树中节点处被选择用来划分数据集的新特征及其构造过程的集合。
表3为各特征集合的示例。
表3各特征集合介绍示例
Figure BDA0002315443890000071
所述节点处局部特征构造流程,如图6所示。
步骤1.2.1,初始化转换函数集合O中的转换函数的权值向量W,其中每个 wi=1/|W|;初始化每个转换函数o的最近平均信息增益效用列表lo,列表的长度设为m,其中的每个值的初始值为0,初始化
Figure BDA0002315443890000072
(
Figure BDA0002315443890000073
表示空集);提供给步骤1.2.2;
步骤1.2.2,在决策树的某个节点上,根据转换函数的权值向量W,其中的某转换函数的权重值越大,其被选中的概率越大,先依概率选中一个转换函数。若其为一元转换函数,则在此节点对应的数据集上,从数据集中所有的s个特征中选择出r个不同的特征,其中r≤s,并且s=|Fa|,即特征集合Fa的大小。在这r个特征上应用此转换函数,构造出r个新特征;若其为二元转换函数,则在此节点对应的数据集上,从数据集中所有的s个特征中选择出r组不同的特征对,
Figure BDA0002315443890000074
在这r组特征对上应用此转换函数,构造出r个新特征;提供给步骤1.2.3;
步骤1.2.3,对新构造出来的r个特征和节点中原来的特征Fa,分别计算用每个特征作为划分属性的信息增益gf(或者是数据集划分后的GINI指数),选择信息增益最大(若是GINI指数则选择GINI指数最小)的特征
Figure BDA0002315443890000081
作为划分属性,根据特征
Figure BDA0002315443890000082
的具体划分值将数据集划分成左右两部分,并分裂成左右两部分子树,将样本中特征
Figure BDA0002315443890000083
的取值小于具体划分值的样本归并到左子树中,相对地,另外一部分归并到右子树中,它们分别对应左儿子和右儿子节点。若特征
Figure BDA0002315443890000084
为新构造出来的特征,则将特征
Figure BDA0002315443890000085
添加到新构造出来的特征集合Fa当中去,即
Figure BDA0002315443890000086
Figure BDA0002315443890000087
且将特征
Figure BDA0002315443890000088
及其构造过程并入集合Fs中去;
步骤1.2.4,按照转换函数权重向量的时效性更新机制更新转换函数的权重值;
步骤1.2.5,分别进入左儿子和右儿子节点,判断节点中子数据集样本数是否低于设定的最小阈值T,或子数据集样本的纯度是否高于设定的阈值G;若是,则到达叶子节点,结束流程,若不是,则重复步骤1.2.2~1.2.4,直至到达叶子节点。当树构造完毕,则进入步骤1.2.6;
步骤1.2.6,整棵树构造完毕后,最终得到特征集合Fs中的特征即为由特征构造树构造出来的新特征及其构造过程,提供给第二部分。
所述步骤1.2.4转换函数权重向量的时效性更新机制,其流程步骤图如图7所示,其具体步骤如下:
步骤1.2.4.1,若当前节点选择出的转换函数为o,则根据其构造出所有r个新特征,分别将其作为数据集的划分属性,按照以下公式计算得到的平均信息增益go
Figure BDA0002315443890000089
其中,
Figure BDA00023154438900000810
代表使用由转换函数o构造出的第i个新特征fi作为划分属性得到的信息增益。
步骤1.2.4.2,根据步骤1.2.4.1得到的平均信息增益go,更新当前转换函数的最近平均信息增益效用列表。
Figure BDA00023154438900000811
代表转换函数o的最近m次被选中的平均信息增益效用的列表,m是列表lo的长度,
Figure BDA0002315443890000091
代表使用t时刻选择的转换函数o生成的所有新特征,作为划分属性得到的平均信息增益效用值。利用go来更新当前转换函数o的最近平均信息增益效用列表lo,将此平均信息增益go添加到列表lo的末尾,删除列表lo头的第一个值,即:
t时刻:
Figure BDA0002315443890000092
t+1时刻:
Figure BDA0002315443890000093
其中
Figure BDA0002315443890000094
步骤1.2.4.3,根据当前转换函数o的最近平均信息增益效用列表lo和平均信息增益go,计算出当前转换函数o的奖励值β,其中,
Figure BDA0002315443890000095
表示列表lo中的中值,
Figure BDA0002315443890000096
表示列表lo中的最大值,公式(2)限定了β∈[0,1]:
Figure BDA0002315443890000097
步骤1.2.4.4,根据当前转换函数o的奖励值β,按照公式(3)更新转换函数的权值向量,再按照公式(4)进行转换函数权值向量的归一化:
Figure BDA0002315443890000098
Figure BDA0002315443890000099
其中,wo表示转换函数o的权值,公式(3)中wo随着奖励值β的增加单调增加,也就是说奖励值越高,转换函数的权重增加的幅度便会越大,α控制着权重更新的速率;公式(4)中wi表示第i个转换函数的权值,
Figure BDA00023154438900000910
表示所有转换函数的权值总和。
第二部分
利用生成的特征进行网络支付欺诈检测模型训练与实时欺诈检测
分类器环境:
Python,scikit-learn,RandomForest(或XGBoost)模型
输入:
利用定制化特征构造树的自动化特征工程方法生成网络支付交易记录的特征向量;
输出:
当笔网络支付交易存在欺诈的可能性概率
训练网络支付欺诈检测分类器和实施实时检测的步骤如下:
步骤2-1,在网络支付交易记录的训练数据集上应用步骤1所示的自动化特征工程方法,由步骤1.2.6中返回获得所有新特征的构造过程集合;
步骤2-2,利用获得的新特征的构造过程集合,对训练数据集中的所有网络支付交易记录进行特征构造,为每一条交易记录都生成新特征向量;
步骤2-3,将训练集的所有交易记录数据的新特征、原始特征和标签(训练样本集合如图8所示)输入进RandomForest(或XGBoost)分类器模型进行训练,得到欺诈检测模型;
步骤2-4,对新来一条的网络支付交易记录数据,利用步骤2-1中获得的新特征的构造过程集合,先进行特征构造,生成新特征,将原始特征和新特征输入进欺诈检测模型,输出该条交易记录是欺诈交易的概率;
步骤2-5,重复步骤2-4,实现实时的在线网络支付交易欺诈检测。
实施例
得益于当前互联网金融产生的丰富交易信息数据,我们可以对此进行分析、处理、利用,以此作为基础,借助特征工程方法生成各种特征用来建模,设计反欺诈检测系统,保护用户和企业的安全。
本发明通过在真实互联网金融银行的B2C(商户对用户)在线网络支付交易数据集上进行检验,这份数据包含了从2017年04月01日到2017年06月30日的三个月的交易记录数据,其正负样本分布如表4所示。
表4各特征集合介绍示例
Figure BDA0002315443890000101
本发明利用定制化特征构造树的自动化特征工程方法进行特征生成,并使用RandomForest(或XGBoost)模型进行欺诈检测,如图10所示的系统结果输出,得出在打扰率(误拦截率,False Positive Rate)小于1%,0.5%,0.1%和0.05%时的召回率(拦截率,True Positive Rate),并由此验证所构造出的特征的性能在此指标上可以取得2%-5%的提升。同时此欺诈检测模型在此指标上和计算时间上都优于先前的研究。
本项目的创新点
1.在互联网金融在线网络支付方面,利用自动化特征工程的方法,克服传统人工手动特征构造方法的低效率问题,减少网络支付欺诈模型构建的时间成本,提高生成特征的质量;
2.在自动化特征工程方法上,针对互联网金融在线网络支付领域,设计了定制化的特征构造树算法,设计了定制化的转换函数;
3.在定制化的特征构造树算法上,增加转换函数的组合功能,扩充特征空间的搜寻范围。保留了父节点构造出的用来划分数据节点的派生特征,结合原始特征,在扩充的特征空间上再进行特征构造并选择划分特征,由此可以增加复杂特征的生成;
4.在定制化的特征构造树算法上,考虑转换函数权重向量的时效性更新机制。每个转换函数维护一个最近平均信息增益效用列表,根据最近的性能表现更新对应的权重向量,增强时效性。
批注:本发明中的有关术语以及对于先前的主要技术可参见如下资料。
[1]Erik Cuevas,Daniel Zaldivar,and Marco A.P′erez Cisneros.Seekingmulti-thresholds for image segmentation with learning automata.CoRR, abs/1405.7361,2014.
[2]Fan W,Zhong E,Peng J,et al.Generalized and Heuristic-Free FeatureConstruction for Improved Accuracy.Proc SIAM Int Conf Data Min,2010.
[3]Maheshwary S,Kaul A,Pudi V.Data Driven Feature Learning.International Conference on Machine Learning(ICML),2017.
[4]Kaul A,Maheshwary S,Pudi V.AutoLearn-Automated Feature Generationand Selection.IEEE International Conference on Data Mining (ICDM),2017.
[5]Khurana U,Turaga D,Samulowitz H,et al.Cognito:Automated FeatureEngineering for Supervised Learning.IEEE ICDMW,2016.
[6]Kanter J M,Veeramachaneni K.Deep feature synthesis:Towardsautomating data science endeavors.IEEE DSAA,2015.
[7]Nargesian F,Samulowitz H,Khurana U,Khalil E.B and Turaga D.Learning feature engineering for classification.In Proceedings of the Twenty-sixth International Joint Conference on Artificial Intelligence, 2529–2535。

Claims (10)

1.一种基于自动化特征工程的网络支付欺诈检测方法,分为两个部分,其特征在于:
第一个部分是自动化特征构造部分,在在线网络支付原始特征的基础上,利用定制化特征构造树的自动化特征工程方法,获得所有新特征的构造过程集合;
第二个部分是模型训练与欺诈检测部分,对于训练数据集,根据新特征向量的构造过程集合,构造出新特征,将所有特征和标签输入到机器学习模型进行训练,得到欺诈检测模型;对于实时测试数据集,同样根据新特征的构造过程集合,构造出新特征,将所有特征输入进欺诈检测模型进行欺诈预测。
2.如权利要求1所述的方法,其特征在于,所述第一个部分:
1.1面向网络支付欺诈检测,搜集互联网金融网络支付交易记录,从中筛选出原始字段,见表1网络支付交易记录可利用的原始字段
表1可利用原始字段
Figure FDA0002315443880000011
获得原始数据样本集合D,D={X,Y},其中
X={x1,x2,…xn},其中xi对应的是第i条交易记录的各个字段,即一条特征向量,X代表所有交易记录的特征向量集合;Y={y1,y2,…yn},其中yi对应的是第i条交易记录是否是欺诈,其取值yi={0,1},0为正常,1为异常;
Y代表所有交易记录标签的集合;
X、Y两者共同组成了整个数据集D,数据集中交易记录样本的总数为n;进入步骤1.2进行特征构造;
1.2定制化特征构造树的自动化特征工程方法
定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合D的基础上构造新特征,还存在转换函数的组合,即在构造出来的新特征的基础上继续构造特征;所述特征构造树保留了父节点上构造出的用来划分数据集的特征,与原始特征组成新的、扩充的特征空间,在此扩充的特征空间上再进行特征构造并选择划分数据集的特征;定制化特征构造树中对转换函数权重向量的时效性进行更新。
3.如权利要求1所述的方法,其特征在于,所述第二部分利用生成的特征进行网络支付欺诈检测模型训练与实时欺诈检测,具体的,训练网络支付欺诈检测分类器和实施实时检测的步骤如下:
步骤2-1,在网络支付交易记录的训练数据集上应用步骤1所示的自动化特征工程方法,由步骤1.2.6中返回获得所有新特征的构造过程集合;
步骤2-2,利用获得的新特征的构造过程集合,对训练数据集中的所有网络支付交易记录进行特征构造,为每一条交易记录都生成新特征向量;
步骤2-3,将训练集的所有交易记录数据的新特征、原始特征和标签输入进分类器模型进行训练,得到欺诈检测模型;
步骤2-4,对新来一条的网络支付交易记录数据,利用步骤2-1中获得的新特征的构造过程集合,先进行特征构造,生成新特征,将原始特征和新特征输入进欺诈检测模型,输出该条交易记录是欺诈交易的概率;
步骤2-5,重复步骤2-4,实现实时的在线网络支付交易欺诈检测。
4.如权利要求2所述的方法,其特征在于,步骤1.2中所述转换函数:转换函数及其具体设置操作方法如表2所示,按照其工作域划分为纵向方式的转换函数、横向方式的转换函数和时间窗口方式的转换函数:
表2转换函数设置操作表
Figure FDA0002315443880000021
Figure FDA0002315443880000031
5.如权利要求4所述的方法,其特征在于,所述纵向方式的转换函数,是作用在单个特征或特征属性之间的转换函数,作用于单个列特征进行计算频率、求平方、开方、sigmod和tanh操作而生成新一列特征,作用在两个列特征之间作加法、减法、乘法操作而生成新一列特征。
6.如权利要求4所述的方法,其特征在于,所述横向方式的转换函数,是作用在同一个特征的多个不同样本间的转换函数,对某个特征作个体累积和群体累积的加法,对时间和交易金额特征作不同交易记录样本的差。
7.如权利要求4所述的方法,其特征在于,所述时间窗口方式的转换函数,包括:时间窗口内的累积求和、求极值、均值、方差、计数、非重计数和最频繁。
8.如权利要求4所述的方法,其特征在于,令O表示转换函数的集合,W={w1,w2,…,wk}表示转换函数的权重向量,其中wi(1≤i≤k)代表第i个转换函数的权重,即各个转换函数被选中的概率,转换函数的总个数为k。
9.如权利要求2所述的方法,其特征在于,步骤1.2中,所述特征构造树,
Fo表示数据集中的原始字段的特征集合;
Fa表示当前节点上包含新特征的特征总集合,其既包括原始的特征又包括能够通过转换函数新构造出来的并用来划分数据集的特征;
Fs表示树中节点处被选择用来划分数据集的新特征及其构造过程的集合。
表3为各特征集合的示例;
表3各特征集合介绍示例
Figure FDA0002315443880000041
10.如权利要求9所述的方法,其特征在于,步骤1.2中,所述节点处局部特征构造流程:
步骤1.2.1,初始化转换函数集合O中的转换函数的权值向量W,其中每个wi=1/|W|;初始化每个转换函数o的最近平均信息增益效用列表lo,列表的长度设为m,其中的每个值的初始值为0,初始化
Figure FDA0002315443880000042
(
Figure FDA0002315443880000043
表示空集);提供给步骤1.2.2;
步骤1.2.2,在决策树的某个节点上,根据转换函数的权值向量W,其中的某转换函数的权重值越大,其被选中的概率越大,先依概率选中一个转换函数。若其为一元转换函数,则在此节点对应的数据集上,从数据集中所有的s个特征中选择出r个不同的特征,其中r≤s,并且s=|Fa|,即特征集合Fa的大小。在这r个特征上应用此转换函数,构造出r个新特征;若其为二元转换函数,则在此节点对应的数据集上,从数据集中所有的s个特征中选择出r组不同的特征对,
Figure FDA0002315443880000044
在这r组特征对上应用此转换函数,构造出r个新特征;提供给步骤1.2.3;
步骤1.2.3,对新构造出来的r个特征和节点中原来的特征Fa,分别计算用每个特征作为划分属性的信息增益gf(或者是数据集划分后的GINI指数),选择信息增益最大(若是GINI指数则选择GINI指数最小)的特征
Figure FDA0002315443880000045
作为划分属性,根据特征
Figure FDA0002315443880000046
的具体划分值将数据集划分成左右两部分,并分裂成左右两部分子树,将样本中特征
Figure FDA0002315443880000047
的取值小于具体划分值的样本归并到左子树中,相对地,另外一部分归并到右子树中,它们分别对应左儿子和右儿子节点。若特征
Figure FDA0002315443880000051
为新构造出来的特征,则将特征
Figure FDA0002315443880000052
添加到新构造出来的特征集合Fa当中去,即
Figure FDA0002315443880000053
Figure FDA0002315443880000054
且将特征
Figure FDA0002315443880000055
及其构造过程并入集合Fs中去;
步骤1.2.4,按照转换函数权重向量的时效性更新机制更新转换函数的权重值;
步骤1.2.5,分别进入左儿子和右儿子节点,判断节点中子数据集样本数是否低于设定的最小阈值T,或子数据集样本的纯度是否高于设定的阈值G;若是,则到达叶子节点,结束流程,若不是,则重复步骤1.2.2~1.2.4,直至到达叶子节点。当树构造完毕,则进入步骤1.2.6;
步骤1.2.6,整棵树构造完毕后,最终得到特征集合Fs中的特征即为由特征构造树构造出来的新特征及其构造过程,提供给第二部分。
所述步骤1.2.4转换函数权重向量的时效性更新机制,其流程步骤图如图7所示,其具体步骤如下:
步骤1.2.4.1,若当前节点选择出的转换函数为o,则根据其构造出所有r个新特征,分别将其作为数据集的划分属性,按照以下公式计算得到的平均信息增益go
Figure FDA0002315443880000056
其中,
Figure FDA0002315443880000057
代表使用由转换函数o构造出的第i个新特征fi作为划分属性得到的信息增益。
步骤1.2.4.2,根据步骤1.2.4.1得到的平均信息增益go,更新当前转换函数的最近平均信息增益效用列表。
Figure FDA0002315443880000058
代表转换函数o的最近m次被选中的平均信息增益效用的列表,m是列表lo的长度,
Figure FDA0002315443880000059
代表使用t时刻选择的转换函数o生成的所有新特征,作为划分属性得到的平均信息增益效用值。利用go来更新当前转换函数o的最近平均信息增益效用列表lo,将此平均信息增益go添加到列表lo的末尾,删除列表lo头的第一个值,即:
t时刻:
Figure FDA00023154438800000510
t+1时刻:
Figure FDA00023154438800000511
其中
Figure FDA0002315443880000061
步骤1.2.4.3,根据当前转换函数o的最近平均信息增益效用列表lo和平均信息增益go,计算出当前转换函数o的奖励值β,其中,
Figure FDA0002315443880000062
表示列表lo中的中值,
Figure FDA0002315443880000063
表示列表lo中的最大值,公式(2)限定了β∈[0,1]:
Figure FDA0002315443880000064
步骤1.2.4.4,根据当前转换函数o的奖励值β,按照公式(3)更新转换函数的权值向量,再按照公式(4)进行转换函数权值向量的归一化:
Figure FDA0002315443880000065
Figure FDA0002315443880000066
其中,wo表示转换函数o的权值,公式(3)中wo随着奖励值β的增加单调增加,也就是说奖励值越高,转换函数的权重增加的幅度便会越大,α控制着权重更新的速率;公式(4)中wi表示第i个转换函数的权值,
Figure FDA0002315443880000067
表示所有转换函数的权值总和。
CN201911275482.0A 2019-12-12 2019-12-12 基于自动化特征工程的网络支付欺诈检测方法 Active CN111178902B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911275482.0A CN111178902B (zh) 2019-12-12 2019-12-12 基于自动化特征工程的网络支付欺诈检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911275482.0A CN111178902B (zh) 2019-12-12 2019-12-12 基于自动化特征工程的网络支付欺诈检测方法

Publications (2)

Publication Number Publication Date
CN111178902A true CN111178902A (zh) 2020-05-19
CN111178902B CN111178902B (zh) 2023-05-16

Family

ID=70646255

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911275482.0A Active CN111178902B (zh) 2019-12-12 2019-12-12 基于自动化特征工程的网络支付欺诈检测方法

Country Status (1)

Country Link
CN (1) CN111178902B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139818A (zh) * 2021-04-30 2021-07-20 苏宁金融科技(南京)有限公司 基于自动化特征工程的反欺诈方法及系统
CN116579774A (zh) * 2023-07-14 2023-08-11 深圳明辉智能技术有限公司 基于交叉加密的支付平台系统及方法
CN117041168A (zh) * 2023-10-09 2023-11-10 常州楠菲微电子有限公司 QoS队列调度实现方法、装置、存储介质及处理器

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6036055A (en) * 1996-11-12 2000-03-14 Barmate Corporation Wireless liquid portion and inventory control system
US20180336563A1 (en) * 2017-05-17 2018-11-22 Mastercard International Incorporated Electronic payment card systems and methods with rogue authorization charge identification and resolution
CN109034194A (zh) * 2018-06-20 2018-12-18 东华大学 基于特征分化的交易欺诈行为深度检测方法
CN109767225A (zh) * 2018-12-12 2019-05-17 同济大学 一种基于自学习滑动时间窗口的网络支付欺诈检测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6036055A (en) * 1996-11-12 2000-03-14 Barmate Corporation Wireless liquid portion and inventory control system
US20180336563A1 (en) * 2017-05-17 2018-11-22 Mastercard International Incorporated Electronic payment card systems and methods with rogue authorization charge identification and resolution
CN109034194A (zh) * 2018-06-20 2018-12-18 东华大学 基于特征分化的交易欺诈行为深度检测方法
CN109767225A (zh) * 2018-12-12 2019-05-17 同济大学 一种基于自学习滑动时间窗口的网络支付欺诈检测方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张燕: "基于本质特征和网络特征的信用卡欺诈检测" *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113139818A (zh) * 2021-04-30 2021-07-20 苏宁金融科技(南京)有限公司 基于自动化特征工程的反欺诈方法及系统
CN116579774A (zh) * 2023-07-14 2023-08-11 深圳明辉智能技术有限公司 基于交叉加密的支付平台系统及方法
CN116579774B (zh) * 2023-07-14 2024-01-12 深圳明辉智能技术有限公司 基于交叉加密的支付平台系统及方法
CN117041168A (zh) * 2023-10-09 2023-11-10 常州楠菲微电子有限公司 QoS队列调度实现方法、装置、存储介质及处理器

Also Published As

Publication number Publication date
CN111178902B (zh) 2023-05-16

Similar Documents

Publication Publication Date Title
CN108648049B (zh) 一种基于用户行为区别建模的序列推荐方法
US7283982B2 (en) Method and structure for transform regression
CN111178902B (zh) 基于自动化特征工程的网络支付欺诈检测方法
Berka Using The LISp-Miner System For Credit Risk Assessment
CN111400754B (zh) 保护用户隐私的用户分类系统的构建方法及装置
CN110245285B (zh) 一种基于异构信息网络的个性化推荐方法
CN110659744A (zh) 训练事件预测模型、评估操作事件的方法及装置
CN109460508B (zh) 一种高效的垃圾评论用户群组检测方法
CN111127146A (zh) 基于卷积神经网络与降噪自编码器的信息推荐方法及系统
CN112700274A (zh) 一种基于用户偏好的广告点击率预估方法
CN111539444A (zh) 一种修正式模式识别及统计建模的高斯混合模型方法
CN111738331A (zh) 用户分类方法及装置、计算机可读存储介质、电子设备
CN112085525A (zh) 一种基于混合模型的用户网络购买行为预测研究方法
CN112651823A (zh) 信用评估模型建立方法和装置及信用评估方法和设备
CN113537960A (zh) 一种异常资源转移链路的确定方法、装置和设备
CA3156642A1 (en) Anti-fraud method and system based on automatic feature engineering
CN113868537B (zh) 一种基于多行为会话图融合的推荐方法
CN113033878B (zh) 基于多拓扑分级协同粒子群lstm的滑坡位移预测方法
CN111275447B (zh) 基于自动化特征工程的在线网络支付欺诈检测系统
CN116503158A (zh) 基于数据驱动的企业破产风险预警方法、系统及装置
CN115994331A (zh) 基于决策树的报文分拣方法及装置
CN111105303B (zh) 基于增量式网络表征学习的网络借贷欺诈检测方法
CN114610871A (zh) 基于人工智能算法的情报系统建模分析方法
CN113569139A (zh) 一种个性化会话推荐方法和系统
CN111967973A (zh) 银行客户数据处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant