CN111275447B - 基于自动化特征工程的在线网络支付欺诈检测系统 - Google Patents
基于自动化特征工程的在线网络支付欺诈检测系统 Download PDFInfo
- Publication number
- CN111275447B CN111275447B CN202010055739.8A CN202010055739A CN111275447B CN 111275447 B CN111275447 B CN 111275447B CN 202010055739 A CN202010055739 A CN 202010055739A CN 111275447 B CN111275447 B CN 111275447B
- Authority
- CN
- China
- Prior art keywords
- feature
- features
- transaction
- conversion function
- fraud detection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000001514 detection method Methods 0.000 title claims abstract description 54
- 238000010276 construction Methods 0.000 claims abstract description 75
- 238000000034 method Methods 0.000 claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 29
- 230000002159 abnormal effect Effects 0.000 claims abstract description 8
- 238000012545 processing Methods 0.000 claims abstract description 6
- 238000010801 machine learning Methods 0.000 claims abstract description 5
- 230000006870 function Effects 0.000 claims description 113
- 238000006243 chemical reaction Methods 0.000 claims description 56
- 238000012546 transfer Methods 0.000 claims description 55
- 238000012549 training Methods 0.000 claims description 18
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012407 engineering method Methods 0.000 claims description 6
- 238000011897 real-time detection Methods 0.000 claims description 6
- 238000009825 accumulation Methods 0.000 claims description 4
- 238000007637 random forest analysis Methods 0.000 claims description 4
- 238000005192 partition Methods 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000006399 behavior Effects 0.000 claims description 2
- 230000001186 cumulative effect Effects 0.000 claims description 2
- 238000003066 decision tree Methods 0.000 claims description 2
- 230000003472 neutralizing effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 2
- 230000002265 prevention Effects 0.000 description 2
- 206010000117 Abnormal behaviour Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000003709 image segmentation Methods 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000003786 synthesis reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4014—Identity check for transactions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
Abstract
一种基于自动化特征工程的在线网络支付欺诈检测系统。用户与商户之间通过各自的PC或者移动端在网络上发生的实时交易数据记录由银行数据中心负责接收汇总;银行数据中心通过二次处理筛选出所需特征字段,将这些原始特征提供给自动化特征工程模块;自动化特征工程模块在在线网络支付原始特征的基础上,进行特征构造获得所有新特征的构造过程集合,提供给欺诈检测模块进行异常鉴定;欺诈检测模块,根据新特征向量的构造过程集合,构造出新特征,将所有特征和标签输入到机器学习模型进行判别,对正常交易进行放行,对异常交易的用户提出二次身份认证。后续二次认证成功则重新允许用户再次进行交易,否则锁定用户账号,拒绝其进行任何交易。
Description
技术领域
本发明所属互联网金融技术领域。
背景技术
随着移动互联网的兴起,各种传统的业务逐渐转至线上,互联网金融,电子商务迅速发展,网络在线支付的产生将带来大量的电子交易数据,同时伴随着在线支付欺诈交易数量的大量增加。攻击者通过窃取用户账户,盗取个人隐私信息,甚至恶意攻击服务器等方式来完成欺诈。为保障用户和公司业务安全,需要建立切实有效的网络支付欺诈系统。
在互联网金融领域,风控工作至关重要,而在网络支付反欺诈模型的开发过程中,特征工程是最重要的步骤。特征工程是从原始数据中提取特征以供算法和模型使用。目前互联网金融领域的特征工程通常需要风控数据专家进行人工分析、设计和清洗生成特征变量,这种方法费时费力,而且受限于人工经验也常会遗漏有效特征。人工生成特征会带来大量的人工成本和时间成本问题,影响模型应用系统的运行效果和运营的效率。如果这些工作可以集中到一起由机器自动完成,相比传统模式,收到的效果会大大提高,而且可以极大的降低整体系统乃至行业的风控成本。
发明内容
如何在网络支付的场景下,应用自动机器学习的方法来生成特征变量,有效利用和复用知识,减少人工和时间成本,自动化生成高效能、全方面的特征,提升欺诈检测系统的性能,是本发明需要完成的发明任务。
为此,本发明公开一种基于自动化特征工程的在线网络支付欺诈检测系统,实施对互联网金融领域的在线网络支付欺诈检测,利用定制化特征构造树的自动化特征构造方法进行了实践探索以提高特征构造的效率,减少人工成本,提升欺诈检测系统的性能,为金融行业风险防控工作带来便捷。
技术方案
本发明的主要内容是针对互联网金融领域的网络支付欺诈检测系统实现。通过一种定制化特征构造树的自动化特征工程方法实现特征生成的自动化,构造出来的特征作为欺诈检测模型的输入,进而训练和应用欺诈检测模型,实现系统实时对网络支付欺诈的异常行为检测和预警,做到防范金融风险。
一种基于自动化特征工程的在线网络支付欺诈检测系统,其特征在于,包括个人客户端、商户端、银行数据中心,还包括自动化特征工程模块、欺诈检测模块;
用户与商户之间通过各自的PC或者移动端在网络上发生的实时交易数据记录由银行数据中心负责接收汇总;银行数据中心通过二次处理筛选出所需特征字段,将这些原始特征提供给自动化特征工程模块;
自动化特征工程模块在在线网络支付原始特征的基础上,进行特征构造获得所有新特征的构造过程集合,提供给欺诈检测模块进行异常鉴定;
欺诈检测模块,对于自动化特征工程模块输出的训练数据集,根据新特征向量的构造过程集合,构造出新特征,将所有特征和标签输入到机器学习模型进行训练,得到欺诈检测模型;对于同样由自动化特征工程模块输出的实时测试数据集,也根据新特征的构造过程集合,构造出新特征,将所有特征输入进欺诈检测模型进行欺诈预测。欺诈检测模块结合判别结果,对正常交易进行放行,对异常交易的用户提出二次身份认证。后续二次认证成功则重新允许用户再次进行交易,否则锁定用户账号,拒绝其进行任何交易。
有益效果
本发明旨在在互联网金融在线网络支付方面,克服传统人工手动特征构造方法的低效率问题,减少网络支付欺诈模型构建的时间成本,提高生成特征的质量从而提升欺诈检测模型系统的性能,为风险防控工作带来便捷。同时这也为互联网金融信息化时代网络支付安全领域的自动化特征工程工作上提供了新的思路和解决方法。
附图说明
图1特征构造树算法
图2纵向方式的转换函数的作用域
图3横向方式的转换函数的作用域
图4时间窗口方式的转换函数的作用域
图5特征构造树结构
图6特征构造树单个节点处构造特征流程图
图7转换函数权重向量更新机制流程图
图8训练样本集合
图9基于定制化特征构造树的自动化特征工程方法的网络支付欺诈检测流程图。
图10实施例系统输出结果图
图11实施例应用系统关系图
具体实施方式
以下通过实施例和附图对本发明技术方案做进一步说明。
实施例
如图11所示,本实施例设计实现了在银行B2C在线支付场景下进行反欺诈检测的系统,其特征在于,包括个人客户端、商户端、银行数据中心,还包括自动化特征工程模块、欺诈检测模块;
第一部分
用户与商户之间通过各自的PC或者移动端在网络上发生的实时交易数据记录由银行数据中心负责接收汇总;银行数据中心通过二次处理筛选出所需特征字段,将这些原始特征提供给自动化特征工程模块;
第二部分
自动化特征工程模块在在线网络支付原始特征的基础上,进行特征构造获得所有新特征的构造过程集合,提供给欺诈检测模块进行异常鉴定;
第三部分
欺诈检测模块,对于自动化特征工程模块输出的训练数据集,根据新特征向量的构造过程集合,构造出新特征,将所有特征和标签输入到机器学习模型进行训练,得到欺诈检测模型;对于同样由自动化特征工程模块输出的实时测试数据集,也根据新特征的构造过程集合,构造出新特征,将所有特征输入进欺诈检测模型进行欺诈预测。欺诈检测模块结合判别结果,对正常交易进行放行,对异常交易的用户提出二次身份认证。后续二次认证成功则重新允许用户再次进行交易,否则锁定用户账号,拒绝其进行任何交易。
以下详述之
第一个部分:
银行数据中心搜集互联网金融网络支付交易记录,从中通过二次处理即筛选出原始字段,见表1网络支付交易记录可利用的原始字段。
表1 可利用原始字段
第二个部分:
包括数据集、定制化特征构造树的自动化特征工程模块。
1.1构建整个数据集D
利用银行数据中心筛选出的原始字段制作原始数据样本集合D,D={X,Y}。
其中
X={x1,x2,…xn},其中xi对应的是第i条交易记录的各个字段,即一条特征向量,X代表所有交易记录的特征向量集合;Y={y1,y2,…yn},其中yi对应的是第i条交易记录是否是欺诈,其取值yi={0,1},0为正常,1为异常,
Y代表所有交易记录标签的集合。
X、Y两者共同组成了整个数据集D,数据集中交易记录样本的总数为n。进入1.2进行特征构造。
1.2定制化特征构造树的自动化特征工程模块,包括局部特征构造模块。
如图1所示。定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合D的基础上构造新特征,还存在转换函数的组合,即在构造出来的新特征的基础上继续构造特征。这里特征构造树保留了父节点上构造出的用来划分数据集的特征,与原始特征组成新的、扩充的特征空间,在此扩充的特征空间上再进行特征构造并选择划分数据集的特征。局部特征构造模块,设计的局部特征构造流程增加了转换函数的组合功能,扩充了特征空间的搜寻范围。定制化特征构造树中对转换函数权重向量的时效性进行更新。
所述转换函数:针对互联网金融在线网络支付特点,本发明设计了特有的转换函数,转换函数及其具体设置操作方法如表2所示,按照其工作域划分为纵向方式的转换函数、横向方式的转换函数和时间窗口方式的转换函数:
表2 转换函数设置操作表
所述纵向方式的转换函数,是作用在单个特征或特征属性之间的转换函数,作用于单个列特征进行计算频率、求平方、开方、sigmod和tanh操作而生成新一列特征,作用在两个列特征之间作加法、减法、乘法操作而生成新一列特征。如图2所示,其是对单个列特征或多个列特征之间进行操作的转换函数。
所述横向方式的转换函数,是作用在同一个特征的多个不同样本间的转换函数,对某个特征作个体累积和群体累积的加法,对时间和交易金额特征作不同交易记录样本的差。如图3所示,其是对多个样本之间在同一个列特征上进行操作的转换函数。
所述时间窗口方式的转换函数,是利用了滑动时间窗口的概念,这对于分析在一段时间内的交易行为特征具有重要的作用,具体地有下列转换函数:时间窗口内的累积求和、求极值、均值、方差、计数、非重计数和最频繁。如图4所示,其是对时间窗口内的多个样本之间在同一个列特征上进行操作的转换函数。
上述转换函数是一类映射函数的集合,是一些代数运算操作,或是一些在给定特征上的集成操作等,通过转换函数操作从而把输入的特征从原始空间映射到一个全新的特征空间当中去,或改变原始特征的分布状况,或改变原始特征的取值覆盖范围等。
令O表示转换函数的集合,W={w1,w2,…,wk}表示转换函数的权重向量,其中wi(1≤i≤k)代表第i个转换函数的权重,即各个转换函数被选中的概率,转换函数的总个数为k。
所述特征构造树,如图5所示的每个节点处的局部特征构造。
Fo表示数据集中的原始字段的特征集合;
Fa表示当前节点上包含新特征的特征总集合,其既包括原始的特征又包括能够通过转换函数新构造出来的并用来划分数据集的特征;
Fs表示树中节点处被选择用来划分数据集的新特征及其构造过程的集合。
表3为各特征集合的示例。
表3 各特征集合介绍示例
所述局部特征构造模块,其节点处的局部特征构造流程,如图6所示。
步骤1.2.1,初始化转换函数集合O中的转换函数的权值向量W,其中每个wi=1/|W|;初始化每个转换函数o的最近平均信息增益效用列表lo,列表的长度设为m,其中的每个值的初始值为0,初始化Fa=Fo,(/>表示空集);提供给步骤1.2.2;
步骤1.2.2,在决策树的某个节点上,根据转换函数的权值向量W,其中的某转换函数的权重值越大,其被选中的概率越大,先依概率选中一个转换函数。若其为一元转换函数,则在此节点对应的数据集上,从数据集中所有的s个特征中选择出r个不同的特征,其中r≤s,并且s=|Fa|,即特征集合Fa的大小。在这r个特征上应用此转换函数,构造出r个新特征;若其为二元转换函数,则在此节点对应的数据集上,从数据集中所有的s个特征中选择出r组不同的特征对,在这r组特征对上应用此转换函数,构造出r个新特征;提供给步骤1.2.3;
步骤1.2.3,对新构造出来的r个特征和节点中原来的特征Fa,分别计算用每个特征作为划分属性的信息增益gf(或者是数据集划分后的GINI指数),选择信息增益最大(若是GINI指数则选择GINI指数最小)的特征作为划分属性,根据特征/>的具体划分值将数据集划分成左右两部分,并分裂成左右两部分子树,将样本中特征/>的取值小于具体划分值的样本归并到左子树中,相对地,另外一部分归并到右子树中,它们分别对应左儿子和右儿子节点。若特征/>为新构造出来的特征,则将特征/>添加到新构造出来的特征集合Fa当中去,即/> 且将特征/>及其构造过程并入集合Fs中去;
步骤1.2.4,按照转换函数权重向量的时效性更新机制更新转换函数的权重值;
步骤1.2.5,分别进入左儿子和右儿子节点,判断节点中子数据集样本数是否低于设定的最小阈值T,或子数据集样本的纯度是否高于设定的阈值G;若是,则到达叶子节点,结束流程,若不是,则重复步骤1.2.2~1.2.4,直至到达叶子节点。当树构造完毕,则进入步骤1.2.6;
步骤1.2.6,整棵树构造完毕后,最终得到特征集合Fs中的特征即为由特征构造树构造出来的新特征及其构造过程,提供给第二部分。
所述步骤1.2.4转换函数权重向量的时效性更新机制,其流程步骤图如图7所示,其具体步骤如下:
步骤1.2.4.1,若当前节点选择出的转换函数为o,则根据其构造出所有r个新特征,分别将其作为数据集的划分属性,按照以下公式计算得到的平均信息增益go,
其中,代表使用由转换函数o构造出的第i个新特征fi作为划分属性得到的信息增益。
步骤1.2.4.2,根据步骤1.2.4.1得到的平均信息增益go,更新当前转换函数的最近平均信息增益效用列表。代表转换函数o的最近m次被选中的平均信息增益效用的列表,m是列表lo的长度,/>代表使用t时刻选择的转换函数o生成的所有新特征,作为划分属性得到的平均信息增益效用值。利用go来更新当前转换函数o的最近平均信息增益效用列表lo,将此平均信息增益go添加到列表lo的末尾,删除列表lo头的第一个值,即:
t时刻:
t+1时刻:
其中
步骤1.2.4.3,根据当前转换函数o的最近平均信息增益效用列表lo和平均信息增益go,计算出当前转换函数o的奖励值β,其中,表示列表lo中的中值,/>表示列表lo中的最大值,公式(2)限定了β∈[0,1]:
步骤1.2.4.4,根据当前转换函数o的奖励值β,按照公式(3)更新转换函数的权值向量,再按照公式(4)进行转换函数权值向量的归一化:
其中,wo表示转换函数o的权值,公式(3)中wo随着奖励值β的增加单调增加,也就是说奖励值越高,转换函数的权重增加的幅度便会越大,α控制着权重更新的速率;公式(4)中wi表示第i个转换函数的权值,表示所有转换函数的权值总和。
第三部分
欺诈检测模块包括训练网络支付欺诈检测分类器模型和实时检测算法模块,
所述分类器模型,本实施例的环境设置为Python语言,scikit-learn,RandomForest(或XGBoost)模型;
所述实时检测算法模块,向分类器模型输入定制化特征构造树的自动化特征工程模块生成网络支付交易记录的特征向量,输出当笔网络支付交易存在欺诈的可能性概率,通过概率得到判别结果,即交易是否正常;将所有特征输入进欺诈检测模型进行欺诈预测。
欺诈检测模块结合判别结果,对正常交易进行放行,对异常交易的用户提出二次身份认证。后续二次认证成功则重新允许用户再次进行交易,否则锁定用户账号,拒绝其进行任何交易。
所述实时检测算法模块,过程为:
步骤2-1,在网络支付交易记录的训练数据集上应用步骤1所示的自动化特征工程方法,由步骤1.2.6中返回获得所有新特征的构造过程集合;
步骤2-2,利用获得的新特征的构造过程集合,对训练数据集中的所有网络支付交易记录进行特征构造,为每一条交易记录都生成新特征向量;
步骤2-3,将训练集的所有交易记录数据的新特征、原始特征和标签(训练样本集合如图8所示)输入进RandomForest(或XGBoost)分类器模型进行训练,得到欺诈检测模型;
步骤2-4,对新来一条的网络支付交易记录数据,利用步骤2-1中获得的新特征的构造过程集合,先进行特征构造,生成新特征,将原始特征和新特征输入进欺诈检测模型,输出该条交易记录是欺诈交易的概率;
步骤2-5,重复步骤2-4,实现实时的在线网络支付交易欺诈检测。
实施例效果验证
得益于当前互联网金融产生的丰富交易信息数据,我们可以对此进行分析、处理、利用,以此作为基础,借助特征工程方法生成各种特征用来建模,设计反欺诈检测系统,保护用户和企业的安全。
本发明通过在互联网金融银行的B2C(商户对用户)在线网络支付交易数据集上进行检验,这份数据包含了从2017年04月01日到2017年06月30日的三个月的交易记录数据,其正负样本分布如表4所示。
表4 各特征集合介绍示例
本发明系统利用定制化特征构造树的自动化特征工程方法进行特征生成,并使用RandomForest(或XGBoost)模型进行欺诈检测,如图10所示的实施例结果输出,得出在打扰率(误拦截率,False Positive Rate)小于1%,0.5%,0.1%和0.05%时的召回率(拦截率,True Positive Rate),并由此验证所构造出的特征的性能在此指标上可以取得2%-5%的提升。同时此欺诈检测模型在此指标上和计算时间上都优于先前的研究。
批注:本发明中的有关术语以及对于先前的主要技术可参见如下资料。
[1]Erik Cuevas,Daniel Zaldivar,and Marco A.P′erez Cisneros.Seekingmulti-thresholds for image segmentation with learning automata.CoRR,abs/1405.7361,2014.
[2]Fan W,Zhong E,Peng J,et al.Generalized and Heuristic-Free FeatureConstruction for Improved Accuracy.Proc SIAM Int Conf Data Min,2010.
[3]Maheshwary S,Kaul A,Pudi V.Data Driven FeatureLearning.International Conference on Machine Learning(ICML),2017.
[4]Kaul A,Maheshwary S,Pudi V.AutoLearn-Automated Feature Generationand Selection.IEEE International Conference on Data Mining(ICDM),2017.
[5]Khurana U,Turaga D,Samulowitz H,et al.Cognito:Automated FeatureEngineering for Supervised Learning.IEEE ICDMW,2016.
[6]Kanter J M,Veeramachaneni K.Deep feature synthesis:Towardsautomating data science endeavors.IEEE DSAA,2015.
[7]Nargesian F,Samulowitz H,Khurana U,Khalil E.B and TuragaD.Learning feature engineering for classification.In Proceedings of theTwenty-sixth International Joint Conference on Artificial Intelligence,2529–2535.
Claims (2)
1.一种基于自动化特征工程的在线网络支付欺诈检测系统,其特征在于,包括个人客户端、商户端、银行数据中心,还包括自动化特征工程模块、欺诈检测模块;
用户与商户之间通过各自的PC或者移动端在网络上发生的实时交易数据记录由银行数据中心负责接收汇总;银行数据中心通过二次处理筛选出所需特征字段,将这些原始特征提供给自动化特征工程模块;
自动化特征工程模块在在线网络支付原始特征的基础上,进行特征构造获得所有新特征的构造过程集合,提供给欺诈检测模块进行异常鉴定;
欺诈检测模块,对于自动化特征工程模块输出的训练数据集,根据新特征向量的构造过程集合,构造出新特征,将所有特征和标签输入到机器学习模型进行训练,得到欺诈检测模型;对于同样由自动化特征工程模块输出的实时测试数据集,也根据新特征的构造过程集合,构造出新特征,将所有特征输入进欺诈检测模型进行欺诈预测;欺诈检测模块结合判别结果,对正常交易进行放行,对异常交易的用户提出二次身份认证;后续二次认证成功则重新允许用户再次进行交易,否则锁定用户账号,拒绝其进行任何交易;
第一部分:
银行数据中心搜集互联网金融网络支付交易记录,从中通过二次处理即筛选出原始字段,见表1网络支付交易记录可利用的原始字段;
表1可利用原始字段
第二个部分:包括数据集、定制化特征构造树的自动化特征工程模块;
1.1构建整个数据集D
利用银行数据中心筛选出的原始字段制作原始数据样本集合D,D={X,Y},其中
X={x1,x2,…xn},其中xi对应的是第i条交易记录的各个字段,即一条特征向量,X代表所有交易记录的特征向量集合;Y={y1,y2,…yn},其中yi对应的是第i条交易记录是否是欺诈,其取值yi={0,1},0为正常,1为异常,
Y代表所有交易记录标签的集合;
X、Y两者共同组成了整个数据集D,数据集中交易记录样本的总数为n;进入1.2进行特征构造;
1.2定制化特征构造树的自动化特征工程模块,包括局部特征构造模块;
定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合D的基础上构造新特征,还存在转换函数的组合,即在构造出来的新特征的基础上继续构造特征;这里特征构造树保留了父节点上构造出的用来划分数据集的特征,与原始特征组成新的、扩充的特征空间,在此扩充的特征空间上再进行特征构造并选择划分数据集的特征;局部特征构造模块,设计的局部特征构造流程增加了转换函数的组合功能,扩充了特征空间的搜寻范围;定制化特征构造树中对转换函数权重向量的时效性进行更新;
所述转换函数:转换函数及其具体设置操作方法如表2所示,按照其工作域划分为纵向方式的转换函数、横向方式的转换函数和时间窗口方式的转换函数:
表2转换函数设置操作表
所述纵向方式的转换函数,是作用在单个特征或特征属性之间的转换函数,作用于单个列特征进行计算频率、求平方、开方、sigmod和tanh操作而生成新一列特征,作用在两个列特征之间作加法、减法、乘法操作而生成新一列特征;
所述横向方式的转换函数,是作用在同一个特征的多个不同样本间的转换函数,对某个特征作个体累积和群体累积的加法,对时间和交易金额特征作不同交易记录样本的差;
所述时间窗口方式的转换函数,是利用了滑动时间窗口的概念,这对于分析在一段时间内的交易行为特征具有重要的作用,具体地有下列转换函数:时间窗口内的累积求和、求极值、均值、方差、计数、非重计数和最频繁;
令O表示转换函数的集合,W={w1,w2,…,wk}表示转换函数的权重向量,其中wi代表第i个转换函数的权重,1≤i≤k,即各个转换函数被选中的概率,转换函数的总个数为k;
每个节点处的局部特征构造:
Fo表示数据集中的原始字段的特征集合;
Fa表示当前节点上包含新特征的特征总集合,其既包括原始的特征又包括能够通过转换函数新构造出来的并用来划分数据集的特征;
Fs表示树中节点处被选择用来划分数据集的新特征及其构造过程的集合;
所述局部特征构造模块,其节点处的局部特征构造流程:
步骤1.2.1,初始化转换函数集合O中的转换函数的权值向量W,其中每个wi=1/|W|;初始化每个转换函数o的最近平均信息增益效用列表lo,列表的长度设为m,其中的每个值的初始值为0,初始化Fa=Fo, 表示空集;提供给步骤1.2.2;
步骤1.2.2,在决策树的某个节点上,根据转换函数的权值向量W,其中的某转换函数的权重值越大,其被选中的概率越大,先依概率选中一个转换函数;若其为一元转换函数,则在此节点对应的数据集上,从数据集中所有的s个特征中选择出r个不同的特征,其中r≤s,并且s=|Fa|,即特征集合Fa的大小;在这r个特征上应用此转换函数,构造出r个新特征;若其为二元转换函数,则在此节点对应的数据集上,从数据集中所有的s个特征中选择出r组不同的特征对, 在这r组特征对上应用此转换函数,构造出r个新特征;提供给步骤1.2.3;
步骤1.2.3,对新构造出来的r个特征和节点中原来的特征Fa,分别计算用每个特征作为划分属性的信息增益gf,选择信息增益最大的特征作为划分属性,根据特征/>的具体划分值将数据集划分成左右两部分,并分裂成左右两部分子树,将样本中特征/>的取值小于具体划分值的样本归并到左子树中,相对地,另外一部分归并到右子树中,它们分别对应左儿子和右儿子节点;若特征/>为新构造出来的特征,则将特征/>添加到新构造出来的特征集合Fa当中去,即/>且将特征/>及其构造过程并入集合Fs中去;
步骤1.2.4,按照转换函数权重向量的时效性更新机制更新转换函数的权重值;
步骤1.2.5,分别进入左儿子和右儿子节点,判断节点中子数据集样本数是否低于设定的最小阈值T,或子数据集样本的纯度是否高于设定的阈值G;若是,则到达叶子节点,结束流程,若不是,则重复步骤1.2.2~1.2.4,直至到达叶子节点;当树构造完毕,则进入步骤1.2.6;
步骤1.2.6,整棵树构造完毕后,最终得到特征集合Fs中的特征即为由特征构造树构造出来的新特征及其构造过程,提供给第二部分;
所述步骤1.2.4转换函数权重向量的时效性更新机制,其具体步骤如下:
步骤1.2.4.1,若当前节点选择出的转换函数为o,则根据其构造出所有r个新特征,分别将其作为数据集的划分属性,按照以下公式计算得到的平均信息增益go,
其中,代表使用由转换函数o构造出的第i个新特征fi作为划分属性得到的信息增益;
步骤1.2.4.2,根据步骤1.2.4.1得到的平均信息增益go,更新当前转换函数的最近平均信息增益效用列表;代表转换函数o的最近m次被选中的平均信息增益效用的列表,m是列表lo的长度,/>代表使用t时刻选择的转换函数o生成的所有新特征,作为划分属性得到的平均信息增益效用值;利用go来更新当前转换函数o的最近平均信息增益效用列表lo,将此平均信息增益go添加到列表lo的末尾,删除列表lo头的第一个值,即:
t时刻:
t+1时刻:
其中
步骤1.2.4.3,根据当前转换函数o的最近平均信息增益效用列表lo和平均信息增益go,计算出当前转换函数o的奖励值β,其中,表示列表lo中的中值,/>表示列表lo中的最大值,公式(2)限定了β∈[0,1]:
步骤1.2.4.4,根据当前转换函数o的奖励值β,按照公式(3)更新转换函数的权值向量,再按照公式(4)进行转换函数权值向量的归一化:
其中,wo表示转换函数o的权值,公式(3)中wo随着奖励值β的增加单调增加,也就是说奖励值越高,转换函数的权重增加的幅度便会越大,α控制着权重更新的速率;公式(4)中wi表示第i个转换函数的权值,表示所有转换函数的权值总和;
第三部分
欺诈检测模块包括训练网络支付欺诈检测分类器模型和实时检测算法模块,所述实时检测算法模块,向分类器模型输入定制化特征构造树的自动化特征工程模块生成网络支付交易记录的特征向量,输出当笔网络支付交易存在欺诈的可能性概率,通过概率得到判别结果,即交易是否正常;将所有特征输入进欺诈检测模型进行欺诈预测;
欺诈检测模块结合判别结果,对正常交易进行放行,对异常交易的用户提出二次身份认证;后续二次认证成功则重新允许用户再次进行交易,否则锁定用户账号,拒绝其进行任何交易;
所述实时检测算法模块,过程为:
步骤2-1,在网络支付交易记录的训练数据集上应用步骤1所示的自动化特征工程方法,由步骤1.2.6中返回获得所有新特征的构造过程集合;
步骤2-2,利用获得的新特征的构造过程集合,对训练数据集中的所有网络支付交易记录进行特征构造,为每一条交易记录都生成新特征向量;
步骤2-3,将训练集的所有交易记录数据的新特征、原始特征和标签输入进分类器模型进行训练,得到欺诈检测模型;
步骤2-4,对新来一条的网络支付交易记录数据,利用步骤2-1中获得的新特征的构造过程集合,先进行特征构造,生成新特征,将原始特征和新特征输入进欺诈检测模型,输出该条交易记录是欺诈交易的概率;
步骤2-5,重复步骤2-4,实现实时的在线网络支付交易欺诈检测。
2.如权利要求1所述的一种基于自动化特征工程的在线网络支付欺诈检测系统,其特征在于,所述分类器为RandomForest或XGBoost。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010055739.8A CN111275447B (zh) | 2020-01-17 | 2020-01-17 | 基于自动化特征工程的在线网络支付欺诈检测系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010055739.8A CN111275447B (zh) | 2020-01-17 | 2020-01-17 | 基于自动化特征工程的在线网络支付欺诈检测系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111275447A CN111275447A (zh) | 2020-06-12 |
CN111275447B true CN111275447B (zh) | 2023-08-29 |
Family
ID=71001701
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010055739.8A Active CN111275447B (zh) | 2020-01-17 | 2020-01-17 | 基于自动化特征工程的在线网络支付欺诈检测系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111275447B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114708608B (zh) * | 2022-06-06 | 2022-09-16 | 浙商银行股份有限公司 | 一种银行票据全自动化特征工程方法及装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679777A (zh) * | 2013-12-02 | 2015-06-03 | 中国银联股份有限公司 | 一种用于检测欺诈交易的方法及系统 |
WO2017143932A1 (zh) * | 2016-02-26 | 2017-08-31 | 中国银联股份有限公司 | 基于样本聚类的欺诈交易检测方法 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
CN109767225A (zh) * | 2018-12-12 | 2019-05-17 | 同济大学 | 一种基于自学习滑动时间窗口的网络支付欺诈检测方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150039512A1 (en) * | 2014-08-08 | 2015-02-05 | Brighterion, Inc. | Real-time cross-channel fraud protection |
-
2020
- 2020-01-17 CN CN202010055739.8A patent/CN111275447B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104679777A (zh) * | 2013-12-02 | 2015-06-03 | 中国银联股份有限公司 | 一种用于检测欺诈交易的方法及系统 |
WO2017143932A1 (zh) * | 2016-02-26 | 2017-08-31 | 中国银联股份有限公司 | 基于样本聚类的欺诈交易检测方法 |
CN108596434A (zh) * | 2018-03-23 | 2018-09-28 | 卫盈联信息技术(深圳)有限公司 | 欺诈检测和风险评估方法、系统、设备及存储介质 |
CN109767225A (zh) * | 2018-12-12 | 2019-05-17 | 同济大学 | 一种基于自学习滑动时间窗口的网络支付欺诈检测方法 |
Non-Patent Citations (1)
Title |
---|
Supervised_Machine_Learning_Algorithms_for_Credit_Card_Fraudulent_Transaction_Detection_A_Comparative_Study;Sahil Dhankhad;《2018 IEEE International Conference on Information Reuse and Integration for Data Science》;全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111275447A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8346691B1 (en) | Computer-implemented semi-supervised learning systems and methods | |
CN112600810B (zh) | 一种基于图分类的以太坊网络钓鱼诈骗检测方法及装置 | |
CN110084610B (zh) | 一种基于孪生神经网络的网络交易欺诈检测系统 | |
CN108734380B (zh) | 风险账户判定方法、装置及计算设备 | |
CN111178902B (zh) | 基于自动化特征工程的网络支付欺诈检测方法 | |
WO2021088499A1 (zh) | 一种基于动态网络表征的发票虚开识别方法及系统 | |
CN113011889B (zh) | 账号异常识别方法、系统、装置、设备及介质 | |
CN111325619A (zh) | 一种基于联合学习的信用卡欺诈检测模型更新方法及装置 | |
CN111127146A (zh) | 基于卷积神经网络与降噪自编码器的信息推荐方法及系统 | |
EP1316046A1 (en) | Multivariate responses using classification and regression trees systems and methods | |
Huang et al. | Enterprise risk assessment based on machine learning | |
CN111275447B (zh) | 基于自动化特征工程的在线网络支付欺诈检测系统 | |
CA3156642A1 (en) | Anti-fraud method and system based on automatic feature engineering | |
Zhu et al. | Loan default prediction based on convolutional neural network and LightGBM | |
Wang et al. | Temporal transaction information-aware Ponzi scheme detection for ethereum smart contracts | |
CN111539444A (zh) | 一种修正式模式识别及统计建模的高斯混合模型方法 | |
CN116644439A (zh) | 一种基于去噪扩散模型的模型安全性评估方法 | |
Smeekes et al. | High-dimensional forecasting in the presence of unit roots and cointegration | |
Sen et al. | Meta learning algorithms for credit card fraud detection | |
CN116071150A (zh) | 数据处理方法、银行产品推广、风控系统、服务器及介质 | |
CN113537960A (zh) | 一种异常资源转移链路的确定方法、装置和设备 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
Tian et al. | Synergetic Focal Loss for Imbalanced Classification in Federated XGBoost | |
Eria et al. | Decision support credit scoring model to improve loan default prediction in financial institutions | |
CN112529303A (zh) | 基于模糊决策的风险预测方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |