CN113139818A - 基于自动化特征工程的反欺诈方法及系统 - Google Patents
基于自动化特征工程的反欺诈方法及系统 Download PDFInfo
- Publication number
- CN113139818A CN113139818A CN202110479370.8A CN202110479370A CN113139818A CN 113139818 A CN113139818 A CN 113139818A CN 202110479370 A CN202110479370 A CN 202110479370A CN 113139818 A CN113139818 A CN 113139818A
- Authority
- CN
- China
- Prior art keywords
- feature
- structure tree
- transfer function
- fraud
- tree
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
- G06Q30/0185—Product, service or business identity fraud
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Accounting & Taxation (AREA)
- Entrepreneurship & Innovation (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Finance (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于自动化特征工程的反欺诈方法及系统,通过自动化特征工程能够快速、高效、规范化的对特征进行扩增。该方法包括:获取交易数据集得到交易记录特征向量及欺诈结果向量,构建原始字段特征的特征集合F0;基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa;计算当前节点的特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;利用特征集合Fs及特征集合Fa作为训练集,训练反欺诈模型。
Description
技术领域
本发明涉及人工智能技术领域,尤其涉及一种基于自动化特征工程的反欺诈方法及系统。
背景技术
互联网金融欺诈正导致诸多社会经济问题,网络支付是互联网金融中的典型模式之一,此模式中的欺诈交易也是互联网金融欺诈的主要形式之一。通过构建基于机器学习的欺诈检测模型来识别欺诈交易的方法已成为网络支付反欺诈领域的主流思路。在构建欺诈检测模型的过程中,特征工程是最为关键的一步,特征的质量将直接影响模型的性能,通常这也是最为耗时且对相关领域的专业知识要求最高的步骤。现有网络支付欺诈检测模型在特征工程上主要是领域专家基于业务知识以手动构造的形式来开展,而在网络支付模式下欺诈场景众多,不同场景下的特征构造流程不尽相同,人工特征构建方法已不能满足与日俱增的反欺诈需求。
发明内容
本发明的目的在于提供一种基于自动化特征工程的反欺诈方法及系统,通过自动化特征工程能够快速、高效、规范化的对特征进行扩增,从而提升反欺诈模型的训练精度,确保反欺诈模型识别结果的准确性。
为了实现上述目的,本发明的第一方面提供一种基于自动化特征工程的反欺诈方法,包括:
获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;
在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;
计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;
若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;
利用结构树叶子节点的所述特征集合Fs及所述特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。
优选地,还包括:
分别进入左右两部分子树,判断当前节点中交易数据集样本数是否低于设定的最小阈值T,以及判断交易数据集的纯度是否高于设定的阈值G;
若前节点中交易数据集样本数低于设定的最小阈值T,且交易数据集的纯度高于设定的阈值G则到达叶子节点,结构树构建完毕;
若前节点中交易数据集样本数未低于设定的最小阈值T,和/或,交易数据集的纯度未高于设定的阈值G则重复构造下一节点的特征集合Fs及对应的所述特征集合Fa,直至到达叶子节点结构树构建完毕。
较佳地,获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0的方法包括:
获取的交易数据集D={X,Y},其中,X={x1,x2…,xn},Y={y1,y2,…,yn},所述xi表示第i条交易记录的特征向量,所述yi表示第i条交易记录的欺诈结果向量,所述1≤i≤n;
基于n条交易记录的特征向量集合,构建特征集合F0。
进一步地,所述转换函数的类型包括纵向方式的转换函数、横向方式的转换函数、时间窗口方式的转换函数中的一种或多种;
预设的转换函数数量为k个,所述W={w1,w2,…,wk}表示各转换函数对应的权重向量。
进一步地,在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征及所述特征集合F0中的原始字段特征的方法包括:
初始化每个转换函数的最近平均信息增益效用列表lo,增益效用列表lo的长度设为k,每个转换函数对应的最近平均信息增益的初始值为0;
在构建结构树的当前节点过程中,从特征集合F0的s个原始字段特征中筛选出r个原始字段特征用来构建新特征,使用当前转换函数m分别将筛选出的每个新特征fi作为结构树划分属性的信息增益gfi,计算当前转换函数m的最近平均信息增益go并更新入增益效用列表lo,以及基于增益效用列表lo和最近平均信息增益go计算出当前转换函数m的奖励值β,所述转换函数的初始值为1,令m=m+1,重复下一个转换函数奖励值β的计算;
根据各转换函数的奖励值β更新对应转换函数的权重,归一化后更新每个转换函数的权重。
优选地,在下一级子节点特征集合Fs及对应的特征集合Fa构建过程中使用权重最大的转换函数。
示例性地,所述奖励值β的计算方法包括:
与现有技术相比,本发明提供的基于自动化特征工程的反欺诈方法具有以下有益效果:
本发明提供的基于自动化特征工程的反欺诈方法中,首先获取交易数据集,经清洗处理后得到每条交易记录的特征向量以及对应的欺诈结果向量,并汇总所有交易记录构建包括全部原始字段特征的特征集合F0,然后利用树结构对特征进行自动化扩增,在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,特征集合Fa包括线性扩展的新特征r及特征集合F0中的原始字段特征,然后计算当前节点的特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树,若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs,最终利用结构树叶子节点的特征集合Fs及对应的特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。
可见,本发明使用树结构,在数据集进行划分的同时实现特征的构造,通过定制化的转换函数设计,能够构造出面向各种反欺诈场景,尤其是网络支付场景的特征,其在节点处进行局部特征构造时保留构造的新特征,以此作为下个节点的基础特征来构造新特征,从而实现复杂特征的构造。进而通过自动化特征工程能够快速、高效、规范化的对特征进行扩增,从而提升反欺诈模型的训练精度,确保反欺诈模型识别结果的准确性。
本发明的第二方面提供一种基于自动化特征工程的反欺诈装置,应用于上述技术方案所述的基于自动化特征工程的反欺诈方法中,所述装置包括:
采集单元,用于获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;
线性扩增单元,用于在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;
增益计算单元,用于计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;
非线性扩增单元,用于若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;
模型训练单元,用于利用结构树叶子节点的所述特征集合Fs及所述特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。
与现有技术相比,本发明提供的基于自动化特征工程的反欺诈装置的有益效果与上述技术方案提供的基于自动化特征工程的反欺诈方法的有益效果相同,在此不做赘述。
本发明的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于自动化特征工程的反欺诈方法的步骤。
与现有技术相比,本发明提供的计算机可读存储介质的有益效果与上述技术方案提供的基于自动化特征工程的反欺诈方法的有益效果相同,在此不做赘述。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明实施例中基于自动化特征工程的反欺诈方法的流程示意图;
图2为本发明实施例中反欺诈模型的训练流程示意图;
图3为本发明实施例中特征结构树算法的整体框架示意图;
图4为本发明实施例中纵向方式的转换函数的作用域示意图;
图5为本发明实施例中横向方式的转换函数的作用域示意图;
图6为本发明实施例中时间窗口方式的转换函数的作用域示意图;
图7为本发明实施例中特征结构树的示例图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本发明保护的范围。
实施例一
请参阅图1,本实施例提供一种基于自动化特征工程的反欺诈方法,包括:
获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;利用结构树叶子节点的所述特征集合Fs及所述特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。
本实施例提供的基于自动化特征工程的反欺诈方法中,首先获取交易数据集,经清洗处理后得到每条交易记录的特征向量以及对应的欺诈结果向量,并汇总所有交易记录构建包括全部原始字段特征的特征集合F0,然后利用树结构对特征进行自动化扩增,在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,特征集合Fa包括线性扩展的新特征r及特征集合F0中的原始字段特征,然后计算当前节点的特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树,若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs,最终利用结构树叶子节点的特征集合Fs及对应的特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。
可见,本实施例使用树结构,在数据集进行划分的同时实现特征的构造,通过定制化的转换函数设计,能够构造出面向各种反欺诈场景,尤其是网络支付场景的特征,其在节点处进行局部特征构造时保留构造的新特征,以此作为下个节点的基础特征来构造新特征,从而实现复杂特征的构造。进而通过自动化特征工程能够快速、高效、规范化的对特征进行扩增,从而提升反欺诈模型的训练精度,确保反欺诈模型识别结果的准确性。
具体实施时,针对反欺诈场景,例如网络支付场景的欺诈检测模型的设计流程如图2所示,其中主要包括数据获取、数据预处理、特征工程、模型选择与训练、实时测试与维护这几个步骤,而特征工程是实现自动化扩增特征的重要手段,故本实施例对特征工程的各部分详细展开说明,详细介绍所提出的面向网络支付欺诈检测的自动化特征工程方法的实现细节。
本实施例采用了定制化特征构造树的自动化特征工程方法来自动进行特征构造。其实现算法主要涵盖三个部分,如图3所示,包括:第一部分是针对互联网金融网络支付的定制化转换函数设计;第二部分是定制化特征构造树中每个节点处的局部特征构造流程;第三部分是定制化特征构造树中转换函数权重向量的时效性更新机制。具体如下:
第一部分,定制化转换函数设计:
特征构造是对原始特征字段进行变换的过程,其会涉及到转换函数的概念,转换函数囊括了代数运算、集成计算等操作,同时还可以进行特征缩放或者将特征与类别的关系从一个非线性关系转化为线性关系,它可以把特征从原始空间映射到一个全新的特征空间当中去,也可改变原始特征的分布状况,并可以改变原始特征的取值覆盖范围等,这些转换的目的都是为了生成新的特征。转换函数的类别可以按照其输入所需的特征数量来划分,其可以被划分为一元转换函数、二元转换函数和多元转换函数。为了减少数据处理量,本实施例优选的转换函数只涉及到一元转换函数和二元转换函数。本实施例根据转换函数的工作域方式,将转换函数主要划分为三类:纵向方式的转换函数、横向方式的转换函数和时间窗口方式的转换函数。
具体来讲,纵向方式的转换函数是作用在单个特征或多个特征属性之间的转换函数。如图4所示,转换函数作用于单个特征的,比如可以对交易金额这一列特征求开方值,从而获得一列新特征,相类似的还可以计算平方、sigmoid和tanh值等。转换函数作用在特征之间的,比如可以对两个虚线框中的交易金额和特征2这两个字段求差值,从而获得一列新特征,类似的还可以在特征之问作加法和乘法等。总之,纵向方式的转换函数对于每一条交易记录数据的计算环节发生在单个字段列或者多个字段列之间。
横向方式的转换函数是作用在一个特征字段下的多个不同样本之间的转换函数,如图5所示。比如可以对交易金额这一列特征按用户分组求相邻两笔交易的差,获得用户交易金额差的新一列特征,也可以对交易金额这一列特征按用户分组进行累积求和,获得用户累积交易金额的新一列特征。类似地,还可以计算某个特征的频率、群体累计求和或者累积计数等。总之,横向方式的转换函数的计算环节发生在一个字段下的多个行之间。
时间窗口方式的转换函数利用了滑动时间窗口的概念,这对于分析在一段时间内的交易行为特征具有重要的作用;它是作用在同一个特征字段上对时间窗口内的多个样本进行操作的转换函数。如图6所示,比如可以对交易金额这一列特征按用户分组求一段时间内的累积和,获得用户一段时间内的累积交易金额这一列新特征。类似地,时间窗口方式的转换函数还可以对时间窗口内的交易金额求极值、均值、方差、计数、非重计数、众数等。
第二部分,节点处局部特征构造流程:
如图7所示的特征构造树,本实施例定制化的特征构造树在每个节点处不仅仅在交易记录的原始特征集合的基础上构造新特征,还存在转换函数的组合,即在构造出来的新特征的基础上继续构造特征。这里特征构造树保留了父节点上构造出的用来划分数据集的特征,与原始特征组成新的、扩充的特征空间,在此扩充的特征空间上再进行特征构造并选择划分数据集的特征。这种局部特征构造流程增加了转换函数的组合功能,扩充了特征空间的搜寻范围。
上述实施例中获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0的方法包括:
获取的交易数据集D={X,Y},其中,X={x1,x2…,xn},Y={y1,y2,…,yn},所述xi表示第i条交易记录的特征向量,所述yi表示第i条交易记录的欺诈结果向量,所述1≤i≤n;基于n条交易记录的特征向量集合,构建特征集合F0。
具体实施时,在互联网金融网络支付反欺诈中,假设D是整个网络支付交易数据集,D={X,Y},其中X={x1,x2…,xn},其中xi对应的是第i条交易记录的各个字段,即一条特征向量,X代表所有交易记录的特征向量集合;Y={y1,y2,…,yn},其中yi对应的是第i条交易记录是否欺诈的结果,其取值yi={0,1},0为正常,1为异常,Y代表所有交易记录标签的集合。两者共同组成了整个数据集D,数据集中交易记录样本的总数为n。
令F0表示数据集中的原始字段的特征集合,Fa表示当前节点上包含新特征的特征总集合,其既包括原始字段的特征集合又包括能够通过转换函数新构造出来的并用来划分数据集的新特征r,Fs表示结构树中节点处被选择用来划分数据集的新特征及其构造过程的集合。表1为各特征集合的示例。
表1
上述实施例中,转换函数的类型包括纵向方式的转换函数、横向方式的转换函数、时间窗口方式的转换函数中的一种或多种;其中,预设的转换函数数量为k个,W={w1,w2,…,wk}表示各转换函数对应的权重向量。
具体实施时,令O表示所用到的转换函数集合,并用W={w1,w2,…,wk}来表示转换函数集合的权重向量,wi代表第i个转换函数的权重,权重越高则表明该转换函数被选中的概率也就越大,上述集合中转换函数的总个数为k,gf代表在节点处选择特征f作为结构树划分属性得到的信息增益;可以理解的是,信息增益等同于ID3决策树中信息增益的计算方式,信息增益也可以替换为CART决策树中的GINI指数,本实施例以下的算法设计和实验部分都是基于信息增益来进行的。go代表在节点处使用转换函数生成的所有特征分别作为划分属性得到的信息增益的均值,代表转换函数最近m次被选中的平均信息增益效用的列表,m是列表lo的长度,代表使用t时刻选择的转换函数生成的所有新特征作为划分属性得到的平均信息增益效用值。
在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征及所述特征集合F0中的原始字段特征的方法包括:
初始化转换函数的权重w,使得每个转换函数的权重初始化每个转换函数的最近平均信息增益效用列表lo,增益效用列表lo的长度设为k,每个转换函数对应的最近平均信息增益的初始值为0;在构建结构树的当前节点过程中,从特征集合F0的s个原始字段特征中筛选出r个原始字段特征用来构建新特征,使用当前转换函数m分别将筛选出的每个新特征fi作为结构树划分属性的信息增益gfi,计算当前转换函数m的最近平均信息增益go并更新入增益效用列表lo,以及基于增益效用列表lo和最近平均信息增益go计算出转换函数m的奖励值β,所述转换函数的初始值为1,令m=m+1,重复下一个转换函数奖励值β的计算;根据各转换函数的奖励值β更新对应转换函数的权重,归一化后更新每个转换函数的权重。
上述实施例还包括:分别进入左右两部分子树,判断当前节点中交易数据集样本数是否低于设定的最小阈值T,以及判断交易数据集的纯度是否高于设定的阈值G;若前节点中交易数据集样本数低于设定的最小阈值T,且交易数据集的纯度高于设定的阈值G则到达叶子节点,结构树构建完毕;若前节点中交易数据集样本数未低于设定的最小阈值T,和/或,交易数据集的纯度未高于设定的阈值G则重复构造下一节点的特征集合Fs及对应的所述特征集合Fa,直至到达叶子节点结构树构建完毕。也即需要获取多个交易数据集样本进行结构树的构建。
结构树的结构如图7所示,下面具体介绍整个结构树进行特征构造的步骤。
步骤2:在结构树的某个节点上,根据转换函数的权值向量W,依概率选中一个转换函数(权重值越大的转换函数被选中的概率越大)。若其为一元转换函数,则在此节点对应的数据集上,从特征集合F0中的s个特征中选择出r个不同的特征,其中r≤s,并且s=|Fa|,即对集合Fa的大小进行设定。在这r个特征上应用此转换函数,构造出r个新特征;若其为二元转换函数,则在此节点对应的数据集上,从数据集中所有的s个特征中选择出r组不同的特征对,其中r≤C2 s,在这r组特征对上应用此转换函数,构造出r个新特征;
步骤3:对构造出来的r个新特征和节点中原来的特征Fa,分别计算用每个新特征f作为划分属性的信息增益gf,选择信息增益最大的特征f作为划分属性,根据特征f的具体划分值将数据集划分成左右两部分,并分裂成左右两部分子树,将样本中特征f的取值小于具体划分值的样本归并到左子树中,相对地,另外一部分归并到右子树中,它们分别对应左儿子和右儿子节点。若特征广为新构造出来的特征,则将新特征f添加到新构造出来的特征集合Fa当中去,即Fa=Fa∪f,且将特征f及其构造过程并入集合Fs中去,需要说明的是公式中的等号表示赋值含义;
步骤4:根据下文中转换函数权重向量的时效性更新机制更新转换函数的权重值;
步骤5:分别进入左儿子和右儿子节点,判断节点中子数据集样本数是否低于设定的最小阈值T,和/或,子数据集样本的纯度是否高于设定的阈值G;若是,则到达叶子节点,结束流程;若不是,则重复步骤2~4,直至到达叶子节点。当结构树构造完毕,则进入步骤6;
步骤6:整棵结构树的构造完毕后,最终得到特征集合Fs中的特征即为由特征构造树构造出来的新特征及其构造过程。
优选地,上述实施例在下一节点特征集合Fs的构建过程中所使用的转换函数为更新后权重最大的转换函数。
上述实施例中,转换函数权重向量的时效性更新机制内容如下:
具体实施时,本实施例采用信息增益均值来评价各个转换函数构造出的特征的优劣,具体来说,在节点处,通过一个转换函数首先构造出r个新特征,信息增益均值代表的是分别用这些新特征作为数据集的划分属性,得到的信息增益的均值。若一个转换函数的信息增益均值比较高,则其构造出的特征相对来说就是性能较好的,因此应该增加此转换函数的权重,使其具有更高的几率在之后的节点中被选中,相反,信息增益均值较低的转换函数被后续节点选中的几率相应地就应该降低。但是,如果每次选中某个转换函数得到的性能评价都是高的或者都是低的,就会造成某些转换函数的权值变得很高,而某些转换函数的权值变得很低,在后续节点上,转换函数的选择会偏向其中的某个或某几个,造成构造出的特征过于单一的情况。这是一个探索和利用的权衡(Trade—off)问题,既要利用已有的具有更高权重的转换函数,也要考虑到其它转换函数。因此每个转换函数都需要维护一个最近平均信息增益效用列表,根据转换函数最近的性能表现来更新其对应的权重向量,增强时效性,保证权值向量不会收敛到某个或某几个值,使构造的特征更具广泛性。
其步骤如下:
步骤1:根据上述实施例中特征构造的步骤,若当前节点选择出的转换函数为m,则根据其构造出所有r个新特征,分别将其作为数据集的划分属性,按如下公式计算得到平均信息增益go,
其中,代表使用由转换函数m构造出的第i个新特征fi作为划分属性得到的信息增益。利用go来更新当前转换函数m的最近平均信息增益效用列表lo,将此平均信息增益go添加到列表lo的末尾,删除列表lo头的第一个值。
步骤2:根据当前转换函数m的最近平均信息增益效用列表lo和平均信息增益go,计算出当前转换函数的奖励值β。
步骤3:根据当前转换函数m的奖励值β,按照式(3)更新转换函数的权值向量,再按照式(4)进行转换函数权值向量的归一化;
其中,Wo表示更新前转换函数m的权重值,Wo’表示更新后的转换函数m的权重,式(3)中Wo随奖励β增加而单调增加,也就是说奖励值越高,转换函数权重的增加幅度越大,a控制着权重更新的速率;
步骤4:在下一个节点,根据新的转换函数的权值向量,依概率选择出当前转换函数m,重复步骤1~3直至到达叶子节点。
综上,针对网络支付反欺诈问题,本实施例提出了一种定制化的特征构造树的自动化特征工程方法。该方法通过使用树结构,在数据集进行划分的同时实现特征的构造;通过定制化的转换函数设计,能够构造出面向网络支付的特征;其在节点处进行局部特征构造时保留构造的新特征,以此作为下个节点的基础特征来构造新特征,从而实现复杂特征的构造;其具有转换函数权重向量的时效性更新机制,避免转换函数权重陷入局部极值,保证特征构造的广泛性。该方法的创新点包括但不限于如下:
1、方法中转换函数的设计是可以进行扩展而不影响算法的整体结构的,后续可以增加更多的转换函数类型;
2、尝试在更多不同网络支付场景中的具有更大时间跨度的数据集上验证所提方法的有效性和通用性;
3、考虑将此在线网络支付模式下的自动化特征工程方法推广到互联网金融的领域下的其它模式。
实施例二
本实施例提供一种基于自动化特征工程的反欺诈装置,包括:
采集单元,用于获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;
线性扩增单元,用于在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;
增益计算单元,用于计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;
非线性扩增单元,用于若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;
模型训练单元,用于利用结构树叶子节点的所述特征集合Fs及所述特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。
与现有技术相比,本发明实施例提供的基于自动化特征工程的反欺诈装置的有益效果与上述实施例一提供的基于自动化特征工程的反欺诈方法的有益效果相同,在此不做赘述。
实施例三
本实施例提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述基于自动化特征工程的反欺诈方法的步骤。
与现有技术相比,本实施例提供的计算机可读存储介质的有益效果与上述技术方案提供的基于自动化特征工程的反欺诈方法的有益效果相同,在此不做赘述。
本领域普通技术人员可以理解,实现上述发明方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,上述程序可以存储于计算机可读取存储介质中,该程序在执行时,包括上述实施例方法的各步骤,而的存储介质可以是:ROM/RAM、磁碟、光盘、存储卡等。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于自动化特征工程的反欺诈方法,其特征在于,包括:
获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;
在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;
计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;
若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;
利用结构树叶子节点的所述特征集合Fs及所述特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。
2.根据权利要求1所述的方法,其特征在于,还包括:
分别进入左右两部分子树,判断当前节点中交易数据集样本数是否低于设定的最小阈值T,以及判断交易数据集的纯度是否高于设定的阈值G;
若前节点中的交易数据集样本数低于设定的最小阈值T,且交易数据集的纯度高于设定的阈值G则到达叶子节点,结构树构建完毕;
若前节点中的交易数据集样本数未低于设定的最小阈值T,和/或,交易数据集的纯度未高于设定的阈值G则重复构造下一节点的特征集合Fs及对应的所述特征集合Fa,直至到达叶子节点结构树构建完毕。
3.根据权利要求2所述的方法,其特征在于,获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0的方法包括:
获取的交易数据集D={X,Y},其中,X={x1,x2...,xn},Y={y1,y2,...,yn},所述xi表示第i条交易记录的特征向量,所述yi表示第i条交易记录的欺诈结果向量,所述1≤i≤n;
基于n条交易记录的特征向量集合,构建特征集合F0。
4.根据权利要求2或3所述的方法,其特征在于,所述转换函数的类型包括纵向方式的转换函数、横向方式的转换函数、时间窗口方式的转换函数中的一种或多种;
预设的转换函数数量为k个,所述W={w1,w2,...,wk}表示各转换函数对应的权重向量。
5.根据权利要求4所述的方法,其特征在于,在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征及所述特征集合F0中的原始字段特征的方法包括:
初始化每个转换函数的最近平均信息增益效用列表lo,增益效用列表lo的长度设为k,每个转换函数对应的最近平均信息增益的初始值为0;
在构建结构树的当前节点过程中,从特征集合F0的s个原始字段特征中筛选出r个原始字段特征用来构建新特征,使用当前转换函数m分别将筛选出的每个新特征fi作为结构树划分属性的信息增益gfi,计算当前转换函数m的最近平均信息增益go并更新入增益效用列表lo,以及基于增益效用列表lo和最近平均信息增益go计算出当前转换函数m的奖励值β,所述转换函数的初始值为1,令m=m+1,重复下一个转换函数奖励值β的计算;
根据各转换函数的奖励值β更新对应转换函数的权重,归一化后更新每个转换函数的权重。
6.根据权利要求5所述的方法,其特征在于,在下一级子节点特征集合Fs及对应的特征集合Fa构建过程中使用权重最大的转换函数。
9.一种基于自动化特征工程的反欺诈装置,其特征在于,包括:
采集单元,用于获取交易数据集,处理后得到交易记录特征向量及欺诈结果向量,并构建原始字段特征的特征集合F0;
线性扩增单元,用于在构建结构树的当前节点过程中,基于预设的转换函数对特征集合F0中的原始字段特征进行线性计算得到特征集合Fa,所述特征集合Fa包括线性扩展的新特征r及所述特征集合F0中的原始字段特征;
增益计算单元,用于计算所述当前节点的所述特征集合Fa中每个新特征分别作为结构树划分属性的信息增益gf,选择最大的信息增益gf对应的特征f作为划分属性,将交易数据集划分成左右两部分子树得到结构树;
非线性扩增单元,用于若特征f属于新特征则添加入结构树当前节点的特征集合Fa中,同时将特征f及其构造所用的转换函数合并入特征集合Fs;
模型训练单元,用于利用结构树叶子节点的所述特征集合Fs及所述特征集合Fa作为训练集,训练用于识别欺诈交易的反欺诈模型。
10.一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,其特征在于,计算机程序被处理器运行时执行上述权利要求1至7任一项所述方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479370.8A CN113139818A (zh) | 2021-04-30 | 2021-04-30 | 基于自动化特征工程的反欺诈方法及系统 |
CA3156642A CA3156642A1 (en) | 2021-04-30 | 2022-04-26 | Anti-fraud method and system based on automatic feature engineering |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110479370.8A CN113139818A (zh) | 2021-04-30 | 2021-04-30 | 基于自动化特征工程的反欺诈方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113139818A true CN113139818A (zh) | 2021-07-20 |
Family
ID=76816763
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110479370.8A Pending CN113139818A (zh) | 2021-04-30 | 2021-04-30 | 基于自动化特征工程的反欺诈方法及系统 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN113139818A (zh) |
CA (1) | CA3156642A1 (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722739A (zh) * | 2021-09-06 | 2021-11-30 | 京东科技控股股份有限公司 | 梯度提升树模型的生成方法、装置、电子设备和存储介质 |
CN114708608A (zh) * | 2022-06-06 | 2022-07-05 | 浙商银行股份有限公司 | 一种银行票据全自动化特征工程方法及装置 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178902A (zh) * | 2019-12-12 | 2020-05-19 | 同济大学 | 基于自动化特征工程的网络支付欺诈检测方法 |
-
2021
- 2021-04-30 CN CN202110479370.8A patent/CN113139818A/zh active Pending
-
2022
- 2022-04-26 CA CA3156642A patent/CA3156642A1/en active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178902A (zh) * | 2019-12-12 | 2020-05-19 | 同济大学 | 基于自动化特征工程的网络支付欺诈检测方法 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113722739A (zh) * | 2021-09-06 | 2021-11-30 | 京东科技控股股份有限公司 | 梯度提升树模型的生成方法、装置、电子设备和存储介质 |
CN113722739B (zh) * | 2021-09-06 | 2024-04-09 | 京东科技控股股份有限公司 | 梯度提升树模型的生成方法、装置、电子设备和存储介质 |
CN114708608A (zh) * | 2022-06-06 | 2022-07-05 | 浙商银行股份有限公司 | 一种银行票据全自动化特征工程方法及装置 |
CN114708608B (zh) * | 2022-06-06 | 2022-09-16 | 浙商银行股份有限公司 | 一种银行票据全自动化特征工程方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CA3156642A1 (en) | 2022-10-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021164382A1 (zh) | 针对用户分类模型进行特征处理的方法及装置 | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
US7283982B2 (en) | Method and structure for transform regression | |
JP2003526139A (ja) | 抱き合わせ販売マーケティング・キャンペーンの正味現在価値を最適化するための方法 | |
CN109800884B (zh) | 模型参数的处理方法、装置、设备和计算机存储介质 | |
CN113139818A (zh) | 基于自动化特征工程的反欺诈方法及系统 | |
CN111368147B (zh) | 图特征处理的方法及装置 | |
CN111210072B (zh) | 预测模型训练和用户资源额度确定方法及装置 | |
CN111178902B (zh) | 基于自动化特征工程的网络支付欺诈检测方法 | |
CN110689427A (zh) | 一种基于生存分析的消费分期违约概率模型 | |
CN111932091A (zh) | 一种基于梯度生存提升树的生存分析风险函数预测方法 | |
CN112819256A (zh) | 一种基于注意力机制的卷积时序房价预测方法 | |
CN111275447B (zh) | 基于自动化特征工程的在线网络支付欺诈检测系统 | |
CN115907775A (zh) | 基于深度学习的个人征信评级方法及其应用 | |
CN115081253A (zh) | 数据处理方法以及装置 | |
CN110297977B (zh) | 一种面向众筹平台的个性化推荐单目标进化方法 | |
CN111984842B (zh) | 银行客户数据处理方法及装置 | |
CN114820160A (zh) | 一种借贷利率预估方法、装置、设备及可读存储介质 | |
CN117194966A (zh) | 对象分类模型的训练方法和相关装置 | |
CN114707660A (zh) | 联邦模型的训练方法及装置、存储介质、电子设备 | |
CN113554099A (zh) | 一种识别异常商户的方法及装置 | |
CN113379533A (zh) | 一种循环贷款提额方法、装置、设备及存储介质 | |
CN115034799A (zh) | 营销预测方法、装置、电子设备及存储介质 | |
Setnes et al. | Fuzzy target selection in direct marketing | |
Ribeiro et al. | Information theoretic approach for accounting classification |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210720 |
|
RJ01 | Rejection of invention patent application after publication |