CN111539733B - 基于全中心损失函数的欺诈交易识别方法、系统、装置 - Google Patents
基于全中心损失函数的欺诈交易识别方法、系统、装置 Download PDFInfo
- Publication number
- CN111539733B CN111539733B CN202010301402.0A CN202010301402A CN111539733B CN 111539733 B CN111539733 B CN 111539733B CN 202010301402 A CN202010301402 A CN 202010301402A CN 111539733 B CN111539733 B CN 111539733B
- Authority
- CN
- China
- Prior art keywords
- loss function
- layer
- full
- deep learning
- center loss
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 44
- 230000006870 function Effects 0.000 claims abstract description 147
- 238000013136 deep learning model Methods 0.000 claims abstract description 98
- 238000012549 training Methods 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims description 15
- 238000004590 computer program Methods 0.000 claims description 12
- 238000011478 gradient descent method Methods 0.000 claims description 8
- 239000011159 matrix material Substances 0.000 claims description 8
- 238000010276 construction Methods 0.000 claims description 7
- 230000000694 effects Effects 0.000 abstract description 6
- 238000012545 processing Methods 0.000 description 12
- 238000004364 calculation method Methods 0.000 description 8
- 238000012360 testing method Methods 0.000 description 7
- 238000001514 detection method Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 230000006399 behavior Effects 0.000 description 4
- 238000002474 experimental method Methods 0.000 description 4
- 238000000926 separation method Methods 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000003491 array Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 239000000654 additive Substances 0.000 description 1
- 230000000996 additive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/40—Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
- G06Q20/401—Transaction verification
- G06Q20/4016—Transaction verification involving fraud or risk level assessment in transaction processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/047—Probabilistic or stochastic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q20/00—Payment architectures, schemes or protocols
- G06Q20/38—Payment protocols; Details thereof
- G06Q20/389—Keeping log of transactions for guaranteeing non-repudiation of a transaction
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/04—Trading; Exchange, e.g. stocks, commodities, derivatives or currency exchange
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02T—CLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
- Y02T10/00—Road transport of goods or passengers
- Y02T10/10—Internal combustion engine [ICE] based vehicles
- Y02T10/40—Engine management systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Business, Economics & Management (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Computer Security & Cryptography (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Technology Law (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于全中心损失函数的欺诈交易识别方法、系统、装置,所述方法包括以下步骤:构建基于全中心损失函数的深度学习模型;使用标注好的电子交易数据训练所述深度学习模型直到模型收敛,获得深度学习模型的参数;将所述参数带入所述深度学习模型生成欺诈交易识别模型。本发明的一种基于全中心损失函数的欺诈交易识别方法、系统、装置,用于构建基于全中心损失函数的深度学习模型,从而生成欺诈交易识别模型,用于进行电子交易的欺诈交易识别,提升欺诈交易识别的效果。
Description
技术领域
本发明涉及互联网金融风控技术领域,特别是涉及一种基于全中心损失函数的欺诈交易识别方法、系统、装置。
背景技术
长久以来,欺诈和反欺诈一直在动态博弈。当今互联网时代,电子交易成为最便捷的交易方式之一,然而这也为不法分子利用新技术实施欺诈提供了条件,每年都会造成巨额的经济损失,影响金融秩序。因此,有效的欺诈检测系统对于银行和金融机构在线检测或监视交易至关重要。不同的欺诈检测系统具有相同的目标,即从海量的交易日志中挖掘可疑的交易模式,以便将这些可疑交易模式用于检测或监视输入的交易。机器学习模型对于挖掘这些模式非常有效,机器学习将欺诈交易识别看作是有监督学习的二分类任务。机器学习模型使用大量的已经标注好的交易记录能够进行充分地学习,并得到性能良好的分类器来准确识别欺诈交易。机器学习在检测欺诈交易方面已经取得了巨大的成功,但是欺诈检测系统的改进将永无止境,即使一点进步也能够挽回巨大的经济损失。
基于机器学习模型的欺诈交易检测比传统二分类任务(如图像分类等)更具挑战性。主要有两个原因:数据集中的类别不平衡,以及用户和欺诈者行为的动态多变。一方面,通常在所有交易记录中仅包含极少数的欺诈交易记录,因此这严重影响了监督分类方法的性能。不过幸运的是,针对类别不均衡问题已经有很多方法来处理,比如基于数据采样的方法和基于代价敏感的方法。另一方面,欺诈分子会绞尽脑汁探索新的欺诈策略,使得欺诈交易与真实的正常交易尽可能的相似,以避免被欺诈检测系统发现。尽管欺诈分子试图像真实的持卡人那样进行交易,但是他们无法知道持卡人的实际交易习惯,他们渴望将卡内的所有资金尽快转移到其他帐户。因此,这些不同的交易行为和心理导致欺诈和真实交易数据之间会有不同特征。欺诈策略可能会更改,但是欺诈分子的目的永远不会改变。因此,提取即使在欺诈策略发生变化的情况下,也能够稳定地将欺诈交易与真实交易区分开的有效特征非常重要。
因此,本发明提出基于全中心损失函数的欺诈交易识别方法,提出全中心损失函数来监督深度学习模型的训练,希望使得此深度学习模型能够学习到区分欺诈和正常交易行为的有效特征表示,希望在保证准确识别欺诈交易的同时让模型的性能尽可能稳定而不受欺诈策略变化的影响。
发明内容
鉴于以上所述现有技术的缺点,本发明的目的在于提供一种基于全中心损失函数的欺诈交易识别方法、系统、装置,用于解决现有技术中如何使得此深度学习模型能够学习到区分欺诈和正常交易行为的有效特征表示,如何在保证准确识别欺诈交易的同时让模型的性能尽可能稳定而不受欺诈策略变化的影响的问题。
为实现上述目的及其他相关目的,本发明提供一种基于全中心损失函数的欺诈交易识别方法,包括以下步骤:构建基于全中心损失函数的深度学习模型;使用标注好的电子交易数据训练所述深度学习模型直到模型收敛,获得深度学习模型的参数;将所述参数带入所述深度学习模型生成欺诈交易识别模型。
于本发明的一实施例中,所述深度学习模型由特征学习层和输出层构成;其中,所述深度学习模型表示为:
DL(xi)=FΘ(xi)=ypred_i
其中,Θ表示深度学习模型的参数,xi表示输入深度学习模型的第i个样本,ypred_i表示深度学习模型输出的结果;其中,深度学习模型由特征学习层和输出层两部分构成;特征学习层表示为:
其中Θfl表示特征学习层的全部参数;fi表示特征学习层输出的特征;基于全中心损失函数构造的神经网络作为输出层,输出层表示为:
其中Θop表示输出层的参数,W表示全中心损失函数的权重;fi表示特征学习层的输出, ypred_i表示深度学习模型的输出;T表示为W矩阵的转置;则基于全中心损函数的深度学习模型表示为:
于本发明的一实施例中,所述全中心损失函数为:
其中,cyi表示xi对应的类别yi的中心点,cyi由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);α表示用来平衡两部分损失的超参数。
于本发明的一实施例中,所述参数为:Θfl,W,{ck};其中,Θfl表示特征学习层的全部参数;W表示全中心损失函数的权重,{ck},其中,表示xi对应的类别yi的中心点,cyi由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);采用梯度下降的方法计算所述参数Θfl,W,{ck};
其中,Θ′fl是Θfl更新后的特征学习层的全部参数;
其中,W′为W更新后的全中心损失函数的参数
c′k=ck-Δck
其中,c′k为ck更新后的所有的类别中心。
为实现上述目的,本发明还提供一种基于全中心损失函数的欺诈交易识别系统,包括:构建模块、训练模块和生成模块;所述构建模块用于构建基于全中心损失函数的深度学习模型;所述训练模块用于使用标注好的电子交易数据训练所述深度学习模型直到模型收敛,获得深度学习模型的参数;所述生成模块用于将所述参数带入所述深度学习模型生成欺诈交易识别模型。
于本发明的一实施例中,所述深度学习模型由特征学习层和输出层构成;其中,所述深度学习模型表示为:
DL(xi)=FΘ(xi)=ypred_i
其中,Θ表示深度学习模型的参数,xi表示输入深度学习模型的第i个样本,ypred_i表示深度学习模型输出的结果;其中,深度学习模型由特征学习层和输出层两部分构成;特征学习层表示为:
其中Θfl表示特征学习层的全部参数;fi表示特征学习层输出的特征;基于全中心损失函数构造的神经网络作为输出层,输出层表示为:
其中Θop表示输出层的参数,W表示全中心损失函数的权重;fi表示特征学习层的输出, ypred_i表示深度学习模型的输出;T表示为W矩阵的转置;则基于全中心损函数的深度学习模型表示为:
于本发明的一实施例中,所述全中心损失函数为:
其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到, yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);α表示用来平衡两部分损失的超参数。
于本发明的一实施例中,所述参数为:Θfl,W,{ck};其中,Θfl表示特征学习层的全部参数;W表示全中心损失函数的权重,{ck},其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);采用梯度下降的方法计算所述参数Θfl,W,{ck};
其中,Θ′fl是Θfl更新后的特征学习层的全部参数;
其中,W′为W更新后的全中心损失函数的参数
c′k=ck-Δck
其中,c′k为ck更新后的所有的类别中心。
为实现上述目的,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现任一上述基于全中心损失函数的欺诈交易识别方法。
为实现上述目的,本发明还提供一种基于全中心损失函数的欺诈交易识别装置,包括:处理器和存储器;所述存储器用于存储计算机程序;所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述基于全中心损失函数的欺诈交易识别装置执行任一上述的基于全中心损失函数的欺诈交易识别方法。
如上所述,本发明的一种基于全中心损失函数的欺诈交易识别方法、系统、装置,具有以下有益效果:用于构建基于全中心损失函数的深度学习模型,从而生成欺诈交易识别模型,用于进行电子交易的欺诈交易识别,提升欺诈交易识别的效果。
附图说明
图1a显示为本发明的基于全中心损失函数的欺诈交易识别方法于一实施例中的流程图;
图1b和1c显示为本发明的基于全中心损失函数的欺诈交易识别方法于一实施例中的各个损失函数性能变化图;
图1d显示为本发明的基于全中心损失函数的欺诈交易识别方法于一实施例中的模型图;
图1e显示为本发明的基于全中心损失函数的欺诈交易识别方法于又一实施例中的流程图;
图2显示为本发明的基于全中心损失函数的欺诈交易识别系统于一实施例中的结构示意图;
图3显示为本发明的基于全中心损失函数的欺诈交易识别装置于一实施例中的结构示意图。
元件标号说明
21 构建模块
22 训练模块
23 生成模块
31 处理器
32 存储器
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
需要说明的是,以下实施例中所提供的图示仅以示意方式说明本发明的基本构想,故图式中仅显示与本发明中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。
本发明的基于全中心损失函数的欺诈交易识别方法、系统、装置,用于构建基于全中心损失函数的深度学习模型,从而生成欺诈交易识别模型,用于进行电子交易的欺诈交易识别,提升欺诈交易识别的效果。
如图1a所示,于一实施例中,本发明的基于全中心损失函数的欺诈交易识别方法,包括以下步骤:
步骤S11、构建基于全中心损失函数(FCL,Full Center Loss)的深度学习模型。
具体地,所述深度学习模型包括特征学习层(Feature learning Layers)和输出层(Output Layer)。
其中,所述深度学习模型表示为:
DL(xi)=FΘ(xi)=ypred_i
其中,Θ表示深度学习模型的参数,xi表示输入深度学习模型的第i个样本,ypred_i表示深度学习模型输出的结果;
其中,深度学习模型由特征学习层和输出层两部分构成;特征学习层包括从深度学习模型的输入层到深度学习模型的最后一个全连接层FClast组成的部分,输出层则是模型最后一个全连接层之后的部分。
特征学习层表示为:
其中Θfl表示特征学习层的全部参数;fi表示特征学习层输出的特征;即FClaot的输出。对于分类任务(如欺诈交易识别)来说,输出层通常是基于softmax函数或者对其改进的函数构造的神经网络层,本发明使用角度中心损失函数构造的神经网络作为输出层。那么输出层可以形式化地表示为;
基于全中心损失函数构造的神经网络作为输出层,输出层表示为:
其中Θop表示输出层的参数,W表示全中心损失函数的参数;fi表示特征学习层的输出, ypred_i表示深度学习模型的输出;T表示为W矩阵的转置;
则基于全中心损函数的深度学习模型表示为:
具体地,角度中心损失函数(ACL,Angle Center Loss)能够让不同类样本在深度表示学习模型学习到的深度特征空间中尽可能分离,从而提升欺诈交易识别模型性能。角度中心损失函数是对softmax损失函数的改进,使得不同类数据在角度上最大限度地分离。对于二分类问题,softmax损失函数可以形式化地表示:
其中yi表示第i个样本所属的类别,而表示二分类中与类别yi不同的另一类别,fi代表第i 个样本经过深度表示学习模型转换得到的深度特征。变量W和b分别表示损失函数中的权重和偏置。/>和/>分别表示fi与权重变量/>和/>的夹角。
角度中心损失函数在softmax损失函数的基础上添加两个约束条件,分别为
a)b)/>且/>
则角度中心损失函数可以形式化地表示为:
角度中心损失函数使得fi直接向其对应权重变量靠近以减小/>不同类别的权重变量方向相反/>因此能够最大限度地保证不同类样本的角度分离,优化不同类样本间的分离度,T表示为W矩阵的转置。
距离中心损失(DCL,Distance Center Loss)函数能够让同类别样本在深度特征空间中尽可能聚合,进一步提升不同类样本的分离度。距离中心损失用来度量每个样本与其对应类别的中心点之间的距离,具体可以形式化地表示为:
其中表示fi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到。
具体地,所述全中心损失函数为:
所述全中心损失函数,其中角度中心损失函数通过对softmax损失函数的优化使其能够更好地监督深度表示学习模型的特征学习,得到欺诈和正常交易分离度更好的深度特征;距离中心损失函数则强调同类型交易在深度特征空间中的聚合性,进一步使得欺诈和正常交易容易区分。
其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到, yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);α表示用来平衡两部分损失的超参数。具体地,为了方便深度学习模型的训练,一般会在建立深度学习模型的神经网络时将损失函数构造成由神经网络组成的损失层。损失层只在深度学习模型训练时使用,本发明对应的损失层是全中心损失层LayerFCL,它包括角度中心损失层LayerACL和距离中心损失层LayerDCL。全中心损失层LayerFCL的输入数据是特征学习层输出的特征fi,那么全中心损失函数可以更具体地表示为:
其中,其中α是用来平衡两部分损失的超参数,m表示训练深度学习模型的样本数据量, LA_i(xi)和LD_i(xi)分别表示第i个样本xi的角度中心损失和距离中心损失。
其中,xi表示输入深度学习模型的第i个样本,变量W表示全中心损失函数中的权重;fi表示特征学习层输出的特征;表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);Θfl表示特征学习层的全部参数; T表示为W矩阵的转置。
步骤S12、使用标注好的电子交易数据训练所述深度学习模型直到模型收敛,获得深度学习模型的参数。
具体地,所述参数为:Θfl,W,{ck};
其中,Θfl表示特征学习层的全部参数;W表示全中心损失函数的参数,{ck},其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1)。
采用梯度下降的方法计算所述参数Θfl,W,{ck};
其中,Θ′fl是Θfl更新后的特征学习层的全部参数;
其中,W′为W更新后的全中心损失函数的参数
c′k=ck-Δck
其中,c′k为ck更新后的所有的类别中心。
具体地,本发明提出的基于全中心损失的深度学习模型的优化目标表示为:
本发明提出的基于全中心损失的深度学习模型使用梯度下降的方法对损失函数Lfull(xi) 进行优化,本发明提出的全中心损失函数的梯度计算包括两部分,分别是角度中心损失函数 LA_i的梯度计算和距离中心损失函数LD_i的梯度计算。
LA_i对输入特征fi的梯度计算表示为:
LA_i对于参数W的梯度计算表示为:
LD_i对输入特征fi梯度计算受到类中心的影响,其梯度计算可以形式化地表示为:
不同类别样本的中心{ck}(k=0,1)也需要进行更新,其更新幅度可以形式化地表示为:
其中c′k表示更新后的类中心,δ(yi=k)=1如果条件yi=k成立,否则δ(yi=k)=0。
如果梯度下降方法中的学习率为μt,那么全中心损失函数的参数W和{ck}(k=0,1)的更新程可以分别表示为:
c′k=ck-Δck
W′为W更新后的全中心损失函数的参数。c′k为ck更新后的所有的类别中心。
除了损失层参数更新外,特征学习层的参数也需要更新,特征学习层的参数更新需要全中心损失函数相对于参数Θfl的梯度,其计算可以形式化地表示为:
其中是特征学习层神经网络对应函数对于参数Θfl的梯度,其计算过程可以使用神经网络梯度反向传播的方式进行计算。那么特征学习层的参数Θfl的更新可以表示为:
其中,Θ′fl是Θfl更新后的特征学习层的全部参数。
那么,t=0
Repeat:
t=t+1
计算全中心损失函数
更新角度中心损失函数参数W:
更新距离中心损失函数参数{ck}(k=0,1):
更新特征学习层的参数Θfl:
步骤S13、将所述参数带入所述深度学习模型生成欺诈交易识别模型。
具体地,基于所述深度学习模型的欺诈交易识别方法的算法步骤如算法1所示。
算法1:
上述步骤以中国某银行的交易数据为例展开实际测试。该交易数据集包含从2017年4月到6月的交易数据,数据量大约350万条,且都由银行专业人员进行标注。如表1所示,为此数据集的基本信息。
表1电子交易数据信息
月份 | 数据量 | 特征数量 | 不均衡比 |
2017-04 | 1,243,035 | 43 | 1.07% |
2017-05 | 1,216,299 | 43 | 2.22% |
2017-06 | 1,042,714 | 43 | 2.39% |
为了能够证明本发明所述方法在欺诈交易识别上的良好性能和性能的稳定性。我们将此数据集的全部数据按照每10天的交易数据分为1组,共形成9组数据。然后使用9组数据组成3个实验组:
实验组1:使用第1~3组数据用于模型训练,剩余6组数据分别用于测试模型的性能;
实验组2:使用第1~4组数据用于模型训练,5~9组数据分别用于测试模型的性能;
实验组3:使用第1~5组数据用于模型训练,6~9组数据分别用于测试模型的性能;
在每个实验组上,我们将本发明所述的全中心损失函数与5个最新的损失函数进行对比实验:
1)原始的softmax损失函数(SL);
2)Large Margin Softmax Loss(LMSL);
3)Angular Softmax Loss(ASL);
4)Large Margin Cosine Loss(LMCL);
5)Additive Angular Margin Loss(AAML)
所有实验中各个损失函数使用的深度表示学习模型相同,深度表示学习模型采用卷积神经网络模型,卷积神经网络模型的参数设置为:
Conv_1:[1×1;32];MaxPool_1:[3×3];/>MaxPool_2:[3×3];FC_1:256;FC_2:128;FC_3:64
各个损失函数的超参数按照其推荐取值进行设置。对比实验结果如表2、3、4所示,其中实验组1中的各个损失函数的性能变化使用实验结果图1表示。
表2实验组1测试结果
表3实验组2测试结果
表4实验组3测试结果
由实验结果表2,3,4可知,本发明提出的全中心损失函数在各实验组中都取得了最好的 F1(综合性能:正确率和召回率的调和平均值)和AUC-PR值(精确率-召回率曲线下的面积),表明基于全中心损失函数的欺诈交易识别模型能够获得更好的性能。而且,实验结果图1b和 1c各个损失函数性能变化和实验结果表3、4中的标准差结果可知,本发明所述的基于全中心损失函数的欺诈交易识别模型的性能波动最小,证明本发明所述的全中心损失函数能够保证欺诈识别模型的性能稳定性。
如图1d所示,基于全中心损失函数的欺诈交易识别方法采用的模型为由deepneural network layers(深层神经网络层)和full center loss layer(全中心损耗层)构成,其中,full center loss layer(全中心损耗层)包括角度中心损失函数(ACL,AngleCenter Loss)和距离中心损失函数(DCL,Distance Center Loss)构成。且deep neuralnetwork layers(深层学习网络层)的最后一层deep features–f(FClast)的输出fi是fullcenter loss layer(全中心损失函数层)的输入。
如图1e所示,本发明的基于全中心损失函数的欺诈交易识别方法,包括以下步骤:定义全中心损失函数,所述全中心损失函数包括:角度中心损失函数和距离中心损失函数。构建基于全中心损失函数的深度学习模型。所述深度学习模型包括:特征学习层(Featurelearning Layers)和输出层(Ou中ut Layer),所述输出层输出的fi是full center losslayer(全中心损失函数层)的输入。使用已标注的电子交易数据训练基于全中心损失函数的深度学习模型,直到模型收敛,获得深度学习模的参数,基于所述参数生成欺诈交易识别模型,用于进行电子交易的欺诈交易识别,提升欺诈交易识别的效果。
如图2所示,于一实施例中,本发明的基于全中心损失函数的欺诈交易识别系统,包括构建模块21、训练模块22和生成模块23;所述构建模块21用于构建基于全中心损失函数的深度学习模型;所述训练模块22用于使用标注好的电子交易数据训练所述深度学习模型直到模型收敛,获得深度学习模型的参数;所述生成模块23用于将所述参数带入所述深度学习模型生成欺诈交易识别模型。
于本发明的一实施例中,所述深度学习模型由特征学习层和输出层构成;其中,所述深度学习模型表示为:
DL(xi)=FΘ(xi)=ypred_i
其中,Θ表示深度学习模型的参数,xi表示输入深度学习模型的第i个样本,ypred_i表示深度学习模型输出的结果;其中,深度学习模型由特征学习层和输出层两部分构成;特征学习层表示为:
其中Θfl表示特征学习层的全部参数;fi表示特征学习层输出的特征;基于全中心损失函数构造的神经网络作为输出层,输出层表示为:
其中Θop表示输出层的参数,W表示全中心损失函数的权重;fi表示特征学习层的输出, ypred_i表示深度学习模型的输出;T表示为W矩阵的转置;则基于全中心损函数的深度学习模型表示为:
于本发明的一实施例中,所述全中心损失函数为:
/>
其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到, yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);α表示用来平衡两部分损失的超参数。
于本发明的一实施例中,所述参数为:Θfl,W,{ck};其中,Θfl表示特征学习层的全部参数;W表示全中心损失函数的权重,{ck},其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);采用梯度下降的方法计算所述参数Θfl,W,{ck};
其中,Θ′fl是Θfl更新后的特征学习层的全部参数;
其中,W′为W更新后的全中心损失函数的参数
c′k=ck-Δck
其中,c′k为ck更新后的所有的类别中心。
需要说明的是,构建模块21、训练模块22和生成模块23的结构和原理与上述基于全中心损失函数的欺诈交易识别方法中的步骤一一对应,故在此不再赘述。
需要说明的是,应理解以上系统的各个模块的划分仅仅是一种逻辑功能的划分,实际实现时可以全部或部分集成到一个物理实体上,也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现;也可以全部以硬件的形式实现;还可以部分模块通过处理元件调用软件的形式实现,部分模块通过硬件的形式实现。例如,x模块可以为单独设立的处理元件,也可以集成在上述装置的某一个芯片中实现,此外,也可以以程序代码的形式存储于上述装置的存储器中,由上述装置的某一个处理元件调用并执行以上x模块的功能。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起,也可以独立实现。这里所述的处理元件可以是一种集成电路,具有信号的处理能力。在实现过程中,上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。
例如,以上这些模块可以是被配置成实施以上方法的一个或多个集成电路,例如:一个或多个特定集成电路(Application Specific Integrated Circuit,简称ASIC),或,一个或多个微处理器(Digital Singnal Processor,简称DSP),或,一个或者多个现场可编程门阵列(Field Programmable Gate Array,简称FPGA)等。再如,当以上某个模块通过处理元件调度程序代码的形式实现时,该处理元件可以是通用处理器,例如中央处理器(Central Processing Unit,简称CPU)或其它可以调用程序代码的处理器。再如,这些模块可以集成在一起,以片上系统(system-on-a-chip,简称SOC)的形式实现。
于本发明一实施例中,本发明还包括一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一所述基于全中心损失函数的欺诈交易识别方法。
本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过计算机程序相关的硬件来完成。前述的计算机程序可以存储于一计算机可读存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
如图3所示,于一实施例中,本发明的基于全中心损失函数的欺诈交易识别装置包括:处理器31和存储器32;所述存储器32用于存储计算机程序;所述处理器31与所述存储器32相连,用于执行所述存储器32存储的计算机程序,以使所述基于全中心损失函数的欺诈交易识别装置执行任一所述的基于全中心损失函数的欺诈交易识别方法。
具体地,所述存储器32包括:ROM、RAM、磁碟、U盘、存储卡或者光盘等各种可以存储程序代码的介质。
优选地,所述处理器31可以是通用处理器,包括中央处理器(Central ProcessingUnit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital Signal Processor,简称DSP)、专用集成电路(Application SpecificIntegrated Circuit,简称 ASIC)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
综上所述,本发明基于全中心损失函数的欺诈交易识别方法、系统、装置,用于构建基于全中心损失函数的深度学习模型,从而生成欺诈交易识别模型,用于进行电子交易的欺诈交易识别,提升欺诈交易识别的效果。所以,本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此,举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变,仍应由本发明的权利要求所涵盖。
Claims (6)
1.一种基于全中心损失函数的欺诈交易识别方法,其特征在于,包括以下步骤:
构建基于全中心损失函数的深度学习模型;其中,所述深度学习模型包括:特征学习层和输出层;所述特征学习层包括从深度学习模型的输入层到深度学习模型的最后一个全连接层组成的部分,所述输出层则是模型最后一个全连接层之后的部分;所述全中心损失函数包括:角度中心损失函数和距离中心损失函数;
所述深度学习模型表示为:
DL(xi)=FΘ(xi)=ypred_i
其中,Θ表示深度学习模型的参数,xi表示输入深度学习模型的第i个样本,ypred_i表示深度学习模型输出的结果;
所述特征学习层表示为:
其中Θfl表示特征学习层的全部参数;fi表示特征学习层输出的特征;
基于全中心损失函数构造的神经网络作为输出层,输出层表示为:
其中Θop表示输出层的参数,W表示全中心损失函数的权重;fi表示特征学习层的输出,ypred_i表示深度学习模型的输出;T表示为W矩阵的转置;
则基于全中心损函数的深度学习模型表示为:
所述全中心损失函数为:
其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);α表示用来平衡两部分损失的超参数;
使用标注好的电子交易数据训练所述深度学习模型直到模型收敛,获得深度学习模型的参数;
将所述参数带入所述深度学习模型生成欺诈交易识别模型。
2.根据权利要求1所述的基于全中心损失函数的欺诈交易识别方法,其特征在于,所述参数为:Θfl,W,{ck};
其中,Θfl表示特征学习层的全部参数;W表示全中心损失函数的权重,{ck},其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);
采用梯度下降的方法计算所述参数Θfl,W,{ck};
其中,Θ′fl是Θfl更新后的特征学习层的全部参数;
其中,W′为W更新后的全中心损失函数的参数
c′k=ck-Δck
其中,c′k为ck更新后的所有的类别中心。
3.一种基于全中心损失函数的欺诈交易识别系统,其特征在于,包括:构建模块、训练模块和生成模块;
所述构建模块用于构建基于全中心损失函数的深度学习模型;其中,所述深度学习模型包括:特征学习层和输出层;所述特征学习层包括从深度学习模型的输入层到深度学习模型的最后一个全连接层组成的部分,所述输出层则是模型最后一个全连接层之后的部分;
所述全中心损失函数包括:角度中心损失函数和距离中心损失函数;
所述深度学习模型表示为:
DL(xi)=Fa(xi)=ypred_i
其中,Θ表示深度学习模型的参数,xi表示输入深度学习模型的第i个样本,ypred_i表示深度学习模型输出的结果;
所述特征学习层表示为:
其中Θfl表示特征学习层的全部参数;fi表示特征学习层输出的特征;
基于全中心损失函数构造的神经网络作为输出层,输出层表示为:
其中Θop表示输出层的参数,W表示全中心损失函数的权重;fi表示特征学习层的输出,ypred_i表示深度学习模型的输出;T表示为W矩阵的转置;
则基于全中心损函数的深度学习模型表示为:
所述全中心损失函数为:
其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);α表示用来平衡两部分损失的超参数;
所述训练模块用于使用标注好的电子交易数据训练所述深度学习模型直到模型收敛,获得深度学习模型的参数;
所述生成模块用于将所述参数带入所述深度学习模型生成欺诈交易识别模型。
4.根据权利要求3所述的基于全中心损失函数的欺诈交易识别系统,其特征在于,所述参数为:Θfl,W,{ck};
其中,Θfl表示特征学习层的全部参数;W表示全中心损失函数的权重,{ck},其中,表示xi对应的类别yi的中心点,/>由类别yi的所有样本的均值计算得到,yi∈{0,1},所有的类别中心表示为{ck}(k=0,1);
采用梯度下降的方法计算所述参数Θfl,W,{ck};
其中,Θ′fl是Θfl更新后的特征学习层的全部参数;
其中,W′为W更新后的全中心损失函数的参数
c′k=ck-Δck
其中,c′k为ck更新后的所有的类别中心。
5.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行,以实现权利要求1至2中任一项所述基于全中心损失函数的欺诈交易识别方法。
6.一种基于全中心损失函数的欺诈交易识别装置,其特征在于,包括:处理器和存储器;
所述存储器用于存储计算机程序;
所述处理器与所述存储器相连,用于执行所述存储器存储的计算机程序,以使所述基于全中心损失函数的欺诈交易识别装置执行权利要求1至2中任一项所述的基于全中心损失函数的欺诈交易识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010301402.0A CN111539733B (zh) | 2020-04-16 | 2020-04-16 | 基于全中心损失函数的欺诈交易识别方法、系统、装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010301402.0A CN111539733B (zh) | 2020-04-16 | 2020-04-16 | 基于全中心损失函数的欺诈交易识别方法、系统、装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111539733A CN111539733A (zh) | 2020-08-14 |
CN111539733B true CN111539733B (zh) | 2023-08-11 |
Family
ID=71978649
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010301402.0A Active CN111539733B (zh) | 2020-04-16 | 2020-04-16 | 基于全中心损失函数的欺诈交易识别方法、系统、装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111539733B (zh) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CA2982930A1 (en) | 2017-10-18 | 2019-04-18 | Kari Saarenvirta | System and method for selecting promotional products for retail |
US11887138B2 (en) | 2020-03-03 | 2024-01-30 | Daisy Intelligence Corporation | System and method for retail price optimization |
US20220101192A1 (en) * | 2020-09-30 | 2022-03-31 | Callsign Ltd. | Detecting fraudulent transactions |
US11783338B2 (en) * | 2021-01-22 | 2023-10-10 | Daisy Intelligence Corporation | Systems and methods for outlier detection of transactions |
CN112906301B (zh) * | 2021-02-18 | 2022-08-09 | 同济大学 | 金融交易的可信欺诈检测方法、系统、介质及终端 |
CN114330562B (zh) * | 2021-12-31 | 2023-09-26 | 大箴(杭州)科技有限公司 | 小样本细化分类及多分类模型构建方法 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674677A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 一种多模态多层融合的用于人脸反欺骗的深度神经网络 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019238251A1 (en) * | 2018-06-13 | 2019-12-19 | Veridas Digital Authentication Solutions, S.L. | Authenticating an identity of a person |
US11303671B2 (en) * | 2018-08-10 | 2022-04-12 | Visa International Service Association | Replay spoofing detection for automatic speaker verification system |
-
2020
- 2020-04-16 CN CN202010301402.0A patent/CN111539733B/zh active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110674677A (zh) * | 2019-08-06 | 2020-01-10 | 厦门大学 | 一种多模态多层融合的用于人脸反欺骗的深度神经网络 |
Non-Patent Citations (1)
Title |
---|
Zhenchuan Li等.Deep Representation Learning With Full Center Loss for Credit Card Fraud Detection.IEEE transaction on computational social systems.2020,第7卷(第2期),第569-579页. * |
Also Published As
Publication number | Publication date |
---|---|
CN111539733A (zh) | 2020-08-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111539733B (zh) | 基于全中心损失函数的欺诈交易识别方法、系统、装置 | |
TWI789345B (zh) | 機器學習模型的建模方法及裝置 | |
WO2018103456A1 (zh) | 一种基于特征匹配网络的社团划分方法、装置及电子设备 | |
CN110084609B (zh) | 一种基于表征学习的交易欺诈行为深度检测方法 | |
Chen et al. | Predicting default risk on peer-to-peer lending imbalanced datasets | |
JP7472496B2 (ja) | モデル生成装置、モデル生成方法、及び、記録媒体 | |
CN111507470A (zh) | 一种异常账户的识别方法及装置 | |
CN111311416A (zh) | 一种基于多通道图和图神经网络的区块链洗钱节点检测方法 | |
WO2023109085A1 (zh) | 账户风险模型的训练方法和风险用户群体的确定方法 | |
CN109657931A (zh) | 风控模型建模、企业风险评估方法、装置和存储介质 | |
CN110796539A (zh) | 一种征信评估方法及装置 | |
CN111340086A (zh) | 无标签数据的处理方法、系统、介质及终端 | |
WO2021037280A2 (zh) | 基于rnn的反洗钱模型的训练方法、装置、设备及介质 | |
Runchi et al. | An ensemble credit scoring model based on logistic regression with heterogeneous balancing and weighting effects | |
CN110992041A (zh) | 在线欺诈检测的个体行为超球体构建方法 | |
CN111242744B (zh) | 低频交易的个体行为建模与欺诈检测方法 | |
CN111160695A (zh) | 计算机运行的风险账户的识别方法、系统、装置及存储介质 | |
CN110033165A (zh) | 逾期借款催收方式的推荐方法、装置、介质、电子设备 | |
Fayzrakhmanov et al. | The Difference between precision-recall and ROC Curves for evaluating the performance of credit card fraud detection models | |
CN112329862A (zh) | 基于决策树的反洗钱方法及系统 | |
CN112365352A (zh) | 一种基于图神经网络的反套现方法及装置 | |
CN113177733B (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
CN116611911A (zh) | 基于支持向量机的信用风险预测方法及装置 | |
Peng et al. | Unbalanced Data Processing and Machine Learning in Credit Card Fraud Detection | |
CN116150687A (zh) | 一种基于多分类g-wlstsvm模型的流体管道泄漏识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |