CN115204901A - 基于多特征融合的信用卡欺诈检测方法、装置及介质 - Google Patents

基于多特征融合的信用卡欺诈检测方法、装置及介质 Download PDF

Info

Publication number
CN115204901A
CN115204901A CN202211100976.7A CN202211100976A CN115204901A CN 115204901 A CN115204901 A CN 115204901A CN 202211100976 A CN202211100976 A CN 202211100976A CN 115204901 A CN115204901 A CN 115204901A
Authority
CN
China
Prior art keywords
model
transaction
fraud
credit card
samples
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202211100976.7A
Other languages
English (en)
Other versions
CN115204901B (zh
Inventor
谢亚龙
李爱平
胡笔吟
涂宏魁
周斌
江荣
王晔
喻承
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Original Assignee
National University of Defense Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National University of Defense Technology filed Critical National University of Defense Technology
Priority to CN202211100976.7A priority Critical patent/CN115204901B/zh
Publication of CN115204901A publication Critical patent/CN115204901A/zh
Application granted granted Critical
Publication of CN115204901B publication Critical patent/CN115204901B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4016Transaction verification involving fraud or risk level assessment in transaction processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Security & Cryptography (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Business, Economics & Management (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供了基于多特征融合的信用卡欺诈检测方法、装置及介质,可以有效提高欺诈交易预测的准确率、召回率,大幅降低欺诈交易的假阳性率,方法包括:采集持卡人信息数据;通过前馈神经网络模型、卷积神经网络模型、Bi‑LSTM模型分别将持卡人的基本信息数据、金融操作行为数据、信用卡交易信息数据进行嵌入表示,拼接得到样本特征表示向量;构建并训练生成对抗网络模型;利用完成训练的生成器模型生成模拟欺诈样本,合并生成新的训练集,构建并训练多个检测基模型,将完成训练的多种检测基模型与判别器模型进行组合得到信用卡欺诈检测集成模型;当持卡人发生新的交易时,通过信用卡欺诈检测集成模型预测持卡人的信用卡欺诈风险预测结果。

Description

基于多特征融合的信用卡欺诈检测方法、装置及介质
技术领域
本发明涉及信用卡欺诈检测领域和机器学习领域,具体涉及基于多特征融合的信用卡欺诈检测方法、装置及介质。
背景技术
信用卡支付已成为人们当前使用频率最高的几种支付方式之一,它在给人们带来巨大支付便利的同时,也因频繁存在的盗刷、盗用等欺诈风险给持卡人、发卡方造成大量的财产和信誉损失。将机器学习技术应用到信用卡欺诈检测领域,能够有效降低检测机构对反欺诈专家人员及专家知识的依赖,显著提高检测效率。但不能忽略的是,若欺诈检测模型对合法交易的误判率太高,同样也会大幅增加发卡机构的人工调查成本,并给持卡人带来较为不便的用户体验,从而逐步丧失用户粘性,降低发卡方从该用户获得盈利的能力。
大多数现有的信用卡欺诈检测模型存在以下三个方面的不足:
一是只采集了持卡人交易特征数据(如交易金额、时间、余额等),而忽略了持卡人的基本特征数据(如年龄、性别、职业等)。从统计情况来看,不同年龄、不同性别的持卡人在交易行为上可能会存在较大差异,例如男性更喜欢购买电子产品,而女性更喜欢购买彩妆产品等。通过单一类型的特征数据进行模型训练时,会出现特征缺失的情况,一般难以获得较高的准确率。
二是虽然采集了交易特征和基本特征两种类型的特征数据,但只是对这两种类型的特征数据做简单的拼接,并没有挖掘不同类型特征数据间、类型虽然相同但特征不同的数据间的高维隐藏关系,从而可能出现特征表现不足的情况。
三是真实的信用卡欺诈样本数据集往往是极度不平衡的,即合法交易样本远多于欺诈交易样本,不对训练数据集进行均衡化处理往往会使得模型对欺诈交易样本学习不足,从而使得模型难以获得较高的召回率。此外,一些现有的模型虽然使用SMOTE等重采样算法对训练数据集进行均衡化处理,提高了召回率,但因为重采样过程中引入了大量的噪声样本,增大了模型的假阳性率,从使得发卡方不得不支付更多的人工调查成本。
发明内容
针对上述问题,本发明旨在提供一种基于多特征融合的信用卡欺诈检测方法、装置及介质,可以有效提高欺诈交易预测的准确率、召回率,大幅降低欺诈交易的假阳性率。
其技术方案是这样的:一种基于多特征融合的信用卡欺诈检测方法,包括以下步骤:
采集持卡人信息数据,所述持卡人信息数据包括持卡人的基本信息数据、持卡人的金融操作行为数据、持卡人的信用卡交易信息数据;
通过前馈神经网络模型将持卡人的基本信息数据进行嵌入表示,通过卷积神经网络模型将持卡人的金融操作行为数据进行嵌入表示,通过Bi-LSTM模型将持卡人的信用卡交易信息数据进行嵌入表示,拼接各个模型输出的特征向量得到样本特征表示向量;
构建生成对抗网络模型,生成对抗网络模型包括生成器模型和判别器模型,生成器模型用于生成模拟欺诈样本,判别器模型用于分辨真实欺诈样本和模拟欺诈样本,依据数据库中的合法交易样本与欺诈交易样本的比例设置样本集合中的合法交易样本与欺诈交易样本的比例,训练生成对抗网络模型;
将样本集合划分为训练集与验证集,利用完成训练的生成器模型生成模拟欺诈样本,将模拟欺诈样本与训练集合并生成新的平衡训练集,构建多个检测基模型,通过新的平衡训练集训练多个检测基模型,通过验证集对检测基模型参数进行调优;
将完成训练的多种检测基模型与判别器模型进行组合,得到信用卡欺诈检测集成模型;
当持卡人发生新的交易时,分别通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型对持卡人信息进行嵌入表示,拼接得到持卡人的样本特征表示向量,将持卡人的样本特征表示向量输入信用卡欺诈检测集成模型中,输出持卡人的信用卡欺诈风险预测结果。
进一步的,持卡人基本信息数据通过集合
Figure 100002_DEST_PATH_IMAGE001
进行表示,其中集合中的每个参数
Figure 449998DEST_PATH_IMAGE002
分别表示持卡人的一个基本属性;
持卡人的金融操作行为数据通过集合
Figure 100002_DEST_PATH_IMAGE003
表示,其中
Figure 713358DEST_PATH_IMAGE004
分别表示持卡人在各金融渠道内的一次操作,每个操作用三元组
Figure 100002_DEST_PATH_IMAGE005
表示,其中
Figure 530135DEST_PATH_IMAGE006
为本次操作的主标记、
Figure 100002_DEST_PATH_IMAGE007
为操作的子标记、
Figure 705902DEST_PATH_IMAGE008
为操作的附言;
持卡人的信用卡交易信息数据通过集合
Figure 100002_DEST_PATH_IMAGE009
表示,其中
Figure 948576DEST_PATH_IMAGE010
分别表示持卡人本次交易的一个属性。
进一步的,构建前馈神经网络模型,通过前馈神经网络模型将持卡人基本信息数据
Figure 100002_DEST_PATH_IMAGE011
嵌入转换为特征向量
Figure 100002_DEST_PATH_IMAGE013
,前馈神经网络模型包括若干神经元层,l层到l+1层的转换计算公式为:
Figure 100002_DEST_PATH_IMAGE015
其中,
Figure 890993DEST_PATH_IMAGE016
为激活函数,
Figure 100002_DEST_PATH_IMAGE017
为l层节点到l+1层节点间的权重,
Figure 827856DEST_PATH_IMAGE018
为节点的偏置;
对于前馈神经网络模型的第一层的输入层的输入
Figure 908945DEST_PATH_IMAGE011
Figure 100002_DEST_PATH_IMAGE019
;对于前馈神经网络模型的最后一层的输出层的输出
Figure 100002_DEST_PATH_IMAGE021
Figure 100002_DEST_PATH_IMAGE023
进一步的,构建卷积神经网络模型,所述卷积神经网络模型包含m个卷积层、n个池化层、k个全连接层,通过卷积神经网络模型将持卡人的金融操作行为数据
Figure 757690DEST_PATH_IMAGE024
嵌入转换为特征向量
Figure 100002_DEST_PATH_IMAGE025
Figure 395476DEST_PATH_IMAGE026
,输出的第i个特征向量表示为如下:
Figure 100002_DEST_PATH_IMAGE027
其中,
Figure 950960DEST_PATH_IMAGE028
为非线性激活函数,
Figure 100002_DEST_PATH_IMAGE029
Figure 953682DEST_PATH_IMAGE030
是卷积神经网络中第i层节点可训练参数。
进一步的,构建Bi-LSTM模型,所述Bi-LSTM模型包括一个前向LSTM和一个后向LSTM,按时间先后顺序对持卡人
Figure 100002_DEST_PATH_IMAGE031
时间区间内通过信用卡进行交易的数据进行排序,得到序列
Figure 915822DEST_PATH_IMAGE032
,通过Bi-LSTM模型将持卡人的信用卡交易信息数据的序列
Figure 522078DEST_PATH_IMAGE032
嵌入转换为特征向量
Figure 620484DEST_PATH_IMAGE034
LSTM中各单元的值按照如下计算:
计算t时刻候选记忆单元的值
Figure 100002_DEST_PATH_IMAGE035
Figure 100002_DEST_PATH_IMAGE037
其中
Figure 325266DEST_PATH_IMAGE038
为t时刻的原始交易特征向量,
Figure 100002_DEST_PATH_IMAGE039
为LSTM在前一状态中的输出,
Figure 774702DEST_PATH_IMAGE040
为激活函数,
Figure 100002_DEST_PATH_IMAGE041
为权重矩阵,
Figure 783984DEST_PATH_IMAGE042
为对应的偏置;
计算输入门的值
Figure 100002_DEST_PATH_IMAGE043
Figure 100002_DEST_PATH_IMAGE045
其中
Figure 549946DEST_PATH_IMAGE046
为激活函数,
Figure 100002_DEST_PATH_IMAGE047
为权重矩阵,
Figure 189743DEST_PATH_IMAGE048
为对应的偏置;
计算遗忘门的值
Figure 100002_DEST_PATH_IMAGE049
Figure 100002_DEST_PATH_IMAGE051
其中
Figure 142787DEST_PATH_IMAGE052
为权重矩阵,
Figure 100002_DEST_PATH_IMAGE053
为对应的偏置;
计算当前时刻记忆单元的值
Figure 378596DEST_PATH_IMAGE054
Figure 169704DEST_PATH_IMAGE056
其中
Figure 100002_DEST_PATH_IMAGE057
为上一时刻记忆单元的状态值,
Figure 199977DEST_PATH_IMAGE058
为点积;
计算输出门的值
Figure 100002_DEST_PATH_IMAGE059
Figure 100002_DEST_PATH_IMAGE061
其中
Figure 905896DEST_PATH_IMAGE062
为权重矩阵,
Figure 100002_DEST_PATH_IMAGE063
为对应的偏置;
计算LSTM的输出
Figure 731681DEST_PATH_IMAGE064
Figure 128027DEST_PATH_IMAGE066
将前向LSTM的输出
Figure 100002_DEST_PATH_IMAGE067
与后向LSTM的输出
Figure 79934DEST_PATH_IMAGE068
进行拼接,得到输出
Figure 460100DEST_PATH_IMAGE070
,其中
Figure DEST_PATH_IMAGE071
所述Bi-LSTM模型通过一个池化层合并输入
Figure 286979DEST_PATH_IMAGE070
,得到嵌入后的特征表示向量
Figure 803411DEST_PATH_IMAGE034
Figure DEST_PATH_IMAGE073
将嵌入后的基本信息特征向量
Figure DEST_PATH_IMAGE075
、金融操作行为特征向量
Figure 457378DEST_PATH_IMAGE025
、交易信息特征向量
Figure 59260DEST_PATH_IMAGE034
进行拼接,拼接得到样本特征表示向量
Figure 643825DEST_PATH_IMAGE076
Figure 14764DEST_PATH_IMAGE078
构建生成对抗网络模型,所述生成对抗网络模型包括生成器模型G和判别器模型D,所述生成器模型用于生成模拟欺诈样本,所述判别器模型用于分辨真实欺诈样本和模拟欺诈样本;
训练对抗网络模型包括以下步骤:
从卡交易系统生产数据库中抽取部分信用卡交易样本组成样本集合
Figure 100002_DEST_PATH_IMAGE079
,集合
Figure 541429DEST_PATH_IMAGE079
包含合法交易样本子集
Figure 365028DEST_PATH_IMAGE080
与欺诈交易样本子集
Figure 100002_DEST_PATH_IMAGE081
,其中
Figure 18864DEST_PATH_IMAGE082
;欺诈交易样本子集
Figure 995041DEST_PATH_IMAGE081
与合法交易样本子集
Figure 177761DEST_PATH_IMAGE080
之间的比例依据卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置;
从欺诈交易样本子集
Figure 754236DEST_PATH_IMAGE081
中抽取m个样本,通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算m个样本的嵌入特征向量,拼接得到样本特征表示向量
Figure 100002_DEST_PATH_IMAGE083
;利用随机数生成器对应生成m个噪音样本
Figure 195450DEST_PATH_IMAGE084
将噪音样本输入至生成器模型G,由生成器模型G生成m个模拟欺诈样本
Figure 100002_DEST_PATH_IMAGE085
,其中:
Figure DEST_PATH_IMAGE087
更新判别器模型D的参数
Figure 603298DEST_PATH_IMAGE088
,使得
Figure 100002_DEST_PATH_IMAGE089
值最大化,计算方法如下:
Figure DEST_PATH_IMAGE091
Figure DEST_PATH_IMAGE093
其中
Figure 566706DEST_PATH_IMAGE088
为判别器模型D的可训练参数,通过随机梯度上升的方法对
Figure 444243DEST_PATH_IMAGE088
进行更新,从而使得判别器模型D的交叉熵最小,使得
Figure 174302DEST_PATH_IMAGE089
值最大;
固定判别器模型D的各项模型参数,利用随机数生成器生成m个噪音样本
Figure 108760DEST_PATH_IMAGE084
,更新生成器模型G的参数
Figure 898861DEST_PATH_IMAGE094
,使得
Figure 100002_DEST_PATH_IMAGE095
值最大化,计算方法如下:
Figure 100002_DEST_PATH_IMAGE097
Figure 100002_DEST_PATH_IMAGE099
其中
Figure 308983DEST_PATH_IMAGE100
为生成器模型G的可训练参数,通过随机梯度下降的方法对
Figure 577153DEST_PATH_IMAGE094
进行更新,从而使得生成器模型G的交叉熵最小,使得
Figure 100002_DEST_PATH_IMAGE101
值最大;
重复优化判别器模型D的参数
Figure 179167DEST_PATH_IMAGE088
和生成器模型G的参数
Figure 140170DEST_PATH_IMAGE094
,直至模型损失函数值趋于稳定,判别器模型和生成器模型收敛,模型损失函数loss值计算公式如下:
Figure DEST_PATH_IMAGE103
其中
Figure 912953DEST_PATH_IMAGE104
表示欺诈样本的分布期望,
Figure 100002_DEST_PATH_IMAGE105
表示随机生成的噪音样本的分布期望。
按比例对样本集合
Figure 30820DEST_PATH_IMAGE079
进行切分,分为训练集
Figure 205449DEST_PATH_IMAGE106
与验证集
Figure 100002_DEST_PATH_IMAGE107
,训练集
Figure 337353DEST_PATH_IMAGE106
与验证集
Figure 348166DEST_PATH_IMAGE107
在的样本通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算样本的嵌入特征向量,拼接得到样本特征表示向量,组合成新的训练集
Figure DEST_PATH_IMAGE109
与验证集
Figure DEST_PATH_IMAGE111
,训练集
Figure 20456DEST_PATH_IMAGE109
与验证集
Figure 298859DEST_PATH_IMAGE111
中欺诈样本与合法样本的比例依据卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置;
进一步,将训练集
Figure 336085DEST_PATH_IMAGE109
切分为合法样本集
Figure DEST_PATH_IMAGE113
和欺诈样本集
Figure DEST_PATH_IMAGE115
,使用完成训练的生成器模型G根据欺诈样本集
Figure 896511DEST_PATH_IMAGE115
和噪音样本z生成k个模拟样本,给每个模拟样本打上欺诈标签,得到模拟欺诈样本集合
Figure 310174DEST_PATH_IMAGE116
,将模拟欺诈样本集合
Figure 193817DEST_PATH_IMAGE116
与合法样本集
Figure 401944DEST_PATH_IMAGE113
和欺诈样本集
Figure 891743DEST_PATH_IMAGE115
合并得到新的平衡训练样本集合
Figure 100002_DEST_PATH_IMAGE117
Figure DEST_PATH_IMAGE119
基于统计学习方法构建多个检测基模型,检测基模型用
Figure 640257DEST_PATH_IMAGE120
表示,对于任意检测基模型
Figure 100002_DEST_PATH_IMAGE121
,通过新的平衡训练集
Figure 925876DEST_PATH_IMAGE117
进行训练,通过验证集
Figure 39325DEST_PATH_IMAGE111
进行模型参数调优,其中模型
Figure 495714DEST_PATH_IMAGE121
的性能调优指标包括欺诈样本的准确率、召回率、合法样本的假阳性率、ROC及AUC-ROC。
进一步的,使用Bagging算法将完成训练的检测基模型
Figure 251181DEST_PATH_IMAGE120
与完成训练的判别器模型D进行组合,得到信用卡欺诈检测集成模型,信用卡欺诈检测集成模型包括n+1个检测基模型,其中第n+1个检测模型
Figure 93104DEST_PATH_IMAGE122
为判别器模型D;
当持卡人发起一笔信用卡交易时,通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算持卡人样本的嵌入特征向量
Figure 100002_DEST_PATH_IMAGE123
,并用包括n+1个检测基模型的信用卡欺诈检测集成模型对持卡人的此次交易进行预测,预测结果表示为:
Figure 100002_DEST_PATH_IMAGE125
其中,
Figure 970930DEST_PATH_IMAGE126
为第i个检测基模型
Figure 665347DEST_PATH_IMAGE121
的预测结果,
Figure 100002_DEST_PATH_IMAGE127
表示检测基模型
Figure 224505DEST_PATH_IMAGE121
预测该笔交易为欺诈交易,
Figure 937246DEST_PATH_IMAGE128
表示检测基模型
Figure 658077DEST_PATH_IMAGE121
预测该笔交易为合法交易;
信用卡欺诈检测集成模型综合n+1个检测基模型预测结果,对持卡人此笔交易的预测结果
Figure 100002_DEST_PATH_IMAGE129
表示为如下:
Figure 100002_DEST_PATH_IMAGE131
Figure 100002_DEST_PATH_IMAGE133
其中,
Figure 931801DEST_PATH_IMAGE134
为n+1个检测基模型预测结果之和,当y=1则信用卡欺诈检测集成模型将该交易预测为欺诈交易,当y=0则预测为合法交易。
进一步的,还包括步骤:将风险预测结果发送至信用卡交易系统进行联动决策,根据预先配置的策略对当前交易是否进行干预及采用的干预级别进行决策。
若信用卡欺诈检测集成模型给出的预测结果为合法交易,则对当前交易放行,交易成功;若模型预测结果为欺诈交易,则根据配置情况、用户当前认证级别情况决定采取的干预措施,干预措施包括交易阻断和提升交易认证级别。
一种计算机装置,其包括:处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行上述的一种基于多特征融合的信用卡欺诈检测方法。
一种计算机可读存储介质,所述计算机可读存储介质用于存储程序,所述程序用于执行上述的一种基于多特征融合的信用卡欺诈检测方法。
与现有技术相比,本发明具有以下优势:
1.本发明将持卡人的多种特征数据进行了融合表示,除了信用卡的持卡人基本信息特征、交易行为特征外,还通过三元组序列定义并使用了持卡人在不同渠道内的金融操作行为的特征,为模型提供了更为广泛、全面的特征数据,金融操作行为特征数据地引入,能够让模型构建持卡人合法操作行为基线,当某信用卡交易行为明显偏离模型基线时,能够被模型快速捕获并预警;并且,本发明分别通过前馈神经网络、生成对抗网络、Bi-LSTM模型对持卡人基本信息特征、交易行为特征及其在不同渠道内金融操作行为特征间的隐藏关系进行深度挖掘,构建了更为准确、细化的特征表示,在提升欺诈检测模型的性能的同时也有效压缩了特征数据所需的存储空间。
2.本发明利用了生成对抗网络模型有效解决训练样本中的类不均衡问题,按照数据库中原始欺诈样本的特征与分布情况生成大量类似特征分布的模拟欺诈样本,弥补现有方法的不足,大幅降低了类不均衡比率,有效避免了判别器模型向多数类样本偏移的现象。此外,与现有技术中,SMOTE等现有上采样方法不同,本发明通过生成对抗网络模型生成的模拟欺诈样本分布与真实的欺诈样本分布更为接近,能够避免在模型中引入过多的噪音样本,从而提升模型准确率。
3.本发明将多个检测基模型与生成对抗网络模型中的判别器模型进行集成,获得了信用卡欺诈检测集成模型,一方面有效避免了系统整体性能对单个基模型的过度依赖,另一方面通过对已完成训练的判别器模型的引入,能够进一步丰富检测基模型类别,提升系统整体的泛化能力。
通过以上机制综合应用,本发明显著提升了检测模型对信用卡交易欺诈的检测能力,在提高模型准确率、召回率的同时,有效降低模型的假阳性率,从而帮助持卡人、发卡机构大幅减少欺诈损失和反欺诈调查方面的人工成本。
附图说明
图1为本发明实施例中的一种基于多特征融合的信用卡欺诈检测方法的主要流程示意图;
图2为本发明实施例的方法中步骤2的通过前馈神经网络、卷积神经网络、Bi-LSTM模型获得嵌入基本特征、金融操作行为特征及交易特征的嵌入表示示意图;
图3为本发明实施例的方法中步骤3至步骤5中的通过生成对抗网络构建新的样本训练集、训练多个检测基模型并进行Bagging集成获得信用卡欺诈检测集成模型的示意图;
图4为一个实施例中计算机装置的内部结构图。
具体实施方式
见图1,本发明的一种基于多特征融合的信用卡欺诈检测方法,至少包括以下步骤:
步骤1:采集持卡人信息数据,持卡人信息数据包括持卡人的基本信息数据、持卡人的金融操作行为数据、持卡人的信用卡交易信息数据;
步骤2:通过前馈神经网络模型将持卡人的基本信息数据进行嵌入表示,通过卷积神经网络模型将持卡人的金融操作行为数据进行嵌入表示,通过Bi-LSTM模型将持卡人的信用卡交易信息数据进行嵌入表示,拼接各个模型输出的特征向量得到样本特征表示向量;
步骤3:构建生成对抗网络模型,生成对抗网络模型包括生成器模型和判别器模型,生成器模型用于生成模拟欺诈样本,判别器模型用于分辨真实欺诈样本和模拟欺诈样本,依据数据库中的合法交易样本与欺诈交易样本的比例设置样本集合中的合法交易样本与欺诈交易样本的比例,训练生成对抗网络模型;
步骤4:将样本集合划分为训练集与验证集,利用完成训练的生成器模型生成模拟欺诈样本,将模拟欺诈样本与训练集合并生成新的平衡训练集,构建多个检测基模型,通过新的平衡训练集训练多个检测基模型,通过验证集对检测基模型参数进行调优;
步骤5:将完成训练的多种检测基模型与判别器模型进行组合,得到信用卡欺诈检测集成模型;
步骤6:当持卡人发生新的交易时,分别通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型对持卡人信息进行嵌入表示,拼接得到持卡人的样本特征表示向量,将持卡人的样本特征表示向量输入信用卡欺诈检测集成模型中,输出持卡人的信用卡欺诈风险预测结果。
本实施例提供的方法,将持卡人的多种特征数据进行了融合表示,包括了信用卡持卡人的基本信息特征、交易行为特征和持卡人的金融操作行为的特征,为模型提供了更为广泛、全面的特征数据,金融操作行为特征数据地引入,能够让模型构建持卡人合法操作行为基线,当某信用卡交易行为明显偏离模型基线时,能够被模型快速捕获并预警;并且,分别通过前馈神经网络、生成对抗网络、Bi-LSTM模型对持卡人基本信息特征、交易行为特征及其在不同渠道内金融操作行为特征间的隐藏关系进行深度挖掘,构建了更为准确、细化的特征表示,在提升欺诈检测模型的性能的同时也有效压缩了特征数据所需的存储空间;
同时,本实施例的方法利用生成对抗网络模型有效解决训练样本中的类不均衡问题,在训练生成对抗网络模型时按照数据库中原始欺诈样本的特征与分布情况生成模拟欺诈样本,弥补现有方法的不足,大幅降低了类不均衡比率,有效避免了模型向多数类样本偏移的现象;
另外本实施例中提供的信用卡欺诈检测集成模型,将多个检测基模型与生成对抗网络模型中的判别器模型进行集成,有效避免了系统整体性能对单个基模型的过度依赖,并且通过对已完成训练的判别器模型的引入,进一步丰富检测基模型类别,提升系统整体的泛化能力。
从而,本实施例的方法显著提升了检测模型对信用卡交易欺诈的检测能力,在提高模型准确率、召回率的同时,有效降低模型的假阳性率,从而帮助持卡人、发卡机构大幅减少欺诈损失和反欺诈调查方面的人工成本。
具体在本发明的一个实施例中,在步骤1中,具体包括以下步骤:
从数据库中提取持卡人基本信息数据,持卡人基本信息数据可以包括年龄、婚姻状态、受教育程度、职业、职务等信息,持卡人基本信息数据通过集合
Figure 763491DEST_PATH_IMAGE001
进行表示,其中集合中的每个参数
Figure 81471DEST_PATH_IMAGE002
分别表示持卡人的一个基本属性,可以分别对应为年龄、婚姻状态、受教育程度、职业、职务等信息中的一个;
从数据库中提取持卡人的金融操作行为数据,具体为持卡人在不同金融渠道内的操作行为数据,可以包括网银端购买理财产品、手机端查看金融资讯等,持卡人的金融操作行为数据通过集合
Figure 238783DEST_PATH_IMAGE003
表示,其中
Figure 157060DEST_PATH_IMAGE004
分别表示持卡人在各渠道内的一次操作,每个操作用三元组
Figure 792441DEST_PATH_IMAGE005
表示,其中
Figure 463463DEST_PATH_IMAGE006
为本次操作的主标记、
Figure 791676DEST_PATH_IMAGE007
为操作的子标记、
Figure 931670DEST_PATH_IMAGE008
为操作的附言,在本实施例中,主标记、子标记为操作的ID分类,例如购买理财,主标记为购买理财的操作ID,例如1005;子标记为对应的理财产品ID,例如202;附言可以为文本,也可以为数字,例如购买理财的金额;
从数据库中提取持卡人的信用卡交易信息数据,持卡人的信用卡交易信息数据可以包括网上购物或线下POS消费的金额、时间、当前余额、30天内交易次数等,持卡人的信用卡交易信息数据,通过集合
Figure 636321DEST_PATH_IMAGE009
表示,其中
Figure 928893DEST_PATH_IMAGE010
分别表示持卡人本次交易的一个属性。
见图2,在本发明的一个实施例中,在步骤2中,具体包括以下步骤:
构建前馈神经网络模型,通过前馈神经网络模型将持卡人基本信息数据
Figure 162428DEST_PATH_IMAGE011
嵌入转换为特征向量
Figure 789719DEST_PATH_IMAGE136
,前馈神经网络模型包括若干神经元层,l层到l+1层的转换计算公式为:
Figure 766902DEST_PATH_IMAGE015
其中,
Figure 428828DEST_PATH_IMAGE016
为激活函数,
Figure 342252DEST_PATH_IMAGE017
为l层节点到l+1层节点间的权重,
Figure 456838DEST_PATH_IMAGE018
为节点的偏置;
对于前馈神经网络模型的第一层的输入层的输入
Figure 237712DEST_PATH_IMAGE011
Figure 488565DEST_PATH_IMAGE019
;对于前馈神经网络模型的最后一层的输出层的输出
Figure 80215DEST_PATH_IMAGE136
Figure 682097DEST_PATH_IMAGE138
在步骤2中还构建了卷积神经网络模型,卷积神经网络模型包含3个卷积层、3个池化层、5个全连接层,通过卷积神经网络模型将持卡人的金融操作行为数据
Figure 1083DEST_PATH_IMAGE024
嵌入转换为特征向量
Figure 372022DEST_PATH_IMAGE025
Figure 383840DEST_PATH_IMAGE026
,输出的第i个特征向量表示为如下:
Figure 191128DEST_PATH_IMAGE027
其中,
Figure 579384DEST_PATH_IMAGE028
为非线性激活函数,
Figure 804829DEST_PATH_IMAGE029
Figure 987548DEST_PATH_IMAGE030
是卷积神经网络中第i层节点可训练参数。
在步骤2中还构建了构建Bi-LSTM模型,Bi-LSTM模型包括一个前向LSTM和一个后向LSTM,按时间先后顺序对持卡人
Figure 314756DEST_PATH_IMAGE031
时间区间内通过信用卡进行交易的数据进行排序,得到序列
Figure 975544DEST_PATH_IMAGE032
,通过Bi-LSTM模型将持卡人的信用卡交易信息数据的序列
Figure 55496DEST_PATH_IMAGE032
嵌入转换为特征向量
Figure 674696DEST_PATH_IMAGE140
Bi-LSTM模型中,LSTM中各单元的值按照如下计算:
计算t时刻候选记忆单元的值
Figure 207308DEST_PATH_IMAGE035
Figure 921055DEST_PATH_IMAGE037
其中
Figure 121092DEST_PATH_IMAGE038
为t时刻的原始交易特征向量,
Figure 645615DEST_PATH_IMAGE039
为LSTM在前一状态中的输出,
Figure 665523DEST_PATH_IMAGE040
为激活函数,
Figure 933694DEST_PATH_IMAGE041
为权重矩阵,
Figure 738970DEST_PATH_IMAGE042
为对应的偏置;
计算输入门的值
Figure 434393DEST_PATH_IMAGE043
Figure 207177DEST_PATH_IMAGE045
其中
Figure 13459DEST_PATH_IMAGE046
为激活函数,
Figure 922509DEST_PATH_IMAGE047
为权重矩阵,
Figure 38102DEST_PATH_IMAGE048
为对应的偏置;
计算遗忘门的值
Figure 32603DEST_PATH_IMAGE049
Figure 908155DEST_PATH_IMAGE051
其中
Figure 937291DEST_PATH_IMAGE052
为权重矩阵,
Figure 725249DEST_PATH_IMAGE053
为对应的偏置;
计算当前时刻记忆单元的值
Figure 472625DEST_PATH_IMAGE054
Figure 886289DEST_PATH_IMAGE056
其中
Figure 504352DEST_PATH_IMAGE057
为上一时刻记忆单元的状态值,
Figure DEST_PATH_IMAGE141
为点积;
计算输出门的值
Figure 498765DEST_PATH_IMAGE059
Figure 202279DEST_PATH_IMAGE061
其中
Figure 419634DEST_PATH_IMAGE062
为权重矩阵,
Figure 157782DEST_PATH_IMAGE063
为对应的偏置;
计算LSTM的输出
Figure 553123DEST_PATH_IMAGE064
Figure 9512DEST_PATH_IMAGE066
将前向LSTM的输出
Figure 764978DEST_PATH_IMAGE067
与后向LSTM的输出
Figure 623213DEST_PATH_IMAGE068
进行拼接,得到输出
Figure DEST_PATH_IMAGE143
,其中
Figure 953569DEST_PATH_IMAGE144
Bi-LSTM模型通过一个池化层合并输入
Figure 366096DEST_PATH_IMAGE143
,得到嵌入后的特征表示向量
Figure 925253DEST_PATH_IMAGE146
Figure 637994DEST_PATH_IMAGE148
最终,将嵌入后的基本信息特征向量
Figure 358826DEST_PATH_IMAGE150
、金融操作行为特征向量
Figure 540539DEST_PATH_IMAGE025
、交易信息特征向量
Figure 637808DEST_PATH_IMAGE146
进行拼接,拼接得到样本特征表示向量
Figure 939477DEST_PATH_IMAGE076
Figure 96789DEST_PATH_IMAGE152
见图3,在本发明的一个实施例中,在步骤3中,具体包括以下步骤:
构建生成对抗网络模型,生成对抗网络模型包括生成器模型G和判别器模型D,生成器模型G主要用于模拟生成欺诈样本,判别器模型D主要用于判别输入样本的类别,例如是真实的欺诈样本还是模拟的欺诈样本。
在本实施例中,训练对抗网络模型包括以下步骤:
从卡交易系统生产数据库中抽取部分信用卡交易样本组成样本集合
Figure 483908DEST_PATH_IMAGE079
,集合
Figure 899714DEST_PATH_IMAGE079
包含合法交易样本子集
Figure 321468DEST_PATH_IMAGE080
与欺诈交易样本子集
Figure 649681DEST_PATH_IMAGE081
,其中
Figure 789676DEST_PATH_IMAGE082
;统计卡交易系统生产数据库中的合法交易与欺诈交易样本比例,欺诈交易样本子集
Figure 979480DEST_PATH_IMAGE081
与合法交易样本子集
Figure 255740DEST_PATH_IMAGE080
之间的比例依据卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置;在本实施例中,欺诈交易样本数:合法交易样本数
Figure DEST_PATH_IMAGE153
,则样本子集
Figure 286013DEST_PATH_IMAGE081
与子集
Figure 647724DEST_PATH_IMAGE080
之间的关系为
Figure 139755DEST_PATH_IMAGE154
从欺诈交易样本子集
Figure 801680DEST_PATH_IMAGE081
中抽取m个样本,通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算m个样本的嵌入特征向量,拼接得到样本特征表示向量
Figure 206117DEST_PATH_IMAGE083
;利用随机数生成器对应生成m个噪音样本
Figure 55124DEST_PATH_IMAGE084
将噪音样本输入至生成器模型G,由生成器模型G生成m个模拟欺诈样本
Figure DEST_PATH_IMAGE155
,其中:
Figure DEST_PATH_IMAGE157
更新判别器模型D的参数
Figure 649047DEST_PATH_IMAGE158
,使得
Figure DEST_PATH_IMAGE159
值最大化,计算方法如下:
Figure 696638DEST_PATH_IMAGE091
Figure 804401DEST_PATH_IMAGE093
其中
Figure 875125DEST_PATH_IMAGE088
为判别器模型D的可训练参数,通过随机梯度上升的方法对
Figure 459690DEST_PATH_IMAGE088
进行更新,从而使得判别器模型D的交叉熵最小,使得
Figure 830628DEST_PATH_IMAGE089
值最大;
Figure 576867DEST_PATH_IMAGE089
越大,表明判别器模型D对欺诈样本和生成样本的分辨能力越强,即对欺诈样本的预测准确率更高。
固定判别器模型D的各项模型参数,利用随机数生成器生成m个噪音样本
Figure 416779DEST_PATH_IMAGE084
,更新生成器模型G的参数
Figure 539455DEST_PATH_IMAGE094
,使得
Figure 764900DEST_PATH_IMAGE101
值最大化,计算方法如下:
Figure DEST_PATH_IMAGE161
Figure DEST_PATH_IMAGE163
其中
Figure 259205DEST_PATH_IMAGE094
为生成器模型G的可训练参数,通过随机梯度下降的方法对
Figure 570100DEST_PATH_IMAGE094
进行更新,从而使得生成器模型G的交叉熵最小,使得
Figure 496468DEST_PATH_IMAGE101
值最大;
Figure 592731DEST_PATH_IMAGE101
越大,表明生成器模型G生成的模拟欺诈样本的伪装能力越强,以至于判别器网络D无法准确分辨真实的欺诈样本和模拟生成的欺诈样本,为判别器网络D后续的迭代训练与性能提升提供了样本数据基础;
重复优化判别器模型D的参数
Figure 946352DEST_PATH_IMAGE088
和生成器模型G的参数
Figure 744544DEST_PATH_IMAGE094
,直至模型损失函数值趋于稳定不再变化,判别器模型和生成器模型收敛,模型损失函数loss值计算公式如下:
Figure 209023DEST_PATH_IMAGE103
其中
Figure 409060DEST_PATH_IMAGE164
表示欺诈样本的分布期望,
Figure 182850DEST_PATH_IMAGE105
表示随机生成的噪音样本的分布期望。
损失函数loss的优化目标是通过训练找到最佳的参数,使得生成器模型G能够生成出与真实的欺诈样本分布十分接近的模拟欺诈样本,同时使得判别器模型D能够准确区分真实的欺诈样本与模拟欺诈样本。
在本发明的一个实施例中,在步骤4中,具体包括以下步骤:
按比例对样本集合
Figure 468338DEST_PATH_IMAGE079
进行切分,分为训练集
Figure 736508DEST_PATH_IMAGE106
与验证集
Figure 791052DEST_PATH_IMAGE107
,训练集
Figure 220896DEST_PATH_IMAGE106
与验证集
Figure 744412DEST_PATH_IMAGE107
在的样本通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算样本的嵌入特征向量,拼接得到样本特征表示向量,组合成新的训练集
Figure 550694DEST_PATH_IMAGE166
与验证集
Figure 459745DEST_PATH_IMAGE168
,训练集
Figure 591649DEST_PATH_IMAGE166
与验证集
Figure 320570DEST_PATH_IMAGE168
中欺诈样本与合法样本的比例,依据信用卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置,其中
Figure 445390DEST_PATH_IMAGE166
Figure 208947DEST_PATH_IMAGE168
中欺诈样本与合法样本的比例均为1:t;
将训练集
Figure 511752DEST_PATH_IMAGE166
切分为合法样本集
Figure 727970DEST_PATH_IMAGE170
和欺诈样本集
Figure 892366DEST_PATH_IMAGE172
,使用完成训练的生成器模型G根据欺诈样本集
Figure 776008DEST_PATH_IMAGE172
和噪音样本z生成k个模拟样本,给每个模拟样本打上欺诈标签,得到模拟欺诈样本集合
Figure 984136DEST_PATH_IMAGE116
,将模拟欺诈样本集合
Figure 953229DEST_PATH_IMAGE116
与合法样本集
Figure 170583DEST_PATH_IMAGE170
和欺诈样本集
Figure 163859DEST_PATH_IMAGE172
合并得到新的平衡训练样本集合
Figure 542888DEST_PATH_IMAGE117
Figure DEST_PATH_IMAGE173
Figure 264856DEST_PATH_IMAGE117
中欺诈样本
Figure 20323DEST_PATH_IMAGE174
与合法样本
Figure DEST_PATH_IMAGE175
接近1:1,通过平衡训练样本集合
Figure 894869DEST_PATH_IMAGE176
弥补了现有方法的不足,大幅降低了类不均衡比率,有效避免了模型向多数类样本偏移的现象。
基于统计学习方法构建多个检测基模型,包括决策树、随机深林、多层感知机、GBDT、XGBoost、SVM、ANN、DNN等n种模型,检测基模型用
Figure 444799DEST_PATH_IMAGE120
表示,对于任意基模型
Figure 388484DEST_PATH_IMAGE121
,通过新的平衡训练集
Figure 682062DEST_PATH_IMAGE117
进行训练,通过验证集
Figure 644071DEST_PATH_IMAGE168
进行模型参数调优,其中模型
Figure 630482DEST_PATH_IMAGE121
的性能调优指标包括欺诈样本的准确率、召回率、合法样本的假阳性率、ROC及AUC-ROC。
在本发明的一个实施例中,在步骤5中,使用Bagging算法将完成训练的检测基模型
Figure 530304DEST_PATH_IMAGE120
与完成训练的判别器模型D进行组合,得到信用卡欺诈检测集成模型,信用卡欺诈检测集成模型包括n+1个检测基模型,其中第n+1个检测模型
Figure 627573DEST_PATH_IMAGE122
为判别器模型D;
在步骤6中,当持卡人发起一笔信用卡交易时,通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算持卡人样本的嵌入特征向量
Figure 211133DEST_PATH_IMAGE123
,并用包括n+1个检测基模型的信用卡欺诈检测集成模型对持卡人的此次交易进行预测,预测结果表示为:
Figure 102865DEST_PATH_IMAGE125
其中,
Figure 755564DEST_PATH_IMAGE126
为第i个检测基模型
Figure 656523DEST_PATH_IMAGE121
的预测结果,
Figure 78278DEST_PATH_IMAGE127
表示检测基模型
Figure 921337DEST_PATH_IMAGE121
预测该笔交易为欺诈交易,
Figure 795753DEST_PATH_IMAGE128
表示检测基模型
Figure 234824DEST_PATH_IMAGE121
预测该笔交易为合法交易;
信用卡欺诈检测集成模型综合n+1个检测基模型预测结果,对持卡人此笔交易的预测结果
Figure 511085DEST_PATH_IMAGE129
表示为如下:
Figure 10199DEST_PATH_IMAGE131
Figure 388222DEST_PATH_IMAGE133
其中,
Figure 365405DEST_PATH_IMAGE134
为n+1个检测基模型预测结果之和,通过判断
Figure 761752DEST_PATH_IMAGE134
是否满足
Figure DEST_PATH_IMAGE177
,判断是否为欺诈交易,当y=1则信用卡欺诈检测集成模型将该交易预测为欺诈交易,当y=0则预测为合法交易。
将本实施例的方法得到的信用卡欺诈检测集成模型应用到真实的信用卡数据集进行测试,从测试结果来看,改进后的模型相较于传统模型将准确率提高了5%至8%、将召回率提高了3%至6%、将假阳性率降低了3%至8%。考虑到银行机构百万级信用卡用户、千万级信用卡交易基数,改进后的模型能够大幅减少银行机构在信用卡反欺诈方面的欺诈损失和人工调查成本,经济效益显著。
在本发明的另一个实施例中,除了步骤1至步骤6以外,还包括步骤7:将风险预测结果发送至信用卡交易系统进行联动决策,根据预先配置的策略对当前交易是否进行干预及采用的干预级别进行决策。例如,若模型预测结果为合法交易,则对当前交易放行,交易成功;若模型预测结果为欺诈交易,则可根据配置情况、用户当前认证级别情况决定采取的干预措施,如交易阻断,使得本次交易失败,或提升交易认证级别,表现为要求用户进行更高安全等级的认证,如动态验证码等。
在本发明的实施例中,还提供了一种基于多特征融合的信用卡欺诈检测装置,其包括:处理器、存储器以及程序;
程序存储在存储器中,处理器调用存储器存储的程序,以执行上述的一种基于多特征融合的信用卡欺诈检测方法。
该计算机装置可以是终端,其内部结构图可以如图4所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于多特征融合的信用卡欺诈检测方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机装置的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机装置外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
存储器可以是,但不限于,随机存取存储器(Random Access Memory,简称:RAM),只读存储器(Read Only Memory,简称:ROM),可编程只读存储器(Programmable Read-OnlyMemory,简称:PROM),可擦除只读存储器(Erasable Programmable Read-OnlyMemory,简称:EPROM),电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory,简称:EEPROM)等。其中,存储器用于存储程序,处理器在接收到执行指令后,执行程序。
处理器可以是一种集成电路芯片,具有信号的处理能力。上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,简称:CPU)、网络处理器(NetworkProcessor,简称:NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域技术人员可以理解,图4中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机装置的限定,具体的计算机装置可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在本发明的实施例中,还提供了一种计算机可读存储介质,计算机可读存储介质被配置成存储程序,程序被配置成执行上述的一种基于多特征融合的信用卡欺诈检测方法。
本领域内的技术人员应明白,本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此,本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图中指定的功能。
以上对本发明所提供的在一种基于多特征融合的信用卡欺诈检测方法、计算机装置、计算机可读存储介质的应用进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种基于多特征融合的信用卡欺诈检测方法,其特征在于,包括以下步骤:
采集持卡人信息数据,所述持卡人信息数据包括持卡人的基本信息数据、持卡人的金融操作行为数据、持卡人的信用卡交易信息数据;
通过前馈神经网络模型将持卡人的基本信息数据进行嵌入表示,通过卷积神经网络模型将持卡人的金融操作行为数据进行嵌入表示,通过Bi-LSTM模型将持卡人的信用卡交易信息数据进行嵌入表示,拼接各个模型输出的特征向量得到样本特征表示向量;
构建生成对抗网络模型,生成对抗网络模型包括生成器模型和判别器模型,生成器模型用于生成模拟欺诈样本,判别器模型用于分辨真实欺诈样本和模拟欺诈样本,依据数据库中的合法交易样本与欺诈交易样本的比例设置样本集合中的合法交易样本与欺诈交易样本的比例,训练生成对抗网络模型;
将样本集合划分为训练集与验证集,利用完成训练的生成器模型生成模拟欺诈样本,将模拟欺诈样本与训练集合并生成新的平衡训练集,构建多个检测基模型,通过新的平衡训练集训练多个检测基模型,通过验证集对检测基模型参数进行调优;
将完成训练的多种检测基模型与判别器模型进行组合,得到信用卡欺诈检测集成模型;
当持卡人发生新的交易时,分别通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型对持卡人信息进行嵌入表示,拼接得到持卡人的样本特征表示向量,将持卡人的样本特征表示向量输入信用卡欺诈检测集成模型中,输出持卡人的信用卡欺诈风险预测结果。
2.根据权利要求1所述的一种基于多特征融合的信用卡欺诈检测方法,其特征在于:持卡人基本信息数据通过集合
Figure DEST_PATH_IMAGE001
进行表示,其中集合中的每个参数
Figure 463606DEST_PATH_IMAGE002
分别表示持卡人的一个基本属性;
持卡人的金融操作行为数据通过集合
Figure DEST_PATH_IMAGE003
表示,其中
Figure 707506DEST_PATH_IMAGE004
分别表示持卡人在各金融渠道内的一次操作,每个操作用三元组
Figure DEST_PATH_IMAGE005
表示,其中
Figure 162758DEST_PATH_IMAGE006
为本次操作的主标记、
Figure DEST_PATH_IMAGE007
为操作的子标记、
Figure 124898DEST_PATH_IMAGE008
为操作的附言;
持卡人的信用卡交易信息数据通过集合
Figure DEST_PATH_IMAGE009
表示,其中
Figure 18904DEST_PATH_IMAGE010
分别表示持卡人本次交易的一个属性。
3.根据权利要求2所述的一种基于多特征融合的信用卡欺诈检测方法,其特征在于:样本特征表示向量通过执行如下步骤获得:
构建前馈神经网络模型,通过前馈神经网络模型将持卡人基本信息数据
Figure DEST_PATH_IMAGE011
嵌入转换为特征向量
Figure DEST_PATH_IMAGE013
,前馈神经网络模型包括若干神经元层,l层到l+1层的转换计算公式为:
Figure DEST_PATH_IMAGE015
其中,
Figure 648469DEST_PATH_IMAGE016
为激活函数,
Figure DEST_PATH_IMAGE017
为l层节点到l+1层节点间的权重,
Figure 88938DEST_PATH_IMAGE018
为节点的偏置;
对于前馈神经网络模型的第一层的输入层的输入
Figure 7215DEST_PATH_IMAGE011
Figure DEST_PATH_IMAGE019
;对于前馈神经网络模型的最后一层的输出层的输出
Figure DEST_PATH_IMAGE021
Figure DEST_PATH_IMAGE023
构建卷积神经网络模型,所述卷积神经网络模型包含m个卷积层、n个池化层、k个全连接层,通过卷积神经网络模型将持卡人的金融操作行为数据
Figure 767230DEST_PATH_IMAGE024
嵌入转换为特征向量
Figure DEST_PATH_IMAGE025
Figure 923405DEST_PATH_IMAGE026
,输出的第i个特征向量表示为如下:
Figure DEST_PATH_IMAGE027
其中,
Figure 782776DEST_PATH_IMAGE028
为非线性激活函数,
Figure DEST_PATH_IMAGE029
Figure 719508DEST_PATH_IMAGE030
是卷积神经网络中第i层节点可训练参数;
构建Bi-LSTM模型,所述Bi-LSTM模型包括一个前向LSTM和一个后向LSTM,按时间先后顺序对持卡人
Figure DEST_PATH_IMAGE031
时间区间内通过信用卡进行交易的数据进行排序,得到序列
Figure 955317DEST_PATH_IMAGE032
,通过Bi-LSTM模型将持卡人的信用卡交易信息数据的序列
Figure 497157DEST_PATH_IMAGE032
嵌入转换为特征向量
Figure 199534DEST_PATH_IMAGE034
LSTM中各单元的值按照如下计算:
计算t时刻候选记忆单元的值
Figure DEST_PATH_IMAGE035
Figure DEST_PATH_IMAGE037
其中
Figure 889141DEST_PATH_IMAGE038
为t时刻的原始交易特征向量,
Figure DEST_PATH_IMAGE039
为LSTM在前一状态中的输出,
Figure 928642DEST_PATH_IMAGE040
为激活函数,
Figure DEST_PATH_IMAGE041
为权重矩阵,
Figure 59409DEST_PATH_IMAGE042
为对应的偏置;
计算输入门的值
Figure DEST_PATH_IMAGE043
Figure DEST_PATH_IMAGE045
其中
Figure 791741DEST_PATH_IMAGE046
为激活函数,
Figure DEST_PATH_IMAGE047
为权重矩阵,
Figure 703065DEST_PATH_IMAGE048
为对应的偏置;
计算遗忘门的值
Figure DEST_PATH_IMAGE049
Figure DEST_PATH_IMAGE051
其中
Figure 749519DEST_PATH_IMAGE052
为权重矩阵,
Figure DEST_PATH_IMAGE053
为对应的偏置;
计算当前时刻记忆单元的值
Figure 797109DEST_PATH_IMAGE054
Figure 903606DEST_PATH_IMAGE056
其中
Figure DEST_PATH_IMAGE057
为上一时刻记忆单元的状态值,
Figure 42506DEST_PATH_IMAGE058
为点积;
计算输出门的值
Figure DEST_PATH_IMAGE059
Figure DEST_PATH_IMAGE061
其中
Figure 892650DEST_PATH_IMAGE062
为权重矩阵,
Figure DEST_PATH_IMAGE063
为对应的偏置;
计算LSTM的输出
Figure 794747DEST_PATH_IMAGE064
Figure 72145DEST_PATH_IMAGE066
将前向LSTM的输出
Figure DEST_PATH_IMAGE067
与后向LSTM的输出
Figure 426903DEST_PATH_IMAGE068
进行拼接,得到输出
Figure 815159DEST_PATH_IMAGE070
,其中
Figure 243866DEST_PATH_IMAGE072
所述Bi-LSTM模型通过一个池化层合并输入
Figure 426586DEST_PATH_IMAGE070
,得到嵌入后的特征表示向量
Figure 3061DEST_PATH_IMAGE034
Figure 929428DEST_PATH_IMAGE074
将嵌入后的基本信息特征向量
Figure 9380DEST_PATH_IMAGE076
、金融操作行为特征向量
Figure 894159DEST_PATH_IMAGE025
、交易信息特征向量
Figure 692351DEST_PATH_IMAGE034
进行拼接,拼接得到样本特征表示向量
Figure DEST_PATH_IMAGE077
Figure DEST_PATH_IMAGE079
4.根据权利要求1所述的一种基于多特征融合的信用卡欺诈检测方法,其特征在于:构建的所述生成对抗网络模型包括生成器模型G和判别器模型D,所述生成器模型用于生成模拟欺诈样本,所述判别器模型用于分辨真实欺诈样本和模拟欺诈样本;
训练对抗网络模型包括以下步骤:
从卡交易系统生产数据库中抽取部分信用卡交易样本组成样本集合
Figure 687989DEST_PATH_IMAGE080
,集合
Figure 622447DEST_PATH_IMAGE080
包含合法交易样本子集
Figure DEST_PATH_IMAGE081
与欺诈交易样本子集
Figure 943707DEST_PATH_IMAGE082
,其中
Figure DEST_PATH_IMAGE083
;欺诈交易样本子集
Figure 25932DEST_PATH_IMAGE082
与合法交易样本子集
Figure 294102DEST_PATH_IMAGE081
之间的比例依据卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置;
从欺诈交易样本子集
Figure 348646DEST_PATH_IMAGE082
中抽取m个样本,通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算m个样本的嵌入特征向量,拼接得到样本特征表示向量
Figure 512911DEST_PATH_IMAGE084
;利用随机数生成器对应生成m个噪音样本
Figure DEST_PATH_IMAGE085
将噪音样本输入至生成器模型G,由生成器模型G生成m个模拟欺诈样本
Figure 551274DEST_PATH_IMAGE086
,其中:
Figure 888715DEST_PATH_IMAGE088
更新判别器模型D的参数
Figure DEST_PATH_IMAGE089
,使得
Figure 594503DEST_PATH_IMAGE090
值最大化,计算方法如下:
Figure 460827DEST_PATH_IMAGE092
Figure 720908DEST_PATH_IMAGE094
其中
Figure DEST_PATH_IMAGE095
为判别器模型D的可训练参数,通过随机梯度上升的方法对
Figure 65301DEST_PATH_IMAGE089
进行更新,从而使得判别器模型D的交叉熵最小,使得
Figure 88578DEST_PATH_IMAGE090
值最大;
固定判别器模型D的各项模型参数,利用随机数生成器生成m个噪音样本
Figure 125804DEST_PATH_IMAGE085
,更新生成器模型G的参数
Figure 873180DEST_PATH_IMAGE096
,使得
Figure DEST_PATH_IMAGE097
值最大化,计算方法如下:
Figure DEST_PATH_IMAGE099
Figure DEST_PATH_IMAGE101
其中
Figure 145898DEST_PATH_IMAGE096
为生成器模型G的可训练参数,通过随机梯度下降的方法对
Figure 29541DEST_PATH_IMAGE102
进行更新,从而使得生成器模型G的交叉熵最小,使得
Figure 706510DEST_PATH_IMAGE097
值最大;
重复优化判别器模型D的参数
Figure 675603DEST_PATH_IMAGE089
和生成器模型G的参数
Figure 627378DEST_PATH_IMAGE096
,直至模型损失函数值趋于稳定,判别器模型和生成器模型收敛,模型损失函数loss值计算公式如下:
Figure 631106DEST_PATH_IMAGE104
其中
Figure DEST_PATH_IMAGE105
表示欺诈样本的分布期望,
Figure 541294DEST_PATH_IMAGE106
表示随机生成的噪音样本的分布期望。
5.根据权利要求4所述的一种基于多特征融合的信用卡欺诈检测方法,其特征在于:按比例对样本集合
Figure 997683DEST_PATH_IMAGE080
进行切分,分为训练集
Figure DEST_PATH_IMAGE107
与验证集
Figure 549887DEST_PATH_IMAGE108
,训练集
Figure 408121DEST_PATH_IMAGE107
与验证集
Figure 426893DEST_PATH_IMAGE108
在的样本通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算样本的嵌入特征向量,拼接得到样本特征表示向量,组合成新的训练集
Figure 370578DEST_PATH_IMAGE110
与验证集
Figure 664156DEST_PATH_IMAGE112
,训练集
Figure 642476DEST_PATH_IMAGE110
与验证集
Figure 628887DEST_PATH_IMAGE112
中欺诈样本与合法样本的比例依据卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置;
将训练集
Figure 59868DEST_PATH_IMAGE110
切分为合法样本集
Figure 157137DEST_PATH_IMAGE114
和欺诈样本集
Figure 927647DEST_PATH_IMAGE116
,使用完成训练的生成器模型G根据欺诈样本集
Figure 84959DEST_PATH_IMAGE116
和噪音样本z生成k个模拟样本,给每个模拟样本打上欺诈标签,得到模拟欺诈样本集合
Figure DEST_PATH_IMAGE117
,将模拟欺诈样本集合
Figure 534395DEST_PATH_IMAGE117
与合法样本集
Figure 169776DEST_PATH_IMAGE114
和欺诈样本集
Figure 122688DEST_PATH_IMAGE116
合并得到新的平衡训练样本集合
Figure 450901DEST_PATH_IMAGE118
Figure 590896DEST_PATH_IMAGE120
6.根据权利要求5所述的一种基于多特征融合的信用卡欺诈检测方法,其特征在于:
基于统计学习方法构建多个检测基模型,检测基模型用
Figure DEST_PATH_IMAGE121
表示,对于任意检测基模型
Figure 29967DEST_PATH_IMAGE122
,通过新的平衡训练集
Figure 571807DEST_PATH_IMAGE118
进行训练,通过验证集
Figure 76781DEST_PATH_IMAGE112
进行模型参数调优,其中模型
Figure DEST_PATH_IMAGE123
的性能调优指标包括欺诈样本的准确率、召回率、合法样本的假阳性率、ROC及AUC-ROC。
7.根据权利要求6所述的一种基于多特征融合的信用卡欺诈检测方法,其特征在于:使用Bagging算法将完成训练的检测基模型
Figure 500809DEST_PATH_IMAGE121
与完成训练的判别器模型D进行组合,得到信用卡欺诈检测集成模型,信用卡欺诈检测集成模型包括n+1个检测基模型,其中第n+1个检测模型
Figure 477992DEST_PATH_IMAGE124
为判别器模型D;
当持卡人发起一笔信用卡交易时,通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算持卡人样本的嵌入特征向量
Figure DEST_PATH_IMAGE125
,并用包括n+1个检测基模型的信用卡欺诈检测集成模型对持卡人的此次交易进行预测,预测结果表示为:
Figure DEST_PATH_IMAGE127
其中,
Figure 405497DEST_PATH_IMAGE128
为第i个检测基模型
Figure 75513DEST_PATH_IMAGE123
的预测结果,
Figure DEST_PATH_IMAGE129
表示检测基模型
Figure 986837DEST_PATH_IMAGE123
预测该笔交易为欺诈交易,
Figure 767711DEST_PATH_IMAGE130
表示检测基模型
Figure 487405DEST_PATH_IMAGE122
预测该笔交易为合法交易;
信用卡欺诈检测集成模型综合n+1个检测基模型预测结果,对持卡人此笔交易的预测结果
Figure DEST_PATH_IMAGE131
表示为如下:
Figure DEST_PATH_IMAGE133
Figure DEST_PATH_IMAGE135
其中,
Figure 187377DEST_PATH_IMAGE136
为n+1个检测基模型预测结果之和,当y=1则信用卡欺诈检测集成模型将该交易预测为欺诈交易,当y=0则预测为合法交易。
8.根据权利要求7所述的一种基于多特征融合的信用卡欺诈检测方法,其特征在于:还包括步骤:将风险预测结果发送至信用卡交易系统进行联动决策,根据预先配置的策略对当前交易是否进行干预及采用的干预级别进行决策。
9.一种计算机装置,其特征在于,其包括:处理器、存储器以及程序;
所述程序存储在所述存储器中,所述处理器调用存储器存储的程序,以执行权利要求1所述的一种基于多特征融合的信用卡欺诈检测方法。
10.一种计算机可读存储介质,其特征在于:所述计算机可读存储介质用于存储程序,所述程序用于执行权利要求1所述的一种基于多特征融合的信用卡欺诈检测方法。
CN202211100976.7A 2022-09-09 2022-09-09 基于多特征融合的信用卡欺诈检测方法、装置及介质 Active CN115204901B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211100976.7A CN115204901B (zh) 2022-09-09 2022-09-09 基于多特征融合的信用卡欺诈检测方法、装置及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211100976.7A CN115204901B (zh) 2022-09-09 2022-09-09 基于多特征融合的信用卡欺诈检测方法、装置及介质

Publications (2)

Publication Number Publication Date
CN115204901A true CN115204901A (zh) 2022-10-18
CN115204901B CN115204901B (zh) 2022-12-06

Family

ID=83572180

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211100976.7A Active CN115204901B (zh) 2022-09-09 2022-09-09 基于多特征融合的信用卡欺诈检测方法、装置及介质

Country Status (1)

Country Link
CN (1) CN115204901B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618238A (zh) * 2022-12-14 2023-01-17 湖南工商大学 基于参数偏移修正集成学习的信用卡欺诈检测方法
CN116433345A (zh) * 2023-05-05 2023-07-14 辽宁慧远科技开发有限公司 基于ai的欺诈活动分析方法及数字化金融产品服务系统
CN116681434A (zh) * 2023-06-07 2023-09-01 科睿特软件集团股份有限公司 基于年卡防盗刷算法的行为管理系统及其方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065813A1 (en) * 2018-08-24 2020-02-27 Capital One Services, Llc Methods and arrangements to detect fraudulent transactions
CN111242296A (zh) * 2018-11-29 2020-06-05 激发认知有限公司 自动模型构建搜索空间缩减
CN111325619A (zh) * 2018-12-15 2020-06-23 深圳先进技术研究院 一种基于联合学习的信用卡欺诈检测模型更新方法及装置
CN112819604A (zh) * 2021-01-19 2021-05-18 浙江省农村信用社联合社 基于融合神经网络特征挖掘的个人信用评估方法与系统
US20210312528A1 (en) * 2020-04-01 2021-10-07 Capital One Services, Llc System, method and computer-accessible medium for repeating prior purchases
US20210374756A1 (en) * 2020-05-29 2021-12-02 Mastercard International Incorporated Methods and systems for generating rules for unseen fraud and credit risks using artificial intelligence

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200065813A1 (en) * 2018-08-24 2020-02-27 Capital One Services, Llc Methods and arrangements to detect fraudulent transactions
CN111242296A (zh) * 2018-11-29 2020-06-05 激发认知有限公司 自动模型构建搜索空间缩减
CN111325619A (zh) * 2018-12-15 2020-06-23 深圳先进技术研究院 一种基于联合学习的信用卡欺诈检测模型更新方法及装置
US20210312528A1 (en) * 2020-04-01 2021-10-07 Capital One Services, Llc System, method and computer-accessible medium for repeating prior purchases
US20210374756A1 (en) * 2020-05-29 2021-12-02 Mastercard International Incorporated Methods and systems for generating rules for unseen fraud and credit risks using artificial intelligence
CN112819604A (zh) * 2021-01-19 2021-05-18 浙江省农村信用社联合社 基于融合神经网络特征挖掘的个人信用评估方法与系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
YALONG XIE等: "《A Heterogeneous Ensemble Learning Model Based on Data Distribution for Credit Card Fraud Detection》", 《WIRELESS COMMUNICATIONS AND MOBILE COMPUTING》 *
于梦珂: "《基于生成式对抗网络的信用卡欺诈预测模型研究》", 《中国优秀硕士学位论文全文数据库 经济与管理科学辑》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115618238A (zh) * 2022-12-14 2023-01-17 湖南工商大学 基于参数偏移修正集成学习的信用卡欺诈检测方法
CN116433345A (zh) * 2023-05-05 2023-07-14 辽宁慧远科技开发有限公司 基于ai的欺诈活动分析方法及数字化金融产品服务系统
CN116433345B (zh) * 2023-05-05 2024-05-24 意数信息技术(上海)有限公司 基于ai的欺诈活动分析方法及数字化金融产品服务系统
CN116681434A (zh) * 2023-06-07 2023-09-01 科睿特软件集团股份有限公司 基于年卡防盗刷算法的行为管理系统及其方法

Also Published As

Publication number Publication date
CN115204901B (zh) 2022-12-06

Similar Documents

Publication Publication Date Title
CN115204901B (zh) 基于多特征融合的信用卡欺诈检测方法、装置及介质
CN106875078B (zh) 交易风险检测方法、装置及设备
CN106803168B (zh) 一种异常转账侦测方法和装置
Husejinovic Credit card fraud detection using naive Bayesian and c4. 5 decision tree classifiers
CN109410036A (zh) 一种欺诈检测模型训练方法和装置及欺诈检测方法和装置
US11682018B2 (en) Machine learning model and narrative generator for prohibited transaction detection and compliance
CN111311416A (zh) 一种基于多通道图和图神经网络的区块链洗钱节点检测方法
Alenzi et al. Fraud detection in credit cards using logistic regression
CN112927072B (zh) 一种基于区块链的反洗钱仲裁方法、系统及相关装置
CN111428872A (zh) 用于将来自更复杂模型的知识融入更简单模型中的系统、方法和计算机程序产品
Zhou et al. Fraud detection within bankcard enrollment on mobile device based payment using machine learning
CN110084609B (zh) 一种基于表征学习的交易欺诈行为深度检测方法
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN111242744B (zh) 低频交易的个体行为建模与欺诈检测方法
CN111144899A (zh) 识别虚假交易的方法及装置和电子设备
CN110956543A (zh) 异常交易检测的方法
CN106779723A (zh) 一种移动终端风险评估方法及装置
CN111553685B (zh) 确定交易路由通道的方法、装置、电子设备和存储介质
Pandey et al. A review of credit card fraud detection techniques
Kadam et al. Loan approval prediction system using logistic regression and CIBIL score
Xiao et al. Explainable fraud detection for few labeled time series data
CN113822751A (zh) 一种线上贷款的风险预测方法
Pulkkinen et al. A multi-objective rule optimizer with an application to risk management
Ali et al. SMOTE Based Credit Card Fraud Detection Using Convolutional Neural Network
CN113436020B (zh) 违规账户的识别方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant