CN115204901A

CN115204901A - 基于多特征融合的信用卡欺诈检测方法、装置及介质

Info

Publication number: CN115204901A
Application number: CN202211100976.7A
Authority: CN
Inventors: 谢亚龙; 李爱平; 胡笔吟; 涂宏魁; 周斌; 江荣; 王晔; 喻承
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2022-09-09
Filing date: 2022-09-09
Publication date: 2022-10-18
Anticipated expiration: 2042-09-09
Also published as: CN115204901B

Abstract

本发明提供了基于多特征融合的信用卡欺诈检测方法、装置及介质，可以有效提高欺诈交易预测的准确率、召回率，大幅降低欺诈交易的假阳性率，方法包括：采集持卡人信息数据；通过前馈神经网络模型、卷积神经网络模型、Bi‑LSTM模型分别将持卡人的基本信息数据、金融操作行为数据、信用卡交易信息数据进行嵌入表示，拼接得到样本特征表示向量；构建并训练生成对抗网络模型；利用完成训练的生成器模型生成模拟欺诈样本，合并生成新的训练集，构建并训练多个检测基模型，将完成训练的多种检测基模型与判别器模型进行组合得到信用卡欺诈检测集成模型；当持卡人发生新的交易时，通过信用卡欺诈检测集成模型预测持卡人的信用卡欺诈风险预测结果。

Description

基于多特征融合的信用卡欺诈检测方法、装置及介质

技术领域

本发明涉及信用卡欺诈检测领域和机器学习领域，具体涉及基于多特征融合的信用卡欺诈检测方法、装置及介质。

背景技术

信用卡支付已成为人们当前使用频率最高的几种支付方式之一，它在给人们带来巨大支付便利的同时，也因频繁存在的盗刷、盗用等欺诈风险给持卡人、发卡方造成大量的财产和信誉损失。将机器学习技术应用到信用卡欺诈检测领域，能够有效降低检测机构对反欺诈专家人员及专家知识的依赖，显著提高检测效率。但不能忽略的是，若欺诈检测模型对合法交易的误判率太高，同样也会大幅增加发卡机构的人工调查成本，并给持卡人带来较为不便的用户体验，从而逐步丧失用户粘性，降低发卡方从该用户获得盈利的能力。

大多数现有的信用卡欺诈检测模型存在以下三个方面的不足：

一是只采集了持卡人交易特征数据（如交易金额、时间、余额等），而忽略了持卡人的基本特征数据（如年龄、性别、职业等）。从统计情况来看，不同年龄、不同性别的持卡人在交易行为上可能会存在较大差异，例如男性更喜欢购买电子产品，而女性更喜欢购买彩妆产品等。通过单一类型的特征数据进行模型训练时，会出现特征缺失的情况，一般难以获得较高的准确率。

二是虽然采集了交易特征和基本特征两种类型的特征数据，但只是对这两种类型的特征数据做简单的拼接，并没有挖掘不同类型特征数据间、类型虽然相同但特征不同的数据间的高维隐藏关系，从而可能出现特征表现不足的情况。

三是真实的信用卡欺诈样本数据集往往是极度不平衡的，即合法交易样本远多于欺诈交易样本，不对训练数据集进行均衡化处理往往会使得模型对欺诈交易样本学习不足，从而使得模型难以获得较高的召回率。此外，一些现有的模型虽然使用SMOTE等重采样算法对训练数据集进行均衡化处理，提高了召回率，但因为重采样过程中引入了大量的噪声样本，增大了模型的假阳性率，从使得发卡方不得不支付更多的人工调查成本。

发明内容

针对上述问题，本发明旨在提供一种基于多特征融合的信用卡欺诈检测方法、装置及介质，可以有效提高欺诈交易预测的准确率、召回率，大幅降低欺诈交易的假阳性率。

其技术方案是这样的：一种基于多特征融合的信用卡欺诈检测方法，包括以下步骤：

采集持卡人信息数据，所述持卡人信息数据包括持卡人的基本信息数据、持卡人的金融操作行为数据、持卡人的信用卡交易信息数据；

通过前馈神经网络模型将持卡人的基本信息数据进行嵌入表示，通过卷积神经网络模型将持卡人的金融操作行为数据进行嵌入表示，通过Bi-LSTM模型将持卡人的信用卡交易信息数据进行嵌入表示，拼接各个模型输出的特征向量得到样本特征表示向量；

构建生成对抗网络模型，生成对抗网络模型包括生成器模型和判别器模型，生成器模型用于生成模拟欺诈样本，判别器模型用于分辨真实欺诈样本和模拟欺诈样本，依据数据库中的合法交易样本与欺诈交易样本的比例设置样本集合中的合法交易样本与欺诈交易样本的比例，训练生成对抗网络模型；

将样本集合划分为训练集与验证集，利用完成训练的生成器模型生成模拟欺诈样本，将模拟欺诈样本与训练集合并生成新的平衡训练集，构建多个检测基模型，通过新的平衡训练集训练多个检测基模型，通过验证集对检测基模型参数进行调优；

将完成训练的多种检测基模型与判别器模型进行组合，得到信用卡欺诈检测集成模型；

当持卡人发生新的交易时，分别通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型对持卡人信息进行嵌入表示，拼接得到持卡人的样本特征表示向量，将持卡人的样本特征表示向量输入信用卡欺诈检测集成模型中，输出持卡人的信用卡欺诈风险预测结果。

进一步的，持卡人基本信息数据通过集合

进行表示，其中集合中的每个参数

分别表示持卡人的一个基本属性；

持卡人的金融操作行为数据通过集合

表示，其中

分别表示持卡人在各金融渠道内的一次操作，每个操作用三元组

表示，其中

为本次操作的主标记、

为操作的子标记、

为操作的附言；

持卡人的信用卡交易信息数据通过集合

表示，其中

分别表示持卡人本次交易的一个属性。

进一步的，构建前馈神经网络模型，通过前馈神经网络模型将持卡人基本信息数据

嵌入转换为特征向量

，前馈神经网络模型包括若干神经元层，l层到l+1层的转换计算公式为：

其中，

为激活函数，

为l层节点到l+1层节点间的权重，

为节点的偏置；

对于前馈神经网络模型的第一层的输入层的输入

，

有

；对于前馈神经网络模型的最后一层的输出层的输出

，

有

。

进一步的，构建卷积神经网络模型，所述卷积神经网络模型包含m个卷积层、n个池化层、k个全连接层，通过卷积神经网络模型将持卡人的金融操作行为数据

嵌入转换为特征向量

，

,输出的第i个特征向量表示为如下：

，

其中，

为非线性激活函数，

与

是卷积神经网络中第i层节点可训练参数。

进一步的，构建Bi-LSTM模型，所述Bi-LSTM模型包括一个前向LSTM和一个后向LSTM，按时间先后顺序对持卡人

时间区间内通过信用卡进行交易的数据进行排序，得到序列

，通过Bi-LSTM模型将持卡人的信用卡交易信息数据的序列

嵌入转换为特征向量

，

LSTM中各单元的值按照如下计算：

计算t时刻候选记忆单元的值

：

其中

为t时刻的原始交易特征向量，

为LSTM在前一状态中的输出，

为激活函数，

为权重矩阵，

为对应的偏置；

计算输入门的值

：

其中

为激活函数，

为权重矩阵，

为对应的偏置；

计算遗忘门的值

：

其中

为权重矩阵，

为对应的偏置；

计算当前时刻记忆单元的值

：

其中

为上一时刻记忆单元的状态值，

为点积；

计算输出门的值

：

其中

为权重矩阵，

为对应的偏置；

计算LSTM的输出

：

将前向LSTM的输出

与后向LSTM的输出

进行拼接，得到输出

，其中

；

所述Bi-LSTM模型通过一个池化层合并输入

，得到嵌入后的特征表示向量

：

将嵌入后的基本信息特征向量

、金融操作行为特征向量

、交易信息特征向量

进行拼接，拼接得到样本特征表示向量

，

。

构建生成对抗网络模型，所述生成对抗网络模型包括生成器模型G和判别器模型D，所述生成器模型用于生成模拟欺诈样本，所述判别器模型用于分辨真实欺诈样本和模拟欺诈样本；

训练对抗网络模型包括以下步骤：

从卡交易系统生产数据库中抽取部分信用卡交易样本组成样本集合

，集合

包含合法交易样本子集

与欺诈交易样本子集

，其中

；欺诈交易样本子集

与合法交易样本子集

之间的比例依据卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置；

从欺诈交易样本子集

中抽取m个样本，通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算m个样本的嵌入特征向量，拼接得到样本特征表示向量

；利用随机数生成器对应生成m个噪音样本

；

将噪音样本输入至生成器模型G，由生成器模型G生成m个模拟欺诈样本

，其中：

更新判别器模型D的参数

,使得

值最大化，计算方法如下：

其中

为判别器模型D的可训练参数，通过随机梯度上升的方法对

进行更新，从而使得判别器模型D的交叉熵最小，使得

值最大；

固定判别器模型D的各项模型参数，利用随机数生成器生成m个噪音样本

，更新生成器模型G的参数

,使得

值最大化，计算方法如下：

其中

为生成器模型G的可训练参数，通过随机梯度下降的方法对

进行更新，从而使得生成器模型G的交叉熵最小，使得

值最大；

重复优化判别器模型D的参数

和生成器模型G的参数

，直至模型损失函数值趋于稳定，判别器模型和生成器模型收敛，模型损失函数loss值计算公式如下：

其中

表示欺诈样本的分布期望，

表示随机生成的噪音样本的分布期望。

按比例对样本集合

进行切分，分为训练集

与验证集

，训练集

与验证集

在的样本通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算样本的嵌入特征向量，拼接得到样本特征表示向量，组合成新的训练集

与验证集

，训练集

与验证集

中欺诈样本与合法样本的比例依据卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置；

进一步，将训练集

切分为合法样本集

和欺诈样本集

，使用完成训练的生成器模型G根据欺诈样本集

和噪音样本z生成k个模拟样本，给每个模拟样本打上欺诈标签，得到模拟欺诈样本集合

，将模拟欺诈样本集合

与合法样本集

和欺诈样本集

合并得到新的平衡训练样本集合

，

。

基于统计学习方法构建多个检测基模型，检测基模型用

表示，对于任意检测基模型

，通过新的平衡训练集

进行训练，通过验证集

进行模型参数调优，其中模型

的性能调优指标包括欺诈样本的准确率、召回率、合法样本的假阳性率、ROC及AUC-ROC。

进一步的，使用Bagging算法将完成训练的检测基模型

与完成训练的判别器模型D进行组合，得到信用卡欺诈检测集成模型，信用卡欺诈检测集成模型包括n+1个检测基模型，其中第n+1个检测模型

为判别器模型D；

当持卡人发起一笔信用卡交易时，通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算持卡人样本的嵌入特征向量

，并用包括n+1个检测基模型的信用卡欺诈检测集成模型对持卡人的此次交易进行预测，预测结果表示为：

其中，

为第i个检测基模型

的预测结果，

表示检测基模型

预测该笔交易为欺诈交易，

表示检测基模型

预测该笔交易为合法交易；

信用卡欺诈检测集成模型综合n+1个检测基模型预测结果，对持卡人此笔交易的预测结果

表示为如下：

其中，

为n+1个检测基模型预测结果之和，当y=1则信用卡欺诈检测集成模型将该交易预测为欺诈交易，当y=0则预测为合法交易。

进一步的，还包括步骤：将风险预测结果发送至信用卡交易系统进行联动决策，根据预先配置的策略对当前交易是否进行干预及采用的干预级别进行决策。

若信用卡欺诈检测集成模型给出的预测结果为合法交易，则对当前交易放行，交易成功；若模型预测结果为欺诈交易，则根据配置情况、用户当前认证级别情况决定采取的干预措施，干预措施包括交易阻断和提升交易认证级别。

一种计算机装置，其包括：处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行上述的一种基于多特征融合的信用卡欺诈检测方法。

一种计算机可读存储介质，所述计算机可读存储介质用于存储程序，所述程序用于执行上述的一种基于多特征融合的信用卡欺诈检测方法。

与现有技术相比，本发明具有以下优势：

1.本发明将持卡人的多种特征数据进行了融合表示，除了信用卡的持卡人基本信息特征、交易行为特征外，还通过三元组序列定义并使用了持卡人在不同渠道内的金融操作行为的特征，为模型提供了更为广泛、全面的特征数据，金融操作行为特征数据地引入，能够让模型构建持卡人合法操作行为基线，当某信用卡交易行为明显偏离模型基线时，能够被模型快速捕获并预警；并且，本发明分别通过前馈神经网络、生成对抗网络、Bi-LSTM模型对持卡人基本信息特征、交易行为特征及其在不同渠道内金融操作行为特征间的隐藏关系进行深度挖掘，构建了更为准确、细化的特征表示，在提升欺诈检测模型的性能的同时也有效压缩了特征数据所需的存储空间。

2.本发明利用了生成对抗网络模型有效解决训练样本中的类不均衡问题，按照数据库中原始欺诈样本的特征与分布情况生成大量类似特征分布的模拟欺诈样本，弥补现有方法的不足，大幅降低了类不均衡比率，有效避免了判别器模型向多数类样本偏移的现象。此外，与现有技术中，SMOTE等现有上采样方法不同，本发明通过生成对抗网络模型生成的模拟欺诈样本分布与真实的欺诈样本分布更为接近，能够避免在模型中引入过多的噪音样本，从而提升模型准确率。

3.本发明将多个检测基模型与生成对抗网络模型中的判别器模型进行集成，获得了信用卡欺诈检测集成模型，一方面有效避免了系统整体性能对单个基模型的过度依赖，另一方面通过对已完成训练的判别器模型的引入，能够进一步丰富检测基模型类别，提升系统整体的泛化能力。

通过以上机制综合应用，本发明显著提升了检测模型对信用卡交易欺诈的检测能力，在提高模型准确率、召回率的同时，有效降低模型的假阳性率，从而帮助持卡人、发卡机构大幅减少欺诈损失和反欺诈调查方面的人工成本。

附图说明

图1为本发明实施例中的一种基于多特征融合的信用卡欺诈检测方法的主要流程示意图；

图2为本发明实施例的方法中步骤2的通过前馈神经网络、卷积神经网络、Bi-LSTM模型获得嵌入基本特征、金融操作行为特征及交易特征的嵌入表示示意图；

图3为本发明实施例的方法中步骤3至步骤5中的通过生成对抗网络构建新的样本训练集、训练多个检测基模型并进行Bagging集成获得信用卡欺诈检测集成模型的示意图；

图4为一个实施例中计算机装置的内部结构图。

具体实施方式

见图1，本发明的一种基于多特征融合的信用卡欺诈检测方法，至少包括以下步骤：

步骤1:采集持卡人信息数据，持卡人信息数据包括持卡人的基本信息数据、持卡人的金融操作行为数据、持卡人的信用卡交易信息数据；

步骤2:通过前馈神经网络模型将持卡人的基本信息数据进行嵌入表示，通过卷积神经网络模型将持卡人的金融操作行为数据进行嵌入表示，通过Bi-LSTM模型将持卡人的信用卡交易信息数据进行嵌入表示，拼接各个模型输出的特征向量得到样本特征表示向量；

步骤3:构建生成对抗网络模型，生成对抗网络模型包括生成器模型和判别器模型，生成器模型用于生成模拟欺诈样本，判别器模型用于分辨真实欺诈样本和模拟欺诈样本，依据数据库中的合法交易样本与欺诈交易样本的比例设置样本集合中的合法交易样本与欺诈交易样本的比例，训练生成对抗网络模型；

步骤4:将样本集合划分为训练集与验证集，利用完成训练的生成器模型生成模拟欺诈样本，将模拟欺诈样本与训练集合并生成新的平衡训练集，构建多个检测基模型，通过新的平衡训练集训练多个检测基模型，通过验证集对检测基模型参数进行调优；

步骤5:将完成训练的多种检测基模型与判别器模型进行组合，得到信用卡欺诈检测集成模型；

步骤6:当持卡人发生新的交易时，分别通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型对持卡人信息进行嵌入表示，拼接得到持卡人的样本特征表示向量，将持卡人的样本特征表示向量输入信用卡欺诈检测集成模型中，输出持卡人的信用卡欺诈风险预测结果。

本实施例提供的方法，将持卡人的多种特征数据进行了融合表示，包括了信用卡持卡人的基本信息特征、交易行为特征和持卡人的金融操作行为的特征，为模型提供了更为广泛、全面的特征数据，金融操作行为特征数据地引入，能够让模型构建持卡人合法操作行为基线，当某信用卡交易行为明显偏离模型基线时，能够被模型快速捕获并预警；并且，分别通过前馈神经网络、生成对抗网络、Bi-LSTM模型对持卡人基本信息特征、交易行为特征及其在不同渠道内金融操作行为特征间的隐藏关系进行深度挖掘，构建了更为准确、细化的特征表示，在提升欺诈检测模型的性能的同时也有效压缩了特征数据所需的存储空间；

同时，本实施例的方法利用生成对抗网络模型有效解决训练样本中的类不均衡问题，在训练生成对抗网络模型时按照数据库中原始欺诈样本的特征与分布情况生成模拟欺诈样本，弥补现有方法的不足，大幅降低了类不均衡比率，有效避免了模型向多数类样本偏移的现象；

另外本实施例中提供的信用卡欺诈检测集成模型，将多个检测基模型与生成对抗网络模型中的判别器模型进行集成，有效避免了系统整体性能对单个基模型的过度依赖，并且通过对已完成训练的判别器模型的引入，进一步丰富检测基模型类别，提升系统整体的泛化能力。

从而，本实施例的方法显著提升了检测模型对信用卡交易欺诈的检测能力，在提高模型准确率、召回率的同时，有效降低模型的假阳性率，从而帮助持卡人、发卡机构大幅减少欺诈损失和反欺诈调查方面的人工成本。

具体在本发明的一个实施例中，在步骤1中，具体包括以下步骤：

从数据库中提取持卡人基本信息数据,持卡人基本信息数据可以包括年龄、婚姻状态、受教育程度、职业、职务等信息，持卡人基本信息数据通过集合

进行表示，其中集合中的每个参数

分别表示持卡人的一个基本属性，可以分别对应为年龄、婚姻状态、受教育程度、职业、职务等信息中的一个；

从数据库中提取持卡人的金融操作行为数据，具体为持卡人在不同金融渠道内的操作行为数据，可以包括网银端购买理财产品、手机端查看金融资讯等，持卡人的金融操作行为数据通过集合

表示，其中

分别表示持卡人在各渠道内的一次操作，每个操作用三元组

表示，其中

为本次操作的主标记、

为操作的子标记、

为操作的附言，在本实施例中，主标记、子标记为操作的ID分类，例如购买理财，主标记为购买理财的操作ID，例如1005；子标记为对应的理财产品ID，例如202；附言可以为文本，也可以为数字，例如购买理财的金额；

从数据库中提取持卡人的信用卡交易信息数据，持卡人的信用卡交易信息数据可以包括网上购物或线下POS消费的金额、时间、当前余额、30天内交易次数等，持卡人的信用卡交易信息数据，通过集合

表示，其中

分别表示持卡人本次交易的一个属性。

见图2，在本发明的一个实施例中，在步骤2中，具体包括以下步骤：

构建前馈神经网络模型，通过前馈神经网络模型将持卡人基本信息数据

嵌入转换为特征向量

其中，

为激活函数，

为l层节点到l+1层节点间的权重，

为节点的偏置；

对于前馈神经网络模型的第一层的输入层的输入

，

有

；对于前馈神经网络模型的最后一层的输出层的输出

，

有

。

在步骤2中还构建了卷积神经网络模型，卷积神经网络模型包含3个卷积层、3个池化层、5个全连接层，通过卷积神经网络模型将持卡人的金融操作行为数据

嵌入转换为特征向量

，

,输出的第i个特征向量表示为如下：

，

其中，

为非线性激活函数，

与

是卷积神经网络中第i层节点可训练参数。

在步骤2中还构建了构建Bi-LSTM模型，Bi-LSTM模型包括一个前向LSTM和一个后向LSTM，按时间先后顺序对持卡人

时间区间内通过信用卡进行交易的数据进行排序，得到序列

，通过Bi-LSTM模型将持卡人的信用卡交易信息数据的序列

嵌入转换为特征向量

，

Bi-LSTM模型中，LSTM中各单元的值按照如下计算：

计算t时刻候选记忆单元的值

：

其中

为t时刻的原始交易特征向量，

为LSTM在前一状态中的输出，

为激活函数，

为权重矩阵，

为对应的偏置；

计算输入门的值

：

其中

为激活函数，

为权重矩阵，

为对应的偏置；

计算遗忘门的值

：

其中

为权重矩阵，

为对应的偏置；

计算当前时刻记忆单元的值

：

其中

为上一时刻记忆单元的状态值，

为点积；

计算输出门的值

：

其中

为权重矩阵，

为对应的偏置；

计算LSTM的输出

：

将前向LSTM的输出

与后向LSTM的输出

进行拼接，得到输出

，其中

；

Bi-LSTM模型通过一个池化层合并输入

，得到嵌入后的特征表示向量

：

最终，将嵌入后的基本信息特征向量

、金融操作行为特征向量

、交易信息特征向量

进行拼接，拼接得到样本特征表示向量

，

。

见图3，在本发明的一个实施例中，在步骤3中，具体包括以下步骤：

构建生成对抗网络模型，生成对抗网络模型包括生成器模型G和判别器模型D，生成器模型G主要用于模拟生成欺诈样本，判别器模型D主要用于判别输入样本的类别，例如是真实的欺诈样本还是模拟的欺诈样本。

在本实施例中，训练对抗网络模型包括以下步骤：

，集合

包含合法交易样本子集

与欺诈交易样本子集

，其中

；统计卡交易系统生产数据库中的合法交易与欺诈交易样本比例，欺诈交易样本子集

与合法交易样本子集

之间的比例依据卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置；在本实施例中，欺诈交易样本数:合法交易样本数

，则样本子集

与子集

之间的关系为

。

从欺诈交易样本子集

；利用随机数生成器对应生成m个噪音样本

；

，其中：

更新判别器模型D的参数

,使得

值最大化，计算方法如下：

其中

为判别器模型D的可训练参数，通过随机梯度上升的方法对

进行更新，从而使得判别器模型D的交叉熵最小，使得

值最大；

越大，表明判别器模型D对欺诈样本和生成样本的分辨能力越强，即对欺诈样本的预测准确率更高。

，更新生成器模型G的参数

,使得

值最大化，计算方法如下：

其中

为生成器模型G的可训练参数，通过随机梯度下降的方法对

进行更新，从而使得生成器模型G的交叉熵最小，使得

值最大；

越大，表明生成器模型G生成的模拟欺诈样本的伪装能力越强，以至于判别器网络D无法准确分辨真实的欺诈样本和模拟生成的欺诈样本，为判别器网络D后续的迭代训练与性能提升提供了样本数据基础；

重复优化判别器模型D的参数

和生成器模型G的参数

，直至模型损失函数值趋于稳定不再变化，判别器模型和生成器模型收敛，模型损失函数loss值计算公式如下：

其中

表示欺诈样本的分布期望，

表示随机生成的噪音样本的分布期望。

损失函数loss的优化目标是通过训练找到最佳的参数，使得生成器模型G能够生成出与真实的欺诈样本分布十分接近的模拟欺诈样本，同时使得判别器模型D能够准确区分真实的欺诈样本与模拟欺诈样本。

在本发明的一个实施例中，在步骤4中，具体包括以下步骤：

按比例对样本集合

进行切分，分为训练集

与验证集

，训练集

与验证集

与验证集

，训练集

与验证集

中欺诈样本与合法样本的比例，依据信用卡交易系统生产数据库中的合法交易与欺诈交易样本比例设置，其中

与

中欺诈样本与合法样本的比例均为1:t；

将训练集

切分为合法样本集

和欺诈样本集

，使用完成训练的生成器模型G根据欺诈样本集

，将模拟欺诈样本集合

与合法样本集

和欺诈样本集

合并得到新的平衡训练样本集合

，

，

中欺诈样本

与合法样本

接近1：1，通过平衡训练样本集合

弥补了现有方法的不足，大幅降低了类不均衡比率，有效避免了模型向多数类样本偏移的现象。

基于统计学习方法构建多个检测基模型，包括决策树、随机深林、多层感知机、GBDT、XGBoost、SVM、ANN、DNN等n种模型，检测基模型用

表示，对于任意基模型

，通过新的平衡训练集

进行训练，通过验证集

进行模型参数调优，其中模型

在本发明的一个实施例中，在步骤5中，使用Bagging算法将完成训练的检测基模型

为判别器模型D；

在步骤6中，当持卡人发起一笔信用卡交易时，通过完成训练的前馈神经网络模型、卷积神经网络模型、Bi-LSTM模型计算持卡人样本的嵌入特征向量

其中，

为第i个检测基模型

的预测结果，

表示检测基模型

预测该笔交易为欺诈交易，

表示检测基模型

预测该笔交易为合法交易；

表示为如下：

其中，

为n+1个检测基模型预测结果之和，通过判断

是否满足

，判断是否为欺诈交易，当y=1则信用卡欺诈检测集成模型将该交易预测为欺诈交易，当y=0则预测为合法交易。

将本实施例的方法得到的信用卡欺诈检测集成模型应用到真实的信用卡数据集进行测试，从测试结果来看，改进后的模型相较于传统模型将准确率提高了5%至8%、将召回率提高了3%至6%、将假阳性率降低了3%至8%。考虑到银行机构百万级信用卡用户、千万级信用卡交易基数，改进后的模型能够大幅减少银行机构在信用卡反欺诈方面的欺诈损失和人工调查成本，经济效益显著。

在本发明的另一个实施例中，除了步骤1至步骤6以外，还包括步骤7：将风险预测结果发送至信用卡交易系统进行联动决策，根据预先配置的策略对当前交易是否进行干预及采用的干预级别进行决策。例如，若模型预测结果为合法交易，则对当前交易放行，交易成功；若模型预测结果为欺诈交易，则可根据配置情况、用户当前认证级别情况决定采取的干预措施，如交易阻断，使得本次交易失败，或提升交易认证级别，表现为要求用户进行更高安全等级的认证，如动态验证码等。

在本发明的实施例中，还提供了一种基于多特征融合的信用卡欺诈检测装置，其包括：处理器、存储器以及程序；

程序存储在存储器中，处理器调用存储器存储的程序，以执行上述的一种基于多特征融合的信用卡欺诈检测方法。

该计算机装置可以是终端，其内部结构图可以如图4所示。该计算机装置包括通过总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机装置的处理器用于提供计算和控制能力。该计算机装置的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机装置的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于多特征融合的信用卡欺诈检测方法。该计算机装置的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机装置的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机装置外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

存储器可以是，但不限于，随机存取存储器(Random Access Memory，简称：RAM)，只读存储器(Read Only Memory，简称：ROM)，可编程只读存储器(Programmable Read-OnlyMemory，简称：PROM)，可擦除只读存储器(Erasable Programmable Read-OnlyMemory，简称：EPROM)，电可擦除只读存储器(Electric Erasable Programmable Read-Only Memory，简称：EEPROM)等。其中，存储器用于存储程序，处理器在接收到执行指令后，执行程序。

处理器可以是一种集成电路芯片，具有信号的处理能力。上述的处理器可以是通用处理器，包括中央处理器(Central Processing Unit，简称：CPU)、网络处理器(NetworkProcessor，简称：NP)等。该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域技术人员可以理解，图4中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机装置的限定，具体的计算机装置可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在本发明的实施例中，还提供了一种计算机可读存储介质，计算机可读存储介质被配置成存储程序，程序被配置成执行上述的一种基于多特征融合的信用卡欺诈检测方法。

本领域内的技术人员应明白，本发明实施例的实施例可提供为方法、计算机装置、或计算机程序产品。因此，本发明实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明实施例是参照根据本发明实施例的方法、计算机装置、或计算机程序产品的流程图和/或框图来描述的。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图和/或中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图中指定的功能。

以上对本发明所提供的在一种基于多特征融合的信用卡欺诈检测方法、计算机装置、计算机可读存储介质的应用进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于多特征融合的信用卡欺诈检测方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多特征融合的信用卡欺诈检测方法，其特征在于：持卡人基本信息数据通过集合

进行表示，其中集合中的每个参数

分别表示持卡人的一个基本属性；

持卡人的金融操作行为数据通过集合

表示，其中

表示，其中

为本次操作的主标记、

为操作的子标记、

为操作的附言；

持卡人的信用卡交易信息数据通过集合

表示，其中

分别表示持卡人本次交易的一个属性。

3.根据权利要求2所述的一种基于多特征融合的信用卡欺诈检测方法，其特征在于：样本特征表示向量通过执行如下步骤获得：

嵌入转换为特征向量

其中，

为激活函数，

为l层节点到l+1层节点间的权重，

为节点的偏置；

对于前馈神经网络模型的第一层的输入层的输入

，

有

；对于前馈神经网络模型的最后一层的输出层的输出

，

有

；

构建卷积神经网络模型，所述卷积神经网络模型包含m个卷积层、n个池化层、k个全连接层，通过卷积神经网络模型将持卡人的金融操作行为数据

嵌入转换为特征向量

，

,输出的第i个特征向量表示为如下：

，

其中，

为非线性激活函数，

与

是卷积神经网络中第i层节点可训练参数；

构建Bi-LSTM模型，所述Bi-LSTM模型包括一个前向LSTM和一个后向LSTM，按时间先后顺序对持卡人

时间区间内通过信用卡进行交易的数据进行排序，得到序列

，通过Bi-LSTM模型将持卡人的信用卡交易信息数据的序列

嵌入转换为特征向量

，

LSTM中各单元的值按照如下计算：

计算t时刻候选记忆单元的值

：

其中

为t时刻的原始交易特征向量，

为LSTM在前一状态中的输出，

为激活函数，

为权重矩阵，

为对应的偏置；

计算输入门的值

：

其中

为激活函数，

为权重矩阵，

为对应的偏置；

计算遗忘门的值

：

其中

为权重矩阵，

为对应的偏置；

计算当前时刻记忆单元的值

：

其中

为上一时刻记忆单元的状态值，

为点积；

计算输出门的值

：

其中

为权重矩阵，

为对应的偏置；

计算LSTM的输出

：

将前向LSTM的输出

与后向LSTM的输出

进行拼接，得到输出

，其中

；

所述Bi-LSTM模型通过一个池化层合并输入

，得到嵌入后的特征表示向量

：

将嵌入后的基本信息特征向量

、金融操作行为特征向量

、交易信息特征向量

进行拼接，拼接得到样本特征表示向量

，

。

4.根据权利要求1所述的一种基于多特征融合的信用卡欺诈检测方法，其特征在于：构建的所述生成对抗网络模型包括生成器模型G和判别器模型D，所述生成器模型用于生成模拟欺诈样本，所述判别器模型用于分辨真实欺诈样本和模拟欺诈样本；

训练对抗网络模型包括以下步骤：

，集合

包含合法交易样本子集

与欺诈交易样本子集

，其中

；欺诈交易样本子集

与合法交易样本子集

从欺诈交易样本子集

；利用随机数生成器对应生成m个噪音样本

；

，其中：

更新判别器模型D的参数

,使得

值最大化，计算方法如下：

其中

为判别器模型D的可训练参数，通过随机梯度上升的方法对

进行更新，从而使得判别器模型D的交叉熵最小，使得

值最大；

，更新生成器模型G的参数

,使得

值最大化，计算方法如下：

其中

为生成器模型G的可训练参数，通过随机梯度下降的方法对

进行更新，从而使得生成器模型G的交叉熵最小，使得

值最大；

重复优化判别器模型D的参数

和生成器模型G的参数

其中

表示欺诈样本的分布期望，

表示随机生成的噪音样本的分布期望。

5.根据权利要求4所述的一种基于多特征融合的信用卡欺诈检测方法，其特征在于：按比例对样本集合

进行切分，分为训练集

与验证集

，训练集

与验证集

与验证集

，训练集

与验证集

将训练集

切分为合法样本集

和欺诈样本集

，使用完成训练的生成器模型G根据欺诈样本集

，将模拟欺诈样本集合

与合法样本集

和欺诈样本集

合并得到新的平衡训练样本集合

，

。

6.根据权利要求5所述的一种基于多特征融合的信用卡欺诈检测方法，其特征在于：

基于统计学习方法构建多个检测基模型，检测基模型用

表示，对于任意检测基模型

，通过新的平衡训练集

进行训练，通过验证集

进行模型参数调优，其中模型

7.根据权利要求6所述的一种基于多特征融合的信用卡欺诈检测方法，其特征在于：使用Bagging算法将完成训练的检测基模型

为判别器模型D；

其中，

为第i个检测基模型

的预测结果，

表示检测基模型

预测该笔交易为欺诈交易，

表示检测基模型

预测该笔交易为合法交易；

表示为如下：

其中，

8.根据权利要求7所述的一种基于多特征融合的信用卡欺诈检测方法，其特征在于：还包括步骤：将风险预测结果发送至信用卡交易系统进行联动决策，根据预先配置的策略对当前交易是否进行干预及采用的干预级别进行决策。

9.一种计算机装置，其特征在于，其包括：处理器、存储器以及程序；

所述程序存储在所述存储器中，所述处理器调用存储器存储的程序，以执行权利要求1所述的一种基于多特征融合的信用卡欺诈检测方法。

10.一种计算机可读存储介质，其特征在于：所述计算机可读存储介质用于存储程序，所述程序用于执行权利要求1所述的一种基于多特征融合的信用卡欺诈检测方法。