CN112330328A

CN112330328A - 一种基于特征提取的信用卡欺诈检测方法

Info

Publication number: CN112330328A
Application number: CN201910715339.2A
Authority: CN
Inventors: 方勇; 黄诚; 张芸芸; 张与驰
Original assignee: Sichuan University
Current assignee: Sichuan University
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2021-02-05

Abstract

信用卡由于支付便利、具有折扣和优惠、暂缓经济压力等优势被人们广泛使用，在这一过程中，越来越多的信用卡欺诈问题开始浮现，因此有效地检测信用卡欺诈至关重要。本发明提出一种基于特征提取的信用卡欺诈检测方法，该方法从数据出发，提取数据中包含的特征向量，使用图数据库去关联特征向量，再运用深度学习技术分析，从而实现自动快速地检测信用卡欺诈行为，提高检测的准确性。

Description

一种基于特征提取的信用卡欺诈检测方法

技术领域

本发明提出了一种基于特征提取的信用卡欺诈检测方法，用于检测信用卡的欺诈行为。通过提取信用卡交易数据的特征向量，使用基于深度学习的算法从而实现自动快速地检测出信用卡交易中的欺诈行为。

背景技术

紧随着互联网快速发展的脚步，人们的思维方式和生活方式也发生了翻天覆地的变化。人们从现金支付变成了网上支付，信用卡由于其具有能为持卡人提供支付便利，暂时缓解经济压力等优势，逐渐占领市场。由于信用卡支付是线上支付，这给人们带来了一些安全方面的困扰，主要包括三个方面：一是风险来源于持卡人，持卡人利用信用卡恶意透支；二是风险来源于商家，商家工作人员持卡离开顾客的视线，使用顾客的信用卡进行消费；三是风险来源于第三方，黑客攻击个人电脑，盗取用户信息。信用卡欺诈存在八种主要的欺诈应用场景：注册，登录，实名认证，商品浏览，下单，支付，评价和推广营销。

信用卡包含了大量的个人信息，银行业也在逐步地规避信用卡欺诈带来的风险和损失。他们使用先验知识对原始数据进行统计分析，使用逻辑回归方法去预测二项式结果，但是耗时较长。

随着深度学习技术的发展，深度学习在提取特征方面已经取得了令人瞩目的成绩。对信用卡欺诈行为的检测实际上是提取其中的文本信息、职业、手机号码、年龄等，使用图数据库关联特征向量，再运用深度学习技术分析，并对信用卡欺诈行为进行检测。

发明内容

本发明根据上述存在的问题以及现有的技术，提出一种基于特征提取的信用卡欺诈检测方法，用于检测信用卡的欺诈行为，具体方法如下：

（1）针对从网上公开获取的数据集进行样本标记，将样本分为正常样本集和欺诈样本集；

（2）对标记后的样本集进行空值判断，删除掉缺失的数据；

（3）利用分类类型固定的特征提升模型分类的效率；

（4）使用Smote算法平衡信用卡交易数据集，并且按照训练集和测试集7:3的比例对样本集进行划分；

（5）对样本数据集进行文本信息筛选，统计一些高频词出现的次数；

（6）将信息筛选后的文本进行训练从而得到词向量模型，利用此模型可以获取与信用卡欺诈相关的特征向量；

（7）基于Neo4j图数据库对词向量模型提取的特征向量进行关联，得到新的关系点，最终获得处理好的特征向量；

（8）把最终的特征向量输入深度信念网络DBN中，训练出分类器以构建信用卡欺诈检测模型。

依据上述方法，本发明采用了如下的技术方案：基于特征提取的信用卡欺诈检测方法主要包括了三个模块：数据预处理模块、文本特征提取模块、信用卡欺诈检测模块，每个模块应包含相应的功能。

数据预处理模块：

（1）样本标记。对于从网上公开获取的信用卡交易样本集, 其中有一项命名为fraud的标签，标签值为1代表是欺诈样本，标签值为0代表是正常样本。因此，将样本集分为两类：欺诈样本集和正样本集；

（2）样本检测。样本集中的某些样本存在缺失信息，于是需要对样本集进行空值判断，最后处理掉缺失的数据；

（3）特征分类。信用卡交易数据集中的有些特征的分类类型是固定的，利用这些特征划分对应的类别以提高模型的训练效率；

（4）平衡数据集。当合法交易和欺诈交易的比例为1:1时，欺诈检测的召回率最好。在本文中，因此本发明选择用Smote算法去平衡信用卡交易的数据集，并且将样本集进行划分，70%用作训练集，30%用作测试集。

文本特征提取模块：

（1）文本信息筛选。在收集到的信用卡交易数据集中，有一列是跟交易相关的文本信息，其中涵盖的内容对于后续的分类流程是很重要的。一般情况下，主题由若干个具有较高概率分布的单词表示，因此可以统计一些高频词在信用卡交易文本信息中出现的次数；

（2）生成词向量。文本信息过滤后的特征信息是词向量训练过程中的初始输入值，本发明利用Python中自然语言处理库Gensim先来处理文本，然后再利用优化的word2vec训练文本，从而形成词向量模型，输出词向量。

信用卡欺诈检测模块：

（1）网络构建。利用图数据库Neo4j建立特征之间的关系，观察这种“关系”和真实情况之间的区别，从而识别欺诈；

（2）模型训练。在文本特征提取模块输出的特征向量的基础上，使用深度信念网络（DBN）进行训练，并且不断调整参数以训练出效果最优的信用卡欺诈检测模型；

（3）模型评估。利用信用卡测试集，对训练出的欺诈检测模型进行评估。

附图说明

为了更清楚地说明本发明的技术方案，下面将对本发明的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实例，对于本领域的普通技术人员来讲，在不付出创造劳动性的前提下，还可以根据这些附图获得其他的附图。

图 1 是本发明的架构示意图。

图 2 是本发明的数据预处理模块示意图。

图 3 是本发明的文本特征提取模块示意图。

图 4 是本发明的信用卡欺诈检测模块示意图。

具体实施方式

下面将结合发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明所有实施例的一部分，而不是全部的实施例。基于本申请中的实施例，本领域的普通技术人员在没有做出创造性劳动的前提下所获得的其他实施例，都属于本申请的保护范围。

紧随着互联网快速发展的脚步，人们的思维方式和生活方式也发生了翻天覆地的变化。信用卡由于其具有能为持卡人提供支付便利，暂时缓解经济压力等优势，逐渐占领市场。在消费的支付方式上，人们同样也逐渐从现金支付转换到了到信用卡支付。当然这一转换过程也带来了一些安全方面的问题，这些问题主要包括三个方面：一是来源于持卡人，持卡人利用信用卡恶意透支，如发放高利贷，在挂失的极短时间内大量使用挂失卡；二是来源于商家，商家工作人员持卡离开顾客的视线，使用顾客的信用卡进行消费；三是来源于第三方，黑客攻击了个人电脑，当用户在网上用个人信用卡登录账户密码时，黑客盗取了用户的信息。为了解决发明人发现的存在的上述几种关于信用卡欺诈方面的安全问题，发明人提出以下技术方案。

参考图1，图1是本发明提出的基于特征提取的信用卡欺诈检测方法的整体架构示意图。如图1所示，本发明所提出的方法主要由三个模块构成，包括了数据预处理模块、文本特征提取模块、信用卡欺诈检测模块。

数据预处理模块主要实现对样本的标记，缺失值的检测，特征分类和不平衡数据集的处理。

文本特征提取模块主要实现词向量模型的训练，构建词向量字典，生成词向量。

信用卡欺诈检测模块主要实现利用Neo4j展示数据，欺诈检测模型训练，模型检测结果的评估。

参考图2，图2是本发明的数据预处理模块的示意图。如图2所示，该模块主要包括以下步骤。

样本标记：对网上公开获取的信用卡交易样本集进行标记，将样本集分为两类：欺诈样本集和正常样本集。

样本检测：样本数据集中存在缺失的空值数据，在训练模型时会带来负面影响。所以需要对样本数据集中的空值进行判断，如果存在空值则进行删除。

特征分类：对于分类类型固定的特征可以直接划分类别，以提高模型的训练效率。

平衡样本：样本数据集中的正常样本和欺诈样本的比例非常不平衡，这会导致训练出的模型分类效果变差。因此该模块通过Smote算法去平衡样本数据集，并且将样本集进行划分，其中70%用作训练集，30%用作测试集。

参考图3，图3是本发明文本特征提取模块的示意图。如图3所示，该模块主要包含以下步骤。

文本信息筛选：在收集到的信用卡交易样本数据集中，有一部分是跟交易相关的文本信息，其中涵盖的内容对于后续的分类流程是很重要的。因此统计一些高频词在信用卡交易文本信息中出现的次数，便于后续的模型构建。

生成词向量：在产生词向量的过程中，词向量字典和词索引字典都是需要的。字典的生成基于信用卡交易中的文本信息，只有这样，才能更贴切地生成对应的词向量。由于word2vec算法存在会丢弃高频词这一问题，所以本模块采用TF-IDF算法来优化word2vec算法，最后生成词向量。

参考图4，图4是本发明信用卡欺诈检测模块的示意图。如图4所示，该模块主要包含以下步骤。

网络构建：由于具有不可分割性、一致性、隔离性、持久性等特点，并且可以表现数据之间复杂的关系，从而直观地展示是否有欺诈行为。因此，本模块中使用到了Neo4j图数据库。

模型训练：本模块在数据预处理模块划分的样本集的基础上，使用word2vec生成的词向量作为特征向量，并且以深度信念网络（DBN）为基础训练信用卡欺诈检测模型。针对训练出的模型，使用测试数据进行检测并对模型进行评估。

本发明对最终训练出的模型的检测结果进行了比较详细的测试。

与已有分类检测方法的对比测试：由于本发明要解决的问题在本质上是二分类问题，因此选择了与在解决二分类问题时性能表现不错的随机森林（Random Forest）和轻量级梯度提升机（Light Gradient Boosted Machine）这两种算法进行比较。在同样的信用卡欺诈的样本数据集下，以AUC这一项数据为评价指标，轻量级梯度提升机算法、随机森林算法的AUC值分别为0.9763、0.8496。但是基于深度信念网络算法的模型的AUC值为0.9886。虽然深度信念网络模型比轻量级梯度提升机模型的AUC值只提高了1%，但是却意义重大。因为通常情况下，信用卡交易的数据量很大，很小的提高就能帮助识别出大量的信用卡欺诈行为。同样地在以训练时间为评价指标的前提下，轻量级梯度提升机算法，随机森林算法，深度信念网络算法花费的时间分别为47.62秒，158.86秒和41.35秒。深度信念网络算法花费的时间最短，这表明在训练花费时间这一指标上，深度信念网络性能是最优的。

在其他样本集上的检测效果的测试：为了更好地证明基于深度信念网络算法构建模型的可行性与有效性，本文还训练了其它样本集。在kaggle网站上有些信用卡样本集的原始特征标签是经过主成分分析（Principal Component Analysis）方法处理过的，取而代之的是。即信用卡样本集的原始特征含义是不清楚的。同样地，从kaggle网站上获得了经过PCA方法处理过的样本集，命名为样本集二。样本集二包含了284807条信用卡交易数据，其中284315条是正常样本，492条是欺诈样本。交易时间是在2013年9月，交易地点在欧洲。在基于深度信念网络算法模型下，原样本集和样本集二的AUC值分别为0.9886和0.9791。通过这一实验证明了深度信念网络算法模型对于不同的样本集都适用，具有有效性和可行性。

以上对本申请提供的基于特征提取的信用卡检测进行了详细介绍。

Claims

1.一种基于特征提取的信用卡欺诈检测方法，其特征在于包括以下步骤：

A、预处理数据，对信用卡交易数据平衡化，让正常数据和欺诈数据一样多，在训练阶段，还需要对样本进行标记和检测；

B、对平衡后的信用卡交易数据使用一定数学方法提取其中的特征向量；

C、基于优化后的word2vec算法进行词向量模型的训练及词向量的提取；

D、使用word2vec算法进行词向量模型训练及词向量提取之前，基于TF-IDF算法进行优化；

E、使用图数据库去关联提取出的特征向量；

F、收集的真实场景下的信用卡交易数据构建了训练集；根据深度信念网络分类算法对训练集进行训练，对信用卡行为的正常性和欺诈性进行预测；

G、将检测结果返回至检测报告。

2.跟据权利要求1所述的一种基于深度信念网络分类算法构建的分类模型，其特征在于：基于Smote算法平衡信用卡交易数据；基于优化后word2vec的词向量模型生成及提取可以表征欺诈信息关系特征和文本特征的词向量；基于深度信念网络DBN的分类模型判定，通过对模型超参数的调试，以训练出最优信用卡欺诈分类模型。

3.根据权利要求1所述的基于TF-IDF算法优化后的词向量模型，其特征在于：word2vec在自然语言处理中，遇到停用词“的”、“是”等高频词时，会以一定概率对高频词进行舍弃；但是字节码序列中每一个字节码都是带有信息的，并不能根据其出现频率高就直接进行舍弃，因此为了保证有效高频词得以保留，提出基于TF-IDF算法进行优化。