CN109034194A

CN109034194A - 基于特征分化的交易欺诈行为深度检测方法

Info

Publication number: CN109034194A
Application number: CN201810641664.4A
Authority: CN
Inventors: 蒋昌俊; 章昭辉; 王鹏伟; 汪立智; 张晓波; 周欣欣
Original assignee: Donghua University
Current assignee: Donghua University; National Dong Hwa University
Priority date: 2018-06-20
Filing date: 2018-06-20
Publication date: 2018-12-18
Anticipated expiration: 2038-06-20
Also published as: CN109034194B

Abstract

本发明涉及一种基于特征分化的交易欺诈行为深度检测方法，其特征在于，提出了基于交易时间的分化特征生成方法和带有离群样本检测的欺诈交易检测方法。本发明提出的网络交易欺诈检测方法，可以有效检测网络交易中的欺诈行为，本发明提供的方法从实用性角度出发，通过分化特征生成方法和带有离群样本检测的欺诈交易检测方法，建立了网络交易欺诈检测系统，为解决欺诈交易检测提供了技术支持。

Description

基于特征分化的交易欺诈行为深度检测方法

技术领域

本发明涉及一种网络交易检测方法。

背景技术

机器学习算法在欺诈交易检测领域已经涌现了大量的研究成果，包括使用决策树、神经网络、贝叶斯网络和随机森林等分类方法的研究。2013年，Yusuf Sahin等提出了一种新的基于成本敏感的决策树检测技术，模型表现出优越于诸如SVM等的传统数据挖掘方法的性能。2014年，Kolalikhormuji等提出了利用级联人工神经网络来提高识别率并降低排斥率，设置门控网络聚合三个并行的神经网络，在巴西一家大型银行的信用卡数据上表现了不错的性能。2015年，Chengwei Liu等对比了SVM、logictic回归、KNN和随机森林四种检测方法在金融欺诈检测上的表现，研究表明随机森林模型相比其他三种模型有更高的准确性。但这些检测技术对信用卡欺诈都有着不低的FP(False Positive)和FN(FalseNegative)。近年来深度学习在欺诈交易领域也逐渐开始被应用。2015年，丁卫星提出了一个基于深度置信网络的信用卡交易欺诈侦测模型，训练生成了一个五层的DBN模型，为各银行应用深度学习技术提供了理论和实践参考。2016年，Fu Kang等提出了利用卷积神经网络来进行信用卡欺诈检测，基于经典的Lenet-5结构建立了一个欺诈交易检测框架并取得了不错的检测效果。2017年，Shuhao Wang等人应用循环神经网络(Recurrent NeuralNetworks)对京东的电子交易欺诈行为做出了初步探索，通过RNN的时间序列算法建立了CLUE检测框架，对风险用户识别的准确率超过常规机器学习算法的3倍以上。但是深度学习技术训练参数多，模型结构比较复杂，训练时间比较长，同时对于数据的维度有更高的要求。

随着互联网交易的迅猛发展，网络诈骗成为中国第三大黑色产业链，呈现出团伙性、隐蔽性等特点。网络欺诈交易的强隐蔽性会严重影响欺诈检测模型的检测效果，使用精准分类的特征是十分重要的。通常的模型只使用一些原始交易属性，比如金额、交易地点等。单一的交易并没有考虑客户的交易行为，只使用原始特征会遗漏一些重要信息，并不能有效检测欺诈行为。一些聚合策略，比如衍生基于时间窗的特征，已经被用来在获取用户近期交易中的行为特征。但是欺诈者往往会学习正常用户的行为模式来逃避检测，而且欺诈样本的特性往往会被基于统计学的方法所泛化，仅仅使用聚合策略并不能很好地分化正常交易和欺诈交易之间的差异。

样本不均衡的问题也是网络交易欺诈检测领域的一大挑战。该问题在互联网交易的场景中普遍存在，欺诈交易的比率通常小于0.1％。在此背景下，利用传统的机器学习算法开发出来的预测模型会存在偏差，易导致模型忽略对欺诈交易行为的识别和学习。原因在于机器学习的算法通常被设计为通过减少误差来提高准确率，所以它们没有考虑类别的分布以及类别的平衡。诸如决策树和Logistic回归这些标准的分类算法会偏向于数量多的类别，而占少数的类别就会被视为噪声，通常易被忽略。

传统检测欺诈交易的技术，诸如基于规则的专家系统容易理解，可解释性强，但是只能挖掘交易属性和欺诈行为的简单关系，无法检测强隐蔽性的欺诈交易，同时还有存在由于欺诈手段变化而导致规则失效的风险。近年来一些基于机器学习技术的检测技术在信用卡欺诈检测领域取得了不错的成果，包括传统的决策树，贝叶斯网络和神经网络以及新兴的深度学习。相比信用卡的欺诈交易检测，网络交易实时性强，交易频次高，在交易类型等方面呈现多元化，因此信用卡欺诈检测的方法并不完全适用于网络交易欺诈检测。

发明内容

本发明的目的是：检测网络交易中的欺诈交易。

为了达到上述目的，本发明的技术方案是提供了一种基于特征分化的交易欺诈行为深度检测方法，其特征在于，包括以下步骤：

步骤1、利用历史交易数据建立训练集，构建欺诈检测模型；

步骤2、利用分类器f(x)对训练集中的样本进行分类，对不同类别的样本分别采样；

步骤3、将采样得到的样本定义为训练交易数据，在原有交易属性特征基础上，采用基于交易时间的分化特征生成方法，衍生训练交易数据的分化特征，分化正常交易和欺诈交易之间的差异，生成输入特征集合；

步骤4、更新欺诈检测模型；

步骤5、将输入特征集合输入到欺诈检测模型中进行模型参数的训练，确定构建模型的结构和参数，在验证数据集上评估当前模型的检测性能，相比上一次评估，如果当前性能提升大于设定阈值，则对于正确预测的样本，改变其权重使得在下一次训练有更低的概率被抽取，对于错误预测的样本，改变其权重使得下一次训练由更高的概率被抽取，根据更新后的权重更新分类器f(x)后返回步骤2，如果当前性能提升小于设定阈值，则欺诈检测模型停止更新，得到可以精准检测网络欺诈交易的模型；

步骤6、采用步骤3所述的分化特征生成方法，衍生实时输入的交易数据的分化特征，生成实时输入特征集合，将实时输入特征集合输入到步骤5生成的模型，判断实时输入的交易数据对应的交易是否为欺诈交易。

优选地，将所述训练交易数据及所述实时输入的交易数据统一定义为交易记录，则所述分化特征生成方法包括以下步骤：

步骤3.1、基于时间窗聚合交易记录的特征，包括：

步骤3.1.1、设置时间窗t_p，选择时间窗t_p内产生的交易记录；

步骤3.1.2、考虑卡号或者账户对步骤3.1.1得到的交易记录进行分组；

步骤3.1.3、通过交易属性对分组后的交易记录进行二次分组；

步骤3.1.4、计算对应分组内的交易笔数和交易金额；

步骤3.1.5、衍生时间窗t_p下的交易笔数和交易金额的特征；

步骤3.1.6、改变时间窗t_p大小，重复步骤3.1.1到步骤3.1.5，直至遍历所有交易记录；

步骤3.2、建立交易时间的个体可信度ICD和群体可疑度GAD，包括：

步骤3.2.1、设置时间窗t_p，考虑客户编号为的客户过去时间窗t_p内的交易时间集合Time：

其中，M表示交易时间集合Time的大小；代表第l个交易记录的交易时间；代表客户编号为的客户的当前交易时间；是用来计算和之间时间差的函数；表示第l个交易记录的客户编号。

步骤3.2.2、设定聚簇数k，使用K-means算法对交易时间集合Time进行聚类，得到交易时间簇time_i(i＝1，2，...，k)；

步骤3.2.3、统计每一个交易时间簇内的交易数量number_i(i＝1，2，..，k)，对每一交易时间簇time_i赋予权重weight_i：

其中，N＝|Time|，表示交易时间集合中的数量；

步骤3.2.4、计算k个交易时间簇的交易时间的概率分布函数：

其中，μ(time_i)表示过去时间窗t_p内第i个交易时间簇time_i的均值；σ(time_i)表示过去时间窗t_p内第i个交易时间簇time_i的标准差；表示VonMises的概率分布函数。

步骤3.2.5、设置置信度α，计算每一交易时间簇time_i当前客户编号为的交易时间的置信区间：

其中，表示对应的标准分数。

步骤3.2.6、观察当前实际交易时间是否在每一交易时间簇的置信区间内，若在则令p_i＝1，否则p_i＝0，计算ICD如下：

步骤3.2.7、抽取所有欺诈交易的交易时间集合，同样采取步骤3.2.2至步骤3.2.6，计算GAD如下：

其中，K是欺诈交易集合聚类的聚簇数，value_i是聚类后第i个簇被赋予的权重；

步骤3.2.8、衍生当前交易的交易时间可信度confidence：

confidence＝ICD-GAD。

优选地，所述更新欺诈检测模型包括以下步骤：

输入特征集合进入模型的处理层，输出处理的结果到下一层，下一层接收上一层处理的特征信息，继续扩充下一层，当扩充一个新层后，进入所述步骤5。

优选地，所述更新分类器f(x)包括以下步骤：

步骤5.1、将训练集中每个样本的权重定为

步骤5.2、设定m个分类器，则第j个分类器为h_j(x)，j＝1，2，3...，m；

步骤5.3、计算每个分类器加权的错误率，第j个分类器h_j(x)加权的错误率为err_j；

步骤5.4、计算每个分类器的权值，第j个分类器h_j(x)的权值为w_j；

步骤5.5、更新每个样本的权重β_i，错误预测的样本的权重变大，正确预测的样本的权重变小；

步骤5.6、输出最终的分类器f(x)：

发明的有益效果如下：

本发明提出的网络交易欺诈检测方法，可以有效检测网络交易中的欺诈行为，本发明提供的方法从实用性角度出发，通过分化特征生成方法和带有离群样本检测的欺诈交易检测方法，建立了网络交易欺诈检测系统，为解决欺诈交易检测提供了技术支持。

附图说明

图1为网络交易欺诈深度检测系统整体框架，检测系统主要由模型训练模块和欺诈检测模块两部分组成；

图2为本发明的具体流程图；

图3为基于交易时间的分化特征生成方法中基于时间窗的特征聚合策略流程图；

图4为基于交易时间的分化特征生成方法中交易时间可信度衍生流程图；

图5为带有离群样本检测的欺诈交易检测方法流程图；

图6为欺诈交易检测方法中离群样本检测机制的流程图；

图7为银行交易模拟流程图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

本发明涉及网络交易欺诈检测方法，主要有以下三部分内容：

第1部分：网络交易欺诈检测系统。检测系统主要由模型训练模块和欺诈检测模块两部分组成。

第2部分：基于交易时间的分化特征生成方法。一方面采用基于时间窗的特征聚合策略，另一方面建立基于Von Mises分布的交易时间的个体可信度(ICD)和群体可疑度(GAD)。

第3部分：带有离群样本检测的欺诈交易检测方法。提出网络交易的欺诈交易检测方法，加入离群样本的检测机制。

本发明的技术核心在于第2部分和第3部分，在此基础上提出网络交易欺诈检测方法。在欺诈交易检测任务上，网络交易欺诈检测方法实现的关键在于两点：一方面欺诈交易的强隐蔽性会严重影响欺诈检测模型的检测效果，使用精准分类的特征对于检测欺诈交易十分重要；同时网络交易欺诈检测的样本不均衡也影响模型检测效果。针对网络交易中欺诈行为的强隐蔽性和样本不均衡性，本发明提出了基于交易时间的分化特征生成方法和带有离群样本检测的欺诈交易检测方法，建立了本发明的网络交易欺诈检测方法。

根据以上思想，建立本发明的网络欺诈交易监测方法如下：

S1模型训练

输入训练交易数据，选择检测模型结构，对检测模型进行训练，得到网络交易欺诈检测模型。具体操作步骤如下：

S101数据预处理

对输入的训练交易数据进行数据清洗、数据归一化等常规处理，提高输入模型的数据的质量。

S102分化特征处理

在原有交易属性特征基础上，采用基于交易时间的分化特征生成方法，衍生分化特征，分化正常交易和欺诈交易之间的差异。

S103构建模型结构

采用带有离群样本检测的欺诈交易检测方法，构建欺诈检测模型结构。

S104模型训练

将经过数据预处理和分化特征处理处理的交易数据，输入到构建的检测模型中进行模型参数的训练。

S105模型生成

确定构建模型的结构和参数，得到可以精准检测网络欺诈交易的模型。

S106训练结束，输出模型。

S2欺诈检测

实时输入待检测的交易数据，输入步骤S1训练好的模型，判断待检测的交易数据是否属于欺诈交易。具体操作步骤如下：

S201数据预处理

对实时输入的交易数据进行数据清洗、数据归一化等常规处理。

S202分化特征处理

采用模型训练模块的分化特征方法，生成与模型训练模块相同的输入特征集合。

S203模型检测

将待检测交易输入到模型训练模块生成的检测模型，判断交易是否为欺诈交易。

S204检测结束，输出判断结果。

在建立网络交易欺诈检测系统中，本发明首先提出了基于交易时间的分化特征生成方法，用来分化正常交易和欺诈交易的差异。该方法的具体操作步骤如下：

(1)采用基于时间窗的特征聚合策略，衍生基于交易时间的特征。

S301设置时间窗t_p，选择过去t_p时间内产生的交易记录。

S302考虑卡号或者账户对交易记录进行分组。

S303通过交易类型、地区或者其他交易属性对已经分组的交易记录二次分组。

S304计算对应分组内的交易笔数和交易金额。

S305衍生时间窗t_p下的交易笔数和交易金额的特征。

S306改变时间窗t_p大小，重复S301到S305步骤，直至遍历所有交易记录。

S307聚合特征结束。

(2)基于Von Mises分布，建立交易时间的个体可信度(ICD)和群体可疑度(GAD)，计算交易时间的可信度。

S401设置时间窗t_p，考虑某一客户编号为的过去t_p时间内的交易时间集合Time：

S402设定聚簇数k，使用K-means算法对Time集合进行聚类，得到交易时间簇time_i(i＝1，2，...，k)。

S403统计每一个交易时间簇内交易数量number_i(i＝1，2，..，k)，对每一交易时间簇time_i赋予权重weight_i：

其中，N＝|Time|，表示交易时间集合中的数量；。

S404计算k个簇的交易时间的概率分布函数：

S405设置置信度α，计算每一交易时间簇time_i当前客户编号为的交易时间的置信区间：

其中，表示表示对应的标准分数。

S406观察当前实际交易时间是否在每一交易时间簇的置信区间内，若在则令p_i＝1，否则p_i＝0。计算ICD如下：

S407抽取所有欺诈交易的交易时间集合，同样采取步骤S402-S406，计算GAD如下：

其中，K是欺诈交易集合聚类的聚簇数，value_i是聚类后第i个簇被赋予的权重。

S408衍生当前交易的交易时间可信度confidence：confidence＝ICD-GAD。

S409分化特征结束。

针对欺诈检测系统中的检测模型，本发明提出了带有离群样本检测的欺诈交易检测方法，在检测方法中加入离群样本检测机制，采用了有放回和无放回结合的样本采样方式，缓解网络交易中样本不均衡带来的问题。检测方法架构流程如下：

S501选取原始交易特征和分化特征方法生成的特征作为输入特征集，输入交易数据。

S502设置模型结构，输入数据进入模型的处理层，输出处理的结果到下一层。

S503下一层接收上一层处理的特征信息，重复S502的操作，继续扩充下一层。

S504当扩充一个新层后，模型将在验证数据集上评估当前模型的检测性能。相比上一次评估，如果当前性能提升小于设定阈值，模型停止更新。

S505建模结束。

由于欺诈交易的极度不均衡性，需要重点检测的离群检测样本被有放回采样的概率存在极低的可能性，就会造成一部分交易样本无法准确检测，从而降低检测欺诈交易的效果。在此基础上，本发明在检测方法中加入离群样本检测机制。对于初始训练集中的所有交易记录赋予相同权重，也就说样本具有相同的概率被采样。之后对数据进行训练，对于正确预测的样本，改变其权重使得在下一次训练有更低的概率被抽取，对于错误预测的样本，即离群样本，改变其权重使得后面的模型更加关注这些被错误分类的样本，从而提升模型检测欺诈的精准性。具体离群样本检测算法流程如下：

S601将训练集中每个样本的权重定为

S602设定m个分类器，则第j个分类器为h_j(x)，j＝1，2，3...，m；

S6021计算每个分类器加权的错误率，第j个分类器h_j(x)加权的错误率为err_j；

S6022计算每个分类器的权值，第j个分类器h_j(x)的权值为w_j；

S6023更新每个样本的权重β_i，错误预测的样本的权重变大，正确预测的样本的权重变小；

S603输出最终的分类器f(x)：

本发明所述的网络交易欺诈深度检测方法及系统可以应用到某银行等大规模网络服务系统中，本发明应用到国内某主流银行交易系统中进行实验验证，通过系统行为重构方法实现银行交易数据实时欺诈检测流程。具体方法描述如图7所示。

以国内某主流银行的真实的网络交易数据为例，数据集包含了银行三个月的B2C交易记录，原始可用交易属性有8维，其中大约7万多条交易被标记为欺诈交易：

S1选取前两个月交易数据作为训练集，最后一个月作为模拟测试实时交易数据。

S2数据预处理。

S3对交易数据采用分化特征生成方法衍生特征。采用基于时间窗的特征聚合策略，选择t_p＝3，6，12，24，72，120，168，衍生交易金额和交易笔数特征共14维特征；计算交易时间的ICD和GAD，衍生交易时间可信度特征。加上原始交易特征，输入特征集合为23维。

S4构建带有离群样本检测的欺诈交易检测模型。选择深度森林算法，引入离群样本检测机制，在深度森林的级联结构每一层设置两个随机森林和两个xgboost。输入训练集数据进行模型训练。

S5模拟测试实时交易数据输入训练好的带有离群样本检测的欺诈交易检测方法，按照图7所示的模拟交易流程进行交易检测，判断交易数据是否欺诈。

Claims

1.一种基于特征分化的交易欺诈行为深度检测方法，其特征在于，包括以下步骤：