CN110276679B - 一种面向深度学习的网络个人信贷欺诈行为检测方法 - Google Patents

一种面向深度学习的网络个人信贷欺诈行为检测方法 Download PDF

Info

Publication number
CN110276679B
CN110276679B CN201910434402.5A CN201910434402A CN110276679B CN 110276679 B CN110276679 B CN 110276679B CN 201910434402 A CN201910434402 A CN 201910434402A CN 110276679 B CN110276679 B CN 110276679B
Authority
CN
China
Prior art keywords
personal credit
noise reduction
network personal
sub
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910434402.5A
Other languages
English (en)
Other versions
CN110276679A (zh
Inventor
胡文斌
唐传慧
过冰峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN201910434402.5A priority Critical patent/CN110276679B/zh
Publication of CN110276679A publication Critical patent/CN110276679A/zh
Application granted granted Critical
Publication of CN110276679B publication Critical patent/CN110276679B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明属于计算机科学技术领域,公开了一种面向深度学习的网络个人信贷欺诈行为检测方法,包括以下步骤:获取历史网络个人信贷信息;选取降噪梯度提升树的第一子参数;对降噪梯度提升树进行训练,使用历史网络个人信贷信息进行无监督学习,得到第一数据特征;使用第一数据特征进行有监督学习,完成降噪梯度提升树模型训练;存储降噪梯度提升树模型;输入新的网络个人信贷信息,通过降噪梯度提升树模型对欺诈行为进行检测。本发明具有更强的抗噪性和鲁棒性,能够提高网络个人信贷的欺诈检测效果。

Description

一种面向深度学习的网络个人信贷欺诈行为检测方法
技术领域
本发明涉及计算机科学技术领域,尤其涉及一种面向深度学习的网络个人信贷欺诈行为检测方法。
背景技术
在欺诈风险评估领域,国外最早采用的是经验判别分析法,主要依靠专业评估人员的经验和能力,由于整个评估过程并未进行定量分析,且存在较强的主观性,因此预测结果常常不太理想。随着计算机计算速度的提升,计算机科学、经济学以及统计学等学科也有了越来越多的融合,大量的统计学建模方法以及数据分析技术在计算机上完成。在欺诈风险评估模型的研究上,Pallavi Kulkarni和Roshani Ade以Logistic回归为基础建立分类模型,Logistic回归是最早出现的机器学习算法之一,也曾被拿来判别分析的方法进行对比性实验,发现Logistic回归模型的分类效果明显,精度得到显著提高,统计学方法也逐渐代替经验判别分析法成为欺诈风险评估的主流建模方法。2016年,Aman Srivastava和Mugdha Yadav等人使用神经网络(Neural Networks-NN)在商家侧建立了信用卡欺诈模型。当变量之间存在复杂的非线性关系时,神经网络相比于Logistic回归和传统经验判别分析法有显著优势。早在2000年,David West曾尝试使用径向基神经网络,以径向基作为模型的核函数,以解决多变量之间的插值问题。2016年,有学者研究了以混合支持向量机为基础的风险评估模型,在实际应用中,支持向量机相比于传统的逻辑回归、神经网络、KNN等方法有着更高的精度。正因为支持向量机有着如此强劲的分类效果,使得不断地有学者对支持向量机在风险评估上的应用进行研究。2010年,Lean Yu构建了以支持向量机为基础的多智能体集成学习模型用于风险评估的研究。2012年,Shukai Li等人在风险分析领域进行研究,建立了基于相关向量机的无限决策代理集成学习模型。Zhiyong Li认为信用风险评分模型使用的是历史数据,而解决的是新借贷人的贷款请求,这在一定程度上会产生样本偏差,在2017年他尝试使用半监督支持向量机对信用风险进行分析,在模型训练时选择合适的正负样本比例,改善了模型的性能。
除了上述研究方法以外,还有一些常用的方法用于欺诈行为的检测。2014年,Dash使用决策树进行信用卡欺诈检测,挖掘出正常交易与欺诈交易之间的区别,来识别出新加入用户的交易是否正常,并于神经网络、感知机进行了比较。Mandala等人将C5.0决策树应用在某家不良借贷率近12%的农村银行数据上,该模型使得银行的不良贷款率大幅度下降,进一步体现了决策树算法在风险识别领域的实用性。该模型通过主成分分析减少特征维数,通过网格搜索选择合适的聚类参数,提出基于K-Means的行为识别系统,有助于区分欺诈行为,识别欺诈行为。最后,实际样本数据集验证了该模型的可行性。除此以外,还可以将模型进行组合来进行欺诈风险的检测。如Dong Manqing等人将自动编码器和随机森林组合起来,使用随机决策树模型在大型亚马逊评论数据集上进行了大量实验;2018年则有人提出用聚集贝叶斯网络的方法进行信用卡欺诈检测,有学者的思路则是通过将神经网络和地理信息定位结合起来对欺诈行为进行检测,而这种方法只能适用于可获取到地理信息的情况。
综上所述,从最早的依靠工作人员主观经验的经验判别分析法,到Logistic回归、ANN、支持向量机等机器学习方法,再到通过各种模型之间的组合来进行欺诈检测,思考欺诈检测模型的发展历程我们可以发现,模型所使用的方法越来越依靠更能适应复杂性的算法,且越来越依赖于模型自身的算法而不是借助于人工的方式进行检测。而网络贷款相比于信用卡贷款,具有数据量更大,维度更广,噪声更多等特点,所以对于网络贷款欺诈的检测,需要考虑更能适应复杂性的算法。
发明内容
本申请实施例通过提供一种面向深度学习的网络个人信贷欺诈行为检测方法,解决了现有技术中网络贷款欺诈检测算法的抗噪性、鲁棒性较差的问题。
本申请实施例提供一种面向深度学习的网络个人信贷欺诈行为检测方法,包括以下步骤:
步骤1、获取历史网络个人信贷信息;
步骤2、选取降噪梯度提升树的第一子参数;
步骤3、对降噪梯度提升树进行训练,使用历史网络个人信贷信息进行无监督学习,得到第一数据特征;
步骤4、使用第一数据特征进行有监督学习,完成降噪梯度提升树模型训练;
步骤5、存储降噪梯度提升树模型;
步骤6、输入新的网络个人信贷信息,通过降噪梯度提升树模型对欺诈行为进行检测。
优选的,所述历史网络个人信贷信息、所述新的网络个人信贷信息均包括但不限于:网络个人信贷的贷款状态、借贷人的金融交易信息、账户信息与注册信息、个人信息、第三方信息、消费信息。
优选的,所述步骤2中,通过对比参数在选择不同值时模型的表现来确定所述第一子参数的具体选取。
优选的,所述步骤2中,所述第一子参数包括但不限于:隐层神经元的激活函数、降噪因子、隐层神经元个数;
其中,所述隐层神经元的激活函数选取为relu;所述降噪因子选取为0.1;所述隐层神经元个数选取为20。
优选的,所述步骤3的实现过程为:将选取的所述第一子参数赋值给梯度降噪提升树模型,并选取第二子参数还未确定的更新公式;根据所述第二子参数的所有更新公式,使用所述历史网络个人信贷信息进行更新,得到所述第一数据特征,完成无监督学习;其中,所述第二子参数包括但不限于:层与层之间所有神经元的连接权重、所有隐层神经元和输出神经元的阈值。
优选的,所述步骤3的具体实现过程为:
步骤3.1、随机初始化所述第二子参数;
步骤3.2、根据所述第二子参数的更新公式,使用所述历史网络个人信贷信息得到隐层神经元数值;
步骤3.3、使用所述隐层神经元数值反向计算得到输出神经元数值;
步骤3.4、使用所述输出神经元数值和所述历史网络个人信贷信息得到损失;
步骤3.5、使用所述损失更新所述第二子参数得到新的第二子参数;
步骤3.6、以新的第二子参数重复步骤3.2~步骤3.5,直至步骤3.4得到的损失逐渐收敛,则步骤3.6结束,得到所述第一数据特征。
优选的,所述步骤4的具体实现过程为:
步骤4.1、根据所述第一数据特征初始化基学习器;
步骤4.2、进行N轮训练,每一轮训练出一颗CART;
步骤4.3、在每轮中先通过对样本的训练得到预测值,随后根据预测值与真实值的差别计算损失函数;
步骤4.4、根据所述损失函数计算负梯度;
步骤4.5、根据所述负梯度生成各个叶节点的最佳负梯度拟合值;
步骤4.6、根据所述最佳负梯度拟合值对本轮的CART进行更新;
步骤4.7、根据新训练好的CART对强学习器进行更新;
步骤4.8、重复步骤4.3~步骤4.7,进行多轮更新,得到最终的强学习器。
优选的,所述步骤5中,将所述降噪梯度提升树模型序列化永久储存到硬盘中。
优选的,所述步骤6中,将所述降噪梯度提升树模型从硬盘反序列化到内存中,输入新的网络个人信贷信息,对欺诈行为进行检测。
优选的,所述面向深度学习的网络个人信贷欺诈行为检测方法还包括:
步骤7、经过第一时间,获得新的数据需要重新训练,返回步骤1,更新所述历史网络个人信贷信息。
本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
在本申请实施例中,通过深度学习算法预先对数据进行特征提取,再使用经过处理的更良好数据特征进行无监督学习训练出模型,用于进行网络个人信贷欺诈行为检测。本发明具有更强的抗噪性和鲁棒性,能够提高网络个人信贷的欺诈检测效果。
附图说明
为了更清楚地说明本实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一个实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法的原理框图;
图2为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法在参数选择时使用不同激活函数的收敛速度;
图3为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法在参数选择时设置不同降噪因子的收敛速度;
图4为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法在参数选择时设置不同隐层神经元个数的收敛速度;
图5为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法及对比算法在五个数据集上的精度对比;
图6为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法及对比算法在五个数据集上的Precision对比;
图7为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法及对比算法在五个数据集上的recall对比;
图8为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法及对比算法在五个数据集上的F1对比;
图9为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法及对比算法在拍拍贷数据上的ROC曲线和AUC对比;
图10为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法及对比算法在Lending Club数据上的ROC曲线和AUC对比;
图11为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法及对比算法在欧洲数据上的ROC曲线和AUC对比;
图12为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法及对比算法在german数据上的ROC曲线和AUC对比;
图13为本发明实施例提供的一种面向深度学习的网络个人信贷欺诈行为检测方法及对比算法在仿真数据上的ROC曲线和AUC对比。
具体实施方式
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
请见图1,本发明提供的一种面向深度学习的网络个人信贷欺诈行为检测方法,包括以下步骤:
步骤1、获取历史网络个人信贷信息;
步骤2、选取降噪梯度提升树的第一子参数;
步骤3、对降噪梯度提升树进行训练,使用历史网络个人信贷信息进行无监督学习,得到第一数据特征;
步骤4、使用第一数据特征进行有监督学习,完成降噪梯度提升树模型训练;
步骤5、存储降噪梯度提升树模型;
步骤6、输入新的网络个人信贷信息,通过降噪梯度提升树模型对欺诈行为进行检测;
步骤7、经过第一时间,获得新的数据需要重新训练,返回步骤1,更新所述历史网络个人信贷信息。
下面对每个步骤做进一步的说明。
步骤1:获取网络个人信贷的贷款状态、借贷人的金融交易信息、账户信息与注册信息、个人信息、第三方信息以及消费信息等各类信息。
此外,获得信息后还可以进行数据预处理,包括变量衍生、数据清洗与转换,也可适当进行归一化处理。
具体包括以下子步骤:
步骤1.1:变量衍生。
进行变量衍生原因在于网络贷款的信用欺诈相比于传统欺诈更为复杂多变,其欺诈行为也更为隐蔽,难以察觉。因此仅仅依靠单一的变量可能无法准确的识别出欺诈,既需要综合各个用户过往的历史行为来进行,也需要进行加工整合生成新的变量。用户数据往往涉及较多维度,如表中的有一个属性表示借款人自行填写的年收入,另一个属性则表示尚未偿还的贷款额度,我们可以使用尚未偿还的贷款额度除以年收入计算出未还款额度占年收入的比例,这个衍生出来的新变量相比而言更能反应出借款人欺诈的风险性。再者,例如属性中有借贷人的地址、借贷人的消费地址等一些其他地址再根据平台所在地址,即可构建出例如消费地址是否变化、消费地址与住址是否一致等变量。除此之外,还可以增加一些认为较为重要的属性的权重,对变量进行相加、乘除等各种计算方式将多个属性整合在一起等方式得到新的、更能反应出欺诈风险性的变量。
步骤1.2:数据清洗转换与归一化处理。
数据清洗主要包括如下工作。脏数据处理,如数值大小明显不合逻辑的数据或者一些错误的地址和文字描述等等即属于脏数据,这些脏数据无法提供价值,因此往往直接剔除;缺失值处理,缺失值则可以填0或者填平均值,也可以通过一些聚类方法将这一类别的平均值填入,直接填写样本平均值是较为合理有效的方法;错误数据处理,有些数据前不小心加了负号或者一些无意义的前缀等等,这些属于错误数据,将前缀去掉改正即可。数据清洗技术上较为简单,处理起来比较繁杂,除了使用工具或者人工处理以外,也可以编写一些代码帮助清洗。
数据转换包括将文字型、链接型或者无意义的数字字符等转化为数值、将连续型数值转化为离散型数值以便于后续的计算。将文字型、链接型或者无意义的数字字符等转化为数值可以根据唯一性赋上不同的整数,因为只有数字才可进入函数模型进行计算。而将连续型数值转化为离散型数值的操作,例如借款人的注册时间这一连续型的属性,我们可以将这一连续性的取值范围根据上午、下午、晚上划分为三段,再把分别处于这三段的时间转化为三个不同的自然数即可,某属性处在同一个区间内的样本具有相似的欺诈可能,这种转换可以降低模型的训练难度,也可以防止过拟合的出现。将连续型数值转化为离散型数值的操作除了上述简单方法外,也可根据信息熵来实现,初始时可人为的将连续区间划分为较多的小区间,再选择合并后信息熵变化最小的区间进行合并,重复上述步骤直至区间数达到某个值。
归一化处理的具体操作是,对原始数据的线性变换,使得结果值映射到[0,1]之间,将每个属性的值都映射到比较接近的数值大小和波动幅度可以提高梯度下降时的收敛速度和模型的精度。
步骤2:通过实验对比,对降噪梯度提升树的参数进行调整,选择更为合适的降噪因子、激活函数、隐层神经元数目等深度学习参数。
具体实现过程是,通过对比一个参数在选择不同值时模型的表现来确定。如图2所示,隐层神经元的激活函数为relu或者softplus时可在更短的迭代次数内实现收敛,因此隐层神经元的激活函数选为relu或softplus比较合适。如图3所示,降噪因子为0.1时在较少的训练轮数内收敛,因此降噪因子设为0.1更合适。如图4所示,隐层神经元个数为20、25、30时都能在较少的训练轮数内收敛,为了更短的训练时间,适合将隐层神经元个数设为20。此处仅展示一些非常重要的参数,其它参数的选择也是同理。
步骤3:开始对降噪梯度提升树进行训练,使用数据进行无监督学习,得到更良好的数据特征。
即将选取的第一子参数赋值给梯度降噪提升树模型,并选取第二子参数还未确定的更新公式;根据第二子参数的所有更新公式,使用历史网络个人信贷信息进行更新,得到第一数据特征,完成无监督学习;其中,第二子参数包括但不限于:层与层之间所有神经元的连接权重、所有隐层神经元和输出神经元的阈值。
步骤3的具体实现过程为:
步骤3.1、随机初始化第二子参数;
步骤3.2、根据第二子参数的更新公式,使用历史网络个人信贷信息得到隐层神经元数值;
步骤3.3、使用隐层神经元数值反向计算得到输出神经元数值;
步骤3.4、使用输出神经元数值和所述历史网络个人信贷信息得到损失;
步骤3.5、使用损失更新所述第二子参数得到新的第二子参数;
步骤3.6、以新的第二子参数重复步骤3.2~步骤3.5,直至步骤3.4得到的损失逐渐收敛,则步骤3.6结束,得到第一数据特征;
步骤3.7、步骤3.6结束后,以步骤3.6得到的第一数据特征代替步骤3.2中的历史网络个人信贷信息重复步骤3.2~步骤3.6,得到新的第一数据特征。
需要说明的是,步骤3.7可多次执行或不执行。
下面以层与层之间所有神经元的连接权重为例进行说明,具体算法实现过程如下:
对于一个降噪梯度提升树的网络结构,相邻层之间的神经元相互连接,每条连接都有一个连接权重W,隐层神经元中有个阈值b,所有的W和b一开始都是随机初始化,单个隐层神经元数值y的计算方法是通过神经元与参数的映射:y=f(x)=relu(Wx+b),relu为激活函数,每两层之间的所有连接权重W组成一个d'×d维的矩阵,所有阈值b组成一个一维向量。逐个计算可以得到整个隐层的值y。激活函数选为relu,其计算公式如(1)所示。
Figure BDA0002070057010000101
再使用同样的计算方法将y作为输入,得到输出向量z。综上所述,每个无监督学习前训练样本x都被映射成相应的y,再被重构成z。
该算法最终目的是为了最小化x与z之间的误差,如(2)所示。
Figure BDA0002070057010000102
其中,i是x向量和z向量的下标,n是x向量的维度,f代表前向计算,g代表反向计算,θ表示前向计算时所有连接权重w和阈值b的集合,θ'表示反向计算时所有连接权重w和阈值b的集合,argmin表示使其后面的式子取得最小值的时候θ*和θ'*的取值。
根据x向量与z向量的差值计算损失,具体使用一种称为重建交叉熵的方式,如(3)所示。
Figure BDA0002070057010000103
其中,k为x向量与z向量的下标,d是x向量和z向量的维度。
再根据损失更新参数,根据梯度下降的原则,以目标负梯度方向调整参数的速度最快,如对连接权重w的调整如(4)所示,用来决定更新的快慢。
Figure BDA0002070057010000111
其中,其中η为学习率,L为公式(3)计算出的损失。
如(5)所示,Whj首先会改变第j个神经元的输入,再影响其输出,最终影响到损失L。
Figure BDA0002070057010000112
其中,h表示神经网络的第h层,j则表示该层的第j个神经元,k表示第k个样本,Bj是第j个输出神经元的输入值,yj是第j个神经元的输出。
由于Bj是第j个输出神经元的输入值,根据Bj的定义,如(6)所示。
Figure BDA0002070057010000113
可以得到任一条权重Whj的更新公式,如(7)所示。
Figure BDA0002070057010000114
再结合sigmoid函数的一个性质f'(x)=f(x)(1-f(x)),得到Whj最终的更新公式,如(8)所示。
Figure BDA0002070057010000115
类似的也可以得到其他参数的更新公式,便可将整个模型更新,更新全部完成后则该算法训练结束。
步骤4:使用良好的数据特征进行有监督学习,降噪梯度提升树模型训练完成。
步骤4的具体实现过程为:
步骤4.1、根据第一数据特征初始化基学习器;
步骤4.2、进行N轮训练,每一轮训练出一颗CART;
步骤4.3、在每轮中先通过对样本的训练得到预测值,随后根据预测值与真实值的差别计算损失函数;
步骤4.4、根据损失函数计算负梯度;
步骤4.5、根据负梯度生成各个叶节点的最佳负梯度拟合值;
步骤4.6、根据最佳负梯度拟合值对本轮的CART进行更新;
步骤4.7、根据新训练好的CART对强学习器进行更新;
步骤4.8、重复步骤4.3~步骤4.7,进行多轮更新,得到最终的强学习器。
下面结合公式进行说明:
假设无监督学习后的训练样本D={(x1,y1),(x2,y2),...(xm,ym)},其目标是训练出一个强分类器f(x),首先初始化一个基学习器F0(x),如(9)所示。
Figure BDA0002070057010000121
其中,argmin表示使其后面的式子取得最小值的时候F0(x)的取值,γ与y分别是预测出来的类别和真实的类别,i是y的下标。
总共进行N轮训练,每一轮训练出一颗CART(Classification and RegressionTrees,分类与回归树),在每轮中先通过对样本的训练得到预测值,随后根据预测值与真实值的差别计算损失函数,如果是二分类问题,则如(10)所示,计算损失。
L(y,f(x))=log(I+exp(-yf(X))) (10)
其中,x是输入,y是真实的类别,即预测出来的类别,exp是以自然常数e为底的指数函数。
随后根据(11)计算负梯度r。
Figure BDA0002070057010000122
其中,xi表示第i个输入样本,L表示损失,t是第t棵CART。
再根据(12)生成各个叶节点的最佳负梯度拟合值γtj
Figure BDA0002070057010000123
其中,argmin表示使其后面的式子取得最小值的时候的取值。
再根据(13)对这一轮进行更新。
Figure BDA0002070057010000131
同样的方式进入下一轮的计算,直至最后一轮结束,得到的强学习器表达式如(14)所示。
Figure BDA0002070057010000132
其中,T是所使用的基学习器CART的总数。
整个降噪梯度提升树模型训练完成。
步骤5:将模型序列化永久储存到硬盘中。
步骤6:使用模型对其欺诈行为进行检测。
其具体步骤为从硬盘反序列化到内存中,输入新的个人网贷行为信息,便可对其欺诈行为进行检测。
步骤7:若经过了一段时间出现了新数据需要重新训练,则返回步骤1。
本发明针对现有的技术在应对网络贷款这种更为复杂的情况时,检测效果会变差的问题,提出了一种面向深度学习的降噪梯度提升树欺诈检测算法以解决这些问题,为验证降噪梯度提升树欺诈检测算法的有效性,使用以下五个数据集:
(1)中国第一家信用贷款平台拍拍贷的脱敏数据,该数据共有2万个样本,其中欺诈样本1638个,非欺诈样本18362个。每个样本共有224个脱敏属性,包括24个用户信息属性、58个用户注册时填写的属性、8个教育属性、119个第三方属性、17个社会网络属性。具体属性内容与细节并未描述。
(2)抽取自美国网络贷款平台Lending Club在2007年到2015年的完整网络信用贷款违约数据,包括了贷款状态、金融交易信息、个人理财与账户查询、以及一些消费状况和个人信息等等共78项属性,该数据统一放置在一个文件中,共有2万个样本,其中欺诈样本4878个,非欺诈样本15122个。
(3)kaggle网站中的2013年共9个月2天里的28万多条欧洲交易数据,其中2439条为欺诈,欺诈比例非常低,因此为了提升模型效果,人为的提高欺诈比例,抽取其中一万条样本进行训练,其中2439条为欺诈样本,剩余的为非欺诈样本。该数据集已经过主成分分析映射为28个属性,只有交易金额与交易时间未经过映射,因此属性内容与细节也无描述。
(4)来自加州大学机器学习数据库中的german数据集,包括账户信息、储蓄信息、职业状况、保险、住房等共20条属性,共1000个样本,其中30%为欺诈数据,70%为非欺诈数据。
(5)实验室根据现实情况仿真出的网络贷款欺诈数据集,模拟出88条属性,涉及个人网络账户、网上消费、理财、社交、出行、娱乐等各个方面,共一万个样本,其中欺诈样本2531个,非欺诈样本7469个。
将降噪梯度提升树算法与对比算法(四种欺诈检测方法)进行比较:
(1)Dicision Tree(决策树);
(2)Random Forest(随机森林);
(3)GBDT(梯度提升树);
(4)sdA(堆叠降噪自动编码器);
本实施例包括:
1、探究了降噪梯度提升树欺诈检测方法的参数设置,设计实验对比一参数在选择不同值时模型的表现,得到最好的参数设置。
2、验证降噪梯度提升树用于网络个人信贷欺诈检测的可行性,设计了实验将降噪梯度提升树与传统算法中的决策树、集成学习算法中的随机森林进行比较,对比在不同数据集上的精度、Precision、recall、F1、AUC值。
3、为了验证深度学习的特征提取对欺诈检测模型的提升作用,设计了实验将降噪梯度提升树与GBDT进行比较,对比在不同数据集上的精度、Precision、recall、F1、AUC值。
4、为了验证对堆叠降噪自动编码器的优化效果,设计了实验将降噪梯度提升树与sdA进行比较,对比在不同数据集上的精度、Precision、recall、F1、AUC值。
一、参数的选取;
表1所示的是降噪梯度提升树方法涉及的相关参数:隐层神经元的激活函数、降噪因子和隐层神经元个数。这三个参数对算法的性能表现有较大影响,本实施例进行实验探究参数的最优设置。
如图2所示,隐层神经元的激活函数为relu或者softplus时可在更短的迭代次数内实现收敛,因此隐层神经元的激活函数选为relu或softplus比较合适。如图3所示,降噪因子为0.1时在较少的训练轮数内收敛,因此降噪因子设为0.1更合适。如图4所示,隐层神经元个数为20、25、30时都能在较少的训练轮数内收敛,为了更短的训练时间,适合将隐层神经元个数设为20。其它参数的选择也是同理。
表1相关参数
Figure BDA0002070057010000151
二、不同算法之间的精度比较
图5所示为五个算法在不同数据集上运行的精度对比,精度直接体现了模型的正确率,也是最能直观反应模型效果的一个指标。
从图上可以看到,在四个真实数据集上,降噪梯度提升树精度都要比决策树这个传统的机器学习算法高,也比随机森林这个传统的集成学习算法高。在仿真数据集上,由于数据的生成规律较为简单,除决策树以外,各个算法的精度相差不大。与GBDT相比,降噪梯度提升树在拍拍贷数据集上精度更低,在german数据集上精度比GBDT高出1%;在LendingClub数据集上精度高出4.5%;在欧洲数据集上高出3.5%。综上所述,降噪梯度提升树用于个人信贷欺诈检测在精度上相比与决策树、随机森林、GBDT有一定的优势。
在拍拍贷数据集上降噪梯度提升树比sdA提升了0.0075%,优化效果不明显,在german数据集上提升了1.5%,在Lending Club数据上高出了12%,在欧洲数据集上高出了4.5%,优化效果比较明显,综合几个数据集来看,降噪梯度提升树相比于原始的sdA确实对精度有一定的提升。
三、不同算法之间的Precision比较
图6所示为五个算法在不同数据集上运行的Precision对比,Precision中文名称为查准率,体现了模型找出的欺诈样本有多少是有效的。
从图中观察可以看到,在五个数据集上,降噪梯度提升树的Precision都要比决策树高,但是都比随机森林低。与GBDT相比,在拍拍贷数据集上降噪梯度提升树的Precision更低,在german数据集上的Precision比GBDT高出1%,在Lending Club数据集上高出12.6%,在欧洲数据集上高出5.5%。在仿真数据集上略低于GBDT,因此,降噪梯度提升树用于个人信贷欺诈检测在Precision上略优于GBDT。
在拍拍贷数据集上降噪梯度提升树的Precision和sdA一样,在german数据集上更低,在在Lending Club数据集上提高了25.3%,在欧洲数据集上提高了8.7%,因此总体来看,降噪梯度提升树相比于原始的sdA确实在Precision上有一定的提升。
四、不同算法之间的recall比较
图7所示为五个算法在不同数据集上运行的recall对比,recall中文名称为查全率,它反应的是模型寻找出所有欺诈样本的能力。recall与Precision是一对相互矛盾的指标,因此我们对比recall和Precision的结果可以发现,决策树在各个数据集上的Presision普遍比随机森林低,但recall却都比随机森林高,因此综合了Presision和recall的F1可以被认为是更客观的指标。在拍拍贷数据集上降噪梯度提升树比GBDT的recall低,在german数据集上的recall高出4.9%,在Lending Club数据集上与GBDT一样,在欧洲数据集上高出9.8%,在仿真数据集上比GBDT更低。综合来看降噪梯度提升树与GBDT在recall上的表现相差不大。
在拍拍贷数据集、Lending Club数据集、仿真数据集上降噪梯度提升树的recall比sdA低,在german数据集上提高了14.8%,在欧洲数据集上提高了1.7%。总体来看,降噪梯度提升树相比于原始的sdA确实在recall上相差不大。
五、不同算法之间的F1比较
图8所示为五个算法在不同数据集上运行的F1分数对比,F1则综合了Precision和recall,计算方法为F1=2*(Precision*Recall)/(Precision+Recall),从图中可以看到,降噪梯度提升树在四个数据集上比决策树好,在三个数据集上比随机森林好,在german数据集、Lending Club数据集、欧洲数据集上表现比GBDT好。
在拍拍贷数据集和仿真数据集上降噪梯度提升树的F1比sdA低;在german数据集上提高了10%;在Lending Club数据集上提高了6.5%;在欧洲数据集上提高了5.1%。综合五个数据集来看,降噪梯度提升树相比于原始的sdA确实在F1上有一定的提升。
六、不同算法之间ROC与AUC比较
图9至图13分别为各个算法在拍拍贷数据、Lending Club网贷平台数据、欧洲数据、german数据和仿真数据的ROC(receiver operating characteristic curve,接受者操作特性曲线)曲线和AUC(Area Under ROC Curve,ROC曲线下与坐标轴围成的面积)值对比,其中,sdA代表的是原始的堆叠降噪自动编码器,降噪梯度提升树即为第三章提出的基于堆叠降噪自动编码器改进的欺诈检测优化算法。ROC曲线及其AUC值是可以综合评价一个模型的客观指标,若一个算法的ROC曲线完全被另一个算法所覆盖,则证明后者完全优于前者,若相互交错,可通过AUC值来进行判断。
从图中观察可以看到,降噪梯度提升树在各个数据集上几乎都覆盖了决策树和随机森林,AUC值也高于决策树和随机森林,证明了降噪梯度提升树可以有效应用于欺诈检测模型,且取得了较好的分类效果,同时也说明了传统的决策树类算法在面临高维度数据时,选择哪一个属性来进行划分或许变得有些难度。并且可以观察到,降噪梯度提升树其AUC值也基本高于GBDT,表明深度学习逐层初始化的特征提取对后续的分类也起到了一定的效果。同样,降噪梯度提升树在各个数据集上也几乎都覆盖了sdA,AUC值也更高,证明对于sdA欺诈算法的优化确实提升了模型的分类能力。
综上,本发明提供的一种面向深度学习的网络个人信贷欺诈行为检测方法,通过深度学习算法预先对数据进行特征提取,再使用经过处理的更良好数据特征进行无监督学习训练出模型,用于进行网络个人信贷欺诈行为检测。模型具有更强的抗噪性和鲁棒性,能够提高网络个人信贷的欺诈检测效果。通过实验也证明,本方法可以有效的对网络个人信贷欺诈行为进行检测,且适用于高维度、大数据量、高噪声的情况,并在欺诈检测精度、F1、AUC等指标上有良好表现。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照实例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (8)

1.一种面向深度学习的网络个人信贷欺诈行为检测方法,其特征在于,包括以下步骤:
步骤1、获取历史网络个人信贷信息;
步骤2、选取降噪梯度提升树的第一子参数,所述第一子参数包括:隐层神经元的激活函数、降噪因子和隐层神经元个数;
步骤3、对降噪梯度提升树进行训练,使用历史网络个人信贷信息进行无监督学习,得到第一数据特征,包括:将选取的所述第一子参数赋值给降噪梯度提升树模型,并选取第二子参数还未确定的更新公式;根据所述第二子参数的所有更新公式,使用所述历史网络个人信贷信息进行更新,得到所述第一数据特征,完成无监督学习;其中,所述第二子参数包括:层与层之间所有神经元的连接权重、所有隐层神经元的阈值和输出神经元的阈值;具体实现过程为:
步骤3.1、随机初始化所述第二子参数;
步骤3.2、根据所述第二子参数的所有更新公式,使用所述历史网络个人信贷信息得到隐层神经元个数;
步骤3.3、使用所述隐层神经元个数反向计算得到输出神经元数值;
步骤3.4、使用所述输出神经元数值和所述历史网络个人信贷信息得到损失;
步骤3.5、使用所述损失更新所述第二子参数得到新的第二子参数;
步骤3.6、以新的第二子参数重复步骤3.2~步骤3.5,直至步骤3.4得到的损失逐渐收敛,则步骤3.6结束,得到所述第一数据特征;
步骤4、使用第一数据特征进行有监督学习,完成降噪梯度提升树模型训练;
步骤5、存储降噪梯度提升树模型;
步骤6、输入新的网络个人信贷信息,通过降噪梯度提升树模型对网络个人信贷欺诈行为进行检测。
2.根据权利要求1所述的面向深度学习的网络个人信贷欺诈行为检测方法,其特征在于,所述历史网络个人信贷信息、所述新的网络个人信贷信息均包括:网络个人信贷的贷款状态、借贷人的金融交易信息、账户信息与注册信息、个人信息、第三方信息和消费信息。
3.根据权利要求1所述的面向深度学习的网络个人信贷欺诈行为检测方法,其特征在于,所述步骤2中,通过对比参数在选择不同值时降噪梯度提升树模型的表现来确定所述第一子参数的具体选取。
4.根据权利要求1所述的面向深度学习的网络个人信贷欺诈行为检测方法,其特征在于,所述步骤2中,所述隐层神经元的激活函数选取为relu;所述降噪因子选取为0.1;所述隐层神经元个数选取为20。
5.根据权利要求1所述的面向深度学习的网络个人信贷欺诈行为检测方法,其特征在于,所述步骤4的具体实现过程为:
步骤4.1、根据所述第一数据特征初始化基学习器;
步骤4.2、进行N轮训练,每一轮训练出一颗CART;
步骤4.3、在每轮中先通过对样本的训练得到预测值,随后根据预测值与真实值的差别计算损失函数;
步骤4.4、根据所述损失函数计算负梯度;
步骤4.5、根据所述负梯度生成各个叶节点的最佳负梯度拟合值;
步骤4.6、根据所述最佳负梯度拟合值对本轮的CART进行更新;
步骤4.7、根据新训练好的CART对强学习器进行更新;
步骤4.8、重复步骤4.3~步骤4.7,进行多轮更新,得到最终的强学习器。
6.根据权利要求1所述的面向深度学习的网络个人信贷欺诈行为检测方法,其特征在于,所述步骤5中,将所述降噪梯度提升树模型序列化永久储存到硬盘中。
7.根据权利要求6所述的面向深度学习的网络个人信贷欺诈行为检测方法,其特征在于,所述步骤6中,将所述降噪梯度提升树模型从硬盘反序列化到内存中,输入新的网络个人信贷信息,对欺诈行为进行检测。
8.根据权利要求1所述的面向深度学习的网络个人信贷欺诈行为检测方法,其特征在于,还包括:
步骤7、经过第一时间,获得新的数据需要重新训练,返回步骤1,更新所述历史网络个人信贷信息。
CN201910434402.5A 2019-05-23 2019-05-23 一种面向深度学习的网络个人信贷欺诈行为检测方法 Active CN110276679B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910434402.5A CN110276679B (zh) 2019-05-23 2019-05-23 一种面向深度学习的网络个人信贷欺诈行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910434402.5A CN110276679B (zh) 2019-05-23 2019-05-23 一种面向深度学习的网络个人信贷欺诈行为检测方法

Publications (2)

Publication Number Publication Date
CN110276679A CN110276679A (zh) 2019-09-24
CN110276679B true CN110276679B (zh) 2021-05-04

Family

ID=67960020

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910434402.5A Active CN110276679B (zh) 2019-05-23 2019-05-23 一种面向深度学习的网络个人信贷欺诈行为检测方法

Country Status (1)

Country Link
CN (1) CN110276679B (zh)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110634067A (zh) * 2019-09-25 2019-12-31 上海应用技术大学 银行账户异常交易识别方法
CN111105303B (zh) * 2019-11-12 2023-05-12 同济大学 基于增量式网络表征学习的网络借贷欺诈检测方法
CN112949954B (zh) * 2019-11-22 2023-11-07 张捷 基于识别学习建立财务欺诈识别模型的方法
CN111241077B (zh) * 2020-01-03 2023-06-09 四川新网银行股份有限公司 基于互联网数据的金融欺诈行为的识别方法
CN111429249A (zh) * 2020-03-05 2020-07-17 同济大学 一种基于网络嵌入技术的线上借贷反欺诈方法
CN111401908A (zh) * 2020-03-11 2020-07-10 支付宝(杭州)信息技术有限公司 交易行为类型确定方法、装置及设备
CN112308566A (zh) * 2020-09-27 2021-02-02 中智关爱通(上海)科技股份有限公司 一种企业欺诈识别方法
US11935054B2 (en) 2022-01-31 2024-03-19 Walmart Apollo, Llc Systems and methods for automatically generating fraud strategies
CN115169252B (zh) * 2022-09-07 2022-12-13 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院) 一种结构化仿真数据生成系统及生成方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157135A (zh) * 2016-07-14 2016-11-23 微额速达(上海)金融信息服务有限公司 基于声纹识别性别年龄的防欺诈系统及方法
CN107886425A (zh) * 2017-10-25 2018-04-06 上海壹账通金融科技有限公司 信贷评估方法、装置、设备及计算机可读存储介质
CN108596434A (zh) * 2018-03-23 2018-09-28 卫盈联信息技术(深圳)有限公司 欺诈检测和风险评估方法、系统、设备及存储介质
CN109035003A (zh) * 2018-07-04 2018-12-18 北京玖富普惠信息技术有限公司 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
CN109685653A (zh) * 2019-01-21 2019-04-26 北京工业大学 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9449344B2 (en) * 2013-12-23 2016-09-20 Sap Se Dynamically retraining a prediction model based on real time transaction data
US20150254766A1 (en) * 2014-03-05 2015-09-10 Marc Abramowitz System and method for generating a dynamic credit risk rating for a debt security

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106157135A (zh) * 2016-07-14 2016-11-23 微额速达(上海)金融信息服务有限公司 基于声纹识别性别年龄的防欺诈系统及方法
CN107886425A (zh) * 2017-10-25 2018-04-06 上海壹账通金融科技有限公司 信贷评估方法、装置、设备及计算机可读存储介质
CN108596434A (zh) * 2018-03-23 2018-09-28 卫盈联信息技术(深圳)有限公司 欺诈检测和风险评估方法、系统、设备及存储介质
CN109035003A (zh) * 2018-07-04 2018-12-18 北京玖富普惠信息技术有限公司 基于机器学习的反欺诈模型建模方法和反欺诈监控方法
CN109685653A (zh) * 2019-01-21 2019-04-26 北京工业大学 一种融合深度信念网络和孤立森林算法的信贷风险监测的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Horse Race Analysis in Credit Card Fraud—Deep Learning,Logistic Regressing,and Gradient Boosted Tree";Gabriel Rushin et al;《IEEE》;20170601;第1-5页 *
"基于深度学习的银行卡交易反欺诈技术研究";窦路路 等;《智能计算机与应用》;20180831;第8卷(第4期);第85-91页 *

Also Published As

Publication number Publication date
CN110276679A (zh) 2019-09-24

Similar Documents

Publication Publication Date Title
CN110276679B (zh) 一种面向深度学习的网络个人信贷欺诈行为检测方法
Anand et al. Prediction of loan behaviour with machine learning models for secure banking
CN108920445A (zh) 一种基于Bi-LSTM-CRF模型的命名实体识别方法和装置
Cui et al. Internet financing credit risk evaluation using multiple structural interacting elastic net feature selection
CN110084610A (zh) 一种基于孪生神经网络的网络交易欺诈检测系统
CN112001788B (zh) 一种基于rf-dbscan算法的信用卡违约欺诈识别方法
Baek et al. Bankruptcy prediction for credit risk using an auto-associative neural network in Korean firms
Li et al. Heterogeneous ensemble learning with feature engineering for default prediction in peer-to-peer lending in China
Runchi et al. An ensemble credit scoring model based on logistic regression with heterogeneous balancing and weighting effects
Teng et al. Customer credit scoring based on HMM/GMDH hybrid model
Chen et al. Research on credit card default prediction based on k-means SMOTE and BP neural network
CN105787046A (zh) 一种基于单边动态下采样的不平衡数据分类系统
CN112926645B (zh) 一种基于边缘计算的窃电检测方法
CN112529684A (zh) 一种基于fwa_dbn的客户信用评估方法及系统
Jagric et al. Does non-linearity matter in retail credit risk modeling?
Padimi et al. Applying machine learning techniques to maximize the performance of loan default prediction
Sarker et al. A Novel Diagnosis System Using Regularized Encoder-Decoder Based Generative Probabilistic Network for Parkinson's Disease
Panigrahi et al. Comparative analysis on classification algorithms of auto-insurance fraud detection based on feature selection algorithms
CN117495533A (zh) 基于人工智能生成内容技术的信用画像方法、装置及设备
Jimbo Santana et al. Analysis of methods for generating classification rules applicable to credit risk
Jakka et al. Original Research Article A novel credit scoring system in financial institutions using artificial intelligence technology
Wagenmans Machine learning in bankruptcy prediction
Dinh et al. Loan repayment prediction using logistic regression ensemble learning with machine learning algorithms
CN110837847A (zh) 用户分类方法及装置、存储介质、服务器
Gao et al. Credit default risk prediction based on deep learning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant