CN112053223A - 一种基于ga-svm算法的互联网金融欺诈行为检测方法 - Google Patents

一种基于ga-svm算法的互联网金融欺诈行为检测方法 Download PDF

Info

Publication number
CN112053223A
CN112053223A CN202010820618.8A CN202010820618A CN112053223A CN 112053223 A CN112053223 A CN 112053223A CN 202010820618 A CN202010820618 A CN 202010820618A CN 112053223 A CN112053223 A CN 112053223A
Authority
CN
China
Prior art keywords
svm
data
application
model
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010820618.8A
Other languages
English (en)
Inventor
江远强
韩璐
李兰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baiweijinke Shanghai Information Technology Co ltd
Original Assignee
Baiweijinke Shanghai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baiweijinke Shanghai Information Technology Co ltd filed Critical Baiweijinke Shanghai Information Technology Co ltd
Priority to CN202010820618.8A priority Critical patent/CN112053223A/zh
Publication of CN112053223A publication Critical patent/CN112053223A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Marketing (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Technology Law (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Medical Informatics (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于GA‑SVM算法的互联网金融欺诈行为检测方法,其包括以下步骤:首先通过从互联网平台后端采集贷款申请人的个人数据,并对这些数据进行预处理,分为训练集和测试集,在训练集上使用传统梯度下降法的SVM建立初始的SVM的互联网金融欺诈申请行为预测模型,并采用遗传算法(Genetic Algorithm,GA)对SVM模型的惩罚参数C和核参数σ进行自动化优化选择,建立训练集的GA‑SVM模型,将测试集数据代入模型验证模型的预测效果,并通过K折交叉验证法对模型调优,最后将优化模型部署至申请平台,根据客户实时申请数据进行申请行为风险评级。本发明建立的基于GA‑SVM的互联网金融欺诈行为检测方法,可以出色地实现对申请客户欺诈行为实时监控识别。

Description

一种基于GA-SVM算法的互联网金融欺诈行为检测方法
技术领域
本发明属于互联网金融行业的风控技术领域,具体提供一种基于GA-SVM算法的互联网金融欺诈行为检测方法。
背景技术
在互联网金融平台反欺诈中,传统的反欺诈检测方法主要是依赖先验知识制定的基于预先定义的反欺诈规则和有监督的机器学习算法,所检测的数据级别通常是原始属性或是细粒度级别的数据。而在当今大数据时代,金融风险维度通常是成百上千个且异常复杂,很难从单个或几个属性的制定有效反欺诈规则。
支持向量机(Support Vector Machine,SVM)算法将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,巧妙地解决了维数灾难问题,具有全局寻优能力和良好泛化能力,避免了过拟合、神经网络结构选择和局部最优等问题。但与其他学习算法一样,SVM的性能依赖于学习机的参数选取,且其参数的选取对于经验的依赖性比较强。SVM的参数选取包括如下:
(1)误差惩罚参数C:对错分样本比例和算法复杂度折衷,即在确定的特征子空间中调节学习机置信范围和经验风险比例,能够控制对错分样本惩罚的程度,起到控制训练误差和模型复杂度之间平衡的作用,C值越小,对数据中误判样本的惩罚也越小,使得训练误差变大,模型结构风险变大,C值越大,对错分样本的约束程度就越大,模型对训练数据的误判率很低,模型整体的泛化能力很差,容易出现模型过拟合现象;
(2)核函数形式及其参数σ:不同核函数对分类性能有影响,相同核函数不同参数也有影响,一般情况下选择基于径向基核函数,参数σ代表径向基核函数的宽度,σ值太小会导致模型过拟合,σ值太大会使SVM的判别函数过于平缓而导致模型准确率不高。
目前较为常用的SVM参数寻优方法有:经验选择法、实验法、网格搜索法、梯度下降法、粒子群算法等。实验法是指通过大量的实验比较来确定参数,这种方法十分浪费时间,且不易寻得最优参数;网格搜索法是一种穷举搜索方法,但设置合理的区间和间隔步长值往往非常困难,从而大大降低了其可行性,而且模型也非常容易陷入局部最优值;梯度下降方法对初始值非常敏感,特别是初始参数设置离最优解非常远的时候,模型很容易收敛到局部最优解;粒子群算法属于启发式算法,不必遍历区间内所有的参数组也能找到全局最优解,但粒子群算法操作往往比较复杂,且容易陷入局部最优。
发明内容
为了解决上述技术问题,本发明中披露了一种基于GA-SVM算法的互联网金融欺诈行为检测方法,本发明的技术方案是这样实施的:
遗传算法(Genetic Algorithm,GA)是模仿生物遗传机制和达尔文进化论的一种启发式搜索算法方法。将生物进化论原理引入寻找最优参数形成的编码串族群体中,按所选择的适应度函数对个体进行筛选,使适应度高的个体被保留下来,通过遗传中的复制、交叉及变异组成新的群体,新的群体既继承了上一代的信息,适应度高的遗传后代的可能性大,适应度低的会逐步被淘汰。这样不断重复对新的种群进行适应度筛选,群体中适应度高的个体数量越来越多,直到满足预先设定的条件,算法终止,这时,适应度最高的个体留在种群中的概率最高,从而得到最优个体,最优个体经过解码,可以作为问题近似最优解。
一种基于GA-SVM算法的互联网金融欺诈行为检测方法,包括以下步骤:
步骤1:从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据;
步骤2:数据预处理,对采集的数据进行预处理,包括数据缺失补全、异常值处理和归一化等,对预处理后的数据按照7:3的比例切分成训练集和测试集;
步骤3:在训练集使用传统梯度下降法的SVM建立初始的SVM的互联网金融欺诈申请行为预测模型;
步骤4:利用遗传算法对SVM模型的惩罚参数C和核函数宽度σ进行全局寻优,得到两个参数组合的最优解,构建训练集的GA-SVM预测模型;
步骤5:将测试集数据输入GA-SVM预测模型对测试,并通过K折交叉验证法进一步优化模型,与逻辑回归、神经网络、传统梯度下降法的SVM的预测效果进行对比;
步骤6:将验证集优化的GA-SVM神经网络预测模型部署至申请平台,对申请系统实时数据进行特征提取处理后输入训练后模型中得到申请评价结果,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
进一步地,在步骤1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据,其中用户的个人申请信息包括:手机号、学历、婚姻状况、工作单位、住址、联系人信息,征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、IP申请频次、地理信息申请频次、设备电量占比、陀螺仪平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
进一步地,在步骤2中,对步骤1采集到的样本数据中剔除无关维度及与实际业务不符的异常数据得到待辨识数据集,对缺失数据采用时间维度上线性插值处理方式补全,使用离差标准化方法对清洗后的数据集进行归一化处理,归一化公式如下:
设采集的N个原始数据集X={x1,x2,…,xi,…,xN},i=1,2,…,N,而每个样本有n个属性,则第i个样本的特征属性值表示为:xi={xi1,xi2,…,xij,…,xin},j=1,2,…,n,每个样本的特征属性使用离差标准化后的值为:
Figure BDA0002634298560000051
其中,x′ij为xij标准化后的数据,
Figure BDA0002634298560000052
Figure BDA0002634298560000053
分别为第i个样本第j个特征属性xij中的最大值和最小值,通过离差标准化后的数据全部都在[0,1]范围内,可避免了放大某些数量级较大的值的影响,同时处理样本中孤立点、噪音数据。
将归一化处理的数据集根据申请时间按照7:3比例划分为训练集数据和测试集数据。
进一步地,在步骤3中,使用传统梯度下降法的SVM算法如下:
设训练样本为(xi,yi),i=1,2,…,N,x∈Rn,y∈{+1,-1},其中xi为SVM模型的n维输入向量,i=1,2,…,N为训练集样本数,n为输入维数,yi为SVM输出结果。
当线性可分时,通过求解最优化问题可以得到支持向量以及w和b,即产生分类超平面w·x+b=0以及相应的分类决策函数为:
f(x)=sign(w·x+b)
其中,x为输入样本向量,w为权重向量,b为偏置。
通过最大化间隔可转化成以下的最优化问题:
Figure BDA0002634298560000061
其中,xi为第i个输入样本,yi为第i个输出样本,i=1,2,…,N为训练集样本数。
由于上述的最优化问题只能处理线性可分问题,在实际中很难处理线性不可分问题,此时需引入非负松弛变量ξ,其最优化问题转化为如下最小化目标函数:
Figure BDA0002634298560000062
其中,ξi是第i个样本的松弛变量,C是惩罚参数,且C>0。
一般由应用问题决定,C值越大,对误分类的惩罚越大;C值越小,对误分类的惩罚越小。最小化目标函数包含两层含义:一是使尽量小即间隔尽量大,二是使误分点的个数尽量少,而惩罚参数C正是起调和平衡二者的关系。
通过Lagrange乘子法求解上述优化问题,可得最优决策函数为:
Figure BDA0002634298560000063
其中,ai为拉格朗日因子,xi为第i个输入样本,yi为第i个输出样本,i=1,2,…,N为训练集样本数。
在对输入测试样本进行测试时,由式(4)确定的所属类别。根据Karush-Kuhn-Tucker(KKT)最优条件,上述最优化问题的解必须满足:
ai(yi(w·x+b)-1)=0
非线性分类问题时,SVM通过核函数K(x,xi)将样本映射到某个高维空间,然后在中对原始问题进行线性划分。根据Mercer条件,此时相应的最优决策函数变为:
Figure BDA0002634298560000071
其中,一般核函数选取径向基核函数
Figure BDA0002634298560000072
σ为核参数,σ>0,b为常数,ai为拉格朗日因子,i=1,2,…,N为训练集样本数。
由此得到的检测互联网金融欺诈行为的SVM模型为:
Figure BDA0002634298560000073
进一步地,在步骤4中,SVM分类器的惩罚参数C、径向基核函数的核参数σ对分类效果影响很大,为了获取较高预测性能的SVM分类器,则需得到较优的C、σ参数组合(C,σ),传统方式是通过经验选择法、网格搜索法、梯度下降法、交叉验证法、Bayesian反馈法等选取参数,本文中利用遗传算法代替传统方法实现对惩罚参数C和核参数σ的自动优选,具体步骤如下:
设训练样本为(xi,yi),i=1,2,…,N,x∈Rn,y∈{+1,-1},其中xi为SVM模型的n维输入向量,i=1,2,…,N为训练集样本,n为输入维数,yi为申请状态,1表示正常申请,-1表示异常申请。
步骤4-1:初始化遗传算法相关参数,设置SVM模型的惩罚参数C和核参数σ范围,C∈[Cmin,Cmax]和σ∈[σminmax],以二进制的形式进行染色体基因编码SVM模型参数组合(C,σ),随机产生初种群;
步骤4-2:为了使SVM模型输出与目标函数之间误差的平方和最小,将适应度函数定义如下:
Figure BDA0002634298560000081
其中fit为适应度函数,MSE为训练集真实值与预测值的均方误差,yi
Figure BDA0002634298560000082
分别为测试集的真实值和预测值,i=1,2,…,N为训练集样本。
步骤4-3:遗传操作:包括选择、交叉、变异及其概率选择,操作步骤如下:
步骤4-3-1:遗传选择:遗传算法的选择算子采用适应度比例法,按个体适应度在整个群体适应度中所占的比例确定该个体的被选择概率,个体i被选取的概率Pi和该个体的累计概率Qi计算公式如下:
Figure BDA0002634298560000083
Figure BDA0002634298560000084
其中fiti为第i个染色体的适应度,i=1,2,…,N,N为训练集样本数;
步骤4-4-2:遗传交叉,遗传算法的交叉算子计算公式如下:
A'1=aA1+(1-a)A2
A'2=aA2+(1-a)A1
其中,A′1、A′2和A1、A2分别对应交叉前后的个体,α为[0,1]上的随机数;
步骤4-4-3:遗传变异,变异算子采用非均匀一致变异,其计算公式为:
Figure BDA0002634298560000091
其中,Bk为变异位值,Bk′为Bk变异后的值,Dk,max为个体位最大值,Dk,min为个体位最小值,round()为取整函数,β为[0,1]上的随机数;将Dk,max-Bk和Bk-Dk,min用Y代替,则Δ(t,Y)表示在[0,Y]范围内符合非均匀分布的一个随机数。
步骤4-4-4:遗传变异概率选择
遗传变异随着进化代数t的增加而以接近于0的概率逐渐增加,变异概率选择计算公式为:
Figure BDA0002634298560000092
其中,T是最大跌代数,b为确定非均匀度的系统参数;
步骤4-5:利用训练集获得的SVM参数训练SVM模型,并利用留一交叉检验法评估适应度,目标是得到最大的适应度,即取得训练集真实值与预测值的均方误差;
根据适应度函数fit(x)大于设定值或达到最大迭代次数的原则,求出此时最优的个体,并对最优个体的染色体基因编码解码成SVM参数组合(C,σ),即优化选择SVM模型的惩罚参数C和核参数σ,否则,转到步骤4-3。
步骤4-6:根据上述得到模型最优的惩罚参数C和核参数σ,得到最优的SVM模型的决策函数:引入非线性映射函数φ(X),将输入的数据映射到高维属性空间,将原来的具有N个训练样本的训练数据集:
S=(xi,yi),i=1,2,…,N,x∈Rn,y∈{+1,-1}
转化成:
Sφ=(φ(xi),yi),i=1,2,…,N,x∈Rn,y∈{+1,-1}
其中,xi为SVM模型的n维输入向量,i=1,2,…,N为训练集样本,yi为申请状态标志位,1表示正常申请,-1表示异常申请。
进一步地,在步骤5中,使用训练好的GA-SVM模型对测试集进行申请状态的分类,根据分类结果与测试集的贷后表现检验SVM模型的性能,并通过K折交叉验证法进一步优化模型,并通过使用预测样本数据的平均绝对百分比误差、均方根误差和相对误差等指标与逻辑回归、神经网络、传统梯度下降法的SVM的预测效果进行对比。
进一步地,在步骤6中将GA-SVM神经网络预测模型部署至申请平台,对申请系统中实时申请客户的申请信息和操作行为埋点数据进行特征提取处理后输入GA-SVM模型中得到申请检测结果;如果输出标签为1,则说明当前申请客户行为正常;如果输出标签为-1,则说明当前申请客户具有疑似异常申请行为,对疑似异常状态的申请发出系统预警,进行人工审批或拒绝申请。
与现有技术相比,本发明具有以下有益的技术效果:
(1)相对于神经网络、决策树、朴素贝叶斯等机器学习算法,本文选用的SVM算法具有全局寻优能力和良好泛化能力,能够避免了过拟合和局部最优等问题;
(2)相比传统的经验选择法、实验法、梯度下降法等优化方法,遗传算法具有很强的全局搜索能力,不容易陷于局部最优化,采用遗传算法对SVM中的参数进行优化,可以达到提高预测精度,减小误差的效果,利用GA-SVM模型进行互联网金融申请行为欺诈检测满足目前大数据风控需求。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一种实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图;
图1为本发明流程图。
具体实施方式
为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体实施例,进一步阐述本发明,但下述实施例仅仅为本发明的优选实施例,并非全部。基于实施方式中的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得其它实施例,都属于本发明的保护范围。下述实施例中的实验方法,如无特殊说明,均为常规方法,下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
一种基于GA-SVM算法的互联网金融欺诈行为检测方法,包括以下步骤:
步骤1:从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据;
步骤2:数据预处理,对采集的数据进行预处理,包括数据缺失补全、异常值处理和归一化等,对预处理后的数据按照7:3的比例切分成训练集和测试集;
步骤3:在训练集使用传统梯度下降法的SVM建立初始的SVM的互联网金融欺诈申请行为预测模型;
步骤4:利用遗传算法对SVM模型的惩罚参数C和核函数宽度σ进行全局寻优,得到两个参数组合的最优解,构建训练集的GA-SVM预测模型;
步骤5:将测试集数据输入GA-SVM预测模型对测试,并通过K折交叉验证法进一步优化模型,与逻辑回归、神经网络、传统梯度下降法的SVM的预测效果进行对比;
步骤6:将验证集优化的GA-SVM神经网络预测模型部署至申请平台,对申请系统实时数据进行特征提取处理后输入训练后模型中得到申请评价结果,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
在一种优选的实施方式中,结合图1所示,在步骤1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据,其中用户的个人申请信息包括:手机号、学历、婚姻状况、工作单位、住址、联系人信息,征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP申请频次、设备电量占比、陀螺仪平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
在一种优选的实施方式中,结合图1所示,在步骤5,通过使用预测样本数据的平均绝对百分比误差、均方根误差和相对误差等指标与逻辑回归、神经网络、传统梯度下降法的SVM的预测效果进行对比,模型的主要的误差判断公式如下:
(1)平均绝对百分比误差(MeanAbsolute Percent Error,MAPE)
Figure BDA0002634298560000131
(2)均方根误差(Root Mean Square Error,RMSE)
Figure BDA0002634298560000132
(3)平均绝对误差(MeanAbsolute Error,MAE)
Figure BDA0002634298560000141
其中:yi
Figure BDA0002634298560000142
分别为测试样本的实值和预测值,i=1,2,…,N为测试样本数。
为了更好的表明预测结果与实际结果的相似程度,本申请定义均等系数(Equality Coefficient,EC),计算公式如下:
Figure BDA0002634298560000143
EC值越大,代表着模型预测结果越接近实际结果。通常认为,如果EC>0.85,则表示模型具有较好的预测能力,如果EC>0.9,则认为是满意的预测。
运用遗传算法对SVM模型进行参数寻优,建立了基于GA-SVM的互联网金融欺诈行为检测模型,通过仿真分析:GA-SVM模型的预测结果要优于逻辑回归、神经网络、传统梯度下降法的SVM的预测效果,且通过精度与误差的对比,充分说明本发明提出的GA-SVM模型是有效可行的,可以出色地实现数据的精确预测,完成互联网金融欺诈行为检测。
另一方面,本发明还提供GA-SVM算法的互联网金融欺诈行为检测系统,包括:
样本获取单元,用于获取包括个人申请信息、操作行为埋点数据和贷后还款表现作为评价结果的训练样本;
数据处理单元:对采集的数据特征提取,进行包括数据缺失补全、异常值处理和归一化等;
SVM构建单元:对处理后的数据输入SVM模型,使用传统的梯度下降法构建SVM预测模型;
遗传算法优化单元:以二进制的形式对步骤4的利用遗传算法对SVM模型的惩罚参数C和核函数宽度σ进行染色体基因编码,以训练误差作为适应度函数,通过遗传中的复制、交叉及变异,优化得到GA-SVM预测模型;
欺诈检测单元:对实时申请客户的个人信息及操作行为数据进行特征提取处理后输入训练后GA-SVM预测模型得到欺诈行为检测结果。
在本发明中,除非另有明确的规定和限定,第一特征在第二特征之“上”或之“下”可以包括第一和第二特征直接接触,也可以包括第一和第二特征不是直接接触而是通过它们之间的另外的特征接触。而且,第一特征在第二特征“之上”、“上方”和“上面”包括第一特征在第二特征正上方和斜上方,或仅仅表示第一特征水平高度高于第二特征。第一特征在第二特征“之下”、“下方”和“下面”包括第一特征在第二特征正下方和斜下方,或仅仅表示第一特征水平高度小于第二特征。
以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims (7)

1.一种基于GA-SVM算法的互联网金融欺诈行为检测方法,其特征在于,包括:
步骤1:从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据;
步骤2:数据预处理,对采集的数据进行预处理,包括数据缺失补全、异常值处理和归一化等,对预处理后的数据按照7:3的比例切分成训练集和测试集;
步骤3:在训练集使用传统梯度下降法的SVM建立初始的SVM的互联网金融欺诈申请行为预测模型;
步骤4:利用遗传算法对SVM模型的惩罚参数C和核函数宽度σ进行全局寻优,得到两个参数组合的最优解,构建训练集的GA-SVM预测模型;
步骤5:将测试集数据输入GA-SVM预测模型对测试,并通过K折交叉验证法进一步优化模型,与逻辑回归、神经网络、传统梯度下降法的SVM的预测效果进行对比;
步骤6:将验证集优化的GA-SVM神经网络预测模型部署至申请平台,对申请系统实时数据进行特征提取处理后输入训练后模型中得到申请评价结果,对疑似异常状态的申请发出系统预警,进行人工审批环节或拒绝申请。
2.根据权利要求1所述的一种基于GA-SVM算法的互联网金融欺诈行为检测方法,其特征在于,在步骤1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据;
所述个人基本信息包括:手机号、学历、婚姻状况、工作单位、住址、联系人信息,征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据;
所述埋点数据包括埋点时采集的设备行为数据和日志数据;
所述设备行为数据包括登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、IP申请频次、地理信息申请频次、设备电量占比、陀螺仪平均加速度;
所述日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等;其还包括在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
3.根据权利要求1所述的一种基于GA-SVM算法的互联网金融欺诈行为检测方法,其特征在于,在步骤2中,对步骤1采集到的样本数据中剔除无关维度及与实际业务不符的异常数据得到待辨识数据集,对缺失数据采用时间维度上线性插值处理方式补全,使用离差标准化方法对清洗后的数据集进行归一化处理,归一化公式如下:
设采集的N个原始数据集X={x1,x2,…,xi,…,xN},i=1,2,…,N,而每个样本有n个属性,则第i个样本的特征属性值表示为:xi={xi1,xi2,…,xij,…,xin},j=1,2,…,n,每个样本的特征属性使用离差标准化后的值为:
Figure FDA0002634298550000031
其中,x′ij为xij标准化后的数据,
Figure FDA0002634298550000032
Figure FDA0002634298550000033
分别为第i个样本第j个特征属性xij中的最大值和最小值,通过离差标准化后的数据全部都在[0,1]范围内,可避免了放大某些数量级较大的值的影响,同时处理样本中孤立点和噪音数据;
将归一化处理的数据集根据申请时间按照7:3比例划分为训练集和测试集。
4.根据权利要求1所述的一种基于GA-SVM算法的互联网金融欺诈行为检测方法,其特征在于,在步骤3中,使用传统梯度下降法的SVM算法如下:
设训练样本为(xi,yi),i=1,2,…,N,x∈Rn,y∈{+1,-1},其中xi为SVM模型的n维输入向量,i=1,2,…,N为训练集样本数,n为输入维数,yi为SVM输出结果;
当线性可分时,通过求解最优化问题可以得到支持向量以及w和b,即产生分类超平面w·x+b=0以及相应的分类决策函数为:
f(x)=sign(w·x+b)
其中,x为输入样本向量,w为权重向量,b为偏置;
通过最大化间隔可转化成以下的最优化问题:
Figure FDA0002634298550000041
其中,xi为第i个输入样本,yi为第i个输出样本,i=1,2,...,N为样本个数;
由于上述的最优化问题只能处理线性可分问题,在实际中很难处理线性不可分问题,此时需引入非负松弛变量ξ,其最优化问题转化为如下最小化目标函数:
Figure FDA0002634298550000042
其中,ξi是第i个样本的松弛变量,C是惩罚参数,且C>0;
C值大小一般由应用问题决定,C值越大,对误分类的惩罚越大,C值越小,对误分类的惩罚越小;最小化目标函数包含两层含义:一是使尽量小即间隔尽量大,二是使误分点的个数尽量少,而惩罚参数C正是起调和平衡二者的关系;
通过Lagrange乘子法求解上述优化问题,可得最优决策函数为:
Figure FDA0002634298550000043
其中,ai为拉格朗日因子,xi为第i个输入样本,yi为第i个输出样本,i=1,2,...,N为样本个数;
在对输入测试样本进行测试时,由式(4)确定的所属类别。根据Karush-Kuhn-Tucker(KKT)最优条件,上述最优化问题的解必须满足:
ai(yi(w·x+b)-1)=0
非线性分类问题时,SVM通过核函数K(x,xi)将样本映射到某个高维空间,然后在中对原始问题进行线性划分。根据Mercer条件,此时相应的最优决策函数变为:
Figure FDA0002634298550000051
其中,一般核函数选取径向基核函数
Figure FDA0002634298550000052
σ为核参数,σ>0,b为常数,ai为拉格朗日因子,i=1,2,...,N为样本个数;
最终得到的检测互联网金融欺诈行为的SVM模型为:
Figure FDA0002634298550000053
5.根据权利要求1所述的一种基于遗传算法SVM的互联网金融欺诈行为检测方法,其特征在于,在步骤4中,SVM分类器的惩罚参数C、径向基核函数的核参数σ对分类效果影响很大,为了获取较高预测性能的SVM分类器,则需得到较优的C、σ参数组合(C,σ),传统方式是通过经验选择法、网格搜索法、梯度下降法、交叉验证法、Bayesian反馈法等选取参数,本文中采用遗传算法代替传统方法实现对惩罚参数C和核参数σ的自动优选,具体步骤如下:
设训练样本为(xi,yi),i=1,2,…,N,x∈Rn,y∈{+1,-1},其中xi为SVM模型的n维输入向量,i=1,2,…,N为训练集样本,n为输入维数,yi为申请状态,1表示正常申请,-1表示异常申请;
步骤4-1:初始化遗传算法相关参数,设置SVM模型的惩罚参数C和核参数σ范围,C∈[Cmin,Cmax]和σ∈[σminmax],以二进制的形式进行染色体基因编码SVM模型参数组合(C,σ),随机产生初种群;
步骤4-2:为了使SVM模型输出与目标函数之间误差的平方和最小,将适应度函数定义如下:
Figure FDA0002634298550000061
其中fit为适应度函数,MSE为训练集真实值与预测值的均方误差,yi
Figure FDA0002634298550000062
分别为测试集的真实值和预测值,i=1,2,…,N,N为训练集样本数;
步骤4-3:遗传操作:包括选择、交叉、变异及其概率选择:
步骤4-3-1:遗传选择:遗传算法的选择算子采用适应度比例法,按个体适应度在整个群体适应度中所占的比例确定该个体的被选择概率,个体i被选取的概率Pi和该个体的累计概率Qi计算公式如下:
Figure FDA0002634298550000063
Figure FDA0002634298550000064
其中fiti为第i个染色体的适应度,i=1,2,…,N,N为训练集样本数;
步骤4-4-2:遗传交叉,遗传算法的交叉算子计算公式如下:
A′1=aA1+(1-a)A2
A′2=aA2+(1-a)A1
其中,A′1、A′2和A1、A2分别对应交叉前后的个体,α为[0,1]上的随机数;
步骤4-4-3:遗传变异,变异算子采用非均匀一致变异,其计算公式为:
Figure FDA0002634298550000071
其中,Bk为变异位值,B′k为Bk变异后的值,Dk,max为个体位最大值,Dk,min为个体位最小值,round()为取整函数,β为[0,1]上的随机数;将Dk,max-Bk和Bk-Dk,min用Y代替,则Δ(t,Y)表示在[0,Y]范围内符合非均匀分布的一个随机数;
步骤4-4-4:遗传变异概率选择
遗传变异随着进化代数t的增加而以接近于0的概率逐渐增加,变异概率选择计算公式为:
Figure FDA0002634298550000072
其中,T是最大跌代数,b为确定非均匀度的系统参数;
步骤4-5:利用训练集获得的SVM参数训练SVM模型,并利用留一交叉检验法评估适应度,目标是得到最大的适应度,即取得训练集真实值与预测值的均方误差;
根据适应度函数fit(x)大于设定值或达到最大迭代次数的原则,求出此时最优的个体,并对最优个体的染色体基因编码解码成SVM参数组合(C,σ),即优化选择SVM模型的惩罚参数C和核参数σ,否则,转到步骤4-3;
步骤4-6:根据上述得到模型最优的惩罚参数C和核参数σ,得到最优的SVM模型的决策函数:引入非线性映射函数φ(X),将输入的数据映射到高维属性空间,将原来的具有N个训练样本的训练数据集:
S=(xi,yi),i=1,2,…,N,x∈Rn,y∈{+1,-1}
转化成:
Sφ=(φ(xi),yi),i=1,2,…,N,x∈Rn,y∈{+1,-1}
其中,xi为SVM模型的n维输入向量,i=1,2,…,N是训练集样本,yi为申请状态标志位,1表示正常申请,-1表示异常申请。
6.根据权利要求1所述的一种基于GA-SVM算法的互联网金融欺诈行为检测方法,其特征在于,在步骤5中,使用训练好的GA-SVM模型对测试集进行申请状态的分类,根据分类结果与测试集的贷后表现检验SVM模型的性能,并通过K折交叉验证法进一步优化模型,并通过使用预测样本数据的平均绝对百分比误差、均方根误差和相对误差等指标与逻辑回归、神经网络、传统梯度下降法的SVM的预测效果进行对比。
7.根据权利要求1所述的一种基于GA-SVM算法的互联网金融欺诈行为检测方法,其特征在于,在步骤6中将GA-SVM神经网络预测模型部署至申请平台,对申请系统中实时申请客户的申请信息和操作行为埋点数据进行特征提取处理后输入GA-SVM模型中得到申请检测结果;如果输出标签为1,则说明当前申请客户行为正常;如果输出标签为-1,则说明当前申请客户具有疑似异常申请行为,对疑似异常状态的申请发出系统预警,进行人工审批或拒绝申请。
CN202010820618.8A 2020-08-14 2020-08-14 一种基于ga-svm算法的互联网金融欺诈行为检测方法 Pending CN112053223A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010820618.8A CN112053223A (zh) 2020-08-14 2020-08-14 一种基于ga-svm算法的互联网金融欺诈行为检测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010820618.8A CN112053223A (zh) 2020-08-14 2020-08-14 一种基于ga-svm算法的互联网金融欺诈行为检测方法

Publications (1)

Publication Number Publication Date
CN112053223A true CN112053223A (zh) 2020-12-08

Family

ID=73599077

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010820618.8A Pending CN112053223A (zh) 2020-08-14 2020-08-14 一种基于ga-svm算法的互联网金融欺诈行为检测方法

Country Status (1)

Country Link
CN (1) CN112053223A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560921A (zh) * 2020-12-10 2021-03-26 百维金科(上海)信息科技有限公司 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法
CN112581265A (zh) * 2020-12-23 2021-03-30 百维金科(上海)信息科技有限公司 一种基于AdaBoost的互联网金融客户申请欺诈检测方法
CN112967062A (zh) * 2021-03-02 2021-06-15 东华大学 基于谨慎度的用户身份识别方法
CN113239638A (zh) * 2021-06-29 2021-08-10 百维金科(上海)信息科技有限公司 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法
CN113807613A (zh) * 2021-10-13 2021-12-17 国网安徽省电力有限公司 一种电网工程全周期预算优化配置工具
CN116911882A (zh) * 2023-09-13 2023-10-20 国任财产保险股份有限公司 一种基于机器学习的保险防欺诈预测方法及系统
CN117455660A (zh) * 2023-12-25 2024-01-26 浙江邦盛科技股份有限公司 一种金融实时安全检测系统、方法、设备及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330781A (zh) * 2017-06-19 2017-11-07 南京信息工程大学 一种基于ifoa‑svm的个人信用风险评估方法
CN109300028A (zh) * 2018-09-11 2019-02-01 上海天旦网络科技发展有限公司 基于网络数据的实时反欺诈方法和系统及存储介质
CN110070141A (zh) * 2019-04-28 2019-07-30 上海海事大学 一种网络入侵检测方法
CN110956547A (zh) * 2019-11-28 2020-04-03 广州及包子信息技术咨询服务有限公司 一种基于搜索引擎的实时识别欺诈团伙的方法及系统
CN111104972A (zh) * 2019-12-06 2020-05-05 南京工程学院 基于遗传算法优化支持向量机多分类器的台区低电压风险识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330781A (zh) * 2017-06-19 2017-11-07 南京信息工程大学 一种基于ifoa‑svm的个人信用风险评估方法
CN109300028A (zh) * 2018-09-11 2019-02-01 上海天旦网络科技发展有限公司 基于网络数据的实时反欺诈方法和系统及存储介质
CN110070141A (zh) * 2019-04-28 2019-07-30 上海海事大学 一种网络入侵检测方法
CN110956547A (zh) * 2019-11-28 2020-04-03 广州及包子信息技术咨询服务有限公司 一种基于搜索引擎的实时识别欺诈团伙的方法及系统
CN111104972A (zh) * 2019-12-06 2020-05-05 南京工程学院 基于遗传算法优化支持向量机多分类器的台区低电压风险识别方法

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
姜凤茹: "基于GA-SVM的网络借贷个人信用评估模型研究", 《控制工程》, vol. 27, no. 06, pages 1025 - 1031 *
姜春茂;张国印;李志聪;: "基于遗传算法优化SVM的嵌入式网络系统异常入侵检测", 计算机应用与软件, no. 02 *
孙瑾;许青松;陈燕燕;: "基于遗传算法和支持向量机的银行个人信用评估", 统计与决策, no. 12 *
朱安安;: "基于过采样SVM的不平衡数据信用评价模型", 软件导刊, no. 10 *
谢志强;: "基于遗传算法支持向量机的网络入侵预测", 计算机仿真, no. 08 *
黄炜;黄志华;郑敏姜;: "基于SVM的消费欺诈行为预警系统", 福建电脑, no. 10 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112560921A (zh) * 2020-12-10 2021-03-26 百维金科(上海)信息科技有限公司 一种基于模糊c-均值的互联网金融平台申请欺诈行为检测方法
CN112581265A (zh) * 2020-12-23 2021-03-30 百维金科(上海)信息科技有限公司 一种基于AdaBoost的互联网金融客户申请欺诈检测方法
CN112967062A (zh) * 2021-03-02 2021-06-15 东华大学 基于谨慎度的用户身份识别方法
CN112967062B (zh) * 2021-03-02 2022-07-05 东华大学 基于谨慎度的用户身份识别方法
CN113239638A (zh) * 2021-06-29 2021-08-10 百维金科(上海)信息科技有限公司 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法
CN113807613A (zh) * 2021-10-13 2021-12-17 国网安徽省电力有限公司 一种电网工程全周期预算优化配置工具
CN116911882A (zh) * 2023-09-13 2023-10-20 国任财产保险股份有限公司 一种基于机器学习的保险防欺诈预测方法及系统
CN116911882B (zh) * 2023-09-13 2023-11-21 国任财产保险股份有限公司 一种基于机器学习的保险防欺诈预测方法及系统
CN117455660A (zh) * 2023-12-25 2024-01-26 浙江邦盛科技股份有限公司 一种金融实时安全检测系统、方法、设备及存储介质
CN117455660B (zh) * 2023-12-25 2024-05-24 浙江邦盛科技股份有限公司 一种金融实时安全检测系统、方法、设备及存储介质

Similar Documents

Publication Publication Date Title
CN112053223A (zh) 一种基于ga-svm算法的互联网金融欺诈行为检测方法
CN110009479B (zh) 信用评价方法及装置、存储介质、计算机设备
Arora et al. A Bolasso based consistent feature selection enabled random forest classification algorithm: An application to credit risk assessment
Tang et al. A pruning neural network model in credit classification analysis
Chen et al. A population-based incremental learning approach with artificial immune system for network intrusion detection
CN112070125A (zh) 一种基于孤立森林学习的不平衡数据集的预测方法
CN112700324A (zh) 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法
Zhang et al. Improving prediction accuracy for logistic regression on imbalanced datasets
CN111833175A (zh) 基于knn算法的互联网金融平台申请欺诈行为检测方法
CN110930038A (zh) 一种贷款需求识别方法、装置、终端及存储介质
CN111192133A (zh) 用户贷后风险模型生成方法、装置及电子设备
Subramanian et al. Ensemble variable selection for Naive Bayes to improve customer behaviour analysis
CN114202336A (zh) 一种金融场景下的风险行为监测方法及系统
CN111062806B (zh) 个人金融信用风险评价方法、系统和存储介质
Owusu et al. A deep learning approach for loan default prediction using imbalanced dataset
Tsai et al. Data pre-processing by genetic algorithms for bankruptcy prediction
CN113535964A (zh) 企业分类模型智能构建方法、装置、设备及介质
CN112819256A (zh) 一种基于注意力机制的卷积时序房价预测方法
CN116304518A (zh) 用于信息推荐的异质图卷积神经网络模型构建方法及系统
CN113723514B (zh) 一种基于混合采样的安全接入日志数据平衡处理方法
Chen et al. Hybrid genetic algorithm and learning vector quantization modeling for cost-sensitive bankruptcy prediction
Nureni et al. Loan approval prediction based on machine learning approach
Xiong et al. L-RBF: A customer churn prediction model based on lasso+ RBF
Ding et al. Credit scoring using ensemble classification based on variable weighting clustering
Irawan et al. Accounts Receivable Seamless Prediction for Companies by Using Multiclass Data Mining Model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination