CN113239638A - 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法 - Google Patents
一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法 Download PDFInfo
- Publication number
- CN113239638A CN113239638A CN202110728489.4A CN202110728489A CN113239638A CN 113239638 A CN113239638 A CN 113239638A CN 202110728489 A CN202110728489 A CN 202110728489A CN 113239638 A CN113239638 A CN 113239638A
- Authority
- CN
- China
- Prior art keywords
- dragonfly
- data
- behavior
- kernel function
- support vector
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 241000238633 Odonata Species 0.000 title claims abstract description 177
- 238000012706 support-vector machine Methods 0.000 title claims abstract description 93
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 73
- 238000000034 method Methods 0.000 title claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000005457 optimization Methods 0.000 claims abstract description 38
- 238000012360 testing method Methods 0.000 claims abstract description 19
- 238000013058 risk prediction model Methods 0.000 claims abstract description 11
- 230000000694 effects Effects 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 155
- 239000013598 vector Substances 0.000 claims description 89
- 230000006399 behavior Effects 0.000 claims description 81
- 238000000926 separation method Methods 0.000 claims description 34
- 230000014509 gene expression Effects 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 14
- 230000002431 foraging effect Effects 0.000 claims description 12
- 239000002245 particle Substances 0.000 claims description 10
- 238000004364 calculation method Methods 0.000 claims description 9
- 230000019637 foraging behavior Effects 0.000 claims description 9
- 230000002068 genetic effect Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 8
- 230000003068 static effect Effects 0.000 claims description 7
- 230000009471 action Effects 0.000 claims description 6
- 230000002776 aggregation Effects 0.000 claims description 6
- 238000004220 aggregation Methods 0.000 claims description 6
- 238000013145 classification model Methods 0.000 claims description 6
- 238000013508 migration Methods 0.000 claims description 6
- 230000005012 migration Effects 0.000 claims description 6
- 230000004083 survival effect Effects 0.000 claims description 6
- 230000003044 adaptive effect Effects 0.000 claims description 5
- 238000011156 evaluation Methods 0.000 claims description 4
- 230000010355 oscillation Effects 0.000 claims description 4
- 230000002159 abnormal effect Effects 0.000 claims description 3
- 230000001133 acceleration Effects 0.000 claims description 3
- 238000011835 investigation Methods 0.000 claims description 3
- 239000011159 matrix material Substances 0.000 claims description 3
- 238000007781 pre-processing Methods 0.000 claims description 3
- 238000005295 random walk Methods 0.000 claims description 3
- 230000009466 transformation Effects 0.000 claims description 3
- 230000007547 defect Effects 0.000 abstract description 3
- 238000012545 processing Methods 0.000 abstract description 2
- 238000013210 evaluation model Methods 0.000 abstract 1
- 238000013528 artificial neural network Methods 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000005034 decoration Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000000977 initiatory effect Effects 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F30/00—Computer-aided design [CAD]
- G06F30/20—Design optimisation, verification or simulation
- G06F30/27—Design optimisation, verification or simulation using machine learning, e.g. artificial intelligence, neural networks, support vector machines [SVM] or training a model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2411—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/004—Artificial life, i.e. computing arrangements simulating life
- G06N3/006—Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Finance (AREA)
- Software Systems (AREA)
- Accounting & Taxation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Computational Linguistics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Medical Informatics (AREA)
- Computer Hardware Design (AREA)
- Geometry (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,包括以下的步骤:首先,抽取建模样本,获取客户数据作为建模指标体系,所述客户数据包括正负标签和影响还款表现的信用数据;然后对信用数据进行标准化处理,划分训练集样本和测试集样本;根据建模样本的数据特征,建立多核支持向量机的逾期风险预测模型;采用蜻蜓算法优化多核支持向量机参数,然后训练集输入到预测模型完成训练;将测试集数据输入到训练优化后的预测模型,检验评估模型的效果。本文提出蜻蜓算法优化多核支持向量机的参数组合,克服多核支持向量机精度不高、容噪能力差、模型参数设定难度大等缺点,实现实时申请客户逾期风险预测在线预测。
Description
技术领域
本发明涉及互联网金融行业的风控技术领域,具体为一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法。
背景技术
互联网、大数据和人工智能等技术正引发金融行业的深刻变革,随着大数据时代的来临,金融行业数据量日益增大,数据类型越来越多,数据更新速度日益加快,这为金融机构的个人信用风险评估工作带来了挑战,传统的个人信用风险评估方式已经无法适应环境的不断变化,无法满足金融行业的发展需要,因此迫切需要构建一套智能的信用风险评估体系,进而帮助金融机构进行贷款审批决策。
目前,常用的信用风险评估方法主要有专家系统、逻辑回归、决策树、神经网络等。但神经网络具有结构一般较难确定、算法收敛速度慢,并极易导致过拟合问题,采用人工神经网络的实时信用预测方法,易使预测模型产生过度拟合的现象,影响模型的预测性能。基于支持向量机的预测方法尽管克服了人工神经网络预测方法中所存在的泛化能力较差、收敛慢等缺点,但传统的支持向量机只采用一个核函数,不足以解决一些涉及多个不同数据源的复杂问题.由于信用评估数据维数较多、数据较大,导致重建模型精度较差、泛化和学习能力较弱。如何增强重建精度、提高模型学习能力和泛化能力是相关学者研究的重点。
多核支持向量机(Multi-Kernel SupportVectorMachine,MKSVM)在传统单核SVM的基础上,将SVM的单一核函数映射变为多核函数自适应映射,继承了传统单核SVM的泛化推广能力和自学习能力,避免了高维分布可能存在不平坦的数据的情况,改善了模型的预测能力。
但多核支持向量机的预测性能受权重因子λ、惩罚参数C、核函数参数σ和多项式核函数参数d影响,一般情况下,这些参数均根据经验直接设置,现有一些研究人员尝试采用一些智能算法,如遗传算法、粒子群算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,但在寻优过程中均存在易陷入局部最优、反复震荡等问题,如何寻找到最优经验参数是发挥其最佳的学习分类能力的关键。因此,针对上述问题提出一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法。
发明内容
本发明的目的在于提供一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,包括以下六个步骤:
S1、抽取建模样本,确定表现期和正负样本比例,抽取建模样本客户,获取客户数据作为建模指标体系,所述客户数据包括正负标签和影响还款表现的信用数据;
S2、数据预处理,对信用数据进行标准化处理,提取特征向量,对数据进行归一化处理,按时间顺序划分训练集数据和测试集数据;
S3、根据建模样本的数据特征,由多项式核函数和径向基RBF核函数构成的组合多核函数,建立多核支持向量机的逾期风险预测模型;
S4、基于训练集数据,采用蜻蜓算法优化多核支持向量机,包括多核SVM的权重因子λ、惩罚参数C、核函数参数σ和d,得到最优的预测模型,然后训练集输入到预测模型完成训练;
S5、将测试集数据输入到训练优化后的预测模型,检验模型的有效性和可靠性,并以模型精度评价指标与遗传算法、粒子群算法优化的模型进行对比与评价;
S6、将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
优选的,在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,在S1中,信用数据包括:个人信息、贷款信息和操作埋点数据,采集的个人信息数据包括客户号、性别、出生日期、联系方式、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等;贷款信息数据分为已有贷款及申请贷款信息,主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度;借款人信用状况包括:成功贷款次数、还款次数、申请贷款次数、逾期次数;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
优选的,在S2中,获取数据后,首先对数据质量进行检验。包括:用户编号的唯一性、样本完整性、变量的范围和取值、缺失值、异常值等,对原始数据进行预处理,剔除错误数据;其次,输入数据的量纲和取值范围不同,需先对数据进行归一化处理,计算公式如下:
优选的,在S3中,多核支持向量机(Multi_Kernel SupportVector Machine,MKSVM)将SVM的单一核函数映射变为多核函数自适应映射,综合了全局核函数和局部核函数的性能,可弥补单一核函数各自的局限性,具有更优的鲁棒性,可进一步提高预测的精度。具体步骤如下:
对于给定的训练样本集S={(x1,y1),…,(xi,yi)},其中xi∈Rn为输入向量,yi∈{+1,-1}为对应的输出值,利用核函数进行空间变换,将非线性问题转化为线性可分问题,利用SVM中核方法在特征空间构建最优决策函数:
在引入损失函数的基础上,寻找一个如下的回归超平面函数:
f(x)=ω·x+b
其中,ω·x表示为内积运算,ω为权值系数向量,b为偏移量。
S31、目标函数最优化问题
为了确定ω、b值,通过最小化正则风险函数原则,引入拉格朗日乘子转化为求目标函数最优化问题:
其中,xi为支持向量,x为测试样本;αi和b是通过样本学习所获得的系数,αi为拉格朗日乘子乘子,b为偏置系数,K(xi,xj)为核函数。
S32、组合多核核函数
常用的核函数有线性核函数、多项式核函数、径向基核函数以及sigmoid核函数。表达式分别如下:
线性核函数K(xi,xj)=(xi,xj)
多项式核函数K(xi,xj)=[(xi,xj)+1]d
Sigmoid核函数K(xi,xj)=tanh(β0(xi,xj)+β1)
其中,径向基核函数是局部核函数,具有较好的学习能力,但泛化推广能力较弱;线性核函数、sigmoid核函数及多项式核函数是全局核函数,具有较好的泛化推广能力,但学习能力较弱。。
为了充分利用先验知识选择合适的核函数,本申请采用具有局部特性的径向基核函数和具有全局特性的多项式核函数以加权求和方式构造适应不同样本输入的多核核函数:
Kmix(xi,xj)=λKpoly(xi,xj)+(1-λ)KRBF(xi,xj)
其中,xi和xj为输入空间的特征向量;Kpoly和KRBF分别为多项式核函数和径向基核函数;λ(0<λ<1)为权重因子。
通过调节权重因子λ,使多核核函数适应不同的样本输入,即在核函数的选择过程中,融入了对具体问题的先验知识,充分利用先验知识选择合适的权重因子,兼具学习能力与泛化能力。
S33、多核支持向量机输出
根据多核核函数,多核支持向量机输出为:
其中,x为分类模型输入数据,f(x)为分类模型的输出数据,取值为1或-1;yi为训练集的标签数据;l为指标集中训练样本个数,αi为拉格朗日乘子,Kpoly和KRBF分别为多项式核函数和径向基核函数。
由上述的输出公式可知,多核支持向量机的预测性能受权重因子λ、惩罚参数c、径向基核函数参数σ和多项式核函数参数d影响,一般情况下,这些参数均根据经验直接设置,现有一些研究人员尝试采用一些智能算法,如遗传算法、粒子群算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,但在寻优过程中均存在易陷入局部最优、反复震荡等问题,如何寻找到最优经验参数是发挥其最佳的学习分类能力的关键。
优选的,在S4中,蜻蜓算法(DragonflyAlgorithm,DA)是受蜻蜓觅食行为和迁移行为启发的一种新型群智能优化算法,可实现全局和局部搜索。本文提出蜻蜓算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,具体步骤如下:
S41、初始化蜻蜓算法参数,与多核支持向量机编码
初始化蜻蜓算法参数包括:随机初始化蜻蜓的个数N、蜻蜓的位置向量X、步长向量ΔH、邻域半径R,惯性权重ω,分离权重s,对齐权重a,内聚权重c,食物吸引权重f,天敌排斥权重e,最大迭代次数Tmax、将蜻蜓个体的位置信息依次赋值给惩罚系数γ和核系数σ,每个蜻蜓个体对应多核支持向量机的一组参数组合[λ,C,σ,d]。
S42、分离行为
自然界蜻蜓的静态和动态群集行为,通过聚集、觅食和避敌等静态群来进行局部搜索觅食,通过分离、聚集和排队等动态群来进行大范围的迁徙。
分离行为是指避免个避免蜻蜓群体周围个体之间相互碰撞,尽量避免相邻蜻蜓向量所表示的路径选择方式存在一致性,每个独立的蜻蜓个体与其所相邻个体的分离情况,分离行为的数学表达式如下所示:
其中,Si是第i个蜻蜓个体分离行为的位置向量;N是相邻蜻蜓个体的个数;x是当前个体所在位置;xj是第j个邻近个体所在位置。
S42、排队行为
排队行为是指每个蜻蜓个体在飞行时与相邻个体之间的保持一致的飞行速度,即蜻蜓向量的路径选择方式朝着相同的趋势发展,排队行为的数学表达式如下所示:
其中,Ai是第i个蜻蜓个体排队行为的位置向量;N是相邻蜻蜓个体的个数;Vj是第j只相邻的蜻蜓个体的速度。
S43、结盟行为
结盟行为指蜻蜓个体与相邻的其它蜻蜓彼此凑到一起的聚拢行为,即蜻蜓向量的路径选择最终会趋向于相同的最优解,结盟行为的的数学表达式如下所示:
其中,Ci是第i个蜻蜓个体结盟行为的位置向量;N是相邻蜻蜓个体的个数;xj是第j个邻近个体所在位置;x是当前个体所在位置。
S44、觅食行为
觅食行为指每个蜻蜓个体为生存寻找猎物的行为,即蜻蜓向量的路径选择尽量接近最优的选择,寻找猎物行为的数学表达式如下所示:
F=X+-X
其中,Fi是第i个蜻蜓个体猎食行为的位置向量;X+为食物源所在位置。
S45、避敌行为
蜻蜓个体出于生存的本能,需时刻躲避天敌的行为,即蜻蜓向量的路径选择避免接近最差的选择,避敌行为的数学表达式如下所示:
Ei=X-X-
其中,Ei是第i个蜻蜓个体逃避天敌行为的位置向量;X-为天敌所在的位置。
S46、更新蜻蜓位置向量Si,Ai,Ci,Fi,Ei
蜻蜓在完成分离、排队、结盟、觅食、避敌等五种行为后,食物源所在位置和天敌所在位置是迭代至目前发现的最优解和最差解。
为了在搜索空间里更新蜻蜓的位置和模拟它们的飞行,还设置了两个向量:步长向量和位置向量,步长(ΔX)是蜻蜓在搜索空间中运动的方向向量,位置(X)是蜻蜓在搜索空间中的位置向量,对步长和位置进行更迭变换提高搜索效率。
蜻蜓的步长向量表达式如下:
ΔXt+1=(sSi+aAi+cCi+fFi+eEi)+ωΔXt
其中,t是当前迭代次数,△X、△Xt+1分别表示当前和下一代种群位置更新步长;s表示分离度权重;Si表示第i个个体的分离度;a表示对齐度权重;Ai表示第i个个体的对齐度;c表示内聚度权重;Ci表示第i个个体的内聚度;f表示食物因子;Fi表示食物位置对第i个个体的吸引力;e表示天敌因子;Ei表示天敌位置对第i个个体的排斥力;ω表示惯性权重。
为了达到算法的局部搜索和全局搜索的平衡,权重(s,a,c,f,e,ω)在优化过程中自适应地调整,权重值完成更新后,计算出蜻蜓的各个行为度计算出猎物吸引力F、对齐度A、内聚度C、分离度S、外敌排斥力E,并更新位置X与方向向量△X。
S47、更新蜻蜓个体所处位置的向量
蜻蜓算法对蜻蜓个体的位置向量进行更新,更新蜻蜓个体所处位置的向量数学表达式如下所示:
Xt+1=Xt+ΔXt+1
其中,Xt为当前的迭代次数种群中蜻蜓所处位置;Xt+1为当前的迭代次数的下一代种群中的蜻蜓所处位置。
S48、引入Lévy飞行提高搜索效率
蜻蜓算法在寻优的过程中,对每个个体的邻近个体数量的计算是非常重要的,因此这里假定一个邻域半径,该半径随迭代次数的增加而成比例地增长,当两个蜻蜓之间的欧氏距离小于邻域半径,蜻蜓个体周围没有临近解,则引入Lévy飞行的随机游走方法更新蜻蜓位置,进而提高蜻蜓搜索时的随机性,此时行走的步长满足如下:
无临近蜻蜓时
Xt+1=Xt+Le′vy(d)×Xt+1
其中,t是当前迭代次数;d是位置向量的维度;Lévy是莱维函数,表达式如下:
其中,r1和r2是[0,1]内的随机数,β是一个常数(一般设定为2),且
其中,Γ为Gamma函数,x为函数自变量,θ为积分变量。
S49、迭代寻优
在完成分离、排队、结盟、觅食、避敌等五种行为后,引入Lévy飞行找到食物源所在位置所在位置,不断迭代至预定的最大迭代次数,即为最优解,解码得到多核支持向量机的最优参数组合[λ,C,σ,d]。
优选的,在步骤S5中,训练样本根据实际和预测结果比较,得到混淆矩阵,可计算以下各指标的值,召回率(Recall)、精确率(Precision)、F1值,计算公式如下:
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
F1=2*(Precision*Recall)/(Recall+Precision)
其中,TP:客户本身是坏人,模型判断为坏人;FN:客户本身是坏人,模型判断为好人;FP:客户本身是好人,模型判断为坏人。
在互联网信贷场景中,模型预测风险系数最高的一批客户的真实表现,也就是模型预测为坏人的客户中有多少是真的坏人是验证模型效果的指标。召回率(Recall)定义为模型判断出来的真正的坏人,占全部样本中坏人的比例;精确率(Precision)定义为在模型判断出来的坏人中,其中属于真正的坏人的比例;精确率和召回率是相互影响的,理想情况下两者都高,在两者都要求高的情况下,综合衡量召回率和精确率就用F1值,计算每个模型的Precision、Recall以及F1,来进行不同模型之间效果的对比。
优选的,在S5中,将测试集输入训练好的多核支持向量机模型进行测试,验证模型的预测精度,若未达到设定预测精度则重新优化多核支持向量机的参数组合,并再次进行预测,如此反复迭代,直至达到精度要求,输出最优的预测模型。
优选的,在S6中,将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
与现有技术相比,本发明的有益效果是:
1、多核支持向量机学习过程中综合了全局核函数和局部核函数的性能,使核函数同时具有泛化能力和学习能力,分类精度对明显提高,学习能力强,对样本数据的可解释性高于单核;
2、蜻蜓算法利用静态群保持种群的多样性,解决了局部最优问题,利用动态群进行搜索空间的扩张,使算法逼近全局最优解。
3、本文提出用擅长全局搜索和对初始值没有依赖的蜻蜓算法对多核支持向量机进行超参数寻优,克服已有的精度不高、容噪能力差、模型参数设定难度大的不足,实现实时申请客户信用评估在线预测。
附图说明
图1为本发明流程图;
图2为本发明对比实验图。
具体实施方式
请参阅图1,本发明提供一种技术方案:
一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,包括以下六个步骤:
S1、抽取建模样本,确定表现期和正负样本比例,抽取建模样本客户,获取客户数据作为建模指标体系,所述客户数据包括正负标签和影响还款表现的信用数据;
S2、数据预处理,对信用数据进行标准化处理,提取特征向量,对数据进行归一化处理,按时间顺序划分训练集数据和测试集数据;
S3、根据建模样本的数据特征,由多项式核函数和径向基RBF核函数构成的组合多核函数,建立多核支持向量机的逾期风险预测模型;
S4、基于训练集数据,采用蜻蜓算法优化多核支持向量机,包括多核SVM的权重因子λ、惩罚参数C、核函数参数σ和d,得到最优的预测模型,然后训练集输入到预测模型完成训练;
S5、将测试集数据输入到训练优化后的预测模型,检验模型的有效性和可靠性,并以模型精度评价指标与遗传算法、粒子群算法优化的模型进行对比与评价;
S6、将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,在S1中,信用数据包括:个人信息、贷款信息和操作埋点数据,采集的个人信息数据包括客户号、性别、出生日期、联系方式、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等;贷款信息数据分为已有贷款及申请贷款信息,主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度;借款人信用状况包括:成功贷款次数、还款次数、申请贷款次数、逾期次数;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
在S2中,获取数据后,首先对数据质量进行检验。包括:用户编号的唯一性、样本完整性、变量的范围和取值、缺失值、异常值等,对原始数据进行预处理,剔除错误数据;其次,输入数据的量纲和取值范围不同,需先对数据进行归一化处理,计算公式如下:
在S3中,多核支持向量机(Multi_Kernel SupportVectorMachine,MKSVM)将SVM的单一核函数映射变为多核函数自适应映射,综合了全局核函数和局部核函数的性能,可弥补单一核函数各自的局限性,具有更优的鲁棒性,可进一步提高预测的精度。具体步骤如下:
对于给定的训练样本集S={(x1,y1),…,(xi,yi)},其中xi∈Rn为输入向量,yi∈{+1,-1}为对应的输出值,利用核函数进行空间变换,将非线性问题转化为线性可分问题,利用SVM中核方法在特征空间构建最优决策函数:
在引入损失函数的基础上,寻找一个如下的回归超平面函数:
f(x)=ω·x+b
其中,ω·x表示为内积运算,ω为权值系数向量,b为偏移量。
S31、目标函数最优化问题
为了确定ω、b值,通过最小化正则风险函数原则,引入拉格朗日乘子转化为求目标函数最优化问题:
其中,xi为支持向量,x为测试样本;αi和b是通过样本学习所获得的系数,αi为拉格朗日乘子乘子,b为偏置系数,K(xi,xj)为核函数。
S32、组合多核核函数
常用的核函数有线性核函数、多项式核函数、径向基核函数以及sigmoid核函数。表达式分别如下:
线性核函数K(xi,xj)=(xi,xj)
多项式核函数K(xi,xj)=[(xi,xj)+1]d
Sigmoid核函数K(xi,xj)=tanh(β0(xi,xj)+β1)
其中,径向基核函数是局部核函数,具有较好的学习能力,但泛化推广能力较弱;线性核函数、sigmoid核函数及多项式核函数是全局核函数,具有较好的泛化推广能力,但学习能力较弱。。
为了充分利用先验知识选择合适的核函数,本申请采用具有局部特性的径向基核函数和具有全局特性的多项式核函数以加权求和方式构造适应不同样本输入的多核核函数:
Kmix(xi,xj)=λKpoly(xi,xj)+(1-λ)KRBF(xi,xj)
其中,xi和xj为输入空间的特征向量;Kpoly和KRBF分别为多项式核函数和径向基核函数;λ(0<λ<1)为权重因子。
通过调节λ,使多核核函数适应不同的样本输入,即在核函数的选择过程中,融入了对具体问题的先验知识,充分利用先验知识选择合适的权重因子,兼具学习能力与泛化能力。
S33、多核支持向量机输出
根据多核核函数,多核支持向量机输出为:
其中,x为分类模型输入数据,f(x)为分类模型的输出数据,取值为1或-1;yi为训练集的标签数据;l为指标集中训练样本个数,αi为拉格朗日乘子,Kpoly和KRBF分别为多项式核函数和径向基核函数。
由上述的输出公式可知,多核支持向量机的预测性能受权重因子λ、惩罚参数C、高斯核函数参数σ和多项式核函数参数d影响,一般情况下,这些参数均根据经验直接设置,现有一些研究人员尝试采用一些智能算法,如遗传算法、粒子群算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,但在寻优过程中均存在易陷入局部最优、反复震荡等问题,如何寻找到最优经验参数是发挥其最佳的学习分类能力的关键。
优选的,在S4中,蜻蜓算法(DragonflyAlgorithm,DA)是受蜻蜓觅食行为和迁移行为启发的一种新型群智能优化算法,可实现全局和局部搜索。本文提出蜻蜓算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,具体步骤如下:
S41、初始化蜻蜓算法参数,与多核支持向量机编码
初始化蜻蜓算法参数包括:随机初始化蜻蜓的个数N、蜻蜓的位置向量X、步长向量ΔH、邻域半径R,惯性权重ω,分离权重s,对齐权重a,内聚权重c,食物吸引权重f,天敌排斥权重e。最大迭代次数Tmax、将蜻蜓个体的位置信息依次赋值给惩罚系数γ和核系数σ,每个蜻蜓个体对应多核支持向量机的一组参数组合[λ,C,σ,d]。
S42、分离行为
自然界蜻蜓的静态和动态群集行为,通过聚集、觅食和避敌等静态群来进行局部搜索觅食,通过分离、聚集和排队等动态群来进行大范围的迁徙。
分离行为是指避免个避免蜻蜓群体周围个体之间相互碰撞,尽量避免相邻蜻蜓向量所表示的路径选择方式存在一致性,每个独立的蜻蜓个体与其所相邻个体的分离情况,分离行为的数学表达式如下所示:
其中,Si是第i个蜻蜓个体分离行为的位置向量;N是相邻蜻蜓个体的个数;x是当前个体所在位置;xj是第j个邻近个体所在位置。
S42、排队行为
排队行为是指每个蜻蜓个体在飞行时与相邻个体之间的保持一致的飞行速度,即蜻蜓向量的路径选择方式朝着相同的趋势发展,排队行为的数学表达式如下所示:
其中,Ai是第i个蜻蜓个体排队行为的位置向量;N是相邻蜻蜓个体的个数;Vj是第j只相邻的蜻蜓个体的速度。
S43、结盟行为
结盟行为指蜻蜓个体与相邻的其它蜻蜓彼此凑到一起的聚拢行为,即蜻蜓向量的路径选择最终会趋向于相同的最优解,结盟行为的的数学表达式如下所示:
其中,Ci是第i个蜻蜓个体结盟行为的位置向量;N是相邻蜻蜓个体的个数;xj是第j个邻近个体所在位置;x是当前个体所在位置。
S44、觅食行为
觅食行为指每个蜻蜓个体为生存寻找猎物的行为,即蜻蜓向量的路径选择尽量接近最优的选择,寻找猎物行为的数学表达式如下所示:
F=X+-X
其中,Fi是第i个蜻蜓个体猎食行为的位置向量;X+为食物源所在位置。
S45、避敌行为
蜻蜓个体出于生存的本能,需时刻躲避天敌的行为,即蜻蜓向量的路径选择避免接近最差的选择,避敌行为的数学表达式如下所示:
Ei=X-X-
其中,Ei是第i个蜻蜓个体逃避天敌行为的位置向量;X-为天敌所在的位置。
S46、更新蜻蜓位置向量Si,Ai,Ci,Fi,Ei
蜻蜓在完成分离、排队、结盟、觅食、避敌等五种行为后,食物源所在位置和天敌所在位置是迭代至目前发现的最优解和最差解。
为了在搜索空间里更新蜻蜓的位置和模拟它们的飞行,还设置了两个向量:步长向量和位置向量,步长(ΔX)是蜻蜓在搜索空间中运动的方向向量,位置(X)是蜻蜓在搜索空间中的位置向量,对步长和位置进行更迭变换提高搜索效率。
蜻蜓的步长向量表达式如下:
ΔXt+1=(sSi+aAi+cCi+fFi+eEi)+ωΔXt
其中,t是当前迭代次数,△X、△Xt+1分别表示当前和下一代种群位置更新步长;s表示分离度权重;Si表示第i个个体的分离度;a表示对齐度权重;Ai表示第i个个体的对齐度;c表示内聚度权重;Ci表示第i个个体的内聚度;f表示食物因子;Fi表示食物位置对第i个个体的吸引力;e表示天敌因子;Ei表示天敌位置对第i个个体的排斥力;ω表示惯性权重。
为了达到算法的局部搜索和全局搜索的平衡,权重(s,a,c,f,e,ω)在优化过程中自适应地调整,权重值完成更新后,计算出蜻蜓的各个行为度计算出猎物吸引力F、对齐度A、内聚度C、分离度S、外敌排斥力E,并更新位置X与方向向量△X。
S47、更新蜻蜓个体所处位置的向量
蜻蜓算法对蜻蜓个体的位置向量进行更新,更新蜻蜓个体所处位置的向量数学表达式如下所示:
Xt+1=Xt+ΔXt+1
其中,Xt为当前的迭代次数种群中蜻蜓所处位置;Xt+1为当前的迭代次数的下一代种群中的蜻蜓所处位置。
S48、引入Lévy飞行提高搜索效率
蜻蜓算法在寻优的过程中,对每个个体的邻近个体数量的计算是非常重要的,因此这里假定一个邻域半径,该半径随迭代次数的增加而成比例地增长,当两个蜻蜓之间的欧氏距离小于邻域半径,蜻蜓个体周围没有临近解,则引入Lévy飞行的随机游走方法更新蜻蜓位置,进而提高蜻蜓搜索时的随机性,此时行走的步长满足如下:
无临近蜻蜓时
Xt+1=Xt+Le′vy(d)×Xt+1
其中,t是当前迭代次数;d是位置向量的维度;Lévy是莱维函数,表达式如下:
其中,r1和r2是[0,1]内的随机数,β是一个常数(一般设定为2),且
其中,Γ为Gamma函数,x为函数自变量,θ为积分变量。
S49、迭代寻优
在完成分离、排队、结盟、觅食、避敌等五种行为后,引入Lévy飞行找到食物源所在位置所在位置,不断迭代至预定的最大迭代次数,即为最优解,解码得到多核支持向量机的最优参数组合[λ,C,σ,d]。
优选的,在步骤S5中,训练样本根据实际和预测结果比较,得到混淆矩阵,可计算以下各指标的值,召回率(Recall)、精确率(Precision)、F1值,计算公式如下:
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
F1=2*(Precision*Recall)/(Recall+Precision)
其中,TP:客户本身是坏人,模型判断为坏人;FN:客户本身是坏人,模型判断为好人;FP:客户本身是好人,模型判断为坏人。
在互联网信贷场景中,模型预测风险系数最高的一批客户的真实表现,也就是模型预测为坏人的客户中有多少是真的坏人是验证模型效果的指标。召回率(Recall)定义为模型判断出来的真正的坏人,占全部样本中坏人的比例;精确率(Precision)定义为在模型判断出来的坏人中,其中属于真正的坏人的比例;精确率和召回率是相互影响的,理想情况下两者都高,在两者都要求高的情况下,综合衡量召回率和精确率就用F1值,计算每个模型的Precision、Recall以及F1,来进行不同模型之间效果的对比。
为了验证蜻蜓算法优化多核支持向量机的优越性,分别用原始多核支持向量机、遗传算法(GA)优化、粒子群算法(PSO)优化与蜻蜓算法(DA)优化多核支持向量机的性能对比得到MKSVM、GA-MKSVM、PSO-MKSVM、DA-MKSVM中,种群的最大迭代次数为200,种群规模为20,惩罚参数C范围(0,100],核参数σ范围(0,100];设置遗传算法(GA)的交叉概率为0.8,变异概率为0.05。粒子群算法(PSO)更新速度c1取1.49445,更新速度c2取0.5,粒子最大速度取0.5,最小速度取-0.5;蜻蜓算法(DA)种群规模设为40,最大迭代次数设为20,解向量搜索区间为[-1,1],惯性权重ω、分离权重s、对齐权重a、内聚权重c、食物吸引权重f和天敌排斥权重e均为自适应线性递减权重,其最小值为0.4,最大值为0.9。
蜻蜓算法(DA)在实验中都获得了比GA和PSO更高的Precision、Recall和F-Score值,表现出极好的搜索能力和稳定性。
在S5中,将测试集输入训练好的多核支持向量机模型进行测试,验证模型的预测精度,若未达到设定预测精度则重新优化多核支持向量机的参数组合,并再次进行预测,如此反复迭代,直至达到精度要求,输出最优的预测模型。
在S6中,将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
本专利还提供一种蜻蜓算法优化多核支持向量机的逾期风险预测系统,包括以下模块:
数据获取处理模块,用于获取逾期风险预测模型建模样本,对数据进行标准化处理,提取特征向量,对数据进行归一化处理,并将其划分为训练集和测试集;
模型训练模块,用于取得支持向量机模型的最优结构参数,建立多核支持向量机逾期预测模型,由多项式核函数和径向基RBF核函数构成的组合核,采用训练集对构建的模型进行训练,直到达到停止条件;
模型优化模块,用于蜻蜓算法优化多喝支持向量机模型的最优结构参数,得到最优的预测模型,然后训练集输入到预测模型完成训练;
模型验证模块,用于测试集数据输入到训练优化后的预测模型,检验模型的有效性和可靠性;
模型预测模块,用于获取实时申请客户的数据并将作为待测样本导入预测模型中输出违约概率预测结果;
模型更新模块,用于模型的在线更新,定期将逾期客户的数据输入到训练集中,更新逾期概率预测模型。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。
Claims (8)
1.一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,包括以下六个步骤:
S1、抽取建模样本,确定表现期和正负样本比例,抽取建模样本客户,获取客户数据作为建模指标体系,所述客户数据包括正负标签和影响还款表现的信用数据;
S2、数据预处理,对信用数据进行标准化处理,提取特征向量,对数据进行归一化处理,按时间顺序划分训练集数据和测试集数据;
S3、根据建模样本的数据特征,由多项式核函数和径向基RBF核函数构成的组合多核函数,建立多核支持向量机的逾期风险预测模型;
S4、基于训练集数据,采用蜻蜓算法优化多核支持向量机,包括多核SVM的权重因子λ、惩罚参数C、核函数参数σ和d,得到最优的预测模型,然后训练集输入到预测模型完成训练;
S5、将测试集数据输入到训练优化后的预测模型,检验模型的有效性和可靠性,并以模型精度评价指标与遗传算法、粒子群算法优化的模型进行对比与评价;
S6、将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
2.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,在S1中,信用数据包括:个人信息、贷款信息和操作埋点数据,采集的个人信息数据包括客户号、性别、出生日期、联系方式、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等;贷款信息数据分为已有贷款及申请贷款信息,主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度;借款人信用状况包括:成功贷款次数、还款次数、申请贷款次数、逾期次数;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
4.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S3中,多核支持向量机(Multi_Kernel Support VectorMachine,MKSVM)将SVM的单一核函数映射变为多核函数自适应映射,综合了全局核函数和局部核函数的性能,可弥补单一核函数各自的局限性,具有更优的鲁棒性,可进一步提高预测的精度。具体步骤如下:
对于给定的训练样本集S={(x1,y1),…,(xi,yi)},其中xi∈Rn为输入向量,yi∈{+1,-1}为对应的输出值,利用核函数进行空间变换,将非线性问题转化为线性可分问题,利用SVM中核方法在特征空间构建最优决策函数:
在引入损失函数的基础上,寻找一个如下的回归超平面函数:
f(x)=ω·x+b
其中,ω·x表示为内积运算,ω为权值系数向量,b为偏移量。
S31、目标函数最优化问题
为了确定ω、b值,通过最小化正则风险函数原则,引入拉格朗日乘子转化为求目标函数最优化问题:
其中,xi为支持向量,x为测试样本;αi和b是通过样本学习所获得的系数,αi为拉格朗日乘子乘子,b为偏置系数;K(xi,xj)为核函数。
S32、组合多核核函数
常用的核函数有径向基核函数、线性核函数、多项式核函数及sigmoid核函数,表达式分别如下:
线性核函数K(xi,xj)=(xi,xj)
多项式核函数K(xi,xj)=[(xi,xj)+1]d
Sigmoid核函数K(xi,xj)=tanh(β0(xi,xj)+β1)
其中,径向基核函数是局部核函数,具有较好的学习能力,但泛化推广能力较弱;线性核函数、sigmoid核函数及多项式核函数是全局核函数,具有较好的泛化推广能力,但学习能力较弱。
为了充分利用先验知识选择合适的核函数,本专利采用具有局部特性的径向基核函数和具有全局特性的多项式核函数以加权求和方式构造适应不同样本输入的多核核函数:
Kmix(xi,xj)=λKpoly(xi,xj)+(1-λ)KRBF(xi,xj)
其中,xi和xj为输入空间的特征向量;Kpoly和KRBF分别为多项式核函数和径向基核函数;λ(0<λ<1)为权重因子。
通过调节权重因子λ,使多核核函数适应不同的样本输入,即在核函数的选择过程中,融入了对具体问题的先验知识,充分利用先验知识选择合适的权重因子,兼具学习能力与泛化能力。
S33、多核支持向量机输出
根据多核核函数,多核支持向量机输出为:
其中,x为分类模型输入数据,f(x)为分类模型的输出数据,取值为1或-1;yi为训练集的标签数据;l为指标集中训练样本个数,αi为拉格朗日乘子,Kpoly和KRBF分别为多项式核函数和径向基核函数。
由上述的输出公式可知,多核支持向量机的预测性能受权重因子λ、惩罚参数C、高斯核函数参数σ和多项式核函数的核函数参数d影响,一般情况下,这些参数均根据经验直接设置,现有一些研究人员尝试采用一些智能算法,如遗传算法、粒子群算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,但在寻优过程中均存在易陷入局部最优、反复震荡等问题,如何寻找到最优经验参数是发挥其最佳的学习分类能力的关键。
5.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S4中,蜻蜓算法(Dragonfly Algorithm,DA)是受蜻蜓觅食行为和迁移行为启发的一种新型群智能优化算法,可实现全局和局部搜索。本专利提出蜻蜓算法对多核支持向量机的参数组合[λ,C,σ,d]进行优化,具体步骤如下:
S41、初始化蜻蜓算法参数,与多核支持向量机编码
初始化蜻蜓算法参数包括:随机初始化蜻蜓的个数N、蜻蜓的位置向量X、步长向量ΔH、邻域半径R,惯性权重ω,分离权重s,对齐权重a,内聚权重c,食物吸引权重f,天敌排斥权重e,最大迭代次数Tmax,将蜻蜓个体的位置信息依次赋值给惩罚系数C和核系数σ,每个蜻蜓个体对应多核支持向量机的一组参数组合[λ,C,σ,d]。
S42、分离行为
自然界蜻蜓的静态和动态群集行为,通过聚集、觅食和避敌等静态群来进行局部搜索觅食,通过分离、聚集和排队等动态群来进行大范围的迁徙。
分离行为是指避免个避免蜻蜓群体周围个体之间相互碰撞,尽量避免相邻蜻蜓向量所表示的路径选择方式存在一致性,每个独立的蜻蜓个体与其所相邻个体的分离情况,分离行为的数学表达式如下所示:
其中,Si是第i个蜻蜓个体分离行为的位置向量;N是相邻蜻蜓个体的个数;x是当前个体所在位置;xj是第j个邻近个体所在位置。
S42、排队行为
排队行为是指每个蜻蜓个体在飞行时与相邻个体之间的保持一致的飞行速度,即蜻蜓向量的路径选择方式朝着相同的趋势发展,排队行为的数学表达式如下所示:
其中,Ai是第i个蜻蜓个体排队行为的位置向量;N是相邻蜻蜓个体的个数;Vj是第j只相邻的蜻蜓个体的速度。
S43、结盟行为
结盟行为指蜻蜓个体与相邻的其它蜻蜓彼此凑到一起的聚拢行为,即蜻蜓向量的路径选择最终会趋向于相同的最优解,结盟行为的的数学表达式如下所示:
其中,Ci是第i个蜻蜓个体结盟行为的位置向量;N是相邻蜻蜓个体的个数;xj是第j个邻近个体所在位置;x是当前个体所在位置。
S44、觅食行为
觅食行为指每个蜻蜓个体为生存寻找猎物的行为,即蜻蜓向量的路径选择尽量接近最优的选择,寻找猎物行为的数学表达式如下所示:
F=X+-X
其中,Fi是第i个蜻蜓个体猎食行为的位置向量;X+为食物源所在位置。
S45、避敌行为
蜻蜓个体出于生存的本能,需时刻躲避天敌的行为,即蜻蜓向量的路径选择避免接近最差的选择,避敌行为的数学表达式如下所示:
Ei=X-X-
其中,Ei是第i个蜻蜓个体逃避天敌行为的位置向量;X-为天敌所在的位置。
S46、更新蜻蜓位置向量Si,Ai,Ci,Fi,Ei
蜻蜓在完成分离、排队、结盟、觅食、避敌等五种行为后,食物源所在位置和天敌所在位置是迭代至目前发现的最优解和最差解。
为了在搜索空间里更新蜻蜓的位置和模拟它们的飞行,还设置了两个向量:步长向量和位置向量,步长(ΔX)是蜻蜓在搜索空间中运动的方向向量,位置(X)是蜻蜓在搜索空间中的位置向量,对步长和位置进行更迭变换提高搜索效率。
蜻蜓的步长向量表达式如下:
ΔXt+1=(sSi+aAi+cCi+fFi+eEi)+ωΔXt
其中,t是当前迭代次数;△X、△Xt+1分别表示当前和下一代种群位置更新步长;s表示分离度权重;Si表示第i个个体的分离度;a表示对齐度权重;Ai表示第i个个体的对齐度;c表示内聚度权重;Ci表示第i个个体的内聚度;f表示食物因子;Fi表示食物位置对第i个个体的吸引力;e表示天敌因子;Ei表示天敌位置对第i个个体的排斥力;ω表示惯性权重。
为了达到算法的局部搜索和全局搜索的平衡,权重(s,a,c,f,e,ω)在优化过程中自适应地调整,权重值完成更新后,计算出蜻蜓的各个行为度计算出猎物吸引力F、对齐度A、内聚度C、分离度S、外敌排斥力E,并更新位置X与方向向量△X。
S47、更新蜻蜓个体所处位置的向量
蜻蜓算法对蜻蜓个体的位置向量进行更新,更新蜻蜓个体所处位置的向量数学表达式如下所示:
Xt+1=Xt+ΔXt+1
其中,Xt为当前的迭代次数种群中蜻蜓所处位置;Xt+1为当前的迭代次数的下一代种群中的蜻蜓所处位置。
S48、引入Lévy飞行提高搜索效率
蜻蜓算法在寻优的过程中,对每个个体的邻近个体数量的计算是非常重要的,因此这里假定一个邻域半径,该半径随迭代次数的增加而成比例地增长,当两个蜻蜓之间的欧氏距离小于邻域半径,蜻蜓个体周围没有临近解,则引入Lévy飞行的随机游走方法更新蜻蜓位置,进而提高蜻蜓搜索时的随机性,此时行走的步长满足如下:
无临近蜻蜓时
Xt+1=Xt+Le′vy(d)×Xt+1
其中,t是当前迭代次数;d是位置向量的维度;Lévy是莱维函数,表达式如下:
其中,r1和r2是[0,1]内的随机数,β是一个常数(一般设定为2),且
其中,Γ为Gamma函数,x为函数自变量,θ为积分变量。
S49、迭代寻优
在完成分离、排队、结盟、觅食、避敌等五种行为后,引入Lévy飞行找到食物源所在位置所在位置,不断迭代至预定的最大迭代次数,即为最优解,解码得到多核支持向量机的最优参数组合[λ,C,σ,d]。
6.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在步骤S5中,训练样本根据实际和预测结果比较,得到混淆矩阵,可计算以下各指标的值,召回率(Recall)、精确率(Precision)、F1值,计算公式如下:
Recall=TP/(TP+FN)
Precision=TP/(TP+FP)
F1=2*(Precision*Recall)/(Recall+Precision)
其中,TP:客户本身是坏人,模型判断为坏人;FN:客户本身是坏人,模型判断为好人;FP:客户本身是好人,模型判断为坏人。
在互联网信贷场景中,模型预测风险系数最高的一批客户的真实表现,也就是模型预测为坏人的客户中有多少是真的坏人是验证模型效果的指标。召回率(Recall)定义为模型判断出来的真正的坏人,占全部样本中坏人的比例;精确率(Precision)定义为在模型判断出来的坏人中,其中属于真正的坏人的比例;精确率和召回率是相互影响的,理想情况下两者都高,在两者都要求高的情况下,综合衡量召回率和精确率就用F1值,计算每个模型的Precision、Recall以及F1,来进行不同模型之间效果的对比。
7.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S5中,将测试集输入训练好的多核支持向量机模型进行测试,验证模型的预测精度,若未达到设定预测精度则重新优化多核支持向量机的参数组合,并再次进行预测,如此反复迭代,直至达到精度要求,输出最优的预测模型。
8.根据权利要求1所述的一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法,其特征在于,在S6中,将多核支持向量机逾期风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出逾期风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110728489.4A CN113239638A (zh) | 2021-06-29 | 2021-06-29 | 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110728489.4A CN113239638A (zh) | 2021-06-29 | 2021-06-29 | 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113239638A true CN113239638A (zh) | 2021-08-10 |
Family
ID=77141296
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110728489.4A Pending CN113239638A (zh) | 2021-06-29 | 2021-06-29 | 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113239638A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114564957A (zh) * | 2022-03-03 | 2022-05-31 | 南京烽火星空通信发展有限公司 | 一种基于da_fasttext的文档分类方法 |
CN114580373A (zh) * | 2022-02-22 | 2022-06-03 | 四川大学 | 一种结合文本主题分析、情感分析和gsvm的智慧环保宣教方法 |
CN115379529A (zh) * | 2022-08-22 | 2022-11-22 | 温州理工学院 | 一种节能高效可靠的物联网感知层数据收集方法 |
CN116628425A (zh) * | 2023-06-01 | 2023-08-22 | 常州易宝网络服务有限公司 | 一种大数据实时监控系统及方法 |
CN118349899A (zh) * | 2024-06-18 | 2024-07-16 | 国网山东省电力公司青岛供电公司 | 一种考虑多源异构数据融合的负荷预测方法及系统 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106952183A (zh) * | 2017-04-24 | 2017-07-14 | 武汉大学 | 一种基于粒子群优化最小二乘支持向量机的短期负荷预测方法 |
CN106960260A (zh) * | 2017-03-27 | 2017-07-18 | 深圳汇创联合自动化控制有限公司 | 一种便于电力调度的风电功率预测系统 |
CN107240097A (zh) * | 2017-06-27 | 2017-10-10 | 长春工业大学 | 基于mkl‑svm‑pso算法的肺结节图像处理方法 |
CN109507887A (zh) * | 2018-12-28 | 2019-03-22 | 浙江大学 | 模糊神经网络结合群智能寻优的工业熔融指数软测量方法 |
CN110705681A (zh) * | 2019-09-29 | 2020-01-17 | 北京工商大学 | 支持向量机参数优化方法及系统 |
CN111274395A (zh) * | 2020-01-19 | 2020-06-12 | 河海大学 | 基于卷积和长短期记忆网络的电网监控告警事件识别方法 |
CN112053223A (zh) * | 2020-08-14 | 2020-12-08 | 百维金科(上海)信息科技有限公司 | 一种基于ga-svm算法的互联网金融欺诈行为检测方法 |
CN112308288A (zh) * | 2020-09-29 | 2021-02-02 | 百维金科(上海)信息科技有限公司 | 一种基于粒子群优化lssvm的违约用户概率预测方法 |
CN112581263A (zh) * | 2020-12-23 | 2021-03-30 | 百维金科(上海)信息科技有限公司 | 一种基于灰狼算法优化广义回归神经网络的信用评估方法 |
CN112581264A (zh) * | 2020-12-23 | 2021-03-30 | 百维金科(上海)信息科技有限公司 | 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法 |
-
2021
- 2021-06-29 CN CN202110728489.4A patent/CN113239638A/zh active Pending
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106960260A (zh) * | 2017-03-27 | 2017-07-18 | 深圳汇创联合自动化控制有限公司 | 一种便于电力调度的风电功率预测系统 |
CN106952183A (zh) * | 2017-04-24 | 2017-07-14 | 武汉大学 | 一种基于粒子群优化最小二乘支持向量机的短期负荷预测方法 |
CN107240097A (zh) * | 2017-06-27 | 2017-10-10 | 长春工业大学 | 基于mkl‑svm‑pso算法的肺结节图像处理方法 |
CN109507887A (zh) * | 2018-12-28 | 2019-03-22 | 浙江大学 | 模糊神经网络结合群智能寻优的工业熔融指数软测量方法 |
CN110705681A (zh) * | 2019-09-29 | 2020-01-17 | 北京工商大学 | 支持向量机参数优化方法及系统 |
CN111274395A (zh) * | 2020-01-19 | 2020-06-12 | 河海大学 | 基于卷积和长短期记忆网络的电网监控告警事件识别方法 |
CN112053223A (zh) * | 2020-08-14 | 2020-12-08 | 百维金科(上海)信息科技有限公司 | 一种基于ga-svm算法的互联网金融欺诈行为检测方法 |
CN112308288A (zh) * | 2020-09-29 | 2021-02-02 | 百维金科(上海)信息科技有限公司 | 一种基于粒子群优化lssvm的违约用户概率预测方法 |
CN112581263A (zh) * | 2020-12-23 | 2021-03-30 | 百维金科(上海)信息科技有限公司 | 一种基于灰狼算法优化广义回归神经网络的信用评估方法 |
CN112581264A (zh) * | 2020-12-23 | 2021-03-30 | 百维金科(上海)信息科技有限公司 | 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法 |
Non-Patent Citations (2)
Title |
---|
YUN LING等: "CREDIT SCORING USING MULTI-KERNEL SUPPORT VECTOR MACHINE AND CHAOS PARTICLE SWARM OPTIMIZATION", 《INTERNATIONAL JOURNAL OF COMPUTATIONAL INTELLIGENCE AND APPLICATIONS》 * |
傅军栋 等: "基于蜻蜓算法和支持向量机的变压器故障诊断", 《华东交通大学学报》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114580373A (zh) * | 2022-02-22 | 2022-06-03 | 四川大学 | 一种结合文本主题分析、情感分析和gsvm的智慧环保宣教方法 |
CN114564957A (zh) * | 2022-03-03 | 2022-05-31 | 南京烽火星空通信发展有限公司 | 一种基于da_fasttext的文档分类方法 |
CN114564957B (zh) * | 2022-03-03 | 2024-08-09 | 南京烽火星空通信发展有限公司 | 一种基于da_fasttext的文档分类方法 |
CN115379529A (zh) * | 2022-08-22 | 2022-11-22 | 温州理工学院 | 一种节能高效可靠的物联网感知层数据收集方法 |
CN116628425A (zh) * | 2023-06-01 | 2023-08-22 | 常州易宝网络服务有限公司 | 一种大数据实时监控系统及方法 |
CN118349899A (zh) * | 2024-06-18 | 2024-07-16 | 国网山东省电力公司青岛供电公司 | 一种考虑多源异构数据融合的负荷预测方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113239638A (zh) | 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法 | |
CN112581263A (zh) | 一种基于灰狼算法优化广义回归神经网络的信用评估方法 | |
US11816183B2 (en) | Methods and systems for mining minority-class data samples for training a neural network | |
Kinouchi et al. | Optimal generalization in perceptions | |
CN105488528B (zh) | 基于改进自适应遗传算法的神经网络图像分类方法 | |
CN111310814A (zh) | 利用不平衡正负样本对业务预测模型训练的方法及装置 | |
CN106548210A (zh) | 机器学习模型训练方法及装置 | |
CN111988329B (zh) | 一种基于深度学习的网络入侵检测方法 | |
CN112581262A (zh) | 一种基于鲸鱼算法优化lvq神经网络的欺诈行为检测方法 | |
CN113538125A (zh) | 一种基于萤火虫算法优化Hopfield神经网络的风险评级方法 | |
CN112581265A (zh) | 一种基于AdaBoost的互联网金融客户申请欺诈检测方法 | |
CN108108762A (zh) | 一种用于冠心病数据分类的基于核极限学习机及并行化的随机森林分类方法 | |
CN112053223A (zh) | 一种基于ga-svm算法的互联网金融欺诈行为检测方法 | |
CN112581264A (zh) | 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法 | |
CN112037011A (zh) | 一种基于foa-rbf神经网络的信用评分方法 | |
CN113379536A (zh) | 一种基于引力搜索算法优化递归神经网络的违约概率预测方法 | |
CN114330659A (zh) | 一种基于改进aso算法的bp神经网络参数优化方法 | |
CN112529683A (zh) | 一种基于cs-pnn的客户信贷风险的评估方法及系统 | |
CN115422995A (zh) | 一种改进社交网络和神经网络的入侵检测方法 | |
CN112529685A (zh) | 一种基于bas-fnn的贷款用户信用评级方法及系统 | |
CN112348655A (zh) | 一种基于afsa-elm的信用评估方法 | |
CN114863226A (zh) | 一种网络物理系统入侵检测方法 | |
CN113162919A (zh) | 一种基于网络异常流量识别的入侵检测方法 | |
Wijayaningrum et al. | An improved crow search algorithm for data clustering | |
Benchaji et al. | Novel learning strategy based on genetic programming for credit card fraud detection in Big Data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20210810 |