CN112581264A - 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法 - Google Patents

一种基于蝗虫算法优化mlp神经网络的信用风险预测方法 Download PDF

Info

Publication number
CN112581264A
CN112581264A CN202011536718.4A CN202011536718A CN112581264A CN 112581264 A CN112581264 A CN 112581264A CN 202011536718 A CN202011536718 A CN 202011536718A CN 112581264 A CN112581264 A CN 112581264A
Authority
CN
China
Prior art keywords
locust
neural network
data
mlp neural
mlp
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011536718.4A
Other languages
English (en)
Inventor
江远强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Baiweijinke Shanghai Information Technology Co ltd
Original Assignee
Baiweijinke Shanghai Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Baiweijinke Shanghai Information Technology Co ltd filed Critical Baiweijinke Shanghai Information Technology Co ltd
Priority to CN202011536718.4A priority Critical patent/CN112581264A/zh
Publication of CN112581264A publication Critical patent/CN112581264A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/006Artificial life, i.e. computing arrangements simulating life based on simulated virtual individual or collective life forms, e.g. social simulations or particle swarm optimisation [PSO]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及互联网金融行业的风控技术领域,尤其为一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,包括六个步骤,采用了蝗虫算法,与其他优化算法相比,蝗虫算法只有一个位置矢量,所有目标都将参与每一个目标的位置更新,通过该算法优化训练完成的MLP神经网络具有结构简单、稳定性强、参数较少、收敛较快等优点,通过设置的蝗虫优化的MLP神经网络,不仅可以在最大程度上避免MLP模型陷入局部最优解和过快收敛,还可以针对MLP的参数找到更好的全局最优解。

Description

一种基于蝗虫算法优化MLP神经网络的信用风险预测方法
技术领域
本发明涉及互联网金融行业的风控技术领域,具体为一种基于蝗虫算法优化MLP神经网络的信用风险预测方法。
背景技术
随着互联网金融的发展,消费信贷业务不断扩展,对贷款申请人的信用风险预测的重要性日益加强。信用风险分析是对信贷申请者的准确信用评估可帮助信贷平台有效规避信用风险。
近年来,逻辑回归、贝叶斯网络、支持向量机和决策树等机器学习算法都被应用于个人信用风险分析,但这些传统的算法预测精度有限。随着人工智能技术的快速发展,神经网络包括自组织映射网络(SOM)、径向基函数网络(RBF)、误差反向传播网络(BP)等成为互联网金融信用风险分析的重要研究领域。但BP和RBF神经网络存在学习速度慢、易陷入局部极小值、预测结果精度不高等缺点,SOM神经网络采用无监督学习规则,缺乏分类信息,因此,对一种基于蝗虫算法优化MLP神经网络的信用风险预测方法的需求日益增长。
多层感知器(Multi-Layer Perceptron,MLP)神经网络是一种采用正向传播和误差逆向传播的一种神经网络。正向传播时,输入信号经过隐藏层的处理后,传向输出层,若输出层神经元未能达到期望的输出,则转入误差的逆向传播阶段,将输出误差按某种形式通过隐藏层向输入层返回,并“分摊”给隐藏层和输入层的神经元,从而获得各层神经元的误差信号,作为修改各单元权重值的依据。这种信号正向传播与误差逆向传播的各层权重矩阵的修改过程是重复进行的,权值不断修改直到网络输出的误差逐渐减少到可接受的程度或达到设定的学习次数为止,完成网络的学习和训练。
MLP神经网络一般由输入层、一个或多个隐藏层、输出层组成,而只含一个隐藏层的三层结构MLP神经网络结构简单,隐藏层能表示所有非线性关系,泛化能力和处理效率相对于BP、RBF和SOM神经网络,更具有优势。
然而MLP神经网络在预测过程中,采用梯度下降法来调整其网络的偏置和权值,存在训练速度慢、容易陷入局部极值、学习得不够充分和预测精度低等缺陷,需要通过优化算法选择MLP神经网络的初始连接权值和隐藏层的初始偏置来提高MLP神经网络全局拟合能力、学习速率和预测精度,因此,针对上述问题提出一种基于蝗虫算法优化MLP神经网络的信用风险预测方法。
发明内容
本发明的目的在于提供一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,包括以下六个步骤:
S1、采集获得原始建模数据,包括选择互联网金融信用风险评估指标作为信用数据,正常还款或逾期表现作为标签数据;
S2、对步骤S1中采集到的信用数据进行预处理,包括剔除异常数据、降低噪声和归一化处理,得到预处理的数据随机选取部分样本数据作为训练集,其余作为测试集;
S3、将训练集样本输入MLP神经网络模型训练,其中归一化后的信用数据作为输入,标签数据作为输出,并对MLP神经网络的参数初始化,训练MLP神经网络模型;
S4、采用蝗虫算法对步骤S3所建立的MLP神经网络的隐藏层神经元权值和偏置进行优化,得到GOA-MLP神经网络模型并利用训练集进行训练;
S5、将测试集输入训练好的GOA-MLP神经网络模型进行测试,验证模型的准确性,并以模型精度评价指标与GA-MLP、PSO-MLP模型进行对比与评价;
S6、将优化MLP神经网络模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出信用风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
优选的,在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据。其中用户的个人申请信息包括:手机号、学历、婚姻状况、工作单位、住址、联系人信息,征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
优选的,在S2中,首先,结合常识和统计学规律对于原始数据进行预处理,剔除错误数据;其次,由于输入数据有着不同的单位和取值范围,MLP神经网络对于输入数据比较敏感,需要对预处理后的数据进行归一化处理,使其值在[0,1]范围之内,归一化公式如下:
Figure BDA0002853282890000031
其中,Xij为原始预测数据集中的数据;i,j表示输入数据的行和列;X'ij为归一化的输出结果。
优选的,在S3中,构建MLP神经网络,首先需要确定网络拓扑结构及初始化参数,需要确定的参数包括隐藏层神经元数、隐藏层到输出层的连接权值、输出层的偏置。目前,隐藏层神经元数选择是一个十分复杂的问题,主要依靠经验和多次试验来确定,而根据Moody准则,神经网络的设计应该在满足精度要求的情况下有最小的结构,以保证网络的泛化能力。本发明采用公式法确定隐藏层神经元数,公式法表达式如下:
Figure BDA0002853282890000041
其中,m、q、n分别是输入、隐藏层、输出神经元个数,a是[1,10]的常数。
在确定网络拓扑结构及初始化参数,MLP神经网络训练过程如下:
S31、计算隐藏层神经元输入值
初始化MLP神经网络的连接权值,将输入层的输入特征传递到隐藏层,计算隐藏层的每个隐含神经元输入值sh,计算公式如下:
Figure BDA0002853282890000042
其中,sh是隐藏层神经元输入值;xij是输入特征;Wjh是输入神经元和隐含神经元之间的连接权值;θh是偏差值;f(·)是隐含神经元的激活函数;
S32、计算隐藏层神经元输出值
将隐藏层神经元的计算结果传递到输出层进行计算得到输出层神经元预测值yok,计算公式如下:
Figure BDA0002853282890000043
其中,yok是输出层第k个神经元的预测值;sh是第h个隐藏层输出;Whk是隐藏层神经元和输出层神经元之间的连接权值;ηk是偏差值;g(·)是隐藏层神经元的激活函数;
S33、计算隐藏层和输出层的误差
每个输出层神经元对应的输入模式tk都有一个目标模式,其中输出层神经元的误差信息为:
δk=tk-yok
隐藏层的误差信息为:
Figure BDA0002853282890000051
其中,tk、yok、δk分别是输出层第k个神经元的真实值、预测值和预测误差;δh、sh分别是隐藏层第h个神经元输出值和误差;Whk是隐藏层神经元和输出层神经元之间的连接权值;ηk是偏差值;g(·)是隐藏层神经元的激活函数;
S34、连接权值训练更新
输入神经元和隐含神经元之间的连接权值更新公式表示如下:
Figure BDA0002853282890000052
隐藏层神经元和输出层神经元之间的连接权值更新表示如下:
Whk(t+1)=Whk(t)+α·δk·sh+μ[Whk(t)+Whk(t-1)]
其中,α是学习速率;μ是动量因子;Wjh(t+1)、Whk(t+1)分别是更新后的输入神经元和隐含神经元之间的连接权值、隐藏层神经元和输出层神经元之间的连接权值。
S35、MLP网络学习训练
MLP网络的权重集W={W1,W2,…,WL}通过M个训练数据集来在训练过程中不断更新,通过不断地调整修正,达到终止状态,完成这个MLP神经网络的训练工作。
训练的过程是使用反向传播(Back propagation,BP)算法使损失函数L(W)不断收敛,训练公式如下:
Figure BDA0002853282890000053
但BP算法采用梯度下降法来调整MLP神经网络的连接权值和隐藏层偏置,MLP神经网络对初始连接权值和隐藏层偏置很敏感,存在训练速度慢、容易陷入局部极值、学习得不够充分和预测精度低等缺陷,需要通过优化算法选择MLP神经网络的各层初始权值和隐藏层初始偏置,来提高MLP神经网络全局拟合能力、学习速率和预测精度。
优选的,在S4中,采用蝗虫算法优化MLP神经网络,蝗虫算法(GrasshopperOptimization Algorithm,GOA)是模拟了自然界中蝗虫群的迁徙和觅食行为的一种新型群智能优化算法,将蝗虫集群抽象为一群搜索单元进行数学建模,蝗虫群为了寻找一个有食物的新栖息地,不断进行迁徙,在这个过程中,蝗虫群内部蝗虫之间的相互作用力会对每一个蝗虫个体的位置造成影响,目标食物的位置和来自蝗虫群外的风的力量、重力也会影响蝗虫集群整体的移动轨迹。蝗虫算法优化的MLP神经网络模型的步骤如下:
S41、蝗虫算法参数初始化
将MLP神经网络待优化参数连接权值和隐藏层偏置组合[W,b]作为蝗虫算法中蝗虫的位置x,初始化蝗虫的种群规模N、最大迭代次数tmax、变量维数d=2以及优化变量的取值范围[Ld,Ud];所在的位置由MLP模型的输入神经元到隐藏层神经元的输入权值w和隐藏层神经元的偏置b构成xi=[W1,W2,…,Wn,b1,b2,…,bn]。
S42、蝗虫位置更新
在蝗虫算法中,群体中每个蝗虫的位置即为待优化问题的一个可能解,位置受种群交互力、重力和风力的综合影响,蝗虫个体位置更新公式为:
Xi=Si+Gi+Ai
其中,Xi表示蝗虫群体中第i个蝗虫的位置;Si是群体相互影响因子,表示第i个蝗虫受到的与其他蝗虫的交互力的影响;Gi表示第i个蝗虫受到的重力影响;Ai表示第i个蝗虫受到的风力影响。
S43、群体相互影响的位置移动
群体相互影响因子Si描述的是蝗虫觅食时受到的其他个体的影响,表达式为:
Figure BDA0002853282890000071
其中,Si为更新过程中群体相互影响因子;s为蝗虫集群之间的社会关系影响因子,是蝗虫受到与其他蝗虫的交互力的影响;N为蝗虫的数量;dij为第i只蝗虫到第j只之间的距离;
Figure BDA0002853282890000072
为第i只蝗虫到第j只蝗虫的单位向量,表达式为:
Figure BDA0002853282890000073
其中,dij为第i只蝗虫到第j只之间的距离;xi、xj分别为第i只蝗虫和第j只蝗虫的位置值。
在群体相互影响因子Si表达式表达其中,s为蝗虫集群之间的社会关系影响因子,是蝗虫受到与其他蝗虫的交互力的影响,表达式如下:
Figure BDA0002853282890000074
其中,f为蝗虫群体间吸引力强度,l为吸引力长度比例,r舒适距离。
当s(r)=0时,蝗虫个体之前的互相作用力为0,此时距离r为舒适距离;当s(r)>0时,蝗虫个体间的吸引力会大于排斥力,个体之前相互吸引,此时r的大致取值范围[2,10]为吸引区;当s(r)<0时,蝗虫个体间的吸引力会小于排斥力,个体之前相互排斥,此时r的大致取值范围[0,2]为排斥区。当舒适距离r>10时,此函数的返回值接近于0。因此,s(r)不能在蝗虫个体之间设置过大的距离,一般规定蝗虫之间的舒适距离r在[1,4]之内。
最终得到,群体相互影响因子Si表达式为:
Figure BDA0002853282890000075
其中,
Figure BDA0002853282890000076
为第i只蝗虫在d维空间上的位置向量;ubd和lbd分别为蝗虫社会关系影响因子s在d维空间中的上界和下界;
Figure BDA0002853282890000081
Figure BDA0002853282890000082
分别为第i只蝗虫和第j只蝗虫在d维空间上的位置;dij表示第i只蝗虫与第j只蝗虫之间的距离;c是随迭代次数变化的线性递减系数,减小蝗虫活动空间,促进算法收敛,其表达式如下:
Figure BDA0002853282890000083
其中,t表示算法当前迭代次数,tmax表示最大迭代次数,本文取cmax=1,cmin=0.00001.
S44、设定适应度函数
当前蝗虫最优解
Figure BDA0002853282890000084
计算蝗群搜索个体的适应度值,找出当前全局最优解的位置作为目标位置
Figure BDA0002853282890000085
适应度函数采用MLP网络的训练平均误差,表达式如下:
Figure BDA0002853282890000086
其中,yi为实际值,
Figure BDA0002853282890000087
为模型预测值,n为样本个数。
计算蝗群个体的适应度,同时找出当前最优解的位置将其作为目标位置;
S45、最佳位置的更新
在解决实际优化问题时,为提高算法的有效性,不考虑重力并且假设风向总是朝着最优位置
Figure BDA0002853282890000088
为目标,即重力影响Gi和风力影响Ai被替换为当前最佳位置,此时的位置更新公式为:
Figure BDA0002853282890000089
Figure BDA00028532828900000810
其中,N为种群规模;Ld、Ud分别为第d个变量的下限和上限;
Figure BDA00028532828900000811
表示当前为止蝗虫位置在d维空间上的最优解。
S46、迭代得到最优位置
将更新位置后的每个蝗虫个体彼此之间的距离限制在[1,4]范围,并重新计算更新位置后蝗虫个体所在适应度,不断更新
Figure BDA0002853282890000091
迭代t=t+1次,若迭代次数到达设定tmax,从最佳适应度的位置
Figure BDA0002853282890000092
中提取出MLP网络所需的最优的连接权值Wij和偏置bj
S47、得到GOA-MLP预测模型
将最优的MLP神经网络模型初始连接权值和初始隐藏层偏置输入到MLP神经网络模型中,以训练集信用数据和还款表现的标签数据作为MLP神经网络模型的输入和输出数据,完成MLP神经网络模型的学习和训练,得到GOA-MLP神经网络信用风险预测模型。
优选的,在S5中,将测试集样本进行输入GOA-MLP神经网络信用风险预测模型,若未达到设定预测精度则重新计算MLP神经网络的初始连接权值和初始隐藏层偏置,并再次进行预测,如此反复迭代,直至达到精度要求,输出最优的GOA-MLP神经网络信用风险预测模型。
优选的,在S5中,以分类器模型评价指标与遗传算法、粒子群算法优化的MLP神经网络模型的进行对比,所述的分类器模型评价指标采用精确度P(Precision)、召回率R(Recall)、F值(F1-scores)等,计算公式分别如下:
Figure BDA0002853282890000093
Figure BDA0002853282890000094
其中,真正例TP(True Positive)是指模型将正类别样本正确地预测为正类别;真负例TP(True Negative)是指模型将负类别样本正确地预测为负类别;假正例FP(FalsePositive)是指模型将负类别样本错误地预测为正类别;假负例FP(False Negative)是指模型将负类别样本正确地预测为负类别。
评论模型性能需要同时考虑P和R,为此引入Fβ值,表达式如下:
Figure BDA0002853282890000101
其中,β是P和R的相对权重,决定对P侧重还是对R侧重,通常设定为1。当β=1,F1值计算公式如下:
Figure BDA0002853282890000102
精确度P衡量正样本的分类准确率;召回率R表示分类正确的正样本占总的正样本的比例;F1值越大,说明分类性能越好。另外还有分类器模型评价指标还有AUC(Area UnderCurve,ROC曲线下的面积)和KS(Kolmogorov-Smirnov)值。
优选的,在S6中,将优化MLP神经网络信用风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出信用风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
优选的,还提供一种基于蝗虫算法优化MLP神经网络的信用风险预测系统,包括以下几个单元:
样本获取单元:用于获取包括个人申请信息、操作行为埋点数据和贷后还款表现作为评价结果的训练样本;
数据处理单元:对采集的数据特征提取,进行包括数据缺失补全、异常值处理和归一化;
模型构建单元:以归一化后的风险评估指标为输入,正常还款和逾期表现作为输出,确定MLP网络拓扑结构,得到MLP神经网络初始模型;
参数优化单元:设置蝗虫算法相关参数并与MLP神经网络相结合优化的初始连接权值和初始隐藏层偏置,得到GOA-MLP神经网络预测模型;
模型训练单元:将训练集输入MLP神经网络模型进行学习和训练,将测试集输入训练后MLP神经网络测试模型效果;
预测单元:用于训练完成的MLP神经网络对在线申请客户进行信用风险等级评估预测。
与现有技术相比,本发明的有益效果是:
1、本发明中,相较于BP、RBF和SOM神经网络,MLP神经网络的泛化能力和处理效率更具有优势。
2、本发明中,采用了蝗虫算法,与其他优化算法相比,蝗虫算法只有一个位置矢量,所有目标都将参与每一个目标的位置更新,通过该算法优化训练完成的MLP神经网络具有结构简单、稳定性强、参数较少、收敛较快等优点。
3、本发明中,通过设置的蝗虫优化的MLP神经网络,不仅可以在最大程度上避免MLP模型陷入局部最优解和过快收敛,还可以针对MLP的参数找到更好的全局最优解。
附图说明
图1为本发明整体流程示意图。
具体实施方式
实施例1:
请参阅图1,本发明提供一种技术方案:
一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,包括以下六个步骤:
S1、采集获得原始建模数据,包括选择互联网金融信用风险评估指标作为信用数据,正常还款或逾期表现作为标签数据;
S2、对步骤S1中采集到的信用数据进行预处理,包括剔除异常数据、降低噪声和归一化处理,得到预处理的数据随机选取部分样本数据作为训练集,其余作为测试集;
S3、将训练集样本输入MLP神经网络模型训练,其中归一化后的信用数据作为输入,标签数据作为输出,并对MLP神经网络的参数初始化,训练MLP神经网络模型;
S4、采用蝗虫算法对步骤S3所建立的MLP神经网络的隐藏层神经元权值和偏置进行优化,得到GOA-MLP神经网络模型并利用训练集进行训练;
S5、将测试集输入训练好的GOA-MLP神经网络模型进行测试,验证模型的准确性,并以模型精度评价指标与GA-MLP、PSO-MLP模型进行对比与评价;
S6、将优化MLP神经网络模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出信用风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据。其中用户的个人申请信息包括:手机号、学历、婚姻状况、工作单位、住址、联系人信息,征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据,这种设置有利于全方面统计用户信息便于后续预测用户的信用风险。
在S2中,首先,结合常识和统计学规律对于原始数据进行预处理,剔除错误数据;其次,由于输入数据有着不同的单位和取值范围,MLP神经网络对于输入数据比较敏感,需要对预处理后的数据进行归一化处理,使其值在[0,1]范围之内,归一化公式如下:
Figure BDA0002853282890000131
其中,Xij为原始预测数据集中的数据;i,j表示输入数据的行和列;X'ij为归一化的输出结果,这种设置将原始数据归一化,便于提升运算效率。
在S3中,构建MLP神经网络,首先需要确定网络拓扑结构及初始化参数,需要确定的参数包括隐藏层神经元数、隐藏层到输出层的连接权值、输出层的偏置。目前,隐藏层神经元数选择是一个十分复杂的问题,主要依靠经验和多次试验来确定,而根据Moody准则,神经网络的设计应该在满足精度要求的情况下有最小的结构,以保证网络的泛化能力。本发明采用公式法确定隐藏层神经元数,公式法表达式如下:
Figure BDA0002853282890000132
其中,m、q、n分别是输入、隐藏层、输出神经元个数,a是[1,10]的常数。
在确定网络拓扑结构及初始化参数,MLP神经网络训练过程如下:
S31、计算隐藏层神经元输入值
初始化MLP神经网络的连接权值,将输入层的输入特征传递到隐藏层,计算隐藏层的每个隐含神经元输入值sh,计算公式如下:
Figure BDA0002853282890000133
其中,sh是隐藏层神经元输入值;xij是输入特征;Wjh是输入神经元和隐含神经元之间的连接权值;θh是偏差值;f(·)是隐含神经元的激活函数;
S32、计算隐藏层神经元输出值
将隐藏层神经元的计算结果传递到输出层进行计算得到输出层神经元预测值yok,计算公式如下:
Figure BDA0002853282890000141
其中,yok是输出层第k个神经元的预测值;sh是第h个隐藏层输出;Whk是隐藏层神经元和输出层神经元之间的连接权值;ηk是偏差值;g(·)是隐藏层神经元的激活函数;
S33、计算隐藏层和输出层的误差
每个输出层神经元对应的输入模式tk都有一个目标模式,其中输出层神经元的误差信息为:
δk=tk-yok
隐藏层的误差信息为:
Figure BDA0002853282890000142
其中,tk、yok、δk分别是输出层第k个神经元的真实值、预测值和预测误差;δh、sh分别是隐藏层第h个神经元输出值和误差;Whk是隐藏层神经元和输出层神经元之间的连接权值;ηk是偏差值;g(·)是隐藏层神经元的激活函数;
S34、连接权值训练更新
输入神经元和隐含神经元之间的连接权值更新公式表示如下:
Figure BDA0002853282890000143
隐藏层神经元和输出层神经元之间的连接权值更新表示如下:
Whk(t+1)=Whk(t)+α·δk·sh+μ[Whk(t)+Whk(t-1)]
其中,α是学习速率;μ是动量因子;Wjh(t+1)、Whk(t+1)分别是更新后的输入神经元和隐含神经元之间的连接权值、隐藏层神经元和输出层神经元之间的连接权值。
S35、MLP网络学习训练
MLP网络的权重集W={W1,W2,…,WL}通过M个训练数据集来在训练过程中不断更新,通过不断地调整修正,达到终止状态,完成这个MLP神经网络的训练工作。
训练的过程是使用反向传播(Back propagation,BP)算法使损失函数L(W)不断收敛,训练公式如下:
Figure BDA0002853282890000151
但BP算法采用梯度下降法来调整MLP神经网络的连接权值和隐藏层偏置,MLP神经网络对初始连接权值和隐藏层偏置很敏感,存在训练速度慢、容易陷入局部极值、学习得不够充分和预测精度低等缺陷,需要通过优化算法选择MLP神经网络的各层初始权值和隐藏层初始偏置,来提高MLP神经网络全局拟合能力、学习速率和预测精度,这种设置弥补了MLP神经网络对初始连接权值和隐藏层偏置过于敏感的缺陷,使得预测结果符合预期。
在S4中,采用蝗虫算法优化MLP神经网络,蝗虫算法(Grasshopper OptimizationAlgorithm,GOA)是模拟了自然界中蝗虫群的迁徙和觅食行为的一种新型群智能优化算法,将蝗虫集群抽象为一群搜索单元进行数学建模,蝗虫群为了寻找一个有食物的新栖息地,不断进行迁徙,在这个过程中,蝗虫群内部蝗虫之间的相互作用力会对每一个蝗虫个体的位置造成影响,目标食物的位置和来自蝗虫群外的风的力量、重力也会影响蝗虫集群整体的移动轨迹。蝗虫算法优化的MLP神经网络模型的步骤如下:
S41、蝗虫算法参数初始化
将MLP神经网络待优化参数连接权值和隐藏层偏置组合[W,b]作为蝗虫算法中蝗虫的位置x,初始化蝗虫的种群规模N、最大迭代次数tmax、变量维数d=2以及优化变量的取值范围[Ld,Ud];所在的位置由MLP模型的输入神经元到隐藏层神经元的输入权值w和隐藏层神经元的偏置b构成xi=[W1,W2,…,Wn,b1,b2,…,bn]。
S42、蝗虫位置更新
在蝗虫算法中,群体中每个蝗虫的位置即为待优化问题的一个可能解,位置受种群交互力、重力和风力的综合影响,蝗虫个体位置更新公式为:
Xi=Si+Gi+Ai
其中,Xi表示蝗虫群体中第i个蝗虫的位置;Si是群体相互影响因子,表示第i个蝗虫受到的与其他蝗虫的交互力的影响;Gi表示第i个蝗虫受到的重力影响;Ai表示第i个蝗虫受到的风力影响。
S43、群体相互影响的位置移动
群体相互影响因子Si描述的是蝗虫觅食时受到的其他个体的影响,表达式为:
Figure BDA0002853282890000161
其中,Si为更新过程中群体相互影响因子;s为蝗虫集群之间的社会关系影响因子,是蝗虫受到与其他蝗虫的交互力的影响;N为蝗虫的数量;dij为第i只蝗虫到第j只之间的距离;
Figure BDA0002853282890000162
为第i只蝗虫到第j只蝗虫的单位向量,表达式为:
Figure BDA0002853282890000163
其中,dij为第i只蝗虫到第j只之间的距离;xi、xj分别为第i只蝗虫和第j只蝗虫的位置值。
在群体相互影响因子Si表达式表达其中,s为蝗虫集群之间的社会关系影响因子,是蝗虫受到与其他蝗虫的交互力的影响,表达式如下:
Figure BDA0002853282890000164
其中,f为蝗虫群体间吸引力强度,l为吸引力长度比例,r舒适距离。
当s(r)=0时,蝗虫个体之前的互相作用力为0,此时距离r为舒适距离;当s(r)>0时,蝗虫个体间的吸引力会大于排斥力,个体之前相互吸引,此时r的大致取值范围[2,10]为吸引区;当s(r)<0时,蝗虫个体间的吸引力会小于排斥力,个体之前相互排斥,此时r的大致取值范围[0,2]为排斥区。当舒适距离r>10时,此函数的返回值接近于0。因此,s(r)不能在蝗虫个体之间设置过大的距离,一般规定蝗虫之间的舒适距离r在[1,4]之内。
最终得到,群体相互影响因子Si表达式为:
Figure BDA0002853282890000171
其中,
Figure BDA0002853282890000172
为第i只蝗虫在d维空间上的位置向量;ubd和lbd分别为蝗虫社会关系影响因子s在d维空间中的上界和下界;
Figure BDA0002853282890000173
Figure BDA0002853282890000174
分别为第i只蝗虫和第j只蝗虫在d维空间上的位置;dij表示第i只蝗虫与第j只蝗虫之间的距离;c是随迭代次数变化的线性递减系数,减小蝗虫活动空间,促进算法收敛,其表达式如下:
Figure BDA0002853282890000175
其中,t表示算法当前迭代次数,tmax表示最大迭代次数,本文取cmax=1,cmin=0.00001.
S44、设定适应度函数
当前蝗虫最优解
Figure BDA0002853282890000176
计算蝗群搜索个体的适应度值,找出当前全局最优解的位置作为目标位置
Figure BDA0002853282890000177
适应度函数采用MLP网络的训练平均误差,表达式如下:
Figure BDA0002853282890000178
其中,yi为实际值,
Figure BDA0002853282890000181
为模型预测值,n为样本个数;
计算蝗群个体的适应度,同时找出当前最优解的位置将其作为目标位置;
S45、最佳位置的更新
在解决实际优化问题时,为提高算法的有效性,不考虑重力并且假设风向总是朝着最优位置
Figure BDA0002853282890000182
为目标,即重力影响Gi和风力影响Ai被替换为当前最佳位置,此时的位置更新公式为:
Figure BDA0002853282890000183
Figure BDA0002853282890000184
其中,N为种群规模;Ld、Ud分别为第d个变量的下限和上限;
Figure BDA0002853282890000185
表示当前为止蝗虫位置在d维空间上的最优解。
S46、迭代得到最优位置
将更新位置后的每个蝗虫个体彼此之间的距离限制在[1,4]范围,并重新计算更新位置后蝗虫个体所在适应度,不断更新
Figure BDA0002853282890000186
迭代t=t+1次,若迭代次数到达设定tmax,从最佳适应度的位置
Figure BDA0002853282890000187
中提取出MLP网络所需的最优的连接权值Wij和偏置bj
S47、得到GOA-MLP预测模型
将最优的MLP神经网络模型初始连接权值和初始隐藏层偏置输入到MLP神经网络模型中,以训练集信用数据和还款表现的标签数据作为MLP神经网络模型的输入和输出数据,完成MLP神经网络模型的学习和训练,得到GOA-MLP神经网络信用风险预测模型,这种设置完成了GOA-MLP神经网络信用风险预测模型的搭建,便于预测分析。
在S5中,将测试集样本进行输入GOA-MLP神经网络信用风险预测模型,若未达到设定预测精度则重新计算MLP神经网络的初始连接权值和初始隐藏层偏置,并再次进行预测,如此反复迭代,直至达到精度要求,输出最优的GOA-MLP神经网络信用风险预测模型,这种设置通过反复迭代便于提升预测精度。
在S5中,以分类器模型评价指标与遗传算法、粒子群算法优化的MLP神经网络模型的进行对比,所述的分类器模型评价指标采用精确度P(Precision)、召回率R(Recall)、F值(F1-scores)等,计算公式分别如下:
Figure BDA0002853282890000191
Figure BDA0002853282890000192
其中,真正例TP(True Positive)是指模型将正类别样本正确地预测为正类别;真负例TP(True Negative)是指模型将负类别样本正确地预测为负类别;假正例FP(FalsePositive)是指模型将负类别样本错误地预测为正类别;假负例FP(False Negative)是指模型将负类别样本正确地预测为负类别。
评论模型性能需要同时考虑P和R,为此引入Fβ值,表达式如下:
Figure BDA0002853282890000193
其中,β是P和R的相对权重,决定对P侧重还是对R侧重,通常设定为1。当β=1,F1值计算公式如下:
Figure BDA0002853282890000194
精确度P衡量正样本的分类准确率;召回率R表示分类正确的正样本占总的正样本的比例;F1值越大,说明分类性能越好。另外还有分类器模型评价指标还有AUC(Area UnderCurve,ROC曲线下的面积)和KS(Kolmogorov-Smirnov)值。
这种设置便于对比模型的误差,便于调整纠正预测算法。
在S6中,将优化MLP神经网络信用风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出信用风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新,这种设置将第一时间将新用户数据更新到模型训练的数据库,便于预测新的风险。
还提供一种基于蝗虫算法优化MLP神经网络的信用风险预测系统,包括以下几个单元:
样本获取单元:用于获取包括个人申请信息、操作行为埋点数据和贷后还款表现作为评价结果的训练样本;
数据处理单元:对采集的数据特征提取,进行包括数据缺失补全、异常值处理和归一化;
模型构建单元:以归一化后的风险评估指标为输入,正常还款和逾期表现作为输出,确定MLP网络拓扑结构,得到MLP神经网络初始模型;
参数优化单元:设置蝗虫算法相关参数并与MLP神经网络相结合优化的初始连接权值和初始隐藏层偏置,得到GOA-MLP神经网络预测模型;
模型训练单元:将训练集输入MLP神经网络模型进行学习和训练,将测试集输入训练后MLP神经网络测试模型效果;
预测单元:用于训练完成的MLP神经网络对在线申请客户进行信用风险等级评估预测。
这种设置提供了MLP神经网络的信用风险预测系统的有效搭建方法以便于实施。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式,应当指出,由于文字表达的有限性,而客观上存在无限的具体结构,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进、润饰或变化,也可以将上述技术特征以适当的方式进行组合;这些改进润饰、变化或组合,或未经改进将发明的构思和技术方案直接应用于其它场合的,均应视为本发明的保护范围。

Claims (9)

1.一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,其特征在于:包括以下六个步骤:
S1、采集获得原始建模数据,包括选择互联网金融信用风险评估指标作为信用数据,正常还款或逾期表现作为标签数据;
S2、对步骤S1中采集到的信用数据进行预处理,包括剔除异常数据、降低噪声和归一化处理,得到预处理的数据随机选取部分样本数据作为训练集,其余作为测试集;
S3、将训练集样本输入MLP神经网络模型训练,其中归一化后的信用数据作为输入,标签数据作为输出,并对MLP神经网络的参数初始化,训练MLP神经网络模型;
S4、采用蝗虫算法对步骤S3所建立的MLP神经网络的隐藏层神经元权值和偏置进行优化,得到GOA-MLP神经网络模型并利用训练集进行训练;
S5、将测试集输入训练好的GOA-MLP神经网络模型进行测试,验证模型的准确性,并以模型精度评价指标与GA-MLP、PSO-MLP模型进行对比与评价;
S6、将优化MLP神经网络模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出信用风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
2.根据权利要求1所述的一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,其特征在于,在S1中,从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本,采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据。其中用户的个人申请信息包括:手机号、学历、婚姻状况、工作单位、住址、联系人信息,征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据;所述埋点数据包括埋点时采集的设备行为数据和日志数据,其中设备行为数据包括:登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度,另外日志数据包括:7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下,不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。
3.根据权利要求1所述的一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,其特征在于,在S2中,首先,结合常识和统计学规律对于原始数据进行预处理,剔除错误数据;其次,由于输入数据有着不同的单位和取值范围,MLP神经网络对于输入数据比较敏感,需要对预处理后的数据进行归一化处理,使其值在[0,1]范围之内,归一化公式如下:
Figure RE-FDA0002953913060000021
其中,Xij为原始预测数据集中的数据;i,j表示输入数据的行和列;X'ij为归一化的输出结果。
4.根据权利要求1所述的一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,其特征在于,在S3中,构建MLP神经网络,首先需要确定网络拓扑结构及初始化参数,需要确定的参数包括隐藏层神经元数、隐藏层到输出层的连接权值、输出层的偏置。目前,隐藏层神经元数选择是一个十分复杂的问题,主要依靠经验和多次试验来确定,而根据Moody准则,神经网络的设计应该在满足精度要求的情况下有最小的结构,以保证网络的泛化能力。本发明采用公式法确定隐藏层神经元数,公式法表达式如下:
Figure RE-FDA0002953913060000022
其中,m、q、n分别是输入、隐藏层、输出神经元个数,a是[1,10]的常数。
在确定网络拓扑结构及初始化参数,MLP神经网络训练过程如下:
S31、计算隐藏层神经元输入值
初始化MLP神经网络的连接权值,将输入层的输入特征传递到隐藏层,计算隐藏层的每个隐含神经元输入值sh,计算公式如下:
Figure RE-FDA0002953913060000031
其中,sh是隐藏层神经元输入值;xij是输入特征;Wjh是输入神经元和隐含神经元之间的连接权值;θh是偏差值;f(·)是隐含神经元的激活函数;
S32、计算隐藏层神经元输出值
将隐藏层神经元的计算结果传递到输出层进行计算得到输出层神经元预测值yok,计算公式如下:
Figure RE-FDA0002953913060000032
其中,yok是输出层第k个神经元的预测值;sh是第h个隐藏层输出;Whk是隐藏层神经元和输出层神经元之间的连接权值;ηk是偏差值;g(·)是隐藏层神经元的激活函数;
S33、计算隐藏层和输出层的误差
每个输出层神经元对应的输入模式tk都有一个目标模式,其中输出层神经元的误差信息为:
δk=tk-yok
隐藏层的误差信息为:
Figure RE-FDA0002953913060000033
其中,tk、yok、δk分别是输出层第k个神经元的真实值、预测值和预测误差;δh、sh分别是隐藏层第h个神经元输出值和误差;Whk是隐藏层神经元和输出层神经元之间的连接权值;ηk是偏差值;g(·)是隐藏层神经元的激活函数;
S34、连接权值训练更新
输入神经元和隐含神经元之间的连接权值更新公式表示如下:
Wjh(t+1)=Wjh(t)+α·δh·xij+μ[Wjh(t)+Wjh(t-1)]
隐藏层神经元和输出层神经元之间的连接权值更新表示如下:
Whk(t+1)=Whk(t)+α·δk·sh+μ[Whk(t)+Whk(t-1)]
其中,α是学习速率;μ是动量因子;Wjh(t+1)、Whk(t+1)分别是更新后的输入神经元和隐含神经元之间的连接权值、隐藏层神经元和输出层神经元之间的连接权值。
S35、MLP网络学习训练
MLP网络的权重集W={W1,W2,…,WL}通过M个训练数据集来在训练过程中不断更新,通过不断地调整修正,达到终止状态,完成这个MLP神经网络的训练工作。
训练的过程是使用反向传播(Backpropagation,BP)算法使损失函数L(W)不断收敛,训练公式如下:
Figure RE-FDA0002953913060000041
但BP算法采用梯度下降法来调整MLP神经网络的连接权值和隐藏层偏置,MLP神经网络对初始连接权值和隐藏层偏置很敏感,存在训练速度慢、容易陷入局部极值、学习得不够充分和预测精度低等缺陷,需要通过优化算法选择MLP神经网络的各层初始权值和隐藏层初始偏置,来提高MLP神经网络全局拟合能力、学习速率和预测精度。
5.根据权利要求1所述的一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,其特征在于,在S4中,采用蝗虫算法优化MLP神经网络,蝗虫算法(Grasshopper OptimizationAlgorithm,GOA)是模拟了自然界中蝗虫群的迁徙和觅食行为的一种新型群智能优化算法,将蝗虫集群抽象为一群搜索单元进行数学建模,蝗虫群为了寻找一个有食物的新栖息地,不断进行迁徙,在这个过程中,蝗虫群内部蝗虫之间的相互作用力会对每一个蝗虫个体的位置造成影响,目标食物的位置和来自蝗虫群外的风的力量、重力也会影响蝗虫集群整体的移动轨迹。蝗虫算法优化的MLP神经网络模型的步骤如下:
S41、蝗虫算法参数初始化
将MLP神经网络待优化参数连接权值和隐藏层偏置组合[W,b]作为蝗虫算法中蝗虫的位置x,初始化蝗虫的种群规模N、最大迭代次数tmax、变量维数d=2以及优化变量的取值范围[Ld,Ud];所在的位置由MLP模型的输入神经元到隐藏层神经元的输入权值w和隐藏层神经元的偏置b构成xi=[W1,W2,…,Wn,b1,b2,…,bn]。
S42、蝗虫位置更新
在蝗虫算法中,群体中每个蝗虫的位置即为待优化问题的一个可能解,位置受种群交互力、重力和风力的综合影响,蝗虫个体位置更新公式为:
Xi=Si+Gi+Ai
其中,Xi表示蝗虫群体中第i个蝗虫的位置;Si是群体相互影响因子,表示第i个蝗虫受到的与其他蝗虫的交互力的影响;Gi表示第i个蝗虫受到的重力影响;Ai表示第i个蝗虫受到的风力影响。
S43、群体相互影响的位置移动
群体相互影响因子Si描述的是蝗虫觅食时受到的其他个体的影响,表达式为:
Figure RE-FDA0002953913060000051
其中,Si为更新过程中群体相互影响因子;s为蝗虫集群之间的社会关系影响因子,是蝗虫受到与其他蝗虫的交互力的影响;N为蝗虫的数量;dij为第i只蝗虫到第j只之间的距离;
Figure RE-FDA0002953913060000061
为第i只蝗虫到第j只蝗虫的单位向量,表达式为:
Figure RE-FDA0002953913060000062
其中,dij为第i只蝗虫到第j只之间的距离;xi、xj分别为第i只蝗虫和第j只蝗虫的位置值。
在群体相互影响因子Si表达式表达其中,s为蝗虫集群之间的社会关系影响因子,是蝗虫受到与其他蝗虫的交互力的影响,表达式如下:
Figure RE-FDA0002953913060000063
其中,f为蝗虫群体间吸引力强度,l为吸引力长度比例,r舒适距离。
当s(r)=0时,蝗虫个体之前的互相作用力为0,此时距离r为舒适距离;当s(r)>0时,蝗虫个体间的吸引力会大于排斥力,个体之前相互吸引,此时r的大致取值范围[2,10]为吸引区;当s(r)<0时,蝗虫个体间的吸引力会小于排斥力,个体之前相互排斥,此时r的大致取值范围[0,2]为排斥区。当舒适距离r>10时,此函数的返回值接近于0。因此,s(r)不能在蝗虫个体之间设置过大的距离,一般规定蝗虫之间的舒适距离r在[1,4]之内。
最终得到,群体相互影响因子Si表达式为:
Figure RE-FDA0002953913060000064
其中,
Figure RE-FDA0002953913060000065
为第i只蝗虫在d维空间上的位置向量;ubd和lbd分别为蝗虫社会关系影响因子s在d维空间中的上界和下界;
Figure RE-FDA0002953913060000066
Figure RE-FDA0002953913060000067
分别为第i只蝗虫和第j只蝗虫在d维空间上的位置;dij表示第i只蝗虫与第j只蝗虫之间的距离;c是随迭代次数变化的线性递减系数,减小蝗虫活动空间,促进算法收敛,其表达式如下:
Figure RE-FDA0002953913060000071
其中,t表示算法当前迭代次数,tmax表示最大迭代次数,本文取cmax=1,cmin=0.00001.
S44、设定适应度函数
当前蝗虫最优解
Figure RE-FDA0002953913060000072
计算蝗群搜索个体的适应度值,找出当前全局最优解的位置作为目标位置
Figure RE-FDA0002953913060000073
适应度函数采用MLP网络的训练平均误差,表达式如下:
Figure RE-FDA0002953913060000074
其中,yi为实际值,
Figure RE-FDA0002953913060000075
为模型预测值,n为样本个数。
通过计算蝗群个体的适应度,同时找出当前最优解的位置将其作为目标位置;
S45、最佳位置的更新
在解决实际优化问题时,为提高算法的有效性,不考虑重力并且假设风向总是朝着最优位置
Figure RE-FDA0002953913060000076
为目标,即重力影响Gi和风力影响Ai被替换为当前最佳位置,此时的位置更新公式为:
Figure RE-FDA0002953913060000077
Figure RE-FDA0002953913060000078
其中,N为种群规模;Ld、Ud分别为第d个变量的下限和上限;
Figure RE-FDA0002953913060000079
表示当前为止蝗虫位置在d维空间上的最优解。
S46、迭代得到最优位置
将更新位置后的每个蝗虫个体彼此之间的距离r限制在[1,4]范围,并重新计算更新位置后蝗虫个体所在适应度,不断更新
Figure RE-FDA0002953913060000081
迭代t=t+1次,若迭代次数到达设定tmax,从最佳适应度的位置
Figure RE-FDA0002953913060000082
中提取出MLP网络所需的最优的连接权值Wij和偏置bj
S47、得到GOA-MLP预测模型
将最优的MLP神经网络模型初始连接权值和初始隐藏层偏置输入到MLP神经网络模型中,以训练集信用数据和还款表现的标签数据作为MLP神经网络模型的输入和输出数据,完成MLP神经网络模型的学习和训练,得到GOA-MLP神经网络信用风险预测模型。
6.根据权利要求1所述的一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,其特征在于,在S5中,将测试集样本进行输入GOA-MLP神经网络信用风险预测模型,若未达到设定预测精度则重新计算MLP神经网络的初始连接权值和初始隐藏层偏置,并再次进行预测,如此反复迭代,直至达到精度要求,输出最优的GOA-MLP神经网络信用风险预测模型。
7.根据权利要求1所述的一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,其特征在于,在S5中,以分类器模型评价指标与遗传算法、粒子群算法优化的MLP神经网络模型的进行对比,所述的分类器模型评价指标采用精确度P(Precision)、召回率R(Recall)、F值(F1-scores)等,计算公式分别如下:
Figure RE-FDA0002953913060000083
Figure RE-FDA0002953913060000084
其中,真正例TP(True Positive)是指模型将正类别样本正确地预测为正类别;真负例TP(True Negative)是指模型将负类别样本正确地预测为负类别;假正例FP(FalsePositive)是指模型将负类别样本错误地预测为正类别;假负例FP(False Negative)是指模型将负类别样本正确地预测为负类别。
评论模型性能需要同时考虑P和R,为此引入Fβ值,表达式如下:
Figure RE-FDA0002953913060000091
其中,β是P和R的相对权重,决定对P侧重还是对R侧重,通常设定为1。当β=1,F1值计算公式如下:
Figure RE-FDA0002953913060000092
精确度P衡量正样本的分类准确率;召回率R表示分类正确的正样本占总的正样本的比例;F1值越大,说明分类性能越好。另外还有分类器模型评价指标还有AUC(Area UnderCurve,ROC曲线下的面积)和KS(Kolmogorov-Smirnov)值。
8.根据权利要求1所述的一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,其特征在于,在S6中,将优化MLP神经网络信用风险预测模型部署至申请平台,获取实时申请客户的数据并将作为待测样本导入预测模型中输出信用风险预测结果,实现申请客户的实时审批,并定期将有表现数据输入到模型训练,实现模型的在线更新。
9.根据权利要求1所述的一种基于蝗虫算法优化MLP神经网络的信用风险预测方法,其特征在于:还提供一种基于蝗虫算法优化MLP神经网络的信用风险预测系统,包括以下几个单元:
样本获取单元:用于获取包括个人申请信息、操作行为埋点数据和贷后还款表现作为评价结果的训练样本;
数据处理单元:对采集的数据特征提取,进行包括数据缺失补全、异常值处理和归一化;
模型构建单元:以归一化后的风险评估指标为输入,正常还款和逾期表现作为输出,确定MLP网络拓扑结构,得到MLP神经网络初始模型;
参数优化单元:设置蝗虫算法相关参数并与MLP神经网络相结合优化的初始连接权值和初始隐藏层偏置,得到GOA-MLP神经网络预测模型;
模型训练单元:将训练集输入MLP神经网络模型进行学习和训练,将测试集输入训练后MLP神经网络测试模型效果;
预测单元:用于训练完成的MLP神经网络对在线申请客户进行信用风险等级评估预测。
CN202011536718.4A 2020-12-23 2020-12-23 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法 Pending CN112581264A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011536718.4A CN112581264A (zh) 2020-12-23 2020-12-23 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011536718.4A CN112581264A (zh) 2020-12-23 2020-12-23 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法

Publications (1)

Publication Number Publication Date
CN112581264A true CN112581264A (zh) 2021-03-30

Family

ID=75139459

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011536718.4A Pending CN112581264A (zh) 2020-12-23 2020-12-23 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法

Country Status (1)

Country Link
CN (1) CN112581264A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239638A (zh) * 2021-06-29 2021-08-10 百维金科(上海)信息科技有限公司 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法
CN113516233A (zh) * 2021-09-13 2021-10-19 四川大学 一种面向vmat放疗计划的神经网络预测方法
CN117369425A (zh) * 2023-12-08 2024-01-09 南昌华翔汽车内外饰件有限公司 汽车仪表总成故障诊断方法、系统、存储介质及计算机
CN117557361A (zh) * 2023-11-10 2024-02-13 纬创软件(武汉)有限公司 基于数据分析的用户信用风险评估方法及系统
CN118115071A (zh) * 2024-03-27 2024-05-31 北京振海通达供应链管理有限公司 一种物流货运车辆运输监管系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886173A (zh) * 2012-12-19 2014-06-25 财团法人工业技术研究院 脉波与体质健康风险评估系统与方法
CN109754057A (zh) * 2019-01-31 2019-05-14 福州大学 一种结合速度扰动机制混沌蝗虫算法的减速器自重设计方法
CN111027627A (zh) * 2019-12-11 2020-04-17 哈尔滨高斯触控科技有限公司 一种基于多层感知机的振动信息地形分类识别方法
CN111310390A (zh) * 2020-04-27 2020-06-19 上海建工集团股份有限公司 混凝土泵送性能智能预测方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103886173A (zh) * 2012-12-19 2014-06-25 财团法人工业技术研究院 脉波与体质健康风险评估系统与方法
CN109754057A (zh) * 2019-01-31 2019-05-14 福州大学 一种结合速度扰动机制混沌蝗虫算法的减速器自重设计方法
CN111027627A (zh) * 2019-12-11 2020-04-17 哈尔滨高斯触控科技有限公司 一种基于多层感知机的振动信息地形分类识别方法
CN111310390A (zh) * 2020-04-27 2020-06-19 上海建工集团股份有限公司 混凝土泵送性能智能预测方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ALI ASGHAR HEIDARI,HOSSAM FARIS: ""An efficient hybrid multilayerperceptron neural network withgrasshopper optimization"", 《SPRINGER LINK: HTTPS://LINK.SPRINGER.COM/ARTICLE/10.1007/S00500-018-3424-2》 *
SHADI MOGHANIAN,FARSHID BAGHERI SARAVI: ""GOAMLP:Network Intrusion Detection With Multilayer Perceptron and Grasshopper Optimization Algorithm"", 《IEEE》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113239638A (zh) * 2021-06-29 2021-08-10 百维金科(上海)信息科技有限公司 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法
CN113516233A (zh) * 2021-09-13 2021-10-19 四川大学 一种面向vmat放疗计划的神经网络预测方法
CN113516233B (zh) * 2021-09-13 2022-01-28 四川大学 一种面向vmat放疗计划的神经网络预测装置
CN117557361A (zh) * 2023-11-10 2024-02-13 纬创软件(武汉)有限公司 基于数据分析的用户信用风险评估方法及系统
CN117557361B (zh) * 2023-11-10 2024-04-26 纬创软件(武汉)有限公司 基于数据分析的用户信用风险评估方法及系统
CN117369425A (zh) * 2023-12-08 2024-01-09 南昌华翔汽车内外饰件有限公司 汽车仪表总成故障诊断方法、系统、存储介质及计算机
CN117369425B (zh) * 2023-12-08 2024-02-27 南昌华翔汽车内外饰件有限公司 汽车仪表总成故障诊断方法、系统、存储介质及计算机
CN118115071A (zh) * 2024-03-27 2024-05-31 北京振海通达供应链管理有限公司 一种物流货运车辆运输监管系统

Similar Documents

Publication Publication Date Title
CN112581264A (zh) 一种基于蝗虫算法优化mlp神经网络的信用风险预测方法
Movassagh et al. Artificial neural networks training algorithm integrating invasive weed optimization with differential evolutionary model
Han et al. A survey on metaheuristic optimization for random single-hidden layer feedforward neural network
CN112581263A (zh) 一种基于灰狼算法优化广义回归神经网络的信用评估方法
US11816183B2 (en) Methods and systems for mining minority-class data samples for training a neural network
CN112037012A (zh) 一种基于pso-bp神经网络的互联网金融信用评价方法
CN112581262A (zh) 一种基于鲸鱼算法优化lvq神经网络的欺诈行为检测方法
Boussabaine The use of artificial neural networks in construction management: a review
CN112634018A (zh) 一种基于蚁群算法优化循环神经网络的逾期监控方法
CN109952581A (zh) 用于机器学习系统的学习教练
CN113538125A (zh) 一种基于萤火虫算法优化Hopfield神经网络的风险评级方法
CN103105246A (zh) 一种基于遗传算法改进的bp神经网络的温室环境预测反馈方法
CN113239638A (zh) 一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法
CN113379536A (zh) 一种基于引力搜索算法优化递归神经网络的违约概率预测方法
CN109840595B (zh) 一种基于群体学习行为特征的知识追踪方法
CN112634019A (zh) 基于细菌觅食算法优化灰色神经网络的违约概率预测方法
CN112529683A (zh) 一种基于cs-pnn的客户信贷风险的评估方法及系统
CN112037011A (zh) 一种基于foa-rbf神经网络的信用评分方法
CN112529685A (zh) 一种基于bas-fnn的贷款用户信用评级方法及系统
CN112348655A (zh) 一种基于afsa-elm的信用评估方法
CN112529684A (zh) 一种基于fwa_dbn的客户信用评估方法及系统
Sebastian Performance evaluation by artificial neural network using WEKA
CN110109005B (zh) 一种基于序贯测试的模拟电路故障测试方法
CN108364098A (zh) 一种天气特征对用户签到影响的度量方法
Wijayaningrum et al. An improved crow search algorithm for data clustering

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20210330

WD01 Invention patent application deemed withdrawn after publication