CN113379536A

CN113379536A - 一种基于引力搜索算法优化递归神经网络的违约概率预测方法

Info

Publication number: CN113379536A
Application number: CN202110730392.7A
Authority: CN
Inventors: 江远强; 李兰; 谭静
Original assignee: Baiweijinke Shanghai Information Technology Co ltd
Current assignee: Baiweijinke Shanghai Information Technology Co ltd
Priority date: 2021-06-29
Filing date: 2021-06-29
Publication date: 2021-09-10

Abstract

本发明公开了一种基于引力搜索算法优化递归神经网络的违约概率预测方法，包括以下的步骤：首先，选取有还款或逾期表现的客户作为建模样本，获取客户信用数据；对信用数据进行预处理，随机切分训练集和测试集；根据建模样本的数据特征构建递归神经网络拓扑结构，确定网络的参数，初始化递归神经网络的权值和偏置；构建递归神经网络的权值偏置与引力搜索算法算法的映射关系，通过引力搜索算法算法得到最优权值和偏置，并使用训练集对递归神经网络进行训练；本发明利用引力搜索算法确定了循环神经网络最优的权值和偏置，加快了神经网络的收敛速度，并提高了预测模型的准度，可满足互联网金融信用实时评估的需求。

Description

一种基于引力搜索算法优化递归神经网络的违约概率预测方法

技术领域

本发明涉及互联网金融行业的风控技术领域，具体为一种基于引力搜索算法优化递归神经网络的违约概率预测方法。

背景技术

随着互联网金融的发展，消费信贷业务不断扩展，对贷款申请人的违约概率预测的重要性日益加强。违约概率分析是对信贷申请者的准确信用评估，可帮助信贷平台有效规避违约概率。

目前，常用的违约概率预测方法主要有逻辑回归、贝叶斯网络、决策树、BP和RBF神经网络等机器学习算法，但这些方法主要用于客户申请时点的静态预测，无法监控到贷款客户的潜在的还款违约，当前对于违约概率的预测需要更多结合客户时间序列的表现，而时间序列呈现呈现出更为复杂的非线性特征，从而导致时间序列预测方法难以选取合适的输入变量个数，

递归神经网络(Recursive Neural Network)是一种具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络，采用递归神经网络来实现用户行为预测，减少了训练预测模型的特征工程工作量，能够较好地捕捉特征之间的关联关系，特别适用于贷款客户还款违约概率的监督预测。

但递归神经网络的初始权值和偏置存在很大的随机化，初始参数的设定不当，可能导致模型收敛速度慢、预测精度不高和稳定性差等问题。实验证明，通过对递归神经网络的初始权值和偏置合理选择和优化来提高预测准确性并减少预测时间，目前对递归神经网络初始参数的选择较为广泛的智能优化算法主要有遗传算法和粒子群算法，但在寻优的过程中均会不同程度地陷入局部最优。如何确定递归神经网络的最佳初始权值和阀值，是提高递归神经网络性能的关键。

因此，针对上述问题提出一种基于引力搜索算法优化递归神经网络的违约概率预测方法。

发明内容

本发明的目的在于提供一种基于蜻蜓算法优化多核支持向量机的逾期风险预测方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于引力搜索算法优化递归神经网络的违约概率预测方法，包括以下六个步骤：

S1、采集一定比例数量的正常和逾期还款客户，并采集客户的注册信息、贷款及历史还款行为信息、操作埋点数据作为多维信用数据，还款是否逾期作为标签数据；

S2、数据预处理，对信用数据进行信息提取、预处理和归一化，去除不规则数据和填补缺失数据，将数据组按照7：3比例随机划分为训练集和测试集；

S3、根据建模样本数据特征，搭建递归神经网络模型，设置递归神经网络超参数，将训练集样本输入模型进行训练，信用数据作为输入，标签数据作为输出数据，通过梯度下降算法训练递归神经网络模型；

S4、构建递归神经网络的权值和偏置与引力搜索算法的映射关系，优化得到初始权值与偏置，并用训练集样本进行训练；

S5、使用测试集的数据对训练好的递归神经网络模型进行测试，评估递归神经网络预测模型的性能，与遗传算法、粒子群算法优化的模型对比评价；

S6、将递归神经网络预测模型部署至贷款平台后端，获取客户的信用数据，使用递归神经网络模型对当前客户还款进行预测。

优选的，在S1中，从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本，采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据。信用数据包括：个人信息、贷款信息和操作埋点数据，采集的个人信息数据包括客户号、性别、出生日期、联系方式、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等；贷款信息数据分为已有贷款及申请贷款信息，主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度；所述埋点数据包括埋点时采集的设备行为数据和日志数据，其中设备行为数据包括：登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度，另外日志数据包括：7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下，不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。

优选的，在S2中，首先，结合常识和统计学规律对于原始数据进行预处理，剔除错误数据；其次，由于神经网络复杂，网络对于输入数据比较敏感以及输入数据有着不同的单位和取值范围，各神经网络的激活函数、学习规则不同，在进行递归神经网络模型预测前，需先对数据进行归一化处理，计算公式如下：

其中，x_max为样本数据中的最大值；x_min为样本数据中的最小值；x_i为原始样本数据；

是归一化后结果，取值范围为[-1,1]。

优选的，在S3中，递归神经网络(Recursive Neural Network)是一种具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络，采用递归神经网络来实现用户行为预测，减少了训练预测模型的特征工程工作量，能够较好地捕捉特征之间的关联关系，特别适用于贷款客户还款违约概率的监督预测。递归神经网络的学习过程如下：

构建递归神经网络并进行相关初始化。包括确定网络输入、输出、隐含层节点数、传递函数等。递归神经网络学习所用的训练数据描述为：X＝{x₁,x₂,…,x_i,…,x_n}为训练样本的集合，x_i.为一个训练样本，n为训练样本个数。

S31、计算神经网络损失函数

递归神经网络对训练数据进行回归学习的损失函数J^t(θ)表达式如下：

其中，t为时间，j为训练样本序号，y_t,j为t时间j训练样本的储量真实值，

为t时间j训练样本的模型预测值；V为训练样本的数量；J表示熵；θ为可学习的参数，作为网络的学习目标。

S32、递归神经网络前向迭代过程

递归神经网络的传播方式为前向传播，前向迭代过程的数据流传播表达式如下：

其中，h表示当前递归神经网络的层数，h'表示h层的前面的层；i表示训练样本的序号；I表示训练样本的个数；k表示下一层的层数；H表示h层之前的层数；a表示h层的输出值；θ_h表示h层的激活函数；b表示激活函数的输出值；w表示网络层可学习的参数。

S33、递归神经网络输出

递归神经网络输出层的输出表达式如下：

S34、递归神经网络输出

递归神经网络在输出之后，与真实值的误差还会通过反向传播过程进行纠正，过程如下：

其中，t表示时间；h表示当前的层数，表示h层在t时刻的梯度；θ'表示激活函数的导数。

S35、梯度下降算法训练

将训练集样本输入递归神经网络学习训练，采用梯度下降算法进行模型训练，当迭代次数到达规定次数，若损失函数收敛，则训练完成；若未收敛，则继续迭代直至收敛。

但递归神经网络的初始权值和偏置存在很大的随机化，网络在训练时容易陷入局部最优，无法进一步进行调整相关参数，导致模型收敛速度慢、预测精度不高和稳定性差等问题。目前对递归神经网络初始参数的选择较为广泛的智能优化算法主要有遗传算法和粒子群算法，但在寻优的过程中均会不同程度地陷入局部最优。如何确定递归神经网络的最佳初始权值和阀值，是提高递归神经网络性能的关键。

优选的，在S4中，引力搜索算法(Gravitational Search Algorithm,GSA)是基于牛顿第二定律的一种启发式优化算法；每个粒子都可以看作一个媒介(候选解)，在万有引力的作用，粒子之间相互吸引，使得粒子朝着质量最大的粒子运动，直至移动到搜索空间的最优位置，即得到优化问题的最优解。采用引力搜索算法优化递归神经网络的初始权值和偏置具体步骤如下：

S41、初始化引力算法参数

初始化引力搜索算法中的所有参数，其参数包括：种群大小N，最大迭代次数T_max，引力系数初始值G₀，衰减系数α，极小值常量ε，以及常数a，粒子的初始速度v_i ^d(t)，粒子的维数d。

假设一个搜索空间有N个个体，则第i个个体的位置可以被定义为

该算法在搜索空间中随机放置个体，每个个体代表问题的一个候选解，候选解组成种群p_i存储了递归神经网络的初始权值和偏置p_i＝[W₁,W₂,…,W_n，b₁,b₂,…,b_n]。

S42、求解作用力

根据牛顿万有引力公式，引力大小与两粒子质量成正比，与粒子间距离成反比，第d维上一个粒子i在t时刻受到另一个粒子j的作用力的计算公式如下：

其中，M_aj(t)、M_pi(t)分别为作用粒子j的惯性质量和被作用粒子i的惯性质量；

表示d维空间第j个粒子的位置；

表示d维空间第i个粒子的位置；R_ij(t)是第i个粒子和第j个粒子之间的欧氏距离；ε是一个常量，G(t)是在迭代次数t的引力常数。

S43、求解距离及引力常数

如上述万有引力公式，R_ij(t)为i与j之间的欧氏距离，计算表达式如下：

R_ij(t)＝||X_i(t),X_j(t)||²

其中，X_i(t)表示粒子i所处的位置，X_j(t)表示粒子j所处的位置；

G(t)是引力初始值G₀和迭代次数t的函数，计算公式如下：

其中，G₀为初始引力常数，α为衰减系数，分别取值100、20；t为当前迭代次数，T_max为最大迭代次数。

S44、求解总作用力

在万有引力算法中，假设t时刻d维搜索空间上作用在第i个物体上的总作用力等于其他所有质点对它的作用力之和，其大小为F_i ^d(t)，总作用力F_i ^d(t)表达式如下：

其中，N为粒子总数；rand_j是在[0，1]区间内的随机数，加入该随机数可以增加物体在解空间内的搜索范围，有利于跳出局部最优解，在全局范围内寻找最优解。

S45、求解粒子的加速度值和惯性质量

从牛顿的力学原理可以得知，粒子产生的加速度等于该粒子受到的引力总和与其惯性质量之比，得到物体i第d个分量t时刻所受合力后，根据牛顿第二定律，可以求得其在t时刻的粒子i的加速度a_i ^d(t)的计算公式如下：

其中，F_i ^d(t)是t时刻d维搜索空间上作用在第i个物体上的总作用力，M_i(t)是t时刻第i个粒子的惯性质量。

粒子的惯性质量依据其适应度值的大小来计算，惯性质量越大表明它越接近最优值，同时意味着该粒子的吸引力越大，但其移动速度却越慢。假设引力质量M_ai与惯性质量M_pi相等，粒子的质量M_i可以通过适当的运算规则去更新，更新算法如下所示：

M_aj＝M_pi＝M_ii＝M_i，i＝1,2,…,N，

其中，best(t)为在t时刻所有个体中最好的适应值；worst(t)为在t时刻所有个体中最坏的适应值；fit_i(t)代表在t时刻第i个个体的适应度值的大小。

S46、求解粒子的加速度值和惯性质量

将递归神经网络的初始值和激活函数的偏置作为引力搜索算法中粒子的坐标向量，并计算在当前权值和偏置下神经网络输出结果的误差均方根(MSE)作为粒子的适应度函数fit_i，表达式如下：

其中，fit_i为第i个粒子的适应度值；N为递归神经网络输出节点数；y_i和o_i分别为第i个节点的实际输出与期望输出；k为系数；

对于求解最小值问题，best(t)和worst(t)定义如下：

式中，求解最大值时，

求解最小值时，

S47、更新每个粒子的速度和位置

在下一次迭代中，粒子的新速度为部分当前速度与其加速度的总和，粒子的速度和位置的计算公式如下所示：

其中，v_i ^d(t+1)为t+1时刻粒子i在d维空间的速度，rand_i表示介于[0,1]之间的随机数，rand_i是用来给搜索赋予一个随机特征的；v_i ^d(t)为t时刻粒子i在d维空间的速度；x_i ^d(t+1)为t+1时刻粒子i在d维空间的位置；x_i ^d(t)表示为t时刻粒子i在d维空间的位置；

S48、迭代求解最优

更新种群粒子的万有引力系数G(t)、适应度函数值的最大值best(t)以及适应度函数值的最小值worst(t)，重复以上步骤直至达到最大迭代次数，选取适应度值最优的解作为算法的最优解，结束算法并返回。

将误差均方根的计算结果作为GSA算法的目标函数，并通过迭代计算得到神经网络权值和激活函数偏置的优化解，将GSA算法搜索得到的优化解作为递归神经网络的初始值，并通过误差的反向传播调整模型的相关参数，最终得到输出量的预测模型。

利用GSA优化好的网络初始权值与偏置构建引力搜索递归神经网络模型，并用训练样本进行训练，然后用训练好的引力搜索递归神经网络预测测试样本的输出，评估模型的预测精度。

优选的，其特征在于，在S5中，将测试集输入训练好的递归神经网络模型进行测试，验证模型的预测精度，若未达到设定预测精度则重新计算递归神经网络的初始连接权值和初始隐藏层偏置，并再次进行预测，如此反复迭代，直至达到精度要求，输出最优的递归神经网络违约概率预测模型。

优选的，在S5中，为了评价模型预测能力及模型的稳定性，采用均方误差(MSE)、平均绝对百分比误差(MAPE)、平均绝对误差(MAE)和拟合度系数(EC)作为评价指标，计算公式分别如下:

其中，n为预测样本的个数，y′_i为相应模型的预测结果，y_i为样本实际输出结果。

上述评价指标中，MSE、MAPE和MAE的取值越小，表明预测误差越小，相应模型的预测性能越好；EC的取值越接近于1，表明预测值与真实值之间的拟合程度越高，两者之间有更加相似的演化趋势。

优选的，在S6中，将递归神经网络模型部署至申请平台，获取实时申请客户的数据并将作为待测样本导入预测模型中输出违约概率预测结果，实现申请客户的实时审批，并定期将有表现数据输入到模型训练，实现模型的在线更新。

与现有技术相比，本发明的有益效果是：

1、本发明中，相比于BP、RBF和SOM等神经网络，递归神经网络具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归，能够减少了训练预测模型的特征工程工作量，较好地捕捉特征之间的关联关系。

2、本发明中，同遗传算法和粒子群算法相比，引力搜索算法以万有引力为信息传递的工具，实现粒子间优化信息的共享，具有原理简单、搜索速度快、高效易实现、全局优化和隐含并行搜索的恃点；

3、将递归神经网络与引力搜索算法结合建立的预测模型具有良好的全局搜索能力和收敛速度，且预测精度高，适用于贷款用户违约概率的预测。

附图说明

图1为本发明流程图；

图2为本发明对比实验图。

具体实施方式

请参阅图1，本发明提供一种技术方案：

归一化后结果的取值范围为[-1,1]。

S31、计算神经网络损失函数

S32、递归神经网络前向迭代过程

S33、递归神经网络输出

递归神经网络输出层的输出表达式如下：

S34、递归神经网络输出

S35、梯度下降算法训练

S41、初始化引力算法参数

S42、求解作用力

表示d维空间第j个粒子的位置；

S43、求解距离及引力常数

R_ij(t)＝||X_i(t),X_j(t)||²

G(t)是引力初始值G₀和迭代次数t的函数，计算公式如下：

S44、求解总作用力

S45、求解粒子的加速度值和惯性质量

M_aj＝M_pi＝M_ii＝M_i，i＝1,2,…,N，

S46、求解粒子的加速度值和惯性质量

对于求解最小值问题，best(t)和worst(t)定义如下：

式中，求解最大值时，

求解最小值时，

S47、更新每个粒子的速度和位置

S48、迭代求解最优

本专利还采用粒子群算法优化的递归神经网络模型(PSO-RNN)和遗传算法优化的递归神经网络模型(GA-RNN)建立了违规概率预测模型。各模型输入、输出变量选取以及样本数据和引力搜索算法优化的递归神经网络模型(GSA-RNN)模型相同，PSO-RNN模型参数设置为：粒子个数N＝20，更新速度c1＝c2＝2，权重w＝0.6；GA-RNN模型参数设置为：种群个数N＝20，交叉率为0.8，变异率为0.15，迭代次数为100，GSA-RNN模型参数设置：粒子数目N＝20，最大迭代数T＝50，初始引力常数G0＝100，衰减速率a＝20。

GSA-RNN模型的MSE、MAPE和MAE值均低于参比模型，其拟合度系数EC值均高于其他模型，表明该模型具有较小的预测误差，且拟合程度较高。

本申请还提供一种蜻蜓算法优化多核支持向量机的逾期风险预测系统，包括以下模块：

获取模块，用于获取训练样本信用数据及当前还款状态，所述信用数据包括：注册信息、贷款及历史还款行为信息、操作埋点数据；

预处理模块，用于对所述信用数据信息提取、预处理和归一化，去除不规则数据和填补缺失数据；

训练模块，根据建模样本数据特征，搭建递归神经网络模型，设置递归神经网络超参数，将训练集样本输入模型进行训练，信用数据作为输入，标签数据作为输出数据，通过梯度下降算法训练递归神经网络模型；

优化模块，用于采用引力搜索算法对递归神经网络的初始权值与偏置进行优化，得到优化后的递归神经网络的违约概率预测模型，并用训练集样本进行训练；

预测模块，将递归神经网络预测模型部署至贷款平台后端，获取客户的信用数据，使用递归神经网络预测模型对当前客户还款进行预测，若检测客户具有较高的违约概率，则向系统发出警报。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实例的说明只是用于帮助理解本发明的方法及其核心思想。以上所述仅是本发明的优选实施方式，应当指出，由于文字表达的有限性，而客观上存在无限的具体结构，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进、润饰或变化，也可以将上述技术特征以适当的方式进行组合；这些改进润饰、变化或组合，或未经改进将发明的构思和技术方案直接应用于其它场合的，均应视为本发明的保护范围。

Claims

1.一种基于引力搜索算法优化递归神经网络的违约概率预测方法，其特征在于，包括以下六个步骤：

2.根据权利要求1所述的一种基于引力搜索算法优化递归神经网络的违约概率预测方法，其特征在于，在S1中，从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本，采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据。信用数据包括：个人信息、贷款信息和操作埋点数据，采集的个人信息数据包括客户号、性别、出生日期、联系方式、居住地、家庭信息、学历、收入情况、负债情况、风险偏好、房屋和车辆的情况、工作所处行业、征信情况等；贷款信息数据分为已有贷款及申请贷款信息，主要包括贷款额度、贷款类型、贷款利率、贷款期限、每月归还额度；所述埋点数据包括埋点时采集的设备行为数据和日志数据，其中设备行为数据包括：登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度，另外日志数据包括：7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下，不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。

3.根据权利要求1所述的一种基于引力搜索算法优化递归神经网络的违约概率预测方法，其特征在于，在S2中，首先，结合常识和统计学规律对于原始数据进行预处理，剔除错误数据；其次，由于神经网络复杂，网络对于输入数据比较敏感以及输入数据有着不同的单位和取值范围，各神经网络的激活函数、学习规则不同，在进行递归神经网络模型预测前，需先对数据进行归一化处理，计算公式如下：

其中，x_max为样本数据中的最大值；x_min为样本数据中的最小值；x_i为原始数据；归一化后结果

的取值范围为[-1,1]。

4.根据权利要求1所述的一种基于引力搜索算法优化递归神经网络的违约概率预测方法，其特征在于，在S3中，递归神经网络(Recursive Neural Network)是一种具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络，采用递归神经网络来实现用户行为预测，减少了训练预测模型的特征工程工作量，能够较好地捕捉特征之间的关联关系，特别适用于贷款客户还款违约概率的监督预测。递归神经网络的学习过程如下：

S31、计算神经网络损失函数

S32、递归神经网络前向迭代过程

S33、递归神经网络输出

递归神经网络输出层的输出表达式如下：

S34、递归神经网络输出

S35、梯度下降算法训练

5.根据权利要求1所述的一种基于引力搜索算法优化递归神经网络的违约概率预测方法，其特征在于，在S4中，引力搜索算法(Gravitational Search Algorithm,GSA)是基于牛顿第二定律的一种启发式优化算法；每个粒子都可以看作一个媒介(候选解)，在万有引力的作用，粒子之间相互吸引，使得粒子朝着质量最大的粒子运动，直至移动到搜索空间的最优位置，即得到优化问题的最优解。采用引力搜索算法优化递归神经网络的初始权值和偏置具体步骤如下：

S41、初始化引力算法参数

S42、求解作用力

表示d维空间第j个粒子的位置；

S43、求解距离及引力常数

R_ij(t)＝||X_i(t),X_j(t)||²

其中，X_i(t)表示粒子i所处的位置；X_j(t)表示粒子j所处的位置；

G(t)是引力初始值G₀和迭代次数t的函数，计算公式如下：

S44、求解总作用力

S45、求解粒子的加速度值和惯性质量

M_ai＝M_pi＝M_ii＝M_i，i＝1,2,…,N，

S46、求解粒子的加速度值和惯性质量

对于求解最小值问题，best(t)和worst(t)定义如下：

式中，求解最大值时，

求解最小值时，

S47、更新每个粒子的速度和位置

S48、迭代求解最优

6.根据权利要求1所述的一种基于引力搜索算法优化递归神经网络的违约概率预测方法，其特征在于，在S5中，将测试集输入训练好的递归神经网络模型进行测试，验证模型的预测精度，若未达到设定预测精度则重新计算递归神经网络的初始连接权值和初始隐藏层偏置，并再次进行预测，如此反复迭代，直至达到精度要求，输出最优的递归神经网络违约概率预测模型。

7.根据权利要求1所述的一种基于引力搜索算法优化递归神经网络的违约概率预测方法，其特征在于，在S5中，为了评价模型预测能力及模型的稳定性，采用均方误差(MSE)、平均绝对百分比误差(MAPE)、平均绝对误差(MAE)和拟合度系数(EC)作为评价指标，计算公式分别如下:

8.根据权利要求1所述的一种基于引力搜索算法优化递归神经网络的违约概率预测方法，其特征在于，在S6中，将递归神经网络模型部署至申请平台，获取实时申请客户的数据并将作为待测样本导入预测模型中输出违约概率预测结果，实现申请客户的实时审批，并定期将有表现数据输入到模型训练，实现模型的在线更新。