CN112037012A

CN112037012A - 一种基于pso-bp神经网络的互联网金融信用评价方法

Info

Publication number: CN112037012A
Application number: CN202010819199.6A
Authority: CN
Inventors: 江远强; 韩璐; 李兰
Original assignee: Baiweijinke Shanghai Information Technology Co ltd
Current assignee: Baiweijinke Shanghai Information Technology Co ltd
Priority date: 2020-08-14
Filing date: 2020-08-14
Publication date: 2020-12-04

Abstract

本发明公开了一种基于PSO‑BP神经网络的互联网金融信用评价方法，通过获取信息的结果真实值，对获取数据归一化处理和主成分分析降维，划分测试集与训练集，初始化BP神经网络的输入节点数、输出节点数和隐藏层节点数，使用传统得梯度下降法和反向传播来不断调整网络的权值和阈值构建BP神经网络模型，以粒子群算法优化连接权值和阈值得到PSO‑BP神经网络模型，验证集用于验证和调优，将模型部署至申请系统对实时申请客户的数据进行特征参数提取并预测分类；本发明大幅提高BP神经网络的收敛速度，得到的PSO‑BP神经网络的信用评价模型可以准确、快速地实现对互联网金融申请者的信用评价，有效地提高了申请审批的业务时效性，降低了风控成本和申请欺诈风险。

Description

一种基于PSO-BP神经网络的互联网金融信用评价方法

技术领域

本发明属于互联网金融行业的风控技术领域，具体提供一种利用粒子群算法(Particle Swarm optimization，PSO)优化BP神经网络的互联网金融信用评价方法。

背景技术

随着银行、第三方支付、P2P、互联网借贷平台的发展，互联网金融对于个人信用评价的需求越来越高，除了使用基于逻辑回归、支持向量机、随机森林等各种算法的评分卡模型，基于神经网络的信用评价方法是一个很大技术领域。其中BP(Back Propagation)神经网络由于具备结构简单和适用性强等优点，使用最为广泛。

BP神经网络又称误差反向传播神经网络，可利用误差反向调节神经网络的权值和阈值，具有很强的非线性映射能力，由于将信息全部存储于网络的连接权系数中，使网络具有一定的泛化能力和容错性。BP神经网络具有任意复杂的模式分类能力和优良的多维函数映射能力，特别适用于互金行业对于申请个人的信用评价。但传统的BP算法采用的是梯度下降法，不可避免地存在对初始权值敏感、收敛速度慢、学习率不稳定、易陷入局部极值等系统性缺陷。并且现有技术中BP神经网络的初始参数是人为设定产生的，受人为因素影响导致BP神经网络算法的收敛效果不佳，从而影响个人信用评价的准确率。

当前有更多的优化算法应用于BP神经网络参数优化当中，采用遗传算法是一个比较好的方法，能够做到全局优化且鲁棒性强，但遗传算法优化BP神经网络需要首先给定随机产生权值和阈值的取值区间，若最优的权值和阈值不在给定范围内，很难搜索到最优解。而且采用遗传算法优化BP神经网络的子代种群个体数量与父代个体数量始终保持相同，导致子代中出现优秀个体的概率低，使得收敛速度慢且易陷入局部最优。

如何有效的解决BP网络易陷于局部极小、收敛速度慢问题，需要权衡局部搜索和全局搜索，提高收敛速度，从而准确、快速地实现对互金信用等级评价，是本领域技术人员亟待解决的问题。

发明内容

为了解决上述技术问题，本发明中披露了一种基于PSO-BP神经网络的互联网金融信用评价方法，本发明的技术方案是这样实施的：

本发明公开一种基于PSO-BP神经网络的互联网金融信用评价方法，包括以下步骤：

步骤1：从互联网平台后端采集客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据，以及客户的贷后表现数据作为客户好坏标签和模型预测结果的真实值；

步骤2：对采集的数据特征提取，进行标准化处理和主成分分析降维，按申请时间划分训练集和验证集；

步骤3：首先根据训练集的特点初始化BP神经网络的输入节点数、输出节点数和隐藏层节点数，使用传统得梯度下降法和反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小，构建BP神经网络模型；

步骤4：建立粒子与BP神经网络的连接权值和阈值的映射关系，以全局误差作为粒子的适应度函数，通过调整粒子速度和位置优化BP神经网络的连接权值和阈值，得到训练集PSO-BP神经网络模型；

步骤5：将验证集样本代入PSO-BP神经网络模型测试模型的准确率和稳定性，以验证集的均方误差作为适应度函数，再次利用PSO对验证集优化得到最优的PSO-BP神经网络预测模型；

步骤6：将验证集优化的PSO-BP神经网络预测模型部署至申请平台，对申请系统实时数据进行特征提取处理后输入训练后模型中得到申请评价结果，对疑似异常状态的申请发出系统预警，进行人工审批环节或拒绝申请。

进一步地，在步骤1中，从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本，采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据。其中用户的个人申请信息包括：手机号、学历、婚姻状况、工作单位、住址、联系人信息，征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据；所述埋点数据包括埋点时采集的设备行为数据和日志数据，其中设备行为数据包括登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度，另外日志数据包括：7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下，不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。

进一步地，所述的步骤2中对采集的数据特征提取，进行标准化处理和主成分分析降维，标准化采用z-score归一化处理从而统一各数据的量纲，主成分分析法可处理样本中的孤立点、噪音数据，消除特征间的自关联性，删除冗余指标达到降维效果，便于处理高维数据。

进一步地，在步骤3中，首先根据训练集的特点初始化BP神经网络的输入节点数、输出节点数和隐藏层节点数，使用传统得最速下降法通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小，构建BP神经网络模型，具体步骤如下：

步骤3-1：神经网络的公式描述如下：

T_out＝f(T_in1,T_in2,…,T_inn)

其中，T_out是神经网络需要预测的数据值，T_in1,T_in2,…,T_inn分别是神经网络输入层输入的n个数据值；

步骤3-2：隐藏层节点数p确定，为了避免复杂，本发明采用神经网络隐藏层数为1，隐藏层节点数p与输入层节点数n、输出层节点数q具有以下的函数关系：

其中，p为隐藏层节点数，n为输入层节点数(由实际的输入个数决定)，q为输出层节点数(根据实际需求来决定)，a为1～10之间的常数。

步骤3-3：隐藏层节点的输出为:

其中，O_j表示隐藏层的输出，j＝1,2,…,p隐藏层节点，f(x)一般选用Sigmoid为激励函数

x_i表示隐藏层的输入，i＝1,2,…,n是输入层节点，ω_ij表示隐藏层的权值，θ_j表示隐藏层的阈值；

步骤3-4：输出层节点的输出为：

其中，y_k表示输出层的输出，O_j表示输出层的输入(即为隐藏层节点的输出)，T_jk表示输出层的权值，θ_k表示输出层的阈值，i＝1,2,…,n是输入节点，j＝1,2,…,p是隐藏层节点,k＝1,2,…,q是输出节点，n、p、q分别为为输入层、隐藏层、输出层节点数。

步骤3-5：BP神经网络模型构建，BP神经网络的基本结构公式如下：

Y＝sigmoid[W₂·sigmoid(W₁·X-O₁)-O₂]

其中，Y＝(y₁,y₂,…,y_q)为BP神经网络输出矩阵，X＝(x₁,x₂,…,x_n)为BP神经网络输入矩阵，Sigmoid为激励函数

W₁、W₂分别为BP神经网络中输入层到隐藏层、隐藏层到输出层的连接权值矩阵，O₁、O₂为BP神经网络中输入层到隐藏层、隐藏层到输出层的阈值矩阵。

步骤3-6：使用梯度下降法和反向传播调整网络的权值和阈值

当实际输出与期望输出不符时，进入误差的反向传播阶段，误差通过输出层，以网络的误差平方和最小为目标函数，按误差梯度下降的方式修正各层权值，向隐藏层、输入层逐层反传，周而复始的信息正向传播和误差反向传播过程，不断调整各层权值进行学习训练，达到误差减少到可以接受的程度，或者预先设定的学习次数为止，选取此时的网络的权值和阈值，建立初步的BP神经网络。

进一步地，在步骤4中，建立粒子与BP神经网络的连接权值和阈值的映射关系，以BP神经网络训练集的全局误差作为粒子的适应度函数，通过对粒子速度和位置调整使得BP神经网络的连接权值和阈值不断更新换代，使得BP神经网络全局误差小于设定值或者达到最大迭代次数，根据此时粒子的位置取得到BP神经网络最优的连接权值和阈值，构建训练集的PSO-BP神经网络，具体步骤如下：

步骤4-1：建立粒子与BP神经网络连接权值和阈值的映射关系

粒子群算法(PSO)源于对鸟群捕食行为研究，用于寻找全局最优解，粒子速度由粒子自身和其他粒子共同进行动态调整并决定下一步运动的方向和距离，每个粒子的适应度通过适应度函数进行计算，最优适应度函数代表最优的方案。

根据BP神经网络的连接权值、阈值来确定粒子维数，连接权值和阈值总数与输入层、隐藏层、输出层节点的关系如下：

d＝np+pq+p+q

其中，d为连接权值和阈值总数，n为输入层节点数，p为隐藏层节点数，q为输出层节点数；

步骤4-2：初始化粒子位置和速度，将需要优化的连接权值和阈值作为每个粒子的位置向量，其中每个粒子初始位置参数取[0,1]之间的随机数，生成粒子的速度矩阵和位置矩阵，其中，粒子个体数量由具体数据规模和训练集数据规模决定，一般取20-40之间；

步骤4-3：定义适应度函数，粒子位置和速度初始化后，随机产生一个种群，以BP神经网络训练的全局误差作为粒子的适应度函数评价适应度值fitness，适应度函数fitness计算公式如下：

其中，i＝1,2,…,N是训练样本数，y_i为训练集第i个客户贷后表现好坏的真实值，y′_i为BP神经网络的预测客户贷后好坏的期望值。

步骤4-4：根据适应度函数fitness计算每一次迭代中粒子适应度值进行比较，确定每个粒子的个体极值和全局最优极值来更新每个粒子的最优位置和速度；

假设M个粒子构成D维搜索空间中的粒子群，在每一次迭代过程中，粒子通过个体极值和全局极值更新自身的速度V_id和位置X_id，更新公式如下：

其中，w为惯性权重(w平衡了PSO的局部搜索能力和全局搜索能力，一般取0.5)，c₁、c₂为加速度因子(通常取2，一般在0-4之间)，r₁、r₂为分布于[0,1]之间的随机数，d＝1,2,…,D是数据维度，i＝1,2,…,M是粒子数，k是迭代次数，

表示当前粒子的个体极值，

表示当前粒子的全局极值。

步骤4-5：对每次迭代后的结果进行分析，用该次迭代得到的当前适应度值fitmess(i)和个体当前粒子的个体极值

进行比较，如果

则用fitmess(i)更新当前粒子的个体极值

如果

则用fitmess(i)更新当前粒子的全局极值

同时速度V_id和位置X_id的公式更新当前粒子的速度和位置。

步骤4-6：根据适应值fitness小于设定值或达到最大迭代次数k_max为原则，评价每一代粒子群中的所有个体，并不断迭代直到达到最大迭代次数，找到个体适应度最小值值fitness_min，对应得到个体最优解g_best和粒子群的全局最优解p_best；

步骤4-7：把粒子群的全局最优解p_best得到的最优个体赋给BP神经网络模型，确定PSO-BP神经网络模型的最优连接权值和阈值，得到训练集的BP神经网络模型。

进一步地，在步骤5中，将验证集样本代入训练集得到BP神经网络训练模型，计算验证集的均方误差MSE：

其中，y_i为验证集第i个客户贷后表现好坏的真实值，y′_i为BP神经网络的预测客户贷后好坏的期望值，i＝1,2,…,N是验证集样本数。

并将验证集的均方误差作为粒子的适应度函数，再次利用粒子群算法，采用K折交叉验证法进一步优化PSO-BP神经网络预测模型，并根据模型评估指标，如AUC、KS，与SVM、GBDT、逻辑回归、随机森林的模型效果进行对比。

进一步地，在步骤6中，将最终优化的PSO-BP神经网络预测模型部署至申请平台，对申请系统实时数据进行特征参数提取后在线异常检测监控，对疑似异常状态的申请发出系统预警，进行人工审批环节或拒绝申请。

与现有技术相比，本发明具有以下有益的技术效果：

(1)相比较于基于逻辑回归、支持向量机、随机森林、GBDT等传统评分卡模型算法，BP神经网络具有任意复杂的模式分类能力和优良的多维函数映射能力，具有更高的泛化能力和较高准确率，特别适用于互金信用评价方法；

(2)相对于采用梯度下降法、遗传算法等优化方法，粒子群算法优化BP神经网络不仅能够扩大神经网络的权值和阈值的取值范围，还能权衡局部搜索和全局搜索，加快BP神经网络的收敛速度，从而准确、快速地实现对实时申请用户的信用评价。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一种实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在一种优选的实施方式中，结合图1所示，步骤2中所述的归一化处理是采用Z-score标准化，统一了量纲，使数据满足标准的高斯分布分布，避免了放大某些数量级较大的值的影响，从而使模型结果更加准确。

在一种优选的实施方式中，结合图1所示，步骤2中所述的采用主成分作为处理高维数据的办法，步骤如下：

步骤2-1：将采集的n个样本的特征数据构成空间特征数据集X＝{x₁,x₂,…,x_i,…,x_n}∈R^n×m，其中每个样本测得m个变量的数据，这n×m个数据构成一个空间特征数据集分析矩阵X如下：

可知x_ij(i＝1,2,…,n；j＝1,2,…,m)为第i条样本的第j个特征变量的取值。

步骤2-2：计算每个申请行为样本各个特征的均值和标准差：

步骤2-3：利用Z-score归一化得到标准化矩阵Z＝(z_ij)_n×m，计算公式如下：

步骤2-4：求解相关系数矩阵R＝(r_jk)_m×m，计算公式如下：

步骤2-5：求解特征值及特征向量：由特征方程|λE-R|＝0(其中E为单位向量)求出相关系数矩阵R的特征值由大到小排序λ₁＞λ₂＞…＞λ_m以及对应特征向量为l₁,l₂,…,l_m。

步骤2-6：降维：按累计方差贡献率

的原则，确定k，从而可取前k个主成分，得到主成分矩阵(F_ij)_n×k，主成分降维后的矩阵计算公式如下：

由原始数据X_(n×m)降维至主成分矩阵(F_ij)_n×k，即从原始m维降至k维，矩阵中的各个列向量F_v(v＝1,2,…,k)即为所有申请样本的第v主成分值。

在一种优选的实施方式中，在步骤3中，构建BP神经网络，相关研究证明，单隐藏层的BP神经网络模型可逼近任何有理函数，实现数据的非线性映射，并且通过调整隐藏层节点数可调试模型精确度，选择单隐藏层BP神经网络模型提高了模型预测准确率、操作性和泛化能力。输入层节点数由预测变量个数确定，隐藏层节点数与输入层、输出层之间不存在明确的依赖关系且比较复杂，可通过以下经验公式得到隐藏层节点数的取值范围：

其中，p为隐藏层节点数，n为输入层节点数，q为输出层节点数，a为1～10之间的常数。

通过测试不同隐藏层节点数得到训练误差，当训练均方根误差最小，取得最好的隐藏层节点数。

在一种优选的实施方式中，在步骤3中，设定BP神经网络模型中的传递函数、学习函数和训练函数。本研究选取Sigmoid函数作为隐藏层的传递函数、softmax函数作为输出层的传递函数，选取交叉熵损失函数作为学习函数来用于调整权值和阀值，选取共扼梯度反向传播算法作为训练函数用于神经网络的训练。

另一方面，本发明还提供一种基于PSO-BP神经网络的个人信用评价系统，包括：

样本获取单元，用于获取包括个人申请信息、操作行为埋点数据和贷后还款表现作为评价结果的训练样本；

数据处理单元：对采集的数据特征提取，进行标准化处理和主成分分析降维；

BP神经网络构建单元：对处理后的数据输入BP神经网络，使用传统得梯度下降法和反向传播来不断调整网络的权值和阈值，构建BP神经网络预测模型；

粒子群优化单元：建立粒子与BP神经网络的连接权值和阈值的映射关系，以全局误差作为粒子的适应度函数，通过对粒子速度和位置调整BP神经网络的连接权值和阈值，得到PSO-BP神经网络模型；

评价检测单元：对实时数据进行特征提取处理后输入训练后模型中得到申请评价结果。

需要指出的是，以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.本发明公开一种基于PSO-BP神经网络的互联网金融信用评价方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于PSO-BP神经网络的互联网金融信用评价方法，其特征在于，在步骤1中，从互联网金融平台后端根据贷后表现选取一定比例和数量正常还款和逾期客户作为建模样本，采集样本客户账户注册申请时的个人基本信息、监测软件中获取操作行为埋点数据。其中用户的个人申请信息包括：手机号、学历、婚姻状况、工作单位、住址、联系人信息，征信报告获取的个人基本信息、信用交易信息、公共信息、特别记录数据；所述埋点数据包括埋点时采集的设备行为数据和日志数据，其中设备行为数据包括登录本平台的次数、点击次数、点击频率、输入总耗时及平均耗时、手机号数据、GPS位置、MAC地址、IP地址数据、地理信息申请频次、IP的申请频次、设备电量占比、陀螺仪的平均加速度，另外日志数据包括：7天内登录次数、首次点击到申请授信时长、一天内最多的session数、申请授信前一周的行为统计等。另外在合规要求下，不限于获取移动互联网行为数据、贷款APP内行为数据、信贷历史、运营商数据在内的全域多维度大数据。

3.根据权利要求1所述的一种基于PSO-BP神经网络的互联网金融信用评价方法，其特征在于，所述的步骤2中对采集的数据特征提取，进行标准化处理和主成分分析降维，标准化利用z-score归一化处理从而将各数据的量纲统一，主成分分析法可处理样本中的孤立点、噪音数据，消除特征间的自关联性，删除冗余指标达到降维效果，便于处理高维数据，方法如下：

步骤2-2：计算每个申请行为样本各个特征的均值和标准差：

步骤2-3：求解标准化矩阵：利用Z-score归一化得到标准化矩阵Z＝(z_ij)_n×m，计算公式如下：

步骤2-4：求解相关系数矩阵R＝(r_jk)_m×m，计算公式如下：

步骤2-5：求解特征值及特征向量：由特征方程|λE-R|＝0(其中E为单位向量)求出相关系数矩阵R的特征值由大到小排序λ₁＞λ₂＞…＞λ_m以及对应特征向量为l₁,l₂,…,l_m

步骤2-6：降维：按累计方差贡献率

的原则，确定k，从而通过取前k个主成分，得到主成分矩阵(F_ij)_n×k，主成分降维后的矩阵计算公式如下：

由原始数据X_(n×m)降维至主成分矩阵(F_ij)_n×k，即从原始m维降至k维，矩阵中的各个列向量F_v(v＝1,2,…,k)即为所有申请样本的第v主成分值；

将主成分分析处理的数据集按照申请时间按照7：3比例进行划分为训练集数据和测试集。

4.根据权利要求1所述的一种基于PSO-BP神经网络的互联网金融信用评价方法，其特征在于，在步骤3中，首先根据训练集的特点初始化BP神经网络的输入节点数、输出节点数和隐藏层节点数，使用传统得最速下降法通过反向传播来不断调整网络的权值和阈值，使网络的误差平方和最小，构建BP神经网络模型，具体步骤如下：