CN110288459A

CN110288459A - 贷款预测方法、装置、设备及存储介质

Info

Publication number: CN110288459A
Application number: CN201910341651.XA
Authority: CN
Inventors: 钟磊; 田羽; 岳帅; 陈刚; 兰翔
Original assignee: Wuhan Zhongbang Bank Co Ltd
Current assignee: Wuhan Zhongbang Bank Co Ltd
Priority date: 2019-04-24
Filing date: 2019-04-24
Publication date: 2019-09-27

Abstract

本发明公开了一种贷款预测方法、装置、设备及存储介质，所述方法包括：获取用户的贷款申请请求；提取所述贷款申请请求中的当前申请特征信息；通过所述高斯混合分布模型对所述当前申请特征信息对应的用户进行分类；根据分类结果以及所述当前申请特征信息通过所述预设用户贷款预测模型进行贷款通过率预测，得到贷款通过率的预测结果。本发明基于机器学习的贷款预测能够预测新进客户的违约概率，量化新进客户的风险，从而帮助贷款机构做出是否贷款给该客户的决策，相比传统人工决策，信用评分卡准确度更高、成本更低、消耗时间更少，因此对贷款机构的风险管理有益。

Description

贷款预测方法、装置、设备及存储介质

技术领域

本发明涉及计算机技术领域，尤其涉及一种贷款预测方法、装置、设备及存储介质。

背景技术

自互联网技术蓬勃发展以来，线上贷款突飞猛进，借款人数量增大的同时，恶意借款占比也急剧上升，并且线上贷款收集数据非金融特征远多于金融特征，数据样本量和结构复杂度远超以往，传统信用评分技术不再能够有效满足放贷机构的量化风险管理需求。

发明内容

本发明的主要目的在于提出一种贷款预测方法、装置、设备及存储介质，旨在解决采用传统信用评分技术预测精度不高的技术问题。

为实现上述目的，本发明提供一种贷款预测方法，所述贷款预测方法包括以下步骤：

获取用户的贷款申请请求；

提取所述贷款申请请求中的当前申请特征信息；

通过所述高斯混合分布模型对所述当前申请特征信息对应的用户进行分类；

根据分类结果以及所述当前申请特征信息通过所述预设用户贷款预测模型进行贷款通过率预测，得到贷款通过率的预测结果。

优选地，所述通过高斯混合分布模型对所述当前申请特征信息对应的用户进行分类之前，所述方法还包括：

获取建立高斯混合分布模型的历史均值，并将所述历史均值进行初始化；

根据所述历史申请特征信息、预设个参考高斯模型以及初始后的历史均值得到所述高斯混合分布模型。

优选地，根据所述历史申请特征信息、预设个参考高斯模型以及初始后的历史均值通过公式(一)得到高斯混合分布模型：

其中，K表示高斯模型混合的历史数量，N(x|u_k,∑k)是第k个高斯模型的历史类别概率密度函数，表示选定第k个模型后产生x的概率；π_k第k个高斯模型的历史权重，x表示历史申请特征信息，u_k第k个高斯模型的历史均值。

优选地，所述通过高斯混合分布模型对所述当前申请特征信息对应的用户进行分类，包括：

定义所述当前申请特征信息的初始分量数量，并设置所述当前申请特征信息对应的第k个高斯模型的初始权重、第k个高斯模型的初始均值以及高斯混合分布模型中的初始模型数量；

根据所述初始分量数量、初始权重、初始均值以及初始模型数量得到后验概率；

根据所述后验概率得到目标权重、目标均值以及目标模型数量；

根据所述目标权重、目标均值以及目标模型数量得到目标对数似然函数；

判断所述目标对数似然函数是否收敛，根据判断结果对所述当前申请特征信息对应的用户进行分类。

优选地，根据所述初始分量数量、初始权重、初始均值以及初始模型数量通过公式(二)得到后验概率；

其中，K表示高斯模型混合的初始数量，N(x|u_k,∑k)是第k个高斯模型的初始类别概率密度函数，表示选定第k个模型后产生x的概率；π_k第k个高斯模型的初始权重，x表示当前申请特征信息，u_k第k个高斯模型的初始均值。

优选地，根据所述目标权重、目标均值以及目标模型数量通过公式(三)得到目标对数似然函数；

其中，π表示目标权重，u目标均值，∑表示目标模型数量。

优选地，所述贷款申请请求包括用户收款账号信息；

所述根据分类结果以及所述当前申请特征信息通过所述预设用户贷款预测模型进行贷款通过率预测，得到贷款通过率的预测结果之后，所述方法还包括：

将所述预测结果与预设阈值进行比较；

在所述预测结果超过预设阈值时，获取所述贷款申请请求中的用户收款账号信息，根据所述用户收款账号信息响应所述贷款申请请求。

此外，为实现上述目的，本发明还提出一种贷款预测装置，所述贷款预测装置包括：

获取模块，用于获取用户的贷款申请请求；

提取模块，用于提取所述贷款申请请求中的当前申请特征信息；

分类模块，用于通过所述高斯混合分布模型对所述当前申请特征信息对应的用户进行分类；

预测模块，用于根据分类结果以及所述当前申请特征信息通过所述预设用户贷款预测模型进行贷款通过率预测，得到贷款通过率的预测结果。

此外，为实现上述目的，本发明还提出一种贷款预测设备，所述贷款预测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的贷款预测程序，所述贷款预测程序配置为实现如上所述的贷款预测方法的步骤。

此外，为实现上述目的，本发明还提出一种存储介质，所述存储介质上存储有贷款预测程序，所述贷款预测程序被处理器执行时实现如上文所述的贷款预测方法的步骤。

本发明提出的贷款预测方法，通过获取用户的贷款申请请求；提取所述贷款申请请求中的当前申请特征信息；通过所述高斯混合分布模型对所述当前申请特征信息对应的用户进行分类；根据分类结果以及所述当前申请特征信息通过所述预设用户贷款预测模型进行贷款通过率预测，得到贷款通过率的预测结果，基于机器学习的贷款预测能够预测新进客户的违约概率，量化新进客户的风险，从而帮助贷款机构做出是否贷款给该客户的决策，相比传统人工决策，信用评分卡准确度更高、成本更低、消耗时间更少，因此对贷款机构的风险管理有益。

附图说明

图1是本发明实施例方案涉及的硬件运行环境的贷款预测设备结构示意图；

图2为本发明贷款预测方法第一实施例的流程示意图；

图3为本发明贷款预测方法第二实施例的流程示意图；

图4为本发明贷款预测方法第三实施例的流程示意图；

图5为本发明贷款预测装置第一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

参照图1，图1为本发明实施例方案涉及的硬件运行环境的贷款预测设备结构示意图。

如图1所示，该贷款预测设备可以包括：处理器1001，例如中央处理器(CentralProcessing Unit，CPU)，通信总线1002、用户接口1003，网络接口1004，存储器1005。其中，通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如按键，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速随机存取存储器(Random Access Memory，RAM)存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

本领域技术人员可以理解，图1中示出的设备结构并不构成对贷款预测设备的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及贷款预测程序。

在图1所示的贷款预测设备中，网络接口1004主要用于连接外网，与其他网络设备进行数据通信；用户接口1003主要用于连接用户设备，与所述用户设备进行数据通信；本发明设备通过处理器1001调用存储器1005中存储的贷款预测程序，并执行本发明实施例提供的贷款预测的实施方法。

基于上述硬件结构，提出本发明贷款预测方法实施例。

参照图2，图2为本发明贷款预测方法第一实施例的流程示意图。

在第一实施例中，所述贷款预测方法包括以下步骤：

步骤S10，获取用户的贷款申请请求。

需要说明的是，本实施例的执行主体为贷款预测设备，例如贷款预测服务器等，还可为其他设备，本实施例对此不作限制。

在本实施例中，申请用户可通大数据平台，填写所需的信息，例如个人身份信息、职业信息和联系人信息等，完善身份认证，人脸识别和活体识别，绑定手机号码和银行卡等，为提升客户体验还可采用光学字符识别(Optical Character Recognition，OCR)等技术获取数据，目的在于确保基础信息的真实性，防止伪冒申请。

步骤S20，提取所述贷款申请请求中的当前申请特征信息。

在本实施例中，可将所述贷款申请请求中的个人资料信息与预设关键字信息进行比较，将所述个人资料信息中含有所述预设关键字信息的目标资料信息作为所述当前申请特征信息，其中，所述预设关键字信息可为贷款金额以及还款日期等与用户的还款概率相关的关键字信息，从而通过关键字信息进行有效信息的提取，提高用户的目标还款概率预测的准确性。

步骤S30，通过所述高斯混合分布模型对所述当前申请特征信息对应的用户进行分类。

在本实施例中，为了确定客户风险分类标准，即模型学习的标签，在业务上是对借款人未来还款状况预测的一种定性描述，一般而言是划分为两类，写为1和0，分别代表高风险客户(违约可能性大)和低风险客户(违约可能性小)。

未来还款状况的预测是基于过往借款人历史信息的分析，借款人数据主要分为两部分，一是申请资料数据集，另一部分是放款后还款状况的数据集，即贷后表现数据集，故分析工作也由两部分组成。

对借款人申请数据进行检测，发现多变量呈现高斯分布(多变量正态分布)，申请数据的分析采取高斯混合模型(GMM)，依次将借款人分为2簇(类)，即高风险客户(违约可能性大)和低风险客户(违约可能性小)，分别记为1和0。

在具体实现中，高斯混合模型(GMM)，首先确定申请用户的置信度分类标准，并根据置信度大小分别标记1和0，然后选择申请用户申请信息簇的数量并随机初始化每个簇的高斯分布参数，给定每个簇的高斯分布，计算每个申请信息数据点属于每个簇的概率，一个点越靠近高斯分布的中心就越可能属于该簇。

步骤S40，根据分类结果以及所述当前申请特征信息通过所述预设用户贷款预测模型进行贷款通过率预测，得到贷款通过率的预测结果。

根据数据从备选模型里选择至少两种模型算法及StratifiedKFold和AR值模型检验标准，根据各模型返回的分数大小选取最终建模使用的模型，其中，备选模型算法包括：逻辑回归、决策树、二分类(GBDT)、信用评分(Xgboost)。

逻辑回归：

逻辑回归的特征不能选择太多了，可以做一套基模型，因为稳定性比较高，入参的特征不适合太多了，单独的逻辑回归求得混淆矩阵，获得recall以及Precision，后续借用GridSearchCV进行模型参数自动调优。

决策树：

决策树有ID3、C4.5以及CART树，其中ID3只用于连续性变量，C4.5和CART树可以用于连续变量也可以用于分类变量(离散变量)。

1.主要是二叉树；

2.最大叶子树，一般设置为8个，因为叶子数太多，决策树的结构越复杂，因为多了容易过度拟合。

GBDT二分类：

GBDT二分类模型，是基于树模型，在信用评分模型中，可以用GBDT二分类模型跑一遍，将分值和LR的结果得分进行比对，往往GBDT效果可能比LR的更加优秀。

信用评分(Xgboost)：

1.适合做各类模型，尤其是信用评分模型；

2.Xgboost相较于GBDT的提升，在于Xgboost在目标函数中显示的加上了正则化项，可以避免模型过拟合；

3.Xgboost中比较重要的参数：

num_rounds＝500；

early_stopping_rounds＝50以及

bst＝xgb.train(param,dtrain,num_boost_round,evals,early_stopping_rounds)；

XGBoost模型和其他模型一样，如果迭代次数过多，也会进入过拟合。表现就是测试集上的测试误差开始上升或者拟合精度开始下降，或者说波动，可以在训练的时候设置参数来解决因为迭代次数过多而过拟合的状态。如，设置early_stopping_rounds＝50，表示如果区域面积(Area Under Curve，AUC)在50轮迭代之内都没有提升的话，就停止，如果说evals参数有很多个指标，那就以最后一个指标为准。如

evals＝[(dtrain,‘train’),(dvalid,‘valid’),(doot,‘oot’)]，则以oot的拟合精度的提升作为参考值；

early_stopping_rounds：提前停止，设置为50，当连续50次迭代精度没有提高时，停止训练(事实上并没有停止训练，只是模型会保存最好的结果，在预测时bst.predict(dtest,ntree_limit＝model.best_ntree_limit)。

StratifiedKFold：

StratifiedKFold是一种模型性能检验的方法。在保证分的每一份fold里面的正负样本比例和原数据的相同情况下，所有的样例划分为k个组，称为折叠(fold)，每个折叠(fold)都具有相同的大小。预测函数学习时使用k-1个折叠中的数据，最后一个剩下的折叠会用于测试。

模型检验标准AR值：

采用信用评分卡领域常用的评价指标AR统计量值来衡量预测结果。AR值越高表明模型对好坏样本的区分能力越强。以累计好样本数、累计坏样本数分别为曲线坐标的x、y值，首先计算该曲线与x轴围成的面积AUC。第i组梯形面积计算公式为：(y_i+y_(i-1))*(x_i-x_(i-1))/2，

AUC值为所有梯形面积加和，AR＝2*AUC-1。

选定算法后，使用Python为模型主要开发工具，该工具目前已经集成前文所述所有算法，直接调用建模即可。

模型构建好后，使用python将模型封装成桌面程序或程序模块，供贷款机构使用，如贷款机构具备业务处理IT系统，则将该程序模块部署到系统上。如贷款机构不具备IT设施条件，则使用桌面可执行程序(.exe文件)，需要手工把建模所需数据输入到程序里，程序处理后返回评分结果。

本实施例通过上述方案，通过获取用户的贷款申请请求；提取所述贷款申请请求中的当前申请特征信息；通过所述高斯混合分布模型对所述当前申请特征信息对应的用户进行分类；根据分类结果以及所述当前申请特征信息通过所述预设用户贷款预测模型进行贷款通过率预测，得到贷款通过率的预测结果，基于机器学习的贷款预测能够预测新进客户的违约概率，量化新进客户的风险，从而帮助贷款机构做出是否贷款给该客户的决策，相比传统人工决策，信用评分卡准确度更高、成本更低、消耗时间更少，因此对贷款机构的风险管理有益。

在一实施例中，如图3所示，基于第一实施例提出本发明贷款预测方法第二实施例，所述步骤S30之前，所述方法还包括：

步骤S301，获取建立高斯混合分布模型的历史均值，并将所述历史均值进行初始化。

需要说明的是，在选择借款人申请信息簇的数量并随机初始化每个簇的高斯分布参数，例如均值μ＝μ0和方差D＝D0，从而提高模型的初始值进行调整，达到提高模型精度的目的。

步骤S302，根据所述历史申请特征信息、预设个参考高斯模型以及初始后的历史均值得到所述高斯混合分布模型。

进一步地，所述根据所述历史申请特征信息、预设个参考高斯模型以及初始后的历史均值通过公式(一)得到高斯混合分布模型：

本实施例提供的方案，通过获取历史申请特征信息，根据所述历史申请特征信息建立所述高斯混合分布模型，从而基于机器学习得到当前用户特征信息的分布情况，实现对用户的有效分类。

在一实施例中，如图4所示，基于第一实施例或第二实施例提出本发明贷款预测方法第三实施例，在本实施例中，基于第一实施例进行说明，所述步骤S30，包括：

步骤S303，定义所述当前申请特征信息的初始分量数量，并设置所述当前申请特征信息对应的第k个高斯模型的初始权重、第k个高斯模型的初始均值以及高斯混合分布模型中的初始模型数量。

在本实施例中，首先定义分量数目K,对每个分量k设置π_k，u_k和∑K的初始值，然后计算式的对数似然函数，通过高斯混合分布模型中的对数似然函数实现对用户的分类，

步骤S304，根据所述初始分量数量、初始权重、初始均值以及初始模型数量得到后验概率。

根据当前的π_k、u_k、∑k计算后验概率r(z_nk)。

分子π_k是第k个高斯模型的权重，分母π_j是第j个高斯模型的权重，根据条件概率和贝叶斯公式计算出后验概率。

步骤S305，根据所述后验概率得到目标权重、目标均值以及目标模型数量。

通过这些概率基于最大期望算法(Expectation-Maximization algorithm,EM)算法估计高斯分布参数使得数据点的概率最大化。

步骤S306，根据所述目标权重、目标均值以及目标模型数量得到目标对数似然函数。

M step

根据E step中计算的r(z_nk)再计算新的π_k、u_k以及∑k

其中：

改写等价于：

其对数似然函数为：

步骤S307，判断所述目标对数似然函数是否收敛，根据判断结果对所述当前申请特征信息对应的用户进行分类。

检查参数是否收敛或对数函数是否收敛，若不收敛则返回第2步，直至收敛为止，最后聚类为标签为0和1的样本数据，将样本数据作为训练样本输入。

进一步地，所述步骤S304通过公式(二)得到后验概率；

进一步地，所述步骤S306通过公式(三)得到目标对数似然函数；

其中，π表示目标权重，u目标均值，∑表示目标模型数量。

进一步地，所述贷款申请请求包括用户收款账号信息，所述步骤S40之后，所述方法还包括：

将所述预测结果与预设阈值进行比较。

需要说明的是，所述预设阈值为70％，还可为其他参数，本实施例对此不作限制，在本实施例中，以70％为例进行说明，例如在预测出的贷款通过率结果为50％时，与70％进行比较，则小于预设阈值，在这种情况下，目标还款概率结果与预设阈值小，则说明用户的还款几率不大。

在本实施例中，为了提高贷款效率，在用户的贷款通过率结果超过预设阈值时，则说明用户为优质客户，则可直接通过用户的收款账号信息进行打款，方便用户可进行及时贷款，提高用户体验。

本实施例提供的方案，通过基于最大期望估计高斯分布参数使得数据点的概率最大化，根据最大期望估计的对数似然函数进行收敛的状态实现对用户的分类，相比较传统的用户分类方法可达到更精确的目的。

本发明进一步提供一种贷款预测装置。

参照图5，图5为本发明贷款预测装置第一实施例的功能模块示意图。

本发明贷款预测装置第一实施例中，该贷款预测装置包括：

获取模块10，用于获取用户的贷款申请请求。

提取模块20，用于提取所述贷款申请请求中的当前申请特征信息。

分类模块30，用于通过所述高斯混合分布模型对所述当前申请特征信息对应的用户进行分类。

预测模块40，用于根据分类结果以及所述当前申请特征信息通过所述预设用户贷款预测模型进行贷款通过率预测，得到贷款通过率的预测结果。

逻辑回归：

决策树：

1.主要是二叉树；

GBDT二分类：

信用评分(Xgboost)：

1.适合做各类模型，尤其是信用评分模型；

3.Xgboost中比较重要的参数：

num_rounds＝500；

early_stopping_rounds＝50以及

bst＝xgb.train(param,dtrain,num_boost_round,evals,early_stopping_rounds)；

StratifiedKFold：

模型检验标准AR值：

AUC值为所有梯形面积加和，AR＝2*AUC-1。

此外，本发明实施例还提出一种存储介质，所述存储介质上存储有贷款预测程序，所述贷款预测程序被处理器执行如上文所述的贷款预测方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个计算机可读存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台智能终端设备(可以是手机，计算机，终端设备，空调器，或者网络终端设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种贷款预测方法，其特征在于，所述贷款预测方法包括：

获取用户的贷款申请请求；

提取所述贷款申请请求中的当前申请特征信息；

2.如权利要求1所述的贷款预测方法，其特征在于，所述通过高斯混合分布模型对所述当前申请特征信息对应的用户进行分类之前，所述方法还包括：

3.如权利要求2所述的贷款预测方法，其特征在于，根据所述历史申请特征信息、预设个参考高斯模型以及初始后的历史均值通过公式(一)得到高斯混合分布模型：

4.如权利要求1至3所述的贷款预测方法，其特征在于，所述通过高斯混合分布模型对所述当前申请特征信息对应的用户进行分类，包括：

5.如权利要求4所述所述的贷款预测方法，其特征在于，根据所述初始分量数量、初始权重、初始均值以及初始模型数量通过公式(二)得到后验概率；

6.如权利要求4所述所述的贷款预测方法，其特征在于，根据所述目标权重、目标均值以及目标模型数量通过公式(三)得到目标对数似然函数；

其中，π表示目标权重，u目标均值，∑表示目标模型数量。

7.如权利要求1至3中任一项所述的贷款预测方法，其特征在于，所述贷款申请请求包括用户收款账号信息；

将所述预测结果与预设阈值进行比较；

8.一种贷款预测装置，其特征在于，所述贷款预测装置包括：

获取模块，用于获取用户的贷款申请请求；

9.一种贷款预测设备，其特征在于，所述贷款预测设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的贷款预测程序，所述贷款预测程序配置为实现如权利要求1至7中任一项所述的贷款预测方法的步骤。

10.一种存储介质，其特征在于，所述存储介质上存储有贷款预测程序，所述贷款预测程序被处理器执行时实现如权利要求1至7中任一项所述的贷款预测方法的步骤。