CN109949152A

CN109949152A - 一种个人信贷违约预测方法

Info

Publication number: CN109949152A
Application number: CN201910297027.4A
Authority: CN
Inventors: 谭江来; 徐晗茜; 马玎
Original assignee: Wuhan University of Technology WUT
Current assignee: Wuhan University of Technology WUT
Priority date: 2019-04-15
Filing date: 2019-04-15
Publication date: 2019-06-28

Abstract

本发明公开了一种个人信贷违约预测方法，具体包括以下步骤，S1.采集借款人的个人信息数据和信贷账户活动信息数据建立数据库，剔除数据的缺失值和异常值，对数据进行预处理；S2.构造决策树，多个决策树的组合分类器组成随机森林，构造随机森林模型，对信贷数据样本进行分类；S3.将逻辑回归分析和随机森林算法相结合，提高分类准确率，完成个人信贷违约预测。本发明所述的方法更关注个人数据的多样性，信息获取分析全面，解决了现有技术依赖数据拟合的缺点；本方法具有适用范围广，受个体影响小，预测准确率高的优点。

Description

一种个人信贷违约预测方法

技术领域

本发明属于人工智能领域，具体涉及一种个人信贷违约预测方法。

背景技术

在个人信贷借贷行为中，借款人拥有较全面的信息，而放款人对借款人的信息了解有限，借贷双方存在严重的信息不对称问题。现有的信贷违约预测方法难以拟合非线性数据，忽略了多种价值信息的交叉和融合效果，没有充分挖掘复杂信息中的特征，预测准确率较低，一旦发生违约对于借款人的信用影响较大，同时也影响放款人的经济运行。

发明内容

为解决上述问题，本发明提出了一种基于随机森林的个人信贷违约行为预测方法，所述技术方案如下：

S1.采集借款人的个人信息数据和信贷账户活动信息数据建立数据库，剔除数据的缺失值和异常值，对数据进行预处理；

S2.构造决策树，多个决策树的组合分类器组成随机森林，构造随机森林模型，对信贷数据样本进行分类；

S3.将逻辑回归分析和随机森林算法相结合，提高分类准确率，完成个人信贷违约预测。

本发明具有信息获取分析全面，解决了现有技术依赖数据拟合的缺点，方法具有适用范围广，受个体影响小，准确率高的优点。

附图说明

图1为个人信贷数据库模型图；

图2为随机森林模型图。

具体实施方式

以下结合附图及实施例对申请技术方案进行详细叙述，本发明为一种个人信贷违约预测方法，所述的方法包括以下步骤：

S11.通过网络爬虫技术从个人信贷平台采集借款人的个人信息数据和信贷账户活动信息数据建立数据库，如图1所示，需要采集的个人信息数据包括客户号、性别、出生日期、联系方式、居住地、家庭信息、学历、收入情况、风险偏好、房屋和车辆的情况、所处行业、征信情况等，征信情况可以根据央行征信和百行征信进行查询，家庭信息包括婚姻状况、配偶收入、直系亲属人数、家庭收入、是否有子女等；信贷账户活动信息数据分为贷款、支付和交易，贷款包括账户号(每个人可以有多个账户)、贷款额度、贷款类型、发放日期、贷款期限、每月归还额度、还款状态、历史违约记录、未偿还贷款等，其中贷款类型分为是否有抵押、担保等；支付包括支付的账户号、收款银行、收款账户号、支付金额、支付方式等；交易包括交易账户号、交易日期、交易类型、交易金额、账户余额、对方银行、对方账户号等。将上述信息数据分为4个一级变量，如下表1所示，并将一级指标分解为16个二级指标，对所有二级指标进行分组，并赋予变量值。一级指标分别为：基本信息、经济情况、贷款情况、征信情况，基本信息对应的二级指标为：性别、年龄、家庭情况、居住地、学历，经济情况对应的二级变量为：年收入、行业性质、住宅性质、资产负债比，贷款情况的二级指标为：贷款额度、贷款期限、有无抵押或担保、负债月还资产占比、贷款用途，征信情况的二级变量为：央行征信和百行征信、历史记录情况。每个采集到的变量都有相对应的变量值，例如性别可用0和1代替，年龄分为几个年龄段，每个年龄段用数字表示。

表1变量分箱数据表

S12.采集的数据可能存在缺失、异常值等情况，由于样本数量足够多，可以剔除这部分缺失、异常值，去除可能由输入错误导致的重复数据。异常数据的显著特点是少且不同，因此更容易通过对数据空间的随机分割而独立出来。通过选定的样本属性及其值将样本空间进行随机划分，分割深度越小，异常的概率越大。设立采集的数据集为n个d维数据的样本集{x₁,x₂,...,x_n}，递归地随机选择分割属性q和对应的分割值p，将样本空间X进行划分，当分割的深度达到预定的阈值或节点只有一个样本数据时，分割完毕。将异常探测器用于采集的数据中，判断每个数据的异常情况，去除异常值。在剩下的数据中，可能存在一些比较明显的错误数据，称为“伪样本数据”，例如收入较低、没有房产却批准了大额贷款，伪样本数据可以根据经验判断出该样本数据是错误的，剔除伪样本数据。不同的指标数据具有不同的单位尺度，为了消除不同量纲的影响，需要对数据进行归一化处理：

其中，x_i是指标变量对应的原始数据，x_max和x_min分别是指标变量原始数据中的最大值和最小值。通过代数变换，将有量纲的变量数据变成无量纲的数值。

S21.由于现有的贷款违约数据大都是非平衡数据，通过具有并行特性的随机森林算法对大规模数据进行处理。首先构造决策树，决策树由根、树枝、叶子节点构成，根节点是整个信贷数据集合空间，从树根开始对所需分类记录的属性逐渐测试其值，每个树杈是一个分类选择节点，叶子节点是数据的分类结果。决策树通过熵增益率对对象属性进行分组判断，采集的数据X＝{x₁,x₂,...,x_n}分别以概率p(x₁),p(x₂),...,p(x_n)出现，则信息熵为：

由于信贷违约数据为非均匀分布，因此在每个节点选取尚未被用来划分的具有最高信息增益的属性和基尼系数作为划分标准，由于信贷违约预测属于二分类：违约和非违约，因此基尼指数只需考虑每个属性的二元划分，基尼指标为：

当基尼系数为0时，说明集合中的数据属于同一类别。为每一个属性值创建一个分支，当某个样本子集的属性值等于分支指定的值时，将该样本子集转移到新生成的子节点上。随机选取一些变量或特征参与树节点划分，重复多次并保证建立的决策树之间的独立性，通过随机扰动k对决策树做相关处理，多个决策树的组合分类器组成随机森林，当有样本输入时，森林中的每一棵决策树分别进行判断，选取较多决策树划分的类别作为样本的类别。

S22.设立服从独立同分布的随机扰动向量集合为{θ_k}，θ是介于1到d之间的一个随机数，d是数据样本的维数，构造随机森林模型h(X,f_k(θ))，如图2所示，X是输入向量集，f_k是单个决策树，k＝(1,K)，K是随机森林中决策树的数量。设立随机森林的间隔函数：

其中，(X,Y)是输入的向量，I是示性函数，间隔函数表示向量X正确分类为 Y的平均得票数超过其他任何类平均得票数的程度。若M(X,Y)＞0，说明K个分类器分类正确；否则，分类错误。利用间隔函数计算随机森林的泛化误差：

PE＝R_X,Y(M(X,Y)＜0)

随机森林的泛化误差取决于森林中单个决策树的分类强度和两棵树之间的相关性，随机森林的分类强度是间隔函数的期望值。随机森林两棵树的相关性与泛化误差成正比，分类强度与泛化误差成反比。最终以大多数决策树的分类结果作为预测结果。

S31.对数据样本X进行多元线性回归得到逻辑回归的输入向量h(x)：

h(x_i)＝β₀+β₁x₁+…+β_nx_n

其中，β₀是常数项，β_i(i＝1,2,...,n)是回归系数。对h(x)进行逻辑变换，得到预测向量集P：

通过预测向量集计算差值函数：

C(p_i,y_i)＝y_ilog(p_i)+(1-y_i)log(1-p_i)

其中，C是预测向量的似然函数，y_i∈{0,1}是分类类别。综上，得到总差值函数 J(β)：

从而得到最适合的β来进行合理的回归。由于逻辑回归无法选择变量，当对样本数据没有足够的先验知识时，直接使用逻辑回归使得变量之间的共线性问题较为突出，因此，采用随机森林和逻辑回归相结合的方法。

S32.随机森林中每个决策树的权重取决于其判断的错误率e_i，决策树的权重为：

其中，e_m是所有决策树错误率均值，e_min是所有决策树错误率最小值。错误率越小，所占权重越大。为了增强逻辑回归模型的泛化能力，用信息熵的方法对变量进行证据权重变换，并计算自变量的信息量。证据权重是根据按期还款占比和逾期还款占比计算得到：

其中，WOE_i,j是第i个变量中第j个分箱的WOE值，G是按期还款业务数，B是逾期还款业务数。通过WOE计算信息量：

其中，m是变量的分箱数。计算WOE值就是找出每个变量的区间划分，即分箱。

经上述步骤便完成了本发明实施例所述的一种个人信贷违约的预测。该方法具有较好的鲁棒性和泛用性，具有较高的执行效率，平均分类正确率显著提高，适用于大规模数据的快速离散化处理，在没有先验知识的情况下能有效减少参数调优和去除共线性所需时间，提高建模效率。

Claims

1.一种个人信贷违约预测方法，其特征在于，所述方法包括：

2.根据权利要求1所述的个人信贷违约预测方法，其特征在于，步骤S1的处理过程如下：

S11.通过网络爬虫技术从个人信贷平台采集借款人的个人信息数据和信贷账户活动信息数据建立数据库；

S12.去除可能由输入错误导致的重复数据。

3.根据权利要求1所述的个人信贷违约预测方法，其特征在于，步骤S2中对信贷数据样本进行分类的处理过程如下：

S21.由于现有的贷款违约数据大都是非平衡数据，通过具有并行特性的随机森林算法对大规模数据进行处理；

S22.设立服从独立同分布的随机扰动向量集合为{θ_k}，θ是介于1到d之间的一个随机数，d是数据样本的维数，构造随机森林模型h(X,f_k(θ))。

4.根据权利要求1所述的个人信贷违约预测方法，其特征在于，步骤S3的具体过程如下：

S31.对数据样本X进行多元线性回归得到逻辑回归的输入向量h(x)；

为了增强逻辑回归模型的泛化能力，用信息熵的方法对变量进行证据权重变换，并计算自变量的信息量。证据权重是根据按期还款占比和逾期还款占比计算得到：

其中，WOE_i,j是第i个变量中第j个分箱的WOE值，G是按期还款业务数，B是逾期还款业务数。