CN113034268A

CN113034268A - 一种基于改进分类组合的个人信贷信用风险预测方法

Info

Publication number: CN113034268A
Application number: CN202110359366.8A
Authority: CN
Inventors: 吴东鹏; 杨沛衡; 徐典
Original assignee: Hohai University HHU
Current assignee: Hohai University HHU
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2021-06-25

Abstract

本发明公开了一种基于改进分类组合的个人信贷信用风险预测方法，包括确定数据集、将数据均衡化处理、进行组合分类、进行违约率预测等步骤。本发明能保证训练集正负样本比例均衡的同时，还能解决少数样本重复使用的问题，亦使得测试集数据分布及正负样本比例均与原数据集保持一致。得到各份训练集后，将各个分类器用于1份训练集而不是所有训练集进行训练，以防止模型过拟合，最后各个机器学习模型通过加权投票的方式提高准确性和稳定性。本发明方法在LendingClub第一季度到第四季度的数据中进行实验，结果表明，本模型能够在消除了数据样本不均衡的影响下得到较好的违约率预测效果，相较于其他机器学习模型，本模型在各项指标上表现均为最优。

Description

一种基于改进分类组合的个人信贷信用风险预测方法

技术领域

本发明属于个人信贷风险预测技术领域，具体涉及一种基于改进分类组合的个人信贷信用风险预测方法。

背景技术

众多企业和银行或依靠自身实力研发智能风控平台，或与金融科技公司及征信机构广泛开展业务合作，将以大数据机器学习为核心的信贷风控方案深度嵌入信用风险控制流程之中。

目前学术界对个人信贷信用风险预测方法进行了一定的研究与探索，常用的方法有平衡计分卡法、专家评分法、模型无关类倾向评分归因法、单一机器学习算法及机器学习集成算法。文献[胡忠义,王超群,陈远,吴江,鲍玉昆.基于多分类器动态集成的P2P违约风险评估[J].管理学报,2019,16(06)：915-922.]中对样本进行K均值聚类后以不同的基分类器处理不同区域样本，从而构建出多分类器动态集成模型，但是这种方法会导致最后训练出来的分类器只能很好的拟合同一簇内的数据，集成投票时各个分类器会相互影响，难以保证在其他数据分布下仍有较好的效果。

文献[王重仁,韩冬梅.基于超参数优化和集成学习的互联网信贷个人信用评估[J].统计与决策,2019,35(01)：87-91.]中对机器学习算法指导决策树构建的传统教学式方法进行改进，在生成伪数据集过程中结合weight-SMOTE算法改变决策树的学习偏好，但该种方法难以避免原本不存在的新增样本对数据集内在分布的影响。

文献[徐桂琼,李微.基于组合分类的P2P贷款逾期风险预警研究[J].管理现代化,2019,39(04)：9-12.]重视金融样本高度不均衡造成的少数样本错误分类风险，运用TwoStep聚类思想对样本进行均衡化处理，从而构造结构平衡的训练集。但其方法存在一定缺陷，会导致逾期样本在训练集和测试集中有部分重合，进而造成预测模型准确率虚高。

发明内容

本发明以机器学习集成算法进为基础，针对当前机器学习在个人信贷风险控制应用中存在的违约信息数据存在大量数据不均衡，模型拟合的数据分布不一致的问题，提出了一种基于改进分类组合的个人信贷信用风险预测方法，能够保证训练集正负样本比例均衡的同时，也能保证训练集和验证集符合原来数据集的总体分布，本申请所用方法避免了原本不存在的新增样本对数据集内在分布的改变，同时通过集成投票的分类器模型提高预测的稳定性和准确性。

本发明采用如下技术方案：

一种基于改进分类组合的个人信贷信用风险预测方法，包括如下步骤：

步骤1：确定数据集，进行数据处理后，利用基于随机森林的递归特征消除方法确定影响借款状态的预测因子。

步骤2：将数据均衡化处理。

步骤3：进行组合分类，训练各个分类器。

步骤4：进行违约率预测。

所述步骤1主要是数据预处理，消除冗余信息对预测造成的干扰，并且筛选出对违约率预测具有重要程度的预测因子，具体包括：

步骤11：确定数据集。将真实交易的数据经过脱敏处理，将借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级作为数据集内容，其中目标数据标签为“借款状态”；

步骤12：以“借款状态”(loan status)特征作为目标数据标签，将“宽恕期中”、“已偿清”界定为非逾期，记为0；将“逾期16～30天”、“逾期31～120天”、“违约”、“核销”界定为逾期，记为1。

步骤13：剔除缺失值比例在55％以上的特征。随后剔除值同值性超过99％的特征、与逾期行为明显无关的特征及离群值过多的特征。最后可以得到数据样本。

步骤14：针对于fico_score和last_fico_score两个特征，采用信贷违约预测中常见的处理方法，以fico评分的平均水平作为fico评级的代理变量。

对于表中的特征作了以下处理：

fico score＝0.5×fico range low+0.5×fico range high

last fico score＝0.5×last fico range low+0.5×last fico range high

步骤15：分别计算出各候选预测因子与借款状态的相关系数；

相关系数的计算公式为：

式中，X_i为第i个样本的预测因子值的大小，

为预测因子的均值，Y_i为第i个样本的实测值大小，

为实测值均值，M为样本总数量；

步骤16：将剔除相关性大于0.9的特征直接剔除。

步骤17：采用基于遗传算法的粗糙集约简策略进行特征筛选，得到特征集最后将上述特征用于基于随机森林的递归式特征消除中再进一步进行特征筛选。

式中，l_M为M×M的矩阵，每一个元素都为1/M；

所述步骤17包括：

步骤171：将粗糙集约简策略筛选完的特征作为初始特征集。

步骤172：采用随机森林算法拟合具有当前特征集的数据，然后计算各个特征的重要性程度，并进行排名。

步骤173：删除k个特征，更新当前特征集。

步骤174：跳转到步骤172，直到特定数量的特征被保留下来，此时特征集包含所有重要性程度较高的特征。

所述步骤2主要是消除数据不均衡的影响，切分出训练集和验证集，保证训练集正负样本均衡的同时使训练集和验证集维持原本的数据分布，具体包括：

步骤21：设一不均衡样本数据集D，该数据集的目标列为0和1两个类别。该数据集中目标列值占多数的记为多数类样本集M，目标列值占少数的记为少数类样本集L。

步骤22：计算D的数据样本不均衡度为：

(其中|X|表示该数据的样本个数)

步骤23：计算切分数量：

步骤24：将M和L进行二阶聚类，得到k2个簇，分别记为M₁M₂……M_k2及L₁L₂.....L_k2

步骤25：对于M的每个簇M_i(1≤i≤k2)，都平均分成k2份子集，记为M_i1M_i2......M_ik2(1≤i≤k2)，对于L的每个簇L₁L₂......L_k2，都平均分成k2份子集,记为L_i1L_i2......L_ik2。

步骤26：对M_ij(1≤i≤k2，1≤j≤k2)进行重新组合，得到m₁m₂......m_k2，其中m_i＝M_1i∪M_2i∪......∪M_k2i；对L_ij按上述方法同样进行重新组合，得到l₁l₂......l_k2，

其中l_i＝L_1i∪L_2i∪......∪L_k2i

将m₁和l₁组合成验证集V，供后续实验使用。l₂l₃......l_k2组合成少数训练样本集，记为S。

步骤27：将m_i(2≤i≤k2)分别与S合并成为训练集T。

所述步骤3主要是将各个分类器应用于不同的训练集，最后进行集成投票，提高模型预测的准确性和稳定性。具体包括：

步骤31：经过数据均衡化处理后会产生k1个训练集及1个验证集。在本申请中k1＝3。

步骤32：采用XGBoost分类器拟合训练集1，其中对于XGBoost，本申请选择的超参数组合为，max_depth为10，learning rate为0.01，n_estimators为100，其余参数采用系统默认参数。

步骤33：AdaBoost分类器拟合训练集2，对于Adaboost,本申请选择的超参数组合为，max_depth为20，learning rate为0.05，n_estimators为80，其余参数选择系统默认参数。

步骤34：高斯朴素贝叶斯拟合训练集3，均选择系统默认参数。

步骤35：。将分类器XGBoost，AdaBoost，GaussianNB以4∶2∶1的权重比例进行加权投票，输出最终结果。

所述步骤4包括：

步骤41：将预测因子数据输入基于改进组合分类的集成投票违约率预测模型中，输出违约率结果。

本发明的有益效果在于：

本发明能保证训练集正负样本比例均衡的同时，还能解决少数样本重复使用的问题，亦使得测试集数据分布及正负样本比例均与原数据集保持一致。得到各份训练集后，将各个分类器用于1份训练集而不是所有训练集进行训练，以防止模型过拟合，最后各个机器学习模型通过加权投票的方式提高准确性和稳定性。

本发明方法在LendingClub第一季度到第四季度的数据中进行实验，结果表明，本模型能够在消除了数据样本不均衡的影响下得到较好的违约率预测效果，相较于其他机器学习模型，本模型在各项指标上表现均为最优。

附图说明

图1为基于改进分类组合的个人信贷信用风险预测结构框图。

具体实施方式

下面结合附图和具体实施，进一步阐明本发明，应理解这些实例仅用于说明本发明而不用于限制本发明的范围，在阅读了本发明之后，本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。

结合图1描述本发明的技术细节。在本发明中，将改进分类组合和集成投票引入到个人信贷信用风险预测，该方法主要包括以下四个步骤：

一是数据处理后，利用基于随机森林的递归特征消除方法确定影响借款状态的预测因子；二是将数据均衡化处理；三是进行组合分类，训练各个分类器组成集成投票模型。

四、进行违约率预测

以下详细描述各步骤的具体实现过程：

步骤一、预测因子的确定

具体包括如下步骤：

步骤11：确定数据集，将真实交易的数据经过脱敏处理，将借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级作为数据集内容，其中目标数据标签为“借款状态”；

对于表中的特征作了以下处理：

fico score＝0.5×fico range low+0.5×fico range high

last fico score＝0.5×last fico range low+0.5×last fico range high

相关系数的计算公式为：

式中，X_i为第i个样本的预测因子值的大小，

为预测因子的均值，Y_i为第i个样本的实测值大小，

为实测值均值，M为样本总数量；

步骤16：将剔除相关性大于0.9的特征直接剔除。

所述步骤17包括：

步骤171：将粗糙集约简策略筛选完的特征作为初始特征集。

步骤173：删除k个特征，更新当前特征集。

步骤二、数据均衡化处理

具体包括如下步骤：

步骤22：计算D的数据样本不均衡度为：

(其中|X|表示该数据的样本个数)

步骤23：计算切分数量：

步骤24：将M和L进行二阶聚类，得到k2个簇，分别记为M₁M₂……M_k2及L_1L2.....L_k2

其中l_i＝L_1i∪L_2i∪......∪L_k2i

步骤27：将m_i(2≤i≤k2)分别与S合并成为训练集T。

步骤三、进行组合分类，训练各个分类器组成集成投票模型

具体包括如下步骤：

步骤四、违约率预测

具体包括如下步骤：

为了验证本发明预测效果，选取Lending Club公布的2018年第一到第四季度信贷数据作为研究对象。披露的真实交易数据已经过脱敏处理，包含150个特征变量，覆盖借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级等方面。共有167452条数据样本，其中128282个非逾期样本，39170个逾期样本。在该数据的基础上建立改进组合分类的集成投票违约率预测模型。

模型的正负样本比例为133577：48503，不均衡比例大约为2.75，由此可以计算出均衡化处理的系数k1＝3，k2＝4。按照上述处理数据不均衡比例的方法可以得到三个训练集和一个验证集。其中验证集的正负样本比例为33397：12127。由表1可以看出训练集经过处理后保持正负样本均衡。此外，训练集和验证集也符合原来样本的数据分布。

表1样本均衡化结果

平衡训练集	样本数量	非逾期贷款	逾期贷款
				T1	69771	33395	36376
T2	69769	33393	36376
				T3	69768	33392	36376

由表1可以发现，本模型通过数据均衡处理后得到的验证集满足原来数据的分布，正负样本比例也维持不变，减轻了数据集不均衡对模型准确性的影响。通过集成投票后，各项指标均有一定提升，这是由于本模型的三个分类器分别对不同的均衡样本训练集进行了训练拟合，且通过投票加权的方式增强了模型的鲁棒性。

为了进一步验证被本申请提出模型的有效性，利用原来数据中未进行数据均衡化处理的数据进行实验。其中由于本申请所选取的验证集的样本为45524个，占总数据样本的25.0％，因此对传统单一模型所采用的训练集和验证集由总体数据样本随机切分得到，其中切分比例为训练集：验证集＝3∶1，但只取其中的训练集部分进行训练，对于验证集则进行丢弃，而用数据均衡处理得到的验证集用以进行最后模型效果的验证。通过以上的方法，即可保证传统模型和本申请模型得到的有效训练和验证样本数量是一致的。

考虑到切分的随机性，对切分实验重复进行50次取平均值，即可得到各单一模型训练的效果，如表2。

表2本模型和传统机器学习预测模型性能评价

模型	准确率	F1-Score	漏报率	AUC
					本申请模型	91.7％	0.843	12.0％	0.953
XGBoost	91.1％	0.819	24.8％	0.861
					AdaBoost	87.7％	0.756	28.8％	0.824
GaussianNB	84.6％	0.715	24.2％	0.758

通过表2可以得到，进行随机切分进行训练得到的各个分类器得分明显低于本申请模型所训练出的分类器及集成投票模型。尽管传统XGBoost模型在准确率上仍有优秀的表现，但其其余的指标明显低于本模型所训练的XGBoost。由于验证集中正负样本比例为3∶1，传统XGBoost模型准确率高而其他指标较低，这表明传统模型在预测多数样本集上有着较好的表现，但是在预测少数样本上不具有稳定好的表现。而传统AdaBoost模型和传统GaussianNB模型的表现也比本申请所提出的模型更低。

Claims

1.一种基于改进分类组合的个人信贷信用风险预测方法，其特征在于，包括如下步骤：

步骤1：确定数据集，进行数据处理后，利用基于随机森林的递归特征消除方法确定影响借款状态的预测因子；

步骤2：将数据集中的数据进行均衡化处理；

步骤3：对经过均衡化处理后的数据进行组合分类，训练各个分类器组成集成投票模型；

步骤4：进行违约率预测；将预测因子数据输入基于改进组合分类的集成投票违约率预测模型中，输出违约率结果。

2.如权利要求1所述的基于改进分类组合的个人信贷信用风险预测方法，其特征在于，所述步骤1包括：

步骤11：确定数据集；将真实交易的数据经过脱敏处理，将借款人资产状况及现金流、借款期限及相关日期、银行账户、征信查询、信用评级作为数据集内容，其中目标数据标签为“借款状态”；

步骤12：将借款状态中的“宽恕期中”、“已偿清”界定为非逾期，记为0；将“逾期16～30天”、“逾期31～120天”、“违约”、“核销”界定为逾期，记为1；

步骤13：剔除缺失值比例在55％以上的特征，随后剔除同值性超过99％的特征、与逾期行为明显无关的特征及离群值过多的特征，最后得到数据样本；

步骤14：针对于fico_score和last_fico_score两个特征，采用信贷违约预测中常见的处理方法，以fico评分的平均水平作为fico评级的代理变量，进行以下处理；

fico score＝0.5×fico range low+0.5×fico range high；

last fico score＝0.5×last fico range low+0.5×last fico range high；