CN112700324A

CN112700324A - 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法

Info

Publication number: CN112700324A
Application number: CN202110024644.4A
Authority: CN
Inventors: 张涛; 张冰
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-04-23

Abstract

本发明公开了基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，目标变量定义，选取建模的客户数据，对所述金融机构自身的字段和所述第三方数据字段进行分类；数据预处理，处理不平衡的数据，利用测试集通过使用准确率、查准率、召回率、f1‑度量和AUC值这5个评价指标上对所训练的模型进行评估，基于建立的模型，对贷款用户进行违约预测。本方法根据已有贷款客户的基本信息数据、征信数据、行为数据等，预测一个新的借款人的违约概率，起到提前预警的作用，预估未来的坏账比例，及时做好资金安对违约概率可能性较高的客户给与更多的关注，以避免损失，减少监控与监测过程中的人工参与部分，利用自动化的方法提高放款审核的准确率和效率。

Description

基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法

技术领域

本发明涉及互联网金融风控技术领域，尤其是涉及一种基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法。

背景技术

近年来，金融行业的借贷业务在中国发展十分迅速，然而法律层面的监管相对较弱，有一定的监管盲区。借贷行业的门槛较低，参与人群的质量有很大差异，因此，金融行业的借贷业务的风险水平较高。对于以信贷类服务为主要业务的互联网金融借贷平台，由于信息技术不完善，平台无法有效把控资产端风险，借贷用户违约现象不断，用户为了获得企业的贷款，对自己的相关信息可能存在隐瞒、欺骗的风险，这样不对称的用户信息会增加企业的信贷风险，可能会给企业造成一定的损失。通过对借贷用户在网购、交易、社交等平台的信誉及行为数据进行深入挖掘和分析，对将分散在不同场景分散化的局部信息进行加工融合，能够使其成为完整的全局信息。利用以大数据为基础，以机器学习方法为手段建立的违约预测模型，能够将用户的有效信息转化为用户的违约概率，能够很好地解决借贷用户与借贷平台在交易过程中的存在的信息不对称的问题。

目前，金融大数据使用了更多的第三方数据，主要包括多头借贷行为、互联网、网上购物、第三方支付、反欺诈等数据，极大丰富了信用评估的可用数据维度，这使得全方位有效地对用户进行违约预测成为可能，但同时也对预测模型的特征处理性能提出了更高的要求。金融信贷机构特征集合普遍具有数量多、纬度高的特点，但用户违约预测应关注的并不是数据规模本身，而是这些海量数据中有价值的特征，按照传统的方式人工进行特征筛选已不能很好的适用当前的信贷场景，依托先进的机器学习、数据挖掘等技术，金融保险行业的信贷相关的数据无论是在规模还是在数据来源上都有了长足的进步发展。在对用户进行违约预测的过程中，引入机器学习相关模型构造学习策略和模型体系，是对借贷用户进行风险控制较为常见的手段。

最近几年，很多学者针对用户借贷违约提出了许多新的用户借贷违约预测模型，这些模型大体上可以分为两类：第一类是应用层次分析法、模糊综合评价法等统计学方法建立的信用指标评价体系，并指定每个指标的主观权重。第二类是使用线性的数据挖掘算法建立的风险评估模型，这些模型存在一些共性的问题：评估准确率低，究其原因是信用数据存在非线性结构。而可以处理非线性结构数据的二分类算法应用比较广泛的有：支持向量机和BP神经网络。但是金融贷款数据存在类不平衡的特点，例如拍拍贷平台正常还款记录大约是违约记录的10 倍，对于这样的风险数据，支持向量机模型的第一类错误误判率较高，即把正常还款客户判为违约客户。BP神经网络也存在同样的问题，而且BP神经网络模型只有训练集和预测集的误差相近时，模型才具有泛化能力。

因此，有必要设计一种准确率更高的用户借贷违约预测模型。

发明内容

为了解决以上技术问题，本发明中提供了一种基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，旨在为数据集所对应的借贷平台提供借款用户的违约预测方法，根据已有贷款客户的基本信息数据、征信数据、行为数据等，预测一个新的借款人的违约概率，可以起到提前预警的作用，预估未来的坏账比例，及时做好资金安排，也可以对违约概率可能性较高的客户给与更多的关注，及时发现问题，以避免损失，减少监控与监测过程中的人工参与部分，利用自动化的方法提高放款审核的准确率和效率。

为实现上述目的，本发明的技术方案如下：

一种基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，包括如下步骤：

步骤一：目标变量定义，根据vintage分析，观察各月份平均逾期的走势，确定表现窗口的时间跨度，将表现期内逾期天数超过90天的用户定义为“坏用户”，将表现期内逾期天数未超过90天的用户定义为“好用户”；

步骤二：数据获取，选取建模的客户数据，获取金融机构自身的字段和客户授权的第三方征信数据字段；

步骤三：探索性数据分析，对所述金融机构自身的字段和所述第三方数据字段进行分类，了解数据的大体情况，包括每个字段的缺失值情况、异常值情况、平均值、中位数、最大值、最小值以及分布情况；

步骤四：数据预处理，包括脏数据清洗、缺失值处理和异常值处理；

步骤五：特征工程，包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选，确定哪些是可能的违约因素；

步骤六：处理不平衡的数据，本发明采用一种较完善的向上采样方法——合成少数类过取样算法(SyntheticMinority Over-sampling Technique),简称SMOTE 算法。利用少数类样本构造人工样本来平衡数据,某种程度上能改善过拟合问题。通过在特征空间中相邻近样本之间嵌入人工样本来增加少数类的样本数目；

步骤七：将筛选的特征中的离散特征向量利用CatBoost算法进行转化得到catboost_vector，其中经过CatBoost处理之后的特征向量不仅可以将离散特征向量转化为数值型变量，而且可以组合类别特征，利用特征之间的联系，丰富特征维度。将经过CatBoost处理之后的特征向量和步骤五筛选出的连续特征相结合作为受限玻尔兹曼机模型的输入层在训练集上模型。

步骤八：利用测试集通过使用准确率、查准率、召回率、f1-度量和AUC值这5个评价指标上对所训练的模型进行评估，基于建立的模型，对贷款用户进行违约预测。

作为优选地，所述步骤一中，收集历史接待客户的数据作为样本集，每个借贷客户的数据包括n维评价指标数据和违约标签target，根据vintage分析，将表现期内逾期天数超过90天的用户定义为“坏用户”表示贷款违约，target＝1，将表现期内逾期天数未超过90天的用户定义为“好用户”，表示正常还款，targer＝0。

作为优选地，所述步骤二中，金融机构自身的字段包括客户的年龄、户籍、性别、收入、负债比以及在本机构的借款行为，第三方征信数据字段包括多头借贷、APP行为特征、网购行为、第三方支付、反欺诈数据。

作为优选地，所述步骤四中的缺失值处理包括删除缺失率较大的样本、根据样本值的相似性或者变量之间的关系填补缺失值，如平均值或中位数填充，或使用随机森林来预测该值进行填充；所述步骤四中的异常值处理包括单变量异常值检测、局部离群值因子检测。

作为优选地，所述步骤五中的变量分箱包括：通过卡方分箱选出对逾期状态影响最显著的字段、针对特征变量进行自动化分箱、根据分箱后的特征变量进行用户借贷违约预测；所述自动化分箱实现方法为，将数据等频切分为p个区间，设定最大的分箱个数n，计算每一相邻区间的卡方值，将卡方值最小的一对区间合并；统计现存的数据区间数量q，如果q>n，重复执行计算，直至q≤n。所述步骤五中的WOE转换为对每个特征变量分箱后的每组进行WOE转换，其计算公式为：

在该式中，WOEi表示第i个分箱的WOE值，good表示为“好用户”；#good(i)表示第i个分箱中标签为“好用户”的数量；#good(T)为标签为“好用户”的总数量； bad表示为“坏用户”；#bad(i)表示第i个分箱标签为“坏用户”的数量，#bad(T)为标签为“坏用户”的总数量。在实施方式中，卡方分箱是自底向上的(即基于合并的)数据离散化方法。它依赖于卡方检验，具有最小卡方值的相邻区间合并在一起，直到满足确定的停止准则，步骤包括：预先设定一个卡方的阈值；初始化：根据要离散的属性对区间进行排序；合并区间：计算每一对相邻区间分卡方值，再将卡方值最小的一对区间合并。

作为优选地，所述步骤五中的信息值IV相当于WOE的加权求和，衡量自变量的预测能力，信息值IV的计算公式如下：

作为优选地，所述步骤六中的SMOTE算法，是合成少数类过采样技术.它是基于随机过采样算法的一种改进方案，由于随机过采样采取简单复制样本的策略来增加少数类样本，这样容易产生模型过拟合的问题，即使得模型学习到的信息过于特别(Specific)而不够泛化(General)，SMOTE算法的基本思想是对少数类样本进行分析并根据少数类样本人工合成新样本添加到数据集中。算法流程如下：

(1)对于少数类中每一个样本x，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻。

(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其k近邻中随机选择若干个样本，假设选择的近邻为xn。

(3)对于每一个随机选出的近邻xn，分别与原样本按照如下的公式构建新的样本。

作为优选地，所述步骤七中，使用目标变量统计(TS)处理离散型特征向量，目标变量统计用于估算每个类别的目标变量期望值。甚至有人直接用TS作为一个新的数值型变量来代替原来的类别型变量。重要的是，可以通过对TS数值型特征的阈值设置，基于对数损失、基尼系数或者均方差，得到一个对于训练集而言将类别一分为二的所有可能划分当中最优的那个。Ordered TS是CatBoost 的主要思想，它依靠排序原则，采用了一种更为有效的策略。主要有以下几个步骤：

(1)产生一个随机排列顺序$\sigma$并对数据集进行编号

(2)对于训练样本：$\mathcal{D}_k＝{X_j:\sigma(j)<\sigma(k)}$

(3)对于测试样本：$\mathcal{D}_k＝\mathcal{D}$

(4)根据带先验概率的Greedy TS计算$\hat{x}_k^i$

这样计算得到的Ordered TS能够满足P1，同时也能够使用所有的训练样本。且比在线学习的划窗(sliding window)处理能够进一步减小$\hat{x}_k^i$的方差。需要注意的是，CatBoost在不同的迭代上会采用不同的排列顺序。

CatBoost的另外一项重要实现是将不同类别型特征的组合作为新的特征，以获得高阶依赖(high-order dependencies)。然而，组合的数量会随着数据集中类别型特征的数量成指数增长，因此在算法中考虑所有组合是不现实的。为当前树构造新的分割点时，CatBoost会采用贪婪的策略考虑组合。对于树的第一次分割，不考虑任何组合。对于下一个分割，CatBoost将当前树的所有组合、类别型特征与数据集中的所有类别型特征相结合，并将新的组合类别型特征动态地转换为数值型特征。CatBoost还通过以下方式生成数值型特征和类别型特征的组合：树中选定的所有分割点都被视为具有两个值的类别型特征，并像类别型特征一样地被进行组合考虑。

作为优选地，所述步骤八中，模型评估的指标分别为准确率、精确率、召回率、F1值、AUC，对训练的模型进行评估。这些评价指标直接或间接都与混淆矩阵有关，前四者可以从混淆矩阵中直接计算得到，AUC值则要通过ROC曲线进行计算，而ROC曲线的横纵坐标又和混淆矩阵联系密切。对于一个二分类问题，我得到混淆矩阵：混淆矩阵的行表示数据在模型上的预测类别(predicted class/predicted condition)，列表示数据的真实类别(actualclass/true condition)。通过混淆矩阵。

其中准确率的计算公式如下：

准确率表示预测正确的样本(TP和TN)在所有样本(all data)中占的比例。在数据集不平衡时，准确率将不能很好地表示模型的性能。可能会存在准确率很高，而少数类样本全分错的情况，此时应选择其它模型评价指标。

精确率和召回率的计算公式如下：

精确率为：

召回率为：

精确率表示在预测为positive的样本中真实类别为positive的样本所占比例；positive class的召回率表示在真实为positive的样本中模型成功预测出的样本所占比例。召回率只和真实为positive的样本相关，与真实为negative的样本无关；而精确率则受到两类样本的影响。

F1值的计算公式如下:

F1值就是精确率和召回率的调和平均值，F1值认为精确率和召回率一样重要。

AUC全称为Area Under Curve，表示一条曲线下面的面积，ROC曲线的AUC 值可以用来对模型进行评价。ROC曲线如下所示：

ROC曲线的纵坐标True Positive Rate(TPR)在数值上就等于positive class 的recall，记作recallpositive，横坐标False Positive Rate(FPR)在数值上等于(1 -negative class的recall)，记作(1-recallnegative)如下所示：

通过对分类阈值θ(默认0.5)从大到小或者从小到大依次取值，可以得到很多组TPR和FPR的值，将其在图像中依次画出就可以得到一条ROC曲线，阈值θ取值范围为[0,1]。

ROC曲线在图像上越接近左上角(0,1)模型越好，即ROC曲线下面与横轴和直线FPR＝1围成的面积(AUC值)越大越好。直观上理解，纵坐标TPR就是 recallpositive值，横坐标FPR就是(1-recallnegative)，前者越大越好，后者整体越小越好，在图像上表示就是曲线越接近左上角(0,1)坐标越好。

需要指出的是，以上所述并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一些实施例中基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法的流程图。

具体实施方式

为使本发明实施例的目的、技术效果及技术方案更加清楚，下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述；

参阅图1，本发明实施例的一种基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，包括如下步骤：

步骤六：处理不平衡的数据，本发明采用一种较完善的向上采样方法——合成少数类过取样算法，简称SMOTE算法。利用少数类样本构造人工样本来平衡数据,某种程度上能改善过拟合问题。通过在特征空间中相邻近样本之间嵌入人工样本来增加少数类的样本数目；

在一些优选的实施方式中，所述步骤二中，金融机构自身的字段包括客户的年龄、户籍、性别、收入、负债比以及在本机构的借款行为，第三方征信数据字段包括多头借贷、APP行为特征、网购行为、第三方支付、反欺诈数据。

在一些优选的实施方式中，所述步骤四中的缺失值处理包括删除缺失率较大的样本、根据样本值的相似性或者变量之间的关系填补缺失值，如平均值或中位数填充，或使用随机森林来预测该值进行填充；所述步骤四中的异常值处理包括单变量异常值检测、局部离群值因子检测。

在一些优选的实施方式中，经过步骤七处理之后的特征向量作为受限玻尔兹曼机模型的输入层在训练集上模型。其中受限玻尔兹曼机模型是一个随机神经网络。受限玻尔兹曼机(RBM)是基于能量的概率分布模型。分为两个部分：第一部分是能量函数，第二部分是基于能量函数的概率分布函数。对于给定的状态向量h和v，则RBM当前的能量函数可以表示为：

E(v，h）＝-a^Tv-b^Th-h^TWv

其中a，b是偏倚系数，而W是权重矩阵。有了能量函数，v,h的联合概率分布为：

其中Z是被称为配分函数的归一化常数(对于概率输出一般都要做归一化)：

由于配分函数Z的难以处理，所以必须使用最大似然梯度来近似。首先从联合分布中导出条件分布：

为了推导方便将无关值归于Z’中：

可以容易的得到在给定可视层v的基础上，隐层第j个节点为1或者为0的概率为：

可以看到就是相当于使用了sigmoid激活函数，现在可以写出关于隐藏层的完全条件分布：

P(v_j＝1|h)＝sigmoid(a_j+W：，_jh_j)

有了激活函数，我们可以从可见层和参数推导出隐藏层的神经元的取值概率了。对于0，1取值的情况，则大于0.5即取值为1。从隐藏层和参数推导出可见的神经元的取值方法也是一样的。

RBM模型的关键就是求出模型中的参数W，a，b。首先写出损失函数，RBM 一般采用对数损失函数，即期望最小化下式：

然后求偏导可得：

虽然说梯度下降从理论上可以用来优化RBM模型，但实际中是很难求得P(v)的概率分布的(P(v)表示可见层节点的联合概率)。计算复杂度非常大，因此可以采用一些随机采样的方法来得到近似的解。

显然，所描述的实施例是本发明一部分实施例。基于本发明公开的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它实施例，都应属于本发明保护的范围。

Claims

1.基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，其特征在于：包括如下步骤：

步骤五：特征工程，包括变量分箱、WOE转换、信息值IV和变量相关系数计算、根据信息值IV和变量相关系数进行特征筛选，确定可能的违约因素；

步骤六：处理不平衡的数据，采用合成少数类过取样算法，利用少数类样本构造人工样本来平衡数据,改善过拟合；通过在特征空间中相邻近样本之间嵌入人工样本来增加少数类的样本数目；

步骤七：将筛选的特征中的离散特征向量利用CatBoost算法进行转化得到catboost_vector，将经过CatBoost处理之后的特征向量和步骤五筛选出的连续特征相结合作为受限玻尔兹曼机模型的输入层在训练集上模型；

2.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，其特征在于：所述步骤一中，收集历史接待客户的数据作为样本集，每个借贷客户的数据包括n维评价指标数据和违约标签target，根据vintage分析，将表现期内逾期天数超过90天的用户定义为“坏用户”表示贷款违约，target＝1，将表现期内逾期天数未超过90天的用户定义为“好用户”，表示正常还款，targer＝0。

3.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，其特征在于：所述步骤二中，金融机构自身的字段包括客户的年龄、户籍、性别、收入、负债比以及在本机构的借款行为，第三方征信数据字段包括多头借贷、APP行为特征、网购行为、第三方支付、反欺诈数据。

4.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，其特征在于：所述步骤四中的缺失值处理包括删除缺失率大的样本、根据样本值的相似性或者变量之间的关系填补缺失值；所述步骤四中的异常值处理包括单变量异常值检测、局部离群值因子检测。

5.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，其特征在于：所述步骤五中的变量分箱包括：通过卡方分箱选出对逾期状态影响最显著的字段、针对特征变量进行自动化分箱、根据分箱后的特征变量进行用户借贷违约预测；所述自动化分箱实现方法为，将数据等频切分为p个区间，设定最大的分箱个数n，计算每一相邻区间的卡方值，将卡方值最小的一对区间合并；统计现存的数据区间数量q，如果q>n，重复执行计算，直至q≤n。

6.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，其特征在于：所述步骤五中的信息值IV相当于WOE的加权求和，衡量自变量的预测能力。

7.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，其特征在于：所述步骤六中的合成少数类过取样算法流程如下：

(1)对于少数类中每一个样本x，以欧氏距离为标准计算它到少数类样本集中所有样本的距离，得到其k近邻；

(2)根据样本不平衡比例设置一个采样比例以确定采样倍率N，对于每一个少数类样本x，从其k近邻中随机选择若干个样本，假设选择的近邻为xn；

8.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，其特征在于：所述步骤七中，使用目标变量统计TS处理离散型特征向量，目标变量统计用于估算每个类别的目标变量期望值。

9.根据权利要求1所述的基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法，其特征在于：所述步骤八中，模型评估的指标分别为准确率、精确率、召回率、F1值、AUC，对训练的模型进行评估。