CN112700325A

CN112700325A - 一种基于Stacking集成学习的网贷回头客预测的方法

Info

Publication number: CN112700325A
Application number: CN202110026408.6A
Authority: CN
Inventors: 张涛; 秦立力
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2021-01-08
Filing date: 2021-01-08
Publication date: 2021-04-23

Abstract

本发明公开了一种基于Stacking集成学习的网贷回头客预测的方法，包括:数据采集、数据处理、特征提取、模型训练。本发明在对用户二次贷款意愿预测的时候，考虑从四个维度来收集用户的相关数据，尤其加入了过往模型预测所忽视的用户的行为标签数据以及用户的社交关系数据加入数据采集中。因为研究表明用户的消费信息和人际关系会对用户的行为产生影响。为了避免单一学习器精度低，容易过拟合的问题，采用Stacking集成学习提升预测的准确度。考虑到了性能和精度的平衡，采用10折交叉验证来训练模型。并且选择了比较新又高性能的CatBoost、分类精度良好的经典XGBoost和随机森林作为初级学习器，大大降低了训练过程的耗时，提高了预测的精度。

Description

一种基于Stacking集成学习的网贷回头客预测的方法

技术领域

本发明涉及计算机软件技术领域，涉及一种基于Stacking集成学习的网贷回头客预测方法。

背景技术

目前，机器学习在金融领域已经得到了广泛的应用，主要应用于金融风险管理以及反欺诈，例如贷款用户违约预测，信用评分等等。除此之外，还可应用于金融数据分析以挖掘用户价值。网贷回头客指的是在同一平台多次贷款的用户。数据表明，网贷用户在初次借款成功后，有很大概率会再次进行贷款申请，如何识别这些回头客有利于平台为用户提供更加优质的服务，帮助平台进行精准营销策略。贷款回头客预测即对网贷用户是否会进行二次贷款的预测。

用户是否会进行二次贷款本质上是一个二分类问题，金融领域常用的二分类模型有逻辑回归(Logistic Regression)以及梯度下降树(GDBT)等等。在实际应用中，传统的单个机器学习算法的分类能力可能会存在诸多局限性:例如在小规模数据样本集上训练的分类模型容易出现过拟合；用单一学习算法训练的分类模型，可能会得到局部最优解，某些数据可能不能被单一分类器正确分类。

在已有的信贷相关预测研究资料中，采用Stacking方式进行融合的相关研究较少，更多的是基于结果的投票制模型融合。基于投票式的模型融合简单，但是可靠性有限。Stacking集成学习就是一种利用结合策略去组合单一模型的方法，由于Stacking方法常用于异质集成，且可以构造多层个体分体器的集成，因此被广泛应用于各种领域。Stacking集成学习框架首先将原始数据集划分成若干子数据集，输入到第1层预测模型的各个初级学习器中，每个初级学习器输出各自的预测结果。然后，第1层的输出再作为第2层的输入，对第2层预测模型的次级学习器进行训练，再由位于第2层的模型输出最终预测结果。Stacking学习框架通过对多个模型的输出结果进行泛化，以提升对于未知样本的预测能力，从而获得整体预测精度的提升。

发明内容

本发明的目的在于提出一种基于Stacking集成学习的网贷回头客预测的方法。针对单个预测模型精度低，容易过拟合等缺点，使用Stacking集成学习，融合 XGBoost、随机森林等算法模型，构建预测模型，从而帮助贷款平台发现潜在的高质量用户。区别于简单的基于结果投票的模型融合，使用Stacking方法从模型训练入手，以提升学习效率以及模型最终预测的准确性。

本发明技术方案为一种基于Stacking集成学习的网贷回头客预测的方法，包括:

步骤1:数据采集。收集已贷款用户的相关数据，主要包含四个维度的数据。用户基本信息数据、用户的消费信息数据、用户的行为标签数据、用户社交关系数据。以及最终该用户是否进行了二次贷款作为目标标签。

步骤2:数据处理。用户的相关数据可能由于填写有误或者数据丢失，导致存在缺失值以及一些错误值，需要对于获取到的四个维度的相关数据进行缺失值处理、异常值剔除。缺失值主要采用补0，中位数等等方式进行。对于类别型数据，进行One-Hot编码。最后，将处理后的标准化数据集划分为训练集和测试集。

步骤3:特征提取。使用皮尔森相关系数(衡量变量间的线性相关性)剔除无关特征，结合XGBoost，随机森林算法进行特征提取，减少无关特征的数量，提高模型的训练效率，降低噪音。最终获得模型的输入数据。

步骤4:模型训练。Stacking方法主要包含两层模型，首先是第一层的初级学习器，分别使用CatBoost、XGBoost、RF(随机森林)进行独立训练，将训练得到的预测结果也作为特征加入训练集，第二层使用XGBoost作为次级学习器来进行模型的融合，对第一层的模型输出作为数据进行训练，得到最终的模型，对结果进行预测。

本发明在对用户二次贷款意愿预测的时候，考虑从四个维度来收集用户的相关数据，尤其加入了过往模型预测所忽视的用户的行为标签数据以及用户的社交关系数据加入数据采集中。因为研究表明用户的消费信息和人际关系会对用户的行为产生影响。为了避免单一学习器精度低，容易过拟合的问题，采用Stacking 集成学习提升预测的准确度。考虑到了性能和精度的平衡，采用10折交叉验证来训练模型。并且选择了比较新又高性能的CatBoost、分类精度良好的经典 XGBoost和随机森林作为初级学习器，大大降低了训练过程的耗时，提高了预测的精度。

附图说明

图1为Stacking方法的结构图。

图2为10折交叉验证的示意图。

图3为本发明所述的整体流程图。

具体实施方式

为了对于本发明所要解决的问题、技术方案描述得更加清晰，以下结合附图等对本发明进行进一步的详细说明，具体为以下步骤:

1.数据采集。对于已贷款用户，收集用户在本贷款平台的相关数据，大致可分为4个纬度。其中，用户的基本信息数据主要指用户提交的基本信息，例如姓名、性别，年龄、职业、申请金额、职业类别、薪水、最大月还款等等。用户消费信息包含用户上期账单金额、上期还款金额、信用卡额度、本期账单余额等。用户行为标签数据包含用户的行为标签，可以根据用户在贷款平台的行为设计为几种类别，用于将用户的行为进行评价分类。用户社交关系包含用户与同平台用户之间的联系，具体可以记录为用户的好友数量，同平台好友越多，从众心理可能影响用户的贷款倾向性。数据的采集应该不局限于以上维度，数据维度越丰富，越有可能提取到提升模型精度的特征。

2.数据处理。由于部分信息由用户申请贷款时填写，所以可能存在很多缺失值或者异常值。对于缺失值，可以根据变量的类型来分开处理。如果变量值属于连续型数据，则使用属性的均值来进行补全。如果是离散型的数据，则采用属性的众数来进行补全。除此之外，对于数值范围跨度较大的连续型变量，需要将变量的值同等变换到相同尺度下，可选择做归一化处理。

归一化处理采用0均值标准化。其公式为:

其中，x表示数据原始值，x′表示归一化处理后的值，σ表示该列数据的标准差，mean代表该列数据的均值。

极个别数值跨度非常大的变量做归一化并不合适，例如取值在0～1000000范围的变量。这类变量需要极高的精度才能判断出数据间的差异。因此，对于这些数据可采取Log变换的方式来处理，具体如下:

value′＝log₂(value+1)

其中value指该数据的原始值，value′指变换后的值。

非数值型变量采用One-Hot编码方式。对于肉眼可观测到的异常值，采取删除记录的方式进行处理。

3.建模特征提取。初步经过处理的数据，维度相对来说会过多，为了提高训练效率和避免不必要的噪声，需要进行降维处理。使用皮尔森相关系数排除强相关的重复特征，并且使用XGBoost，随机森林进行特征重要性排序，筛选特征，降低纬度。

其中，两个连续变量X，Y的皮尔森相关系数ρ_X，Y的公式为:

其中，cov(X，Y)表示X和Y的协方差，μ_X、μ_Y分别指该变量的均值，σ_X、σ_Y分别指该变量的标准差，E表示期望。该公式的取值在[-1,1]之间，正代表正相关，负代表负相关，0代表两者没有相关，越接近-1或者1则代表相关性越强。以此做出特征之间的皮尔森系数的矩阵，对重复特征进行去除。

其中，XGBoost进行特征重要性评估主要有五种方式:

‘weight’：权重形式，表示在所有树中，一个特征在分裂节点时被使用了多少次。

‘gain’：(平均)增益形式，表示在所有树中，一个特征作为分裂节点存在时，

带来的增益的平均值。

‘cover’：(平均)覆盖度，表示在所有树中，一个特征作为分裂节点存在时，

覆盖的样本数量的平均值。

‘total_gain’：相对于’gain’，这里表示的是带来的总增益大小。

‘total_cover’：相对于’cover’，这里表示的是覆盖的总样本数量。

其中weight把某个特征在所有树中被使用的次数统计了出来，认为这样的特征相比于其他特征更加重要，故选择weight方式。

经过以上的数据清洗，降维后，得到模型的输入数据，采用随机抽样，按照 8：2的比例将数据集划分为训练集D和测试集T。

为了方便说明，假设训练集D有10000行数据，T有2500行数据。

4.模型训练。Stacking方法的结构图如图1所示。如果直接利用训练集训练得到的模型去预测训练集的标签，过拟合风险比较大。为了缓解可能出现的过拟合现象，采用10折交叉验证来进行Stacking方法下的模型训练，过程如图2所示。做法如下:

(1)将原始的训练集D随机划分为10个大小相似的子集D₁,D₂…,D₁₀，即每个子集2000行数据。

(2)第一次，以D₁为测试集，D₂至D₁₀作为训练集，训练CatBoost模型，并在D₁上进行预测得到预测值

这是一个1列2000行的矩阵数据，同时使用训练好的模型对整个测试集T进行预测，得到预测值

一个1列2500行的预测值矩阵；第二次使用D₂作为测试集，其余9个子集作为训练集，训练并对D₂进行预测，得到

并且对T进行预测，得到

重复十次将得到

以及

其中，

和

中，i代表这是第i折交叉验证过程，j代表初级学习器的编号。

即为初级学习器j在第i折交叉验证时，对子集D_i的预测值矩阵。

即为初级学习器j在第i折交叉验证时，对测试集T的预测值矩阵。

(3)在10折交叉验证后，我们将预测值

按顺序拼接为1列10000行的矩阵，即对原整个训练集D的预测结果P₁。

将

的各部分结果进行取平均值，得到1列2500行的数据，即对整个测试集T的最终预测值T₁。

(4)对于剩下的初级学习器XGBoost、和随机森林(RF)重复步骤(2)、(3)分别得到P₂、T₂,P₃、T₃。

其中，P_i、T_i中，i代表初级学习器的编号。P_i即为初级学习器i对训练集D 的预测结果。T_i则为初级学习器i对测试集T的最终预测结果

(5)横向拼接得到次级学习器XGBoost的新训练集P₄＝(P₁,P₂,P₃,真实lable)，这是一个4列10000行的矩阵(其中真实lable指的是用户是否进行了二次贷款， 0代表否，1代表是)，和测试集T₄＝(T₁,T₂,T₃)，一个3列2500行的矩阵。

(6)用训练集P₄训练次级学习器XGBoost模型，并且对测试集T₄进行预测, 得到整个模型的最终的预测结果，与测试集T的原本真正结果(该用户是否真的进行了二次贷款)进行对比，即可验证模型的准确性。

以上在训练过程中，对于模型参数的选择，使用网格搜索法进行参数优化。所谓网格搜索法即使用遍历的方式，将可能的参数进行一一尝试，以查找最优参数值。在实施过程中，使用网格搜索与交叉验证结合的方式，来获取最佳参数，并且考虑到时间消耗，设定搜索范围为各模型分类器默认参数附近的几组参数。

经过以上几个步骤，就能建立多维信息下的网贷用户二次贷款的预测模型，之后希望进行预测时，将收集来的用户数据只需经过数据处理，代入预测模型即可进行二次贷款预测。图3为整个方法的流程示意图。

Claims

1.一种基于Stacking集成学习的网贷回头客预测的方法，其特征在于：包括，步骤1：数据采集；收集已贷款用户的相关数据，包含四个维度的数据；用户基本信息数据、用户的消费信息数据、用户的行为标签数据、用户社交关系数据；以及最终该用户是否进行了二次贷款作为目标标签；

步骤2：数据处理；用户的相关数据可能由于填写有误或者数据丢失，导致存在缺失值以及错误值，需要对于获取到的四个维度的相关数据进行缺失值处理、异常值剔除；缺失值采用补0，中位数方式进行；对于类别型数据，进行One-Hot编码；最后，将处理后的标准化数据集划分为训练集和测试集；

步骤3：特征提取；使用皮尔森相关系数剔除无关特征，结合XGBoost，随机森林算法进行特征提取，减少无关特征的数量，提高模型的训练效率，降低噪音；最终获得模型的输入数据；

步骤4：模型训练；Stacking方法包含两层模型，第一层的初级学习器分别使用CatBoost、XGBoost、RF进行独立训练，将训练得到的预测结果也作为特征加入训练集，第二层使用XGBoost作为次级学习器来进行模型融合，对第一层的模型输出作为数据进行训练，得到最终的模型，对结果进行预测。

2.根据权利要求1所述的一种基于Stacking集成学习的网贷回头客预测的方法，其特征在于：对于已贷款用户，收集用户在本贷款平台的相关数据，大致分为4个纬度；其中，用户的基本信息数据指用户提交的基本信息；用户消费信息包含用户上期账单金额、上期还款金额、信用卡额度、本期账单余额；用户行为标签数据包含用户的行为标签，根据用户在贷款平台的行为设计为几种类别，用于将用户的行为进行评价分类；用户社交关系包含用户与同平台用户之间的联系。

3.根据权利要求1所述的一种基于Stacking集成学习的网贷回头客预测的方法，其特征在于：对于数值范围跨度大的连续型变量，需要将变量的值同等变换到相同尺度下，做归一化处理；

归一化处理采用0均值标准化；其公式为：

其中，x表示数据原始值，x′表示归一化处理后的值，σ表示该列数据的标准差，mean代表该列数据的均值；

极个别数值跨度非常大的变量做归一化并不合适，取值在0～1000000范围的变量，对于这些数据采取Log变换的方式来处理，具体如下：

value′＝log₂(value+1)

其中value指该数据的原始值，value′指变换后的值；

非数值型变量采用One-Hot编码方式；对于肉眼可观测到的异常值，采取删除记录的方式进行处理。

4.根据权利要求1所述的一种基于Stacking集成学习的网贷回头客预测的方法，其特征在于：XGBoost进行特征重要性评估有五种方式：

‘weight’：权重形式，表示在所有树中，一个特征在分裂节点时被使用了多少次；

‘gain’：增益形式，表示在所有树中，一个特征作为分裂节点存在时，带来的增益的平均值；

‘cover’：覆盖度，表示在所有树中，一个特征作为分裂节点存在时，覆盖的样本数量的平均值；

‘total_gain’：相对于’gain’，这里表示的是带来的总增益大小；

‘total_cover’：相对于’cover’，这里表示的是覆盖的总样本数量；

其中weight把某个特征在所有树中被使用的次数统计了出来，认为这样的特征相比于其他特征更加重要，故选择weight方式；

经过数据清洗，降维后，得到模型的输入数据，采用随机抽样，按照比例将数据集划分为训练集D和测试集T。