CN114266653A

CN114266653A - 集成学习的客户贷款风险预估方法

Info

Publication number: CN114266653A
Application number: CN202111625102.9A
Authority: CN
Inventors: 黎良山
Original assignee: Nanjing Xingyun Digital Technology Co Ltd
Current assignee: Nanjing Xingyun Digital Technology Co Ltd
Priority date: 2021-12-28
Filing date: 2021-12-28
Publication date: 2022-04-01

Abstract

本申请公开了一种集成学习的客户贷款风险预估方法，该方法包括：收集信贷风险评估数据集作为样本数据，训练得到LightGBM算法模型和TabNet算法模型；将LightGBM算法模型中的输出结果作为第一特征向量，将TabNet算法模型中的全连接层的输入结果作为第二特征向量；将所述第一特征向量和第二特征向量进行拼接聚合，将拼接聚合后形成的第三特征向量输入到LR回归模型进行训练得到融合后的预测模型，根据融合后形成的所述预测模型对客户的贷款风险进行预测。本发明结合LightGBM、TabNet以及LR融合的基于集成学习的客户贷款风险预估方法，能够获得更好的预测效果，且保证了预测模型的可解释性。

Description

集成学习的客户贷款风险预估方法

技术领域

本发明属于人工智能领域，尤其涉及一种结合LightGBM、TabNet以及LR的集成学习的客户贷款风险预估方法。

背景技术

客户在申请信用贷款时，银行或其它金融机构需要及时对客户的违约风险进行预估。近年来，随着互联网金融的蓬勃发展，互联网数据具有稀疏性强和特征相关性弱的特点，传统的信用评分卡模型在预测客户违约风险方面暴露出了预测精度不足的问题，因而使得信用贷款的通过相对于保守。

对于信贷风险预估来说，银行及其它金融机构往往希望预测出更多的能够及时还款的高质量客户。

目前，对贷款风险的评估，目前通常采用评分卡模型，评分卡模型以分数的形式来衡量风险几率的一种手段，对未来一段时间内违约/逾期/失联概率的预测，通常评分越高越安全，根据使用场景分为反欺诈评分卡、申请评分卡、行为评分卡、催收评分卡，评分卡开发常用的模型基础包括逻辑回归和决策树。但是，如何在保证模型的可解释性的前提下，进一步提高模型的预测精度，是目前需要解决的主要技术问题。

发明内容

本发明的目的是，提供一种结合LightGBM、TabNet以及LR的集成学习的客户贷款风险预估方法，以在确保模型可解释的前提下，解决原有的评分卡模型预测精度不佳的问题。

本发明的第一方面，提供了一种集成学习的客户贷款风险预估方法，包括：

收集信贷风险评估数据集作为样本数据，训练得到LightGBM算法模型和TabNet算法模型；

将LightGBM算法模型中的输出结果作为第一特征向量，将TabNet算法模型中的全连接层的输入结果作为第二特征向量；

将所述第一特征向量和第二特征向量进行拼接聚合，将拼接聚合后形成的第三特征向量输入到LR回归模型进行训练得到融合后的预测模型，根据融合后形成的所述预测模型对客户的贷款风险进行预测。

进一步地，所述LightGBM算法模型和TabNet算法模型并行处理。

进一步地，所述融合后的预测模型采用如下公式进行分类：

其中，z＝θ₀+θ₁x+…+θ_nx_n＝θ^Tx，θ为LR模型训练确定的权重，x为第三特征向量的特征值。

进一步地，所述第一特征向量的生成包括：

通过样本数据训练LightGBM算法模型；

将所述LightGBM算法模型通过多轮迭代，每轮产生一个弱分类器，记录第i轮的弱分类器为T(x；θ_i)，其中，x为样本输入数据，θ_i为第i轮的模型参数；

将弱分类器T(x；θ_i)的所有叶子节点的输出作为一个编码向量，并将所有的编码向量进行拼接得到所述第一特征向量。

进一步地，所述第二特征向量的生成包括：

通过样本数据训练TabNet算法模型；

输入的数据批标准化处理后，进入TabNet算法模型中的多个加性模型内，其中，每个加性模型对数据的处理步骤一致；

将每个加性模型的输出结果相加后得到所述第二特征向量，并作为全连接层的输入。

进一步地，所述的收集信贷风险评估数据集作为样本数据包括：

分别采集用户的申请表数据、信用记录、用户贷款数据、用户还款数据、信用卡消费数据；

对上述数据进行预处理并聚合到一张表中，形成包含用户基本属性、用户征信属性、用户贷款还款属性、用户消费属性的多个维度的表。

进一步地，所述加性模型的架构包括Attentive transformer层、Mask层、Featuretransformer层、Split层和ReLU层，其中，Attentive transformer层根据上一步的结果得到当前步的MASK层所需的权重分配，MASK层对矩阵向量进行筛选，Feature transformer层对当前步所选取的特征进行计算处理，再通过Split层将Feature transformer层输出的向量切成两部分，一部分输出给ReLU层，一部分用于计算下一步的MASK层，多个加性模型的输出通过ReLU层的激活函数相加后得到所述第二特征向量。

进一步地，所述的预处理包括：缺失值补充、数据清洗、数据聚合、数据规范化处理。

本发明的另一方面还提供了一种计算机程序，用于当所述计算机程序在计算机、处理器或可编程硬件组件上运行时执行根据本发明的第一方面所述的方法之一或全部。

与现有技术相比，本发明所提供的一种集成学习的客户贷款风险预估方法，具有如下技术效果：

1、本申请在LR的线性模型、LightGBM的树模型的基础上，引入TabNet模型，TabNet模型的设计是基于构建一个与树模型具有相似决策流形的神经网络，故TabNet拥有了类似于树模型的可解释性和稀疏特征选择的特点，这保证了整个融合后的预测模型的每一个组成模块的特征使用都是可解释的，因此整体模型是可解释的；而在预测精度提高方面，相对于传统的评分卡模型，本申请的方案分别增加了利用树模型的非线性特征构造能力以及神经网络的非线性特征构造能力，使得整体模型预测精度将会更高。

附图说明

图1是本发明实施例中的集成学习的客户贷款风险预估方法的流程示意图；

图2是本发明实施例中的预测模型的结构原理图。

图3是本发明实施例中的TabNet算法模型的结构原理图。

具体实施方式

以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。如在说明书及权利要求当中使用了某些词汇来指称特定部件。本领域技术人员应可理解，硬件或软件制造商可能会用不同名词来称呼同一个部件。本说明书及权利要求并不以名称的差异来作为区分部件的方式，而是以部件在功能上的差异来作为区分的准则。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明本发明的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

下面结合附图和具体实施例对本发明做进一步详细说明。

图1为本发明实施例提供的一种集成学习的客户贷款风险预估方法的流程示意图，参照图1所示，该方法包括：

步骤S101、收集信贷风险评估数据集作为样本数据，训练得到LightGBM算法模型和TabNet算法模型。

具体的，收集信贷风险评估数据集作为样本数据的过程包括：

分别采集用户的申请表数据，其它金融机构提供的征信中心的客户信用记录、公司内部针对客户的信用贷的贷款数据、客户以前的贷款申请记录以及信用卡还款数据、客户的信用卡消费数据等；上述的数据可使用Home Credit公司的信贷风险评估数据集作为样本。

对上述数据进行预处理并聚合到一张表中，形成包含用户基本属性、用户征信属性、用户贷款还款属性、用户消费属性的多个维度的表。其中，数据的预处理主要包括缺失值填充、数据聚合、格式的规范化等操作，用户的基本属性一般包含在申请表中，其它的如用户征信属性、用户贷款还款属性、用户消费属性等数据均为历史存在的数据。

在获取建模所需的样本数据后，开始对模型进行训练，本发明中使用了LightGBM算法模型、TabNet算法模型和LR回归模型三者融合的预测模型，将LightGBM算法模型和TabNet算法模型构造的特征进入LR回归模型进行训练。

参照图2所示，融合后的预测模型由LightGBM以及TabNet做为特征构造部分，将LightGBM算法模型各个决策树的输出作为第一特征向量，以及将TabNet算法模型的最后一层全连接层FC的输入作为第二特征向量，并将以上的到的两个特征向量进行拼接聚合，形成第三特征向量，最终作为LR的输入用以训练最终的预测模型。图2中，左侧为LightGBM的决策树结构，右侧为TabNet的网络结构，lightGBM与TabNet两个模型并行处理数据后进入到LR模型，最终的输出使用LR做预测。

步骤S102、将LightGBM算法模型中的各决策树的输出结果作为第一特征向量，将TabNet算法模型中的最后一层全连接层的输入结果作为第二特征向量。

具体的，分别用两个模型对进入LR模型的输入特征进行增强，以此达到提升模型精度的目标。这是由于LightGBM采用的树模型结构对于决策空间的划分具有一定的非线性特征构造能力，而TabNet采用的神经网络模型的非线性结构同样能构造出非线性特征的特点。

具体的，采用LightGBM算法模型计算出该第一特征向量包括：

一、通过已有的样本数据训练LightGBM算法模型；

二、模型迭代：将所述LightGBM算法模型通过多轮迭代，每轮产生一个弱分类器，假设共有K轮，记录第i轮(i≤K)的弱分类器为T(x；θ_i)，其中，x为样本输入数据，θ_i为第i轮的模型参数；

三、LightGBM特征向量的构建：将弱分类器T(x；θ_i)的所有叶子节点的输出形成一个编码向量，以此类推，将所有的编码向量进行拼接得到所述第一特征向量X_lightgbm。假设模型生成了两棵树，分别为T1、T2，两棵树的叶子节点分别为2和3，那么对于样本x，该样本在第一棵树被分到T1的第1个叶子节点，则其编码为(1，0)，样本x在第二棵树被分到第3个叶子节点，则其编码为(0，0，1)，最终样本x的特征编码为(1，0，0，0，1)，即将两棵树的特征编码合并拼接起来。

LightGBM(Light GradientBoosting Machine)是一个实现GBDT算法的框架，支持高效率的并行训练，并且具有更快的训练速度、更低的内存消耗、更好的准确率、支持分布式、可快速处理海量数据等优点。lightGBM在传统的GBDT算法上进行了如下优化：1、使用了基于Histogram的决策树算法；2、单边梯度采样Gradient-based One-Side Sampling(GOSS)，使用GOSS可以减少大量只具有小梯度的数据实例，这样在计算信息增益的时候只利用剩下的具有高梯度的数据即可，相比XGBoost遍历所有特征值节省了不少时间和空间上的开销；3、互斥特征捆绑Exclusive Feature Bundling(EFB)，使用EFB可以将许多互斥的特征绑定为一个特征，这样达到了降维的目的；4、带深度限制的Leaf-wise的叶子生长策略，大多数GBDT工具使用低效的按层生长(level-wise)的决策树生长策略，因为它不加区分的对待同一层的叶子，带来了很多没必要的开销，实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。LightGBM使用了带有深度限制的按叶子生长(leaf-wise)算法；5、直接支持类别特征(Categorical Feature)；6、优化了特征并行和数据并行算法，除此之外还添加了投票并行方案，支持高效并行；7、Cache命中率优化。

其中，采用TabNet算法模型生成第二特征向量包括：

通过样本数据训练TabNet算法模型；

输入的数据经过批标准化处理(BN，BatchNormalization,)后，进入TabNet算法模型中的由多个步骤(step1、step1…stepN)构成的加性模型(Additive Model)中；

将每个加性模型的输出结果相加后得到所述第二特征向量，并作为全连接层的输入结果。

具体的，参照图3所示，模型的输入是维度为B×D的特征Features，其中B是batchsize，D是feature的维数；而模型输出的是一个B×K的张量，其中K表示类别数，在本实施例中K取2。输入数据经过BN处理后，作为每个步骤的输入，记作f，模型中每个步骤的处理都是相似的。

加性模型的架构包括Attentive transformer层、Mask层、Feature transformer层、Split层和ReLU层，其中，网络中的Features首先需要先经过BatchNorm层，才作为其他阶段的输入，网络中存在重复的结构(Step1、Step2...)，各个Step的输入都是经过BatchNorm层之后的Features；Attentive transformer层根据上一步的结果得到当前步的MASK层所需的权重，对于不同的样本，Attentive transformer层输出的注意力权重也不同，MASK层对矩阵向量进行筛选，输入特征Features经过Mask之后，完成特征选择，将不重要的特征过滤掉(对应Mask位置中系数很小)，被Mask之后的特征经过特征变换层(Featuretransformer)，Feature transformer层对当前步所选取的特征进行计算处理，再通过Split层将Feature transformer层输出的向量切成两部分，一部分经过ReLU层之后输出，另一部分用于计算下一步的MASK层，每一个加性模型的输出都能得到一个特征向量，多个加性模型的经过ReLU层的激活函数处理之后再相加后得到第二特征向量，在深度神经网络中，通常使用叫修正线性单元(Rectified linear unit，ReLU)作为神经元的激活函数，ReLU函数的作用就是增加了神经网络各层之间的非线性关系，通过ReLU实现稀疏后的模型能够更好地挖掘相关特征，拟合训练数据。TabNet算法模型的另外一个输出是Featureattribute，其主要功能是用于模型的可解释性，它刻画的是Feature的全局重要性。

以一个步骤为例，Split层负责将Feature transformer的输出分为两个部分，如以下公式：

[d[i],a[i]]＝f_i(M[i]·f)

其中d[i]经过ReLU操作后等待与后续步骤的结果加和，然后作为最终全连接层的输入，a[i]则输入到Attentive transformer层用来计算下个步骤的Mask，即M[i+1]。f_i表示Feature transformer层，M[i]·f表示mask层，M[i]可以理解为模型在当前step上，对于batch样本的注意力权重分配。

根据Attentive transformer层的结构，可以将其计算公式写作：

M[i]＝Sparsemax(P[i-1]·h_i(a[i-1]))

其中a[i-1]是上个步骤Split层划分出来的，h_i(*)表示FC与BN的处理操作，P[i-1]为Prior scales项，公式如下：

它用来表示某一个Feature在之前的step中的运用程度，其中γ为常数。

TabNet特征的构建，直接取其全连接层的输入作为构建特征即可。该特征产生过程如下，假如TabNet有N个step，每一个step都能得到一个输出Xi，则最终的特征为

步骤S103、将所述第一特征向量和第二特征向量进行拼接聚合，将拼接聚合后形成的第三特征向量输入到LR回归模型进行训练得到融合后的预测模型，根据融合后形成的所述预测模型对客户的贷款风险进行预测和分类。

具体的，将经过lightGBM算法模型输出得到的第一特征向量X_lightgbm和TabNet模型各个step输出的特征之和形成的第二特征向量X_tabnet(相当于全连接层的输入)进行拼接聚合，拼接后得到第三特征向量进入LR模型，拼接后的特征集合可以表示如下：

X＝[X_lightgbm,X_tabnet]

第三特征向量为由数字0和1构成的向量集，最后使用LR进行训练，LR为逻辑回归算法，其公式为：

其中，z＝θ₀+θ₁x₁+…+θ_nx_n＝θ^Tx，θ为权重，x₁～x_n为前述第三特征向量中的各个特征值，维度为n。

在训练得到LR模型后，本次实验对数据集进行五折交叉验证，使用AUC作为评价指标，5折交叉验证就是先拿出四折作为training data，另外一折作为testing data。。使用LightGBM以及TabNet分别抽取了其特征中重要性最强的前40个特征，合并去重后得到共69个特征。对于这些特征，本实施例分别用LR、LightGBM、TabNet以及本申请实施例提出的融合模型进行建模。最终效果如下表1所示：

表1模型预测效果对比表

模型	AUC
		LR	0.613
Lightgbm+LR	0.748
		Tabnet+LR	0.726
Tabnet+lightgbm+LR	0.791

从上表中可以看出，本申请实施例中提出的基于TabNet、LightGBM以及LR的集成学习的模型得到的效果最好，AUC(Area Under Curve)值达到了0.791，准确率更高。

本申请实施例所提供的一种集成学习的客户贷款风险预估方法，分别引入了基于树和神经网络模型的特征生成方案，即使用了LightGBM以及TabNet作为构造特征，该方案能够使得模型得到一个更好的预测效果。此外，在引入神经网络特征的条件下，保证了整体模型的可解释性，即模型的特征重要性，这是由于LightGBM、TabNet以及LR都是可解释的。

本申请还提供如下的实施例：

一种计算机程序，用于当所述计算机程序在计算机、处理器或可编程硬件组件上运行时执行上述实施例中的任一方法之一。该计算机程序可存储在计算设备的存储介质中。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ReadOnly Memory，ROM)、可擦式可编程只读存储器((Erasable Programmable ReadOnlyMemory，EPROM)或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本申请的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本申请的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种集成学习的客户贷款风险预估方法，其特征在于，该方法包括：

2.如权利要求1所述的预估方法，其特征在于，所述LightGBM算法模型和TabNet算法模型并行处理。

3.如权利要求1所述的预估方法，其特征在于，所述融合后的预测模型采用如下公式进行分类：

4.如权利要求3所述的预估方法，其特征在于，所述第一特征向量的生成包括：

通过样本数据训练LightGBM算法模型；

5.如权利要求3所述的预估方法，其特征在于，所述第二特征向量的生成包括：

通过样本数据训练TabNet算法模型；

6.如权利要求4或5所述的预估方法，其特征在于，所述的收集信贷风险评估数据集作为样本数据包括：

7.如权利要求5所述的预估方法，其特征在于，所述加性模型的架构包括Attentivetransformer层、Mask层、Feature transformer层、Split层和ReLU层，其中，所述Attentivetransformer层根据上一步的结果得到当前步的MASK层所需的权重分配，所述MASK层对矩阵向量进行筛选，所述Feature transformer层对当前步所选取的特征进行计算处理，再通过所述Split层将所述Feature transformer层输出的向量切成两部分，一部分输出给ReLU层，一部分用于计算下一步的MASK层，多个加性模型的输出通过ReLU层的激活函数相加后得到所述第二特征向量。

8.如权利要求6所述的预估方法，其特征在于，所述的预处理包括：缺失值补充、数据清洗、数据聚合、数据规范化处理。

9.如权利要求1所述的预估方法，其特征在于，所述方法还包括对融合后的所述预测模型进行五折交叉验证。

10.一种计算机程序，用于当所述计算机程序在计算机、处理器或可编程硬件组件上运行时执行根据权利要求1至9中任一项所述方法之一。