CN113538132B

CN113538132B - 一种基于回归树算法的信用评分方法、设备及介质

Info

Publication number: CN113538132B
Application number: CN202110842828.1A
Authority: CN
Inventors: 盛骏源
Original assignee: Tianyuan Big Data Credit Management Co Ltd
Current assignee: Tianyuan Big Data Credit Management Co Ltd
Priority date: 2021-07-26
Filing date: 2021-07-26
Publication date: 2024-04-23
Anticipated expiration: 2041-07-26
Also published as: CN113538132A

Abstract

本说明书实施例提供了一种基于回归树算法的信用评分方法，用于解决为金融风控提供更精确信用评分的问题。方法包括：对借款人的初始信用数据进行特征提取，以获得借款人的非线性相关的信用特征数据；对非线性相关的信用特征数据进行筛选，以获得可用的信用特征数据；通过预先集成训练的非线性拟合器对可用的信用特征数据进行分析，以获得借款人的信用评分；其中，非线性拟合器由两类回归树组成。

Description

一种基于回归树算法的信用评分方法、设备及介质

技术领域

本说明书涉及集成学习技术领域，尤其涉及一种基于回归树算法的信用评分方法、设备及介质。

背景技术

由于金融科技、大数据、云计算等快速发展，互联网信贷正在潜移默化地改变着传统金融业，由于这种形式具有门槛低，审批速度快等优点，成为了当前众多借贷者的首选融资方式。这为推动社会经济发展带来了资金上巨大的推动力，也给商业银行带来了新的挑战。由于商业银行在整个社会经济体系中具有强烈的外部性特点，对信用风险的管理和评估具有深刻的意义。信用风险评估是商业银行信用风险管理的重要组成部分。从银行业的角度来看，对银行信贷申请人的适当评估有着重要的作用。即使信用评分准确性中的小错误也可能会对银行造成极大的麻烦，并可能因借款人的破产而造成巨大的损失。另一方面，过多的筛选标准可能会阻止潜在客户，从而可能降低银行的营业额。由此产生了许多帮助金融转件评估借款人的新工具以获得最小风险化和最大利润化的方案。

现有技术中，机器学习能够克服对现有数据进行假设的缺点。由此，大量的机器学习算法被应用于信用评分领域，包括：模糊系统、神经网络、支持向量机、k-最近邻算法、遗传算法和决策树算法等。但是这些算法中涉及的参数量大导致需要优化的参数过多，且从单个初始值开始迭代求最优参数时容易陷入局部最优解不利于全局择优，导致预测的结果不可靠。且学习系统所需的计算复杂度较高，不适合大多数的计算平台。

基于此，需要一种可以为金融风控提供更精确和自动化的信用评分方法。

发明内容

本说明书一个或多个实施例提供了一种基于回归树算法的信用评分方法、设备及介质，用于解决如下技术问题：如何可以为金融风控提供更精确和自动化的评分方法。

本说明书一个或多个实施例采用下述技术方案：

本说明书一个或多个实施例提供一种基于回归树算法的信用评分方法，包括：

对借款人的初始信用数据进行特征提取，以获得所述借款人的非线性相关的信用特征数据；

对所述非线性相关的信用特征数据进行筛选，以获得可用的信用特征数据；

通过预先集成训练的非线性拟合器对所述可用的信用特征数据进行分析，以获得所述借款人的信用评分；其中，所述非线性拟合器由两类回归树组成。

可选地，所述对借款人的初始信用数据进行特征提取之前，所述方法还包括：

基于互联网与数据库收集所述借款人与信用相关的数据信息作为信用原始数据；

通过第一预设处理方式将所述信用数据映射到单位范围内，并通过第二预设处理方式对所述信用数据进行均值处理以获得方便处理的初始信用数据。

可选地，所述对借款人的初始信用进行特征提取，以获得所述借款人的非线性相关的信用特征，具体包括：

通过第一预设分析方法将所述初始信用数据中低维空间的线性相关的信用特征通过非线性映射转换到高维空间；

在所述高维空间中对所述初始信用数据进行区分，并过滤所述借款人的线性相关的信用特征数据；

通过第二预设分析方法将所述初始信用数据中的非线性相关的信用特征数据映射到另一个低维空间进行降维处理，以提取所述借款人的非线性相关的信用特征数据。

可选地，所述对所述非线性相关的信用特征进行筛选，以获得可用信用特征数据，具体包括：

通过Xgboost技术对所述非线性相关的信用特征数据进行特征重要性排序，以过滤非必要的信用特征数据获得重要信用特征数据；

通过预先设置的专家经验模型对所述重要信用特征数据进行指标分析，以确定出必要的信用特征作为可用信用特征数据。

可选地，所述通过预先集成训练的所需的非线性拟合器对所述可用信用特征进行信用评分之前，所述方法包括：

集成构建多层级联的回归分类树作为非线性拟合器；

对所述非线性拟合器进行训练，并根据Adam算法对所述非线性拟合器进行监督训练，实现所述非线性拟合器的参数优化；其中，所述参数至少包括以下任意一项或多项：最大树深度、叶子节点最少样本数和最大叶子节点数；

评估所述非线性拟合器的误差总和，将误差最小的非线性拟合器作为最终的线性拟合器。

可选地，当集成构建八层级联的回归树作为非线性拟合器时，具体包括：

第一层包括36个基于第一损失函数标准的分类回归树与36个基于第二损失函数标准的分类回归树；

第二到四层每层由18个基于第一损失函数的分类回归树构成；

第五到七层每层由9个基于第一损失函数标准的分类树构成；

第八层由9个基于第一损失函数标准的分类回归树构成。

可选地，对所述非线性拟合器进行训练，并根据Adam算法对所述非线性拟合器进行参数优化之前，所述方法还包括：

通过随机抽取构建10个不同的训练集-测试集组合对所述非线性拟合器进行交叉验证，以确保训练后的非线性拟合器符合需求。

可选地，所述通过预先集成训练的所需的非线性拟合器对所述可用信用特征数据进行分析，以获得所述借款人的信用评分之后，所述方法还包括：

基于所述信用评分对借款人进行信用等级的划分，若确定所述信用等级大于等于预设阈值则该借款人可以进行信用贷款；若确定所述信用等级低于预设阈值则拒绝该借款人进行信用贷款。

本说明书一个或多个实施例提供一种基于回归树算法的信用评分设备，所述设备包括：

至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够：

本说明书一个或多个实施例提供的一种非易失性计算机存储介质，存储有计算机可执行指令，所述计算机可执行指令设置为：

本说明书实施例采用的上述至少一个技术方案能够达到以下有益效果：

通过提取非线性相关特征过滤掉线性相关的特征，减少了评分分析过程中的冗余参数，解决了过度拟合的问题。通过随机抽取的训练集-测试集组合进行交叉验证以及Adma算法进行的参数优化，获得了全局最优解，解决了传统优化算法从单个初始值进行迭代求最优解时陷入局部最优解的问题。多层级联的回归树集成的深度级联回归树可以结合若干经典的机器学习拟合器提高预测的性能，提升了预测信贷人员信用水平的性能。

附图说明

为了更清楚地说明本说明书实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本说明书中记载的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1为本说明书一个或多个实施例提供的一种基于回归树算法的信用评分方法的方法流程示意图；

图2为本说明书一个或多个实施例提供的一种应用场景下，图1中方法的一种级联集成算法流程示意图；

图3为本说明书一个或多个实施例提供的一种基于回归树算法的信用评分设备图的内部结构示意图；

图4为本说明书一个或多个实施例提供的一种非易失性存储介质的内部结构示意图。

具体实施方式

本说明书实施例提供了一种基于回归树算法的信用评分方法、设备及介质。

信用风险分析是金融风险管理领域的一个重要主题，近年来已经成为了银行业和金融业的首要目标。当今，信用风险分析在私人或商业目的的银行信贷中非常普遍。从银行业角度来看，对银行信贷申请人的适当评估有着重要的作用。即使信用评分准确性中的小错误也可能对银行造成极大的麻烦，并可能因借款人的破产而造成巨大损失。另一方面，过多的筛选标准可能会阻止潜在客户，从而可能降低银行的营业额。为了实现最小化风险和最大化利润，产生了许多帮助金融专家评估借款人的新工具。

相对于传统的方法来说，机器学习能够克服对现有数据进行假设的缺点。由此，大量的机器学习算法被应用于信用评分领域，包括：模糊系统(FS)、神经网络(NN)、支持向量机(SVM)、k-最近邻算法(KNN)、遗传算法(GA)和决策树(DT)等。但是这些方法存在以下缺点：因为信用评分对精确性的要求，导致单一机器学习时需要优化大量的参数，且传统优化算法是从单个初始值迭代求最优解倾向于陷入局部最优解，也可能会导致过度拟合；此外学习系统所需要的计算复杂度高，从而导致模型不能保证足够的预测精度。

为解决上述问题，本说明书实施例基于集成学习与深度集成学习技术的回归树拟合器组合，从而构建八层系统的新型深度级联集成的非线性拟合器，以对借款人进行信用评分。且能够进一步根据分数实现信用等级的划分，以帮助银行决定接受或者不接受借款人的借贷，解决了现有技术中只有通过和不通过两种结果的不精确问题所导致的客户流失问题。通过采用不同的损失函数标准及相关参数构建了多层级联集成的非线性拟合器，采用了Xgboost算法进行特征选择和优化，与传统的单一机器学习算法相比，具有更高的训练效率和预测精度。

为了使本技术领域的人员更好地理解本说明书中的技术方案，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本说明书一部分实施例，而不是全部的实施例。基于本说明书实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本说明书保护的范围。

本说明书一个或多个实施例中将进行信用评分的服务器以及进行信用评分的服务的相关执行单元作为执行主体。

以下结合附图，详细说明本说明书提供的技术方案。

根据图1所示，本说明书一个或多个实施例中，一种基于回归树算法的信用评分方法可以包括：

S101：对借款人的初始信用数据进行特征提取，以获得所述借款人的非线性相关的信用特征数据。

在本说明书的一个或多个实施例中，所述对借款人的初始信用数据进行特征提取之前，所述方法还包括：

在本说明书的一个或多个实施例中，所述对借款人的初始信用进行特征提取，以获得所述借款人的非线性相关的信用特征，具体包括：

通过互联网或爬虫等技术，收集借款人与信用相关的数据信息，作为银行判断借款人信用的原始数据。例如：通过大数据分布式计算平台，运行大数据分布式查询引擎，从而搜索与借款人信用相关的数据。其中，当借款人为企业或集团客户时，收集的信用原始数据包括：工商注册信息、企业的裁判文书、失信人、失信记录、开庭公告、法院公告、司法协助等。当借款人为个人客户时，收集的信用原始数据包括：个人身份信息、POS交易信息、个人借贷卡账单信息、裁判文书信息、履约被执行信息、失信行为信息、线上线下支付数据等。

收集到信用原始数据后，为了方便对数据进行后续的参数迭代优化。需要基于预设的第一处理方式将所述信用数据映射到单位范围0～1内进行处理；通过第二预设处理方式将数据的均值进行处理使得数据的均值为0，方差为1，以便进行后续的参数优化迭代过程。

其中，需要说明的是第一预设处理方式可以是数据的归一化处理，即将数据统一映射到[0,1]区间上，通过数据的归一化进行处理可以提升参数优化过程中迭代的收敛速度。第二预设处理方式可以是标准差标准化，即经过处理的数据符合标准正态分布，即均值为0，标准差为1。此外，由上述原始信用数据所包含的信息种类可知，对借贷人的信用评分是处在多指标评价体系中的。由于各评价指标的性质不同，通常具有不同的量纲和数量级，当各指标之间的水平相差很大时，如果直接用原始指标值进行分析就会突出数值较高的指标在综合分析中的作用，所以通过第一预设处理方式与第二预设处理方式，可以让不同维度之间的特征，在数值上有一定的可比较性，提高了预测的准确性。

信用风险分析是为银行分析最小化风险和最大化利润，并对借款人进行信用评分的过程。因为信用数据收集手段的多样性，导致了初始信用数据中可能包含有冗余数据，从而导致数据处理过程繁杂以及评分结果的不准确。通过第一预设处理方法例如：基于核主成分分析方法(Kernel Principal Component Analysis，简称KPCA)将初始信用数据中低维空间的线性相关的信用特征通过非线性映射转换到高维空间中。在高维空间中通过对初始信用数据进行区分，并过滤掉线性相关的信用特征数据，可以实现对线性相关数据的删除，即将代表相同特性的线性相关特征进行删除，只保留代表不同特征的非线性相关的信用特征数据。该过程实现了冗余数据的初步过滤，同时减少了对非必要参数的分析优化，可以解决现有技术中数据量冗杂导致的过度拟合的问题。

通过第二预设方法，例如：标准主成分分析方法(Principal ComponentAnalysis，简称PCA)将初始信用数据中的非线性相关的信用特征数据映射到另一个低纬度空间进行降维处理，以减少需要分析的参数，获得与借款人相关的且需要分析的非线性相关的信用特征进行后续的信用评分预测。其中，需要说明的是：降维就是一种对高维度特征数据的预处理方法，降维是将高维度的数据保留下最重要的一些特征，去除噪声和不重要的特征，降低算法的计算开销的过程，通过降维过程实现了提升数据处理速度的目的。

S102：对所述非线性相关的信用特征数据进行筛选，以获得可用的信用特征数据。

在本说明书一个或多个实施例中，所述对所述非线性相关的信用特征进行筛选，以获得可用信用特征数据，具体包括：

结合各种机器学习算法的集成学习算法，可以用于提升模型的预测能力。与单一组件相比，可以提高整个集成的性能。在本说明书一个或多个实施例中，通过Xgboost技术对非线性相关的信用特征数据进行特征重要性排序。其中需要说明的是，Xgboost是boosting算法的其中一种，xgboost根据结构分数的增益情况计算出来选择哪个特征作为分割点,而某个特征的重要性就是它在所有树中出现的次数之和。也就是说一个属性越多的被用来在模型中构建决策树，它的重要性就相对越高。在通过对特征重要性排序后，将重要性低与预设阈值的作为该借贷人非必要的信用特征数据进行过滤，从而获得重要信用特征数据。

再基于预先设置的可以对信用特征数据进行分析的专家经验模型对过滤后的重要信用特征数据进行指标分析从而确定出必要的信用特征作为可用的信用特征数据进行后续处理。采用机器学习中的Xgboost技术与深度学习中的专家经验模型相结合的方式，对信用特征数据进行重要性的筛选。进一步的删除了非必要的信用特征数据，降低了需要处理的数据量，提升了运算的性能。

S103：通过预先集成训练的非线性拟合器对所述可用的信用特征数据进行分析，以获得所述借款人的信用评分；其中，所述非线性拟合器由两类回归树组成。

在本说明书一个或多个实施例中，所述通过预先集成训练的所需的非线性拟合器对所述可用信用特征进行信用评分之前，所述方法包括：

集成构建多层级联的回归分类树作为非线性拟合器；

在本说明书一个或多个实施例中，所述当集成构建八层级联的回归树作为非线性拟合器时，具体包括：

第五到七层每层由9个基于第一损失函数标准的分类树构成；

第八层由9个基于第一损失函数标准的分类回归树构成。

在本说明书一个或多个实施例中，对所述非线性拟合器进行训练，并根据Adam算法对所述非线性拟合器进行参数优化之前，所述方法还包括：

在本说明书一个或多个实施例中，所述通过预先集成训练的所需的非线性拟合器对所述可用信用特征数据进行分析，以获得所述借款人的信用评分之后，所述方法还包括：

分类回归树(classification and regression tree,CART)模型由Breiman等人在1984年提出，是应用广泛的决策树学习方法。CART同样由特征选择、树的生成及剪枝组成，既可以用于分类也可以用于回归。在机器学习方法中，使用了两种分类回归树(CART)作为基本的组成单元：分别使用了第一损失函数标准gini和第二损失函数标准entropy。而针对非线性拟合器设置了不同的最大树深度、叶子节点最少样本数和最大叶子节点数。将分类树进行集成构建多层级联的回归分类树作为非线性拟合器，并对集成后的非线性拟合器进行训练。通过Adam算法对训练过程中的CART参数进行优化迭代，使得非线性拟合器的训练集和测试集的误差总和达到最小，并将误差最小的非线性拟合器作为最终的非线性拟合器对借款人的信用评分进行预测。

其中，需要说明的：在非线性拟合器进行训练的过程中通过随机抽取形成了10个不同的训练集-测试集的组合例如训练集占70％，测试集占30％，用于对模型的交叉验证。Adma算法是一种可以替代传统随机梯度下降过程的一阶优化算法，它能基于训练数据迭代地更新神经网络权重，且具有计算效率高对内存需求小适用于大规模及其学习的优点。

如图2所示，当集成构建八层级联的回归树作为非线性拟合器时，深度级联回归树的第一层包括72个非线性拟合器：36个基于第一损失函数标准gini的CART与36个基于第二损失函数标准entropy的CART用于优化减小识别误差。对于这72个CART非线性拟合器都优化了以下参数：最大树深度、叶子节点最少样本数和最大叶子节点数。深度级联回归树中的第二到第四层每层由18个以第一损失函数标准gini的CART组成。深度级联回归树的第五层到第七层每层由9个以第一损失函数标准gini的CART组成。深度级联回归树的第八层由9个以第一损失函数标准gini的CART组成。通过深度级联回归树模型结合经典的机器学习拟合器提高了借款人信用评分预测的准确性。与单一方法相比，该方法表现出显着的性能提升。

通过集成的非线性拟合器对可信用特征数据进行分析，获得借款人的评分之后，为了可以使银行明确的接受或拒绝借款人的贷款，保证银行放贷行为的风险最小与利益最大化。基于信用评分对借款人进行信用等级的划分，如果可以确定信用等级大于等于预设的阈值，则银行可以认为该借款人是具有还贷能力的，可以接受借款人进行信用贷款。若确定所述信用等级低于预设阈值，那么银行为例确保风险最小可以拒绝该借款人进行信用贷款。

根据图3所示的一种基于回归树算法的信用评分设备的内部结构示意图可知，设备包括：

至少一个处理器；以及，

与所述至少一个处理器301通信连接的存储器；其中，

所述存储器301存储有可被所述至少一个处理器302执行的指令，所述指令被所述至少一个处理器302执行，以使所述至少一个处理器302能够：

根据图4所述的一种非易失性存储介质的内部结构示意图可知，所述非易失性存储介质，存储有计算机的可执行指令401，所述可执行指令401设置为：

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

以上所述仅为本说明书的一个或多个实施例而已，并不用于限制本说明书。对于本领域技术人员来说，本说明书的一个或多个实施例可以有各种更改和变化。凡在本说明书的一个或多个实施例的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本说明书的权利要求范围之内。

Claims

1.一种基于回归树算法的信用评分方法，其特征在于，所述方法包括：

对借款人的初始信用数据进行特征提取，以获得所述借款人的非线性相关的信用特征数据；其中，所述初始信用数据包括：当借款人为企业或集团客户时收集的：工商注册信息、企业的裁判文书、失信人、失信记录、开庭公告、法院公告、司法协助；当借款人为个人客户时，收集的：个人身份信息、POS交易信息、个人借贷卡账单信息、裁判文书信息、履约被执行信息、失信行为信息、线上线下支付数据；

通过预先集成训练的非线性拟合器对所述可用的信用特征数据进行分析，以获得所述借款人的信用评分；其中，所述非线性拟合器由两类回归树组成；

所述对借款人的初始信用进行特征提取，以获得所述借款人的非线性相关的信用特征，具体包括：

通过第二预设分析方法将所述初始信用数据中的非线性相关的信用特征数据映射到另一个低维空间进行降维处理，以提取所述借款人的非线性相关的信用特征数据；

对所述非线性相关的信用特征进行筛选，以获得可用信用特征数据，具体包括：

通过预先设置的专家经验模型对所述重要信用特征数据进行指标分析，以确定出必要的信用特征作为可用信用特征数据；

通过预先集成训练的非线性拟合器对所述可用的信用特征数据进行分析之前，所述方法还包括：

集成构建多层级联的回归分类树作为非线性拟合器，当集成构建八层级联的回归树作为非线性拟合器时，具体包括：

第一层包括36个基于第一损失函数标准的分类回归树与36个基于第二损失函数标准的分类回归树；其中，所述第一损失函数标准为gini的CART，所述第二损失函数标准为entropy的CART；

第五到七层每层由9个基于第一损失函数标准的分类树构成；

第八层由9个基于第一损失函数标准的分类回归树构成。

2.根据权利要求1所述的一种基于回归树算法的信用评分方法，其特征在于，所述对借款人的初始信用数据进行特征提取之前，所述方法还包括：

3.根据权利要求1所述的一种基于回归树算法的信用评分方法，其特征在于，所述通过预先集成训练的所需的非线性拟合器对所述可用信用特征进行信用评分之前，所述方法包括：

集成构建多层级联的回归分类树作为非线性拟合器；

评估所述非线性拟合器的误差总和，将误差最小的非线性拟合器作为最终的非线性拟合器。

4.根据权利要求3所述的一种基于回归树算法的信用评分方法，其特征在于，对所述非线性拟合器进行训练，并根据Adam算法对所述非线性拟合器进行参数优化之前，所述方法还包括：

5.根据权利要求1所述的一种基于回归树算法的信用评分方法，其特征在于，所述通过预先集成训练的所需的非线性拟合器对所述可用信用特征数据进行分析，以获得所述借款人的信用评分之后，所述方法还包括：

6.一种基于回归树算法的信用评分设备，其特征在于，所述设备包括：至少一个处理器；以及，

与所述至少一个处理器通信连接的存储器；其中，

第五到七层每层由9个基于第一损失函数标准的分类树构成；

第八层由9个基于第一损失函数标准的分类回归树构成。

7.一种非易失性存储介质，存储有计算机的可执行指令，所述可执行指令设置为：

第五到七层每层由9个基于第一损失函数标准的分类树构成；

第八层由9个基于第一损失函数标准的分类回归树构成。