CN110458690A

CN110458690A - 一种信用评分模型的建立方法及装置

Info

Publication number: CN110458690A
Application number: CN201910695716.0A
Authority: CN
Inventors: 曾伟雄; 莫卉星; 纪磊
Original assignee: Union Mobile Pay Co Ltd
Current assignee: Union Mobile Pay Co Ltd
Priority date: 2019-07-30
Filing date: 2019-07-30
Publication date: 2019-11-15

Abstract

本发明提供一种信用评分模型的建立方法及装置，该装置包括：获取包括授信客户的相关信息及信用评分的第一类训练样本；初始化分类模型，并利用所述第一类训练样本对初始化后的分类模型进行训练，训练结束后得到初步信用评分模型；获取拒绝客户的相关信息并输入到所述初步信用评分模型，得到所述拒绝客户的信用评分；将拒绝客户的相关信息及信用评分，授信客户的相关信息及信用评分作为第二类训练样本；初始化分类模型，并利用第二类训练样本对初始化后的分类模型进行训练，训练结束后得到最终信用评分模型。本发明可以解决现有的拒接推断的方法均独立分类模型之外的问题，改善了信用程度评分的判别能力，并且给出了一个量化可操作的过程。

Description

一种信用评分模型的建立方法及装置

技术领域

本发明涉及分类模型应用技术领域。具体涉及一种信用评分模型的建立方法及装置。

背景技术

在信贷领域，贷款方需要向放款方申请贷款，放款方基于贷款方的相关信息进行审核，审核通过后的贷款方为授信客户，审核未通过的为拒绝客户。对于授信客户，根据授信客户的贷款请求进行放款，后期放款方根据授信客户的相关信息对授信客户的信用程度进行区分，该相关信息可以包括授信客户的个人信息，也可以进一步包括授信客户在一段时间内的贷款还款记录等，区分后确定该授信客户是信用程度高的好客户(如未逾期的客户)、还是信用程度低的坏客户(如存在逾期的客户)。

利用上述授信客户的相关信息及其对应的信用程度作为训练样本，对分类模型进行训练，训练结束后利用分类模型，根据其他的授信客户的相关信息，对其他的授信客户进行信用程度分类。

但是，上述分类模型仅利用授信客户的相关信息及信用卡程度作为训练数据进行建模，仅可以对授信客户进行信用程度分类，无法对拒绝客户进行信用程度分类，这样就在对客户进行信用程度评分时，总是“使用部分样本数据去估计总体”，因而存在参数估计的偏差。因此提出了拒绝推理(reject inference)，又称拒绝推断，拒绝推断就是为了推断出拒绝客户的信用程度评分，改善信用程度评分的判别能力。

目前提出几种常用的拒绝推断方法，如重新分类法(Reclassification)、分散打包法(Parceling)、重新加权法(Reweighting)等，但这些方法均独立分类模型之外，未能充分利用拒绝客户的信用程度，并不是一个量化的可操作性的方法。

发明内容

本发明提供一种信用评分模型的建立方法及装置，用以解决现有的拒接推断的算法均独立分类模型之外，未能充分利用拒绝客户的信用程度，并不是一个量化的可操作性的方法的问题。

第一方面，本申请提供一种信用评分模型的建立方法，该方法包括：

获取包括授信客户的相关信息及信用评分的第一类训练样本；

初始化分类模型，并利用所述第一类训练样本对初始化后的分类模型进行训练，训练结束后得到初步信用评分模型；

获取拒绝客户的相关信息并输入到所述初步信用评分模型，得到所述拒绝客户的信用评分；

将拒绝客户的相关信息及信用评分，授信客户的相关信息及信用评分作为第二类训练样本；

初始化分类模型，并利用第二类训练样本对初始化后的分类模型进行训练，训练结束后得到最终信用评分模型。

可选的，所述信用评分为信用度，所述第一类训练样本/第二类训练样本中，包括信用度小于设定阈值的负样本及信用度大于设定阈值的正样本。

可选的，还包括：

检测当前设定阈值划分的第一类训练样本/第二类训练样本中的正样本和负样本是否满足如下关系式，若不满足调整设定阈值至满足如下关系式：

第一类训练样本中的所有正样本的信用评分平均值，第二类训练样本中所有拒绝客户的信用评分平均值，第一类训练样本中所有授信客户的信用评分平均值，第二训练样本中属于正样本的所有授信客户的信用评分平均值，为依次从大到小的顺序。

可选的，所述信用评分为失信度，所述第一类训练样本/第二类训练样本中，包括失信度小于设定阈值的正样本及失信度大于设定阈值的负样本；

可选的，还包括：

第一类训练样本中的所有正样本的信用评分平均值，第二类训练样本中所有拒绝客户的信用评分平均值，第一类训练样本中所有授信客户的信用评分平均值，第二训练样本中属于正样本的所有授信客户的信用评分平均值，为依次从小到大的顺序。

可选的，还包括：

获取到待分类的授信客户/拒绝客户的相关信息并输入到最终的信用评分模型；

根据所述最终的信用评分模型输出的信用评分与设定阈值的关系，确定所述待分类的授信客户/拒绝客户的分类。

可选的，包括：

利用如下任一分类算法构建信用评分模型：

决策树分类算法、随机森林分类算法、逻辑回归分类算法、神经网络分类算法。

第二方面，本申请提供一种信用评分模型的建立装置，该装置包括：

获取模块，用于获取包括授信客户的相关信息及信用评分的第一类训练样本；

初步训练模块，用于初始化分类模型，并利用所述第一类训练样本对初始化后的分类模型进行训练，训练结束后得到初步信用评分模型；

运行模块，用于获取拒绝客户的相关信息并输入到所述初步信用评分模型，得到所述拒绝客户的信用评分；

样本获取模块，将拒绝客户的相关信息及信用评分，授信客户的相关信息及信用评分作为第二类训练样本；

最终训练模块，初始化分类模型，并利用第二类训练样本对初始化后的分类模型进行训练，训练结束后得到最终信用评分模型。

第三方面，本申请提供一种信用评分模型的建立装置，包括：存储器、处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

第四方面，本申请还提供一种计算机存储介质，其上存储有计算机程序，该程序被处理单元执行时实现第一方面所述方法的步骤。

另外，第二方面至第四方面中任一种实现方式所带来的技术效果可参见第一方面中不同实现方式所带来的技术效果，此处不再赘述。

利用本发明提供的信用评分模型的建立方法及装置，具有以下有益效果：

本发明提供的一种信用评分模型的建立方法及装置，可以在对客户进行信用程度评分时，利用授信客户的相关信息及信用卡程度及拒绝客户的相关信息及信用卡程度作为训练数据进行建模，改善了信用程度评分的判别能力，并且给出了一个量化可操作的过程。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种信用评分模型的建立方法示意图；

图2为本发明实施例提供的一种信用评分模型的建立方法示意图；

图3为本发明实施例提供的一种信用评分模型的建立方法示意图；

图4为本发明实施例提供的一种信用评分模型的建立装置示意图；

图5为本发明实施例提供的一种信用评分模型的建立装置示意图。

具体实施方式

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部份实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中术语“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明实施例描述的应用场景是为了更加清楚的说明本发明实施例的技术方案，并不构成对于本发明实施例提供的技术方案的限定，本领域普通技术人员可知，随着新应用场景的出现，本发明实施例提供的技术方案对于类似的技术问题，同样适用。其中，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

本发明实施例中提出的一种信用评分模型的建立方法并不仅仅针对信贷领域，对于其他需要对用户进行信用评分的领域也同样适用，比如金融领域及保险领域等。

在信贷领域，仅可以利用审核通过的授信客户的相关信息及信用卡程度作为训练数据进行建模，无法对拒绝客户进行信用程度分类，这样就在对客户进行信用程度评分时，总是“使用部分样本数据去估计总体”，因而存在参数估计的偏差。因此提出了拒绝推理(reject inference)，又称拒绝推断，拒绝推断就是为了推断出拒绝客户的信用程度评分，改善信用程度评分的判别能力。

现有的拒绝推断的算法独立分类模型之外，利用相应的参数根据相应的计算规则来推断拒绝客户的分类，并不是一个量化的可操作性的方法。针对以上问题，本发明实施例提出一种信用评分模型的建立方法，如图1所示，包括：

S101，获取包括授信客户的相关信息及信用评分的第一类训练样本；

S102，初始化分类模型，并利用所述第一类训练样本对初始化后的分类模型进行训练，训练结束后得到初步信用评分模型；

S103，获取拒绝客户的相关信息并输入到所述初步信用评分模型，得到所述拒绝客户的信用评分；

S104，将拒绝客户的相关信息及信用评分，授信客户的相关信息及信用评分作为第二类训练样本；

S105，初始化分类模型，并利用第二类训练样本对初始化后的分类模型进行训练，训练结束后得到最终信用评分模型。

本发明实施例中贷款客户分为授信客户和拒绝客户，放款方基于贷款客户的相关信息进行审核，审核通过后的贷款客户为授信客户，审核未通过的为拒绝客户。对授信客户放款后可以记录授信客户的相关信息及信用评分，而拒绝客户由于审核未通过，没有相关的信用评分。

上述授信客户及拒绝客户的相关信息包括但不限于学历、收入、消费能力及其他数据等。

上述授信客户及拒绝客户的信用评分可以为信用度或失信度，当信用评分为信用度时，信用评分越高表示授信客户及拒绝客户的信用越好；当信用评分为失信度时，信用评分越高表示客户的信用越差。

上述信用评分模型的建立方法，在建立最终信用评分模型时利用授信客户和拒绝客户的相关信息及信用评分作为训练样本，这样使用总体样本对客户进行信用程度评分的方法，减少了估计偏差，改善了信用程度评分的判别能力，并且给出了一个量化可操作的过程。

上述信用评分可以为0-100范围之间的数值，数值越大表示信用度越高或失信度越高，也可以为其他的范围如0-10之间的数值，此处不做限定。

利用训练结束后得到最终信用评分模型，在获得待评价信用度的授信客户或拒绝客户的相关信息后，可以利用上述最终信用评分模型，得到待评价信用度的授信客户或拒绝客户的评分，进一步地，还可以设定相应的阈值，信用评分是信用度时，大于该阈值认为好客户，小于该阈值为坏客户。信用评分是失信度时，大于该阈值认为是坏客户，小于该阈值认为是好客户。这两个阈值可以相同也可以不同。

下面结合上述信用评分模型的建立方法给出具体的实施例，分别说明信用评分为信用度时的信用评分模型的建立方法及阈值调整方法，及信用评分为失信度时的信用评分模型的建立方法及阈值调整方法。

实施例一

本实施例给出一种信用评分模型的建立方法，所述信用评分为信用度，如图2所示，包括：

S201，获取包括授信客户的相关信息及信用度的第一类训练样本；

S202，初始化分类模型，并利用所述第一类训练样本对初始化后的模型进行训练，训练结束后得到初步信用评分模型；

S203，获取拒绝客户的相关信息并输入到所述初步信用评分模型，得到所述拒绝客户的信用度；

S204，将拒绝客户的相关信息及信用度，授信客户的相关信息及信用度作为第二类训练样本；

S205，初始化分类模型，并利用第二类训练样本对初始化后的分类模型进行训练，训练结束后得到最终信用评分模型。

所述第一类训练样本中，包括信用度小于设定阈值的负样本及信用度大于设定阈值的正样本。

所述第二类训练样本中，包括信用度小于设定阈值的负样本及信用度大于设定阈值的正样本。

所述第一类样本仅包括授信客户的相关信息及信用度，所述第二类训练样本包括授信客户和拒绝客户的相关信息和信用度。利用第二训练样本训练得到的最终信用评分模型，可以对总体客户进行分类。

若设第一类训练样本中的所有正样本为DATA-A-TAG1，第二类训练样本中所有拒绝客户的正样本为DATA-D-TAG1，负样本为DATA-D-TAG0，第一类训练样本中所有授信客户的正样本为DATA-A-TAG1，负样本为DATA-A-TAG0，第二训练样本中属于正样本的所有授信客户为DATA-A-TAG0。

则上述通过设定阈值划分的第一类训练样本/第二类训练样本中的正样本和负样本还应满足如下关系式：

还可以表示为以下公式：

DATA-A-TAG1的平均评分>(DATA-D-TAG0+DATA-D-TAG1)的平均评分>(DATA-A-TAG0+DATA-A-TAG1)的平均评分>DATA-A-TAG0的平均评分

此时信用度评分越高表示信用越好，当第一类训练样本/第二类训练样本中的正样本和负样本不满足上述关系式，则调整设定阈值至满足上述关系式。

利用如下任一分类算法构建信用评分模型：

作为一种可选的实施方式，本实施例中的信用评分模型算法包括如下任一分类算法：

1)决策树分类算法

决策树算法是一种逼近离散函数值的方法，它是一种典型的分类方法，首先对数据进行处理，利用归纳算法生成可读的规则和决策树，然后使用决策对新数据进行分析，本质上决策树是通过一系列规则对数据进行分类的过程。

决策树构造可以分两步进行：第一步，决策树的生成，具体由训练样本集生成决策树的过程；第二步，决策树的剪枝，决策树的剪枝是对上一阶段生成的决策树进行检验、校正和修下的过程，主要是用新的样本数据集(称为测试数据集)中的数据校验决策树生成过程中产生的初步规则，将那些影响预衡准确性的分枝剪除。

2)随机森林分类算法；

随机森林指的是利用多棵树对样本进行训练并预测的一种分类器，包括多个节点，从训练样本中以抽样的方式，取样N次，形成一个训练集，并用未抽到的样本作预测，评估其误差。

对于每一个节点，随机选择m个特征，决策树上每个节点的决定都是基于这些特征确定的，根据这m个特征，计算其最佳的分裂方式。

3)逻辑回归分类算法

逻辑回归分类算法是分类和预测算法中的一种，通过历史数据的表现对未来结果发生的概率进行预测。

逻辑回归其实仅为在线性回归的基础上，套用了一个逻辑函数。对于多元逻辑回归，对于训练数据集，特征数据x＝{x1,x2,…,xm}和对应的分类数据y＝{y1,y2,…,ym}。构建逻辑回归模型f(θ)，最典型的构建方法便是应用极大似然估计。

4)神经网络分类算法

神经网络分类算法思维方式的根本之点在于以下两点：信息是通过神经元上的兴奋模式分布存储在网络上；信息处理是通过神经元之间同时相互作用的动态过程来完成的，通过训练使神经网络分类模型具有逻辑思维推理能力。

实施例二

本实施例给出一种信用评分模型的建立方法，所述信用评分为失信度，如图3所示，包括：

S301，获取包括授信客户的相关信息及失信度的第一类训练样本；

S302，初始化分类模型，并利用所述第一类训练样本对初始化后的分类模型进行训练，训练结束后得到初步信用评分模型；

S303，获取拒绝客户的相关信息并输入到所述初步信用评分模型，得到所述拒绝客户的失信度；

S304，将拒绝客户的相关信息及失信度，授信客户的相关信息及失信度作为第二类训练样本；

S305，初始化分类模型，并利用第二类训练样本对初始化后的分类模型进行训练，训练结束后得到最终信用评分模型。

所述第一类训练样本中，包括失信度小于设定阈值的正样本及失信度大于设定阈值的负样本；

所述第二类训练样本中，包括失信度小于设定阈值的正样本及失信度大于设定阈值的负样本；

则当前设定阈值划分的第一类训练样本/第二类训练样本中的正样本和负样本是否满足如下关系式，若不满足调整设定阈值至满足如下关系式：

还可以表示为以下公式：

DATA-A-TAG1的平均评分<(DATA-D-TAG0+DATA-D-TAG1)的平均评分<(DATA-A-TAG0+DATA-A-TAG1)的平均评分<DATA-A-TAG0的平均评分

利用如下任一分类算法构建信用评分模型：

以上对本发明中一种信用评分模型的建立方法进行说明，以下对执行上述信用评分模型的建立装置进行说明。

请参阅图4本发明实施例提供的一种信用评分模型的建立装置，包括：

获取模块401，用于获取包括授信客户的相关信息及信用评分的第一类训练样本；

初步训练模块402，用于初始化分类模型，并利用所述第一类训练样本对初始化后的分类模型进行训练，训练结束后得到初步信用评分模型；

运行模块403，用于获取拒绝客户的相关信息并输入到所述初步信用评分模型，得到所述拒绝客户的信用评分；

样本获取模块404，将拒绝客户的相关信息及信用评分，授信客户的相关信息及信用评分作为第二类训练样本；

最终训练模块405，用于初始化分类模型，并利用第二类训练样本对初始化后的分类模型进行训练，训练结束后得到最终信用评分模型。

可选的，获取模块用于确定所述信用评分为信用度，所述第一类训练样本/第二类训练样本中，包括信用度小于设定阈值的负样本及信用度大于设定阈值的正样本。

可选的，最终训练模块用于检测当前设定阈值划分的第一类训练样本/第二类训练样本中的正样本和负样本是否满足如下关系式，若不满足调整设定阈值至满足如下关系式：

可选的，获取模块用于确定所述信用评分为失信度，所述第一类训练样本/第二类训练样本中，包括失信度小于设定阈值的正样本及失信度大于设定阈值的负样本；

可选的，最终训练模块用于获取到待分类的授信客户/拒绝客户的相关信息并输入到最终的信用评分模型；

可选的，利用如下任一分类算法构建信用评分模型：

请参阅图5，本申请实施例中一种信用评分模型的建立装置，包括：

存储器501、处理器502；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

可选的，处理器用于确定所述信用评分为信用度，所述第一类训练样本/第二类训练样本中，包括信用度小于设定阈值的负样本及信用度大于设定阈值的正样本。

可选的，处理器用于检测当前设定阈值划分的第一类训练样本/第二类训练样本中的正样本和负样本是否满足如下关系式，若不满足调整设定阈值至满足如下关系式：

可选的，处理器用于确定所述信用评分为失信度，所述第一类训练样本/第二类训练样本中，包括失信度小于设定阈值的正样本及失信度大于设定阈值的负样本；

可选的，处理器用于获取到待分类的授信客户/拒绝客户的相关信息并输入到最终的信用评分模型；

可选的，处理器用于利用如下任一分类算法构建信用评分模型：

本发明实施例还提供一种计算机可读存储介质，包括指令，当其在计算机上运行时，使得计算机执行上述实施例提供的信用评分模型的建立方法。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的装置和模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理模块，即可以位于一个地方，或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能模块可以集成在一个处理模块中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。

所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时，全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字客户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存储的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘(solid state disk，SSD))等。

以上对本申请所提供的技术方案进行了详细介绍，本申请中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种信用评分模型的建立方法，其特征在于，该方法包括：

2.根据权利要求1所述的方法，其特征在于，所述信用评分为信用度，所述第一类训练样本/第二类训练样本中，包括信用度小于设定阈值的负样本及信用度大于设定阈值的正样本。

3.根据权利要求2所述的方法，其特征在于，还包括：

4.根据权利要求1所述的方法，其特征在于，所述信用评分为失信度，所述第一类训练样本/第二类训练样本中，包括失信度小于设定阈值的正样本及失信度大于设定阈值的负样本。

5.根据权利要求4所述的方法，其特征在于，还包括：

6.根据权利要求2～5任一所述的方法，其特征在于，还包括：

7.如权利要求1所述的方法，其特征在于，包括：

利用如下任一分类算法构建信用评分模型：

8.一种信用评分模型的建立装置，其特征在于，该装置包括：

样本获取模块，用于将拒绝客户的相关信息及信用评分，授信客户的相关信息及信用评分作为第二类训练样本；

最终训练模块，用于初始化分类模型，并利用第二类训练样本对初始化后的分类模型进行训练，训练结束后得到最终信用评分模型。

9.一种信用评分模型的建立装置，其特征在于，包括：存储器、处理器；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

10.一种计算机可读存储介质，其特征在于，包括计算机程序指令，当其在计算机上运行时，使得计算机执行如权利要求1至7中任一项所述的方法。