CN114140013A

CN114140013A - 一种基于xgboost的评分卡生成方法、装置及设备

Info

Publication number: CN114140013A
Application number: CN202111494782.5A
Authority: CN
Inventors: 陈玮; 刘德彬; 黄远江; 陈颖
Original assignee: Chongqing Socialcredits Big Data Technology Co ltd
Current assignee: Chongqing Socialcredits Big Data Technology Co ltd
Priority date: 2021-12-08
Filing date: 2021-12-08
Publication date: 2022-03-04

Abstract

本发明提供一种基于xgboost的评分卡生成方法、装置及设备，通过对获取的各客户信息进行预处理，得到初始数据；并对初始数据进行分箱处理，计算各分箱的woe值；对每个分箱中的初始数据进行woe转换，得到目标变量；建立xgboost分类模型，输入目标变量，确定各目标变量的权重；再根据初始数据，计算信用分值，结合目标变量的权重，确定分箱的重要程度；根据重要程度，从而得到标准形式的评分卡。基于xgboost模型，满足对数据处理的高要求，基于变量分箱的重要程度从而得到评分卡，实现对多重非线性的关系的处理，解决了逻辑回归模型的缺陷，能够快速地应用到信贷评分领域，对客户进行客观科学地评分，拦截坏客户。

Description

一种基于xgboost的评分卡生成方法、装置及设备

技术领域

本发明涉及评分卡生成技术领域，尤其涉及一种基于xgboost的评分卡生成方法、装置及设备。

背景技术

目前，信用评分卡广泛应用在金融科技信贷领域，用于综合评估客户信用风险，为贷前预授信、贷中行为评分、贷后催收以及防欺诈等决策提供科学支撑，是现代金融模型的核心之一。常见的实现方式是根绝申请客户的各项数据进行WOE分箱，建立逻辑回归模型，然后进行刻度转换，根据回归系数以及WOE值对每箱赋予分数，得到初步的评分卡，再根据业务背景进行一定的调整得到最终的评分卡。逻辑回归由于是一种线性模型，无法考虑到变量之间的以及变量与违约风险之间的非线性关系，而真实场景中大量的关系都表现为非线性关系，逻辑回归模型对于这种非线性关系捕捉能力不足，因此预测效果相对较差。

发明内容

基于此，有必要针对上述技术问题，提供一种基于xgboost的评分卡生成方法、装置及设备。

本案中的xgboost是一种基于boosting集成方式的以CART决策树作为基础学习器的梯度提升算法的高效实现，该算法能够自动选择那些重要的变量，对变量的重要性进行排序，量化变量的重要程度，同时具有强大的非线性捕捉能力，此外对于一些效果类似的变量，xgboost会自动地选择其中最具代表性的变量，将其放在重要的位置，而忽视其余的可替代变量，因此具有很强的处理多重共线性的能力。本案根据xgboost得出的各个变量的重要性程度，然后再转化为标准的评分表，即解决了逻辑回归模型的缺陷，同时又有逻辑回归模型的可解释性，因此xgboost是一种逻辑回归模型很好的替代模型。

一种基于xgboost的评分卡生成方法，所述方法包括：获取各客户信息，对所述各客户信息进行预处理，得到初始数据；对所述初始数据进行分箱处理，并计算各分箱的woe值；对每个分箱中的初始数据进行woe转换，得到目标变量；建立xgboost分类模型，输入所述目标变量，确定各目标变量的权重；根据初始数据，计算信用分值，结合所述目标变量的权重，确定目标变量对应分箱的重要程度；根据各目标变量对应分箱的所述重要程度，得到标准形式的评分卡。

在其中一个实施例中，所述获取各客户信息，对所述各客户信息进行预处理，得到初始数据步骤，具体为：获取各客户信息；对所述各客户信息进行缺失值填充和非法值替换处理，得到初始数据。

在其中一个实施例中，所述根据初始数据，计算信用分值，结合所述目标变量的权重，确定目标变量对应分箱的重要程度步骤，具体为：根据所述初始数据建立马尔科夫转移矩阵，确定信用系数；统计各所述目标变量的分箱中好坏客户的频数；将所述频数作为加权值，对所述信用系数进行加权求和，得到各分箱的信用分值；根据所述信用分值和各所述目标变量的权重，确定各目标变量对应分箱的重要程度。

在其中一个实施例中，所述统计各所述目标变量的分箱中好坏客户的频数步骤，具体为：根据客户信息，将所述目标样本分为好样本和坏样本；将所述各分箱中的目标样本根据好样本和坏样本进行区分统计，得到各所述目标变量的分箱中好坏客户的频数。

一种基于xgboost的评分卡生成装置，包括数据获取模块、数据分箱模块、变量得到模块、权重确定模块、重要程度计算模块和评分卡生成模块，其中：所述数据获取模块用于，获取各客户信息，对所述各客户信息进行预处理，得到初始数据；所述数据分箱模块用于，对所述初始数据进行分箱处理，并计算各分箱的woe值；所述变量得到模块用于，对每个分箱中的初始数据进行woe转换，得到目标变量；所述权重确定模块用于，建立xgboost分类模型，输入所述目标变量，确定各目标变量的权重；所述重要程度计算模块用于，根据初始数据，计算信用分值，结合所述目标变量的权重，确定目标变量对应分箱的重要程度；所述评分卡生成模块用于，根据各目标变量对应分箱的所述重要程度，得到标准形式的评分卡。

在其中一个实施例中，所述数据获取模块还包括信息获取单元和信息处理单元，其中：所述信息获取单元用于，获取各客户信息；所述信息处理单元用于，对所述各客户信息进行缺失值填充和非法值替换处理，得到初始数据。

在其中一个实施例中，所述重要程度计算模块还包括信用系数确定单元、频数统计单元、信用分值计算单元、重要程度确定单元，其中：所述信用系数确定单元用于，根据所述初始数据建立马尔科夫转移矩阵，确定信用系数；所述频数统计单元用于，统计各所述目标变量的分箱中好坏客户的频数；所述信用分值计算单元用于，将所述频数作为加权值，对所述信用系数进行加权求和，得到各分箱的信用分值；所述重要程度确定单元用于，根据所述信用分值和各所述目标变量的权重，确定各目标变量对应分箱的重要程度。

一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述各个实施例中所述的一种基于xgboost的评分卡生成方法的步骤。

上述一种基于xgboost的评分卡生成方法、装置及设备，通过对获取的各客户信息进行预处理，得到初始数据；并对初始数据进行分箱处理，计算各分箱的woe值；对每个分箱中的初始数据进行woe转换，得到目标变量；建立xgboost分类模型，输入目标变量，确定各目标变量的权重；再根据初始数据，计算信用分值，结合目标变量的权重，确定分箱的重要程度；根据重要程度，从而得到标准形式的评分卡。基于xgboost分类模型，满足对数据处理的高要求，基于变量分箱的重要程度从而得到评分卡，实现对多重非线性的关系的处理，解决了逻辑回归模型的缺陷，能够快速地应用到信贷评分领域，对客户进行客观科学地评分，拦截坏客户。

附图说明

图1为一个实施例中一种基于xgboost的评分卡生成方法的流程示意图；

图2为一个实施例中一种基于xgboost的评分卡生成装置的结构框图；

图3为一个实施例中数据获取模块的结构框图；

图4为一个实施例中重要程度计算模块的结构框图；

图5是一个实施例中设备的内部结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面通过具体实施方式结合附图对本发明做进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

在一个实施例中，如图1所示，提供了一种基于xgboost的评分卡生成方法，包括以下步骤：

S110获取各客户信息，对各客户信息进行预处理，得到初始数据。

具体地，根据贷款样本在表现期是否违约定义贷款违约标签，同时采集表现期以前的企业信息，包括税务、司法、工商、财报、征信数据，对采集的数据进行预处理，得到初始数据。各客户信息即为各企业信息。

在一个实施例中，步骤S110具体为：获取各客户信息；对各客户信息进行缺失值填充和非法值替换处理，得到初始数据。具体地，对采集的数据进行预处理，比如填充缺失值、替换非法数值，得到预处理后的初始数据。

S120对初始数据进行分箱处理，并计算各分箱的woe值。

具体地，对预处理后的数据进行特征分箱，分箱过程也需要手工调整离散边界值，计算各个分箱的woe值。

S130对每个分箱中的初始数据进行woe转换，得到目标变量。

具体地，进行woe转换，需要根据业务需求保持woe的单调性与业务理解一致，woe转换后的数据作为最终建模样本，即目标变量。

S140建立xgboost分类模型，输入目标变量，确定各目标变量的权重。

具体地，根据步骤S130中的目标变量建立xgboost分类模型，输出目标变量的重要性程度，xgboost的重要性程度值通常表现为百分比，最重要的变量的重要度为100％，其余的变量则为该变量的百分之几。然后根据公式将各个变量的重要度转换为决策影响程度值作为变量权重，权重之和为100，记第i个变量的权重为Yi，则计算公式如下：

Yi＝INT(100*Xi/∑Xi)

其中Xi为第i个变量的特征重要性，∑Xi为所有的特征重要性之和。

S150根据初始数据，计算信用分值，结合目标变量的权重，确定目标变量对应分箱的重要程度。

具体地，即确定目标变量各个取值的重要程度。在一个实施例中，步骤S150具体为：根据初始数据建立马尔科夫转移矩阵，确定信用系数；统计各目标变量的分箱中好坏客户的频数；将频数作为加权值，对信用系数进行加权求和，得到各分箱的信用分值；根据信用分值和各目标变量的权重，确定各目标变量对应分箱的重要程度。具体地，根据历史数据(即初始数据)建立马尔科夫转移矩阵，确定信用系数(a0,a1)，a0和a1分别是好客户中继续保持为好客户的比例、坏客户变为好客户的比例；统计变量各个woe分箱的好坏客户频数，比如一个变量有woe1,woe2,woe3三个分箱，分别按照下表填入各个分箱的好坏样本数，woei,j分别表示第i个分箱的j类样本数，j代表好坏

	woe1	woe2	woe3
				1(代表坏样本)	woe1,1	woe2,1	woe3,1
0(代表好样本)	woe1,0	woe2,0	woe3,0

以频数作为加权值，对信用系数进行加权求和，得到各个woe分箱的信用分值；比如woe1这个分箱的好坏样本频数分别是woe1,0，woe1,1，好坏样本的信用系数是a0，a1，那么woe1这个分箱的信用分值为(a0*woe1,0+a1*woe1,1)/(woe1,0+woe1,1)；

信用分值最高的woe分箱的重要程度是该变量的决策影响程度，也就是第二步中变量对应的变量权重Yi，然后对于其他的woe分箱依据其信用分值占信用分值最高的woe分箱的比例乘以该变量的重要程度作为该woe分箱的重要程度。假设某个变量有三个分箱woe1,woe2,woe3，对应的信用分数是s1,s2,s3，其中s1最大，那么woe1的重要程度p1也就是得分就为该变量在第二步中的变量权重Yi，而woe2对应的p2则为s2/s1*Yi，woe3对应的p3则为s3/s3*Yi。

在一个实施例中，步骤统计各目标变量的分箱中好坏客户的频数步骤，具体为：根据客户信息，将目标样本分为好样本和坏样本；将各分箱中的目标样本根据好样本和坏样本进行区分统计，得到各目标变量的分箱中好坏客户的频数。具体地，根据客户信息，通过判断是否存在违约，将目标样本分为好样本和坏样本，存在违约则是坏样本，没有违约的则是好样本，然后进一步的统计频数。

S160根据各目标变量对应分箱的重要程度，得到标准形式的评分卡。

具体地，根据步骤S150中计算出来的重要程度，确定所有变量的woe分箱的取值，从而得到标准形式的评分卡。评分卡即为对贷款客户的评价分析，判断其好坏，从而拦截坏客户(即可能违约的客户)。

上述实施例中，通过对获取的各客户信息进行预处理，得到初始数据；并对初始数据进行分箱处理，计算各分箱的woe值；对每个分箱中的初始数据进行woe转换，得到目标变量；建立xgboost分类模型，输入目标变量，确定各目标变量的权重；再根据初始数据，计算信用分值，结合目标变量的权重，确定分箱的重要程度；根据重要程度，从而得到标准形式的评分卡。基于xgboost分类模型，满足对数据处理的高要求，基于变量分箱的重要程度从而得到评分卡，实现对多重非线性的关系的处理，解决了逻辑回归模型的缺陷，能够快速地应用到信贷评分领域，对客户进行客观科学地评分，拦截坏客户。

在一个实施例中，如图2所示，提供了一种基于xgboost的评分卡生成装置200，该装置包括数据获取模块210、数据分箱模块220、变量得到模块230、权重确定模块240、重要程度计算模块250和评分卡生成模块260，其中：

数据获取模块210用于，获取各客户信息，对各客户信息进行预处理，得到初始数据；

数据分箱模块220用于，对初始数据进行分箱处理，并计算各分箱的woe值；

变量得到模块230用于，对每个分箱中的初始数据进行woe转换，得到目标变量；

权重确定模块240用于，建立xgboost分类模型，输入目标变量，确定各目标变量的权重；

重要程度计算模块250用于，根据初始数据，计算信用分值，结合目标变量的权重，确定目标变量对应分箱的重要程度；

评分卡生成模块260用于，根据各目标变量对应分箱的重要程度，得到标准形式的评分卡。

在一个实施例中，如图3所示，数据获取模块210还包括信息获取单元211和信息处理单元212，其中：

信息获取单元211用于，获取各客户信息；

信息处理单元212用于，对各客户信息进行缺失值填充和非法值替换处理，得到初始数据。

在一个实施例中，如图4所示，重要程度计算模块250还包括信用系数确定单元251、频数统计单元252、信用分值计算单元253、重要程度确定单元254，其中：

信用系数确定单元251用于，根据初始数据建立马尔科夫转移矩阵，确定信用系数；

频数统计单元252用于，统计各目标变量的分箱中好坏客户的频数；

信用分值计算单元253用于，将频数作为加权值，对信用系数进行加权求和，得到各分箱的信用分值；

重要程度确定单元254用于，根据信用分值和各目标变量的权重，确定各目标变量对应分箱的重要程度。

在一个实施例中，提供了一种设备，该设备可以是服务器，其内部结构图可以如图5所示。该设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中，该设备的处理器用于提供计算和控制能力。该设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该设备的数据库用于存储配置模板，还可用于存储目标网页数据。该设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于xgboost的评分卡生成方法。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的设备的限定，具体的设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

显然，本领域的技术人员应该明白，上述本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在计算机存储介质(ROM/RAM、磁碟、光盘)中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。所以，本发明不限制于任何特定的硬件和软件结合。

以上内容是结合具体的实施方式对本发明所做的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于xgboost的评分卡生成方法，其特征在于，包括：

获取各客户信息，对所述各客户信息进行预处理，得到初始数据；

对所述初始数据进行分箱处理，并计算各分箱的woe值；

对每个分箱中的初始数据进行woe转换，得到目标变量；

建立xgboost分类模型，输入所述目标变量，确定各目标变量的权重；

根据初始数据，计算信用分值，结合所述目标变量的权重，确定目标变量对应分箱的重要程度；

根据各目标变量对应分箱的所述重要程度，得到标准形式的评分卡。

2.如权利要求1所述的方法，其特征在于，所述获取各客户信息，对所述各客户信息进行预处理，得到初始数据步骤，具体为：

获取各客户信息；

对所述各客户信息进行缺失值填充和非法值替换处理，得到初始数据。

3.如权利要求1所述的方法，其特征在于，所述根据初始数据，计算信用分值，结合所述目标变量的权重，确定目标变量对应分箱的重要程度步骤，具体为：

根据所述初始数据建立马尔科夫转移矩阵，确定信用系数；

统计各所述目标变量的分箱中好坏客户的频数；

将所述频数作为加权值，对所述信用系数进行加权求和，得到各分箱的信用分值；

根据所述信用分值和各所述目标变量的权重，确定各目标变量对应分箱的重要程度。

4.如权利要求3所述的方法，其特征在于，所述统计各所述目标变量的分箱中好坏客户的频数步骤，具体为：

根据客户信息，将所述目标样本分为好样本和坏样本；

将所述各分箱中的目标样本根据好样本和坏样本进行区分统计，得到各所述目标变量的分箱中好坏客户的频数。

5.一种基于xgboost的评分卡生成装置，其特征在于，包括数据获取模块、数据分箱模块、变量得到模块、权重确定模块、重要程度计算模块和评分卡生成模块，其中：

所述数据获取模块用于，获取各客户信息，对所述各客户信息进行预处理，得到初始数据；

所述数据分箱模块用于，对所述初始数据进行分箱处理，并计算各分箱的woe值；

所述变量得到模块用于，对每个分箱中的初始数据进行woe转换，得到目标变量；

所述权重确定模块用于，建立xgboost分类模型，输入所述目标变量，确定各目标变量的权重；

所述重要程度计算模块用于，根据初始数据，计算信用分值，结合所述目标变量的权重，确定目标变量对应分箱的重要程度；

所述评分卡生成模块用于，根据各目标变量对应分箱的所述重要程度，得到标准形式的评分卡。

6.如权利要求5所述的装置，其特征在于，所述数据获取模块还包括信息获取单元和信息处理单元，其中：

所述信息获取单元用于，获取各客户信息；

所述信息处理单元用于，对所述各客户信息进行缺失值填充和非法值替换处理，得到初始数据。

7.如权利要求5所述的装置，其特征在于，所述重要程度计算模块还包括信用系数确定单元、频数统计单元、信用分值计算单元、重要程度确定单元，其中：

所述信用系数确定单元用于，根据所述初始数据建立马尔科夫转移矩阵，确定信用系数；

所述频数统计单元用于，统计各所述目标变量的分箱中好坏客户的频数；

所述信用分值计算单元用于，将所述频数作为加权值，对所述信用系数进行加权求和，得到各分箱的信用分值；

所述重要程度确定单元用于，根据所述信用分值和各所述目标变量的权重，确定各目标变量对应分箱的重要程度。

8.一种设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至4中任一项所述方法的步骤。