CN111915428A

CN111915428A - 一种基于决策树特征融合的评分卡模型优化方法

Info

Publication number: CN111915428A
Application number: CN202010794521.4A
Authority: CN
Inventors: 孙博; 王记华; 毛新民
Original assignee: Hangzhou Ecreditpal Technology Co ltd
Current assignee: Hangzhou Ecreditpal Technology Co ltd
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-10

Abstract

本发明公开了一种基于决策树特征融合的评分卡模型优化方法，包括S1基于用户填写信息和征信信息，进行特征信息筛选；将筛选过的特征信息作为特征变量；S2使用badrate代替S1步骤中特征变量的变量值，将特征变量中的类别型变量转换为数值型变量；S3将在S2步骤中转换为数值型变量利用决策树方法生成树状结构、对数值型变量进行变量融合，提取树状结构中各数值型变量所有切分点的值，以保证信息的可靠性；S4将S3步骤中决策树各分支的数值结果采用woe编码的方式表示新的信息变量；S5将S4步骤中应用woe编码后的新的信息变量与原有其他信息变量综合在一起作为逻辑回归输入值建立评分卡模型。本发明兼顾了业务意义上的可解释性和数据意义上的最佳融合。

Description

一种基于决策树特征融合的评分卡模型优化方法

技术领域

本发明涉及互联网技术领域，尤其涉及一种基于决策树特征融合的评分卡模型优化方法。

背景技术

目前，信用评分模型是评估贷款申请人的资信状况来预测申请人未来严重拖欠或坏账概率的模型。

评分卡模型是最重要、最常用的信用评分模型，而对于模型效果影响最大的是特征变量的生成，对于评分卡模型来讲，一般的特征生成方法来源于用户填写信息、征信信息、三方信息或者其他信息来源，通过这些信息中字段进行加工衍生生成许多特征变量，但这些特征变量在评分卡模型中又是相对独立的，而现实业务中某些特征变量之间存在着一定的关联关系，只有多个变量结合在一起才能真正符合业务意义。

现有的金融信贷行业在建立评分卡模型之前，首先会根据数据源情况整理分析进行特征变量的衍生，传统上的衍生方式就是单一维度的信息进行独立的特征衍生，或者是人工参与的某两个特征变量的简单组合，并且一般组合的结构会是类别型特征结构；以使现有的评分卡模型具有下述缺陷：

(1)传统上使用的单一特征衍生方法仅仅考虑单个特征的信息，而没有考虑到特征之间的关联关系，在实际业务意义上有所疏漏，没有真正实现数据意义上的较优衍生。

(2)传统的方法在变量分割点选取上没有按照数据表现选取最优分割点，在最终分割结果的信息值IV(information value)上会有较大的损失，会影响模型的最终效果。

(3)另外，传统的方法比较主观，不具有统一适用性，不同的建模工程师做出的效果好坏不稳定。

(4)传统的方法工作耗时较长，必须依靠建模专家手动主观性操作，无法实现机器学习模型的自动化建立。

发明内容

本发明的目的是提供一种基于决策树特征融合的评分卡模型优化方法，可以解决上述技术问题中的一个或是多个。

为了达到上述目的，本发明提出的技术方案如下：

一种基于决策树特征融合的评分卡模型优化方法，包括

S1基于用户填写信息和征信信息，进行特征信息筛选；将筛选过的特征信息作为特征变量；

S2使用badrate代替S1步骤中特征变量的变量值，将特征变量中的类别型变量转换为数值型变量；

S3将在S2步骤中转换为数值型变量利用决策树方法生成树状结构、对数值型变量进行变量融合，提取树状结构中各数值型变量所有切分点的值，以保证信息的可靠性；

S4将S3步骤中决策树各分支的数值结果采用woe编码的方式表示新的信息变量；

S5将S4步骤中应用woe编码后的新的信息变量与原有其他信息变量综合在一起作为逻辑回归输入值建立评分卡模型。

进一步的：S1步骤中进行组合的特征变量数量为2个或3个。

进一步的：S2步骤中badrate的获得首先是分析需融合变量数据类型分为N组(N组类型)，badrate＝组内坏样本数量/组内样本总量。

进一步的：S3步骤中决策树方法的深度在3到5层之间。

进一步的：S3步骤中变量切分点判断标准为Gini系数，具体如下：

D₁＝{(x,y)∈D|A(x)＝a}；D₂＝D-D₁；其中，D表示样本集合，A表示某一特征变量，a表示特征变量的某一切分点，D₁和D₂表示被可能值a切分为的两组样本，K表示样本类别数量，C1k是D1样本集合中第k类的样本子集，|D|表示样本D的样本个数。

进一步的：步骤S4中的woe值的计算方式如下：

其中，y_i表示第i组箱中响应标签的数量，y_T表示全部样本中响应标签的数量，n_i表示第i组箱中未响应标签的数量，n_T表示全部样本中未响应标签的数量。

本发明的技术效果是：

本方法使用决策树的多个变量融合衍生，首先将两个及以上的特征变量经过特殊的数据处理，处理后数据使用决策树算法进行变量融合生成一个新的特征变量，对新特征变量使用woe方式进行编码，用woe有序编码值代替新变量值加入评分卡模型；本方法是最有效且最具业务意义操作的自动化实现，大大节省建模时间；此方法实现了多个关联变量之间关联关系的直观展现。

发明方法在评分卡模型优化思路上有很大的创新意义。本发明基于现有用户填写信息和征信信息的大数据，通过重新设置特征变量的筛选方式，通过树结构进行变量融合，优化了现有技术中的评分卡模型；新的衍生方法既可以体现特征变量在数据意义上的最优统计变现，又能够实现衍生结果在业务意义上的可解释性，并且能够保证衍生得到的特征在整体评分卡模型中提供优质创新的特征变量，增加模型使用信息，在一定程度上使得模型达到最优效果，并且整体方法可自动化进行，减少人工操作。

附图说明

构成本申请的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

在附图中：

图1是本发明的工作流程示意图。

具体实施方式

下面将结合附图以及具体实施例来详细说明本发明，其中的示意性实施例以及说明仅用来解释本发明，但并不作为对本发明的不当限定。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

一种基于决策树特征融合的评分卡模型优化方法，包括

S1基于用户填写信息和征信信息，进行特征信息筛选；将筛选过的特征信息作为特征变量；；

其中步骤S1中所述特征信息筛选条件为：

首先该特征变量的覆盖率要大于70％；

然后，将上述筛选过后的特征变量中重复的变量筛除(即去掉重数量大于等于2的特征变量值)；

最后，再根据实际数据的业务含义进行筛选(即要求特征信息具有有效业务含义的特征变量)，这一步的筛选就是根据用户办理的实际的业务进行人工筛选。

步骤S3中各特征变量的融合需满足下列条件之一：

1)从纯数据角度，限定好融合变量的个数限制，然后随机组合生成需要融合的变量组，每个变量组融合生成一个新的变量；

2)是以业务意义为主，根据业务意义，将业务相近的变量分配在同一个组内，然后在各个变量组进行变量融合。

这样就可以使特征信息既可以具有数据意义又可以在业务意义上具有可解释性。

S4将S3步骤中决策树各分支的数值结果采用woe编码的方式表示；

进一步的：S1步骤中进行组合的特征变量数量为2个或3个。

进一步的：S2步骤中badrate的获得首先是分析需融合变量数据类型分为N组(N组类型)，badrate＝组内坏样本数量/组内样本总量。需要针对每一类别型变量、计算所有变量值的badrate。。

进一步的：为了变量解释性要求；S3步骤中决策树方法的深度在3到5层之间。

进一步的：步骤S4中的woe值的计算方式如下：

本方法通过机器语言在计算机上展示。本发明最终生成的变量融合结果兼顾了业务意义上的可解释性和数据意义上的最佳融合。

将此方法嵌入到传统评分卡模型或其他新兴机器学习的建立当中，根据用户等相关信息，获得对应的信用评价，可以明显提高金融行业传统的信贷模型质量，提高审批的正确率，拒绝更多的欺诈逾期申请。

而且本发明优化了运行效率，运行过程减少了不必要的运行成本消耗，提升建立模型效率。

通过测试集样本评估指标KS值结果来看，使用本算法后KS值提升了14.4％左右，对于模型结果优化角度来讲，已经是很大比例的提升。如下表所示。

评估指标	使用本方法优化过的评分卡模型	不使用本方法的评分卡模型
			KS值	58.14	50.84

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于决策树特征融合的评分卡模型优化方法，其特征在于：包括

2.根据权利要求1所述的基于决策树特征融合的评分卡模型优化方法，其特征在于：S1步骤中进行组合的筛选特征信息数量为2个或3个。

3.根据权利要求1所述的基于决策树特征融合的评分卡模型优化方法，其特征在于：S2步骤中badrate的获得首先是分析需融合变量数据类型分为N组，badrate＝组内坏样本数量/组内样本总量。

4.根据权利要求1所述的基于决策树特征融合的评分卡模型优化方法，其特征在于：S3步骤中决策树方法的深度在3到5层之间。

5.根据权利要求1所述的基于决策树特征融合的评分卡模型优化方法，其特征在于：S3步骤中变量切分点判断标准为Gini系数，具体如下：

D₁＝{(x,y)∈D|A(x)＝a}；D₂＝D-D₁；其中，D表示样本集合，A表示某一特征变量，a表示特征变量的某一切分点，D₁和D₂表示被可能值a切分为的两组样本，K表示样本类别数量，C_1k是D₁样本集合中第k类的样本子集，|D|表示样本D的样本个数。

6.根据权利要求1所述的基于决策树特征融合的评分卡模型优化方法，其特征在于：步骤S4中的woe值的计算方式如下：