CN108416495B

CN108416495B - 基于机器学习的评分卡模型建立方法及装置

Info

Publication number: CN108416495B
Application number: CN201810088784.6A
Authority: CN
Inventors: 段兆阳; 夏真; 卜象平; 陈薇
Original assignee: Hangzhou Ecreditpal Technology Co ltd
Current assignee: Hangzhou Ecreditpal Technology Co ltd
Priority date: 2018-01-30
Filing date: 2018-01-30
Publication date: 2021-02-26
Anticipated expiration: 2038-01-30
Also published as: CN108416495A

Abstract

本发明公开了基于机器学习的评分卡模型建立方法及装置，该方法包括衍生步骤、转换步骤、新增步骤，利用机器学习算法产生含有多维信息的衍生变量，把衍生变量做WOE转换后，当作新的衍生变量放入传统的评分卡模型的变量选择库中，这样，既保持了模型的稳定性和可解释性，又利用了机器学习的技术，获取了传统评分卡模型获得不到的高维度信息。本发明可以自动产生多维度的高能变量，自动嵌入传统评分卡模型的建立当中，从而提高传统的信贷模型质量，提高审批的正确率，拒绝更多的欺诈逾期申请。

Description

基于机器学习的评分卡模型建立方法及装置

技术领域

本发明涉及金融信贷行业的评分卡模型，尤其涉及基于机器学习的评分卡模型建立方法及装置。

背景技术

目前，传统的金融信贷行业建立审核模型的方法是传统的评分卡模型，利用逻辑回归的统计方法。在新兴发展起来的互联网科技和互联网金融公司，大数据机器学习和深度数据挖掘技术已经逐渐成为建模的主要工具，机器学习算法包括决策树(decisiontree)，随机森林(random forest)，梯度推进机(Gradient Boosting Machine，GBM)，支持向量机器(Support Vector Machine，SVM)和神经网络(neural network)等。

无论是传统的利用逻辑回归的评分卡模型，还是新兴的机器学习模型，都有他们明显的优点和缺点。

传统的评分卡模型属于线性模型，特点在于因变量和自变量属于线性关系，简单好解释，模型表现稳定，过拟合程度低，但是由于只能解释变量间的线性关系，所以随之带来的预测能力也相对比较低，换言之，模型只能发现和解释自变量对于因变量的线性关系。

机器学习模型可以解释复杂的多维关系，预测能力强，模型在训练数据上可以达到很好的预测表现结果。但是缺点也是很明显的，首先，模型内部的逻辑关系像黑盒子一样复杂无法解释，容易出现过拟合现象，这意味着模型在预测数据上或者在实践中的预测能力会下降很快，需要不断的重新更新，稳定性不够。

总结来说，传统的评分卡模型和机器学习模型在模型复杂度、预测性、稳定性上是两个极端。由于行业的重要性和特殊性的原因，在信贷金融行业中，对模型的表现稳定性要求要比互联网行业高，所以信贷金融行业仍然使用传统的评分卡模型做为信贷建模的方法。

发明内容

为了克服现有技术的不足，本发明的目的在于提供基于机器学习的评分卡模型建立方法及装置，旨在解决现有技术的传统评分卡模型预测能力较低，而机器学习模型稳定性不够的问题。

本发明的目的采用以下技术方案实现：

一种基于机器学习的评分卡模型建立方法，包括：

衍生步骤，利用机器学习算法产生含有多维信息的衍生变量；

转换步骤，对衍生变量做WOE转换；

新增步骤，将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中，利用新的衍生变量建立评分卡模型。

在上述实施例的基础上，优选的，所述机器学习算法为决策树；

所述方法具体为：

数据获取步骤，获取建模数据；建模数据包括原始的一维变量；

决策树生成步骤，对于建模数据中原始的一维变量，两两配对做决策树；

转换步骤，对于每个决策树的叶节点，做WOE转换；

二维变量建立步骤，对于每个决策树建立一个新的变量，称为二维变量；

模型建立步骤，利用新产生的二维变量和原始的一维变量，建立二维评分卡模型。

在上述实施例的基础上，优选的，二维变量的取值等于决策树的叶节点的 WOE值。

或者，优选的，所述模型建立步骤中，利用逻辑回归方法建立评分卡模型。

或者，优选的，该方法实现在R上，或者，该方法实现在Python上。

一种基于机器学习的评分卡模型建立装置，包括：

衍生模块，用于利用机器学习算法产生含有多维信息的衍生变量；

转换模块，用于对衍生变量做WOE转换；

新增模块，用于将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中，利用新的衍生变量建立评分卡模型。

所述装置包括：

数据获取模块，用于获取建模数据；建模数据包括原始的一维变量；

决策树生成模块，用于对于建模数据中原始的一维变量，两两配对做决策树；

转换模块，用于对于每个决策树的叶节点，做WOE转换；

二维变量建立模块，用于对于每个决策树建立一个新的变量，称为二维变量；

模型建立模块，用于利用新产生的二维变量和原始的一维变量，建立二维评分卡模型。

或者，优选的，所述模型建立模块利用逻辑回归方法建立评分卡模型。

或者，优选的，该装置应用在R上，或者，该装置应用在Python上。

相比现有技术，本发明的有益效果在于：

本发明公开了基于机器学习的评分卡模型建立方法及装置，利用机器学习算法(例如决策树，随机森林，梯度推进等)产生含有多维信息的衍生变量，把衍生变量做WOE(weight of evidence，证据权重)转换后，当作新的衍生变量放入传统的评分卡模型的变量选择库中，这样，既保持了模型的稳定性和可解释性，又利用了机器学习的技术，获取了传统评分卡模型获得不到的高维度信息。本发明可以自动产生多维度的高能变量，自动嵌入传统评分卡模型的建立当中，从而提高传统的信贷模型质量，提高审批的正确率，拒绝更多的欺诈逾期申请。

本发明将复杂的理论化的机器学习算法应用到实际金融领域的传统模型中，融合了传统算法和先进算法，将传统评分卡模型和新的机器学习模型的特点融合在一起，产生的新的评分卡模型兼具两种模型的优点，又弥补了单独模型的缺点。

本算法创造于互联网金融风控行业实践和理论研究结合的过程中，并且在互联网金融行业的企业中得以应用，在不影响模型稳定性的前提下，使得模型的预测效果提高10％-20％，极大的增强了信贷行业的审核准确性。

附图说明

下面结合附图和实施例对本发明进一步说明。

图1示出了本发明实施例提供的一种基于决策树的评分卡模型建立方法的流程示意图；

图2示出了本发明实施例生成的决策树结构示意图；

图3示出了本发明实施例提供的一种基于决策树的评分卡模型建立装置的结构示意图。

具体实施方式

下面，结合附图以及具体实施方式，对本发明做进一步描述，需要说明的是，在不相冲突的前提下，以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。

具体实施例一

本发明实施例对机器学习算法不做限定，其可以为决策树，随机森林，梯度推进等。

如图1所示，本发明实施例提供了一种基于机器学习的评分卡模型建立方法，以评分卡模型和决策树为例，具体算法实施流程如下：

数据获取步骤S101，获取建模数据；建模数据包括原始的一维变量；

决策树生成步骤S102，对建模数据中的原始一维变量，两两配对做决策树，生成例如图2中的决策树结构；

转换步骤S103，对每个决策树中的叶节点，做WOE转换；WOE是weight of evidence的缩写，意为证据权重；

二维变量建立步骤S104，对于每棵树建立一个新的变量，叫做二维变量，变量的取值逻辑遵循决策树的衍生逻辑，取值等于决策树的叶节点的WOE值；

模型建立步骤S105，使用新产生的二维变量和原始的一维变量，利用传统的逻辑回归方法，建立二维评分卡模型；新的评分卡模型中的变量包含一维变量和二维变量。

这样，既达到了提高模型的预测性的效果，又实现了稳定性和可解释性。

本方法的整个流程可以实现在R上和Python上，能够自动化运行，建立并筛选符合条件的决策树，自动产生新的二维变量，并且放置于逻辑回归模型中。

本发明实施例利用机器学习算法(例如决策树，随机森林，梯度推进等)产生含有多维信息的衍生变量，把衍生变量做WOE转换后，当作新的衍生变量放入传统的评分卡模型的变量选择库中，这样，既保持了模型的稳定性和可解释性，又利用了机器学习的技术，获取了传统评分卡模型获得不到的高维度信息。本发明实施例可以自动产生多维度的高能变量，自动嵌入传统评分卡模型的建立当中，从而提高传统的信贷模型质量，提高审批的正确率，拒绝更多的欺诈逾期申请。由于本发明实施例对传统算法和先进算法进行了融合，产生的新的模型兼具两种模型的好处，又弥补了单独模型的缺点。能够将复杂的理论化的机器学习算法应用到实际金融领域的传统模型中，是本发明实施例的主要贡献。

在上述的具体实施例一中，提供了基于机器学习的评分卡模型建立方法，与之相对应的，本申请还提供基于机器学习的评分卡模型建立装置。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可。下述描述的装置实施例仅仅是示意性的。

具体实施例二

本发明实施例提供了一种基于机器学习的评分卡模型建立装置，包括：

转换模块，用于对衍生变量做WOE转换；

优选的，所述机器学习算法为决策树，如图3所示，所述装置包括：

数据获取模块201，用于获取建模数据；建模数据包括原始的一维变量；

决策树生成模块202，用于对于建模数据中原始的一维变量，两两配对做决策树；

转换模块203，用于对于每个决策树的叶节点，做WOE转换；

二维变量建立模块204，用于对于每个决策树建立一个新的变量，称为二维变量；

模型建立模块205，用于利用新产生的二维变量和原始的一维变量，建立二维评分卡模型。

优选的，二维变量的取值可以等于决策树的叶节点的WOE值。

本发明实施例对模型建立模块205建立评分卡模型的方式不做限定，优选的，所述模型建立模块205利用逻辑回归方法建立评分卡模型。

本发明实施例对应用环境所采用的计算机语言不做限定，优选的，该装置应用在R上，或者，该装置应用在Python上。

本发明从使用目的上，效能上，进步及新颖性等观点进行阐述，其具有的实用进步性，己符合专利法所强调的功能增进及使用要件，本发明以上的说明及附图，仅为本发明的较佳实施例而己，并非以此局限本发明，因此，凡一切与本发明构造，装置，待征等近似、雷同的，即凡依本发明专利申请范围所作的等同替换或修饰等，皆应属本发明的专利申请保护的范围之内。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。尽管本发明已进行了一定程度的描述，明显地，在不脱离本发明的精神和范围的条件下，可进行各个条件的适当变化。可以理解，本发明不限于所述实施方案，而归于权利要求的范围，其包括所述每个因素的等同替换。对本领域的技术人员来说，可根据以上描述的技术方案以及构思，做出其它各种相应的改变以及形变，而所有的这些改变以及形变都应该属于本发明权利要求的保护范围之内。

Claims

1.一种基于机器学习的评分卡模型建立方法，其特征在于，包括：

转换步骤，对衍生变量做WOE转换；

新增步骤，将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中，利用新的衍生变量建立评分卡模型；

所述机器学习算法为决策树；

所述方法具体为：

转换步骤，对于每个决策树的叶节点，做WOE转换；

模型建立步骤，利用新产生的二维变量和原始的一维变量，建立二维评分卡模型；

该方法实现在R上，或者，该方法实现在Python上；

二维变量的取值等于决策树的叶节点的WOE值；

所述模型建立步骤中，利用逻辑回归方法建立评分卡模型。

2.一种基于机器学习的评分卡模型建立装置，其特征在于，包括：

转换模块，用于对衍生变量做WOE转换；

新增模块，用于将转换得到的新的衍生变量放入传统的评分卡模型的变量选择库中，利用新的衍生变量建立评分卡模型；

所述机器学习算法为决策树；

所述装置包括：

转换模块，用于对于每个决策树的叶节点，做WOE转换；

模型建立模块，用于利用新产生的二维变量和原始的一维变量，建立二维评分卡模型；

该装置应用在R上，或者，该装置应用在Python上

二维变量的取值等于决策树的叶节点的WOE值；

所述模型建立模块利用逻辑回归方法建立评分卡模型。