CN110223156A

CN110223156A - 基于逐步最优特征选择的自动化模型调优算法

Info

Publication number: CN110223156A
Application number: CN201910404903.9A
Authority: CN
Inventors: 段兆阳; 孙博; 杨森
Original assignee: Hangzhou Arrangement Technology Co Ltd
Current assignee: Hangzhou Arrangement Technology Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-09-10

Abstract

本发明公开了一种基于逐步最优特征选择的自动化模型调优算法，该算法包括建立初版评分模型、设置限制条件、逐步最优特征选择算法、筛选得出最优模型KS值、判断模型KS差值变量组合是否达标、将未达标的KS差值变量组合重新筛选和建立最终评分卡模型七大步骤；该算法可以自动产生最优的评分卡模型，最大程度挖掘了特征变量对于目标变量的预测能力，消除了建模人员主观意识的干扰性，减少时间成本的浪费，最终生成的评分卡模型兼顾了模型预测效果的有效性和模型应用效果的稳定性。将该算法嵌入到传统评分卡模型的建立当中，可以明显提高金融行业传统的信贷模型质量，提高审批的正确率，拒绝更多的欺诈逾期申请。

Description

基于逐步最优特征选择的自动化模型调优算法

技术领域

本发明属于互联网金融风控技术领域，具体涉及基于逐步最优特征选择的自动化模型调优算法。

背景技术

信用评分模型是根据银行或互联网金融客户的各种历史信用资料，得到不同等级的信用分数，根据客户的信用分数，授信机构可以通过分析客户贷后还款的可能性来决定是否给予授信以及授信的额度和利率。

传统上银行或金融机构采取人工审批的方式，根据审批人员的个人经验进行主观的审批判断，使得审批决策很容易受主观因素的影响，导致审批结果不一致，不能够量化风险级别，无法实现风险的分级管理，而且会使得审批过程成本高、效率低。因此，这一状况就决定了客观准确的评分卡模型的建立需求。评分卡模型运用现代的数理统计模型技术，通过对申请人信用历史记录和业务活动记录的深入挖掘，提炼出信息可以预测申请者欺诈信用逾期的概率大小。

评分卡模型是最重要、最常用的信用评分模型，建立初版评分卡模型之后的模型调优过程是极其重要的步骤。模型调优过程一方面可以进一步提升模型效果，另一方面可以保证模型实际应用过程中的稳定性。传统上有些建模工程师会直接使用初版模型进行实际业务应用，还有些建模工程师会进行模型调优但是会有很多主观因素的干预，并不能很好的实现模型的最佳效果及应用的稳定性。

金融信贷行业在建立初版评分卡模型之后，大多数建模工程师会进行模型的调优过程，进一步优化模型的效果及稳定性。传统上模型调优的过程是依靠建模人员自身的经验，在初版模型的基础上，手动进行一些变量的增减选择，不同经验的建模人员最终建立的模型会有一定的差别。

传统建模工程师使用较多的评分卡模型调优方法是根据自身建模及业务经验手动调整入模特征变量，调整入模变量的过程完全依靠建模人员主观经验的判断，不同的人员会得到不同的模型结果，此方法存在如下缺陷：

1.传统的模型调优方法没有达到模型的最优效果，不能在效果较优的情况下保持模型的稳定性，容易忽略一些有意义的特征变量，不能挑选出所有变量中组合最佳的变量进入模型，造成信息的损失；

2.传统的模型调优方法比较主观，不具有统一适用性，不同的建模工程师做出的效果好坏不稳定；

3.传统的模型调优方法工作耗时较长，必须依靠建模工程师交互性操作，无法实现评分卡模型的自动化建立。

发明内容

本发明的目的在于提供基于逐步最优特征选择的自动化模型调优算法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于逐步最优特征选择的自动化模型调优算法，包括如下步骤：

S1、对建模数据样本建立初版评分卡模型，得到初版模型的入模特征变量组合，以及剩余未入模的所有特征变量；

S2、设置逐步最优特征选择算法的基本限制条件，使得逐步选择的特征变量满足入模要求，包括显著性水平P-Value，特征变量系数coefficient以及信息值IV(information value)；

S3、根据S1中的初版模型结果及S2中的基本限制条件，首先通过逐步最优特征选择算法挑选能够使得模型预测效果达到最优的特征变量组合，即针对初版模型中所有入模变量，循环删除每一个特征变量后利用剩余特征变量建模，记录下每次模型结果的评估指标KS值，同时针对初版模型未入模特征变量,循环加入每个特征变量后建立模型，同样记录下每次模型结果的评估指标KS值，选择两类操作中KS值达到最大的变量，若KS值最大的情况是原来的变量组合，加入新变量或减少原变量均无法提升KS值，则停止迭代，输出原来的变量组合，进入S5中；若KS值最大的情况不是原来的变量组合，则使用 KS值最大的变量组合建模代替原始模型，进入步骤S4中；

S4、在S3的变量组合基础上，针对此变量组合循环删除每一个特征变量建模，记录KS值，同时针对所有未入模变量循环加入每一个特征变量建模，记录KS值，选取使得KS值最大的操作，一直循环进行此步骤，直到模型KS值达到最优为止，进入S5中；

S5、在S3或S4中得到的模型预测效果达到最佳的变量组合基础上，同样通过逐步最优特征选择算法挑选在模型预测效果最佳的同时使得模型达到稳定的变量组合，针对现有模型入模变量，循环删除每一个特征变量后利用剩余特征变量建模，记录下每次模型结果在训练样本和测试样本上的KS差值比例,同时针对现有模型未入模特征变量,循环加入每个特征变量后建立模型，同样记录下每次模型结果在训练样本和测试样本上的KS差值比例，若此时存在使得KS差值比例达到要求的变量组合，选择所有满足要求的变量组合中KS值最大的变量组合，输出此变量组合,进入S7中；若不存在使得KS差值比例达到要求的变量组合，则使用KS差值比例最小的变量组合建模代替原始模型，进入S6中；

S6、在S5的变量组合基础上，针对此变量组合循环删除每一个特征变量建模，记录KS差值比例，同时针对所有未入模变量循环加入每一个特征变量建模，记录KS差值比例，选取使得KS差值比例满足要求的变量组合，输出这些变量组合中KS值最大的组合，一直循环进行此步骤，直到KS差值比例满足要求为止，选择模型KS值最大的变量组合进入S7中；

S7、利用使得模型既有效又稳定的特征变量组合，建立最终的评分卡模型。

优选的，S3的目标函数为：

约束条件为：

其中，TP表示预测为正样本的正向样本数量，FN表示预测为负样本的正向样本数量，FP表示预测为正样本的负向样本数量，TN表示预测为负样本的负向样本数量，B表示输出为0或1的布尔函数，Pvalue_i表示模型中第i个特征变量的显著性水平，α表示显著性水平阈值(一般设为0.05)，coefficient_i表示模型中第i个特征变量的系数，iv表示加入模型的特征变量的IV值，iv_threshold表示IV值的阈值，cofficient表示特征变量放入模型后的系数，Pvalue表示加入模型的特征变量的显著性水平。

优选的，S5的目标函数为：

约束条件同步S3中的约束条件；

其中，KS_train表示训练样本的KS值，KS_test表示测试样本的KS值，γ表示KS 差值比例要求的阈值。

优选的，所述KS差值比例要求的阈值一般设置为5％。

与现有技术相比，本发明的有益效果是：该算法既可以使模型实现最佳预测效果，又能够保证模型的稳定性，保证进行新样本数据预测时模型效果偏差较小，并且整个模型调优过程实现自动化，减少人工操作。

附图说明

图1为本发明的算法流程示意图。

具体实施方式

下面结合实施例对本发明做进一步的描述。

以下实施例用于说明本发明，但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整，在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。

请参阅图1，本发明提供一种技术方案：基于逐步最优特征选择的自动化模型调优算法，包括如下步骤：

S3、根据S1中的初版模型结果及S2中的基本限制条件，首先通过逐步最优特征选择算法挑选能够使得模型预测效果达到最优的特征变量组合，即针对初版模型中所有入模变量，循环删除每一个特征变量后利用剩余特征变量建模，记录下每次模型结果的评估指标KS值，同时针对初版模型未入模特征变量,循环加入每个特征变量后建立模型，同样记录下每次模型结果的评估指标KS值，选择两类操作中KS值达到最大的变量，若KS值最大的情况是原来的变量组合，加入新变量或减少原变量均无法提升KS值，则停止迭代，输出原来的变量组合，进入S5中；若KS值最大的情况不是原来的变量组合，则使用KS值最大的变量组合建模代替原始模型，进入步骤S4中；

此步骤目标函数为：

约束条件为：

其中，TP表示预测为正样本的正向样本数量，FN表示预测为负样本的正向样本数量，FP表示预测为正样本的负向样本数量，TN表示预测为负样本的负向样本数量，B表示输出为0或1的布尔函数，Pvalue_i表示模型中第i个特征变量的显著性水平，α表示显著性水平阈值(一般设为0.05)，coefficient_i表示模型中第i个特征变量的系数，iv表示加入模型的特征变量的IV值，iv_threshold表示IV值的阈值，cofficient表示特征变量放入模型后的系数，Pvalue表示加入模型的特征变量的显著性水平；

此步骤的目标函数为：

约束条件同步S3中的约束条件；

其中，KS_train表示训练样本的KS值，KS_test表示测试样本的KS值，γ表示 KS差值比例要求的阈值，KS差值比例要求的阈值一般设置为5％；

该算法可在互联网金融行业的各个场景如消费分期行业、小微企业贷款行业、大额现金分期等行业得以应用，应用效果是在共同保证模型稳定性的情况下，使得模型预测效果提高20％左右，增强了信贷行业审核的准确性，同时使得模型的建立时间大大缩短，而且使得模型的自动化建立和迭代成为可能。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于逐步最优特征选择的自动化模型调优算法，其特征在于，包括如下步骤：

S2、设置逐步最优特征选择算法的基本限制条件，使得逐步选择的特征变量满足入模要求，包括显著性水平P-Value，特征变量系数coefficient以及信息值IV(informationvalue)；

2.根据权利要求1所述的基于逐步最优特征选择的自动化模型调优算法，其特征在于，S3的目标函数为：

约束条件为：

3.根据权利要求2所述的基于逐步最优特征选择的自动化模型调优算法，其特征在于，S5的目标函数为：

约束条件同步S3中的约束条件；

其中，KS_train表示训练样本的KS值，KS_test表示测试样本的KS值，γ表示KS差值比例要求的阈值。

4.根据权利要求3所述的基于逐步最优特征选择的自动化模型调优算法，其特征在于，所述KS差值比例要求的阈值一般设置为5％。