CN110084441A

CN110084441A - 基于组合最优化的自动化分箱算法

Info

Publication number: CN110084441A
Application number: CN201910404902.4A
Authority: CN
Inventors: 孙博; 段兆阳; 杨森
Original assignee: Hangzhou Arrangement Technology Co Ltd
Current assignee: Hangzhou Arrangement Technology Co Ltd
Priority date: 2019-05-16
Filing date: 2019-05-16
Publication date: 2019-08-02

Abstract

本发明公开了一种基于组合最优化的自动分箱算法，包括对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果、设置约束条件、进入组合最优化算法、判断目标函数是否达到最优和输出最优分箱结果。该算法在运行成本上也进行了优化，运行过程中首先从箱数阈值处开始计算满足此阈值的组合分箱点中是否有达到目标函数最优的组合，若满足目标函数最优，则可停止运行，输出最优结果，否则按照箱数阈值逐次减一的方式继续运行寻找，直到找到最优结果时停止，即此算法并不会运行所有的组合情况，减少运算成本的浪费。

Description

基于组合最优化的自动化分箱算法

技术领域

本发明属于金融信用评估技术领域，具体涉及基于组合最优化的自动化分箱算法。

背景技术

信用评分模型是评估贷款申请人的资信状况来预测申请人未来严重拖欠或坏账概率的模型。信用评分模型在信贷风险管理中有着非常重要的作用，因为该评分往往是信贷审批的关键依据。

由于银行及互联网金融行业的信贷业务均具有笔数多、数据丰富的特点，决定了需要对其进行智能化、概率化的管理模式。而信用评分模型就是运用现代的数理统计模型技术，通过对申请人信用历史记录和业务活动记录的深入挖掘，提炼出信息可以预测申请者欺诈信用逾期的概率大小。

评分卡模型是最重要、最常用的信用评分模型，而其中字段分箱操作是最为重要的一个环节。传统的建模工程师在非常具有经验且数据已经处理完成的情况下，建立评分卡模型也至少需要一周以上的时间，其中分箱的过程至少花费2天以上的时间，而自动化建立高效果的评分卡模型分箱操作，一方面大大节省了开发时间，保证了分箱的效果，另外建立此方法也往自动化建模和模型自动迭代成为现实迈出了重要的一步。

金融信贷行业在建立评分卡模型之前，首先会对数据样本进行分箱操作，一方面实现了对数据的标准化，另一方面可以降低模型应用过程中的过拟合。而传统上用的比较多的分箱方法包括等频分箱，等距分箱，自定义频数分箱，自定义距离分箱，还有根据业务意义业务人员手动分箱方法。传统上使用的等频或等距的分箱方法没有考虑特征变量在实际业务意义上的特点，而且也没有真正实现数据意义上的较优分箱，每箱数据并没有考虑对不同标签样本的区分能力。

传统建模工程师使用较多的分箱方法是每个特征变量的业务意义，以及业务人员的行业经验，对每个特征手动选取分箱点，将数据样本按照主观业务经验实现分箱。该方法虽然有它的优点，即可以在业务意义上有较好的解释性，但是此方法也存在很大的缺陷：

传统的方法没有达到分箱的最优效果，在分箱结果的信息值IV(informationvalue)上会有较大的损失，会影响模型的最终效果；

传统的方法比较主观，不具有统一适用性，不同的建模工程师做出的效果好坏不稳定；

传统的方法工作耗时较长，必须依靠建模专家交互性操作，无法实现机器学习模型的自动化建立。

发明内容

本发明的目的在于提供基于组合最优化的自动化分箱算法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于组合最优化的自动化分箱算法，包括如下步骤：

S1、对建模数据中的原始变量与目标变量相结合应用某种初始分箱结果，例如等距，等频，或者自定义的初始分箱结果，初始分割点作为优化算法的基础，进入下一步的组合最优化算法中；

S2、设置组合最优化算法中的约束条件，包括最终分箱箱数，每箱数据样本量及特殊样本数等条件；

S3、利用排列组合思想从最终箱数阈值开始，计算满足此箱数阈值及满足约束条件的组合结果中是否含有满足目标函数最优的组合分箱点，若有，则停止运行；否则，进入下一步；

S4、再次利用组合思想从箱数阈值-1时开始，计算满足箱数阈值-1并满足约束条件的组合结果中寻找目标函数最优的组合分箱点，若有，则停止运行；否则，继续循环箱数阈值-2的情况，直到寻找到目标函数达到最优的组合分箱点；

S5、若样本数据中含有特殊样本，则将特殊样本按照特殊样本最终箱数阈值进行特殊样本的分箱，分箱结束后将特殊样本分箱结果与上述S3或S4的分箱结果合并在一起作为最后的结果输出；若样本数据中不含有特殊样本，则直接将上述S3或S4的分箱结果作为最后的结果输出。

优选的，S1中所述的组合最优化算法结合了运筹学中的非线性规划思想以及数学中的排列组合思想，该组合最优化算法的目标函数为：

其中，y_i表示第i组箱中响应标签的数量，y_T表示全部样本中响应标签的数量，n_i表示第i组箱中未响应标签的数量，n_T表示全部样本中未响应标签的数量。

优选的，该组合最优化算法的约束条件为：

其中，brd_i表示第i组分箱样本与第i+1组分箱样本中的响应标签占比的差值，G函数为计算分箱组单调性的函数，n表示最终分箱数，n_thershlid表示最终分箱数阈值，S_i表示第i箱数据样本量大小，S_threshold表示每箱样本量阈值，Special表示特殊样本值，B函数为计算特殊样本的箱数的函数，B_threshold表示特殊样本最终箱数阈。

与现有技术相比，本发明的有益效果是：

1、该算法组合最优化算法使用初始分箱点和算法的约束条件以及组合的思想，从满足约束条件的所有组合分箱点中寻找满足目标函数的最终分箱点。该算法在运行成本上也进行了优化，运行过程中首先从箱数阈值处开始计算满足此阈值的组合分箱点中是否有达到目标函数最优的组合，若满足目标函数最优，则可停止运行，输出最优结果，否则按照箱数阈值逐次减一的方式继续运行寻找，直到找到最优结果时停止，即此算法并不会运行所有的组合情况，减少运算成本的浪费；

2、将该算法嵌入到传统评分卡模型或其他新兴机器学习的建立当中，可以明显提高金融行业传统的信贷模型质量，提高审批的正确率，拒绝更多的欺诈逾期申请。

附图说明

图1为本发明的算法流程图；

具体实施方式

下面结合实施例对本发明做进一步的描述。

以下实施例用于说明本发明，但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整，在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。

请参阅图1，本发明提供一种技术方案：基于组合最优化的自动化分箱算法，包括如下步骤：

S2、设置组合最优化算法中的约束条件，包括最终分箱箱数，每箱数据样本量及特殊样本数等条件，所述的组合最优化算法结合了运筹学中的非线性规划思想以及数学中的排列组合思想，该组合最优化算法的目标函数为：

其中，y_i表示第i组箱中响应标签的数量，y_T表示全部样本中响应标签的数量，n_i表示第i组箱中未响应标签的数量，n_T表示全部样本中未响应标签的数量；

该组合最优化算法的约束条件为：

其中，brd_i表示第i组分箱样本与第i+1组分箱样本中的响应标签占比的差值，G函数为计算分箱组单调性的函数，n表示最终分箱数，n_thershlid表示最终分箱数阈值，S_i表示第i箱数据样本量大小，S_threshold表示每箱样本量阈值，Special表示特殊样本值，B函数为计算特殊样本的箱数的函数，B_threshold表示特殊样本最终箱数阈；

根据此算法的思想，就得到了既能够在数据意义上达到最优效果的分箱点组合，又能够实现此分箱点组合在业务意义上的解释性。

案例：此算法整个流程已经实现在Python上，可以自动化运行，建立并筛选符合条件的初始分箱结果，然后利用组合最优化算法寻找到最佳分箱结果；

对比本算法与等频分箱算法的分箱结果，选取20个变量的分箱结果如表1所示，其中大部分变量采用组合最优化算法的分箱IV值均比等频分箱IV值提升20％以上，针对这20个变量组合最优化算法将变量分箱IV值平均提升了40.2％；

表1.组合最优化算法与等频分箱算法效果对比

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于组合最优化的自动化分箱算法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于组合最优化的自动化分箱算法，其特征在于：所述的组合最优化算法结合了运筹学中的非线性规划思想以及数学中的排列组合思想，该组合最优化算法的目标函数为：

3.根据权利要求2所述的基于组合最优化的自动化分箱算法，其特征在于：该组合最优化算法的约束条件为：