CN109840843A

CN109840843A - 基于相似性合并的连续型特征自动分箱算法

Info

Publication number: CN109840843A
Application number: CN201910011781.7A
Authority: CN
Inventors: 段兆阳; 王华瑞; 孙博
Original assignee: Hangzhou Arrangement Technology Co Ltd
Current assignee: Hangzhou Arrangement Technology Co Ltd
Priority date: 2019-01-07
Filing date: 2019-01-07
Publication date: 2019-06-04

Abstract

本发明公开了一种基于相似性合并的连续型特征自动分箱算法，包括建模数据，决策树初始分箱，100份等频分箱，线性趋势判断，趋势+ChiMerge合箱，IV、相关性等以及获取最终评分卡模型；该算法已使用python实现了整个流程，大大减少了在获取符合单调性的分割点过程的耗时和信息损耗，同时减少了分析师对分箱的干预，模型稳定性得到很好的检验，按照数据本身趋势进行箱合并的算法削弱了分析师在趋势判断方面的主观影响，使分箱结果所呈现的违约单调性更具有建模数据的支撑，增强了分箱的说服力，提高变量的表达能力。

Description

基于相似性合并的连续型特征自动分箱算法

技术领域

本发明属于消费金融场景个人信用信用风险评估技术领域，具体涉及基于相似性合并的连续型特征自动分箱算法。

背景技术

信用评分卡是一种综合借款人的相关信息如身份地位、职业特征、收支状况等特征对借款人的还款能力和还款意愿进行量化的信用评估系统。一方面，对于申请人来说，信用评分高低意味着所享受信贷服务的优劣，另一方面，对于信贷金融机构来说，信用评分的高低往往预示着申请人违约风险的大小，也是进行风险定价的重要依据，与信贷金融机构的收益密切相关。由此，信用评分卡已成为金融机构有效快速的识别违约客户，提高信贷收益，降低风险损失的重要手段。

与传统金融风控进行风险控制所使用的数据维度不同，在当下，金融大数据囊括了基本属性数据、行为数据、设备数据及其他关联数据，极大丰富了信用评估的可用数据维度，这使得全方位有效的进行信用评估成为可能，但同时也对评分卡模型的特征处理性能提出了更高的要求。金融信贷机构特征集合普遍具有数量多、纬度高的特点，但评分卡应关注的并不是数据规模本身，而是这些海量数据中有价值的特征，按照传统的方式人工进行特征筛选已不能很好的适用当前的信贷场景。以评分卡模型经常使用的LR线性分类器为例，为剔除特征中包含的噪声，降低过拟合风险，同时增强特征对评分关于业务逻辑的可解释性，相对严格的评分卡模型的连续型特征至少需要经历变量分箱→违约比例单调→IV达到阈值→共线性检验→逐步回归→符合业务逻辑的变量筛选过程。为缩短评分卡模型的建立时间，自动化的变量分箱和筛选过程已成为信贷金融机构进行评分卡建立的必然选择。

针对连续型变量，多数机构会直接采取等频或等距自动切分的分箱方式，在箱数不超过一定阈值的前提下自动或人工进行合箱操作，以使各箱的违约比例单调，然后计算IV，将IV值达到一定大小的特征集合作为进入回归模型的变量集，最后，由分析师结合实际业务从主观角度判断变量各箱的违约比例趋势是否与业务逻辑相符合，可采取人工分箱的方式对箱进行调整，并据此对模型进行重建操作，一方面，等频或等距分箱属于无监督分箱方式，在等频或等距粗分箱的基础上进行合箱操作会造成较大的IV损失；另一方面合箱过程中简单地以违约比例单调为目标，以循环的方式进行判断、合箱、再判断，这种方式会存在以下问题：

1、循环会造成合箱耗时较长；

2、由于违约比例必须严格单调的限制，这种方式合箱的最终结果往往以 2箱居多；

3、这种方式得到的IV并非最佳IV，会造成相对较多的IV损失；

4、不同的参数设定所得到的违约比例单调性趋势可能产生不一致的现象，同一个变量可能出现违约比例随划分区间值的增大而增大和违约比例随划分区间至的增大而减小两种情况；

5、分析师会从从主观的角度对违约比例的单调趋势进行解释，不同的单调性趋势，不同的原因解释，这种解释缺乏客观的依据，说服力度差；

6、单调性趋势存在异议的变量进入评分卡模型，会导致模型的稳定性变差。

发明内容

本发明的目的在于提供基于相似性合并的连续型特征自动分箱算法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：基于相似性合并的连续型特征自动分箱算法，包括如下步骤：

S1、对建模训练集原始连续型变量使用决策树进行初始化分箱，获取初始的分割序列点cutlist_0；

S2、对建模变量进行等频100份切分，计算每个箱的违约比例，利用线性回归将违约比例关于每个箱区间的最大值进行回归，获得变量对违约的影响趋势t；

S3、根据S1中获取的初始分割序列点cutlist_0计算每个箱的违约比例，逐箱判断违约比例是否符合趋势t，若所有箱均符合趋势则程序终止；若不符合则进入S4；

S4、分别计算不符合单调趋势的箱与上下两箱的卡方值，选择卡方值最小的两箱进行合并，同时获得新的分割序列点cutlist_1,重复S3的过程，直到各箱违约比例符合趋势t，并获得最终的分割序列点cutlist_k；

S5、根据最终的分割序列点cutlist_k计算变量IV，进入变量IV、相关性、 LR等筛选过程；

S6、评估模型在测试集的效果，获取最终的评分卡模型。

优选的，在S1中，所述决策树分箱本质上是进行二元分类，以CART为例，依次计算相邻元素的中位数，并切分数据集，将基尼值与切分前进行比较，基尼变化程度最大的切分点即为最优切分点，然后再按照相同的方法分别对切分后的数据集进行再次切分，直到树的深度或叶子节点数达到一定要求为止。

优选的，在S2中，对原始变量值采用等频划分100箱的方式对数据进行离散化，计算每箱的违约比例，趋势拟合如下式所示：

batrate＝t*max(BIN)+c；

其中，batrate代表每箱违约人数的比例，BIN代表划分的100个箱，max(BIN) 代表每个箱区间的最大值，c代表回归常数项，t为违约比例关于箱区间的回归系数，代表着特征对违约的影响趋势，t＞0则特征值越大，则违约概率越高，特征对违约产生正向影响,则特征值越大；t＜0则违约概率越小，特征对违约产生负向影响。

优选的，在S4中，计算卡方值的算法为ChiMerge算法。

优选的，所述ChiMerge算法如下式：

其中，A_ij代表i箱中j类别样本数量，E_ij代表i区间中j类别样本期望数量， x²代表卡方统计值，值越大，代表两箱差异较大，不能进行合并，值越小，则可以进行合并，实践中通过卡方检验来判断是否对箱进行合并。

与现有技术相比，本发明的有益效果是：

1、本算法已使用python实现了整个流程，大大减少了在获取符合单调性的分割点过程的耗时和信息损耗，同时减少了分析师对分箱的干预，模型稳定性得到很好的检验；

2、本算法按照数据本身趋势进行箱合并的算法削弱了分析师在趋势判断方面的主观影响，使分箱结果所呈现的违约单调性更具有建模数据的支撑，增强了分箱的说服力，提高变量的表达能力。

附图说明

图1为本发明的算法流程示意图；

具体实施方式

下面结合实施例对本发明做进一步的描述。

以下实施例用于说明本发明，但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整，在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。

请参阅图1，基于相似性合并的连续型特征自动分箱算法，包括如下步骤：

S1、对建模训练集原始连续型变量使用决策树进行初始化分箱，获取初始的分割序列点cutlist_0，所述决策树分箱本质上是进行二元分类，以CART 为例，依次计算相邻元素的中位数，并切分数据集，将基尼值与切分前进行比较，基尼变化程度最大的切分点即为最优切分点，然后再按照相同的方法分别对切分后的数据集进行再次切分，直到树的深度或叶子节点数达到一定要求为止；

S2、对建模变量进行等频100份切分，计算每个箱的违约比例，利用线性回归将违约比例关于每个箱区间的最大值进行回归，获得变量对违约的影响趋势t，对原始变量值采用等频划分100箱的方式对数据进行离散化，计算每箱的违约比例，趋势拟合如下式所示：

batrate＝t*max(BIN)+c；

其中，batrate代表每箱违约人数的比例，BIN代表划分的100个箱， max(BIN)代表每个箱区间的最大值，c代表回归常数项，t为违约比例关于箱区间的回归系数，代表着特征对违约的影响趋势，t＞0则特征值越大，则违约概率越高，特征对违约产生正向影响,则特征值越大；t＜0则违约概率越小，特征对违约产生负向影响；

S4、分别计算不符合单调趋势的箱与上下两箱的卡方值，选择卡方值最小的两箱进行合并，计算卡方值的算法为ChiMerge算法，所述ChiMerge算法如下式：

其中，A_ij代表i箱中j类别样本数量，E_ij代表i区间中j类别样本期望数量， x²代表卡方统计值，值越大，代表两箱差异较大，不能进行合并，值越小，则可以进行合并，实践中通过卡方检验来判断是否对箱进行合并；

同时获得新的分割序列点cutlist_1,重复S3的过程，直到各箱违约比例符合趋势t，并获得最终的分割序列点cutlist_k；

S6、评估模型在测试集的效果，获取最终的评分卡模型。

实验对比：

本着从实际出发，使用实际样本数据比较了两种方式的分箱效果，第一种，按照本算法进行连续型特征分箱，这里简称实验算法；第二种，将连续型特征先等频分箱，然后判断违约比例是否单调、合箱(合箱算法亦使用 ChiMerge算法)直至直至单调的分箱，这里简称对照算法。本次实验所使用的连续型变量共144个，最大分箱数目设定为5箱。

首先，在连续型变量最终的分箱数目上，两种算法的分箱数据频数对比，在限定最大分箱数不超过5箱的情况下，实验算法有36.8％的变量被分为3箱，被分为4箱和5箱的变量分别占比18.1％和11.8％， 2箱的比例占29.2％，实验算法的箱数分布相较为均匀；相比之下，对照算法箱数分布情况则呈现两极化的分布状况，该算法将超过50％的变量分为了2箱，而5箱的占比仅为4.9％，远低于实验算法的 11.8％。变量分为2箱，则各组违约率必然呈现单调的趋势，据此可推测，对照算法实现违约率单调是以损失变量箱数为代价的。于是，从两种算法的箱数分布上看，实验算法所得的变量箱数更为合理。

其次，在连续型变量最终分箱的IV上，实验算法所得变量的iv相对于对照算法有较大程度的提升。针对样本数据，实验算法所得变量iv大于0.01 以上的有57个，对照算法iv大于0.01以上的为53个，可见二者在达到一定iv阈值的变量数目上相差并不多，但是，针对单个变量的iv值的大小，实验算法优于对照算法。如下表所示，该表列出了iv值较高的前15个变量，从iv的提升比例可看出，实验算法的iv普遍高于对照算法所得的iv，实验算法所得变量最大iv为0.1207，对照算法仅为0.1094，二者相差10.4个百分点，针对变量V11，实验算法的iv比对照算法高出24.6％。于是可得，本实验所使用的变量离散化方法能够很大限度得保留变量的iv，减少信息损失。

iV对比	V1	V2	V3	V4	V5	V6	V7	V8	V9	V10	V11	V12	V13	V14	V15
																实验算法iV	0.121	0.084	0.070	0.053	0.051	0.048	0.046	0.045	0.045	0.044	0.044	0.043	0.043	0.040	0.038
对照算法iV	0.109	0.075	0.066	0.048	0.048	0.045	0.040	0.039	0.041	0.040	0.035	0.038	0.037	0.035	0.036
																iV提升度	10.4％	12.5％	6.4％	9.7％	6.3％	6.5％	15.7％	16.7％	10.1％	9.9％	24.6％	12.8％	17.3％	13.4％	3.7％

最后，在模型的效果上，实验算法所得训练集KS为28.6％，测试集KS 26.0％，训练集与测试集相差2.6％，对照算法所得训练集和测试集KS分别为 26.9％和23.2％，二者相差3.7％。一方面，实验算法所得的模型KS值在训练集和测试集上均高于对照算法，另一方面，实验算法训练集和测试集KS的差距要小于对照算法，模型稳定性更好。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.基于相似性合并的连续型特征自动分箱算法，其特征在于，包括如下步骤：

S5、根据最终的分割序列点cutlist_k计算变量IV，进入变量IV、相关性、LR等筛选过程；

S6、评估模型在测试集的效果，获取最终的评分卡模型。

2.根据权利要求1所述的基于相似性合并的连续型特征自动分箱算法，其特征在于，在S1中，所述决策树分箱本质上是进行二元分类，以CART为例，依次计算相邻元素的中位数，并切分数据集，将基尼值与切分前进行比较，基尼变化程度最大的切分点即为最优切分点，然后再按照相同的方法分别对切分后的数据集进行再次切分，直到树的深度或叶子节点数达到一定要求为止。

3.根据权利要求1所述的基于相似性合并的连续型特征自动分箱算法，其特征在于，在S2中，对原始变量值采用等频划分100箱的方式对数据进行离散化，计算每箱的违约比例，趋势拟合如下式所示：

batrate＝t*max(BIN)+c；

其中，batrate代表每箱违约人数的比例，BIN代表划分的100个箱，max(BIN)代表每个箱区间的最大值，c代表回归常数项，t为违约比例关于箱区间的回归系数，代表着特征对违约的影响趋势，t＞0则特征值越大，则违约概率越高，特征对违约产生正向影响,则特征值越大；t＜0则违约概率越小，特征对违约产生负向影响。

4.根据权利要求1所述的基于相似性合并的连续型特征自动分箱算法，其特征在于：在S4中，计算卡方值的算法为ChiMerge算法。

5.根据权利要求4所述的基于相似性合并的连续型特征自动分箱算法，其特征在于，所述ChiMerge算法如下式：

其中，A_ij代表i箱中j类别样本数量，E_ij代表i区间中j类别样本期望数量，x²代表卡方统计值，值越大，代表两箱差异较大，不能进行合并，值越小，则可以进行合并，实践中通过卡方检验来判断是否对箱进行合并。