CN109840843A - 基于相似性合并的连续型特征自动分箱算法 - Google Patents
基于相似性合并的连续型特征自动分箱算法 Download PDFInfo
- Publication number
- CN109840843A CN109840843A CN201910011781.7A CN201910011781A CN109840843A CN 109840843 A CN109840843 A CN 109840843A CN 201910011781 A CN201910011781 A CN 201910011781A CN 109840843 A CN109840843 A CN 109840843A
- Authority
- CN
- China
- Prior art keywords
- algorithm
- branch mailbox
- case
- promise breaking
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于相似性合并的连续型特征自动分箱算法,包括建模数据,决策树初始分箱,100份等频分箱,线性趋势判断,趋势+ChiMerge合箱,IV、相关性等以及获取最终评分卡模型;该算法已使用python实现了整个流程,大大减少了在获取符合单调性的分割点过程的耗时和信息损耗,同时减少了分析师对分箱的干预,模型稳定性得到很好的检验,按照数据本身趋势进行箱合并的算法削弱了分析师在趋势判断方面的主观影响,使分箱结果所呈现的违约单调性更具有建模数据的支撑,增强了分箱的说服力,提高变量的表达能力。
Description
技术领域
本发明属于消费金融场景个人信用信用风险评估技术领域,具体涉及基 于相似性合并的连续型特征自动分箱算法。
背景技术
信用评分卡是一种综合借款人的相关信息如身份地位、职业特征、收支 状况等特征对借款人的还款能力和还款意愿进行量化的信用评估系统。一方 面,对于申请人来说,信用评分高低意味着所享受信贷服务的优劣,另一方 面,对于信贷金融机构来说,信用评分的高低往往预示着申请人违约风险的 大小,也是进行风险定价的重要依据,与信贷金融机构的收益密切相关。由 此,信用评分卡已成为金融机构有效快速的识别违约客户,提高信贷收益, 降低风险损失的重要手段。
与传统金融风控进行风险控制所使用的数据维度不同,在当下,金融大 数据囊括了基本属性数据、行为数据、设备数据及其他关联数据,极大丰富 了信用评估的可用数据维度,这使得全方位有效的进行信用评估成为可能, 但同时也对评分卡模型的特征处理性能提出了更高的要求。金融信贷机构特 征集合普遍具有数量多、纬度高的特点,但评分卡应关注的并不是数据规模 本身,而是这些海量数据中有价值的特征,按照传统的方式人工进行特征筛 选已不能很好的适用当前的信贷场景。以评分卡模型经常使用的LR线性分类器为例,为剔除特征中包含的噪声,降低过拟合风险,同时增强特征对评分 关于业务逻辑的可解释性,相对严格的评分卡模型的连续型特征至少需要经 历变量分箱→违约比例单调→IV达到阈值→共线性检验→逐步回归→符合业 务逻辑的变量筛选过程。为缩短评分卡模型的建立时间,自动化的变量分箱 和筛选过程已成为信贷金融机构进行评分卡建立的必然选择。
针对连续型变量,多数机构会直接采取等频或等距自动切分的分箱方式, 在箱数不超过一定阈值的前提下自动或人工进行合箱操作,以使各箱的违约 比例单调,然后计算IV,将IV值达到一定大小的特征集合作为进入回归模型 的变量集,最后,由分析师结合实际业务从主观角度判断变量各箱的违约比 例趋势是否与业务逻辑相符合,可采取人工分箱的方式对箱进行调整,并据 此对模型进行重建操作,一方面,等频或等距分箱属于无监督分箱方式,在 等频或等距粗分箱的基础上进行合箱操作会造成较大的IV损失;另一方面合 箱过程中简单地以违约比例单调为目标,以循环的方式进行判断、合箱、再 判断,这种方式会存在以下问题:
1、循环会造成合箱耗时较长;
2、由于违约比例必须严格单调的限制,这种方式合箱的最终结果往往以 2箱居多;
3、这种方式得到的IV并非最佳IV,会造成相对较多的IV损失;
4、不同的参数设定所得到的违约比例单调性趋势可能产生不一致的现 象,同一个变量可能出现违约比例随划分区间值的增大而增大和违约比例随 划分区间至的增大而减小两种情况;
5、分析师会从从主观的角度对违约比例的单调趋势进行解释,不同的单 调性趋势,不同的原因解释,这种解释缺乏客观的依据,说服力度差;
6、单调性趋势存在异议的变量进入评分卡模型,会导致模型的稳定性变 差。
发明内容
本发明的目的在于提供基于相似性合并的连续型特征自动分箱算法,以 解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于相似性合并的连续型 特征自动分箱算法,包括如下步骤:
S1、对建模训练集原始连续型变量使用决策树进行初始化分箱,获取初 始的分割序列点cutlist_0;
S2、对建模变量进行等频100份切分,计算每个箱的违约比例,利用线 性回归将违约比例关于每个箱区间的最大值进行回归,获得变量对违约的影 响趋势t;
S3、根据S1中获取的初始分割序列点cutlist_0计算每个箱的违约比例, 逐箱判断违约比例是否符合趋势t,若所有箱均符合趋势则程序终止;若不符 合则进入S4;
S4、分别计算不符合单调趋势的箱与上下两箱的卡方值,选择卡方值最 小的两箱进行合并,同时获得新的分割序列点cutlist_1,重复S3的过程,直到 各箱违约比例符合趋势t,并获得最终的分割序列点cutlist_k;
S5、根据最终的分割序列点cutlist_k计算变量IV,进入变量IV、相关性、 LR等筛选过程;
S6、评估模型在测试集的效果,获取最终的评分卡模型。
优选的,在S1中,所述决策树分箱本质上是进行二元分类,以CART为例, 依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较, 基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法分别对 切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定要求为 止。
优选的,在S2中,对原始变量值采用等频划分100箱的方式对数据进行 离散化,计算每箱的违约比例,趋势拟合如下式所示:
batrate=t*max(BIN)+c;
其中,batrate代表每箱违约人数的比例,BIN代表划分的100个箱,max(BIN) 代表每个箱区间的最大值,c代表回归常数项,t为违约比例关于箱区间的回 归系数,代表着特征对违约的影响趋势,t>0则特征值越大,则违约概率越高, 特征对违约产生正向影响,则特征值越大;t<0则违约概率越小,特征对违约 产生负向影响。
优选的,在S4中,计算卡方值的算法为ChiMerge算法。
优选的,所述ChiMerge算法如下式:
其中,Aij代表i箱中j类别样本数量,Eij代表i区间中j类别样本期望数量, x2代表卡方统计值,值越大,代表两箱差异较大,不能进行合并,值越小, 则可以进行合并,实践中通过卡方检验来判断是否对箱进行合并。
与现有技术相比,本发明的有益效果是:
1、本算法已使用python实现了整个流程,大大减少了在获取符合单调性 的分割点过程的耗时和信息损耗,同时减少了分析师对分箱的干预,模型稳 定性得到很好的检验;
2、本算法按照数据本身趋势进行箱合并的算法削弱了分析师在趋势判 断方面的主观影响,使分箱结果所呈现的违约单调性更具有建模数据的支撑, 增强了分箱的说服力,提高变量的表达能力。
附图说明
图1为本发明的算法流程示意图;
具体实施方式
下面结合实施例对本发明做进一步的描述。
以下实施例用于说明本发明,但不能用来限制本发明的保护范围。实施 例中的条件可以根据具体条件做进一步的调整,在本发明的构思前提下对本 发明的方法简单改进都属于本发明要求保护的范围。
请参阅图1,基于相似性合并的连续型特征自动分箱算法,包括如下步骤:
S1、对建模训练集原始连续型变量使用决策树进行初始化分箱,获取初 始的分割序列点cutlist_0,所述决策树分箱本质上是进行二元分类,以CART 为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行 比较,基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法 分别对切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定 要求为止;
S2、对建模变量进行等频100份切分,计算每个箱的违约比例,利用线 性回归将违约比例关于每个箱区间的最大值进行回归,获得变量对违约的影 响趋势t,对原始变量值采用等频划分100箱的方式对数据进行离散化,计算 每箱的违约比例,趋势拟合如下式所示:
batrate=t*max(BIN)+c;
其中,batrate代表每箱违约人数的比例,BIN代表划分的100个箱, max(BIN)代表每个箱区间的最大值,c代表回归常数项,t为违约比例关于箱 区间的回归系数,代表着特征对违约的影响趋势,t>0则特征值越大,则违约 概率越高,特征对违约产生正向影响,则特征值越大;t<0则违约概率越小, 特征对违约产生负向影响;
S3、根据S1中获取的初始分割序列点cutlist_0计算每个箱的违约比例, 逐箱判断违约比例是否符合趋势t,若所有箱均符合趋势则程序终止;若不符 合则进入S4;
S4、分别计算不符合单调趋势的箱与上下两箱的卡方值,选择卡方值最 小的两箱进行合并,计算卡方值的算法为ChiMerge算法,所述ChiMerge算 法如下式:
其中,Aij代表i箱中j类别样本数量,Eij代表i区间中j类别样本期望数量, x2代表卡方统计值,值越大,代表两箱差异较大,不能进行合并,值越小, 则可以进行合并,实践中通过卡方检验来判断是否对箱进行合并;
同时获得新的分割序列点cutlist_1,重复S3的过程,直到各箱违约比例符 合趋势t,并获得最终的分割序列点cutlist_k;
S5、根据最终的分割序列点cutlist_k计算变量IV,进入变量IV、相关性、 LR等筛选过程;
S6、评估模型在测试集的效果,获取最终的评分卡模型。
实验对比:
本着从实际出发,使用实际样本数据比较了两种方式的分箱效果,第一 种,按照本算法进行连续型特征分箱,这里简称实验算法;第二种,将连续 型特征先等频分箱,然后判断违约比例是否单调、合箱(合箱算法亦使用 ChiMerge算法)直至直至单调的分箱,这里简称对照算法。本次实验所使用的 连续型变量共144个,最大分箱数目设定为5箱。
首先,在连续型变量最终的分箱数目上,两种算法的分箱数据频 数对比,在限定最大分箱数不超过5箱的情况下,实验算法有36.8% 的变量被分为3箱,被分为4箱和5箱的变量分别占比18.1%和11.8%, 2箱的比例占29.2%,实验算法的箱数分布相较为均匀;相比之下, 对照算法箱数分布情况则呈现两极化的分布状况,该算法将超过50% 的变量分为了2箱,而5箱的占比仅为4.9%,远低于实验算法的 11.8%。变量分为2箱,则各组违约率必然呈现单调的趋势,据此可 推测,对照算法实现违约率单调是以损失变量箱数为代价的。于是, 从两种算法的箱数分布上看,实验算法所得的变量箱数更为合理。
其次,在连续型变量最终分箱的IV上,实验算法所得变量的iv相对于 对照算法有较大程度的提升。针对样本数据,实验算法所得变量iv大于0.01 以上的有57个,对照算法iv大于0.01以上的为53个,可见二者在达到一 定iv阈值的变量数目上相差并不多,但是,针对单个变量的iv值的大小, 实验算法优于对照算法。如下表所示,该表列出了iv值较高的前15个变量, 从iv的提升比例可看出,实验算法的iv普遍高于对照算法所得的iv,实验算法所得变量最大iv为0.1207,对照算法仅为0.1094,二者相差10.4个百 分点,针对变量V11,实验算法的iv比对照算法高出24.6%。于是可得,本 实验所使用的变量离散化方法能够很大限度得保留变量的iv,减少信息损失。
iV对比 | V1 | V2 | V3 | V4 | V5 | V6 | V7 | V8 | V9 | V10 | V11 | V12 | V13 | V14 | V15 |
实验算法iV | 0.121 | 0.084 | 0.070 | 0.053 | 0.051 | 0.048 | 0.046 | 0.045 | 0.045 | 0.044 | 0.044 | 0.043 | 0.043 | 0.040 | 0.038 |
对照算法iV | 0.109 | 0.075 | 0.066 | 0.048 | 0.048 | 0.045 | 0.040 | 0.039 | 0.041 | 0.040 | 0.035 | 0.038 | 0.037 | 0.035 | 0.036 |
iV提升度 | 10.4% | 12.5% | 6.4% | 9.7% | 6.3% | 6.5% | 15.7% | 16.7% | 10.1% | 9.9% | 24.6% | 12.8% | 17.3% | 13.4% | 3.7% |
最后,在模型的效果上,实验算法所得训练集KS为28.6%,测试集KS 26.0%,训练集与测试集相差2.6%,对照算法所得训练集和测试集KS分别为 26.9%和23.2%,二者相差3.7%。一方面,实验算法所得的模型KS值在训练 集和测试集上均高于对照算法,另一方面,实验算法训练集和测试集KS的差 距要小于对照算法,模型稳定性更好。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而 言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行 多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限 定。
Claims (5)
1.基于相似性合并的连续型特征自动分箱算法,其特征在于,包括如下步骤:
S1、对建模训练集原始连续型变量使用决策树进行初始化分箱,获取初始的分割序列点cutlist_0;
S2、对建模变量进行等频100份切分,计算每个箱的违约比例,利用线性回归将违约比例关于每个箱区间的最大值进行回归,获得变量对违约的影响趋势t;
S3、根据S1中获取的初始分割序列点cutlist_0计算每个箱的违约比例,逐箱判断违约比例是否符合趋势t,若所有箱均符合趋势则程序终止;若不符合则进入S4;
S4、分别计算不符合单调趋势的箱与上下两箱的卡方值,选择卡方值最小的两箱进行合并,同时获得新的分割序列点cutlist_1,重复S3的过程,直到各箱违约比例符合趋势t,并获得最终的分割序列点cutlist_k;
S5、根据最终的分割序列点cutlist_k计算变量IV,进入变量IV、相关性、LR等筛选过程;
S6、评估模型在测试集的效果,获取最终的评分卡模型。
2.根据权利要求1所述的基于相似性合并的连续型特征自动分箱算法,其特征在于,在S1中,所述决策树分箱本质上是进行二元分类,以CART为例,依次计算相邻元素的中位数,并切分数据集,将基尼值与切分前进行比较,基尼变化程度最大的切分点即为最优切分点,然后再按照相同的方法分别对切分后的数据集进行再次切分,直到树的深度或叶子节点数达到一定要求为止。
3.根据权利要求1所述的基于相似性合并的连续型特征自动分箱算法,其特征在于,在S2中,对原始变量值采用等频划分100箱的方式对数据进行离散化,计算每箱的违约比例,趋势拟合如下式所示:
batrate=t*max(BIN)+c;
其中,batrate代表每箱违约人数的比例,BIN代表划分的100个箱,max(BIN)代表每个箱区间的最大值,c代表回归常数项,t为违约比例关于箱区间的回归系数,代表着特征对违约的影响趋势,t>0则特征值越大,则违约概率越高,特征对违约产生正向影响,则特征值越大;t<0则违约概率越小,特征对违约产生负向影响。
4.根据权利要求1所述的基于相似性合并的连续型特征自动分箱算法,其特征在于:在S4中,计算卡方值的算法为ChiMerge算法。
5.根据权利要求4所述的基于相似性合并的连续型特征自动分箱算法,其特征在于,所述ChiMerge算法如下式:
其中,Aij代表i箱中j类别样本数量,Eij代表i区间中j类别样本期望数量,x2代表卡方统计值,值越大,代表两箱差异较大,不能进行合并,值越小,则可以进行合并,实践中通过卡方检验来判断是否对箱进行合并。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910011781.7A CN109840843A (zh) | 2019-01-07 | 2019-01-07 | 基于相似性合并的连续型特征自动分箱算法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910011781.7A CN109840843A (zh) | 2019-01-07 | 2019-01-07 | 基于相似性合并的连续型特征自动分箱算法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109840843A true CN109840843A (zh) | 2019-06-04 |
Family
ID=66883709
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910011781.7A Pending CN109840843A (zh) | 2019-01-07 | 2019-01-07 | 基于相似性合并的连续型特征自动分箱算法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109840843A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110704535A (zh) * | 2019-09-26 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 数据分箱方法、装置、设备及计算机可读存储介质 |
CN110765216A (zh) * | 2019-10-22 | 2020-02-07 | 中国银行股份有限公司 | 数据挖掘方法、装置、计算机设备及计算机可读存储介质 |
CN112115316A (zh) * | 2019-06-20 | 2020-12-22 | 北京京东振世信息技术有限公司 | 一种分箱方法、装置、电子设备及存储介质 |
CN113205880A (zh) * | 2021-04-30 | 2021-08-03 | 广东省人民医院 | 基于LogitBoost的心脏疾病预后预测方法及装置 |
CN117476114A (zh) * | 2023-12-25 | 2024-01-30 | 墨卓生物科技(浙江)有限公司 | 一种基于生物多组学数据的模型构建方法与系统 |
-
2019
- 2019-01-07 CN CN201910011781.7A patent/CN109840843A/zh active Pending
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115316A (zh) * | 2019-06-20 | 2020-12-22 | 北京京东振世信息技术有限公司 | 一种分箱方法、装置、电子设备及存储介质 |
CN112115316B (zh) * | 2019-06-20 | 2023-10-03 | 北京京东振世信息技术有限公司 | 一种分箱方法、装置、电子设备及存储介质 |
CN110704535A (zh) * | 2019-09-26 | 2020-01-17 | 深圳前海微众银行股份有限公司 | 数据分箱方法、装置、设备及计算机可读存储介质 |
CN110704535B (zh) * | 2019-09-26 | 2023-10-24 | 深圳前海微众银行股份有限公司 | 数据分箱方法、装置、设备及计算机可读存储介质 |
CN110765216A (zh) * | 2019-10-22 | 2020-02-07 | 中国银行股份有限公司 | 数据挖掘方法、装置、计算机设备及计算机可读存储介质 |
CN113205880A (zh) * | 2021-04-30 | 2021-08-03 | 广东省人民医院 | 基于LogitBoost的心脏疾病预后预测方法及装置 |
CN113205880B (zh) * | 2021-04-30 | 2022-09-23 | 广东省人民医院 | 基于LogitBoost的心脏疾病预后预测方法及装置 |
CN117476114A (zh) * | 2023-12-25 | 2024-01-30 | 墨卓生物科技(浙江)有限公司 | 一种基于生物多组学数据的模型构建方法与系统 |
CN117476114B (zh) * | 2023-12-25 | 2024-04-05 | 墨卓生物科技(浙江)有限公司 | 一种基于生物多组学数据的模型构建方法与系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109840843A (zh) | 基于相似性合并的连续型特征自动分箱算法 | |
CN108898479B (zh) | 信用评价模型的构建方法及装置 | |
CN108256691A (zh) | 还款概率预测模型构建方法及装置 | |
CN110909984B (zh) | 业务数据处理模型训练方法、业务数据处理方法及装置 | |
CN109583796A (zh) | 一种用于物流园区运营分析的数据挖掘系统及方法 | |
CN110415111A (zh) | 基于用户数据与专家特征合并逻辑回归信贷审批的方法 | |
CN104715409A (zh) | 一种电子商务用户购买力分类方法及系统 | |
CN111612519B (zh) | 一种识别金融产品潜在客户的方法、装置及存储介质 | |
CN107194815B (zh) | 客户分类方法及系统 | |
CN105740480A (zh) | 机票推荐方法及系统 | |
CN107239964A (zh) | 用户价值评分方法和系统 | |
CN114841788B (zh) | 一种工程项目建设管理竣工决算全过程管理系统 | |
CN107590737A (zh) | 个人信用评分以及信用额度测算方法 | |
Degife et al. | Efficient predictive model for determining critical factors affecting commodity price: the case of coffee in Ethiopian Commodity Exchange (ECX) | |
CN118134652A (zh) | 一种资产配置方案生成方法、装置、电子设备及介质 | |
CN109191185A (zh) | 一种客群分类方法及系统 | |
CN118096292A (zh) | 一种基于云购物的智能推荐方法及系统 | |
CN111160647A (zh) | 一种洗钱行为预测方法及装置 | |
CN108197740A (zh) | 企业倒闭预测方法、电子设备和计算机存储介质 | |
CN111984637B (zh) | 数据建模中的缺失值处理方法和装置、设备及存储介质 | |
CN115099933A (zh) | 一种业务预算方法、装置及设备 | |
CN113554278A (zh) | 一种动态柔性规则的公司经营危机预警方法和系统 | |
CN114418736A (zh) | 一种银行零售信贷客户分层方法、存储介质和服务器 | |
Ciuriak | Policy implications of heterogeneous firms trade theory | |
CN107122425A (zh) | 对企业客户进行评价的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20190604 |
|
WD01 | Invention patent application deemed withdrawn after publication |