CN109285065A - 一种基于样条插值的信用评分方法 - Google Patents
一种基于样条插值的信用评分方法 Download PDFInfo
- Publication number
- CN109285065A CN109285065A CN201810974324.3A CN201810974324A CN109285065A CN 109285065 A CN109285065 A CN 109285065A CN 201810974324 A CN201810974324 A CN 201810974324A CN 109285065 A CN109285065 A CN 109285065A
- Authority
- CN
- China
- Prior art keywords
- value
- credit
- spline
- woe
- variable
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Complex Calculations (AREA)
Abstract
本发明公开了一种基于样条插值的信用评分方法,对分箱后的WOE值进行平滑,用平滑后的WOE值替换原始的有跳跃性的WOE值,其余步骤不做改变。本发明保持了金融业评分卡建模流程的严谨性的同时,优化了评分卡模型的结果,并进一步增强了评分卡模型结果的可解释性和模型精度。
Description
技术领域
本发明涉及一种信用评分方法,特别是一种基于样条插值的信用评分方法。
背景技术
在金融信贷的审批环节,需要对客户的信用状况进行评估,信用评分卡技术是目前主流的技术手段。作为受银监会监管的金融机构,其所使用的信用评分模型要有可解释性,评分卡模型典型样式如下:
在此类评分卡模型中,存在信用评分跳跃的情况,即,在条件的临界点,只要金额稍有增加,即会引起客户信用分值的突然跳跃。但随着金额的继续增加,客户信用得分反而保持不变。如下表所示:
金额 | 分值 | 金额 | 分值 | 金额 | 分值 |
499 | 36 | 500 | 33 | 4999 | 33 |
从上表看,客户信用卡使用金额为499元与500元时,金额相差1元,得分相差3分。但是客户信用卡使用金额为500元和4999元时,金额相差4499元,得分相差0分。这种情况显然与事实不符。我们希望使用金额为499元和500元的客户得分相近,使用金额为500元和4999元的客户得分有较大差距。为解决该问题,有大量的机器学习算法可以使用,但是为满足监管要求,且保持风控建模流程的严谨性,需要从现在金融业主流的信用评分卡的基础上进行优化改进。
发明内容
本发明所要解决的技术问题是提供一种基于样条插值的信用评分方法,其解决了信用评分突然跳跃的问题。
为解决上述技术问题,本发明所采用的技术方案是:
一种基于样条插值的信用评分方法,其特征在于包含以下步骤:
步骤一:对数值型变量进行分箱,计算变量的IV值,以及变量在每一段上的WOE值;
步骤二:对WOE值进行缩放和平移,将N个y值重塑成N+1个z值;
步骤三:用样条插值法,构造平滑的样条函数;
步骤四:对于数值变量的任意取值x,将其带入样条函数z=f(x),得到新的对应的WOE值,并用新的WOE值进行后续的建模工作。
进一步地,所述步骤一中将数值型变量分成N段,
其中,x0表示该数值变量的最小值,xN表示该数值变量的最大值,其余的x点为分段点。
进一步地,所述步骤二中WOE值缩放和平移过程为
zi=yN-(yN-yi)*N/(N+1)i=1,2,3……,N;
并增加新的值z0,使z0等于原始的y1;
此变换共得到N+1个z值,用于替换原来的N个y值,且保证了z的最小值z0等于y的最小值y1,z的最大值zN等于y的最大值yN,从而得到了N+1个对点:(x0,z0),(x1,z1),……(xN,zN)。
进一步地,所述步骤三具体为
用样条插值法,构造平滑的样条函数,构造的样条函数穿过点集:(x0,z0),(x1,z1),……(xN,zN),得到的样条函数表示为:z=f(x)。
本发明与现有技术相比,具有以下优点和效果:
1、本发明使用样条函数进行平滑,样条函数是连续可微的,保证了新的WOE值是连续且平滑的。由此开发的信用评分卡的评分也是连续且平滑的,与跳跃的评分相比更加合理;
2、由于新平滑后的WOE值是连续型的,使用连续型的WOE值替换原来的离散型的WOE值,在后续的逻辑回归步骤,可以减小均方误差,从而得到更高的模型精度;
3、该操作不对评分卡的其余步骤做改变,保留了原来评分卡模型的所有优点;
4、在进行新用户的评分预测时,需要先对变量的取值x做z=f(x)的计算,然后根据变量的权重计算得分,相当于在评分卡部署上线环节增加了一个计算步骤。但是该步骤增加的计算复杂度显然是可以忽略的,而且该步骤对模型效果的提升的价值相对与增加的微乎其微的计算量而言,该步骤显然是值得的。
具体实施方式
下面通过实施例对本发明作进一步的详细说明,以下实施例是对本发明的解释而本发明并不局限于以下实施例。
本发明的一种基于样条插值的信用评分方法,对数值型变量做WOE转化之后,对WOE值使用样条插值法进行平滑处理,以平滑后的WOE值进行后续的评分建模,实施包括以下步骤:
对数值型变量进行分箱,计算变量的IV值,以及变量在每一段上的WOE值。假设将数值变量分成N段。在金融业的评分卡建模中,对数值变量的分段通常不超过6段,即一般N<=6。分段后表示如下:
区间 | WOE值 |
[x<sub>0</sub>,x<sub>1</sub>) | y<sub>1</sub> |
[x<sub>1</sub>,x<sub>2</sub>) | y<sub>2</sub> |
…… | …… |
[x<sub>N-1</sub>,x<sub>N</sub>] | y<sub>N</sub> |
上表中,x0表示该数值变量的最小值,xN表示该数值变量的最大值,其余的x点为分段点。共有N+1个x值和N个y值。
对WOE值(即上表中的y值)进行缩放和平移,目的是将N个y值重塑成N+1个新y值(重塑后的y值用z表示),以保证x和y的数量相等。对y的缩放和平移策略为:
zi=yN-(yN-yi)*N/(N+1)i=1,2,3……,N。
并增加新的值z0,使z0等于原始的y1。
此变换共得到N+1个z值,用于替换原来的N个y值,且保证了z的最小值z0等于y的最小值y1,z的最大值zN等于y的最大值yN。共得到N+1对点:(x0,z0),(x1,z1),……(xN,zN)。
用样条插值法,构造平滑的样条函数,构造的样条函数穿过点集:(x0,z0),(x1,z1),……(xN,zN),得到的样条函数表示为:z=f(x)。该步骤实现了对N+1个点集之间的取值的平滑化处理。
对于数值变量的任意取值x,将其带入样条函数z=f(x),得到新的对应的WOE值。并用新的WOE值进行后续的建模工作。
对WOE值优化后,得到的信用评分卡模型有以下特点:
(1)在常规的金融业信用评分卡中,由于是根据数值变量x的取值,判断其所属的区间,然后查找对应的WOE值,因此WOE值是跳跃的。而使用样条函数进行平滑后,由于样条函数是连续可微的,因此保证了新的WOE值是连续且平滑的。由此开发的信用评分卡的评分也是连续且平滑的,与跳跃的评分相比更加合理。
(2)由于新平滑后的WOE值是连续型的,使用连续型的WOE值替换原来的离散型的WOE值,在后续的逻辑回归步骤,可以减小均方误差,从而得到更高的模型精度。
(3)该操作不对评分卡的其余步骤做改变,保留了原来评分卡模型的所有优点。
(4)在进行新用户的评分预测时,需要先对变量的取值x做z=f(x)的计算,然后根据变量的权重计算得分,相当于在评分卡部署上线环节增加了一个计算步骤。但是该步骤增加的计算复杂度显然是可以忽略的,而且该步骤对模型效果的提升的价值相对与增加的微乎其微的计算量而言,该步骤显然是值得的。
本说明书中所描述的以上内容仅仅是对本发明所作的举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种修改或补充或采用类似的方式替代,只要不偏离本发明说明书的内容或者超越本权利要求书所定义的范围,均应属于本发明的保护范围。
Claims (4)
1.一种基于样条插值的信用评分方法,其特征在于包含以下步骤:
步骤一:对数值型变量进行分箱,计算变量的IV值,以及变量在每一段上的WOE值;
步骤二:对WOE值进行缩放和平移,将N个y值重塑成N+1个z值;
步骤三:用样条插值法,构造平滑的样条函数;
步骤四:对于数值变量的任意取值x,将其带入样条函数z=f(x),得到新的对应的WOE值,并用新的WOE值进行后续的建模工作。
2.按照权利要求1所述的一种基于样条插值的信用评分方法,其特征在于:所述步骤一中将数值型变量分成N段,
其中,x0表示该数值变量的最小值,xN表示该数值变量的最大值,其余的x点为分段点。
3.按照权利要求2所述的一种基于样条插值的信用评分方法,其特征在于:所述步骤二中WOE值缩放和平移过程为
zi=yN-(yN-yi)*N/(N+1)i=1,2,3……,N;
并增加新的值z0,使z0等于原始的y1;
此变换共得到N+1个z值,用于替换原来的N个y值,且保证了z的最小值z0等于y的最小值y1,z的最大值zN等于y的最大值yN,从而得到了N+1个对点:(x0,z0),(x1,z1),……(xN,zN)。
4.按照权利要求3所述的一种基于样条插值的信用评分方法,其特征在于:所述步骤三具体为
用样条插值法,构造平滑的样条函数,构造的样条函数穿过点集:(x0,z0),(x1,z1),……(xN,zN),得到的样条函数表示为:z=f(x)。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810974324.3A CN109285065A (zh) | 2018-08-24 | 2018-08-24 | 一种基于样条插值的信用评分方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810974324.3A CN109285065A (zh) | 2018-08-24 | 2018-08-24 | 一种基于样条插值的信用评分方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109285065A true CN109285065A (zh) | 2019-01-29 |
Family
ID=65183594
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810974324.3A Pending CN109285065A (zh) | 2018-08-24 | 2018-08-24 | 一种基于样条插值的信用评分方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109285065A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260932A (zh) * | 2015-10-09 | 2016-01-20 | 浙江大学 | 一种交通安全隐性因子的信用评分方法 |
CN106529960A (zh) * | 2016-11-07 | 2017-03-22 | 中国银联股份有限公司 | 电子交易中的欺诈交易检测方法 |
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN107507076A (zh) * | 2017-09-26 | 2017-12-22 | 贵州电网有限责任公司 | 基于数据挖掘的电力客户的综合评级的方法 |
CN108416495A (zh) * | 2018-01-30 | 2018-08-17 | 杭州排列科技有限公司 | 基于机器学习的评分卡模型建立方法及装置 |
-
2018
- 2018-08-24 CN CN201810974324.3A patent/CN109285065A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105260932A (zh) * | 2015-10-09 | 2016-01-20 | 浙江大学 | 一种交通安全隐性因子的信用评分方法 |
CN106529960A (zh) * | 2016-11-07 | 2017-03-22 | 中国银联股份有限公司 | 电子交易中的欺诈交易检测方法 |
CN106600455A (zh) * | 2016-11-25 | 2017-04-26 | 国网河南省电力公司电力科学研究院 | 一种基于逻辑回归的电费敏感度评估方法 |
CN106779457A (zh) * | 2016-12-29 | 2017-05-31 | 深圳微众税银信息服务有限公司 | 一种企业信用评估方法及系统 |
CN107507076A (zh) * | 2017-09-26 | 2017-12-22 | 贵州电网有限责任公司 | 基于数据挖掘的电力客户的综合评级的方法 |
CN108416495A (zh) * | 2018-01-30 | 2018-08-17 | 杭州排列科技有限公司 | 基于机器学习的评分卡模型建立方法及装置 |
Non-Patent Citations (2)
Title |
---|
PING YAO: "Feature selection based on SVM for credit scoring", 《2009 INTERNATIONAL CONFERENCE ON COMPUTATIONAL INTELLIGENCE AND NATURAL COMPUTING》 * |
孟庆福等: "信用评级的新方法-多元自适应回归样条在民营企业信用评级中的应用", 《广东金融学院学报》 * |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103745273A (zh) | 一种半导体制造过程的多性能预测方法 | |
CN109636591A (zh) | 一种基于机器学习的信用评分卡开发方法 | |
CN108182384A (zh) | 一种人脸特征点定位方法及装置 | |
US20210073695A1 (en) | Production scheduling system and method | |
CN110264079A (zh) | 基于CNN算法和Lasso回归模型的热轧产品质量预测方法 | |
CN114638696A (zh) | 信贷风险预测模型的训练方法及系统 | |
Shao et al. | Shape optimization of preform tools in forging of aerofoil using a metamodel-assisted multi-island genetic algorithm | |
CN109285065A (zh) | 一种基于样条插值的信用评分方法 | |
CN111680973B (zh) | 一种催收系统的催收任务优先级智能编排方法 | |
CN113359435A (zh) | 用于火电机组动态工况数据的修正方法 | |
CN110456356B (zh) | 一种面向资料同化的天气雷达径向速度质量控制方法 | |
Roul et al. | Optimal control problem for an imperfect production process using fuzzy variational principle | |
Kwong et al. | A genetic algorithm based knowledge discovery system for the design of fluid dispensing processes for electronic packaging | |
CN108520087B (zh) | 一种机械结构异类多目标性能的稳健性度量与均衡优化设计方法 | |
CN110196797A (zh) | 适于信用评分卡系统的自动优化方法和系统 | |
CN107562714A (zh) | 一种语句相似度计算方法及装置 | |
Romero | Generative adversarial network for stock market price prediction | |
CN106775962A (zh) | 一种规则执行方法及装置 | |
JP6363663B2 (ja) | 人工知能を用いたファンド運用システム | |
Zhao | Research on e-commerce customer churning modeling and prediction | |
Nurcahyo et al. | Maintenance program selection in cigarette manufacturing industry with multi-criteria decision-making method | |
JP5402621B2 (ja) | 製造負荷予測装置、方法、コンピュータプログラム、及びコンピュータ読み取り可能な記憶媒体 | |
CN104268432A (zh) | 一种基于故障树分析的共因失效可靠性分配系统 | |
CN110110906A (zh) | 一种基于Efron近似优化的生存风险建模方法 | |
CN104240023A (zh) | 一种基于可配置指标阀值的采购优化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190129 |