CN110223156A - 基于逐步最优特征选择的自动化模型调优算法 - Google Patents

基于逐步最优特征选择的自动化模型调优算法 Download PDF

Info

Publication number
CN110223156A
CN110223156A CN201910404903.9A CN201910404903A CN110223156A CN 110223156 A CN110223156 A CN 110223156A CN 201910404903 A CN201910404903 A CN 201910404903A CN 110223156 A CN110223156 A CN 110223156A
Authority
CN
China
Prior art keywords
model
variable
value
combination
circulation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910404903.9A
Other languages
English (en)
Inventor
段兆阳
孙博
杨森
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Arrangement Technology Co Ltd
Original Assignee
Hangzhou Arrangement Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Arrangement Technology Co Ltd filed Critical Hangzhou Arrangement Technology Co Ltd
Priority to CN201910404903.9A priority Critical patent/CN110223156A/zh
Publication of CN110223156A publication Critical patent/CN110223156A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • Marketing (AREA)
  • Development Economics (AREA)
  • Human Resources & Organizations (AREA)
  • General Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Tourism & Hospitality (AREA)
  • Quality & Reliability (AREA)
  • Operations Research (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于逐步最优特征选择的自动化模型调优算法,该算法包括建立初版评分模型、设置限制条件、逐步最优特征选择算法、筛选得出最优模型KS值、判断模型KS差值变量组合是否达标、将未达标的KS差值变量组合重新筛选和建立最终评分卡模型七大步骤;该算法可以自动产生最优的评分卡模型,最大程度挖掘了特征变量对于目标变量的预测能力,消除了建模人员主观意识的干扰性,减少时间成本的浪费,最终生成的评分卡模型兼顾了模型预测效果的有效性和模型应用效果的稳定性。将该算法嵌入到传统评分卡模型的建立当中,可以明显提高金融行业传统的信贷模型质量,提高审批的正确率,拒绝更多的欺诈逾期申请。

Description

基于逐步最优特征选择的自动化模型调优算法
技术领域
本发明属于互联网金融风控技术领域,具体涉及基于逐步最优特征选择的自动化模型调优算法。
背景技术
信用评分模型是根据银行或互联网金融客户的各种历史信用资料,得到不同等级的信用分数,根据客户的信用分数,授信机构可以通过分析客户贷后还款的可能性来决定是否给予授信以及授信的额度和利率。
传统上银行或金融机构采取人工审批的方式,根据审批人员的个人经验进行主观的审批判断,使得审批决策很容易受主观因素的影响,导致审批结果不一致,不能够量化风险级别,无法实现风险的分级管理,而且会使得审批过程成本高、效率低。因此,这一状况就决定了客观准确的评分卡模型的建立需求。评分卡模型运用现代的数理统计模型技术,通过对申请人信用历史记录和业务活动记录的深入挖掘,提炼出信息可以预测申请者欺诈信用逾期的概率大小。
评分卡模型是最重要、最常用的信用评分模型,建立初版评分卡模型之后的模型调优过程是极其重要的步骤。模型调优过程一方面可以进一步提升模型效果,另一方面可以保证模型实际应用过程中的稳定性。传统上有些建模工程师会直接使用初版模型进行实际业务应用,还有些建模工程师会进行模型调优但是会有很多主观因素的干预,并不能很好的实现模型的最佳效果及应用的稳定性。
金融信贷行业在建立初版评分卡模型之后,大多数建模工程师会进行模型的调优过程,进一步优化模型的效果及稳定性。传统上模型调优的过程是依靠建模人员自身的经验,在初版模型的基础上,手动进行一些变量的增减选择,不同经验的建模人员最终建立的模型会有一定的差别。
传统建模工程师使用较多的评分卡模型调优方法是根据自身建模及业务经验手动调整入模特征变量,调整入模变量的过程完全依靠建模人员主观经验的判断,不同的人员会得到不同的模型结果,此方法存在如下缺陷:
1.传统的模型调优方法没有达到模型的最优效果,不能在效果较优的情况下保持模型的稳定性,容易忽略一些有意义的特征变量,不能挑选出所有变量中组合最佳的变量进入模型,造成信息的损失;
2.传统的模型调优方法比较主观,不具有统一适用性,不同的建模工程师做出的效果好坏不稳定;
3.传统的模型调优方法工作耗时较长,必须依靠建模工程师交互性操作,无法实现评分卡模型的自动化建立。
发明内容
本发明的目的在于提供基于逐步最优特征选择的自动化模型调优算法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:基于逐步最优特征选择的自动化模型调优算法,包括如下步骤:
S1、对建模数据样本建立初版评分卡模型,得到初版模型的入模特征变量组合,以及剩余未入模的所有特征变量;
S2、设置逐步最优特征选择算法的基本限制条件,使得逐步选择的特征变量满足入模要求,包括显著性水平P-Value,特征变量系数coefficient以及信息值IV(information value);
S3、根据S1中的初版模型结果及S2中的基本限制条件,首先通过逐步最优特征选择算法挑选能够使得模型预测效果达到最优的特征变量组合,即针对初版模型中所有入模变量,循环删除每一个特征变量后利用剩余特征变量建模,记录下每次模型结果的评估指标KS值,同时针对初版模型未入模特征变量,循环加入每个特征变量后建立模型,同样记录下每次模型结果的评估指标KS值,选择两类操作中KS值达到最大的变量,若KS值最大的情况是原来的变量组合,加入新变量或减少原变量均无法提升KS值,则停止迭代,输出原来的变量组合,进入S5中;若KS值最大的情况不是原来的变量组合,则使用 KS值最大的变量组合建模代替原始模型,进入步骤S4中;
S4、在S3的变量组合基础上,针对此变量组合循环删除每一个特征变量建模,记录KS值,同时针对所有未入模变量循环加入每一个特征变量建模,记录KS值,选取使得KS值最大的操作,一直循环进行此步骤,直到模型KS值达到最优为止,进入S5中;
S5、在S3或S4中得到的模型预测效果达到最佳的变量组合基础上,同样通过逐步最优特征选择算法挑选在模型预测效果最佳的同时使得模型达到稳定的变量组合,针对现有模型入模变量,循环删除每一个特征变量后利用剩余特征变量建模,记录下每次模型结果在训练样本和测试样本上的KS差值比例,同时针对现有模型未入模特征变量,循环加入每个特征变量后建立模型,同样记录下每次模型结果在训练样本和测试样本上的KS差值比例,若此时存在使得KS差值比例达到要求的变量组合,选择所有满足要求的变量组合中KS值最大的变量组合,输出此变量组合,进入S7中;若不存在使得KS差值比例达到要求的变量组合,则使用KS差值比例最小的变量组合建模代替原始模型,进入S6中;
S6、在S5的变量组合基础上,针对此变量组合循环删除每一个特征变量建模,记录KS差值比例,同时针对所有未入模变量循环加入每一个特征变量建模,记录KS差值比例,选取使得KS差值比例满足要求的变量组合,输出这些变量组合中KS值最大的组合,一直循环进行此步骤,直到KS差值比例满足要求为止,选择模型KS值最大的变量组合进入S7中;
S7、利用使得模型既有效又稳定的特征变量组合,建立最终的评分卡模型。
优选的,S3的目标函数为:
约束条件为:
其中,TP表示预测为正样本的正向样本数量,FN表示预测为负样本的正向样本数量,FP表示预测为正样本的负向样本数量,TN表示预测为负样本的负向样本数量,B表示输出为0或1的布尔函数,Pvaluei表示模型中第i个特征变量的显著性水平,α表示显著性水平阈值(一般设为0.05),coefficienti表示模型中第i个特征变量的系数,iv表示加入模型的特征变量的IV值,ivthreshold表示IV值的阈值,cofficient表示特征变量放入模型后的系数,Pvalue表示加入模型的特征变量的显著性水平。
优选的,S5的目标函数为:
约束条件同步S3中的约束条件;
其中,KStrain表示训练样本的KS值,KStest表示测试样本的KS值,γ表示KS 差值比例要求的阈值。
优选的,所述KS差值比例要求的阈值一般设置为5%。
与现有技术相比,本发明的有益效果是:该算法既可以使模型实现最佳预测效果,又能够保证模型的稳定性,保证进行新样本数据预测时模型效果偏差较小,并且整个模型调优过程实现自动化,减少人工操作。
附图说明
图1为本发明的算法流程示意图。
具体实施方式
下面结合实施例对本发明做进一步的描述。
以下实施例用于说明本发明,但不能用来限制本发明的保护范围。实施例中的条件可以根据具体条件做进一步的调整,在本发明的构思前提下对本发明的方法简单改进都属于本发明要求保护的范围。
请参阅图1,本发明提供一种技术方案:基于逐步最优特征选择的自动化模型调优算法,包括如下步骤:
S1、对建模数据样本建立初版评分卡模型,得到初版模型的入模特征变量组合,以及剩余未入模的所有特征变量;
S2、设置逐步最优特征选择算法的基本限制条件,使得逐步选择的特征变量满足入模要求,包括显著性水平P-Value,特征变量系数coefficient以及信息值IV(information value);
S3、根据S1中的初版模型结果及S2中的基本限制条件,首先通过逐步最优特征选择算法挑选能够使得模型预测效果达到最优的特征变量组合,即针对初版模型中所有入模变量,循环删除每一个特征变量后利用剩余特征变量建模,记录下每次模型结果的评估指标KS值,同时针对初版模型未入模特征变量,循环加入每个特征变量后建立模型,同样记录下每次模型结果的评估指标KS值,选择两类操作中KS值达到最大的变量,若KS值最大的情况是原来的变量组合,加入新变量或减少原变量均无法提升KS值,则停止迭代,输出原来的变量组合,进入S5中;若KS值最大的情况不是原来的变量组合,则使用KS值最大的变量组合建模代替原始模型,进入步骤S4中;
此步骤目标函数为:
约束条件为:
其中,TP表示预测为正样本的正向样本数量,FN表示预测为负样本的正向样本数量,FP表示预测为正样本的负向样本数量,TN表示预测为负样本的负向样本数量,B表示输出为0或1的布尔函数,Pvaluei表示模型中第i个特征变量的显著性水平,α表示显著性水平阈值(一般设为0.05),coefficienti表示模型中第i个特征变量的系数,iv表示加入模型的特征变量的IV值,ivthreshold表示IV值的阈值,cofficient表示特征变量放入模型后的系数,Pvalue表示加入模型的特征变量的显著性水平;
S4、在S3的变量组合基础上,针对此变量组合循环删除每一个特征变量建模,记录KS值,同时针对所有未入模变量循环加入每一个特征变量建模,记录KS值,选取使得KS值最大的操作,一直循环进行此步骤,直到模型KS值达到最优为止,进入S5中;
S5、在S3或S4中得到的模型预测效果达到最佳的变量组合基础上,同样通过逐步最优特征选择算法挑选在模型预测效果最佳的同时使得模型达到稳定的变量组合,针对现有模型入模变量,循环删除每一个特征变量后利用剩余特征变量建模,记录下每次模型结果在训练样本和测试样本上的KS差值比例,同时针对现有模型未入模特征变量,循环加入每个特征变量后建立模型,同样记录下每次模型结果在训练样本和测试样本上的KS差值比例,若此时存在使得KS差值比例达到要求的变量组合,选择所有满足要求的变量组合中KS值最大的变量组合,输出此变量组合,进入S7中;若不存在使得KS差值比例达到要求的变量组合,则使用KS差值比例最小的变量组合建模代替原始模型,进入S6中;
此步骤的目标函数为:
约束条件同步S3中的约束条件;
其中,KStrain表示训练样本的KS值,KStest表示测试样本的KS值,γ表示 KS差值比例要求的阈值,KS差值比例要求的阈值一般设置为5%;
S6、在S5的变量组合基础上,针对此变量组合循环删除每一个特征变量建模,记录KS差值比例,同时针对所有未入模变量循环加入每一个特征变量建模,记录KS差值比例,选取使得KS差值比例满足要求的变量组合,输出这些变量组合中KS值最大的组合,一直循环进行此步骤,直到KS差值比例满足要求为止,选择模型KS值最大的变量组合进入S7中;
S7、利用使得模型既有效又稳定的特征变量组合,建立最终的评分卡模型。
该算法可在互联网金融行业的各个场景如消费分期行业、小微企业贷款行业、大额现金分期等行业得以应用,应用效果是在共同保证模型稳定性的情况下,使得模型预测效果提高20%左右,增强了信贷行业审核的准确性,同时使得模型的建立时间大大缩短,而且使得模型的自动化建立和迭代成为可能。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

Claims (4)

1.基于逐步最优特征选择的自动化模型调优算法,其特征在于,包括如下步骤:
S1、对建模数据样本建立初版评分卡模型,得到初版模型的入模特征变量组合,以及剩余未入模的所有特征变量;
S2、设置逐步最优特征选择算法的基本限制条件,使得逐步选择的特征变量满足入模要求,包括显著性水平P-Value,特征变量系数coefficient以及信息值IV(informationvalue);
S3、根据S1中的初版模型结果及S2中的基本限制条件,首先通过逐步最优特征选择算法挑选能够使得模型预测效果达到最优的特征变量组合,即针对初版模型中所有入模变量,循环删除每一个特征变量后利用剩余特征变量建模,记录下每次模型结果的评估指标KS值,同时针对初版模型未入模特征变量,循环加入每个特征变量后建立模型,同样记录下每次模型结果的评估指标KS值,选择两类操作中KS值达到最大的变量,若KS值最大的情况是原来的变量组合,加入新变量或减少原变量均无法提升KS值,则停止迭代,输出原来的变量组合,进入S5中;若KS值最大的情况不是原来的变量组合,则使用KS值最大的变量组合建模代替原始模型,进入步骤S4中;
S4、在S3的变量组合基础上,针对此变量组合循环删除每一个特征变量建模,记录KS值,同时针对所有未入模变量循环加入每一个特征变量建模,记录KS值,选取使得KS值最大的操作,一直循环进行此步骤,直到模型KS值达到最优为止,进入S5中;
S5、在S3或S4中得到的模型预测效果达到最佳的变量组合基础上,同样通过逐步最优特征选择算法挑选在模型预测效果最佳的同时使得模型达到稳定的变量组合,针对现有模型入模变量,循环删除每一个特征变量后利用剩余特征变量建模,记录下每次模型结果在训练样本和测试样本上的KS差值比例,同时针对现有模型未入模特征变量,循环加入每个特征变量后建立模型,同样记录下每次模型结果在训练样本和测试样本上的KS差值比例,若此时存在使得KS差值比例达到要求的变量组合,选择所有满足要求的变量组合中KS值最大的变量组合,输出此变量组合,进入S7中;若不存在使得KS差值比例达到要求的变量组合,则使用KS差值比例最小的变量组合建模代替原始模型,进入S6中;
S6、在S5的变量组合基础上,针对此变量组合循环删除每一个特征变量建模,记录KS差值比例,同时针对所有未入模变量循环加入每一个特征变量建模,记录KS差值比例,选取使得KS差值比例满足要求的变量组合,输出这些变量组合中KS值最大的组合,一直循环进行此步骤,直到KS差值比例满足要求为止,选择模型KS值最大的变量组合进入S7中;
S7、利用使得模型既有效又稳定的特征变量组合,建立最终的评分卡模型。
2.根据权利要求1所述的基于逐步最优特征选择的自动化模型调优算法,其特征在于,S3的目标函数为:
约束条件为:
其中,TP表示预测为正样本的正向样本数量,FN表示预测为负样本的正向样本数量,FP表示预测为正样本的负向样本数量,TN表示预测为负样本的负向样本数量,B表示输出为0或1的布尔函数,Pvaluei表示模型中第i个特征变量的显著性水平,α表示显著性水平阈值(一般设为0.05),coefficienti表示模型中第i个特征变量的系数,iv表示加入模型的特征变量的IV值,ivthreshold表示IV值的阈值,cofficient表示特征变量放入模型后的系数,Pvalue表示加入模型的特征变量的显著性水平。
3.根据权利要求2所述的基于逐步最优特征选择的自动化模型调优算法,其特征在于,S5的目标函数为:
约束条件同步S3中的约束条件;
其中,KStrain表示训练样本的KS值,KStest表示测试样本的KS值,γ表示KS差值比例要求的阈值。
4.根据权利要求3所述的基于逐步最优特征选择的自动化模型调优算法,其特征在于,所述KS差值比例要求的阈值一般设置为5%。
CN201910404903.9A 2019-05-16 2019-05-16 基于逐步最优特征选择的自动化模型调优算法 Pending CN110223156A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910404903.9A CN110223156A (zh) 2019-05-16 2019-05-16 基于逐步最优特征选择的自动化模型调优算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910404903.9A CN110223156A (zh) 2019-05-16 2019-05-16 基于逐步最优特征选择的自动化模型调优算法

Publications (1)

Publication Number Publication Date
CN110223156A true CN110223156A (zh) 2019-09-10

Family

ID=67821309

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910404903.9A Pending CN110223156A (zh) 2019-05-16 2019-05-16 基于逐步最优特征选择的自动化模型调优算法

Country Status (1)

Country Link
CN (1) CN110223156A (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796381A (zh) * 2019-10-31 2020-02-14 深圳前海微众银行股份有限公司 建模数据评价指标的处理方法、装置、终端设备及介质
CN111090680A (zh) * 2019-11-08 2020-05-01 中国海洋石油集团有限公司 一种共享型测井数据挖掘方法
CN111861704A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 风控特征生成方法及系统
CN111861705A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 金融风控逻辑回归特征筛选方法及系统
CN113988651A (zh) * 2021-10-29 2022-01-28 深圳壹账通智能科技有限公司 一种评分卡模型的评价方法、系统、设备及介质

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110796381A (zh) * 2019-10-31 2020-02-14 深圳前海微众银行股份有限公司 建模数据评价指标的处理方法、装置、终端设备及介质
CN111090680A (zh) * 2019-11-08 2020-05-01 中国海洋石油集团有限公司 一种共享型测井数据挖掘方法
CN111861704A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 风控特征生成方法及系统
CN111861705A (zh) * 2020-07-10 2020-10-30 深圳无域科技技术有限公司 金融风控逻辑回归特征筛选方法及系统
CN113988651A (zh) * 2021-10-29 2022-01-28 深圳壹账通智能科技有限公司 一种评分卡模型的评价方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN110223156A (zh) 基于逐步最优特征选择的自动化模型调优算法
CN107424070A (zh) 一种基于机器学习的贷款用户信用评级方法及系统
CN114048436A (zh) 一种预测企业财务数据模型构建方法及构建装置
Padder et al. The relationship between unemployment and economic growth in India: Granger causality approach
CN112541817A (zh) 一种个人消费贷款潜在客户的营销响应处理方法及系统
CN115271912A (zh) 一种基于大数据的信贷业务智能风控审批系统及方法
CN112613977A (zh) 一种基于政务数据的个人信用贷款准入授信方法及系统
CN108734567A (zh) 一种基于大数据人工智能风控的资产管理系统及其评估方法
CN116468536A (zh) 一种自动化风险控制规则生成的方法
Ademuyiwa et al. Impact of some economic variables on the real gross domestic product of Nigeria
Alenoghena et al. Financial development and economic growth in Nigeria: asymmetric cointegration and threshold analysis
CN110533519A (zh) 基于决策树的特征分箱算法
CN113919931A (zh) 一种贷款申请评分模型的使用效果评估方法及系统
CN113065969A (zh) 企业评分模型构建方法、企业评分方法、介质和电子设备
CN112037006A (zh) 小微企业的信用风险识别方法及装置
CN116843446A (zh) 基于可解释性机器学习的小额贷违约风险评估与归因方法
CN110738565A (zh) 基于数据集合的房产金融人工智能复合风控模型
CN110196797A (zh) 适于信用评分卡系统的自动优化方法和系统
CN114154682A (zh) 一种客户贷款收益率等级预测方法及系统
CN110084441A (zh) 基于组合最优化的自动化分箱算法
Levandivskyi et al. Modeling of added value as a financial indicator of activity of agricultural enterprises in the regions of Ukraine
Li et al. Study on Risk Analysis and Decision‐Making of Small‐and Medium‐Sized Enterprises on BP Neural Network Algorithm
CN113537684B (zh) 多目标耦合约束下的海外炼化工程风险管理控制方法
Onwioduokit Threshold analysis of budget deficit and economic growth in Sierra Leone
KR102576143B1 (ko) 거절자 추론 없이 대출 실행 데이터를 활용하여 신용 평가 모형을 연속 학습하는 방법 및 이 방법을 실행시키기 위한 컴퓨터 판독 가능한 프로그램을 기록한 기록 매체

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20190910