CN111507824A - 风控模型入模变量最小熵分箱方法 - Google Patents

风控模型入模变量最小熵分箱方法 Download PDF

Info

Publication number
CN111507824A
CN111507824A CN202010296690.5A CN202010296690A CN111507824A CN 111507824 A CN111507824 A CN 111507824A CN 202010296690 A CN202010296690 A CN 202010296690A CN 111507824 A CN111507824 A CN 111507824A
Authority
CN
China
Prior art keywords
variables
variable
binning
wind control
control model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010296690.5A
Other languages
English (en)
Inventor
刘星辰
陈晓峰
麻沁甜
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Bochi Information Technology Co ltd
Original Assignee
Shanghai Bochi Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Bochi Information Technology Co ltd filed Critical Shanghai Bochi Information Technology Co ltd
Priority to CN202010296690.5A priority Critical patent/CN111507824A/zh
Publication of CN111507824A publication Critical patent/CN111507824A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/12Computing arrangements based on biological models using genetic models
    • G06N3/126Evolutionary algorithms, e.g. genetic algorithms or genetic programming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Physiology (AREA)
  • Genetics & Genomics (AREA)
  • Biomedical Technology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Feedback Control In General (AREA)

Abstract

本发明公开一种风控模型入模变量最小熵分箱方法,包括:获取类别平衡的建模样本集;针对建模样本集,通过相关性和关联性等分析筛选风控模型的入模变量,并进行预处理;将入模变量中的连续变量分别预设一个分箱数,并针对各变量进行多次随机分箱,获得一组分箱方案;在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法等启发式搜索方法,多次迭代获得全局最优分箱方法;将分箱后的变量进行WOE转换等处理后输入风控模型进行训练。采用本发明实施例提供的方案,在实现自动化分箱的同时保证分箱的合理性,有利于提升风控模型的训练和预测精度。

Description

风控模型入模变量最小熵分箱方法
技术领域
本发明涉及风险控制技术领域,具体涉及风控模型入模变量最小熵分箱方法。
背景技术
风控建模在现代金融的自动化风控中发挥着举足轻重的作用,当前,风控模型大多基于逻辑回归和决策树等机器学习模型,通过历史借贷样本的训练建立用户行为和信用之间的映射关系。风控模型从样本中学习的特性决定了样本集和入模变量是影响模型有效性的关键因素之一。
风控建模过程中,为了增强模型的稳定性和避免过拟合,同时增加模型结果的可解释性,通常会对模型入模变量中的连续变量离散化,即分箱。在常用的分箱方法中,等距分箱和等频分箱由于没有考虑变量本身的分布情况,通常分箱的效果不佳。卡方分箱需要人为设定卡方阈值,依赖专家经验,较为复杂。
发明内容
针对现有技术的不足,本发明提供一种最小熵分箱方法,该方法以变量分箱后熵最小为目标,仅需要预设分箱数,并通过启发式搜索方法获取最优的分箱方案。最小熵的优化目标使变量分箱后箱内差异小和箱间差异大,从而最大程度保留了变量对于风控模型分类的价值,达到提升风控模型训练和预测效果的目的。
本发明提供一种风控模型入模变量最小熵分箱方法,包括如下步骤:
S1:获取类别平衡的建模样本集;
S2:针对建模样本集,通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理;
S3:将入模变量中的连续变量分别预设一个分箱数,并针对各变量进行多次随机分箱,获得一组分箱方案;
S4:在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法等启发式搜索方法,多次迭代获得全局最优分箱方法;
S5:将分箱后的变量进行WOE转换等处理后输入风控模型进行训练。
优选地,所述步骤S1中的建模样本集,通过原始样本集的重采样获取。重采样包括欠采样和过采样两种方法,目的是使采样所得的建模样本集类别平衡,即样本集中不同类别样本比例大致相等。
优选地,所述步骤S2中通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理,包括以下步骤:
S2.1在建模样本集的全变量中筛选出对类别变量影响最大的变量子集,作为风控模型的入模变量,其中变量对类别变量影响的衡量可以通过相关性和关联性分析。
S2.2对筛选出的变量子集进行缺失值填充、异常值替换和哑变量转换等预处理,变量类型包含名义变量、顺序变量和连续变量,预处理的方式根据变量类型和风控模型的输入要求而定。
优选地,所述步骤S3中针对各变量进行多次随机分箱,仅作用于入模变量中的连续变量,名义变量和顺序变量不参与分箱处理。
优选地,所述步骤S3中针对各变量进行多次随机分箱,包括以下步骤:
S3.1对于不同的连续变量分别预设一个分箱数,预设的分箱数不需要相等,实践中视变量的范围和分布而定。
S3.2针对每一个连续变量,根据预设的分箱数进行多次随机分箱,获得各变量一组初始的分箱方案,以作为进一步优化的基础,所谓随机分箱指在连续变量的取值范围内,分段的点随机选取。
优选地,所述步骤S4中在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法等启发式搜索方法,多次迭代获得全局最优分箱方法,包括以下步骤:
S4.1评估该组多个分箱方案的优劣,其中评估的量化指标为分箱方案的熵,以熵最小为优,变量分箱的熵计算如公式(1)所示:
Figure BDA0002452442940000031
其中k表示预设的分箱数,ri为第i个分箱样本数占总样本数的比例,c为样本集的类别数,pij为第i个分箱内,类别为j的样本占该分箱样本数的比例。
S4.2以较优的分箱方案子集为基础,利用遗传算法和模拟退火算法通过迭代优化的方式获得最终的分箱方案,该方案通常为全局最优解或者近似全局最优解。
有益效果:本发明提供一种最小熵分箱方法,该方法以变量分箱后熵最小为目标,仅需要预设分箱数,并通过启发式搜索方法获取最优的分箱方案。最小熵的优化目标使变量分箱后箱内差异小和箱间差异大,从而最大程度保留了变量对于风控模型分类的价值,达到提升风控模型训练和预测效果的目的;采用本发明提供的方案,在实现自动化分箱的同时保证分箱的合理性,有利于提升风控模型的训练和预测精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
图1是本发明的风控模型入模变量最小熵分箱方法的流程示意图。
图2是连续变量一组随机分箱方案的示意图。
图3是连续变量分箱以最小熵为优化目标,采用遗传算法为优化方法的分箱流程示意图。
具体实施方式
为使本发明目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
以下结合具体实施方式和附图1对本发明技术方案作进一步说明,
一种风控模型入模变量降维方法,包括以下步骤:
S1:获取类别平衡的建模样本集;其中建模样本通过原始样本的重采样获得,通常原始样本集规模过大且存在正常样本比例远大于逾期样本的情况,通过重采样筛选较优样本的同时获得类别平衡的建模样本集。
例如,样本集包含2个类别,分别为正常和逾期,如果原始样本集中正常样本的比例高达90%,而逾期样本仅为10%,则需要通过正常样本的欠采样或者逾期样本的重采样来提升逾期样本的比例,从而使正常和逾期样本在样本集的比例大致相当,作为用于训练风控模型的建模样本集。
S2:针对建模样本集,通过相关性和关联性等分析筛选风控模型的入模变量,并进行预处理;具体来说,对于S1步骤所得建模样本集,通常全变量数量较多且大部分变量和模型预测类别无关,因此需要根据相关性和关联性分析从建模样本中筛选出对模型预测影响最大的变量,作为模型的入模变量,再对筛选出的变量子集进行缺失值填充、异常值替换和哑变量转换等预处理。通常入模变量包括名义变量、顺序变量和连续变量三种类型,需要根据变量类型和风控模型的输入要求进行相应的预处理。
例如,建模样本集有2000个变量,通过相关性分析从全变量中筛选出15个变量{a1,a2,a3,a4,a5,b1,b2,b3,b4,b5,c1,c2,c3,c4,c5}作为入模变量,其中{a1,a2,a3,a4,a5}为名义变量,{b1,b2,b3,b4,b5}为顺序变量,{c1,c2,c3,c4,c5}为连续变量。对所有变量进行缺失值填充和异常值替换,同时对名义变量中的类别变量进行哑变量转换。
S3:将入模变量中的连续变量分别预设一个分箱数,并针对各变量进行多次随机分箱,获得一组分箱方案;具体来说,不同的连续变量取值范围和分布不同,需要针对具体的变量设定对应的分箱数。由于分箱数是人为设定的超参数,对同一个变量可以设定不同的分箱,在后续的处理中对比不同分箱数的效果。在分箱数设定之后,对同一个变量进行多次随机分箱,从而得到多个分箱方案,所谓随机分箱是指在变量的取值范围内随机选取分段点。随机所得的一组分箱方案作为后续优化的基础。
例如,如附图2所示,假设S2得到的入模变量其中一个连续变量为年龄,取值范围为16~70,假设预设分箱数为4,则其中一种示意的n个随机分箱方案为:{方案1:{[16,28),[28,45),[45,57),[57,70]},方案2:{[16,32),[32,50),[50,60),[60,70]},...,方案n:{[16,25),[25,35),[35,54),[54,70]}}。
S4:在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法等启发式搜索方法,多次迭代获得全局最优分箱方法;具体来说,最终分箱方案在S3步骤中得到的一组随机分箱方案基础上优化获得,优化的目标为最小化分箱方案的熵,变量分箱的熵计算如公式(1)所示:
Figure BDA0002452442940000061
其中k表示预设的分箱数,ri为第i个分箱样本数占总样本数的比例,c为样本集的类别数,pij为第i个分箱内,类别为j的样本占该分箱样本数的比例。
优化方法可以采用遗传算法和模拟退火算法等启发式搜索方法,理论上在分箱数较多的情况下启发式搜索可能得到近似全局最优方案,实践中由于分箱数通常不大,绝大部分情况下可以得到全局最优解。
例如,采用遗传算法作为优化方法,对于步骤S3中得到的年龄变量的n个随机分箱方案,采用附图3所示的优化步骤。首先根据公式(1)计算n个随机分箱方案的熵,并将方案按熵的大小正向排序,取较优的方案(比如前4个)作为进一步优化的基础。然后以一定的概率pc让选择的分箱方案两两交叉,所谓交叉,可以是交换两个方案中的部分分段。然后以一定的概率pc让每一个分箱方案变异,其中变异可以为分段位置的移动,比如增加或者减少1。在交叉和变异后得到新的分箱方案,与最初选择的分箱方案合并,作为第2轮的初始分箱方案,进行[选择-->交叉-->变异]的过程,以此类推,在达到预定的迭代次数之后输出最优分箱方案。
S5:将分箱后的变量进行WOE转换等处理后输入风控模型进行训练。具体而言,将步骤S4得到分箱后的入模变量,按照风控模型的输入要求作进一步的处理,得到最终的入模变量。
例如,风控模型为标准的逻辑回归评分卡二分类模型,需要将各变量进行WOE转换,最后将各变量的对应WOE值输入模型进行训练。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (6)

1.一种风控模型入模变量最小熵分箱方法,其特征在于,包括以下步骤:
S1:获取类别平衡的建模样本集;
S2:针对建模样本集,通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理;
S3:将入模变量中的连续变量分别预设一个分箱数,并针对各变量进行多次随机分箱,获得一组分箱方案;
S4:在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法,多次迭代获得全局最优分箱方法;
S5:将分箱后的变量进行WOE转换等处理后输入风控模型进行训练。
2.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S1中的建模样本集,通过原始样本集的重采样获取。重采样包括欠采样和过采样两种方法。
3.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S2中通过相关性和关联性分析筛选风控模型的入模变量,并进行预处理,包括以下步骤:
S2.1在建模样本集的全变量中筛选出对类别变量影响最大的变量子集,作为风控模型的入模变量,其中变量对类别变量影响的衡量可以通过相关性和关联性分析。
S2.2对筛选出的变量子集进行缺失值填充、异常值替换和哑变量转换等预处理,变量类型包含名义变量、顺序变量和连续变量,预处理的方式根据变量类型和风控模型的输入要求而定。
4.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S3中针对各变量进行多次随机分箱,仅作用于入模变量中的连续变量,名义变量和顺序变量不参与分箱处理。
5.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S3中针对各变量进行多次随机分箱,包括以下步骤:
S3.1对于不同的连续变量分别预设一个分箱数。
S3.2针对每一个连续变量,根据预设的分箱数进行多次随机分箱,获得各变量一组初始的分箱方案,以作为进一步优化的基础。
6.根据权利要求1所述的风控模型入模变量最小熵分箱方法,其特征在于:所述步骤S4中在初始的一组分箱方案基础上以最小熵为优化目标,采用遗传算法和模拟退火算法等启发式搜索方法,多次迭代获得全局最优分箱方法,包括以下步骤:
S4.1评估该组多个分箱方案的优劣,其中评估的量化指标为分箱方案的熵,以熵最小为优,变量分箱的熵计算如公式(1)所示:
Figure FDA0002452442930000021
其中k表示预设的分箱数,ri为第i个分箱样本数占总样本数的比例,c为样本集的类别数,pij为第i个分箱内,类别为j的样本占该分箱样本数的比例。
S4.2以较优的分箱方案子集为基础,利用遗传算法和模拟退火算法通过迭代优化的方式获得最终的分箱方案,该方案通常为全局最优解或者近似全局最优解。
CN202010296690.5A 2020-04-15 2020-04-15 风控模型入模变量最小熵分箱方法 Pending CN111507824A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010296690.5A CN111507824A (zh) 2020-04-15 2020-04-15 风控模型入模变量最小熵分箱方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010296690.5A CN111507824A (zh) 2020-04-15 2020-04-15 风控模型入模变量最小熵分箱方法

Publications (1)

Publication Number Publication Date
CN111507824A true CN111507824A (zh) 2020-08-07

Family

ID=71876088

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010296690.5A Pending CN111507824A (zh) 2020-04-15 2020-04-15 风控模型入模变量最小熵分箱方法

Country Status (1)

Country Link
CN (1) CN111507824A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186628A (zh) * 2021-12-09 2022-03-15 百融云创科技股份有限公司 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统
CN114240215A (zh) * 2021-12-22 2022-03-25 中国建设银行股份有限公司 用户失联等级获取方法、装置及存储介质
CN116012143A (zh) * 2023-01-03 2023-04-25 睿智合创(北京)科技有限公司 一种分箱回归下的变量选择及参数估计方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114186628A (zh) * 2021-12-09 2022-03-15 百融云创科技股份有限公司 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统
CN114186628B (zh) * 2021-12-09 2022-08-26 百融云创科技股份有限公司 一种基于nsga-ii遗传算法的最优分箱数据处理方法及系统
CN114240215A (zh) * 2021-12-22 2022-03-25 中国建设银行股份有限公司 用户失联等级获取方法、装置及存储介质
CN116012143A (zh) * 2023-01-03 2023-04-25 睿智合创(北京)科技有限公司 一种分箱回归下的变量选择及参数估计方法
CN116012143B (zh) * 2023-01-03 2023-10-13 睿智合创(北京)科技有限公司 一种分箱回归下的变量选择及参数估计方法

Similar Documents

Publication Publication Date Title
CN109977028A (zh) 一种基于遗传算法和随机森林的软件缺陷预测方法
CN111507824A (zh) 风控模型入模变量最小熵分箱方法
CN111914090B (zh) 一种企业行业分类识别及其特征污染物识别的方法及装置
CN111311401A (zh) 一种基于LightGBM的金融违约概率预测模型
CN112053234B (zh) 基于宏观区域经济指数与微观因素的企业信用评级方法
CN117236278B (zh) 一种基于数字孪生技术的芯片生产仿真方法及系统
CN112686749B (zh) 一种基于逻辑回归技术的信用风险评估方法及装置
CN110987436B (zh) 基于激励机制的轴承故障诊断方法
WO2024036709A1 (zh) 一种异常数据检测方法及装置
CN108647772B (zh) 一种用于边坡监测数据粗差剔除的方法
CN114328048A (zh) 一种磁盘故障预测方法及装置
CN111652264B (zh) 基于最大均值差异的负迁移样本筛选方法
CN113282747A (zh) 一种基于自动机器学习算法选择的文本分类方法
Liu et al. A quantitative study of the effect of missing data in classifiers
CN111652430A (zh) 一种互联网金融平台违约率的预测方法及系统
CN112183598A (zh) 一种基于遗传算法的特征选择方法
KR20170140625A (ko) 운전자의 주행 패턴 인식 시스템 및 방법
CN116010625A (zh) 基于遗传算法的引文网络图标签对抗攻击方法
CN114186644A (zh) 一种基于优化随机森林的缺陷报告严重程度预测方法
CN112306731B (zh) 基于Spacy词向量的两阶段判别缺陷报告严重程度预测方法
CN111026661B (zh) 一种软件易用性全面测试方法及系统
CN113780334A (zh) 基于两阶段混合特征选择的高维数据分类方法
CN112420132A (zh) 一种汽油催化裂化过程产品质量优化控制方法
CN112488188A (zh) 一种基于深度强化学习的特征选择方法
Sallehuddin et al. Forecasting small data set using hybrid cooperative feature selection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination