CN117788133A - 构建零售信用风险预测模型的方法和零售信贷Scoresigma模型 - Google Patents
构建零售信用风险预测模型的方法和零售信贷Scoresigma模型 Download PDFInfo
- Publication number
- CN117788133A CN117788133A CN202211164754.1A CN202211164754A CN117788133A CN 117788133 A CN117788133 A CN 117788133A CN 202211164754 A CN202211164754 A CN 202211164754A CN 117788133 A CN117788133 A CN 117788133A
- Authority
- CN
- China
- Prior art keywords
- credit
- past
- months
- month
- credit card
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 371
- 238000013058 risk prediction model Methods 0.000 title claims abstract description 38
- 238000006243 chemical reaction Methods 0.000 claims abstract description 890
- 238000012216 screening Methods 0.000 claims abstract description 234
- 238000003066 decision tree Methods 0.000 claims abstract description 41
- 238000009795 derivation Methods 0.000 claims abstract description 5
- 238000004364 calculation method Methods 0.000 claims description 92
- 238000007477 logistic regression Methods 0.000 claims description 57
- 230000008569 process Effects 0.000 claims description 50
- 230000006399 behavior Effects 0.000 claims description 46
- 230000006870 function Effects 0.000 claims description 44
- 238000010276 construction Methods 0.000 claims description 42
- 238000012545 processing Methods 0.000 claims description 28
- 230000002829 reductive effect Effects 0.000 claims description 28
- 230000007423 decrease Effects 0.000 claims description 23
- 125000004122 cyclic group Chemical group 0.000 claims description 15
- 230000009467 reduction Effects 0.000 claims description 15
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 13
- 230000003542 behavioural effect Effects 0.000 claims description 9
- 230000009466 transformation Effects 0.000 claims description 8
- 238000012360 testing method Methods 0.000 claims description 7
- 230000003321 amplification Effects 0.000 claims description 6
- 238000003199 nucleic acid amplification method Methods 0.000 claims description 6
- 210000001061 forehead Anatomy 0.000 claims description 4
- 238000004513 sizing Methods 0.000 claims 1
- 230000000875 corresponding effect Effects 0.000 description 172
- 238000011161 development Methods 0.000 description 52
- 230000008859 change Effects 0.000 description 26
- 238000012549 training Methods 0.000 description 22
- 238000012217 deletion Methods 0.000 description 19
- 230000037430 deletion Effects 0.000 description 19
- 230000000694 effects Effects 0.000 description 18
- 230000002596 correlated effect Effects 0.000 description 13
- 230000036961 partial effect Effects 0.000 description 13
- 230000008901 benefit Effects 0.000 description 12
- 230000007774 longterm Effects 0.000 description 12
- 238000002347 injection Methods 0.000 description 11
- 239000007924 injection Substances 0.000 description 11
- 238000004458 analytical method Methods 0.000 description 10
- 238000007726 management method Methods 0.000 description 9
- 238000013461 design Methods 0.000 description 8
- 238000010200 validation analysis Methods 0.000 description 7
- 238000012790 confirmation Methods 0.000 description 5
- 238000012850 discrimination method Methods 0.000 description 5
- 102100037651 AP-2 complex subunit sigma Human genes 0.000 description 4
- 101000806914 Homo sapiens AP-2 complex subunit sigma Proteins 0.000 description 4
- 101710135464 Outer capsid protein sigma-3 Proteins 0.000 description 4
- 238000013459 approach Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000004064 recycling Methods 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 238000010606 normalization Methods 0.000 description 3
- 238000012797 qualification Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000007704 transition Effects 0.000 description 3
- 230000001186 cumulative effect Effects 0.000 description 2
- 230000006866 deterioration Effects 0.000 description 2
- 238000005315 distribution function Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000013139 quantization Methods 0.000 description 2
- 230000005634 sigma model Effects 0.000 description 2
- 238000010998 test method Methods 0.000 description 2
- 102100040057 AP-5 complex subunit sigma-1 Human genes 0.000 description 1
- 101710105523 AP-5 complex subunit sigma-1 Proteins 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 230000002860 competitive effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000003090 exacerbative effect Effects 0.000 description 1
- 230000007717 exclusion Effects 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 238000003306 harvesting Methods 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007425 progressive decline Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000013138 pruning Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000000630 rising effect Effects 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 239000000243 solution Substances 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 230000002459 sustained effect Effects 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
Landscapes
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请涉及一种零售信贷Scoresigma模型和利用该模型预测零售信贷风险的方法,其包括:数据采集步骤,其获取待预测样本的零售信用预测数据;对待预测样本进行分类的步骤,其基于决策树方法将待预测样本进行分类以确定用于计算信用违约概率的子模型;信用违约概率计算步骤,将零售信用预测数据代入信用违约概率子模型中以计算所述待预测样本的信用违约概率。本申请还涉及一种构建零售信用风险预测模型的方法,其包括:数据采集步骤,数据衍生步骤,特征初筛步骤,初筛数据转换步骤,特征精筛步骤,信用违约概率建模步骤。
Description
技术领域
本申请涉及一种信用风险管控系统和方法,利用本申请的方法和系统能够辅助金融机构进行更为准确的风险决策,增快其数字化转型进程。详细来说本申请涉及一种构建零售信用风险预测模型的方法,以及利用该方法构建的零售信用风险预测模型来预测零售信用风险。
背景技术
在当前消费信贷蓬勃发展的大环境下,部分金融机构的人工审批机制已经无法应对逐渐增多的信贷需求,因此迫切地希望提升金融机构的智能化风控能力。金融机构希望构建从客户预筛选、贷前审查、贷中审批、贷后管理到早期催收阶段的信贷全流程风险缓释机制。
如果能够基于早识别、早预警、早发现、早处置的原则开发评分系统,快速便捷地对信贷业务进行监控管理,就能在在风险可控的基础上,提升金融机构自身业务体量、竞争优势和资产质量。
但是建设评分系统对于数据和技术层面的依赖性极强,数据维度的多样性和覆盖度、建模技巧及方法论直接影响着评分系统最终的稳定性及排序性。部分金融机构对于零售业务智能化风控经验积累较少,风控能力较弱。在实际的应用过程中,存在数据挖掘分析能力欠缺、风险建模技术薄弱等因素导致金融机构无法充分发挥内部数据价值、无法有效提高模型精准度及稳定性等管控技术难题。这也是中小型金融机构在进行数字化转型方向上的面临的主要障碍之一。
发明内容
针对上述现有技术中的不足,本申请意在提供一种信用风险管控系统和方法,能够为金融机构提供有效地风险管理。本申请的信用风险预测方法和系统,是基于大型银行海量的数据,利用统计学原理提炼出的风险规律,其本质上具有推广意义。
目前市场上其他的流行的评分模型建设过程中往往困囿于建模样本数量较小、数据来源较为单一、数据维度同质性较高等不利因素。同时,由于目前市面上的风险评估模型大多使用弱金融属性的数据,即基于如智能终端设备数据、社交平台数据、网购商城数据等非信贷交易类数据及非逾期类预测目标进行建模,其预测结果与实际的信贷逾期情况往往存在较大偏差。
本申请首先提供一种能够适用于构建零售信用风险预测模型的方法,并基于该方法构建的模型从而为金融机构提供一套准确的用于计算待预测样本的零售信用风险的方法。
本申请的方法和系统是基于高稳定、高覆盖的数据样本进行的开发,并对目前已经相对成熟的信贷风控体系进行了系统性的创新,使用包含各种业务形态的信贷样本,对金融机构的潜在零售信用风险进行预测。
具体来说,本申请还可以进一步以(1)已申请信贷业务的新客户且属于经济欠发达地区的客户群体未来是否会发生信贷逾期的概率;(2)已申请信贷业务的新客户且属于经济中等发达地区的客户群体预测其发生信贷逾期的概率;(3)已申请信贷业务的新客户且属于经济比较发达地区的客户群体预测其发生信贷逾期的概率;(4)已申请信贷业务的非新客户且已经出现严重逾期客户群体预测其发生信贷逾期的概率;(5)已申请信贷业务的非新客户且已经出现严轻中度逾期的客户群体预测其发生信贷逾期的概率;(6)已申请信贷业务的非新客户且持有住房贷款的客户群体预测其发生信贷逾期的概率;(7)已申请信贷业务的非新客户且持有消费类贷款的客户群体预测其发生信贷逾期的概率;(8)已申请信贷业务的非新客户且信用卡分期的客户群体预测其发生信贷逾期的概率;(9)已申请信贷业务的非新客户且信用卡非分期的客户群体预测其发生信贷逾期的概率;(10)经济欠发达地区的无信贷申请客户群体预测其发生信贷逾期的概率;(11)经济中等发达地区的无信贷申请客户群体预测其发生信贷逾期的概率;(12)经济比较发达地区的无信贷申请客户群体预测其发生信贷逾期的概率这12种信用违约概率为预测目标(即目标变量)进行研发。
本申请的方法和系统与市场上现有的模型相比,在预测此特定客群逾期90天以上的区分度和稳定性等方面都有着较大的提升。
本申请涉及如下的技术方案:
项1.一种构建零售信用风险预测模型的方法,其包括:
数据采集步骤,其获取用于构建模型的样本的原始零售信用预测数据;
数据衍生步骤,其基于原始的零售信用预测数据加工出衍生零售信用预测数据;
特征初筛步骤,其对包括原始零售信用预测数据和衍生零售信用预测数据的全部类别,即全部特征进行初步筛选,以获得初步筛选后的特征;
初筛数据转换步骤,对初步筛选后的特征进行转换方式的判断以确认采用WOE转换方式、哑特征转换方式以及连续型转换方式中的一种来进行特征转换,并针对每一个初步筛选后的特征采用判断的最优方式来进行特征转换;
特征精筛步骤,对进行特征转换后的初步筛选的特征进行深度筛选以获得精筛后的特征;
信用违约概率建模步骤,针对精筛后的特征结合与信用违约之间的概率关系选择逻辑回归的方式进行模型构建,并确认用于计算信用违约概率的方式。
项2.根据项1所述的方法,其中,
在数据采集步骤中,获取的用于构建模型的样本的原始零售信用预测数据包括:
信用卡类基础数据,其是基于样本用户的信用卡创建过程和使用过程中全部可获取的数据,
个人贷款类基础数据,其是基于样本用户的贷款申请情况及使用行为的全部可获取的数据,
客户基本信息类基础数据,其是基于样本用户本身的属性,但与在金融机构的行为不直接关联的数据,或者
个人金融资产类基础数据,其是样本用户在金融机构与信用卡和贷款不相关的其他全部金融资产和金融交易类数据。
项3.根据项1所述的方法,其中,
在数据衍生步骤中,基于原始的零售信用预测数据加工出衍生零售信用预测数据是指基于时间维度、空间维度、频率维度、统计信息维度对采集的原始的零售信用预测数据进行加工而得到的数据;
优选,衍生零售信用预测数据包括但不限于:
基于样本关系长度进行加工得到的衍生零售信用预测数据,
基于时间间隔类变量进行加工得到的衍生零售信用预测数据,
基于样本行为频率程度进行加工得到的衍生零售信用预测数据,
基于样本当前时间点情况进行加工得到的衍生零售信用预测数据,
基于样本持续行为进行加工得到的衍生零售信用预测数据,
基于统计信息维度对样本数据进行加工得到的衍生零售信用预测数据。
项4.根据项1~3中任一项所述的方法,其中,
特征初筛步骤包括如下步骤:
第一初筛步骤,基于用于构建模型的样本的每一特征的数据缺失情况来对特征进行筛选,
第二初筛步骤,基于某一特征样本的单一值过高情况来对特征进行筛选,
第三初筛步骤,计算每一个特征的信息IV值对特征进行初步筛选;
第一初筛步骤、第二初筛步骤和第三初筛步骤的顺序可以为任意顺序,
第四初筛步骤,对经过第一~第三初步筛选后的特征采用逐步判别算法进行特征的初步筛选;
第五初筛步骤,对经过第四初筛步骤之后的特征基于各个特征本身的风险特性与用于模型构建的样本实际的真实结果的吻合情况来进行特征的初步筛选。
项5.根据项1~4中任一项所述的方法,其中,还包括:
样本选定步骤,其用于在数据采集步骤之前对全部用户进行筛选以获取用于模型构建的样本,
优选,样本选定步骤包括基于决策树对样本全部用户进行分类,分类依据包括但不限于:
某一用户是否是已在金融机构申请注册信贷业务的客户;
某一用户是否属于在金融机构无申请注册信贷业务的客户;
某一用户办理业务归属的地理区域;
某一用户是否已经发生过金融机构风险事件;
某一用户是否持有金融机构发行的信用卡和/或信用卡是否持续使用和/或信用卡或个人贷款是否进行额度的循环支用。
项6.根据项1~5中任一项所述的方法,其中,在初筛数据转换步骤中,初步筛选后的特征进行转换方式的判断,是基于经过初步筛选特征的集中度和数据类型来进行判断的。
项7.根据项6所述的方法,其中,
初筛数据转换步骤基于集中度和数据类型的判断包括如下步骤:
针对每一特征的数据类型进行分类将每一特征分类成字符型变量和数值型变量,
对字符型变量采用哑特征转换方式进行初筛数据转换,
对数值型变量进一步进行分类的过程包括如下子步骤:
如果该数值型变量的取值少于n个,采用WOE的转换方式进行初筛数据转换,
如果该数值型变量的取值在n个以上时,进一步判断如果转换为连续型变量取值较多且单一取值的集中度大于m%,则采用WOE的转换方式,如果单一取值的集中度小于等于m%,则采用连续型的转换方式,
优选,n和m均为正整数,其中n=5~10,m=90~99。
项8.根据项7所述的方法,其中,还包括:
针对确认采用连续型的转换方式的特征基于该特征在不同连续型转换方式下与信用违约的相关性高低来选择最优转换方法来进行该特征的连续型特征转换,
优选采用直接选取原始值、计算原始数据的平方、计算原始数据平方根、计算原始数据立方根或计算原始数据自然对数的方式进行连续型特征转换。
项9.根据项1~8中任一项所述的方法,其中,特征精筛步骤包括:
第一精筛步骤,基于逐步回归算法,基于F检验与T检验对特征的显著性进行特征的筛选,
第二精筛步骤,基于每个特征计算方差膨胀因子并剔除方差膨胀因子较高的特征来进行特征的筛选,
第三精筛步骤,基于逻辑回归对经过第一精筛步骤和第二精筛步骤之后的特征,分析特征系数是否符合针对信用违约的预测结果的趋势以进一步进行特征筛选。
项10.根据项1~9中任一项所述的方法,其中,信用违约概率建模步骤将经过特征精筛步骤筛选的特征代入Sigmoid函数进行逻辑回归计算信用违约概率的模型。
项11.一种计算零售信用风险的方法,其包括:
数据采集步骤,其获取待预测样本的零售信用预测数据;
对待预测样本进行分类的步骤,其基于决策树方法将待预测样本进行分类以确定用于计算信用违约概率的子模型;
信用违约概率计算步骤,将零售信用预测数据代入信用违约概率子模型中以计算所述待预测样本的信用违约概率。
项12.根据项11所述的方法,其还包括:
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤,其用于将计算得到的信用违约概率校准至0-1000分的标准化分数。
项13.根据项11或12所述的方法,其中,
所述零售信用预测数据包括待预测样本的原始零售信用预测数据以及基于原始的零售信用预测数据加工出衍生零售信用预测数据;
优选,所述原始零售信用预测数据包括:
信用卡类基础数据,其是基于样本用户的信用卡创建过程和使用过程中全部可获取的数据,
个人贷款类基础数据,其是基于样本用户的贷款申请情况及使用行为的全部可获取的数据,
客户基本信息类基础数据,其是基于样本用户本身的属性,但与在金融机构的行为不直接关联的数据,或者
个人金融资产类基础数据,其是样本用户在金融机构与信用卡和贷款不相关的其他全部金融资产和金融交易类数据。
项14.根据项11~13中任一项所述的方法,其中,
基于原始的零售信用预测数据加工出衍生零售信用预测数据是指基于时间维度、空间维度、频率维度、统计信息维度对采集的原始的零售信用预测数据进行加工而得到的数据;
优选,衍生零售信用预测数据包括但不限于:
基于样本关系长度进行加工得到的衍生零售信用预测数据,
基于时间间隔类变量进行加工得到的衍生零售信用预测数据,
基于样本行为频率程度进行加工得到的衍生零售信用预测数据,
基于样本当前时间点情况进行加工得到的衍生零售信用预测数据,
基于样本持续行为进行加工得到的衍生零售信用预测数据,
基于统计信息维度对样本数据进行加工得到的衍生零售信用预测数据。
项15.根据项11~14中任一项所述的方法,其中,
所述零售信用预测数据选自以下中的一种或两种或三种或四种或五种或六种或七种或八种:
过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、当前时间点存款账户余额、过去3个月信用卡分期余额大于0月数占比、当前消费贷总额度使用率、过去3个月月均资产规模、过去6个月平均工资、过去3个月循环额度使用率大于10%的月数占比、当前个贷循环贷款总额度当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月信贷还款率大于等于100%的月数、当前信用卡取现笔数、过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比、过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、过去6个月的资产规模最小值、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数、过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、过去3个月投资理财账户余额最大增幅、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值、过去12个月信用卡平均额度使用率、过去12个月信贷还款率最小、过去3个月信用卡账单余额连续增加月数、信用卡开户时长、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产规模的百分比、当前代发工资所在区域分位数、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数、过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数、过去12个月存款账户最大余额距观察点月数、当前时点存款账户余额、信用卡过去12个月逾期期数大于0月数、过去12个月信贷还款率最小值、当前信用卡剩余可用额度、当前信用卡剩余额度、过去3个月循环贷额度使用率平均值、信用卡过去3个月平均取现笔数、以及当前信用卡分期余额。
项16.根据项11~15中任一项所述的方法,其中,
对待预测样本进行分类的步骤包括如下子步骤:
该待测样本是否是已在金融机构申请注册信贷业务的客户;
该待测样本是否属于在金融机构且无信贷申请注册的客户;
该待测样本办理业务归属的地理区域;
该待测样本是否已经发生过金融机构风险事件;
该待测样本是否持有金融机构发行的信用卡和/或信用卡是否持续使用和/或信用卡或个人贷款是否进行额度的循环支用,
基于上述子步骤对待预测样本进行分类以确定用于计算信用违约概率的子模型,在保证业务逻辑合理的前提下,上述子步骤进行的顺序可以任意设定;
优选按照如下顺序对待预测样本进行分类:
首先判断该待测样本是否是已在金融机构申请信贷业务的客户;
然后判断该待测样本是否属于在金融机构且无信贷申请的客户;
再然后判断该待测样本办理业务归属的地理区域;
再然后判断该待测样本是否已经发生过金融机构风险事件;
再然后判断该待测样本是否持有金融机构发行的信用卡和/或信用卡是否持续使用和/或信用卡或个人贷款是否进行额度的循环支用。
项17.根据项11~16中任一项所述的方法,其中,
对零售信用预测数据进行特征转换后再代入信用违约概率子模型中计算所述待预测样本的信用违约概率,所述特征转换步骤包括:
基于需要代入信用违约概率子模型的零售信用预测数据的特征类型选择WOE方式或连续型方式进行特征转换。
项18.根据项17所述的方法,其中,
采用连续型方式进行特征转换包括如下方式:直接选取原始值、计算原始数据的平方、计算原始数据平方根、计算原始数据立方根或计算原始数据自然对数的方式进行连续型特征转换。
项19.根据项11~18中任一项所述的方法,其中,
信用违约概率子模型为基于样本零售信用预测数据和信用违约概率采用逻辑回归基于已有用户人群构建的模型,优选是基于权利要求1~10中任一项所述的方法构建的模型。
项20.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、过去6个月的资产规模最小值、当前时点存款账户余额、以及过去3个月信用卡平均利息中的一个、两个、三个、四个、五个或六个。
项21.根据项20所述的方法,其中,信用违约概率计算步骤包括:
将过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、过去6个月的资产规模最小值、当前时点存款账户余额、以及过去3个月信用卡分期余额大于0月数占比进行特征转换,
优选对过去3个月信贷循环额度使用率平均值采用WOE方式进行转换;对当前信用卡剩余可使用额度采用连续型转换方式;对过去3个月信用卡平均取现笔数采用WOE方式进行转换;对过去6个月的资产规模最小值采用WOE方式进行转换;对当前时点存款账户余额采用连续型转换方式;对过去3个月信用卡分期余额大于0月数占比进采用WOE方式;
进一步优选,对当前信用卡剩余可使用额度采用连续型转换方式为对当前信用卡剩余可使用额度取立方根的计算方式;对当前时点存款账户余额采用连续型转换方式为对当前时点存款账户余额取立方根的计算方式。
项22.根据项21所述的方法,其中,
将过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、过去6个月的资产规模最小值、当前时间点存款账户余额、以及过去3个月信用卡分期余额大于0的月数占比这六个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项23.根据项22所述的方法,其中,
其中所述子模型如下公式1所示:
其中,k为进入的模型的特征数量,优选k为6,
α为截距项,优选的数值范围为(-0.7434,-0.4926),最优为-0.618;
β1为过去3个月信贷循环额度使用率平均值对应系数,优选的数值范围为(-0.6703,-0.6037),最优为-0.637;
β2为当前信用卡剩余额度对应系数,优选的数值范围为(-0.0649,-0.0531),最优为-0.059;
β3为过去3个月信用卡平均取现笔数对应系数,优选的数值范围为(-0.5236,-0.3864),最优为-0.455;
β4为过去6个月的资产规模最小值对应系数,优选的数值范围为(-0.0743,-0.1057),最优为-0.090;
β5为当前存款账户剩余金额对应系数,优选的数值范围为(-0.3466,-0.5034),最优为-0.425;
β6为过去3个月信用卡平均利息,优选的取值范围为(-0.2373,-0.3627),最优为-0.300,
x1为特征转换步骤生成的过去3个月信贷循环额度使用率平均值的WOE转换值;
x2为特征转换步骤生成的当前信用卡剩余可使用额度的立方根转换值;
x3为特征转换步骤生成的过去3个月信用卡平均取现笔数的WOE转换值;
x4为特征转换步骤生成的过去6个月的资产规模最小值的WOE转换值;
x5为特征转换步骤生成的当前存款账户剩余金额的立方根转换;
x6为特征转换步骤生成的过去3个月信用卡平均利息的WOE转换值。
项24.根据项23所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项25.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:当前消费贷总额度使用率、过去3个月循环贷额度使用率平均值、当前信用卡剩余可使用额度、过去3个月月均资产规模、信用卡过去3个月平均取现笔数、过去6个月月均工资、当前时点存款账户余额中的一个、两个、三个、四个、五个、六个或七个。
项26.根据项25所述的方法,其中,信用违约概率计算步骤包括:
将当前消费贷总额度使用率、过去3个月循环贷额度使用率平均值、当前信用卡剩余可使用额度、过去3个月月均资产规模、信用卡过去3个月平均取现笔数、过去6个月月均工资、以及当前时点存款账户余额进行特征转换,
优选对当前消费贷总额度使用率采用WOE方式进行转换;对过去3个月循环贷额度使用率平均值采用WOE方式进行转换;对当前信用卡剩余可使用额度采用连续型方式进行转换;对过去3个月月均资产规模采用连续型方式进行转换;对信用卡过去3个月平均取现笔数采用WOE方式进行转换;对过去6个月月均工资采用WOE方式进行转换;对当前时点存款账户余额采取连续型方式进行转换;
进一步优选,对当前信用卡剩余可使用额度采用连续型方式转换是对当前信用卡剩余可使用额度取平方根的计算方式,对过去3个月月均资产规模采用连续型方式进行转换是对过去3个月月均资产规模取平方根的计算方式,对当前时点存款账户余额采取连续型方式进行转换是对当前时点存款账户余额取自然对数的计算方式。
项27.根据项25所述的方法,其中,
将当前消费贷总额度使用率、过去3个月循环贷额度使用率平均值、当前信用卡剩余可使用额度、过去3个月月均资产规模、信用卡过去3个月平均取现笔数、过去6个月月均工资、以及当前时点存款账户余额这七个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项28.根据项27所述的方法,其中,
所述子模型如下公式2所示:
其中,k为进入的模型的特征数量,优选k为7;
α为截距项,优选的数值范围为(-0.05096,-0.43904),最优为-0.245;
β1为当前消费贷总额度使用率对应系数,优选的数值范围为(-1.82132,-2.04868),最优为-1.935;
β2为过去3个月循环贷额度使用率平均值对应系数,优选的数值范围为(-0.48984,-0.57216),最优为-0.531;
β3为当前信用卡剩余可使用额度对应系数,优选的数值范围为(-0.04112,-0.05288),最优为-0.047;
β4为过去3个月月均资产规模对应系数,优选的数值范围为(-0.20864,-0.27136),最优为-0.24;
β5为信用卡过去3个月平均取现笔数对应系数,优选的数值范围为(-0.41744,-0.55856),最优为-0.488;
β6为过去6个月月均工资对应系数,优选的数值范围为(-1.02372,-1.48628),最优为-1.255;
β7为当前时点存款账户余额对应系数,优选的数值范围为(-0.06136,-0.09664),最优为-0.079;
x1为特征转换步骤生成的当前消费贷总额度使用率的WOE转换值;
x2为特征转换步骤生成的循环贷过去3个月额度使用率平均值的WOE转换值;
x3为特征转换步骤生成的当前信用卡剩余可使用额度的平方根转换值;
x4为特征转换步骤生成的过去3个月月均资产规模的平方根转换值;
x5为特征转换步骤生成的过去3个月信用卡平均取现笔数的WOE转换值;
x6为特征转换步骤生成的过去6个月月均工资的WOE转换值;
x7为特征转换步骤生成的当前时点存款账户余额的自然对数转换值。
项29.根据项28所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项30.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去3个月额度使用率大于10%月数占比、当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月信贷还款率大于等于100%的月数、当前信用卡取现笔数中的一个、两个、三个、四个、五个或六个。
项31.根据项30所述的方法,其中,信用违约概率计算步骤包括:
将过去3个月额度使用率大于10%月数占比、当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月信贷还款率大于等于100%的月数、当前信用卡取现笔数进行特征转换,
优选对过去3个月额度使用率大于10%月数占比采用WOE方式进行转换;对当前个贷循环贷款总额度采用WOE方式进行转换;对过去3个月额度使用率大于90%的月数采用WOE方式进行转换;对过去12个月的月均资产规模采用连续型方式进行转换;对过去3个月信贷还款率大于等于100%的月数采用WOE方式进行转换;对当前信用卡取现笔数采用WOE方式进行转换;
进一步优选,对过去12个月的月均资产规模采用连续型方式进行转换为取自然对数的计算方式。
项32.根据项30所述的方法,其中,
将过去3个月额度使用率大于10%月数占比、当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月信贷还款率大于等于100%的月数、以及当前信用卡取现笔数这六个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项33.根据项32所述的方法,其中,
所述子模型如下公式3所示:
其中,k为进入的模型的特征数量,优选k为6;
α为截距项,数值范围为(-2.32928,-2.45472),最优为-2.392;
β1为过去3个月额度使用率大于10%月数占比对应系数,优选的数值范围为(-0.60156,-0.65644),最优为-0.629;
β2为当前个贷循环贷款总额度对应系数,优选的数值范围为(-0.84424,-0.96576),最优为-0.905;
β3为过去3个月额度使用率大于90%的月数对应系数,优选的数值范围为(-0.49976,-0.57424),最优为-0.537;
β4为过去12个月的月均资产规模对应系数,优选的数值范围为(-0.05612,-0.06788),最优为-0.062;
β5为过去3个月信贷还款率大于等于100%的月数对应系数,优选的数值范围为(-0.74304,-0.94296),最优为-0.843;
β6为当前信用卡取现笔数对应系数,优选的数值范围为(-0.35724,-0.47876);最优为-0.418
x1为特征转换步骤生成的过去3个月额度使用率大于10%月数占比的WOE转换值;
x2为特征转换步骤生成的当前个贷循环贷款总额度的WOE转换值;
x3为特征转换步骤生成的过去3个月额度使用率大于90%的月数的WOE转换值;
x4为特征转换步骤生成的过去12个月的月均资产规模的自然对数转换值;
x5为特征转换步骤生成的过去3个月信贷还款率大于等于100%的月数的WOE转换值;
x6为特征转换步骤生成当前信用卡取现笔数的WOE转换值。
项34.根据项33所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项35.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、当前信用卡分期余额、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数中的一个、两个、三个、四个或五个。
项36.根据项35所述的方法,其中,信用违约概率计算步骤包括:
将过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、当前信用卡分期余额、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数进行特征转换,
优选对过去12个月信用卡利息金额大于0至观测点的月数采用WOE方式进行转换;对当前信贷客户最大逾期期数采用WOE方式进行转换;对当前信用卡分期余额采用WOE方式进行转换;对过去3个月存款账户余额最长连续增加月数占比采用WOE方式进行转换;对过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数采用WOE方式进行转换。
项37.根据项35所述的方法,其中,
将过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、当前信用卡分期余额、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项38.根据项37所述的方法,其中,
所述子模型如下公式4所示:
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(3.49848,3.44752),最优为3.473;
β1为过去信用卡12个月利息金额大于0至观测点的月数对应系数,优选的数值范围为(-1.7838,-1.8622),最优为-1.823;
β2为信贷客户最大逾期期数对应系数,优选的数值范围为(-0.59456,-0.64944),最优为-0.622;
β3为信用卡当前分期余额对应系数,优选的数值范围为(-0.71372,-0.78428),最优为-0.749;
β4为过去3个月存款账户余额最长连续增加月数占比对应系数,优选的数值范围为(-0.3624,-0.4016),最优为-0.382;
β5为过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数对应系数,优选的数值范围为(-0.60592,-0.69608),最优为-0.651;
x1为特征转换步骤生成的信用卡过去12个月利息金额大于0至观测点的月数的WOE转换值;
x2为特征转换步骤生成的当前信贷客户最大逾期期数的WOE转换值;
x3为特征转换步骤生成的当前信用卡分期余额的WOE转换值;
x4为特征转换步骤生成的过去3个月存款账户余额最长连续增加月数占比的WOE转换值;
x5为特征转换步骤生成的过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数的WOE转换值。
项39.根据项38所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项40.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去12个月信用卡利息金额大于0至观测点的月数、当前信用卡剩余可使用额度、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比中的一个、两个、三个、四个或五个。
项41.根据项40所述的方法,其中,信用违约概率计算步骤包括:
将过去12个月信用卡利息金额大于0至观测点的月数、当前信用卡剩余可使用额度、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比进行特征转换,
优选对过去12个月信用卡利息金额大于0至观测点的月数采用WOE方式进行转换;对当前信用卡剩余可使用额度采用连续型转换方法进行转换;对过去12个月信贷客户逾期大于0的最长连续月数采用WOE方式进行转换;对过去12个月信用卡额度使用率大于90%的最长连续月数采用WOE方式进行转换;对过去12个月信用卡逾期期数大于等于1的月数占比采用WOE方式进行转换;
进一步优选对当前信用卡剩余可使用额度采用连续型转换方法进行转换为取立方根转换计算方式。
项42.根据项40所述的方法,其中,
将过去12个月信用卡利息金额大于0至观测点的月数、当前信用卡剩余可使用额度、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项43.根据项42所述的方法,其中,
所述子模型如下公式5所示:
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(1.2853,1.3265),最优为1.3059;
β1为信用卡过去12个月利息金额大于0至观测点的月数对应系数,优选的数值范围为(-0.5117,-0.4925),最优为-0.5021;
β2为当前信用卡剩余可使用额度对应系数,数值范围为(-0.0631,-0.0603),最优为-0.0617;
β3为过去12个月信贷客户逾期大于0的最长连续月数对应系数,优选的数值范围为(-0.3677,-0.3445),最优为-0.3561;
β4为过去12个月信用卡额度使用率大于90%的最长连续月数对应系数,优选的数值范围为(-0.3344,-0.3124),最优为-0.3234;
β5为过去12个月信用卡逾期期数大于等于1的月数占比对应系数,优选的数值范围为(-0.3369,-0.3141),最优为-0.3255;
x1为特征转换步骤生成的信用卡过去12个月利息金额大于0至观测点的月数的WOE转换值;
x2为特征转换步骤生成的当前信用卡剩余可使用额度的连续型方式的立方根转换值;
x3为特征转换步骤生成的过去12个月信贷客户逾期大于0的最长连续月数的WOE转换值;
x4为特征转换步骤生成的过去12个月信用卡额度使用率大于90%的最长连续月数的WOE转换值;
x5为特征转换步骤生成的过去12个月信用卡逾期期数大于等于1的月数占比的WOE转换值。
项44.根据项43所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项45.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、当前信用卡剩余可用额度、过去6个月的资产规模最小值、当前时间点存款账户余额、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数中的一个、两个、三个、四个、五个、六个、七个或八个。
项46.根据项45所述的方法,其中,信用违约概率计算步骤包括:
将过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、当前信用卡剩余可用额度、过去6个月的资产规模最小值、当前时间点存款账户余额、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数进行特征转换,
优选对过去12个月最大逾期期数采用WOE方式进行转换;对过去3个月信用卡利息占账单余额之比采用连续型转换方法进行转换;对当前信用卡剩余可用额度采用WOE方式进行转换;对过去6个月的资产规模最小值采用连续型转换方法进行转换;对当前时间点存款账户余额采用连续型转换方法进行转换;对当前信用卡额度使用率采用WOE方式进行转换;对是否为代发工资客户采用WOE方式进行转换;对过去12个月信贷额度使用率大于50%的月数采用WOE方式进行转换;
进一步优选对过去3个月信用卡利息占账单余额之比采用连续型转换方法进行转换为取平方根转换计算方式;对过去6个月的资产规模最小值采用连续型转换方法进行转换为取自然对数计算方式;对当前时间点存款账户余额采用连续型转换方法进行转换为取自然对数计算方式。
项47.根据项45所述的方法,其中,
将过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、当前信用卡剩余可用额度、过去6个月的资产规模最小值、当前时间点存款账户余额、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数这八个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项48.根据项47所述的方法,其中,
所述子模型如下公式6所示:
其中,k为进入的模型的特征数量,优选k为8;
α为截距项,优选的数值范围为(-3.14952,-3.20048),最优为-3.175;
β1为过去12个月最大逾期期数对应系数,优选的数值范围为(-0.48512,-0.49688),最优为-0.491;
β2为过去3个月信用卡利息占账单余额之比对应系数,优选的数值范围为(-0.3742,-0.3938),最优为-0.384;
β3为当前信用卡剩余可用额度对应系数,优选的数值范围为(-0.0008,-0.0012),最优为-0.001;
β4为过去6个月的资产规模最小值对应系数,优选的数值范围为(-0.08008,-0.08792),最优为-0.084;
β5为当前时间点存款账户余额对应系数,优选的数值范围为(-0.05208,-0.05992),最优为-0.056;
β6为当前信用卡额度使用率对应系数,优选的数值范围为(-0.1542,-0.1738),最优为-0.164;
β7为是否为代发工资客户对应系数,优选的数值范围为(-0.65276,-0.72724),最优为-0.69;
β8为过去12个月信贷额度使用率大于0%的月数对应系数,优选的数值范围为(-0.45264,-0.51536),最优为-0.484;
x1为特征转换步骤生成过去12个月最大逾期期数的WOE转换值;
x2为特征转换步骤生成的过去3个月信用卡利息占账单余额之比的平方根转换值;
x3为特征转换步骤生成的当前信用卡剩余可用额度的WOE转换值;
x4为特征转换步骤生成的过去6个月的资产规模最小值的自然对数转换值;
x5为特征转换步骤生成的当前时间点存款账户余额的自然对数转换值;
x6为特征转换步骤生成的当前信用卡额度使用率的WOE转换值;
x7为特征转换步骤生成的是否为代发工资客户的WOE转换值;
x8为特征转换步骤生成过去12个月信贷额度使用率大于50%的月数的WOE转换值。
项49.根据项48所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项50.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、当前信用卡剩余可使用额度、过去3个月投资理财账户余额最大增幅、当前消费贷总额度使用率、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值中的一个、两个、三个、四个、五个、六个或七个。
项51.根据项50所述的方法,其中,信用违约概率计算步骤包括:
将过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、当前信用卡剩余可使用额度、过去3个月投资理财账户余额最大增幅、当前消费贷总额度使用率、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值进行特征转换,
优选对过去6个月信用卡平均额度使用率采用WOE方式进行转换;过去6个月信贷客户逾期月数采用WOE方式进行转换;对当前信用卡剩余可使用额度采用连续型方式进行转换;对过去3个月投资理财账户余额最大增幅采用连续型方式进行转换;当前消费贷总额度使用率采用WOE方式进行转换;对过去12个月信用卡循环或分期使用月数采用WOE方式进行转换;对过去3个月月均信贷本月最低应还款额与月均资产规模的差值采用连续型方式进行转换;
进一步优选对当前信用卡剩余可使用额度采用连续型方式进行转换为取自然对数计算方式;对过去3个月投资理财账户余额最大增幅采用连续型方式进行转换为取自然对数计算方式;对过去3个月月均信贷本月最低应还款额与月均资产规模的差值采用连续型方式进行转换为取立方根计算方式。
项52.根据项50所述的方法,其中,
将过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、当前信用卡剩余可使用额度、过去3个月投资理财账户余额最大增幅、当前消费贷总额度使用率、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值这七个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项53.根据项52所述的方法,其中,
所述子模型如下公式7所示:
其中,k为进入的模型的特征数量,优选k为7;
α为截距项,优选的数值范围为(-0.56984,-0.65216),最优为-0.611;
β1为过去6个月信用卡平均额度使用率对应系数,优选的数值范围为(-0.51112,-0.52288),最优为-0.517;
β2为过去6个月信贷客户逾期月数对应系数,数值范围为(-0.74224,-0.76576),最优为-0.754;
β3为当前信用卡剩余可使用额度对应系数,数值范围为(-0.17808,-0.18592),最优为-0.182;
β4为过去3个月投资理财账户余额最大增幅对应系数,数值范围为(-0.13008,-0.13792),最优为-0.134;
β5为当前消费贷总额度使用率对应系数,数值范围为(-0.2092,-0.2288),最优为-0.219;
β6为过去12个月信用卡循环或分期使用月数对应系数,数值范围为(-0.15616,-0.17184),最优为-0.164;
β7为过去3个月月均信贷本月最低应还款额与月均资产规模的差值对应系数,数值范围为(0.0112,0.0108),最优为0.011;
x1为特征转换步骤生成的过去6个月信用卡平均额度使用率的WOE转换值;
x2为特征转换步骤生成的过去6个月信贷客户逾期月数的WOE转换值;
x3为特征转换步骤生成的当前信用卡剩余可使用额度的连续型方式的自然对数转换值;
x4为特征转换步骤生成的过去3个月投资理财账户余额最大增幅的连续型方式的自然对数转换值;
x5为特征转换步骤生成的当前消费贷总额度使用率的WOE转换值;
x6为特征转换步骤生成的过去12个月信用卡循环或分期使用月数的WOE转换值;
x7为特征转换步骤生成过去3个月月均信贷本月最低应还款额与月均资产规模的差值的连续型方式的立方根转换值。
项54.根据项53所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项55.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去12个月信用卡平均额度使用率、信用卡过去12个月逾期期数大于0月数、当前时间点存款账户余额、过去12个月信贷还款率最小值、过去3个月信用卡账单余额连续增加月数、当前信用卡剩余可使用额度中的一个、两个、三个、四个、五个或六个。
项56.根据项55所述的方法,其中,信用违约概率计算步骤包括:
将过去12个月信用卡平均额度使用率、信用卡过去12个月逾期期数大于0月数、当前时间点存款账户余额、过去12个月信贷还款率最小值、过去3个月信用卡账单余额连续增加月数、当前信用卡剩余可使用额度进行特征转换,
优选对过去12个月信用卡平均额度使用率采用连续型方式进行转换;对信用卡过去12个月逾期期数大于0月数采用WOE方式进行转换;对当前时间点存款账户余额采用连续型方式进行转换;对过去12个月信贷还款率最小值采用WOE方式进行转换;对过去3个月信用卡账单余额连续增加月数采用WOE方式进行转换;对当前信用卡剩余可使用额度进行特征转换采用连续型方式进行转换;
进一步优选对过去12个月信用卡平均额度使用率采用连续型方式进行转换为取原始值计算方式;对当前时间点存款账户余额采用连续型方式进行转换为取立方根方式,对当前信用卡剩余可使用额度进行特征转换采用连续型方式进行转换为取自然对数计算方式。
项57.根据项55所述的方法,其中,
将过去12个月信用卡平均额度使用率、信用卡过去12个月逾期期数大于0月数、当前时间点存款账户余额、过去12个月信贷还款率最小值、过去3个月信用卡账单余额连续增加月数、当前信用卡剩余可使用额度这六个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项58.根据项57所述的方法,其中,
所述子模型如下公式8所示:
其中,k为进入的模型的特征数量,优选k为6;
α为截距项,优选的数值范围为(0.66824,0.59376),最优为0.631;
β1为过去12个月信用卡平均额度使用率对应系数,优选的数值范围为(0.00125,0.00075),最优为0.001;
β2为信用卡过去12个月逾期期数大于0月数对应系数,优选的数值范围为(-0.6112,-0.6308),最优为-0.621;
β3为当前时间点存款账户余额对应系数,优选的数值范围为(-0.08604,-0.08996),最优为-0.088;
β4为过去12个月信贷还款率最小值对应系数,优选的数值范围为(-0.44932,-0.48068),最优为-0.465;
β5为过去3个月信用卡账单余额连续增加月数对应系数,优选的数值范围为(-0.18944,-0.23256),最优为-0.211;
β6为当前信用卡剩余可使用额度对应系数,优选的数值范围为(-0.10604,-0.10996),最优为-0.108;
x1为特征转换步骤生成的过去12个月信用卡平均额度使用率的连续型方式的原始值转换值;
x2为特征转换步骤生成的信用卡过去12个月逾期期数大于0月数的WOE转换值;
x3为特征转换步骤生成当前时间点存款账户余额的连续型方式的立方根转换值;
x4为特征转换步骤生成的过去12个月信贷还款率最小值的WOE转换值;
x5为特征转换步骤生成的过去3个月信用卡账单余额连续增加月数的WOE转换值;
x6为特征转换步骤生成当前信用卡剩余可使用额度的连续型方式的自然对数转换值。
项59.根据项58所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项60.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:信用卡开户时长、当前时间点存款账户余额、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值中的一个、两个、三个、四个或五个。
项61.根据项60所述的方法,其中,信用违约概率计算步骤包括:
将信用卡开户时长、当前时间点存款账户余额、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值进行特征转换,
优选对信用卡开户时长采用连续型方式进行转换;对当前时间点存款账户余额采用连续型方式进行转换;对过去12个月信用卡最大取现额度使用率采用WOE方式进行转换;对过去12个月信用卡全额还款月数采用WOE方式进行转换;对过去6个月月均信贷月最低应还款额与月均资产规模差值采用连续型方式进行转换;
进一步优选对信用卡开户时长采用连续型方式进行转换为取自然对数计算方式;对当前时间点存款账户余额采用连续型方式进行转换为取自然对数计算方式,对过去6个月月均信贷月最低应还款额与月均资产规模差值采用连续型方式进行转换为取立方根计算方式。
项62.根据项60所述的方法,其中,
将信用卡开户时长、当前时间点存款账户余额、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项63.根据项62所述的方法,其中,
所述子模型如下公式9所示:
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(0.64448,0.59352),最优为0.619;
β1为信用卡开户时长对应系数,优选的数值范围为(-0.38812,-0.39988),最优为-0.394;
β2为当前时间点存款账户余额对应系数,优选的数值范围为(-0.08204,-0.08596),最优为-0.084;
β3为过去12个月信用卡最大取现使用率对应系数,优选的数值范围为(-0.22912,-0.24088),最优为-0.235;
β4为过去12个月信用卡全额还款月数对应系数,优选的数值范围为(-0.17112,-0.18288),最优为-0.177;
β5为过去6个月月均信贷月最低应还款额与月均资产规模差值对应系数,优选的数值范围为(0.00602,0.00598),最优为0.006;
x1为特征转换步骤生成的信用卡开户时长的连续型转换的自然对数转换值;
x2为特征转换步骤生成的当前时间点存款账户余额的连续型转换的自然对数转换值;
x3为特征转换步骤生成的过去12个月信用卡最大取现额度使用率的WOE转换值;
x4为特征转换步骤生成的过去12个月信用卡全额还款月数的WOE转换值;
x5为特征转换步骤生成的过去6个月月均信贷月最低应还款额与月均资产规模差值的连续型转换的立方根转换值。
项64.根据项63所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项65.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:信当前时点存款账户余额、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产总值的百分比、当前代发工资所在区域分位点数中的一个、两个、三个、四个或五个。
项66.根据项65所述的方法,其中,信用违约概率计算步骤包括:
将当前时点存款账户余额、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产规模的百分比、当前代发工资所在区域分位点数进行特征转换,
优选对当前时点存款账户余额采用连续型方式进行转换;对过去3个月投资理财账户最大余额采用WOE方式进行转换;对过去3个月资产规模连续减少月份数采用WOE方式进行转换;对过去3个月月均工资占月均资产规模的百分比采用WOE方式进行转换;对当前代发工资所在区域分位点数采用WOE方式进行转换;
进一步优选对当前时点存款账户余额采用连续型方式进行转换为取对数计算方式。
项67.根据项65所述的方法,其中,
将当前时点存款账户余额、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产规模的百分比、当前代发工资所在区域分位点数这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项68.根据项67所述的方法,其中,
所述子模型如下公式10所示:
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(-1.65504,-1.85496),最优为-1.755;
β1为当前时点存款账户余额对应系数,优选的数值范围为(-0.12828,-0.15572),最优为-0.142;
β2为过去3个月投资理财账户最大余额对应系数,优选的数值范围为(-0.52164,-0.78036),最优为-0.651;
β3为过去3个月资产规模连续减少月份数对应系数,优选的数值范围为(-1.25768,-2.20632),最优为-1.732;
β4为过去3个月月均工资占月均资产规模的百分比对应系数,优选的数值范围为(-0.20416,-0.41584),最优为-0.31;
β5为当前代发工资所在区域分位点数对应系数,优选的数值范围为(-0.10288,-0.48312),最优为-0.293;
x1为特征转换步骤生成的当前时点存款账户余额的连续型方式的取对数转换值;
x2为特征转换步骤生成的过去3个月投资理财账户最大余额的WOE转换值;
x3为特征转换步骤生成的过去3个月资产规模连续减少月份数的WOE转换值;
x4为特征转换步骤生成的过去3个月月均工资占月均资产规模的百分比的WOE转换值;
x5为特征转换步骤生成的当前代发工资所在区域分位点数的WOE转换值。
项69.根据项68所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项70.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:当前时点存款账户余额、过去3个月月均资产规模、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数中的一个、两个、三个、四个、五个或六个。
项71.根据项70所述的方法,其中,信用违约概率计算步骤包括:
将当前时点存款账户余额、过去3个月月均资产规模、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数进行特征转换,
优选对当前时点存款账户余额采用连续型方式进行转换;对过去3个月月均资产规模采用连续型方式进行转换;对过去3个月投资理财账户平均余额采用WOE方式进行转换;对过去3个月资产规模值最长连续减少月数采用WOE方式进行转换;对过去12个月的工资最大值采用WOE方式进行转换;对过去6个月存款账户时点最大余额距观察点月数采用WOE方式进行转换;
进一步优选对当前时点存款账户余额采用连续型方式进行转换为取自然对数计算方式,对过去3个月月均资产规模采用连续型方式进行转换为取自然对数计算方式。
项72.根据项70所述的方法,其中,
将当前时点存款账户余额、过去3个月月均资产规模、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数这六个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项73.根据项72所述的方法,其中,
所述子模型如下公式11所示:
其中,k为进入的模型的特征数量,优选k为6;
α为截距项,优选的数值范围为(-0.50444,-0.84156),最优为-0.673;
β1为当前时点存款账户余额对应系数,优选的数值范围为(-0.13036,-0.16564),最优为-0.148;
β2为过去3个月月均资产规模对应系数,优选的数值范围为(-0.19664,-0.25936),最优为-0.228;
β3为过去3个月投资理财账户平均余额对应系数,优选的数值范围为(-0.26772,-0.63228),最优为-0.45;
β4为过去3个月资产规模值最长连续减少月数对应系数,优选的数值范围为(-0.78496,-1.17304),最优为-0.979;
β5为过去12个月的工资最大值对应系数,优选的数值范围为(-0.35304,-0.74896),最优为-0.551;
β6为过去6个月存款账户时点最大余额距观察点月数对应系数,优选的数值范围为(-0.29792,-0.78008),最优为-0.539;
x1为特征转换步骤生成的当前时点存款账户余额的连续型方式的自然对数转换值;
x2为特征转换步骤生成的过去3个月月均资产规模的连续型方式的自然对数转换值;
x3为特征转换步骤生成的过去3个月投资理财账户平均余额的WOE转换值;
x4为特征转换步骤生成的过去3个月资产规模值最长连续减少月数的WOE转换值;
x5为特征转换步骤生成的过去12个月的工资最大值的WOE转换值;
x6为特征转换步骤生成的过去6个月存款账户时点最大余额距观察点月数的WOE转换值。
项74.根据项71所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项75.根据项11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数中的一个、两个、三个、四个或五个。
项76.根据项75所述的方法,其中,信用违约概率计算步骤包括:
将过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数进行特征转换,
优选对过去3个月的资产规模最大值采用连续型方式进行转换;对过去3个月存款账户最小余额采用连续型方式进行转换;对过去3个月投资理财账户最大余额采用连续型方式进行转换;对当前代发工资所在单位分位数采用连续型方式进行转换;对过去12个月存款账户最大余额距观察点月数采用连续型方式进行转换;
进一步优选对过去3个月的资产规模最大值采用连续型方式进行转换为取立方根计算方式;对过去3个月存款账户最小余额采用连续型方式进行转换为取自然对数计算方式,对过去3个月投资理财账户最大余额采用WOE方式进行转换;对当前代发工资所在单位分位数采用WOE方式进行转换;对过去12个月存款账户最大余额距观察点月数采用WOE方式进行转换。
项77.根据项75所述的方法,其中,
将过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
项78.根据项77所述的方法,其中,
所述子模型如下公式12所示:
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(-2.18528,-2.31072),最优为-2.248;
β1为过去3个月的资产规模最大值对应系数,优选的数值范围为(-0.02008,-0.02792),最优为-0.024;
β2为过去3个月存款账户最小余额对应系数,优选的数值范围为(-0.08928,-0.11672),最优为-0.103;
β3为过去3个月投资理财账户最大余额对应系数,优选的数值范围为(-0.45036,-0.68164),最优为-0.566;
β4为当前代发工资所在单位分位数对应系数,优选的数值范围为(-0.11148,-0.64852),最优为-0.38;
β5为过去12个月存款账户最大余额时点距观察点月数对应系数,优选的数值范围为(-0.35424,-0.57376),最优为-0.464;
x1为特征转换步骤生成的过去3个月的资产规模最大值的连续型方式的立方根转换值;
x2为特征转换步骤生成的过去3个月存款账户最小余额的连续型方式的自然对数转换值;
x3为特征转换步骤生成的过去3个月投资理财账户最大余额的WOE转换值;
x4为特征转换步骤生成的当前代发工资所在单位分位数的WOE转换值;
x5为特征转换步骤生成过去12个月存款账户最大余额时点距观察点月数的WOE转换值。
项79.根据项78所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
项80.一种构建零售信用风险预测模型的装置,其特征在于,所述装置包括:
数据采集模块,其用于获取用于构建模型的样本的原始零售信用预测数据;
数据衍生模块,其用于基于原始的零售信用预测数据加工出衍生零售信用预测数据;
特征初筛模块,其用于对包括原始零售信用预测数据和衍生零售信用预测数据的全部类别,即全部特征进行初步筛选,以获得初步筛选后的特征;
初筛数据转换模块,其用于对初步筛选后的特征进行转换方式的判断以确认采用WOE转换方式、哑特征转换方式以及连续型转换方式中的一种来进行特征转换,并针对每一个初步筛选后的特征采用判断的最优方式来进行特征转换;
特征精筛模块,其用于对进行特征转换后的初步筛选的特征进行深度筛选以获得精筛后的特征;
信用违约概率建模模块,其用于针对精筛后的特征结合与信用违约之间的概率关系选择逻辑回归的方式进行模型构建,并确认用于计算信用违约概率的方式。
项81.根据项80所述的装置,其中,所述装置执行项1~10中任一项所述的构建零售信用风险预测模型方法的步骤。
项82.一种构建零售信用风险预测模型的系统,其特征在于,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的构建零售信用风险预测模型方法的程序,所述构建零售信用风险预测模型方法的程序被所述处理器执行时实现如项1~10中任一项所述的构建零售信用风险预测模型方法的步骤。
项83.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有构建零售信用风险预测模型方法的程序,所述构建零售信用风险预测模型的程序被处理器执行时实现如项1~10中任一项所述的构建零售信用风险预测模型方法的步骤。
项84.一种计算零售信用风险的装置,其包括:
数据采集模块,其用于获取待预测样本的零售信用预测数据;
对待预测样本进行分类的模块,其用于基于决策树方法将待预测样本进行分类以确定用于计算信用违约概率的子模型;
信用违约概率计算模块,其用于将零售信用预测数据代入信用违约概率子模型中以计算所述待预测样本的信用违约概率。
项85.根据项84所述的装置,其中,所述装置执行项11~79中任一项所述的计算零售信用风险的方法的步骤。
项86.一种计算零售信用风险的系统,其特征在于,所述计算零售信用风险的系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的所述计算零售信用风险方法的程序,所述计算零售信用风险的程序被所述处理器执行时实现如项11~79中任一项所述的计算零售信用风险的方法的步骤。
项87.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算零售信用风险方法的程序,所述计算零售信用风险方法的程序被处理器执行时实现如项11~79中任一项所述的计算零售信用风险的方法的步骤。
发明效果
本申请用于构建零售信用风险预测模型的方法和系统在构建模型时结合了某大型金融机构的大量样本,并深入地对样本获得的原始数据进行加工和衍生,利用高级统计分析方法和可解释的机器学习技术,根据原始数据和衍生数据的自身特点以及数据中包含的市场上难以获取的强金融属性信息,构建的零售信用类通用评分模型。
此外本申请在构建模型之初先利用决策树的方法对样本进行最为合理的分类并基于分类的样本构建子分类模型。结合决策树构建金融模型可以有效地将样本按照可执行的类别进行分类,从而更好覆盖不同客群的信用风险特点,避免将全部样本用于构建模型导致模型缺乏子群代表性的问题。
进一步在本申请构建风险预测模型时由于采用了逐步判别分析方法进行模型特征的初步筛选充分提高了模型开发的整体效率。逐步判别的方法能够更好地甄选出相同维度下更为重要的特征变量,大幅度减少下一步骤中需要开发人员根据变量趋势逐一判断筛选的工作量,在不影响整体模型效果的前提下充分提高模型开发效率,使初筛变量时更加高效和精准。
本申请在模型构建时开创性地将连续型转换、WOE转换、哑特征转换三种方式结合,对经过了初始筛选地部分特征进行再加工,结合了三种转换方式的优缺点,并且独创性地设计了转换判断方法,根据特征数据属性、缺失率、集中度的等参数辅以业务逻辑上的判断,选择最优的特征转换方式,通过这样的模型构建方法能够规避以完全WOE变量构建模型时存在的过拟合、以完全连续型变量构建模型时存在的无法很好适配分类型变量的这些技术缺点。
此外,用本申请的模型构建的计算信用风险概率或对信用风险进行评分的方法和系统,即Sigma模型(Sigma系列评分卡)(包括Sigma1~Sigma12子模型或子评分卡),由于其模型构建时首先基于决策树进行拆分,因此信用风险进行计算初始先对客户样本进行有效地决策分类选择其最为适合的子模型或子评分卡进行处理,同时由于子模型或子评分卡中使用的模型构建方法为本申请所述方法,在构建过程中同样的规避了以完全WOE变量构建模型时存在的过拟合、以完全连续型变量构建模型时存在的无法很好适配分类型变量的这些技术缺点,因此其在预测信用风险方面有着显著优于现有模型的效果。
附图说明
图1本申请实施例1用于建模的初始样本人群的年龄分布情况。
图2用于说明本申请实施例1的模型区分效果的图示结果。
图3显示了一个典型的基于决策树对样本全部用户进行分类的流程图。
图4显示了分箱确认数据是否符合业务趋势的实例。
具体实施方式
信用风险是借款人由于经济能力变化,还款意愿降低或无法对借款合同履约导致的风险,而非由于借款人的故意骗贷导致的违约风险。信用违约在各类的零售信贷业务场景中均有发生,其与借款人的个人经济状况特别相关。借款人发生信贷逾期的原因主要可以分为4类:1.信贷历史较短,此类借款人对财务状况管理经验较少;2.借款人暂时遗忘还款;3.过度借款,此类借款人由于大量负债还款能力相对较低;4.受重大负面因素影响,此类借款人由于收入降低、失业或离婚等重大因素,对还款能力产生长期影响。以上不同的原因或多或少都会使借款人发生逾期,进而可能导致更严重的违约情况,而信用风险评分就是为了挖掘出客户各类历史信息与未来违约发生概率的内在数理关系,并转换为评分的方式量化违约发生概率。
目前现有技术中的信用风险评分主要使用信贷历史数据及多头数据(多头数据是指借款人向多家金融机构提出借贷需求的行为统计数据,通常认为短时间多头次数越大未来逾期概率也越大)进行开发,体现了其支付行为和付款意愿。在本申请中用于构建模型的样本的数据中不仅包含了信贷业务的交易行为类信息,而且增加了通常难以获取的资产类数据,在反映借款人付款行为和付款意愿的同时,对其偿债能力、个人资质等方面进行了更为全面的衡量,从而提供更精确的预测结果。
<模型构建方法总体描述>
具体来说,本申请涉及一种构建零售信用风险预测模型的方法,其包括:数据采集步骤,其获取用于构建模型的样本的原始零售信用预测数据;数据衍生步骤,其基于原始的零售信用预测数据加工出衍生零售信用预测数据;特征初筛步骤,其对包括原始零售信用预测数据和衍生零售信用预测数据的全部类别,即全部特征进行初步筛选,以获得初步筛选后的特征;初筛数据转换步骤,对初步筛选后的特征进行转换方式的判断以确认采用WOE转换方式、哑特征转换方式以及连续型转换方式中的一种来进行特征转换,并针对每一个初步筛选后的特征采用判断的最优方式来进行特征转换;特征精筛步骤,对进行特征转换后的初步筛选的特征进行深度筛选以获得精筛后的特征;信用违约概率建模步骤,针对精筛后的特征结合与信用违约之间的概率关系选择逻辑回归的方式进行模型构建,并确认用于计算信用违约概率的方法。
在一个具体的方式中,本申请涉及的构建零售信用风险预测模型的方法,在数据采集步骤之前还可以包括样本选定步骤,其用于在数据采集步骤之前对全部用户进行筛选以获取用于模型构建的样本。本领域技术人员理解基于能够由于构建模型的用户的总量和数据情况,本领域技术人员可以选择是否对不符合构建模型的用户数据剔除。此外,本领域技术人员也可以先行选取部分用户作为样本,然后再依据相应的规则不断增加建模的样本。
在一个具体的方式中,可以收集一段时间周期内某金融机构的零售客户的信用卡申请及行为数据、个人贷款申请及行为数据、个人金融资产交易数据以及个人客户信息数据进行收集。随后可以基于收集到的样本数据情况,对部分样本进行剔除。具体来说,例如本申请的方法首先收集了2017年至2021年之间在建设银行所有零售客户的信用卡申请及行为数据、个人贷款申请及行为数据、个人金融资产交易数据以及个人客户信息数据,共计7.3亿人。进一步通过专业的模型设计方案进行建模样本确认,选择2018年6.2亿的数据作为分析样本。
<样本选定步骤>
在一个具体的实施方式中,样本选定步骤是在数据采集步骤之前对全部用户进行筛选以获取用于模型构建的样本。具体来说样本选定步骤包括基于决策树对样本全部用户进行分类,分类依据包括但不限于:某一用户是否是已在金融机构申请注册信贷业务的客户;某一用户是否属于在金融机构且无信贷申请注册的客户;某一用户办理业务归属的地理区域;某一用户是否已经发生过金融机构风险事件(例如,当前是否发生违约,当前是否有房贷);某一用户是否持有金融机构发行的信用卡和/或信用卡是否持续使用和/或信用卡或个人贷款是否进行额度的循环支用。
进一步,基于决策树对样本全部用户进行分类,由于建模时需要有表现变量,因此再将分析样本划分为是否已经在相关银行申请注册了信贷业务,即可以将用户分成已申请注册和无申请注册两部分。
信贷业务是银行基本且重要的资产业务,通过发放银行贷款收回本金和利息,扣除成本后获得利润。一般来说,银行信贷业务是银行赢利的重要手段,从银行信贷业务的分类来说,可以分为法人信贷业务、个人信贷业务。其中法人信贷业务包括项目贷款、流动资金贷款、小企业贷款、房地产企业贷款等;个人信贷业务包括个人住房贷款、个人消费贷款、个人经营贷款等。
在一个具体的实施方式中,在本申请中构建模型的方法中,首先将用户样本分为已申请信贷业务的样本量1.2亿和无申请信贷业务的样本量为5亿人。具体模型设计时针对已申请的1.2亿客户进行分析及设计,在模型开发后上线结果将应用到已申请和无申请的全量7.3亿人群上,以及甚至于全部将来利用金融机构服务的全部人群上。
决策树(Decision Tree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。本申请在模型构建的时候,基于大型金融机构数据的特点,采用决策树对用于建模的样本进行分类,在区分为已申请信贷业务样本和无申请信贷业务两部分之后,可以针对已申请信贷业务的样本是否为新客户进一步进行分类,将已申请信贷业务的样本分类为新客户和非新客户两类,其中是否为新客户的决策可以基于本领域技术人员的需要进行确定,例如申请信贷业务在m个月以内的用户即决策为新客户,而申请信贷业务已经超过m个月的客户即为非新客户。
在一个具体的实施方式中,可以将m设定为例如3,可以设定为例如6,可以设定为例如9或12,在本申请中,也可以将m称为账龄。
本领域技术人员完全可以理解,在进行样本拆分时也可以选择其他的拆分方式,例如可以在拆分时首先将全部样本拆分为拥有信用卡的客户和没有信用卡的客户群体,在模型构建时的客户样本拆分方式完全可以根据建模的需要来考虑和进行。
进一步本申请基于需要构建模型的细分情况,还可以进一步针对客户所属区域来进行划分,例如如果客户为已申请信贷业务的新客户,则可以进一步基于决策树将样本分为来自经济欠发达地区,经济中等发达地区以及经济比较发达地区的不同样本群。
针对无申请信贷业务的另外群体,也可以进一步基于决策树将样本分为来自经济欠发达地区,经济中等发达地区以及经济比较发达地区的不同样本群。在本申请中,对于经济欠发达地区,经济中等发达地区以及经济比较发达地区的定义可以基于本领域技术人员已知的通常所认定的标准来划分,该标准可以是来源于权威统计部分发布的数据,也可以基于某一评级机构进行的划分,或者可以基于另外构建的金融模型来划分,本领域技术人员完全可以理解,在选定了划分标准之后,将用户人群不重复地分入三个不同区域即可。
在一个具体的方式中,在进行进一步分类的时候可以基于地域的发展情况并结合坏账率的情况来综合进行划分,将用户人群区分成来自经济欠发达地区,经济中等发达地区以及经济比较发达地区的不同样本群。
在本申请中,还可以基于客户是否发生逾期的情况进行决策分类,例如针对非新客户的用户样本群体,进行当前是否存在逾期行为进行分类,例如分为当前已经发生了逾期行为群体和未发生逾期行为的群体。
针对当前已经发生了逾期行为群体还可以进一步分为发生了严重违约和已经存在逾期但未发生严重违约的样本群体。例如,当逾期月数超过了n个月,可以认为是严重逾期,如果在n个月以内,可以认为是已经存在逾期但未发生严重违约。在一个具体的方式中,n可以选定为2、3、4、5、6或更大的整数。
更具体来说,严重违约:例如可以是客户信贷逾期达到连续4期、5期或6期以上等。轻中度违约:例如可以是客户信贷逾期在连续1期、2期或3期等。
针对当前未发生逾期行为的群体还可以进一步基于其是否有房贷进行决策,例如将客户进一步分为未发生逾期且有房贷的样本群体和未发生逾期且无房贷的样本群体。
针对未发生逾期且无房贷的样本群体还可以进一步基于其是否仅持有信用卡业务来进行区分,例如将客户样本分为未发生逾期且无房贷但存在消费贷款,即存在信用卡以外业务的样本,和未发生逾期且无房贷但不存在消费贷款,即不存在信用卡以外业务的样本。
进一步针对未发生逾期且无房贷但不存在信用卡以外业务的样本还可以基于客户是否属于循环使用信用卡的情况进行决策,进一步分为存在循环使用信用卡的样本群体和正常使用信用卡的样本群体。在本申请中,依据客户使用信用卡时当月账单是否足额还款将用户分为循环使用信用卡的样本群体和正常使用信用卡的样本群体,其中当月账单足额还款为正常使用,否则为循环使用。
对样本进行分类划分的目的,是为了找出最佳的群体分隔,使得以此为基础建立的一组评分模型可使整个评分系统的预测能力最大化。细分的方法很多,基于本申请的决策树算法选定的样本,可以覆盖通常信贷业务开展中非常关注的客群划分因素,并且在不同客群划分上的信用违约率能够将样本有效地进行区分(决策树本身的划分方式已经是一种将客户进行初步排序的有效方法),并为将来针对某一类型的样本群体构建合理有效的模型奠定基础,适用于各业务产品各信贷阶段对客户信用风险排序的应用需求。
此外,需要指出的是,上述描述的决策和分类过程仅仅是一个例子,本领域技术人员完全可以基于用于建模的样本的情况来进行决策和分类,例如在一个具体的实施方式中,可以先基于是否有房贷进行分类,也可以先基于客户所在的地理区域进行分类,本申请的建模方法对此完全不做任何限定,例如通过客户是否为已申请、是否为新客、是否逾期、是否有房贷、是否有消费贷款、客户所属区域等划分方式将客户分为不同的样本群体,只要能够确保决策树每一层之间的逻辑合理,那这些决策方法的顺序可以任意进行改变和组合。通过样本选定步骤能够充分体现业务开展过程中与风险特征息息相关的控制变量,能够比较全面的匹配市场上的各类客群。
此外,如上所述本申请也可以不进行上述样本选定步骤,可以直接基于全部样本进行本申请的模型建立。
<原始零售信用预测数据>
在构建用于本申请模型时,首先基于金融机构的基础数据可以获取约120种类的原始零售信用预测数据(即120多种基础特征),并且将零售信用风险点根据不同维度在效果最优的前提下进行最大可能的拆分或加工,共生成3000多个衍生特征。
在构建模型的时候,首先,基于大型金融机构所有的历史数据,在本申请的模型构建时初始收集了4年间所有零售客户的信用卡申请及行为数据、个人贷款申请及行为数据、个人金融资产交易数据以及个人客户信息数据,共计7.3亿人,其中每人每月都有相对应的数据需要处理,可见用于构建本申请的模型的数据体系全面且数据量非常大,基于这样的数据体系在构建模型的时候需要考虑建模的方法论,否则会陷入到庞大的数据中,导致需要关注的特殊样本群体在庞大的数据体量中被覆盖无法进行有效识别、导致计算机程序运行缓慢甚至无法运行,以至于无法准确地构建最为适合的预测模型。
在数据采集步骤中,获取的用于构建模型的样本的原始零售信用预测数据包括:信用卡类基础数据,其是基于样本的信用卡创建过程和使用过程中全部可获取的数据(即零售客户的信用卡申请及行为数据);个人贷款类基础数据,其是基于样本的贷款申请情况及使用行为的全部可获取的数据(即个人贷款申请及行为数据),客户基本信息类基础数据,其是基于样本本身的属性,但与在金融机构的行为不直接关联的数据(即个人客户信息数据),或者个人金融资产类基础数据,其是样本在金融机构与信用卡和贷款不相关的其他全部金融资产和金融交易类数据(个人金融资产交易数据)。
在一个具体的实施方式中,信用卡类基础数据包括但不限于:信用卡账单、信用卡取现情况、信用卡的分期情况、信用卡所产生的利息等不同维度(例如时间维度、空间维度、频次维度)下的账户、逾期、余额、额度、应还、实还等信息。上述基础数据并不局限于所列举的具体类别,随着信用卡业务的变化,本领域技术人员在实施中也完全可以进一步涵盖新出现的数据类型,即基于用户的信用卡创建过程和使用过程中全部可获取的数据的种类,均可以作为信用卡类基础数据。
在一个具体的实施方式中,个人贷款类基础数据包括但不限于:个人贷款账户、个人贷款的逾期情况、个人贷款的余额、个人贷款的总额度、个人贷款的应还、实还等信息。上述基础数据并不局限于所列举的具体类别,随着个人贷款业务的变化,本领域技术人员在实施中也完全可以进一步涵盖新出现的数据类型,即基于用户的贷款申请情况及行为的全部可获取的数据的种类,均可以作为个人贷款类基础数据。
在一个具体的实施方式中,根据个人隐私保护法的要求,客户基本信息类基础数据只包括:客户基本信息,包含性别、年龄和业务所属行政区域信息。上述基础数据并不局限于所列举的具体类别,随着客户情况以及社会关系的发展,本领域技术人员在所属业务应用场景范围内实施中也完全可以进一步涵盖其他的或新出现的数据类型,即基于用户样本本身的属性,但与在金融机构的行为不直接关联的数据的全部种类,均可以作为客户基本信息类基础数据。
在一个具体的实施方式中,个人金融资产类基础数据包括但不限于:AUM(即资产管理规模)、存款、理财和代发工资信息。上述基础数据并不局限于所列举的具体类别,随着金融资产的变化,本领域技术人员在实施中也完全可以进一步涵盖新出现的数据类型,即基于样本在金融机构与信用卡和贷款不相关的其他全部金融资产和金融交易类数据的全部种类,均可以作为个人金融资产类基础数据。
在一个具体的实施方式中,获取的用于构建模型的样本的原始零售信用预测数据是基于7.3亿人获取的120余种数据类型(即基础变量或基础特征),包括但不限于:信用卡账单、信用卡取现情况、信用卡的分期情况、信用卡所产生的利息等不同维度(例如时间维度、空间维度、频次维度)下的账户、逾期、余额、额度、应还、实还等信息;个人贷款账户、个人贷款的逾期情况、个人贷款的余额、个人贷款的总额度、个人贷款的应还、实还等信息;包含性别、年龄和业务所属行政区域的客户基本信息;AUM(即资产管理规模)、存款、理财和代发工资等基本信息。
<衍生零售信用预测数据>
在本申请中,在数据衍生步骤中,基于原始的零售信用预测数据加工出衍生零售信用预测数据是指基于时间维度、空间维度、频率维度、统计信息维度对采集的原始的零售信用预测数据进行加工而得到的数据。
在一个具体实施方式中,衍生零售信用预测数据包括但不限于:基于样本关系长度进行加工得到的衍生零售信用预测数据,基于时间间隔类变量进行加工得到的衍生零售信用预测数据,基于样本行为频率程度进行加工得到的衍生零售信用预测数据,基于样本当前时间点情况进行加工得到的衍生零售信用预测数据,基于样本持续行为进行加工得到的衍生零售信用预测数据,或者,基于统计信息维度对样本数据进行加工得到衍生零售信用预测数据。例如可以获取客户的月度数据,基于月度数据来进行加工。在本申请中基于统计信息维度进行加工包括获取数据的最大值、最小值、平均值之类用于描述数据情况。
在一个具体的实施方式中,例如从时间维度出发,例如客户关系长度类变量:如将客户开户时长,客户最大账龄等作为衍生零售信用预测数据的种类,即作为衍生特征或衍生变量。
在一个具体的实施方式中,例如从时间维度出发,考虑时间间隔的情况,如客户最近一次还款距当前时间点的月数、客户最近一次逾期距当前时间的月数等作为衍生特征或衍生变量。
在一个具体的实施方式中,例如从频率程度出发,考虑行为频率程度变量:如客户最近X个月内还款>N的次数,客户最近X月内额度使用率>N的次数等作为衍生特征或衍生变量,对于X和N不做限定,只要保证业务逻辑合理可以是任意0以上的正整数。
在一个具体的实施方式中,例如从时间维度出发,考虑当前时点变量:客户当前月额度,客户当前月余额等作为衍生特征或衍生变量。
在一个具体的方式中,从时间维度出发,考虑持续行为变量,例如客户最近X个月连续逾期>N的最大连续次数,客户最近X个月还款率连续>N的次数等作为衍生特征或衍生变量。
在一个具体的方式中,从统计信息维度出发,考虑统计类变量,例如客户最近X个月最大逾期期数,客户最近X月内平均额度使用率等作为衍生特征或衍生变量。
本领域技术人员明确,上述进行衍生变量加工的方法仅仅是列举,且可以任意选用。例如120类基础数据可以加工出3000多个衍生数据。在本申请中,数据、数据类型、数据种类、变量或特征有时存在混用的情况,本领域技术人员可以基于统计学的常识来进行理解。
在本申请中,衍生数据可以是原始的零售信用预测数据经简单加工得到的衍生数据,也可以是经复杂加工得到的衍生数据,简单加工的衍生数据例如当月工资、当月余额这类当前变量在数据汇总后就可以直接使用。复杂加工衍生数据需基于当前类的变量基于时间切片及逻辑处理,可生成近3个月最大工资、近12个月最小余额之类的衍生变量。
在本申请中,简单加工衍生零售信用预测数据或复杂加工衍生零售信用预测数据包括但不限于:过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、当前时间点存款账户余额、过去3个月信用卡分期余额大于0月数占比、当前消费贷总额度使用率、过去3个月月均资产规模、过去6个月平均工资、过去3个月循环额度使用率大于10%的月数占比、当前个贷循环贷款总额度当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月信贷还款率大于等于100%的月数、当前信用卡取现笔数、过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比、过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、过去6个月的资产规模最小值、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数、过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、过去3个月投资理财账户余额最大增幅、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值、过去12个月信用卡平均额度使用率、过去12个月信贷还款率最小、过去3个月信用卡账单余额连续增加月数、信用卡开户时长、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产规模的百分比、当前代发工资所在区域分位数、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数、过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数、过去12个月存款账户最大余额距观察点月数、当前时点存款账户余额、信用卡过去12个月逾期期数大于0月数、过去12个月信贷还款率最小值、当前信用卡剩余可用额度、当前信用卡剩余额度、过去3个月循环贷额度使用率平均值、信用卡过去3个月平均取现笔数、以及当前信用卡分期余额。
<特征初步筛选>
在本申请的初筛数据转换步骤中,初步筛选后的特征进行转换方式的判断,是基于经过初步筛选特征的集中度和数据类型来进行判断的。初筛数据转换步骤基于集中度和数据类型的判断包括如下步骤:针对每一特征的数据类型进行分类将每一特征分类成字符型变量和数值型变量,对字符型变量采用哑特征转换方式进行初筛数据转换,对数值型变量进一步进行分类的过程包括如下子步骤:如果该数值型变量的取值少于n个,采用WOE的转换方式进行初筛数据转换,如果该数值型变量的取值在n个以上时,进一步判断如果转换为连续型变量取值较多且单一取值的集中度大于m%,则采用WOE的转换方式,如果单一取值的集中度小于等于m%,则采用连续型的转换方式,优选,n和m均为正整数,其中n=5~10,m=90~99。
例如n为5、6、7、8、9或10,m为90、91、92、93、94、95、96、97、98或99。
具体来说,在本申请中采用多种不同的特征初筛方式对众多特征进行筛选,从而能够有效地从最大维度的特征上进行筛选。现有信用风险评分经常使用缺失率、集中度以及信息值IV进行特征初筛。
在一个具体方式中,基于用于构建模型的样本的每一特征的数据缺失情况来对特征进行筛选,缺失率筛选时一般考虑将缺失率大于90%或91%或92%或93%或94%或95%以上的变量进行删除,例如可以将该特征的数据缺失率超过95%的特征剔除,也可以将数据缺失率超过90%的特征剔除。
在一个具体方式中,基于某一特征样本的单一值过高情况来对特征进行筛选,集中度筛选时一般考虑将单一值占比99%或98%或97%或96%或95%以上的变量进行删除,例如可以将单一值超过99%的特征剔除,也可以将单一值超过95%的特征剔除。
在一个具体方式中,计算每一个特征的信息IV值对特征进行初步筛选。IV筛选时可以使用IV值对特征预测能力强弱进行衡量,IV的数值越大说明此特征的预测能力越强,单个特征IV值的计算方法如下:
其中k为此特征离散后的分组数;yi为第i组未违约客户数;ys为未违约总客户数;ni为第i组违约客户总数;ns为违约客户总数。IV的量化指标含义如下:当IV的计算值小于0.02时,表示这个特征的预测性极弱,当IV的计算值在0.02以上小于0.1时,表示这个特征的预测性弱,当IV的计算值在0.1以上小于0.3时,表示这个特征的预测性较好,当IV的计算值在0.3以上时,则表示这个特征的预测性强。
当然也可以将IV的计算值删除阈值设定为0.03或者0.04或者0.05等。
在本申请的模型构建方法中,使用缺失率、集中度以及信息值IV进行特征初筛的步骤可以以任意的顺序来进行,例如,可以先基于缺失率来进行筛选,再基于集中度进行筛选,然后最后基于信息值IV进行特征初筛。
也可以先基于集中度进行筛选,再基于缺失率来进行筛选,然后最后基于信息值IV进行特征初筛。也可以先基于缺失率进行筛选,再基于信息值IV来进行筛选,然后最后基于集中度进行特征初筛。也可以先基于信息值IV进行筛选,再基于缺失率来进行筛选,然后最后基于集中度进行特征初筛。也可以先基于信息值IV进行筛选,再基于集中度来进行筛选,然后最后基于缺失率进行特征初筛。也可以先基于集中度进行筛选,再基于信息值IV来进行筛选,然后最后基于缺失率进行特征初筛。本领域技术人员完全可以基于样本的数据情况来进行选择,因此基于这三种方法可以有效地去除在某一方面存在明显缺陷的特征,这样可以有效地减少数据维度,同时还可以改善模型构建的效果。
在一具体方式中,对已经分别利用缺失率、集中度和信息值IV进行了筛选之后的特征,采用逐步判别算法进行特征的初步筛选,然后再基于各个特征本身的风险特性与用于模型构建的样本实际的真实结果的吻合情况来进行特征的初步筛选。
本申请的技术方案在此基础上,为了提高模型开发的整体效率,引入了逐步判别的方法使初筛变量时更加高效和精准。在实际数据中可能存在好坏样本在某一变量上的分布接近,好坏区分能力较弱。也可能存在一类变量,各自均能够很好地区别好坏样本,但若全部囊括进模型,则会由于变量覆盖的数据维度重复而冗余。对此,本申请中使用逐步判别分析方法,采用WILKS’S LAMBDA值作为准入和移出的统计量准则,删除数据中判别效果较弱或冗余的变量。
逐步判别方法采用WILKS’S LAMBDA的准则衡量特征能力的强弱,剔除经过三轮筛选后的剩余特征中不满足所设阈值的特征。在逐步判别过程中,首先添加判别能力最强的变量,随着模型中变量的逐渐增加,较早引入的变量的判别能力也可能随之变化,如果模型中某变量的判别能力小于阈值了,就将该变量移除,然后反复这个过程,直至模型所包含的变量都满足WILKS’S LAMBDA相似比值准则,且其他变量都达不到进入模型的标准为止。
在本申请中,利用逐步判别方法进行筛选的步骤是较为关键的一步。出于尽可能捕获全部信贷风险点的目的,本申请中所涉及的模型使用的数据量庞大,数据维度众多,因此必须进行变量筛选以进一步降低模型开发的时间成本。现有的金融风险模型评估中,一般会采用变量重要性的方法进行变量删减,如通过基尼指数和信息熵等算法计算变量的重要性,选择重要性靠前的变量,很少使用逐步判别法进行筛选的建模方法。本申请使用的方法论与业界常用的变量重要性筛选方案相比,可以保留大量重要性相对较弱但信息维度相对独立的变量。
在一个具体的方式中,基于例如120类基础数据可以加工出3000多个衍生数据。经过缺失率、集中度和信息值IV的三轮筛选,能够删除掉其中20-30%左右的数据较差的特征,但是仍然会保留超过2000个特征,如果基于上述全部特征进行后续的变量精筛,将严重影响开发效率。因此经过多种不同变量删减方案的比对试验,最终确定使用逐步判别作为最优选择。在一个具体的实施方式中,针对经过前三轮筛选后的2000多个特征,基于逐步判别算法来进行特征的进一步筛选,过本轮筛选可以快速地筛选出200多个重要特征变量。
针对经过逐步判别算法筛选后的重要特征,基于各类风险点本身的风险特性(系统预设)与样本实际的坏账率情况来进行特征的进一步筛选。判断剩余特征的实际坏账率分布情况是否符合业务趋势,将样本实际坏账率分布不符合业务趋势的特征剔除。具体来说,(1)将剩余目标特征按分位点等分10-20箱,计算各个箱取值中位数以及对应的坏账率。(2)使用各箱与前一箱的取值中位数及对应坏账率计算变化率(斜率)。(3)统计相邻两箱之间变化率中大于0箱与非0箱(非大于0箱)的数量,并计算变化率中大于0的箱数占变化率中非0箱数的百分比。(4)获取此特征预设的风险特性,并根据上述计算变化率中大于0的箱数占变化率中非0箱数的百分比,对实际坏账率变化趋势与业务逻辑坏账率变化趋势是否近似一致。是否近似一致的标准如下:第一,若此特征的业务逻辑上的趋势应为:随着此特征数值增加,坏账率升高(例如信贷额度使用率等)。在此模块中将此特征在上述计算斜率中大于0的箱数占斜率非0箱数百分比小于70%的特征剔除,即将特征表现不符合业务趋势的特征剔除。第二,若此特征的业务逻辑上的趋势应为:随着此特征数值增加,坏账率降低(例如存款金额等)。在此模块中将此特征在上述计算斜率中大于0的箱数占斜率非0箱数百分比大于30%的特征剔除,即将特征表现不符合业务趋势的特征剔除。
例如,下表给出分箱的例子,在本例子中,将特征数值分成10箱,分箱的数值范围也总结在下表中,同时基于下表中的数据绘制了特征分箱坏账率随特征分箱中位数变化的图,如图4所示。在图4的示例中,斜率大于0的共7个,斜率小于0的共2个。通过上述方法,可以基于各类风险点本身的风险特性(系统预设)与样本实际的坏账率情况来进行特征的进一步筛选。利用这样的分箱方法进一步进行特征的筛选,可以有效地将最符合业务发展趋势的特征筛选出来,从而进一步获得适合建模的特征。
在一个具体的方式中,经过最后一轮筛选剔除剩余150个左右特征。
<特征值的转换>
现有信用风险评分方法的初始特征加工主要采用WOE转换(多分类)和哑特征转换(二分类)的方式对连续特征(例如年龄、账龄等)进行离散化处理。WOE转换方式是基于建模样本的最优分箱方案,根据最优切割点将连续的特征离散化,并将好坏样本的数据嵌入到了WOE取值当中,因此其在模型建设时的表现更好,但分箱结果可能存在过度拟合建模样本,导致应用于总体时模型效果下降严重的问题(泛化能力较差)。同时,由于分箱使用的归一化操作,将落入不同分箱中的原始特征转换为各个箱对应的单一值,因此失去了对落入同一区间中人群的风险区分能力。而哑特征的转换方式主要应用于分组特征,其优点是可以消除特征不同值之间的好坏区别,但对连续型变量在处理时将会变的异常复杂和冗余。
在本申请的模型构建方法中,对初步筛选后的特征进行转换方式的判断以确认采用WOE转换方式、哑特征转换方式以及连续型转换方式中的一种来进行特征转换,并针对每一个初步筛选后的特征采用判断的最优方式来进行特征转换。
初筛数据转换步骤基于集中度和数据类型的判断包括如下步骤:针对每一特征的数据类型进行分类将每一特征分类成字符型变量和数值型变量,对字符型变量采用哑特征转换方式进行初筛数据转换,对数值型变量进一步进行分类的过程包括如下子步骤:如果该数值型变量的取值少于n个,采用WOE的转换方式进行初筛数据转换,如果该数值型变量的取值在n个以上时,进一步判断如果转换为连续型变量取值较多且单一取值的集中度大于m%,则采用WOE的转换方式,如果单一取值的集中度小于等于m%,则采用连续型的转换方式,优选,n和m均为正整数,其中n=5~10,m=90~99。
具体来说,以字符型变量为学历来举例,则该特征变量的取值可以为小学、中学、大学、研究生等。针对数值型变量来说,如果数值型变量如果是过去3个月逾期月数,则取值就是0、1、2、3。
在本申请中,上述n可以为5、6、7、8、9或10,m可以为90、91、92、93、94、95、96、97、98或99。
在一个具体的实施方式中,m选取为5,n选取为95。
具体来说,WOE转换的方式为:寻找特征的最优切割点,对原始特征的值域进行分割后得到多个分箱,再根据每个分箱中的好坏情况计算分割后各个箱所对应的WOE转换值并输出,将原始特征按分箱结果进行划分并输出WOE转换值。对于每个分箱,WOE值的计算方式如下所示:
其中yi为第i组未违约客户数;ys为未违约总客户数;ni为第i组违约客户总数;ns为违约客户总数。
以年龄为例介绍WOE分箱的过程。原始特征年龄中包含18至50岁的数值,分箱后得到5个分箱,分别是18岁至24岁、25岁至30岁、31岁至35岁、36岁至42岁以及43岁至50岁,之后根据每一箱的好坏客户数计算每个分箱的WOE转换值,最后将划入各个分箱的每条用户数据按照各个分箱对应转换值进行输出,比如23岁输出18至24分箱对应WOE转换值、46岁输出43至50岁分箱对应WOE转换值。
哑特征的转换方式为:将单个分类特征按照其包含数值的数量转换为等量的哑特征,若某客户属于生成的哑特征对应值,则对应哑特征值为1,其余哑特征值为0。
以性别为例介绍哑特征转换的方式。原始特征中包含:男、女,哑特征转换后生成‘性别-男’、‘性别-女’两个哑特征,若客户性别为男性,则在‘性别-男’记为1,‘性别-女’记为0。如果以学历为例,原始特征中包含:大专及以下、大本、硕士及以上,哑特征转换后生成‘学历-大专及以下’、‘学历-大本’、‘学历-硕士及以上’三个哑特征,若客户学历为大本,则在‘学历-大专及以下’记为0,‘学历-大本’记为1,学历-硕士及以上’记为0。
连续型转换方式为:对原始特征进行多种方式的连续型转换(连续型转化的方式包括但不限于:直接选取原始值、计算原始数据的平方、计算原始数据平方根、计算原始数据立方根、计算原始数据自然对数)。计算连续型转换后特征值与逾期标签的相关系数r(Correlation Coefficient),选择相关系数绝对值最大的转换方式进行转换,输出原始特征对应的转换方式。相关系数的计算公式如下:
其中,Σ为数学中的求和符号;n为观测的总数;xi为第i个观测的原始特征在连续型转换后的转换值;为此转换值的平均值;其中yi为第i个观测表示是否违约的二分类特征;/>为此二分类特征的平均值。相关系数的绝对值越接近1,说明转换后的转换值与违约情况越相关,此转换方式的效果也越好。相关系数r的量化指标含义如下:当相关系数的绝对值在0以上且小于0.3时,表示低度相关,当相关系数的绝对值在0.3以上且小于0.8时,表示中度相关,当相关系数的绝对值在0.8以上且小于1时,表示高度相关。
本申请的模型构建中,针对确认采用连续型的转换方式的特征基于该特征在不同连续型转换方式下与信用违约的相关性高低来选择最优转换方法来进行该特征的连续型特征转换,优选采用直接选取原始值、计算原始数据的平方、计算原始数据平方根、计算原始数据立方根或计算原始数据自然对数的方式进行连续型特征转换。
以年龄为例介绍连续型转换方式。原始特征年龄中包含18至50岁的数值,连续型转换得到年龄的原始值、平方、平方根、立方根、自然对数等,然后计算WOE值及各个转换值与好坏标签(预测结果)的相关性系数的绝对值,选择相关性系数绝对值最大的转换方式进行转换后输出。若年龄特征的立方根较其他转换方式而言与好坏标签的相关性系数绝对值最大,输出年龄的立方根作为转换值。
现有技术方案中,主要选择WOE和哑特征中的一种特征转换方式进行模型建设。例如在CN112686749B的中国专利中,采用了WOE方式对特征值进行了特征转换。WOE转换方式是基于建模样本的最优分箱方案,根据最优切割点将连续的特征离散化,因此其在模型建设时的表现更好,但分箱结果可能过度拟合建模样本,导致应用于总体时模型效果下降严重(泛化能力较差)。同时,由于分箱使用的归一化操作,将落入不同分箱中的原始特征转换为各个箱对应的单一值,因此失去了对落入同一区间中人群的风险区分能力。
哑特征的转换方式主要应用于分组特征,其优点是可以消除特征不同值之间的好坏区别。比如:对于客户所处行业中,因为零售业与批发业之间没有明显的优劣,所以更适用于哑特征的处理方式;专科和本科之间有层级上的差别,因此尽管可以使用哑特征,但是实际上使用WOE的处理方式更合适。
另一方面,连续型转换的方式可以避免WOE转换方式中对于建模样本过度拟合的情况,对于总体样本的泛化能力较强,且由于不进行区间映射,大部分客群落入单一值的情况较少。但对于部分单调性较差或离散型的特征(例如职业、职位等)无法应用。
如上所述,本申请的技术方案另辟蹊径,开创性地将连续型转换、WOE转换、哑特征转换三种方式结合,对经过了精心筛选地部分特征进行再加工,结合了三种转换方式的优缺点,并且独创性地设计了转换判断方法,根据特征数据属性、缺失率、集中度的等参数辅以业务逻辑上的判断,选择最优的特征转换方式。
<逻辑回归以及基于逻辑回归的特征深度筛选>
现有信用风险评分中,出于模型可解释性的要求,主要使用逻辑回归模型进行模型开发,可使用软件一般为:SAS、R、Python等。
在一个具体的实施方式中,本申请基于SAS软件进行模型开发。
具体来说,逻辑回归中使用Sigmoid函数对预测为违约的概率进行拟合,Sigmoid函数为:
其中Z为模型系数与特征转换值的线性组合,Z的定义如下:
Z=α+β1x1+β2x2+...+βk-1xk-1+βkxk
预测为违约的概率为:
P=P(Y=1|x1,x2,x3,...,xk-1,xk)
拟合后的预测为违约的概率为:
由上式可进一步推导出:
将Z值代入上述公式即可计算预测为违约的概率P。
逻辑回归模型构建的核心是特征的筛选,特征的筛选步骤如下:第一,根据缺失率、集中度以及信息值IV对特征进行批量筛选。第二,根据特征是否符合业务趋势对剩下的所有特征进行逐一筛选,保留业务趋势正确的特征。例如:若发现随着特征贷款余额的增加,客群的坏账率降低,则认为此特征不符合业务趋势。在信贷业务理解中,贷款余额越高,客户的违约风险暴露(EAD)水平越高,风险也越大。此时会将此特征从特征清单中剔除。第三,使用逻辑回归的逐步回归功能剔除特征中不太重要又和其他特征高度相关特征。第四,根据训练系数的正负符号与特征转换值的业务趋势筛选系数,保留特征系数符号符合业务逻辑的特征。在Y标签中定义0为好客户,1为坏客户的情况下,对于一个坏账率随着特征数值的增加单调递增的特征(例如贷款余额),其训练系数符号应为正号;反之,对于一个坏账率随着特征数值的增加单调递减的特征(例如存款余额),其训练系数符号应为负号,如不符合上述标准,则应进行剔除。第五,使用方差膨胀因子(VIF)、相关性系数等进一步剔除相关性较高的特征:对于方差膨胀因子,逐个剔除VIF最高且大于4的特征;对于相关性较高的特征,逐个剔除相关系数最高且大于0.80的特征组中IV值较低的特征。第六,使用群体稳定性系数(PSI)剔除在不同时点分布差异较大进而导致不稳定的特征,对于PSI>0.25的特征直接剔除,对于0.25>PSI>0.1的特征,根据剔除此特征对模型区分能力影响审慎进行剔除。
本申请严格遵守上述规则对特征进行筛选,保证了模型的解释性、稳定性及对好坏客户的区分能力。
本申请的特征精筛步骤包括:第一精筛步骤,基于逐步回归算法,基于F检验与T检验对特征的显著性进行特征的筛选,第二精筛步骤,基于每个特征计算方差膨胀因子并剔除方差膨胀因子较高的特征来进行特征的筛选,第三精筛步骤,基于逻辑回归对经过第一精筛步骤和第二精筛步骤之后的特征,分析特征系数是否符合针对信用违约的预测结果的趋势以进一步进行特征筛选。
特征精筛步骤1,其基于逐步回归算法,基于F检验与T检验方法,将特征基于其显著性高到低按序引入,每引入一个特征时,对已选入的特征进行逐个检验。当原引入的特征由于后面特征的引入而变得不再显著时将其剔除。循环进行此过程直到既无高于显著性阈值的特征选入方程,也无显著性低于额阈值自特征从回归方程中剔除为止。
特征精筛步骤2,其基于剔除方差膨胀因子较高特征的方法,进一步降低模型中多重共线性。
特征精筛步骤3,其基于各类风险点本身的风险特性(系统预设)与模型训练系数的正负符号进行对比,判断特征精筛步骤3中剩余特征在模型中的特征系数是否符合业务趋势,将模型系数不符合业务趋势的特征剔除,并重新迭代。特征精筛模块3的具体实施方案如下:1.对于特征转换方式为WOE类的特征,则对应模型训练系数应为负值,应将训练系数为正值的WOE转换类特征剔除。2.对于连续型转换方式,若在业务逻辑上此特征数值增加,坏账率应升高(例如信贷额度使用率等),则对应模型训练系数应为正值,应将训练系数为负值的此类连续型转换类特征剔除;若在业务逻辑上此特征数值增加,坏账率应降低(例如存款金额等),则对应模型训练系数应为负值,应将训练系数为正值的此类连续型转换类特征剔除。3.对于哑特征转换方式,需判断取值为1和取值为0时的坏账率,若取值为1的坏账率大于取值为0的坏账率,则系数应为正,否则为负。
特征精筛步骤4,数据稳定性监测步骤,其用于评估不同时点单个特征及整体分数的分布情况是否发生明显的偏移,本实施例将对于PSI>0.25的特征直接剔除,对于0.25>PSI>0.1的特征,根据剔除此特征对模型区分能力影响审慎进行剔除。
基于上述步骤3和4,对特征列表进行多次迭代,直至最终没有新的特征加入或剔除模型则停止迭代,获得最终的特征列表及其转换值。经过上述步骤,最终可以获得用于构建本申请模型的入模变量。
本申请的信用违约概率建模步骤将经过特征精筛步骤筛选的特征代入Sigmoid函数进行逻辑回归计算信用违约概率的模型。
在现有技术中,构建的所有评分模型的核心在于其使用的数据是否具有代表性。对于现有技术中已经存在的评分模型而言,由于信息安全及成本原因,大部分模型的样本量及坏标签较小,无法保证模型的稳定性,更无法对某一类客户独立建模。同时,因为市场上的评分模型在建模过程中,可获取的信息维度大多为多头借贷数据及弱金融属性数据(如智能终端设备数据、社交平台数据、网购商城数据等非信贷交易类数据),无法准确的反映客户的资产状况和还款能力。本申请使用的数据来源是大型银行的全量业务数据,建模样本及坏标签的数据量级十分庞大。本申请基于不同的样本群设计建模样本,可以更加精细化的区分此类客户之间的风险差异,同时基于跨时间验证及PSI验证保证了数据和模型的稳定性。本申请使用个人信贷历史数据与资产类数据进行模型开发,因此对借款人的还款意愿及还款能力有着较好的体现。
对于部分中小型金融机构的内部自建评分模型而言,由于零售信贷业务体量较小或业务开展较晚,积累的历史数据不足以开发一个数据稳定且区分能力较强的信用风险模型,因此其用于信审业务时对人工审批的依赖度较高。人工审批的效率限制,制约了其零售信贷业务发展,同时由于人工审批存在主观性,增加了信审过程中的操作风险。本申请构建的模型可协助此类金融机构进行数字化决策,增强其审批精确度和审批速度,降低上述不利影响。
在特征转换方面,相对于传统的WOE转换方式,需要根据数据表现及建模人员的经验将连续型特征进行粗分箱并离散化,粗分箱的结果受建模人员主观因素影响较大;且将连续特征离散化的过程可能因过多的客户落入同一区间内,进而导致计算出的分数单一值较多。本申请则结合了连续型转换方式、WOE转换方式和哑特征转化方式对原始特征进行编码,在降低了人为因素及单一值带来的影响的同时增强了评分的区分能力。
<构建零售信用风险预测模型的装置、系统及计算机存储介质>
本申请涉及一种构建零售信用风险预测模型的装置,所述装置包括:数据采集模块,其用于获取用于构建模型的样本的原始零售信用预测数据;数据衍生模块,其用于基于原始的零售信用预测数据加工出衍生零售信用预测数据;特征初筛模块,其用于对包括原始零售信用预测数据和衍生零售信用预测数据的全部类别,即全部特征进行初步筛选,以获得初步筛选后的特征;初筛数据转换模块,其用于对初步筛选后的特征进行转换方式的判断以确认采用WOE转换方式、哑特征转换方式以及连续型转换方式中的一种来进行特征转换,并针对每一个初步筛选后的特征采用判断的最优方式来进行特征转换;特征精筛模块,其用于对进行特征转换后的初步筛选的特征进行深度筛选以获得精筛后的特征;信用违约概率建模模块,其用于针对精筛后的特征结合与信用违约之间的概率关系选择逻辑回归的方式进行模型构建,并确认用于计算信用违约概率的方式。
进一步,本申请涉及一种构建零售信用风险预测模型的装置,所述装置包括样本选定模块,其用于在数据采集步骤之前对全部用户进行筛选以获取用于模型构建的样本。
本申请还涉及一种构建零售信用风险预测模型系统,所述构建零售信用风险预测模型系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的构建零售信用风险预测模型的程序,所述构建零售信用风险预测模型程序被所述处理器执行时实现本申请所描述的构建零售信用风险预测模型方法的步骤。
本申请涉及一种计算机存储介质,所述计算机存储介质上存储有构建零售信用风险预测模型的程序,所述构建零售信用风险预测模型的程序被处理器执行时实现本申请所描述的构建零售信用风险预测模型方法的步骤。
上述针对构建零售信用风险预测模型的方法中描述的全部内容可以完全适用于构建零售信用风险预测模型的装置、系统及计算机存储介质。
<计算零售信用风险的方法>
本申请进一步涉及利用本申请构建的零售信用风险模型来计算待测样本的零售信用风险的方法。
在本申请中,零售信用风险是指该待测样本出现信用违约的概率。在一个具体的方式中,信用违约的概率是指发生信贷逾期的概率,具体来说,例如可以为是否会发生信贷逾期90天以上的概率。
本申请涉及一种计算零售信用风险的方法,其包括:数据采集步骤,其获取待预测样本的零售信用预测数据;对待预测样本进行分类的步骤,其基于决策树方法将待预测样本进行分类以确定用于计算信用违约概率的子模型;信用违约概率计算步骤,将零售信用预测数据代入信用违约概率子模型中以计算所述待预测样本的信用违约概率。
在本申请中,待预测样本可以是用于构建模型的样本,即在构建模型时该样本已经是某金融机构持有信贷业务(包括但不限于信用卡或个人贷款业务)的客户,利用本申请的计算零售信用风险的方法可以用来计算其将来潜在的零售信用风险。在本申请中,待预测样本可以是未用于构建模型的样本,即在构建模型时还不是某金融机构持有信贷业务的客户,但现在已经是某金融机构持有信贷业务的客户,利用本申请的计算零售信用风险的方法可以用来计算其将来潜在的零售信用风险。在本申请中,该样本也可以是本身过去构建模型时不是、现在也不是该金融机构持有信贷业务的客户,但是是该金融机构已经持有其他金融资产类业务的客户,利用本申请的计算零售信用风险的方法可以用来计算其将来潜在的零售信用风险。
本申请涉及一种计算零售信用风险的方法,其包括:数据采集步骤,其获取待预测样本的零售信用预测数据;对待预测样本进行分类的步骤,其基于决策树方法将待预测样本进行分类以确定用于计算信用违约概率的子模型;信用违约概率计算步骤,将零售信用预测数据代入信用违约概率子模型中以计算所述待预测样本的信用违约概率;在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤。
计算所述待预测样本的信用评分的步骤用于将计算得到的信用违约概率校准至0-1000分的标准化分数。
在本申请的方法中,零售信用预测数据包括待预测样本的原始零售信用预测数据以及基于原始的零售信用预测数据加工出衍生零售信用预测数据。其中原始零售信用预测数据和衍生零售信用预测数据的描述与模型构建部分的描述一致。
在本申请中,对待预测样本进行分类的步骤包括如下子步骤:该待测样本是否是已在金融机构申请注册信贷业务的客户;该待测样本是否属于在金融机构且无信贷申请注册的客户;该待测样本办理业务归属的地理区域;该待测样本是否已经发生过金融机构风险事件;该待测样本是否持有金融机构发行的信用卡和/或信用卡是否持续使用和/或信用卡或个人贷款是否进行额度的循环支用,基于上述子步骤对待预测样本进行分类以确定用于计算信用违约概率的子模型,且上述子步骤进行的顺序可以任意设定。
在本申请中,图3显示了对待预测样本进行分类的流程图,基于本步骤的分类,可以选定用于计算信用违约概率的子模型。如图3所示按照如下顺序对待预测样本进行分类:首先判断该待测样本是否是已在金融机构申请信贷业务的客户;然后判断该待测样本是否属于在金融机构且无信贷申请的客户;再然后判断该待测样本办理业务归属的地理区域;再然后判断该待测样本是否已经发生过金融机构风险事件;再然后判断该待测样本是否持有金融机构发行的信用卡和/或信用卡是否持续使用和/或信用卡或个人贷款是否进行额度的循环支用。利用这样的步骤分类可以确认用于预测该待测样本的最适合的子模型。
在本申请中,对零售信用预测数据进行特征转换后再代入信用违约概率子模型中计算所述待预测样本的信用违约概率,所述特征转换步骤包括基于需要代入信用违约概率子模型的零售信用预测数据的特征类型选择WOE方式或连续型方式进行特征转换。
针对WOE方式或连续型方式进行特征转换的方法是本领域技术人员所熟知的,具体的转变方式可以参考本申请在模型构建部分的描述。但本领域中现有的模型仅采用WOE方式进行参数的转换。
WOE转换方式是基于建模样本的最优分箱方案,根据最优切割点将连续的特征离散化,因此其在模型建设时的表现更好,但分箱结果可能过度拟合建模样本,导致应用于总体时模型效果下降严重(泛化能力较差)。同时,由于分箱使用的归一化操作,将落入不同分箱中的原始特征转换为各个箱对应的单一值,因此失去了对落入同一区间中人群的风险区分能力。哑特征的转换方式主要应用于分组特征,其优点是可以消除特征不同值之间的好坏区别。比如:对于客户所处行业中,因为零售业与批发业之间没有明显的优劣,所以更适用于哑特征的处理方式;专科和本科之间有层级上的差别,因此尽管可以使用哑特征,但是实际上使用WOE的处理方式更合适。连续型转换的方式可以避免WOE转换方式中对于建模样本过度拟合的情况,对于总体样本的泛化能力较强,且由于不进行区间映射,大部分客群落入单一值的情况较少。但对于部分单调性较差或离散型的特征(例如职业、职位等)无法应用。本申请同时使用连续型转换和WOE转换结合的方式对初始特征进行加工,结合了两种转换方式的优缺点,设计了转换判断模块,根据特征数据属性、缺失率、集中度的等参数辅以业务逻辑上的判断,选择最优的特征转换方式。本申请的技术方案另辟蹊径,开创性地将连续型转换、WOE转换、哑特征转换三种方式结合,对经过了精心筛选地部分特征进行再加工,结合了三种转换方式的优缺点,并且独创性地设计了转换判断方法,根据特征数据属性、缺失率、集中度的等参数辅以业务逻辑上的判断,选择最优的特征转换方式。利用这样的方式确定的特征转换方式再代入计算零售信用风险的模型中,能够更为准确的预测样本的零售信用风险。
在本申请用于计算信用违约概率的子模型为基于样本零售信用预测数据和信用违约概率采用逻辑回归基于已有用户人群构建的模型,即利用本申请所描述的方法构建的模型。
<计算零售信用风险的装置、系统及计算机存储介质>
本申请涉及一种计算零售信用风险的装置,其包括:数据采集模块,其用于获取待预测样本的零售信用预测数据;对待预测样本进行分类的模块,其用于基于决策树方法将待预测样本进行分类以确定用于计算信用违约概率的子模型;信用违约概率计算模块,其用于将零售信用预测数据代入信用违约概率子模型中以计算所述待预测样本的信用违约概率。
本申请的计算零售信用风险的装置可以执行本申请的计算零售信用风险的方法的步骤。
本申请还涉及一种计算零售信用风险的系统,其特征在于,所述计算零售信用风险的系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的所述计算零售信用风险的程序,所述计算零售信用风险的程序被所述处理器执行时实现如本申请所述的计算零售信用风险的方法的步骤。
本申请涉及一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算零售信用风险方法的程序,所述计算零售信用风险方法的程序被处理器执行时实现如本申请所述的计算零售信用风险的方法的步骤。
上述针对计算零售信用风险的方法中描述的全部内容可以完全适用于计算零售信用风险的装置、系统及计算机存储介质。
本申请用于计算零售信用风险的方法,能够规避以完全WOE变量构建模型时存在的过拟合、以完全连续型变量构建模型时存在的无法很好适配分类型变量的这些技术缺点,因此将该模型用于进行零售信用风险计算时可以更好的覆盖各种不同类型客群的零售信用风险预测需求,可以满足作为通用评分预测信用风险时获得更为准确预测结果的需求。
实施例
实施例1建模样本的收集
在本实施例构建的过程中,收集了2017年至2021年之间在建设银行所有零售客户的信用卡申请及行为数据、个人贷款申请及行为数据、个人金融资产交易数据以及个人客户信息数据,共计7.3亿人。通过专业的模型设计方案进行建模样本确认,选择2018年6.2亿的数据作为分析样本,6.2亿多客户的年龄分布情况如图1所示。由于建模时需要有表现变量,因此再将分析样本划分为已申请注册信贷业务和无申请注册信贷业务两部分,样本量分别为1.2亿和5亿人。具体模型设计时针对已申请的1.2亿客户进行分析及设计,在模型开发后上线结果将应用到已申请和无申请的全量7.3亿人群上或其他潜在的全部客户群体上。
模型设计包括1)排除规则:如排除已结清、已销户、无表现、特殊情况的客户数据,排除后建模人群为6574万客户;2)时间窗口设定:确定样本用2018年数据作为建模样本,用未来24个月的时间范围作为Y的表现期;3)样本抽样:采用好/坏为4:1的样本数目进行抽样建模。通过决策树的方式进行不同细分方案的设计,并采取父子模型的对比方法确认模型细分的最终方案,进而对各细分模型分别进行建模。本申请的模型细分方案是通过客户是否为已申请、是否为新客、是否逾期、是否有房贷、是否有消费贷款、客户所属区域等划分方式予以设计的,充分体现了业务开展过程中与风险特征息息相关的控制变量,能够比较全面的匹配市场上的各类客群。
在本实施例中,首先基于决策树将建模样本分成如下子模型建模样本以便后续子模型的构建。在确定建模样本时的决策树第一层为账龄,用于区分客户的信贷历史长短。在本实施例中对于账龄小于3(已申请注册信贷业务但申请还未超过3个月)的客户(即定义为新客户),则根据其属于的行政区划划分区域,行政区域的划分例如源于权威统计部分发布的数据,也可以基于某一评级机构进行的划分,或者可以基于另外构建的金融模型来划分,本领域技术人员完全可以理解,在选定了划分标准之后,将用户人群不重复地分入三个不同区域即可,同时进一步结合坏账率低、中、高三种不同情况,分为Sigma1、Sigma2、Sigma3共三个细分模型,其中坏账率是指某一类样本中坏客户与这一类样本总数的比例。
对于账龄大于等于3的客户,则根据其当前逾期情况进行判断:若当前逾期,且逾期期数(即月数)大于3期,则进入Sigma4细分模型;若当前逾期,且逾期期数(即月数)小于等于3期,则进入Sigma5细分模型。
对于账龄大于等于3,且当前未逾期的客户,则根据其当前是否有房贷进行判断:若有房贷,则进入Sigma6细分模型。
对于账龄大于等于3,且当前未逾期,无房贷的客户,则根据其当前是否有消费贷款(包括消费贷款、经营贷款和专项分期)进行判断:若有上述贷款,则进入Sigma7细分模型。
对于账龄大于等于3,且当前未逾期,无房贷,也无消费贷款/经营贷款/专项分期的客户,则根据其是否使用循环额度(例如信用卡,在还款后,剩余额度恢复至最大额度则为循环)进行判断:若使用循环额度,则进入Sigma8细分模型;若未使用循环额度,则进入Sigma9细分模型。
此外,本实施例中为了针对无申请注册信贷业务的样本群体构建模型,同样以决策树第一层为账龄,仅选择账龄小于3个月的客群进入模型。对于账龄小于3的客户,则根据其属于的行政区划划分区域,行政区域的划分例如源于权威统计部分发布的数据,也可以基于某一评级机构进行的划分,或者可以基于另外构建的金融模型来划分,本领域技术人员完全可以理解,在选定了划分标准之后,将用户人群不重复地分入三个不同区域即可,同时进一步结合坏账率低、中、高三种不同情况,分为Sigma10、Sigma11、Sigma12共三个细分模型。
具体来说,用于构建Sigma 1细分模型的一个子模型样本量为22万左右,其客群主要为已申请信贷业务的新客户且属于经济欠发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 2细分模型的一个子模型样本量为23万左右,其客群主要为已申请信贷业务的新客户且属于经济中等发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 3细分模型的一个子模型样本量为46万左右,其客群主要为已申请信贷业务的新客户且属于经济比较发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 4细分模型的一个子模型样本量为119万左右,其客群主要为已申请信贷业务的非新客户且已经出现严重逾期的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 5细分模型的一个子模型样本量为73万左右,其客群主要为已申请信贷业务的非新客户且已经出现轻中度逾期的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 6细分模型的一个子模型样本量为1425万左右,其客群主要为已申请信贷业务的非新客户其未发生逾期但持有住房贷款的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 7细分模型的一个子模型样本量为577万左右,其客群主要为已申请信贷业务的非新客户其未发生逾期但持有消费类贷款的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 8细分模型的一个子模型样本量为256万左右,其客群主要为已申请信贷业务的非新客户其未发生逾期但仅有信用卡并且循环使用的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 9细分模型的一个子模型样本量为4033万左右,其客群主要为已申请信贷业务的非新客户其未发生逾期但仅有信用卡并且未循环使用的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 10细分模型的一个子模型样本量为22万左右,其客群主要为未申请信贷业务的潜在客户且属于经济欠发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 11细分模型的一个子模型样本量为23万左右,其客群主要为未申请信贷业务的潜在客户且属于经济中等发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
具体来说,用于构建Sigma 12细分模型的一个子模型样本量为46万左右,其客群主要为未申请信贷业务的潜在客户且属于经济比较发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率。
在本实施例中,是否为新客户是指账龄小于3的客户,即申请信贷业务的时间不足3个月。出现严重逾期是指该客户发生逾期还款情况的期数(即月数)大于3期。出现中轻度逾期是指该客户当前已经发生逾期,且逾期期数(即月数)小于等于3期。
基于上述确认的各子模型不同的客群样本,获取借款人的历史数据信息:1)信用卡类,基础字段包含账单、取现、分期、利息等不同维度下的账户、逾期、余额、额度、应还、实还等信息;2)个人贷款类,包含账户、逾期、余额、额度、应还、实还等信息;3)客户基本信息,包含性别、年龄和业务所属行政区域信息;4)个人金融资产,包含AUM、存款、理财和代发工资信息。
根据信贷业务中的各类风险点,按照信息维度、时间切片等方式,对宏观信用风险进行拆分。通过专业的特征变量构造方法进行变量衍生,基本方式有1)客户关系长度类变量:如客户开户时长,客户最大账龄等2)时间间隔类变量:如客户最近一次还款距观察点月数、客户最近一次逾期距今月数等;3)行为频率程度变量:如客户最近X个月内还款>N的次数,客户最近X月内额度使用率>N的次数等;4)当前时点变量:客户当前月额度,客户当前月余额等;5)统计值类变量:如客户最近X个月最大逾期期数,客户最近X月内平均额度使用率;6)持续行为变量:如客户最近X个月连续逾期>N的最大连续次数,客户最近X个月还款率连续>N的次数等特征变量。最终衍生出如‘当前还款金额’、‘近6个月平均逾期期数’、‘近12个月信用卡分期次数’等共3067个对客户逾期情况有潜在预测能力的特征。在本文中,观察点是指在截止到建模时采集样本的时间点,当前也是指采样截止时间,观察点和当前表示相同的含义。
表1实施例中使用到的基础变量和衍生变量的总结
实施例2特征初筛
对实施例1收集的3067个对客户逾期情况有潜在预测能力的特征(变量)进行初步筛选。
针对实施例1中划分的Sigma 1到Sigma 9这9个子模型特征的初步筛选按照如下方法进行:
第一轮初步筛选,首先剔除实施例1中收集的数据中缺失率超过95%的特征,共删除154个变量,剩余2912个变量。
第二轮初步筛选,针对经过第一轮初步筛选后的2912个特征,将剩余特征中单一值超过99%的特征剔除,共剔除87个变量,剩余2825个变量。
第三轮初步筛选,针对经过第二轮初步筛选后的2825个特征,根据特征数值排序(排序的方法具体为如果该特征为字符型变量则每个取值单独为一箱,如果该特征为数值型变量按照数值大小从小到大排序)后按照分位点等分10-20箱,计算特征IV值,若特征IV值低于0.02则将其剔除,本实施例由于变量属性为强金融类和资产类变量,预测效果较强,这里将IV值低于0.05的变量进行剔除,共剔除706个特征,剩余2119个特征变量。
第四轮初步筛选,针对经过第三轮筛选后的2119个特征,基于逐步判别算法来进行特征的进一步筛选,经过本轮筛选可以快速地筛选出221个重要特征变量。以下对逐步判别方法进行介绍,在实际数据中可能存在不同类别在某一变量上的均值差异不大,在这种情况下,使用该变量进行分类的效果将不是很好;还有一类变量,独立考虑时的确能够很好地区别数据中的不同类别,但是将这些变量都囊括进模型变量后,就有可能显得冗余了。因此实施例开创性的采用逐步判别的方法,更好的甄选出相同维度下更为重要的特征变量,大幅度减少第五轮筛选中需要根据变量趋势逐一判断筛选的工作量,在不影响整体模型效果的前提下充分提高模型开发效率。
逐步判别方法采用WILKS’S LAMBDA的准则衡量特征能力的强弱,剔除经过三轮筛选后的剩余特征中不满足所设阈值的特征。在逐步判别过程中,首先添加判别能力最强的变量,随着模型中变量的逐渐增加,较早引入的变量的判别能力也可能随之变化,如果模型中某变量的判别能力小于阈值了,就将该变量移除,然后反复这个过程,直至模型所包含的变量都满足WILKS’S LAMBDA相似比值准则,且其他变量都达不到进入模型的标准为止。
第五轮初步筛选,针对经过第四轮筛选后的221个重要特征,基于各类风险点本身的风险特性(系统预设)与样本实际的坏账率情况来进行特征的进一步筛选。
判断剩余特征的实际坏账率分布情况是否符合业务趋势,将样本实际坏账率分布不符合业务趋势的特征剔除。具体来说,
(1)将剩余目标特征按分位点等分10-20箱,计算各个箱取值中位数以及对应的坏账率。
(2)使用各箱与前一箱的取值中位数及对应坏账率计算变化率(斜率)。
(3)统计相邻两箱之间变化率中大于0箱与非0箱的数量,并计算变化率中大于0的箱数占变化率中非0箱数的百分比。
(4)获取此特征预设的风险特性,并根据上述计算变化率中大于0的箱数占变化率中非0箱数的百分比,对实际坏账率变化趋势与业务逻辑坏账率变化趋势是否近似一致。
是否近似一致的标准如下:
第一,若此特征的业务逻辑上的趋势应为:随着此特征数值增加,坏账率升高(例如信贷额度使用率等)。在此模块中将此特征在上述计算斜率中大于0的箱数占斜率非0箱数百分比小于70%的特征剔除,即将特征表现不符合业务趋势的特征剔除。
第二,若此特征的业务逻辑上的趋势应为:随着此特征数值增加,坏账率降低(例如存款金额等)。在此模块中将此特征在上述计算斜率中大于0的箱数占斜率非0箱数百分比大于30%的特征剔除,即将特征表现不符合业务趋势的特征剔除。
经过第五轮筛选剔除了66个特征,剩余155个特征。
针对实施例1中划分的Sigma 10到Sigma 12这3个子模型,选择的变量为客户基本信息类和个人金融资产类变量(总计为316个特征变量)用于近似预测无信贷申请注册客户未来发生信用逾期的概率,其特征初筛步骤和后续的步骤与其他子模型相同。
实施例3初筛后特征的转换
特征判断步骤,根据特征初筛步骤后中特征的集中度、数据类型等选择出最优转换方式。转换方式的判断时,一般情况下将数据类型分为两大类,一类是字符型变量,一类是数值型变量。对于字符型变量,一般采用哑变量的转换方式进行变量转换;对于数值型的变量,若变量取值少于5个左右将采用WOE的转换方式,若变量取值较多则采用WOE或连续型的转换方式(通过与目标变量的相关性高低选择最优转换形式)。在此过程中需要结合变量集中度的情况进行综合考虑,如连续型变量取值较多,但单一取值的集中度超过95%,则不进行连续型处理,直接使用WOE的转换方式即可。对采用不同的转换方式的特征分组并划分为不同的数据集,具体来说,
首先将实施例2中剩余的155个特征,对这些特征的转换方式进行判断,根据特征的集中度、数据类型等选择出如下的三种方式。
特征转换方式1,其用于将数据采集模块中获取特征判断模块中判断最优转换方式为WOE转换的特征,进行WOE转换。
特征转换方式2,其用于将数据采集模块中获取特征判断模块中判断最优转换方式为哑特征转换的特征,进行哑特征转换。
特征转换方式3,其用于将数据采集模块中获取特征判断模块中判定最优为连续型转换的特征,选择最优的连续型转换方式,进行连续型转换。
特征合并模块,其用于将特征转换方式1、特征转换方式2和特征转换方式3的数据进行横向拼接。
经过本实施例,将155个特征进行了转换,其中32个特征进行了WOE转换,10个特征进行了哑特征转换(扩增为23个变量),113个特征进行了连续型转换。对于Sigma 10到Sigma 12子模型的初筛后特征的转换也基本类似。
实施例4特征深度筛选(特征精筛步骤)
特征精筛步骤,在本实施例中主要进行以下4步,第1、2步基于逐步回归及计算方差膨胀因子的方式剔除出特征合并模块中多重共线性较大的特征,增强模型稳健性。第3步剔除模型中训练系数的正负号不符合业务趋势的特征。第4步使用群体稳定性系数(PSI)剔除不稳定的特征。本实施例采用SAS中LOGISTIC过程用来进行深度筛选。
特征精筛步骤1,其基于逐步回归算法,基于F检验与T检验方法,将特征基于其显著性高到低按序引入,每引入一个特征时,对已选入的特征进行逐个检验。当原引入的特征由于后面特征的引入而变得不再显著时将其剔除。循环进行此过程直到既无高于显著性阈值的特征选入方程,也无显著性低于额阈值自特征从回归方程中剔除为止。经过本步骤,将168个特征剔除为56个特征。
特征精筛步骤2,其基于剔除方差膨胀因子较高特征的方法,进一步降低模型中多重共线性。经过本步骤,将56个特征剔除为48个特征。
特征精筛步骤3,其基于各类风险点本身的风险特性(系统预设)与模型训练系数的正负符号进行对比,判断特征精筛步骤3中剩余特征在模型中的特征系数是否符合业务趋势,将模型系数不符合业务趋势的特征剔除,并重新迭代。
特征精筛模块3的具体实施方案如下:
1.对于特征转换方式为WOE类的特征,则对应模型训练系数应为负值,应将训练系数为正值的WOE转换类特征剔除。
2.对于连续型转换方式,若在业务逻辑上此特征数值增加,坏账率应升高(例如信贷额度使用率等),则对应模型训练系数应为正值,应将训练系数为负值的此类连续型转换类特征剔除;若在业务逻辑上此特征数值增加,坏账率应降低(例如存款金额等),则对应模型训练系数应为负值,应将训练系数为正值的此类连续型转换类特征剔除。
3.对于哑特征转换方式,需判断取值为1和取值为0时的坏账率,若取值为1的坏账率大于取值为0的坏账率,则系数应为正,否则为负。
特征精筛步骤4,数据稳定性监测步骤,其用于评估不同时点单个特征及整体分数的分布情况是否发生明显的偏移,本实施例将对于PSI>0.25的特征直接剔除,对于0.25>PSI>0.1的特征,根据剔除此特征对模型区分能力影响审慎进行剔除。
基于上述步骤3和4,对特征列表进行多次迭代,直至最终没有新的特征加入或剔除模型则停止迭代,获得最终的特征列表及其转换值。经过上述步骤,将48个特征剔除为最后入模的特征变量,例如可以为5个特征、6个特征、7个特征、8个特征。
实施例5 Sigma 1模型的构建
一般情况下特征变量与目标变量的相关性越强,越能提高最终模型的精准度。在本实施例中,Sigma 1作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为22万左右,其客群主要为已申请信贷业务的新客且属于经济欠发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在本实施例5中最终确认以过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、过去6个月的资产规模最小值、当前时间点的存款情况、以及过去3个月信用卡平均利息六个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对6个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的6个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
过去3个月信贷循环额度使用率平均值,体现了借款人的信贷需求。对于经济欠发达地区,短期大量的信贷需求可能时导致过度负债,最终导致逾期的发生。特征表现为过去3个月信贷循环额度使用率平均值越低,借款人的信贷需求度越低,发生严重违约可能性便越低;反之,过去3个月信贷循环额度使用率平均值越高,借款人的信贷需求度越高,发生严重违约可能性也会随之升高。转换方式为WOE方式。
当前信用卡剩余可使用额度,体现了借款人的信贷需求度。对于经济欠发达地区,收支失衡导致的过度消费很可能导致信用卡分期甚至逾期,因此信用卡剩余额度可以很好的反应客户的用款行为。当前信用卡剩余可使用额度越高,借款人的信贷需求度越低,发生严重违约可能性便越低;反之,当前信用卡剩余可使用额度越低,借款人的信贷需求度越高,发生严重违约可能性也会随之升高。转换方式为连续型转换中的立方根转换。
过去3个月信用卡平均取现笔数,体现了借款人的信贷需求度。对于经济欠发达地区,短期的资金压力可能导致客户的信用卡高息取现行为,进一步加重其资金压力,最终导致逾期。过去3个月信用卡平均取现笔数越低,借款人的信贷需求度越低,发生严重违约可能性便越低;反之,过去3个月信用卡平均取现笔数越高,借款人的信贷需求度越高,发生严重违约可能性也会随之升高。转换方式为WOE方式。
过去6个月的资产规模最小值,体现了借款人的资产最差情况。对于经济欠发达地区,中长期资产规模的最差情况有助于衡量其还款压力。过去6个月的资产规模最小值越大,借款人资产质量越高,发生严重违约可能性也会随之降低;反之过去6个月资产规模最小值越小,借款人的资产质量越低,发生严重违约可能性也会随之升高。转换方式为WOE方式。
当前存款账户剩余金额,体现了借款人的近期资产水平。对于经济欠发达地区,当前时间点的存款情况直观反映了借款人的资质。当前时点存款账户余额越低,借款人的偿债能力越低,发生严重违约的可能性便越高;反之,当前时点存款账户余额越高,借款人的偿债能力越强,发生严重违约可能性也会随之降低。转换方式为连续型转换中的立方根转换。
过去3个月信用卡平均利息,体现了借款人的信贷使用情况。对于经济欠发达地区,信用卡产生大量利息意味着客户还款能力的下降。过去3个月信用卡平均利息越低,借款人的还款能力越强,发生严重违约的可能性便越低;反之,过去3个月信用卡平均利息越高,借款人的换款能力越弱,发生严重违约的可能性也会随之升高。转换方式为WOE方式。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式1中k为6。
α为截距项,数值范围为(-0.7434,-0.4926),最优为-0.618;β1为过去3个月信贷循环额度使用率平均值对应系数,数值范围为(-0.6703,-0.6037),最优为-0.637;β2为当前信用卡剩余额度对应系数,数值范围为(-0.0649,-0.0531),最优为-0.059;β3为过去3个月信用卡平均取现笔数对应系数,数值范围为(-0.5236,-0.3864),最优为-0.455;β4为过去6个月的资产规模最小值对应系数,数值范围为(-0.0743,-0.1057),最优为-0.090;β5为当前存款账户剩余金额对应系数,数值范围为(-0.3466,-0.5034),最优为-0.425;β6为过去3个月信用卡平均利息对应系数,取值范围为(-0.2373,-0.3627),最优为-0.300。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的过去3个月信贷循环额度使用率平均值的WOE转换值;x2为特征转换步骤生成的当前信用卡剩余可使用额度的立方根转换值;x3为特征转换步骤生成的过去3个月信用卡平均取现笔数的WOE转换值;x4为特征转换步骤生成的过去6个月的资产规模最小值的WOE转换值;x5为特征转换步骤生成的当前存款账户剩余金额的立方根转换值;x6为特征转换步骤生成的过去3个月信用卡平均利息的WOE转换值。部分特征的模型表现如下表2所示。
表2
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例6 Sigma 2模型的构建
针对Sigma 2作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为23万左右,其客群主要为已申请信贷业务的新客且属于经济中等发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在本实施例6中,最终确认以是当前消费贷总额度使用率、过去3个月循环贷额度使用率平均值、当前信用卡剩余可使用额度、过去3个月月均资产规模、信用卡过去3个月平均取现笔数、过去6个月月均工资、当前时点存款账户余额七个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对7个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的7个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
当前消费贷总额度使用率,体现了借款人的信贷需求。对于经济发展中等水平的地区,是否有短期信用消费贷款的还款压力可能因过度借债导致逾期。若特征当前消费贷总额度使用率缺失,即无历史消费贷,那么借款人的信贷需求度越低,发生严重违约可能性便越低;反之,若特征当前消费贷总额度使用率非缺失,即有历史消费贷,借款人的信贷需求度越高,发生严重违约可能性也会随之升高。转换方式为WOE方式。
过去3个月循环额度使用率平均值,体现了借款人的信贷需求度。对于经济发展中等水平的地区,循环额度使用率体现了借款人的信贷使用习惯的健康程度。过去3个月循环额度使用率平均值越低,借款人的信贷需求度越低,发生严重违约可能性便越低;反之,当过去3个月循环贷额度使用率平均值越高,借款人的信贷需求度越高,发生严重违约可能性也会随之升高。转换方式为WOE方式。
当前信用卡剩余可使用额度,体现了借款人的信贷需求度。对于经济发展中等水平的地区,当前信用卡剩余可使用额度体现了借款人对信贷的依赖度。当前信用卡剩余可使用额度越高,借款人的信贷需求度越低,发生严重违约可能性便越低;反之,当前信用卡剩余可使用额度越低,借款人的信贷需求度越高,发生严重违约可能性也会随之升高。转换方式为连续型转换中的平方根转换。
过去3个月月均资产规模,体现了借款人的偿债能力。对于经济发展中等水平的地区,过去3个月月均资产规模体现了借款人近期经济能力。过去3个月月均资产规模越低,借款人的偿债能力越低,发生严重违约的可能性便越高;反之,过去3个月月均资产规模越高,借款人的偿债能力越强,发生严重违约可能性也会随之降低。转换方式为连续型转换中的平方根转换。
过去3个月信用卡平均取现笔数,体现了借款人的信贷使用情况。对于经济发展中等水平的地区,过去3个月的平均取现笔数体现了借款人近期对高息信用卡取现的依赖情况。过去3个月信用卡平均取现笔数越低,借款人的信贷使用越审慎,发生严重违约的可能性便越低;反之,过去3个月信用卡平均取现笔数越高,借款人的信贷使用越激进,发生严重违约的可能性也会随之升高。转换方式为WOE方式。
过去6个月月均工资,体现了借款人资产获得能力。对于经济发展中等水平的地区,过去6个月月均工资提前其在中长期的偿债能力。过去6个月月均工资越低,借款人的偿债能力越弱,发生严重违约的可能性便越高;反之,过去6个月月均工资越高,借款人的偿债能力越强,发生严重违约的可能性也会随之降低。转换方式为WOE方式。
当前时点存款账户余额,体现了借款人存款水平。对于经济发展中等水平的地区,当前存款是衡量近期还款能力的重要指标。当前时点存款账户余额越低,借款人近期偿债能力越弱,发生严重违约的可能性便越高;反之,过当前时点存款账户余额越高,借款人的近期偿债能力越强,发生严重违约的可能性也会随之降低。转换方式为连续型转换中的自然对数。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式2中k为7。
α为截距项,数值范围为(-0.05096,-0.43904),最优为-0.245;β1为当前消费贷总额度使用率对应系数,数值范围为(-1.82132,-2.04868),最优为-1.935;β2为过去3个月循环贷额度使用率平均值对应系数,数值范围为(-0.48984,-0.57216),最优为-0.531;β3为当前信用卡剩余可使用额度对应系数,数值范围为(-0.04112,-0.05288),最优为-0.047;β4为过去3个月月均资产规模对应系数,数值范围为(-0.20864,-0.27136),最优为-0.24;β5为信用卡过去3个月平均取现笔数对应系数,数值范围为(-0.41744,-0.55856),最优为-0.488;β6为过去6个月月均工资对应系数,数值范围为(-1.02372,-1.48628),最优为-1.255;β7为当前时点存款账户余额对应系数,数值范围为(-0.06136,-0.09664),最优为-0.079。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的当前消费贷总额度使用率的WOE转换值;x2为特征转换步骤生成的循环贷过去3个月额度使用率平均值的WOE转换值;x3为特征转换步骤生成的当前信用卡剩余可使用额度的平方根转换值;x4为特征转换步骤生成的过去3个月月均资产规模的平方根转换值;x5为特征转换步骤生成的过去3个月信用卡平均取现笔数的WOE转换值;x6为特征转换步骤生成的过去6个月月均工资的WOE转换值;x7为特征转换步骤生成的当前时点存款账户余额的自然对数转换值。部分特征的模型表现如下表3所示:
表3
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例7Sigma3模型的构建
针对Sigma 3作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为46万左右,其客群主要为已申请信贷业务的新客且属于经济比较发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在本实施例7中,最终确认以过去3个月额度使用率大于10%月数占比、当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月还款率大于等于100%的月数、当前信用卡取现笔数六个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对6个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的6个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
过去3个月额度使用率大于10%月数占比,体现了借款人的信贷需求及使用习惯。对于经济发展较为发达的地区,信用类贷款(包括信用卡)授信额度普遍偏高,因此其循环额度使用率体现了其用信意愿。过去3个月循环额度使用率>10%的月数占比越低,借款人的信贷需求度越低,发生严重违约可能性便越低;反之,过去3个月循环额度使用率>10%的月数占比越高,借款人的信贷需求度越高,发生严重违约可能性也会随之升高。转换方式为WOE方式。
当前个贷循环贷款总额度,体现了借款人的资信情况。对于经济发展较为发达的地区,能够获批循环贷款的行为本身就反映了其资信状态,能获取高额贷款说明其资产水平更高。当前个贷总循环贷款额度越高,借款人的信誉越强,发生严重违约可能性便越低;反之,当前个贷总循环贷款额度越低,借款人的信誉越弱,发生严重违约可能性也会随之升高。转换方式为WOE方式。
过去3个月额度使用率大于90%的月数,体现了借款人的信贷需求度。对于经济发展较为发达的地区,近期频繁大量的额度使用,表现客户资金压力较大,很有可能导致逾期的发生。过去3个月额度使用率>90%的月数越高,借款人的信贷需求度越高,发生严重违约可能性便越高;反之,过去3个月额度使用率>90%的月数越低,借款人的信贷需求度越低,发生严重违约可能性也会随之降低。转换方式为WOE方式。
过去12个月的月均资产规模,体现了借款人的偿债能力。对于经济发展较为发达的地区,长期的平均资产规模反应了客户的长期资产积累能力。过去12个月的月均资产规模越低,借款人的偿债能力越低,发生严重违约的可能性便越高;反之,过去12个月的月均资产规模越高,借款人的偿债能力越强,发生严重违约可能性也会随之降低。转换方式为连续型转换中的自然对数转换。
过去3个月信贷还款率大于等于100%的月数,体现了借款人的信贷还款情况。对于经济发展较为发达的地区,由于普遍收入较高,分期或逾期的行为可能预示着借款人还款能力的下降。过去3个月信贷还款率>=100%的月数越低,借款人的信贷还款情况越好,发生严重违约的可能性便越低;反之,过去3个月信贷还款率大于等于100%的月数越高,借款人的信贷还款情况越差,发生严重违约的可能性也会随之升高。转换方式为WOE方式。
当前信用卡取现笔数,体现了借款人的信贷还款情况。对于经济发展较为发达的地区,由于普遍收入较高,信用卡取现行为可能预示着借款人资金压力上升。信用卡取现笔数越低,借款人资金压力越小,发生严重违约的可能性便越高;反之,信用卡取现笔数越多,借款人的信贷金压力越大,发生严重违约的可能性也会随之升高。转换方式为WOE方式。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式3中k为6。
α为截距项,数值范围为(-2.32928,-2.45472),最优为-2.392;β1为过去3个月额度使用率大于10%月数占对应系数,数值范围为(-0.60156,-0.65644),最优为-0.629;β2为当前个贷循环贷款总额度对应系数,数值范围为(-0.84424,-0.96576),最优为-0.905;β3为过去3个月额度使用率大于90%的月数对应系数,数值范围为(-0.49976,-0.57424),最优为-0.537;β4为过去12个月的月均资产规模对应系数,数值范围为(-0.05612,-0.06788),最优为-0.062;β5为过去3个月信贷还款率大于等于100%的月数对应系数,数值范围为(-0.74304,-0.94296),最优为-0.843;β6为当前信用卡取现笔数对应系数,数值范围为(-0.35724,-0.47876),最优为-0.418。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的过去3个月额度使用率大于10%月数占比的WOE转换值;x2为特征转换步骤生成的当前个贷循环贷款总额度的WOE转换值;x3为特征转换步骤生成的过去3个月额度使用率大于90%的月数的WOE转换值;x4为特征转换步骤生成的过去12个月的月均资产规模的自然对数转换值;x5为特征转换步骤生成的过去3个月信贷还款率大于等于100%的月数的WOE转换值;x6为特征转换步骤生成当前信用卡取现笔数的WOE转换值。
部分特征的模型表现如下表4所示:
表4
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例8 Sigma 4模型构建
针对Sigma 4作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为119万左右,其客群主要为已申请信贷业务的非新客户且已经出现严重逾期的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在实施例8中,最终确认以过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、当前信用卡分期余额、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数五个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对5个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的5个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
过去12个月信用卡利息金额大于0至观测点的月数,体现了借款人的信贷需求。对于当前已发生严重逾期的借款人,由于逾期具有跨产品的传导性,其各个产品都可能出现逾期。信用卡还款的逾期状态往往是从分期付款或最低还款恶化而成的,并且因分期付款和最低还款均会产生利息,因此确定其最开始产生信用卡利息的时间可以估计还款状态变好的可能性。过去12个月信用卡利息金额大于0至观测点的月数越小,借款人变好的可能性越大,维持违约状态可能性便越低;反之,过去12个月信用卡利息金额大于0至观测点的月数越高,借款人变好的可能性越低,维持违约状态可能性便越高。转换方式为WOE方式。
当前信贷客户最大逾期期数,体现了借款人的逾期情况。对于当前已发生严重逾期的信贷客户,其最坏逾期状态体现了其回归正常还款的可能性。当前信贷客户最大逾期期数越高,借款人的逾期程度越高,持续违约可能性便越高;反之,当前信贷客户最大逾期期数越低,借款人的逾期程度越弱,脱离违约状态可能性便越高。转换方式为WOE方式。
当前信用卡分期余额,体现了借款人的还款压力。对于当前已发生严重逾期的信贷客户,其信用卡分期余额体现了其结清贷款的难度。当前信用卡分期余额越高,借款人的还款压力越大,持续违约可能性便越高;反之,当前信用卡分期余额越低,借款人的还款压力越小,脱离违约状态可能性便越高。转换方式为WOE方式。
过去3个月存款账户余额最长连续增加月数占比,体现了借款人的存款变化情况。对与严重逾期的借款人,过去3个月存款账户余额最长连续增加月数占比体现了其收入能力。过去3个月存款账户余额最长连续增加月数占比越低,借款人的存款增加月份越少,持续违约的可能性便越高;反之,过去3个月存款账户余额最长连续增加月数占比越高,借款人的存款增加月份越多,脱离违约状态可能性便越高。转换方式为WOE方式。
过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数,体现了借款人的还款能力。对于严重逾期的借款人,还款行为发生变化距今月份指示着其回归正常还款状态的可能性。过去12个月信用卡最后一次还款金额大于上期最低还款额距今月数越长,借款人的信贷近期的还款能力越弱,持续违约的可能性便越高;反之,过去12个月信用卡最后一次还款金额大于上期最低还款额距今月数越短,借款人近期的还款能力越强,违约的可能性也会随之降低。转换方式为WOE方式。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式4中,k为5。
α为截距项,数值范围为(3.49848,3.44752),最优为3.473;β1为过去信用卡12个月利息金额大于0至观测点的月数对应系数,数值范围为(-1.7838,-1.8622),最优为-1.823;β2为信贷客户最大逾期期数对应系数,数值范围为(-0.59456,-0.64944),最优为-0.622;β3为信用卡当前分期余额对应系数,数值范围为(-0.71372,-0.78428),最优为-0.749;β4为过去3个月存款账户余额最长连续增加月数占比对应系数,数值范围为(-0.3624,-0.4016),最优为-0.382;β5为过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数对应系数,数值范围为(-0.60592,-0.69608),最优为-0.651。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的信用卡过去12个月利息金额大于0至观测点的月数的WOE转换值;x2为特征转换步骤生成的当前信贷客户最大逾期期数的WOE转换值;x3为特征转换步骤生成的当前信用卡分期余额的WOE转换值;x4为特征转换步骤生成的过去3个月存款账户余额最长连续增加月数占比的WOE转换值;x5为特征转换步骤生成的过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数的WOE转换值。
部分特征的模型表现如下表5所示:
表5
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例9Sigma 5模型构建
针对Sigma 5作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为73万左右,其客群主要为已申请信贷业务的非新客户且已经出现轻中度逾期的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在实施例9中,最终确认以过去12个月信用卡利息金额大于0至观测点的月数、当前信用卡剩余可使用额度、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比五个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对5个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的5个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
过去12个月信用卡利息金额大于0至观测点的月数,体现了借款人的信贷需求。对于当前已发生轻中度逾期的借款人,由于逾期具有跨产品的传导性,其各个产品都可能出现逾期。信用卡还款的逾期状态往往是从分期付款或最低还款恶化而成的,并且因分期付款和最低还款均会产生利息,因此确定其最开始产生信用卡利息的时间可以区分其是因为过度借债导致的逾期还是偶然忘记还款导致的逾期。过去12个月信用卡利息金额大于0至观测点的月数越小,借款人无法全额还款的发生日期越近,逾期转为严重违约可能性便越低;反之,过去12个月信用卡利息金额大于0至观测点的月数越高,借款人无法全额还款的发生日期越远,逾期转为严重违约可能性也会随之升高。转换方式为WOE方式。
当前信用卡剩余可使用额度,体现了借款人的信贷需求度。对于当前已发生轻中度逾期的借款人,其信用卡剩余额度体现了其足额还款的难易度。对于当前信用卡剩余可使用额度越低,借款人的信贷需求度越低,逾期转为严重违约可能性便越低;反之,当前信用卡剩余可使用额度越高,借款人的信贷需求度越高,逾期转为严重违约可能性也会随之升高。转换方式为连续型转换中的立方根转换。
过去12个月信贷客户逾期大于0的最长连续月数,体现了借款人的逾期情况。对于当前发生轻中度逾期的借款人,过去12个月信贷客户逾期大于0的最长连续月数反映了其逾期频繁程度。过去12个月信贷客户逾期大于0的最长连续月数越高,借款人的逾期情况越频繁,逾期转为严重违约可能性便越高;反之,当过去12个月信贷客户逾期大于0的最长连续月数越低,借款人的逾期情况越偶然,逾期转为严重违约可能性也会随之降低。转换方式为WOE方式。
过去12个月信用卡额度使用率大于90%的最长连续月数,体现了借款人的存款变化情况。对于当前发生轻中度逾期的借款人,近期收入情况的变化预示了了其偿债能力的变化。过去12个月信用卡额度使用率大于90%的最长连续月数越低,借款人的存款增加月份越少,逾期转为严重违约的可能性便越高;反之,过去12个月信用卡额度使用率大于90%的最长连续月数越高,借款人的存款增加月份越多,逾期转为严重违约可能性也会随之降低。转换方式为WOE方式。
过去12个月信用卡逾期期数大于等于1的月数占比,体现了借款人的还款情况。对于轻中度逾期的借款人,过去12个月信用卡逾期期数大于等于1的月数占比体现了还款能力的边界。过去12个月信用卡逾期期数大于等于1的月数占比越小,借款人还款能力持续恶化的时间越短,逾期转为严重违约的可能性便越低;反之,过去12个月信用卡逾期期数大于等于1的月数占比越大,借款人还款能力持续恶化的时间越长,逾期转为严重违约的可能性也会随之升高。转换方式为WOE方式。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式5中,k为5。
α为截距项,数值范围为(1.2853,1.3265),最优为1.3059;β1为信用卡过去12个月利息金额大于0至观测点的月数对应系数,数值范围为(-0.5117,-0.4925),最优为-0.5021;β2为当前信用卡剩余可使用额度对应系数,数值范围为(-0.0631,-0.0603),最优为-0.0617;β3为过去12个月信贷客户逾期大于0的最长连续月数对应系数,数值范围为(-0.3677,-0.3445),最优为-0.3561;β4为过去12个月信用卡额度使用率>90%的最长连续月数对应系数,数值范围为(-0.3344,-0.3124),最优为-0.3234;β5为过去12个月信用卡逾期期数大于等于1的月数占比对应系数,数值范围为(-0.3369,-0.3141),最优为-0.3255。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的信用卡过去12个月利息金额大于0至观测点的月数的WOE转换值;x2为特征转换步骤生成的当前信用卡剩余可使用额度的连续型方式的立方根转换值;x3为特征转换步骤生成的过去12个月信贷客户逾期大于0的最长连续月数的WOE转换值;x4为特征转换步骤生成的过去12个月信用卡额度使用率大于90%的最长连续月数的WOE转换值;x5为特征转换步骤生成的过去12个月信用卡逾期期数大于等于的月数占比的WOE转换值。
部分特征的模型表现如下表6所示:
表6
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例10 Sigma 6模型构建
针对Sigma 6作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为1425万左右,其客群主要为已申请信贷业务的非新客户其未发生逾期带持有房贷的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在实施例10中,最终确认以过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、当前信用卡剩余可用额度、过去6个月的资产规模最小值、当前时间点存款账户余额、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数八个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对8个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的8个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
过去12个月最大逾期期数,体现了借款人的历史信贷行为。对于持有住房贷款的借款人,逾期行为可能预示着还款能力的恶化。过去12个月最大逾期期数越少,借款人的信贷行为越好,发生严重违约可能性便越低;反之,过去12个月最大逾期期数越多,借款人的信贷行为越差,发生严重违约可能性也会随之升高。转换方式为WOE方式。
过去3个月信用卡利息占账单余额之比,体现了借款人的信贷需求情况。对于持有住房贷款的借款人,收支失衡导致的过度消费很可能导致信用卡分期行为,因此信用卡剩余额度可以很好的反应客户的用款行为。当前信用卡剩余可使用额度越低,借款人的信贷需求越高,发生严重违约可能性便越高;反之,当前信用卡剩余可使用额度越高,借款人的信贷需求越低,发生严重违约可能性也会随之降低。转换方式为连续型转换中的平方根转换。
当前信用卡剩余可用额度,体现了借款人的信贷需求。对于持有住房贷款的借款人,信用卡产生利息一般由分期、最低还款或逾期产生,因此产生信用卡利息预示着客户资金紧张。当前信用卡剩余可用额度越低,借款人的资金压力越大,发生严重违约可能性便越低;反之,当前信用卡剩余可用额度越高,借款人的资金压力越小,发生严重违约可能性也会随之升高。转换方式为WOE方式。
过去6个月的资产规模最小值,体现了借款人中期资产的波动情况。对于持有住房贷款的借款人,中短期的最差资产水平可以更客观评估其资产水平。过去6个月的资产规模最小值越低,借款人的资产水平越低,发生严重违约的可能性便越高;反之,过去6个月的资产规模最小值越高,借款人的信贷使用越激进,发生严重违约的可能性也会随之升高。转换方式为连续型转换中的自然对数转换。
当前时间点存款账户余额,体现了借款人的资产状况。对于持有住房贷款的借款人,当前存款情况直观反映了借款人持续还款的能力。当前时间点存款账户余额越低,借款人的偿债能力越低,发生严重违约的可能性便越高;反之,当前时间点存款账户余额越高,借款人的偿债能力越强,发生严重违约可能性也会随之降低。转换方式为连续型转换中的自然对数转换。
当前信用卡额度使用率,体现了借款人当前的用信需求。对于持有住房贷款的借款人,当前信用卡额度使用率反映了其当前资金压力。当前信用卡额度使用率越低,借款人的还款压力越低,发生严重违约的可能性便越低;反之,当前信用卡额度使用率越高,借款人的还款压力越大,发生严重违约的可能性也会随之升高。转换方式为WOE方式。
是否为代发工资客户,体现了借款人当前资金来源稳定性。对于持有住房贷款的借款人,若为代发工资客户则可以根据其收入情况的衡量其还款压力。代发工资客户由于资金来源较为稳定,发生严重违约的可能性便越低;反之,非代发工资客户由于资金来源无法监控,发生严重违约的可能性也会随之升高。转换方式为WOE方式。
过去12个月信贷额度使用率大于50%的月数,体现了借款人近期的信贷需求。对于持有住房贷款的借款人,此变量反映了其还贷压力。过去12个月信贷额度使用率大于50%的月数越多,客户的还款压力越大,发生严重违约的可能性便越高;反之,过去12个月信贷额度使用率大于50%的月数越少,发生严重违约的可能性也会随之降低。转换方式为WOE方式。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式6中,k为8。
α为截距项,数值范围为(-3.14952,-3.20048),最优为-3.175;β1为过去12个月最大逾期期数对应系数,数值范围为(-0.48512,-0.49688),最优为-0.491;β2为过去3个月信用卡利息占账单余额之比对应系数,数值范围为(-0.3742,-0.3938),最优为-0.384;β3为当前信用卡剩余可用额度对应系数,数值范围为(-0.0008,-0.0012),最优为-0.001;β4为过去6个月的资产规模最小值对应系数,数值范围为(-0.08008,-0.08792),最优为-0.084;β5为当前时间点存款账户余额对应系数,数值范围为(-0.05208,-0.05992),最优为-0.056;β6为当前信用卡额度使用率对应系数,数值范围为(-0.1542,-0.1738),最优为-0.164;β7为是否为代发工资客户对应系数,数值范围为(-0.65276,-0.72724),最优为-0.69;β8为过去12个月信贷额度使用率大于0%的月数对应系数,数值范围为(-0.45264,-0.51536),最优为-0.484。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成过去12个月最大逾期期数的WOE转换值;x2为特征转换步骤生成的过去3个月信用卡利息占账单余额之比的平方根转换值;x3为特征转换步骤生成的当前信用卡剩余可用额度的WOE转换值;x4为特征转换步骤生成的过去6个月的资产规模最小值的自然对数转换值;x5为特征转换步骤生成的当前时间点存款账户余额的自然对数转换值;x6为特征转换步骤生成的当前信用卡额度使用率的WOE转换值;x7为特征转换步骤生成的是否为代发工资客户的WOE转换值;x8为特征转换步骤生成过去12个月信贷额度使用率大于50%的月数的WOE转换值。
部分特征的模型表现如下表7所示:
表7
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例11 Sigma7模型构建
针对Sigma 7作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为577万左右,其客群主要为已申请信贷业务的非新客户其未发生逾期带持有消费贷类贷款的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在实施例11中,最终确认以过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、当前信用卡剩余可使用额度、过去3个月投资理财账户余额最大增幅、当前消费贷总额度使用率、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值七个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对7个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的7个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
过去6个月信用卡平均额度使用率,体现了借款人的信贷需求。对于持有消费类贷款客群,过高的信用卡额度使用率可能预示着过度消费的行为,并可能最终导致严重逾期。过去6个月信用卡平均额度使用率越低,借款人的信贷需求度越低,发生严重违约可能性便越低;反之,过去6个月信用卡平均额度使用率越高,借款人的信贷需求度越高,发生严重违约可能性也会随之升高。转换方式为WOE方式。
当前信用卡剩余可使用额度,体现了借款人的信贷需求度。对于持有消费类贷款客群,额外信用卡高额消费可能导致其过度消费进而无力偿还贷款。当前信用卡剩余可使用额度越高,借款人的信贷需求度越低,发生严重违约可能性便越低;反之,当前信用卡剩余可使用额度越低,借款人的信贷需求度越高,发生严重违约可能性也会随之升高。转换方式为连续型转换中的自然对数转换。
过去6个月信贷客户逾期月数,体现了借款人的历史履约情况。对于持有消费类贷款客群,逾期往往意味着其资产水平的恶化。过去6个月信贷客户逾期月数越多,后续发生严重违约可能性便越高;反之,过去6个月信贷客户若无逾期,发生严重违约可能性也相对较低。转换方式为WOE方式。
过去3个月投资理财账户余额最大增幅,体现了借款人的投资行为与资产增加的状况。对于持有消费类贷款客群,过去3个月投资理财账户余额最大增幅反映了借款人的资产与收入情况。过去3个月投资理财账户余额最大增幅越低,借款人的偿债能力越强,发生严重违约的可能性便越低;反之,发生严重违约可能性较高。转换方式为连续型转换中的自然对数转换。
当前消费贷总额度使用率,体现了借款人的信贷使用态度和还款情况。对于持有消费类贷款客群,消费贷款额度使用率同时体现了使用态度及还款进度。当前消费贷总额度使用率越低,借款人的信贷使用越审慎或还款接近尾声,发生严重违约的可能性便越低;反之,当前消费贷总额度使用率越高,借款人的信贷使用越激进或还款进程刚刚开始,发生严重违约的可能性也会随之升高。转换方式为WOE方式。
过去12个月信用卡循环或分期使用月数,体现了客户的信贷需求。过去12个月信用卡循环或分期使用月数越低,借款人的信贷需求越弱,发生严重违约的可能性便越低;反之,过去12个月信用卡循环或分期使用月数越多,借款人的信贷需求越强,发生严重违约的可能性也会随之升高。转换方式为WOE方式。
过去3个月月均信贷本月最低应还款额与月均资产规模的差值,体现了客户的收支差异情况。过去3个月月均信贷本月最低应还款额与月均资产规模的差值越大,借款人的还款压力越大,发生严重违约的可能性便越高;反之,过去3个月月均信贷本月最低应还款额与月均资产规模的差值越小,借款人的还款压力越小,发生严重违约的可能性也会随之降低。转换方式为连续型转换中的立方根转换。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式7中,k为7。
α为截距项,数值范围为(-0.56984,-0.65216),最优为-0.611;β1为过去6个月信用卡平均额度使用率对应系数,数值范围为(-0.51112,-0.52288),最优为-0.517;β2为过去6个月信贷客户逾期月数对应系数,数值范围为(-0.74224,-0.76576),最优为-0.754;β3为当前信用卡剩余可使用额度对应系数,数值范围为(-0.17808,-0.18592),最优为-0.182;β4为过去3个月投资理财账户余额最大增幅对应系数,数值范围为(-0.13008,-0.13792),最优为-0.134;β5为当前消费贷总额度使用率对应系数,数值范围为(-0.2092,-0.2288),最优为-0.219;β6为过去12个月信用卡循环或分期使用月数对应系数,数值范围为(-0.15616,-0.17184),最优为-0.164;β7为过去3个月月均信贷本月最低应还款额与月均资产规模的差值对应系数,数值范围为(0.0112,0.0108),最优为0.011。(注:数值范围来自于95%置信区间,即下表中的95%CI)。
x1为特征转换步骤生成的过去6个月信用卡平均额度使用率的WOE转换值;x2为特征转换步骤生成的过去6个月信贷客户逾期月数的WOE转换值;x3为特征转换步骤生成的当前信用卡剩余可使用额度的连续型方式的自然对数转换值;x4为特征转换步骤生成的过去3个月投资理财账户余额最大增幅的连续型方式的自然对数转换值;x5为特征转换步骤生成的当前消费贷总额度使用率的WOE转换值;x6为特征转换步骤生成的过去12个月信用卡循环或分期使用月数的WOE转换值;x7为特征转换步骤生成过去3个月月均信贷本月最低应还款额与月均资产规模的差值的连续型方式的立方根转换值。部分特征的模型表现如下表8所示:
表8
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例12 Sigma 8的模型构建
针对Sigma 8作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为256万左右,其客群主要为已申请信贷业务的非新客户其未发生逾期但仅有信用卡并且循环使用的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在实施例12中,最终确认以过去12个月信用卡平均额度使用率、信用卡过去12个月逾期期数大于0月数、当前时间点存款账户余额、过去12个月信贷还款率最小值、过去3个月信用卡账单余额连续增加月数、当前信用卡剩余可使用额度六个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对6个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的6个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
过去12个月信用卡平均额度使用率,体现了借款人的信贷需求。对于信用卡分期客群,过高的信用卡平均额度使用率可能预示着长期的过度负债,并最终导致逾期。过去12个月信用卡平均额度使用率越低,借款人的长期还款压力越低,发生严重违约可能性便越低;反之,过去12个月信用卡平均额度使用率越高,借款人的长期还款越高,发生严重违约可能性也会随之升高。转换方式为连续型转换中的原始值转换。
信用卡过去12个月逾期期数大于0月数,体现了借款人的还款行为。对于信用卡分期客群,历史的信用卡逾期往往预示着其还款能力的下降。信用卡过去12个月逾期期数大于0月数越高,发生严重违约可能性便越高;反之,近12个月信用卡无逾期,发生严重违约可能性也会较低。转换方式为WOE转换。
过去12个月信贷还款率最小值,体现了借款人的还款能力。对于信用卡分期客群,还款率是评估其还款能力的重要标准。过去12个月信贷还款率最小值越低,借款人的还款能力越弱,发生严重违约可能性便越高;反之,过去12个月信贷还款率最小值越高,借款人的还款能力越强,发生严重违约可能性也会随之降低。转换方式为WOE转换。
当前时间点存款账户余额,体现了借款人的资产水平。对于信用卡分期客群,当前时间点的存款情况直观反映了借款人的还款能力。当前时点存款账户余额越低,借款人的偿债能力越低,发生严重违约的可能性便越高;反之,当前时点存款账户余额越高,借款人的偿债能力越强,发生严重违约可能性也会随之降低。转换方式为连续型转换中的立方根转换。
过去3个月信用卡账单余额连续增加月数,体现了借款人的信贷使用情况。对于信用卡分期客群,持续增长的信用卡贷余额可能预示着其财务状况的恶化。过去3个月信用卡账单余额连续增加月数越低,借款人的还款能力越强,发生严重违约的可能性便越低;反之,过去3个月信用卡账单余额连续增加月数越高,借款人的还款能力越弱,发生严重违约的可能性也会随之升高。转换方式为WOE转换。
当前信用卡剩余可使用额度,体现了借款人的信贷使用情况。对于信用卡分期客群,当前信用卡剩余可使用额度越高,借款人的资金需求越低,发生严重违约的可能性便越低;反之,当前信用卡剩余可使用额度越低,借款人的资金需求越强,发生严重违约的可能性也会随之升高。转换方式为连续型转换中的自然对数转换。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式8中,k为6。
α为截距项,数值范围为(0.66824,0.59376),最优为0.631;β1为过去12个月信用卡平均额度使用率对应系数,数值范围为(0.00125,0.00075),最优为0.001;β2为信用卡过去12个月逾期期数大于0月数对应系数,数值范围为(-0.6112,-0.6308),最优为-0.621;β3为当前时间点存款账户余额对应系数,数值范围为(-0.08604,-0.08996),最优为-0.088;β4为过去12个月信贷还款率最小值对应系数,数值范围为(-0.44932,-0.48068),最优为-0.465;β5为过去3个月信用卡账单余额连续增加月数对应系数,数值范围为(-0.18944,-0.23256),最优为-0.211;β6为当前信用卡剩余可使用额度对应系数,数值范围为(-0.10604,-0.10996),最优为-0.108。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的过去12个月信用卡平均额度使用率的连续型方式的原始值转换值;x2为特征转换步骤生成的信用卡过去12个月逾期期数大于0月数的WOE转换值;x3为特征转换步骤生成当前时间点存款账户余额的连续型方式的立方根转换值;x4为特征转换步骤生成的过去12个月信贷还款率最小值的WOE转换值;x5为特征转换步骤生成的过去3个月信用卡账单余额连续增加月数的WOE转换值;x6为特征转换步骤生成当前信用卡剩余可使用额度的连续型方式的自然对数转换值。部分特征的模型表现如下表9所示:
表9
/>
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例13 Sigma 9的模型构建
针对Sigma 9作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为4033万左右,其客群主要为已申请信贷业务的非新客户其未发生逾期但仅有信用卡并且未循环使用的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在实施例13中,最终确认信用卡开户时长、当前时间点存款账户余额、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值五个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对5个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的5个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
信用卡开卡时长,体现了借款人的信贷历史。对于信用卡未分期客群,逾期情况与信用史的长短较为相关。信用卡开卡时长越长,借款人的信贷历史越长越稳定,发生严重违约可能性便越低;反之,信用卡开卡时长越短,借款人的信贷行为越模糊,发生严重违约可能性也会随之升高。转换方式为连续型转换中的自然对数转换。
过去12个月信用卡最大取现额度使用率,体现了借款人的信贷需求度。对于信用卡未分期客群,信用卡取现行为可能预示着其近期资金紧张。过去12个月信用卡最大取现额度使用率越低,借款人资金紧张程度越低,发生严重违约可能性便越低;反之,过去12个月信用卡最大取现额度使用率越高,借款人资金紧张程度越高,发生严重违约可能性也会随之升高。转换方式为WOE转换。
过去12个月信用卡全额还款月数,体现了借款人的还款能力。对于信用卡未分期客群,历史是否有逾期或分期体现了其长期的偿债能力。信用卡过去12个月信用卡全额还款月数越高,借款人的偿债能力越强,发生严重违约可能性便越低;反之,信用卡过去12个月全额还款月数越低,借款人的偿债能力越弱,发生严重违约可能性也会随之升高。转换方式为WOE转换。
当前时间点存款账户余额,体现了借款人的资产情况。对于信用卡未分期客群,当前时间点的存款情况直观反映了借款人的资质。当前时间点存款账户余额越低,借款人的偿债能力越低,发生严重违约的可能性便越高;反之,当前时间点存款账户余额越高,借款人的偿债能力越强,发生严重违约可能性也会随之降低。转换方式为连续型转换中的自然对数转换。
过去6个月月均信贷月最低应还款额与月均资产规模差值,体现了借款人的信贷偿债能力。对于信用卡未分期客群,最低应还款与月均资产规模差值可以更加明确的体现偿债能力。过去6个月月均信贷月最低应还款额与月均资产规模差值为正时,借款人负债高于资产,发生严重违约的可能性便越高;反之,过去6个月月均信贷月最低应还款额与月均资产规模差值为负时,借款人资产高于负债,发生严重违约的可能性也会随之降低。转换方式为连续型转换中的立方根转换。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式9中,k为5。
α为截距项,数值范围为(0.64448,0.59352),最优为0.619;β1为信用卡开户时长对应系数,数值范围为(-0.38812,-0.39988),最优为-0.394;β2为当前时间点存款账户余额对应系数,数值范围为(-0.08204,-0.08596),最优为-0.084;β3为过去12个月信用卡最大取现使用率对应系数,数值范围为(-0.22912,-0.24088),最优为-0.235;β4为过去12个月信用卡全额还款月数对应系数,数值范围为(-0.17112,-0.18288),最优为-0.177;β5为过去6个月月均信贷月最低应还款额与月均资产规模差值对应系数,数值范围为(0.00602,0.00598),最优为0.006。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的信用卡开户时长的连续型转换的自然对数转换值;x2为特征转换步骤生成的当前时间点存款账户余额的连续型转换的自然对数转换值;x3为特征转换步骤生成的过去12个月信用卡最大取现额度使用率的WOE转换值;x4为特征转换步骤生成的过去12个月信用卡全额还款月数的WOE转换值;x5为特征转换步骤生成的过去6个月月均信贷月最低应还款额与月均资产规模差值的连续型转换的立方根转换值。部分特征的模型表现如下表10所示:
表10
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例14 Sigma 10模型的构建
针对Sigma 10作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为22万左右,其客群主要为未申请信贷业务的潜在客户且属于经济欠发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在实施例14中,最终确认以当前时点存款账户余额、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产规模的百分比、当前代发工资所在区域分位点数五个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对5个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的5个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
当前时点存款账户余额,体现了借款人的资产水平。对于经济发展欠发达的地区的新申请客群,当前是资产水平越高,发生严重违约可能性便越低;反之,资产水平越低,发生严重违约可能性也会随之升高。转换方式为连续型转换中的对数转换。
过去3个月投资理财账户最大余额,体现了借款人的投资习惯。对于经济发展欠发达的地区的新申请客群,良好的投资习惯保证了其还款能力。过去3个月投资理财账户最大余额越低,借款人的投资习惯越差,发生严重违约可能性便越高;反之,当过去3个月投资理财账户最大余额越高,借款人的投资习惯越好,发生严重违约可能性也会随之降低。转换方式为WOE转换。
过去3个月资产规模连续减少月份数,体现了借款人的资产水平波动。对于经济发展欠发达的地区的新申请客群,其资产水平的连续降低意味着资金持续的入不敷出。过去3个月资产规模连续减少月份数越高,借款人资金入不敷出的情况越严重,发生严重违约可能性便越高;反之,过去3个月资产规模连续减少月份数越低,借款人资金情况越稳定,发生严重违约可能性也会随之降低。转换方式为WOE转换。
过去3个月月均工资占月均资产规模的百分比,体现了借款人的储蓄情况。对于经济发展欠发达的地区的新申请客群,是否有长期储蓄的习惯决定了其长期还款能力。过去3个月月均工资占月均资产规模的百分比越低,说明借款人当月的工资占总资产的比例越小,因此其长期储蓄习惯越好,发生严重违约的可能性便越低;反之,过去3个月月均工资占月均资产规模的百分比越高,说明借款人过去3个月月均工资占总资产的比例越大,因此其长期储蓄习惯越差,发生严重违约可能性也会随之升高。转换方式为WOE转换。
当前代发工资所在区域分位点,体现了借款人收入水平。对于经济发展欠发达的地区的新申请客群,当前代发工资所在区域分位点越低,借款人的收入水平越低,发生严重违约的可能性便越高;反之,过当前代发工资所在区域分位点越高,借款人的收入水平越高,发生严重违约的可能性也会随之降低。转换方式为WOE转换。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式10中,k为5。
α为截距项,数值范围为(-1.65504,-1.85496),最优为-1.755;β1为当前时点存款账户余额对应系数,数值范围为(-0.12828,-0.15572),最优为-0.142;β2为过去3个月投资理财账户最大余额对应系数,数值范围为(-0.52164,-0.78036),最优为-0.651;β3为过去3个月资产规模连续减少月份数对应系数,数值范围为(-1.25768,-2.20632),最优为-1.732;β4为过去3个月月均工资占月均资产规模的百分比对应系数,数值范围为(-0.20416,-0.41584),最优为-0.31;β5为当前代发工资所在区域分位点数对应系数,数值范围为(-0.10288,-0.48312),最优为-0.293。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的当前时点存款账户余额的连续型方式的取对数转换值;x2为特征转换步骤生成的过去3个月投资理财账户最大余额的WOE转换值;x3为特征转换步骤生成的过去3个月资产规模连续减少月份数的WOE转换值;x4为特征转换步骤生成的过去3个月月均工资占月均资产规模的百分比的WOE转换值;x5为特征转换步骤生成的当前代发工资所在区域分位点数的WOE转换值。
部分特征的模型表现如下表11所示:
表11
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例15 Sigma 11模型的构建
针对Sigma 11作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为23万左右,其客群主要为未申请信贷业务的潜在客户且属于经济中等发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在实施例15中,最终确认以当前时点存款账户余额、过去3个月月均资产规模、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数六个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对6个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的6个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
当前时点存款账户余额,体现了借款人的资产水平。对于经济发展中等发达的地区的新申请客群,当前是资产水平越高,发生严重违约可能性便越低;反之,资产水平越低,发生严重违约可能性也会随之升高。转换方式为连续型转换中的自然对数转换。
过去3个月月均资产规模,体现了借款人的资产水平情况。对于经济发展中等发达的地区的新申请客群,其资产水平的绝对数值更能体现其资产质量。过去3个月月均资产规模越高,借款人资金越充沛,发生严重违约可能性便越低;反之,过去3个月月均资产规模越低,借款人资金越稀少,发生严重违约可能性也会随之升高。转换方式为连续型转换中的自然对数转换。
过去3个月投资理财账户平均余额,体现了借款人的投资习惯。对于经济发展中等发达的地区的新申请客群,良好的投资习惯保证了其还款能力。过去3个月投资理财账户平均余额越低,借款人的投资习惯越差,发生严重违约可能性便越高;反之,当过去3个月投资理财账户平均余额越高,借款人的投资习惯越好,发生严重违约可能性也会随之降低。转换方式为WOE转换。
过去3个月资产规模值最长连续减少月数,体现了借款人的资产水平波动。对于经济发展中等发达的地区的新申请客群,其资产水平的连续降低意味着资金持续的入不敷出。过去3个月资产规模值最长连续减少月数越高,借款人资金入不敷出的情况越严重,发生严重违约可能性便越高;反之,过去3个月资产规模值最长连续减少月数越低,借款人资金情况越稳定,发生严重违约可能性也会随之降低。转换方式为WOE转换。
过去12个月的工资最大值,体现了借款人收入水平。对于经济发展中等发达的地区的新申请客群,过去12个月的工资最大值体现了其整体的收入水平。过去12个月的工资最大值越低,借款人的整体收入水平越低,发生严重违约的可能性便越高;反之,过去12个月的工资最大值越高,借款人的整体收入水平越高,发生严重违约的可能性也会随之降低。转换方式为WOE转换。
过去6个月存款账户时点最大余额距观察点月数,体现了借款人的存款变化情况。过去6个月存款账户时点最大余额距观察点月数越近,借款人的资产逐步升高的可能性越大,发生严重违约的可能性便越低;反之,过去6个月存款账户时点最大余额距观察点月数越近越远,借款人的资产逐步降低的可能性越大,发生严重违约的可能性也会随之升高。转换方式为WOE转换。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
其中,k为进入的模型的特征数量,在公式11中,k为6。
α为截距项,数值范围为(-0.50444,-0.84156),最优为-0.673;β1为当前时点存款账户余额对应系数,数值范围为(-0.13036,-0.16564),最优为-0.148;β2为过去3个月月均资产规模对应系数,数值范围为(-0.19664,-0.25936),最优为-0.228;β3为过去3个月投资理财账户平均余额对应系数,数值范围为(-0.26772,-0.63228),最优为-0.45;β4为过去3个月资产规模值最长连续减少月数对应系数,数值范围为(-0.78496,-1.17304),最优为-0.979;β5为过去12个月的工资最大值对应系数,数值范围为(-0.35304,-0.74896),最优为-0.551;β6为过去6个月存款账户时点最大余额距观察点月数对应系数,数值范围为(-0.29792,-0.78008),最优为-0.539。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的当前时点存款账户余额的连续型方式的自然对数转换值;x2为特征转换步骤生成的过去3个月月均资产规模的连续型方式的自然对数转换值;x3为特征转换步骤生成的过去3个月投资理财账户平均余额的WOE转换值;x4为特征转换步骤生成的过去3个月资产规模值最长连续减少月数的WOE转换值;x5为特征转换步骤生成的过去12个月的工资最大值的WOE转换值;x6为特征转换步骤生成的过去6个月存款账户时点最大余额距观察点月数的WOE转换值。
部分特征的模型表现如下表12所示:
表12
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例16 Sigma 12模型的构建
针对Sigma 12作为细分模型的一个子模型,采取上述决策树方法,分类获得的样本量为46万左右,其客群主要为未申请信贷业务的潜在客户且属于经济比较发达地区的客户,构建模型用于预测其人群发生信贷逾期90天以上的概率(目标变量)。
在实施例16中,最终确认以过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数五个特征为例来描述最终建模结果。在特征转换步骤转换方式选择中,已经根据特征与目标变量的相关性对5个入模变量进行了相应形式的转换。在信用违约概率建模步骤将经过特征精筛步骤筛选的5个特征代入Sigmoid函数(利用SAS软件的LOGISTIC过程)进行逻辑回归计算信用违约概率的模型。
过去3个月的资产规模最大值,体现了借款人的资产水平情况。对于经济发展发达的地区的新申请客群,其资产水平波动较大,因此短期资产水平的最大值数值更能体现其资产质量,是资产水平越高,发生严重违约可能性便越低;反之,资产水平越低,发生严重违约可能性也会随之升高。转换方式为连续型转换中的立方根转换。
过去3个月存款账户最小余额,体现了借款人的存款情况。对于经济发展发达的地区的新申请客群,其存款最小是更能体现其资产质量。过去3个月月存款账户最小余额越高,借款人资金越充沛,发生严重违约可能性便越低;反之,过去3个月存款账户最小余额越低,借款人资金越少,发生严重违约可能性也会随之升高。转换方式为连续型转换中的自然对数转换。
过去3个月投资理财账户最大余额,体现了借款人的投资习惯。对于经济发展发达的地区的新申请客群,良好的投资习惯保证了其还款能力。过去3个月投资理财账户最大余额越低,借款人的投资习惯越差,发生严重违约可能性便越高;反之,当过去3个月投资理财账户最大余额越高,借款人的投资习惯越好,发生严重违约可能性也会随之降低。转换方式为WOE方式。
当前代发工资所在单位分位数,体现了借款人的收入能力和工作稳定性。对于经济发展发达的地区的新申请客群,代发工资所在单位水平分位数越高,借款人的收入能力及稳定性越强,发生严重违约可能性便越低;反之,代发工资所在单位水平分位数越低,借款人的收入能力及稳定性越若,发生严重违约可能性也会随之升高。转换方式为WOE方式。
过去12个月存款账户最大余额时点距观察点月数,体现了借款人的存款变化情况。对于经济发展发达的地区的新申请客群,过去12个月存款账户最大余额时点距观察点月数越近,借款人近期存款越多,发生严重违约的可能性便越低;反之,过去12个月存款账户最大余额时点距观察点月数越大,说明借款人存款发生了降低,发生严重违约的可能性也会随之升高。转换方式为WOE方式。
在计算信用违约概率步骤中,根据特征转换步骤获取的数据及系数情况,使用如下模型公式来预测表征所述借款人为违约的概率(P):
/>
其中,k为进入的模型的特征数量,在公式12中,k为5。
α为截距项,数值范围为(-2.18528,-2.31072),最优为-2.248;β1为过去3个月的资产规模最大值对应系数,数值范围为(-0.02008,-0.02792),最优为-0.024;β2为过去3个月存款账户最小余额对应系数,数值范围为(-0.08928,-0.11672),最优为-0.103;β3为过去3个月投资理财账户最大余额对应系数,数值范围为(-0.45036,-0.68164),最优为-0.566;β4为当前代发工资所在单位分位数对应系数,数值范围为(-0.11148,-0.64852),最优为-0.38;β5为过去12个月存款账户最大余额时点距观察点月数对应系数,数值范围为(-0.35424,-0.57376),最优为-0.464。(注:数值范围来自于95%置信区间,即下表中的95%CI)
x1为特征转换步骤生成的过去3个月的资产规模最大值的连续型方式的立方根转换值;x2为特征转换步骤生成的过去3个月存款账户最小余额的连续型方式的自然对数转换值;x3为特征转换步骤生成的过去3个月投资理财账户最大余额的WOE转换值;x4为特征转换步骤生成的当前代发工资所在单位分位数的WOE转换值;x5为特征转换步骤生成过去12个月存款账户最大余额时点距观察点月数的WOE转换值。
部分特征的模型表现如下表13所示:
表13
所有模型特征的P值均小于0.05,说明上述特征与违约表现显著相关。
实施例17
针对上述各个公式计算得到的P值,可以进一步来计算任意一个客户的评分。
计算评分步骤,其用于将预存有默认的分数转换代码,对计算得到的信用违约概率转换为0-1000分的分数。
在计算评分模块中,利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
在本实施例中可以代入上述各实施例中计算的P值来计算得分。
KS(Kolmogorov-Smirnov)统计量由两位苏联数学家A.N.Kolmogorov和N.V.Smirnov提出。在风控中,KS常用于评估模型区分度。区分度越大,说明模型的风险排序能力(ranking ability)越强。
KS统计量是基于经验累积分布函数(Empirical Cumulative DistributionFunction,ECDF)建立的,一般定义为:
KS=max(|cum(bad_rate)-cum(good_rate)|)
按照预测模型,画出KS曲线,本实施例以整体Sigma模型为例的KS为75.25,可以看出本实施例构建的模型在评估客户信用风险功能方面表现出色,结果图2展示了KS值为58的KS曲线图的示例。
以下显示了模型应用于开发样本和预留验证样本的KS值在开发样本和验证样本的结果。从表14中可以看出模型在训练集和验证集(其中训练集和验证集的样本数量比为6:4)以及整体样本中的区分效果均较好,即在所有的子模型中区分效果均非常优异。
表14
/>
Claims (87)
1.一种构建零售信用风险预测模型的方法,其包括:
数据采集步骤,其获取用于构建模型的样本的原始零售信用预测数据;
数据衍生步骤,其基于原始的零售信用预测数据加工出衍生零售信用预测数据;
特征初筛步骤,其对包括原始零售信用预测数据和衍生零售信用预测数据的全部类别,即全部特征进行初步筛选,以获得初步筛选后的特征;
初筛数据转换步骤,对初步筛选后的特征进行转换方式的判断以确认采用WOE转换方式、哑特征转换方式以及连续型转换方式中的一种来进行特征转换,并针对每一个初步筛选后的特征采用判断的最优方式来进行特征转换;
特征精筛步骤,对进行特征转换后的初步筛选的特征进行深度筛选以获得精筛后的特征;
信用违约概率建模步骤,针对精筛后的特征结合与信用违约之间的概率关系选择逻辑回归的方式进行模型构建,并确认用于计算信用违约概率的方式。
2.根据权利要求1所述的方法,其中,
在数据采集步骤中,获取的用于构建模型的样本的原始零售信用预测数据包括:
信用卡类基础数据,其是基于样本用户的信用卡创建过程和使用过程中全部可获取的数据,
个人贷款类基础数据,其是基于样本用户的贷款申请情况及使用行为的全部可获取的数据,
客户基本信息类基础数据,其是基于样本用户本身的属性,但与在金融机构的行为不直接关联的数据,
个人金融资产类基础数据,其是样本用户在金融机构与信用卡和贷款不相关的其他全部金融资产和金融交易类数据。
3.根据权利要求1所述的方法,其中,
在数据衍生步骤中,基于原始的零售信用预测数据加工出衍生零售信用预测数据是指基于时间维度、空间维度、频率维度、统计信息维度对采集的原始的零售信用预测数据进行加工而得到的数据;
优选,衍生零售信用预测数据包括但不限于:
基于样本关系长度进行加工得到的衍生零售信用预测数据,
基于时间间隔类变量进行加工得到的衍生零售信用预测数据,
基于样本行为频率程度进行加工得到的衍生零售信用预测数据,
基于样本当前时间点情况进行加工得到的衍生零售信用预测数据,
基于样本持续行为进行加工得到的衍生零售信用预测数据,
基于统计信息维度对样本数据进行加工得到的衍生零售信用预测数据。
4.根据权利要求1~3中任一项所述的方法,其中,
特征初筛步骤包括如下步骤:
第一初筛步骤,基于用于构建模型的样本的每一特征的数据缺失情况来对特征进行筛选,
第二初筛步骤,基于某一特征样本的单一值过高情况来对特征进行筛选,
第三初筛步骤,计算每一个特征的信息IV值对特征进行初步筛选;
第一初筛步骤、第二初筛步骤和第三初筛步骤的顺序可以为任意顺序,
第四初筛步骤,对经过第一~第三初步筛选后的特征采用逐步判别算法进行特征的初步筛选;
第五初筛步骤,对经过第四初筛步骤之后的特征基于各个特征本身的风险特性与用于模型构建的样本实际的真实结果的吻合情况来进行特征的初步筛选。
5.根据权利要求1~4中任一项所述的方法,其中,还包括:
样本选定步骤,其用于在数据采集步骤之前对全部用户进行筛选以获取用于模型构建的样本,
优选,样本选定步骤包括基于决策树对样本全部用户进行分类,分类依据包括但不限于:
某一用户是否是已在金融机构申请注册信贷业务的客户;
某一用户是否属于在金融机构无申请注册信贷业务的客户;
某一用户办理业务归属的地理区域;
某一用户是否已经发生过金融机构风险事件;
某一用户是否持有金融机构发行的信用卡和/或信用卡是否持续使用和/或信用卡或个人贷款是否进行额度的循环支用。
6.根据权利要求1~5中任一项所述的方法,其中,在初筛数据转换步骤中,初步筛选后的特征进行转换方式的判断,是基于经过初步筛选特征的集中度和数据类型来进行判断的。
7.根据权利要求6所述的方法,其中,
初筛数据转换步骤基于集中度和数据类型的判断包括如下步骤:
针对每一特征的数据类型进行分类将每一特征分类成字符型变量和数值型变量,
对字符型变量采用哑特征转换方式进行初筛数据转换,
对数值型变量进一步进行分类的过程包括如下子步骤:
如果该数值型变量的取值少于n个,采用WOE的转换方式进行初筛数据转换,
如果该数值型变量的取值在n个以上时,进一步判断如果转换为连续型变量取值较多且单一取值的集中度大于m%,则采用WOE的转换方式,如果单一取值的集中度小于等于m%,则采用连续型的转换方式,
优选,n和m均为正整数,其中n=5~10,m=90~99。
8.根据权利要求7所述的方法,其中,还包括:
针对确认采用连续型的转换方式的特征基于该特征在不同连续型转换方式下与信用违约的相关性高低来选择最优转换方法来进行该特征的连续型特征转换,
优选采用直接选取原始值、计算原始数据的平方、计算原始数据平方根、计算原始数据立方根或计算原始数据自然对数的方式进行连续型特征转换。
9.根据权利要求1~8中任一项所述的方法,其中,特征精筛步骤包括:
第一精筛步骤,基于逐步回归算法,基于F检验与T检验对特征的显著性进行特征的筛选,
第二精筛步骤,基于每个特征计算方差膨胀因子并剔除方差膨胀因子较高的特征来进行特征的筛选,
第三精筛步骤,基于逻辑回归对经过第一精筛步骤和第二精筛步骤之后的特征,分析特征系数是否符合针对信用违约的预测结果的趋势以进一步进行特征筛选。
10.根据权利要求1~9中任一项所述的方法,其中,信用违约概率建模步骤将经过特征精筛步骤筛选的特征代入Sigmoid函数进行逻辑回归计算信用违约概率的模型。
11.一种计算零售信用风险的方法,其包括:
数据采集步骤,其获取待预测样本的零售信用预测数据;
对待预测样本进行分类的步骤,其基于决策树方法将待预测样本进行分类以确定用于计算信用违约概率的子模型;
信用违约概率计算步骤,将零售信用预测数据代入信用违约概率子模型中以计算所述待预测样本的信用违约概率。
12.根据权利要求11所述的方法,其还包括:
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤,其用于将计算得到的信用违约概率校准至0-1000分的标准化分数。
13.根据权利要求11或12所述的方法,其中,
所述零售信用预测数据包括待预测样本的原始零售信用预测数据以及基于原始的零售信用预测数据加工出衍生零售信用预测数据;
优选,所述原始零售信用预测数据包括:
信用卡类基础数据,其是基于样本用户的信用卡创建过程和使用过程中全部可获取的数据,
个人贷款类基础数据,其是基于样本用户的贷款申请情况及使用行为的全部可获取的数据,
客户基本信息类基础数据,其是基于样本用户本身的属性,但与在金融机构的行为不直接关联的数据,
个人金融资产类基础数据,其是样本用户在金融机构与信用卡和贷款不相关的其他全部金融资产和金融交易类数据。
14.根据权利要求11~13中任一项所述的方法,其中,
基于原始的零售信用预测数据加工出衍生零售信用预测数据是指基于时间维度、空间维度、频率维度、统计信息维度对采集的原始的零售信用预测数据进行加工而得到的数据;
优选,衍生零售信用预测数据包括但不限于:
基于样本关系长度进行加工得到的衍生零售信用预测数据,
基于时间间隔类变量进行加工得到的衍生零售信用预测数据,
基于样本行为频率程度进行加工得到的衍生零售信用预测数据,
基于样本当前时间点情况进行加工得到的衍生零售信用预测数据,
基于样本持续行为进行加工得到的衍生零售信用预测数据,
基于统计信息维度对样本数据进行加工得到的衍生零售信用预测数据。
15.根据权利要求11~14中任一项所述的方法,其中,
所述零售信用预测数据选自以下中的一种或两种或三种或四种或五种或六种或七种或八种:
过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、当前时间点存款账户余额、过去3个月信用卡分期余额大于0月数占比、当前消费贷总额度使用率、过去3个月月均资产规模、过去6个月平均工资、过去3个月循环额度使用率大于10%的月数占比、当前个贷循环贷款总额度当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月信贷还款率大于等于100%的月数、当前信用卡取现笔数、过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比、过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、过去6个月的资产规模最小值、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数、过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、过去3个月投资理财账户余额最大增幅、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值、过去12个月信用卡平均额度使用率、过去12个月信贷还款率最小、过去3个月信用卡账单余额连续增加月数、信用卡开户时长、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产规模的百分比、当前代发工资所在区域分位数、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数、过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数、过去12个月存款账户最大余额距观察点月数、当前时点存款账户余额、信用卡过去12个月逾期期数大于0月数、过去12个月信贷还款率最小值、当前信用卡剩余可用额度、当前信用卡剩余额度、过去3个月循环贷额度使用率平均值、信用卡过去3个月平均取现笔数、以及当前信用卡分期余额。
16.根据权利要求11~15中任一项所述的方法,其中,
对待预测样本进行分类的步骤包括如下子步骤:
该待测样本是否是已在金融机构申请信贷业务的客户;
该待测样本是否属于在金融机构且无信贷申请的客户;
该待测样本办理业务归属的地理区域;
该待测样本是否已经发生过金融机构风险事件;
该待测样本是否持有金融机构发行的信用卡和/或信用卡是否持续使用和/或信用卡或个人贷款是否进行额度的循环支用,
基于上述子步骤对待预测样本进行分类以确定用于计算信用违约概率的子模型,在保证业务逻辑合理的前提下,上述子步骤进行的顺序可以任意设定;
优选按照如下顺序对待预测样本进行分类:
首先判断该待测样本是否是已在金融机构申请信贷业务的客户;
然后判断该待测样本是否属于在金融机构且无信贷申请的客户;
再然后判断该待测样本办理业务归属的地理区域;
再然后判断该待测样本是否已经发生过金融机构风险事件;
再然后判断该待测样本是否持有金融机构发行的信用卡和/或信用卡是否持续使用和/或信用卡或个人贷款是否进行额度的循环支用。
17.根据权利要求11~16中任一项所述的方法,其中,
对零售信用预测数据进行特征转换后再代入信用违约概率子模型中计算所述待预测样本的信用违约概率,所述特征转换步骤包括:
基于需要代入信用违约概率子模型的零售信用预测数据的特征类型选择WOE方式或连续型方式进行特征转换。
18.根据权利要求17所述的方法,其中,
采用连续型方式进行特征转换包括如下方式:直接选取原始值、计算原始数据的平方、计算原始数据平方根、计算原始数据立方根或计算原始数据自然对数的方式进行连续型特征转换。
19.根据权利要求11~18中任一项所述的方法,其中,
信用违约概率子模型为基于样本零售信用预测数据和信用违约概率采用逻辑回归基于已有用户人群构建的模型,优选是基于权利要求1~10中任一项所述的方法构建的模型。
20.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、过去6个月的资产规模最小值、当前时点存款账户余额、以及过去3个月信用卡平均利息中的一个、两个、三个、四个、五个或六个。
21.根据权利要求20所述的方法,其中,信用违约概率计算步骤包括:
将过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、过去6个月的资产规模最小值、当前时点存款账户余额、以及过去3个月信用卡分期余额大于0月数占比进行特征转换,
优选对过去3个月信贷循环额度使用率平均值采用WOE方式进行转换;对当前信用卡剩余可使用额度采用连续型转换方式;对过去3个月信用卡平均取现笔数采用WOE方式进行转换;对过去6个月的资产规模最小值采用WOE方式进行转换;对当前时点存款账户余额采用连续型转换方式;对过去3个月信用卡分期余额大于0月数占比进采用WOE方式;
进一步优选,对当前信用卡剩余可使用额度采用连续型转换方式为对当前信用卡剩余可使用额度取立方根的计算方式;对当前时点存款账户余额采用连续型转换方式为对当前时点存款账户余额取立方根的计算方式。
22.根据权利要求21所述的方法,其中,
将过去3个月信贷循环额度使用率平均值、当前信用卡剩余可使用额度、过去3个月信用卡平均取现笔数、过去6个月的资产规模最小值、当前时间点存款账户余额、以及过去3个月信用卡分期余额大于0的月数占比这六个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
23.根据权利要求22所述的方法,其中,
其中所述子模型如下公式1所示:
其中,k为进入的模型的特征数量,优选k为6,
α为截距项,优选的数值范围为(-0.7434,-0.4926),最优为-0.618;
β1为过去3个月信贷循环额度使用率平均值对应系数,优选的数值范围为(-0.6703,-0.6037),最优为-0.637;
β2为当前信用卡剩余额度对应系数,优选的数值范围为(-0.0649,-0.0531),最优为-0.059;
β3为过去3个月信用卡平均取现笔数对应系数,优选的数值范围为(-0.5236,-0.3864),最优为-0.455;
β4为过去6个月的资产规模最小值对应系数,优选的数值范围为(-0.0743,-0.1057),最优为-0.090;
β5为当前存款账户剩余金额对应系数,优选的数值范围为(-0.3466,-0.5034),最优为-0.425;
β6为过去3个月信用卡平均利息,优选的取值范围为(-0.2373,-0.3627),最优为-0.300,
x1为特征转换步骤生成的过去3个月信贷循环额度使用率平均值的WOE转换值;
x2为特征转换步骤生成的当前信用卡剩余可使用额度的立方根转换值;
x3为特征转换步骤生成的过去3个月信用卡平均取现笔数的WOE转换值;
x4为特征转换步骤生成的过去6个月的资产规模最小值的WOE转换值;
x5为特征转换步骤生成的当前存款账户剩余金额的立方根转换;
x6为特征转换步骤生成的过去3个月信用卡平均利息的WOE转换值。
24.根据权利要求23所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
25.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:当前消费贷总额度使用率、过去3个月循环贷额度使用率平均值、当前信用卡剩余可使用额度、过去3个月月均资产规模、信用卡过去3个月平均取现笔数、过去6个月月均工资、当前时点存款账户余额中的一个、两个、三个、四个、五个、六个或七个。
26.根据权利要求25所述的方法,其中,信用违约概率计算步骤包括:
将当前消费贷总额度使用率、过去3个月循环贷额度使用率平均值、当前信用卡剩余可使用额度、过去3个月月均资产规模、信用卡过去3个月平均取现笔数、过去6个月月均工资、以及当前时点存款账户余额进行特征转换,
优选对当前消费贷总额度使用率采用WOE方式进行转换;对过去3个月循环贷额度使用率平均值采用WOE方式进行转换;对当前信用卡剩余可使用额度采用连续型方式进行转换;对过去3个月月均资产规模采用连续型方式进行转换;对信用卡过去3个月平均取现笔数采用WOE方式进行转换;对过去6个月月均工资采用WOE方式进行转换;对当前时点存款账户余额采取连续型方式进行转换;
进一步优选,对当前信用卡剩余可使用额度采用连续型方式转换是对当前信用卡剩余可使用额度取平方根的计算方式,对过去3个月月均资产规模采用连续型方式进行转换是对过去3个月月均资产规模取平方根的计算方式,对当前时点存款账户余额采取连续型方式进行转换是对当前时点存款账户余额取自然对数的计算方式。
27.根据权利要求25所述的方法,其中,
将当前消费贷总额度使用率、过去3个月循环贷额度使用率平均值、当前信用卡剩余可使用额度、过去3个月月均资产规模、信用卡过去3个月平均取现笔数、过去6个月月均工资、以及当前时点存款账户余额这七个特征转换后的数值代入基于样本零售信用预测数据采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
28.根据权利要求27所述的方法,其中,
所述子模型如下公式2所示:
其中,k为进入的模型的特征数量,优选k为7;
α为截距项,优选的数值范围为(-0.05096,-0.43904),最优为-0.245;
β1为当前消费贷总额度使用率对应系数,优选的数值范围为(-1.82132,-2.04868),最优为-1.935;
β2为过去3个月循环贷额度使用率平均值对应系数,优选的数值范围为(-0.48984,-0.57216),最优为-0.531;
β3为当前信用卡剩余可使用额度对应系数,优选的数值范围为(-0.04112,-0.05288),最优为-0.047;
β4为过去3个月月均资产规模对应系数,优选的数值范围为(-0.20864,-0.27136),最优为-0.24;
β5为信用卡过去3个月平均取现笔数对应系数,优选的数值范围为(-0.41744,-0.55856),最优为-0.488;
β6为过去6个月月均工资对应系数,优选的数值范围为(-1.02372,-1.48628),最优为-1.255;
β7为当前时点存款账户余额对应系数,优选的数值范围为(-0.06136,-0.09664),最优为-0.079;
x1为特征转换步骤生成的当前消费贷总额度使用率的WOE转换值;
x2为特征转换步骤生成的循环贷过去3个月额度使用率平均值的WOE转换值;
x3为特征转换步骤生成的当前信用卡剩余可使用额度的平方根转换值;
x4为特征转换步骤生成的过去3个月月均资产规模的平方根转换值;
x5为特征转换步骤生成的过去3个月信用卡平均取现笔数的WOE转换值;
x6为特征转换步骤生成的过去6个月月均工资的WOE转换值;
x7为特征转换步骤生成的当前时点存款账户余额的自然对数转换值。
29.根据权利要求28所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
30.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去3个月额度使用率大于10%月数占比、当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月信贷还款率大于等于100%的月数、当前信用卡取现笔数中的一个、两个、三个、四个、五个或六个。
31.根据权利要求30所述的方法,其中,信用违约概率计算步骤包括:
将过去3个月额度使用率大于10%月数占比、当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月信贷还款率大于等于100%的月数、当前信用卡取现笔数进行特征转换,
优选对过去3个月额度使用率大于10%月数占比采用WOE方式进行转换;对当前个贷循环贷款总额度采用WOE方式进行转换;对过去3个月额度使用率大于90%的月数采用WOE方式进行转换;对过去12个月的月均资产规模采用连续型方式进行转换;对过去3个月信贷还款率大于等于100%的月数采用WOE方式进行转换;对当前信用卡取现笔数采用WOE方式进行转换;
进一步优选,对过去12个月的月均资产规模采用连续型方式进行转换为取自然对数的计算方式。
32.根据权利要求30所述的方法,其中,
将过去3个月额度使用率大于10%月数占比、当前个贷循环贷款总额度、过去3个月额度使用率大于90%的月数、过去12个月的月均资产规模、过去3个月信贷还款率大于等于100%的月数、以及当前信用卡取现笔数这六个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
33.根据权利要求32所述的方法,其中,
所述子模型如下公式3所示:
其中,k为进入的模型的特征数量,优选k为6;
α为截距项,数值范围为(-2.32928,-2.45472),最优为-2.392;
β1为过去3个月额度使用率大于10%月数占比对应系数,优选的数值范围为(-0.60156,-0.65644),最优为-0.629;
β2为当前个贷循环贷款总额度对应系数,优选的数值范围为(-0.84424,-0.96576),最优为-0.905;
β3为过去3个月额度使用率大于90%的月数对应系数,优选的数值范围为(-0.49976,-0.57424),最优为-0.537;
β4为过去12个月的月均资产规模对应系数,优选的数值范围为(-0.05612,-0.06788),最优为-0.062;
β5为过去3个月信贷还款率大于等于100%的月数对应系数,优选的数值范围为(-0.74304,-0.94296),最优为-0.843;
β6为当前信用卡取现笔数对应系数,优选的数值范围为(-0.35724,-0.47876);最优为-0.418
x1为特征转换步骤生成的过去3个月额度使用率大于10%月数占比的WOE转换值;
x2为特征转换步骤生成的当前个贷循环贷款总额度的WOE转换值;
x3为特征转换步骤生成的过去3个月额度使用率大于90%的月数的WOE转换值;
x4为特征转换步骤生成的过去12个月的月均资产规模的自然对数转换值;
x5为特征转换步骤生成的过去3个月信贷还款率大于等于100%的月数的WOE转换值;
x6为特征转换步骤生成当前信用卡取现笔数的WOE转换值。
34.根据权利要求33所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
35.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、当前信用卡分期余额、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数中的一个、两个、三个、四个或五个。
36.根据权利要求35所述的方法,其中,信用违约概率计算步骤包括:
将过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、当前信用卡分期余额、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数进行特征转换,
优选对过去12个月信用卡利息金额大于0至观测点的月数采用WOE方式进行转换;对当前信贷客户最大逾期期数采用WOE方式进行转换;对当前信用卡分期余额采用WOE方式进行转换;对过去3个月存款账户余额最长连续增加月数占比采用WOE方式进行转换;对过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数采用WOE方式进行转换。
37.根据权利要求35所述的方法,其中,
将过去12个月信用卡利息金额大于0至观测点的月数、当前信贷客户最大逾期期数、当前信用卡分期余额、过去3个月存款账户余额最长连续增加月数占比、过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
38.根据权利要求37所述的方法,其中,
所述子模型如下公式4所示:
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(3.49848,3.44752),最优为3.473;
β1为过去信用卡12个月利息金额大于0至观测点的月数对应系数,优选的数值范围为(-1.7838,-1.8622),最优为-1.823;
β2为信贷客户最大逾期期数对应系数,优选的数值范围为(-0.59456,-0.64944),最优为-0.622;
β3为信用卡当前分期余额对应系数,优选的数值范围为(-0.71372,-0.78428),最优为-0.749;
β4为过去3个月存款账户余额最长连续增加月数占比对应系数,优选的数值范围为(-0.3624,-0.4016),最优为-0.382;
β5为过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数对应系数,优选的数值范围为(-0.60592,-0.69608),最优为-0.651;
x1为特征转换步骤生成的信用卡过去12个月利息金额大于0至观测点的月数的WOE转换值;
x2为特征转换步骤生成的当前信贷客户最大逾期期数的WOE转换值;
x3为特征转换步骤生成的当前信用卡分期余额的WOE转换值;
x4为特征转换步骤生成的过去3个月存款账户余额最长连续增加月数占比的WOE转换值;
x5为特征转换步骤生成的过去12个月信用卡最后一次还款金额大于上期最低还款额距观察点月数的WOE转换值。
39.根据权利要求38所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
40.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去12个月信用卡利息金额大于0至观测点的月数、当前信用卡剩余可使用额度、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比中的一个、两个、三个、四个或五个。
41.根据权利要求40所述的方法,其中,信用违约概率计算步骤包括:
将过去12个月信用卡利息金额大于0至观测点的月数、当前信用卡剩余可使用额度、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比进行特征转换,
优选对过去12个月信用卡利息金额大于0至观测点的月数采用WOE方式进行转换;对当前信用卡剩余可使用额度采用连续型转换方法进行转换;对过去12个月信贷客户逾期大于0的最长连续月数采用WOE方式进行转换;对过去12个月信用卡额度使用率大于90%的最长连续月数采用WOE方式进行转换;对过去12个月信用卡逾期期数大于等于1的月数占比采用WOE方式进行转换;
进一步优选对当前信用卡剩余可使用额度采用连续型转换方法进行转换为取立方根转换计算方式。
42.根据权利要求40所述的方法,其中,
将过去12个月信用卡利息金额大于0至观测点的月数、当前信用卡剩余可使用额度、过去12个月信贷客户逾期大于0的最长连续月数、过去12个月信用卡额度使用率大于90%的最长连续月数、过去12个月信用卡逾期期数大于等于1的月数占比这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
43.根据权利要求42所述的方法,其中,
所述子模型如下公式5所示:
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(1.2853,1.3265),最优为1.3059;
β1为信用卡过去12个月利息金额大于0至观测点的月数对应系数,优选的数值范围为(-0.5117,-0.4925),最优为-0.5021;
β2为当前信用卡剩余可使用额度对应系数,数值范围为(-0.0631,-0.0603),最优为-0.0617;
β3为过去12个月信贷客户逾期大于0的最长连续月数对应系数,优选的数值范围为(-0.3677,-0.3445),最优为-0.3561;
β4为过去12个月信用卡额度使用率大于90%的最长连续月数对应系数,优选的数值范围为(-0.3344,-0.3124),最优为-0.3234;
β5为过去12个月信用卡逾期期数大于等于1的月数占比对应系数,优选的数值范围为(-0.3369,-0.3141),最优为-0.3255;
x1为特征转换步骤生成的信用卡过去12个月利息金额大于0至观测点的月数的WOE转换值;
x2为特征转换步骤生成的当前信用卡剩余可使用额度的连续型方式的立方根转换值;
x3为特征转换步骤生成的过去12个月信贷客户逾期大于0的最长连续月数的WOE转换值;
x4为特征转换步骤生成的过去12个月信用卡额度使用率大于90%的最长连续月数的WOE转换值;
x5为特征转换步骤生成的过去12个月信用卡逾期期数大于等于1的月数占比的WOE转换值。
44.根据权利要求43所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
/>
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
45.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、当前信用卡剩余可用额度、过去6个月的资产规模最小值、当前时间点存款账户余额、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数中的一个、两个、三个、四个、五个、六个、七个或八个。
46.根据权利要求45所述的方法,其中,信用违约概率计算步骤包括:
将过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、当前信用卡剩余可用额度、过去6个月的资产规模最小值、当前时间点存款账户余额、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数进行特征转换,
优选对过去12个月最大逾期期数采用WOE方式进行转换;对过去3个月信用卡利息占账单余额之比采用连续型转换方法进行转换;对当前信用卡剩余可用额度采用WOE方式进行转换;对过去6个月的资产规模最小值采用连续型转换方法进行转换;对当前时间点存款账户余额采用连续型转换方法进行转换;对当前信用卡额度使用率采用WOE方式进行转换;对是否为代发工资客户采用WOE方式进行转换;对过去12个月信贷额度使用率大于50%的月数采用WOE方式进行转换;
进一步优选对过去3个月信用卡利息占账单余额之比采用连续型转换方法进行转换为取平方根转换计算方式;对过去6个月的资产规模最小值采用连续型转换方法进行转换为取自然对数计算方式;对当前时间点存款账户余额采用连续型转换方法进行转换为取自然对数计算方式。
47.根据权利要求45所述的方法,其中,
将过去12个月最大逾期期数、过去3个月信用卡利息占账单余额之比、当前信用卡剩余可用额度、过去6个月的资产规模最小值、当前时间点存款账户余额、当前信用卡额度使用率、是否为代发工资客户、过去12个月信贷额度使用率大于50%的月数这八个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
48.根据权利要求47所述的方法,其中,
所述子模型如下公式6所示:
其中,k为进入的模型的特征数量,优选k为8;
α为截距项,优选的数值范围为(-3.14952,-3.20048),最优为-3.175;
β1为过去12个月最大逾期期数对应系数,优选的数值范围为(-0.48512,-0.49688),最优为-0.491;
β2为过去3个月信用卡利息占账单余额之比对应系数,优选的数值范围为(-0.3742,-0.3938),最优为-0.384;
β3为当前信用卡剩余可用额度对应系数,优选的数值范围为(-0.0008,-0.0012),最优为-0.001;
β4为过去6个月的资产规模最小值对应系数,优选的数值范围为(-0.08008,-0.08792),最优为-0.084;
β5为当前时间点存款账户余额对应系数,优选的数值范围为(-0.05208,-0.05992),最优为-0.056;
β6为当前信用卡额度使用率对应系数,优选的数值范围为(-0.1542,-0.1738),最优为-0.164;
β7为是否为代发工资客户对应系数,优选的数值范围为(-0.65276,-0.72724),最优为-0.69;
β8为过去12个月信贷额度使用率大于0%的月数对应系数,优选的数值范围为(-0.45264,-0.51536),最优为-0.484;
x1为特征转换步骤生成过去12个月最大逾期期数的WOE转换值;
x2为特征转换步骤生成的过去3个月信用卡利息占账单余额之比的平方根转换值;
x3为特征转换步骤生成的当前信用卡剩余可用额度的WOE转换值;
x4为特征转换步骤生成的过去6个月的资产规模最小值的自然对数转换值;
x5为特征转换步骤生成的当前时间点存款账户余额的自然对数转换值;
x6为特征转换步骤生成的当前信用卡额度使用率的WOE转换值;
x7为特征转换步骤生成的是否为代发工资客户的WOE转换值;
x8为特征转换步骤生成过去12个月信贷额度使用率大于50%的月数的WOE转换值。
49.根据权利要求48所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
50.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、当前信用卡剩余可使用额度、过去3个月投资理财账户余额最大增幅、当前消费贷总额度使用率、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值中的一个、两个、三个、四个、五个、六个或七个。
51.根据权利要求50所述的方法,其中,信用违约概率计算步骤包括:
将过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、当前信用卡剩余可使用额度、过去3个月投资理财账户余额最大增幅、当前消费贷总额度使用率、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值进行特征转换,
优选对过去6个月信用卡平均额度使用率采用WOE方式进行转换;过去6个月信贷客户逾期月数采用WOE方式进行转换;对当前信用卡剩余可使用额度采用连续型方式进行转换;对过去3个月投资理财账户余额最大增幅采用连续型方式进行转换;当前消费贷总额度使用率采用WOE方式进行转换;对过去12个月信用卡循环或分期使用月数采用WOE方式进行转换;对过去3个月月均信贷本月最低应还款额与月均资产规模的差值采用连续型方式进行转换;
进一步优选对当前信用卡剩余可使用额度采用连续型方式进行转换为取自然对数计算方式;对过去3个月投资理财账户余额最大增幅采用连续型方式进行转换为取自然对数计算方式;对过去3个月月均信贷本月最低应还款额与月均资产规模的差值采用连续型方式进行转换为取立方根计算方式。
52.根据权利要求50所述的方法,其中,
将过去6个月信用卡平均额度使用率、过去6个月信贷客户逾期月数、当前信用卡剩余可使用额度、过去3个月投资理财账户余额最大增幅、当前消费贷总额度使用率、过去12个月信用卡循环或分期使用月数、过去3个月月均信贷本月最低应还款额与月均资产规模的差值这七个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
53.根据权利要求52所述的方法,其中,
所述子模型如下公式7所示:
其中,k为进入的模型的特征数量,优选k为7;
α为截距项,优选的数值范围为(-0.56984,-0.65216),最优为-0.611;
β1为过去6个月信用卡平均额度使用率对应系数,优选的数值范围为(-0.51112,-0.52288),最优为-0.517;
β2为过去6个月信贷客户逾期月数对应系数,数值范围为(-0.74224,-0.76576),最优为-0.754;
β3为当前信用卡剩余可使用额度对应系数,数值范围为(-0.17808,-0.18592),最优为-0.182;
β4为过去3个月投资理财账户余额最大增幅对应系数,数值范围为(-0.13008,-0.13792),最优为-0.134;
β5为当前消费贷总额度使用率对应系数,数值范围为(-0.2092,-0.2288),最优为-0.219;
β6为过去12个月信用卡循环或分期使用月数对应系数,数值范围为(-0.15616,-0.17184),最优为-0.164;
β7为过去3个月月均信贷本月最低应还款额与月均资产规模的差值对应系数,数值范围为(0.0112,0.0108),最优为0.011;
x1为特征转换步骤生成的过去6个月信用卡平均额度使用率的WOE转换值;
x2为特征转换步骤生成的过去6个月信贷客户逾期月数的WOE转换值;
x3为特征转换步骤生成的当前信用卡剩余可使用额度的连续型方式的自然对数转换值;
x4为特征转换步骤生成的过去3个月投资理财账户余额最大增幅的连续型方式的自然对数转换值;
x5为特征转换步骤生成的当前消费贷总额度使用率的WOE转换值;
x6为特征转换步骤生成的过去12个月信用卡循环或分期使用月数的WOE转换值;
x7为特征转换步骤生成过去3个月月均信贷本月最低应还款额与月均资产规模的差值的连续型方式的立方根转换值。
54.根据权利要求53所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
55.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去12个月信用卡平均额度使用率、信用卡过去12个月逾期期数大于0月数、当前时间点存款账户余额、过去12个月信贷还款率最小值、过去3个月信用卡账单余额连续增加月数、当前信用卡剩余可使用额度中的一个、两个、三个、四个、五个或六个。
56.根据权利要求55所述的方法,其中,信用违约概率计算步骤包括:
将过去12个月信用卡平均额度使用率、信用卡过去12个月逾期期数大于0月数、当前时间点存款账户余额、过去12个月信贷还款率最小值、过去3个月信用卡账单余额连续增加月数、当前信用卡剩余可使用额度进行特征转换,
优选对过去12个月信用卡平均额度使用率采用连续型方式进行转换;对信用卡过去12个月逾期期数大于0月数采用WOE方式进行转换;对当前时间点存款账户余额采用连续型方式进行转换;对过去12个月信贷还款率最小值采用WOE方式进行转换;对过去3个月信用卡账单余额连续增加月数采用WOE方式进行转换;对当前信用卡剩余可使用额度进行特征转换采用连续型方式进行转换;
进一步优选对过去12个月信用卡平均额度使用率采用连续型方式进行转换为取原始值计算方式;对当前时间点存款账户余额采用连续型方式进行转换为取立方根方式,对当前信用卡剩余可使用额度进行特征转换采用连续型方式进行转换为取自然对数计算方式。
57.根据权利要求55所述的方法,其中,
将过去12个月信用卡平均额度使用率、信用卡过去12个月逾期期数大于0月数、当前时间点存款账户余额、过去12个月信贷还款率最小值、过去3个月信用卡账单余额连续增加月数、当前信用卡剩余可使用额度这六个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
58.根据权利要求57所述的方法,其中,
所述子模型如下公式8所示:
其中,k为进入的模型的特征数量,优选k为6;
α为截距项,优选的数值范围为(0.66824,0.59376),最优为0.631;
β1为过去12个月信用卡平均额度使用率对应系数,优选的数值范围为(0.00125,0.00075),最优为0.001;
β2为信用卡过去12个月逾期期数大于0月数对应系数,优选的数值范围为(-0.6112,-0.6308),最优为-0.621;
β3为当前时间点存款账户余额对应系数,优选的数值范围为(-0.08604,-0.08996),最优为-0.088;
β4为过去12个月信贷还款率最小值对应系数,优选的数值范围为(-0.44932,-0.48068),最优为-0.465;
β5为过去3个月信用卡账单余额连续增加月数对应系数,优选的数值范围为(-0.18944,-0.23256),最优为-0.211;
β6为当前信用卡剩余可使用额度对应系数,优选的数值范围为(-0.10604,-0.10996),最优为-0.108;
x1为特征转换步骤生成的过去12个月信用卡平均额度使用率的连续型方式的原始值转换值;
x2为特征转换步骤生成的信用卡过去12个月逾期期数大于0月数的WOE转换值;
x3为特征转换步骤生成当前时间点存款账户余额的连续型方式的立方根转换值;
x4为特征转换步骤生成的过去12个月信贷还款率最小值的WOE转换值;
x5为特征转换步骤生成的过去3个月信用卡账单余额连续增加月数的WOE转换值;
x6为特征转换步骤生成当前信用卡剩余可使用额度的连续型方式的自然对数转换值。
59.根据权利要求58所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
60.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:信用卡开户时长、当前时间点存款账户余额、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值中的一个、两个、三个、四个或五个。
61.根据权利要求60所述的方法,其中,信用违约概率计算步骤包括:
将信用卡开户时长、当前时间点存款账户余额、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值进行特征转换,
优选对信用卡开户时长采用连续型方式进行转换;对当前时间点存款账户余额采用连续型方式进行转换;对过去12个月信用卡最大取现额度使用率采用WOE方式进行转换;对过去12个月信用卡全额还款月数采用WOE方式进行转换;对过去6个月月均信贷月最低应还款额与月均资产规模差值采用连续型方式进行转换;
进一步优选对信用卡开户时长采用连续型方式进行转换为取自然对数计算方式;对当前时间点存款账户余额采用连续型方式进行转换为取自然对数计算方式,对过去6个月月均信贷月最低应还款额与月均资产规模差值采用连续型方式进行转换为取立方根计算方式。
62.根据权利要求60所述的方法,其中,
将信用卡开户时长、当前时间点存款账户余额、过去12个月信用卡最大取现额度使用率、过去12个月信用卡全额还款月数、过去6个月月均信贷月最低应还款额与月均资产规模差值这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
63.根据权利要求62所述的方法,其中,
所述子模型如下公式9所示:
/>
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(0.64448,0.59352),最优为0.619;
β1为信用卡开户时长对应系数,优选的数值范围为(-0.38812,-0.39988),最优为-0.394;
β2为当前时间点存款账户余额对应系数,优选的数值范围为(-0.08204,-0.08596),最优为-0.084;
β3为过去12个月信用卡最大取现使用率对应系数,优选的数值范围为(-0.22912,-0.24088),最优为-0.235;
β4为过去12个月信用卡全额还款月数对应系数,优选的数值范围为(-0.17112,-0.18288),最优为-0.177;
β5为过去6个月月均信贷月最低应还款额与月均资产规模差值对应系数,优选的数值范围为(0.00602,0.00598),最优为0.006;
x1为特征转换步骤生成的信用卡开户时长的连续型转换的自然对数转换值;
x2为特征转换步骤生成的当前时间点存款账户余额的连续型转换的自然对数转换值;
x3为特征转换步骤生成的过去12个月信用卡最大取现额度使用率的WOE转换值;
x4为特征转换步骤生成的过去12个月信用卡全额还款月数的WOE转换值;
x5为特征转换步骤生成的过去6个月月均信贷月最低应还款额与月均资产规模差值的连续型转换的立方根转换值。
64.根据权利要求63所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
65.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:信当前时点存款账户余额、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产总值的百分比、当前代发工资所在区域分位点数中的一个、两个、三个、四个或五个。
66.根据权利要求65所述的方法,其中,信用违约概率计算步骤包括:
将当前时点存款账户余额、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产规模的百分比、当前代发工资所在区域分位点数进行特征转换,
优选对当前时点存款账户余额采用连续型方式进行转换;对过去3个月投资理财账户最大余额采用WOE方式进行转换;对过去3个月资产规模连续减少月份数采用WOE方式进行转换;对过去3个月月均工资占月均资产规模的百分比采用WOE方式进行转换;对当前代发工资所在区域分位点数采用WOE方式进行转换;
进一步优选对当前时点存款账户余额采用连续型方式进行转换为取对数计算方式。
67.根据权利要求65所述的方法,其中,
将当前时点存款账户余额、过去3个月投资理财账户最大余额、过去3个月资产规模连续减少月份数、过去3个月月均工资占月均资产规模的百分比、当前代发工资所在区域分位点数这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
68.根据权利要求67所述的方法,其中,
所述子模型如下公式10所示:
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(-1.65504,-1.85496),最优为-1.755;
β1为当前时点存款账户余额对应系数,优选的数值范围为(-0.12828,-0.15572),最优为-0.142;
β2为过去3个月投资理财账户最大余额对应系数,优选的数值范围为(-0.52164,-0.78036),最优为-0.651;
β3为过去3个月资产规模连续减少月份数对应系数,优选的数值范围为(-1.25768,-2.20632),最优为-1.732;
β4为过去3个月月均工资占月均资产规模的百分比对应系数,优选的数值范围为(-0.20416,-0.41584),最优为-0.31;
β5为当前代发工资所在区域分位点数对应系数,优选的数值范围为(-0.10288,-0.48312),最优为-0.293;
x1为特征转换步骤生成的当前时点存款账户余额的连续型方式的取对数转换值;
x2为特征转换步骤生成的过去3个月投资理财账户最大余额的WOE转换值;
x3为特征转换步骤生成的过去3个月资产规模连续减少月份数的WOE转换值;
x4为特征转换步骤生成的过去3个月月均工资占月均资产规模的百分比的WOE转换值;
x5为特征转换步骤生成的当前代发工资所在区域分位点数的WOE转换值。
69.根据权利要求68所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
/>
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
70.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:当前时点存款账户余额、过去3个月月均资产规模、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数中的一个、两个、三个、四个、五个或六个。
71.根据权利要求70所述的方法,其中,信用违约概率计算步骤包括:
将当前时点存款账户余额、过去3个月月均资产规模、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数进行特征转换,
优选对当前时点存款账户余额采用连续型方式进行转换;对过去3个月月均资产规模采用连续型方式进行转换;对过去3个月投资理财账户平均余额采用WOE方式进行转换;对过去3个月资产规模值最长连续减少月数采用WOE方式进行转换;对过去12个月的工资最大值采用WOE方式进行转换;对过去6个月存款账户时点最大余额距观察点月数采用WOE方式进行转换;
进一步优选对当前时点存款账户余额采用连续型方式进行转换为取自然对数计算方式,对过去3个月月均资产规模采用连续型方式进行转换为取自然对数计算方式。
72.根据权利要求70所述的方法,其中,
将当前时点存款账户余额、过去3个月月均资产规模、过去3个月投资理财账户平均余额、过去3个月资产规模值最长连续减少月数、过去12个月的工资最大值、过去6个月存款账户时点最大余额距观察点月数这六个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
73.根据权利要求72所述的方法,其中,
所述子模型如下公式11所示:
其中,k为进入的模型的特征数量,优选k为6;
α为截距项,优选的数值范围为(-0.50444,-0.84156),最优为-0.673;
β1为当前时点存款账户余额对应系数,优选的数值范围为(-0.13036,-0.16564),最优为-0.148;
β2为过去3个月月均资产规模对应系数,优选的数值范围为(-0.19664,-0.25936),最优为-0.228;
β3为过去3个月投资理财账户平均余额对应系数,优选的数值范围为(-0.26772,-0.63228),最优为-0.45;
β4为过去3个月资产规模值最长连续减少月数对应系数,优选的数值范围为(-0.78496,-1.17304),最优为-0.979;
β5为过去12个月的工资最大值对应系数,优选的数值范围为(-0.35304,-0.74896),最优为-0.551;
β6为过去6个月存款账户时点最大余额距观察点月数对应系数,优选的数值范围为(-0.29792,-0.78008),最优为-0.539;
x1为特征转换步骤生成的当前时点存款账户余额的连续型方式的自然对数转换值;
x2为特征转换步骤生成的过去3个月月均资产规模的连续型方式的自然对数转换值;
x3为特征转换步骤生成的过去3个月投资理财账户平均余额的WOE转换值;
x4为特征转换步骤生成的过去3个月资产规模值最长连续减少月数的WOE转换值;
x5为特征转换步骤生成的过去12个月的工资最大值的WOE转换值;
x6为特征转换步骤生成的过去6个月存款账户时点最大余额距观察点月数的WOE转换值。
74.根据权利要求71所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
75.根据权利要求11~19中任一项所述的方法,其中,
所述零售信用预测数据选自:过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数中的一个、两个、三个、四个或五个。
76.根据权利要求75所述的方法,其中,信用违约概率计算步骤包括:
将过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数进行特征转换,
优选对过去3个月的资产规模最大值采用连续型方式进行转换;对过去3个月存款账户最小余额采用连续型方式进行转换;对过去3个月投资理财账户最大余额采用连续型方式进行转换;对当前代发工资所在单位分位数采用连续型方式进行转换;对过去12个月存款账户最大余额距观察点月数采用连续型方式进行转换;
进一步优选对过去3个月的资产规模最大值采用连续型方式进行转换为取立方根计算方式;对过去3个月存款账户最小余额采用连续型方式进行转换为取自然对数计算方式,对过去3个月投资理财账户最大余额采用WOE方式进行转换;对当前代发工资所在单位分位数采用WOE方式进行转换;对过去12个月存款账户最大余额距观察点月数采用WOE方式进行转换。
77.根据权利要求75所述的方法,其中,
将过去3个月的资产规模最大值、过去3个月存款账户最小余额、过去3个月投资理财账户最大余额、当前代发工资所在单位分位数、过去12个月存款账户最大余额距观察点月数这五个特征转换后的数值代入基于样本零售信用预测数据和信用违约概率采用逻辑回归构建的子模型来计算该待预测样本的违约概率。
78.根据权利要求77所述的方法,其中,
所述子模型如下公式12所示:
其中,k为进入的模型的特征数量,优选k为5;
α为截距项,优选的数值范围为(-2.18528,-2.31072),最优为-2.248;
β1为过去3个月的资产规模最大值对应系数,优选的数值范围为(-0.02008,-0.02792),最优为-0.024;
β2为过去3个月存款账户最小余额对应系数,优选的数值范围为(-0.08928,-0.11672),最优为-0.103;
β3为过去3个月投资理财账户最大余额对应系数,优选的数值范围为(-0.45036,-0.68164),最优为-0.566;
β4为当前代发工资所在单位分位数对应系数,优选的数值范围为(-0.11148,-0.64852),最优为-0.38;
β5为过去12个月存款账户最大余额时点距观察点月数对应系数,优选的数值范围为(-0.35424,-0.57376),最优为-0.464;
x1为特征转换步骤生成的过去3个月的资产规模最大值的连续型方式的立方根转换值;
x2为特征转换步骤生成的过去3个月存款账户最小余额的连续型方式的自然对数转换值;
x3为特征转换步骤生成的过去3个月投资理财账户最大余额的WOE转换值;
x4为特征转换步骤生成的当前代发工资所在单位分位数的WOE转换值;
x5为特征转换步骤生成过去12个月存款账户最大余额时点距观察点月数的WOE转换值。
79.根据权利要求78所述的方法,其中,
在计算出信用违约概率之后,计算所述待预测样本的信用评分的步骤为利用如下公式计算生成用于表征所述借款人的信用评分:
其中,P为计算信用违约概率模块中生成的借款人的违约概率(P),A为443.9036;B为-72.1348,round函数对计算分数四舍五入后的取整值;最后将大于1000的分数置为1000分,小于0分的分数置为0分。
80.一种构建零售信用风险预测模型的装置,其特征在于,所述装置包括:
数据采集模块,其用于获取用于构建模型的样本的原始零售信用预测数据;
数据衍生模块,其用于基于原始的零售信用预测数据加工出衍生零售信用预测数据;
特征初筛模块,其用于对包括原始零售信用预测数据和衍生零售信用预测数据的全部类别,即全部特征进行初步筛选,以获得初步筛选后的特征;
初筛数据转换模块,其用于对初步筛选后的特征进行转换方式的判断以确认采用WOE转换方式、哑特征转换方式以及连续型转换方式中的一种来进行特征转换,并针对每一个初步筛选后的特征采用判断的最优方式来进行特征转换;
特征精筛模块,其用于对进行特征转换后的初步筛选的特征进行深度筛选以获得精筛后的特征;
信用违约概率建模模块,其用于针对精筛后的特征结合与信用违约之间的概率关系选择逻辑回归的方式进行模型构建,并确认用于计算信用违约概率的方式。
81.根据权利要求80所述的装置,其中,所述装置执行权利要求1~10中任一项所述的构建零售信用风险预测模型方法的步骤。
82.一种构建零售信用风险预测模型的系统,其特征在于,所述系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的构建零售信用风险预测模型方法的程序,所述构建零售信用风险预测模型方法的程序被所述处理器执行时实现如权利要求1~10中任一项所述的构建零售信用风险预测模型方法的步骤。
83.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有构建零售信用风险预测模型方法的程序,所述构建零售信用风险预测模型的程序被处理器执行时实现如权利要求1~10中任一项所述的构建零售信用风险预测模型方法的步骤。
84.一种计算零售信用风险的装置,其包括:
数据采集模块,其用于获取待预测样本的零售信用预测数据;
对待预测样本进行分类的模块,其用于基于决策树方法将待预测样本进行分类以确定用于计算信用违约概率的子模型;
信用违约概率计算模块,其用于将零售信用预测数据代入信用违约概率子模型中以计算所述待预测样本的信用违约概率。
85.根据权利要求84所述的装置,其中,所述装置执行权利要求11~79中任一项所述的计算零售信用风险的方法的步骤。
86.一种计算零售信用风险的系统,其特征在于,所述计算零售信用风险的系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的所述计算零售信用风险方法的程序,所述计算零售信用风险的程序被所述处理器执行时实现如权利要求11~79中任一项所述的计算零售信用风险的方法的步骤。
87.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有计算零售信用风险方法的程序,所述计算零售信用风险方法的程序被处理器执行时实现如权利要求11~79中任一项所述的计算零售信用风险的方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211164754.1A CN117788133A (zh) | 2022-09-23 | 2022-09-23 | 构建零售信用风险预测模型的方法和零售信贷Scoresigma模型 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211164754.1A CN117788133A (zh) | 2022-09-23 | 2022-09-23 | 构建零售信用风险预测模型的方法和零售信贷Scoresigma模型 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN117788133A true CN117788133A (zh) | 2024-03-29 |
Family
ID=90395055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211164754.1A Pending CN117788133A (zh) | 2022-09-23 | 2022-09-23 | 构建零售信用风险预测模型的方法和零售信贷Scoresigma模型 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117788133A (zh) |
-
2022
- 2022-09-23 CN CN202211164754.1A patent/CN117788133A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen | Classifying credit ratings for Asian banks using integrating feature selection and the CPDA-based rough sets approach | |
CN107633265A (zh) | 用于优化信用评估模型的数据处理方法及装置 | |
KR102009309B1 (ko) | 금융상품 관리자동화 시스템 및 관리자동화 방법 | |
KR20010103784A (ko) | 입력이 없는 상황에서의 가치 평가 예측 모델 | |
CN108596495A (zh) | 一种零售信贷业务评分系统及方法 | |
JP2003526146A (ja) | 評価値を求めてリスクを低減する方法とシステム | |
JP2003529139A (ja) | 最適なアンダーライトを行うためのポートフォリオの効率的サンプリング方法とシステム | |
JP2003535387A (ja) | 金融商品等の資産ポートフォリオの高速評価 | |
JP2003529138A (ja) | 収益と現在価値を最適化するための方法とシステム | |
CN111709826A (zh) | 目标信息确定方法和装置 | |
CN112990386B (zh) | 用户价值聚类方法、装置、计算机设备和存储介质 | |
CN111738819A (zh) | 表征数据筛选方法、装置和设备 | |
CN112700324A (zh) | 基于CatBoost与受限玻尔兹曼机结合的用户借贷违约预测方法 | |
CN110689437A (zh) | 一种基于随机森林的通信施工项目财务风险预测方法 | |
Ruyu et al. | A comparison of credit rating classification models based on spark-evidence from lending-club | |
CN115545886A (zh) | 逾期风险识别方法、装置、设备及存储介质 | |
Dimitras et al. | Evaluation of empirical attributes for credit risk forecasting from numerical data | |
CN111626855A (zh) | 债券信用利差预测方法及系统 | |
CN117114812A (zh) | 一种针对企业的金融产品推荐方法及装置 | |
CN113421154B (zh) | 基于控制图的信贷风险评估方法及系统 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114612239A (zh) | 基于算法、大数据、人工智能的股票舆情监测和风控系统 | |
CN117252677A (zh) | 信贷额度确定方法和装置、电子设备及存储介质 | |
CN117788133A (zh) | 构建零售信用风险预测模型的方法和零售信贷Scoresigma模型 | |
Lee et al. | Application of machine learning in credit risk scorecard |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |