CN113554504A - 一种车贷风控模型生成方法、装置及评分卡生成方法 - Google Patents
一种车贷风控模型生成方法、装置及评分卡生成方法 Download PDFInfo
- Publication number
- CN113554504A CN113554504A CN202110647121.5A CN202110647121A CN113554504A CN 113554504 A CN113554504 A CN 113554504A CN 202110647121 A CN202110647121 A CN 202110647121A CN 113554504 A CN113554504 A CN 113554504A
- Authority
- CN
- China
- Prior art keywords
- value
- model
- preset threshold
- wind control
- logistic regression
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 77
- 238000007477 logistic regression Methods 0.000 claims abstract description 42
- 238000012549 training Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 21
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 8
- 238000012216 screening Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 19
- 238000003860 storage Methods 0.000 claims description 18
- 238000000926 separation method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 4
- 238000010276 construction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000012163 sequencing technique Methods 0.000 claims description 3
- 238000005259 measurement Methods 0.000 abstract description 4
- 230000008569 process Effects 0.000 description 8
- 230000003287 optical effect Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000006870 function Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012217 deletion Methods 0.000 description 4
- 230000037430 deletion Effects 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 238000011835 investigation Methods 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 239000013307 optical fiber Substances 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000012797 qualification Methods 0.000 description 2
- 238000009825 accumulation Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000007418 data mining Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000005096 rolling process Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Development Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Physics & Mathematics (AREA)
- Finance (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Educational Administration (AREA)
- Technology Law (AREA)
- Game Theory and Decision Science (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明的一个实施例公开了一种车贷风控模型生成方法、装置及评分卡生成方法,该方法包括:S10、获取原始车贷用户的基础数据;S20、对所述基础数据进行特征工程处理;S30、基于所述特征工程处理后的数据采用逻辑斯蒂回归模型进行训练,直至所述逻辑斯蒂回归模型的KS值达到第一预设阈值,AUC值达到第二预设阈值,得到LR评分卡模型,将所述LR评分卡模型作为车贷风控模型。本发明针对目前现有问题,制定一种车贷风控模型生成方法,通过采用逻辑斯蒂回归算法对车贷场景的违约风险进行预测,为车贷业务的准入提供有效的测量手段。
Description
技术领域
本发明涉及信贷风控领域。更具体地,涉及一种车贷风控模型生成方法、装置、评分卡生成方法、计算机设备及存储介质。
背景技术
车贷业务是借款人在购买消费类自用车时支付一定比例金额的首期款项。不足部分由银行向其发放并直接支付给汽车经销商的人民币贷款业务。该类贷款一般还款周期短,客户资质要求高,放贷资金多,对风控能力有很高的水平要求。随着汽车市场的不断壮大,银行车贷业务增长迅猛,在有限的人员设备和不断增长的业务需求下,需要更加智能的方法对业务的风险进行把控,同时不影响业务的增长。当前的互联网金融蓬勃发展,催生出大量的数据风控手段,但是市场上的风控技术主要服务于个人信贷业务,对于具体的金融场景,尤其是银行的车辆分期场景而言,尚未有有效的大数据风控方案。
发明内容
有鉴于此,本申请提出了一种车贷风控模型生成方法、装置及评分卡生成方法来解决上述技术问题、
第一方面,本发明提供一种车贷风控模型生成方法,该方法包括:
S10、获取原始车贷用户的基础数据;
在一个具体示例中,所述基础数据包括个人基本信息、
S20、对所述基础数据进行特征工程处理;
S30、基于所述特征工程处理后的数据采用逻辑斯蒂回归模型进行训练,直至所述逻辑斯蒂回归模型的KS值达到第一预设阈值,AUC值达到第二预设阈值,得到LR评分卡模型,将所述LR评分卡模型作为车贷风控模型。
在一个具体实施例中,所述S20包括:
S200、对所述基础数据进行特征构建,得到多个特征自变量;
S202、对所述多个特征自变量进行分箱处理,得到分箱结果;
S204、对所述分箱结果进行WOE编码,得到编码结果。
在一个具体实施例中,所述S20还包括:
S206、计算所述编码结果中每一列特征自变量的IV值;
S208、基于IV值对编码结果进行自变量筛选,保留IV值大于等于第三预设阈值的特征自变量,得到第一筛选结果;
S210、计算所述第一筛选结果中的特征自变量的特征相关系数,保留特征相关系数的绝对值超过第四预设阈值的特征自变量中IV值高的特征自变量,得到第二筛选结果。
在一个具体实施例中,将所述第二筛选结果划分为训练集、测试集以及时间外样本集。
在一个具体实施例中,所述S30包括:
S300、利用所述训练集对逻辑斯蒂回归模型进行训练,其中,检验所述训练集中的特征自变量的特征相关系数是否为负数,若是,删除该特征自变量,采用网格搜索方法对逻辑斯蒂回归模型的超参数进行调优;
S302、利用所述测试集和时间外样本集对S300训练后的逻辑斯蒂回归模型进行评估和优化,其中,计算所述测试集和时间外样本集的违约概率预测值,根据所述违约概率预测值获取逻辑斯蒂回归模型的KS值和AUC值,判断所述KS值是否达到所述第一预设阈值并且所述AUC值是否达到所述第二预设阈值,若否,执行S206~S210,对逻辑斯蒂回归模型重新进行训练,直至所述KS值和AUC值达到预设阈值。
在一个具体实施例中,当某一特征自变量的缺失比例高于第五预设阈值时,判断该特征自变量是否有特殊含义,若是,采用插值法对该特征自变量的缺失内容进行填充;若否,删除该特征自变量。
在一个具体实施例中,所述基础数据包括个人基本信息、车辆数据、第三方评分数据。
在一个具体实施例中,所述原始车贷用户为初始通过贷款申请并有贷后表现的用户,包括好样本用户和坏样本用户,其中,在预设表现期内没有发生过逾期的用户为好样本用户;在预设表现期内最大逾期天数超过第六预设阈值或逾期次数超过第七预设阈值的用户为坏样本用户。
在一个具体实施例中,判断所述好样本用户与所述坏样本用户的比例是否达到第八预设阈值,若否,通过SMOTE算法生成坏样本用户,直至好样本用户与坏样本用户的比例达到所述第八预设阈值。
在一个具体实施例中,还包括:
利用所述LR评分卡模型对多个拒绝样本进行预测,得到多个与拒绝样本对应的违约概率预测值;
将多个违约概率预测值进行单调排序,选取违约概率预测值超过第九预设阈值的拒绝样本为新增坏样本用户;
将所述新增坏样本用户加入原始车贷用户中对所述LR评分卡模型进行优化,直至所述LR评分卡模型的KS值收敛,得到最终车贷风控模型。
在一个具体实施例中,所述拒绝样本为初始未通过贷款申请的无贷后表现的的用户。
第二方面,本发明提供一种车贷风控模型生成装置,该装置包括:
获取模块,用于获取原始车贷用户的基础数据;
特征工程处理模块,用于对所述基础数据进行特征工程处理;
模型生成模块,用于基于所述特征工程处理后的数据采用逻辑斯蒂回归模型进行训练,直至所述逻辑斯蒂回归模型的KS值达到第一预设阈值,AUC值达到第二预设阈值,得到LR评分卡模型,将所述LR评分卡模型作为车贷风控模型。
第三方面,本申请提供一种评分卡生成方法,该方法包括:
对于如第一方面所述的车贷风控模型的每个特征自变量,将车贷风控模型的回归系数与该特征自变量每个分箱区间对应的WOE值相乘,得到该分箱区间的评分;
对所述评分执行标准归一化,得到标准评分卡。
第四方面,本申请提供一种计算机设备,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现第一方面所述的方法。
第五方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。
本发明的有益效果如下:
本发明针对目前现有问题,制定一种车贷风控模型生成方法,通过采用逻辑斯蒂回归算法对车贷场景的违约风险进行预测,为车贷业务的准入提供有效的测量手段。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1示出根据本申请的一个实施例的系统架构示意图。
图2示出根据本申请的一个实施例的车贷风控模型生成方法的流程图。
图3示出用户终端获取用户个人基本信息的示意图。
图4示出根据本申请的一个实施例的车贷风控模型生成方法的流程图。
图5示出根据本申请的一个实施例的车贷风控模型生成方法的流程图。
图6示出根据本申请的一个实施例的车贷风控模型生成方法的流程图。
图7示出根据本申请的一个实施例的车贷风控模型生成装置的示意图。
图8示出根据本申请的一个实施例的车贷风控模型生成方法的流程图。
图9示出适于用来实现本申请实施例的计算机设备的结构示意图。
具体实施方式
为了更清楚地说明本申请,下面结合优选实施例和附图对本申请做进一步的说明。附图中相似的部件以相同的附图标记进行表示。本领域技术人员应当理解,下面所具体描述的内容是说明性的而非限制性的,不应以此限制本申请的保护范围。
车贷业务是借款人在购买消费类自用车时支付一定比例金额的首期款项。不足部分由银行向其发放并直接支付给汽车经销商的人民币贷款业务。该类贷款一般还款周期短,客户资质要求高,放贷资金多,对风控能力有很高的水平要求。随着汽车市场的不断壮大,银行车贷业务增长迅猛,在有限的人员设备和不断增长的业务需求下,需要更加智能的方法对业务的风险进行把控,同时不影响业务的增长。当前的互联网金融蓬勃发展,催生出大量的数据风控手段,但是市场上的风控技术主要服务于个人信贷业务,对于具体的金融场景,尤其是银行的车辆分期场景而言,尚未有有效的大数据风控方案。
为此,本申请的一个实施例提出了一种车贷风控模型生成方法,图1是本发明实施例提供的一种车贷风控模型生成方法的实施例的示例性系统架构。参见图1,系统架构包括:用户终端10和服务器14。
用户终端10可以是硬件,也可以是软件。当用户终端10为硬件时,可以是具有显示屏并且支持图像识别的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。当用户终端10为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
网络12用以在用户终端10和服务器14之间提供通信链路的介质。网络12可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。本申请在此不做限制。
服务器14可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。服务器14以及用户终端10可以通过网络12进行直接或间接地连接,本申请在此不做限制。
服务器14从用户终端10获取车主用户的基础数据,并根据该数据对该车主用户的违约风险进行预测。应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意合适数目的终端设备、网络和服务器。
实施例一
本发明提出了一种车贷风控模型生成方法,该方法包括:获取原始车贷用户的基础数据;对所述基础数据进行特征工程处理;基于所述特征工程处理后的数据采用逻辑斯蒂回归模型进行训练,直至所述逻辑斯蒂回归模型的KS值达到第一预设阈值,AUC值达到第二预设阈值,得到LR评分卡模型,将所述LR评分卡模型作为车贷风控模型。
本实施例根据目前现有问题,制定了一种车贷风控模型生成方法,通过逻辑斯蒂回归算法能够对车贷场景的违约风险进行预测,为车贷业务的准入提供有效的测量手段。
在一个具体实施例中,如图2所示,该方法包括:
S10、获取原始车贷用户的基础数据,其中,所述基础数据包括个人基本信息、车辆数据以及第三方评分数据。
在一个具体示例中,个人基本信息包括身份信息、教育水平、职业信息、已有贷款还款表现、信用卡使用表现以及公积金缴交记录等。如图3所示,用户终端操作界面提示用户“请上传身份证信息”,进而用户终端响应于用户的操作,通过用户终端上的图像采集装置能够获取用户身份信息,其中,包括用户的姓名、年龄、性别、户籍所在的省份及城市等。
车辆数据包括车辆品牌信息以及车价等,本实施例中不仅使用了自然人维度的数据,同时将车辆相关信息考虑进来,使得车贷风险预测更有场景针对性。
第三方数据用于表征用户的征信信用评分,可以为FICO分、中诚信评分或人行征信报文等。
本实施例在传统个人信贷业务的基础上,实现了对银行自有数据进行充分挖掘,如人行征信报文数据;并收集了影响车贷业务的数据,如用户银联数据、公积金/社保数据、运营商数据、电商交易数据、以及工商、法院、资讯等数据;同时叠加具体的车辆消费分期场景,对与车辆相关数据也进行了补充挖掘。
在一个具体示例中,所述原始车贷用户为初始通过贷款申请并有贷后表现的用户,包括好样本用户和坏样本用户,其中,在预设表现期内没有发生过逾期的用户为好样本用户;在预设表现期内最大逾期天数超过预设阈值或逾期次数超过预设阈值的用户为坏样本用户。
例如,根据银行车贷部门反馈历史客户的贷后逾期表现,进行好坏样本定义,通过账龄和滚动率分析,给定表现期六个月,定义前六个月最大逾期天数大于等于十五天或前六期累积逾期次数大于等于三次是坏样本用户,前六期没有发生过逾期是好样本用户,否则为灰样本用户。
需要说明的是,上述对于好坏样本的定义是示例性的,不构成对好坏样本定义的不当限定,本领域技术人员能够根据实际需求对好坏样本进行定义。
在一个具体示例中,例如信用评分模型建模时,某些情况下想要预测的事件发生的比例非常低,即坏样本数量过低,如直邮营销中潜在客户的响应率、企业贷款违约率、电信客户流失率等等,用这样的数据样本构建建模,模型误差与整体计算都会受到影响,即便模型训练时能够做到将总体的预测准确率优化的很好,训练出的模型也是失败的。
举例来说,某公司提供的数据样本中,坏账率仅有2%,建模时如果只是简单的将所有潜在客户都判断为好客户,即便能够达到98%的总体准确率,模型也是没有任何实际意义的。
因此,在本实施例中需要判断所述好样本用户与所述坏样本用户的比例是否达到预设阈值,若否,通过SMOTE算法生成坏样本用户,直至好样本用户与坏样本用户的比例达到预设阈值,例如好样本用户与坏样本用户的比例为5:1。
具体地,可以将所有的坏样本用户放入建模数据集,而对于好样本用户只随机抽取一部分放入建模数据集,以此来提升坏样本的浓度,使得建模样本中好坏样本达到一定比例,例如5:1,在此基础上再去构建车贷风控模型。
S20、对所述基础数据进行特征工程处理。
在一个具体实施例中,如图4所示,所述S20包括:
S200、对所述基础数据进行特征构建,得到多个特征自变量。
在一个具体示例中,本申请采用大数据方法,将人、车、第三方数据维度下能够影响客户贷后发生逾期的主要变量,构造出不同时间点的历史统计量,例如,构造出距申请时点前近一个月、近六个月、近一年、近二年、近五年等历史统计量共计5000+维特征自变量。
S202、对所述多个特征自变量进行分箱处理,得到分箱结果。
需要说明的是,分箱处理可以被认为是对原始属性数据进行离散化,将所有的连续变量的取值从原始值变为原始值所对应的分箱阈值区间的区间值。
卡方分箱是典型的分箱处理方式,其是自底向上的数据离散化方法,它依赖于卡方检验,具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则。
本实施例中用卡方分箱先对所述多个特征自变量中的数值进行分箱,并且要保证坏样本率和分箱结果呈现单调,然后对所有变量进行WOE处理。
S204、对所述分箱结果进行WOE编码,得到编码结果。
需要说明的是,WOE编码:Weight of Evidence,证据权重,评分卡模型中对分箱区间进行编码的函数,是模型开发中一种常见的将字符型变量赋值为数据型变量的方法,通过WOE编码能够衡量该变量各个分箱区间的违约概率分布。
对做离散化之后的特征自变量,根据分类标签,即好样本用户与坏样本用户,执行WOE编码。在WOE编码中,每个自变量的分箱阈值区间会被映射为一个WOE值,其中,WOE值的计算公式为:
式中,pyi是好样本用户占所有样本中所有好样本用户的比例;pni是坏样本用户占所有样本中所有坏样本用户的比例;#yT是好样本数量;#nT是坏样本数量;#yi和#ni则是每列特征的每个分箱内部的好坏样本数量。
为了模型的泛化能力和鲁棒性,特征自变量的数量不宜过多,需要进行特征筛选。其中,特征筛选包括基于IV值筛选和基于特征相关性筛选。
为此,在本申请的一个优选示例中,如图5所示,所述S20还包括:
S206、计算所述编码结果中每一列特征自变量的IV值。
其中,IV值(Information Value)是用于衡量某一列自变量对于分类贡献的大小,IV值的计算公式为:
S208、基于IV值对编码结果进行自变量筛选,保留IV值大于等于第三预设阈值的特征自变量,得到第一筛选结果;
从数据角度来看,IV值越高,说明该特征包含的信息量越多,预测能力也越强,本实施例中,筛选出IV大于等于0.02的特征,其中,IV值阈值的大小可以根据实际情况进行设定,本申请不做限定。
S210、计算所述第一筛选结果中的特征自变量的特征相关系数,保留特征相关系数的绝对值超过第四预设阈值的特征自变量中IV值高的特征自变量,得到第二筛选结果。
由于特征相关性过高会影响模型的稳定性和解释性,在一个具体示例中,计算特征相关系数矩阵,对于相关系数绝对值大于0.8的特征,选择其中一个IV值高的特征进行保留,得到第二筛选结果。
将所述第二筛选结果划分为训练集、测试集以及时间外样本集。例如,选取2019年前三季度并以7:3比例分层抽样作为训练集和测试集,选取第四季度作为时间外样本集。
其中,需要说明的是,当某一特征自变量的缺失比例高于第五预设阈值时,判断该特征自变量是否有特殊含义,若是,采用插值法对该特征自变量的缺失内容进行填充;若否,删除该特征自变量。
例如,缺失比例高于80%的指标,采用直接删除的方式;缺失值有特殊含义时,可以单独将缺失归为一类,其余可以用插值法进行填充,如拉格朗日插值法,均值、众数填充等;通过箱型图进行异常值识别,一般大于或小于箱型图设定的上下界的数据认作异常点,识别后采用直接删除的方式。
S30、基于所述特征工程处理后的数据采用逻辑斯蒂回归模型进行训练,直至所述逻辑斯蒂回归模型的KS值达到第一预设阈值,AUC值达到第二预设阈值,得到LR评分卡模型,将所述LR评分卡模型作为车贷风控模型。
在一个具体实施例中,如图6所示,所述S30包括:
S300、利用所述训练集对逻辑斯蒂回归模型进行训练,其中,检验所述训练集中的特征自变量的特征相关系数是否为负数,若是,删除该特征自变量,采用网格搜索方法对逻辑斯蒂回归模型的超参数进行调优。
在完成特征筛选后,采用逻辑斯蒂回归进行模型训练,逻辑斯蒂回归模型是一种线性模型,具有模型简单、可解释型较好的优点,训练过程中检验该变量本身与因变量的相关性和模型中该变量的回归系数是否同向,即删除相关系数为负的变量,采用网格搜索方法对逻辑回归主要的超参数进行调优。
S302、利用所述测试集和时间外样本集对S300训练后的逻辑斯蒂回归模型进行评估和优化,其中,计算所述测试集和时间外样本集的违约概率预测值,根据所述违约概率预测值获取逻辑斯蒂回归模型的KS值和AUC值,判断所述KS值是否达到所述第一预设阈值并且所述AUC值是否达到所述第二预设阈值,若否,执行S206~S210,对逻辑斯蒂回归模型重新进行训练,直至所述KS值和AUC值达到预设阈值。
数据挖掘是一个探索的过程,评估-优化是一个永恒的过程。因此,在模型建立后,必须对模型的效果进行评估,其中,AUC值能够在保证在样本不均衡的情况下也能准确评估模型的好坏;K-S值不仅能用于表征模型的准确与否,还能用于表征好坏样本是否有足够的区分度。
具体的,使用训练集训练模型,在某个训练的epoch开始,计算测试集的性能(比如准确度)表现,边训练边保存性能更优的模型。在不断的训练过程中,测试集的性能先上升后下降,等到测试集的性能有较明显下降的趋势,训练停止,最终得到一个在测试集上的性能表现最佳的模型,进一步使用这个模型来预测时间外样本集。
本实施例中,利用所述测试集和时间外样本集对S300训练后的逻辑斯蒂回归模型进行评估和优化,将S300训练后的逻辑斯蒂回归模型分别应用到测试集和时间外样本中,分别得出测试集和时间外样本集的违约概率预测值,最终计算测试集和时间外样本集的KS值和AUC值,如果KS>=0.35和AUC>=0.75,且测试集和时间外样本集的KS和AUC相差不多,则说明该模型稳定有效,否则需要优化,执行S206~S210,对逻辑斯蒂回归模型重新进行训练,直至所述KS值和AUC值达到预设阈值。
为了进一步使车贷风控模型更符合真实业务场景,实现汽车消费分期场景下全客群风险情况的有效把控,本实施例加入拒绝推断分析,具体包括:
利用所述LR评分卡模型对多个拒绝样本进行预测,得到多个与拒绝样本对应的违约概率预测值;
将多个违约概率预测值进行单调排序,选取违约概率预测值超过第九预设阈值的拒绝样本为新增坏样本用户;
将所述新增坏样本用户加入原始车贷用户中对所述LR评分卡模型进行优化,直至所述LR评分卡模型的KS值收敛,得到最终车贷风控模型。
其中,所述拒绝样本为初始未通过贷款申请的无贷后表现的的用户。
具体的,本实施例中采用迭代再分类法,使用在S302训练好的模型对拒绝部分样本进行预测,按照预测概率从大到小排序,选取某阈值以上的拒绝样本作为坏样本,将具有伪标签的样本加入原始样本中进行学习,然后使用新模型获取拒绝样本的违约概率,之后再次使用硬截断法,不断重复上述过程,使得原始数据集上的KS值达到收敛,此时得到最终的车贷风控模型。
本实施例针对目前现有问题,制定一种车贷风控模型生成方法,通过采用逻辑斯蒂回归算法对车贷场景的违约风险进行预测,为车贷业务的准入提供有效的测量手段。
实施例二
参考图7,作为对上述车贷风控模型生成方法的实现,本申请提供了一种车贷风控模型生成装置的一个实施例,该装置实施例与图2所示的方法实施例相对应。
如图7所示,本实施例的车贷风控模型生成装置包括:
获取模块,用于获取原始车贷用户的基础数据;
特征工程处理模块,用于对所述基础数据进行特征工程处理;
模型生成模块,用于基于所述特征工程处理后的数据采用逻辑斯蒂回归模型进行训练,直至所述逻辑斯蒂回归模型的KS值达到第一预设阈值,AUC值达到第二预设阈值,得到LR评分卡模型,将所述LR评分卡模型作为车贷风控模型。
本领域技术人员可以理解,上述车贷风控模型生成装置还包括一些其他公知结构,例如处理器、存储器等,为了不必要地模糊本公开的实施例,这些公知的结构在图7中未示出。
另外,本领域技术人员可以理解,装置还可以实现实施例一种所述的其他方法步骤,具体实施方式参见前述实施例,在此不再赘述。
实施例三
LR评分卡模型是一种基于逻辑斯蒂回归的线性分类模型,采用了分箱离散化手段和WOE值区间编码,在经过建模人员、业务专家投入精力进行处理和干预的前提下,可以具有较高的预测性能,是广泛应用于信贷风控领域的经典算法模型,比如对客户的信贷程度进行评分。
如图8所示,本申请提供了一种评分卡生成方法,该方法包括:
S130、对于实施例一和实施例二中所述的车贷风控模型的每个特征自变量,将车贷风控模型的回归系数与该特征自变量每个分箱区间对应的WOE值相乘,得到该分箱区间的评分
S132、对所述评分执行标准归一化,得到标准评分卡。
在一个具体的示例中,
标准评分卡可表示为:
初始分:S_0
{自变量X1:
[{取值区间1:得分s_1_1}
{取值区间2:得分s_1_2},…],
自变量X2:
[{取值区间1:得分s_2_1}
{取值区间2:得分s_2_2},…],
…
}
在一个具体示例中,基于评分卡计算的评分对银行车贷准入客户进行评级,如当评分大于800分时,为A级车贷用户,当评分在760-799分时,为B级车贷用户,当评分在740-759分时,为C级车贷用户,当评分在700-739分时,为D车贷用户,当评分小于700分时,为E级车贷用户。
实施例四
图9示出了本申请的另一个实施例提供的一种计算机设备的结构示意图。图9显示的计算机设备50仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图9所示,计算机设备50以通用计算设备的形式表现。计算机设备50的组件可以包括但不限于:一个或者多个处理器或者处理单元500,系统存储器516,连接不同系统组件(包括系统存储器516和处理单元500)的总线501。
总线501表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备50典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备50访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器516可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)504和/或高速缓存存储器506。计算机设备50可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统508可以用于读写不可移动的、非易失性磁介质(图9未显示,通常称为“硬盘驱动器”)。尽管图9中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线501相连。存储器516可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行实施例一的功能。
具有一组(至少一个)程序模块512的程序/实用工具510,可以存储在例如存储器516中,这样的程序模块512包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块512通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备50也可以与一个或多个外部设备70(例如键盘、指向设备、显示器60等)通信,还可与一个或者多个使得用户能与该计算机设备50交互的设备通信,和/或与使得该计算机设备50能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口502进行。并且,计算机设备50还可以通过网络适配器514与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图9所示,网络适配器514通过总线501与计算机设备50的其它模块通信。应当明白,尽管图9中未示出,可以结合计算机设备50使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理器单元500通过运行存储在系统存储器516中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例一所提供的一种车贷风控模型生成方法。
实施例四
本申请的另一个实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述实施例一所提供的方法。
在实际应用中,所述计算机可读存储介质可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
在本申请的描述中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定,对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。
Claims (15)
1.一种车贷风控模型生成方法,其特征在于,包括:
S10、获取原始车贷用户的基础数据;
S20、对所述基础数据进行特征工程处理;
S30、基于所述特征工程处理后的数据采用逻辑斯蒂回归模型进行训练,直至所述逻辑斯蒂回归模型的KS值达到第一预设阈值,AUC值达到第二预设阈值,得到LR评分卡模型,将所述LR评分卡模型作为车贷风控模型。
2.根据权利要求1所述的方法,其特征在于,所述S20包括:
S200、对所述基础数据进行特征构建,得到多个特征自变量;
S202、对所述多个特征自变量进行分箱处理,得到分箱结果;
S204、对所述分箱结果进行WOE编码,得到编码结果。
3.根据权利要求2所述的方法,其特征在于,所述S20还包括:
S206、计算所述编码结果中每一列特征自变量的IV值;
S208、基于IV值对编码结果进行自变量筛选,保留IV值大于等于第三预设阈值的特征自变量,得到第一筛选结果;
S210、计算所述第一筛选结果中的特征自变量的特征相关系数,保留特征相关系数的绝对值超过第四预设阈值的特征自变量中IV值高的特征自变量,得到第二筛选结果。
4.根据权利要求3所述的方法,其特征在于,将所述第二筛选结果划分为训练集、测试集以及时间外样本集。
5.根据权利要求4所述的方法,其特征在于,所述S30包括:
S300、利用所述训练集对逻辑斯蒂回归模型进行训练,其中,检验所述训练集中的特征自变量的特征相关系数是否为负数,若是,删除该特征自变量,采用网格搜索方法对逻辑斯蒂回归模型的超参数进行调优;
S302、利用所述测试集和时间外样本集对S300训练后的逻辑斯蒂回归模型进行评估和优化,其中,计算所述测试集和时间外样本集的违约概率预测值,根据所述违约概率预测值获取逻辑斯蒂回归模型的KS值和AUC值,判断所述KS值是否达到所述第一预设阈值并且所述AUC值是否达到所述第二预设阈值,若否,执行S206~S210,对逻辑斯蒂回归模型重新进行训练,直至所述KS值和AUC值达到预设阈值。
6.根据权利要求2所述的方法,其特征在于,当某一特征自变量的缺失比例高于第五预设阈值时,判断该特征自变量是否有特殊含义,若是,采用插值法对该特征自变量的缺失内容进行填充;若否,删除该特征自变量。
7.根据权利要求1所述的方法,其特征在于,所述基础数据包括个人基本信息、车辆数据、第三方评分数据。
8.根据权利要求1所述的方法,其特征在于,所述原始车贷用户为初始通过贷款申请并有贷后表现的用户,包括好样本用户和坏样本用户,其中,在预设表现期内没有发生过逾期的用户为好样本用户;在预设表现期内最大逾期天数超过第六预设阈值或逾期次数超过第七预设阈值的用户为坏样本用户。
9.根据权利要求8所述的方法,其特征在于,判断所述好样本用户与所述坏样本用户的比例是否达到第八预设阈值,若否,通过SMOTE算法生成坏样本用户,直至好样本用户与坏样本用户的比例达到所述第八预设阈值。
10.根据权利要求3所述的方法,其特征在于,还包括:
利用所述LR评分卡模型对多个拒绝样本进行预测,得到多个与拒绝样本对应的违约概率预测值;
将多个违约概率预测值进行单调排序,选取违约概率预测值超过第九预设阈值的拒绝样本为新增坏样本用户;
将所述新增坏样本用户加入原始车贷用户中对所述LR评分卡模型进行优化,直至所述LR评分卡模型的KS值收敛,得到最终车贷风控模型。
11.根据权利要求10所述的方法,其特征在于,所述拒绝样本为初始未通过贷款申请的无贷后表现的的用户。
12.一种车贷风控模型生成装置,其特征在于,包括:
获取模块,用于获取原始车贷用户的基础数据;
特征工程处理模块,用于对所述基础数据进行特征工程处理;
模型生成模块,用于基于所述特征工程处理后的数据采用逻辑斯蒂回归模型进行训练,直至所述逻辑斯蒂回归模型的KS值达到第一预设阈值,AUC值达到第二预设阈值,得到LR评分卡模型,将所述LR评分卡模型作为车贷风控模型。
13.一种评分卡生成方法,其特征在于,包括:
对于如权利要求1-11中任一项所述的车贷风控模型的每个特征自变量,将车贷风控模型的回归系数与该特征自变量每个分箱区间对应的WOE值相乘,得到该分箱区间的评分;
对所述评分执行标准归一化,得到标准评分卡。
14.一种计算机设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-11中任一项所述的方法。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-11中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647121.5A CN113554504A (zh) | 2021-06-10 | 2021-06-10 | 一种车贷风控模型生成方法、装置及评分卡生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110647121.5A CN113554504A (zh) | 2021-06-10 | 2021-06-10 | 一种车贷风控模型生成方法、装置及评分卡生成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113554504A true CN113554504A (zh) | 2021-10-26 |
Family
ID=78130459
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110647121.5A Pending CN113554504A (zh) | 2021-06-10 | 2021-06-10 | 一种车贷风控模型生成方法、装置及评分卡生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113554504A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783007A (zh) * | 2022-06-22 | 2022-07-22 | 成都新希望金融信息有限公司 | 设备指纹识别方法、装置和电子设备 |
CN114996371A (zh) * | 2022-08-03 | 2022-09-02 | 广东中盈盛达数字科技有限公司 | 基于图论算法的关联企业反欺诈模型构建方法及系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097450A (zh) * | 2019-03-26 | 2019-08-06 | 中国人民财产保险股份有限公司 | 车贷风险评估方法、装置、设备和存储介质 |
CN111311402A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于XGBoost的互联网金融风控模型 |
CN111583031A (zh) * | 2020-05-15 | 2020-08-25 | 上海海事大学 | 一种基于集成学习的申请评分卡模型建立方法 |
CN111598685A (zh) * | 2020-05-20 | 2020-08-28 | 四川万网鑫成信息科技有限公司 | 一种结合车辆实时信息与车贷业务数据的贷后风控模型 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
-
2021
- 2021-06-10 CN CN202110647121.5A patent/CN113554504A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110097450A (zh) * | 2019-03-26 | 2019-08-06 | 中国人民财产保险股份有限公司 | 车贷风险评估方法、装置、设备和存储介质 |
CN111311402A (zh) * | 2020-03-30 | 2020-06-19 | 百维金科(上海)信息科技有限公司 | 一种基于XGBoost的互联网金融风控模型 |
CN111583031A (zh) * | 2020-05-15 | 2020-08-25 | 上海海事大学 | 一种基于集成学习的申请评分卡模型建立方法 |
CN111598685A (zh) * | 2020-05-20 | 2020-08-28 | 四川万网鑫成信息科技有限公司 | 一种结合车辆实时信息与车贷业务数据的贷后风控模型 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
Non-Patent Citations (3)
Title |
---|
左晨;: "汽车融资租赁的大数据风控应用浅议", 现代商业, no. 05, 18 February 2020 (2020-02-18), pages 87 - 88 * |
梅子行等: "智能风控 Python金融风险管理与评分卡建模", 31 May 2020, 机械工业出版社, pages: 21 - 24 * |
黄志刚;刘志惠;朱建林;: "多源数据信用评级普适模型栈框架的构建与应用", 数量经济技术经济研究, no. 04, 11 April 2019 (2019-04-11), pages 156 - 169 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114783007A (zh) * | 2022-06-22 | 2022-07-22 | 成都新希望金融信息有限公司 | 设备指纹识别方法、装置和电子设备 |
CN114783007B (zh) * | 2022-06-22 | 2022-09-27 | 成都新希望金融信息有限公司 | 设备指纹识别方法、装置和电子设备 |
CN114996371A (zh) * | 2022-08-03 | 2022-09-02 | 广东中盈盛达数字科技有限公司 | 基于图论算法的关联企业反欺诈模型构建方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111429258B (zh) | 一种监测贷款资金流向的方法和装置 | |
CN111340616B (zh) | 线上贷款的审批方法、装置、设备及介质 | |
CN110837931A (zh) | 客户流失预测方法、装置及存储介质 | |
CN111046184B (zh) | 文本的风险识别方法、装置、服务器和存储介质 | |
CN113554504A (zh) | 一种车贷风控模型生成方法、装置及评分卡生成方法 | |
Lu et al. | Credit rating change modeling using news and financial ratios | |
CN111708883A (zh) | 一种基于机器学习和设备指纹的授信额度确定方法及装置 | |
CN111179051A (zh) | 金融目标客户确定方法、装置及电子设备 | |
CN113034046A (zh) | 一种数据风险计量方法、装置、电子设备及存储介质 | |
CN116563006A (zh) | 业务风险预警方法、设备、存储介质及装置 | |
CN111915425A (zh) | 一种贷款审批方法、装置、设备及存储介质 | |
CN110930242A (zh) | 一种可信度预测方法、装置、设备和存储介质 | |
Kosmidou et al. | Predicting US commercial bank failures via a multicriteria approach | |
CN112734566A (zh) | 授信额度获取方法、装置及计算机设备 | |
CN111815435A (zh) | 一种群体风险特征的可视化方法、装置、设备及存储介质 | |
CN112419025A (zh) | 用户数据处理方法和装置、存储介质、电子设备 | |
Biswas et al. | Automated credit assessment framework using ETL process and machine learning | |
CN111695988A (zh) | 信息处理方法、装置、电子设备和介质 | |
CN116739750A (zh) | 贷户违约预测方法、装置、设备和介质 | |
CN115994819A (zh) | 风险客户识别方法、装置、设备和介质 | |
CN115809930A (zh) | 基于数据融合匹配的反欺诈分析方法、装置、设备及介质 | |
CN115482094A (zh) | 一种业务处理方法、装置、电子设备及计算机可读介质 | |
CN117252677A (zh) | 信贷额度确定方法和装置、电子设备及存储介质 | |
Yeh et al. | Predicting failure of P2P lending platforms through machine learning: The case in China | |
CN113691592B (zh) | 向设备提供网络服务的方法、装置、设备和介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |