CN112862593A - 信用评分卡模型训练方法、装置、系统及计算机存储介质 - Google Patents
信用评分卡模型训练方法、装置、系统及计算机存储介质 Download PDFInfo
- Publication number
- CN112862593A CN112862593A CN202110122286.0A CN202110122286A CN112862593A CN 112862593 A CN112862593 A CN 112862593A CN 202110122286 A CN202110122286 A CN 202110122286A CN 112862593 A CN112862593 A CN 112862593A
- Authority
- CN
- China
- Prior art keywords
- credit
- data
- card model
- preset
- model training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 83
- 238000000034 method Methods 0.000 title claims abstract description 60
- 238000011835 investigation Methods 0.000 claims abstract description 89
- 238000009795 derivation Methods 0.000 claims abstract description 59
- 238000012545 processing Methods 0.000 claims abstract description 50
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 238000012216 screening Methods 0.000 claims description 23
- 230000014759 maintenance of location Effects 0.000 claims description 21
- 238000004422 calculation algorithm Methods 0.000 claims description 13
- 238000006243 chemical reaction Methods 0.000 claims description 5
- 238000000926 separation method Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 6
- 230000000717 retained effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 238000007477 logistic regression Methods 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002159 abnormal effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 230000002349 favourable effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Abstract
本发明公开了一种信用评分卡模型训练方法、装置、系统及计算机存储介质,方法包括:确定目标客户,获取目标客户在预设时点范围内的第一切片数据,其中,预设时点范围包含多个历史时点;对第一切片数据进行预处理,得到目标客户的征信数据;对征信数据进行衍生处理,得到征信数据对应的衍生变量;将衍生变量输入待训练的信用评分卡模型进行训练,以更新信用评分卡模型。本发明通过获取包含多个历史时点信息的切片数据来对信用评分卡模型进行训练,以提高信用评分卡模型对客户进行信用评分时的准确率。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及信用评分卡模型训练方法、装置、系统及计算机存储介质。
背景技术
信用评分卡模型在信用风险评估以及金融风险控制方面得到了广泛应用。当前,金融机构在建立信用评分卡模型时,只考虑客户当前时点的切片数据,若利用该信用评分卡模型对客户进行信用评分,尤其是对在金融机构中账龄较长的客户进行信用评分时,模型输出的客户信用评分不够准确。
发明内容
本发明的主要目的在于提出一种信用评分卡模型训练方法、装置、系统及计算机存储介质,旨在提高信用评分卡模型对客户进行信用评分时的准确率。
为实现上述目的,本发明提供一种信用评分卡模型训练方法,所述方法包括如下步骤:
确定目标客户,获取所述目标客户在预设时点范围内的第一切片数据,其中,所述预设时点范围包含多个历史时点;
对所述第一切片数据进行预处理,得到所述目标客户的征信数据;
对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量;
将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型。
优选地,所述对所述第一切片数据进行预处理,得到所述目标客户的征信数据的步骤包括:
获取预设的报告保留字段,并根据所述报告保留字段对所述第一切片数据进行筛选,得到所述目标客户的第二切片数据;
基于所述第二切片数据确定所述目标客户的征信数据。
优选地,所述基于所述第二切片数据确定所述目标客户的征信数据的步骤包括:
获取预设的保留时间间隔,并根据所述保留时间间隔对所述第二切片数据进行二次筛选,得到所述目标客户的第三切片数据;
确定所述第三切片数据为所述目标客户的征信数据。
优选地,所述对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量的步骤包括:
确定所述征信数据对应的衍生方式;
根据所述衍生方式对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
优选地,所述根据所述衍生方式对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量的步骤包括:
确定所述征信数据对应的衍生时间窗口;
根据所述衍生方式和所述衍生时间窗口对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
优选地,所述将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型的步骤包括:
将所述衍生变量输入待训练的信用评分卡模型,并对所述衍生变量进行分箱处理,得到所述衍生变量对应的箱组变量;
基于第一预设算法分别对各所述箱组变量进行证据权重转换,得到各所述箱组变量的证据权重值;
基于第二预设算法和所述证据权重值,确定目标变量,并根据所述目标变量更新所述信用评分卡模型。
优选地,所述将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型型的步骤之后,还包括:
检测更新后的信用评分卡模型是否满足预设训练条件;
若满足,则确定满足所述预设训练条件的信用评分卡模型为目标信用评分卡模型。
此外,为实现上述目的,本发明还提供一种信用评分卡模型训练装置,所述信用评分卡模型训练装置包括:
数据获取模块,用于确定目标客户,获取所述目标客户在预设时点范围内的第一切片数据,其中,所述预设时点范围包含多个历史时点;
第一处理模块,用于对所述第一切片数据进行预处理,得到所述目标客户的征信数据;
第二处理模块,用于对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量;
模型训练模块,用于将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型。
优选地,所述第一处理模块还用于:
获取预设的报告保留字段,并根据所述报告保留字段对所述第一切片数据进行筛选,得到所述目标客户的第二切片数据;
基于所述第二切片数据确定所述目标客户的征信数据。
优选地,所述第一处理模块还用于:
获取预设的保留时间间隔,并根据所述保留时间间隔对所述第二切片数据进行二次筛选,得到所述目标客户的第三切片数据;
确定所述第三切片数据为所述目标客户的征信数据。
优选地,所述第二处理模块还用于:
确定所述征信数据对应的衍生方式;
根据所述衍生方式对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
优选地,所述第二处理模块还用于:
确定所述征信数据对应的衍生时间窗口;
根据所述衍生方式和所述衍生时间窗口对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
优选地,所述模型训练模块还用于:
将所述衍生变量输入待训练的信用评分卡模型,并对所述衍生变量进行分箱处理,得到所述衍生变量对应的箱组变量;
基于第一预设算法分别对各所述箱组变量进行证据权重转换,得到各所述箱组变量的证据权重值;
基于第二预设算法和所述证据权重值,确定目标变量,并根据所述目标变量更新所述信用评分卡模型。
优选地,所述信用评分卡模型训练装置还包括检测模块,所述检测模块还用于:
检测更新后的信用评分卡模型是否满足预设训练条件;
若满足,则确定满足所述预设训练条件的信用评分卡模型为目标信用评分卡模型。
此外,为实现上述目的,本发明还提供一种信用评分卡模型训练系统,所述信用评分卡模型训练系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信用评分卡模型训练程序,所述信用评分卡模型训练程序被所述处理器执行时实现如上所述的信用评分卡模型训练方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机存储介质,所述计算机存储介质上存储有信用评分卡模型训练程序,所述信用评分卡模型训练程序被处理器执行时实现如上所述的信用评分卡模型训练方法的步骤。
本发明提出的信用评分卡模型训练方法,通过确定目标客户,获取目标客户在预设时点范围内的第一切片数据,其中,预设时点范围包含多个历史时点;对第一切片数据进行预处理,得到目标客户的征信数据;对征信数据进行衍生处理,得到征信数据对应的衍生变量;将衍生变量输入待训练的信用评分卡模型进行训练,以更新信用评分卡模型。本发明通过获取包含多个历史时点信息的切片数据来对信用评分卡模型进行训练,以提高信用评分卡模型对客户进行信用评分时的准确率。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的系统结构示意图;
图2为本发明信用评分卡模型训练方法第一实施例的流程示意图;
图3为本发明信用评分卡模型训练方法较佳实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的系统结构示意图。
本发明实施例系统可以是移动终端、PC端等。
如图1所示,该系统可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的系统结构并不构成对系统的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及信用评分卡模型训练程序。
其中,操作系统是管理和控制信用评分卡模型训练系统与软件资源的程序,支持网络通信模块、用户接口模块、信用评分卡模型训练程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的信用评分卡模型训练系统中,所述信用评分卡模型训练系统通过处理器1001调用存储器1005中存储的信用评分卡模型训练程序,并执行下述信用评分卡模型训练方法各个实施例中的操作。
基于上述硬件结构,提出本发明信用评分卡模型训练方法实施例。
参照图2,图2为本发明信用评分卡模型训练方法第一实施例的流程示意图,所述方法包括:
步骤S10,确定目标客户,获取所述目标客户在预设时点范围内的第一切片数据,其中,所述预设时点范围包含多个历史时点;
本实施例信用评分卡模型训练方法运用于各大金融机构的信用评分卡模型训练系统中。客户的信用评分会影响到该客户在金融机构中申请办理的业务能否成功,而且信用评分还会影响到金融机构对该客户的授信额度,或者在授信额度内进行贷款等业务。对客户进行信用评分,可提高客户到金融机构申请业务的效率,也方便金融机构对客户进行信贷风险管理。
当前,金融机构在建立信用评分卡模型时,只考虑客户当前时点的切片数据,然而对于在金融机构中账龄较长的客户,金融机构可能已经查询了该客户当前时点的切片数据和历史时点的切片数据,这些历史时点的切片数据对于金融机构来说仍具有较大的价值。
而且,若只采用客户当前时点的切片数据对信用评分卡模型进行训练,当该信用评分卡模型用于对客户进行信用评分时,会导致信用评分卡模型输出的客户信用评分不够准确。因此,如何利用历史时点的切片数据来对信用评分卡模型进行训练,以提高信用评分卡模型的准确率,已经成为各大金融机构的主要研究方向。
在本实施例中,对信用评分卡模型进行训练时,需要先确定至少一个目标客户,再通过获取目标客户在预设时点范围内的切片数据,其中,预设时点范围包含多个历史时点,且预设时点范围为需要保留的切片数据对应的时点范围,可根据实际的业务需求和数据的时效性进行设定;切片数据可以是征信报告、信贷数据、职业信息、收入等形式的数据。具体的,预设时点范围可为只包含历史时点的时点范围,以当前时点是2021年1月为例,在一实施例中,可选择距离当前时点已经过去两年的时点,即2019年1月作为第一历史时点,另外选择距离当前时点已经过去五年的时点,即2016年1月作为第二历史时点,在第一历史时点和第二历史时点之间的这三年时间为预设时点范围;此外,预设时点范围还可包括历史时点和当前时点,如确定2018年1月至2021年1月为预设时点范围。利用目标客户在历史时点的切片数据进行信用评分,可使金融机构的风控数据更为丰富,使得训练出来的信用评分卡模型更为准确,从而使信用评分卡模型可输出更为准确的信用评分。
步骤S20,对所述第一切片数据进行预处理,得到所述目标客户的征信数据;
在本实施例中,将切片数据输入待训练的信用评分卡模型中进行训练之前,需要对目标客户在预设试点范围内的切片数据进行预处理,从而得到经过预处理后的第二切片数据。对第一切片数据进行预处理,可对第一切片数据进行缺失值处理、异常值处理、数据清洗、探索性数据分析等处理过程,从而将第一切片数据转化为可用于模型开发的格式化数据。可以理解的,由于第一切片数据中的数据格式不规范,不同数据信息对应的数据格式可能不同,例如用数字代指学历等级时,同是学历字段,可能存在同一个学历等级的学历对应多种数据标签的情况,即同一个学历对应的字段格式可能不同。因此,对第一切片数据进行预处理,可提高模型训练的效率,保证模型的预测效果。
进一步地,步骤S20还包括:
步骤a1,获取预设的报告保留字段,并根据所述报告保留字段对所述第一切片数据进行筛选,得到所述目标客户的第二切片数据;
步骤a2,基于所述第二切片数据确定所述目标客户的征信数据。
在本实施例中,为描述方便,第一切片数据以征信报告为例。由于在实际应用场景中,征信报告里面很多字段都保留了时间戳信息,例如,金融机构在2020年1月查询该目标客户的信用卡逾期信息时,可能只查询到1条信用卡逾期信息,而当金融机构在2020年6月再次查询时,如果在这两次查询时间间隔内,该目标客户的信用卡出现多次逾期的情况,那么,金融机构在2020年6月再次查询该目标客户的信用卡逾期信息时,该目标客户新出现的信用卡逾期信息会继续添加在上一条信用卡逾期信息的后面,也即,金融机构可查询到该目标客户在预设查询时间范围内的所有信用卡逾期信息,也就是说,像信用卡逾期信息这种切片数据是包含历史时点信息的,并且携带时间戳信息,因此,单份切片数据可以包含历史时点的字段和当前时点的字段;而征信报告中有些字段是只保留当前时点信息的,如本月实际还款数等信息,金融机构在2020年1月查询到某目标客户的本月实际还款数为5000元,而在2020年6月再次查询时,查询到该目标客户的本月实际还款数为20000元,也即,金融机构每次查询目标客户的征信报告时,征信报告中的本月实际还款数都只显示当前时点的一条数据信息,也就是说,单份切片数据可以只包含当前时点信息。
当单份征信报告只包含当前时点信息,可通过预先设定需要保留的字段,将这些当前时点信息对应的字段设定为预设的报告保留字段,如“每月应还”、“当前信用卡已经透支的额度”等当前时点的字段,再将包含预设的报告保留字段的征信报告保留。以预设的报告保留字段是“每月应还”为例,通过保留包含“每月应还”这个字段的征信报告,可以将目标客户在多个时点与“每月应还”相关的数据信息都保留下来,得到第二切片数据,可将第二切片数据确定为目标客户的征信数据,也可以再次对第二切片数据进行处理,以得到征信数据,通过这种方法对第一切片数据进行筛选,可以确保金融机构每次查询时都能获得目标客户在多个时点的征信数据。
进一步地,步骤a2还包括:
步骤a21,获取预设的保留时间间隔,并根据所述保留时间间隔对所述第二切片数据进行二次筛选,得到所述目标客户的第三切片数据;
步骤a22,确定所述第三切片数据为所述目标客户的征信数据。
在本实施例中,经过一次筛选得到的第二切片数据包含历史时点信息,为了减轻信用评分卡模型训练系统的存储压力和计算压力,可对第二切片数据再次进行筛选。具体的,可预先设定一个第二切片数据的保留时间间隔,其中,可根据经过统计分析后的数据波动情况设定保留时间间隔,保留时间间隔可为2个月,可为6个月,也可以预先设定保留时间间隔的可选范围,然后在该可选范围内,根据实际需求选定一个保留时间间隔,如保留时间间隔的可选范围为2个月至6个月,那么,预设的保留时间间隔可以是2个月至6个月范围内的任一个时间间隔。然后再根据保留时间间隔和预设筛选要求对第二切片数据进行二次筛选,预设筛选要求可为舍弃不符合预设数据格式的切片数据,具体的,可从初始时间开始计时,每经过一个保留时间间隔就在该时间间隔内将不符合预设数据格式的切片数据进行舍弃,以保留符合预设数据格式的第二切片数据,而且还可以预先设定每个保留时间间隔内切片数据的最多保留份数,如最多保留4份切片数据。若目标客户在某时间间隔内没有切片数据或者切片数据都不符合预设筛选要求,那么该目标客户在该时间间隔内保留的切片数据为空。通过这种方法对包含历史时点的第二切片数据进行筛选,可避免出现极值情况,如出现大部分目标客户保留的第二切片数据都有20多份的情况,可能会超出信用评分卡模型训练系统的承载范围。此外,经过二次筛选得到的第三切片数据,即征信数据可以按照预设的存储形式保存,如可按照预设的保留时间间隔,以数组的形式保存,方便其他业务模块调用。
需要说明的是,对切片数据进行预处理时,可根据预设报告保留字段和/或预设的保留时间间隔来进行筛选,可根据实际的数据处理需求进行一次筛选或者两次筛选。若需要进行两次筛选时,筛选的顺序是可以自行选择的,也即,可先根据预设的报告保留字段进行一次筛选,再根据预设的保留时间间隔进行二次筛选,也可以先根据预设的保留时间间隔进行一次筛选,再根据预设的报告保留字段来进行二次筛选,本发明对此不作具体限定。
步骤S30,对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量;
在本实施例中,对征信数据进行衍生处理,即对征信数据进行加工,挖掘出更多有显著特征的变量,可提高信用评分卡模型的预测能力,是开拓分析维度的好方法。可以理解的,目标客户可能存在迁徙情况,如目标客户从M1逾期阶段(逾期天数在1至30天内)迁徙至M2逾期迁徙阶段(逾期天数在31至60天内),如果一直按照原先的征信数据进行分析,则无法全面地对目标客户进行综合评价,因此,需要征信数据进行衍生处理,得到对应的衍生变量,以提高信用评分卡模型的全面性、准确性和灵活性。
步骤S40,将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型。
在本实施例中,将经过衍生处理后的衍生变量输入待训练的信用评分卡模型中进行训练,即通过信用评分卡模型中的预设算法对衍生变量进行处理,以更新信用评分卡模型中的参数,从而更新信用评分卡模型。
进一步地,步骤S40还包括:
步骤b1,将所述衍生变量输入待训练的信用评分卡模型,并对所述衍生变量进行分箱处理,得到所述衍生变量对应的箱组变量;
步骤b2,基于第一预设算法分别对各所述箱组变量进行证据权重转换,得到各所述箱组变量的证据权重值;
步骤b3,基于第二预设算法和所述证据权重值,确定目标变量,并根据所述目标变量更新所述信用评分卡模型。
在本实施例中,将衍生变量输入待训练的信用评分卡模型后,首先对衍生变量进行分箱处理,得到多个箱组变量,以将衍生变量中的连续变量进行离散化,例如,可选择等频、等距,或者自定义间隔等方式进行分箱处理,也可以按照分位点或者业务逻辑来进行分箱处理。在数据处理过程中,对离散化的衍生变量进行增加或减少处理都很容易实现,且离散化的衍生变量有利于信用评分卡模型的快速迭代,并提高了信用评分卡模型的稳定性。其次,对衍生变量进行分组处理之后,通过第一预设算法统计每个箱组里箱组变量的好样本数和坏样本数,然后根据每个箱组的好样本与总的好样本数之间的占比、坏样本与总的坏样本数之间的占比来计算各个箱组变量的证据权重值(WOE,Weight Of Evidence),WOE也可以理解为当前箱组中坏客户和好客户的比值,和所有样本中坏客户和好客户(即随机的坏客户和好客户)的比值之间的差异。而且,WOE越大,差异就越大。当箱组中坏客户和好客户的比值等于随机坏客户和好客户的比值时,说明这个箱组没有预测能力,即WOE=0,可将该箱组与其他箱组进行合并。最后,通过第二预设算法如逻辑回归方法,来根据不同的证据权重值对不同的衍生变量进行加权融合,得到目标变量,通过逻辑回归方法可以直接将衍生变量转换为一个汇总表,也即,将衍生变量转换为标准的信用评分卡格式,便于信用评分卡模型的更新。
进一步地,步骤S40之后,还包括:
步骤c1,检测更新后的信用评分卡模型是否满足预设训练条件;
步骤c2,若满足,则确定满足所述预设训练条件的信用评分卡模型为目标信用评分卡模型。
在本实施例中,对信用评分卡模型进行更新后,可以检测更新后的信用评分卡模型是否满足预设训练条件,如果不满足,则基于更新后的信用评分卡模型再进行一轮迭代训练,直到满足该预设训练条件时,结束训练,将满足所述预设训练条件的信用评分卡模型确定为目标信用评分卡模型,用于对客户进行信用评分。其中,预设训练条件可为信用评分卡模型对应的损失函数值收敛,或达到一定的训练轮次,或达到一定的训练时长等等。
本实施例的信用评分卡模型训练方法,通过确定目标客户,获取目标客户在预设时点范围内的第一切片数据,其中,预设时点范围包含多个历史时点;对第一切片数据进行预处理,得到目标客户的征信数据;对征信数据进行衍生处理,得到征信数据对应的衍生变量;将衍生变量输入待训练的信用评分卡模型进行训练,以更新信用评分卡模型。本发明通过获取包含多个历史时点信息的切片数据来对信用评分卡模型进行训练,可提高信用评分卡模型对客户进行信用评分时的准确率。
进一步地,基于本发明信用评分卡模型训练方法第一实施例,提出本发明信用评分卡模型训练方法第二实施例。
信用评分卡模型训练方法的第二实施例与信用评分卡模型训练方法的第一实施例的区别在于,所述对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量的步骤包括:
步骤d,确定所述征信数据对应的衍生方式;
步骤e,根据所述衍生方式对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
在本实施例中,衍生方式除了常规的mean(求平均值)、min(求最小值)、max(求最大值)等,还可以考虑变化类的衍生方式,如变化各征信数据对应的斜率、改变变异系数(改变征信数据的标准差与征信数据平均数的比)、变化征信数据的绝对值等,采用不同的衍生方式对征信数据进行衍生处理,可得到不同的衍生变量。
进一步地,步骤e还包括:
步骤f,确定所述征信数据对应的衍生时间窗口;
步骤g,根据所述衍生方式和所述衍生时间窗口对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
在本实施例中,对征信数据进行衍生处理时,可采用不同的衍生时间窗口进行衍生处理,其中,衍生时间窗口的类型可包括超长期、长期、中期、短期、超短期等。例如,超长期的衍生时间窗口可设置为2至5年,长期的衍生时间窗口可设置为1至2年,中期的衍生时间窗口可设置为6个月至12个月,短期的衍生时间窗口可设置为3个月至6个月,超短期的衍生时间窗口可设置为1个月至3个月,再根据确定的衍生方式和衍生时间窗口对征信数据进行处理,从而得到衍生处理后的衍生变量,具体的,衍生变量种类数目的计算方式如下:
衍生变量种类数目=基础变量*衍生时间窗口*衍生算子
其中,基础变量即为每一个征信数据;
衍生算子,即衍生方式,是一个函数空间到函数空间上的映射,对征信数据进行任一项衍生操作都可以认为是一个衍生算子。
例如,基础变量有A、B这两种,衍生时间窗口为1个月至3个月,即衍生近1个月、近2个月、近3个月的征信数据,衍生算子包含min、max这两种,那么根据衍生时间窗口和衍生算子进行衍生处理后,最后得到的衍生变量种类数目=2*3*2=12种,得到的衍生变量分别是近1个月A对应的最小值,近2个月A对应的最小值,近3个月A对应的最小值,近1个月A对应的最大值,近2个月A对应的最大值,近3个月A对应的最大值,近1个月B对应的最小值,近2个月B对应的最小值,近3个月B对应的最小值,近1个月B对应的最大值,近2个月B对应的最大值,近3个月B对应的最大值这12种衍生变量。
本实施例的信用评分卡模型训练方法,可通过不同的衍生方式、不同的衍生时间窗口,对征信数据进行衍生处理,以得到对应的衍生变量,可提高信用评分卡模型的预测效果。
本发明还提供一种信用评分卡模型训练装置。参照图3,本发明信用评分卡模型训练装置包括:
数据获取模块10,用于确定目标客户,获取所述目标客户在预设时点范围内的第一切片数据,其中,所述预设时点范围包含多个历史时点;
第一处理模块20,用于对所述第一切片数据进行预处理,得到所述目标客户的征信数据;
第二处理模块30,用于对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量;
模型训练模块40,用于将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型。
优选地,所述第一处理模块还用于:
获取预设的报告保留字段,并根据所述报告保留字段对所述第一切片数据进行筛选,得到所述目标客户的第二切片数据;
基于所述第二切片数据确定所述目标客户的征信数据。
优选地,所述第一处理模块还用于:
获取预设的保留时间间隔,并根据所述保留时间间隔对所述第二切片数据进行二次筛选,得到所述目标客户的第三切片数据;
确定所述第三切片数据为所述目标客户的征信数据。
优选地,所述第二处理模块还用于:
确定所述征信数据对应的衍生方式;
根据所述衍生方式对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
优选地,所述第二处理模块还用于:
确定所述征信数据对应的衍生时间窗口;
根据所述衍生方式和所述衍生时间窗口对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
优选地,所述模型训练模块还用于:
将所述衍生变量输入待训练的信用评分卡模型,并对所述衍生变量进行分箱处理,得到所述衍生变量对应的箱组变量;
基于第一预设算法分别对各所述箱组变量进行证据权重转换,得到各所述箱组变量的证据权重值;
基于第二预设算法和所述证据权重值,确定目标变量,并根据所述目标变量更新所述信用评分卡模型。
优选地,所述信用评分卡模型训练装置还包括检测模块,所述检测模块还用于:
检测更新后的信用评分卡模型是否满足预设训练条件;
若满足,则确定满足所述预设训练条件的信用评分卡模型为目标信用评分卡模型。
本发明还提供一种计算机存储介质。
本发明计算机存储介质上存储有信用评分卡模型训练程序,所述信用评分卡模型训练程序被处理器执行时实现如上所述的信用评分卡模型训练方法的步骤。
其中,在所述处理器上运行的信用评分卡模型训练程序被执行时所实现的方法可参照本发明信用评分卡模型训练方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端系统(可以是手机,计算机,服务器,空调器,或者网络系统等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种信用评分卡模型训练方法,其特征在于,所述方法包括如下步骤:
确定目标客户,获取所述目标客户在预设时点范围内的第一切片数据,其中,所述预设时点范围包含多个历史时点;
对所述第一切片数据进行预处理,得到所述目标客户的征信数据;
对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量;
将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型。
2.如权利要求1所述的信用评分卡模型训练方法,其特征在于,所述对所述第一切片数据进行预处理,得到所述目标客户的征信数据的步骤包括:
获取预设的报告保留字段,并根据所述报告保留字段对所述第一切片数据进行筛选,得到所述目标客户的第二切片数据;
基于所述第二切片数据确定所述目标客户的征信数据。
3.如权利要求2所述的信用评分卡模型训练方法,其特征在于,所述基于所述第二切片数据确定所述目标客户的征信数据的步骤包括:
获取预设的保留时间间隔,并根据所述保留时间间隔对所述第二切片数据进行二次筛选,得到所述目标客户的第三切片数据;
确定所述第三切片数据为所述目标客户的征信数据。
4.如权利要求1所述的信用评分卡模型训练方法,其特征在于,所述对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量的步骤包括:
确定所述征信数据对应的衍生方式;
根据所述衍生方式对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
5.如权利要求4所述的信用评分卡模型训练方法,其特征在于,所述根据所述衍生方式对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量的步骤包括:
确定所述征信数据对应的衍生时间窗口;
根据所述衍生方式和所述衍生时间窗口对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量。
6.如权利要求1所述的信用评分卡模型训练方法,其特征在于,所述将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型的步骤包括:
将所述衍生变量输入待训练的信用评分卡模型,并对所述衍生变量进行分箱处理,得到所述衍生变量对应的箱组变量;
基于第一预设算法分别对各所述箱组变量进行证据权重转换,得到各所述箱组变量的证据权重值;
基于第二预设算法和所述证据权重值,确定目标变量,并根据所述目标变量更新所述信用评分卡模型。
7.如权利要求1至6任一项所述的信用评分卡模型训练方法,其特征在于,所述将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型型的步骤之后,还包括:
检测更新后的信用评分卡模型是否满足预设训练条件;
若满足,则确定满足所述预设训练条件的信用评分卡模型为目标信用评分卡模型。
8.一种信用评分卡模型训练装置,其特征在于,所述信用评分卡模型训练装置包括:
数据获取模块,用于确定目标客户,获取所述目标客户在预设时点范围内的第一切片数据,其中,所述预设时点范围包含多个历史时点;
第一处理模块,用于对所述第一切片数据进行预处理,得到所述目标客户的征信数据;
第二处理模块,用于对所述征信数据进行衍生处理,得到所述征信数据对应的衍生变量;
模型训练模块,用于将所述衍生变量输入待训练的信用评分卡模型进行训练,以更新所述信用评分卡模型。
9.一种信用评分卡模型训练系统,其特征在于,所述信用评分卡模型训练系统包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信用评分卡模型训练程序,所述信用评分卡模型训练程序被所述处理器执行时实现如权利要求1至7中任一项所述的信用评分卡模型训练方法的步骤。
10.一种计算机存储介质,其特征在于,所述计算机存储介质上存储有信用评分卡模型训练程序,所述信用评分卡模型训练程序被处理器执行时实现如权利要求1至7中任一项所述的信用评分卡模型训练方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110122286.0A CN112862593B (zh) | 2021-01-28 | 信用评分卡模型训练方法、装置、系统及计算机存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110122286.0A CN112862593B (zh) | 2021-01-28 | 信用评分卡模型训练方法、装置、系统及计算机存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112862593A true CN112862593A (zh) | 2021-05-28 |
CN112862593B CN112862593B (zh) | 2024-05-03 |
Family
ID=
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258579A (zh) * | 2023-04-28 | 2023-06-13 | 成都新希望金融信息有限公司 | 用户信用评分模型的训练方法及用户信用评分方法 |
CN117764703A (zh) * | 2024-02-21 | 2024-03-26 | 银联数据服务有限公司 | 一种申请业务行为的评估方法及装置 |
Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017215403A1 (zh) * | 2016-06-12 | 2017-12-21 | 腾讯科技(深圳)有限公司 | 一种用户信用评估方法、装置及存储介质 |
CN109087196A (zh) * | 2018-08-20 | 2018-12-25 | 北京玖富普惠信息技术有限公司 | 信用评分方法、系统、计算机设备及可读介质 |
CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
CN110276552A (zh) * | 2019-06-21 | 2019-09-24 | 深圳前海微众银行股份有限公司 | 贷前风险分析方法、装置、设备及可读存储介质 |
CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
CN111325620A (zh) * | 2020-02-17 | 2020-06-23 | 北京明略软件系统有限公司 | 信用评价模型的生成方法、装置及信用评价方法、装置 |
CN111652279A (zh) * | 2020-04-30 | 2020-09-11 | 中国平安财产保险股份有限公司 | 基于时序数据的行为评价方法、装置及可读存储介质 |
CN111695084A (zh) * | 2020-04-26 | 2020-09-22 | 北京奇艺世纪科技有限公司 | 模型生成方法、信用评分生成方法、装置、设备及存储介质 |
CN111738456A (zh) * | 2020-06-22 | 2020-10-02 | 北京芯盾时代科技有限公司 | 评分卡模型训练方法及装置 |
CN112215696A (zh) * | 2020-09-28 | 2021-01-12 | 北京大学 | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 |
Patent Citations (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017215403A1 (zh) * | 2016-06-12 | 2017-12-21 | 腾讯科技(深圳)有限公司 | 一种用户信用评估方法、装置及存储介质 |
CN109087196A (zh) * | 2018-08-20 | 2018-12-25 | 北京玖富普惠信息技术有限公司 | 信用评分方法、系统、计算机设备及可读介质 |
CN109636591A (zh) * | 2018-12-28 | 2019-04-16 | 浙江工业大学 | 一种基于机器学习的信用评分卡开发方法 |
CN110276552A (zh) * | 2019-06-21 | 2019-09-24 | 深圳前海微众银行股份有限公司 | 贷前风险分析方法、装置、设备及可读存储介质 |
CN110956273A (zh) * | 2019-11-07 | 2020-04-03 | 中信银行股份有限公司 | 融合多种机器学习模型的征信评分方法及系统 |
CN111325620A (zh) * | 2020-02-17 | 2020-06-23 | 北京明略软件系统有限公司 | 信用评价模型的生成方法、装置及信用评价方法、装置 |
CN111695084A (zh) * | 2020-04-26 | 2020-09-22 | 北京奇艺世纪科技有限公司 | 模型生成方法、信用评分生成方法、装置、设备及存储介质 |
CN111652279A (zh) * | 2020-04-30 | 2020-09-11 | 中国平安财产保险股份有限公司 | 基于时序数据的行为评价方法、装置及可读存储介质 |
CN111738456A (zh) * | 2020-06-22 | 2020-10-02 | 北京芯盾时代科技有限公司 | 评分卡模型训练方法及装置 |
CN112215696A (zh) * | 2020-09-28 | 2021-01-12 | 北京大学 | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116258579A (zh) * | 2023-04-28 | 2023-06-13 | 成都新希望金融信息有限公司 | 用户信用评分模型的训练方法及用户信用评分方法 |
CN117764703A (zh) * | 2024-02-21 | 2024-03-26 | 银联数据服务有限公司 | 一种申请业务行为的评估方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8751436B2 (en) | Analyzing data quality | |
CN111383101B (zh) | 贷后风险监控方法、装置、设备及计算机可读存储介质 | |
US11625662B2 (en) | Methods and apparatus for the manipulating and providing of anonymized data collected from a plurality of sources | |
US8121875B2 (en) | Comparing taxonomies | |
US8583408B2 (en) | Standardized modeling suite | |
US11144582B2 (en) | Method and system for parsing and aggregating unstructured data objects | |
AU2018200877A1 (en) | Closed loop nodal analysis | |
CN110570097A (zh) | 基于大数据的业务人员风险识别方法、装置及存储介质 | |
CN110650170A (zh) | 用于推送信息的方法和装置 | |
US11675756B2 (en) | Data complementing system and data complementing method | |
CN114140221A (zh) | 一种欺诈风险预警方法、装置及设备 | |
CN112950359A (zh) | 一种用户识别方法和装置 | |
CN111652711A (zh) | 基于催收数据的贷前分析方法、装置、设备与存储介质 | |
CN112862593A (zh) | 信用评分卡模型训练方法、装置、系统及计算机存储介质 | |
US20120209644A1 (en) | Computer-implemented system and method for facilitating creation of business plans and reports | |
US20230230021A1 (en) | System and method for automatically obtaining and processing logistics and transportation requests | |
CN112862593B (zh) | 信用评分卡模型训练方法、装置、系统及计算机存储介质 | |
CN115935231A (zh) | 一种数据分类方法、装置、设备及存储介质 | |
CN113190562A (zh) | 一种报表生成方法、装置及电子设备 | |
CN112732824A (zh) | 一种指标数据可视化系统 | |
CN107346329B (zh) | 一种数据处理方法和装置 | |
CN112734352A (zh) | 一种基于数据维度的单据审核方法和装置 | |
CN113377604A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
JP2003296539A (ja) | 意思決定支援方法 | |
CN111144694B (zh) | 基于触点分析的运营流程管理方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |