CN110648215A - 分布式评分卡模型建立方法 - Google Patents

分布式评分卡模型建立方法 Download PDF

Info

Publication number
CN110648215A
CN110648215A CN201910751422.5A CN201910751422A CN110648215A CN 110648215 A CN110648215 A CN 110648215A CN 201910751422 A CN201910751422 A CN 201910751422A CN 110648215 A CN110648215 A CN 110648215A
Authority
CN
China
Prior art keywords
sample
interval
chi
value
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910751422.5A
Other languages
English (en)
Inventor
林逸飞
黄向前
赵音龙
林三吉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Xinyan Artificial Intelligence Technology Co Ltd
Original Assignee
Shanghai Xinyan Artificial Intelligence Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Xinyan Artificial Intelligence Technology Co Ltd filed Critical Shanghai Xinyan Artificial Intelligence Technology Co Ltd
Priority to CN201910751422.5A priority Critical patent/CN110648215A/zh
Publication of CN110648215A publication Critical patent/CN110648215A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof

Abstract

分布式评分卡模型建立方法包括:对每一标签变量的样本数据进行分箱为N个样本区间并计算各个相邻区间的卡方值;将最小卡方值对应相邻区间合并为新区间,判断经合并后的区间的个数是否达到目标个数,若是则执行S3,否则执行S4;S3、对合并后的区间计算的各个相邻区间的卡方值进行单调性检验,若为单调则进入S5,否则进入将最小卡方值对应的相邻区间合并为新区间并执行S3;S4、重新计算合并后的各个相邻区间的卡方值并执行S2;S5、判断是否存在区间的样本数据的占比超过设定占比值,若是舍弃该标签变量,否则计算区间的信息征信值,选取信息征信值达到预设要求的标签变量作为目标标签变量,将目标标签变量的样本数据代入模型训练。

Description

分布式评分卡模型建立方法
技术领域
本发明涉及评分卡模型建立技术领域,特别是涉及一种分布式评分卡模型建立方法。
背景技术
信用评分卡是用以前申请人的表现预测新申请人行为的一项工具。信用评分卡技术利用历史数据和统计技术,分析各种风险要素对违约率的影响程度,最终形成一个得分,根据该得分,银行可以区分贷款申请的风险程度。根据构建方法,信用评分卡可以分为三种:判断评分卡(专家型评分卡)、统计评分卡和混合评分卡。
随着在互联网金融爆发式发展,信用评分卡技术广泛应用于各个互联网金融公司的风控系统。现阶段根据用途,信用评分卡分为申请评分卡和行为评分卡。其中申请评分卡应用于贷前申请阶段风控,行为评分卡应用于贷中审查审批阶段。现有评分卡模型开发与部署都是基于单机式的,单机版的评分卡模型主要基于少量样本数据训练模型,而后进行全量数据输入模型,输出信用评分分数,模型更新周期长。但随着业务数据量的指数级增长以及数据分布式存储形式的普及,传统单机版的评分卡模型无论是开发过程还是模型部署过程都有诸多限制。
单机版评分卡模型的缺点:
模型训练不充分:由于运行内存的限制,评分卡模型用于训练数据样本有限,导致得到模型效果不是最优模型。
模型耗费时间较长:单机版评分卡在模型训练时,由于单机运行速度慢,所以导致运行时间很长,同样在输出评分分数时也会有很长的计算时间,不能快速反应,不能满足业务需求。
发明内容
本发明针对现有技术存在的问题和不足,提供一种新型的分布式评分卡模型建立方法。
本发明是通过下述技术方案来解决上述技术问题的:
本发明提供一种分布式评分卡模型建立方法,其特点在于,其包括以下步骤:
S1、分别对每一标签变量的样本数据进行分箱并将标签变量的样本数据分箱为N个样本区间,计算N个样本区间中各个相邻样本区间的卡方值;
S2、将计算出的最小卡方值对应的相邻样本区间合并为一个新的样本区间,判断经合并后的所有样本区间的个数是否达到目标个数,若是则执行步骤S3,否则执行步骤S4;
其中,新的样本区间的下限值为最小卡方值对应的相邻样本区间中的左样本区间的下限值,新的样本区间的上限值为最小卡方值对应的相邻样本区间中的右样本区间的上限值;
S3、对合并后的所有样本区间计算出的各个相邻样本区间的卡方值进行单调性检验,若为单调性则进入步骤S5,否则进入步骤S6;
S4、重新计算合并后的所有样本区间中各个相邻样本区间的卡方值,并执行步骤S2;
S5、判断经单调性检验后的样本区间中是否存在样本区间的样本数据的占比超过一设定占比值,若是进入步骤S7,否则进入步骤S8;
S6、将计算出的最小卡方值对应的相邻样本区间合并为一个新的样本区间,并执行步骤S3;
S7、舍弃该标签变量;
S8、计算经单调性检验后的样本区间的信息征信值;
S9、选取信息征信值达到预设要求的标签变量作为目标标签变量;
S10、将目标标签变量的样本数据代入评分卡模型进行模型训练,以获得样本训练后的评分卡模型。
较佳地,在步骤S10中,评分卡模型采用逻辑回归模型、随机森林模型或GBDT模型。
较佳地,所述方法包括:S11、采用评估指标ROC曲线、AUC值和KS值对样本训练后的评分卡模型进行评估。
在符合本领域常识的基础上,上述各优选条件,可任意组合,即得本发明各较佳实例。
本发明的积极进步效果在于:
分布式计算技术建立分布式的评分卡模型,可以用全量业务数据训练模型,达到最好的模型效果,另外在运行时间方面由于采用分布式计算技术,模型耗费时间大大减少。
变量分箱更优:采用最优卡方分箱与单调性检验结合的方法,变量分箱效果更好。
模型泛化能力强:采用分布式计算,对全量数据进行训练,得到的模型具有很强的泛化能力。
模型耗时缩短:由于采用分布式计算,计算时长大幅缩短,模型的反应计算时长达到业务要求。
附图说明
图1为本发明较佳实施例的分布式评分卡模型建立方法的流程图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供一种分布式评分卡模型建立方法,其包括以下步骤:
步骤101、分别对每一标签变量的样本数据进行分箱并将标签变量的样本数据分箱为N个样本区间,计算N个样本区间中各个相邻样本区间的卡方值;
步骤102、将计算出的最小卡方值对应的相邻样本区间合并为一个新的样本区间,判断经合并后的所有样本区间的个数是否达到目标个数,若是则执行步骤103,否则执行步骤104;
其中,新的样本区间的下限值为最小卡方值对应的相邻样本区间中的左样本区间的下限值,新的样本区间的上限值为最小卡方值对应的相邻样本区间中的右样本区间的上限值;
步骤103、对合并后的所有样本区间计算出的各个相邻样本区间的卡方值进行单调性检验,若为单调性则进入步骤105,否则进入步骤106;
步骤104、重新计算合并后的所有样本区间中各个相邻样本区间的卡方值,并执行步骤102;
步骤105、判断经单调性检验后的样本区间中是否存在样本区间的样本数据的占比超过一设定占比值,若是进入步骤107,否则进入步骤108;
步骤106、将计算出的最小卡方值对应的相邻样本区间合并为一个新的样本区间,并执行步骤103;
步骤107、舍弃该标签变量;
步骤108、计算经单调性检验后的样本区间的信息征信(IV)值;
步骤109、选取信息征信值达到预设要求的标签变量作为目标标签变量;
步骤110、将目标标签变量的样本数据代入评分卡模型进行模型训练,以获得样本训练后的评分卡模型,其中,评分卡模型采用逻辑回归模型、随机森林模型或GBDT模型。
步骤111、采用评估指标ROC曲线、AUC值和KS值对样本训练后的评分卡模型进行评估。
以上整个评分卡模型实现的过程都在分布式系统中实现,可以对全量数据进行训练和预测,在模型业务部署方面也更加方便和高效。
模型分箱方法:本专利分箱方法采用最优卡方分箱与单调性检验结合的创新性方法,使得分箱效果更好,变量IV值更高。
分布式的实现方法:采用分布式方法训练全量数据,得到模型泛化能力更强,另外对于采用多种模型建立的评分卡模型,模型结果更加合理准确。
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这些仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。

Claims (3)

1.一种分布式评分卡模型建立方法,其特征在于,其包括以下步骤:
S1、分别对每一标签变量的样本数据进行分箱并将标签变量的样本数据分箱为N个样本区间,计算N个样本区间中各个相邻样本区间的卡方值;
S2、将计算出的最小卡方值对应的相邻样本区间合并为一个新的样本区间,判断经合并后的所有样本区间的个数是否达到目标个数,若是则执行步骤S3,否则执行步骤S4;
其中,新的样本区间的下限值为最小卡方值对应的相邻样本区间中的左样本区间的下限值,新的样本区间的上限值为最小卡方值对应的相邻样本区间中的右样本区间的上限值;
S3、对合并后的所有样本区间计算出的各个相邻样本区间的卡方值进行单调性检验,若为单调性则进入步骤S5,否则进入步骤S6;
S4、重新计算合并后的所有样本区间中各个相邻样本区间的卡方值,并执行步骤S2;
S5、判断经单调性检验后的样本区间中是否存在样本区间的样本数据的占比超过一设定占比值,若是进入步骤S7,否则进入步骤S8;
S6、将计算出的最小卡方值对应的相邻样本区间合并为一个新的样本区间,并执行步骤S3;
S7、舍弃该标签变量;
S8、计算经单调性检验后的样本区间的信息征信值;
S9、选取信息征信值达到预设要求的标签变量作为目标标签变量;
S10、将目标标签变量的样本数据代入评分卡模型进行模型训练,以获得样本训练后的评分卡模型。
2.如权利要求1所述的分布式评分卡模型建立方法,其特征在于,在步骤S10中,评分卡模型采用逻辑回归模型、随机森林模型或GBDT模型。
3.如权利要求1所述的分布式评分卡模型建立方法,其特征在于,所述方法包括:S11、采用评估指标ROC曲线、AUC值和KS值对样本训练后的评分卡模型进行评估。
CN201910751422.5A 2019-08-15 2019-08-15 分布式评分卡模型建立方法 Pending CN110648215A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910751422.5A CN110648215A (zh) 2019-08-15 2019-08-15 分布式评分卡模型建立方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910751422.5A CN110648215A (zh) 2019-08-15 2019-08-15 分布式评分卡模型建立方法

Publications (1)

Publication Number Publication Date
CN110648215A true CN110648215A (zh) 2020-01-03

Family

ID=68990453

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910751422.5A Pending CN110648215A (zh) 2019-08-15 2019-08-15 分布式评分卡模型建立方法

Country Status (1)

Country Link
CN (1) CN110648215A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311128A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于第三方数据的消费金融信用评分卡开发方法
CN112200392A (zh) * 2020-11-30 2021-01-08 上海冰鉴信息科技有限公司 业务预测方法及装置
CN112215703A (zh) * 2020-10-21 2021-01-12 中国银行股份有限公司 银行业务数据的分箱方法及系统
CN112232944A (zh) * 2020-09-29 2021-01-15 中诚信征信有限公司 一种评分卡创建方法、装置和电子设备

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111311128A (zh) * 2020-03-30 2020-06-19 百维金科(上海)信息科技有限公司 一种基于第三方数据的消费金融信用评分卡开发方法
CN112232944A (zh) * 2020-09-29 2021-01-15 中诚信征信有限公司 一种评分卡创建方法、装置和电子设备
CN112215703A (zh) * 2020-10-21 2021-01-12 中国银行股份有限公司 银行业务数据的分箱方法及系统
CN112215703B (zh) * 2020-10-21 2023-10-27 中国银行股份有限公司 银行业务数据的分箱方法及系统
CN112200392A (zh) * 2020-11-30 2021-01-08 上海冰鉴信息科技有限公司 业务预测方法及装置
US11250368B1 (en) 2020-11-30 2022-02-15 Shanghai Icekredit, Inc. Business prediction method and apparatus

Similar Documents

Publication Publication Date Title
CN110648215A (zh) 分布式评分卡模型建立方法
CN111275491B (zh) 一种数据处理方法及装置
Aiyar et al. Growth slowdowns and the middle-income trap
CN109409677A (zh) 企业信用风险评估方法、装置、设备及存储介质
CN110111113B (zh) 一种异常交易节点的检测方法及装置
CN110738564A (zh) 贷后风险评估方法及装置、存储介质
CN111784502A (zh) 异常交易账户群体识别方法及装置
CN104166731A (zh) 一种社交网络重叠社区发现系统及其方法
CN111815432B (zh) 金融服务风险预测方法及装置
CN104778622A (zh) Tps交易事件阈值的预测方法及预测系统
CN108492001A (zh) 一种用于担保贷款网络风险管理的方法
Abbasimehr et al. A comparative assessment of the performance of ensemble learning in customer churn prediction.
CN112561598A (zh) 基于客户画像的客户流失预测及挽回方法和系统
CN112541817A (zh) 一种个人消费贷款潜在客户的营销响应处理方法及系统
CN109063983B (zh) 一种基于社交媒体数据的自然灾害损失实时评估方法
CN107590735A (zh) 用于信用评估的数据挖掘方法及装置
CN108241867A (zh) 一种分类方法及装置
Li et al. Does foreign direct investment promote exports in China?
CN107784411A (zh) 模型中关键变量的探测方法及装置
CN112232944A (zh) 一种评分卡创建方法、装置和电子设备
CN110223105B (zh) 基于人工智能模型的交易策略生成方法和引擎
Adamko et al. Company bankruptcy and its prediction in conditions of globalization
CN115731030A (zh) 一种银行消费贷款客户需求挖掘方法、装置及存储介质
CN114254762A (zh) 可解释性机器学习模型构建方法、装置和计算机设备
CN114037518A (zh) 风险预测模型的构建方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination