CN116342259A - 一种用户信用自动评级方法、装置、电子设备及介质 - Google Patents
一种用户信用自动评级方法、装置、电子设备及介质 Download PDFInfo
- Publication number
- CN116342259A CN116342259A CN202310335712.8A CN202310335712A CN116342259A CN 116342259 A CN116342259 A CN 116342259A CN 202310335712 A CN202310335712 A CN 202310335712A CN 116342259 A CN116342259 A CN 116342259A
- Authority
- CN
- China
- Prior art keywords
- credit
- features
- user
- information
- rating
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 49
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 107
- 238000012545 processing Methods 0.000 claims abstract description 19
- 238000013475 authorization Methods 0.000 claims abstract description 17
- 238000004458 analytical method Methods 0.000 claims description 26
- 238000011156 evaluation Methods 0.000 claims description 14
- 230000006399 behavior Effects 0.000 claims description 11
- 238000009795 derivation Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 230000009467 reduction Effects 0.000 claims description 7
- 238000004590 computer program Methods 0.000 claims description 6
- 238000002790 cross-validation Methods 0.000 claims description 5
- 238000012795 verification Methods 0.000 claims description 5
- 238000004891 communication Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012502 risk assessment Methods 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 3
- 239000000284 extract Substances 0.000 description 3
- 239000000463 material Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005192 partition Methods 0.000 description 2
- 238000013112 stability test Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 238000012550 audit Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011273 social behavior Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Engineering & Computer Science (AREA)
- Development Economics (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明提供一种用户信用自动评级方法、装置、电子设备及介质,属于信贷技术领域,该方法包括获取用户的基本身份信息及授权信息;基于基本身份信息及授权信息,确定用户的信贷信息;其中,信贷信息包括基础信贷申请信息、行为表现信息和金融产品相关信息;提取信贷信息中的N个原始特征,对N个原始特征采用K‑S值最大的分箱算法进行处理,得到分箱结果特征;对分箱结果特征采用交叉特征衍生算法处理,得到衍生出的交叉特征;将衍生出的交叉特征、分箱结果特征和N个原始特征进行结合,剔除无效特征,得到重要特征;将重要特征输入预设的信用评分等级模型,得到用户的信用等级。本发明提高了用户信用评级的准确度及效率。
Description
本申请是名为《信贷风险自动评估方法和装置》的专利申请的分案申请,原申请的申请日为2020年05月29日,申请号为202010474118.3。
技术领域
本发明涉及信贷技术领域,尤其涉及一种用户信用自动评级方法、装置、电子设备及介质。
背景技术
传统信贷审批严重依赖于人工审核,一方面银行等出借方要耗费大量的人力物力进行资料审查、电调走访等,成本极高,另一方面个人用户/法人用户等借贷方从提交信贷申请到获得审批结果往往要耗费数周,体验极差。现代审批的过程需要对用户的信用进行评估,而目前一般通过人工根据用户的基础属性数据、历史信贷行为数据、社交行为数据、消费行为数据、出行数据、运营商数据等等大致判断用户的信用,准确度不够,且效率极低。
因此,如何提高用户信用评估的准确度及效率,仍然是本领域技术人员亟待解决的问题。
发明内容
本发明实施例提供一种用户信用自动评级方法、装置、电子设备及介质,用以解决现有的信用评估方法的准确度和效率低的问题。
第一方面,本发明实施例提供一种用户信用自动评级,包括:
获取用户的基本身份信息及授权信息;
基于所述基本身份信息及所述授权信息,确定用户的信贷信息;所述信贷信息包括基础信贷申请信息、行为表现信息和金融产品相关信息;
提取所述信贷信息中的N个原始特征;其中,N为正整数;
采用K-S值最大的分箱算法对N个原始特征进行分箱处理,得到分箱结果特征;
采用交叉特征衍生算法对所述分箱结果特征进行交叉衍生处理,得到衍生出的交叉特征;
将所述交叉特征、所述分箱结果特征和N个原始特征结合,并剔除无效特征,得到重要特征;
将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级。
优选地,该方法中,采用以下公式对N个原始特征进行分箱处理:
其中,{f1,f2,f3,...,fi,...,fN}为N个原始特征的集合,fi为N个原始特征中的第i个原始特征,0<i≤N,为分箱结果特征的集合,/>为对应于原始特征fi的分箱结果,Fcut_bin为K-S值最大的分箱算法。
优选地,该方法中,采用以下公式对所述分箱结果特征进行交叉衍生处理:
优选地,该方法中,将所述交叉特征、所述分箱结果特征和N个原始特征进行结合,并剔除无效特征,得到重要特征,具体包括:
将所述交叉特征、所述分箱结果特征和N个原始特征进行结合,得到结合后特征;
采用卡方验证算法、信息增益算法、IV值算法、梯度提升树算法、特征PSI指数算法、特征方差值算法、皮尔逊相关系数算法和最大信息系数算法中的任一种算法或者任意种算法的组合对所述结合后特征的重要性进行评估,得到重要性评估结果;
基于所述重要性评估结果,剔除无效特征,得到重要特征。
优选地,该方法中,所述信用评分等级模型为基于LightGBM算法的分析模型;
将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级,具体包括:
将所述重要特征输入基于LightGBM算法的分析模型,输出所述用户为易贷后逾期违约的概率p以及所述用户为不易贷后逾期违约的概率1-p;其中,基于LightGBM算法的分析模型是预先基于10折交叉验证方法进行训练得到的,训练完成后得到10个基本分析模型组成基于LightGBM算法的分析模型,概率p是10个基本分析模型输出的10个基本用户为易贷后逾期违约的概率的平均值;
采用公式Odds=p/(1-p)确定贷后逾期违约比例指数Odds;
基于预设特定贷后逾期违约比例指数、对应预设特定贷后逾期违约比例指数的信用评分数值以及预设特定贷后逾期违约比例指数翻番对应的信用评分降低数值,确定补偿常数及刻度常数;
根据所述补偿常数、所述刻度常数及所述贷后逾期违约比例指数,采用公式Score=A-Blog(Odds)确定所述用户的信用评分Score;其中,A为补偿常数,B为刻度常数;
基于所述用户的信用评分以及信用等级对应评分的划分区间,确定所述用户的信用等级。
优选地,该方法中,采用以下公式确定补偿常数和刻度常数:
A=P0+Blog(θ0);
其中,θ0为预设特定贷后逾期违约比例指数,Pd为θ0翻番对应的信用评分降低数值,P0为对应于θ0的信用评分数值。
优选地,该方法中,所述信用等级包括第一风险等级、第二风险等级、第三风险等级、第四风险等级及第五风险等级;
第一风险等级对应的信用评分的区间为[0,430);
第二风险等级对应的信用评分的区间为[430,630);
第三风险等级对应的信用评分的区间为[630,690);
第四风险等级对应的信用评分的区间为[690,710);
第五风险等级对应的信用评分的区间为[710,∞)。
第二方面,本发明实施例提供一种用户信用自动评级装置,包括:
获取单元,用于获取用户的基本身份信息及授权信息,并基于基本身份信息及所述授权信息,确定用户的信贷信息;所述信贷信息包括基础信贷申请信息、行为表现信息和金融产品相关信息;
特征单元,用于提取所述信贷信息中的N个原始特征,采用K-S值最大的分箱算法对N个原始特征进行分箱处理,得到分箱结果特征;其中,N为正整数;
衍生单元,用于采用交叉特征衍生算法对所述分箱结果特征进行交叉衍生处理,得到衍生出的交叉特征;
结合单元,用于将所述交叉特征、所述分箱结果特征和N个原始特征进行结合,并剔除无效特征,得到重要特征;
评级单元,用于将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所提供的用户信用自动评级方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面所提供的用户信用自动评级方法的步骤。
本发明通过基于用户的基本身份信息和授权信息生成信贷信息,再从信贷信息中提取N个原始特征,然后将原始特征进行K-S值最大的分箱算法处理得到分箱结果特征,再将分箱结果特征进行交叉特征衍生算法处理得到衍生出的交叉特征,最后将原始特征、分箱结果特征和衍生出的交叉特征进行结合并剔除无效特征后得到重要特征,输入预设的信用评分等级模型,得到用户的信用等级。本发明只需获取用户的基本身份信息和授权信息即可自动得出对应用户的信用等级,避免了人工参与的不确定性,提高了信用评级的准确度及效率。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例一提供的用户信用自动评级方法的流程示意图;
图2为本发明实施例二提供的用户信用自动评级装置的结构示意图;
图3为本发明实施例三提供的用户信用自动评级系统的工作流程图;
图4为本发明实施例三提供的用户信用自动评级系统的ROC曲线图;
图5为本发明实施例三提供的用户信用自动评级系统稳定性测试结果图;
图6为本发明实施例四提供的电子设备的实体结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
如图1所示,本实施例提供一种用户信用自动评级方法,包括:
步骤110,基于用户提交的基本身份信息与授权信息,获取用户的信贷信息,其中,所述信贷信息包括基础信贷申请信息、行为表现信息和金融产品相关信息。
具体地,用户在进行风险评估时首先会提交自身的基本身份信息,所述基本身份信息通常包括用户的姓名、身份证号和手机号,然后在用户授权通过的情况下,通过用户的身份证号解析出用户的性别和年龄,再基于用户的身份证号和手机号调取用户征信行为表现数据以及用户在第三方平台行为表现数据,上述数据的总和即为用户的信贷信息。所述信贷信息分为三类,包括基础信贷申请信息、行为表现信息和金融产品相关信息。其中,所述基础信贷申请信息包括用户的年龄、性别、婚否,收入水平,教育水平等等;所述行为表现信息包括多头借贷意向数据、历史逾期表现数据、银行卡数据、信用卡数据、担保人数据、资产处置数据等等;所述金融产品相关信息包括金融产品利率、贷款金额、贷款期数等等。
步骤120,提取所述信贷信息中的N个原始特征,对N个原始特征采用K-S值最大的分箱算法进行处理,得到分箱结果特征,其中,N为正整数。
具体地,从所述信贷信息中提取原始特征,其中信贷信息中的每一个属性数据都对应于一个原始特征。具体地,上述属性分别从三类信息中提取,即基础信贷申请信息、行为表现信息和金融产品相关信息这三类。
基础信贷申请信息中的属性包括:用户的姓名,身份证号,手机号,婚姻状况,通讯地址,户籍地址,用户申请贷款时所在的省、市、区域,性别,年龄,学历,最高学位,是否本地户口,单位所属行业,工作年限(现单位),本人月收入,家庭月支出。
行为表现信息中的属性包括:信用卡产品的最近6个月的平均额度使用率,最近6个月内信贷产品的最大逾期期数,最近12个月内信贷产品的最大逾期期数,最近24个月内信贷产品的最大逾期期数,所有信贷产品最大账龄,最近6个月内信贷产品累计逾期次数,最近12个月内信贷产品累计逾期次数,最近24个月内信贷产品累计逾期次数,最近3个月信贷审批查询次数,最近6个月信贷审批查询次数,最近12个月信贷审批查询次数,用户(征信报告)是否有征信,用户贷款当前逾期期数,用户(征信报告)贷款状态,用户信用卡当期逾期期数,用户(征信报告)信用卡状态,用户近24个月贷款最高逾期期数,用户近24个月贷款累计逾期期数,用户近24个月信用卡最高逾期期数,用户近24个月信用卡累计逾期期数,额度使用率超过80%的信用卡的张数,用户呆账信息汇总笔数,用户资产处置信息汇总笔数,用户是否存在强制执行记录,用户是否存在行政处罚记录,贷款历史逾期比例,单张信用卡历史逾期比例,多张信用卡历史逾期比例,用户贷款月负债,信用卡产品最大账龄(信用卡产品包括贷记卡、准贷记卡),住房贷款笔数,信用卡产品的最近6个月的平均额度使用率(授信概要)(信用卡产品包括贷记卡、准贷记卡),最近24个月内贷款产品的最大逾期期数(不考虑呆账),最近24个月内单个贷款产品的累计逾期期数(不考虑呆账),担保贷款五级分类,最近90天贷款查询次数,最近180天贷款查询次数,最近90天贷款查询平台数,最近180天贷款查询平台数,信用卡总账户数,信用卡负债总额,信用卡最近一次逾期4期及以上距今月数,最近9个月信贷审批查询次数,最近3个月信贷审批查询机构数,最近6个月信贷审批查询机构数,最近9个月信贷审批查询机构数,最近12个月信贷审批查询机构数,最近3-12个月信贷审批查询次数,最近12个月新开账户数,最近12个月综合信贷审批查询次数,所有消费贷款笔数,所有消费贷款总金额,未结清消费贷款笔数,未结清消费贷款总金额,信用卡账户状态止付,信用卡账户状态冻结,贷款五级分类,保证人代偿,担保五级分类,最近12个月内的最大逾期期数,未结清汽车贷款笔数,手机在网时间,手机在网状态,手机卡类型,手机三要素检测,手机号所属省、市,用户是否为法院失信人,用户是否为法院被执行人,最近7天用户贷款申请平台数,3个月内用户手机号作为联系人手机号出现的次数,3个月内身份证关联多少个申请信息,7天内身份证关联多少个申请信息,7天内用户手机号作为联系人手机号出现的次数。
金融产品相关信息中的属性包括:贷款产品收益率,贷款产品贴息金额,贷款产品执行利率,贷款金额,贷款期数,首付比例,首付金额。将上述每一个属性作为用户的一个原始特征,所有属性组成用户的原始特征集合。
此处需要说明的是,上述原始特征中存在文本离散型原始特征,如性别、婚否、学历、学位、客户所属省、市、区域、是否本地户口、单位所属行业、用户(征信报告)是否有征信、用户是否存在行政处罚记录、用户是否存在强制执行记录、用户是否为法院失信人、用户是否为法院被执行人等,该类原始特征要进行标签编码及独热编码,然后转换为数字型离散特征。
然后,对N个原始特征采用K-S值最大的分箱算法进行处理,得到分箱结果特征,其中,N为原始特征的总数且为正整数。分箱算法有多种处理方式,而此处采用K-S值最大的分箱算法进行原始特征的处理,是为了用户风险评估结果能更准确的区分易逾期违约用户和不易逾期违约用户。
具体地,首先提取所述信贷信息中的所有N种属性信息,形成N个原始特征。然后采用以下公式对N个原始特征进行K-S值最大的分箱算法处理:
其中,{f1,f2,f3,...,fi,...,fN}为N个原始特征的集合,fi为N个原始特征中的第i个原始特征,0<i≤N,为分箱结果特征的集合,/>为对应于原始特征fi的分箱结果,Fcut_bin为K-S值最大的分箱算法。
具体地,将信贷信息中的所有属性信息提取出来,有N种属性信息,形成N个原始特征:f1,f2,f3,...,fN。然后,将N个原始特征输入K-S值最大的分箱模型,采用K-S值最大的分箱算法进行处理,输出N个分箱结果特征:上述公式中的Fcut_bin为K-S值最大的分箱算法,输出的分箱结果特征/>是对应于原始特征fi经过K-S值最大的分箱算法处理的输出。
步骤130,对所述分箱结果特征采用交叉特征衍生算法处理,得到衍生出的交叉特征。
在本实施例中,采用以下公式对所述分箱结果特征进行交叉特征衍生算法处理:
具体地,将分箱结果特征集合输入到交叉特征衍生模型进行交叉特征衍生算法处理,输出衍生出的交叉特征。此处优选贪婪式算法进行交叉特征衍生,即采取贪婪式算法对特征分箱结果进行笛卡尔积计算。
步骤140,将衍生出的交叉特征、所述分箱结果特征和N个原始特征进行结合,剔除无效特征,得到重要特征。
具体地,将衍生出的交叉特征、所述分箱结果特征和N个原始特征进行结合,得到结合后特征其中,f1,f2,f3,...,fN为N个原始特征,/>为T个衍生出的交叉特征,为N个分箱结果特征,其中,N为原始特征的总个数,T为衍生出的交叉特征的总个数,N和T均为正整数。然后剔除结合后特征中的无效特征。此处剔除无效特征的常用做法是采用卡方验证算法、信息增益算法、IV值算法、梯度提升树算法、特征PSI指数算法、特征方差值算法、皮尔逊相关系数算法和最大信息系数算法等等进行特征重要性评估,可以是采用其中一种算法进行评估,也可以是任意几种算法结合评估,事实上还有其他没有列举出的判定结合后特征的重要性的算法,加上没有列举的其他算法,可以形成很多种算法或者算法的组合来评估特征重要性,即计算特征的预测能力的强弱,然后根据预设的重要性阈值,计算出的预测能力值超过重要性阈值的特征作为重要特征予以保留,而计算出的预测能力值没超过重要性阈值的特征作为无效特征予以剔除,此处不具体限定选用哪些重要性评估算法。
步骤150,将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级。
具体地,将重要特征输入预先构建好的信用评分等级模型,得到所述用户的信用等级。而预先构建好的信用评分等级模型也是在大量实验的基础上,设置的该模型的各个参数。
本发明提供的信用评分等级模型的构建基于LightGBM集成学习算法,LightGBM是在GBDT算法框架下的一种改进实现,是一种基于决策树算法的快速、分布式、高性能的GBDT框架,面对高维度大数据时,可显著提高GBDT框架算法的效率和可扩展性。
首先,将所述重要特征输入基于LightGBM算法的分析模型,输出用户为正类(即认为用户极大概率上会发生贷后逾期违约)的概率p(取值范围为0至1)以及用户为负类(用户为正常用户,极小概率会发生贷后逾期违约)的概率为1-p。其中,基于LightGBM算法的分析模型是基于10折交叉验证方法进行训练得到的,训练完成后得到10个基本分析模型组成基于LightGBM算法的分析模型,p是10个基本分析模型输出的10个基本用户为易贷后逾期违约的概率的平均值。
由于该基于LightGBM算法的分析模型由采用10折交叉验证方法进行训练得到的10个基本分析模型组成,故该基于LightGBM算法的分析模型在保证极高准确率和召回率的前提下,相比于单分析模型而言,具有更高的模型稳定性和鲁棒性。
然后采用公式Odds=p/(1-p)确定贷后逾期违约比例指数Odds。
再采用公式Score=A-Blog(Odds)确定所述用户的信用评分Score。其中,A为补偿常数,B为刻度常数,A和B通过预设特定贷后逾期违约比例指数θ0、对应于θ0的信用评分数值P0以及θ0翻番对应的信用评分降低数值Pd确定。
通过大量的实验样本发现,贷后逾期违约比例在20左右,所以本发明实施例设定预设特定贷后逾期违约比例指数θ0为20,然后设定预设特定贷后逾期违约比例指数θ0对应的信用评分数值P0为600分,再设定θ0翻番对应的信用评分降低数值Pd为50分。将上述三个值带入以下公式Odds=p/(1-p)和Score=A-Blog(Odds)中,得到等式:P0=A-Blog(θ0);P0-Pd=A-Blog(2θ0)。解上述两个方程,可以得到:A=P0+Blog(θ0)。
最后基于用户的信用评分以及信用等级对应评分的划分区间,确定对应用户的信用等级。
在本实施例中,输出的用户的信用等级分为五类,第一风险等级、第二风险等级、第三风险等级、第四风险等级和第五风险等级。
表1为信用等级对应评分的划分区间表,如表1所示,可知本发明实施例提供的信用等级对应评分的划分区间。
表1信用等级对应评分的划分区间
信用等级 | 分数区间 |
Lreject | [0,430) |
Lcareful | [430,630) |
Lcommom | [630,690) |
Llow | [690,710) |
Lbypass | [710,∞) |
表1中,第一风险等级为Lreject,表示认为该用户其极大概率上会发生贷后逾期违约,所以直接拒绝其信贷申请。第二风险等级为Lcareful,表示认为该用户大概率会发生贷后违约,故提醒人工审慎审核,并同步传递用户的风险点作为人工参考。第三风险等级为Lcommon,表示认为该用户一定概率上会发生贷后违约,故提醒人工常规核实,并同步传递用户的风险点作为人工参考。第四风险等级为Llow,表示认为该用户为小概率会发生贷后违约,故提醒人工快速通过其审核,并同步传递用户的风险点作为人工参考。第五风险等级为Lbypass,表示认为该用户信用资质极好,极小概率上会发生贷后逾期违约,所以直接通过其信贷申请。
需要说明的是,上述五个风险等级表征的发生违约的概率仅供参考,并不是本发明的重点,本发明的重点在于对用户的信用等级进行评级,进一步地,信用等级可以用于作为判断发生违约的风险的因素,也可以作为其他数据的研究因素。
本发明能够自动对用户的信用进行评级,无需人工参与,降低了人为因素的不确定性,提高了信用评级的准确度及效率。
实施例二
为了执行上述实施例一对应的方法,以实现相应的功能和技术效果,下面提供一种用户信用自动评级装置。
如图2所示,用户信用自动评级装置包括获取单元210、特征单元220、衍生单元230、结合单元240和评级单元250。
其中,获取单元210用于基于用户提交的基本身份信息与授权信息,获取用户的信贷信息。其中,所述信贷信息包括基础信贷申请信息、行为表现信息和金融产品相关信息。
特征单元220用于提取所述信贷信息中的N个原始特征,对N个原始特征采用K-S值最大的分箱算法进行处理,得到分箱结果特征,其中,N为正整数。
衍生单元230用于对所述分箱结果特征采用交叉特征衍生算法处理,得到衍生出的交叉特征。
结合单元240用于将所述衍生出的交叉特征、所述分箱结果特征和N个原始特征进行结合,剔除无效特征,得到重要特征。
评级单元250用于将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级。
具体地,特征单元首先提取所述信贷信息中的所有N种属性信息,形成N个原始特征,然后采用以下公式对N个原始特征进行K-S值最大的分箱算法处理:
其中,{f1,f2,f3,...,fi,...,fN}为N个原始特征的集合,fi为N个原始特征中的第i个原始特征,0<i≤N,为分箱结果特征的集合,/>为对应于原始特征fi的分箱结果,Fcut_bin为K-S值最大的分箱算法。
具体地,衍生单元采用以下公式对所述分箱结果特征进行交叉特征衍生算法处理:
具体地,结合单元具体用于将衍生出的交叉特征、所述分箱结果特征和N个原始特征进行结合,得到结合后特征;采用卡方验证算法、信息增益算法、IV值算法、梯度提升树算法、特征PSI指数算法、特征方差值算法、皮尔逊相关系数算法和最大信息系数算法中的任一种算法或者任意种算法的组合进行所述结合后特征的重要性评估;基于所述评估结果,剔除无效特征,保留重要特征。
具体地,评级单元具体用于将所述重要特征输入基于LightGBM算法的分析模型,输出所述用户为易贷后逾期违约的概率p及所述用户为不易贷后逾期违约的概率1-p;采用公式Odds=p/(1-p)确定贷后逾期违约比例指数Odds;爱用公式Score=A-Blog(Odds)确定所述用户的信用评分Score,其中,A和B为基于预设特定贷后逾期违约比例指数θ0、对应于θ0的信用评分数值P0以及θ0翻番对应的信用评分降低数值Pd确定的常数;基于所述用户的信用评分以及信用等级对应评分的划分区间,确定所述用户的信用等级。
其中,基于LightGBM算法的分析模型是基于10折交叉验证方法进行训练得到的,训练完成后得到10个基本分析模型组成所述基于LightGBM算法的分析模型,p是10个基本分析模型输出的10个基本用户为易贷后逾期违约的概率的平均值。
采用以下公式确定A和B:
A=P0+Blog(θ0)。
对应地,信用等级对应评分的划分区间为:
第一风险等级对应的信用评分的区间为[0,430);
第二风险等级对应的信用评分的区间为[430,630);
第三风险等级对应的信用评分的区间为[630,690);
第四风险等级对应的信用评分的区间为[690,710);
第五风险等级对应的信用评分的区间为[710,∞)。
众所周知,信用评分等级模型区分好坏用户的能力极大程度上依赖于入模特征的有效性,本发明实施例通过多种尝试,最终发现将原始特征采用基于K-S值最大的分箱算法分箱后,然后再将分箱结果进行交叉特征衍生,将原始特征、分箱结果特征和衍生特征结合后的特征筛选出的重要特征入模后可显著提升信用评分模型的K-S值(K-S值达65以上),即能提升好坏用户区分能力。这里需要说明,K-S值主要验证风控模型对违约对象的区分能力,通常是在风控模型预测完全体样本后,将全体样本按是否违约分为两部分,然后用K-S值检验两组样本的风控评分是否有显著差异,其计算方法为:
KSvalue=Max[TPR-FPR];
其中,TPR(true positive rate)为正样本预测正确率,即模型判断出的真实正样本占所有正样本的比例,其计算公式为TPR=TP/(TP+FN),FPR(false positive rate)为正样本预测错误率,即模型误判断其为正类的负样本(即样本实际为负样本,但是模型将其判断为正样本)占所有负样本的比例,其计算公式为FPR=FP/(FP+TN),其中TP代表真实为1且预测为1的数目,FN代表真实为1且预测为0的数目,FP代表真实为0且预测为1的数目,TN代表真实为0且预测为0的数目,这里的1代表正类,0代表负类。KS曲线是两条线,其横轴是风控模型输出的评分,纵轴是TPR与FPR的值,其取值范围为[0,1]。将风控模型输出的评分升序排列并按照取值范围进行N等分,然后将每个等分点作为阈值(即大于该阈值为负类,小于等于该阈值为正类),分别计算TPR、FPR(也可以将每一个分数都作为阈值),然后对TPR、FPR描点画图即可绘出KS曲线,两条曲线之间相距最远的地方对应的TPR与FPR差值即为KS值。表2为K-S值评价标准表,如表2所示:K-S值评价标准如下:
表2K-S值评价标准
K-S值 | [0,0.2) | [0.2,0.4) | [0.4,0.6) | [0.6,0.75) | [0.75,1) |
评价结果 | 差 | 中 | 良 | 优 | 异常 |
实施例三
基于上述任一实施例,本实施例提供一种用户信用自动评级系统。如图3所示,该系统首先接收用户提交的信贷申请,然后系统判断用户提交的信贷申请是否满足准入条件,判断依据用户提交的个人信息是否正确以及用户是否授权系统进行风险评估。然后信用特征衍生模块,从用户的信贷信息中提取原始特征,将原始特征采用基于K-S值最大的分箱算法分箱后,然后再将分箱结果进行交叉特征衍生,将原始特征、分箱结果特征和衍生特征结合后的特征筛选得到重要特征。再将所述重要特征输入信用风险评级模块,输出用户的等级属于本发明实施例中所述的五个等级中的其中一级,然后,进行系统后续处理:系统自动拒绝或系统自动通过或系统建议人工审慎审核或系统建议人工常规审核或者系统建议人工快速通过。其中,系统转人工处理的最后需要人工决策最终结果是否通过。最终结果为系统同意用户的信贷申请或者拒绝用户的信贷申请。
现有的风控系统,信贷审批严重依赖于人工审核,一方面资金出借方要耗费大量的人力物力进行资料审查、电调走访等,成本极高,另一方面资金借贷方从提交信贷申请到获得审批结果往往要耗费数周,体验极差。为验证本实施例提供的用户信用自动评级系统的有效性,针对某汽车金融公司290000个汽车金融个人信贷申请件进行了测试,结果显示,该系统的K-S值达65以上,说明系统具备优异的好/坏用户区分能力,图4为本发明实施例提供的系统的ROC曲线图,如图4所示,其中的实线曲线即为系统的ROC曲线。
图5为本发明实施例提供的系统稳定性测试结果图,如图5所示,系统的PSI(稳定性指数)始终位于0.2警戒线以下,说明模型稳定性良好。且测试结果显示该系统的自动化审批率达到80%以上(即80%以上的信贷申请件由系统自动通过或者系统自动拒绝,完全不需要人工参与),且系统自动通过的申请件中坏用户率(即贷后发生贷款逾期行为,且逾期天数达90天以上)仅为0.25%以下,此外,该系统自动审批的时间仅为秒级,即80%以上的用户提交信贷申请后,几秒内即可获得信贷审批决策结果,极大提高了资金借贷方的用户体验以及资金出借方的商业效率,同时显著降低了资金出借方的运营成本。
实施例四
本实施例提供一种电子设备,图6为本发明实施例提供的电子设备的实体结构示意图。如图6所示,该电子设备可以包括:处理器(processor)601、通信接口(Communications Interface)602、存储器(memory)603和通信总线604。
其中,处理器601、通信接口602、存储器603通过通信总线604完成相互间的通信。处理器601可以调用存储在存储器603上并可在处理器601上运行的计算机程序,以执行上述实施例一提供的用户信用自动评级方法,例如包括:基于用户提交的基本身份信息与授权信息,获取用户的信贷信息,其中,所述信贷信息包括基础信贷申请信息、行为表现信息和金融产品相关信息;提取所述信贷信息中的N个原始特征,对N个原始特征采用K-S值最大的分箱算法进行处理,得到分箱结果特征,其中,N为正整数;对所述分箱结果特征采用交叉特征衍生算法处理,得到衍生出的交叉特征;将衍生出的交叉特征、所述分箱结果特征和N个原始特征进行结合,剔除无效特征,得到重要特征;将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级。
此外,上述的存储器603中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述实施例一提供的用户信用自动评级方法,例如包括:基于用户提交的基本身份信息与授权信息,获取用户的信贷信息,其中,所述信贷信息包括基础信贷申请信息、行为表现信息和金融产品相关信息;提取所述信贷信息中的N个原始特征,对N个原始特征采用K-S值最大的分箱算法进行处理,得到分箱结果特征,其中,N为正整数;对所述分箱结果特征采用交叉特征衍生算法处理,得到衍生出的交叉特征;将衍生出的交叉特征、所述分箱结果特征和N个原始特征进行结合,剔除无效特征,得到重要特征;将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级。
以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种用户信用自动评级方法,其特征在于,所述用户信用自动评级方法包括:
获取用户的基本身份信息及授权信息;
基于所述基本身份信息及所述授权信息,确定用户的信贷信息;所述信贷信息包括基础信贷申请信息、行为表现信息和金融产品相关信息;
提取所述信贷信息中的N个原始特征;其中,N为正整数;
采用K-S值最大的分箱算法对N个原始特征进行分箱处理,得到分箱结果特征;
采用交叉特征衍生算法对所述分箱结果特征进行交叉衍生处理,得到衍生出的交叉特征;
将所述交叉特征、所述分箱结果特征和N个原始特征结合,并剔除无效特征,得到重要特征;
将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级。
4.根据权利要求1或2所述的用户信用自动评级方法,其特征在于,将所述交叉特征、所述分箱结果特征和N个原始特征结合,并剔除无效特征,得到重要特征,具体包括:
将所述交叉特征、所述分箱结果特征和N个原始特征进行结合,得到结合后特征;
采用卡方验证算法、信息增益算法、IV值算法、梯度提升树算法、特征PSI指数算法、特征方差值算法、皮尔逊相关系数算法和最大信息系数算法中的任一种算法或者任意种算法的组合对所述结合后特征的重要性进行评估,得到重要性评估结果;
基于所述重要性评估结果,剔除无效特征,得到重要特征。
5.根据权利要求1或2所述的用户信用自动评级方法,其特征在于,所述信用评分等级模型为基于LightGBM算法的分析模型;
将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级,具体包括:
将所述重要特征输入基于LightGBM算法的分析模型,输出所述用户为易贷后逾期违约的概率p以及所述用户为不易贷后逾期违约的概率1-p;其中,基于LightGBM算法的分析模型是预先基于10折交叉验证方法进行训练得到的,训练完成后得到10个基本分析模型组成基于LightGBM算法的分析模型,概率p是10个基本分析模型输出的10个基本用户为易贷后逾期违约的概率的平均值;
采用公式Odds=p/(1-p)确定贷后逾期违约比例指数Odds;
基于预设特定贷后逾期违约比例指数、对应预设特定贷后逾期违约比例指数的信用评分数值以及预设特定贷后逾期违约比例指数翻番对应的信用评分降低数值,确定补偿常数及刻度常数;
根据所述补偿常数、所述刻度常数及所述贷后逾期违约比例指数,采用公式Score=A-Blog(Odds)确定所述用户的信用评分Score;其中,A为补偿常数,B为刻度常数;
基于所述用户的信用评分以及信用等级对应评分的划分区间,确定所述用户的信用等级。
7.根据权利要求5所述的用户信用自动评级方法,其特征在于,所述信用等级包括第一风险等级、第二风险等级、第三风险等级、第四风险等级及第五风险等级;
第一风险等级对应的信用评分的区间为[0,430);
第二风险等级对应的信用评分的区间为[430,630);
第三风险等级对应的信用评分的区间为[630,690);
第四风险等级对应的信用评分的区间为[690,710);
第五风险等级对应的信用评分的区间为[710,∞)。
8.一种用户信用自动评级装置,其特征在于,所述用户信用自动评级装置包括:
获取单元,用于获取用户的基本身份信息及授权信息,并基于基本身份信息及所述授权信息,确定用户的信贷信息;所述信贷信息包括基础信贷申请信息、行为表现信息和金融产品相关信息;
特征单元,用于提取所述信贷信息中的N个原始特征,采用K-S值最大的分箱算法对N个原始特征进行分箱处理,得到分箱结果特征;其中,N为正整数;
衍生单元,用于采用交叉特征衍生算法对所述分箱结果特征进行交叉衍生处理,得到衍生出的交叉特征;
结合单元,用于将所述交叉特征、所述分箱结果特征和N个原始特征进行结合,并剔除无效特征,得到重要特征;
评级单元,用于将所述重要特征输入预设的信用评分等级模型,得到所述用户的信用等级。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的用户信用自动评级方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1-7中任一项所述的用户信用自动评级方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310335712.8A CN116342259A (zh) | 2020-05-29 | 2020-05-29 | 一种用户信用自动评级方法、装置、电子设备及介质 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010474118.3A CN111507831A (zh) | 2020-05-29 | 2020-05-29 | 信贷风险自动评估方法和装置 |
CN202310335712.8A CN116342259A (zh) | 2020-05-29 | 2020-05-29 | 一种用户信用自动评级方法、装置、电子设备及介质 |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010474118.3A Division CN111507831A (zh) | 2020-05-29 | 2020-05-29 | 信贷风险自动评估方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116342259A true CN116342259A (zh) | 2023-06-27 |
Family
ID=71877045
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310335712.8A Pending CN116342259A (zh) | 2020-05-29 | 2020-05-29 | 一种用户信用自动评级方法、装置、电子设备及介质 |
CN202010474118.3A Pending CN111507831A (zh) | 2020-05-29 | 2020-05-29 | 信贷风险自动评估方法和装置 |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010474118.3A Pending CN111507831A (zh) | 2020-05-29 | 2020-05-29 | 信贷风险自动评估方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (2) | CN116342259A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934161A (zh) * | 2024-03-22 | 2024-04-26 | 杭银消费金融股份有限公司 | 一种贷中清退止付评估方法与系统 |
Families Citing this family (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112102073A (zh) * | 2020-09-27 | 2020-12-18 | 长安汽车金融有限公司 | 信贷风险控制方法及系统、电子设备及可读存储介质 |
CN112348685A (zh) * | 2020-10-09 | 2021-02-09 | 中南大学 | 信用评分方法、装置、设备及存储介质 |
CN112308703A (zh) * | 2020-11-02 | 2021-02-02 | 创新奇智(重庆)科技有限公司 | 用户分群方法、装置、设备及存储介质 |
CN112232950A (zh) * | 2020-12-10 | 2021-01-15 | 银联商务股份有限公司 | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 |
CN112767121A (zh) * | 2020-12-31 | 2021-05-07 | 山东数字能源交易中心有限公司 | 一种风险等级数据的处理方法和装置 |
CN112634033A (zh) * | 2021-01-04 | 2021-04-09 | 深圳前海微众银行股份有限公司 | 基于域分解机的模型构建方法、装置、系统及存储介质 |
US11669898B2 (en) * | 2021-03-16 | 2023-06-06 | S&P Global Inc. | System for estimating distance-to-default credit risk |
CN113011751A (zh) * | 2021-03-19 | 2021-06-22 | 天道金科股份有限公司 | 一种基于大数据的中小微企业信用评价方法 |
CN113421154B (zh) * | 2021-05-27 | 2022-10-04 | 上海交通大学 | 基于控制图的信贷风险评估方法及系统 |
CN113344626A (zh) * | 2021-06-03 | 2021-09-03 | 上海冰鉴信息科技有限公司 | 一种基于广告推送的数据特征优化方法及装置 |
CN113362039A (zh) * | 2021-06-30 | 2021-09-07 | 深圳壹账通智能科技有限公司 | 业务审批方法、装置、电子设备及存储介质 |
CN113744047A (zh) * | 2021-09-09 | 2021-12-03 | 廊坊银行股份有限公司 | 信贷客户贷中风险评估方法、装置、设备和介质 |
CN113781210B (zh) * | 2021-09-29 | 2024-06-25 | 中国银行股份有限公司 | 基于客户金融交易数据结构的自动化特征工程方法及装置 |
CN113971606A (zh) * | 2021-10-28 | 2022-01-25 | 中国银行股份有限公司 | 信贷风险评估方法及装置 |
CN114756594A (zh) * | 2022-05-20 | 2022-07-15 | 北京云成金融信息服务有限公司 | 供应链金融平台用的数据推荐方法及系统 |
CN114943607A (zh) * | 2022-06-02 | 2022-08-26 | 支付宝(杭州)信息技术有限公司 | 特征发现方法、属性预测方法和装置 |
-
2020
- 2020-05-29 CN CN202310335712.8A patent/CN116342259A/zh active Pending
- 2020-05-29 CN CN202010474118.3A patent/CN111507831A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117934161A (zh) * | 2024-03-22 | 2024-04-26 | 杭银消费金融股份有限公司 | 一种贷中清退止付评估方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN111507831A (zh) | 2020-08-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN116342259A (zh) | 一种用户信用自动评级方法、装置、电子设备及介质 | |
CN107025596B (zh) | 一种风险评估方法和系统 | |
CN112102073A (zh) | 信贷风险控制方法及系统、电子设备及可读存储介质 | |
CN108665159A (zh) | 一种风险评估方法、装置、终端设备及存储介质 | |
CN109583966B (zh) | 一种高价值客户识别方法、系统、设备及存储介质 | |
CN110930218B (zh) | 一种识别欺诈客户的方法、装置及电子设备 | |
CN112561685B (zh) | 客户的分类方法和装置 | |
CN113139687B (zh) | 一种预测信用卡用户违约的方法及装置 | |
CN111275338A (zh) | 一种企业欺诈行为的判定方法、装置、设备及存储介质 | |
CN111639690A (zh) | 基于关系图谱学习的欺诈分析方法、系统、介质及设备 | |
CN110866832A (zh) | 一种风险控制方法、系统、存储介质及计算设备 | |
CN112232950A (zh) | 针对借贷风险的评估方法及装置、设备、计算机可读存储介质 | |
CN115205026A (zh) | 信用评估方法、装置、设备及计算机存储介质 | |
CN112990989B (zh) | 价值预测模型输入数据生成方法、装置、设备和介质 | |
CN114139931A (zh) | 企业数据评估方法、装置、计算机设备及存储介质 | |
CN117132383A (zh) | 一种信贷数据处理方法、装置、设备及可读存储介质 | |
Zhao et al. | Network-based feature extraction method for fraud detection via label propagation | |
Yuan | Research on credit risk assessment of P2P network platform: based on the logistic regression model of evidence weight | |
KR102336462B1 (ko) | 신용평가정보 제공 장치 및 방법 | |
CN114626940A (zh) | 数据分析方法、装置及电子设备 | |
CN114170000A (zh) | 信用卡用户风险类别识别方法、装置、计算机设备和介质 | |
CN110956471A (zh) | 装修行业征信数据的分析方法 | |
CN117094817B (zh) | 一种信用风险控制智能预测方法及系统 | |
CN113537666B (zh) | 评测模型训练方法、评测和业务审核方法、装置及设备 | |
US11915313B2 (en) | Using email history to estimate creditworthiness for applicants having insufficient credit history |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |