CN110276552A - 贷前风险分析方法、装置、设备及可读存储介质 - Google Patents
贷前风险分析方法、装置、设备及可读存储介质 Download PDFInfo
- Publication number
- CN110276552A CN110276552A CN201910543399.0A CN201910543399A CN110276552A CN 110276552 A CN110276552 A CN 110276552A CN 201910543399 A CN201910543399 A CN 201910543399A CN 110276552 A CN110276552 A CN 110276552A
- Authority
- CN
- China
- Prior art keywords
- variable
- risk analysis
- loan
- isochronous surface
- time
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012502 risk assessment Methods 0.000 title claims abstract description 88
- 238000000034 method Methods 0.000 title claims abstract description 66
- 238000012549 training Methods 0.000 claims description 15
- 230000004069 differentiation Effects 0.000 claims description 11
- 238000001914 filtration Methods 0.000 claims description 10
- 238000012797 qualification Methods 0.000 claims description 6
- 238000004458 analytical method Methods 0.000 claims description 5
- 230000000052 comparative effect Effects 0.000 claims description 4
- 230000000694 effects Effects 0.000 abstract description 7
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000012216 screening Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- PEDCQBHIVMGVHV-UHFFFAOYSA-N Glycerine Chemical compound OCC(O)CO PEDCQBHIVMGVHV-UHFFFAOYSA-N 0.000 description 1
- 244000309464 bull Species 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Business, Economics & Management (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Marketing (AREA)
- Accounting & Taxation (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开一种贷前风险分析方法,所述方法包括:获取用户的第一回传数据,基于第一回传数据构造变量池,其中,变量池包括多个维度的时间切片变量;对变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量;从校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对目标时间切片变量进行分组变量组合,以得到变量短清单组合;对变量短清单组合进行入模变量筛选,以得到模型组;获取各变量指标,在模型组中获取满足各变量指标的预测模型,并根据预测模型进行贷前风险分析。本发明还公开了一种贷前风险分析装置、设备及可读存储介质。本发明丰富了信息维度,防止了因果错配的情况,提高了风险分析结果的准确性。
Description
技术领域
本发明主要涉及金融科技技术领域,具体地说,涉及一种贷前风险分析方法、装置、设备及可读存储介质。
背景技术
随着金融科技的发展,尤其是互联网科技金融的不断发展,越来越多的技术应用在金融领域。目前,贷款审批都需要对用户进行贷前风险分析,通常会利用人行数据(用户的银行贷款记录等数据)构造信用评分卡,利用客户的贷款信息、信用卡还款信息等对客户的还款意愿还款能力进行综合的判断,然而,这种贷前风险分析的方法信息维度单一,且在引入外部数据源建模时都存在客户申请节点与查询节点不一致的现象,进而出现因果错配的情况,导致风险分析结果不够准确的问题。
发明内容
本发明的主要目的是提供一种贷前风险分析方法、装置、设备及可读存储介质,旨在解决现有的风险分析方法中由于信息维度单一、容易出现因果错配情况而造成风险分析结果不够准确的技术问题。
为实现上述目的,本发明提供一种贷前风险分析方法,所述贷前风险分析方法包括以下步骤:
获取用户的第一回传数据,基于所述第一回传数据构造变量池,其中,所述变量池包括多个维度的时间切片变量;
对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量;
从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合;
对所述变量短清单组合进行入模变量筛选,以得到模型组;
获取各变量指标,在所述模型组中获取满足各所述变量指标的预测模型,并根据所述预测模型进行贷前风险分析。
可选地,所述对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量的步骤包括:
获取所述第一回传数据的查询时间及申请时间,并计算所述查询时间与所述申请时间的间隔时间;
基于所述间隔时间对所述时间切片进行调整,并通过线性插值方法计算调整时间切片后的时间切片变量,以得到所述校准时间切片变量。
可选地,所述从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量的步骤包括:
计算所述时间切片变量的缺失率,确定所述缺失率是否小于预设缺失率;
若是,则计算所述时间切片变量的集中度,确定所述集中度是否小于预设集中度;
若所述集中度小于所述预设集中度,则计算所述时间切片变量的区分能力值,确定所述区分能力值是否小于预设区分能力值;
若所述区分能力值小于所述预设区分能力值,则对所述时间切片变量进行相关性过滤,以得到目标时间切片变量。
可选地,所述对所述时间切片变量进行相关性过滤,以得到目标时间切片变量的步骤包括:
对所述时间切片变量进行分组,计算组内中各时间切片变量的相关性值;
确定所述相关性值是否大于预设阈值;
若是,则比较组内中各时间切片变量的区分能力值,获取组内中区分能力值最大的时间切片变量,以得到目标时间切片变量。
可选地,所述从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合的步骤之前,所述贷前风险分析方法包括:
将所述第一回传数据作为样本,并添加好坏标签;
将带有坏标签的样本作为负样本,以根据所述负样本进行模型训练。
可选地,所述将带有坏标签的样本作为负样本,以根据所述负样本进行模型训练的步骤包括:
计算预设时间段中带有坏标签的样本的逾期参数,并确定所述逾期参数是否大于预设阈值;
若是,则将带有坏标签的样本作为负样本,以根据负样本进行模型训练。
可选地,所述根据所述预测模型进行贷前风险分析的步骤包括:
获取用户的第二回传数据,将所述第二回传数据输入所述预测模型;
通过所述预测模型输出评分结果,基于所述评分结果对用户进行贷前风险分析,以确定用户是否具备贷款资格。
此外,为实现上述目的,本发明还提供一种贷前风险分析装置,所述贷前风险分析装置包括:
获取模块,用于获取用户的第一回传数据,基于所述第一回传数据构造变量池,其中,所述变量池包括多个维度的变量;
校准模块,用于对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量;
变量筛选模块,用于从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合;
模型筛选模块,用于对所述变量短清单组合进行入模变量筛选,以得到模型组;
风控模块,用于获取各变量指标,在所述模型组中获取满足各所述变量指标的预测模型,并根据所述预测模型进行贷前风险分析。
此外,为实现上述目的,本发明还提供一种贷前风险分析设备,所述贷前风险分析设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的贷前风险分析程序,其中所述贷前风险分析程序被所述处理器执行时,实现如上述的贷前风险分析方法的步骤。
此外,为实现上述目的,本发明还提供一种可读存储介质,所述可读存储介质上存储有贷前风险分析程序,其中所述贷前风险分析程序被处理器执行时,实现如上述的贷前风险分析方法的步骤。
本发明提供一种贷前风险分析方法、装置及可读存储介质,本发明通过获取用户的第一回传数据,基于所述第一回传数据构造变量池,其中,所述变量池包括多个维度的时间切片变量,然后对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量,接着从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合,接着对所述变量短清单组合进行入模变量筛选,以得到模型组,最后获取各变量指标,在所述模型组中获取满足各所述变量指标的预测模型,并根据所述预测模型进行贷前风险分析;实现了构造多个维度的时间切片变量,并对时间切片变量进行时间校准,从而丰富了信息维度,防止了因果错配的情况,提高了风险分析结果的准确性。
附图说明
图1为本发明各实施例涉及的贷前风险分析装置的硬件结构示意图;
图2为本发明贷前风险分析方法第一实施例的流程示意图;
图3为本发明贷前风险分析装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案中涉及的贷前风险分析装置的硬件结构示意图。本发明实施例中,贷前风险分析装置可以包括处理器1001(例如中央处理器CentralProcessing Unit、CPU),通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信;用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard);网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口);存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器,存储器1005可选的还可以是独立于前述处理器1001的存储装置。本领域技术人员可以理解,图1中示出的硬件结构并不构成对本发明的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
继续参照图1,图1中作为一种存储介质的存储器1005可以包括操作系统、网络通信模块以及贷前风险分析程序。在图1中,网络通信模块主要用于连接服务器,与服务器进行数据通信;而处理器1001可以调用存储器1005中存储的贷前风险分析程序,并执行本发明实施例提供的贷前风险分析方法。
本发明实施例提供了一种贷前风险分析方法。
参照图2,图2为本发明贷前风险分析方法第一实施例的流程示意图。
在本实施例中,该贷前风险分析方法的执行主体为贷前风险分析系统(以下简称系统),本发明主要通过构建多个维度的时间切片变量,对时间切片变量进行时间校准,并对校准后的时间切片变量进行筛选,得到模型组,对模型组进行筛选,最终得到预测模型,从而通过预测模型进行贷前风险分析,本发明通过多个维度的信息对用户进行风险分析,并且,能够对时间切片变量进行校准,从而防止了因果错配的情况出现。
步骤S10,获取用户的第一回传数据,基于所述第一回传数据构造变量池,其中,所述变量池包括多个维度的时间切片变量;
在本实施例中,第一回传数据包括用户的贷款数据、用户使用设备的ID、机构申请的数据等,对第一回传数据中的变量进行分类,可以分为汇总类、机构申请类、黑灰名单类、维度关联类、信贷逾期类等,得到多个维度的时间切片变量,从而构造变量池,其中,黑灰名单类包含了通过客户其他键值关联的机构申请类的可疑信息,维度关联类包含了客户关联的手机号、工作地点、邮箱数量等信息,机构申请类包括消费金融、消费分期、线上及线下网贷、保险等金融机构的多头申请类信息,并通过时间切片构造变量变化趋势等方法构造新变量,从而得到变量池,该变量池中包括多个维度的时间切片变量。
步骤S20,对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量;
在本实施例中,可以通过分段线性插值的方法进行了回溯估计,从而对时间切片变量进行时间校准,得到时间校准后的时间切片变量。
其中,所述对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量的步骤包括:
步骤S21,获取所述第一回传数据的查询时间及申请时间,并计算所述查询时间与所述申请时间的间隔时间;
步骤S22,基于所述间隔时间对所述时间切片进行调整,并通过线性插值方法计算调整时间切片后的时间切片变量,以得到所述校准时间切片变量。
在本实施例中,该查询时间是指回传数据中查询外部数据的时间,该申请时间是指回传数据中用户申请贷款的时间,计算查询数据与申请时间之间的间隔时间m,其中,该间隔时间可以是以月、日等为单位。根据间隔时间对时间切片变量进行调整,并通过预设的差值公式计算调整后的时间切片变量,得到校准时间切片变量,例如,回传数据中原始的时间切片为因为时间会发生错配现象,所以,需要对原始的时间切片变量进行调整,根据查询时间与申请时间之间的间隔时间m,将时间切片调整为(m1+m)……(mn+m),则得到的调整后的时间切片变量为利用差值公式计算出原始的时间切片变量插值公式为:
从而通过线性插值的方法得到时间校准后的时间切片变量,将因为时间错配的时间切片进行调整,进而防止了因果错配的情况。
步骤S20之后,还包括:
步骤30,从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合;
在本实施例中,该预设条件包括根据时间切片变量的缺失率、集中度、区分能力值及相关性值进行变量筛选,从而得到筛选后的目标时间切片变量,若不对目标时间切片变量进行分组变量组合,则不能得到模型组,从而不能得到最优的预测模型,进而降低了风险分析的准确性,所以,对目标时间切片变量进行分组变量组合,通过分组变量组合的方式得到变量短清单组合,能够根据变量短清单组合进行入模变量筛选,从而得到包含多个模型的模型组。
其中,所述从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量的步骤包括:
步骤S31,计算所述时间切片变量的缺失率,确定所述缺失率是否小于预设缺失率;
在本实施例中,该缺失率是指时间切片变量的变量值为空值的比率,时间切片变量中有些变量值为空,当时间切片变量中空值太多时,该时间切片变量为无效的时间切片变量,所以,需要筛选掉缺失率过高的时间切片变量,具体地,计算时间切片变量的缺失率,并获取预设缺失率,将时间切片变量的缺失率与预设缺失率进行比较,若该缺失率小于预设缺失率,则说明该时间切片变量符合缺失率的要求。
步骤S32,若是,则计算所述时间切片变量的集中度,确定所述集中度是否小于预设集中度;
在本实施例中,若该缺失率小于预设缺失率,则需计算时间切片变量的集中度,并筛选掉集中度较高的时间切片变量,具体地,获取预设集中度,将时间切片变量的集中度与预设集中度进行比较,若时间切片变量的集中度小于预设集中度,则该时间切片变量满足集中度的要求。
步骤S33,若所述集中度小于所述预设集中度,则计算所述时间切片变量的区分能力值,确定所述区分能力值是否小于预设区分能力值;
在本实施例中,可以对变量通过WOE(Weight of Evidence证据权重)进行分组,分组后计算各组中IV(Information value信息价值)值,即区分能力值,预设的区分能力值由技术人员进行设置,将时间切片变量的区分能力值与预设区分能力值进行比较,若时间切片变量的区分能力值小于预设区分能力值,则说明该时间切片变量符合区分能力值的要求。
步骤S34,若所述区分能力值小于所述预设区分能力值,则对所述时间切片变量进行相关性过滤,以得到目标时间切片变量。
在本实施例中,对各时间切片变量通过varclus(变量聚类法)进行分组,计算每个组内的时间切片变量的相关性矩阵,从而进行相关性过滤。
其中,所述对所述时间切片变量进行相关性过滤,以得到目标时间切片变量的步骤包括:
步骤S341,对所述时间切片变量进行分组,计算组内中各时间切片变量的相关性值;
步骤S342,确定所述相关性值是否大于预设阈值;
步骤S343,若是,则比较组内中各时间切片变量的区分能力值,获取组内中区分能力值最大的时间切片变量,以得到目标时间切片变量。
在本实施例中,通过计算各组内的时间切片变量的相关性矩阵,从而得到各组中时间切片变量之间的相关性值,获取相关性值较高时间切片变量的组,并比较该组内时间切片变量的区分能力值,筛选掉区分能力值较低的变量,其中,可以按照排列组合的方式对时间切片变量进行分组,例如,存在四个时间切片变量,分别为a、b、c、d,分组后得到的组合分别为ab、ac、ad、bc、bd,计算变量a与变量b的相关性值,确定该相关性值是否大于预设阈值,若该相关性值大于预设阈值,则获取变量a及变量b的区分能力值,比较变量a与变量b的区分能力值,若a的区分能力值小于b的区分能力值,则筛选掉变量a,得到变量b,将变量b作为目标时间切片变量。
步骤S40,对所述变量短清单组合进行入模变量筛选,以得到模型组;
步骤S50,获取各变量指标,在所述模型组中获取满足各所述变量指标的预测模型,并根据所述预测模型进行贷前风险分析。
在本实施例中,在得到变量短清单组合后,通过逐步逻辑回归模型进行入模变量筛选,从而得到模型组,其中,该模型组包括多个模型,所以,需要在模型组中筛选出最终的预测模型,可以对模型组中的各模型通过各变量指标进行筛选,从而得到预测模型,该变量指标包括ks(Kolmogorov-Smirnov柯尔莫哥洛夫斯米尔诺夫)值、GINI(坚尼系数)值、变量VIF(variance inflation factor方差膨胀系数)、变量方向性,变量PSI(populationstability index群体稳定性指标)等,其中,KS用于模型风险区分能力进行评估,指标衡量的是好坏样本累计分部之间的差值,好坏样本累计差异越大,KS指标越大,那么模型的风险区分能力越强。所以,获取各模型的KS值,设定KS的一个阈值,筛选出大于该阈值的模型。
进一步地,GINI用于统计值衡量坏账户数在好账户数上的的累积分布与随机分布曲线之间的面积,好账户与坏账户分布之间的差异越大,GINI指标越高,表明模型的风险区分能力越强,同理,需要筛选出GINI较大的模型。
进一步地,PSI用来衡量变量及模型评分的稳定性(jioaodi),PSI越大,模型评分的稳定性越差,PSI越小,模型评分的稳定性越好,所以,筛选出PSI值较小的模型。
进一步地,VIF用来衡量变量的共线性,VIF值越大,则变量共线性越大,模型稳定性越差,VIF值越小,则变量共线性越小,模型稳定性越好,所以,筛选出VIF值较小的模型。
对模型组中通过各变量指标的筛选得到最终的预测模型,该预测模型用于对户的信用进行评分,从而对用户进行贷前分析。
其中,步骤S50包括:
步骤S51,获取用户的第二回传数据,将所述第二回传数据输入所述预测模型;
步骤S52,通过所述预测模型输出评分结果,基于所述评分结果对用户进行贷前风险分析,以确定用户是否具备贷款资格。
在本实施例中,第二回传数据包括用户的贷款数据、用户使用设备的ID、机构申请的数据等,将第二回传数据输入预测模型,通过预测模型进行预测,输出对应的评分结果,从而对用户的信用进行评分,并确定该评分结果是否大于预设的评分阈值,若大于,则说明用户的信用高,具备贷款资格,若小于,则说明用户的信用低,不具备贷款资格。
本实施例提出的贷前风险分析方法,通过获取用户的第一回传数据,基于所述第一回传数据构造变量池,其中,所述变量池包括多个维度的时间切片变量,然后对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量,接着从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合,接着对所述变量短清单组合进行入模变量筛选,以得到模型组,最后获取各变量指标,在所述模型组中获取满足各所述变量指标的预测模型,并根据所述预测模型进行贷前风险分析;实现了构造多个维度的时间切片变量,并对时间切片变量进行时间校准,从而丰富了信息维度,防止了因果错配的情况,提高了风险分析结果的准确性。
基于第一实施例,提出本发明贷前风险分析方法的第二实施例,本实施例中,步骤S30之前,该贷前风险分析方法还包括:
步骤S60,将所述第一回传数据作为样本,并添加好坏标签;
步骤S70,将带有坏标签的样本作为负样本,以根据所述负样本进行模型训练。
在本实施例中,可以将第一回传数据作为样本,其中,样本中分为好样本与坏样本,例如,将发生逾期的样本添加坏标签,将没有逾期的样本添加好标签。然后将带有坏标签的样本作为负样本,从而根据负样本进行模型训练。
其中,所述将带有坏标签的样本作为负样本,以根据所述负样本进行模型训练的步骤包括:
步骤S71,计算预设时间段中带有坏标签的样本的逾期参数,并确定所述逾期参数是否大于预设阈值;
步骤S72,若是,则将带有坏标签的样本作为负样本,以根据负样本进行模型训练。
在本实施例中,该逾期参数包括逾期率及逾期次数等,计算预设时间段中带有坏标签的样本的逾期参数,并将逾期参数与预设阈值进行比较,确定逾期参数是否大于预设阈值,若逾期参数大于预设阈值,则将带有坏标签的样本作为负样本,例如,在带有坏标签的样本中查找半年内的坏样本,确定坏样本的逾期次数是否大于三次,若坏样本的逾期次数大于三次,则将该坏样本作为负样本,根据负样本进行模型。
本实施例提出的贷前风险分析方法,通过将所述第一回传数据作为样本,并添加好坏标签,然后将带有坏标签的样本作为负样本,以根据所述负样本进行模型训练;实现了通过将样本添加好坏标签,从而对样本进行了区分,进而能够根据负样本进行模型训练,从而能够通过模型训练预测用户预期的概率,进而能够提高用户贷前分析的准确性。
此外,本发明实施例还提供一种贷前风险分析装置。
参照图3,图3为本发明贷前风险分析装置第一实施例的功能模块示意图。
本发明贷前风险分析装置为虚拟装置,存储于图1所示终端的存储器1005中,用于实现贷前风险分析程序的所有功能:获取用户的第一回传数据,基于所述第一回传数据构造变量池,其中,所述变量池包括多个维度的时间切片变量;对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量;从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合;对所述变量短清单组合进行入模变量筛选,以得到模型组;获取各变量指标,在所述模型组中获取满足各所述变量指标的预测模型,并根据所述预测模型进行贷前风险分析。
具体的,本实施例中,所述贷前风险分析装置包括:
获取模块101,用于获取用户的第一回传数据,基于所述第一回传数据构造变量池,其中,所述变量池包括多个维度的变量;
校准模块102,用于对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量;
变量筛选模块103,用于从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合;
模型筛选模块104,用于对所述变量短清单组合进行入模变量筛选,以得到模型组;
风控模块105,用于获取各变量指标,在所述模型组中获取满足各所述变量指标的预测模型,并根据所述预测模型进行贷前风险分析。
进一步地,该校准模块102用于:
获取所述第一回传数据的查询时间及申请时间,并计算所述查询时间与所述申请时间的间隔时间;
基于所述间隔时间对所述时间切片进行调整,并通过线性插值方法计算调整时间切片后的时间切片变量,以得到所述校准时间切片变量。
进一步地,该变量筛选模块103用于:
计算所述时间切片变量的缺失率,确定所述缺失率是否小于预设缺失率;
若是,则计算所述时间切片变量的集中度,确定所述集中度是否小于预设集中度;
若所述集中度小于所述预设集中度,则计算所述时间切片变量的区分能力值,确定所述区分能力值是否小于预设区分能力值;
若所述区分能力值小于所述预设区分能力值,则对所述时间切片变量进行相关性过滤,以得到目标时间切片变量。
进一步地,该变量筛选模块103用于:
对所述时间切片变量进行分组,计算组内中各时间切片变量的相关性值;
确定所述相关性值是否大于预设阈值;
若是,则比较组内中各时间切片变量的区分能力值,获取组内中区分能力值最大的时间切片变量,以得到目标时间切片变量。
进一步地,该贷前风险分析装置包括:
标签添加模块,用于将所述第一回传数据作为样本,并添加好坏标签;
负样本模块,用于将带有坏标签的样本作为负样本,以根据所述负样本进行模型训练。
进一步地,该负样本模块用于:
计算预设时间段中带有坏标签的样本的逾期参数,并确定所述逾期参数是否大于预设阈值;
若是,则将带有坏标签的样本作为负样本,以根据负样本进行模型训练。
进一步地,该风控模块用于:
获取用户的第二回传数据,将所述第二回传数据输入所述预测模型;
通过所述预测模型输出评分结果,基于所述评分结果对用户进行贷前风险分析,以确定用户是否具备贷款资格。
其中,上述贷前风险分析装置中各个模块的功能实现与上述贷前风险分析方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
此外,本发明实施例还提供一种存储介质。
本发明存储介质上存储有贷前风险分析程序,其中所述贷前风险分析程序被处理器执行时,实现如上述的贷前风险分析方法的步骤。
其中,贷前风险分析程序被执行时所实现的方法可参照本发明贷前风险分析方法的各个实施例,此处不再赘述。
还需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个可读存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是在本发明的构思下,利用本发明说明书及附图内容所作的等效结构变换,或直接/间接运用在其他相关的技术领域均包括在本发明的专利保护范围内。
Claims (10)
1.一种贷前风险分析方法,其特征在于,所述贷前风险分析方法包括以下步骤:
获取用户的第一回传数据,基于所述第一回传数据构造变量池,其中,所述变量池包括多个维度的时间切片变量;
对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量;
从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合;
对所述变量短清单组合进行入模变量筛选,以得到模型组;
获取各变量指标,在所述模型组中获取满足各所述变量指标的预测模型,并根据所述预测模型进行贷前风险分析。
2.如权利要求1所述的贷前风险分析方法,其特征在于,所述对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量的步骤包括:
获取所述第一回传数据的查询时间及申请时间,并计算所述查询时间与所述申请时间的间隔时间;
基于所述间隔时间对所述时间切片进行调整,并通过线性插值方法计算调整时间切片后的时间切片变量,以得到所述校准时间切片变量。
3.如权利要求1所述的贷前风险分析方法,其特征在于,所述从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量的步骤包括:
计算所述时间切片变量的缺失率,确定所述缺失率是否小于预设缺失率;
若是,则计算所述时间切片变量的集中度,确定所述集中度是否小于预设集中度;
若所述集中度小于所述预设集中度,则计算所述时间切片变量的区分能力值,确定所述区分能力值是否小于预设区分能力值;
若所述区分能力值小于所述预设区分能力值,则对所述时间切片变量进行相关性过滤,以得到目标时间切片变量。
4.如权利要求3所述的贷前风险分析方法,其特征在于,所述对所述时间切片变量进行相关性过滤,以得到目标时间切片变量的步骤包括:
对所述时间切片变量进行分组,计算组内中各时间切片变量的相关性值;
确定所述相关性值是否大于预设阈值;
若是,则比较组内中各时间切片变量的区分能力值,获取组内中区分能力值最大的时间切片变量,以得到目标时间切片变量。
5.如权利要求1所述的贷前风险分析方法,其特征在于,所述从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合的步骤之前,所述贷前风险分析方法包括:
将所述第一回传数据作为样本,并添加好坏标签;
将带有坏标签的样本作为负样本,以根据所述负样本进行模型训练。
6.如权利要求5所述的贷前风险分析方法,其特征在于,所述将带有坏标签的样本作为负样本,以根据所述负样本进行模型训练的步骤包括:
计算预设时间段中带有坏标签的样本的逾期参数,并确定所述逾期参数是否大于预设阈值;
若是,则将带有坏标签的样本作为负样本,以根据负样本进行模型训练。
7.如权利要求1所述的贷前风险分析方法,其特征在于,所述根据所述预测模型进行贷前风险分析的步骤包括:
获取用户的第二回传数据,将所述第二回传数据输入所述预测模型;
通过所述预测模型输出评分结果,基于所述评分结果对用户进行贷前风险分析,以确定用户是否具备贷款资格。
8.一种贷前风险分析装置,其特征在于,所述贷前风险分析装置包括:
获取模块,用于获取用户的第一回传数据,基于所述第一回传数据构造变量池,其中,所述变量池包括多个维度的变量;
校准模块,用于对所述变量池中的时间切片变量进行时间校准,以得到时间校准后的校准时间切片变量;
变量筛选模块,用于从所述校准时间切片变量中筛选出满足预设条件的目标时间切片变量,并对所述目标时间切片变量进行分组变量组合,以得到变量短清单组合;
模型筛选模块,用于对所述变量短清单组合进行入模变量筛选,以得到模型组;
风控模块,用于获取各变量指标,在所述模型组中获取满足各所述变量指标的预测模型,并根据所述预测模型进行贷前风险分析。
9.一种贷前风险分析设备,其特征在于,所述贷前风险分析设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的贷前风险分析程序,其中所述贷前风险分析程序被所述处理器执行时,实现如权利要求1至7中任一项所述的贷前风险分析方法的步骤。
10.一种可读存储介质,其特征在于,所述可读存储介质上存储有贷前风险分析程序,其中所述贷前风险分析程序被处理器执行时,实现如权利要求1至7中任一项所述的贷前风险分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910543399.0A CN110276552A (zh) | 2019-06-21 | 2019-06-21 | 贷前风险分析方法、装置、设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910543399.0A CN110276552A (zh) | 2019-06-21 | 2019-06-21 | 贷前风险分析方法、装置、设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110276552A true CN110276552A (zh) | 2019-09-24 |
Family
ID=67962267
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910543399.0A Pending CN110276552A (zh) | 2019-06-21 | 2019-06-21 | 贷前风险分析方法、装置、设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110276552A (zh) |
Cited By (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111062800A (zh) * | 2019-11-27 | 2020-04-24 | 同盾控股有限公司 | 数据处理方法、装置、电子设备及计算机可读介质 |
CN111079939A (zh) * | 2019-11-28 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 基于数据隐私保护的机器学习模型特征筛选方法及装置 |
CN111144505A (zh) * | 2019-12-30 | 2020-05-12 | 北京三快在线科技有限公司 | 基于维度切片的变量分类方法、装置、设备及介质 |
CN111178377A (zh) * | 2019-10-12 | 2020-05-19 | 未鲲(上海)科技服务有限公司 | 可视化特征筛选方法、服务器及存储介质 |
CN111652525A (zh) * | 2020-06-16 | 2020-09-11 | 深圳前海微众银行股份有限公司 | 风险尾端客户分析方法、装置、设备及计算机存储介质 |
CN111861703A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统 |
CN111861704A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 风控特征生成方法及系统 |
CN111861734A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 三方数据源的测试评估系统及方法 |
CN112232951A (zh) * | 2020-12-17 | 2021-01-15 | 中证信用云科技(深圳)股份有限公司 | 基于多维度交叉特征的信用评价方法、装置、设备及介质 |
CN112529450A (zh) * | 2020-12-18 | 2021-03-19 | 未鲲(上海)科技服务有限公司 | 指标分析方法、装置、设备及可读存储介质 |
CN112862594A (zh) * | 2021-02-01 | 2021-05-28 | 深圳无域科技技术有限公司 | 金融风险控制方法、系统、设备及计算机可读介质 |
CN112862593A (zh) * | 2021-01-28 | 2021-05-28 | 深圳前海微众银行股份有限公司 | 信用评分卡模型训练方法、装置、系统及计算机存储介质 |
CN113516547A (zh) * | 2021-04-23 | 2021-10-19 | 武汉赢联数据技术股份有限公司 | 一种语音播报式分级信用卡客户风险预警系统 |
CN113592623A (zh) * | 2021-07-20 | 2021-11-02 | 浙江惠瀜网络科技有限公司 | 车贷贷前风险评估体系的构建方法和风险评估方法 |
CN115169996A (zh) * | 2022-09-06 | 2022-10-11 | 天津所托瑞安汽车科技有限公司 | 道路风险确定方法、设备和存储介质 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105137186A (zh) * | 2015-08-28 | 2015-12-09 | 南京国电南自美卓控制系统有限公司 | 一种微机自动准同期装置的同期电压相位差测量法 |
CN105205319A (zh) * | 2015-09-10 | 2015-12-30 | 南京国电南自电网自动化有限公司 | 一种用于采样数据同步的改进型幅值无衰减线性插值方法 |
CN109102396A (zh) * | 2018-08-17 | 2018-12-28 | 北京玖富普惠信息技术有限公司 | 一种用户信用评级方法、计算机设备及可读介质 |
CN109191282A (zh) * | 2018-08-23 | 2019-01-11 | 北京玖富普惠信息技术有限公司 | 一种基于行为模型的贷中监测评分方法以及系统 |
-
2019
- 2019-06-21 CN CN201910543399.0A patent/CN110276552A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105137186A (zh) * | 2015-08-28 | 2015-12-09 | 南京国电南自美卓控制系统有限公司 | 一种微机自动准同期装置的同期电压相位差测量法 |
CN105205319A (zh) * | 2015-09-10 | 2015-12-30 | 南京国电南自电网自动化有限公司 | 一种用于采样数据同步的改进型幅值无衰减线性插值方法 |
CN109102396A (zh) * | 2018-08-17 | 2018-12-28 | 北京玖富普惠信息技术有限公司 | 一种用户信用评级方法、计算机设备及可读介质 |
CN109191282A (zh) * | 2018-08-23 | 2019-01-11 | 北京玖富普惠信息技术有限公司 | 一种基于行为模型的贷中监测评分方法以及系统 |
Cited By (23)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111178377A (zh) * | 2019-10-12 | 2020-05-19 | 未鲲(上海)科技服务有限公司 | 可视化特征筛选方法、服务器及存储介质 |
CN111062800A (zh) * | 2019-11-27 | 2020-04-24 | 同盾控股有限公司 | 数据处理方法、装置、电子设备及计算机可读介质 |
CN111062800B (zh) * | 2019-11-27 | 2023-09-08 | 同盾控股有限公司 | 数据处理方法、装置、电子设备及计算机可读介质 |
CN111079939B (zh) * | 2019-11-28 | 2021-04-20 | 支付宝(杭州)信息技术有限公司 | 基于数据隐私保护的机器学习模型特征筛选方法及装置 |
CN111079939A (zh) * | 2019-11-28 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 基于数据隐私保护的机器学习模型特征筛选方法及装置 |
CN111144505A (zh) * | 2019-12-30 | 2020-05-12 | 北京三快在线科技有限公司 | 基于维度切片的变量分类方法、装置、设备及介质 |
CN111144505B (zh) * | 2019-12-30 | 2023-09-01 | 北京三快在线科技有限公司 | 基于维度切片的变量分类方法、装置、设备及介质 |
CN111652525A (zh) * | 2020-06-16 | 2020-09-11 | 深圳前海微众银行股份有限公司 | 风险尾端客户分析方法、装置、设备及计算机存储介质 |
CN111652525B (zh) * | 2020-06-16 | 2024-05-03 | 深圳前海微众银行股份有限公司 | 风险尾端客户分析方法、装置、设备及计算机存储介质 |
CN111861703A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统 |
CN111861703B (zh) * | 2020-07-10 | 2024-05-10 | 深圳无域科技技术有限公司 | 数据驱动的风控策略规则生成方法及系统、风险控制方法及系统 |
CN111861704A (zh) * | 2020-07-10 | 2020-10-30 | 深圳无域科技技术有限公司 | 风控特征生成方法及系统 |
CN111861734A (zh) * | 2020-07-31 | 2020-10-30 | 重庆富民银行股份有限公司 | 三方数据源的测试评估系统及方法 |
CN111861734B (zh) * | 2020-07-31 | 2024-05-03 | 重庆富民银行股份有限公司 | 三方数据源的测试评估系统及方法 |
CN112232951A (zh) * | 2020-12-17 | 2021-01-15 | 中证信用云科技(深圳)股份有限公司 | 基于多维度交叉特征的信用评价方法、装置、设备及介质 |
CN112529450A (zh) * | 2020-12-18 | 2021-03-19 | 未鲲(上海)科技服务有限公司 | 指标分析方法、装置、设备及可读存储介质 |
CN112862593A (zh) * | 2021-01-28 | 2021-05-28 | 深圳前海微众银行股份有限公司 | 信用评分卡模型训练方法、装置、系统及计算机存储介质 |
CN112862593B (zh) * | 2021-01-28 | 2024-05-03 | 深圳前海微众银行股份有限公司 | 信用评分卡模型训练方法、装置、系统及计算机存储介质 |
CN112862594A (zh) * | 2021-02-01 | 2021-05-28 | 深圳无域科技技术有限公司 | 金融风险控制方法、系统、设备及计算机可读介质 |
CN113516547B (zh) * | 2021-04-23 | 2023-10-03 | 武汉赢联数据技术股份有限公司 | 一种语音播报式分级信用卡客户风险预警系统 |
CN113516547A (zh) * | 2021-04-23 | 2021-10-19 | 武汉赢联数据技术股份有限公司 | 一种语音播报式分级信用卡客户风险预警系统 |
CN113592623A (zh) * | 2021-07-20 | 2021-11-02 | 浙江惠瀜网络科技有限公司 | 车贷贷前风险评估体系的构建方法和风险评估方法 |
CN115169996A (zh) * | 2022-09-06 | 2022-10-11 | 天津所托瑞安汽车科技有限公司 | 道路风险确定方法、设备和存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110276552A (zh) | 贷前风险分析方法、装置、设备及可读存储介质 | |
CN108564286B (zh) | 一种基于大数据征信的人工智能金融风控授信评定方法和系统 | |
CN109409677A (zh) | 企业信用风险评估方法、装置、设备及存储介质 | |
US20200090268A1 (en) | Method and apparatus for determining level of risk of user, and computer device | |
CN109492945A (zh) | 企业风险识别监控方法、装置、设备及存储介质 | |
CN108256691A (zh) | 还款概率预测模型构建方法及装置 | |
US7693808B2 (en) | Method for ordinal ranking | |
CN112734559B (zh) | 企业信用风险评价方法、装置及电子设备 | |
CN107729519B (zh) | 基于多源多维数据的评估方法及装置、终端 | |
CN110443715A (zh) | 基金产品推荐方法、装置、设备及计算机可读存储介质 | |
CN108833139B (zh) | 一种基于类别属性划分的ossec报警数据聚合方法 | |
CN108492001A (zh) | 一种用于担保贷款网络风险管理的方法 | |
CN109598931B (zh) | 基于交通安全风险的群体划分与差异性分析方法及系统 | |
CN108805422A (zh) | 一种数据评估模型训练系统、数据评估平台和方法 | |
CN110349013A (zh) | 风险控制方法及装置 | |
CN110119980A (zh) | 一种用于信贷的反欺诈方法、装置、系统和记录介质 | |
CN109308660B (zh) | 一种征信评分模型评估方法、装置、设备及存储介质 | |
CN110059749B (zh) | 重要特征的筛选方法、装置及电子设备 | |
CN112598264A (zh) | 一种针对信用领域场景化综合评价系统 | |
CN112950350B (zh) | 一种基于机器学习的贷款产品推荐方法及系统 | |
Wagner | The use of credit scoring in the mortgage industry | |
CN115249131A (zh) | 确定员工工作质量的数据处理方法及装置和介质和程序 | |
CN113806336A (zh) | 一种数据质量评估方法及系统 | |
CN110245775B (zh) | 用户收支数据的分析方法、装置及计算机设备 | |
CN113450010A (zh) | 数据对象的评价结果的确定方法、装置和服务器 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190924 |
|
RJ01 | Rejection of invention patent application after publication |