CN111652712A - 基于地理信息的贷前分析方法、装置、设备与存储介质 - Google Patents
基于地理信息的贷前分析方法、装置、设备与存储介质 Download PDFInfo
- Publication number
- CN111652712A CN111652712A CN202010521173.3A CN202010521173A CN111652712A CN 111652712 A CN111652712 A CN 111652712A CN 202010521173 A CN202010521173 A CN 202010521173A CN 111652712 A CN111652712 A CN 111652712A
- Authority
- CN
- China
- Prior art keywords
- geographic information
- determining
- target
- user
- random forest
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 70
- 238000011835 investigation Methods 0.000 claims abstract description 82
- 238000007637 random forest analysis Methods 0.000 claims abstract description 69
- 238000000034 method Methods 0.000 claims abstract description 33
- 238000003066 decision tree Methods 0.000 claims description 12
- 238000004422 calculation algorithm Methods 0.000 claims description 8
- 238000012545 processing Methods 0.000 claims description 8
- 238000012216 screening Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 description 13
- 230000008859 change Effects 0.000 description 12
- 238000004891 communication Methods 0.000 description 6
- 238000012502 risk assessment Methods 0.000 description 6
- 230000014759 maintenance of location Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 238000012549 training Methods 0.000 description 4
- 230000011218 segmentation Effects 0.000 description 3
- 230000006399 behavior Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000013508 migration Methods 0.000 description 1
- 230000005012 migration Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/29—Geographical information databases
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Development Economics (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Remote Sensing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种基于地理信息的贷前分析方法,包括:若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林;遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则;若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息;基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。本发明还公开了一种基于地理信息的贷前分析装置、设备和存储介质。本发明通过历史征信数据中的地理信息构建风险规则,并确定当前用户是否命中风险规则,以此确定用户的贷前风险,提高贷前分析的准确性。
Description
技术领域
本发明涉及金融科技(Fintech)技术领域,尤其涉及基于地理信息的贷前分析方法、装置、设备与存储介质。
背景技术
近年来,随着金融科技(Fintech),尤其是互联网金融的不断发展,数据分析技术被引入银行等金融机构的日常服务中。在银行等金融机构的日常服务过程中,往往需要对申请相关业务的客户进行风险分析,如对申请贷款的客户进行贷前分析,以决定是否给与贷款,避免客户在贷款之后无法及时偿还,给银行等金融带来直接的经济损失,因此,如何对贷前客户进行还款风险分析,是银行等金融机构必做的一项重要工作。
现有银行等金融系统,在进行贷前分析时,所依赖的数据维度较为局限,一般是根据客户在银行留底的数据,如贷款信息和信用卡还款信息等,构造信用评分卡,以此判断客户的还款意愿和还款能力。
此种判断方式没有挖掘出影响信贷风险的其他参数,若是用户的贷款信息和信用卡还款信息等没有问题,则无法对贷前用户进行贷前分析,可见,现有贷前分析数据维度还有所欠缺,无法进一步提高贷前分析的准确性。
发明内容
本发明的主要目的在于提出一种基于地理信息的贷前分析方法、装置、设备与存储介质,旨在提高贷前风险分析的准确性。
为实现上述目的,本发明提供一种基于地理信息的贷前分析方法,所述基于地理信息的贷前分析方法包括如下步骤:
若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林;
遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则;
若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息;
基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。
优选地,所述遍历确定所述随机森林中满足预设要求的目标树节点的步骤包括:
遍历确定所述随机森林中各决策树的树节点的负样本数,并基于所述负样本数,计算所述树节点的第一提升度;
基于所述第一提升度和预设要求,确定所述随机森林中的目标树节点。
优选地,所述基于所述第一提升度和预设要求,确定所述随机森林中的目标树节点的步骤包括:
遍历确定所述树节点的辅助变量,并基于所述辅助变量,计算所述树节点的第二提升度;
基于所述第一提升度、所述第二提升度和预设要求,确定所述随机森林中的目标树节点。
优选地,所述基于所述第一提升度、所述第二提升度和预设要求,确定所述随机森林中的目标树节点的步骤包括:
遍历确定所述树节点的树深度;
基于所述第一提升度、所述第二提升度、所述树深度和预设要求,确定所述随机森林中的目标树节点。
优选地,所述基于所述目标树节点,确定所述地理信息对应的目标风险规则的步骤包括:
基于所述目标树节点,确定所述地理信息对应的候选风险规则,并基于预设算法,确定所述风险规则的稳定性;
基于所述稳定性,从所述风险规则中筛选出目标风险规则。
优选地,所述若获得历史征信数据,则确定所述历史征信数据对应的地理信息的步骤包括:
若获得历史征信数据,则提取所述历史征信数据中的地址信息,并基于预设标准规则,将所述地址信息生成标准化地址;
构建所述标准化地址对应的维度变量,并基于所述维度变量,对所述标准化地址进行衍生处理,以得到所述历史征信数据对应的地理信息。
优选地,所述基于所述地理信息,生成随机森林的步骤包括:
确定所述地理信息对应的总样本数,以及所述地理信息对应的负样本,并确定所述负样本的样本类型;
基于所述总样本数、所述负样本和所述样本类型,生成随机森林。
此外,为实现上述目的,本发明还提供一种基于地理信息的贷前分析装置,所述基于地理信息的贷前分析装置包括:
生成模块,用于若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林;
确定模块,用于遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则;
获取模块,用于若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息;
判断模块,用于基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。
优选地,所述确定模块还用于:
遍历确定所述随机森林中各决策树的树节点的负样本数,并基于所述负样本数,计算所述树节点的第一提升度;
基于所述第一提升度和预设要求,确定所述随机森林中的目标树节点。
优选地,所述确定模块还用于:
遍历确定所述树节点的辅助变量,并基于所述辅助变量,计算所述树节点的第二提升度;
基于所述第一提升度、所述第二提升度和预设要求,确定所述随机森林中的目标树节点。
优选地,所述确定模块还用于:
遍历确定所述树节点的树深度;
基于所述第一提升度、所述第二提升度、所述树深度和预设要求,确定所述随机森林中的目标树节点。
优选地,所述确定模块还用于:
基于所述目标树节点,确定所述地理信息对应的候选风险规则,并基于预设算法,确定所述风险规则的稳定性;
基于所述稳定性,从所述风险规则中筛选出目标风险规则。
优选地,所述生成模块还用于:
若获得历史征信数据,则提取所述历史征信数据中的地址信息,并基于预设标准规则,将所述地址信息生成标准化地址;
构建所述标准化地址对应的维度变量,并基于所述维度变量,对所述标准化地址进行衍生处理,以得到所述历史征信数据对应的地理信息。
优选地,所述生成模块还用于:
确定所述地理信息对应的总样本数,以及所述地理信息对应的负样本,并确定所述负样本的样本类型;
基于所述总样本数、所述负样本和所述样本类型,生成随机森林。
此外,为实现上述目的,本发明还提供一种基于地理信息的贷前分析设备,所述基于地理信息的贷前分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于地理信息的贷前分析程序,所述基于地理信息的贷前分析程序被所述处理器执行时实现如上所述的基于地理信息的贷前分析方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有基于地理信息的贷前分析程序,所述基于地理信息的贷前分析程序被处理器执行时实现如上所述的基于地理信息的贷前分析方法的步骤。
本发明提出的基于地理信息的贷前分析方法,若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林;遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则;若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息;基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。本发明通过历史征信数据中的地理信息构建风险规则,并确定当前用户是否命中风险规则,以此确定用户的贷前风险,提高贷前分析的准确性。本发明通过历史征信数据中的地理信息构建风险规则,并在检测到用户的贷款申请时,通过用户的征信数据,确定用户存在哪些影响信贷风险的目标地理信息,并基于目标地理信息,确定用户是否命中风险规则,以此确定用户的贷前风险,使得银行等金融机构可从地理信息这一维度确定用户的贷前风险,并且,通过构建风险规则,准确识别风险贷款,提高了贷前分析的准确性。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明基于地理信息的贷前分析方法第一实施例的流程示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,图1是本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例设备可以是移动终端或服务器设备。
如图1所示,该设备可以包括:处理器1001,例如CPU,网络接口1004,用户接口1003,存储器1005,通信总线1002。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的设备结构并不构成对设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及基于地理信息的贷前分析程序。
其中,操作系统是管理和控制基于地理信息的贷前分析设备与软件资源的程序,支持网络通信模块、用户接口模块、基于地理信息的贷前分析程序以及其他程序或软件的运行;网络通信模块用于管理和控制网络接口1002;用户接口模块用于管理和控制用户接口1003。
在图1所示的基于地理信息的贷前分析设备中,所述基于地理信息的贷前分析设备通过处理器1001调用存储器1005中存储的基于地理信息的贷前分析程序,并执行下述基于地理信息的贷前分析方法各个实施例中的操作。
基于上述硬件结构,提出本发明基于地理信息的贷前分析方法实施例。
参照图2,图2为本发明基于地理信息的贷前分析方法第一实施例的流程示意图,所述方法包括:
步骤S10,若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林;
步骤S20,遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则;
步骤S30,若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息;
步骤S40,基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。
本实施例基于地理信息的贷前分析方法运用于理财机构或者银行等金融机构的基于地理信息的贷前分析设备中,基于地理信息的贷前分析设备可以是终端、机器人或者PC设备,为描述方便,基于地理信息的贷前分析设备以分析设备简称。
为避免用户在贷款之后没有能力或者没有意愿进行还款,银行等金融机构往往需要对申请贷款的用户进行贷前风险分析,以决定是否通过审批,在本实施例中,银行等金融机构的分析设备在对用户进行贷前风险分析的过程中,根据历史征信数据中的地理信息构建目标风险规则,在检测到用户的贷款申请时,判断用户是否命中目标风险规则来确定用户的贷款申请是否可以通过审批,与以往人工审核贷前征信数据,或者根据用户的信用评分卡来判断用户是否具备贷前风险不同,创造性的利用征信数据中的地理信息进行贷前风险分析,并且,由于征信数据的地理信息真实客观的反映出用户在贷款之前的贷前行为,以及用户在贷款之后的贷后行为,因此,通过地理信息构建的目标风险规则更具参考价值,不容易受到其他因素的影响,使得最终的贷前分析结果更加准确。
以下将对各个步骤进行详细说明:
步骤S10,若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林。
在本实施例中,分析设备与业务系统对接,业务系统记录银行等金融机构的用户的历史征信数据,其中,历史征信数据包括用户的地理信息,因此,分析设备可通过获得历史征信数据,从而确定历史征信数据对应的地理信息,在本实施例中,分析设备可主动从业务系统获取所有贷款申请的用户的历史征信数据;分析设备还可接收业务系统主动上传的历史征信数据,也即,在另一实施例中,催收记录由业务系统主动上传。需要说明的是,发起贷款申请最终被银行等金融机构拒绝的用户的征信数据,以及发起贷款申请最终被银行等金融机构接收的用户的征信数据都属于本实施例中的历史征信数据,也即,每一份征信数据都是一个样本,而地理信息即为样本中的变量。
若分析设备获得业务系统记录的历史征信数据,则先确定历史征信数据对应的地理信息,其中,地理信息的地理维度至少包括地址一致性,变动次数,变动频率和保持时间等中的一种或几种,其中,地址一致性指的是用户所填的各个维度的地址如居住地址与工作地址的一致性,如甲用户提交的居住地址是湖南省长沙市,工作地址是广东省深圳市,则认为省份与城市的地址不一致,此时以0表示地址不一致,如甲用户提交的居住地址是广东省深圳市,工作地址是广东省深圳市,则认为省份与城市的地址一致,此时以1表示地址一致等;变动次数指的是用户的地址的更换次数,也即用户迁居的次数,如甲用户换过5次居住地址,则甲用户的变动次数的值为5;变动频率指的是用户在预设时间段内更换地址的频率,如甲用户在1年内更换过5次居住地址,则甲用户的变动频率的值为5;保持时间指的是用户在某一地址停留的时长,其中,某一地址可具体指用户的当前地址,如甲用户当前在深圳市居住了5年,则甲用户的保持时间的值为5年。
接着,分析设备基于地理信息,进行随机森林的训练。
具体训练过程包括:
步骤a1,确定所述地理信息对应的总样本数,以及所述地理信息对应的负样本,并确定所述负样本的样本类型;
首先,先确定地理信息对应的总样本数,以及地理信息对应的负样本,并确定负样本的样本类型,其中,负样本事先定义,具体定义规则为:被拒绝用户的征信数据,也即,发起贷款申请,但被银行等金融机构拒绝的用户对应的征信数据;而样本类型指的是被拒接的原因,具体的,样本类型包括欺诈类:身份虚假被拒绝的用户的征信数据;信用类:不稳定被拒绝的用户的征信数据。也即,分析设备在获得历史征信数据时,即可根据事先定义的负样本规则和样本类型进行正样本和负样本的筛选。
步骤a2,基于所述总样本数、所述负样本和所述样本类型,生成随机森林。
然后,根据总样本数N、负样本和负样本的样本类型,生成随机森林,其中,随机森林由若干决策树组成,因此,生成随机数的过程实际上是多次生成决策树的过程。
在具体实施时,每颗决策树的生成过程为:随机且有放回地从总样本中抽取N个训练样本,作为训练集,再以地理信息的地理维度和负样本进行分裂,从而分裂出树节点,在分裂结束后得到决策树,由于随机森林是当前较为成熟的技术,在此不再详细说明,需要说明的,每一个树节点都对应一个地理维度,且由于本实施例的负样本的样本类型包括欺诈类和信用类,也即决策树的决策有两种情况,因此,最终生成的是两个随机森林。两个随机森林可更加有效的筛选出负样本,且决策不会互相干扰。
步骤S20,遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则。
在本实施例中,在生成随机森林之后,遍历确定随机森林中满足预设要求的目标树节点,也即确定哪些树节点影响随机森林的最终决策,并根据目标树节点,确定地理位置信息对应的目标风险规则,可以理解的,一个树节点对应一个地理维度,一个地理维度对应一个风险规则。
进一步地,在一实施例中,遍历确定所述随机森林中满足预设要求的目标树节点的步骤包括:
步骤b1,遍历确定所述随机森林中各决策树的树节点的负样本数,并基于所述负样本数,计算所述树节点的第一提升度;
在一实施例中,在生成随机森林之后,计算随即森林中每个决策树的树节点的第一提升度,其中,提升度(Lift)衡量的是树节点对负样本“响应”的预测能力优于随机选择的倍数,以1为界线,大于1的Lift表示该树节点比随机选择捕捉了更多的“响应”,等于1的Lift表示该树节点的表现独立于随机选择,小于1则表示该树节点比随机选择捕捉了更少的“响应”。
具体的,步骤b1包括:
步骤b11,确定所述树节点的负样本数,以及所述地理信息的总负样本数,并分别计算所述负样本数在所述树节点的坏账比,以及所述总负样本数在所述地理信息中的总坏账比;
步骤b12,基于所述坏账比和所述总坏账比,计算所述树节点的第一提升度。
具体的,确定地理信息对应的总样本数,以及总负样本数,再确定各树节点的节点样本数,以及负样本数,再分别计算负样本数在各树节点中的坏账比,以及总负样本数在总样本数中的坏账比,再取两者的比值,即为各树节点的第一提升度,也即将负样本与节点样本数的比值,除以总负样本数与总样本数的比值,得到的值即为树节点的第一提升度,以此计算各树节点的第一提升度。
步骤b2,基于所述第一提升度和预设要求,确定所述随机森林中的目标树节点。
在一实施例中,根据各树节点的第一提升度和预设要求,确定随机森林中的目标树节点,其中,预设要求可根据实际情况进行设置,如预设要求为Lift≥2,则从各树节点中,筛选出第一提升度≥2的目标树节点。
需要说明的是,目标树节点可以是一个,也可以是多个,在多个的情况下,可以将多个目标树节点对应的风险规则都作为目标风险规则,也即目标风险规则是一个组合规则;此外,还可以在多个风险规则中择优选择一个,择优标准可以是Lift值最大等。
在一实施例中,为保证目标树节点可用,预设要求还可为Lift≥2,且负样本数>5,也即增加负样本数要求,确保目标树节点具备适用性。
进一步地,在一实施例中,步骤b2包括:
步骤b21,遍历确定所述树节点的辅助变量,并基于所述辅助变量,计算所述树节点的第二提升度;
在一实施例中,分析设备除了根据负样本计算各树节点的第一提升度之外,还遍历确定各树节点的辅助变量,并根据辅助变量,计算各树节点的第二提升度,其中,辅助变量可根据实际情况进行定义,如对于欺诈类地理信息,则其对应的辅助变量可为:3个月表现期内连续两次逾期代偿;对于信用类地理信息,则其对应的辅助变量可为:6个月表现期内连续三次逾期代偿。
需要解释说明的是,逾期代偿指的是逾期后,被合作方代为偿还,如保险公司代为偿还。
也即,在一实施例中,以辅助变量作为Y标签,也即随机森林最终的决策结果,对贷后的用户进行预测,使得后续最终的目标风险规则不仅能对贷前用户进行预测,也能贷后用户进行预测,提高目标风险规则的适用性。
由于计算树节点的第二提升度与计算树节点的第一提升度类似,仅是负样本与辅助变量的差别,因此,在此不再赘述第二提升度的计算过程。
步骤b22,基于所述第一提升度、所述第二提升度和预设要求,确定所述随机森林中的目标树节点。
在一实施例中,根据各树节点的第一提升度、第二提升度和预设要求,确定随机森林中的目标树节点,其中,预设要求可根据实际情况进行设置,如预设要求为Lift1(第一提升度)≥2,Lift2(第二提升度)≥2等,则从各树节点中,筛选出第一提升度≥2,且第二提升度≥2的目标树节点。
进一步地,在一实施例中,步骤b22包括:
步骤b221,遍历确定所述树节点的树深度;
在一实施例中,分析设备处理根据树节点的第一提升度、第二提升度来请目标树节点之外,还遍历确定树节点的树深度,通过树深度确定影响最终决策结果的目标树节点。可以理解的,决策树中,树节点的树深度越浅,意味着树节点越靠近根节点,越靠近根节点的树节点对最终的决策结果影响越大;树节点的树深度越深,意味着树节点越远离根节点,越远离根节点的树节点对最终的决策结果影响越小,因此,将树深度作为参数之一,有利于提高确定目标树节点的准确性。
步骤b222,基于所述第一提升度、所述第二提升度、所述树深度和预设要求,确定所述随机森林中的目标树节点。
在一实施例中,根据各树节点的第一提升度、第二提升度、树深度和预设要求,确定随机森林中的目标树节点,其中,预设要求可根据实际情况进行设置,如预设要求为Lift1(第一提升度)≥2,Lift2(第二提升度)≥2等,树深度≤5,则从各树节点中,筛选出第一提升度≥2,且第二提升度≥2,且树深度≤5的目标树节点。
步骤S30,若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息。
在本实施例中,分析设备若检测到用户的贷款申请,则根据用户的用户信息,如姓名,手机号码等,在业务系统中,确定该用户的征信数据,然后从征信数据中提取该用户的目标地理信息,其中,地理信息至少包括地址一致性,变动次数,变动频率和保持时间等中的一种或几种。
步骤S40,基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。
在本实施例中,由于已确定了目标风险规则,因此,只需确定当前用户是否命中目标风险规则,即确定当前用户是否存在贷前风险,以此判断当前用户的贷款申请是否给与通过审批。
具体的,将当前用户的目标地理信息输入目标风险规则中进行匹配,确认当前用户是否命中目标风险规则,如目标风险规则为变动次数达5次的用户存在贷前风险,则判断当前用户的地址的变动次数是否达到了5次,若是,则确定当前用户命中目标风险规则,当前用户的贷款申请将不予通过审批。
本实施例若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林;遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则;若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息;基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。本发明通过历史征信数据中的地理信息构建风险规则,并确定当前用户是否命中风险规则,以此确定用户的贷前风险,提高贷前分析的准确性。本发明通过历史征信数据中的地理信息构建风险规则,并在检测到用户的贷款申请时,通过用户的征信数据,确定用户存在哪些影响信贷风险的目标地理信息,并基于目标地理信息,确定用户是否命中风险规则,以此确定用户的贷前风险,使得银行等金融机构可从地理信息这一维度确定用户的贷前风险,并且,通过构建风险规则,准确识别风险贷款,提高了贷前分析的准确性。
进一步地,基于本发明基于地理信息的贷前分析方法第一实施例,提出本发明基于地理信息的贷前分析方法第二实施例。
基于地理信息的贷前分析方法的第二实施例与基于地理信息的贷前分析方法的第一实施例的区别在于,基于所述目标树节点,确定所述地理信息对应的目标风险规则的步骤包括:
步骤b3,基于所述目标树节点,确定所述地理信息对应的候选风险规则,并基于预设算法,确定所述风险规则的稳定性;
步骤b4,基于所述稳定性,从所述风险规则中筛选出目标风险规则。
本实施例的目标树节点对应的风险规则有多条,为准确的确定出用户的贷前风险是哪一条或者哪几条规则造成的,需对确定出的风险规则作进一步筛选,以筛选出最为相关的风险规则作为目标风险规则,以便在检测到用户的贷款申请时,能正确的识别出该用户是否是风险用户,提高风险判断的正确率。
以下将对各个步骤进行详细说明:
步骤b3,基于所述目标树节点,确定所述地理信息对应的候选风险规则,并基于预设算法,确定所述风险规则的稳定性。
在本实施例中,先通过目标树节点,确定出候选风险规则,可以理解的,每一个目标树节点都对应着一条风险规则,这些规则即为候选风险规则。
然后,根据预设算法,分析候选风险规则的稳定性,也即各变量间的共线性,如规则1与规则2是否有关,也即规则1是否影响规则2等,在具体实施时,以VIF(varianceinflation factors,方差膨胀系数)用来衡量变量的共线性,VIF越大,则变量共线性越大,模型稳定性越差,也即候选风险规则稳定性越差。
其中,预设算法的计算公式如下:
其中,R2 i是当前变量,也即当前树节点,对候选风险规则其他变量线性回归的拟合优度,方差膨胀系数VIF越大,说明变量之间存在共线性的可能性越大。一般来讲,如果方差膨胀系数超过10,则回归模型存在严重的多重共线性。又根据Hair(1995)的共线性诊断标准,当变量的容忍度大于0.1,方差膨胀系数小于10的范围是可以接受的,表明变量之间没有共线性问题存在。
此外,由于方差膨胀系数是容忍度的倒数,因此,也可以容忍度来衡量变量间的共线性。
最终根据得到的方差膨胀系数,衡量各候选风险规则的稳定性,若对应的方差膨胀系数超过10,则舍弃当前候选风险规则,也即,根据方差膨胀系数对候选风险规则做进一步筛选,从而得到目标风险规则。
本实施例通过风险规则的稳定性对风险规则做进一步筛选,从而筛选出更有识别价值的目标风险规则,使得后续在对贷前用户的贷款申请进行识别时,能更为准确的判断出是否给与通过审批,提高贷前分析的准确性。
进一步地,基于本发明基于地理信息的贷前分析方法第一、第二实施例,提出本发明基于地理信息的贷前分析方法第三实施例。
基于地理信息的贷前分析方法的第三实施例与基于地理信息的贷前分析方法的第一、第二实施例的区别在于,所述若获得历史征信数据,则确定所述历史征信数据对应的地理信息的步骤包括:
步骤a3,若获得历史征信数据,则提取所述历史征信数据中的地址信息,并基于预设标准规则,将所述地址信息生成标准化地址;
步骤a4,构建所述标准化地址对应的维度变量,并基于所述维度变量,对所述标准化地址进行衍生处理,以得到所述历史征信数据对应的地理信息。
本实施例为避免由于变量过少,使得最终的目标风险规则过于片面,也即不具有普适性,因此,在确定历史征信数据对应的地理信息的过程中,先对样本进行变量衍生,以丰富样本,以便后续确定的目标风险规则更具通用性。
以下将对各个步骤进行详细说明:
步骤a3,若获得历史征信数据,则提取所述历史征信数据中的地址信息,并基于预设标准规则,将所述地址信息生成标准化地址。
在本实施例中,分析设备若获得业务系统的历史征信数据,则先从历史征信中提取地址信息,其中,地址信息至少包括工作地址、居住地址、户籍所在地和手机号码归属地等中的一种或几种。
然后,根据预设标准规则,将地址信息进行标准化,具体的,将所有的地址信息按照省市区乡镇村街道的格式进行转化,以形成统一格式的标准化地址,具体的,对地址信息进行分词处理,再将分词映射的省市区乡镇村街道,并补全确实的行政区域,如深圳南山区......经过分词得到“深圳”和“南山区”“......”,标准化之后,得到广东省深圳市南山区......若最终得到的省份与城市不一致或者城市与区不一致等行政区域上下级不一致,如广州市南山区,则由于南山区不属于广州市下辖,而视为无效地址,对于无效地址,本实施例可将其过滤掉。
步骤a4,构建所述标准化地址对应的维度变量,并基于所述维度变量,对所述标准化地址进行衍生处理,以得到所述历史征信数据对应的地理信息。
在本实施例中,在将所有的地址信息转换为标准化地址之后,构建标准化地址对应的维度变量,具体的,确定各个地址信息之间的一致性,如确定工作地址与居住地址是否一致,对应的值为0或者1,0表示不一致,1表示一致;或者确定工作地址的变动次数;或者确定居住地址的变动频率;或者确定居住地址的保持时间等多个维度变量,从而对标准化地址进行衍生处理,以得到历史征信数据对应的地理信息,丰富地理信息,也即丰富样本。
本发明还提供一种基于地理信息的贷前分析装置。本发明基于地理信息的贷前分析装置包括:
生成模块,用于若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林;
确定模块,用于遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则;
获取模块,用于若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息;
判断模块,用于基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。
优选地,所述确定模块还用于:
遍历确定所述随机森林中各决策树的树节点的负样本数,并基于所述负样本数,计算所述树节点的第一提升度;
基于所述第一提升度和预设要求,确定所述随机森林中的目标树节点。
优选地,所述确定模块还用于:
遍历确定所述树节点的辅助变量,并基于所述辅助变量,计算所述树节点的第二提升度;
基于所述第一提升度、所述第二提升度和预设要求,确定所述随机森林中的目标树节点。
优选地,所述确定模块还用于:
遍历确定所述树节点的树深度;
基于所述第一提升度、所述第二提升度、所述树深度和预设要求,确定所述随机森林中的目标树节点。
优选地,所述确定模块还用于:
基于所述目标树节点,确定所述地理信息对应的候选风险规则,并基于预设算法,确定所述风险规则的稳定性;
基于所述稳定性,从所述风险规则中筛选出目标风险规则。
优选地,所述生成模块还用于:
若获得历史征信数据,则提取所述历史征信数据中的地址信息,并基于预设标准规则,将所述地址信息生成标准化地址;
构建所述标准化地址对应的维度变量,并基于所述维度变量,对所述标准化地址进行衍生处理,以得到所述历史征信数据对应的地理信息。
优选地,所述生成模块还用于:
确定所述地理信息对应的总样本数,以及所述地理信息对应的负样本,并确定所述负样本的样本类型;
基于所述总样本数、所述负样本和所述样本类型,生成随机森林。
本发明还提供一种计算机可读存储介质。
本发明计算机可读存储介质上存储有基于地理信息的贷前分析程序,所述基于地理信息的贷前分析程序被处理器执行时实现如上所述的基于地理信息的贷前分析方法的步骤。
其中,在所述处理器上运行的基于地理信息的贷前分析程序被执行时所实现的方法可参照本发明基于地理信息的贷前分析方法各个实施例,此处不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书与附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于地理信息的贷前分析方法,其特征在于,所述基于地理信息的贷前分析方法包括如下步骤:
若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林;
遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则;
若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息;
基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。
2.如权利要求1所述的基于地理信息的贷前分析方法,其特征在于,所述遍历确定所述随机森林中满足预设要求的目标树节点的步骤包括:
遍历确定所述随机森林中各决策树的树节点的负样本数,并基于所述负样本数,计算所述树节点的第一提升度;
基于所述第一提升度和预设要求,确定所述随机森林中的目标树节点。
3.如权利要求2所述的基于地理信息的贷前分析方法,其特征在于,所述基于所述第一提升度和预设要求,确定所述随机森林中的目标树节点的步骤包括:
遍历确定所述树节点的辅助变量,并基于所述辅助变量,计算所述树节点的第二提升度;
基于所述第一提升度、所述第二提升度和预设要求,确定所述随机森林中的目标树节点。
4.如权利要求2所述的基于地理信息的贷前分析方法,其特征在于,所述基于所述第一提升度、所述第二提升度和预设要求,确定所述随机森林中的目标树节点的步骤包括:
遍历确定所述树节点的树深度;
基于所述第一提升度、所述第二提升度、所述树深度和预设要求,确定所述随机森林中的目标树节点。
5.如权利要求1所述的基于地理信息的贷前分析方法,其特征在于,所述基于所述目标树节点,确定所述地理信息对应的目标风险规则的步骤包括:
基于所述目标树节点,确定所述地理信息对应的候选风险规则,并基于预设算法,确定所述风险规则的稳定性;
基于所述稳定性,从所述风险规则中筛选出目标风险规则。
6.如权利要求1-5任一项所述的基于地理信息的贷前分析方法,其特征在于,所述若获得历史征信数据,则确定所述历史征信数据对应的地理信息的步骤包括:
若获得历史征信数据,则提取所述历史征信数据中的地址信息,并基于预设标准规则,将所述地址信息生成标准化地址;
构建所述标准化地址对应的维度变量,并基于所述维度变量,对所述标准化地址进行衍生处理,以得到所述历史征信数据对应的地理信息。
7.如权利要求1-5任一项所述的基于地理信息的贷前分析方法,其特征在于,所述基于所述地理信息,生成随机森林的步骤包括:
确定所述地理信息对应的总样本数,以及所述地理信息对应的负样本,并确定所述负样本的样本类型;
基于所述总样本数、所述负样本和所述样本类型,生成随机森林。
8.一种基于地理信息的贷前分析装置,其特征在于,所述基于地理信息的贷前分析装置包括:
生成模块,用于若获得历史征信数据,则确定所述历史征信数据对应的地理信息,并基于所述地理信息,生成随机森林;
确定模块,用于遍历确定所述随机森林中满足预设要求的目标树节点,并基于所述目标树节点,确定所述地理信息对应的目标风险规则;
获取模块,用于若检测到用户的贷款申请,则基于所述用户的征信数据,获取所述用户对应的目标地理信息;
判断模块,用于基于所述目标地理信息和所述目标风险规则,确定所述贷款申请是否通过审批。
9.一种基于地理信息的贷前分析设备,其特征在于,所述基于地理信息的贷前分析设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于地理信息的贷前分析程序,所述基于地理信息的贷前分析程序被所述处理器执行时实现如权利要求1至7中任一项所述的基于地理信息的贷前分析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有基于地理信息的贷前分析程序,所述基于地理信息的贷前分析程序被处理器执行时实现如权利要求1至7中任一项所述的基于地理信息的贷前分析方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010521173.3A CN111652712B (zh) | 2020-06-09 | 2020-06-09 | 基于地理信息的贷前分析方法、装置、设备与存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010521173.3A CN111652712B (zh) | 2020-06-09 | 2020-06-09 | 基于地理信息的贷前分析方法、装置、设备与存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111652712A true CN111652712A (zh) | 2020-09-11 |
CN111652712B CN111652712B (zh) | 2024-05-10 |
Family
ID=72349377
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010521173.3A Active CN111652712B (zh) | 2020-06-09 | 2020-06-09 | 基于地理信息的贷前分析方法、装置、设备与存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111652712B (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559900A (zh) * | 2021-02-26 | 2021-03-26 | 深圳索信达数据技术有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN113409139A (zh) * | 2021-07-27 | 2021-09-17 | 深圳前海微众银行股份有限公司 | 信贷风险识别方法、装置、设备及程序 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389486A (zh) * | 2018-08-27 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 贷款风控规则调整方法、装置、设备及计算机存储介质 |
CN109949152A (zh) * | 2019-04-15 | 2019-06-28 | 武汉理工大学 | 一种个人信贷违约预测方法 |
CN109978680A (zh) * | 2019-03-18 | 2019-07-05 | 杭州绿度信息技术有限公司 | 一种细分客群信贷业务风控差异化定价的风控方法和系统 |
CN110009479A (zh) * | 2019-03-01 | 2019-07-12 | 百融金融信息服务股份有限公司 | 信用评价方法及装置、存储介质、计算机设备 |
CN110135701A (zh) * | 2019-04-23 | 2019-08-16 | 北京淇瑀信息科技有限公司 | 控制规则的自动生成方法、装置、电子设备及可读介质 |
CN110334737A (zh) * | 2019-06-04 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的客户风险指标筛选的方法和系统 |
US20200134716A1 (en) * | 2018-10-29 | 2020-04-30 | Flinks Technology Inc. | Systems and methods for determining credit worthiness of a borrower |
-
2020
- 2020-06-09 CN CN202010521173.3A patent/CN111652712B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109389486A (zh) * | 2018-08-27 | 2019-02-26 | 深圳壹账通智能科技有限公司 | 贷款风控规则调整方法、装置、设备及计算机存储介质 |
US20200134716A1 (en) * | 2018-10-29 | 2020-04-30 | Flinks Technology Inc. | Systems and methods for determining credit worthiness of a borrower |
CN110009479A (zh) * | 2019-03-01 | 2019-07-12 | 百融金融信息服务股份有限公司 | 信用评价方法及装置、存储介质、计算机设备 |
CN109978680A (zh) * | 2019-03-18 | 2019-07-05 | 杭州绿度信息技术有限公司 | 一种细分客群信贷业务风控差异化定价的风控方法和系统 |
CN109949152A (zh) * | 2019-04-15 | 2019-06-28 | 武汉理工大学 | 一种个人信贷违约预测方法 |
CN110135701A (zh) * | 2019-04-23 | 2019-08-16 | 北京淇瑀信息科技有限公司 | 控制规则的自动生成方法、装置、电子设备及可读介质 |
CN110334737A (zh) * | 2019-06-04 | 2019-10-15 | 阿里巴巴集团控股有限公司 | 一种基于随机森林的客户风险指标筛选的方法和系统 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112559900A (zh) * | 2021-02-26 | 2021-03-26 | 深圳索信达数据技术有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN113409139A (zh) * | 2021-07-27 | 2021-09-17 | 深圳前海微众银行股份有限公司 | 信贷风险识别方法、装置、设备及程序 |
CN113409139B (zh) * | 2021-07-27 | 2024-05-28 | 深圳前海微众银行股份有限公司 | 信贷风险识别方法、装置、设备及程序 |
Also Published As
Publication number | Publication date |
---|---|
CN111652712B (zh) | 2024-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109165840B (zh) | 风险预测处理方法、装置、计算机设备和介质 | |
CN109272396B (zh) | 客户风险预警方法、装置、计算机设备和介质 | |
CN108876133B (zh) | 基于业务信息的风险评估处理方法、装置、服务器和介质 | |
CN109949154B (zh) | 客户信息分类方法、装置、计算机设备和存储介质 | |
CN109711955B (zh) | 基于当前订单的差评预警方法、系统、黑名单库建立方法 | |
CN110503566B (zh) | 风控模型建立方法、装置、计算机设备及存储介质 | |
CN112862593B (zh) | 信用评分卡模型训练方法、装置、系统及计算机存储介质 | |
WO2020048056A1 (zh) | 一种风险决策方法和装置 | |
CN111160737A (zh) | 一种资源分配方案的适配方法及相关设备 | |
CN111652712B (zh) | 基于地理信息的贷前分析方法、装置、设备与存储介质 | |
CN112950347B (zh) | 资源数据处理的优化方法及装置、存储介质、终端 | |
CN109670931A (zh) | 贷款用户的行为检测方法、装置、设备及存储介质 | |
CN114066606A (zh) | 一种基于文本转义为gps距离的资料虚假识别系统及方法 | |
CN113205403A (zh) | 一种企业信用等级的计算方法、装置、存储介质及终端 | |
CN111652711A (zh) | 基于催收数据的贷前分析方法、装置、设备与存储介质 | |
CN114140221A (zh) | 一种欺诈风险预警方法、装置及设备 | |
CN114493686A (zh) | 一种运营内容生成推送方法及装置 | |
CN113674079A (zh) | 一种基于关系图谱和客户画像的金融风险控制系统及方法 | |
CN116992294A (zh) | 卫星测控训练评估方法、装置、设备及存储介质 | |
CN117196630A (zh) | 交易风险预测方法、装置、终端设备以及存储介质 | |
CN111652708A (zh) | 一种应用于房屋抵押贷款产品中的风险评估方法及装置 | |
CN116071162A (zh) | 一种交易欺诈风险识别方法、系统、设备及可存储介质 | |
Alnafrah et al. | The nonlinear road to happiness: Making sense of ESGD impacts on well-being | |
CN113344469B (zh) | 欺诈识别方法、装置、计算机设备及存储介质 | |
CN111209484B (zh) | 基于大数据的产品数据的推送方法、装置、设备及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |