CN116757832A - 贷款偿还风险预测方法、装置及存储介质 - Google Patents
贷款偿还风险预测方法、装置及存储介质 Download PDFInfo
- Publication number
- CN116757832A CN116757832A CN202310779566.8A CN202310779566A CN116757832A CN 116757832 A CN116757832 A CN 116757832A CN 202310779566 A CN202310779566 A CN 202310779566A CN 116757832 A CN116757832 A CN 116757832A
- Authority
- CN
- China
- Prior art keywords
- information
- decision
- determining
- questionnaire
- decision result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 164
- 238000007781 pre-processing Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000005516 engineering process Methods 0.000 abstract description 9
- 238000003066 decision tree Methods 0.000 description 31
- 238000012545 processing Methods 0.000 description 17
- 238000004590 computer program Methods 0.000 description 10
- 230000008569 process Effects 0.000 description 9
- 238000010586 diagram Methods 0.000 description 8
- 238000004422 calculation algorithm Methods 0.000 description 7
- 238000011156 evaluation Methods 0.000 description 7
- 238000013138 pruning Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 5
- 230000000694 effects Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 230000007246 mechanism Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 238000007637 random forest analysis Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 1
- 238000007635 classification algorithm Methods 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 238000012854 evaluation process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/211—Selection of the most significant subset of features
- G06F18/2113—Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Business, Economics & Management (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Finance (AREA)
- Accounting & Taxation (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Technology Law (AREA)
- Strategic Management (AREA)
- Marketing (AREA)
- Development Economics (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本申请公开了一种贷款偿还风险预测方法、装置及存储介质。涉及金融科技领域,该方法包括:接收目标账户的初始申请信息,并对初始申请信息进行预处理,确定目标申请信息,目标申请信息包括:基本属性信息和问卷调查信息;采用第一决策方法,确定基本属性信息对应的第一决策结果,第一决策方法基于属性信息样本确定;采用第二决策方法,确定问卷调查信息对应的第二决策结果,第二决策方法基于问卷调查样本确定;获取第一决策结果对应的第一权重,以及第二决策结果对应的第二权重;基于第一决策结果和第一权重,以及第二决策结果和第二权重,确定目标账户的贷款偿还风险。通过本申请,解决了相关技术中贷款风险预测准确度较低的问题。
Description
技术领域
本申请涉及金融科技技术领域,具体而言,涉及一种贷款偿还风险预测方法、装置及存储介质。
背景技术
为了减少银行的不良贷款率,通过提取、输入不同类别的用户属性训练决策树模型,并根据决策树的预测结果来判定用户贷款后的偿还能力,减少人工审核成本。
传统的预测方法通常训练一棵决策树且只训练用户基本属性就得出预测结果,对特征选取存在单一性,预测结果准确度较低。
针对相关技术中贷款风险预测准确度较低的问题,目前尚未提出有效的解决方案。
发明内容
本申请的主要目的在于提供一种贷款偿还风险预测方法,以解决相关技术中贷款风险预测准确度较低的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种贷款偿还风险预测方法。该方法包括:接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。
可选的,所述接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,包括:响应于申请请求,发送申请信息采集单,其中,所述申请信息采集单用于记录所述目标账户的所述初始申请信息;接收基于所述申请信息采集单反馈的所述初始申请信息,识别所述初始申请信息中所包括信息的信息类别,所述信息类别包括:基础属性类别和问卷调查类别;确定所述基础属性类别对应的所述基本属性信息和所述问卷调查类别对应的所述问卷调查信息。
可选的,在所述采用第一决策方法,确定所述基本属性信息对应的第一决策结果之前,所述方法还包括:获取历史数据库中存储的第一预设数量的属性信息样本,其中,所述属性信息样本为已完成贷款业务的账户的基本属性信息;基于所述第一预设数量的属性信息样本进行训练处理,确定所述第一决策方法。
可选的,所述方法还包括:获取所述历史数据库中存储的第二预设数量的属性信息样本;采用所述第一决策方法计算所述第二预设数量的属性信息样本,确定第一准确率;基于所述第一准确率确定所述第一权重。
可选的,在采用第二决策方法,确定所述问卷调查信息对应的第二决策结果之前,所述方法还包括:获取历史数据库中存储的第三预设数量的问卷调查样本,其中,所述问卷调查样本为已完成贷款业务的账户的问卷调查信息;基于所述第三预设数量的问卷调查样本进行训练处理,确定所述第二决策方法。
可选的,所述方法还包括:获取历史数据库中存储的第四预设数量的问卷调查样本;采用所述第二决策方法计算所述第四预设数量的问卷调查样本,确定第二准确率;基于所述第二准确率确定所述第二权重。
可选的,所述基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定目标账户的贷款偿还风险,包括:获取所述第一权重与所述第一决策结果的第一乘积结果,以及所述第二权重与所述第二决策结果的第二乘积结果;获取所述第一乘积结果和所述第二乘积结果的和,得到目标决策结果;判断所述目标决策结果是否大于预设阈值,若是,则确定所述目标账户不存在贷款偿还风险,若否,则确定所述目标账户存在贷款偿还风险。
为了实现上述目的,根据本申请的另一方面,提供了一种贷款偿还风险预测装置。该装置包括:接收模块,用于接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;第一确定模块,用于采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;第二确定模块,用于采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;获取模块,用于获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;计算模块,用于基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。
为了实现上述目的,根据本申请的另一方面,提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行任意一项上述的贷款偿还风险预测方法。
为了实现上述目的,根据本申请的另一方面,提供了一种电子设备,包括一个或多个处理器和存储器,上述存储器用于存储一个或多个程序,其中,当上述一个或多个程序被上述一个或多个处理器执行时,使得上述一个或多个处理器实现任意一项上述的贷款偿还风险预测方法。
通过本申请,采用以下步骤:接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险,解决了相关技术中贷款风险预测准确度较低的问题。进而达到了通过训练用户的基本属性和问卷调查属性,综合考虑两种不同种类属性值的决策树的输出结果,进而确定最终预测结果的目标,从而实现了提升贷款风险预测准确度的效果。
附图说明
构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
图1是根据本申请实施例提供的贷款偿还风险预测方法的流程图;以及
图2是根据本申请实施例的贷款偿还风险预测装置的示意图;
图3是根据本申请实施例的一种可选的电子设备的结构示意图。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于描述,以下对本申请实施例涉及的部分名词或术语进行说明:
决策树(Decision Tree):决策树是一种常见的有监督的机器学习算法,是一种常用的分类算法,用于描述对实例进行分类的树形结构。决策树由结点(node)和有向边(directedtree)组成,结点分为两种类型:内部结点和叶结点,内部结点表示一个特征或者属性,叶结点表示一个类。
信息熵(informationentropy):是信息论的基本概念,用于描述各信息源可能事件发生的不确定性,信息熵的提出解决了对信息的量化度量问题。
分支(Branch):分支描述结点之间的连接或决策树的子部分。
剪枝(Pruning):在机器学习与搜索算法当中通过移除决策树中分辨能力较弱的结点而减小决策树大小的方法。降低了模型的复杂度,因此能够降低过拟合风险,从而降低泛化误差。剪枝过程应当在减小决策树大小的同时,保证交叉验证下的精度不降低。
随机森林(RandomForests):在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出类别的众数而决定的。
ID3算法:是一个用于决策树的算法,通过使用所有没有使用的属性并计算与之相关的样本熵值,选取其中熵值最小的属性,生成包含该属性的结点。
信息增益(informationgain):代表的是在一个条件下,信息复杂度(不确定性)减少的程度,也即纯度提高的程度。
需要说明的是,本公开所涉及的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等),均为经用户授权或者经过各方充分授权的信息和数据。例如,本系统和相关用户或机构间设置有接口,在获取相关信息之前,需要通过接口向前述的用户或机构发送获取请求,并在接收到前述的用户或机构反馈的同意信息后,获取相关信息。
下面结合优选的实施步骤对本发明进行说明,图1是根据本申请实施例提供的贷款偿还风险预测方法的流程图,如图1所示,该方法包括如下步骤:
步骤S101,接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;
步骤S102,采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;
步骤S103,采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;
步骤S104,获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;
步骤S105,基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。
在本发明实施例中,上述步骤S101至S105中提供的贷款偿还风险预测方法的执行主体为贷款偿还风险预测系统,采用上述系统接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。
需要说明的是,基于机器学习算法通过对获取得到的大量用户离散属性的信息熵或基尼指数进行运算,度量样本集合的浓度,根据离散属性值进行训练生成多棵(例如:2棵)决策树模型,跟现有技术中传统的采用1棵决策树只训练用户基本属性得出的预测结果明显不同。
在本发明实施例中,通过提取、输入不同类别的用户属性(例如:用户基本属性,其中包括年龄、性别、存款、教育经历、婚姻状况、有无固定资产、信贷情况等;用户心理状态属性,其中包括用户对一些心理问卷问题的答复情况,比如家庭氛围,人生是否有价值;生活单调或者乏味等用户心理状态的属性,上述用户心理状态属性可以通过问卷调查等形式在用户允许的情况下进行获取)训练多棵(例如:2棵)决策树模型以及防止过拟合对决策树剪枝等调优,根据多棵不同输入用户属性的决策树的预测结果分配不同的权重,根据设定的最终阈值来判定用户贷款后的偿还能力,减少人工审核成本。
作为一种可选的实施例,综合考虑两种不同类别的决策树的输出结果,并根据分配给两棵决策树预测结果的权重,计算出一个最终的值,该结果值与设定的阈值进行比较大小,判定特定用户其是否具备贷款的偿还能力,放款机构根据其特定用户的偿还能力,决定是否发放贷款。
在一种可选的实施例中,上述接收目标账户的初始申请信息,并对上述初始申请信息进行预处理,确定目标申请信息,包括:响应于申请请求,发送申请信息采集单,其中,所述申请信息采集单用于记录所述目标账户的所述初始申请信息;接收基于所述申请信息采集单反馈的所述初始申请信息,识别所述初始申请信息中所包括信息的信息类别,所述信息类别包括:基础属性类别和问卷调查类别;确定所述基础属性类别对应的所述基本属性信息和所述问卷调查类别对应的所述问卷调查信息。
作为一种可选的实施例,接收目标用户发出的初始申请信息,例如:贷款请求等,向目标用户发送申请信息采集单,用于采集目标用户的相关信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于展示的数据、分析的数据等);接收目标用户返回的上述初始申请信息,并对上述初始申请信息进行评估处理,完成评估后对上述初始申请信息进行分类处理,进一步确定上述基本属性信息和上述问卷调查信息。
需要说明的是,上述初始申请信息的采集过程均为经用户授权或者经过各方充分授权的信息和数据。上述初始申请信息可以通过调查问卷的形式进行采集,便于后续对采集到的初始申请信息进行分析处理,进而获取目标用户的基本属性信息和心理状态信息等。
还需要说明的是,上述评估处理用于确定上述初始申请信息的信息类别,上述信息类别可以包括:基础属性类别和问卷调查类别等。
在一种可选的实施例中,在采用第一决策方法,确定上述基本属性信息对应的第一决策结果之前,上述方法还包括:获取历史数据库中存储的第一预设数量的属性信息样本,其中,所述属性信息样本为已完成贷款业务的账户的基本属性信息;基于所述第一预设数量的属性信息样本进行训练处理,确定所述第一决策方法。
作为一种可选的实施例,本方案根据提取的不同类别的特征属性(用户基本属性、用户心理状态属性),需要分别训练两棵不同的决策树,从历史数据库中获取第一预设数量的属性信息样本,特征属性采用用户基本属性,可以包括:用户年龄、性别、存款、年收入、教育经历、婚姻状况、有无固定资产、信贷情况等;基于第一预设数量的属性信息样本根据信息熵或ID3算法(信息增益)生成基于用户基本属性的决策树。
其中,S代表计算信息熵的数据集;i表示集合中的类;pi表示属于类别i的数据点占数据集中的总数据点数的比例;熵值的计算结果介于0和1之间,如果数据集S中的所有样本都属于一类,则熵值为零。如果一半的样本属于一类,而另一半的样本属于另一类,则熵值为最高值1。
可选的,选择好特征后,就从根结点触发,对结点计算所有特征的信息增益,选择信息增益最大的特征作为结点特征,根据该特征的不同取值建立子结点;对每个子结点使用相同的方式生成新的子结点,直到信息增益很小或者没有特征可以选择为止;并通过剪枝的方式对抗过拟合,通过主动去掉部分分支来降低过拟合的风险,进而生成上述第一决策方法。
需要说明的是,通过特征选择筛选出跟分类结果相关性较高的特征,也就是分类能力较强的特征。
在一种可选的实施例中,上述方法还包括:获取所述历史数据库中存储的第二预设数量的属性信息样本;采用所述第一决策方法计算所述第二预设数量的属性信息样本,确定第一准确率;基于所述第一准确率确定所述第一权重。
作为一种可选的实施例,从历史数据库中获取第二预设数量的属性信息样本,特征属性仍然采用用户基本属性,可以包括:用户年龄、性别、存款、年收入、教育经历、婚姻状况、有无固定资产、信贷情况等;并将第二预设数量的属性信息样本输入上述第一决策方法,经第一决策方法计算得到上述第一决策方法的预测结果。并基于第二预设数量的属性信息样本对应的已完成贷款业务的历史用户的实际贷款情况,判断上述第一决策方法的第一准确率,进而基于上述第一准确率确定上述第一权重。
在一种可选的实施例中,获取历史数据库中存储的第三预设数量的问卷调查样本,其中,所述问卷调查样本为已完成贷款业务的账户的问卷调查信息;基于所述第三预设数量的问卷调查样本进行训练处理,确定所述第二决策方法。
作为一种可选的实施例,从历史数据库中获取第三预设数量的问卷调查样本,特征属性采用用户心理状态属性,其中包括比如家庭氛围,人生是否有价值,生活是否单调或者乏味等;基于第三预设数量的问卷调查样本根据信息熵或ID3算法(信息增益)生成基于用户问卷调查的决策树。
其中,S代表计算信息熵的数据集;i表示集合中的类;pi表示属于类别i的数据点占数据集中的总数据点数的比例;熵值的计算结果介于0和1之间,如果数据集S中的所有样本都属于一类,则熵值为零。如果一半的样本属于一类,而另一半的样本属于另一类,则熵值为最高值1。
可选的,选择好特征后,就从根结点触发,对结点计算所有特征的信息增益,选择信息增益最大的特征作为结点特征,根据该特征的不同取值建立子结点;对每个子结点使用相同的方式生成新的子结点,直到信息增益很小或者没有特征可以选择为止;并通过剪枝的方式对抗过拟合,通过主动去掉部分分支来降低过拟合的风险,进而生成上述第二决策方法。
在一种可选的实施例中,上述方法还包括:获取历史数据库中存储的第四预设数量的问卷调查样本;采用所述第二决策方法计算所述第四预设数量的问卷调查样本,确定第二准确率;基于所述第二准确率确定所述第二权重。
作为一种可选的实施例,从历史数据库中获取第四预设数量的属性信息样本,特征属性仍然采用用户心理状态属性,其中包括比如家庭氛围,人生是否有价值,生活是否单调或者乏味等;并将第四预设数量的属性信息样本输入上述第二决策方法,经第一决策方法计算得到上述第一决策方法的预测结果。并基于第四预设数量的问卷调查样本对应的已完成贷款业务的历史用户的实际贷款情况,判断上述第二决策方法的第二准确率,进而基于上述第二准确率确定上述第二权重。
在一种可选的实施例中,上述基于上述第一决策结果和上述第一权重,以及上述第二决策结果和上述第二权重,确定目标账户的贷款偿还风险,包括:获取所述第一权重与所述第一决策结果的第一乘积结果,以及所述第二权重与所述第二决策结果的第二乘积结果;获取所述第一乘积结果和所述第二乘积结果的和,得到目标决策结果;判断所述目标决策结果是否大于预设阈值,若是,则确定所述目标账户不存在贷款偿还风险,若否,则确定所述目标账户存在贷款偿还风险。
作为一种可选的实施例,预测时,根据属性类别的不同,在第一决策方法和第二决策方法根结点,分别进行预测,在决策方法(决策树)的内部结点处用某一属性值进行判断,根据判断结果决定进入哪个分支结点,直到到达叶结点处,得到分类结果。
可选的,根据A和B两棵树(第一决策方法和第二决策方法)对特定测试集的预测效果,分别分配不同的权重W1和W2(第一权重和第二权重),例如:决策树A对测试样本集的准确率为0.9,则分配权重W1为0.9,决策树B对测试样本集的准确率为0.85则分配W2为0.85,根据两棵树的加权和与特定阈值Q进行比较,如果加权和大于Q则发放贷款,如果小于Q则拒绝发放贷款。
可选地,在本申请实施例提供的贷款偿还风险预测方法中,虑两种不同种类属性值的决策树的预测结果值,并根据分配给两棵树的权重W1和W2,计算出一个最终的结果值,该结果值与设定的阈值Q进行比较,判定特定用户其是否具备贷款的偿还能力,放款机构根据其特定用户的偿还能力,决定是否发放贷款。
需要说明的是,相较于现有技术方案,本方案的优势显著,可以更加精准的评估用户的偿还能力,有助于银行提升对用户放款的风险控制能力。克服了现有决策树预测模型对特征选取的单一性,提供了一种更加全面、综合的方法判定特定用户其是否具备贷款的偿还能力,放款机构根据其特定用户的偿还能力,决定是否发放贷款。
本申请实施例提供的贷款偿还风险预测方法,通过接收初始申请信息,并对上述初始申请信息进行预处理,确定目标申请信息,其中,上述目标申请信息包括:基本属性信息和问卷调查信息;采用第一决策方法,确定上述基本属性信息对应的第一决策结果,其中,上述第一决策方法基于属性信息样本确定;采用第二决策方法,确定上述问卷调查信息对应的第二决策结果,其中,上述第二决策方法基于问卷调查样本确定;获取上述第一决策结果对应的第一权重,以及上述第二决策结果对应的第二权重;基于上述第一决策结果和上述第一权重,以及上述第二决策结果和上述第二权重,确定目标账户的贷款偿还风险,解决了相关技术中贷款风险预测准确度较低的问题。进而达到了通过训练用户的基本属性和问卷调查属性,综合考虑两种不同种类属性值的决策树的输出结果,进而确定最终预测结果的目标,从而实现了提升贷款风险预测准确度的效果。
需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
本申请实施例还提供了一种贷款偿还风险预测装置,需要说明的是,本申请实施例的贷款偿还风险预测装置可以用于执行本申请实施例所提供的用于贷款偿还风险预测方法。以下对本申请实施例提供的贷款偿还风险预测装置进行介绍。
图2是根据本申请实施例的贷款偿还风险预测装置的示意图。如图贷款偿还风险预测所示,该装置包括:接收模块20,用于接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;第一确定模块21,用于采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;第二确定模块22,用于采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;获取模块23,用于获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;计算模块24,用于基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。
可选地,在本申请实施例提供的贷款偿还风险预测装置中,接收初始申请信息,并对上述初始申请信息进行预处理,确定目标申请信息,其中,上述目标申请信息包括:接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。
本申请实施例提供的贷款偿还风险预测装置,通过接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险,解决了相关技术中贷款风险预测准确度较低的问题。进而达到了通过训练用户的基本属性和问卷调查属性,综合考虑两种不同种类属性值的决策树的输出结果,进而确定最终预测结果的目标,从而实现了提升贷款风险预测准确度的效果。
上述贷款偿还风险预测装置包括处理器和存储器,上述单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来提升贷款风险预测准确度。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现上述贷款偿还风险预测方法。
本发明实施例提供了一种处理器,上述处理器用于运行程序,其中,上述程序运行时执行上述贷款偿还风险预测方法。
如图3所示,本发明实施例提供了一种电子设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。本文中的设备可以是服务器、PC、PAD、手机等。
可选的,处理器执行程序时实现以下步骤:响应于申请请求,发送申请信息采集单,其中,上述申请信息采集单用于记录上述目标账户对应用户的上述初始申请信息;接收上述初始申请信息,并对上述初始申请信息进行评估处理,其中,上述评估处理用于确定上述初始申请信息的信息类别,上述信息类别包括:基础属性类别和问卷调查类别;基于信息类别对评估处理后的上述初始申请信息进行分类处理,确定上述基本属性信息和上述问卷调查信息。
可选的,处理器执行程序时实现以下步骤:获取历史数据库中存储的第一预设数量的属性信息样本,其中,上述属性信息样本为已完成贷款业务的历史用户的基本属性信息;基于上述第一预设数量的属性信息样本进行训练处理,确定上述第一决策方法。
可选的,处理器执行程序时实现以下步骤:获取历史数据库中存储的第二预设数量的属性信息样本;采用上述第一决策方法计算上述第二预设数量的属性信息样本,确定第一准确率;基于上述第一准确率确定上述第一权重。
可选的,处理器执行程序时实现以下步骤:获取历史数据库中存储的第三预设数量的问卷调查样本,其中,上述问卷调查样本为已完成贷款业务的历史用户的问卷调查信息;基于上述第三预设数量的问卷调查样本进行训练处理,确定上述第二决策方法。
可选的,处理器执行程序时实现以下步骤:获取历史数据库中存储的第四预设数量的问卷调查样本;采用上述第二决策方法计算上述第四预设数量的问卷调查样本,确定第二准确率;基于上述第二准确率确定上述第二权重。
可选的,处理器执行程序时实现以下步骤:计算上述第一权重与上述第一决策结果的第一乘积结果,以及计算上述第二权重与上述第二决策结果的第二乘积结果;计算上述第一乘积结果和上述第二乘积结果的和,得到目标决策结果;判断上述目标决策结果是否大于预设阈值,若是,则确定上述目标账户不存在贷款偿还风险,若否,则确定上述目标账户存在贷款偿还风险。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。
可选的,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:响应于申请请求,发送申请信息采集单,其中,上述申请信息采集单用于记录上述目标账户对应用户的上述初始申请信息;接收上述初始申请信息,并对上述初始申请信息进行评估处理,其中,上述评估处理用于确定上述初始申请信息的信息类别,上述信息类别包括:基础属性类别和问卷调查类别;基于信息类别对评估处理后的上述初始申请信息进行分类处理,确定上述基本属性信息和上述问卷调查信息。
可选的,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取历史数据库中存储的第一预设数量的属性信息样本,其中,上述属性信息样本为已完成贷款业务的历史用户的基本属性信息;基于上述第一预设数量的属性信息样本进行训练处理,确定上述第一决策方法。
可选的,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取历史数据库中存储的第二预设数量的属性信息样本;采用上述第一决策方法计算上述第二预设数量的属性信息样本,确定第一准确率;基于上述第一准确率确定上述第一权重。
可选的,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取历史数据库中存储的第三预设数量的问卷调查样本,其中,上述问卷调查样本为已完成贷款业务的历史用户的问卷调查信息;基于上述第三预设数量的问卷调查样本进行训练处理,确定上述第二决策方法。
可选的,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:获取历史数据库中存储的第四预设数量的问卷调查样本;采用上述第二决策方法计算上述第四预设数量的问卷调查样本,确定第二准确率;基于上述第二准确率确定上述第二权重。
可选的,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:计算上述第一权重与上述第一决策结果的第一乘积结果,以及计算上述第二权重与上述第二决策结果的第二乘积结果;计算上述第一乘积结果和上述第二乘积结果的和,得到目标决策结果;判断上述目标决策结果是否大于预设阈值,若是,则确定上述目标账户不存在贷款偿还风险,若否,则确定上述目标账户存在贷款偿还风险。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。
Claims (10)
1.一种贷款偿还风险预测方法,其特征在于,包括:
接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;
采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;
采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;
获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;
基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。
2.根据权利要求1所述的方法,其特征在于,所述接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,包括:
响应于申请请求,发送申请信息采集单,其中,所述申请信息采集单用于记录所述目标账户的所述初始申请信息;
接收基于所述申请信息采集单反馈的所述初始申请信息,识别所述初始申请信息中所包括信息的信息类别,所述信息类别包括:基础属性类别和问卷调查类别;
确定所述基础属性类别对应的所述基本属性信息和所述问卷调查类别对应的所述问卷调查信息。
3.根据权利要求1所述的方法,其特征在于,在所述采用第一决策方法,确定所述基本属性信息对应的第一决策结果之前,所述方法还包括:
获取历史数据库中存储的第一预设数量的属性信息样本,其中,所述属性信息样本为已完成贷款业务的账户的基本属性信息;
基于所述第一预设数量的属性信息样本进行训练处理,确定所述第一决策方法。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
获取所述历史数据库中存储的第二预设数量的属性信息样本;
采用所述第一决策方法计算所述第二预设数量的属性信息样本,确定第一准确率;
基于所述第一准确率确定所述第一权重。
5.根据权利要求1所述的方法,其特征在于,在采用第二决策方法,确定所述问卷调查信息对应的第二决策结果之前,所述方法还包括:
获取历史数据库中存储的第三预设数量的问卷调查样本,其中,所述问卷调查样本为已完成贷款业务的账户的问卷调查信息;
基于所述第三预设数量的问卷调查样本进行训练处理,确定所述第二决策方法。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取历史数据库中存储的第四预设数量的问卷调查样本;
采用所述第二决策方法计算所述第四预设数量的问卷调查样本,确定第二准确率;
基于所述第二准确率确定所述第二权重。
7.根据权利要求1至6中任一项所述的方法,其特征在于,所述基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定目标账户的贷款偿还风险,包括:
获取所述第一权重与所述第一决策结果的第一乘积结果,以及所述第二权重与所述第二决策结果的第二乘积结果;
获取所述第一乘积结果和所述第二乘积结果的和,得到目标决策结果;
判断所述目标决策结果是否大于预设阈值,若是,则确定所述目标账户不存在贷款偿还风险,若否,则确定所述目标账户存在贷款偿还风险。
8.一种贷款偿还风险预测装置,其特征在于,包括:
接收模块,用于接收目标账户的初始申请信息,并对所述初始申请信息进行预处理,确定目标申请信息,其中,所述目标申请信息包括:基本属性信息和问卷调查信息;
第一确定模块,用于采用第一决策方法,确定所述基本属性信息对应的第一决策结果,其中,所述第一决策方法基于属性信息样本确定;
第二确定模块,用于采用第二决策方法,确定所述问卷调查信息对应的第二决策结果,其中,所述第二决策方法基于问卷调查样本确定;
获取模块,用于获取所述第一决策结果对应的第一权重,以及所述第二决策结果对应的第二权重;
计算模块,用于基于所述第一决策结果和所述第一权重,以及所述第二决策结果和所述第二权重,确定所述目标账户的贷款偿还风险。
9.一种处理器,其特征在于,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1至7中任意一项所述的贷款偿还风险预测方法。
10.一种电子设备,其特征在于,包括一个或多个处理器和存储器,所述存储器用于存储一个或多个程序,其中,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现权利要求1至7中任意一项所述的贷款偿还风险预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310779566.8A CN116757832A (zh) | 2023-06-28 | 2023-06-28 | 贷款偿还风险预测方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310779566.8A CN116757832A (zh) | 2023-06-28 | 2023-06-28 | 贷款偿还风险预测方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116757832A true CN116757832A (zh) | 2023-09-15 |
Family
ID=87956922
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310779566.8A Pending CN116757832A (zh) | 2023-06-28 | 2023-06-28 | 贷款偿还风险预测方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116757832A (zh) |
-
2023
- 2023-06-28 CN CN202310779566.8A patent/CN116757832A/zh active Pending
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108475393A (zh) | 通过合成特征和梯度提升决策树进行预测的系统和方法 | |
CN109977977B (zh) | 一种识别潜在用户的方法及对应装置 | |
Ahmed et al. | Financial market prediction using Google Trends | |
CN113450158A (zh) | 银行活动信息推送方法及装置 | |
CN116362895A (zh) | 理财产品推荐方法、装置及存储介质 | |
CN116800831A (zh) | 一种业务数据推送方法、装置、存储介质及处理器 | |
CN116821759A (zh) | 类别标签的识别预测方法、装置和处理器及电子设备 | |
CN116630020A (zh) | 风险评估方法、装置、存储介质及电子设备 | |
CN114692785B (zh) | 行为分类方法、装置、设备及存储介质 | |
CN116757832A (zh) | 贷款偿还风险预测方法、装置及存储介质 | |
CN113177733B (zh) | 基于卷积神经网络的中小微企业数据建模方法及系统 | |
CN112001425B (zh) | 一种数据处理方法、装置及计算机可读存储介质 | |
CN114202428A (zh) | 基于图卷积神经网络的资产数据处理方法、装置及设备 | |
CN114049202A (zh) | 操作风险识别方法、装置、存储介质及电子设备 | |
Mahalle et al. | Data Acquisition and Preparation | |
CN115222177A (zh) | 业务数据处理方法、装置、计算机设备和存储介质 | |
CN117952688A (zh) | 商户的分类方法、装置及电子设备 | |
Jabir et al. | Enhancing The Quality of College Decisions Through Decision Tree and Random Forest Models | |
CN116862613A (zh) | 产品推荐方法、装置、存储介质及电子设备 | |
CN116523648A (zh) | 风险对象的识别方法和装置、存储介质及电子设备 | |
CN114820194A (zh) | 金融产品的交易风险评估方法、装置以及存储介质 | |
CN118154326A (zh) | 目标金融产品的筛选方法、装置、存储介质和电子设备 | |
MUSLIMIN et al. | IMPLEMENTATION OF MACHINE LEARNING TECHNOLOGY FOR CONSUMER CREDIT SCORING IN BANKING INDUSTRY: STUDY CASE OF PT BANK BNI SYARIAH | |
Moore et al. | A framework for modelling customer invoice payment predictions | |
CN113283977A (zh) | 一种信用评分的决策分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |