CN111222982A - 一种互联网信贷逾期预测方法、装置、服务器和存储介质 - Google Patents
一种互联网信贷逾期预测方法、装置、服务器和存储介质 Download PDFInfo
- Publication number
- CN111222982A CN111222982A CN202010046917.0A CN202010046917A CN111222982A CN 111222982 A CN111222982 A CN 111222982A CN 202010046917 A CN202010046917 A CN 202010046917A CN 111222982 A CN111222982 A CN 111222982A
- Authority
- CN
- China
- Prior art keywords
- data
- user
- overdue
- credit
- training set
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 230000006399 behavior Effects 0.000 claims abstract description 24
- 238000011156 evaluation Methods 0.000 claims abstract description 15
- 238000012549 training Methods 0.000 claims description 72
- 238000003066 decision tree Methods 0.000 claims description 21
- 238000012360 testing method Methods 0.000 claims description 17
- 238000012216 screening Methods 0.000 claims description 12
- 238000000926 separation method Methods 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 9
- 238000012217 deletion Methods 0.000 claims description 7
- 230000037430 deletion Effects 0.000 claims description 7
- 230000000694 effects Effects 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000004590 computer program Methods 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 claims description 5
- 230000002159 abnormal effect Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000009471 action Effects 0.000 description 4
- 238000004458 analytical method Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 2
- 238000007636 ensemble learning method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000007637 random forest analysis Methods 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000011985 exploratory data analysis Methods 0.000 description 1
- 238000009472 formulation Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008707 rearrangement Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012502 risk assessment Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000001131 transforming effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/03—Credit; Loans; Processing thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/04—Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Economics (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Finance (AREA)
- Development Economics (AREA)
- Physics & Mathematics (AREA)
- Accounting & Taxation (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Game Theory and Decision Science (AREA)
- Technology Law (AREA)
- Entrepreneurship & Innovation (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Tourism & Hospitality (AREA)
- Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)
Abstract
本发明公开了一种互联网信贷逾期预测方法,包括:获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;根据所述信贷逾期概率对待评估用户进行信贷预期评估。本发明还公开了一种互联网信贷逾期预测装置、服务器和存储介质。本发明通过使用逾期预测模型,将用户数据输入模型,得到逾期预测结果,实现对用户信贷逾期概率的准确预测,提高了逾期预测准确率。
Description
技术领域
本发明实施例涉及互联网金融技术领域,尤其涉及一种互联网信贷逾期预测方法、装置、服务器和存储介质。
背景技术
互联网金融行业公司也逐渐把个人信用贷款业务作为研究突破的重要领域之一。然而,随着大数据技术的日益成熟,互联网金融个人信用原始数据集数据类型越来越复杂且数据量大,互联网金融公司面临着数据集越来越大、数据特征越来越复杂的问题。
数据集中各个指标都有可能影响个人信用评估的效果,个人基本信息、经济情况和历史信用记录等多被证明是重要因素。目前常用的互联网信贷用户的逾期预测方法主要是基于专家经验制定的评分卡和基于LR模型的传统信用评分卡。前者根据专家经验制定一套评分规则,再根据用户的实际数据,使用该规则进行信用评分。
这种方法评估结果不准确,同时无法充分挖掘数据信息,对数据的利用率不高。
发明内容
本发明提供一种互联网信贷逾期预测方法,将用户数据输入模型,得到逾期预测结果,实现对用户信贷逾期概率的准确预测。
第一方面,本发明实施例提供一种互联网信贷逾期预测方法,包括:
获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;
使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;
根据所述信贷逾期概率对待评估用户进行信贷预期评估。
进一步地,所述逾期预测模型的生成方法包括:
获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;
将所述样本用户数据分为训练集和测试集;
从所述训练集中筛选出第一数据特征;
将所述训练集通过GBDT模型学习得到第二数据特征;
将所述第一数据特征和第二数据特征合并生成第三数据特征,使用LR模型训练所述第三数据特征,生成所述逾期预测模型。
进一步地,所述从所述训练集中筛选出第一数据特征,包括:
对所述训练集进行EDA数据分析,获取所述训练集的缺失值、异常值、众数、平均值、第1中位数、第2中位数、第3中位数、标准差、最大值和最小值的分布状态;
对所述训练集依次执行数据处理和变量筛选,生成第一数据特征。
进一步地,所述对所述训练集依次执行数据处理和变量筛选,生成第一数据特征,包括:
基于第一预设阈值,去掉所述训练集中缺失率超过第一预设阈值的训练集数据;
采用卡方分箱法,对去除缺失率过高的所述训练集数据进行分箱操作;
将分箱操作后的所述训练集数据的特征从非线性可分空间映射到近似线性可分空间内,生成待处理变量;
基于第二预设阈值,删除所述待处理变量中iv值超出第二预设阈值的变量,同时,基于第三预设阈值,删除所述待处理变量中VIF方差膨胀因子值超出第三预设阈值的变量,生成第一数据特征。
进一步地,所述将所述训练集通过GBDT模型学习得到第二数据特征,包括:
所述GBDT模型使用决策树模型作为学习器;
基于所述性别、年龄、工作年限、通话记录、和/或历史借贷行为生成对应的决策树;
将所述用户标签中用户信贷逾期记为维度1,用户信贷未逾期记为维度0;
所述训练集根据所述决策树进行学习,生成多个叶子结点;
将所述多个叶子结点的维度取值生成所述第二数据特征。
进一步地,所述使用LR模型训练所述第三数据特征,生成所述逾期预测模型之后,还包括:
使用所述测试集测试所述逾期预测模型;
基于预测效果调整所述逾期预测模型参数。
第二方面,本发明实施例还提供一种互联网信贷逾期预测装置,包括:
第一获取模块,用于获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;
预测模块,用于使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;
政策制定模块,用于根据所述信贷逾期概率对待评估用户进行信贷预期评估。
进一步地,所述互联网信贷逾期预测装置还包括:
第二获取模块,用于获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;
数据拆分模块,用于将所述样本用户数据分为训练集和测试集;
第一特征生成模块,用于从所述训练集中筛选出第一数据特征;
第二特征生成模块,用于将所述训练集通过GBDT模型学习得到第二数据特征;
训练模块,用于将所述第一数据特征和第二数据特征合并生成第三数据特征,使用LR模型训练所述第三数据特征,生成所述逾期预测模型。
第三方面,本发明实施例提供一种服务器,包括存储器和处理器,所述存储器上存储有可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任意一项所述的互联网信贷逾期预测方法。
第四方面,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现如上述任意一项所述的互联网信贷逾期预测方法。
本发明通过使用逾期预测模型,将用户数据输入模型,得到逾期预测结果,实现对用户信贷逾期概率的准确预测,提高了逾期预测准确率,另外使用本发明的逾期预测模型,还提高了逾期预测准确率,同时便于根据预测结果为用户制定针对性的信贷政策,提高抗风险能力。
附图说明
图1是本发明实施例一中的互联网信贷逾期预测方法的流程图。
图2是本发明实施例二中的互联网信贷逾期预测方法的流程图。
图3是本发明实施例三中的互联网信贷逾期预测装置模块图。
图4是本发明实施例三中的替代实施例的互联网信贷逾期预测装置模块图。
图5是本发明实施例三中的替代实施例的互联网信贷逾期预测装置模块图。
图6是本发明实施例四提供的一种服务器结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各步骤描述成顺序的处理,但是其中的许多步骤可以被并行地、并发地或者同时实施。此外,各步骤的顺序可以被重新安排。当其操作完成时处理可以被终止,但是还可以具有未包括在附图中的附加步骤。处理可以对应于方法、函数、规程、子例程、子程序等等。
此外,术语“第一”、“第二”等可在本文中用于描述各种方向、动作、步骤或元件等,但这些方向、动作、步骤或元件不受这些术语限制。这些术语仅用于将第一个方向、动作、步骤或元件与另一个方向、动作、步骤或元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一获取模块称为第二获取模块,且类似地,可将第二获取模块称为第一获取模块。第一获取模块和第二获取模块两者都是获取模块,但其不是同一模块。术语“第一”、“第二”等而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。
下述实施例中提及的专有名词及英文缩写含义如下:
Iv(Information Value,信息价值)值:iv值是用来衡量某个变量对好坏客户区分能力的一个指标。Iv值越高,表示该变量区分能力越好。
卡方分箱:卡方分箱是监督的、自底向上的数据离散化方法。
WOE(Weight of Evidence,证据权重)编码:WOE证据权重是一种有监督的编码方式,将预测类的集中度的属性作为编码的数值,相当于把分箱后的特征从非线性可分映射到近似线性可分的空间内。
RF(Random Forests)随机森林:是一种基于Bagging的集成学习方法,可以用来做分类、回归等问题。
GDBT(Gradient Boosting Decision Tree)梯度提升树:是一种基于Boosting的集成学习方法,可以用来做分类、回归等问题。
皮尔逊相关系数:用于度量两个变量之间的相关程度。
VIF(Variance Inflation Factors)方差膨胀因子:通过检查指定的解释变量能够被回归方程中其它全部解释变量所解释的程度来检测多重共线性。
p-value值:就是用来判断H0假设是否成立的依据。因为期望值是基于H0假设得出的,如果观测值与期望值越一致,则说明检验现象与零假设越接近,则越没有理由拒绝零假设。如果观测值与期望值越偏离,说明零假设越站不住脚,则越有理由拒绝零假设,从而推出对立假设的成立。
EDA:Exploratory Data Analysis,探索性数据分析,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据结构和规律并且分析数据以概括其主要特征的一种数据分析方法。
实施例一
图1为本发明实施例一提供的互联网信贷逾期预测方法的流程图,适用于逾期预测模型已经事先训练好的情况,具体包括如下步骤:
S101、获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为。
该步骤所述的当前用户数据包括但不限于性别、年龄、工作年限、通话记录、和/或历史借贷行为,还可包括一些其他来源的数据,如基础维度信息,如客户性别、年龄、工作年限等在本机构的借贷信息,还包括通讯录、通话记录、历史借贷行为等三方数据。
信贷逾期预测的实现主要通过对用户的历史借贷行为进行建模,从而预测用户的信用,为用户未来的信贷政策的制定进行风险评估。
S102、使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率。
该步骤中,对用户的信贷逾期概率预测有窗口时间,且窗口时间可根据客户的历史借贷表现进行调整,如通过观察分析客户历史月份的平均逾期情况,确定表现期的窗口时间。示例性地,窗口时间为一年,如果要对2019年用户信贷概率进行预测,那么数据窗口将为2018年生成的用户数据,即评估时间点为用户数据的数据生成时间加上窗口时间得到的时间点。
S103、根据所述信贷逾期概率对待评估用户进行信贷预期评估。
该步骤中,最终得到的逾期预测模型输出的是信贷用户的信贷逾期概率,实用性较差,因此基于信贷逾期概率对待评估用户进行信贷预期评估,示例性地,可生成逾期风险评分,基于风险评分制定对应的信贷政策。将信贷逾期概率转换为逾期风险评分的方法可以是:对信贷逾期概率的对数值进行线性变换,然后再加上一个常数,将逾期概率值映射到一个分数区间内,得分即为逾期风险评分,得分越高,逾期概率越小。通过信贷逾期评估可以很容易的控制逾期的违约账户比例及其对应的成本。
本实施例通过使用逾期预测模型,实现对用户信贷逾期概率的准确预测,同时根据预测得到的信贷逾期概率进行信贷逾期评估,便于为用户制定针对性信贷政策,降低了信贷风险。
实施例二
如图2所示为本实施例的互联网信贷逾期预测方法的流程图,本实施例在上述实施例的基础上,增加了逾期预测模型的训练步骤,通过GBDT和LR模型结合,得到最终的预测结果,具体包括如下步骤:
S201、获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期。
S202、将所述样本用户数据分为训练集和测试集。
该步骤所述的用户数据包括但不限于性别、年龄、工作年限、通话记录、和/或历史借贷行为,还可包括一些其他来源的数据,包括但不限于基础维度信息,如客户性别、年龄、工作年限等在本机构的借贷信息,还包括通讯录、通话记录、历史借贷行为等三方数据。该步骤中对样本用户数据中训练集和测试集的划分比例可以基于建模的精度要求确定。
步骤S202后,从所述训练集中筛选出第一数据特征,该步骤具体如下:
S2031、对所述训练集进行EDA数据分析,获取所述训练集的缺失值、异常值、众数、平均值、第1中位数、第2中位数、第3中位数、标准差、最大值和最小值的分布状态。
EDA分析强调数据可视,在本实施例中,通过对大量用户数据进行EDA分析,可以很好地处理各种杂乱的脏数据,通过EDA可以真实、直接的观察到数据的结构及特征,提高了数据的使用效率。
S2032、对所述训练集依次执行数据处理和变量筛选,生成第一数据特征。
该步骤具体包括:基于第一预设阈值,去掉所述训练集中缺失率超过第一预设阈值的训练集数据。该步骤的数据清洗过程中,主要处理的是缺失值、异常值和重复值。所谓清洗,是对数据集通过丢弃、填充、替换、去重等操作,达到去除异常、纠正错误、补足缺失的目的。
采用卡方分箱法,对去除缺失率过高的所述训练集数据进行分箱操作。
将分箱操作后的所述训练集数据的特征从非线性可分空间映射到近似线性可分空间内,生成待处理变量。
基于第二预设阈值,删除所述待处理变量中iv值超出第二预设阈值的变量,同时,基于第三预设阈值,删除所述待处理变量中VIF方差膨胀因子值超出第三预设阈值的变量,生成第一数据特征。
在步骤S2032之后,执行步骤:将所述训练集通过GBDT模型学习得到第二数据特征,该步骤具体包括:
S2041、所述GBDT模型使用决策树模型作为学习器。
S2042、基于所述性别、年龄、工作年限、通话记录、和/或历史借贷行为生成对应的决策树。
该步骤中决策树为多个,采用多棵树可以很好地对数据特征进行区分和表达。由于所述GBDT模型每次迭代都在残差减少的梯度方向建立一个新的决策树,后面的树都是对前面的残差进行学习,因此采用GBDT来构造新的特征、进行特征的组合。该步骤中,决策树的具体数量根据性别、年龄、工作年限、通话记录、和/或历史借贷行为等数据属性以及模型的精确度要求确定。
S2043、将所述用户标签中用户信贷逾期记为维度1,用户信贷未逾期记为维度0。
该步骤中,可选地,也可将用户信贷未逾期记为维度1,用户信贷逾期记为维度0。
S2044、所述训练集根据所述决策树进行学习,生成多个叶子结点。
S2045、将所述多个叶子结点的维度取值生成所述第二数据特征。
该步骤中,GBDT每颗决策树的每个叶子节点都是新的特征向量的一个维度,构造的新的特征维度与GBDT模型中的叶子节点数目相同。示例性地,GBDT模型中选用三颗决策树,训练集分别落到了Tree1的第一个叶子节点、Tree2的第二个叶子节点和Tree3的第三个叶子节点,这三个叶子节点的取值是1,剩下的叶子节点的取值为0,则得到的第二特征为[1,0,0,1,0,0,1]。
S205、将所述第一数据特征和第二数据特征合并生成第三数据特征,使用LR模型训练所述第三数据特征,生成所述逾期预测模型。
基于LR模型的特点是简单、学习能力有限、对数据特征要求比较高,在进行分类训练之前,需要大量的特征工程分析现有数据作为支撑,因此现有技术中单独使用LR模型效果不佳,因此在本发明实施例步骤中,将LR模型与前述GBDT模型结合,使用GBDT模型首先获取用户的第二数据特征,数据特征能够展示数据中有效的特征和特征组合,提高了LR模型的非线性学习能力。
该步骤中,将上述步骤得到的第三数据特征用于LR模型进行训练,并根据模型系数符号和p-value值对变量再次进行筛选,得到最终的用户逾期预测模型。
在替代实施例中,步骤S205之后还包括:使用所述测试集测试所述逾期预测模型,基于预测效果调整所述逾期预测模型参数。示例性地,调整所述逾期预测模型参数包括调节决策树的数量。
S206、获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为。
S207、使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率。
S208、根据所述信贷逾期概率对待评估用户进行信贷逾期评估。
本实施例在上述实施例的基础上,采用GBDT模型和LR模型结合,LR作为一种线性模型,其模型简单、处理速度快、稳定性好、适用于数据量大的数据集,同时LR模型是对整个数据集的拟合,不会分割数据集,对全局有很好的把握;GBDT模型适合处理非线性数据,且可用来构造组合特征,充分挖掘数据信息。本实施例通过将GBDT和LR模型融合建立逾期预测模型,很好的节约了人工成本、提高了数据的利用率。
实施例三
如图3所示,本实施例提供了一种互联网信贷逾期预测装置3,包括:
第一获取模块301,用于获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;
预测模块302,用于使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;
政策制定模块303,用于根据所述信贷逾期概率对待评估用户进行信贷逾期评估。
在替代实施例中,如图4所示,预测模块302中的逾期预测模型的训练过程包括如下模块:
第二获取模块304,用于获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;
数据拆分模块305,用于将所述样本用户数据分为训练集和测试集;
第一特征生成模块306,用于从所述训练集中筛选出第一数据特征;
第二特征生成模块307,用于将所述训练集通过GBDT模型学习得到第二数据特征;
训练模块308,用于将所述第一数据特征和第二数据特征合并生成第三数据特征,使用LR模型训练所述第三数据特征,生成所述逾期预测模型。
如图5所示,在另一替代实施例中,第一特征生成模块306包括如下单元:
EDA分析单元3061,对所述训练集进行EDA数据分析,获取所述训练集的缺失值、异常值、众数、平均值、第1中位数、第2中位数、第3中位数、标准差、最大值和最小值的分布状态;
变量筛选单元3062,用于对所述训练集依次执行数据处理和变量筛选,生成第一数据特征。其中变量筛选单元3062具体用于:
基于第一预设阈值,去掉所述训练集中缺失率超过第一预设阈值的训练集数据;采用卡方分箱法,对去除缺失率过高的所述训练集数据进行分箱操作;将分箱操作后的所述训练集数据的特征从非线性可分空间映射到近似线性可分空间内,生成待处理变量;基于第二预设阈值,删除所述待处理变量中iv值超出第二预设阈值的变量,同时,基于第三预设阈值,删除所述待处理变量中VIF方差膨胀因子值超出第三预设阈值的变量,生成第一数据特征。
第二特征生成模块307包括如下单元:
决策树生成单元3071,用于所述GBDT模型使用决策树模型作为学习器;基于所述性别、年龄、工作年限、通话记录、和/或历史借贷行为生成对应的决策树;
维度单元3072,用于将所述用户标签中用户信贷逾期记为维度1,用户信贷未逾期记为维度0;
学习单元3073,用于将所述训练集根据所述决策树进行学习,生成多个叶子结点;
特征生成单元3074,将所述多个叶子结点的维度取值生成所述第二数据特征。
在替代实施例中,还包括:
测试模块309,用于使用所述测试集测试所述逾期预测模型;
参数调节模块310,用于基于预测效果调整所述逾期预测模型参数。
本发明实施例三所提供的一种互联网信贷逾期预测装置可执行本发明任意实施例所提供的互联网信贷逾期预测方法,具备功能模块相应的执行方法和有益效果。
实施例四
图6为本发明实施例四提供的一种服务器的结构示意图,如图6所示,该设备包括处理器401、存储器402、输入装置403和输出装置404;设备中处理器401的数量可以是一个或多个,图6以一个处理器401为例;设备中的处理器401、存储器402、输入装置403和输出装置404可以通过总线或其他方式连接,图6中以通过总线连接为例。
存储器402作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例一中的一种互联网信贷逾期预测方法对应的模块(例如实施例三中的数据获取模块301、第一生成模块302等)。处理器401通过运行存储在存储器402中的软件程序、指令以及模块,从而执行设备的各种功能应用以及数据处理,即实现上述的一种互联网信贷逾期预测方法。
存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器402可进一步包括相对于处理器401远程设置的存储器,这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
实施例五
实施例五提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行一种互联网信贷逾期预测方法,该方法包括:
获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;
使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;
根据所述信贷逾期概率对待评估用户进行信贷逾期评估。
当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上所述的方法操作,还可以执行本发明任意实施例所提供的互联网信贷逾期预测方法的相关操作。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-OnlyMemory,ROM)、随机存取存储器(RandomAccessMemory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述搜索装置的实施例中,所包括的各个模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能模块的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
Claims (10)
1.一种互联网信贷逾期预测方法,其特征在于,包括:
获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;
使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;
根据所述信贷逾期概率对待评估用户进行信贷预期评估。
2.根据权利要求1所述的互联网信贷逾期预测方法,其特征在于,所述逾期预测模型的生成方法包括:
获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;
将所述样本用户数据分为训练集和测试集;
从所述训练集中筛选出第一数据特征;
将所述训练集通过GBDT模型学习得到第二数据特征;
将所述第一数据特征和第二数据特征合并生成第三数据特征,使用LR模型训练所述第三数据特征,生成所述逾期预测模型。
3.根据权利要求2所述的互联网信贷逾期预测方法,其特征在于,所述从所述训练集中筛选出第一数据特征,包括:
对所述训练集进行EDA数据分析,获取所述训练集的缺失值、异常值、众数、平均值、第1中位数、第2中位数、第3中位数、标准差、最大值和最小值的分布状态;
对所述训练集依次执行数据处理和变量筛选,生成第一数据特征。
4.根据权利要求3所述的互联网信贷逾期预测方法,其特征在于,所述对所述训练集依次执行数据处理和变量筛选,生成第一数据特征,包括:
基于第一预设阈值,去掉所述训练集中缺失率超过第一预设阈值的训练集数据;
采用卡方分箱法,对去除缺失率过高的所述训练集数据进行分箱操作;
将分箱操作后的所述训练集数据的特征从非线性可分空间映射到近似线性可分空间内,生成待处理变量;
基于第二预设阈值,删除所述待处理变量中iv值超出第二预设阈值的变量,同时,基于第三预设阈值,删除所述待处理变量中VIF方差膨胀因子值超出第三预设阈值的变量,生成第一数据特征。
5.根据权利要求2所述的互联网信贷逾期预测方法,其特征在于,所述将所述训练集通过GBDT模型学习得到第二数据特征,包括:
所述GBDT模型使用决策树模型作为学习器;
基于所述性别、年龄、工作年限、通话记录、和/或历史借贷行为生成对应的决策树;
将所述用户标签中用户信贷逾期记为维度1,用户信贷未逾期记为维度0;
所述训练集根据所述决策树进行学习,生成多个叶子结点;
将所述多个叶子结点的维度取值生成所述第二数据特征。
6.根据权利要求2所述的互联网信贷逾期预测方法,其特征在于,所述使用LR模型训练所述第三数据特征,生成所述逾期预测模型之后,还包括:
使用所述测试集测试所述逾期预测模型;
基于预测效果调整所述逾期预测模型参数。
7.一种互联网信贷逾期预测装置,其特征在于,包括:
第一获取模块,用于获取待评估用户的当前用户数据,所述当前用户数据包括性别、年龄、工作年限、通话记录、和/或历史借贷行为;
预测模块,用于使用所述当前用户数据输入预设的逾期预测模型进行预测,以得到所述待评估用户的信贷逾期概率;
政策制定模块,用于根据所述信贷逾期概率对待评估用户进行信贷预期评估。
8.根据权利要求7所述的一种互联网信贷逾期预测装置,其特征在于,所述互联网信贷逾期预测装置还包括:
第二获取模块,用于获取历史用户的样本用户数据,所述样本用户数据包括历史用户的性别、年龄、工作年限、通话记录、和/或历史借贷行为,所述样本用户数据还包括用户标签,所述用户标签记载所述历史用户出现信贷逾期或未出现信贷逾期;
数据拆分模块,用于将所述样本用户数据分为训练集和测试集;
第一特征生成模块,用于从所述训练集中筛选出第一数据特征;
第二特征生成模块,用于将所述训练集通过GBDT模型学习得到第二数据特征;
训练模块,用于将所述第一数据特征和第二数据特征合并生成第三数据特征,使用LR模型训练所述第三数据特征,生成所述逾期预测模型。
9.一种服务器,其特征在于,包括存储器和处理器,所述存储器上存储有可在处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如权利要求1-6任意一项所述的互联网信贷逾期预测方法。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被执行时实现如权利要求1-6任意一项所述的互联网信贷逾期预测方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010046917.0A CN111222982A (zh) | 2020-01-16 | 2020-01-16 | 一种互联网信贷逾期预测方法、装置、服务器和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010046917.0A CN111222982A (zh) | 2020-01-16 | 2020-01-16 | 一种互联网信贷逾期预测方法、装置、服务器和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111222982A true CN111222982A (zh) | 2020-06-02 |
Family
ID=70831171
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010046917.0A Pending CN111222982A (zh) | 2020-01-16 | 2020-01-16 | 一种互联网信贷逾期预测方法、装置、服务器和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111222982A (zh) |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111652717A (zh) * | 2020-07-07 | 2020-09-11 | 中国银行股份有限公司 | 畜牧业信贷风险评估方法及装置 |
CN111681102A (zh) * | 2020-06-05 | 2020-09-18 | 深圳市卡牛科技有限公司 | 信贷预测方法、装置、设备和存储介质 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
CN111950600A (zh) * | 2020-07-20 | 2020-11-17 | 上海淇馥信息技术有限公司 | 一种预测逾期用户资源返还表现的方法、装置和电子设备 |
CN112348094A (zh) * | 2020-11-10 | 2021-02-09 | 上海优扬新媒信息技术有限公司 | 数据处理方法及装置 |
CN112419047A (zh) * | 2020-12-01 | 2021-02-26 | 中国银行股份有限公司 | 利用特征趋势分析预测银行个人贷款逾期的方法及系统 |
CN112785086A (zh) * | 2021-02-10 | 2021-05-11 | 中国工商银行股份有限公司 | 信贷逾期风险预测方法及装置 |
CN113139687A (zh) * | 2021-04-25 | 2021-07-20 | 中国工商银行股份有限公司 | 一种预测信用卡用户违约的方法及装置 |
CN113159917A (zh) * | 2021-04-07 | 2021-07-23 | 北京芯盾时代科技有限公司 | 一种信息预测方法、装置及存储介质 |
CN113177844A (zh) * | 2021-05-28 | 2021-07-27 | 成都新希望金融信息有限公司 | 一种信贷风险预测方法、装置、设备及存储介质 |
CN114240215A (zh) * | 2021-12-22 | 2022-03-25 | 中国建设银行股份有限公司 | 用户失联等级获取方法、装置及存储介质 |
WO2022062193A1 (zh) * | 2020-09-28 | 2022-03-31 | 南京博雅区块链研究院有限公司 | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107993139A (zh) * | 2017-11-15 | 2018-05-04 | 华融融通(北京)科技有限公司 | 一种基于动态规则库的消费金融反欺诈系统与方法 |
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
CN109035003A (zh) * | 2018-07-04 | 2018-12-18 | 北京玖富普惠信息技术有限公司 | 基于机器学习的反欺诈模型建模方法和反欺诈监控方法 |
CN109255506A (zh) * | 2018-11-22 | 2019-01-22 | 重庆邮电大学 | 一种基于大数据的互联网金融用户贷款逾期预测方法 |
WO2019061187A1 (zh) * | 2017-09-28 | 2019-04-04 | 深圳乐信软件技术有限公司 | 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置 |
CN110675243A (zh) * | 2019-08-30 | 2020-01-10 | 北京银联金卡科技有限公司 | 一种融合机器学习的信贷预测逾期方法及系统 |
-
2020
- 2020-01-16 CN CN202010046917.0A patent/CN111222982A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019061187A1 (zh) * | 2017-09-28 | 2019-04-04 | 深圳乐信软件技术有限公司 | 信用评价方法和装置以及梯度渐进决策树参数调整方法和装置 |
CN107993139A (zh) * | 2017-11-15 | 2018-05-04 | 华融融通(北京)科技有限公司 | 一种基于动态规则库的消费金融反欺诈系统与方法 |
CN108846520A (zh) * | 2018-06-22 | 2018-11-20 | 北京京东金融科技控股有限公司 | 贷款逾期预测方法、装置以及计算机可读存储介质 |
CN109035003A (zh) * | 2018-07-04 | 2018-12-18 | 北京玖富普惠信息技术有限公司 | 基于机器学习的反欺诈模型建模方法和反欺诈监控方法 |
CN109255506A (zh) * | 2018-11-22 | 2019-01-22 | 重庆邮电大学 | 一种基于大数据的互联网金融用户贷款逾期预测方法 |
CN110675243A (zh) * | 2019-08-30 | 2020-01-10 | 北京银联金卡科技有限公司 | 一种融合机器学习的信贷预测逾期方法及系统 |
Cited By (16)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111681102A (zh) * | 2020-06-05 | 2020-09-18 | 深圳市卡牛科技有限公司 | 信贷预测方法、装置、设备和存储介质 |
CN111681102B (zh) * | 2020-06-05 | 2023-09-01 | 深圳市卡牛科技有限公司 | 信贷预测方法、装置、设备和存储介质 |
CN111652717A (zh) * | 2020-07-07 | 2020-09-11 | 中国银行股份有限公司 | 畜牧业信贷风险评估方法及装置 |
CN111950600A (zh) * | 2020-07-20 | 2020-11-17 | 上海淇馥信息技术有限公司 | 一种预测逾期用户资源返还表现的方法、装置和电子设备 |
CN111950600B (zh) * | 2020-07-20 | 2024-05-14 | 奇富数科(上海)科技有限公司 | 一种预测逾期用户资源返还表现的方法、装置和电子设备 |
CN111898675A (zh) * | 2020-07-30 | 2020-11-06 | 北京云从科技有限公司 | 信贷风控模型生成方法、装置、评分卡生成方法、机器可读介质及设备 |
WO2022062193A1 (zh) * | 2020-09-28 | 2022-03-31 | 南京博雅区块链研究院有限公司 | 基于时序归因分析的个人信用评估与解释方法、装置、设备及存储介质 |
CN112348094A (zh) * | 2020-11-10 | 2021-02-09 | 上海优扬新媒信息技术有限公司 | 数据处理方法及装置 |
CN112419047B (zh) * | 2020-12-01 | 2023-08-22 | 中国银行股份有限公司 | 利用特征趋势分析预测银行个人贷款逾期的方法及系统 |
CN112419047A (zh) * | 2020-12-01 | 2021-02-26 | 中国银行股份有限公司 | 利用特征趋势分析预测银行个人贷款逾期的方法及系统 |
CN112785086A (zh) * | 2021-02-10 | 2021-05-11 | 中国工商银行股份有限公司 | 信贷逾期风险预测方法及装置 |
CN113159917A (zh) * | 2021-04-07 | 2021-07-23 | 北京芯盾时代科技有限公司 | 一种信息预测方法、装置及存储介质 |
CN113139687A (zh) * | 2021-04-25 | 2021-07-20 | 中国工商银行股份有限公司 | 一种预测信用卡用户违约的方法及装置 |
CN113139687B (zh) * | 2021-04-25 | 2024-03-01 | 中国工商银行股份有限公司 | 一种预测信用卡用户违约的方法及装置 |
CN113177844A (zh) * | 2021-05-28 | 2021-07-27 | 成都新希望金融信息有限公司 | 一种信贷风险预测方法、装置、设备及存储介质 |
CN114240215A (zh) * | 2021-12-22 | 2022-03-25 | 中国建设银行股份有限公司 | 用户失联等级获取方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111222982A (zh) | 一种互联网信贷逾期预测方法、装置、服务器和存储介质 | |
Wang et al. | A Comparative Assessment of Credit Risk Model Based on Machine Learning——a case study of bank loan data | |
Leydesdorff et al. | Scientometrics | |
De Winter et al. | Combining temporal aspects of dynamic networks with node2vec for a more efficient dynamic link prediction | |
CN107040397B (zh) | 一种业务参数获取方法及装置 | |
CN106933956B (zh) | 数据挖掘方法和装置 | |
CN111340246A (zh) | 用于企业智能决策分析的处理方法、装置和计算机设备 | |
CN110738527A (zh) | 一种特征重要性排序方法、装置、设备和存储介质 | |
Jurado et al. | Fuzzy inductive reasoning forecasting strategies able to cope with missing data: A smart grid application | |
Nyerges et al. | Foundations of sustainability information representation theory: spatial–temporal dynamics of sustainable systems | |
CN111738331A (zh) | 用户分类方法及装置、计算机可读存储介质、电子设备 | |
da Fonseca Silveira et al. | Educational data mining: Analysis of drop out of engineering majors at the UnB-Brazil | |
CN112069329A (zh) | 文本语料的处理方法、装置、设备及存储介质 | |
Bildosola et al. | An approach for modelling and forecasting research activity related to an emerging technology | |
CN115063035A (zh) | 基于神经网络的客户评估方法、系统、设备及存储介质 | |
Maillart | Toward an explainable machine learning model for claim frequency: a use case in car insurance pricing with telematics data | |
Kee et al. | Fractional modeling of urban growth with memory effects | |
CN113554350A (zh) | 活跃度评估方法、装置、电子设备及计算机可读存储介质 | |
CN112163098A (zh) | 一种知识图谱的创建方法、装置、存储介质和服务器 | |
Hashim et al. | Data mining methodologies to study student's academic performance using the C4. 5 algorithm | |
Fontalvo-Herrera et al. | Methodology of classification, forecast and prediction of healthcare providers accredited in high quality in Colombia | |
Krusinskas et al. | THE RESEARCH OF RELIABILITY OF BANKRUPTCY PREDICTION MODELS IN LITHUANIAN COMPANIES. | |
CN113238908A (zh) | 一种服务器性能测试数据分析方法及相关装置 | |
CN112950350A (zh) | 一种基于机器学习的贷款产品推荐方法及系统 | |
Chavan et al. | Ontology based system for prediction of diseases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200602 |