CN110322342A

CN110322342A - 借贷风险预测模型的构建方法、系统及借贷风险预测方法

Info

Publication number: CN110322342A
Application number: CN201910567577.3A
Authority: CN
Inventors: 李君浩; 李铁铮
Original assignee: Shanghai Lake Information Technology Co Ltd
Current assignee: Shanghai Lake Information Technology Co Ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2019-10-11
Anticipated expiration: 2039-06-27
Also published as: CN110322342B

Abstract

本发明公开一种借贷风险预测模型的构建方法、系统及借贷风险预测方法，属于计算机技术领域。模型构建方法包括：获取预设的带有时刻分类标签的训练样本集合；根据第二时刻的样本数据，训练得到一输出为第二时刻借贷风险结果的基础网络；利用机器学习方法，根据第一时刻的借贷申请信息输入至基础网络生成的第一时刻借贷风险结果，以及第一时刻的借贷风险标签、第二时刻借贷风险结果，对基础网络进行微调以完成对第一时刻的样本数据的迁移学习，将微调后的基础网络确定为借贷风险预测模型。本发明通过两个阶段的数据建立单个模型，该模型效果评估简单、模型维护成本较小、模型迭代较为方便。

Description

借贷风险预测模型的构建方法、系统及借贷风险预测方法

技术领域

本发明属于计算机技术领域，尤其涉及一种借贷风险预测模型的构建方法、系统及借贷风险预测方法。

背景技术

在风险业务场景中，一般存在两个时间节点。当用户填写相关信息后，系统自动对用户信用额度评估，给出合适的信用额度，这个阶段称为第一审批时刻，用户有了额度后，可以在平台进行申请借款，这个阶段称为第二审批时刻。一般来说，两个阶段存在一定的时间差异，在这段时间差内用户的信息可能会发生变化，比如用户在当前平台戳额后，又向其他平台申请了借款等，因此第二审批时刻的信息比第一审批时刻更为丰富。因此，利用机器学习模型尽量消除这个两个阶段带来的差异，显得很重要。传统的方法是分别利用这两个阶段的数据建立模型，应用在相应的阶段，然而两阶段的方法维护成本过高，模型效果评估需要分析各个模型的贡献，需要投入较大的人力成本，不方便后续的模型迭代。

发明内容

为了解决现有技术的问题，本发明提出了一种借贷风险预测模型的构建方法、系统及借贷风险预测方法，本发明的借贷风险预测模型克服了传统技术中分别利用两个阶段的数据建立两个模型进行预测，从而导致模型效果评估复杂、模型维护成本过大、模型迭代不方便等问题。

本发明实施例提供的具体技术方案如下：

第一方面，本发明提供一种借贷风险预测模型的构建方法，所述方法包括：获取预设的带有时刻分类标签的训练样本集合；所述训练样本集合包括第一时刻的样本数据和第二时刻的样本数据；所述第一时刻的样本数据包括第一时刻的借贷申请信息和第一时刻的借贷风险标签，所述第二时刻的样本数据包括第二时刻的借贷申请信息和第二时刻的借贷风险标签；

根据所述第二时刻的样本数据，训练得到一输出为第二时刻借贷风险结果的基础网络；

利用机器学习方法，根据所述第一时刻的借贷申请信息输入至所述基础网络生成的第一时刻借贷风险结果，以及所述第一时刻的借贷风险标签、所述第二时刻借贷风险结果，对所述基础网络进行微调以完成对所述第一时刻的样本数据的迁移学习，将微调后的基础网络确定为借贷风险预测模型。

在一些实施例中，根据所述第一时刻的借贷申请信息输入至所述基础网络生成的第一时刻借贷风险结果，以及所述第一时刻的借贷风险标签、所述第二时刻借贷风险结果，对所述基础网络进行微调以完成所述第一时刻的样本数据的迁移学习具体包括：

将所述第一时刻的借贷申请信息输入至所述基础网络生成的第一时刻借贷风险结果和所述第一时刻的借贷风险标签输入至第一交叉熵损失函数，得到第一损失值；

将所述第一时刻借贷风险结果和所述第二时刻借贷风险结果输入至Smooth L1损失函数，得到第二损失值；

将所述第一损失值和第二损失值进行加权求和生成输出结果，根据所述输出结果，对所述基础网络进行训练以实现所述基础网络的微调，从而完成对所述第一时刻的样本数据的迁移学习。

在一些实施例中，根据所述第二时刻的样本数据，训练得到一输出为第二时刻借贷风险结果的基础网络具体包括：

将所述第二时刻的借贷申请信息输入至一基础网络中，得到第二时刻借贷风险结果；

将所述第二时刻借贷风险结果和所述第二时刻的借贷风险标签输入至第二交叉熵损失函数，得到一损失值，根据所述损失值，对所述基础网络进行更新。

在一些实施例中，所述基础网络的最后一层为Softmax逻辑回归层，用于将数据压缩至(0，1)之间。

第二方面，本发明提供一种借贷风险预测模型的构建系统，所述系统包括：

样本构建模块：用于获取预设的带有时刻分类标签的训练样本集合；所述训练样本集合包括第一时刻的样本数据和第二时刻的样本数据；所述第一时刻的样本数据包括第一时刻的借贷申请信息和第一时刻的借贷风险标签，所述第二时刻的样本数据包括第二时刻的借贷申请信息和第二时刻的借贷风险标签；

基础网络生成模块：用于根据所述第二时刻的样本数据，训练得到一输出为第二时刻借贷风险结果的基础网络；

迁移学习模块：用于利用机器学习方法，根据所述第一时刻的借贷申请信息输入至所述基础网络生成的第一时刻借贷风险结果，以及所述第一时刻的借贷风险标签、所述第二时刻借贷风险结果，对所述基础网络进行微调以完成对所述第一时刻的样本数据的迁移学习，将微调后的基础网络确定为借贷风险预测模型。

在一些实施例中，所述迁移学习模块包括：

分类模块：用于将所述第一时刻的借贷申请信息输入至所述基础网络生成的第一时刻借贷风险结果和所述第一时刻的借贷风险标签输入至第一交叉熵损失函数，得到第一损失值；

回归模块：用于将所述第一时刻借贷风险结果和所述第二时刻借贷风险结果输入至Smooth L1损失函数，得到第二损失值；

训练模块：用于将所述第一损失值和第二损失值进行加权求和生成输出结果，根据所述输出结果，对所述基础网络进行训练以实现所述基础网络的微调，从而完成对所述第一时刻的样本数据的迁移学习。

在一些实施例中，所述基础网络生成模块包括：

构建模块，用于将所述第二时刻的借贷申请信息输入至一基础网络中，得到第二时刻借贷风险结果；

更新模块，用于将所述第二时刻借贷风险结果和所述第二时刻的借贷风险标签输入至第二交叉熵损失函数，得到一损失值，根据所述损失值，对所述基础网络进行更新。

第三方面，本发明提供一种借贷风险预测方法，所述方法包括：

将获取的用户的第一时刻的个人数据至所述借贷风险预测模型中，得到关于用户当前借贷行为的预测结果。

在一些实施例中，所述方法还包括：

当所述预测结果小于预设值时，生成借贷成功的通知；当所述信用预测结果大于预设值时，生成借贷失败的通知。

本发明实施例具有如下有益效果：

本发明提出了一种借贷风险预测模型的构建方法、系统及借贷风险预测方法，利用单个模型解决两阶段信息不一致带来的性能衰减问题，首先，利用第二审批时刻的样本数据训练得到一个基础模型，记录基础模型对于第二审批时刻样本数据的预测结果；随后，将第一审批时刻的样本数据输入至基础模型中，对模型进行微调，完成第一审批时刻的样本数据迁移学习。由于第二审批时刻的样本数据较为丰富，因此得到的基础模型较为准确，并且由于第一审批时刻、第二审批时刻的样本数据差异并不是很大，因此用第一时刻的样本数据对基础模型进行微调，在缩短网络训练的时间的基础上实现多任务目标的学习，从而解决相似的问题，同时使得基础模型的最终预测结果更为准确。

进一步地，本发明通过利用两个阶段的数据建立一个模型，克服了传统技术中分别利用两个阶段的数据建立两个模型进行预测而导致的模型效果评估复杂、模型维护成本过大、模型迭代不方便等问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是一个实施例中一种借贷风险预测模型的构建方法的流程示意图；

图2是一个实施例中第一时刻的借贷申请信息输入至基础网络生成的第一时刻借贷风险结果，以及第一时刻的借贷风险标签、第二时刻借贷风险结果，对基础网络进行微调以完成第一时刻的样本数据的迁移学习步骤的流程示意图；

图3是一个实施例中根据第二时刻的样本数据，训练得到一输出为第二时刻借贷风险结果的基础网络步骤的流程示意图；

图4是一个实施例中一种借贷风险预测模型的构建系统的结构框图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明利用信息较为丰富的第二审批时刻的样本数据构建一个较为准确的基础模型，并将第一审批时刻的样本数据输入至构建的基础模型中以完成对第一审批时刻样本数据的迁移学习，实现对基础模型的微调；由于两个时刻的样本数据差异不大，因此可以在缩短网络训练的时间的基础上实现多任务学习，从而解决相似的问题，使得基础模型的最终预测结果更为准确。

如图1所示，一种借贷风险预测模型的构建方法，包括如下步骤：

S101、获取预设的带有时刻分类标签的训练样本集合；训练样本集合包括第一时刻的样本数据和第二时刻的样本数据；第一时刻的样本数据包括第一时刻的借贷申请信息和第一时刻的借贷风险标签，第二时刻的样本数据包括第二时刻的借贷申请信息和第二时刻的借贷风险标签。

其中，第一时刻为信用额度评估时刻，第二时刻为借款审批时刻。

借贷申请信息包括：用户个人信息、借款信息。

用户个人信息包括但不限于：工作区域、工作行业、公司规模、工作年限、收入、房车产信息；

借款信息包括但不限于：借款金额、借款利率、借款期限、本次借款距上次借款的间隔时间、借款用途、历史借款次数、逾期次数、在其他平台的借款次数、借款金额、逾期次数等。

本方案中，第一时刻的借贷风险标签和第二时刻的借贷风险标签相同，都用于对用户的信用进行评价。在借款过程中，用户是否逾期还款、是否存在违约情况是判断用户信用是否良好的重要指标，因此，在本实施例中，选择用户是否逾期还款作为第一时刻和第二时刻的借贷风险标签。

将借贷风险标签用符号y_i表示，y_i＝0表示用户会逾期还款，y_i＝1表示用户不会逾期还款。

S102、根据第二时刻的样本数据，训练得到一输出为第二时刻借贷风险结果的基础网络。

其中，基础网络为深度神经网络。基础网络用于预测得到用户在第二时刻的借贷风险结果p_i，p_i＝0表示用户会逾期还款，p_i＝1表示用户不会逾期还款。由于第二时刻为借款审批时刻，此时用户的信息与第一时刻相比可能会发生改变，由此，第二时刻用户的信息更加丰富。通过一个较为丰富的时刻的样本数据来构建基础网络，使得该基础网络的预测结果较为准确，有利于节省后期网络的训练时间。

S103、利用机器学习方法，根据第一时刻的借贷申请信息输入至基础网络生成的第一时刻借贷风险结果，以及第一时刻的借贷风险标签、第二时刻借贷风险结果，对基础网络进行微调以完成对第一时刻的样本数据的迁移学习，将微调后的基础网络确定为借贷风险预测模型。

具体的，将第一时刻的样本数据用(x′_i,y_i)表示，其中，x′_i为第一时刻的借贷申请信息，y_i为第一时刻的借贷风险标签；将第二时刻的样本数据用(x_i,y_i)表示，其中，x_i为第二时刻的借贷申请信息，y_i为第二时刻的借贷风险标签。

其中，基础网络接收第一时刻的借贷申请信息x′_i之后，预测得到第一时刻借贷风险结果p′_i。p′_i＝0表示用户会逾期还款，p′_i＝1表示用户不会逾期还款，根据第一时刻借贷风险结果p′_i、第一时刻的借贷风险标签y_i、第二时刻借贷风险结果p_i对基础网络进行训练，从而实现基础网络的微调。

本发明中，首先通过一个较为丰富的时刻的样本数据来构建基础网络，使得该基础网络的预测结果较为准确，有利于节省后期网络的训练时间。由于第一时刻、第二时刻样本数据差异并不是很大，因此，通过使用第二时刻的样本数据建立的基础网络作为下一阶段的基础网络，在具体使用时只需对基础网络进行微调即可，而无需使用大量的样本数据重新训练，从而可以为较为相似的样本数据解决相似的问题提供解决途径，实现多任务目标的学习。

在其中一个实施例中，如图2所示，根据第一时刻的借贷申请信息输入至基础网络生成的第一时刻借贷风险结果，以及第一时刻的借贷风险标签、第二时刻借贷风险结果，对基础网络进行微调以完成第一时刻的样本数据的迁移学习可以包括如下步骤：

S201、将第一时刻的借贷申请信息输入至基础网络生成的第一时刻借贷风险结果和第一时刻的借贷风险标签输入至第一交叉熵损失函数，得到第一损失值。

在对基础网络进行训练时，如果预测值与实际值的误差越大，那么在反向传播训练的过程中，各种参数调整的幅度就要更大，从而使训练更快收敛。如果使用二次代价函数进行训练，当误差越大时，参数调整的幅度更小，训练缓慢。因此，本实施例中，选用交叉熵损失函数作为代价函数，可以加快基础网络的训练速度。

具体的，该步骤为：

将第一时刻的借贷申请信息x′_i输入至基础网络中，基础网络预测得到第一时刻借贷风险结果p′_i，第一时刻借贷风险结果p′_i和第一时刻的借贷风险标签y_i输入至第一交叉熵损失函数中，得到第一损失值L₁。

第一交叉熵损失函数为：

其中，L₁为损失值，x′_i为样本，即第一时刻的借贷申请信息，y_i表示第一时刻的借贷风险标签，p′_i表示第一时刻借贷风险结果，i表示样本总数。

S202、将第一时刻借贷风险结果和第二时刻借贷风险结果输入至Smooth L1损失函数，得到第二损失值。

将基础网络生成的第一时刻借贷风险结果p′_i和第二时刻借贷风险结果p_i输入至Smooth L1损失函数中，得到得到第二损失值，从而对预测结果进行归一化。

在深度神经网络中，误差的梯度可在更新中累积相乘。如果网络层之间的梯度值大于1.0，那么重复相乘会导致梯度呈指数级增长，梯度变的非常大，导致网络权重的大幅更新，因此使网络变得不稳定。梯度爆炸会伴随一些细微的信号，如：使得模型不稳定，导致更新过程中的损失出现显著变化；或者训练过程中，在极端情况下，权重的值变得非常大，以至于溢出，导致模型损失变成NaN等等。

因此为了反向传播过程中出现梯度爆炸问题，选择Smooth L1损失函数进行归一化处理。Smooth L1损失函数表达方式如下：

其中，x＝p_i-p′_i，即第二时刻借贷风险结果p_i和第一时刻借贷风险结果p′_i的差值。

通过上式可以看出：

①当|p_i-p′_i|<1时，即预测值和目标值相差小于1，不易造成梯度爆炸，此时还原成均方误差损失形式并给一个0.5的平滑系数，即||p_i-p′_i||²；

②当|p_i-p′_i|≥1时，即预测值和目标值相差大于等于1，易造成梯度爆炸，此时降低损失次幂数，变成|p_i-p′_i|-0.5，这时候反向传播求导时候就不存在p_i-p′_i这一项了，从而防止了梯度爆炸。

S203、将第一损失值和第二损失值进行加权求和生成输出结果，根据输出结果，对基础网络进行训练以实现基础网络的微调，从而完成对第一时刻的样本数据的迁移学习。

其中，输出结果为L，L＝L₁+aSmooth L₁(x)；a为加权系数，L₁为第一损失值，SmoothL₁(x)为第二损失值。将输出结果L反向传播到基础网络中，使得基础网络进行微调。

在其中一个实施例中，如图3所示，根据第二时刻的样本数据，训练得到一输出为第二时刻借贷风险结果的基础网络可以包括如下步骤：

S301、将第二时刻的借贷申请信息输入至一基础网络中，得到第二时刻借贷风险结果。

具体的，该步骤包括：

S3011、构建一基础网络，确定基础网络的代价函数。

其中，代价函数为交叉熵代价函数。代价函数用来衡量基础网络的预测值与实际值的差值，从而对基础网络进行参数修正。

S3012、将第二时刻的借贷申请信息输入至基础网络中，得到第二时刻借贷风险结果。

具体的，将第二时刻的借贷申请信息x_i输入到基础网络中，得到第二时刻借贷风险结果p_i。

S302、将第二时刻借贷风险结果和第二时刻的借贷风险标签输入至第二交叉熵损失函数，得到一损失值，根据损失值，对基础网络进行更新。

具体的，将第二时刻借贷风险结果p_i和第二时刻的借贷风险标签y_i输入到第二交叉熵损失函数中，得到一损失值，根据损失值，对基础网络进行更新。

其中，在更新时，选择梯度下降法作为更新算法，根据损失值、利用梯度下降法对基础网络中的每个参数进行更新。

第二交叉熵损失函数为：

其中，L₂为损失值，x_i为样本，即第二时刻的借贷申请信息，y_i表示第二时刻的借贷风险标签，p_i表示第二时刻借贷风险结果，i表示样本总数。

在其中一个实施例中，上述基础网络的最后一层为Softmax逻辑回归层，用于将数据压缩至(0，1)之间。

Softmax逻辑回归层被添加在基础网络的输出层，对输出的值归一化为概率值，从而为后续网络优化过程提供度量。

Softmax函数接收一个N维向量作为输入，然后把每一维的值转换成(0，1)之间的一个实数，它的公式如下面所示：

其中，V_i是分类器前级输出单元的输出；i表示类别索引，总的类别个数为C。S_i表示的是当前元素的指数与所有元素指数和的比值。Softmax可以实现将全连接层的输出映射成一个概率的分布。

在一些实施例中，如图4所示，提供一种借贷风险预测模型的构建系统，系统包括：

样本构建模块41：用于获取预设的带有时刻分类标签的训练样本集合；训练样本集合包括第一时刻的样本数据和第二时刻的样本数据；第一时刻的样本数据包括第一时刻的借贷申请信息和第一时刻的借贷风险标签，第二时刻的样本数据包括第二时刻的借贷申请信息和第二时刻的借贷风险标签；

基础网络生成模块42：用于根据第二时刻的样本数据，训练得到一输出为第二时刻借贷风险结果的基础网络；

迁移学习模块43：用于利用机器学习方法，根据第一时刻的借贷申请信息输入至基础网络生成的第一时刻借贷风险结果，以及第一时刻的借贷风险标签、第二时刻借贷风险结果，对基础网络进行微调以完成对第一时刻的样本数据的迁移学习，将微调后的基础网络确定为借贷风险预测模型。

在其中一个实施例中，上述迁移学习模块43包括：

分类模块431：用于将第一时刻的借贷申请信息输入至基础网络生成的第一时刻借贷风险结果和第一时刻的借贷风险标签输入至第一交叉熵损失函数，得到第一损失值；

回归模块432：用于将第一时刻借贷风险结果和第二时刻借贷风险结果输入至Smooth L1损失函数，得到第二损失值；

训练模块433：用于将第一损失值和第二损失值进行加权求和生成输出结果，根据所述输出结果，对基础网络进行训练以实现基础网络的微调，从而完成对第一时刻的样本数据的迁移学习。

在其中一个实施例中，上述基础网络生成模块42包括：

构建模块421，用于将第二时刻的借贷申请信息输入至一基础网络中，得到第二时刻借贷风险结果；

更新模块422，用于将第二时刻借贷风险结果和第二时刻的借贷风险标签输入至第二交叉熵损失函数，得到一损失值，根据损失值，对基础网络进行更新。

在一些实施例中，提供一种借贷风险预测方法，方法包括：

S501、将获取的用户的第一时刻的个人数据输入至借贷风险预测模型中，得到关于用户当前借贷行为的预测结果。

其中，用户的个人数据包括：用户个人信息、借款信息。

在其中一个实施例中，上述借贷风险预测方法还包括：

S601、当预测结果小于预设值时，生成借贷成功的通知；当信用预测结果大于预设值时，生成借贷失败的通知。

本实施例中，将预设值设置为0.5，当信用预测结果小于0.5时，生成借贷成功的通知；当信用预测结果大于0.5时，生成借贷失败的通知。

应该理解的是，虽然图1-3的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-3中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

尽管已描述了本发明实施例中的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明实施例中范围的所有变更和修改。另外，上述实施例提供的借贷风险预测模型的构建系统、借贷风险预测方法与借贷风险预测模型的构建方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种借贷风险预测模型的构建方法，其特征在于，所述方法包括：

获取预设的带有时刻分类标签的训练样本集合；所述训练样本集合包括第一时刻的样本数据和第二时刻的样本数据；所述第一时刻的样本数据包括第一时刻的借贷申请信息和第一时刻的借贷风险标签，所述第二时刻的样本数据包括第二时刻的借贷申请信息和第二时刻的借贷风险标签；

2.根据权利要求1所述的方法，其特征在于，根据所述第一时刻的借贷申请信息输入至所述基础网络生成的第一时刻借贷风险结果，以及所述第一时刻的借贷风险标签、所述第二时刻借贷风险结果，对所述基础网络进行微调以完成所述第一时刻的样本数据的迁移学习具体包括：

3.根据权利要求1所述的方法，其特征在于，根据所述第二时刻的样本数据，训练得到一输出为第二时刻借贷风险结果的基础网络具体包括：

4.根据权利要求1～3任意一项所述的方法，其特征在于，所述基础网络的最后一层为Softmax逻辑回归层，用于将数据压缩至(0，1)之间。

5.一种借贷风险预测模型的构建系统，其特征在于，所述系统包括：

6.根据权利要求5所述的系统，其特征在于，所述迁移学习模块包括：

7.根据权利要求5所述的系统，其特征在于，所述基础网络生成模块包括：

8.根据权利要求5～7任意一项所述的系统，其特征在于，所述基础网络的最后一层为Softmax逻辑回归层，用于将数据压缩至(0，1)之间。

9.一种基于权利要求1～4任意一项所述的借贷风险预测模型的构建方法的借贷风险预测方法，其特征在于，所述方法包括：

10.一种基于权利要求9所述的方法，其特征在于，所述方法还包括：