CN111179070A - 一种基于lstm的借贷风险时效性预测系统及方法 - Google Patents

一种基于lstm的借贷风险时效性预测系统及方法 Download PDF

Info

Publication number
CN111179070A
CN111179070A CN202010098187.9A CN202010098187A CN111179070A CN 111179070 A CN111179070 A CN 111179070A CN 202010098187 A CN202010098187 A CN 202010098187A CN 111179070 A CN111179070 A CN 111179070A
Authority
CN
China
Prior art keywords
user
lstm
long
module
gbdt
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010098187.9A
Other languages
English (en)
Inventor
王庆先
杨晗
章淳
刘鑫宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202010098187.9A priority Critical patent/CN111179070A/zh
Publication of CN111179070A publication Critical patent/CN111179070A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明提供了一种基于LSTM的借贷风险时效性预测系统,包括依次连接的服务器存储模块、长短记忆LSTM模块、强学习器GBDT训练模块、参数存储模块以及服务器选择模块。基于上述系统,本发明还公开了一种基于LSTM的借贷风险时效性预测方法。本发明通过结合用户时效性数据,对借贷用户的个人固定资产、身份信息和行为特点进行统计分析,使用LSTM以及GBDT进行回归预测,以确定在符合用户个人属性及行为特征的基础上,能够根据用户的个人信息以及行为历史进行分析,对再次借款时可能发生风险的几率进行预测,从而提供给金融机构推荐此次借贷交易的结果,降低借贷风险。

Description

一种基于LSTM的借贷风险时效性预测系统及方法
技术领域
本发明涉及计算机数据处理技术领域,尤其涉及一种基于LSTM的借贷风险时效性预测系统及方法。
背景技术
随着电子商务给大家带来足不出户的便利,手机支付也成为了主流的付款平台。与此同时,各大借贷平台和手机支付一起成为人们常用的付款方式,例如连同支付平台捆绑的借款组件,专门的app以及信用卡等。然而对于金融机构来说,在放款赚取利息的同时,也不可避免会发生用户不能在规定的时间内还清欠款,产生较高的循环利息而引发各种财务纠纷的事件,因此借款用户能否在规定时间内还清贷款,以及该给用户设定多少借款额度成为至关重要的问题。
在借贷平台运营过程中,基于借款用户个人信息以及历史行为的已知数据,了解和分析用户借款还款的行为周期规律,在此基础上建立起有效的借贷用户画像模型,可以较好地建立用户进行贷款的仿真环境来模拟真实环境,从而为金融机构的借贷平台在运营过程中的信息组织和营销策略的制订提供重要的依据。
关于借贷风险预测方法,已经有了很多的相关工作,但是,现有的方法都基于构造一个静态的用户画像模型,该模型需要基于静态的用户画像特征工程的方法进行构建,即:(1)该画像方法所对应的用户属性是固定的;(2)该平台对应的用户借款总额度是固定的;而真实情况很难做到用户的属性一成不变,或是用户的社交信息不发生变化,这样就大大降低了借贷风险的管控力度。由此引起的问题有:(1)用户的职业或是固定资产发生变化或是社交圈产生变化会对个人财务引起较大影响,无法及时反映由此类影响对用户造成还款行为的变化。(2)用户由于不确定因素提前还款、未及时还款或是不能全额还款,虽然现有的方法考虑进这方面因素,但也仅仅使用特征工程对其进行固定的分析,没有考虑时间因素,对借贷风险预测的准确性偏低。
发明内容
针对现有技术中的上述不足,本发明提供的一种基于LSTM的借贷风险时效性预测系统及方法,能够根据用户的个人信息、社交网络以及行为历史进行分析,对再次借款时可能发生风险的几率进行预测,从而提供给金融机构推荐此次借贷交易的结果,降低借贷风险。
为了达到以上目的,本发明采用的技术方案为:
本方案提供一种基于LSTM的借贷风险时效性预测系统,包括依次连接的服务器存储模块、长短记忆LSTM模块、强学习器GBDT训练模块、参数存储模块以及服务器选择模块;
所述服务器存储模块,用于存储具有时效性的用户个人信息和历史数据;
所述长短记忆LSTM模块,用于根据所述服务器存储模块中用户的历史数据,利用LSTM神经网络获取用户的周期性特征向量;
所述强学习GBDT训练模块,用于将用户的个人信息和周期性特征向量组成样本,并根据所述样本利用GBDT算法计算得到强学习器的拟合函数;
所述参数存储模块,用于存储所述长短记忆LSTM模块和强学习器GBDT训练模块的模型参数;
所述服务器选择模块,用于利用所述强学习器GBDT训练模块得到的拟合函数预测用户的借贷风险。
进一步地,所述长短记忆LSTM模块包括若干个长短记忆LSTM单元;每个所述长短记忆LSTM单元包括:
遗忘门,用于控制是否遗忘上一层长短记忆LSTM单元的隐藏细胞状态;
输入门,用于处理当前序列位置的输入;
输出门,用于更新细胞状态,得到当前长短记忆LSTM单元的输出结果。
基于上述系统,本发明还公开了一种基于LSTM的借贷风险时效性预测方法,包括以下步骤:
S1、接收服务器发送的风险预测分析指令;
S2、将具有时效性的用户个人信息和历史数据分别作为长短期记忆LSTM模块和强学习GBDT训练模块的输入,并初始化参数,并将初始化后的参数传输至上述两个模块中;
S3、根据所述用户的历史数据,利用LSTM神经网络获取用户的周期性特征向量;
S4、将所述用户的个人信息和周期性特征向量组成样本,并根据所述样本利用GBDT算法计算得到强学习器的拟合函数,并根据所述拟合函数预测用户的借贷风险;
S5、存储所述长短记忆LSTM模块和强学习器GBDT训练模块的模型参数,并将所述借贷风险预测结果反馈至用户,完成对借贷风险的预测。
进一步地,所述步骤S3包括以下步骤:
S301、初始化长短期记忆LSTM模块中的参数;
S302、根据所述用户的历史数据构建交叉熵损失函数;
S303、判断迭代控制变量是否大于提取迭代上限T1,若是,则进入步骤S305,否则进入步骤S304;
S304、根据判断所述交叉熵损失函数是否小于收敛判定阈值,若是,则进入步骤S305,否则,返回步骤S303,直至所述交叉熵损失函数值小于收敛判定阈值或大于迭代上限T1;
S305、根据用户的历史数据,计算得到本轮长短记忆LSTM单元的权重矩阵,并根据所述权重矩阵计算得到用户的周期性特征向量。
再进一步地,所述步骤S305包括以下步骤:
S3051、根据用户的历史数据,利用遗忘门选择性遗忘前一个长短记忆LSTM单元的输出值,并将剩余的信息传入当前长短记忆LSTM单元,所述剩余信息ft的表达式如下:
ft=σ(Wf·[ht-1,xt]+bf)=σg(Wfxt+Ufht-1+bf)
其中,σ(·)为sigmoid函数,Wf和Uf分别为对应t时刻输入xt以及t-1时刻输出ht-1的权重矩阵,bf为偏置,xt为传入长短记忆LSTM模块的数据,ht-1为长短记忆LSTM单元的输出向量;
S3052、根据当前长短记忆LSTM单元接收的信息,确定保存在细胞状态中的新信息;
S3053、根据所述细胞状态中的新信息,计算得到长短记忆LSTM单元的输出值,并根据所述输出值获取用户的周期性特征向量。
再进一步地,所述步骤S3053中长短记忆LSTM单元输出值ht的表达式为:
ht=ot*tanh(Ct)
Figure BDA0002385932970000041
Figure BDA0002385932970000042
ot=σ(Wo[ht-1,xt]+bo)=σ(Woxt+Uoht-1+bo)
其中,ot为输出门的激活向量,σ(·)为sigmoid函数,bo、bC均为偏置,Ct为细胞状态向量,tanh(·)为正切函数,xt为传入长短记忆LSTM模块的数据,ht-1为长短记忆LSTM单元的输出向量,ft为遗忘门的激活向量,Ct-1为旧的细胞状态,it为输入门的激活向量,
Figure BDA0002385932970000051
为输入门网络层创建的新的备选值向量,WC和Wo均为对应t时刻输入xt的权重矩阵,UC和Uo均为对应t-1时刻输出ht-1的权重矩阵。
再进一步地,所述步骤S4包括以下步骤:
S401、初始化强学习器GBDT训练模块中的参数,并构建目标损失函数;
S402、判断迭代控制变量是否大于提取迭代上限T2,若是,则进入步骤S404,否则,进入步骤S403;
S403、判断所述目标损失函数值是否小于收敛判定阈值,若是,则进入步骤S404,否则,返回步骤S402,继续迭代,直至目标损失函数值小于收敛判定阈值或大于迭代上限T2;
S404、根据所述用户个人信息以及用户的周期性特征向量,利用强学习器GBDT计算得到所述强学习器GBDT训练模块的拟合函数,并根据所述拟合函数预测用户的借贷风险。
再进一步地,所述步骤S404包括以下步骤:
S4041、将用户的个人信息和周期性特征向量组成样本;
S4042、利用所述样本的负梯度拟合CART回归树,并通过叶子结点的拟合值更新强学习器GBDT的回归方程;
S4043、根据更新后的强学习器GBDT回归方程得到强学习器GBDT训练模块的拟合函数,并根据所述拟合函数预测用户的借贷风险。
再进一步地,所述步骤S4042中更新强学习器的回归方程GBDT ft′(x)的迭代表达式如下:
Figure BDA0002385932970000052
其中,f′t-1(x)为前一轮迭代得到的强学习器GBDT,j为回归树种叶子节点的个数,j=1,2,...,J,I(·)为指示函数,ctj为学习器和样本之间的拟合值,Rtj为叶子结点区域。
再进一步地,所述步骤S4043中强学习器GBDT训练模块的拟合函数f′(x)的表达式如下:
Figure BDA0002385932970000061
Figure BDA0002385932970000062
其中,fT(x)为强学习器GBDT在经过T轮迭代后的输出值,f0(x)为初始化的弱学习器
Figure BDA0002385932970000063
J为回归树种叶子节点的总数,ctj为学习器和样本之间的拟合值,Rtj为叶子结点区域,c为残差,L(·)为目标损失函数,yi为第i个样本标签,f′t-1(xi)为上一轮样本的预测值。
本发明的有益效果:
本发明通过结合用户时效性数据,提出一种基于LSTM的借贷风险时效性预测系统及方法,其专门作用于对用户贷款的风险预估,进而为提供推荐此次借贷交易的指数。本发明对借贷用户的个人固定资产及身份信息和行为特点进行统计分析,使用LSTM以及GBDT进行回归预测,以确定在符合用户个人属性及行为特征的基础上,建立借贷风险预测评估模型,本发明能够根据用户个人属性及行为特征进行计算代价中等,预测准确度高的风险预测,对再次借款时可能发生风险的几率进行预测,从而提供给金融机构推荐此次借贷交易的结果,降低借贷风险。
附图说明
图1为本发明的系统结构图。
图2为本发明的方法流程图。
图3为本实施例中遗忘门将剩余的信息传入当前长短记忆LSTM单元的示意图。
图4为本实施例中输入门层的网络层更新信息的示意图。
图5为本实施例中将旧的细胞状态Ct-1更新到新的细胞状态Ct的示意图。
图6为本实施例中长短记忆LSTM模块最终结果输出的示意图。
具体实施方式
下面对本发明的具体实施方式进行描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。
实施例
本发明提供了一种基于LSTM的借贷风险时效性预测系统及方法,其专门作用于对用户贷款的风险预估,进而为提供推荐此次借贷交易的指数。如图1所示,基于LSTM的借贷风险时效性预测系统包括依次连接的服务器存储模块、长短记忆LSTM模块、强学习器GBDT训练模块、参数存储模块以及服务器选择模块;
服务器存储模块,用于存储具有时效性的用户个人信息和历史数据;
长短记忆LSTM模块,用于根据服务器存储模块中用户的历史数据,利用LSTM神经网络获取用户的周期性特征向量;长短记忆LSTM模块包括若干个长短记忆LSTM单元;每个所述长短记忆LSTM单元包括:
遗忘门,用于控制是否遗忘上一层长短记忆LSTM单元的隐藏细胞状态;
输入门,用于处理当前序列位置的输入;
输出门,用于更新细胞状态,得到当前长短记忆LSTM单元的输出结果;
强学习GBDT训练模块,用于将用户的个人信息和周期性特征向量组成样本,并根据样本利用GBDT算法计算得到强学习器的拟合函数;
参数存储模块,用于存储长短记忆LSTM模块和强学习器GBDT训练模块的模型参数;
服务器选择模块,用于利用所述强学习器GBDT训练模块得到的拟合函数预测用户的借贷风险。
如图2所示,基于上述系统,本发明还提供了一种基于LSTM的借贷风险时效性预测方法,包括以下步骤:
S1、接收服务器发送的风险预测分析指令;
S2、将具有时效性的用户个人信息和历史数据分别作为长短期记忆LSTM模块和强学习GBDT训练模块的输入,并初始化参数,并将初始化后的参数传输至上述两个模块中;
S3、根据用户的历史数据,利用LSTM神经网络获取用户的周期性特征向量,其实现方法如下:
S301、初始化长短期记忆LSTM模块中的参数;
本实施例中,初始化借贷风险预测过程中涉及的相关参数,其中从用户提交的个人信息以及日常行为检测中获取的数据集为D,其形式为特征向量及其标签;提取需要传入长短记忆模块的数据
Figure BDA0002385932970000081
长短记忆LSTM单元中遗忘门的激活向量
Figure BDA0002385932970000082
输入门的激活向量
Figure BDA0002385932970000083
输出门的激活向量
Figure BDA0002385932970000084
长短记忆LSTM单元的输出向量
Figure BDA0002385932970000085
细胞状态向量
Figure BDA0002385932970000086
长短记忆LSTM单元中的权重矩阵和偏置参数
Figure BDA0002385932970000087
t为LSTM在t时刻的状态。
S302、根据用户的历史数据构建交叉熵损失函数;
S303、判断迭代控制变量是否大于提取迭代上限T1,若是,则进入步骤S305,否则进入步骤S304;
本实施例中,对迭代控制变量累加1,然后判断迭代控制变量是否大于提取迭代上限T。
S304、根据判断交叉熵损失函数是否小于收敛判定阈值,若是,则进入步骤S305,否则,返回步骤S303,直至交叉熵损失函数值小于收敛判定阈值或大于迭代上限T1;
本实施例中,系统判断目标损失函数交叉熵损失函数的依据为:本轮迭代开始前交叉熵损失函数L的数值与上轮迭代开始前差的绝对值是否小于收敛判定阈值;如果小于,则判定为已收敛,反之,则判定为未收敛。
S305、根据用户的历史数据,计算得到本轮长短记忆LSTM单元的权重,并根据权重得到用户的周期性特征向量,其实现方法为:
S3051、根据用户的历史数据,利用遗忘门选择性遗忘前一个长短记忆LSTM单元的输出值,并将剩余的信息传入当前长短记忆LSTM单元;
S3052、根据当前长短记忆LSTM单元接收的信息,确定保存在细胞状态中的新信息;
S3053、根据细胞状态中的新信息,计算得到长短记忆LSTM单元的输出值,并根据输出值获取用户的周期性特征向量;
本实施例中,在长短记忆LSTM模块中,对于单个长短记忆LSTM单元来说,xt是维度为d的向量,包含借贷用户在t状态下的属性序列。如图3所示,遗忘门中需要选择性遗忘前一个LSTM单元的输出值将剩余的信息传入当前单元:
ft=σ(Wf·[ht-1,xt]+bf)=σg(Wfxt+Ufht-1+bf)
其中,σ(·)为sigmoid函数,Wf和Uf分别为对应t时刻输入xt以及t-1时刻输出ht-1的权重矩阵,bf为偏置,xt为传入长短记忆LSTM模块的数据,ht-1为长短记忆LSTM单元的输出向量。
下一步就是要确定需要在细胞状态中保存哪些新信息。这里分成两部分。如图4所示,第一部分,一个输入门层的网络层确定哪些信息需要更新:
it=σ(Wi·[ht-1,xt]+bi)=σg(Wixt+Uiht-1+bi)
其中,Wi和Ui为对应t时刻输入xt以及t-1时刻输出ht-1的权重矩阵,σ()为sigmoid函数,bi为偏置。
第二部分,一个网络层创建一个新的备选值向量
Figure BDA0002385932970000101
可以用来添加到细胞状态:
Figure BDA0002385932970000102
其中,WC为对应t时刻输入xt以及t-1时刻输出ht-1的权重矩阵,bC为偏置。
如图5所示,现在更新旧的细胞状态Ct-1更新到Ct,对旧的状态乘以ft,用来忘记需要忘记的信息,然后加上
Figure BDA0002385932970000103
这是新的候选值,根据对每个状态决定的更新值按比例进行缩放:
Figure BDA0002385932970000104
如图6所示,确定输出值,输出依赖于细胞状态,首先需要确定细胞状态中的哪些部分可以输出:
ot=σ(Wo[ht-1,xt]+bo)=σ(Woxt+Uoht-1+bo)
然后把细胞状态输入tanh(把数值调整到-1和1之间),再和输出值相乘,输出该长短记忆LSTM单元最终的输出:
ht=ot*tanh(Ct)
经过若干个LSTM单元之后得出该模块下的最终输出结果。其中,Wo和Uo为对应t时刻输入xt以及t-1时刻输出ht-1的权重矩阵,σ(·)为sigmoid函数,bo为偏置。
S4、将用户的个人信息和周期性特征向量组成样本,并根据样本利用GBDT算法计算得到强学习器的拟合函数,并根据拟合函数预测用户的借贷风险,其实现方法如下:
S401、初始化强学习器GBDT训练模块中的参数,并构建目标损失函:L(y,f(x))=(y-f(x))2
本实施例中,初始化借贷风险预测过程中涉及的相关参数,组成需要传入强学习器GBDT训练模块的数据T={(x′1,y1),(x′2,y2),...,(x′m,ym)},最大迭代次数T,即经过多少次梯度提升得到最后的强学习器损失函数L。输出强学习器f′(x),初始弱学习器f0′(x),迭代第t步中的学习器为ft′(x),第t轮迭代中第i个样本的损失函数对自变量的负梯度rti,学习器和样本标签之间的拟合值ctj,指示函数I(·),·为真值为1,反之则为0。
S402、判断迭代控制变量是否大于提取迭代上限T2,若是,则进入步骤S404,否则,进入步骤S403;
本实施例中,对迭代控制变量累加1,然后判断迭代控制变量是否大于提取迭代上限T。
S403、判断所述目标损失函数值是否小于收敛判定阈值,若是,则进入步骤S404,否则,返回步骤S402,继续迭代,直至目标损失函数值小于收敛判定阈值或大于迭代上限T2;
本实施例中,系统判断目标损失函数收敛的依据为:本轮迭代开始前目标损失函数L的数值与上轮迭代开始前差的绝对值是否小于收敛判定阈值;如果小于,则判定为已收敛,反之,则判定为未收敛。
S404、根据用户个人信息以及用户的周期性特征向量,利用强学习器GBDT计算得到强学习器GBDT训练模块的拟合函数,并根据拟合函数预测用户的借贷风险,其实现方法如下:
S4041、将用户个人信息和用户的周期性特征向量组成样本;
本实施例中,LSTM输出的h维向量加在初始数据及拆分出的用户固定信息之后组成传输到强学习器GBDT训练模块中的样本。
S4042、利用样本的负梯度拟合CART回归树,并通过叶子结点的拟合值更新强学习器GBDT的回归方程;
S4043、根据更新后的强学习器GBDT回归方程得到强学习器GBDT训练模块的拟合函数,并根据拟合函数预测用户的借贷风险。
本实施例中,在强学习器GBDT训练模块的迭代中,首先将上一模块得到的输出分别添加在该模块需要的属性样本之后。假设我们前一轮迭代得到的强学习器是f′t-1(x),损失函数是L=(y,f′t-1(x)),本轮迭代的目标是找到一个CART回归树模型的弱学习器ht′(x),让本轮的目标损失函数L(y,ft′(x))=L(y,f′t-1(x)+ht′(x))最小。也就是说,本轮迭代找到s决策树,要让样本的损失尽量变得更小。对于训练样本:
T={(x′1,y1),(x′2,y2),…,(x′m,ym)}
初始化弱学习器:
Figure BDA0002385932970000121
对迭代轮数t=1,2,…,T,对样本i=1,2,…,m计算负梯度(用来拟合本轮损失的近似值):
Figure BDA0002385932970000122
利用(xi,rti)(i=1,2,…,m)拟合一颗CART回归树(第t棵回归树),对应的叶子结点区域为Rtj,j=(1,2,...,J),J为回归树种叶子节点的个数。对每个叶子区域计算最佳拟合值:
Figure BDA0002385932970000131
更新强学习器:
Figure BDA0002385932970000132
得到最终强学习器表达式为:
Figure BDA0002385932970000133
在强学习器GBDT训练模块上重复上面的迭代过程,直至目标损失函数在样本上收敛,获得最终的目标输出值f′(x),作为最终的借贷风险预测结果。
S5、存储长短记忆LSTM模块和强学习器GBDT训练模块的模型参数,并将借贷风险预测结果反馈至用户,完成对借贷风险的预测。
本发明通过以上设计,能够根据用户的个人信息以及行为历史进行分析,对再次借款时可能发生风险的几率进行预测,从而提供给金融机构推荐此次借贷交易的结果,降低借贷风险。

Claims (10)

1.一种基于LSTM的借贷风险时效性预测系统,其特征在于,包括依次连接的服务器存储模块、长短记忆LSTM模块、强学习器GBDT训练模块、参数存储模块以及服务器选择模块;
所述服务器存储模块,用于存储具有时效性的用户个人信息和历史数据;
所述长短记忆LSTM模块,用于根据所述服务器存储模块中用户的历史数据,利用LSTM神经网络获取用户的周期性特征向量;
所述强学习GBDT训练模块,用于将用户的个人信息和周期性特征向量组成样本,并根据所述样本利用GBDT算法计算得到强学习器的拟合函数;
所述参数存储模块,用于存储所述长短记忆LSTM模块和强学习器GBDT训练模块的模型参数;
所述服务器选择模块,用于利用所述强学习器GBDT训练模块得到的拟合函数预测用户的借贷风险。
2.根据权利要求1所述的基于LSTM的借贷风险时效性预测系统,其特征在于,所述长短记忆LSTM模块包括若干个长短记忆LSTM单元;每个所述长短记忆LSTM单元包括:
遗忘门,用于控制是否遗忘上一层长短记忆LSTM单元的隐藏细胞状态;
输入门,用于处理当前序列位置的输入;
输出门,用于更新细胞状态,得到当前长短记忆LSTM单元的输出结果。
3.一种基于LSTM的借贷风险时效性预测方法,其特征在于,包括以下步骤:
S1、接收服务器发送的风险预测分析指令;
S2、将具有时效性的用户个人信息和历史数据分别作为长短期记忆LSTM模块和强学习GBDT训练模块的输入,并初始化参数,并将初始化后的参数传输至上述两个模块中;
S3、根据所述用户的历史数据,利用LSTM神经网络获取用户的周期性特征向量;
S4、将所述用户的个人信息和周期性特征向量组成样本,并根据所述样本利用GBDT算法计算得到强学习器的拟合函数,并根据所述拟合函数预测用户的借贷风险;
S5、存储所述长短记忆LSTM模块和强学习器GBDT训练模块的模型参数,并将所述借贷风险预测结果反馈至用户,完成对借贷风险的预测。
4.根据权利要求3所述的基于LSTM的借贷风险时效性预测方法,其特征在于,所述步骤S3包括以下步骤:
S301、初始化长短期记忆LSTM模块中的参数;
S302、根据所述用户的历史数据构建交叉熵损失函数;
S303、判断迭代控制变量是否大于提取迭代上限T1,若是,则进入步骤S305,否则进入步骤S304;
S304、根据判断所述交叉熵损失函数值是否小于收敛判定阈值,若是,则进入步骤S305,否则,返回步骤S303,直至所述交叉熵损失函数值小于收敛判定阈值或大于迭代上限T1;
S305、根据用户的历史数据,计算得到本轮长短记忆LSTM单元的权重矩阵,并根据所述权重矩阵计算得到用户的周期性特征向量。
5.根据权利要求4所述的基于LSTM的借贷风险时效性预测方法,其特征在于,所述步骤S305包括以下步骤:
S3051、根据用户的历史数据,利用遗忘门选择性遗忘前一个长短记忆LSTM单元的输出值,并将剩余的信息传入当前长短记忆LSTM单元,所述剩余信息ft的表达式如下:
ft=σ(Wf·[ht-1,xt]+bf)=σg(Wfxt+Ufht-1+bf)
其中,σ(·)为sigmoid函数,Wf和Uf分别为对应t时刻输入xt以及t-1时刻输出ht-1的权重矩阵,bf为偏置,xt为传入长短记忆LSTM模块的数据,ht-1为长短记忆LSTM单元的输出向量;
S3052、根据当前长短记忆LSTM单元接收的信息,确定保存在细胞状态中的新信息;
S3053、根据所述细胞状态中的新信息,计算得到长短记忆LSTM单元的输出值,并根据所述输出值获取用户的周期性特征向量。
6.根据权利要求5所述的基于LSTM的借贷风险时效性预测方法,其特征在于,所述步骤S3053中长短记忆LSTM单元输出值ht的表达式为:
ht=ot*tanh(Ct)
Figure FDA0002385932960000031
Figure FDA0002385932960000032
ot=σ(Wo[ht-1,xt]+bo)=σ(Woxt+Uoht-1+bo)
其中,ot为输出门的激活向量,σ(·)为sigmoid函数,bo、bC均为偏置,Ct为细胞状态向量,tanh(·)为正切函数,xt为传入长短记忆LSTM模块的数据,ht-1为长短记忆LSTM单元的输出向量,ft为遗忘门的激活向量,Ct-1为旧的细胞状态,it为输入门的激活向量,
Figure FDA0002385932960000033
为输入门网络层创建的新的备选值向量,WC和Wo均为对应t时刻输入xt的权重矩阵,UC和Uo均为对应t-1时刻输出ht-1的权重矩阵。
7.根据权利要求3所述的基于LSTM的借贷风险时效性预测方法,其特征在于,所述步骤S4包括以下步骤:
S401、初始化强学习器GBDT训练模块中的参数,并构建目标损失函数;
S402、判断迭代控制变量是否大于提取迭代上限T2,若是,则进入步骤S404,否则,进入步骤S403;
S403、判断所述目标损失函数值是否小于收敛判定阈值,若是,则进入步骤S404,否则,返回步骤S402,继续迭代,直至目标损失函数值小于收敛判定阈值或大于迭代上限T2;
S404、根据所述用户个人信息以及用户的周期性特征向量,利用强学习器GBDT计算得到所述强学习器GBDT训练模块的拟合函数,并根据所述拟合函数预测用户的借贷风险。
8.根据权利要求7所述的基于LSTM的借贷风险时效性预测方法,其特征在于,所述步骤S404包括以下步骤:
S4041、将用户的个人信息和周期性特征向量组成样本;
S4042、利用所述样本的负梯度拟合CART回归树,并通过叶子结点的拟合值更新强学习器GBDT的回归方程;
S4043、根据更新后的强学习器GBDT回归方程得到强学习器GBDT训练模块的拟合函数,并根据所述拟合函数预测用户的借贷风险。
9.根据权利要求8所述的基于LSTM的借贷风险时效性预测方法,其特征在于,所述步骤S4042中更新强学习器的回归方程GBDTft′(x)的迭代表达式如下:
Figure FDA0002385932960000041
其中,f′t-1(x)为前一轮迭代得到的强学习器GBDT,j为回归树种叶子节点的个数,j=1,2,...,J,I(·)为指示函数,ctj为学习器和样本之间的拟合值,Rtj为叶子结点区域。
10.根据权利要求8所述的基于LSTM的借贷风险时效性预测方法,其特征在于,所述步骤S4043中强学习器GBDT训练模块的拟合函数f′(x)的表达式如下:
Figure FDA0002385932960000051
Figure FDA0002385932960000052
其中,fT(x)为强学习器GBDT在经过T轮迭代后的输出值,f0(x)为初始化的弱学习器
Figure FDA0002385932960000053
J为回归树种叶子节点的总数,ctj为学习器和样本之间的拟合值,Rtj为叶子结点区域,c为残差,L(·)为目标损失函数,yi为第i个样本标签,f′t-1(xi)为上一轮样本的预测值。
CN202010098187.9A 2020-02-18 2020-02-18 一种基于lstm的借贷风险时效性预测系统及方法 Pending CN111179070A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010098187.9A CN111179070A (zh) 2020-02-18 2020-02-18 一种基于lstm的借贷风险时效性预测系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010098187.9A CN111179070A (zh) 2020-02-18 2020-02-18 一种基于lstm的借贷风险时效性预测系统及方法

Publications (1)

Publication Number Publication Date
CN111179070A true CN111179070A (zh) 2020-05-19

Family

ID=70646983

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010098187.9A Pending CN111179070A (zh) 2020-02-18 2020-02-18 一种基于lstm的借贷风险时效性预测系统及方法

Country Status (1)

Country Link
CN (1) CN111179070A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861032A (zh) * 2020-07-29 2020-10-30 广州海关技术中心 基于深度学习的大宗资源类矿产品放行风险预测方法

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111861032A (zh) * 2020-07-29 2020-10-30 广州海关技术中心 基于深度学习的大宗资源类矿产品放行风险预测方法

Similar Documents

Publication Publication Date Title
CN108475393A (zh) 通过合成特征和梯度提升决策树进行预测的系统和方法
CN110599336B (zh) 一种金融产品购买预测方法及系统
CN107563542A (zh) 数据预测方法及装置和电子设备
CN113240155A (zh) 预测碳排放量的方法、装置及终端
US20090089228A1 (en) Generalized reduced error logistic regression method
CN112785005B (zh) 多目标任务的辅助决策方法、装置、计算机设备及介质
CN112819024A (zh) 模型处理方法、用户数据处理方法及装置、计算机设备
Zhang The Evaluation on the Credit Risk of Enterprises with the CNN‐LSTM‐ATT Model
CN111402028A (zh) 一种信息处理方法、装置及设备
CN107704944B (zh) 一种基于信息论学习的股市波动区间预测模型的构建方法
CN112819256A (zh) 一种基于注意力机制的卷积时序房价预测方法
CN116303786B (zh) 一种基于多维数据融合算法的区块链金融大数据管理系统
CN111179070A (zh) 一种基于lstm的借贷风险时效性预测系统及方法
CN111340356A (zh) 评估模型解释工具的方法和装置
US11989777B2 (en) Pairing and grouping user profiles accessed from pre-current systems
US11983162B2 (en) Change management process for identifying potential regulatory violations for improved processing efficiency
US20230334307A1 (en) Training an artificial intelligence engine to predict a user likelihood of attrition
KR102519878B1 (ko) 금융기관 신용공여 사업에서의 인공지능 기반 리스크 관리 솔루션을 제공하기 위한 장치, 방법 및 명령을 기록한 기록 매체
US20230334504A1 (en) Training an artificial intelligence engine to automatically generate targeted retention mechanisms in response to likelihood of attrition
US20230351778A1 (en) Third party api integration for feedback system for handwritten character recognition to identify names using neural network techniques
US20230351782A1 (en) Reading and recognizing handwritten characters to identify names using neural network techniques
US20230342821A1 (en) Identifying user requirements to determine solutions using artificial intelligence
US20230351169A1 (en) Real-time prediction of future events using integrated input relevancy
US20230351783A1 (en) Application of heuristics to handwritten character recognition to identify names using neural network techniques
US20240135957A1 (en) System and method for determining and processing user temperament

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200519

RJ01 Rejection of invention patent application after publication