CN115204457A - 一种基于图注意力网络贷款违约风险预测方法 - Google Patents

一种基于图注意力网络贷款违约风险预测方法 Download PDF

Info

Publication number
CN115204457A
CN115204457A CN202210596903.5A CN202210596903A CN115204457A CN 115204457 A CN115204457 A CN 115204457A CN 202210596903 A CN202210596903 A CN 202210596903A CN 115204457 A CN115204457 A CN 115204457A
Authority
CN
China
Prior art keywords
loan
information
borrower
default
credit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210596903.5A
Other languages
English (en)
Inventor
周斌彬
郑增威
金佳云
周航
周晓伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University City College ZUCC
Original Assignee
Zhejiang University City College ZUCC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University City College ZUCC filed Critical Zhejiang University City College ZUCC
Priority to CN202210596903.5A priority Critical patent/CN115204457A/zh
Publication of CN115204457A publication Critical patent/CN115204457A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Economics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Biomedical Technology (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Game Theory and Decision Science (AREA)
  • Development Economics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Operations Research (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Financial Or Insurance-Related Operations Such As Payment And Settlement (AREA)

Abstract

本发明涉及一种基于图注意力网络贷款违约风险预测方法,包括:采集贷款人数据并对贷款人数据进行预处理;将每个贷款人视为一个节点,计算节点相似度,并定义阈值δ确定节点所连接的边,再构建图结构;根据图结构,构建GAT模型,并根据GAT模型获取节点的特征,再使用全连接层获取网络贷款违约风险预测结果。本发明的有益效果是:本发明利用贷款人数据来构建贷款人之间的图注意网络,并通过图注意网络对应的GAT模型和全连接层获取网络贷款违约风险预测结果,充分考虑了贷款人之间的关系,并能够处理贷款人数据中的非线性结构,该预测结果具有较高的预测精度。

Description

一种基于图注意力网络贷款违约风险预测方法
技术领域
本发明涉及网络贷款违约风险预测技术领域,更确切地说,它涉及一种基于图注意力网络贷款违约风险预测方法。
背景技术
信用违约风险管理的重要性越来越大,一些公司利用它来识别和预测不同级别的潜在信用违约风险。
现有技术中,可以根据用户数据,建立违约概率预测模型以进行贷款违约风险预测。在中国专利申请文献CN109255506B中,公开了一种基于大数据的互联网金融用户贷款逾期预测方法,并具体公开了根据用户行为、用户基本信息、信用评分数据进行预处理操作;根据7:3随机将数据划分操作为训练集和测试集;根据用户行为、用户基本信息、信用评分数据进行特征工程构建操作;建立4个机器学习模型,并进行线性回归模型融合操作;通过已建立模型基础,根据用户基本信息设置人工阈值规则预测用户是否违约。
但是,现有技术中建立的违约概率预测模型的数据来源单一,没有考虑用户之间的关系,并且,无法处理用户数据中的非线性结构,因此,预测精度较低。
发明内容
本发明的目的是克服现有技术中的不足,提供了一种基于图注意力网络贷款违约风险预测方法。
第一方面,提供了一种基于图注意力网络贷款违约风险预测方法,包括以下步骤:
步骤1、采集贷款人数据并对所述贷款人数据进行预处理,所述贷款人数据包括个人信息、历史贷款及违约情况信息和最近贷款信息;
步骤2、将每个贷款人视为一个节点,根据所述个人信息、历史贷款及违约情况信息和最近贷款信息,分别计算节点相似度,并根据节点相似度的计算结果,定义阈值δ确定节点所连接的边,并分别构建三个图结构;
步骤3、根据所述三个图结构,分别构建三个GAT模型,并根据所述GAT模型获取每个节点的特征,再使用全连接层获取每个贷款人的网络贷款违约风险预测结果。
作为优选,步骤1中,所述历史贷款及违约情况信息包括信用活跃状态、信用评级、信用金额、信用卡的数量与类型和信用年金;所述信用活跃状态包括活跃状态和完成状态;所述最近贷款信息包括贷款记录和合同状态,所述合同状态包括活跃状态和完成状态。
作为优选,步骤1中,对所述贷款人数据进行预处理,包括:
每个贷款人有多条历史贷款及违约情况信息时,获取所有历史贷款及违约情况信息的信用活跃状态中活跃状态和完成状态的数量、信用评级的平均值、信用金额的平均值、数量最多的信用卡类型和平均信用年金;
每个贷款人有多条最近贷款信息时,获取所有最近贷款信息的贷款记录平均值、合同状态中活跃状态和完成状态的数量。
作为优选,步骤2中,所述个人信息、历史贷款及违约情况信息和最近贷款信息为纯数值数据信息或混合型数据信息,所述混合型数据信息包括数值数据信息和分类数据信息;对于纯数值数据信息,计算节点之间的相似度使用余弦距离进行计算,计算公式如下:
Figure BDA0003668458560000021
其中,n表示数据信息共有n个属性,ai表示贷款人a的第i个属性值,bi表示贷款人b的第i个属性值;
对于混合型数据信息,使用艾哈迈德戴伊距离DA(xi,xj)计算节点之间的相似度,表示为:
Figure BDA0003668458560000022
作为优选,xi和xj为分类变量,
Figure BDA0003668458560000023
的计算公式表示为:
Figure BDA0003668458560000024
Figure BDA0003668458560000025
Figure BDA0003668458560000026
其中,l表示数据集具有l个属性,pk(η|xi)表示当第i个属性为xi时,第j个属性属于η的条件概率,
Figure BDA0003668458560000027
表示当第i个属性为xj时,第j个属性属于
Figure BDA0003668458560000028
的条件概率;pk(m|xi)表示当第i个属性为xi时,第j个属性属于m的条件概率,
Figure BDA0003668458560000029
表示当第i个属性为xj时,第j个属性属于
Figure BDA00036684585600000210
的条件概率;argmax函数表示使得
Figure BDA00036684585600000211
取得最大值所对应的变量点m或m的集合;并且
Figure BDA00036684585600000212
满足以下条件:
Figure BDA00036684585600000213
Figure BDA0003668458560000031
Figure BDA0003668458560000032
作为优选,xi和xj为数值变量,xi和xj需要被离散成多个区间,在离散化后计算出每对离散区间u[i]和u[j]的艾哈迈德戴伊距离,对于每个数值特征,计算公式如下:
Figure BDA0003668458560000033
作为优选,步骤3中,所述三个GAT模型中的任一GAT模型的输入通道数为贷款人的属性数,输出通道数均为8。
作为优选,步骤3包括:
步骤3.1、将个人信息、历史贷款及违约情况信息和最近贷款信息三部分数据作为三个GAT模型的输入,将贷款人是否有网络贷款违约风险作为最终结果的输出,然后将样本按设定比例划分为训练集和测试集;
步骤3.2、将训练集用于训练三个GAT模型;
步骤3.3、对于三个GAT模型得到的结果,使用拼接的方式融合,再经过一个全连接层,利用GAT模型输出的各个贷款人的网络贷款违约风险和真实的网络贷款违约风险,用负对数似然损失函数来计算每次训练后的损失;
步骤3.4、用测试集验证GAT模型的效果;
步骤3.5、将训练好的GAT模型用于网络贷款违约风险预测。
第二方面,提供了一种计算机存储介质,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行第一方面任一所述的图注意力网络贷款违约风险预测方法。
第三方面,提供了一种计算机程序产品,当所述计算机程序产品在计算机上运行时,使得计算机执行如第一方面任一所述的图注意力网络贷款违约风险预测方法。
本发明的有益效果是:本发明利用贷款人数据来构建贷款人之间的图注意网络,并通过图注意网络对应的GAT模型和全连接层获取网络贷款违约风险预测结果,充分考虑了贷款人之间的关系,并能够处理贷款人数据中的非线性结构,因此,该预测结果具有较高的预测精度。
附图说明
图1为一种基于图注意力网络贷款违约风险预测方法的流程示意图;
图2为图注意网络的结构示意图;
图3为全连接层的结构示意图;
图4为基于图注意力网络贷款违约风险预测方法与其他方法的实验结果对比图。
具体实施方式
下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
实施例1:
本发明认为贷款人之间的关系可以为信用违约风险预测提供有价值的改进。本发明提出了一种基于图注意力网络贷款违约风险预测方法,如图1所示,从贷款人数据依次可得到图结构、基于图注意网络的模型(GAT模型)和预测结果,包括以下步骤:
步骤1、采集贷款人数据并对贷款人数据进行预处理,贷款人数据包括个人信息、历史贷款及违约情况信息和最近贷款信息;
步骤2、将每个贷款人视为一个节点,根据个人信息、历史贷款及违约情况信息和最近贷款信息,分别计算节点相似度,并根据节点相似度的计算结果,定义阈值δ确定节点所连接的边,并分别构建三个图结构;
示例地,如图2所示,首先,对每个节点的特征向量
Figure BDA0003668458560000045
应用具有可学习权值矩阵W的共享线性变换,然后利用共享注意机制a计算注意系数eij。注意机制可以是任何可以反映两个对象的相关性的函数,如余弦相似度函数或MLP。具体来说,我们选择了一个单层前馈神经网络作为GAT中的注意机制。
Figure BDA0003668458560000041
其中
Figure BDA0003668458560000042
Figure BDA0003668458560000043
为节点特征向量,W为可学习的参数矩阵。a表示注意机制,在GAT中实现为单层前馈神经网络。
然后,对这些注意系数应用一个修正线性单元函数,得到注意权重αij,表示节点j对节点i的重要性。
Figure BDA0003668458560000044
其中,Ni为节点i的邻域节点的集合,exp为指数函数。
最后,对于每个节点i,GAT通过将其邻居的特征向量相加来更新其特征向量。为了聚合多头特征的特征(即第1步中的多个线性变换),对节点i的多个特征向量取平均值,生成节点i的最终表示。
Figure BDA0003668458560000051
其中
Figure BDA0003668458560000052
为节点j的特征向量,
Figure BDA0003668458560000053
为节点i的更新特征向量。||表示连接操作。
步骤3、根据三个图结构,分别构建三个GAT模型,并根据GAT模型获取每个节点的特征,再使用全连接层获取每个贷款人的网络贷款违约风险预测结果。
此外,在步骤1中,个人信息包括贷款类型为现金贷款或循环贷款、性别、是否拥有汽车、是否拥有房屋或公寓、所拥有的子代数量、年收入、贷款的授信金额、贷款年金、消费贷款的商品价格、申请贷款时的陪同人、收入类型、最高教育水平、家庭状况、住房情况、家庭成员数等。
历史贷款及违约情况信息包括信用活跃状态、信用评级、信用金额、信用卡的数量与类型、信用年金、最大逾期金额、信用局当前债务、最早信用申请记录至今的时长、当前信用额度、当前逾期未付金额和信用抵押物品类型等。其中,信用活跃状态包括活跃状态(Active)和完成状态(Completed)。
最近贷款信息包括贷款记录和合同状态,贷款记录包括上一个贷方月内的余额、上一个月内的信用卡限额、在上一个月内从自动柜员机提款的金额、上一信用证当月提款金额、上一信用证当月其他提款金额、在上一个信用期内提款或购买商品的金额、这个月的最低分期付款为以前的信用、客户在前一个月付了多少钱、客户在之前的账单上这个月总共付了多少钱、上次贷项下应收本金的金额、上一项信用项的应收款项、上一笔应收账款总额、上一张信用卡上本月ATM提款数、上一张信用证上本月提款数、上一张信用证上本月其他提款数、上一张信用证上本月的提款数量、上次贷项上已付款的分期付款数等,合同状态为先前信用证的合同状态。其中,合同状态包括活跃状态和完成状态。
步骤1中,对贷款人数据进行预处理,包括:
每个贷款人有多条历史贷款及违约情况信息时,获取所有历史贷款及违约情况信息的信用活跃状态中活跃状态和完成状态的数量、信用评级的平均值、信用金额的平均值、数量最多的信用卡类型和平均信用年金;
每个贷款人有多条最近贷款信息时,获取所有最近贷款信息的贷款记录平均值、合同状态中活跃状态和完成状态的数量。经过上述预处理,即可得到每个贷款人的一条数据。
步骤2中,个人信息、历史贷款及违约情况信息和最近贷款信息为纯数值数据信息或混合型数据信息,对于纯数值数据信息,计算节点之间的相似度使用余弦距离进行计算,计算公式如下:
Figure BDA0003668458560000061
其中,n表示数据信息共有n个属性,ai表示贷款人a的第i个属性值,bi表示贷款人b的第i个属性值;
对于混合型数据信息,例如贷款人历史贷款及违约情况信息中包含有数值数据信息和分类数据信息,则计算贷款人历史贷款及违约情况信息的相似度时,使用一种公认的混合变量数据测量两个数据之间差异的方法——艾哈迈德戴伊(Ahmad&Dey)方法,计算出的结果将是一个介于0到1之间的数字。,计算结果的值越低表示两个数据之间的相似性越高。使用艾哈迈德戴伊距离DA(xi,xj)计算节点之间的相似度,表示为:
Figure BDA0003668458560000062
xi和xj为分类变量,
Figure BDA0003668458560000063
的计算公式表示为:
Figure BDA0003668458560000064
Figure BDA0003668458560000065
Figure BDA0003668458560000066
其中,l表示数据集具有l个属性。示例地,计算贷款人历史贷款及违约情况信息的相似度时,l取值为贷款人历史贷款违约情况信息所包含的属性数。pk(η|xi)表示当第i个属性为xi时,第j个属性属于η的条件概率,
Figure BDA0003668458560000067
表示当第i个属性为xj时,第j个属性属于
Figure BDA0003668458560000068
的条件概率;pk(m|xi)表示当第i个属性为xi时,第j个属性属于m的条件概率,argmax函数表示使得
Figure BDA0003668458560000069
取得最大值所对应的变量点m(或m的集合);
Figure BDA00036684585600000610
表示当第i个属性为xj时,第j个属性属于
Figure BDA00036684585600000611
的条件概率;并且
Figure BDA00036684585600000612
满足以下条件:
Figure BDA00036684585600000613
Figure BDA00036684585600000614
Figure BDA00036684585600000615
xi和xj为数值变量,xi和xj需要被离散成多个区间,如u[1],u[2],...,u[T],在离散化后计算出每对离散区间u[k]和u[j]的艾哈迈德戴伊距离,对于每个数值特征,计算公式如下:
Figure BDA0003668458560000071
此外,在获取相似度计算结果后,可以定义阈值δ来确定是否连接节点对的边。示例地,如阈值δ取值为10%,则节点对间距离最为相近的前10%构建边。
步骤3中,三个GAT模型中的任一GAT模型的输入通道数为贷款人的属性数,输出通道数均为8。
步骤3包括:
步骤3.1、将个人信息、历史贷款及违约情况信息和最近贷款信息三部分数据作为三个GAT模型的输入,将贷款人是否有网络贷款违约风险作为最终结果的输出,然后将样本按设定比例划分为训练集和测试集;
步骤3.2、将训练集用于训练三个GAT模型;
步骤3.3、对于三个GAT模型得到的结果,使用拼接的方式融合,再经过一个如图3所示的全连接层,利用GAT模型输出的各个贷款人的网络贷款违约风险和真实的网络贷款违约风险,用负对数似然损失函数(negative log likelihood loss)来计算每次训练后的损失;
图3中,全连接层依次包括输入层、隐藏层和输出层。输入层的节点(如图3中的三个节点)均与隐藏层的任一节点(如图3中的5个节点)相连,并将所有隐藏层的节点与输出层相连,进而可以获取所有输入对应的一个输出结果。
步骤3.4、用测试集验证GAT模型的效果;
步骤3.5、将训练好的GAT模型用于网络贷款违约风险预测。
实施例2:
在实施例1的基础上,本申请提供了一种基于图注意力网络贷款违约风险预测方法的具体应用。
示例地,在一家家庭信贷公司提供的数据上进行的实验,实验结果表明,本发明的方法与其他已有的相关模型方法相比,具有更高的预测精度,在Accuracy、AUC-score、Precision、F1-score指标上均有优势。具体实验结果如下表1:
表1本发明模型与其他已有的相关模型方法的违约风险预测精度比较表
Figure BDA0003668458560000081
其中Proposed method是本发明提出的方法,其余各个列为其他相关的模型方法,实验结果在数据上运行产生。用于比较的相关模型方法为:
(1)SVM[1995年]:一种公认的和非常稳健的预测分类和回归问题的方法。对于分类任务,它将每个带有类标签的样本映射到空间中的点,并试图最大化不同类之间的间隙宽度。当输入新的样本时,该方法能够将这些样本映射到相同的空间中,并预测样本所在的确切位置。对于非线性分类任务,该方法提供了不同的内核来将数据样本映射到高维空间
(2)DT[1991年]:决策树是一种树状结构,每个节点都包含关于一个属性的信息,其中叶节点引用类标签,分支描述可能的结果。从树的根到叶节点的路径被提取为规则。
(3)RF[2001年]:随机森林是一种同时用于分类和回归预测的集成学习类型的方法,它由多个独立的决策树组成。对于分类任务,对于新的数据样本,每个决策树将输出一个分类结果,并从这些决策树中选择数据样本所属类别的最终结果。
(4)GNB[2006年]:朴素贝叶斯方法是一种概率型方法,它将贝叶斯定理应用于数据,并强烈假设特征是独立的。高斯朴素贝叶斯方法假设数据具有高斯分布。
对本发明方法的消融实验结果表明,本发明方法可以充分考虑了用户之间的关系,利用多种类型的数据来构建用户关系进行违约风险预测。根据预测时选用的不同数据和模型结构组合,共构造了本方法的六种变体并在数据集上进行了实验。对应的六种模型变体的含义分别为:
(1)P-GAT.该方法只考虑了个人资料,然后在图构建后应用图注意模型,用于未来的信用违约风险预测。
(2)L-GAT.同样地,该方法只考虑最新的贷款数据,构建特定的图,然后使用GAT模型来预测信用违约风险。
(3)H-GAT.同样,该方法只引入历史贷款记录用于图形构建,然后将其输入GAT模型进行信用违约风险预测。
(4)PL-GAT.该方法利用个人资料数据和最近的贷款数据构建两个图形,然后应用基于GAT的模型和全连接层进行进一步的信用违约风险预测。
(5)PH-GAT.同样,该方法利用个人资料数据和历史贷款记录构建不同的图表,然后采用基于GAT的模型和全连接层来预测信用违约风险。
(6)LH-GAT.同样,该方法选择最近的贷款数据和历史贷款记录来计算相似度并构造图。利用基于GAT的模型和全连接层进行信用违约风险预测。
实验结果表明,与所有这些变体相比,本发明模型充分利用所有数据的完整版本产生了最好的结果。实验结果如图4所示。
综上所述,本发明利用贷款人数据来构建贷款人之间的图注意网络,并通过图注意网络对应的GAT模型和全连接层获取网络贷款违约风险预测结果。并且,本发明提供的GAT模型能够捕获与相邻和高阶邻居的关系,以及线性和非线性关系,最后在融合从GAT模块中学习到的高级特征后进行预测最终的信用违约风险。因此,本发明充分考虑了贷款人之间的关系,并能够处理贷款人数据中的非线性结构,进而该预测结果具有较高的预测精度。

Claims (10)

1.一种基于图注意力网络贷款违约风险预测方法,其特征在于,包括以下步骤:
步骤1、采集贷款人数据并对所述贷款人数据进行预处理,所述贷款人数据包括个人信息、历史贷款及违约情况信息和最近贷款信息;
步骤2、将每个贷款人视为一个节点,根据所述个人信息、历史贷款及违约情况信息和最近贷款信息,分别计算节点相似度,并根据节点相似度的计算结果,定义阈值δ确定节点所连接的边,并分别构建三个图结构;
步骤3、根据所述三个图结构,分别构建三个GAT模型,并根据所述GAT模型获取每个节点的特征,再使用全连接层获取每个贷款人的网络贷款违约风险预测结果。
2.根据权利要求1所述的基于图注意力网络贷款违约风险预测方法,其特征在于,步骤1中,所述历史贷款及违约情况信息包括信用活跃状态、信用评级、信用金额、信用卡的数量与类型和信用年金;所述信用活跃状态包括活跃状态和完成状态;所述最近贷款信息包括贷款记录和合同状态,所述合同状态包括活跃状态和完成状态。
3.根据权利要求2所述的基于图注意力网络贷款违约风险预测方法,其特征在于,步骤1中,对所述贷款人数据进行预处理,包括:
每个贷款人有多条历史贷款及违约情况信息时,获取所有历史贷款及违约情况信息的信用活跃状态中活跃状态和完成状态的数量、信用评级的平均值、信用金额的平均值、数量最多的信用卡类型和平均信用年金;
每个贷款人有多条最近贷款信息时,获取所有最近贷款信息的贷款记录平均值、合同状态中活跃状态和完成状态的数量。
4.根据权利要求1所述的基于图注意力网络贷款违约风险预测方法,其特征在于,步骤2中,所述个人信息、历史贷款及违约情况信息和最近贷款信息为纯数值数据信息或混合型数据信息,所述混合型数据信息包括数值数据信息和分类数据信息;对于纯数值数据信息,计算节点之间的相似度使用余弦距离进行计算,计算公式如下:
Figure FDA0003668458550000011
其中,n表示数据信息共有n个属性,ai表示贷款人a的第i个属性值,bi表示贷款人b的第i个属性值;
对于混合型数据信息,使用艾哈迈德戴伊距离DA(xi,xj)计算节点之间的相似度,表示为:
Figure FDA0003668458550000012
5.根据权利要求4所述的基于图注意力网络贷款违约风险预测方法,其特征在于,xi和xj为分类变量,
Figure FDA0003668458550000021
的计算公式表示为:
Figure FDA0003668458550000022
Figure FDA0003668458550000023
Figure FDA0003668458550000024
其中,l表示数据集具有l个属性,pk(η|xi)表示当第i个属性为xi时,第j个属性属于η的条件概率,
Figure FDA0003668458550000025
表示当第i个属性为xj时,第j个属性属于
Figure FDA0003668458550000026
的条件概率;pk(m|xi)表示当第i个属性为xi时,第j个属性属于m的条件概率,
Figure FDA0003668458550000027
表示当第i个属性为xj时,第j个属性属于
Figure FDA0003668458550000028
的条件概率;argmax函数表示使得
Figure FDA0003668458550000029
取得最大值所对应的变量点m或m的集合;并且
Figure FDA00036684585500000210
满足以下条件:
Figure FDA00036684585500000211
Figure FDA00036684585500000212
Figure FDA00036684585500000213
6.根据权利要求4所述的基于图注意力网络贷款违约风险预测方法,其特征在于,xi和xj为数值变量,xi和xj需要被离散成多个区间,在离散化后计算出每对离散区间u[k]和u[h]的艾哈迈德戴伊距离,对于每个数值特征,计算公式如下:
Figure FDA00036684585500000214
7.根据权利要求1所述的基于图注意力网络贷款违约风险预测方法,其特征在于,步骤3中,所述三个GAT模型中的任一GAT模型的输入通道数为贷款人的属性数,输出通道数均为8。
8.根据权利要求7所述的基于图注意力网络贷款违约风险预测方法,其特征在于,步骤3包括:
步骤3.1、将个人信息、历史贷款及违约情况信息和最近贷款信息三部分数据作为三个GAT模型的输入,将贷款人是否有网络贷款违约风险作为最终结果的输出,然后将样本按设定比例划分为训练集和测试集;
步骤3.2、将训练集用于训练三个GAT模型;
步骤3.3、对于三个GAT模型得到的结果,使用拼接的方式融合,再经过一个全连接层,利用GAT模型输出的各个贷款人的网络贷款违约风险和真实的网络贷款违约风险,用负对数似然损失函数来计算每次训练后的损失;
步骤3.4、用测试集验证GAT模型的效果;
步骤3.5、将训练好的GAT模型用于网络贷款违约风险预测。
9.一种计算机存储介质,其特征在于,所述计算机存储介质内存储有计算机程序;所述计算机程序在计算机上运行时,使得计算机执行权利要求1至8任一所述的图注意力网络贷款违约风险预测方法。
10.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得计算机执行如权利要求1至8任一所述的图注意力网络贷款违约风险预测方法。
CN202210596903.5A 2022-05-30 2022-05-30 一种基于图注意力网络贷款违约风险预测方法 Pending CN115204457A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210596903.5A CN115204457A (zh) 2022-05-30 2022-05-30 一种基于图注意力网络贷款违约风险预测方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210596903.5A CN115204457A (zh) 2022-05-30 2022-05-30 一种基于图注意力网络贷款违约风险预测方法

Publications (1)

Publication Number Publication Date
CN115204457A true CN115204457A (zh) 2022-10-18

Family

ID=83576904

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210596903.5A Pending CN115204457A (zh) 2022-05-30 2022-05-30 一种基于图注意力网络贷款违约风险预测方法

Country Status (1)

Country Link
CN (1) CN115204457A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860906A (zh) * 2022-11-22 2023-03-28 中电金信软件有限公司 一种信贷风险识别方法、装置及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115860906A (zh) * 2022-11-22 2023-03-28 中电金信软件有限公司 一种信贷风险识别方法、装置及存储介质

Similar Documents

Publication Publication Date Title
Singh et al. How are reinforcement learning and deep learning algorithms used for big data based decision making in financial industries–A review and research agenda
Huang et al. Deep learning in finance and banking: A literature review and classification
Jin et al. A data-driven approach to predict default risk of loan for online peer-to-peer (P2P) lending
Rao et al. Design of comprehensive evaluation index system for P2P credit risk of “three rural” borrowers
Tam et al. Managerial applications of neural networks: the case of bank failure predictions
Chen et al. Predicting default risk on peer-to-peer lending imbalanced datasets
Ala’raj et al. A deep learning model for behavioural credit scoring in banks
Van Thiel et al. Artificial intelligence credit risk prediction: An empirical study of analytical artificial intelligence tools for credit risk prediction in a digital era
CN111401600A (zh) 基于关联关系的企业信用风险评价方法和系统
Sharaf et al. StockPred: a framework for stock Price prediction
Hoang et al. Machine learning methods in finance: Recent applications and prospects
Mezei et al. Credit risk evaluation in peer-to-peer lending with linguistic data transformation and supervised learning
Chern et al. A decision tree classifier for credit assessment problems in big data environments
Eddy et al. Credit scoring models: Techniques and issues
Huang et al. Enterprise risk assessment based on machine learning
Zhu et al. Explainable prediction of loan default based on machine learning models
Bhattacharya et al. Credit risk evaluation: a comprehensive study
CN115204457A (zh) 一种基于图注意力网络贷款违约风险预测方法
Alam et al. Loan default risk prediction using knowledge graph
Sun et al. Determination of temporal stock investment styles via biclustering trading patterns
Zhou Loan Default Prediction Based on Machine Learning Methods
Anglekar et al. Machine learning based risk assessment analysis for smes loan grant
Tao et al. Credit Risk Assessment of P2P Lending Borrowers based on SVM
Aksu CONSUMER CREDITS AND MACHINE LEARNING
Mejía From A to Z in P2P: Credit Risk Analysis for the Fintech Lending Paradigm

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination