CN114626941A - 信贷违约预测方法、装置、终端设备以及存储介质 - Google Patents

信贷违约预测方法、装置、终端设备以及存储介质 Download PDF

Info

Publication number
CN114626941A
CN114626941A CN202210336048.4A CN202210336048A CN114626941A CN 114626941 A CN114626941 A CN 114626941A CN 202210336048 A CN202210336048 A CN 202210336048A CN 114626941 A CN114626941 A CN 114626941A
Authority
CN
China
Prior art keywords
prediction
credit
model
credit default
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210336048.4A
Other languages
English (en)
Inventor
陈庆麟
陈婷
吴三平
庄伟亮
要卓
张鹏
壮青
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202210336048.4A priority Critical patent/CN114626941A/zh
Publication of CN114626941A publication Critical patent/CN114626941A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/03Credit; Loans; Processing thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Accounting & Taxation (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Technology Law (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种信贷违约预测方法、装置、终端设备以及存储介质,属于金融信贷领域。本发明信贷违约预测方法包括:获取待预测的客户数据;将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,其中,所述信贷违约预测模型是通过图神经网络算法进行训练得到;输出所述预测结果。本发明实现了对团伙性信贷违约行为的有效预测,解决了现有信贷违约预测技术效果差的问题。

Description

信贷违约预测方法、装置、终端设备以及存储介质
技术领域
本发明涉及金融信贷领域,尤其涉及一种基于图神经网络的信贷违约预测方法、装置、终端设备以及存储介质。
背景技术
随着科学技术的不断发展,机器学习在各行各业的应用也在不断深入。在金融信贷行业,出资方往往需要评估客户是否会有违约或者欺诈的风险,并基于此来判断是否给客户贷款。目前,现有方法是采集客户的信贷历史记录和个人信息等数据,构建机器学习模型,从而进行客户违约概率预测。
然而,客户的违约行为往往具有团伙性质和近邻性质,比如集体欺诈的主观违约或者由于企业经验不善导致的被动违约等,现有基于客户个人信息的机器学习方法,信息利用率低,只能从个体维度进行评估,无法发现团伙性违约,存在预测效果差的缺陷。
因此,有必要提出一种效果更好的信贷违约预测方法。
发明内容
本发明的主要目的在于提供一种信贷违约预测方法、装置、终端设备以及存储介质,旨在解决现有信贷违约预测技术预测效果差的问题。
为实现上述目的,本申请提供一种信贷违约预测方法,所述信贷违约预测方法包括:
获取待预测的客户数据;
将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,其中,所述信贷违约预测模型是通过图神经网络算法进行训练得到;
输出所述预测结果。
可选地,所述获取待预测的客户数据的方式包括:
获取客户的个人征信信息;
获取客户的信贷违约风险信息。
可选地,所述将所述待预测的客户数据输入到预先创建的预测模型中进行预测,得到预测结果的步骤之前还包括:
创建基于图神经网络的信贷违约预测模型。
可选地,所述创建基于图神经网络的信贷违约预测模型的步骤包括:
获取客户样本数据;
将所述客户样本数据进行处理,得到训练集和验证集;
基于所述训练集,通过图神经网络算法对初始模型进行迭代训练;
基于所述验证集,对当前模型的效果进行评估,得到判定结果;
基于所述判定结果,对当前模型进行如下处理:
若所述判定结果不满足预设标准,继续对模型进行迭代训练;
若所述判定结果满足预设标准,结束迭代训练,得到信贷违约预测模型。
可选地,所述将所述客户样本数据进行处理,得到训练集和验证集的步骤包括:
基于所述客户样本数据,提取客户的基础特征和风险标签;
基于所述客户的基础特征和风险标签,构建图网络结构;
通过预设方法,从所述图网络结构中抽取客户网络节点和对应的基础特征,按照预设比例分为训练集和验证集;
将所述训练集和验证集作存储至数据存储单元。
可选地,所述基于所述训练集,通过图神经网络算法对初始模型进行迭代训练的步骤之前还包括:
初始化模型参数,得到初始模型。
可选地,所述基于所述验证集,对当前模型进行评估,得到判定结果的步骤包括:
基于所述验证集,得到所述当前模型的预测结果;
根据所述预测结果,计算所述当前模型的损失函数;
根据所述当前模型的损失函数,评估当前模型的误差;
判定所述当前模型的误差,得到判定结果。
可选地,所述根据所述当前模型的预测结果,计算所述当前模型的损失函数的步骤包括:
根据所述当前模型的预测结果,得到预测概率和风险标签;
根据所述预测概率和风险标签,计算损失函数。
可选地,所述构建基于图神经网络的信贷违约预测模型的步骤之后还包括:
计算所述基于图神经网络的信贷违约预测模型的效果指标。
此外,本申请还提出一种信贷违约预测装置,所述信贷违约预测装置包括:
数据获取模块,用于获取待待预测的客户数据;
预测模块,用于将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,所述信贷违约预测模型是基于图神经网络算法进行训练得到;
数据输出模块,用于输出所述预测结果。
可选地,所述信贷违约预测装置还包括:
模型训练模块,用于对初始模型进行训练,得到基于图神经网络的信贷违约预测模型。
此外,本申请还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信贷违约预测程序,所述信贷违约预测程序被所述处理器执行时实现如上所述的信贷违约预测方法的步骤。
此外,本申请还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有信贷违约预测程序,所述信贷违约预测程序被处理器执行时实现如上所述的信贷违约预测方法的步骤。
本发明提出的信贷违约预测方法、装置、终端设备以及存储介质,通过获取待预测的客户数据;将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,其中,所述信贷违约预测模型通过图神经网络算法进行训练得到;输出所述预测结果。相比于现有技术,基于本申请方案,从信贷违约行为的近邻性质出发,通过构建客户之间的图神经网络,预测客户的违约概率,提高了信息利用率,能预测团伙性质的违约行为,解决了信贷业务中的风险控制问题,改善了现有信贷违约预测技术的效果。
附图说明
图1为本发明信贷违约预测装置所属终端设备的功能模块示意图;
图2为本发明信贷违约预测方法第一实施例的流程示意图;
图3为本发明信贷违约预测方法第二实施例的流程示意图;
图4为本发明信贷违约预测方法第二实施例中关于图网络结构的示意图;
图5为本发明信贷违约预测方法第二实施例中关于GraphSage图神经网络算法的计算原理示意图;
图6为本发明信贷违约预测方法实施例中损失函数的示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本申请实施例的主要解决方案是:获取待预测的客户数据;将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,其中,所述信贷违约预测模型是通过图神经网络算法进行训练得到;输出所述预测结果。基于本申请方案,从信贷违约行为的团伙性质出发,构建客户之间的图网络结构,有效地利用了客户数据,通过图神经网络算法进行训练,得到信贷违约预测模型,实现了对团伙性质违约行为的预测,改善了现有技术进行信贷违约预测效果差的缺陷。
本申请实施例涉及的技术术语:
图神经网络,GNN,Graph Neural Networks;
GraphSage,一种归纳式的图神经网络算法,是对直推式神经网络算法的改进,避免直推式算法的全节点结算对计算和内存性能约束;
聚合函数,是机器学习算法中对特征进行处理的方法,用于将多个特征维度进行聚合,通常会使用最大函数、最小函数、平均函数等作为聚合函数;
激活函数,就是在人工神经网络的神经元上运行的函数,它们将非线性特性引入到我们的神经网络中,从而将神经元的输入映射到输出端;
Sigmoid函数,一种机器学习中常见的激活函数,被广泛应用于各类神经网络中,是适合于二分类问题的输出层所使用的激活函数。
其中,GNN(Graph Neural Networks,图神经网络)是一种基于图结构的深度学习方法,主要由两部分组成,即“图”结构和“神经网络”结构,这里的图结构是指图数据结构,神经网络结构为深度学习常用结构。图神经网络的特点在于,通过神经网络提取出图数据结构中的特征向量,能更好地对图结构进行深度分析。传统的神经网络如CNN(Convolutional Neural Networks,卷积神经网络)、RNN(Recurrent Neural Networks,循环神经网络)等难以对复杂的数据结构进行处理(例如图结构和流体结构),而图神经网络在这类问题上展现出了更为优越的性能,正在逐渐成为解决这类问题的优选方案。现有的图神经网络算法中,对网络的节点进行向量化计算,是比较常规的做法,比如各种直推式算法等,但是,在使用这类直推式算法时,图神经网络中的所有节点必须同时计算,当图神经网络的规模增大时,计算复杂度过高,难以得到计算结果。
为此,本申请实施例引入了GraphSage图神经网络算法,GraphSage图神经网络算法是一种归纳式的算法,不需要全部节点同时计算,只需要抽样选取少量子图作为样本数据进行训练,就可以得到最终模型。之后,即可通过该最终模型对网络图中的其他节点进行预测,输出对应的风险概率,从而避免直推式图计算方法的全部节点同时训练带来的内存和计算量消耗大的问题。在图向量计算过程中,客户的基础变量特征也可以作为节点的向量以进行迭代,泛化出更好的表达变量,基于该泛化的节点向量,再接一层隐藏层,计算客户的违约概率并输出,从而实现风险识别的效果。
本申请实施例考虑到,针对信贷违约预测这一问题,如果单纯采集客户特征及风险标签,通过传统机器学习的方法来进行客户违约概率预测,信息利用率低,只能从个体维度进行预测,无法预测团伙性质的违约行为,存在预测效果差的缺陷。
因此,本申请实施例方案,从信贷违约预测的实际问题出发,基于客户数据,提取客户的基础特征和风险标签,构建客户之间的图神经网络结构,通过图神经网络算法进行训练得到预测模型,所述预测模型能预测出团伙性的违约行为,更好地解决信贷业务中的风险控制问题。相比于传统机器学习方法,本申请实施例方案的预测效果更好。
具体地,参照图1,图1为本申请信贷违约预测装置所属终端设备的功能模块示意图。该信贷违约预测装置可以为独立于终端设备的、能够进行信贷违约预测、信贷违约预测模型训练的装置,其可以通过硬件或软件的形式承载于终端设备上。该终端设备可以为手机、平板电脑等具有数据处理功能的智能移动终端,还可以为具有数据处理功能的固定终端设备或服务器等。
在本实施例中,该信贷违约预测装置所属终端设备至少包括输出模块110、处理器120、存储器130以及通信模块140。
存储器130中存储有操作系统以及信贷违约预测程序,信贷违约预测装置可以将获取的待预测的客户数据通过信贷违约预测模型进行预测,得到的预测结果存储于该存储器130中;输出模块110可为显示屏等。通信模块140可以包括WIFI模块、移动通信模块以及蓝牙模块等,通过通信模块140与外部设备或服务器进行通信。
其中,存储器130中的预测程序被处理器执行时实现以下步骤:
获取待预测的客户数据;
将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,其中,所述信贷违约预测模型是通过图神经网络算法进行训练得到;
输出所述预测结果。
进一步地,存储器130中的信贷违约预测程序被处理器执行时还实现以下步骤:
获取客户的个人征信信息;
获取客户的信贷违约风险信息。
进一步地,存储器130中的信贷违约预测程序被处理器执行时还实现以下步骤:
创建基于图神经网络的信贷违约预测模型。
进一步地,存储器130中的信贷违约预测程序被处理器执行时还实现以下步骤:
获取客户样本数据;
将所述客户样本数据进行处理,得到训练集和验证集;
基于所述训练集,通过图神经网络算法对初始模型进行迭代训练;
基于所述验证集,对当前模型的效果进行评估,得到判定结果;
基于所述判定结果,对当前模型进行如下处理;
若所述判定结果不满足预设标准,继续对模型进行迭代训练;
若所述判定结果满足预设标准,结束迭代训练,得到信贷违约预测模型。
进一步地,存储器130中的信贷违约预测程序被处理器执行时还实现以下步骤:
基于所述客户样本数据,提取客户的基础特征和风险标签;
基于所述客户的基础特征和风险标签,构建图网络结构;
通过预设方法,从所述图网络结构中抽取客户网络节点和对应的基础特征,按照预设比例分为训练集和验证集;
将所述训练集和验证集作存储至数据存储单元。
进一步地,存储器130中的信贷违约预测程序被处理器执行时还实现以下步骤:
初始化模型参数,得到初始模型。
进一步地,存储器130中的信贷违约预测程序被处理器执行时还实现以下步骤:
基于所述验证集,得到所述当前模型的预测结果;
根据所述预测结果,计算所述当前模型的损失函数;
根据所述当前模型的损失函数,评估当前模型的误差;
判定所述当前模型的误差,得到判定结果。
进一步地,存储器130中的信贷违约预测程序被处理器执行时还实现以下步骤:
在所述当前模型的最后一个输出层,根据输出的概率和风险标签,计算损失函数。
进一步地,存储器130中的信贷违约预测程序被处理器执行时还实现以下步骤:
计算所述基于图神经网络的信贷违约预测模型的效果指标。
本实施例通过上述方案,具体通过获取待预测的客户数据;将所述待预测的客户数据输入到预先创建的预测模型中进行预测,得到预测结果,其中,所述预测模型通过图神经网络算法进行训练得到;输出所述预测结果。基于本申请方案,从信贷违约行为所具有的团伙出发,通过构建客户之间的图网络结构,提高了信息利用率,通过图神经网络算法进行训练,得到预测模型。通过此预测模型,能发现团伙性质的信贷违约,实现了信贷违约更好预测,解决了现有信贷违约预测技术效果差的问题。
基于上述终端设备架构但不限于上述架构,提出本申请信贷违约预测方法第一实施例。
参照图2,图2为本申请信贷违约预测方法第一实施例的流程示意图。所述预测方法包括:
步骤S1001,获取待预测的客户数据;
步骤S1002,将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,其中,所述信贷违约预测模型是通过图神经网络算法进行训练得到;
步骤S1003,输出所述预测结果。
以下将对各个步骤进行详细解释:
具体地,在上述方案中,上述步骤S1001,获取待预测的客户数据的方式包括:
获取客户的个人征信信息;
获取客户的信贷违约风险信息;
一般情况下,客户的个人征信信息可以通过进一步加工形成多种特征,比如客户的信贷额度特征、信贷时长特征和个人信息特征等,这些特征的维度也比较丰富,一般都会有成百上千维度,再加上客户是否发生过信贷违约的风险信息,同样,客户的信贷违约风险信息也可以进行加工以形成风险标签。
具体地,在上述方案的步骤S1002中,将通过步骤S1001所获取的客户的个人征信信息和信贷违约风险信息输入到信贷违约预测模型中进行预测,得到预测结果,其中,该信贷违约预测模型是通过图神经网络算法,对初始的机器学习模型进行训练得到的。本实施例所得到的预测结果为客户的违约概率,其中,无风险标签用户的违约概率通过图神经网络算法对图神经网络节点向量计算得到。
具体地,在上述方案的步骤S1003中,对于通过上述步骤所得到的关于客户违约预测结果,通过输出装置进行输出。此输出装置的形式不唯一,可以为一种显示屏,将预测结果输出。
本发明提出的信贷违约预测方法第一实施例,通过获取待预测的客户数据;将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,其中,所述信贷违约预测模型通过图神经网络算法进行训练得到;输出所述预测结果。基于本申请方案,从信贷违约的团伙性质出发,获取客户的个人征信信息和信贷违约历史信息,通过基于图神经网络算法进行训练的信贷预测模型进行预测,实现了对团伙性违约行为的有效预测,改善了现有技术的预测效果。
参照图3,提出本申请信贷违约预测方法第二实施例,图3为本实施例的流程示意图。基于上述图2所示的本申请信贷违约预测方法第一实施例,在步骤S1002,将所述待预测客户数据输入预先创建的信贷违约预测模型中进行预测,得到预测结果之前还包括:
步骤S1000,创建基于图神经网络的信贷违约预测模型。本实施例以步骤S1000在步骤S1001与步骤S1002之间实施。
具体地,步骤S1000,创建基于图神经网络的信贷违约预测模型的方案包括:
获取客户样本数据;
将所述客户样本数据进行处理,得到训练集和验证集;
基于所述训练集,通过图神经网络算法对初始模型进行迭代训练;
根据所述验证集,对当前模型的效果进行评估,得到判定结果;
根据所述判定结果,对当前模型进行如下处理:
若所述判定结果不满足预设标准,继续对模型进行迭代训练;
若所述判定结果满足预设标准,结束迭代训练,得到信贷违约预测模型。
以下将对本方案进行详细解释:
首先,获取客户样本数据;
更为具体地,上述客户样本数据包括:客户的个人征信信息;客户的信贷违约历史信息。其中,客户的个人征信信息包括客户的征信记录,如客户的贷款记录、贷款额度、还款记录等,客户的信贷违约历史信息包括客户之前发生信贷违约行为的相关信息。对于无违约行为的客户,其个人征信信息可以用来提取基础特征,对于发生过违约行为的客户,其信贷违约历史信息可以用来提取风险标签,用来后续对模型的训练。
然后,对所述客户样本数据进行处理,得到训练集和验证集;
更为具体地,对所述客户样本数据进行处理的详细步骤包括:
根据客户样本数据,提取客户的基础特征和风险标签,其中,基础特征来自于客户的个人征信信息,风险标签来自于客户的信贷违约历史信息;
根据客户的基础特征和风险标签,构建图网络结构,图网络结构在互联网的推荐场景下作用非常明显,本申请信贷违约预测方法实施例将其引入到信贷违约的预测场景中去,对客户之间的相关性进行分析处理,能弥补现有技术无法预测团伙性违约的缺陷;
从上述步骤构建的图网络结构中随机抽取少量抽取客户网络节点;
按照预设比例(比如7:3的比例)将抽取的客户网络节点划分为训练集和验证集,并存储至数据存储单元,以备后续模型训练使用。
然后,初始化模型参数,得到初始模型;
其中,模型参数包括网络节点向量、层数K、权重矩阵W和聚合函数等参数,对这些参数进行初始化后,得到初始模型。此初始模型需要进行后续训练,并随着训练不断迭代更新模型的参数。
然后,基于上述步骤获得的训练集,通过图神经网络算法对初始模型进行迭代训练;
更为具体地,本实施例选择GraphSage图神经网络算法对初始模型进行训练。参照图4,图4为图神经网络的结构示意图:
假设图神经网络如图4所示,在此图神经网络中,每个节点的连接情况都是不一样的:节点5和节点1、2、4、6有直连的边,说明这些节点代表的客户具有相关性,比如这些节点代表的客户曾经使用过同一个电话等,那么这些客户就有可能会发生近邻、团伙性质的信贷违约;节点5和节点7、8没有直连的边,节点属性并没有那么接近,说明这些客户相关度不高,发生团伙性质违约行为的可能性也不高。这种图神经网络结构能反应出节点之间的相关性,有利于进行团伙性质的信贷违约预测;
参照图5,图5为GraphSage图神经网络算法的过程示意图:
假设图5中所示的网络用于进行GraphSage图神经网络算法的计算,该网络的层数是3,GraphSage图神经网络的节点向量化计算,需要依赖初始化变量。根据客户信贷历史数据提取的基础特征,可以作为初始化变量输入到模型。GraphSage图神经网络算法通过训练每一层的节点邻居的聚合函数和不同层的特征权重W来进行模型的泛化,模型泛化的具体过程如下:
在图5中,K=2表示2跳信息,提取的信息扩散到节点的邻居的邻居节点,由于有些节点的邻居节点会很多,为了减少计算量,在聚合函数计算过程中会选取限定的t个邻居的邻居节点进行计算。如图5所示,在K=0层,各个节点的向量首先初始化成基础特征,在K=1层的迭代过程中,节点V的向量更新,此过程依赖于K=0网络层的节点V和邻居的2个节点(t=2),节点的更新与当前迭代无关,那么V的更新就等于获取了一度邻居信息。在K=2层的网络层迭代过程中,V的更新只依赖于K=1次迭代的节点,同理,更新V节点向量
Figure BDA0003576672720000111
其中,h1,h2,...,hn表示与V节点有关的所有向量,那么此时V虽然是依赖了K=1层的节点,但是因为K=1层聚合了K=0层的节点信息,所以K=2层迭代过程相当于聚合了两跳的节点信息。比如,K=0层的节点可以通过K=1层的u节点,传到K=2层的节点V。每一次迭代就是对同一层聚合函数AGGREGATE和不同层节点权重W矩阵的计算和更新,权重需要在迭代过程中训练得到。因为模型应用在风控场景,对客户风险进行分类,设置损失函数,并在模型最后一层接一个sigmoid激活函数,进行风险类别判别。
然后,根据上述步骤中得到的验证集,对当前模型的效果进行评估,得到判定结果;
具体地,进行评估的详细步骤包括:
基于所述验证集,得到所述当前模型的预测结果;
根据所述预测结果,计算所述当前模型的损失函数;
根据所述当前模型的损失函数,评估当前模型的误差;
判定所述当前模型的误差,得到判定结果。
以下对上述评估的步骤进行详细解释:
首先,基于上述步骤中所获得的存储在数据单元的验证集,对验证集中客户网络节点的违约行为进行预测,其预测结果为当前模型中网络层输出的预测概率和风险标签,然后,基于此预测结果来计算损失函数,根据损失函数函数评估通过当前模型进行预测所的误差,最后,对于此误差,进行形式整理得到当前模型的判定结果。
更为具体地,本实施例采用FocalLoss函数作为损失函数。参照图6,图6是FocalLoss损失函数的表现形式。
通常情况下,对于二分类问题,GraphSage图神经网络算法中通常会选择cross-entropy(交叉熵)函数作为损失函数。但是,在风控领域,好坏客户的比例往往都是不平衡的,好坏客户比例通常大于40:1,这种情况下选择交叉熵函数作为损失函数,坏客户错分率会特别高,而且,坏客户识别成好客户比好客户识别成坏客户的损失大很多。因此,为了使得上述模型对坏客户有较好的效果,需要加大坏客户错分的惩罚权重。Focal Loss损失函数可以解决样本不均衡问题,坏客户相比好客户更加难区分,损失函数使得难分的客户损失值更大,易分客户损失值更小,使得总体分类更加准确。Focal Loss的数学定义如下:
FL(p)=-(1-p)γlog(p) (1)
其中,γ是控制损失函数的形状;p是预测的真实的概率。
如图6所示,横轴对应p值,纵轴是损失值Loss。图6中各线条对应的γ值从上到下分别为:0、0.5、1、2、5。
当γ为0,Focal Loss退化成交叉熵函数,当γ越大,函数越下凹。γ为2和0对比可以看出,对准确率大的值损失值减少越多,对预测准确率小的值,损失函数减少没那么多,比如,大于0.6的值,loss相对下降比例是很大的,横轴小于0.1时候,相对下降没有那么多。所以,Focal Loss损失函数相对交叉熵,对错分惩罚会更大,特别在样本不均衡中,坏客户更难区分,所以调节γ值大小,可以使得坏客户分类更准确。因此,本申请在GraphSage图神经网络算法中,最后加入Focal Loss损失函数进行分类,改进分类效果。
最后,根据上述步骤中得到的判定结果,对当前模型进行如下处理:
若判定结果不满足标准,继续对模型进行迭代训练;
若判定结果满足标准,结束迭代训练,得到信贷违约预测模型;
其中,判定结果的标准是根据信贷违约预测方法的具体应用场景所定,若对于模型的质量要求较高,那么可以多次进行迭代训练,不断更新模型参数,直到模型的判定结果满足标准,得到符合要求的信贷违约预测模型。
进一步地,在本实施例的上述方案中,构建基于图神经网络的信贷违约预测模型的方案还包括:
计算信贷违约预测模型的效果指标,通过此效果指标可以有效衡量信贷违约预测模型的效果,方便在后续实际应用中进行维护。
本实施例通过上述方案,具体通过获取客户样本数据;将所述客户样本数据进行处理,得到训练集和验证集;基于所述训练集,通过图神经网络算法对初始模型进行迭代训练;根据所述验证集,对当前模型的效果进行评估,得到判定结果;根据所述判定结果,对当前模型进行如下处理:若所述判定结果不满足预设标准,继续对模型进行迭代训练;若所述判定结果满足预设标准,结束迭代训练,得到基于图神经网络的信贷违约预测模型。基于本实施例方案,从信贷违约的团伙性质出发,将图神经网络用于信贷违约预测的场景之中,构建了基于图神经网络的信贷违约预测模型,有效地利用了客户数据,在有效预测客户违约的基础上,能分析出客户之间的相关性,实现了对近邻客户之间所发生的团伙性质违约的有效预测,改善了现有信贷违约预测技术的效果。
基于上述图3所示的本申请信贷违约预测方法第二实施例的流程示意图,提出本申请信贷违约预测方法第三实施例。
在上述图3所示的本申请信贷违约预测方法第二实施例的基础上,本实施例采用line直推式图神经网络算法代替GraphSage图神经网络算法对模型进行训练。
直推式图神经网络算法是根据“封闭世界”的假设,通过当前训练集进行学习,并且直接推广到给定的数据上,相比于归纳式的图神经网络算法(如GraphSage),在图神经网络的规模达到一定规模后,直推式学习过程训练的代价较大,时间较长,因此只适合于图神经网络较小的情况。
本实施例的具体方案与基于图3的本申请信贷违约预测方法第二实施例相同,只是采用line直推式图神经网络算法来代替GraphSage图神经网络算法对模型进行训练,最后得到基于图神经网络的信贷违约预测模型。
本实施例通过上述方案,相比于本申请信贷违约预测方法第二实施例,采用line图神经网络算法代替GraphSage图神经网络算法进行训练。对于规模较小的图网络,本实施例具备与上述本申请第二实施例相同的有益效果。本实施例扩大了本申请信贷违约预测方法的应用范围,增强了本申请信贷违约预测方法在不同情况下的适应能力。
此外,本申请实施例提出一种信贷违约预测装置,所述预测装置包括:
数据获取模块,用于获取待预测的客户数据;
数据预测模块,用于将所述待预测的客户数据输入到预先创建的信贷违约预测模型中,得到预测结果,其中,所述信贷预测模型通过图神经网络算法进行训练得到;
数据输出模块,用于输出所述预测结果。
进一步地,在上述方案中,本实施例中所述预测装置还包括:
模型训练模块,用于对初始预测模型进行训练,得到基于图神经网络的信贷违约预测模型。
本实施例实现基于图神经网络的信贷违约预测的原理及实施过程,请参照上述各实施例,在此不再赘述。
此外,本申请实施例还提出一种终端设备,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的基于图神经网络的信贷违约预测程序,所述预测程序被所述处理器执行时实现如上所述基于图神经网络的信贷违约预测方法的步骤。
由于本信贷违约预测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
此外,本申请实施例还提出一种计算机可读存储介质,所述计算机可读存储介质上存储有信贷违约预测程序,所述信贷违约预测程序被处理器执行时实现如上所述的基于图神经网络的信贷预测方法的步骤。
由于所述信贷违约预测程序被处理器执行时,采用了前述所有实施例的全部技术方案,因此至少具有前述所有实施例的全部技术方案所带来的所有有益效果,在此不再一一赘述。
相比现有技术,本申请实施例提出的基于时空图网络的动态多元的信贷违约预测预测的方法、装置、终端设备以及存储介质,通过获取待预测的网络节点数据;将待预测的网络节点数据输入到预先创建的预测模型中进行预测,得到预测结果;输出预测结果为异常的网络节点,其中,所述预测模型基于网络节点之间的属性相关性与时空依赖性,融入网络外部因素训练得到;输出所述预测结果为异常的网络节点。基于本申请方案,从现实世界中网络节点的数据中提取出属性相关性与时空依赖性关系,经过训练得到基于时空图网络的动态多元异常预测模型,通过该模型对网络节点进行预测,能准确地得到网络节点状态,输出异常网络节点,解决信贷违约预测的有效预测问题。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,被控终端,或者网络设备等)执行本申请每个实施例的方法。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利保护范围内。

Claims (13)

1.一种信贷违约预测方法,其特征在于,所述信贷违约预测方法包括:
获取待预测的客户数据;
将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,其中,所述信贷违约预测模型是通过图神经网络算法进行训练得到;
输出所述预测结果。
2.根据权利要求1所述的信贷违约的预测方法,其特征在于,所述获取待预测的客户数据的方式包括:
获取客户的个人征信信息;
获取客户的信贷违约风险信息。
3.根据权利要求1所述的信贷违约的预测方法,其特征在于,所述将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果的步骤之前还包括:
创建基于图神经网络的信贷违约预测模型。
4.根据权利要求3所述的信贷违约预测的预测方法,其特征在于,所述创建基于图神经网络的信贷违约预测模型的步骤包括:
获取客户样本数据;
将所述客户样本数据进行处理,得到训练集和验证集;
基于所述训练集,通过图神经网络算法对初始模型进行迭代训练;
根据所述验证集,对当前模型的效果进行评估,得到判定结果;
根据所述判定结果,对当前模型进行如下处理:
若所述判定结果不满足预设标准,继续对模型进行迭代训练;
若所述判定结果满足预设标准,结束迭代训练,得到信贷违约预测模型。
5.根据权利要求4所述的信贷违约预测方法,其特征在于,所述将所述客户样本数据进行处理,得到训练集和验证集的步骤包括:
基于所述客户样本数据,提取客户的基础特征和风险标签;
基于所述客户的基础特征和风险标签,构建图网络结构;
通过预设方法,从所述图网络结构中抽取客户网络节点;
按照预设比例将所述客户网络节点划分为训练集和验证集;
将所述训练集和验证集作存储至数据存储单元。
6.根据权利要求4所述的信贷违约预测方法,其特征在于,所述基于所述训练集,通过图神经网络算法对初始模型进行迭代训练的步骤之前还包括:
初始化模型参数,得到初始模型。
7.根据权利要求4所述的信贷违约预测方法,其特征在于,所述基于所述验证集,对当前模型进行评估,得到判定结果的步骤包括:
基于所述验证集,得到所述当前模型的预测结果;
根据所述预测结果,计算所述当前模型的损失函数;
根据所述当前模型的损失函数,评估当前模型的误差;
判定所述当前模型的误差,得到判定结果。
8.根据权利要求7所述的信贷违约预测方法,其特征在于,所述根据所述当前模型的预测结果,计算所述当前模型的损失函数的步骤包括:
根据所述当前模型的预测结果,得到预测概率和风险标签;
根据所述预测概率和风险标签,计算损失函数。
9.根据权利要求4所述的信贷违约预测方法,其特征在于,所述创建基于图神经网络的信贷违约预测模型的步骤之后还包括:
计算所述基于图神经网络的信贷违约预测模型的效果指标。
10.一种信贷违约的预测装置,其特征在于,所述信贷违约的预测装置包括:
数据获取模块,用于获取待预测的客户数据;
预测模块,用于将所述待预测的客户数据输入到预先创建的信贷违约预测模型中进行预测,得到预测结果,其中,所述信贷违约预测模型是通过图神经网络算法进行训练得到;
输出模块,用于输出所述预测结果。
11.根据权利要求10所述的信贷违约预测的预测装置,其特征在于,所述信贷违约预测的预测装置还包括:
模型训练模块,用于对初始预测模型进行训练,得到基于图神经网络的信贷违约预测模型。
12.一种终端设备,其特征在于,所述终端设备包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信贷违约预测程序,所述信贷违约预测程序被所述处理器执行时实现如权利要求1-9中任一项所述的信贷违约预测方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有信贷违约预测程序,所述信贷违约预测程序被处理器执行时实现如权利要求1-9中任一项所述的信贷违约预测方法的步骤。
CN202210336048.4A 2022-03-31 2022-03-31 信贷违约预测方法、装置、终端设备以及存储介质 Pending CN114626941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210336048.4A CN114626941A (zh) 2022-03-31 2022-03-31 信贷违约预测方法、装置、终端设备以及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210336048.4A CN114626941A (zh) 2022-03-31 2022-03-31 信贷违约预测方法、装置、终端设备以及存储介质

Publications (1)

Publication Number Publication Date
CN114626941A true CN114626941A (zh) 2022-06-14

Family

ID=81905379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210336048.4A Pending CN114626941A (zh) 2022-03-31 2022-03-31 信贷违约预测方法、装置、终端设备以及存储介质

Country Status (1)

Country Link
CN (1) CN114626941A (zh)

Similar Documents

Publication Publication Date Title
Bi et al. A big data clustering algorithm for mitigating the risk of customer churn
Lima et al. Domain knowledge integration in data mining using decision tables: case studies in churn prediction
CN111582538B (zh) 一种基于图神经网络的社群价值预测方法及系统
CN112528110A (zh) 确定实体业务属性的方法及装置
CN112633962A (zh) 业务推荐方法、装置、计算机设备和存储介质
JP6971514B1 (ja) 情報処理装置、情報処理方法及びプログラム
US20220414470A1 (en) Multi-Task Attention Based Recurrent Neural Networks for Efficient Representation Learning
CN113657990A (zh) 一种蚁狮算法优化narx神经网络风险预测系统及方法
CN115964568A (zh) 一种基于边缘缓存的个性化推荐方法
CN115718826A (zh) 图结构数据中的目标节点分类方法、系统、设备及介质
CN112989182A (zh) 信息处理方法、装置、信息处理设备及存储介质
US20240161117A1 (en) Trigger-Based Electronic Fund Transfers
CN111709766A (zh) 一种用户行为预测方法、装置、存储介质及电子设备
CN116467466A (zh) 基于知识图谱的编码推荐方法、装置、设备及介质
Li et al. An improved genetic-XGBoost classifier for customer consumption behavior prediction
US20230004869A1 (en) Machine-learning techniques for evaluating suitability of candidate datasets for target applications
CN115600818A (zh) 多维评分方法、装置、电子设备和存储介质
CN114626941A (zh) 信贷违约预测方法、装置、终端设备以及存储介质
CN112884028A (zh) 一种系统资源调整方法、装置及设备
CN112818235A (zh) 基于关联特征的违规用户识别方法、装置和计算机设备
CN117009883B (zh) 对象分类模型构建方法、对象分类方法、装置和设备
US11971900B2 (en) Rule-based data transformation using edge computing architecture
US20240070466A1 (en) Unsupervised Labeling for Enhancing Neural Network Operations
US11928128B2 (en) Construction of a meta-database from autonomously scanned disparate and heterogeneous sources
US20230351169A1 (en) Real-time prediction of future events using integrated input relevancy

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination