CN115131131A - 面向不平衡数据集多阶段集成模型的信用风险评估方法 - Google Patents

面向不平衡数据集多阶段集成模型的信用风险评估方法 Download PDF

Info

Publication number
CN115131131A
CN115131131A CN202210795515.XA CN202210795515A CN115131131A CN 115131131 A CN115131131 A CN 115131131A CN 202210795515 A CN202210795515 A CN 202210795515A CN 115131131 A CN115131131 A CN 115131131A
Authority
CN
China
Prior art keywords
credit
learning rate
neural network
network model
test set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210795515.XA
Other languages
English (en)
Inventor
王鲁
郑家皓
陈远高
姚建荣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang University of Finance and Economics
Original Assignee
Zhejiang University of Finance and Economics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang University of Finance and Economics filed Critical Zhejiang University of Finance and Economics
Priority to CN202210795515.XA priority Critical patent/CN115131131A/zh
Publication of CN115131131A publication Critical patent/CN115131131A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明涉及一种面向不平衡数据集多阶段集成模型的信用风险评估方法,属于个人信用评估技术领域,在数据预处理步骤、神经网络模型、参数优化算法三个方面进行了改进,使用改进后的混合采样方法、LSTM—ResNet101混合网络以及动态调整惯性权重的混合粒子群优化算法对个人信用风险评估。混合采样方法包括随机下采样方法和KMeans‑SMOTE算法,一定程度上降低了过拟合程度;通过ResNet101的嵌入,防止LSTM网络因层数加深而出现“退化”问题;使用动态调整惯性权重的混合粒子群优化算法对神经网络中的Adam优化器的学习率进行调优,找到最优学习率,提高了神经网络模型对不平衡信用数据集的评估能力。

Description

面向不平衡数据集多阶段集成模型的信用风险评估方法
技术领域
本发明涉及个人信用评估技术领域,特别是涉及一种面向不平衡数据集多阶段集成模型的信用风险评估方法。
背景技术
个人信用风险评估是商业银行、网上银行等金融载体信贷风险管理的重要内容。个人信用风险评估主要通过大量的客户历史信贷数据信息,借助于统计或机器学习方法,构建信用风险评估模型。进而根据新申请人的相关信息,通过信用风险评估模型来识别新申请人或新申请贷款在未来一段时间内是否会存在违约的风险。
目前,国内已经有一些基于深度神经网络模型对个人信用风险进行评估。吴琼玉等人使用粒子群优化(PSO)算法对BP神经网络进行调优,较大程度提高了对于个人信用风险评估的准确性(吴琼玉,李事成,孙福权.基于PSO-BP的个人信用风险测量模型[P].河北省:CN114119189A,2022-03-01.)。吴等人的发明在目前看来,具有一定的局限性,首先是其使用的BP网络,用现在的研究目光来看,存在数种更适用于信用预测的深度学习方法;其次是其使用的经典粒子群优化算法,该优化算法本身存在一定的缺陷,如过早收敛、算法后期易陷入局部最优等;而且也忽略了在现实中,信用无风险人是风险人的数十上百倍,因此一般需要使用许多方法来更好地解决数据不平衡问题,最常用的就是数据预处理方法。
综上,现有技术仍存在以下不足:1)信用数据通常因为其具有高维度特征的数据结构,存在着特征值与特征值之间、特征值与标签值之间的非线性关系,这会为精确判断贷款者的信用状态带来困难;2)在以后的经济环境下,将贷款人仅区分为信用良好与信用不良的两类群体也许不再能满足实际的需求,可能更需要对贷款人进行多分类评估;3)对于数据不平衡问题,还存在对成本敏感的解决方案以及集成解决方案可以继续融入,以增强模型的性能。
发明内容
本发明的目的是提供一种面向不平衡数据集多阶段集成模型的信用风险评估方法,以提高神经网络模型对不平衡信用数据集的评估能力。
为实现上述目的,本发明提供了如下方案:
一种面向不平衡数据集多阶段集成模型的信用风险评估方法,包括:
获取信贷用户的信用数据集,并将所述信用数据集划分为训练集和测试集;所述信用数据集的特征值为信贷用户的特征数据,标签值为信贷用户的信用状态;
采用KMeans-SMOTE方法增加训练集中的少数类样本集数量,并通过随机下采样方法减少训练集中的多数类样本数量,获得平衡后的训练集;
构建包含LSTM网络和ResNet101网络的混合神经网络模型;
根据训练集、平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法优化混合神经网络模型,获得优化后的混合神经网络模型;
将待评估信贷用户的特征数据输入优化后的混合神经网络模型,输出待评估信贷用户的信用状态。
可选的,所述获取信贷用户的信用数据集,并将所述信用数据集划分为训练集和测试集,具体包括:
获取多个公开的信贷用户的特征数据和信用状态,构成信用数据集;
对信用数据集中的特征数据进行预处理,获得有效的特征数据,从而形成有效的信用数据集;所述预处理包括缺失值补充和特征值缩放;
将有效的信用数据集按照8:2的比例划分为训练集和测试集。
可选的,所述混合神经网络模型包括:两个LSTM网络、两个Dropout操作层、两个ResNet101网络和一个全连接层;
一个LSTM网络、一个Dropout操作层、一个ResNet101网络、另一个LSTM网络、另一个Dropout操作层、另一个ResNet101网络和全连接层依次连接;
所述ResNet101网络包括依次连接的一个输入7*7*64的卷积层、33个构建块和一个全连接层;每个构建块为3层。
可选的,所述根据训练集、平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法优化混合神经网络模型,获得优化后的混合神经网络模型,具体包括:
根据平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法调整混合神经网络模型,确定混合神经网络模型的最优学习率;
将最优学习率设置为混合神经网络模型中Adam学习器的学习率,并使混合神经网络模型对信用数据集划分得到的训练集进行学习;
利用测试集对学习后的混合神经网络模型进行测试,并将测试通过的混合神经网络模型确定为优化后的混合神经网络模型。
可选的,所述根据平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法调整混合神经网络模型,确定混合神经网络模型的最优学习率,具体包括:
步骤1:以Adam学习器的学习率为优化参数,设置粒子群优化算法的维度和粒子数均为1,并预设最大迭代次数;
步骤2:利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得第一次优化迭代的学习率和测试集损失值的最小值;
步骤3:将第一次优化迭代的学习率设置为最优学习率并保存测试集损失值的最小值;
步骤4:依据公式
Figure BDA0003731792430000031
对惯性权重进行动态调整,并在所述最优学习率下利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得本次优化迭代的学习率和测试集损失值的最小值;其中,w为动态调整后的惯性权重,wmin为惯性权重的最小值,wmax为惯性权重的最大值,t为当前迭代次数,tmax为最大迭代次数,σ为一正小数,β(p,q)为使用贝塔分布产生的一个随机数;
步骤5:若本次优化迭代的测试集损失值的最小值小于上一次优化迭代的测试集损失值的最小值,则将本次优化迭代的学习率设置为最优学习率并保存本次优化迭代的测试集损失值的最小值;
步骤6:若本次优化迭代的测试集损失值的最小值大于或等于上一次优化迭代的测试集损失值的最小值,则最优学习率不变并保存上一次优化迭代的测试集损失值的最小值;
步骤7:重复进行步骤4,直至出现三个最优学习率;
步骤8:采用最新的最优学习率,重复步骤4,获得当前优化迭代的学习率和测试集损失值的最小值;
步骤9:若当前优化迭代的测试集损失值的最小值小于目前最优学习率对应的损失值,则通过公式
Figure BDA0003731792430000041
对粒子位置进行更新并保存当前优化迭代的测试集损失值的最小值;其中,xr1,j、xr2,j、xr3,j为差分进化中的三个随机个体,且r1≠r2≠r3,F为比例因子,CR为交叉概率,rand可以生成0到1之间的随机数;
步骤10:若当前优化迭代的测试集损失值的最小值大于或等于目前最优学习率对应的损失值,则仍将目前最优学习率作为最优学习率并保存目前测试集损失值的最小值;
步骤11:重复进行步骤8至步骤10,直至迭代次数大于或等于最大迭代次数,获得最大迭代次数内的最优学习率,作为混合神经网络模型的最优学习率。
可选的,所述将待评估信贷用户的特征数据输入优化后的混合神经网络模型,输出待评估信贷用户的信用状态,具体包括:
将待评估信贷用户的特征数据输入优化后的混合神经网络模型,生成输出向量;
若输出向量中的数值小于0.5,则将数值四舍五入为0,并判定待评估信贷用户为信用状况良好的借款人;
若输出向量中的数值大于或等于0.5,则将数值四舍五入为1,并判定待评估信贷用户为存在信用风险的借款人。
一种面向不平衡数据集多阶段集成模型的信用风险评估系统,包括:
信用数据集获取模块,用于获取信贷用户的信用数据集,并将所述信用数据集划分为训练集和测试集;所述信用数据集的特征值为信贷用户的特征数据,标签值为信贷用户的信用状态;
平衡模块,用于采用KMeans-SMOTE方法增加训练集中的少数类样本集数量,并通过随机下采样方法减少训练集中的多数类样本数量,获得平衡后的训练集;
神经网络构建模块,用于构建包含LSTM网络和ResNet101网络的混合神经网络模型;
优化模块,用于根据训练集、平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法优化混合神经网络模型,获得优化后的混合神经网络模型;
应用模块,用于将待评估信贷用户的特征数据输入优化后的混合神经网络模型,输出待评估信贷用户的信用状态。
可选的,所述混合神经网络模型包括:两个LSTM网络、两个Dropout操作层、两个ResNet101网络和一个全连接层;
一个LSTM网络、一个Dropout操作层、一个ResNet101网络、另一个LSTM网络、另一个Dropout操作层、另一个ResNet101网络和全连接层依次连接;
所述ResNet101网络包括依次连接的一个输入7*7*64的卷积层、33个构建块和一个全连接层;每个构建块为3层。
可选的,所述优化模块,具体包括:
最优学习率确定子模块,用于根据平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法调整混合神经网络模型,确定混合神经网络模型的最优学习率;
训练子模块,用于将最优学习率设置为混合神经网络模型中Adam学习器的学习率,并使混合神经网络模型对信用数据集划分得到的训练集进行学习;
测试子模块,用于利用测试集对学习后的混合神经网络模型进行测试,并将测试通过的混合神经网络模型确定为优化后的混合神经网络模型。
可选的,所述最优学习率确定子模块,具体包括:
预设单元,用于以Adam学习器的学习率为优化参数,设置粒子群优化算法的维度和粒子数均为1,并预设最大迭代次数;
第一次优化迭代单元,用于利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得第一次优化迭代的学习率和测试集损失值的最小值;
第一次迭代结果设置单元,用于将第一次优化迭代的学习率设置为最优学习率并保存测试集损失值的最小值;
动态优化迭代单元,用于依据公式
Figure BDA0003731792430000061
Figure BDA0003731792430000062
对惯性权重进行动态调整,并在所述最优学习率下利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得本次优化迭代的学习率和测试集损失值的最小值;其中,w为动态调整后的惯性权重,wmin为惯性权重的最小值,wmax为惯性权重的最大值,t为当前迭代次数,tmax为最大迭代次数,σ为一正小数,β(p,q)为使用贝塔分布产生的一个随机数;
第一结果更新单元,用于若本次优化迭代的测试集损失值的最小值小于上一次优化迭代的测试集损失值的最小值,则将本次优化迭代的学习率设置为最优学习率并保存本次优化迭代的测试集损失值的最小值;
第二结果更新单元,用于若本次优化迭代的测试集损失值的最小值大于或等于上一次优化迭代的测试集损失值的最小值,则最优学习率不变并保存上一次优化迭代的测试集损失值的最小值;
重复调用单元,用于重复调用动态优化迭代单元,直至出现三个最优学习率;
当前优化迭代单元,用于采用最新的最优学习率,重复调用动态优化迭代单元,获得当前优化迭代的学习率和测试集损失值的最小值;
粒子位置更新单元,用于若当前优化迭代的测试集损失值的最小值小于目前最优学习率对应的损失值,则通过公式
Figure BDA0003731792430000071
对粒子位置进行更新并保存当前优化迭代的测试集损失值的最小值;其中,xr1,j、xr2,j、xr3,j为差分进化中的三个随机个体,且r1≠r2≠r3,F为比例因子,CR为交叉概率,rand可以生成0到1之间的随机数;
第三结果更新单元,用于若当前优化迭代的测试集损失值的最小值大于或等于目前最优学习率对应的损失值,则仍将目前最优学习率作为最优学习率并保存目前测试集损失值的最小值;
最优学习率确定单元,用于重复调用当前优化迭代单元至第三结果更新单元,直至迭代次数大于或等于最大迭代次数,获得最大迭代次数内的最优学习率,作为混合神经网络模型的最优学习率。
根据本发明提供的具体实施例,本发明公开了以下技术效果:
本发明公开一种面向不平衡数据集多阶段集成模型的信用风险评估方法,在数据预处理步骤、神经网络模型、参数优化算法三个方面都进行了改进,使用改进后的混合采样方法、LSTM—ResNet101混合网络以及动态调整惯性权重的混合粒子群优化算法来对个人信用风险评估提出了一种全新的、更适用于不平衡信用数据集、更精确的方法。混合采样方法包括了随机下采样方法和KMeans-SMOTE算法,一定程度上降低了过拟合程度,并在一定程度上减少了重要信息丢失而引起的损失;通过ResNet101的嵌入,防止LSTM网络因层数加深而出现“退化”问题;再使用动态调整惯性权重的混合粒子群优化算法,对神经网络中的Adam优化器的学习率进行有限迭代次数的调优,找到该类情况下的最优学习率,提高了神经网络模型对不平衡信用数据集的评估能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的面向不平衡数据集多阶段集成模型的信用风险评估方法的流程图;
图2为本发明实施例提供的面向不平衡数据集多阶段集成模型的信用风险评估方法的原理图;
图3为本发明实施例提供的多阶段改进模型与五种基础分类器在数据集1上的评价指标柱状图;
图4为本发明实施例提供的多阶段改进模型与五种基础分类器在数据集2上的评价指标柱状图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明的目的是提供一种面向不平衡数据集多阶段集成模型的信用风险评估方法,以提高神经网络模型对不平衡信用数据集的评估能力。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
本发明实施例提供了一种面向不平衡数据集多阶段集成模型的信用风险评估方法,如图1-2所示,包括以下步骤:
步骤S1,获取信贷用户的信用数据集,并将所述信用数据集划分为训练集和测试集;所述信用数据集的特征值为信贷用户的特征数据,标签值为信贷用户的信用状态。
收集公开数据集,该数据集包括了信贷用户的历史信息,包括了他们的若干个特征数据(特征值)以及信用状态(标签值)。
将数据集导入后,进行包括缺失值补充、特征值缩放等过程在内的特征值处理,获得一个可处理数据。
将数据集按照8:2的比例分为训练集和测试集。
步骤S2,采用KMeans-SMOTE方法增加训练集中的少数类样本集数量,并通过随机下采样方法减少训练集中的多数类样本数量,获得平衡后的训练集。
步骤S3,构建包含LSTM网络和ResNet101网络的混合神经网络模型。
详细构建过程如下:
(1)创建神经网络模型,首先将输入向量的形状变为(a,b)的形式,这代表着将输入向量变为若干个b阶的、拥有a个元素的张量;
(2)加入一层LSTM网络,并且用上l2正则化(使用默认参数0.01),以此防止神经网络过拟合;
(3)再加入Dropout操作,参数在经过试验后,设置为0.5,同样是为了防止出现过拟合现象;
(4)通过首先创建一个输入7*7*64的卷积层,然后经过3+4+23+3=33个构建块,每个构建块为3层,最后通过一个全连接层来构建起ResNet101网络,并将其插入上一步Dropout操作之后,作为一层神经网络;
(5)再重复(2)和(3)两个步骤;
(6)通过构建一个单元数为1,激活函数为“sigmoid”的全连接层,将结果输出;
(7)在model.compile步骤中,将优化器设置为Adam优化器,其学习率设置为一个区间的随机数,损失函数和评价函数都使用方法的默认值;
(8)混合神经网络模型搭建完成。
步骤S4,根据训练集、平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法优化混合神经网络模型,获得优化后的混合神经网络模型。
混合神经网络模型搭建完成,令其对训练集进行学习,在调试模型的同时,开始对其进行优化操作:
1)粒子群优化算法中,维度、粒子数都设置为1(因为只考虑Adam学习器的学习率这一个变量),设置一定的迭代次数,被优化参数最大值和最小值分别设置在一定的范围内,粒子设置每次移动的最大速度,在第一次优化迭代中,神经网络调试完限定的epoch次数后,将该学习率定为目前的最优学习率并保存该次迭代中验证集损失值的最小值;
2)在第二次优化迭代中,粒子移动速度根据公式(1)进行变化。其中vi是粒子的速度,c1、c2都设置为2,因为本发明中粒子数为1,因此pbesti与gbesti相同,xi为粒子的当前位置(粒子移动速度设置一个最大值,不得超过这个值),而w则不同于经典粒子群优化算法中的固定值,而是一个如公式(2)所示动态变化的惯性权重,其中wmin为惯性权重设置的最小值,wmax为设置的最大值,t为当前迭代次数,tmax为最大迭代次数,σ为一正小数,β(p,q)则是使用贝塔分布产生的一个随机数;
vi=w*vi+c1*rand(0,1)*(pbesti-xi)+c2*rand(0,1)*(gbesti-xi) (1)
Figure BDA0003731792430000101
3)粒子位置按照公式(3)进行改变;
xi=xi+vi (3)
4)混合神经网络在新的学习率下再一次调试完限定的epoch次数后,通过验证集的损失值比较,若该次的损失值较小,则该次学习率取代上次学习率为最优学习率并保存该次迭代的验证集损失值的最小值(训练集与验证集的比例为8:2),反之则最优学习率不变;
5)按照前三步进行若干次调优操作,直到出现三个最优学习率后,通过引入差分进化操作来提高全局搜索能力,避免陷入局部最优。具体操作为,先重复2)和3),再在新的学习率下调试混合神经网络,若该次损失值最小值与目前最优学习率对应的损失值相比更小,则通过公式(4)对粒子位置进行更新并保存该次迭代的验证集损失值的最小值,式中,xr1,j、xr2,j、xr3,j为再差分进化中的三个随机个体,且r1≠r2≠r3≠i(而放到IDWPSO中,这三个随机个体被视为当前迭代次数前被列入最优学习率列表的三个最近数),F为比例因子,CR为交叉概率,rand可以生成0到1之间的随机数;反之,则最优学习率不变;
Figure BDA0003731792430000111
6)重复前一步操作,直至迭代结束,此时即可找出迭代次数内的最优学习率;
7)将最优学习率设置为混合神经网络中Adam学习器的学习率,先使混合神经网络对训练集进行学习,然后通过调试后的混合神经网络对测试集进行预测;
8)生成输出向量后,将其中小于0.5的数值四舍五入为0(即信用状况良好的借款人),将其中大于等于0.5的数值四舍五入为1(即存在信用风险的借款人);
9)将预测结果与测试集的标签值进行比较,生成混淆矩阵,并得出TP、TN、FP、FN四个值;
10)通过TP、TN、FP、FN四个值计算出Accuracy、Precision、Specificity和Recall四个二级指标;
11)再通过Precision和Recall计算出G-mean和F1-score两个三级指标;
12)重复1)-11)步骤十九次,得出二十次的评价指标结果的平均值。
13)步骤S1至步骤S4为模型的整体运行流程,再重复运行模型四十九次,得出模型整体运行五十次地评价指标平均值及标准差,以此评估模型。
步骤S5,将待评估信贷用户的特征数据输入优化后的混合神经网络模型,输出待评估信贷用户的信用状态。
本发明意在提高神经网络模型对不平衡信用数据集的评估能力,防止因不平衡程度提高,模型性能出现下滑的情况。因此,选取了两个公开的信用数据集,如表1所示:
表1初始信用数据表
Figure BDA0003731792430000112
Figure BDA0003731792430000121
为了体现与现有技术相比所具有的有益效果,特意选取了分类与回归树(classification andregressiontree,CART)、K近邻(KNearNeighbor,KNN)、Logistic回归(Logistic Regression,LR)、朴素贝叶斯(Naive Bayes,NB)、支持向量机(SupportVectorMachine,SVM)这五个基础分类器。
为了更好地评价本发明相对于现有技术的差异,不仅选取了准确度、精确度、特异度、召回率这四个二级指标,也选取了G-mean、F1-Score这两个更能评价模型在不平衡数据集上的性能的三级指标;
生成如下的评价指标表2、表3以及图3、图4所示的评价指标图:
表2:不平衡信用数据集评估结果(数据1)
Figure BDA0003731792430000122
通过表2可以看出,多阶段改进模型在极不平衡数据集(数据集1)上,在除了召回率以外的其他评价指标上都具有很大的优势。根据Recall的计算公式,出现这种现象的原因是多阶段改进模型削弱了分类器识别多数类样本的能力,加强了分类器识别少数样本的能力,这有利于金融机构在实际应用中准确识别有信用违约风险的用户,减少财务损失。在准确度、精确度、特异度、G-mean、F1-Score上,多阶段改进模型分别超过了五个基础分类器最大值0.47%、1.22%、6.38%、2.88%、0.31%。
表3:不平衡信用数据集评估结果(数据2)
Figure BDA0003731792430000131
通过表3可以看出,多阶段改进模型(优化后的混合神经网络模型)在较不平衡数据集(数据集2)上,同样在除了召回率以外的其他评价指标上都具有很大的优势。但是与数据集1不同的是,多阶段改进模型在数据集2上的召回率仅低于NB,但高于其他四个基础分类器。在准确度、精确度、特异度、G-mean、F1-Score上,多阶段改进模型分别超过了五个基础分类器最大值3.4%、8.4%、2.36%、2.02%、4.66%。
本发明考虑了之前发明的不足之处,在数据预处理步骤、神经网络模型、参数优化算法三个方面都进行了改进,使用改进后的混合采样方法、LSTM—ResNet101混合网络以及IDWPSO算法来对个人信用风险评估提出了一种全新的、更适用于不平衡信用数据集、更精确的方法。混合采样方法包括了随机欠采样方法和KMeans-SMOTE算法,一定程度上降低了过拟合程度,并在一定程度上减少了重要信息丢失而引起的损失;LSTM网络在过往实验中已被学者们认定为在信用评估方面具有优越性能的神经网络模型,再通过ResNet101的嵌入,防止LSTM网络因层数加深而出现“退化”问题;再使用IDWPSO算法,对神经网络中的Adam优化器的学习率进行有限迭代次数的调优,找到该类情况下的最优学习率。通过实验的验证,三个改进点的综合运用使得模型的不平衡信用数据评估能力获得了提升。
本发明还提供了一种面向不平衡数据集多阶段集成模型的信用风险评估系统,包括:
信用数据集获取模块,用于获取信贷用户的信用数据集,并将所述信用数据集划分为训练集和测试集;所述信用数据集的特征值为信贷用户的特征数据,标签值为信贷用户的信用状态;
平衡模块,用于采用KMeans-SMOTE方法增加训练集中的少数类样本集数量,并通过随机下采样方法减少训练集中的多数类样本数量,获得平衡后的训练集;
神经网络构建模块,用于构建包含LSTM网络和ResNet101网络的混合神经网络模型;
优化模块,用于根据训练集、平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法优化混合神经网络模型,获得优化后的混合神经网络模型;
应用模块,用于将待评估信贷用户的特征数据输入优化后的混合神经网络模型,输出待评估信贷用户的信用状态。
混合神经网络模型包括:两个LSTM网络、两个Dropout操作层、两个ResNet101网络和一个全连接层;
一个LSTM网络、一个Dropout操作层、一个ResNet101网络、另一个LSTM网络、另一个Dropout操作层、另一个ResNet101网络和全连接层依次连接;
所述ResNet101网络包括依次连接的一个输入7*7*64的卷积层、33个构建块和一个全连接层;每个构建块为3层。
优化模块,具体包括:
最优学习率确定子模块,用于根据平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法调整混合神经网络模型,确定混合神经网络模型的最优学习率;
训练子模块,用于将最优学习率设置为混合神经网络模型中Adam学习器的学习率,并使混合神经网络模型对信用数据集划分得到的训练集进行学习;
测试子模块,用于利用测试集对学习后的混合神经网络模型进行测试,并将测试通过的混合神经网络模型确定为优化后的混合神经网络模型。
最优学习率确定子模块,具体包括:
预设单元,用于以Adam学习器的学习率为优化参数,设置粒子群优化算法的维度和粒子数均为1,并预设最大迭代次数;
第一次优化迭代单元,用于利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得第一次优化迭代的学习率和测试集损失值的最小值;
第一次迭代结果设置单元,用于将第一次优化迭代的学习率设置为最优学习率并保存测试集损失值的最小值;
动态优化迭代单元,用于依据公式
Figure BDA0003731792430000151
Figure BDA0003731792430000152
对惯性权重进行动态调整,并在所述最优学习率下利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得本次优化迭代的学习率和测试集损失值的最小值;其中,w为动态调整后的惯性权重,wmin为惯性权重的最小值,wmax为惯性权重的最大值,t为当前迭代次数,tmax为最大迭代次数,σ为一正小数,β(p,q)为使用贝塔分布产生的一个随机数;
第一结果更新单元,用于若本次优化迭代的测试集损失值的最小值小于上一次优化迭代的测试集损失值的最小值,则将本次优化迭代的学习率设置为最优学习率并保存本次优化迭代的测试集损失值的最小值;
第二结果更新单元,用于若本次优化迭代的测试集损失值的最小值大于或等于上一次优化迭代的测试集损失值的最小值,则最优学习率不变并保存上一次优化迭代的测试集损失值的最小值;
重复调用单元,用于重复调用动态优化迭代单元,直至出现三个最优学习率;
当前优化迭代单元,用于采用最新的最优学习率,重复调用动态优化迭代单元,获得当前优化迭代的学习率和测试集损失值的最小值;
粒子位置更新单元,用于若当前优化迭代的测试集损失值的最小值小于目前最优学习率对应的损失值,则通过公式
Figure BDA0003731792430000161
对粒子位置进行更新并保存当前优化迭代的测试集损失值的最小值;其中,xr1,j、xr2,j、xr3,j为差分进化中的三个随机个体,且r1≠r2≠r3,F为比例因子,CR为交叉概率,rand可以生成0到1之间的随机数;
第三结果更新单元,用于若当前优化迭代的测试集损失值的最小值大于或等于目前最优学习率对应的损失值,则仍将目前最优学习率作为最优学习率并保存目前测试集损失值的最小值;
最优学习率确定单元,用于重复调用当前优化迭代单元至第三结果更新单元,直至迭代次数大于或等于最大迭代次数,获得最大迭代次数内的最优学习率,作为混合神经网络模型的最优学习率。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处。综上所述,本说明书内容不应理解为对本发明的限制。

Claims (10)

1.一种面向不平衡数据集多阶段集成模型的信用风险评估方法,其特征在于,包括:
获取信贷用户的信用数据集,并将所述信用数据集划分为训练集和测试集;所述信用数据集的特征值为信贷用户的特征数据,标签值为信贷用户的信用状态;
采用KMeans-SMOTE方法增加训练集中的少数类样本集数量,并通过随机下采样方法减少训练集中的多数类样本数量,获得平衡后的训练集;
构建包含LSTM网络和ResNet101网络的混合神经网络模型;
根据训练集、平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法优化混合神经网络模型,获得优化后的混合神经网络模型;
将待评估信贷用户的特征数据输入优化后的混合神经网络模型,输出待评估信贷用户的信用状态。
2.根据权利要求1所述的面向不平衡数据集多阶段集成模型的信用风险评估方法,其特征在于,所述获取信贷用户的信用数据集,并将所述信用数据集划分为训练集和测试集,具体包括:
获取多个公开的信贷用户的特征数据和信用状态,构成信用数据集;
对信用数据集中的特征数据进行预处理,获得有效的特征数据,从而形成有效的信用数据集;所述预处理包括缺失值补充和特征值缩放;
将有效的信用数据集按照8:2的比例划分为训练集和测试集。
3.根据权利要求1所述的面向不平衡数据集多阶段集成模型的信用风险评估方法,其特征在于,所述混合神经网络模型包括:两个LSTM网络、两个Dropout操作层、两个ResNet101网络和一个全连接层;
一个LSTM网络、一个Dropout操作层、一个ResNet101网络、另一个LSTM网络、另一个Dropout操作层、另一个ResNet101网络和全连接层依次连接;
所述ResNet101网络包括依次连接的一个输入7*7*64的卷积层、33个构建块和一个全连接层;每个构建块为3层。
4.根据权利要求1所述的面向不平衡数据集多阶段集成模型的信用风险评估方法,其特征在于,所述根据训练集、平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法优化混合神经网络模型,获得优化后的混合神经网络模型,具体包括:
根据平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法调整混合神经网络模型,确定混合神经网络模型的最优学习率;
将最优学习率设置为混合神经网络模型中Adam学习器的学习率,并使混合神经网络模型对信用数据集划分得到的训练集进行学习;
利用测试集对学习后的混合神经网络模型进行测试,并将测试通过的混合神经网络模型确定为优化后的混合神经网络模型。
5.根据权利要求4所述的面向不平衡数据集多阶段集成模型的信用风险评估方法,其特征在于,所述根据平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法调整混合神经网络模型,确定混合神经网络模型的最优学习率,具体包括:
步骤1:以Adam学习器的学习率为优化参数,设置粒子群优化算法的维度和粒子数均为1,并预设最大迭代次数;
步骤2:利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得第一次优化迭代的学习率和测试集损失值的最小值;
步骤3:将第一次优化迭代的学习率设置为最优学习率并保存测试集损失值的最小值;
步骤4:依据公式
Figure FDA0003731792420000021
对惯性权重进行动态调整,并在所述最优学习率下利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得本次优化迭代的学习率和测试集损失值的最小值;其中,w为动态调整后的惯性权重,wmin为惯性权重的最小值,wmax为惯性权重的最大值,t为当前迭代次数,tmax为最大迭代次数,σ为一正小数,β(p,q)为使用贝塔分布产生的一个随机数;
步骤5:若本次优化迭代的测试集损失值的最小值小于上一次优化迭代的测试集损失值的最小值,则将本次优化迭代的学习率设置为最优学习率并保存本次优化迭代的测试集损失值的最小值;
步骤6:若本次优化迭代的测试集损失值的最小值大于或等于上一次优化迭代的测试集损失值的最小值,则最优学习率不变并保存上一次优化迭代的测试集损失值的最小值;
步骤7:重复进行步骤4,直至出现三个最优学习率;
步骤8:采用最新的最优学习率,重复步骤4,获得当前优化迭代的学习率和测试集损失值的最小值;
步骤9:若当前优化迭代的测试集损失值的最小值小于目前最优学习率对应的损失值,则通过公式
Figure FDA0003731792420000031
对粒子位置进行更新并保存当前优化迭代的测试集损失值的最小值;其中,xr1,j、xr2,j、xr3,j为差分进化中的三个随机个体,且r1≠r2≠r3,F为比例因子,CR为交叉概率,rand可以生成0到1之间的随机数;
步骤10:若当前优化迭代的测试集损失值的最小值大于或等于目前最优学习率对应的损失值,则仍将目前最优学习率作为最优学习率并保存目前测试集损失值的最小值;
步骤11:重复进行步骤8至步骤10,直至迭代次数大于或等于最大迭代次数,获得最大迭代次数内的最优学习率,作为混合神经网络模型的最优学习率。
6.根据权利要求1所述的面向不平衡数据集多阶段集成模型的信用风险评估方法,其特征在于,所述将待评估信贷用户的特征数据输入优化后的混合神经网络模型,输出待评估信贷用户的信用状态,具体包括:
将待评估信贷用户的特征数据输入优化后的混合神经网络模型,生成输出向量;
若输出向量中的数值小于0.5,则将数值四舍五入为0,并判定待评估信贷用户为信用状况良好的借款人;
若输出向量中的数值大于或等于0.5,则将数值四舍五入为1,并判定待评估信贷用户为存在信用风险的借款人。
7.一种面向不平衡数据集多阶段集成模型的信用风险评估系统,其特征在于,包括:
信用数据集获取模块,用于获取信贷用户的信用数据集,并将所述信用数据集划分为训练集和测试集;所述信用数据集的特征值为信贷用户的特征数据,标签值为信贷用户的信用状态;
平衡模块,用于采用KMeans-SMOTE方法增加训练集中的少数类样本集数量,并通过随机下采样方法减少训练集中的多数类样本数量,获得平衡后的训练集;
神经网络构建模块,用于构建包含LSTM网络和ResNet101网络的混合神经网络模型;
优化模块,用于根据训练集、平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法优化混合神经网络模型,获得优化后的混合神经网络模型;
应用模块,用于将待评估信贷用户的特征数据输入优化后的混合神经网络模型,输出待评估信贷用户的信用状态。
8.根据权利要求7所述的面向不平衡数据集多阶段集成模型的信用风险评估系统,其特征在于,所述混合神经网络模型包括:两个LSTM网络、两个Dropout操作层、两个ResNet101网络和一个全连接层;
一个LSTM网络、一个Dropout操作层、一个ResNet101网络、另一个LSTM网络、另一个Dropout操作层、另一个ResNet101网络和全连接层依次连接;
所述ResNet101网络包括依次连接的一个输入7*7*64的卷积层、33个构建块和一个全连接层;每个构建块为3层。
9.根据权利要求7所述的面向不平衡数据集多阶段集成模型的信用风险评估系统,其特征在于,所述优化模块,具体包括:
最优学习率确定子模块,用于根据平衡后的训练集和测试集,采用动态调整惯性权重的混合粒子群优化算法调整混合神经网络模型,确定混合神经网络模型的最优学习率;
训练子模块,用于将最优学习率设置为混合神经网络模型中Adam学习器的学习率,并使混合神经网络模型对信用数据集划分得到的训练集进行学习;
测试子模块,用于利用测试集对学习后的混合神经网络模型进行测试,并将测试通过的混合神经网络模型确定为优化后的混合神经网络模型。
10.根据权利要求9所述的面向不平衡数据集多阶段集成模型的信用风险评估系统,其特征在于,所述最优学习率确定子模块,具体包括:
预设单元,用于以Adam学习器的学习率为优化参数,设置粒子群优化算法的维度和粒子数均为1,并预设最大迭代次数;
第一次优化迭代单元,用于利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得第一次优化迭代的学习率和测试集损失值的最小值;
第一次迭代结果设置单元,用于将第一次优化迭代的学习率设置为最优学习率并保存测试集损失值的最小值;
动态优化迭代单元,用于依据公式
Figure FDA0003731792420000051
Figure FDA0003731792420000052
对惯性权重进行动态调整,并在所述最优学习率下利用平衡后的训练集和测试集按照预设epoch次数调试混合神经网络模型,获得本次优化迭代的学习率和测试集损失值的最小值;其中,w为动态调整后的惯性权重,wmin为惯性权重的最小值,wmax为惯性权重的最大值,t为当前迭代次数,tmax为最大迭代次数,σ为一正小数,β(p,q)为使用贝塔分布产生的一个随机数;
第一结果更新单元,用于若本次优化迭代的测试集损失值的最小值小于上一次优化迭代的测试集损失值的最小值,则将本次优化迭代的学习率设置为最优学习率并保存本次优化迭代的测试集损失值的最小值;
第二结果更新单元,用于若本次优化迭代的测试集损失值的最小值大于或等于上一次优化迭代的测试集损失值的最小值,则最优学习率不变并保存上一次优化迭代的测试集损失值的最小值;
重复调用单元,用于重复调用动态优化迭代单元,直至出现三个最优学习率;
当前优化迭代单元,用于采用最新的最优学习率,重复调用动态优化迭代单元,获得当前优化迭代的学习率和测试集损失值的最小值;
粒子位置更新单元,用于若当前优化迭代的测试集损失值的最小值小于目前最优学习率对应的损失值,则通过公式
Figure FDA0003731792420000061
对粒子位置进行更新并保存当前优化迭代的测试集损失值的最小值;其中,xr1,j、xr2,j、xr3,j为差分进化中的三个随机个体,且r1≠r2≠r3,F为比例因子,CR为交叉概率,rand可以生成0到1之间的随机数;
第三结果更新单元,用于若当前优化迭代的测试集损失值的最小值大于或等于目前最优学习率对应的损失值,则仍将目前最优学习率作为最优学习率并保存目前测试集损失值的最小值;
最优学习率确定单元,用于重复调用当前优化迭代单元至第三结果更新单元,直至迭代次数大于或等于最大迭代次数,获得最大迭代次数内的最优学习率,作为混合神经网络模型的最优学习率。
CN202210795515.XA 2022-07-06 2022-07-06 面向不平衡数据集多阶段集成模型的信用风险评估方法 Pending CN115131131A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210795515.XA CN115131131A (zh) 2022-07-06 2022-07-06 面向不平衡数据集多阶段集成模型的信用风险评估方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210795515.XA CN115131131A (zh) 2022-07-06 2022-07-06 面向不平衡数据集多阶段集成模型的信用风险评估方法

Publications (1)

Publication Number Publication Date
CN115131131A true CN115131131A (zh) 2022-09-30

Family

ID=83382610

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210795515.XA Pending CN115131131A (zh) 2022-07-06 2022-07-06 面向不平衡数据集多阶段集成模型的信用风险评估方法

Country Status (1)

Country Link
CN (1) CN115131131A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116319025A (zh) * 2023-03-22 2023-06-23 云南电网有限责任公司信息中心 一种基于机器学习的零信任网络信任评估方法
CN117557361A (zh) * 2023-11-10 2024-02-13 纬创软件(武汉)有限公司 基于数据分析的用户信用风险评估方法及系统
CN117596156A (zh) * 2023-12-07 2024-02-23 机械工业仪器仪表综合技术经济研究所 一种工业应用5g网络的评估模型的构建方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116319025A (zh) * 2023-03-22 2023-06-23 云南电网有限责任公司信息中心 一种基于机器学习的零信任网络信任评估方法
CN116319025B (zh) * 2023-03-22 2024-01-26 云南电网有限责任公司信息中心 一种基于机器学习的零信任网络信任评估方法
CN117557361A (zh) * 2023-11-10 2024-02-13 纬创软件(武汉)有限公司 基于数据分析的用户信用风险评估方法及系统
CN117557361B (zh) * 2023-11-10 2024-04-26 纬创软件(武汉)有限公司 基于数据分析的用户信用风险评估方法及系统
CN117596156A (zh) * 2023-12-07 2024-02-23 机械工业仪器仪表综合技术经济研究所 一种工业应用5g网络的评估模型的构建方法
CN117596156B (zh) * 2023-12-07 2024-05-07 机械工业仪器仪表综合技术经济研究所 一种工业应用5g网络的评估模型的构建方法

Similar Documents

Publication Publication Date Title
CN115131131A (zh) 面向不平衡数据集多阶段集成模型的信用风险评估方法
CN106021364B (zh) 图片搜索相关性预测模型的建立、图片搜索方法和装置
CN106845717A (zh) 一种基于多模型融合策略的能源效率评价方法
CN107766929A (zh) 模型分析方法及装置
CN111861013B (zh) 一种电力负荷预测方法及装置
CN107180392A (zh) 一种电力企业电费回收数据模拟方法
CN107301604A (zh) 多模型融合评价系统
CN110276679A (zh) 一种面向深度学习的网络个人信贷欺诈行为检测方法
CN110059716A (zh) 一种cnn-lstm-svm网络模型的构建及mooc辍学预测方法
CN109492748A (zh) 一种基于卷积神经网络的电力系统的中长期负荷预测模型建立方法
CN109214444B (zh) 基于孪生神经网络和gmm的游戏防沉迷判定系统及方法
Ruyu et al. A comparison of credit rating classification models based on spark-evidence from lending-club
CN115829683A (zh) 一种基于逆奖赏学习优化的电力积分商品推荐方法及系统
CN113642922A (zh) 一种中小微企业信用评估方法及装置
Liu et al. Stock price trend prediction model based on deep residual network and stock price graph
CN113762591B (zh) 一种基于gru和多核svm对抗学习的短期电量预测方法及系统
Xiao Quantitative investment decision model based on PPO algorithm
CN114004530A (zh) 基于排序支撑向量机的企业电力信用分建模方法及系统
Zhu et al. Loan default prediction based on convolutional neural network and LightGBM
CN117172381A (zh) 基于大数据的风险预测方法
Schebesch et al. Support vector machines for credit scoring: Extension to non standard cases
CN117034046A (zh) 一种基于isodata聚类的柔性负荷可调潜力评估方法
CN116611911A (zh) 基于支持向量机的信用风险预测方法及装置
CN116011871A (zh) 基于空间更新敏感度量化传统村落空间更新可能性的方法
CN114121177A (zh) 基于RegNet_1d模型和积分梯度法的ERα拮抗剂的生物活性预测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination