CN110930237B

CN110930237B - 一种基于sagwo算法的中小企业信用预测分类方法

Info

Publication number: CN110930237B
Application number: CN201911000849.8A
Authority: CN
Inventors: 马汉达; 朱敏
Original assignee: Jiangsu University
Current assignee: Guangzhou Dayu Chuangfu Technology Co ltd
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2023-07-21
Anticipated expiration: 2039-10-21
Also published as: CN110930237A

Abstract

本发明属于数据分类领域，具体涉及一种基于SAGWO算法的中小企业信用预测分类方法；利用征信机构或网络公开的中小企业信用数据集，采用一种基于模拟退火思想融合灰狼算法改进支持向量机模型的方法；首先，引入模拟退火思想，使灰狼算法在现有性能的基础上更好地排除局部最优解，获得更好的全局收敛性，以提高灰狼算法的全局和局部搜索能力，从而利用改进的支持向量机模型对中小企业信用样本进行数据分类，使优化过的模型进一步提高中小企业信用的分类准确率，同时也提高了支持向量机分类模型的效率。

Description

一种基于SAGWO算法的中小企业信用预测分类方法

技术领域

本发明属于数据分类领域，具体涉及一种基于SAGWO算法的中小企业信用预测分类方法。

背景技术

我国民营中小企业自改革开放以来大力驱动经济发展，已经成为我国在技术创新方面的中流砥柱，然而它们自身的发展主要受到融资难的问题，而造成融资难的重要原因就是信用贷款问题。面对银行对中小企业不合理的信用预测分类设置，建立一套健全的中小企业信用预测分类方法是亟待解决的问题。因此通过使用数据挖掘技术中的重要方法支持向量机，将模拟退火思想融合灰狼算法，进行支持向量机优化，提出并构建更加高效的分类模型，不仅可以完善传统的中小企业信用预测分类方法，而且可以给灰狼算法的发展提供一种新的思路，对于进一步优化SVM模型的发展是非常具有意义的。

发明内容

针对上述存在的问题，本发明提出一种基于SAGWO算法的中小企业信用预测分类方法，以提高中小企业信用预测分类的准确率。

为实现上述目的，本发明具体技术方案如下：一种基于SAGWO算法的中小企业信用预测分类方法，包括以下步骤：

1)通过征信机构采集中小企业信用数据样本，构建初始信用数据样本集D，记为D＝{d₁,d₂,d₃,...,d_n}，d_i表示D中第i个信用数据样本，每一个信用数据样本包括L个特征数据，记为d_i＝{d_i1,d_i2,...,d_iL}，d_ij表示初始信用数据样本集D中的第 i个信用数据样本的第j个特征数据；

2)依次对初始信用数据样本集D中的特征数据进行数据预处理，构建数据处理后的信用数据样本集D'；

3)构建训练集D_exe和测试集D_test,其中训练集D_exe的构造方法为：

D_exe＝{(d₁',y₁),(d₂',y₂),...,(d_p',y_i)},d_i'∈D',y_i∈{-1,1}，

测试集D_test的构造方法为：

D_test＝{(d₁',y₁),(d₂',y₂),...,(d_q',y_i)},d_i'∈D',y_i∈{-1,1}，

其中，y_i表示对应的信用数据样本构成的集合的类别，y_i＝-1、y_i＝1分别代表信用数据样本类别为坏企业和好企业；

4)将训练集D_exe导入支持向量机SVM，构建基于SAGWO算法的参数寻优模型，训练得到惩罚参数C及核函数参数γ；

5)将测试样本集D_test导入训练好的SVM模型(含最优参数C及γ)中构建最终预测模型，根据决策函数sgn得到测试样本分类结果及每一分类对应的预测值，预测值f(x)计算公式如下：

其中，a_i为拉格朗日系数，y_i∈{1,-1}为训练样本集对应分类的标签，为径向基函数，x_i(i＝1...m)为训练样本集，x_j(j＝1...n) 为测试样本集，γ为核参数，b为预设的阈值；

6)根据预测值f(x)输出企业分类结果，若预测值f(x)＝1，代表企业分类结果为好企业，若f(x)＝-1，代表企业分类结果为坏企业。

进一步的，上述步骤2)中，构建信用数据样本集D'，包括以下步骤：

2.1)利用部分填补缺失值法对初始信用数据样本集D中的特征数据进行数据清理；

2.2)利用直接赋值法对初始信用数据样本集D中的特征数据进行数据赋值；

2.3)利用最大最小归一化方法对初始信用数据样本集D中的特征数据进行数据归一化，归一化计算公式如下：

其中，d_ij'是第i个信用数据样本的第j个特征数据的归一化结果，min d_ij和 maxd_ij分别是d_ij的极小值和极大值；

2.4)利用d_ij'构建信用数据样本集D'，记为：D'＝{d₁',d₂',d₃',...,d_n'}，d_i'表示D' 中第i个信用数据样本，表示为d_i'＝{d_i1',d_i2',...,d_iL'}。

进一步的，上述步骤4)包括如下步骤：

4.1)初始GWO算法的参数，所述参数包括灰狼种群规模Q、最大迭代次数t_max、控制参数a、扰动因子G、收敛因子A以及SVM参数组合(C、γ)的取值范围；

4.2)初始化灰狼种群，随机生成Q个灰狼个体位置X_i，记为X_i＝(C_i,γ_i)，其中，所述C_i生成公式为：

C_i＝(C_max-C_min)×r+C_min

式中，i∈(1,N)为灰狼个体，r为[0,1]之间的随机小数，C_min为C的最小值，C_max为C的最大值；所述γ_i生成公式为：

γ_i＝(γ_max-γ_min)×r+γ_min,(i＝1,2,...,n)

式中，i∈(1,N)，r为[0,1]之间的随机小数，γ_min为γ的最小值，γ_max为γ的最大值；

4.3)计算SA算法的参数初始温度T_e，计算公式如下：

其中，f_max(X_i)、f_min(X_i)分别为初始Q个可行解(灰狼个体位置)中对应的最大和最小综合最优化SVM目标函数值，e为自然底数，p_ini∈(0,1)为初始控制接受概率；

4.4)计算每个灰狼位置X_i的适应度值F(X_i)，计算公式如下：

其中，为SVM训练样本分类准确度，right为正确分类样本数，total为总训练样本数，α是[0,1]的随机数，β＝1-α，C_m为数据特征向量总数，R 是被选择的特征向量数量；

4.5)降序排列F(X_i)，选取前三个作为X_α、X_β、X_δ的适应度值，其中α狼为最优解、β狼为次优解、δ狼为次次优解；

4.6)按步骤4.1.2)、步骤4.1.3)、步骤4.1.4)中公式分别重新计算控制参数a、扰动因子G、收敛因子A；

4.7)计算其余灰狼i与X_α、X_β、X_δ之间的距离D_α、D_β、D_δ，灰狼i与α狼的距离D_α计算公式如下：

D_α＝|G₁·X_α-X_i|

其中，X_α为α狼的位置，G₁为随机向量，X_i为当前灰狼i的位置；灰狼i与β狼的距离D_β计算公式如下：

D_β＝|G₂·X_β-X_i|

其中，X_β为β狼的位置，G₂为随机向量，X_i为当前灰狼i的位置；灰狼i与δ狼的距离D_δ计算公式如下：

D_δ＝|G₃·X_δ-X_i|

其中，X_δ为δ狼的位置，G₃为随机向量，X_i为当前灰狼i的位置；

4.8)计算灰狼i的新位置X_i'并按步骤4.4)更新其适应度值得到F_i'，X_i'计算公式如下：

其中，X₁＝X_α-A₁·(D_α)，X₂＝X_β-A₂·(D_β)，X₃＝X_δ-A₃·(D_δ)分别为灰狼i与α、β、δ狼之间的位移，t为当前迭代次数；

4.9)采用Metropolis准则计算旧位置X_i适应度值F_i更新为新位置X_i'适应度值F_i'的接受概率p，接受概率p计算公式如下：

其中，T_e为绝对初始温度，k为Boltzmann常数，p为小于1的位置概率，在 (0,1)区间生成随机数s，判断s是否小于p，若是则接受并保存灰狼i的新位置X_i'，否则不接受并保存旧位置X_i；

4.10)退温，温度更新公式如下：

其中，T_e为初始温度，e为自然底数，t为当前迭代次数，t_max为最大迭代次数；

4.11)判断当前迭代次数是否达到最大迭代次数t_max，若是则输出α狼的位置 X_α，即得到模型的最优惩罚参数C及最优核函数参数γ，否则转至步骤4.4)。

进一步的，上述步骤4.1)中所述控制参数a，计算公式如下：

其中，a_max为a的最大取值，a_min为a的最小取值，t为当前迭代次数，t_max为最大迭代次数；

所述扰动因子G，计算公式如下：

G＝2·r₁

其中，r₁为[0,1]之间的随机向量；

所述收敛因子A，计算公式如下：

A＝2a·r₂-a

其中，r₂为[0,1]之间的随机向量；

所述惩罚参数C范围设定如下：

C∈[C_min,C_max]

其中，C_min为C的最小值，C_max为C的最大值；

所述核函数参数γ范围设定如下：

γ∈[γ_min,γ_max]

其中，γ_min为γ的最小值，γ_max为γ的最大值。

本发明的有益效果在于提升灰狼算法的寻优性能问题，引入模拟退火思想SA 并改进相关公式使灰狼算法GWO能跳出局部最优解的缺陷，使GWO在现有性能的基础上更好地排除局部最优解，获得更好的全局收敛性，进而提高了群智能优化算法的收敛速度和精度，使得改进后的SAGWO-SVM模型更高效地进行数据分类，应用于更好的中小企业信用预测分类。

附图说明

图1是中小企业信用预测分类方法流程图。

图2是中小企业信用预测分类模型图。

图3是基于模拟退火算法的改进灰狼算法的流程图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，需要指出的是，下面仅以一种最优化的技术方案对本发明的技术方案以及设计原理进行详细阐述，但本发明的保护范围并不限于此。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

一种基于SAGWO算法的中小企业信用预测分类方法，其流程图如图1所示，其模型图如图2所示，包括如下步骤：

1)通过征信机构采集中小企业信用数据样本，构建初始信用数据样本集D，记为D＝{d₁,d₂,d₃,...,d_n}，d_i表示D中第i个信用数据样本，每一个信用数据样本包括L个特征数据，记为d_i＝{d_i1,d_i2,...,d_iL}；

本发明具体实施例中，L＝34，第i个信用数据样本为d_i＝{d_i1,d_i2,...,d_i34}，d_ij为第i个信用数据样本的第j个特征属性，其中，d_i1代表第i个信用数据样本的近N 个月财务报表数据、d_i2代表报表日期、d_i3代表负债总额、d_i4代表资产负债率、d_i5代表代表流动比率、d_i6现金比率、d_i7代表净利润增长率、d_i8代表电费金额、d_i9代表水费金额、d_i10代表近6个月平均使用额度、d_i11代表贷记卡账户数、d_i12代表住房贷款笔数、d_i13代表贷款逾期笔数、d_i14代表最高逾期金额、d_i15代表最长逾期月数、d_i16代表逾期账户数、d_i17代表客户合作时间、d_i18代表企业历史交易笔数、d_i19代表客户历史交易总金额、d_i20代表近6个月交易金额、d_i21代表信贷平台历史交易笔数、d_i22代表信贷平台历史贷款发放金额、d_i23代表信贷平台历史逾期次数、 d_i24代表信贷平台历史逾期金额、d_i25代表信贷平台近3个月交易金额、d_i26代表企业年限、d_i27代表是否税务信用百强企业、d_i28代表纳税信用评级、d_i29代表3 年内个人是否进入执行失信黑名单、d_i30代表3年内企业是否进入执行失信黑名单、 d_i31代表企业有无在诉或被执行记录、d_i32代表法人/股东有无在诉及被执行记录、 d_i33代表行业口碑、d_i34代表关系紧密程度；

2)依次对初始信用数据样本集D中的特征数据进行数据预处理，构建数据处理后的信用数据样本集D'，包括以下步骤：

其中，d_ij是第i个信用数据样本的第j个特征数据，d_ij'是第i个信用数据样本的第j个特征数据的归一化结果，min d_ij和max d_ij分别是d_ij的极小值和极大值；

2.4)利用归一化后的数据d_ij'构建信用数据样本集D'，记为： D'＝{d₁',d₂',d₃',...,d_n'}，d_i'表示D'中第i个信用数据样本，本发明具体实施例中，每个信用数据样本包含34个特征数据，表示为d_i'＝{d_i1',d_i2',...,d_i34'}，d_ij'为第i个对象的第j个特征属性；

D_exe＝{(d₁',y₁),(d₂',y₂),...,(d_p',y_i)},d_i'∈D',y_i∈{-1,1}，

测试集D_test的构造方法为：

D_test＝{(d₁',y₁),(d₂',y₂),...,(d_q',y_i)},d_i'∈D',y_i∈{-1,1}，

其中，d_i'代表特征向量集D'中对应的信用数据样本，y_i表示对应的信用数据样本构成的集合的类别，y_i＝-1、y_i＝1分别代表信用数据样本类别为坏企业和好企业；

4)将训练集D_exe导入支持向量机SVM，构建基于SAGWO算法的参数寻优模型，训练得到惩罚参数C及核函数参数γ，SAGWO算法流程图如图3所示，包括以下步骤：

4.1)初始GWO算法的参数，包括如下步骤：

4.1.1)初始化灰狼种群规模Q、最大迭代次数t_max；

4.1.2)计算控制参数a，计算公式如下：

4.1.3)计算扰动因子G，计算公式如下：

G＝2·r₁

其中，r₁为[0,1]之间的随机向量；

4.1.4)计算收敛因子A，计算公式如下：

A＝2a·r₂-a

其中，r₂为[0,1]之间的随机向量；

4.1.5)设定SVM参数组合(C、γ)的取值范围，惩罚参数C范围设定如下：

C∈[C_min,C_max]

其中，C_min为C的最小值，C_max为C的最大值；核函数参数γ范围设定如下：

γ∈[γ_min,γ_max]

其中，γ_min为γ的最小值，γ_max为γ的最大值；

4.2)初始化灰狼种群，包括如下步骤：随机生成Q个灰狼个体位置X_i，记为 X_i＝(C_i,γ_i)，C_i生成公式为：

C_i＝(C_max-C_min)×r+C_min

其中，i∈(1,N)为灰狼个体，r为[0,1]之间的随机小数，C_min为C的最小值，C_max为C的最大值；γ_i生成公式为：

γ_i＝(γ_max-γ_min)×r+γ_min,(i＝1,2,...,n)

其中，i∈(1,N)，r为[0,1]之间的随机小数，γ_min为γ的最小值，γ_max为γ的最大值；

4.3)计算SA算法的参数初始温度T_e，计算公式如下：

4.4)计算每个灰狼位置X_i的适应度值F(X_i)，计算公式如下：

D_α＝|G₁·X_α-X_i|

D_β＝|G₂·X_β-X_i|

D_δ＝|G₃·X_δ-X_i|

4.10)退温，温度更新公式如下：

4.11)判断当前迭代次数是否达到最大迭代次数t_max，若是则算法结束并输出α狼的位置X_α，即得到模型的最优惩罚参数C及最优核函数参数γ，否则转至步骤4.4)；

Claims

1.一种基于SAGWO算法的中小企业信用预测分类方法，包括以下步骤：

1)通过征信机构采集中小企业信用数据样本，构建初始信用数据样本集D，记为D＝{d₁,d₂,d₃,...,_nd，d_i表示D中第i个信用数据样本，每一个信用数据样本包括L个特征数据，记为d_i＝{d_i1,d_i2,...,d_iL}，d_ij表示初始信用数据样本集D中的第i个信用数据样本的第j个特征数据；

3)构建训练集D_exe和测试集D_test,所述训练集D_exe的构造方法为：

D_exe＝{(d₁',y₁),(d₂',y₂),...,(d_p',y_i)},d_i'∈D',y_i∈{-1,1}，

所述测试集D_test的构造方法为：

D_test＝{(d₁',y₁),(d₂',y₂),...,(d_q',y_i)},d_i'∈D',y_i∈{-1,1}，

所述步骤4)包括如下步骤：

4.2)初始化灰狼种群，随机生成Q个灰狼个体位置X_i，记为X_i＝(C_i,γ_i)，所述C_i生成公式为：

C_i＝(C_max-C_min)×r+C_min

其中，i∈(1,N)为灰狼个体，r为[0,1]之间的随机小数，C_min为C的最小值，C_max为C的最大值；所述γ_i生成公式为：

γ_i＝(γ_max-γ_min)×r+γ_min,(i＝1,2,...,n)

4.3)计算SA算法的参数初始温度T_e，计算公式如下：

其中，f_max(X_i)、f_min(X_i)分别为初始Q个可行解中对应的最大和最小综合最优化SVM目标函数值，e为自然底数，p_ini∈(0,1)为初始控制接受概率；

4.4)计算每个灰狼位置X_i的适应度值F(X_i)，计算公式如下：

其中，为SVM训练样本分类准确度，right为正确分类样本数，total为总训练样本数，α是[0,1]的随机数，β＝1-α，C_m为数据特征向量总数，R是被选择的特征向量数量；

4.7)计算其余灰狼i与X_α、X_β、X_δ之间的距离D_α、D_β、D_δ，所述灰狼i与α狼的距离D_α计算公式如下：

D_α＝|G₁·X_α-X_i|

其中，X_α为α狼的位置，G₁为随机向量，X_i为当前灰狼i的位置；

所述灰狼i与β狼的距离D_β计算公式如下：

D_β＝|G₂·X_β-X_i|

其中，X_β为β狼的位置，G₂为随机向量，X_i为当前灰狼i的位置；

所述灰狼i与δ狼的距离D_δ计算公式如下：

D_δ＝|G₃·X_δ-X_i|

4.8)计算灰狼i的新位置X_i'并按步骤4.4)更新其适应度值得到F_i'，所述X_i'计算公式如下：

4.9)采用Metropolis准则计算旧位置X_i适应度值F_i更新为新位置X_i'适应度值F_i'的接受概率p，所述接受概率p计算公式如下：

其中，T_e为绝对初始温度，k为Boltzmann常数，p为小于1的位置概率，在(0,1)区间生成随机数s，判断s是否小于p，若是则接受并保存灰狼i的新位置X_i'，否则不接受并保存旧位置X_i；

4.10)退温，温度更新公式如下：

4.11)判断当前迭代次数是否达到最大迭代次数t_max，若是则输出α狼的位置X_α，即得到模型的最优惩罚参数C及最优核函数参数γ，否则转至步骤4.4)；

5)将测试样本集D_test导入训练好的SVM模型中构建最终预测模型，根据决策函数sgn得到测试样本分类结果及每一分类对应的预测值，预测值f(x)计算公式如下：

其中，a_i为拉格朗日系数，y_i∈{1,-1}为训练样本集对应分类的标签，为径向基函数，x_i(i＝1...m)为训练样本集，x_j(j＝1...n)为测试样本集，γ为核参数，b为预设的阈值；

2.如权利要求1所述的基于SAGWO算法的中小企业信用预测分类方法，其特征在于所述步骤2)中，构建信用数据样本集D'包括以下步骤：

其中，d_ij'是第i个信用数据样本的第j个特征数据的归一化结果，min d_ij和max d_ij分别是d_ij的极小值和极大值；

2.4)利用d_ij'构建信用数据样本集D'，记为：D'＝{d₁',d₂',d₃',...,d_n'}，d_i'表示D'中第i个信用数据样本，表示为d_i'＝{d_i1',d_i2',...,d_iL'}。

3.如权利要求1所述的基于SAGWO算法的中小企业信用预测分类方法，其特征在于所述步骤4.1)中所述控制参数a，计算公式如下：

所述扰动因子G，计算公式如下：

G＝2r₁

其中，r₁为[0,1]之间的随机向量；

所述收敛因子A，计算公式如下：

A＝2a·r₂-a

其中，r₂为[0,1]之间的随机向量；

所述惩罚参数C范围设定如下：

C∈[C_min,C_max]

其中，C_min为C的最小值，C_max为C的最大值；

所述核函数参数γ范围设定如下：

γ∈[γ_min,γ_max]

其中，γ_min为γ的最小值，γ_max为γ的最大值。