CN117391247A

CN117391247A - 一种基于深度学习的企业风险等级预测方法及系统

Info

Publication number: CN117391247A
Application number: CN202311326650.0A
Authority: CN
Inventors: 许国良; 张梦娅
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2023-10-12
Filing date: 2023-10-12
Publication date: 2024-01-12

Abstract

本发明公开了一种基于深度学习的企业风险等级预测方法及系统，涉及企业风险管控技术领域，解决了现有风险评估模型不适配企业具体情况的问题，其技术方案要点是：获取与企业风险有关的多维度数据样本；对采集数据进行预处理，构建企业风险数据集；使用过采样方法均衡少数类样本；建立基于多目标粒子群优化的深度神经网络企业风险预测模型，优化模型参数；将数据集分为训练集、测试集和验证集，用训练集对模型进行训练，测试集测试模型精度，验证集进行调参；将待评估风险等级的企业样本输入训练好的模型，预测出企业的风险等级。本发明通过优化特征选择、样本比例以及模型参数，提升企业风险预测准确率。

Description

一种基于深度学习的企业风险等级预测方法及系统

技术领域

本发明涉及企业风险管控技术领域，更具体地说，它涉及一种基于深度学习的企业风险等级预测方法及系统。

背景技术

早期的风险评估方法，大多依赖长期从事评估领域工作的专家人员人为依靠自己的经验对企业信用进行评估，这种方法主要依靠人的经验，主观因素强。统计模型也被大量引入到信用风险评估方法中，这类具有代表性的模型包括线性差别分析方法(LDA)、多元判别分析模型、Logistic回归模型方法、Probit模型等，统计分析法虽然在一定程度上克服了人的主观因素的影响，但是对变量之间的内在联系无法给出合理的解释。随着人工智能的快速发展，许多学者开始将神经网路、支持向量机、建立分类与决策树模型等机器学习和深度学习方法应用到企业风险等级预测，有效地提高了对企业的信用风险的分类性能。

目前，风险评估方法都是在已有的信贷风险体系上进行调整，或者只考虑财务交易数据，缺乏针对性和科学性，不利于提高企业信用风险的把控。

因此，如何建立适合企业的风险等级预测方法及系统，成为一个亟待解决的问题。

发明内容

本申请的目的是提供一种基于深度学习的企业风险等级预测方法及系统，解决现有风险评估模型不适配企业具体情况的问题，通过优化特征选择、样本比例以及模型参数，提升企业风险预测准确率。

本申请首先提供一种基于深度学习的企业风险等级预测方法，包括：S1：获取与企业风险有关的多维度数据样本；S2：对所述多维度数据样本进行预处理，包括类别特征处理、缺失值处理、异常值处理、归一化处理、标签转换和特征筛选，构建企业风险数据集；S3：统计企业风险数据集中每个类别的样本数量，确定少数类类别并通过SMOTE-NC方法增强少数类类别的样本数量，更新企业风险数据集；S4：建立基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN，采用多目标粒子群优化算法MOPSO优化深度神经网络DNN的参数；S5：将更新后的企业风险数据集分为训练集、测试集和验证集，采用训练集对模型进行训练，采用测试集测试模型精度，采用验证集调整模型参数；S6：将待评估风险等级的企业样本输入模型，预测出企业的风险等级；

其中，步骤S4包括：S41、通过多目标粒子群优化算法MOPSO初始化粒子群的初始速度和位置，表示深度神经网络DNN的连接权重和偏差；S42、基于训练样本和深度神经网络的过程，计算目标函数分类准确率Acc和损失函数MSE，多目标粒子群优化算法MOPSO迭代寻找使得分类准确率Acc和损失函数MSE均满足条件收敛的权重和偏差，作为最佳权重和最佳偏差；S43、通过所述最佳权重和最佳偏差优化深度神经网络DNN的参数，得到基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN。

与现有技术相比，本方法采用多维度数据样本，全面考量可能影响企业风险的各类因素；本方法采用SMOTE-NC方法对少数类样本进行增强，使得各类样本数据均衡，提高模型判别和预测的准确性；本方法通过多目标粒子群优化算法优化深度神经网络的参数，提高模型的预测精度。在企业没有被评级机构评级时，或者无法获取到企业的评级时，通过本方法即可得到具有参考意义的企业风险等级。

在一种可能的实施方式中，步骤S1：获取与企业风险有关的多维度数据样本；包括：S11：从评级机构和数据服务机构购买，或者通过爬取企业信息查询平台，获取与企业风险相关的指标数据和企业等级标签数据；S12：确定与企业风险评估相关的指标，包括财务指标、非财务指标和企业等级标签；S13：根据所述与企业风险评估相关的指标对获取的数据进行解析、清洗和存储，生成多维度数据样本。

在一种可能的实施方式中，步骤S2：对所述多维度数据样本进行预处理，包括类别特征处理、缺失值处理、异常值处理、归一化处理、标签转换和特征筛选，构建企业风险数据集；包括：类别特征处理：解析多维度数据样本中各特征的类型，对类别型特征进行序列编码；缺失值处理：统计各特征中数据的缺失比例，删除缺失比例高于缺失阈值的特征，对其他存在缺失的特征进行填充；异常值处理：根据各样本的特征绘制箱线图，删除异常值超过异常阈值的样本；归一化处理：对数值类特征进行最小最大值归一化处理；标签转换：根据企业等级标签的含义将标签映射为不同的风险等级；特征筛选：计算特征与标签的皮尔逊相关系数，取相关系数绝对值大于相关阈值的特征作为样本的输入特征，构建企业风险数据集。

在一种可能的实施方式中，步骤S3：统计企业风险数据集中每个类别的样本数量，确定少数类类别并通过SMOTE-NC方法增强少数类类别的样本数量，更新企业风险数据集；包括：S31：统计企业风险数据集中每个风险等级的样本数量，将样本数量低于样本数量阈值的风险等级作为少数类类别；S32：对于少数类类别中的每个少数类样本，选择其K个近邻样本作为参考，K为正整数；S33：从K个近邻样本中随机选择一个样本，并在少数类样本与选择样本的连线上随机生成一个新的合成样本；S34：重复步骤S33直至生成指定数量的合成样本；S35：将所述合成样本与原始样本合并，更新企业风险数据集。

在一种可能的实施方式中，步骤S41、通过多目标粒子群优化算法MOPSO初始化粒子群的初始速度和位置，表示深度神经网络DNN的连接权重和偏差；包括：

其中，为深度神经网络DNN的连接权重，/>为深度神经网络DNN的偏差，h为隐藏层的数量。

在一种可能的实施方式中，步骤S42、基于训练样本和深度神经网络的过程，计算目标函数分类准确率Acc和损失函数MSE，多目标粒子群优化算法MOPSO迭代寻找使得分类准确率Acc和损失函数MSE均满足条件收敛的权重和偏差，作为最佳权重和最佳偏差；包括：

S421：随机初始化粒子群群体的位置和速度，表示深度神经网络模型DNN的连接权重和偏差，创建一个空的外部存档Archive，用于存储所有粒子的非劣解；

S422：计算外部存档Archive中粒子的个体最优解pbest，并从个体最优解中选择最好值作为全局最优解gbest；

S423：更新粒子群中粒子的位置和速度，为群体中的粒子按照公式在gbest和pbest的引导下搜索最优解：

其中，w是惯性因子，一般取0.4，c₁和c₂是加速因子；r₁和r₂是0到1之间的随机数；

S424：进化得到新一代群体后，把新群体中的非劣解保存到外部存档Archive中；

S425：采用动态密集距离对外部存档Archive进行更新，计算外部存档Archive中各个解的距离，把距离较远的解留下，保证解的分布不要太密集，距离比较近的解淘汰，保证外部存档中最优解的数量不超过上限：

其中，x_j和x_k为距离x_i最近的两个粒子，f₁(x_j)、f₂(x_j)指粒子x_j目标函数准确率和损失函数的值，f₁(x_k)、f₂(x_k)指粒子x_k目标函数准确率和损失函数的值，f_1max和f_2min为所有粒子准确率最大值和损失函数最小值；

S426：从外部存档Archive中密集距离较大的前20％解中随机选出种群全局最优解，用于指导种群的更新，通过种群全局最优解的位置和速度更新深度神经网络CNN的连接权重和偏差；

S427：当深度神经网络CNN的目标函数分类准确率Acc和损失函数MSE均满足条件收敛时，将种群全局最优解的位置和速度作为最佳权重和最佳偏差，否则重复步骤S423-S426。

在一种可能的实施方式中，目标函数分类准确率Acc和损失函数MSE，通过如下公式得出：

其中，T指预测正确的数量，N指所有样本的数量，a_s是模型输出值，y_s是实际标签值。

在一种可能的实施方式中，步骤S5：将更新后的企业风险数据集分为训练集、测试集和验证集，采用训练集对模型进行训练，采用测试集测试模型精度，采用验证集调整模型参数；包括：S51：数据集样本划分为训练集、测试集和验证集；S52：把训练集的数据输入基于多目标粒子群优化的深度神经网络企业信用风险预测模型，训练模型的超参数；S53：在训练结束后，使用测试集计算模型在测试集上的分类准确率和损失函数，当分类准确率低于准确阈值或损失函数高于损失阈值时，重复步骤S52调整模型的超参数；S54：使用验证集进行模型评估，比较不同超参数下模型在验证集上的表现，选择指标最好的一组超参数，使用对应的模型作为最终的模型。

在一种可能的实施方式中，步骤S6：将待评估风险等级的企业样本输入模型，预测出企业的风险等级；包括：S61：将企业样本的格式处理为与训练集数据相同的格式；S62：将处理后的企业样本输入最终的模型进行预测，获得风险等级。

本申请还提供一种基于深度学习的企业风险等级预测系统，其特征在于，包括：数据获取模块，用于获取与企业风险有关的多维度数据样本；数据处理模块，用于对所述多维度数据样本进行预处理，包括类别特征处理、缺失值处理、异常值处理、归一化处理、标签转换和特征筛选，构建企业风险数据集；数据均衡模块，用于统计企业风险数据集中每个类别的样本数量，确定少数类类别并通过SMOTE-NC方法增强少数类类别的样本数量，更新企业风险数据集；模型构建模块，用于建立基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN，采用多目标粒子群优化算法MOPSO优化深度神经网络DNN的参数；模型训练模块，用于将更新后的企业风险数据集分为训练集、测试集和验证集，采用训练集对模型进行训练，采用测试集测试模型精度，采用验证集调整模型参数；模型预测模块，用于将待评估风险等级的企业样本输入模型，预测出企业的风险等级；

其中，所述模型构建模块，包括：初始化模块，用于通过多目标粒子群优化算法MOPSO初始化粒子群的初始速度和位置，表示深度神经网络DNN的连接权重和偏差；参数迭代更新模块，用于基于训练样本和深度神经网络的过程，计算目标函数分类准确率Acc和损失函数MSE，多目标粒子群优化算法MOPSO迭代寻找使得分类准确率Acc和损失函数MSE均满足条件收敛的权重和偏差，作为最佳权重和最佳偏差；模型输出模块，用于通过所述最佳权重和最佳偏差优化深度神经网络DNN的参数，得到基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN。

与现有技术相比，本申请具有以下有益效果：

(1)获取与企业风险相关的多维度数据样本中包含企业价值倍数、企业权益乘数，这两个指标考虑了企业的财务杠杆和估值水平，是更全面的企业评估和投资决策依据。

(2)针对企业样本数据中最低风险、高风险和违约企业占总样本的比例很小，数据非平衡的问题，提供了一种SMOTE-NC非平衡样本处理的方法，从而解决因数据不平衡导致的模型判别和预测的准确性低的问题。

(3)设计了一种基于多目标粒子群优化的深度神经网络企业信用风险预测模型，使用多目标粒子群优化算法MOPSO优化深度神经网络DNN的参数，能够为DNN提供一组均衡且全局最优的解，可以提高预测精度和预测效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定。在附图中：

图1是本发明提供的企业风险等级预测方法的流程图；

图2是本发明提供的数据预处理流程图；

图3是本发明提供的采用多目标粒子群优化算法的流程图；

图4是本发明提供的基于多目标粒子群优化的深度神经网络企业风险等级预测模型图；

图5是本发明提供的企业风险等级预测系统的结构图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本申请作进一步的详细说明，本申请的示意性实施方式及其说明仅用于解释本申请，并不作为对本申请的限定。

实施例1提供一种基于深度学习的企业风险等级预测方法。请参见图1所示，图1为企业风险等级预测方法的流程图，包括：S1：获取与企业风险有关的多维度数据样本；S2：对所述多维度数据样本进行预处理，包括类别特征处理、缺失值处理、异常值处理、归一化处理、标签转换和特征筛选，构建企业风险数据集；S3：统计企业风险数据集中每个类别的样本数量，确定少数类类别并通过SMOTE-NC方法增强少数类类别的样本数量，更新企业风险数据集；S4：建立基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN，采用多目标粒子群优化算法MOPSO优化深度神经网络DNN的参数；S5：将更新后的企业风险数据集分为训练集、测试集和验证集，采用训练集对模型进行训练，采用测试集测试模型精度，采用验证集调整模型参数；S6：将待评估风险等级的企业样本输入模型，预测出企业的风险等级；

与现有技术相比，本方法存在三方面的改进。第一，增加了数据样本的考虑维度；常规的预测方法通常是基于已有的信贷风险体系、或只考虑财务数据，对企业风险的评判缺乏全面的考量；本方法采用多维度数据样本，全面考量可能影响企业风险的各类因素。第二，增加了样本均衡的处理步骤；常规的预测方法中，最低风险、高风险和违约企业的数据占总样本的比例很小，数据存在极大的不平衡，导致模型训练效果较差，预测准确性较低；对此，本方法采用SMOTE-NC方法对少数类样本进行增强，使得各类样本数据均衡，提高模型判别和预测的准确性。第三，通过多目标粒子群优化算法MOPSO和深度神经网络DNN构建基于多目标粒子群优化的深度神经网络企业信用风险预测模型；本方法通过MOPSO算法优化DNN的参数，提高模型的预测精度。

为了进一步说明本方法可采取的具体内容，将本方法分为数据获取、数据预处理、样本不平衡处理以及构建预测模型四个方面进行详细说明。

(一)数据获取：

在一种可能的实现方式中，步骤S1：获取与企业风险有关的多维度数据样本；包括：S11：从评级机构和数据服务机构购买，或者通过爬取企业信息查询平台，获取与企业风险相关的指标数据和企业等级标签数据；S12：确定与企业风险评估相关的指标，包括财务指标、非财务指标和企业等级标签；S13：根据所述与企业风险评估相关的指标对获取的数据进行解析、清洗和存储，生成多维度数据样本。

具体地，确定与企业风险相关的指标数据来源，利用爬虫技术爬取部分公开的企业数据，或者联系数据提供方购买所需的数据集，将获得的数据进行融合，数据包含多个企业样本，各个企业样本包含该企业的多项指标数据和该企业的等级标签数据；确定与企业风险评估相关的指标，具体到本例包含财务指标、非财务指标和企业等级标签；基于与企业风险评估相关的指标对获取的数据集进行解析、清洗，将清洗后的数据存储下来，作为多维度数据样本。

优选地，上述的财务指标包括5类：盈利能力、偿债能力、营运能力、现金流量和杠杆估值指标。具体包括26项。盈利能力：毛利润率、营业利润率、税前利润率、净利润率、有效税率、资产回报率、净资产收益率、投资回报率；偿债能力：资产负债率、负债权益率、流动比率、速动比率；营运能力：总资产周转率、应收账款周转率、存货周转率、固定资产周转率、流动资产周转率；现金流量指标：每股经营现金流、每股自由现金流、每股现金、经营现金流销售现金流比率、自由现金流、经营现金流、自由现金流经营现金流比率；杠杆估值指标：价值倍数、权益乘数。非财务指标包括4个：企业ID、企业类型、评级机构、行业类型。企业等级标签包括10类：AAA、AA、A、BBB、BB、B、CCC、CC、C、D。

值得注意的是，上述优选方案中通过企业价值倍数和企业权益乘数考虑了企业的财务杠杆和估值水平，可以更为全面地实现企业风险评估。

需要说明的是，本方法的多维度数据样本是指考虑维度包含：财务指标、非财务指标和企业等级标签。财务指标、非财务指标和企业等级标签的具体内容可以参照上述优选，或者从上述优选中选择，又或者另行选择现有的指标，并不构成对本申请的多维数据样本的限制。

(二)数据预处理

请参见图2所示，步骤S2：对所述多维度数据样本进行预处理，包括类别特征处理、缺失值处理、异常值处理、归一化处理、标签转换和特征筛选，构建企业风险数据集；包括：

类别特征处理：解析多维度数据样本中各特征的类型，对类别型特征进行序列编码。具体地，特征可以分为类别特征和数值特征。类别特征是指特征类型为类别的，如评级机构、经营类别以及风险等级标签，对这些特征进行序列编码，每个类型对应一个编码。

缺失值处理：统计各特征中数据的缺失比例，删除缺失比例高于缺失阈值的特征，对其他存在缺失的特征进行填充；示例性地，缺失阈值可以选择30％，填充方式可以选择均值填充、中位数填充等。

异常值处理：根据各样本的特征绘制箱线图，删除异常值超过异常阈值的样本；

归一化处理：对数值类特征进行最小最大值归一化处理；把数值类特征中的数据归一化到0到1之间。

标签转换：根据企业等级标签的含义将标签映射为不同的风险等级；示例性地：AAA为最低风险，AA、A为低风险，BBB为中等风险，BB、B为高风险，CCC、CC、C为最高风险，D为违约，共6个风险等级。

特征筛选：计算特征与标签的皮尔逊相关系数，取相关系数绝对值大于相关阈值的特征作为样本的输入特征，构建企业风险数据集。示例性地，相关阈值可以取0.5。

(三)样本不平衡处理

步骤S3：统计企业风险数据集中每个类别的样本数量，确定少数类类别并通过SMOTE-NC方法增强少数类类别的样本数量，更新企业风险数据集；包括：S31：统计企业风险数据集中每个风险等级的样本数量，将样本数量低于样本数量阈值的风险等级作为少数类类别；S32：对于少数类类别中的每个少数类样本，选择其K个近邻样本作为参考，K为正整数；S33：从K个近邻样本中随机选择一个样本，并在少数类样本与选择样本的连线上随机生成一个新的合成样本；S34：重复步骤S33直至生成指定数量的合成样本；S35：将所述合成样本与原始样本合并，更新企业风险数据集。

具体地，首先明确少数类类别：统计各类别的样本数量，确定样本数量低于样本数量阈值，如10％，的类别作为少数类类别。在实际数据中，最高风险、最低风险和违约的企业的样本数量是较少的，可作为少数类类别。

接着明确样本包含的各个特征的类型：类别特征和数值特征。例如，最高风险的N个样本为X＝{X₁,X₂,...,X_N}，每个样本有m个连续型数值特征，n个类别特征X_i＝{y_i1,y_i2,...,y_im,z_1i,z_2i,},，y_i1,y_i2,...,y_im为数值特征，z_i1,z_i2,...,z_in为类别特征，i＝1,2,...N,。

对于少数类类别中的每个少数类样本，首先计算标准差的中位数：计算每个连续型数值特征的标准差σ_k：其中μ_k为m个连续型数值特征的均值；则标准差的中位数med为：med＝median(σ₁,σ₂,...,σ_m)。

接着选择近邻，合成新样本：对于每个少数类样本，选择其近邻K个样本作为参考，计算X_i样本与其近邻X_j距离的公式为：其中，d为两个样本之间类别特征不同的数量。从其K个近邻样本中随机选择一个样本，并在数值特征空间中进行插值操作，生成一个新样本，新样本X_h的计算方法为：

X_h＝(X_h1,X_h2)

X_h1＝X_m+λ(X_k-X_m)

X_h2＝max{f₁,f₂,...,f_n}

其中，X_h1为合成的连续特征样本，X_h2为合成的类别特征样本，X_m为少数类连续特征样本，X_k为它的近邻样本，λ为0到1之间的随机数，f₁,f₂,...,f_n为每个类别特征的频数。

重复合成新样本：重复上一步骤，直到生成足够数量的新样本，使得少数类样本数量接近多数类样本数量。

合并数据：将合成的新样本与原始样本合并，形成平衡后的数据集，作为更新后的企业风险数据集。

需要说明的是，本方法使用SMOTE-NC过采样方法，对数据集中的少数类样本增强，合成新样本，处理样本的不平衡，从而解决数据不平衡影响模型判别和预测准确性的问题。

(四)构建预测模型

请参见图3-4所示，步骤S4包括：S41、通过多目标粒子群优化算法MOPSO初始化粒子群的初始速度和位置，表示深度神经网络DNN的连接权重和偏差；S42、基于训练样本和深度神经网络的过程，计算目标函数分类准确率Acc和损失函数MSE，多目标粒子群优化算法MOPSO迭代寻找使得分类准确率Acc和损失函数MSE均满足条件收敛的权重和偏差，作为最佳权重和最佳偏差；S43、通过所述最佳权重和最佳偏差优化深度神经网络DNN的参数，得到基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN。

具体地，请参见图3所示，多目标粒子群优化算法MOPSO是一种多目标优化算法，它结合了粒子群优化算法PSO和多目标优化的思想。在MOPSO算法中，每个粒子都维护一个速度和位置，同时具有多个适应度函数。当一个粒子的适应度比当前存档中的某个解更优时，它将加入存档中，并将存档中的劣解去除。通过这种方式，MOPSO算法能够在解空间中搜索到更好的多个最优解。

请参见图4所示深度神经网络DNN的第一层称为输入层，中间排列的每一层都定义为隐藏层，最后一层称为输出层。通过引入隐藏层，将创建一个全连接网络，以达到网络逻辑操作的复杂性。因此，引入DNN具有优异的特征学习能力，能够从输入数据中提取出最具表征力的特征并将其输入分类器中，由此来达到更好的预测精度和效果。

步骤S41、通过多目标粒子群优化算法MOPSO初始化粒子群的初始速度和位置，表示深度神经网络DNN的连接权重和偏差；包括：

步骤S42、基于训练样本和深度神经网络的过程，计算目标函数分类准确率Acc和损失函数MSE，多目标粒子群优化算法MOPSO迭代寻找使得分类准确率Acc和损失函数MSE均满足条件收敛的权重和偏差，作为最佳权重和最佳偏差；包括：

其中，目标函数分类准确率Acc和损失函数MSE，通过如下公式得出：

步骤S43、通过步骤S42得到的最佳权重和最佳偏差优化深度神经网络DNN的权重和偏差，得到基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN。

需要说明的是，本方法建立基于多目标粒子群优化的深度神经网络企业信用风险预测模型，通过MOPSO算法优化DNN的参数。本方法充分利用MOPSO算法具有良好的收敛特性和低时间复杂度的优点与DNN具有特征提取能力强、模型结构简单、训练难度小、收敛速度快的优点构建模型，提升企业风险预测精度与稳定性。

进一步地，步骤S5：将更新后的企业风险数据集分为训练集、测试集和验证集，采用训练集对模型进行训练，采用测试集测试模型精度，采用验证集调整模型参数；包括：S51：数据集样本划分为训练集、测试集和验证集；S52：把训练集的数据输入基于多目标粒子群优化的深度神经网络企业信用风险预测模型，训练模型的超参数；S53：在训练结束后，使用测试集计算模型在测试集上的分类准确率和损失函数，当分类准确率低于准确阈值或损失函数高于损失阈值时，重复步骤S52调整模型的超参数；S54：使用验证集进行模型评估，比较不同超参数下模型在验证集上的表现，选择指标最好的一组超参数，使用对应的模型作为最终的模型。

步骤S6：将待评估风险等级的企业样本输入模型，预测出企业的风险等级；包括：S61：将企业样本的格式处理为与训练集数据相同的格式；S62：将处理后的企业样本输入最终的模型进行预测，获得风险等级。

具体地，将数据集样本按6：2：2的比例划分为训练集、测试集和验证集。把训练集的数据输入MOPSO-DNN模型，训练模型的超参数，通过迭代寻找优化目标函数的最佳解决方案，直到MOPSO算法可以找到一个合适的解决方案。在训练结束后，使用测试集计算模型在测试集上的分类准确率和损失函数，当模型的测试集指标不理想，调整模型的超参数，重新训练模型，使用验证集来进行模型评估，比较不同超参数下模型在验证集上的表现，选择指标最好的一组超参数，使用对应的模型作为最终模型。模型的性能达到要求后，把训练好的模型加载到内存中，使用加载的模型对输入的企业数据进行预测，获取模型预测出企业相对应的风险等级。

需要说明的是，方法通过采集多维度数据样本、均衡数据样本、优化模型参数，实现基于深度学习的企业的风险等级预测。通过执行本方法在企业没有被评级机构评级时，或者无法获取到企业的评级时，可得到具有参考意义的企业风险等级。

实施例2提供一种基于深度学习的企业风险等级预测系统，用于实现上述的基于深度学习的企业风险等级预测方法，与方法一一对应。请参见图5所示，系统包括：数据获取模块，用于获取与企业风险有关的多维度数据样本；数据处理模块，用于对所述多维度数据样本进行预处理，包括类别特征处理、缺失值处理、异常值处理、归一化处理、标签转换和特征筛选，构建企业风险数据集；数据均衡模块，用于统计企业风险数据集中每个类别的样本数量，确定少数类类别并通过SMOTE-NC方法增强少数类类别的样本数量，更新企业风险数据集；模型构建模块，用于建立基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN，采用多目标粒子群优化算法MOPSO优化深度神经网络DNN的参数；模型训练模块，用于将更新后的企业风险数据集分为训练集、测试集和验证集，采用训练集对模型进行训练，采用测试集测试模型精度，采用验证集调整模型参数；模型预测模块，用于将待评估风险等级的企业样本输入模型，预测出企业的风险等级；

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的企业风险等级预测方法，其特征在于，包括：

S1：获取与企业风险有关的多维度数据样本；

S2：对所述多维度数据样本进行预处理，包括类别特征处理、缺失值处理、异常值处理、归一化处理、标签转换和特征筛选，构建企业风险数据集；

S3：统计企业风险数据集中每个类别的样本数量，确定少数类类别并通过SMOTE-NC方法增强少数类类别的样本数量，更新企业风险数据集；

S4：建立基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN，采用多目标粒子群优化算法MOPSO优化深度神经网络DNN的参数；

S5：将更新后的企业风险数据集分为训练集、测试集和验证集，采用训练集对模型进行训练，采用测试集测试模型精度，采用验证集调整模型参数；

S6：将待评估风险等级的企业样本输入模型，预测出企业的风险等级；

其中，步骤S4包括：

S41、通过多目标粒子群优化算法MOPSO初始化粒子群的初始速度和位置，表示深度神经网络DNN的连接权重和偏差；

S42、基于训练样本和深度神经网络的过程，计算目标函数分类准确率Acc和损失函数MSE，多目标粒子群优化算法MOPSO迭代寻找使得分类准确率Acc和损失函数MSE均满足条件收敛的权重和偏差，作为最佳权重和最佳偏差；

S43、通过所述最佳权重和最佳偏差优化深度神经网络DNN的参数，得到基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN。

2.根据权利要求1所述的一种基于深度学习的企业风险等级预测方法，其特征在于，步骤S1：获取与企业风险有关的多维度数据样本；包括：

S11：从评级机构和数据服务机构购买，或者通过爬取企业信息查询平台，获取与企业风险相关的指标数据和企业等级标签数据；

S12：确定与企业风险评估相关的指标，包括财务指标、非财务指标和企业等级标签；

S13：根据所述与企业风险评估相关的指标对获取的数据进行解析、清洗和存储，生成多维度数据样本。

3.根据权利要求2所述的一种基于深度学习的企业风险等级预测方法，其特征在于，步骤S2：对所述多维度数据样本进行预处理，包括类别特征处理、缺失值处理、异常值处理、归一化处理、标签转换和特征筛选，构建企业风险数据集；包括：

类别特征处理：解析多维度数据样本中各特征的类型，对类别型特征进行序列编码；

缺失值处理：统计各特征中数据的缺失比例，删除缺失比例高于缺失阈值的特征，对其他存在缺失的特征进行填充；

归一化处理：对数值类特征进行最小最大值归一化处理；

标签转换：根据企业等级标签的含义将标签映射为不同的风险等级；

特征筛选：计算特征与标签的皮尔逊相关系数，取相关系数绝对值大于相关阈值的特征作为样本的输入特征，构建企业风险数据集。

4.根据权利要求3所述的一种基于深度学习的企业风险等级预测方法，其特征在于，步骤S3：统计企业风险数据集中每个类别的样本数量，确定少数类类别并通过SMOTE-NC方法增强少数类类别的样本数量，更新企业风险数据集；包括：

S31：统计企业风险数据集中每个风险等级的样本数量，将样本数量低于样本数量阈值的风险等级作为少数类类别；

S32：对于少数类类别中的每个少数类样本，选择其K个近邻样本作为参考，K为正整数；

S33：从K个近邻样本中随机选择一个样本，并在少数类样本与选择样本的连线上随机生成一个新的合成样本；

S34：重复步骤S33直至生成指定数量的合成样本；

S35：将所述合成样本与原始样本合并，更新企业风险数据集。

5.根据权利要求1-4任一所述的一种基于深度学习的企业风险等级预测方法，其特征在于，步骤S41、通过多目标粒子群优化算法MOPSO初始化粒子群的初始速度和位置，表示深度神经网络DNN的连接权重和偏差；包括：

6.根据权利要求5所述的一种基于深度学习的企业风险等级预测方法，其特征在于，步骤S42、基于训练样本和深度神经网络的过程，计算目标函数分类准确率Acc和损失函数MSE，多目标粒子群优化算法MOPSO迭代寻找使得分类准确率Acc和损失函数MSE均满足条件收敛的权重和偏差，作为最佳权重和最佳偏差；包括：

7.根据权利要求6所述的一种基于深度学习的企业风险等级预测方法，其特征在于，目标函数分类准确率Acc和损失函数MSE，通过如下公式得出：

8.根据权利要求7所述的一种基于深度学习的企业风险等级预测方法，其特征在于，步骤S5：将更新后的企业风险数据集分为训练集、测试集和验证集，采用训练集对模型进行训练，采用测试集测试模型精度，采用验证集调整模型参数；包括：

S51：数据集样本划分为训练集、测试集和验证集；

S52：把训练集的数据输入基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN，训练模型的超参数；

S53：在训练结束后，使用测试集计算模型在测试集上的分类准确率和损失函数，当分类准确率低于准确阈值或损失函数高于损失阈值时，重复步骤S52调整模型的超参数；

S54：使用验证集进行模型评估，比较不同超参数下模型在验证集上的表现，选择指标最好的一组超参数，使用对应的模型作为最终的模型。

9.根据权利要求8所述的一种基于深度学习的企业风险等级预测方法，其特征在于，步骤S6：将待评估风险等级的企业样本输入模型，预测出企业的风险等级；包括：

S61：将企业样本的格式处理为与训练集数据相同的格式；

S62：将处理后的企业样本输入最终的模型进行预测，获得风险等级。

10.一种基于深度学习的企业风险等级预测系统，其特征在于，用于实现如权利要求1-9任一所述的一种基于深度学习的企业风险等级预测方法，包括：

数据获取模块，用于获取与企业风险有关的多维度数据样本；

数据处理模块，用于对所述多维度数据样本进行预处理，包括类别特征处理、缺失值处理、异常值处理、归一化处理、标签转换和特征筛选，构建企业风险数据集；

数据均衡模块，用于统计企业风险数据集中每个类别的样本数量，确定少数类类别并通过SMOTE-NC方法增强少数类类别的样本数量，更新企业风险数据集；

模型构建模块，用于建立基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN，采用多目标粒子群优化算法MOPSO优化深度神经网络DNN的参数；

模型训练模块，用于将更新后的企业风险数据集分为训练集、测试集和验证集，采用训练集对模型进行训练，采用测试集测试模型精度，采用验证集调整模型参数；

模型预测模块，用于将待评估风险等级的企业样本输入模型，预测出企业的风险等级；

其中，所述模型构建模块，包括：

初始化模块，用于通过多目标粒子群优化算法MOPSO初始化粒子群的初始速度和位置，表示深度神经网络DNN的连接权重和偏差；

参数迭代更新模块，用于基于训练样本和深度神经网络的过程，计算目标函数分类准确率Acc和损失函数MSE，多目标粒子群优化算法MOPSO迭代寻找使得分类准确率Acc和损失函数MSE均满足条件收敛的权重和偏差，作为最佳权重和最佳偏差；

模型输出模块，用于通过所述最佳权重和最佳偏差优化深度神经网络DNN的参数，得到基于多目标粒子群优化的深度神经网络企业信用风险预测模型MOPSO-DNN。