CN114358908B

CN114358908B - Ai驱动的协作企业多维信用特征提取与评价方法

Info

Publication number: CN114358908B
Application number: CN202210017420.5A
Authority: CN
Inventors: 廖伟智; 黄鹏伟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-01-07
Filing date: 2022-01-07
Publication date: 2023-04-07
Anticipated expiration: 2042-01-07
Also published as: CN114358908A

Abstract

本发明公开AI驱动的协作企业多维信用特征提取与评价方法，应用于企业信用评估领域，针对现有技术存在的企业信用评估准确率不够高的问题；本发明采用更多的财务数据指标，而且加入对企业信用评论的文本数据指标，从多个维度刻画企业形象，采用多个模型提取特征，能够有效地提高企业信用评估的准确性。

Description

AI驱动的协作企业多维信用特征提取与评价方法

技术领域

本发明属于数据处理领域，特别涉及一种企业信用评价技术。

背景技术

企业信用风险评估从20世纪60年代以来就一直是国际学术界和金融界研究的重要课题。大量的市场调查研究和长期的实践表明，导致我国企业应收账款拖欠的主要原因是事前没有对企业的信用进行充分评估。金蝶云·苍穹生态圈中也存在相同问题，对生态圈中的协作企业信用进行评估，降低企业违约事件发生的概率，为企业的合理销售提供技术支持是金蝶云·苍穹企业协同与生态圈构建的基础。以金蝶云·苍穹生态圈中的企业为研究对象，利用大数据分析技术、机器学习方法、深度学习技术，对生态圈中企业的信用进行评估。

目前主要有以下两种处理方法：

1、专家经验的方法：企业有经验的专家根据几个企业的财务指标制定一个经验公式，通过公式得到企业的信用评分，进而划分企业的信用等级。这类方法通常只能考虑企业财务相关的少数指标，对企业的形象刻画不够全面，对经验公式的要求非常高，具有较大的错误率。

2、机器学习的方法：这类方法采用传统的机器学习模型，如SVM、xgboost等。这些模型可以处理较多的财务数据指标，但无法对文本评论数据进行有效的处理，而且单个模型的准确率有限，效果不太理想。

现有技术主要存在以下缺点：

(1)基于专家经验的方法考虑的财务指标不够全面，对经验的依赖太强，准确率不高。

(2)机器学习的方法模型单一，无法处理文本评论数据，对企业的形象刻画不够全面，准确率不够高。

发明内容

为解决上述技术问题，本发明提出一种AI驱动的协作企业多维信用特征提取与评价方法，不仅采用更多的财务数据指标，而且加入对企业信用评论的文本数据指标，从多个维度刻画企业形象，采用多个模型提取特征，能够有效地提高企业信用评估的准确性。

本发明采用的技术方案为：AI驱动的协作企业多维信用特征提取与评价方法，包括：

S1、获取财务数据与文本数据；本发明中的数据获取方式主要为数据平台或者企业主动提供的数据；

S2、对获取到的财务数据与文本数据进行预处理；

S3、对预处理后的财务数据与文本数据进行数据不平衡处理；

S4、建立基于Stacking算法企业信用评估方法模型；

S5、采用步骤S3得到的数据对基于Stacking算法企业信用评估方法模型进行训练；

S6、采用训练好的基于Stacking算法企业信用评估方法模型得到待评估企业信用等级。

本发明的有益效果：本发明的方法包括以下优点：

1、采用生成对抗网络生成少数类别数据，即信用评价为低的类别，解决数据不平衡问题；

2、加入多个财务数据指标和文本评论数据，全面刻画企业形象；

3、采用集成学习中的Stacking算法，提高准确度。

附图说明

图1为本发明实施例中提供的生成财务收据的网络模型；

图2为本发明实施例中提供的生成文本数据的网络模型；

图3为Stacking算法模型结构图；

图4为评论文本特征提取模块；

图5为本发明方法的流程图。

具体实施方式

为便于本领域技术人员理解本发明的技术内容，下面结合附图对本发明内容进一步阐释。

本发明的方法包括：

(1)财务数据预处理：本发明的财务数据来自万德数据库，对财务数据进行主成分分析处理；

(2)文本数据预处理：本发明的文本数据来自大族激光，文本主要是对买方的赊账、还款、历史违约情况的记录，依次对文本进行噪声去除、停用词去除以及文本的词向量化处理；

(3)生成少数类别数据：采用生成对抗网络分别训练、生成财务数据和文本评论数据；

(4)企业信用评估模型：建立基于Stacking算法企业信用评估方法模型，并训练模型，对未知企业的信用进行评估。

(5)模型训练：对网络模型进行训练；

(6)结果预测：在测试集上对模型效果进行测试。

步骤(1)中财务数据的主成分分析处理采用SPSS软件的主成分分析功能，将19个财务指标转化成10个主成分指标。19个指标具体划分为五类：偿债能力、经营能力、盈利能力、发展能力、风险水平；偿债能力包括的指标有：流动比率、速动比率、现金比率、资产负债率、产权比率；经营能力包括的指标有：应收账款周转率、存货周转率、总资产周转率；盈利能力包括的指标有：总资产净利率、净资产收益率、营业净利率、投资收益率；发展能力包括的指标有：固定资产增长率、总资产增长率、净资产收益增长率、净利润增长率、营业收入增长率；风险水平包括的指标有：财务杠杆、经营杠杆率；

步骤(2)中噪声去除采用python的内置模块re正则化对评论文本进行去噪处理，并且采用Word2vec进行词向量转化。

步骤(3)中生成少数类别数据采用TensorFlow框架分别搭建生成财务数据和文本数据的神经网络模型，如图1、图2所示，图1的训练数据是步骤(1)得到的主成分数据，图2的训练数据是步骤(2)得到的文本数据，训练网络，最终用训练好的网络生成数据。经步骤(3)的处理可以解决数据不平衡问题，因为在实际中信用好的数据总是远远多于信用不好的，用这些数据训练模型会导致模型预测结果总是偏向于好的种类，是无意义的，生成少数类数据扩充数据集，使模型更好地学习不同种类数据特征，做有效地预测；

如图1所示，步骤(3)中生成财务数据的神经网络模型包括：生成器与鉴别器；其生成器中包括输入的随机噪声、全连接层、Dropout层、全连接层、输出层，其鉴别器中包括输入层、全连接层、Dropout层、输出层；随机噪声作为生成器的输入，生成器的输出与真实数据作为鉴别器的输入，生成器的输出为0,1标签，其中0表示生成数据与真实数据不同，1表示生成数据与真实数据相同。

如图2所示，步骤(3)中生成文本数据的神经网络模型包括：生成器与鉴别器；其生成器中包括输入的随机噪声与Self-Attention层；其鉴别器中包括输入层、Bilstm层和输出层层；随机噪声作为生成器的输入，生成器的输出与真实数据作为鉴别器的输入，输出为0,1标签，其中0表示生成数据与真实数据不同，1表示生成数据与真实数据相同；

训练时将随机噪声和真实数据输入模型中，采用Adam算法进行训练，当误差当模型产生的损失值满足设定要求或者最大迭代次数时，终止模型训练；一般设定损失值小于e^-4，最大迭代次数设置为1000。然后使用训练好的生成器，输入随机噪声，得到少数类别的模拟数据，用于扩充数据集。

步骤(4)中AI驱动的协作企业多维信用特征提取与评价方法模型主要由财务数据特征提取模块、评论文本特征提取模块、强学习器模块构成，如图3示。

财务数据特征提取模块：此模块由SVM、Random Forest、XGboost、GDBT、Adaboost和Logistics Regression模型组成；

具体计算方式为：将主成分分析后的数据分别输入上述6个模型中进行训练，并将输出结果记为y₁、y₂、y₃、y₄、y₅、y₆：

SVM计算方法：

其中sign是sign函数，p_i和c是解释超平面的参数，K(x,xi)是核径向基函数。

RF计算方法：

其中T是树的数量，h_i(x)是每棵树的输出。

XGboost计算方法：

其中f_t(x_i)是每一棵树的输出函数。

GDBT计算方法：

其中f_k是样本到树输出的映射。

Adaboost计算的方法：

其中

是每棵树的输出函数，θ_j是每棵树的权重。

LR计算方法：

其中w，b是待估计系数，上标T表示转置。

评论文本特征提取模块：本模块使用Google预训练好的BERT-Base,Cased模型和全连接层构成，如图4所示，首先将词向量转化后的文本W输入BERT中，经过BERT模型后将BERT输入层[CLS]标签对应的输出向量记为V，然后将V输入全连接层经softmax层得到输出结果y₇，计算如下：

V＝BERT(W)

y₇＝soft max(W^aV+b)

其中，W^a为全连接层的权重，b为全连接层的偏置。

强学习器模块：此模块由concatenate层(即图3中的拼接层)、CNN层(即图3中的卷积神经网络)、Attention层(即图3中的注意力层)及softmax层(即图3中的输出层)构成，如图3中所示，首先由concatenate层对财务数据特征提取模块和评论文本特征提取模块的输出结果进行拼接组成新的数据集X，然后经过CNN网络和Attention层进一步提取数特征，最后由softmax层输出最终结果p，计算如下：

X＝concatenate(y₁,y₂,y₃,y₄,y₅,y₆,y₇)

cnn_out＝CNN(X)

att_out＝Attention(CNN_out)

p＝soft max(att_out)

其中p为企业信用等级，本发明中为5类，这5类为现有已知技术，是大族激光对买方企业的信用等级划分。

步骤(5)中采用Adam算法训练图3所示模型参数，当模型产生的损失值满足设定要求或者最大迭代次数时，终止模型训练；一般设定损失值小于10^-4，最大迭代次数设置为1000。

步骤(6)中使用训练好的模型，在测试集上进行预测，在Accuracy、Precision、Recall和F1_score上和其他模型的对比结果如表1所示。本领域技术人员应知这里的测试集为经步骤(3)处理后的数据。

表1模型实验结果对比

Methods	Accuracy	Precision	Recall	F1_score
					SVM	0.792	0.771	0.8	0.785
DT	0.77	0.8	0.792	0.795
					RF	0.79	0.795	0.7	0.744
XGboost	0.77	0.745	0.82	0.78
					GDBT	0.79	0.808	0.76	0.783
Adaboost	0.78	0.785	0.832	0.807
					LR	0.8	0.789	0.8	0.794
CNN-LSTM	0.784	0.789	0.779	0.783
					Catboost	0.796	0.801	0.788	0.794
本发明的模型	0.857	0.836	0.877	0.856

实验结果可以看出，本发明提出的集成学习模型在自建的数据集上相比主流的机器学习模型(SVM、DT、RF、XGboost、GDBT、Adaboost、LR)有更好的表现结果，准确率平均提高7.24％，精确率平均提高5.13％，召回率平均提高9.07％，F1_score平均提高7.2％。这也是集成学习的优点之一，集成学习模型的输出结果要好于单个学习器的输出。主流的机器学习模型和Catboost模型无法对文本评论数据直接进行处理，需要通过其他方法将文本转换成文本向量再进行处理。在CNN-LSTM模型中引进了文本结构数据，采用CNN网络对文本数据进行编码，提取文本特征，但Bert模型比CNN网络具有更强的处理文本特征的能力。Bert模型利用Transformer的Encoder模块可以对文本整体的语义信息进行编码，预训练的Bert经过微调处理，即可用于文本分类任务中，本发明采用Bert模型处理文本评论数据，取得了很好的效果。从表1可以看出，本发明提出的集成学习模型在实验结果要好于CNN-LSTM模型，证明了本发明提出模型的有效性。

本领域的普通技术人员将会意识到，这里所述的实施例是为了帮助读者理解本发明的原理，应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的权利要求范围之内。

Claims

1.AI驱动的协作企业多维信用特征提取与评价方法，其特征在于，包括：

S1、获取财务数据与文本数据；

S2、对获取到的财务数据与文本数据进行预处理；

S3、对预处理后的财务数据与文本数据进行数据不平衡处理；生成少数类别数据：采用生成对抗网络分别训练、生成财务数据和文本评论数据；

S4、建立基于Stacking算法企业信用评估方法模型；步骤S4所述基于Stacking算法企业信用评估方法模型包括：财务数据特征提取模块、文本特征提取模块、强学习器模块；所述财务数据特征提取模块的输入为经步骤S3处理后的财务数据；文本特征提取模块的输入为经步骤S3处理后的文本数据；财务数据特征提取模块的输出与文本特征提取模块的输出共同作为强学习器模块的输入，强学习器模块的输出为企业信用评级结果；

财务数据特征提取模块包括6个单元模型，分别为：SVM、Random Forest、XGboost、GDBT、Adaboost和Logistics Regression；

文本特征提取模块包括：Google预训练好的BERT模型和全连接层，首先将经步骤S3处理后的文本数据输入BERT模型中，经过BERT模型后将BERT输入层[CLS]标签对应的输出向量记为V，然后将V输入全连接层经softmax层得到输出结果；

强学习器模块包括：concatenate层、CNN层、Attention层及softmax层构成，首先由concatenate层对财务数据特征提取模块和评论文本特征提取模块的输出结果进行拼接组成新的数据集X，经过CNN网络和Attention层进一步提取数特征，最后由softmax层输入最终结果；

2.根据权利要求1所述的AI驱动的协作企业多维信用特征提取与评价方法，其特征在于，所述财务数据包括19个指标：流动比率、速动比率、现金比率、资产负债率、产权比率、应收账款周转率、存货周转率、总资产周转率、总资产净利率、净资产收益率、营业净利率、投资收益率、固定资产增长率、总资产增长率、净资产收益增长率、净利润增长率、营业收入增长率、财务杠杆、经营杠杆率。

3.根据权利要求2所述的AI驱动的协作企业多维信用特征提取与评价方法，其特征在于，步骤S1所述的文本数据具体为企业的赊账、还款、历史违约情况的文本记录。

4.根据权利要求2所述的AI驱动的协作企业多维信用特征提取与评价方法，其特征在于，步骤S2所述对步骤S1获取到的财务数据进行预处理，具体为采用主成分分析将19个财务指标转化成10个主成分指标。