CN115131039B

CN115131039B - 基于非线性降维的企业风险评估方法、计算机设备及存储介质

Info

Publication number: CN115131039B
Application number: CN202210805969.0A
Authority: CN
Inventors: 张宏鑫; 吴泓嘉; 邹姗辰
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2022-07-08
Filing date: 2022-07-08
Publication date: 2023-04-07
Anticipated expiration: 2042-07-08
Also published as: CN115131039A

Abstract

本发明提供一种基于非线性降维的企业风险评估方法，包括如下步骤：通过层次分析法构造层次模型，进而得到评估企业综合风险的关键维度；通过网络爬虫收集待评估企业相关数据，对数据进行处理，得到风险维度分数X；构造高斯混合模型GMM，对企业风险进行分类；使用t‑SNE对风险维度分数X进行降维，设定特征原语、基本值和运算操作，给定构造特征树的目标函数；构建企业风险评估的可视化系统，并提供用户交互接口；使用可视化系统探索数据并构造特征树，获得用于对分类结果进行解释的特征表达式。本发明可以结合专业人员的分析经验，有效地量化企业的经营健康程度，并提供多因素、可解释的企业风险评估结果。

Description

基于非线性降维的企业风险评估方法、计算机设备及存储介质

技术领域

本发明涉及风险评估技术领域，具体涉及一种基于非线性降维的企业风险评估方法与系统。

背景技术

对于企业外部人员，比如投资机构，投资人，咨询团队，政府部门等来说，评估一个企业的综合风险，包括企业法律风险、董监高人员风险、舆论风险、经营风险、信用风险，有利于避免决策失误。而通过企业间的横向比较，从数据中了解企业风险的一般规律，也有利于决策的制订。然而，现有的企业风险评估方法存在以下问题：

(1)目前市场上存在的企业查询分析软件往往聚焦于单个企业，对批量企业进行调研和深入分析是耗时耗力的，并且缺乏企业之间的横向比较，难以揭示企业风险的一般规律。

(2)基于经验的规则决策方法，如AHP[Saaty T L.What is the analytichierarchy process？[M].Mathematical models for decision support.Springer,Berlin,Heidelberg,1988:109-121.]、ANP[Saaty T L,Vargas L G.The analyticnetwork process[M].Decision making with the analytic networkprocess.Springer,Boston,MA,2013:1-40.]、DEMATEL[Si S L,You X Y,Liu H C,etal.DEMATEL Technique:A Systematic Review of the State-of-the-Art Literatureon Methodologies and Applications[J].Mathematical Problems in Engineering,2018,2018:1-33.]、粗糙集决策[Roman Sowiński,Greco S,Matarazzo B.Rough Sets inDecision Making[J].Springer New York,2015.]和模糊决策[Hong D H,Choi CH.Multicriteria fuzzy decision-making problems based on vague set theory[J].Fuzzy Sets&Systems,2000,114(1):103-113.]等，虽然能对复杂的企业风险决策问题提供针对性的经验规则，但是这些规则依赖于制定者本身，缺少数据支撑，不具有普适性，而且以决策结果为导向的粗粒度评估方式忽略了细节。

(3)基于数据驱动的机器学习方法，例如随机森林[Chen Y,Zheng W,Li W,etal.Large Group Activity Security Risk Assessment and Risk Early Warning Basedon Random Forest Algorithm[J].Pattern Recognition Letters,2021.]，以及PCA，t-SNE[Laurens V D M,Hinton G.Visualizing Data using t-SNE[J].Journal of MachineLearning Research,2008,9(2605):2579-2605.]，K-means等降维和聚类方法，虽然可以从企业高维数据中发掘潜在复杂特征、提高分析效率，但是缺乏对机器分析结果进行解释。而且，分析人员难以通过这些方法进行交互式数据探查，以从数据中发现问题。

因此需要一种针对大批量企业的综合性风险评估方法，高效、细粒度、多角度地量化企业状况，判断企业是否具有风险，提供可读的对于机器分析结果的解释，为决策提供依据。并且提供一个启发式、人机协同的、支持企业间的横向比较的可视化分析系统，帮助分析人员直观地探索数据，获得洞见。

发明内容

为了解决上述问题，本发明提出了一种基于非线性降维的企业风险评估方法，具体包括如下内容：

一种基于非线性降维的企业风险评估方法，包括以下步骤：

S1、通过层次分析法构造层次模型，进而得到评估企业综合风险的关键维度；

S2、通过网络爬虫收集待评估企业相关数据，对数据进行处理，得到风险维度分数X；

S3、构造高斯混合模型GMM，对企业风险进行分类；

S4、使用t-SNE对风险维度分数X进行降维，设定特征原语、基本值和运算操作，给定构造特征树的目标函数；

S5、构建企业风险评估的可视化系统，并提供用户交互接口；

S6、使用可视化系统探索数据并构造特征树，获得用于对分类结果进行解释的特征表达式。

进一步的，步骤S1具体包括：

S11、确定层次模型的结构，包括目标层、标准层和维度层；其中目标层为企业综合评估得分；标准层包括企业法律风险、董监高人员风险、舆论风险、经营风险和信用风险5个标准；维度层为标准层细分出来的多个风险维度；

S12、确定层次单排序和层次总排序，并进行一致性检验，得到维度层中评估企业综合风险的n个关键维度和维度层到目标层的归一化权重。

进一步的，步骤S2具体包括：

S21、通过爬虫技术从互联网中获取每个待评估企业的数据，包括n个风险维度的数据；

S22、对数据进行清洗，并将文本类型的数据进行数值化；

S23、使用分段函数将每个维度的数据映射为分数，获得风险维度分数X；

S24、使用所述归一化权重，对X加权平均，计算目标层企业综合评估得分。

进一步的，步骤S3具体包括：

S31、构造高斯混合模型GMM，拟合所述风险维度分数X，通过EM算法求解GMM中的参数；

S32、输入企业的风险维度分数，通过最大化后验概率，获得风险类别；

S33、将所述企业综合评估得分进行可视化，直观地考察GMM的分类结果。

进一步的，步骤S4具体包括：

S41、使用所述风险维度分数X训练t-SNE模型，得到企业在非线性降维空间中的坐标；

S42、选取n个风险维度中的若干个，设置为特征原语d；使用K-means在d所对应的维度上进行聚类，将这些维度划分为若干个不重叠的数值区域作为d的基本值v；

S43、设定三种二元运算操作∩,∪,-：

a∩b：＝N_a∩b＝N_a∩N_b＝{x|x∈N_a or x∈N_b}，

a∪b：＝N_a∪b＝N_a∪N_b＝{x|x∈N_a and x∈N_b}，

其中a,b为任意的特征原语，x为任意企业，N_a,N_b分别为符合a,b所描述的的企业集合，定义为特征树的节点，特征原语加上基本值与这三种运算的组合为特征表达式；

S44、给定特征树的目标函数如下：

其中，

为特征树的根节点，根节点是符合特征原语

所描述的企业集合，

为损失函数，o为待求解的感兴趣企业的特征原语，|·|符号表示节点中的企业数量，λ为正则化系数，Height表示特征树的高度。

进一步的，步骤S5具体包括：

S51、设计特征原语视图，可视化层次模型的维度层及其权重；

S52、设计总体视图，在非线性降维分布展示t-SNE降维后的企业，每个点代表一家企业，用指定颜色编码企业分类结果，在特征原语量化中，通过平行坐标轴展示所述风险维度分数的分布；

S53、设计统计视图，量化值分布展示所述企业综合评估得分的分布，用指定颜色编码企业分类结果，次级量化值分布展示加权后标准层的分布；

S54、设计特征结构建模视图，可视化特征树。

进一步的，步骤S6具体包括：

S61、基于分析人员输入的企业编号和尺度阈值，计算特征树的目标节点；

S62、遍历所有特征原语和基本值，计算每两个特征原语∩,∪,-运算后的损失，推荐损失最小的特征原语与运算方式；

S63、基于推荐的特征原语与运算方式，迭代更新生成特征树根节点，并通过损失函数

计算目标节点与根节点之间的损失；

S64、当损失不再减少时，特征树构造完毕，当前特征树根节点对应用于对分类结果进行解释的特征表达式。

本发明还提供一种计算机设备，包括存储器和处理器，所述存储器和处理器之间互相通信连接，所述存储器中存储有计算机指令，所述处理器通过执行所述计算机指令，从而执行前述的企业风险评估方法。

本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使计算机执行前述的企业风险评估方法。

本发明的基于非线性降维的企业风险评估方法，其优点为：

(1)建立了一个新的层次模型，将复杂的企业风险评估问题分解成层次清晰的风险维度分数，多角度地量化企业的风险程度；

(2)提供无监督的风险企业分类方法，将企业分为正常与异常两个风险类别，判断企业是否具有风险；

(3)基于t-SNE非线性降维，本发明设计了一种新颖的构造特征建模法，通过特征表达式提供可读的对于机器分析结果的细粒度解释；

(4)设计了一套可视化系统，方便分析人员直观地探索与比较企业数据，并启发式地辅助用户构造特征树与输出相似企业。

附图说明

图1为本发明的基于非线性降维的企业风险评估方法实施例的步骤示意图。

图2为本发明的基于非线性降维的企业风险评估方法实施例的层次模型的结构。

图3(a)和图3(b)为本发明的基于非线性降维的企业风险评估方法实施例中高斯混合模型对企业进行分类前后的企业综合评估得分分布可视化示意图，图3(a)为分类前分布，图3(a)为分类后分布。

图4为本发明的基于非线性降维的企业风险评估方法实施例中所关注企业邻域的三层尺度。

图5为本发明的基于非线性降维的企业风险评估方法实施例中特征树和最终得到的特征表达式。

图6为本发明的基于非线性降维的企业风险评估方法实施例的可视化系统总览图，包括特征原语视图、总体视图、统计视图和特征结构建模视图。

图7是本发明实施例提出的一种计算机设备的硬件结构示意图。

具体实施方式

为了进一步理解本发明，下面结合实施例对本发明优选实施方案进行描述，但是应当理解，这些描述只是为进一步说明本发明的特征和优点，而不是对本发明权利要求的限制。

本发明提供了一种基于非线性降维的企业风险评估方法，如图1所示，在一示例性实施例中，其包括如下步骤：

第一步，通过层次分析法构造层次模型，进而得到评估企业综合风险的关键维度。

在一示例中，首先，确定包括目标层、标准层和维度层的层次模型，如图2所示。然后，确定层次单排序和层次总排序，分别构造判断矩阵进行一致性校验，得到28个评估企业综合风险的关键维度，以及维度层到目标层的归一化权重。

第二步，通过网络爬虫收集待评估企业相关数据，对数据进行处理，得到风险维度分数X。

在一示例中，上述过程包括：首先，整理企业名单，核对企业名称以及去除已经注销和吊销的企业。编写python爬虫工具，从企查查、微博等网站获取企业数据，每个企业的数据包括28个风险维度。然后，对数据中的NULL值或者NAN值补零。将企业描述、标签、舆论新闻等文本类型数据进行数值化。数值化过程包括：企业描述中含有理财、投资、区块链、教育机构、房地产等词语，将敏感行业维度的值设为1，否则为0；根据标签中含有经营异常和A级纳税人的企业，将对应维度设置为1；舆论新闻使用预训练过的BERT模型将文本情绪分为正、中立、负情绪，分别数值化为1，0，-1。将数值数据映射为分数数据，对数据进行规范化处理，这个过程，通过分段函数，将数据映射为具有可比性的分数数据，例如实缴注册资本比得分的分段函数为：

得到风险维度分数X。最后，对X加权平均，计算目标层企业综合评估得分。

第三步，构造高斯混合模型GMM，对企业风险进行分类。

在一示例中，上述过程包括：首先构造高斯混合模型，其概率密度函数p_m(X)，

其中，a_i为混合系数，p(X|μ_i,∑_i)为第i个高斯分布的概率密度函数，其参数为μ_i,∑_i，通过EM算法求解参数a_i,μ_i,∑_i。然后输入第j个企业的风险维度分数X_j与均匀先验分布，通过最大化后验概率p(c|X_j)，得到第j个企业的风险类别c_j，过程为：输入第j个企业的风险维度分数X_j，给定均匀先验分布，通过最大化后验概率p(c|X_j)，得到第j个企业的风险类别，分类函数如下：

其中

是所有风险类别的集合。该步骤得到企业正常或者异常的风险类别。

然后将企业综合评估得分进行可视化，直观地考察GMM的分类结果。过程为：首先，给定一个EM算法初始值，对企业进行分类。然后，将企业分类结果通过企业综合评估得分进行可视化，来考察模型的分类结果。如果分类结果可以很好地将两个峰区分开，由图3(a)和图3(b)所示，则认为该分类结果效果最优，否则，重新给定EM算法的初始值，估计GMM模型参数。

第四步，使用t-SNE对风险维度分数X进行降维，设定特征原语、基本值和运算操作，给定构造特征树的目标函数。

在一示例中，上述过程包括：

1)使用经营情况维度分数训练t-SNE模型，得到企业在非线性降维空间中的坐标。

2)将对企业经营情况的描述定义为特征原语，用符号d表示。如果企业x的经营情况与d一致，则称企业x符合特征原语d。为了方便用户快速构造特征节点，选取28个评估企业综合风险的关键维度中权重最大的8个风险维度作为特征原语。使用K-means方法将企业在这8个维度上进行聚类，将每个维度划分为3个不重叠的数值区域作为每个特征原语的基本值v。特征原语用符号d_k_v(k＝1,2,...,8,v＝H,M,L)表示。其余非基本特征原语支持用户进行自定义，用符号sca_cus或para_cus表示。特征原语加上基本值可以对企业的风险进行描述，可以用于解释机器分类结果。

3)称符合特征原语d的企业的集合为特征树的节点，用N_d表示。特征树的根节点用

表示。如果企业x是N_d中的一个元素，则用x∈N_d表示。如果企业x不是N_d中的一个元素，则用

表示。定义特征原语的三种二元运算操作∩,∪,-，即对于任意特征原语a,b有：

a∩b：＝N_a∩b＝N_a∩N_b＝{x|x∈N_a or x∈N_b}，

a∪b：＝N_a∪b＝N_a∪N_b＝{x|x∈N_a and x∈N_b}，

其中N_a,N_b分别为符合a,b所描述的的企业集合。特征原语加上基本值与∩,∪,-三种运算的组合为特征表达式。

4)基于上述定义，给定特征树的目标函数如下：

其中，

为特征树的根节点，根节点是符合特征原语

所描述的企业集合，特征原语o是待求解的感兴趣企业x的风险描述，|·|符号表示节点中的企业数量，λ为正则化系数，Height表示特征树的高度。特征原语o是未知的，通过对特征原语加上基本值进行运算组合，自下而上构造特征树，改变根节点，进而改变特征原语

使得损失函数

最小化，得到的

可以视为感兴趣企业x的风险描述。

第五步，构建企业风险评估的可视化系统，并提供用户交互接口，以进行探索不同细粒度企业信息和启发式地构造特征树，如图6所示。在一示例中，其过程为：

1)设计特征原语视图，对层次模型的维度层及其权重进行可视化，并且用户可以点击特征原语挑选需要展示的平行坐标轴和它们的排序。

2)设计总体视图，展示所有企业在非线性降维空间的分布以及在平行坐标轴上的分布。在非线性降维分布展示t-SNE降维后的企业，每个点代表一家企业，用绿色和红色编码企业分类结果。并且通过框选感兴趣的区域作为特征原语sca_cus，并通过单击右边的箭头按钮作为一个节点添加到特征树中。在特征原语量化中，通过平行坐标轴展示风险维度分数的分布。并且可以在平行坐标轴上框选一个或多个坐标轴的取值区域可以用作特征原语para_cus，添加为特征树的节点。

3)设计统计视图，量化值分布展示204中企业综合评估得分的分布，用绿色和红色编码企业分类结果。次级量化值分布展示加权后标准层的分布。直观地帮助用户考察的企业风险分类结果。

4)设计特征结构建模视图，提供特征原语与基本值的自动推荐，启发式地辅助用户构建特征树，对特征树进行可视化。并且提供企业输入框、相似特征企业输出、设置尺度阈值δ的交互接口。

第六步，使用可视化系统探索数据并构造特征树，获得用于对分类结果进行解释的特征表达式，以对企业风险分类结果进行细粒度解释。在一示例中，其过程为：

首先，分析人员在总体视图观察总体企业分布与分类，探索和比较企业数据，发掘感兴趣的企业。然后，分析人员输入感兴趣企业x，设置尺度阈值δ。如图4所示，系统将距离x小于δ的邻域内的全部企业U₁作为目标节点N_o，即

其中l_x,l_y分别是非线性降维空间中企业x,y的坐标。在企业数量大于1000的情况下，系统自动采取加速方式，不将所有企业都用于构造特征树的节点，而是只保留距离x小于3δ的全部企业U₂，即

将距离x大于3δ的全部企业U₃，即

通过K-means聚为40个簇，使用40个簇的质心代替原先的企业，以对数据进行精简，如图4所示。然后，系统自动遍历所有特征原语和基本值，计算每两个特征原语∩,∪,-运算后的损失，推荐损失最小的前三个特征原语与运算方式。分析人员可以根据推荐或者结合自己的分析经验，挑选的特征原语与运算方式，系统自动获取对应的特征原语所描述的企业集合，生成特征树节点，经过多次选取与运算，特征树节点从下至上两两结合，当损失不再减少，这时特征树归为一个根节点，构造完毕。分析人员可以双击特征树根节点得到特征表达式。分析人员根据选取的特征原语对应的维度，可以解读特征表达式，获得输入企业的机器分析结果的解释。最后，分析人员根据需要，点击下载按钮输出相似企业，分析到达终点。

本发明一示例性实施例提出的一种计算机设备的硬件结构如图7所示，该设备包括一个或多个处理器410以及存储器420，存储器420包括持久内存、易失内存和硬盘，图7中以一个处理器410为例。该设备还可以包括：输入装置430和输出装置440。

处理器410、存储器420、输入装置430和输出装置440可以通过总线或者其他方式连接，图7中以通过总线连接为例。

处理器410可以为中央处理器(Central Processing Unit，CPU)。处理器410还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器420作为一种非暂态计算机可读存储介质，包括持久内存、易失内存和硬盘，可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块，如本申请实施例中的业务管理方法对应的程序指令/模块。处理器410通过运行存储在存储器420中的非暂态软件程序、指令以及模块，从而执行服务器的各种功能应用以及数据处理，即实现上述实施中的企业风险评估方法。

存储器420可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储根据、需要使用的数据等。此外，存储器420可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器420可选包括相对于处理器410远程设置的存储器，这些远程存储器可以通过网络连接至数据处理装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

输入装置430可接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键信号输入。输出装置440可包括显示屏等显示设备。

一个或者多个模块存储在存储器420中，当被一个或者多个处理器410执行时，执行上述示例中的方法。

上述产品可执行本发明实施例所提供的方法，具备执行方法相应的功能模块和有益效果。未在本实施例中详尽描述的技术细节，具体可参见前述实施例中的相关描述。

本发明一示例性实施例还提供了一种非暂态计算机存储介质，计算机存储介质存储有计算机可执行指令，该计算机可执行指令可执行上述实施例中的企业风险评估方法。其中，存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(Random Access Memory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；存储介质还可以包括上述种类的存储器的组合。

以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。