CN113590807A

CN113590807A - 一种基于大数据挖掘的科技企业信用评价方法

Info

Publication number: CN113590807A
Application number: CN202110895689.9A
Authority: CN
Inventors: 杜丰
Original assignee: Suzhou Industrial Park Enterprise Development Service Center
Current assignee: Suzhou Industrial Park Enterprise Development Service Center
Priority date: 2021-08-05
Filing date: 2021-08-05
Publication date: 2021-11-02
Anticipated expiration: 2041-08-05
Also published as: CN113590807B

Abstract

本发明涉及企业信用评价技术领域，尤其涉及一种基于大数据挖掘的科技企业信用评价方法，方法步骤包括科技企业信用相关数据采集，将数据传送至云端，对数据进行存储与数据预处理，使用GMM对数据进行聚类，将带有标签的数据用来训练一个可以准确预测科技企业信用等级的BP神经网络模型，最后接受用户输入的企业数据，用BP神经网络进行预测并将结果从云端返回给用户。本发明具有客观、全面、精准、鲁棒性强等优点。

Description

一种基于大数据挖掘的科技企业信用评价方法

技术领域

本发明涉及数据处理技术领域，尤其涉及一种基于大数据挖掘的科技企业信用评价方法。

背景技术

科技企业信用评价是以科技企业或单位作为被评价对象开展的信用评价活动，其目的在于构建一套能够比较客观、全面、动态地反映科技企业信用状态的指数。这有助于揭示科技企业信用水平的波动，为科技企业加强信用建设提供科学指导，也为金融机构评估科技企业信用提供可靠的参考。传统的科技企业信用评价采用“信用等级评级”方式，大多根据企业经营数据等信息，通过专家介入或纯数学计算的方法得到评价模型对企业的信用进行评估，最终通过预先设定好的简单的字母标识来表述企业的信用状况。

上述科技企业信用评价体系有其一定的合理性，但随着经济社会的发展和大数据时代的到来，传统的科技企业评价体系的弊端也越来越突出。首先，传统的“信用等级评级”偏重于财务指标，考虑的因素过于单一。如今的企业信用信息呈现出多元化的态势，无论是数字、文字、图片、音频还是视频都可以作为重要参考录入存储，其次，过于依赖专家意见和缺乏对数据的深度挖掘。获取专家意见虽比较可靠，但成本高且只能反映目前个别企业的信用情况，灵活性和普适性较差。使用传统的基于统计的纯数学方法建立指标体系无法有效挖掘企业数据所含信用信息。因此，需要运用大数据挖掘技术对科技企业信用进行评价十分必要。

发明内容

有鉴于此，本发明的目的是提供一种基于大数据挖掘的科技企业信用评价方法，本发明具体按以下步骤执行：

S₁:对科技企业信用相关数据进行采集，具体利用传统的征信方式以及网络爬虫技术获得科技企业信用相关数据，包括财务数据、用户对科技企业的评价、企业决策层个人信用、企业合作伙伴信用数据、资产负债率和流动比率等等数据；

S₂:将收集到的数据通过局域网或互联网传至基于Spark分布式计算技术框架进行搭建的大数据云端平台，Shark是为了应用Hive技术而出现的数据仓库，将企业信用相关数据存储在其中，既可以很方便地对相关数据进行业务逻辑查询，也可以确保数据的安全性。通过该平台为科技企业信用评价提供数据存储和计算能力支撑。

S₃:对存储数据进行信息提取、数据集成、数据变换的预处理操作；由于收集到的数据来自多个异种数据源，很有可能受到噪声、缺失和不一致的侵扰。数据存储完成后对数据进行信息提取、数据集成、数据变换等预处理操作，可以使得后续的挖掘过程更加容易，更加准确。

S₄:使用数据挖掘相关算法进一步处理数据，使用GMM对所有企业进行聚类，得到各个类的标签；

S₅:用带有标签的一部分数据作为训练集进行模型的训练，建立BP神经网络，采用Adam方法对参数进行更新，用以预测每个企业所述的类别，使用余下的数据集作为测试集对模型进行评价，采用精准率作为评价指标，若精准率大于所设定的阈值则认为模型是合适的，将训练完毕的模型保存即可，否则，返回步骤S₄，并根据实际情况对模型进行适合的调整；

S₆:根据用户所提供的企业的信用相关数据，经过相关处理后用步骤S₅中建立好的模型进行分类，并将分类结果返回给用户。

进一步，在步骤S₃中，首先对非数值型数据，采用文本词袋模型将其转化为词向量，按照词的性质将所有的词分为褒义词、中性词和贬义词，统计各词向量的褒义词和贬义词的数量总和作为样本特征，然后再进行数据集成和数据变换，其中数据变换采用z分数规范化，如式(1)所示：

其中μ，σ分别为原始数据集的均值和方差。

进一步，在步骤S₄中，使用GMM对数据进行直接聚类，参考国际通用的信用等级划分方法，即三等五级制(AAA、AA、A、B、C)，将聚类个数k设为5，GMM的实现步骤如下：

S_4。1：初始化GMM：对于n个样本点要划分为k类，则GMM由k个高斯分布线性组合而成，μ_k为均值向量，初始化为全零，σ_k为协方差向量，初始化为单位矩阵的正整数倍，π_k初始化为1/n；

S_4。2：已知μ_k、σ_k、π_k，计算所有样本点在GMM各高斯分布下的概率，如式(2)所示：

S_4。3：已知p(i,j)，更新参数，如式(3)-式(6)所示：

不断重复S_4。2-S_4。3，直到模型收敛或达到最大迭代数目，选取概率最大的类别作为样本的分类，由于已经实现了聚类，进行通过工作人员对各个类别进行打标签。

进一步，步骤S₅：具体按以下步骤执行：

S_5。1：初始化BP神经网络输入节点数input_size为数据的特征数，输出节点数为聚类类数k，根据经验计算隐层节点数如式(7)所示：

其中α为1-10之间的常数，是BP神经网络的超参数之一；

S_5。2：从带标签的数据中抽取80％作为训练集，采用mini-batch和Adam技术对参数进行更新，其中mini-batch的大小通常取训练集大小的5％-10％，也是超参数之一，Adam技术公式如下：如式(8)-式(10)所示：

初始化：lr＝0.01，β₁＝0.9，β₁＝0.99，m₀＝0，v₀＝0

更新：m_t、v_t

其中g_t为模型返回的参数梯度；更新参数θ_t：

其中θ_t为模型返回的参数。

重复S_5。1-S_5。2直到模型收敛或达到最大迭代数目。

S_5。3：用准确度作为模型的评价指标，设定准确度阈值为90％，用S_5。2中训练好的BP神经网络对测试集进行预测，计算该模型在预测及上面的准确度，若准确度大于阈值，则模型合格，否则重新回到S_5。2，对预处理手段和模型的超参数进行调整，直至模型合格为止。

本发明的一种基于大数据挖掘的科技企业信用评价方法的有益效果为：以大数据挖掘技术取代现有的人工收集数据，代入评价体系计算得分的方式，搭建基于Spark分布式计算技术框架，利用网络爬虫进行科技企业数据的采集和存储。采用文档词袋模型、GMM聚类、BP神经网络、Adam参数更新和数据可视化等大数据挖掘方法，对科技企业信用相关数据进行更智能、全面、快速的分析，以期缓解科技企业和金融机构之间的信息不对称,改善企业的融资环境

实现了对科技企业信用进行自动、全面、科学的评价。它克服了目前传统评价体系数据来源单一、依赖人工收集、主观性太强等缺点，实现了对包含科技企业在内的各大企业的信用进行更加准确的评价，有助于缓解科技企业和金融机构的信息不对称问题，既改善了企业的融资环境，也降低了金融机构客户失信的风险，为当前大数据时代下的企业信用问题的有效解决提供一种新的治理模式，对全面提升社会信用体系具有较为显著的现实意义。

附图说明

图1是本发明的方法流程图；

具体实施方式

以下将结合附图和具体实施例对本发明进行详细说明，显然，所描述的实施例仅仅只是本申请一部分实施例，而不是全部的实施例，基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本实施例中，如图1所示本发明具体按以下步骤执行：

S₂:将收集到的数据通过局域网或互联网传至基于Spark分布式计算技术框架进行搭建的大数据云端平台，Shark是为了应用Hive技术而出现的数据仓库，将企业信用相关数据存储在其中，既可以很方便地对相关数据进行业务逻辑查询，也可以确保数据的安全性。通过该平台为科技企业信用评价提供数据存储和计算能力支撑。数据的传输采用SparkStreaming技术，它可以实现高吞吐、具备容错机制的实时流数据处理，并且能够支持从多种数据源获取数据，并将结果存储到数据库或文件系统中。

本实施例中，在步骤S₃中，首先对非数值型数据，例如客户对各个科技企业的评价等，采用文本词袋模型将其转化为词向量，按照词的性质将所有的词分为褒义词、中性词和贬义词，统计各词向量的褒义词和贬义词的数量总和作为样本特征，然后再进行数据集成和数据变换，其中数据变换采用z分数规范化，如式(1)所示：

其中μ，σ分别为原始数据集的均值和方差。经过这一变换后，数据的分布近似于高斯分布。

本实施例中，在步骤S₄中，使用GMM对数据进行直接聚类，参考国际通用的信用等级划分方法，即三等五级制(AAA、AA、A、B、C)，将聚类个数k设为5，GMM的实现步骤如下：

S_4。1：初始化GMM：对于n个样本点要划分为k类，则GMM由k个高斯分布线性组合而成，μ_t为均值向量，初始化为全零，σ_k为协方差向量，初始化为单位矩阵的正整数倍，π_k初始化为1/n；

S_4。3：已知p(i,j)，更新参数，如式(3)-式(6)所示：

本实施例中，步骤S₅：具体按以下步骤执行：

其中α为1-10之间的常数，是BP神经网络的超参数之一；

初始化：lr＝0.01，β₁＝0.9，β₁＝0.99，m₀＝0，v₀＝0

更新：m_t、v_t

其中g_t为模型返回的参数梯度；更新参数θ_t：

其中θ_t为模型返回的参数。

重复S_5。1-S_5。2直到模型收敛或达到最大迭代数目。

以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的宗旨和范围，其均应涵盖在本发明的权利要求范围当中。本发明未详细描述的技术、形状、构造部分均为公知技术。

Claims

1.一种基于大数据挖掘的科技企业信用评价方法，其特征在于：具体按以下步骤执行：

S₁:对科技企业信用相关数据进行采集，具体利用传统的征信方式以及网络爬虫技术获得科技企业信用相关数据，包括财务数据、用户对科技企业的评价、企业决策层个人信用、企业合作伙伴信用数据、资产负债率和流动比率；

S₂:将收集到的数据通过局域网或互联网传至基于Spark分布式计算技术框架进行搭建的大数据云端平台，便于对相关数据进行业务逻辑查询和确保数据的安全，为科技企业信用评价提供数据存储和计算能力支撑；

S₃:对存储数据进行信息提取、数据集成、数据变换的预处理操作；

2.根据权利要求1所述的一种基于大数据挖掘的科技企业信用评价方法，其特征在于：在步骤S₃中，首先对非数值型数据，采用文本词袋模型将其转化为词向量，按照词的性质将所有的词分为褒义词、中性词和贬义词，统计各词向量的褒义词和贬义词的数量总和作为样本特征，然后再进行数据集成和数据变换，其中数据变换采用z分数规范化，如式(1)所示：