CN111950932B

CN111950932B - 基于多源信息融合的中小微企业综合质量画像方法

Info

Publication number: CN111950932B
Application number: CN202010874130.3A
Authority: CN
Inventors: 曹丽娜; 陈进东; 张健; 任智军; 樊辉
Original assignee: Beijing Information Science and Technology University
Current assignee: Beijing Information Science and Technology University
Priority date: 2020-08-26
Filing date: 2020-08-26
Publication date: 2023-04-25
Anticipated expiration: 2040-08-26
Also published as: CN111950932A

Abstract

本发明公开了一种基于多源信息融合的中小微企业综合质量画像方法，包括如下步骤：(1)将企业质量画像维度分解，构建质量画像体系；(2)企业数据收集和预处理；(3)将收集到的企业数据按照类别分别设定标签。本发明面向中小微企业的综合质量画像建立了较为全面的指标体系，将企业的质量属性进行归类，形成多元化的企业综合质量标签，能够对企业综合质量进行画像，并对企业质量行为进行预测。

Description

基于多源信息融合的中小微企业综合质量画像方法

技术领域

本发明属于企业画像技术领域，具体涉及一种基于多源信息融合的中小微企业综合质量画像方法。

背景技术

质量是每个企业赖以生存和发展的根本，对于占市场主体绝大多数的中小微企业来说更是如此。在大数据时代，通过从海量非结构化的企业活动数据中挖掘质量经营相关信息，并将不同维度的质量信息融合为有价值的结构化信息，可以实现对企业质量经营状况的全面刻画。利用大数据的综合质量画像方法，不仅使中小微企业在贸易合作时可掌握合作企业的综合质量情况，更使企业建立对自身质量的整体认识，从而重视质量管理和质量经营工作，有助于将内部质量控制转移到外部市场的用户满意度提升，树立企业品牌形象。此外，也为监管部门提供有价值的中小微企业质量管理现状，甚至是行业发展的管理决策支持数据。目前已公开多种企业画像方法及系统，然而现有企业画像多集中于对企业信用状况、企业财务状况、企业经营发展等方面的描述和刻画，少有从企业质量经营、质量提升等角度进行深度分析。

美国著名质量管理专家A.V.Feigenbaum于1994年提出了“大质量”的概念。“大质量”是一个综合的概念，其不仅限于产品形成全过程的质量，而是扩展到管理全过程的工作质量、体系质量，进而扩展到组织经营的质量，因此，它是实物形态质量和价值形态质量的统一。企业要树立综合质量观念，就是从战略、品牌、文化和经营等方面重视质量工作，使企业的运作从内部的质量控制转移到外部市场的用户满意。本发明从内部质量和外显质量两方面刻画中小微企业的综合质量。当前，关于企业的信息越来越透明化，包括工商登记信息、企业经营信息、企业风险信息、企业知识产权等信息。如何利用全媒体海量数据绘制出全面、清晰且准确反映企业综合质量的画像，是本领域技术人员要解决的关键问题。

公开号为CN107464037A的中国发明专利公开了一种基于多指标维度模型的企业画像方法，该方法将指标进行量化表达，形成定量的企业画像评价模型；公开号为CN105512245A的中国发明专利公开了一种基于回归模型建立企业画像的方法，该方法是一种基于主题概率分布实施企业画像方法，依据新闻、微博、微信、论坛多通道数据，挖掘网络文本潜在语义信息，分层次多粒度勾勒企业网络形象特征；其主要是基于神经网络、遗传算法将相关信息具象为不同维度的可量化指标，并且利用柯西分布函数以及Bifactor模型，进行归一化处理，建立一种新型的多维度指标积分模型，实现对企业的全方位特征描述和画像。该发明提及的多维度规则是在具体指标基础上由不同指标根据一定算法灵活组成，而由于对不同指标的组成规则理解不同，因此会掺入较多人为因素，方法泛化性较差。另外，其所建立的一级指标公共信息中涉及到网络舆情信息，针对此类文本数据，该发明并未给出明确的处理方法，所以这种方法对于中小微企业来讲也存在一定的局限性。

发明内容

本发明的目的在于提供一种基于多源信息融合的中小微企业综合质量画像方法，用以解决现有技术中缺少中小微企业综合质量画像相关指导的问题。

为实现上述目的，本发明采取如下技术方案：

基于多源信息融合的中小微企业综合质量画像方法，所述方法包括如下步骤：

(1)将企业质量画像维度分解，构建质量画像体系；

(2)企业数据收集和预处理；

(3)将收集到的企业数据按照类别分别设定标签；

(4)利用标签生成各企业质量画像。

其中，企业质量画像维度分解为6个，包括5个外显质量维度和1个内在质量维度；其中外显质量维度为：

(1)一级指标——企业基本信息；其二级指标包括工商信息和行政许可信息；工商信息包括三级指标经营范围、企业类型、企业状态、注册资金、实收注册资金、成立年限；行政许可信息包括三级指标证照名称、所属行业、证照状态；

(2)一级指标——知识产权信息；其二级指标包括商标信息和专利信息；商标信息的三级指标包括商标数量、商标类型、驰名商标数量；专利信息的三级指标包括专利数量、有效专利数量、发明专利占比；

(3)一级指标——企业经营风险；由二级指标行政处罚信息、抵质押信息和清算信息综合反映；行政处罚信息的三级指标包括近期处罚、历史行政处罚、处罚类型和证照吊销/撤销；抵质押信息的三级指标包括被担保债权种类、被担保债权数额；清算信息由三级指标有无清算信息来反映；

(4)一级指标一一司法风险；其二级指标为司法协助信息，三级指标包括司法协助类型、司法协助状态和股权数额；

(5)一级指标——网络舆情：其二级指标包括企业新闻舆情和产品质量舆情；企业新闻舆情由三级指标企业舆情事件来反映；产品质量舆情由三级指标质量评论情感来反映；

所述内在质量维度为：一级指标一—产品质量信息：其二级指标包括产品资质或认证、产品质量评价、产品缺陷处置；

其中产品资质或认证包括三级指标产品许可、产品标识认证和质量认证；产品质量评价包括三级指标产品质量合格率和抽查合格率；产品缺陷处置由三级指标缺陷产品召回机制和质量争议处置措施是否完备来反映。

具体地，可以由表1直观的进行显示。

表1中小微企业综合质量画像指标及标签

其中，企业数据收集的方法可以为：利用企业工商信息作为关键词，使用网络爬虫程序收集已公开的第三方数据，包括工商信息、经营相关的行政许可信息、知识产权信息、企业经营风险信息、司法风险信息；利用企业名称作为关键词，使用网络爬虫程序采集多渠道的企业舆情相关数据；根据企业产品名称的关键词收集第三方网购平台上的商品评论数据；采用批量上传法获取企业内部的产品质量管理数据。

优选地，本发明将收集到的企业数据按照类别设定三种标签：

(1)标签一：包括的企业数据维度指标为：企业基本信息、知识产权信息、企业经营风险、司法风险、产品质量信息。

(2)标签二：包括的企业数据维度指标是网络舆情信息维度下的三级指标之一——网络舆情信息；

(3)标签三：包括的企业数据维度指标为：网络舆情信息维度下的三级指标之一——质量评论情感。

其中，标签一的设定方法为：

(1)设Y_j为标签变量，X_i-j为三级指标变量，依次选取Y_j对应的X_i-j值作为原始矩阵，其中列是X_i-j值，行是各企业，i＝1，2，……，n；j＝1，2，……，m；按以下步骤进行操作：

①PCA特征提取：调用sklearn中PCA函数，计算主成分贡献率和累加贡献率，通过累加贡献率筛选出质量指标的主要成分，计算各指标对于各主成分的载荷数；若Y_j对应的变量X_i-j个数≤2，则省略本步骤，直接从②开始；

②K-means聚类分析：调用sklearn中KMeans包，通过kmeans聚类算法对指标下数据进行聚类分析，并计算不同类别数K值下的轮廓值；定义某个样本点的轮廓值为：

其中disMean_in为该点与本类其他点的平均距离，disMean_out为该点与非本类点的平均距离；则所有样本的S_i均值为聚类结果的轮廓值，当其整体大于或等于0且与1的距离接近时聚类效果较好，可确定相应的聚类类别个数；

③设定标签类别：通过对步骤②中的聚类类别进行分析，可定义规则和标签类别。

标签二的设定方法为：

①文本分词：下载所在行业名词词典、公司新闻公司新闻报道正负面词汇，利用“jieba”分词工具，采用精确模式对产品质量评论文本进行分词；

②文本标注：人工判断食品行业相关新闻文本对企业的正、负面影响并进行正、负标注；

③使用Word2Vec训练词向量：调用gensim模块函数，训练Word2Vec模型，生成词向量矩阵，从矩阵中抽取词的向量值，每篇文本得到一个二维矩阵，行为文本，列为模型维度；

④PCA降维：由③得到矩阵数据，调用sklearn中的PCA函数，通过PCA模型计算累加贡献率，选择使得累加贡献率大于90％时的前K个主成分，将其作为步骤⑤中模型的输入，提升数据处理速度；

⑤使用SVM训练模型：调用sklearn中svm包，采用RBF核函数，其计算公式为：

其中，x，y为样本，||x-y||表示向量的模，γ为超参，用于调整模型复杂度；通过多次参数调整，确定分类效果最优的惩罚系数C值和参数γ值；对训练好的模型进行测试，保障预测模型的准确性；

⑥新闻文本分类：采用Word2Vec对已切分词的文本向量化，利用训练好的预测模型进行分类，得到待分类新闻文本的正负向类别；

⑦设定企业形象标签：为企业计算正向新闻占比，得到企业形象得分Z值；根据Z值整体分布情况，对不同范围下的值划分设定相应企业形象标签。

标签三的设定方法为：

①情感词典构建：下载能够获取情感词分数和程度级别副词的词典，并根据语料库中常用否定词建立否定词词典；

其中一种实施方式为：下载BosonNLP情感词典，获取包含正、负面情感的情感词典，其中情感词分数为D_i；下载Hownet情感词典，获取程度级别副词词典，并按照其所代表的强度进行量化，为每个程度副词设定权重w_j；根据语料库中常用否定词建立否定词词典；

②文本分词：下载所在行业名词词典、公司新闻公司新闻报道正负面词汇，利用“jieba”分词工具，采用精确模式对产品质量评论文本进行分词；

③计算评论情感分值：通过分词结果遍历出情感词、否定词和程度副词；设给定句子为S_t，其所包含的评价短语S_i(i＝1，2，……，n)的情感分值

E_i＝D_i×w×w_j (3)

其中，初始权重w＝1，当短语中有否定词时w＝-1；w_j初始值为1，当短语中有程度副词时则w_j为程度副词权重。句子情感值：

其中，Score(S_t)大于0的归于正向，小于0的归于负向；统计所有句子情感值，产品质量总体满意度为正向句子情感的总体占比；

④设定产品质量口碑标签：根据质量总体满意度值的整体分布情况，对不同范围下的值划分设定相应质量口碑标签。

根据上述步骤获取的画像标签，生成各企业质量画像，并利用可视化方法展示。

本发明具有如下优点：

本发明提供的基于多源信息融合的中小微企业综合质量画像方法，一方面，本发明应用对象为中小微企业，指标体系的建立能够充分适应中小微企业。考虑中小微企业具有规模较小、公司治理不完善、财务信息失真、抗风险能力弱等特点，因此在指标体系的建立上，本发明摒弃了常用的企业财务数据、内部管理信息等指标，更多从企业质量经营、质量提升等角度出发，聚焦于企业资质、创新能力、经营风险、司法风险、企业声誉、品牌口碑、质量管控等质量相关的指标。

另一方面，在企业质量画像方法中，本发明对于不同指标的数据类型设定不同方法的标签，将企业的质量属性进行归类，形成多元化的企业综合质量标签。

鉴于单一的标签设定方法无法涵盖类型众多的数据，本发明将多源异构数据的标签设定方法分为三种。其中，对于标识类、分类型、离散型等可结构化的数据，采用了PCA模型筛选主要质量指标、K-means聚类分析算法确定类别个数、对聚类类别分析后定义规则和标签类别等步骤。通过聚类分析，可减少人工参与规则制定的过程，更贴合样本特征。对于非结构化的网络舆情和商品评论等文本数据，在处理标签提取时，考虑这些文本数据具有歧义性、动态性和非规范性等特征，因此采用文本分词、Word2Vec训练词向量、PCA降维筛选部分指标、SVM训练分类模型、词典遍历等自动化的文本计算方法。通过机器学习算法，可实现高效抽取文本的有效特征。

本发明面向中小微企业的综合质量画像建立了较为全面的指标体系，将企业的质量属性进行归类，形成多元化的企业综合质量标签，能够对企业综合质量进行画像，并对企业质量行为进行预测。

附图说明

图1是本发明中小微企业综合质量画像过程图。

图2是本发明生成的中小微企业综合质量画像效果示意图。

具体实施方式

下面将通过具体实施例对本发明进行详细的描述。提供这些实施例是为了能够更透彻地理解本发明，并且能够将本发明的范围完整的传达给本领域的技术人员。

如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语，故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式，然所述描述乃以说明书的一般原则为目的，并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。

如下提供一种实施方案：一种基于多源信息融合的中小微企业综合质量画像方法，包括以下步骤：

步骤一、质量画像维度分解，构建质量画像指标体系；

根据相关性原则，对中小微企业的质量属性进行维度分解，在不同维度下把握企业画像粒度。具体可分为6个维度，其中1-5为外显质量维度，6为内在质量维度。

(1)企业基本信息，主要为工商信息和行政许可相关信息。其中工商信息包括经营范围、企业类型、企业状态、注册资金、实收注册资金、成立年限等，据此可初步了解企业基本特征；行政许可相关信息包括证照名称、所属行业、证照状态等，可通过企业证照资质是否符合且完备，来初步判断其是否具有从事相关行业的资格资质。

(2)知识产权信息，主要为商标信息和专利信息。其中商标信息包括商标数量、商标类型、驰名商标数量等内容，根据商标数量和质量可了解企业信誉基本状况；专利信息包括专利数量、有效专利数量、发明专利占比等内容，据此可了解企业的创新能力。

(3)企业经营风险，主要由行政处罚信息、抵质押信息和清算信息等综合反映。根据企业的经营风险状况，可帮助企业用户、消费者等企业利益相关者提供重要的经营风险预警信息。

(4)司法风险，主要为司法协助信息，包括司法协助类型、司法协助状态和股权数额等内容。根据企业的司法风险状况，可帮助企业用户、消费者等企业利益相关者提供重要的司法风险预警信息。

(5)网络舆情信息，包括企业新闻舆情和产品质量舆情。通过企业相关新闻事件舆情，判断新闻事件对企业声誉、口碑、品牌的正负面影响；通过产品质量的内容评价，判断正负情感分布和用户对产品质量的满意度。

(6)产品质量信息，主要为产品资质或认证、产品质量评价、产品缺陷处置措施等内容。其中产品资质或认证包括产品许可、产品标识认证和质量认证；产品质量评价包括产品质量合格率和抽查合格率；产品缺陷处置主要包括缺陷产品召回机制和质量争议处理措施是否完备。通过产品质量信息，可帮助了解企业内部的产品质量管控状况。

具体地，可以由发明内容中的表1直观的进行显示。

步骤二、收集企业相关的多源异构数据并进行预处理。

(1)数据收集。利用企业工商信息作为关键词，使用网络爬虫程序收集已公开的第三方数据，包括工商信息、经营相关的行政许可信息、知识产权信息、企业经营风险信息、司法风险信息等内容；利用企业名称作为关键词，使用网络爬虫程序采集新闻、论坛、微博等多渠道的企业舆情相关数据；根据企业产品名称的关键词收集京东、淘宝等第三方网购平台上的商品评论数据；采用批量上传法获取企业内部的产品质量管理数据。

(2)数据预处理。预处理操作包括冗余去除、文本过滤、缺失值处理、合法性检验、数据变换等步骤，以便形成统一的数据表达方式。

步骤三、按行业类别为企业设定标签。

以食品行业为例，根据指标的数据类型，标签设定方法分为以下三种。

(1)企业基本信息、证照信息、知识产权信息、企业经营风险、司法风险、产品质量等维度下的指标采用如下方法设定标签：

设Y_j为标签变量(j＝1，2，……，m)，X_i-_j为三级指标变量(i＝1，2，……，n；j＝1，2，……，m)，依次选取Y_j对应的X_i-j值作为原始矩阵，其中列是X_i-j值，行是各企业。按以下步骤进行操作：

①PCA特征提取。调用sklearn中PCA函数，计算主成分贡献率和累加贡献率，通过累加贡献率筛选出质量指标的主要成分，计算各指标对于各主成分的载荷数。(若Y_j对应的变量X_i-j个数≤2，则省略本步骤，直接从②开始)

②K-means聚类分析。调用sklearn中KMeans包，通过kmeans聚类算法对指标下数据进行聚类分析，并计算不同类别数K值下的轮廓值(silhouette value)。定义某个样本点的轮廓值为：

其中disMean_in为该点与本类其他点的平均距离，disMean_out为该点与非本类点的平均距离。则所有样本的S_i均值为聚类结果的轮廓值，当其整体大于或等于0且与1的距离接近时聚类效果较好，可确定相应的聚类类别个数。

③设定标签类别。通过对步骤②中的聚类类别进行分析，可定义规则和标签类别。

(2)网络舆情信息维度下的三级指标之——企业舆情事件采用如下步骤设定标签：

①文本分词。使用哈工大停用词表，从“搜狗输入法词库”中下载食品饮料名词词典、公司新闻报道正负面词汇等，一起加载至“.jieba”库中，利用“.jieba”分词工具，采用精确模式对产品质量评论文本进行分词。

②文本标注。人工判断食品行业相关新闻文本对企业的正、负面影响并进行正、负标注，这里可以选择标注2000条文本。

③使用Word2Vec训练词向量。调用gensim模块函数，训练Word2Vec模型，生成词向量矩阵，从矩阵中抽取词的向量值，每篇文本得到一个二维矩阵，行为文本，列为模型维度。

④PCA降维。由③得到矩阵数据，调用sklearn中的PCA函数，通过PCA模型计算累加贡献率，选择使得累加贡献率大于90％时的前K个主成分，将其作为步骤⑤中模型的输入，提升数据处理速度。

⑤使用SVM训练模型。调用sklearn中svm包，采用RBF核函数(kernel＝′rbf′)，其计算公式为：

其中，x，y为样本，||x-y||表示向量的模，γ为超参，用于调整模型复杂度。通过多次参数调整，确定分类效果最优的惩罚系数C值和参数γ值。对训练好的模型进行测试，保障预测模型的准确性。

⑥新闻文本分类。采用Word2Vec对已切分词的文本向量化，利用训练好的预测模型进行分类，得到待分类新闻文本的正负向类别。

⑦设定企业形象标签。为企业计算正向新闻占比，得到企业形象得分Z值。根据Z值整体分布情况，对不同范围下的值划分设定相应企业形象标签。

(3)网络舆情信息维度下的三级指标之——质量评论情感采用如下步骤设定标签：

①情感词典构建。下载BosonNLP情感词典，获取包含正、负面情感的情感词典，其中情感词分数为D_i；下载Hownet情感词典，获取程度级别副词词典，并按照其所代表的强度进行量化，为每个程度副词设定权重W_j；根据语料库中常用否定词建立否定词词典。

②文本分词。从“搜狗输入法词库”中下载食品饮料相关名词词典，使用哈工大停用词表，结合情感词词库一起加载至“jieba”库中，利用“jieba”分词工具，采用精确模式对产品质量评论文本进行分词。

③计算评论情感分值。通过分词结果遍历出情感词、否定词和程度副词。设给定句子为S_t，其所包含的评价短语S_i(i＝1，2，……，n)的情感分值

E_i＝D_i×w×w_j (3)

Score(S_t)大于0的归于正向，小于0的归于负向。统计所有句子情感值，产品质量总体满意度为正向句子情感的总体占比。

④设定产品质量口碑标签。根据质量总体满意度值的整体分布情况，对不同范围下的值划分设定相应质量口碑标签。

步骤四、根据步骤三获取的画像标签，生成各企业质量画像，并利用可视化方法展示。

虽然，上文中已经用一般性说明及具体实施例对本发明作了详尽的描述，但在本发明基础上，可以对之作一些修改或改进，这对本领域技术人员而言是显而易见的。因此，在不偏离本发明精神的基础上所做的这些修改或改进，均属于本发明要求保护的范围。

Claims

1.基于多源信息融合的中小微企业综合质量画像方法，其特征在于，所述方法包括如下步骤：

(1)将企业质量画像维度分解，构建质量画像体系；

(2)企业数据收集和预处理；

(3)将收集到的企业数据按照类别分别设定标签；

(4)利用标签生成各企业质量画像；

所述企业质量画像维度分解为6个，包括5个外显质量维度和1个内在质量维度；其中外显质量维度为：

(2)一级指标——知识产权信息；其二级指标包括商标信息和专利信息；商标信息包括三级指标商标数量、商标类型、驰名商标数量；专利信息包括三级指标专利数量、有效专利数量、发明专利占比；

(3)一级指标——企业经营风险；由二级指标行政处罚信息、抵质押信息和清算信息综合反映；行政处罚信息包括三级指标近期处罚、历史行政处罚、处罚类型和证照吊销/撤销；抵质押信息由三级指标被担保债权种类、被担保债权数额；清算信息由三级指标有无清算信息来反映；

(4)一级指标——司法风险；其二级指标为司法协助信息，三级指标包括司法协助类型、司法协助状态和股权数额；

所述内在质量维度为：一级指标——产品质量信息：其二级指标包括产品资质或认证、产品质量评价、产品缺陷处置；其中产品资质或认证包括三级指标产品许可、产品标识认证和质量认证；产品质量评价包括三级指标产品质量合格率和抽查合格率；产品缺陷处置包括三级指标缺陷产品召回机制和质量争议处置；

所述企业数据收集的方法为：利用企业工商信息作为关键词，使用网络爬虫程序收集已公开的第三方数据，包括工商信息、经营相关的行政许可信息、知识产权信息、企业经营风险信息、司法风险信息；利用企业名称作为关键词，使用网络爬虫程序采集多渠道的企业舆情相关数据；根据企业产品名称的关键词收集第三方网购平台上的商品评论数据；采用批量上传法获取企业内部的产品质量管理数据；

步骤(3)将收集到的企业数据按照类别设定三种标签：

(1)标签一：包括的企业数据维度指标为：企业基本信息、知识产权信息、企业经营风险、司法风险、产品质量信息；

(2)标签二：包括的企业数据是网络舆情信息维度下的三级指标之一——网络舆情信息；

(3)标签三：包括的企业数据为：网络舆情信息维度下的三级指标之一——质量评论情感；

标签一的设定方法为：

(1)设Y_j为标签变量，X_i-j为三级指标变量，依次选取Y_i对应的X_i-j值作为原始矩阵，其中列是X_i-j值，行是各企业，i＝1，2，……，n；j＝1，2，……，m；按以下步骤进行操作：

其中disMean_in为该点与本类其他点的平均距离，disMean_out为该点与非本类点的平均距离；则所有样本的S_i均值为聚类结果的轮廓值，确定相应的聚类类别个数；

③设定标签类别：通过对步骤②中的聚类类别进行分析，定义规则和标签类别；

标签二的设定方法为：

①文本分词：下载所在行业名词词典、公司新闻报道正负面词汇，利用“jieba”分词工具，采用精确模式对产品质量评论文本进行分词；

④PCA降维：由③得到矩阵数据，调用skleam中的PCA函数，通过PCA模型计算出累加贡献率，选择使得累加贡献率大于90％时的前K个主成分作为SVM训练模型的输入，提升数据处理速度；

⑦设定企业形象标签：为企业计算正向新闻占比，得到企业形象得分Z值；根据Z值整体分布情况，对不同范围下的值划分设定相应企业形象标签；

标签三的设定方法为：

②文本分词：下载所在行业名词词典、公司新闻报道正负面词汇，利用“jieba”分词工具，采用精确模式对产品质量评论文本进行分词；

③计算评论情感分值：通过分词结果遍历出情感词、否定词和程度副词；设给定句子为S_t，其所包含的评价短语S_i的情感分值

E_i＝D_i×w×w_j (3)

其中，i＝1，2，……，n；D_i为情感词分数，w_j设定为每个程度副词权重；初始权重w＝1，当短语中有否定词时w＝-1；w_j初始值为1，当短语中有程度副词时则w_j为程度副词权重，句子情感值：

2.根据权利要求1所述的方法，其特征在于，获取情感词分数的词典为BosonNLP情感词典，获取程度级别副词的词典为Hownet情感词典。