CN111950932B - 基于多源信息融合的中小微企业综合质量画像方法 - Google Patents

基于多源信息融合的中小微企业综合质量画像方法 Download PDF

Info

Publication number
CN111950932B
CN111950932B CN202010874130.3A CN202010874130A CN111950932B CN 111950932 B CN111950932 B CN 111950932B CN 202010874130 A CN202010874130 A CN 202010874130A CN 111950932 B CN111950932 B CN 111950932B
Authority
CN
China
Prior art keywords
enterprise
information
quality
emotion
level index
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010874130.3A
Other languages
English (en)
Other versions
CN111950932A (zh
Inventor
曹丽娜
陈进东
张健
任智军
樊辉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Information Science and Technology University
Original Assignee
Beijing Information Science and Technology University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Information Science and Technology University filed Critical Beijing Information Science and Technology University
Priority to CN202010874130.3A priority Critical patent/CN111950932B/zh
Publication of CN111950932A publication Critical patent/CN111950932A/zh
Application granted granted Critical
Publication of CN111950932B publication Critical patent/CN111950932B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/063Operations research, analysis or management
    • G06Q10/0639Performance analysis of employees; Performance analysis of enterprise or organisation operations
    • G06Q10/06395Quality analysis or management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2135Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on approximation criteria, e.g. principal component analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Human Resources & Organizations (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Educational Administration (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Game Theory and Decision Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于多源信息融合的中小微企业综合质量画像方法,包括如下步骤:(1)将企业质量画像维度分解,构建质量画像体系;(2)企业数据收集和预处理;(3)将收集到的企业数据按照类别分别设定标签。本发明面向中小微企业的综合质量画像建立了较为全面的指标体系,将企业的质量属性进行归类,形成多元化的企业综合质量标签,能够对企业综合质量进行画像,并对企业质量行为进行预测。

Description

基于多源信息融合的中小微企业综合质量画像方法
技术领域
本发明属于企业画像技术领域,具体涉及一种基于多源信息融合的中小微企业综合质量画像方法。
背景技术
质量是每个企业赖以生存和发展的根本,对于占市场主体绝大多数的中小微企业来说更是如此。在大数据时代,通过从海量非结构化的企业活动数据中挖掘质量经营相关信息,并将不同维度的质量信息融合为有价值的结构化信息,可以实现对企业质量经营状况的全面刻画。利用大数据的综合质量画像方法,不仅使中小微企业在贸易合作时可掌握合作企业的综合质量情况,更使企业建立对自身质量的整体认识,从而重视质量管理和质量经营工作,有助于将内部质量控制转移到外部市场的用户满意度提升,树立企业品牌形象。此外,也为监管部门提供有价值的中小微企业质量管理现状,甚至是行业发展的管理决策支持数据。目前已公开多种企业画像方法及系统,然而现有企业画像多集中于对企业信用状况、企业财务状况、企业经营发展等方面的描述和刻画,少有从企业质量经营、质量提升等角度进行深度分析。
美国著名质量管理专家A.V.Feigenbaum于1994年提出了“大质量”的概念。“大质量”是一个综合的概念,其不仅限于产品形成全过程的质量,而是扩展到管理全过程的工作质量、体系质量,进而扩展到组织经营的质量,因此,它是实物形态质量和价值形态质量的统一。企业要树立综合质量观念,就是从战略、品牌、文化和经营等方面重视质量工作,使企业的运作从内部的质量控制转移到外部市场的用户满意。本发明从内部质量和外显质量两方面刻画中小微企业的综合质量。当前,关于企业的信息越来越透明化,包括工商登记信息、企业经营信息、企业风险信息、企业知识产权等信息。如何利用全媒体海量数据绘制出全面、清晰且准确反映企业综合质量的画像,是本领域技术人员要解决的关键问题。
公开号为CN107464037A的中国发明专利公开了一种基于多指标维度模型的企业画像方法,该方法将指标进行量化表达,形成定量的企业画像评价模型;公开号为CN105512245A的中国发明专利公开了一种基于回归模型建立企业画像的方法,该方法是一种基于主题概率分布实施企业画像方法,依据新闻、微博、微信、论坛多通道数据,挖掘网络文本潜在语义信息,分层次多粒度勾勒企业网络形象特征;其主要是基于神经网络、遗传算法将相关信息具象为不同维度的可量化指标,并且利用柯西分布函数以及Bifactor模型,进行归一化处理,建立一种新型的多维度指标积分模型,实现对企业的全方位特征描述和画像。该发明提及的多维度规则是在具体指标基础上由不同指标根据一定算法灵活组成,而由于对不同指标的组成规则理解不同,因此会掺入较多人为因素,方法泛化性较差。另外,其所建立的一级指标公共信息中涉及到网络舆情信息,针对此类文本数据,该发明并未给出明确的处理方法,所以这种方法对于中小微企业来讲也存在一定的局限性。
发明内容
本发明的目的在于提供一种基于多源信息融合的中小微企业综合质量画像方法,用以解决现有技术中缺少中小微企业综合质量画像相关指导的问题。
为实现上述目的,本发明采取如下技术方案:
基于多源信息融合的中小微企业综合质量画像方法,所述方法包括如下步骤:
(1)将企业质量画像维度分解,构建质量画像体系;
(2)企业数据收集和预处理;
(3)将收集到的企业数据按照类别分别设定标签;
(4)利用标签生成各企业质量画像。
其中,企业质量画像维度分解为6个,包括5个外显质量维度和1个内在质量维度;其中外显质量维度为:
(1)一级指标——企业基本信息;其二级指标包括工商信息和行政许可信息;工商信息包括三级指标经营范围、企业类型、企业状态、注册资金、实收注册资金、成立年限;行政许可信息包括三级指标证照名称、所属行业、证照状态;
(2)一级指标——知识产权信息;其二级指标包括商标信息和专利信息;商标信息的三级指标包括商标数量、商标类型、驰名商标数量;专利信息的三级指标包括专利数量、有效专利数量、发明专利占比;
(3)一级指标——企业经营风险;由二级指标行政处罚信息、抵质押信息和清算信息综合反映;行政处罚信息的三级指标包括近期处罚、历史行政处罚、处罚类型和证照吊销/撤销;抵质押信息的三级指标包括被担保债权种类、被担保债权数额;清算信息由三级指标有无清算信息来反映;
(4)一级指标一一司法风险;其二级指标为司法协助信息,三级指标包括司法协助类型、司法协助状态和股权数额;
(5)一级指标——网络舆情:其二级指标包括企业新闻舆情和产品质量舆情;企业新闻舆情由三级指标企业舆情事件来反映;产品质量舆情由三级指标质量评论情感来反映;
所述内在质量维度为:一级指标一—产品质量信息:其二级指标包括产品资质或认证、产品质量评价、产品缺陷处置;
其中产品资质或认证包括三级指标产品许可、产品标识认证和质量认证;产品质量评价包括三级指标产品质量合格率和抽查合格率;产品缺陷处置由三级指标缺陷产品召回机制和质量争议处置措施是否完备来反映。
具体地,可以由表1直观的进行显示。
表1中小微企业综合质量画像指标及标签
Figure GDA0004136551720000031
Figure GDA0004136551720000041
其中,企业数据收集的方法可以为:利用企业工商信息作为关键词,使用网络爬虫程序收集已公开的第三方数据,包括工商信息、经营相关的行政许可信息、知识产权信息、企业经营风险信息、司法风险信息;利用企业名称作为关键词,使用网络爬虫程序采集多渠道的企业舆情相关数据;根据企业产品名称的关键词收集第三方网购平台上的商品评论数据;采用批量上传法获取企业内部的产品质量管理数据。
优选地,本发明将收集到的企业数据按照类别设定三种标签:
(1)标签一:包括的企业数据维度指标为:企业基本信息、知识产权信息、企业经营风险、司法风险、产品质量信息。
(2)标签二:包括的企业数据维度指标是网络舆情信息维度下的三级指标之一——网络舆情信息;
(3)标签三:包括的企业数据维度指标为:网络舆情信息维度下的三级指标之一——质量评论情感。
其中,标签一的设定方法为:
(1)设Yj为标签变量,Xi-j为三级指标变量,依次选取Yj对应的Xi-j值作为原始矩阵,其中列是Xi-j值,行是各企业,i=1,2,……,n;j=1,2,……,m;按以下步骤进行操作:
①PCA特征提取:调用sklearn中PCA函数,计算主成分贡献率和累加贡献率,通过累加贡献率筛选出质量指标的主要成分,计算各指标对于各主成分的载荷数;若Yj对应的变量Xi-j个数≤2,则省略本步骤,直接从②开始;
②K-means聚类分析:调用sklearn中KMeans包,通过kmeans聚类算法对指标下数据进行聚类分析,并计算不同类别数K值下的轮廓值;定义某个样本点的轮廓值为:
Figure GDA0004136551720000051
其中disMeanin为该点与本类其他点的平均距离,disMeanout为该点与非本类点的平均距离;则所有样本的Si均值为聚类结果的轮廓值,当其整体大于或等于0且与1的距离接近时聚类效果较好,可确定相应的聚类类别个数;
③设定标签类别:通过对步骤②中的聚类类别进行分析,可定义规则和标签类别。
标签二的设定方法为:
①文本分词:下载所在行业名词词典、公司新闻公司新闻报道正负面词汇,利用“jieba”分词工具,采用精确模式对产品质量评论文本进行分词;
②文本标注:人工判断食品行业相关新闻文本对企业的正、负面影响并进行正、负标注;
③使用Word2Vec训练词向量:调用gensim模块函数,训练Word2Vec模型,生成词向量矩阵,从矩阵中抽取词的向量值,每篇文本得到一个二维矩阵,行为文本,列为模型维度;
④PCA降维:由③得到矩阵数据,调用sklearn中的PCA函数,通过PCA模型计算累加贡献率,选择使得累加贡献率大于90%时的前K个主成分,将其作为步骤⑤中模型的输入,提升数据处理速度;
⑤使用SVM训练模型:调用sklearn中svm包,采用RBF核函数,其计算公式为:
Figure GDA0004136551720000061
其中,x,y为样本,||x-y||表示向量的模,γ为超参,用于调整模型复杂度;通过多次参数调整,确定分类效果最优的惩罚系数C值和参数γ值;对训练好的模型进行测试,保障预测模型的准确性;
⑥新闻文本分类:采用Word2Vec对已切分词的文本向量化,利用训练好的预测模型进行分类,得到待分类新闻文本的正负向类别;
⑦设定企业形象标签:为企业计算正向新闻占比,得到企业形象得分Z值;根据Z值整体分布情况,对不同范围下的值划分设定相应企业形象标签。
标签三的设定方法为:
①情感词典构建:下载能够获取情感词分数和程度级别副词的词典,并根据语料库中常用否定词建立否定词词典;
其中一种实施方式为:下载BosonNLP情感词典,获取包含正、负面情感的情感词典,其中情感词分数为Di;下载Hownet情感词典,获取程度级别副词词典,并按照其所代表的强度进行量化,为每个程度副词设定权重wj;根据语料库中常用否定词建立否定词词典;
②文本分词:下载所在行业名词词典、公司新闻公司新闻报道正负面词汇,利用“jieba”分词工具,采用精确模式对产品质量评论文本进行分词;
③计算评论情感分值:通过分词结果遍历出情感词、否定词和程度副词;设给定句子为St,其所包含的评价短语Si(i=1,2,……,n)的情感分值
Ei=Di×w×wj   (3)
其中,初始权重w=1,当短语中有否定词时w=-1;wj初始值为1,当短语中有程度副词时则wj为程度副词权重。句子情感值:
Figure GDA0004136551720000062
其中,Score(St)大于0的归于正向,小于0的归于负向;统计所有句子情感值,产品质量总体满意度为正向句子情感的总体占比;
④设定产品质量口碑标签:根据质量总体满意度值的整体分布情况,对不同范围下的值划分设定相应质量口碑标签。
根据上述步骤获取的画像标签,生成各企业质量画像,并利用可视化方法展示。
本发明具有如下优点:
本发明提供的基于多源信息融合的中小微企业综合质量画像方法,一方面,本发明应用对象为中小微企业,指标体系的建立能够充分适应中小微企业。考虑中小微企业具有规模较小、公司治理不完善、财务信息失真、抗风险能力弱等特点,因此在指标体系的建立上,本发明摒弃了常用的企业财务数据、内部管理信息等指标,更多从企业质量经营、质量提升等角度出发,聚焦于企业资质、创新能力、经营风险、司法风险、企业声誉、品牌口碑、质量管控等质量相关的指标。
另一方面,在企业质量画像方法中,本发明对于不同指标的数据类型设定不同方法的标签,将企业的质量属性进行归类,形成多元化的企业综合质量标签。
鉴于单一的标签设定方法无法涵盖类型众多的数据,本发明将多源异构数据的标签设定方法分为三种。其中,对于标识类、分类型、离散型等可结构化的数据,采用了PCA模型筛选主要质量指标、K-means聚类分析算法确定类别个数、对聚类类别分析后定义规则和标签类别等步骤。通过聚类分析,可减少人工参与规则制定的过程,更贴合样本特征。对于非结构化的网络舆情和商品评论等文本数据,在处理标签提取时,考虑这些文本数据具有歧义性、动态性和非规范性等特征,因此采用文本分词、Word2Vec训练词向量、PCA降维筛选部分指标、SVM训练分类模型、词典遍历等自动化的文本计算方法。通过机器学习算法,可实现高效抽取文本的有效特征。
本发明面向中小微企业的综合质量画像建立了较为全面的指标体系,将企业的质量属性进行归类,形成多元化的企业综合质量标签,能够对企业综合质量进行画像,并对企业质量行为进行预测。
附图说明
图1是本发明中小微企业综合质量画像过程图。
图2是本发明生成的中小微企业综合质量画像效果示意图。
具体实施方式
下面将通过具体实施例对本发明进行详细的描述。提供这些实施例是为了能够更透彻地理解本发明,并且能够将本发明的范围完整的传达给本领域的技术人员。
如在通篇说明书及权利要求当中所提及的“包含”或“包括”为一开放式用语,故应解释成“包含但不限定于”。说明书后续描述为实施本发明的较佳实施方式,然所述描述乃以说明书的一般原则为目的,并非用以限定本发明的范围。本发明的保护范围当视所附权利要求所界定者为准。
如下提供一种实施方案:一种基于多源信息融合的中小微企业综合质量画像方法,包括以下步骤:
步骤一、质量画像维度分解,构建质量画像指标体系;
根据相关性原则,对中小微企业的质量属性进行维度分解,在不同维度下把握企业画像粒度。具体可分为6个维度,其中1-5为外显质量维度,6为内在质量维度。
(1)企业基本信息,主要为工商信息和行政许可相关信息。其中工商信息包括经营范围、企业类型、企业状态、注册资金、实收注册资金、成立年限等,据此可初步了解企业基本特征;行政许可相关信息包括证照名称、所属行业、证照状态等,可通过企业证照资质是否符合且完备,来初步判断其是否具有从事相关行业的资格资质。
(2)知识产权信息,主要为商标信息和专利信息。其中商标信息包括商标数量、商标类型、驰名商标数量等内容,根据商标数量和质量可了解企业信誉基本状况;专利信息包括专利数量、有效专利数量、发明专利占比等内容,据此可了解企业的创新能力。
(3)企业经营风险,主要由行政处罚信息、抵质押信息和清算信息等综合反映。根据企业的经营风险状况,可帮助企业用户、消费者等企业利益相关者提供重要的经营风险预警信息。
(4)司法风险,主要为司法协助信息,包括司法协助类型、司法协助状态和股权数额等内容。根据企业的司法风险状况,可帮助企业用户、消费者等企业利益相关者提供重要的司法风险预警信息。
(5)网络舆情信息,包括企业新闻舆情和产品质量舆情。通过企业相关新闻事件舆情,判断新闻事件对企业声誉、口碑、品牌的正负面影响;通过产品质量的内容评价,判断正负情感分布和用户对产品质量的满意度。
(6)产品质量信息,主要为产品资质或认证、产品质量评价、产品缺陷处置措施等内容。其中产品资质或认证包括产品许可、产品标识认证和质量认证;产品质量评价包括产品质量合格率和抽查合格率;产品缺陷处置主要包括缺陷产品召回机制和质量争议处理措施是否完备。通过产品质量信息,可帮助了解企业内部的产品质量管控状况。
具体地,可以由发明内容中的表1直观的进行显示。
步骤二、收集企业相关的多源异构数据并进行预处理。
(1)数据收集。利用企业工商信息作为关键词,使用网络爬虫程序收集已公开的第三方数据,包括工商信息、经营相关的行政许可信息、知识产权信息、企业经营风险信息、司法风险信息等内容;利用企业名称作为关键词,使用网络爬虫程序采集新闻、论坛、微博等多渠道的企业舆情相关数据;根据企业产品名称的关键词收集京东、淘宝等第三方网购平台上的商品评论数据;采用批量上传法获取企业内部的产品质量管理数据。
(2)数据预处理。预处理操作包括冗余去除、文本过滤、缺失值处理、合法性检验、数据变换等步骤,以便形成统一的数据表达方式。
步骤三、按行业类别为企业设定标签。
以食品行业为例,根据指标的数据类型,标签设定方法分为以下三种。
(1)企业基本信息、证照信息、知识产权信息、企业经营风险、司法风险、产品质量等维度下的指标采用如下方法设定标签:
设Yj为标签变量(j=1,2,……,m),Xi-j为三级指标变量(i=1,2,……,n;j=1,2,……,m),依次选取Yj对应的Xi-j值作为原始矩阵,其中列是Xi-j值,行是各企业。按以下步骤进行操作:
①PCA特征提取。调用sklearn中PCA函数,计算主成分贡献率和累加贡献率,通过累加贡献率筛选出质量指标的主要成分,计算各指标对于各主成分的载荷数。(若Yj对应的变量Xi-j个数≤2,则省略本步骤,直接从②开始)
②K-means聚类分析。调用sklearn中KMeans包,通过kmeans聚类算法对指标下数据进行聚类分析,并计算不同类别数K值下的轮廓值(silhouette value)。定义某个样本点的轮廓值为:
Figure GDA0004136551720000091
其中disMeanin为该点与本类其他点的平均距离,disMeanout为该点与非本类点的平均距离。则所有样本的Si均值为聚类结果的轮廓值,当其整体大于或等于0且与1的距离接近时聚类效果较好,可确定相应的聚类类别个数。
③设定标签类别。通过对步骤②中的聚类类别进行分析,可定义规则和标签类别。
(2)网络舆情信息维度下的三级指标之——企业舆情事件采用如下步骤设定标签:
①文本分词。使用哈工大停用词表,从“搜狗输入法词库”中下载食品饮料名词词典、公司新闻报道正负面词汇等,一起加载至“.jieba”库中,利用“.jieba”分词工具,采用精确模式对产品质量评论文本进行分词。
②文本标注。人工判断食品行业相关新闻文本对企业的正、负面影响并进行正、负标注,这里可以选择标注2000条文本。
③使用Word2Vec训练词向量。调用gensim模块函数,训练Word2Vec模型,生成词向量矩阵,从矩阵中抽取词的向量值,每篇文本得到一个二维矩阵,行为文本,列为模型维度。
④PCA降维。由③得到矩阵数据,调用sklearn中的PCA函数,通过PCA模型计算累加贡献率,选择使得累加贡献率大于90%时的前K个主成分,将其作为步骤⑤中模型的输入,提升数据处理速度。
⑤使用SVM训练模型。调用sklearn中svm包,采用RBF核函数(kernel=′rbf′),其计算公式为:
Figure GDA0004136551720000101
其中,x,y为样本,||x-y||表示向量的模,γ为超参,用于调整模型复杂度。通过多次参数调整,确定分类效果最优的惩罚系数C值和参数γ值。对训练好的模型进行测试,保障预测模型的准确性。
⑥新闻文本分类。采用Word2Vec对已切分词的文本向量化,利用训练好的预测模型进行分类,得到待分类新闻文本的正负向类别。
⑦设定企业形象标签。为企业计算正向新闻占比,得到企业形象得分Z值。根据Z值整体分布情况,对不同范围下的值划分设定相应企业形象标签。
(3)网络舆情信息维度下的三级指标之——质量评论情感采用如下步骤设定标签:
①情感词典构建。下载BosonNLP情感词典,获取包含正、负面情感的情感词典,其中情感词分数为Di;下载Hownet情感词典,获取程度级别副词词典,并按照其所代表的强度进行量化,为每个程度副词设定权重Wj;根据语料库中常用否定词建立否定词词典。
②文本分词。从“搜狗输入法词库”中下载食品饮料相关名词词典,使用哈工大停用词表,结合情感词词库一起加载至“jieba”库中,利用“jieba”分词工具,采用精确模式对产品质量评论文本进行分词。
③计算评论情感分值。通过分词结果遍历出情感词、否定词和程度副词。设给定句子为St,其所包含的评价短语Si(i=1,2,……,n)的情感分值
Ei=Di×w×wj  (3)
其中,初始权重w=1,当短语中有否定词时w=-1;wj初始值为1,当短语中有程度副词时则wj为程度副词权重。句子情感值:
Figure GDA0004136551720000111
Score(St)大于0的归于正向,小于0的归于负向。统计所有句子情感值,产品质量总体满意度为正向句子情感的总体占比。
④设定产品质量口碑标签。根据质量总体满意度值的整体分布情况,对不同范围下的值划分设定相应质量口碑标签。
步骤四、根据步骤三获取的画像标签,生成各企业质量画像,并利用可视化方法展示。
虽然,上文中已经用一般性说明及具体实施例对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (2)

1.基于多源信息融合的中小微企业综合质量画像方法,其特征在于,所述方法包括如下步骤:
(1)将企业质量画像维度分解,构建质量画像体系;
(2)企业数据收集和预处理;
(3)将收集到的企业数据按照类别分别设定标签;
(4)利用标签生成各企业质量画像;
所述企业质量画像维度分解为6个,包括5个外显质量维度和1个内在质量维度;其中外显质量维度为:
(1)一级指标——企业基本信息;其二级指标包括工商信息和行政许可信息;工商信息包括三级指标经营范围、企业类型、企业状态、注册资金、实收注册资金、成立年限;行政许可信息包括三级指标证照名称、所属行业、证照状态;
(2)一级指标——知识产权信息;其二级指标包括商标信息和专利信息;商标信息包括三级指标商标数量、商标类型、驰名商标数量;专利信息包括三级指标专利数量、有效专利数量、发明专利占比;
(3)一级指标——企业经营风险;由二级指标行政处罚信息、抵质押信息和清算信息综合反映;行政处罚信息包括三级指标近期处罚、历史行政处罚、处罚类型和证照吊销/撤销;抵质押信息由三级指标被担保债权种类、被担保债权数额;清算信息由三级指标有无清算信息来反映;
(4)一级指标——司法风险;其二级指标为司法协助信息,三级指标包括司法协助类型、司法协助状态和股权数额;
(5)一级指标——网络舆情:其二级指标包括企业新闻舆情和产品质量舆情;企业新闻舆情由三级指标企业舆情事件来反映;产品质量舆情由三级指标质量评论情感来反映;
所述内在质量维度为:一级指标——产品质量信息:其二级指标包括产品资质或认证、产品质量评价、产品缺陷处置;其中产品资质或认证包括三级指标产品许可、产品标识认证和质量认证;产品质量评价包括三级指标产品质量合格率和抽查合格率;产品缺陷处置包括三级指标缺陷产品召回机制和质量争议处置;
所述企业数据收集的方法为:利用企业工商信息作为关键词,使用网络爬虫程序收集已公开的第三方数据,包括工商信息、经营相关的行政许可信息、知识产权信息、企业经营风险信息、司法风险信息;利用企业名称作为关键词,使用网络爬虫程序采集多渠道的企业舆情相关数据;根据企业产品名称的关键词收集第三方网购平台上的商品评论数据;采用批量上传法获取企业内部的产品质量管理数据;
步骤(3)将收集到的企业数据按照类别设定三种标签:
(1)标签一:包括的企业数据维度指标为:企业基本信息、知识产权信息、企业经营风险、司法风险、产品质量信息;
(2)标签二:包括的企业数据是网络舆情信息维度下的三级指标之一——网络舆情信息;
(3)标签三:包括的企业数据为:网络舆情信息维度下的三级指标之一——质量评论情感;
标签一的设定方法为:
(1)设Yj为标签变量,Xi-j为三级指标变量,依次选取Yi对应的Xi-j值作为原始矩阵,其中列是Xi-j值,行是各企业,i=1,2,……,n;j=1,2,……,m;按以下步骤进行操作:
①PCA特征提取:调用sklearn中PCA函数,计算主成分贡献率和累加贡献率,通过累加贡献率筛选出质量指标的主要成分,计算各指标对于各主成分的载荷数;若Yj对应的变量Xi-j个数≤2,则省略本步骤,直接从②开始;
②K-means聚类分析:调用sklearn中KMeans包,通过kmeans聚类算法对指标下数据进行聚类分析,并计算不同类别数K值下的轮廓值;定义某个样本点的轮廓值为:
其中disMeanin为该点与本类其他点的平均距离,disMeanout为该点与非本类点的平均距离;则所有样本的Si均值为聚类结果的轮廓值,确定相应的聚类类别个数;
③设定标签类别:通过对步骤②中的聚类类别进行分析,定义规则和标签类别;
标签二的设定方法为:
①文本分词:下载所在行业名词词典、公司新闻报道正负面词汇,利用“jieba”分词工具,采用精确模式对产品质量评论文本进行分词;
②文本标注:人工判断食品行业相关新闻文本对企业的正、负面影响并进行正、负标注;
③使用Word2Vec训练词向量:调用gensim模块函数,训练Word2Vec模型,生成词向量矩阵,从矩阵中抽取词的向量值,每篇文本得到一个二维矩阵,行为文本,列为模型维度;
④PCA降维:由③得到矩阵数据,调用skleam中的PCA函数,通过PCA模型计算出累加贡献率,选择使得累加贡献率大于90%时的前K个主成分作为SVM训练模型的输入,提升数据处理速度;
⑤使用SVM训练模型:调用sklearn中svm包,采用RBF核函数,其计算公式为:
其中,x,y为样本,||x-y||表示向量的模,γ为超参,用于调整模型复杂度;通过多次参数调整,确定分类效果最优的惩罚系数C值和参数γ值;对训练好的模型进行测试,保障预测模型的准确性;
⑥新闻文本分类:采用Word2Vec对已切分词的文本向量化,利用训练好的预测模型进行分类,得到待分类新闻文本的正负向类别;
⑦设定企业形象标签:为企业计算正向新闻占比,得到企业形象得分Z值;根据Z值整体分布情况,对不同范围下的值划分设定相应企业形象标签;
标签三的设定方法为:
①情感词典构建:下载能够获取情感词分数和程度级别副词的词典,并根据语料库中常用否定词建立否定词词典;
②文本分词:下载所在行业名词词典、公司新闻报道正负面词汇,利用“jieba”分词工具,采用精确模式对产品质量评论文本进行分词;
③计算评论情感分值:通过分词结果遍历出情感词、否定词和程度副词;设给定句子为St,其所包含的评价短语Si的情感分值
Ei=Di×w×wj    (3)
其中,i=1,2,……,n;Di为情感词分数,wj设定为每个程度副词权重;初始权重w=1,当短语中有否定词时w=-1;wj初始值为1,当短语中有程度副词时则wj为程度副词权重,句子情感值:
其中,Score(St)大于0的归于正向,小于0的归于负向;统计所有句子情感值,产品质量总体满意度为正向句子情感的总体占比;
④设定产品质量口碑标签:根据质量总体满意度值的整体分布情况,对不同范围下的值划分设定相应质量口碑标签。
2.根据权利要求1所述的方法,其特征在于,获取情感词分数的词典为BosonNLP情感词典,获取程度级别副词的词典为Hownet情感词典。
CN202010874130.3A 2020-08-26 2020-08-26 基于多源信息融合的中小微企业综合质量画像方法 Active CN111950932B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010874130.3A CN111950932B (zh) 2020-08-26 2020-08-26 基于多源信息融合的中小微企业综合质量画像方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010874130.3A CN111950932B (zh) 2020-08-26 2020-08-26 基于多源信息融合的中小微企业综合质量画像方法

Publications (2)

Publication Number Publication Date
CN111950932A CN111950932A (zh) 2020-11-17
CN111950932B true CN111950932B (zh) 2023-04-25

Family

ID=73367050

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010874130.3A Active CN111950932B (zh) 2020-08-26 2020-08-26 基于多源信息融合的中小微企业综合质量画像方法

Country Status (1)

Country Link
CN (1) CN111950932B (zh)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112580332B (zh) * 2020-11-19 2022-07-12 淮阴工学院 一种基于标签分层延深建模的企业画像方法
CN112632964B (zh) * 2020-12-24 2022-08-26 平安科技(深圳)有限公司 基于nlp的行业政策信息处理方法、装置、设备及介质
CN112685510B (zh) * 2020-12-29 2023-08-08 科来网络技术股份有限公司 一种基于全流量标签的资产标签方法、计算机程序及存储介质
CN112365202B (zh) * 2021-01-15 2021-04-16 平安科技(深圳)有限公司 一种多目标对象的评价因子筛选方法及其相关设备
CN113051914A (zh) * 2021-04-09 2021-06-29 淮阴工学院 一种基于多特征动态画像的企业隐藏标签抽取方法及装置
CN113723737A (zh) * 2021-05-11 2021-11-30 天元大数据信用管理有限公司 一种基于企业画像的政策匹配方法、装置、设备及介质
CN113361262A (zh) * 2021-06-03 2021-09-07 中国科学院计算机网络信息中心 一种企业经营业绩预测先行指标筛选方法及系统
CN113918707A (zh) * 2021-12-14 2022-01-11 中关村科技软件股份有限公司 一种政策汇聚与企业画像匹配推荐的方法
CN116303688A (zh) * 2023-05-17 2023-06-23 北京德钧科技服务有限公司 一种基于互联网的数字化分析方法、系统、设备及介质
CN116777483A (zh) * 2023-08-22 2023-09-19 中央财经大学 刻画上市公司碳减排规划与行为特质的三维立体画像系统
CN116780536B (zh) * 2023-08-23 2024-02-02 山东未来互联科技有限公司 基于机器学习的能耗预测方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2008125759A (ru) * 2008-06-24 2009-12-27 Иван Васильевич Коваль (RU) Социологический способ формирования метафактора с мультиплексной направленностью и его реализации в формуле успеха первичного трудового объединения предприятия самостоятельного бизнеса
CN107464037A (zh) * 2017-07-05 2017-12-12 九次方大数据信息集团有限公司 基于多指标维度模型的企业画像方法及系统
CN107563630A (zh) * 2017-08-25 2018-01-09 前海梧桐(深圳)数据有限公司 基于多维度的企业评分方法及其系统
CN108492224A (zh) * 2018-03-09 2018-09-04 上海开放大学 基于深度学习在线教育学生综合画像标签管理系统
CN109345117A (zh) * 2018-09-30 2019-02-15 北京工业大学 一种多维数据驱动的交通运输主体综合画像方法
CN110489560A (zh) * 2019-06-19 2019-11-22 民生科技有限责任公司 基于知识图谱技术的小微企业画像生成方法及装置
CN111027854A (zh) * 2019-12-10 2020-04-17 重庆撼地大数据有限公司 一种基于企业大数据的综合画像指数生成方法及相关设备

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2008125759A (ru) * 2008-06-24 2009-12-27 Иван Васильевич Коваль (RU) Социологический способ формирования метафактора с мультиплексной направленностью и его реализации в формуле успеха первичного трудового объединения предприятия самостоятельного бизнеса
CN107464037A (zh) * 2017-07-05 2017-12-12 九次方大数据信息集团有限公司 基于多指标维度模型的企业画像方法及系统
CN107563630A (zh) * 2017-08-25 2018-01-09 前海梧桐(深圳)数据有限公司 基于多维度的企业评分方法及其系统
CN108492224A (zh) * 2018-03-09 2018-09-04 上海开放大学 基于深度学习在线教育学生综合画像标签管理系统
CN109345117A (zh) * 2018-09-30 2019-02-15 北京工业大学 一种多维数据驱动的交通运输主体综合画像方法
CN110489560A (zh) * 2019-06-19 2019-11-22 民生科技有限责任公司 基于知识图谱技术的小微企业画像生成方法及装置
CN111027854A (zh) * 2019-12-10 2020-04-17 重庆撼地大数据有限公司 一种基于企业大数据的综合画像指数生成方法及相关设备

Non-Patent Citations (8)

* Cited by examiner, † Cited by third party
Title
Zhaoyun Chen;Lei Luo;Haoduo Yang.GENIE: QoS-guided Dynamic Scheduling for CNN-based Tasks on SME Clusters.《2019 Design, Automation & Test in Europe Conference & Exhibition (DATE)》.2019,第1599-1602页. *
Zulfanetti Zulfanetti, Ade Octavia, Erida Erida.Proceedings of the First Padang International Conference On Economics Education, Economics, Business and Management, Accounting and Entrepreneurship.《First Padang International Conference On Economics Education, Economics, Business and Management, Accounting and Entrepreneurship》.2018,第1-17页. *
冷宁.利用模糊综合评估法构建中小企业质量综合评价模型.《经济问题探索》.2007,(第6期),第101-105页. *
吴行惠;王光昕;虞海江;张东;孙呈梅;王剑;.质监大数据企业画像的研究及应用.数字通信世界.2018,(第02期),第212-216页. *
李军政;黄海;黄瑞阳;王康利;.基于卡方检验和SVM的用户搜索画像技术研究.电子设计工程.2017,(第24期),第6-10页. *
王宗水;刘宇;张健;.基于灰关联的制造业集群企业知识服务能力研究.软科学.2012,(第12期),第22-25页. *
田娟;朱定局;杨文翰;.基于大数据平台的企业画像研究综述.计算机科学.2018,(第S2期),第68-72页. *
肖蜀吉.企业信息生态系统评价指标体系构建研究.《中国优秀硕士学位论文全文数据库 (经济与管理科学辑)》.2010,(第9期),J152-29. *

Also Published As

Publication number Publication date
CN111950932A (zh) 2020-11-17

Similar Documents

Publication Publication Date Title
CN111950932B (zh) 基于多源信息融合的中小微企业综合质量画像方法
Winkler et al. Automatic classification of requirements based on convolutional neural networks
Tsui et al. Knowledge-based extraction of intellectual capital-related information from unstructured data
Liu et al. Combining enterprise knowledge graph and news sentiment analysis for stock price prediction
CN109522412B (zh) 文本情感分析方法、装置及介质
Minhas et al. From spin to swindle: Identifying falsification in financial text
Nagar et al. Using text and data mining techniques to extract stock market sentiment from live news streams
CN111966944B (zh) 一种多层级用户评论安全审核的模型构建方法
CN110750978A (zh) 情感倾向分析方法、装置、电子设备及存储介质
CN113139705A (zh) 业务项目的风险识别方法及装置
CN112200674B (zh) 一种证券市场情绪指数智能计算信息系统
Shanmugalingam et al. Corporate it-support help-desk process hybrid-automation solution with machine learning approach
CN110232124A (zh) 一种情感分析系统
Berkin et al. Feasibility analysis of machine learning for performance-related attributional statements
Silva et al. Developing and Assessing a Human-Understandable Metric for Evaluating Local Interpretable Model-Agnostic Explanations.
Mouri et al. Predicting Online Job Recruitment Fraudulent Using Machine Learning
Povoda et al. Genetic optimization of big data sentiment analysis
CN114817454A (zh) 一种结合信息量和BERT-BiLSTM-CRF的NLP知识图谱构建方法
CN114118779A (zh) 一种基于kgann的面向互联网舆情事件的企业风险识别方法
CN110750622A (zh) 基于大数据的金融事件发现方法
Zaqeeba et al. The impact of using types of artificial intelligence technology in monitoring tax payments
Rajbhoj et al. RClassify: Combining NLP and ML to Classify Rules from Requirements Specifications Documents
CN117875921B (zh) 基于人工智能的人力资源管理方法和系统
Azman et al. Invoices Classification Using Deep Features Based on SME Perspectives
US11860824B2 (en) Graphical user interface for display of real-time feedback data changes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant