CN112632980A

CN112632980A - 一种基于大数据深度学习的企业分类方法、系统及电子设备

Info

Publication number: CN112632980A
Application number: CN202011643989.XA
Authority: CN
Inventors: 罗根基
Original assignee: Guangzhou Youquan Technology Co ltd
Current assignee: Guangzhou Youquan Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-09
Anticipated expiration: 2040-12-30
Also published as: CN112632980B

Abstract

本发明提供的一种基于大数据深度学习的企业分类方法、系统及电子设备，方法为：获取企业综合信息，形成大数据集；基于CRF分词模型和概率图模型，提取企业成分关键词集，训练对应的词向量模型，利用密度聚类算法，预测并划分若干个特征关键词集；利用FastText文本分类模型，对词集进行TF‑IDF筛选，使用LDA模型对大数据集进行主题分析，提取关于企业的主题词，利用密度聚类算法，构建若干个主题词集；结合特征关键词集和主题词集，得到若干个训练样本，输入双向循环神经网络中进行训练，构建多门类分类模型；利用多门类分类模型对企业进行分类预测，匹配完善阈值，自动标注多个层级的行业标签。有场景适应力强、分类准确率高、效率高、减少人力成本的特点。

Description

一种基于大数据深度学习的企业分类方法、系统及电子设备

技术领域

本发明属于分类方法技术领域，尤其涉及一种基于大数据深度学习的企业分类方法、系统及电子设备。

背景技术

国家统计局于2019年5月22日公布的《2017国民经济行业分类注释》中，一级行业分类为20个，二级行业分类97个，且二级行业分类下属还有众多已知和待挖掘的三、四级行业分类。行业分类在统计、计划、财政、税收、工商等国家宏观管理中，对经济活动分类、信息处理、信息交换尤为重要。作为世界第二大经济体，随着产业转型、升级及新生产业兴起的作用下，将持续高速孵化更多企业，且企业综合性发展、跨行业经营将成为常态，行业间附属信息混杂，容易造成标准信息不对称的情况。根据现有的行业分类注释中所描述的“确定单位行业归属的原则”，当企业从事一种或多种经济活动时，均以其主要活动确定其所属行业分类，显然，以单行业分类标识企业已不能满足实际需求。而传统人工分类方法，不仅需要大量背景知识，而且，标注的速度慢并异常繁琐，不能很好地应对实际应用场景。

对于企业的行业分类问题，常见的做法是转换为基于自然语言处理领域的问题，通过支持向量机、决策树、神经网络、k近邻等算法，最终实现自动化分类。在文本特征表示上，常见有词向量和词袋模型两种，然而，企业行业信息往往包含大量专业/专有名词，行业通用名词密集，词向量进行分类适用性较低，且常见文本特征提取方法不能很好地表示上下文关系，特征置信度过低；准确提取用于向量化的关键词，是提高分类准确率的关键步骤。

另外，常见的分类方法如：SVM、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等，均存在强场景适配要求。支持向量机(SVM)对于大规模数据进行分类模型训练效率低下，甚至难以拟合；决策树(Decision Tree，DT)分类效率较高，但容易出现过拟合；传统神经网络需要在训练和验证过程中迭代调参，模型训练代价高、效率低；逻辑回归(LogicRegression，LR)与传统神经网络类似；自适应增强方法(AdaBoost)将多个弱分类器组成强分类器，在分类效果上，略差于梯度提升决策树(GBDT)。除此之外，单分类器模型依赖于样本的标注质量和覆盖率，当对未登录的新样本分类时，准确率不理想。

为此，亟需一种利用大数据深度学习、兼备自动高效和自我学习迭代的企业分类方法，来解决现有技术中对于企业分类的低效和低准度等问题。

发明内容

本发明的目的在于克服上述现有技术存在的不足，提供一种基于大数据深度学习的企业分类方法、系统及电子设备，解决了现有技术中对于包含大量行业专业/专用名词的企业行业综合信息，无法实现精准分类且分类效率低的问题，克服了无法根据分类情况进行自我学习迭代的缺点。

为了实现上述目的，第一方面，本发明提供一种基于大数据深度学习的企业分类方法，包括以下步骤：

S1：获取企业综合信息，形成大数据集；

S2：基于CRF分词模型和概率图模型，提取企业成分关键词集，执行预处理动作，训练对应的词向量模型，针对构建的词向量模型，利用密度聚类算法，预测出若干个特征关键词集，并剔除噪音词或更新噪音词库；

S3：利用FastText文本分类模型，对词集进行TF-IDF筛选，并使用LDA模型对大数据集进行主题分析，提取关于企业的主题词，利用密度聚类算法，预测出若干个主题词集；

S4：结合所述特征关键词集和主题词集，得到若干个训练样本，输入双向循环神经网络中进行训练，构建多门类分类模型；

S5：利用多门类分类模型结合其对应的阈值，对企业进行分类预测，自动标注多个层级的行业标签。

进一步地，在S1中，所述企业综合信息包括但不限于企业简介、商事登记信息、经营范围、知识产权、招聘信息、企业新闻、产品信息和图像主体识别，通过复合方法抽取特征文本和构建结构化企业描述，并形成大数据集。

进一步地，在S2中，基于CRF分词模型和概率图模型提取企业成分关键词集包括以下步骤：

将具有多通道描述信息的企业综合信息输入CRF分词模型中进行分词，得到候选词集；

根据基于类Seq2Seq的概率图模型，对句子集进行主/客体预测，先预测s对象，再根据s对象预测与所述s对象相对应的o对象及p对象，并将o对象放入候选词集，得到企业成分关键词集，其中概率图模型公式如下：

P_(s,p,o)＝P_(s)P_(o|s)P_(p|s,o)

进一步地，所述预处理动作包括对所述企业成分关键词集进行过滤处理，并在利用密度聚类算法对所述词向量模型进行处理中，邻域距离阈值和样本数(∈,MinPts)取各门类/层级的专家建议值，聚类运算后得到若干个特征关键词集，所述特征关键词集包括主成分关键词和噪音词，并进行人工抽样复核，将划分的主成分关键词和噪音词分别输入相应的词集或库中，其中，对于错分为噪音词的主成分关键词添加至对应的主成分关键词集中，对噪音词归集构建或输出到噪音词库。

进一步地，在S3中，所述词集在输入阶段先经N元语法模型处理，密度聚类算法中的邻域距离阈值和样本数(∈,MinPts)取各门类/层级的专家建议值。

进一步地，在S4中，针对主成分关键词少的样本，通过单独调整S3中的(∈,MinPts)进行补全，得到最终的训练样本；利用所述最终训练样本，根据国家统计局中一、二级行业门类，匹配和完善对应行业门类信息，并将其加入到相应的主成分关键词集。

进一步地，利用企业的主成分关键词集训练嵌入的词向量模型，并输入双向循环神经网络中进行建模，构建多门类分类模型。

进一步地，在S5中，对于标注失败的企业，采取抽样人工干预及调整阈值的方式，重复S2至S4，通过修正多门类分类模型，实现自动标注。

第二方面，本发明提供一种应用于上述方法的基于大数据深度学习的企业分类系统，包括：

语料文本模块，所述语料文本模块被配置为获取企业综合信息，形成大数据集；

特征关键词生成模块，所述特征关键词生成模块被配置为基于CRF分词模型和概率图模型，提取企业成分关键词集，执行预处理动作，训练对应的词向量模型，针对构建的词向量模型，利用密度聚类算法，预测出若干个特征关键词集，并剔除噪音词或更新噪音词库；

主题词生成模块，所述主题词生成模块被配置为利用FastText文本分类模型，对词集进行TF-IDF筛选，并使用LDA模型对大数据集进行主题分析，提取关于企业的主题词，利用密度聚类算法，预测出若干个主题词集；

训练样本模块，所述训练样本模块被配置为结合所述特征关键词集和主题词集，得到若干个训练样本，输入双向循环神经网络中进行训练，构建多门类分类模型；

预测模块，所述预测模块被配置为利用多门类分类模型结合其对应的阈值，对企业进行分类预测，自动标注多个层级的行业标签。

第三方面，本发明提供一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如上述的基于大数据深度学习的企业分类方法。

本发明的有益效果：

1、本发明提供的一种基于大数据深度学习的企业分类方法、系统及电子设备，通过复合方法提取特征，并结合双向循环神经网络，整合密度聚类算法和深度学习，在不确定分类数量及层级的动静态数据集场景下，有很好的适应能力，实现深度学习挖掘企业分类；

2、本发明融合CRF分词模型和概率图思想，对待分类描述文本进行信息成分特征提取，提高关键特征识别和补全能力，同时利用密度聚类算法灵活调参得到的特征关键词集，有利于快速确定多门类的主成分关键词和噪音词，提高训练多门类分类模型的准确率。

3、本发明利用了密度聚类算法，相对于其它聚类方法更适合凸和非凸数据交差的场景需求，配合PCA降维方法和数据削减策略，实现自动高效划分门类关键词，减少人工干预所需的大量背景知识，同时对发现新行业主成分关键词提供支持。

4、本发明利用双向循环神经网络训练多门类分类模型，解决现有技术中对上下文关系支持不足的问题，使自动化分类具有较高的学习能力和准确率，同时更接近自然人认知，有利于解决人工标注的繁琐低效等问题。

附图说明

利用附图对本发明作进一步说明，但附图中的实施例不构成对本发明的任何限制，对于本领域的普通技术人员，在不付出创造性劳动的前提下，还可以根据以下附图获得其它的附图。

图1是本实施例1提供的一种基于大数据深度学习的企业分类方法的流程框架示意图。

图2是本实施例2提供的一种基于大数据深度学习的企业分类系统的示意图。

图3是本实施例2提供的一种基于大数据深度学习的企业分类系统的逻辑流程示意图。

具体实施方式

下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

实施例1：

参照图1，本实施例提供一种基于大数据深度学习的企业分类方法，包括以下步骤：

S1：获取企业综合信息，形成大数据集；

S3：利用FastText文本分类模型，对词集进行TF-IDF筛选，并使用LDA模型对大数据集进行主题分析，提取关于企业的主题词，利用密度聚类算法，根据专家阈值建议，预测出若干个主题词集；

需要说明的是，基于自然语义分析的CRF分词模型和概率图模型，在企业运营场景下所得的多通道企业综合信息中抽取企业经营成分关键词，综合所得结果，形成大数据集，并利用词性过滤器、噪音词库、N元语法模型、TF-IDF筛选、最短正交，提取主成分关键词集；利用所得的主成分关键词集，通过词向量和主题模型聚类，结合特征关键词集和主题词集，训练多门类分类模型，此多门类分类模型中包括多个层级成分信息，并利用该多门类分类模型结合其对应运算得到的阈值，对企业进行分类预测，实现自动标注多个层级的行业标签。另外地，对于标注失败的企业，采取抽样人工干预及调整阈值的方式，重复S2至S4，通过修正多门类分类模型，实现自动标注。

作为一种实施方式，在S1中，通过企查查、爱企查、爱采购、慧聪等多家企业信息公示平台，获得企业综合信息，并从经大数据清洗后的大数据集中抽样组织成语料文本，此大量的语料文本组成了大数据集，其中，所述企业综合信息包括但不限于企业简介、商事登记信息、经营范围、知识产权、招聘信息、企业新闻、产品信息和图像主体识别，通过复合方法抽取特征文本和构建结构化企业描述，并形成大数据集，此大数据集作为后续处理逻辑的输入。

作为一种实施方式，在S2中，基于CRF分词模型和概率图模型提取企业成分关键词集包括以下步骤：

P_(s,p,o)＝P_(s)P_(o|s)P_(p|s,o)

需要说明的是，专名、专词等行业通用词汇通过企业名称、企业简介、商事登记信息、经营范围、知识产权、招聘信息、企业新闻、产品信息和图像主体识别等具有多通道描述信息的企业综合信息放入CRF分词模型进行分词，得到的候选词集，此候选词集交由后续运算流程处理。

针对CRF分词模型因主客体关系复杂容易造成错分、漏分的情况，引入基于类Seq2Seq的概率图模型，鉴于多数情况下大数据集中语料文本中的客体(简称：o对象)的数目比主体(简称：s对象)的数目要多，因此，对根据分句正则模型所得的句子集进行主/客体预测时，先预测s对象，然后传入s对象来预测该s对象所对应的o对象及p对象，将o对象放入候选词集。

在本实施例中，在S2中，所述预处理动作包括利用过滤器对所述企业成分关键词集进行过滤处理，后再训练对应的词向量模型，并在利用密度聚类算法对所述词向量模型进行处理中，邻域距离阈值和样本数(∈,MinPts)取各门类/层级的专家建议值，聚类运算后得到若干个特征关键词集，所述特征关键词集包括主成分关键词和噪音词，并对若干个特征关键词集进行人工抽样复核，将划分的主成分关键词和噪音词分别输入相应的词集或库中，其中，对于错分为噪音词的主成分关键词添加至对应的主成分关键词集中，对噪音词归集构建或输出到噪音词库。通过此人工干预划分和更新的方式，提高主成分关键词集和噪音词库的准确度，不停地迭代更新，重复使用聚类方法，迭代噪音词库，一直到无噪声词。

作为一种实施方式，在S3中，所述词集在输入阶段先经N元语法模型处理，密度聚类算法中的邻域距离阈值和样本数(∈,MinPts)取各门类/层级的专家建议值，以此构建若干个主题词集。

作为一种实施方式，在S4中，针对主成分关键词少的样本，通过单独调整S3中的(∈,MinPts)进行补全，得到最终的训练样本；利用最终的训练样本，根据国家统计局中一、二级行业门类，匹配和完善对应行业门类信息，并将其加入到相应的主成分关键词集。

优选地，利用企业的主成分关键词集训练嵌入的词向量模型，并输入双向循环神经网络(BRNN)中进行建模，构建多门类分类模型。

在经过包含大量语料文本的企业综合信息的训练后，构建出一个完善高校的多门类分类模型，当有新企业描述文本输入时，具体处理步骤如下：

1)利用S2中方法，抽取新企业描述文本中的主成分关键词和主题词，并使用噪音词库对抽取所得的企业成分关键词集进行过滤，形成新的词集。利用多门类分类模型中各门类的主成分关键词集，对所得新的词集进行匹配去重，得出新的成分关键词；

2)沿用S2中方法，对特征关键词集进行聚类，人工干预划分和更新主成分关键词集和噪音词库；

3)基于S4中得到的多门类分类模型，输入新企业描述文本进行自动分类预测，并采用半监督方法，根据预测效果，最终确定所属门类；

4)对上述步骤中所得的新的主成分关键词，根据上述确定的所属门类结果，将其归集到对应的门类下的主成分关键词集，持续迭代更新该词集。

实施例2：

参照图2和图3，本实施例2提供一种应用于实施例1中基于大数据深度学习的企业分类方法的企业分类系统，包括：

语料文本模块，所述语料文本模块被配置为获取企业综合信息，形成大数据集；其中，语料文本模块通过企查查、爱企查、爱采购、慧聪等多家企业信息公示平台，获得企业综合信息，并从经大数据清洗后的大数据集中抽样组织成语料文本，此大量的语料文本组成了大数据集；

特征关键词生成模块，所述特征关键词生成模块被配置为基于CRF分词模型和概率图模型，提取企业成分关键词集，执行预处理动作，训练对应的词向量模型，针对构建的词向量模型，利用密度聚类算法，预测出若干个特征关键词集，并剔除噪音词或更新噪音词库；其中CRF分词模型为CRF分词CRF分词器，概率图模型为类Seq2Seq对象处理器，特征关键词生成模块中包括此CRF分词器和类Seq2Seq对象处理器；

主题词生成模块，所述主题词生成模块被配置为利用FastText文本分类模型，对词集进行TF-IDF筛选，并使用LDA模型对大数据集进行主题分析，提取关于企业的主题词，利用密度聚类算法，预测出若干个主题词集；与此主题词生成模块想连接的还有向量化处理器、PCA滤波器、噪音过滤器，用于提高提取关于企业的主题词的准确度；

训练样本模块，所述训练样本模块被配置为结合所述特征关键词集和主题词集，得到若干个训练样本，输入双向循环神经网络中进行训练，构建多门类分类模型，此多门类分类模型也即多行业分类模型；其中还包括双向循环神经网络训练器，在双向循环神经网络训练器中实现双向循环神经网络训练；

需要说明的是，还包括行业层级专家参数集、DBSCAN聚类器、LDA主题词库；行业层级专家参数集用于提供在利用密度聚类算法时对邻域距离阈值和样本数(∈,MinPts)进行取值，直接与DBSCAN聚类器相连接，DBSCAN聚类器用于执行密度聚类算法，LDA主题词库用于存储管理LDA主题模型对大数据集进行主题分析后的结果。

实施例3：

本实施例3提供一种电子设备，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现实施例1中基于大数据深度学习的企业分类方法。

实施例4：

本实施例4提供一种计算机可读存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时实现实施例1中企业分类方法的步骤。

上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机，计算机的具体形式可以是个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件收发设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任意几种设备的组合。

在一个典型的配置中，计算机包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

相对于现有技术，本发明提供的一种基于大数据深度学习的企业分类方法、系统及电子设备，通过复合方法提取特征，并结合双向循环神经网络，整合密度聚类算法和深度学习，在不确定分类数量及层级的动静态数据集场景下，有很好的适应能力，实现深度学习挖掘企业分类；

本发明融合CRF分词模型和概率图思想，对待分类描述文本进行信息成分特征提取，提高关键特征识别和补全能力，同时利用密度聚类算法灵活调参得到的特征关键词集，有利于快速确定多门类的主成分关键词和噪音词，提高训练多门类分类模型的准确率。

本发明利用了密度聚类算法，相对于其它聚类方法更适合凸和非凸数据交差的场景需求，配合PCA降维方法和数据削减策略，实现自动高效划分门类关键词，减少人工干预所需的大量背景知识，同时对发现新行业主成分关键词提供支持。

本发明利用双向循环神经网络训练多门类分类模型，解决现有技术中对上下文关系支持不足的问题，使自动化分类具有较高的学习能力和准确率，同时更接近自然人认知，有利于解决人工标注的繁琐低效等问题。

最后需要强调的是，本发明不限于上述实施方式，以上仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据深度学习的企业分类方法，其特征在于，包括以下步骤：

S1：获取企业综合信息，形成大数据集；

2.如权利要求1所述的一种基于大数据深度学习的企业分类方法，其特征在于，在S1中，所述企业综合信息包括但不限于企业简介、商事登记信息、经营范围、知识产权、招聘信息、企业新闻、产品信息和图像主体识别，通过复合方法抽取特征文本和构建结构化企业描述，并形成大数据集。

3.如权利要求2所述的一种基于大数据深度学习的企业分类方法，其特征在于，在S2中，基于CRF分词模型和概率图模型提取企业成分关键词集包括以下步骤：

P_(s,p,o)＝P_(s)P_(o|s)P_(p|s,o)

4.如权利要求3所述的一种基于大数据深度学习的企业分类方法，其特征在于，所述预处理动作包括对所述企业成分关键词集进行过滤处理，并在利用密度聚类算法对所述词向量模型进行处理中，邻域距离阈值和样本数(∈,MinPts)取各门类/层级的专家建议值，聚类运算后得到若干个特征关键词集，所述特征关键词集包括主成分关键词和噪音词，并进行人工抽样复核，将划分的主成分关键词和噪音词分别输入相应的词集或库中，其中，对于错分为噪音词的主成分关键词添加至对应的主成分关键词集中，对噪音词归集构建或输出到噪音词库。

5.如权利要求4所述的一种基于大数据深度学习的企业分类方法，其特征在于，在S3中，所述词集在输入阶段先经N元语法模型处理，密度聚类算法中的邻域距离阈值和样本数(∈,MinPts)取各门类/层级的专家建议值。

6.如权利要求5所述的一种基于大数据深度学习的企业分类方法，其特征在于，在S4中，针对主成分关键词少的样本，通过单独调整S3中的(∈,MinPts)进行补全，得到最终的训练样本；利用所述最终训练样本，根据国家统计局中一、二级行业门类，匹配和完善对应行业门类信息，并将其加入到相应的主成分关键词集。

7.如权利要求6所述的一种基于大数据深度学习的企业分类方法，其特征在于，利用企业的主成分关键词集训练嵌入的词向量模型，并输入双向循环神经网络中进行建模，构建多门类分类模型。

8.如权利要求1至7任一项所述的一种基于大数据深度学习的企业分类方法，其特征在于，在S5中，对于标注失败的企业，采取抽样人工干预及调整阈值的方式，重复S2至S4，通过修正多门类分类模型，实现自动标注。

9.一种应用于如权利要求1至8任一项所述的基于大数据深度学习的企业分类系统，其特征在于，包括：

10.一种电子设备，其特征在于，包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一项所述的基于大数据深度学习的企业分类方法。