CN109783818B

CN109783818B - 一种企业行业分类方法

Info

Publication number: CN109783818B
Application number: CN201910045591.7A
Authority: CN
Inventors: 余伟萍; 叶林; 刘晶; 刘海滨
Original assignee: Shanghai 30wish Information Security Co ltd
Current assignee: Dolphin Xingyun Shanghai Technology Co ltd; Shanghai 30wish Information Security Co ltd
Priority date: 2019-01-17
Filing date: 2019-01-17
Publication date: 2023-04-07
Anticipated expiration: 2039-01-17
Also published as: CN109783818A

Abstract

本发明公开了一种企业行业多标签分类方法，本发明根据行业关键词的提取，企业的经营范围涉及到多个行业的关键词的交叉情况下，并利用半监督和聚类的方法更新词库，利用深度学习的方法进行多行业标签分类。本发明利用了基于图的排序算法，K‑means的聚类的方法、嵌入的词向量模型提取企业关键词，然后使用了双层的循环神经网络构建多层行业标签的自动标签模型，并借此使用半监督和聚类的方法更新行业关键词库，得到四层的级联行业标签体系，有利于解决人工标注的繁琐低效问题。

Description

一种企业行业分类方法

技术领域

本发明涉及文本多标签的分类方法技术领域，具体为一种企业行业分类方法。

背景技术

随着科学技术的飞速发展，人工智能的大潮流，冲击着每一个行业的行业结构和技术。新的技术和模式下，每天都大量的新科技企业诞生孵化出来，而如何对这些企业进行行业标签分类就成了一个重要的问题了。而在2017年的国家统计局发布的国民经济行业分类中一共有20个一级行业分类，97个二级行业分类，而二级行业分类附属还有众多的三级行业分类。而三级行业分类综合起来的行业标签字段达到了千万级别的量级了。而且随着企业的综合性发展，一个企业跨多个行业的现象越来越多，对一个企业单行业标签的描述不能满足实际的需求。而传统的人工分类的方法，不仅需要大量的背景知识，而且标注的速度慢并异常的繁琐，不能很好的再实际应用场景中使用，这迫切的需要自动学习的行业标签分类的方法。

文本多标签的分类属于自然语言处理的范畴。常用的分类方法有很多，比如支持向量机、逻辑回归、人工神经网络，决策树、自适应增强、K紧邻、朴素贝叶斯模型等方法。其中决策树的方法分类的速度较快而且解释性强，但是容易形成过拟合。支持向量机算法能在小数据的情况下有良好的效果，对于较大的数据分类训练速度较慢，而且对数据缺失较为敏感；KNN算法简单有效，但是它要求的计算时间和存储空间都非常大。而自适应的方法是将多个弱分类器通过不断降低它的误分率组合成强的分类器。深度学习的神经网络，由于它较好的学习能力、准确率，并可以不断的叠加神经层数，在其他领域取得了突破的进展，在自然语言处理处理中也有非常多的应用，本发明就是采用双层的循环神经网络进行多标签的行业分类方法。所以一个能快速分类、并且准确率高的多标签的文本分类器有这非常重要的意义。

发明内容

本发明的目的在于提供一种企业行业分类方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：一种企业行业多标签分类方法，包括步骤如下：

S1:基于规则和图排序的算法，并利用嵌入词向量聚类和主题模型聚类，综合结果，剔除噪音词，构建企业标签词库；

S2:利用得到的标签词库，训练不同层级的标签模型，并利用它对企业进行自动标注多个层级的行业标签。

2、根据权利要求1所述的一种企业行业多标签分类方法，其特征在于，包括以下步骤：

S101:基于大规模的企业经营范围语料，训练对应的词向量模型；

S201:基于语义规则，并结合基于图排序算法，提取行业标签的关键词；

S301:构建词向量，分别采用聚类和主题模型的方法，提取企业的经营范围关键词，并剔除噪音词；

S401:利用主题模型，提取企业的主题词，并使用聚类的方法，构建多个行业的关键词库；

S501:根据主题词，利用得到的类标签库匹配，得到多个行业关键词标签的训练样本；

S601:使用两层的双向循环神经网络进行建模构建多行业标签的分类模型；

S701:对新的企业信息自动提取关键词，并自动构建更新标签库。

优选的，所述步骤S101中，从工商企业的信息，包括企业经营范围、企业简介信息等，训练得到词向量模型。

优选的，所述步骤S201中，基于语义规则提取关键词的步骤，主要是构建规则模板，分句后对企业简介的特定位置，，然后抽取特定的词性的词语或者组合的短语，作为候选的关键词企业标签，然后使用基于图排序的算法，选取权重大于某一个阈值的词语作为企业标签词，然后使用词聚类的方法。

优选的，所述步骤S301中，构建词向量之后，应用k-means聚类，聚类的距离采用了嵌入式词向量的欧式距离，聚类后通过人工干预的方法，划分为关键词标签和噪音词这两类，对噪音词归集起来构建出噪音词库。重复的使用聚类的方法，找出属于距离噪音词类近的词前N个词，不断的扩充噪音词库，一直到找不到为止。

优选的，所述步骤S401中，利用主题模型，抽取每一个企业主题词，并使用K-means聚类的方法，聚类出多个类别的关键词，通过人工干预，确定出行业的类别的个数，构建多个类别的行业标签库。

优选的，所述步骤S501中，根据每一个主题词，利用得到的类标签库匹配，得到多个行业关键词标签的训练样本。在这基础上，利用多个类别的标签库，对单标签样本进行匹配补全，得到多标签的企业训练样本，在此基础上，利用国民经济行业标签的三层对应关系，求得企业对应的一级和二级行业门类。

优选的，所述步骤S601中，采用企业中含有的关键词标签训练，训练嵌入的词向量，并使用两层的双向循环神经网络进行建模构建多行业标签的分类模型。

优选的，所述步骤S701中，对企业的信息自动提取关键词，构建关键词的标签库的步骤包括：

a：使用textrank的方法，在新的企业信息中提取词权重前N的关键词，并使用前面构建的噪音词库对抽取的词进行过滤。使用的前面k类的关键词库，对提取出来的新的词进行去重，剩下一些新的关键词；

b：重复权利要求1中步骤S3的方法，对词进行聚类，人工干预划分关键词标签库和噪音词库，并补充噪音词库；

c：使用权利要求1中步骤S6得到的多行业标签分类模型，利用半监督的方法，对得到的企业简介自动得到新的行业类别；

d：对企业的新的关键词，计算它和对应企业标签库中所有词的欧式距离并取得平均数作为标准距离，标准距离最小的类，则把该对应的关键词标签划分到该类别下面，这样就更新了关键词库了。

与现有技术相比，本发明的有益效果是：

1、本发明通过聚类得到的关键词库，得到了多行业标签，相对于传统的企业单行业标签有巨大的优势；

2、本发明利用了基于图的排序算法，K-means的聚类的方法、嵌入的词向量模型提取企业关键词，然后使用了双层的循环神经网络构建多层行业标签的自动标签模型，并借此使用半监督和聚类的方法更新行业关键词库，得到四层的级联行业标签体系，有利于解决人工标注的繁琐低效问题；

3、双层循环神经网络构建的多行业标签具有较高的学习能力和准确率，能很好的解决千万级别的多标签分类问题。

附图说明

图1为本实例当中从企业信息抽取关键词，并得到关键词库的流程图；

图2为本实例当中更新关键词词库的流程图。

具体实施方式

下面将对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

请参阅图1-2，本发明提供一种技术方案：一种企业行业多标签分类方法，包括步骤如下：

企业行业多标签分类方法，包括以下步骤：

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种企业行业多标签分类方法，其特征在于，包括步骤如下：

S2:利用得到的标签词库，训练不同层级的标签模型，并利用它对企业进行自动标注多个层级的行业标签；

还包括以下步骤：

2.根据权利要求1所述的一种企业行业分类方法，其特征在于，所述步骤S1中，从工商企业的信息，包括企业经营范围、企业简介信息，训练得到词向量模型。

3.根据权利要求1所述的一种企业行业分类方法，其特征在于，所述步骤S201中，基于语义规则提取关键词的步骤，构建规则模板，分句后对企业简介的特定位置，然后抽取特定的词性的词语或者组合的短语，作为候选的关键词企业标签，然后使用基于图排序的算法，选取权重大于某一个阈值的词语作为企业标签词，然后使用词聚类的方法。

4.根据权利要求1所述的一种企业行业分类方法，其特征在于，所述步骤S301中，构建词向量之后，应用k-means聚类，聚类的距离采用了嵌入式词向量的欧式距离，聚类后通过人工干预的方法，划分为关键词标签和噪音词这两类，对噪音词归集起来构建出噪音词库，重复的使用聚类的方法，找出属于距离噪音词类近的词前N个词，不断的扩充噪音词库，一直到找不到为止。

5.根据权利要求1所述的一种企业行业分类方法，其特征在于，所述步骤S401中，利用主题模型，抽取每一个企业主题词，并使用K-means聚类的方法，聚类出多个类别的关键词，通过人工干预，确定出行业的类别的个数，构建多个类别的行业标签库。

6.根据权利要求1所述的一种企业行业分类方法，其特征在于，所述步骤S501中，根据每一个主题词，利用得到的类标签库匹配，得到多个行业关键词标签的训练样本，在这基础上，利用多个类别的标签库，对单标签样本进行匹配补全，得到多标签的企业训练样本，在此基础上，利用国民经济行业标签的三层对应关系，求得企业对应的一级和二级行业门类。

7.根据权利要求1所述的一种企业行业分类方法，其特征在于，所述步骤S601中，采用企业中含有的关键词标签训练，训练嵌入的词向量，并使用两层的双向循环神经网络进行建模构建多行业标签的分类模型。

8.根据权利要求1所述的一种企业行业分类方法，其特征在于，所述步骤S701中，对企业的信息自动提取关键词，构建关键词的标签库的步骤包括：

a：使用textrank的方法，在新的企业信息中提取词权重前N的关键词，并使用前面构建的噪音词库对抽取的词进行过滤，使用的前面k类的关键词库，对提取出来的新的词进行去重，剩下一些新的关键词；