CN107944480B

CN107944480B - 一种企业行业分类方法

Info

Publication number: CN107944480B
Application number: CN201711137533.4A
Authority: CN
Inventors: 陈开冉; 吴璐璐
Original assignee: Guangzhou Tungee Technology Co ltd
Current assignee: Guangzhou Tungee Technology Co ltd
Priority date: 2017-11-16
Filing date: 2017-11-16
Publication date: 2020-11-24
Anticipated expiration: 2037-11-16
Also published as: CN107944480A

Abstract

本发明公开了一种企业行业分类方法，该方法利用半监督学习的图分裂聚类算法有效地提取了企业的主营业务关键词，并基于梯度提升决策树使用提取的关键词作为特征，训练级联分类器将企业按行业分类，解决了人工分类的繁琐问题。具体方法为：1)利用词向量和半监督图分裂聚类算法提取企业的主营业务关键词，剔除垃圾词，构造关键词库；2)将提取的关键词作为特征输入训练级联分类器，每一级的分类器对企业分类，未分类的企业按下一级的分类器分类。本发明不仅能自动构建更新并分类关键词，而且解决了千万级别的企业行业分类问题，能有效地解决了人工标注的问题。

Description

一种企业行业分类方法

技术领域

本发明涉及数据分类方法研究领域，更具体的是，涉及行业关键词提取，在企业经营范围与多个行业描述均有交叉的情况下，融合半监督图分裂聚类和级联梯度提升决策树的企业行业分类方法。

背景技术

中华人民共和国国家统计局在2013年发布的行业分类标准中，一共分为20个一级行业，细分为96个二级行业。企业的行业标签是一个重要字段，而全国已有企业达千万级别，并且每天有不少企业孵化，如何快速对企业按行业分类是个重要问题。在以往的行业划分规范中，企业所属行业由企业的经营范围描述而得。但是，由于企业的经营范围描述往往涉及到多个行业的描述，人工分类的工作存在着更多的困难。为了解决人工分类工作繁琐的问题，需要提出企业行业分类方法。

企业行业分类是自然语言处理领域的一个重要应用。首先，在文本特征表示上，有词向量和词袋模型两种。由于行业描述大部分是专有名词，词向量不适用于此场景。并且，如何提取企业描述中的业务关键词，成为了主要问题之一。

其次，常见的分类方法有支持向量机、决策树、神经网络、逻辑回归、k邻近值、自适应增强方法等。支持向量机(Support Vector Machine，SVM)可用于小数据分类，而对于大数据分类难以实施，训练模型速度极慢，难以拟合。决策树(Decision Tree，DT)可对样本快速分类，但是由于对特征决策较为绝对，容易出现过拟合。传统神经网络需要拟合的参数量较大，训练过程极慢，不适用于大数据处理。逻辑回归(Logic Regression，LR)与传统神经网络类似，而k邻近值(K-Nearest Neighbors，KNN)计算复杂，需要大存储量。自适应增强方法(AdaBoost)将多个弱分类器组成强分类器，在分类效果上，略差于梯度提升决策树(Gradient Boosting Decision Tree，GBDT)。除此之外，单个分类器模型过分依赖于样本描述的覆盖率，当对一个从未出现过的描述的新样本分类时，准确率较低。

为此，提供一种分类识别速度快、准确率高的企业行业分类方法具有重要的研究意义和实用价值。

发明内容

本发明的目的在于克服现有技术的缺点与不足，提供一种企业行业分类方法，该方法融合半监督图分裂聚类和级联梯度提升决策树，综合并有效利用了词频逆文档词频(Term Frequency-Inverse Document Frequency，TFIDF)方法、图的分裂聚类方法、k均值聚类方法、词向量和词袋模型、梯度提升决策树等方法，可对企业描述提取主营业务关键词，半监督构建关键词库和自动更新关键词库，并以级联的方式对企业按行业分类。

本发明的目的通过以下的技术方案实现：一种企业行业分类方法，包括步骤：利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词，剔除垃圾词，构造关键词库；将提取的关键词作为特征输入训练级联分类器，每一级的分类器对企业进行分类，未分类的企业按下一级的分类器分类。

具体的，包括步骤：

(1)构造语料库，训练词向量模型；

(2)基于文本中每个词的权重初步提取企业关键词；

(3)用词向量和聚类方法提取企业的主营业务关键词，剔除垃圾词，训练词类模型，得到词类模型分类器；

(4)细聚类筛选出的关键词，构造关键词库；

(5)处理特征输入，训练层次分类器和级联分类器，其中层次分类器由一级行业分类器和二级行业分类器组成，级联分类器由多个层次分类器组成；

(6)提取新关键词并自动更新关键词库。

优选的，所述步骤(1)中，从企业简介、企业专利、企业招聘信息、企业经营范围等描述中获取文本，训练N维的词向量模型。

优选的，所述步骤(2)初步提取企业关键词的步骤是：首先对文本描述分词，其次剔除停用词，再筛选特定词性的词语，最后根据词频逆词频计算每篇文档中每个词的权重，删除权重值低于预设值的词，剩下的即为初步提取的企业关键词。

优选的，所述步骤(3)中，对多篇已提取的关键词使用词向量和k-means聚类，以词向量计算两个词之间的欧式距离；聚类后，人工干预对k个类按主营业务关键词和垃圾词划分为两类，使用梯度提升决策树对垃圾词和关键词训练词类模型。

优选的，所述步骤(4)中，细聚类的方法是对已筛选出的关键词再次进行k-means聚类细分，得到多个类别的关键词，构造出每个类别对应的关键词库。如：服饰相关的词语聚为一类，零件相关词语聚为一类等等。

优选的，所述步骤(5)的具体步骤是：

(5-1)对企业经营范围描述使用TFIDF算法提取关键词，使用关键词库对未能提取的关键词匹配进行补充；将训练样本中所有经营范围描述所提取的关键词组成词袋，即每个词对应一个词ID；使用词袋模型向量化企业经营范围的描述；

(5-2)训练层次分类器的步骤是：层次分类器由一级行业分类器和二级行业分类器组成，一级行业分类器由M个模型组成，代表M个一级行业；在第i个模型中，以行业i的描述作为正样本，其他行业j的描述作为负样本，j≠i，使用梯度提升决策树算法训练模型；

二级行业分类器的模型数为P，代表P个二级行业，其中，每个一级行业下有相关的二级行业分类模型；训练一级行业下的二级行业分类器与一级行业分类器同理，如批发零售业下细分为批发业和零售业，则该一级行业下有两个二级行业分类模型。若样本被一级行业分类器预测为批发零售业，则使用批发业和零售业的二级行业分类模型对样本再次预测，得到该样本的二级行业类别；

(5-3)训练级联分类器的步骤是：级联分类器由多个层次分类器组成，假设总分类器由多级分类器A、B、C等组成，首先使用A级分类器对样本分类，若未能分类，则继续使用下一级分类器分类；若能分类则输出结果。

更进一步的，在一级行业分类器中，本发明选取概率最高的行业类别作为一级行业类别，在二级行业分类器中，考虑到一个企业可属多个行业或行业描述有重合的情况，选取概率值超过0.5的行业类别作为该企业的二级行业类别。

优选的，所述步骤(6)提取新关键词并自动更新关键词库的步骤包括：

(6-1)基于步骤(3)、(4)得到的词类模型分类器和关键词库，对新文本描述分词，使用垃圾词库对分词结果匹配，剔除垃圾词；使用TFIDF方法提取前n个关键词，并且使用关键词库对分词结果匹配，找出在库中的关键词，和前n个不在库中的关键词；

(6-2)对前n个不在库中的关键使用词类模型分类器分类，若分为垃圾词则对垃圾词库补充，若为关键词则进入步骤(6-3)下一步验证；

(6-3)对词类模型分类的关键词计算每个词到每个关键词类的平均距离，归类到最短距离的关键词类；然后对该关键词类进行2-means划分，使用强弱团体判别是否满足分裂条件，并统计分裂后的词数是否大于2，更新关键词库和关键词类；最后将在库的关键词和提取的新关键词作为样本的关键词标签。

更进一步的，所述步骤(6-3)中，使用强弱团体判别是否满足分裂条件，步骤是：

(6-3-1)强弱团体的定义如下：

强团体：若一个集合V内的每个词到集合内所有其他词的余弦相似度的均值大于到另一个集合中所有词的余弦相似度的均值，则称此集合为强团体，用公式表示为：

弱团体：若一个集合V内的所有词到集合内所有其他词的余弦相似度的和的均值大于此集合内的所有词到另一个集合中的所有词的余弦相似度的和的均值，则称此集合为弱团体，用公式表示为：

(6-3-2)若子类p1，p2中有一个子类既不满足强团体，也不满足弱团体，则不分裂；否则分裂，并统计p1、p2中每个类的词数是否大于2：

若某个类中词数小于2，代表此类中的词可能是垃圾词，则删除此类和原始类p，并删除相关新词；

反之，保留子类，添加新词到关键词库，删除原始类p。

本发明与现有技术相比，具有如下优点和有益效果：

1、本发明综合并有效利用了词频逆文档词频方法、图的分裂聚类方法、k均值聚类方法、词向量和词袋模型、梯度提升决策树等方法，可对企业描述提取主营业务关键词，半监督构建关键词库和自动更新关键词库，并以级联的方式对企业按行业分类，解决了人工分类的繁琐问题。

2、本发明不仅能自动构建更新并分类关键词，而且解决了千万级别的企业行业分类问题，有效地解决了人工标注的问题。

附图说明

图1是本实施例初步提取关键词的前期准备流程图。

图2是本实施例提取并更新关键词库的流程图。

图3(a)是本实施例级联分类器的流程图。

图3(b)是本实施例层次分类器的流程图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

本发明一种企业行业分类方法主要创新点在于利用词向量和半监督图分裂聚类方法提取企业的主营业务关键词，剔除垃圾词，构造关键词库；将提取的关键词作为特征输入训练级联分类器，每一级的分类器对企业进行分类，未分类的企业按下一级的分类器分类。其中提取关键词包括提取关键词、半监督构建并自动更新关键词库；行业分类包括一级行业分类和二级行业分类。下面结合附图1-3具体说明本发明的各个步骤。

步骤1：构造语料库，训练词向量模型

本发明从企业简介、企业专利、企业招聘信息、企业经营范围等描述中共获取了172万篇文本，训练300维的词向量模型。

步骤2：初步提取企业关键词

提取企业的关键词时首先对文本描述分词，其次剔除停用词，再筛选特定词性的词语。最后根据词频逆词频计算每篇文档中每个词的权重，权重的计算公式为：

TFIDF(i，j)＝TF(i，j)×IDF(i)

TF(i，j)表示词i在文档j中出现的次数n占该文档的词数的比重，IDF(i)表示包含词i的文档数的倒数×总文档数|D|的对数值，最后描述一个词的关键程度为TF×IDF。

步骤3：筛选关键词和垃圾词，训练词类模型

将多篇已提取的关键词使用词向量和k-means聚类，以词向量计算两个词之间的欧式距离。聚类后，人工干预对k个类按主营业务关键词和垃圾词划分为两类，使用梯度提升决策树对垃圾词和关键词训练词类模型。

步骤4：细聚类筛选出的关键词

从步骤3中，已筛选出初步的关键词和垃圾词。接下来，对已筛选出的关键词再次进行k-means聚类细分，得到多个类别的关键词，如：服饰相关的词语聚为一类，零件相关词语聚为一类等等。

上述步骤1-4为初步提取关键词的前期准备流程，流程图参见图1。

步骤5：处理特征输入，训练层次和级联企业行业分类器

对企业经营范围描述使用TFIDF方法提取关键词，使用关键词库对未能提取的关键词匹配进行补充。将训练样本中所有经营范围描述所提取的关键词组成词袋，即每个词对应一个词ID。使用词袋模型向量化企业经营范围的描述。

由于在行业划分标准中，多个行业的描述可能具有重叠性，因此本发明使用层次分类器训练一级行业分类器和二级行业分类器，参见图3(b)。一级行业分类器由20个模型组成，代表20个一级行业。在第i个模型中，以行业i的描述作为正样本，其他行业j(j≠i)的描述作为负样本，使用梯度提升决策树方法训练模型。二级行业分类器的模型数为96，代表96个二级行业，其中，每个一级行业下有相关的二级行业分类模型。训练一级行业下的二级行业分类器与一级行业分类器同理，如批发零售业下细分为批发业和零售业，则该一级行业下有两个二级行业分类模型。若样本被一级行业分类器预测为批发零售业，则使用批发业和零售业的二级行业分类模型对样本再次预测，得到该样本的二级行业类别。

在一级行业分类器中，本发明选取概率最高的行业类别作为一级行业类别，在二级行业分类器中，考虑到一个企业可属多个行业或行业描述有重合的情况，选取概率值超过0.5的行业类别作为该企业的二级行业类别。

级联分类器由多个层次分类器组成，参见图3(a)，假设总分类器由多级分类器A、B、C等组成，若A级分类器对样本无预测结果，则继续使用下一级分类器(如B级分类器)分类。

步骤6：提取新关键词并自动更新关键词库

关键词库的构造与更新是个迭代的过程，实际应用中不可过分依赖于一次性提取的关键词。因此，本发明中增加了自动更新并分类关键词的过程。步骤3，4已得出词类模型分类器以及细分的关键词类。对新文本描述分词，提取前n个关键词，对所有分词结果与关键词库匹配，保留已在关键词库中出现的词。对于前n个不在关键词库中出现的词，使用词类模型分类器分类：若为垃圾词，则剔除；若为关键词，则保留亟待下一轮的验证。

接下来对保留的关键词验证：假设文本描述提取的前n个不在关键词库中并且被初步分类为关键词的词集合为m，首先计算m中每个词分别与每个细分的关键词类的平均距离，记录与新词平均距离最短的关键词类；对与新词的平均距离最短的关键词类添加对应的新词后进行2-means聚类，判断该关键词类是否符合分裂的条件。假设添加新词后的关键词类为p，重新聚类得到两个子类分别为p1、p2，以强弱团体的定义判断是否满足分裂要求，强弱团体的定义如下：

强团体：若一个集合V内的每个词到集合内所有其他词的余弦相似度的均值大于到另一个集合中所有词的余弦相似度的均值，则称此集合为强团体。用公式表示为：

弱团体：若一个集合V内的所有词到集合内所有其他词的余弦相似度的和的均值大于此集合内的所有词到另一个集合中的所有词的余弦相似度的和的均值，则称此集合为弱团体。用公式表示为：

若子类p1，p2中有一个子类既不满足强团体，也不满足弱团体，则不分裂；否则分裂，并统计p1、p2中每个类的词数是否大于2。若某个类中词数小于2，代表此类中的词可能是垃圾词，则删除此类和原始类p，并删除相关新词；反之保留子类，添加新词到关键词库，删除原始类p。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种企业行业分类方法，其特征在于，包括步骤：

(1)构造语料库，训练词向量模型；

(2)根据词频逆词频计算每篇文档中每个词的权重，基于文本中每个词的权重初步提取企业关键词；

(3)用词向量和聚类方法提取企业的主营业务关键词，剔除垃圾词，训练词类模型，得到词类模型分类器；所述步骤(3)中，对多篇已提取的关键词使用词向量和k-means聚类，以词向量计算两个词之间的欧式距离；聚类后，人工干预对k个类按主营业务关键词和垃圾词划分为两类，使用梯度提升决策树对垃圾词和关键词训练词类模型；

(4)细聚类筛选出的关键词，构造关键词库；

(6)提取新关键词并自动更新关键词库，步骤包括：

(6-3)对词类模型分类的关键词计算每个词到每个关键词类的平均距离，归类到最短距离的关键词类；然后对该关键词类进行2-means划分，使用强弱团体判别是否满足分裂条件，并统计分裂后的词数是否大于2，更新关键词库和关键词类；最后将在库的关键词和提取的新关键词作为样本的关键词标签；

强团体：若一个集合V内的每个词到集合内所有其他词的余弦相似度的均值大于到另一个集合中所有词的余弦相似度的均值，则称此集合为强团体；

弱团体：若一个集合V内的所有词到集合内所有其他词的余弦相似度的和的均值大于此集合内的所有词到另一个集合中的所有词的余弦相似度的和的均值，则称此集合为弱团体。

2.根据权利要求1所述的企业行业分类方法，其特征在于，所述步骤(1)中，从企业简介、企业专利、企业招聘信息、企业经营范围描述中获取文本，训练N维的词向量模型。

3.根据权利要求1所述的企业行业分类方法，其特征在于，所述步骤(2)初步提取企业关键词的步骤是：首先对文本描述分词，其次剔除停用词，再筛选特定词性的词语，最后根据词频逆词频计算每篇文档中每个词的权重，删除权重值低于预设值的词，剩下的即为初步提取的企业关键词。

4.根据权利要求1所述的企业行业分类方法，其特征在于，所述步骤(4)中，细聚类的方法是对已筛选出的关键词再次进行k-means聚类细分，得到多个类别的关键词，构造出每个类别对应的关键词库。

5.根据权利要求1所述的企业行业分类方法，其特征在于，所述步骤(5)的具体步骤是：

二级行业分类器的模型数为P，代表P个二级行业，其中，每个一级行业下有相关的二级行业分类模型；训练一级行业下的二级行业分类器与一级行业分类器同理，若样本被一级行业分类器预测为该一级行业，则使用该一级行业下相关的二级行业分类模型对样本再次预测，得到该样本的二级行业类别；

(5-3)训练级联分类器的步骤是：级联分类器由多个层次分类器组成，假设总分类器由多级分类器A、B、C组成，首先使用A级分类器对样本分类，若未能分类，则继续使用下一级分类器分类；若能分类则输出结果。

6.根据权利要求5所述的企业行业分类方法，其特征在于，在一级行业分类器中，选取概率最高的行业类别作为一级行业类别，在二级行业分类器中，选取概率值超过0.5的行业类别作为该企业的二级行业类别。

7.根据权利要求1所述的企业行业分类方法，其特征在于，所述步骤(6-3)中，使用强弱团体判别是否满足分裂条件，步骤是：

(6-3-1)强弱团体的定义如下：

强团体用公式表示为：

弱团体用公式表示为：

反之，保留子类，添加新词到关键词库，删除原始类p。