CN109101477B

CN109101477B - 一种企业领域分类及企业关键词筛选方法

Info

Publication number: CN109101477B
Application number: CN201810563448.2A
Authority: CN
Inventors: 邝野; 夏思宇; 李钢
Original assignee: Southeast University
Current assignee: Southeast University
Priority date: 2018-06-04
Filing date: 2018-06-04
Publication date: 2023-01-31
Anticipated expiration: 2038-06-04
Also published as: CN109101477A

Abstract

本发明公开了一种企业领域分类及企业关键词筛选方法，该方法通过对企业领域语料库进行训练得出相关领域的特征词汇作为分类词典，然后利用这种分类词典对企业的简介文档进行行业分类，在分类之后，本方法还能从企业的简介文档中提取出能代表这个企业所从事领域的行业标签。此外，本方法能克服中文文本处理中的大多数噪声词影响，行业分类错误率低，分类效率高，综合表现性能优异。

Description

一种企业领域分类及企业关键词筛选方法

技术领域

本发明属于中文文本处理和文本挖掘领域，尤其涉及一种企业领域分类及企业关键词筛选方法。

背景技术

在信息时代，有非常大量的信息都储存在文本当中，比如各种研究文档、企业信息文档、图书、网页文档等。近几年计算机技术突飞猛进，数据挖掘、文本信息挖掘等技术成为了信息科学研究的热点，而将一些成熟的文本挖掘技术用于生产实际也是众望所归。

在非常多的情况下，读者并没有足够的精力完整读完得到的所有的文本，所以很多文档都提供了摘要与关键词来帮助读者判断文本内容自己是否感兴趣，是否要继续读下去。在过去，文本摘要和关键词提取都是靠人力完成，但是在信息爆炸的时代这种做法显然就显得效率低下，人们自然而然得就开始寻求依靠计算机来对文本进行关键词提取与摘要筛选的技术。

企业标签指的是从一个企业的官方非结构化信息文本，如公司简介文档、电子表格、客户电子邮件、问题查询、网页等，中挖掘提取出来的描述此企业性质、所属行业、产品特点等信息的文本标签，借助这些文本标签我们可以更方便地对大量的企业进行行业分类与管理。

现有的文本关键词提取技术最大的问题是容易提取出过多的噪声词，噪声词即与文本内容不相关的词，如语气词或者形容词，过多的噪声词不仅会降低提取的标签词的质量，而且会大幅度影响程序运算效率，而本文通过改良了传统的TF-IDF算法，大幅度降低了关键词提取结果中噪声词的比例。

发明内容

发明目的：针对以上现有技术存在的问题，本发明提出一种企业领域分类及企业关键词筛选方法，该方法可以解决目前针对企业领域的文本分类技术缺乏，企业搜索引擎所提取的标签噪声词多的问题，本发明提供的方法可以对企业进行高准确率的分类，并提供了一种企业标签提取的思路，通过本发明为企业文档提取的关键词可以降低企业搜索引擎中的噪声标签，使企业搜索引擎定位更准确。

技术方案：为实现本发明的目的，本发明所采用的技术方案是：一种企业领域分类及企业关键词筛选方法，该方法包括如下步骤：

(1)对企业文档语料库进行训练，建立所有企业领域的分类词典；

(2)根据步骤(1)得到的企业领域分类词典，对目标企业进行领域分类；

(3)根据步骤(2)得到的目标企业的领域分类，提取该目标企业的企业标签。

其中，步骤(1)中，建立所有企业领域的分类词典方法如下：

(1.1)对所有企业领域的训练语料库中的文档进行文本预处理，得到所有企业领域所对应的词语，并记录词语的词性；

(1.2)计算企业领域d_j词语的词频TF_ij

式(1)中，f_ij代表了词语t_i在企业领域d_j的所有文档中的出现次数,∑_jf_ij是目标企业领域d_j中所有文档的所有词语的总数；

(1.3)计算企业领域d_j词语的逆向文档频率IDF_i

其中，N是所有领域语料库中所有企业文档数目，即总语料库，DF_i代表了总语料库中包含了词语t_i的文档数目；

(1.4)引入方差因子，其计算方法如下：

式(3)中，VAR_i代表词语t_i的方差因子，K是企业领域的总数量，DF(i,j)是在企业领域d_j中包含了词语t_i的文档数量，DF_j是企业领域d_j中所有文档数量，DFC(i,j)为DF(i,j)与DF_j的商，即对DF(i,j)的归一化操作，

是每一个企业领域包含了词语t_i的文档数量的平均值；

(1.5)计算计算企业领域d_j所有词语的权重

TF-IDF_i＝VAR_i*TF_ij*IDF_i (4)。

进一步的，对步骤(1.5)计算得到企业领域d_j词语的TF-IDF权重进行排序，去掉其中所有词性不是名词的词语，得到筛选过后的新的词表，并取新词表中权重前Num％的词语作为候选关键词，进一步过滤与企业领域无关的噪声词，得到企业领域d_j的分类词典，根据上述方法计算所有企业领域的分类词典。

其中，步骤(2)中，目标企业领域分类方法如下：将目标企业的文档处理得到的词集合与每一个企业领域建立的分类词典的词集合分别进行比较，比较目标企业的词集合与每一个企业领域分类词典的词集合相似度，取相似度最大的企业领域作为目标企业的所属领域。

进一步的，所述相似度计算方法为：目标企业的词集合与每个领域分类词典词集合相同的词的数量除以每个分类词典自身的总词数并乘以百分之百。

其中，步骤(3)中，企业标签词提取方法如下：

(3.1)对目标企业的文档进行预处理，得到与目标企业相关的所有词语；

(3.2)计算目标企业所有词语的词频TF_ic

式(5)中，f_ic代表了词语t_i在待处理的目标企业所有文档集合P_c中的出现次数,∑_cf_ic是目标企业所有文档集合P_c中所有词语的总数；

(3.3)计算目标企业所有词语的逆向文档频率IDF_i

其中，M是目标企业被分类到的企业领域中所有企业文档数目，DF_i代表了这些文档中包含了词语t_i的文档数目；

(3.4)计算目标企业词语t_i权重：

TF-IDF_i＝TF_ic*IDF_i (7)

根据公式(7)计算目标企业所有词语的权重，并进行权重排序，选择权重最大的词语作为企业标签词。

有益效果：与现有技术相比，本申请的技术方案具有以下有益效果：

本方法能克服中文文本处理中的大多数噪声词影响，行业分类错误率低，分类效率高，综合表现性能优异，同时提取的企业标签词比较具有代表性；同时本方法随着训练文本的增多准确度也会上升，并弥补了目前我国市面上存在的同样目的或效果的软件或算法很少这一缺失。

附图说明

图1为本发明提供的一种企业领域分类及企业标签提取方法的步骤流程示意图；

图2为分类词典训练流程图；

图3为针对金属材料领域企业分类词典训练示例；

图4为利用分类词典对企业进行领域分类的示意图及对华为进行的领域分类；

图5为对华为的企业标签词提取；

图6为对华为的企业标签词提取结果。

具体实施方式

下面结合附图和实施例对本发明的技术方案作进一步的说明。

本发明所述的一种企业领域分类及企业关键词筛选方法，该方法总体步骤如下：

首先，需要通过爬虫程序收集大量的不同领域企业介绍文档归类整理为训练语料库，训练语料库即一个经过人工分类标定所属类别的企业文档数据库。然后采用本发明提供的改良TF-IDF算法进行企业分类词典训练。传统的TF-IDF算法只利用了文本中的词频信息，提取的关键词准确度并不高，本发明改良的TF-IDF算法，针对企业介绍文档具有的文档简洁、信息浓缩度高的特点，并分析得出一般来说能代表企业行业特征的词都是名词这一特点，提出了加入词性这一特征的改良TF-IDF算法。改良的TF-IDF算法会将提取出的候选关键词中除了名词以外其他词性的词汇都过滤掉，只在名词中进一步筛选得到关键词，这一步骤大幅度降低了关键词集中可能出现噪声词的概率。另一方面在训练分类词典的过程中还加入了方差因子这一要素来强化特征词的TF-IDF权重，进一降低了噪声词的权重排名并提高了特征词的权重排名。本发明的方法具体实施步骤如下：

(a)对要训练分类词典的目标企业领域的训练语料库中的文档均经过中文分词及停止词过滤处理，然后统计每个词语分别出现的词数与词集总词数的商作为TF(词频)，同时还需要记录每个词的词性，以及每个词分别在这个领域的多少个文档中出现过并据此计算出每个词的DFC，将这个统计好的目标企业领域的词语集合作为目标领域训练词集。

(b)针对所有领域所有企业的文档总语料库，统计目标领域训练词集中的每一个词语分别在多少个企业的文档中出现过，并记录这个数字用于计算传统TF-IDF算法中的IDF(逆向文件频率)以及VAR(方差因子)。在得到了目标企业领域的训练词集合中每个词的TF、IDF以及VAR之后我们就可以利用改进的TF-IDF算法计算每个词的TF-IDF权重,计算完毕后根据每个词语的TF-IDF权重我们可以进行排序得到权重由重到轻的词表。针对这个词表，本方法进行词性过滤，去掉其中所有词性不是名词的词语，得到筛选过后的新的词表，并取新词表中权重前Num％的词语作为候选关键词，经过人工进一步过滤一些与企业领域无关的噪声词，就可以得到这个企业领域分类词典的词表。

(c)随后利用训练好的企业分类词典对目标企业的文档进行分类，并在分类结束后再次利用改良的TF-IDF算法从目标企业的文档中提取出能代表这个企业的标签词。

本发明整体的步骤流程如图1所示。本发明是基于文本挖掘和关键词提取技术的筛选方法，并能够去除大多数中文文本噪声词，本发明所公开的方法具体步骤如下：

(1)分类词典训练

首先需要明确，针对每一个企业领域，比如电气自动化、网络信息、生物制药，都需要训练一个对应这个领域的分类词典，第一步需要对准备要训练分类词典的企业领域，即企业领域的训练语料库中的文档均经过文本预处理，该预处理是对该企业领域训练语料库中的文档均经过中文分词及停止词过滤处理，然后统计每个词语分别出现的词数与这个训练语料库中的总词数的商作为TF，即词频，同时记录每个词的词性，将这个统计好的目标企业领域的词语集合作为目标领域训练词集。

接下来，针对所有领域所有企业的文档总语料库，统计企业领域d_j训练词集中的每一个词语分别在多少个企业的文档中出现过，并记录这个数字用于计算TF-IDF算法中的IDF，即逆向文件频率。在得到了企业领域d_j的训练词集合中每个词的TF与IDF之后，利用改进的TF-IDF算法计算每个词的TF-IDF权重，以下是针对企业领域d_j为其训练分类词典的计算：

式(1)中f_ij代表了词语t_i在企业领域d_j所有文档中的出现次数,∑_jf_ij是企业领域d_j所有文档中所有词语的总数，由上述可以看出，f_ij与∑_jf_ij的比值越大，说明这个词在这个企业领域中的重要性就越高。

N是所有领域语料库中所有企业文档数目，即总语料库，DF_i代表了总语料库中包含了词语t_i的文档数目。如果词语t_i在总语料库中普遍出现，DF_i就接近N,IDF_i就接近0，即如果词语t_i在总语料库中出现并不普遍，那么IDF的值也就越大。

式(3)是本文引入的对传统TF-IDF算法改良的方差因子的计算公式，方差因子是为了强调同一个词语在不同企业领域文档语料库里的分布不同、重要性不同这一概念，引入的强化这一因素的因子，计算方法如下：

式(3)中VAR_i代表词语t_i的方差因子，K是企业领域的数量，DF(i,j)是在企业领域d_j中包含了词语t_i的文档数量，DF_j是企业领域d_j中所有文档数量，DFC(i,j)为DF(i,j)与DF_j的商，是为了排除每个企业领域文档数量不同带来的误差，即对DF(i,j)的归一化操作。

是每一个企业领域包含了词语t_i的文档数量的平均值。

式(4)为词语t_i的TF-IDF权重计算的数学表达式：

TF-IDF_i＝VAR_i*TF_ij*IDF_i (4)

如式(4)，TF-IDF权重的值为VAR、TF与IDF的乘积，VAR越大，TF越大，IDF越大，TF-IDF的值就越大，代表这个词语在目标企业领域里的重要程度越高。

计算完毕后，根据每个词语的TF-IDF权重我们可以进行排序得到权重由重到轻的词表。针对这个词表，本方法进行词性过滤，去掉其中所有词性不是名词的词语，得到筛选过后的新的词表，并取新词表中权重前10％的候选关键词，经过人工进一步过滤一些与企业领域无关的噪声词，就可以得到企业领域d_j的分类词典的词表了。分类词典建立需要的文本预处理步骤包含了中文文本分词及停止词过滤步骤，中文文本分词采用Jieba分词模型，目前这个模型的中文分词效果在领域内比较好。停止词过滤采用标准的中文停止词表进行过滤，通过停止词过滤能大幅降低计算资源利用，同时能提高TF-IDF算法提取特征词的准确度。以金属行业的分类词典训练为例，其训练流程如图2所示，训练结果如图3所示。

(2)目标企业文本行业分类

基于分类词典的文本分类方法是最直观的文本分类方式，利用步骤(1)训练得到的分类词典作为基准对每一个进行分类的目标文本进行相似性比较，即比较目标文本经过文本预处理后的词的集合与分类词典的重合程度，如图4所示，重合程度越大相似性就越大。分类过程即将目标文本处理得到的词的集合与每一个领域训练得到的分类词典的词集合分别进行比较，比较目标文本的词的集合与哪一个领域分类词典的词相似度最大，相似度计算方法为目标文本词集与分类词典词集相同的词的数量除以分类词典自身总词数并乘以百分之百，最大为100％，最小为0％。举例来讲，如果一个企业与领域1的相似度是85％，与领域2的相似度为60％，与领域3相似度为35％，那么就这三种领域而言我们会将这个企业分类到领域1中，但是也会给出这个企业与其他所有领域的相似度值以供参考。表1为对华为的企业介绍文档进行领域分类得出的结果。

表1华为与不同企业领域的相似度

企业领域	相似度
		电气自动化	20％
电子信息	80％
		化工	10％
金属材料	0％
		生物制药	10％

(3)目标企业标签词提取

在步骤(2)的文本分类完毕之后，针对这个企业为它提取出最适合它的标签词。为企业提取标签词的做法与为企业领域训练分类词典原理相似，但是TF-IDF算法略有不同。首先对统计目标文本预处理过后得到的每一个词的词频TF及词性并过滤掉非名词的词，然后针对目标文本被分到的企业领域所有企业的文本，统计目标文本词集中每一个词分别在多少篇其它企业文档中出现过，并通过这个计数得出每一个词的IDF，进而计算出每一个词的TF-IDF权重，并进行权重排序，最后得到的词权重越大就说明这个词形成的标签越能代表这个企业在这一领域中的自身特色。标签词提取示例如图5。

具体计算步骤如下：

式(1)中，f_ic代表了词语t_i在目标企业所有文档集合P_c中的出现次数,∑_cf_ic是目标企业所有文档集合P_c中所有词语的总数。由上述可以看出，f_ic与∑_cf_ic的比值越大，说明这个词在这个企业文档中的重要性就越高。

M是目标企业被分类到的企业领域中所有企业文档数目，DF_i代表了这些文档中包含了词语t_i的文档数目。如果词语t_i在这个领域的企业文档中普遍出现，DF_i就接近M,IDF_i就接近0，即如果词语t_i在其中出现并不普遍，那么IDF的值也就越大。

式(7)为词语t_i的TF-IDF权重计算的数学表达式：

TF-IDF_i＝TF_ij*IDF_i (7)

如式(7)，TF-IDF的值为TF与IDF的乘积，TF越大，IDF越小，TF-IDF的值就越大，代表这个词语在目标企业文档里的重要程度越高，并进行权重排序，最后得到的词权重越大就说明这个词形成的标签越能代表这个企业在这一领域中的自身特色。

图6为针对华为进行的标签词提取结果。

Claims

1.一种企业领域分类及企业关键词筛选方法，其特征在于，该方法包括如下步骤：

(3)根据步骤(2)得到的目标企业的领域分类，提取该目标企业的企业标签；

步骤(1)中，建立所有企业领域的分类词典方法如下：

(1.2)计算企业领域d_j词语的词频TF_ij

(1.3)计算企业领域d_j词语的逆向文档频率IDF_i

(1.4)引入方差因子，其计算方法如下：

是每一个企业领域包含了词语t_i的文档数量的平均值；

(1.5)计算企业领域d_j所有词语的权重

TF-IDF_i＝VAR_i*TF_ij*IDF_i (4)

对步骤(1.5)计算得到企业领域d_j词语的TF-IDF权重进行排序，去掉其中所有词性不是名词的词语，得到筛选过后的新的词表，并取新词表中权重前Num％的词语作为候选关键词，进一步过滤与企业领域无关的噪声词，得到企业领域d_j的分类词典，根据上述方法计算所有企业领域的分类词典；

步骤(3)中，企业标签词提取方法如下：

(3.2)计算目标企业所有词语的词频TF_ic

(3.3)计算目标企业所有词语的逆向文档频率IDF_i

(3.4)计算目标企业词语t_i权重：

TF-IDF_i＝TF_ic*IDF_i (7)

2.根据权利要求1所述的一种企业领域分类及企业关键词筛选方法，其特征在于，步骤(2)中，目标企业领域分类方法如下：将目标企业的文档处理得到的词集合与每一个企业领域建立的分类词典的词集合分别进行比较，比较目标企业的词集合与每一个企业领域分类词典的词集合相似度，取相似度最大的企业领域作为目标企业的所属领域。

3.根据权利要求2所述的一种企业领域分类及企业关键词筛选方法，其特征在于，所述相似度计算方法为：目标企业的词集合与每个领域分类词典词集合相同的词的数量除以每个分类词典自身的总词数并乘以百分之百。