CN110688836A

CN110688836A - 基于监督学习的领域词典自动化构建方法

Info

Publication number: CN110688836A
Application number: CN201910938421.1A
Authority: CN
Inventors: 胡玉鹏; 司凯; 冯小博; 黄靖; 黄崇凯; 黄芸
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2019-09-30
Filing date: 2019-09-30
Publication date: 2020-01-14

Abstract

本发明公开了一种基于监督学习的领域词典自动化构建方法，首先将文本关键词提取转换成二分类问题，使用机器学习的方法提取文本关键词，然后使用文本关键词和本发明构建的相关规则构建领域词典，最后通过相似度扩充领域词典实现了领域词典的自动化构建和扩充。本发明可以更快更准确地构建领域词典。

Description

基于监督学习的领域词典自动化构建方法

技术领域

本发明涉及多个领域词典的自动化构建方法。

背景技术

近些年来，科技高速发展，人们的交流方式也发生了翻天覆地的变化，每天都有数以百万计的电子文件在互联网上流传，各个学科的文献也大批量的出现，接踵而至的是大批新的领域词汇，领域词汇充分体现和承载了如今社会已知学科领域所涵盖的核心知识。词汇不断的变化可以在不同程度的层面上反映出一个学科领域的时间空间上发展变化历程，因此领域词汇能让我们很容易的了解一个学科领域的发展现状、未来趋势等，这对我们更好的认识领域知识有着重要的理论和现实意义；并且随着中文信息处理应用领域的不断扩展，对于领域专业词汇词典的需求也越来越迫切。像Word Net，How Net等，这些著名的数据知识库大多还是需要靠手工构建来完成，而且这一部分所用的词语数据库都是通用的；虽然信息都有相通性这一特点，但是由于领域的不同，而其本身词语的构成方式也不尽相同，因此想要用一个单一的知识库来表示当前众多不同领域不同层面的精确信息几乎是不可能的任务；而且在科技飞速发展的情况下，已经不可能再用人工的方式构建领域词典了，这也是需要利用计算机等其他先进的甚至新的信息技术手段来处理这些各种各类新知识的必要性，同样也将是未来发展和进步的趋势所向。

领域词典构建是中文自然语言处理研究的基础课题。领域词典构建是一项十分复杂而且艰巨的研究，特别是在提取中文词典方面，与西方语言相比中文由于本身的特点使得词典构建的难度更上一层。近些年来中文分词技术得到了快速发展，但是其发展是不平衡的，在多数领域没有公开的中文词库来进行训练，并且使用一种关键词提取技术提取领域关键词准确率较低。同时，文本信息在互联网上流通快而内容繁多，因此如何在纷繁错杂的网络世界中搜查特定领域的信息，又如何运用这些大规模的语料信息来构建特定领域词典就非常具有挑战性。目前，领域词典自动化构建方法主要是无监督的，准确率较低；而且由于中文分词的特殊性和中文文档的复杂性，目前的方法很难得到质量较高的领域词典。

发明内容

本发明所要解决的技术问题是，针对现有技术不足，提供一种基于监督学习的领域词典自动化构建方法，更快更准确地构建领域词典。

为解决上述技术问题，本发明所采用的技术方案是：一种基于监督学习的领域词典自动化构建方法，包括以下步骤：

1)采集信访数据，并对采集的信访数据进行预处理；

2)提取预处理后的信访数据的候选关键词；

3)利用所述候选关键词提取信访数据的特征；

4)利用所述特征提取关键词，所有提取的关键词组成关键词集；

5)利用所述关键词集构建领域词典。

步骤1)的具体实现过程包括：

对收集的信访数据进行关键词标注，利用分词工具对所述信访数据进行分词，将分词后的数据集和停用词词表一一对照，如某一词语存在于停用词词表中，则将该词语丢弃，如果该词语不存在停用词词表中，则保留该词语；对去除停用词的分词后的数据集进行噪声过滤，并去除噪声过滤后的词长为1的词语。

步骤2)的具体实现过程包括：

去除预处理后的数据集中以下类型的词语：词长小于2或者大于4的词语；介词和副词；

选取每篇文章的前20个tfidf和textRank之和最大的词语作为候选关键词。

步骤3)中，所述特征包括TFIDF特征、textRank特征、词频特征、头词频特征、词长特征、位置特征、基于词向量的相似度特征中的一种或多种。

步骤4)的具体实现过程包括：

1)对所述特征和标注的关键词进行数值转换；

2)将数值转换后的特征和标注的关键词放入模型训练，得到初始分类器；

3)对所述特征进行降维，选择权重最高的前N个特征，并将该N个特征输入所述初始分类器，得到优化后的分类器；

4)将待测试的数据集输入优化后的分类器中，得到关键词集。

步骤5)的具体实现过程包括：

1)对所述关键词集进行词性过滤；

2)对词性过滤后的关键词集进行词频过滤，并以每个词出现的频率为词的权重，对关键词集中的所有关键词进行排序，选择前M个关键词构建领域词典。

步骤5)之后，还对所述领域词典进行扩充。

扩充方法包括：计算出词语w₁和词语w₂之间的相似度，对于一篇领域文档，先进行关键词提取，将提取的关键词与领域词典中的词进行PMI计算，将PMI大于阈值0的关键词加入到领域词典中，对领域词典进行扩充，舍弃其余的词。

与现有技术相比，本发明所具有的有益效果为：本发明首先将文本关键词提取转换成二分类问题，使用机器学习的方法提取文本关键词，然后使用文本关键词和本发明构建的相关规则构建领域词典，最后通过相似度扩充领域词典实现了领域词典的自动化构建和扩充。经过验证，本发明的方法可以更快更准确地构建领域词典。

附图说明

图1显示了领域词典构建的流程图。

图2显示了基于lightGBM的关键词提取算法过程。

图3显示了不同学习率P-R-F柱状图。

具体实施方式

本发明主要思路如下：将领域词典构建转换成领域文本关键词提取，通过tfidf和textRank相结合的候选关键词提取算法提取每个关键词的多种特征，把提取的特征作为样本集并使用lightGBM算法进行学习，并使用训练好的模型提取领域文档的关键词，然后对于选取的所有关键词，选出重复次数最多用于领域词典构建，最后通过一种基于PMI算法的领域词典扩充方法实现领域词典的自动化扩充。

本发明分为以下几个步骤：第一步是数据预处理；第二步候选关键词提取；第三步特征提取；第四步基于lightGBM的关键词提取；第五步是领域词典构建；第六步领域词典自动化扩充。图1为领域词典构建的流程图。

以下以信访领域为例，介绍其具体实施方式。

第一步，搜集数据、制定标注规则并将原始数据集进行预处理，主要实施过程如下：

首先搜集数据并制定标注规则，步骤如下：

1.要研究信访领域的词典构建技术，必须要有相当规模的语料库，并在此基础上进行算法的研究和实验。因此，首先需要应当收集大量的信访数据，并在此基础上制定详尽、规范、可执行的标注规则，以构建高质量的信访词典构建的语料库。并且本发明的词典构建算法的研究都将在此语料库的基础上实现和改进，最终应用于项目中以抽取信访中的关键词，用于构建词典。在语料的收集方面，我们从国家信访局、各个省、直辖市的信访局官网爬去相关数据。数据集用title表示文档的标题，content代表文档的内容，lable是标签，如果是训练集，则label是手动提取的文章中的关键词，否则label为空。

2.因为本文用的是基于监督学习的领域词典自动化构建方法，因此首先需要对训练数据集进行标注。为了规范信访语料的标注过程，对语料分词之后，经过多次分析和尝试之后制定了以下标注规则：

(1)标注的关键词需要严格的从中文分词结果中选出，否则会影响结果的准确率。

(2)将在标题和文章中多次出现的词选为关键词。

(3)经过研究分析，关键词一般不会特别长，因此在标注的时候选择词长大于且小于5的词作为标注的关键词。

(4)每篇文章选取3到4个关键词。

按照上述标注规则，对收集到的信访数据进行关键词标注，经过标注和一些简单的过滤，得到了1000多条标注语料。

其次，对数据进行预处理，主要分为以下三个步骤：

1.中文分词和词性标注。本发明使用的是结巴分词工具进行分词，因为结巴分词工具是全开源的，用户可以根据自己的需要对结巴分词源码进行改变，本发明在使用结巴分词的TF-IDF算法时，对其进行了改进。用户可以使用代码添加词典，也可以找到在分词包下的一个dic.txt文件，这个文件主要是用来存储未登录词的，可以向其中添加词语，用于提高分词的准确度。因为本发明会用到词性的相关信息，所以也使用结巴分词工具进行词性标注。

2.停用词过滤。中文语句中存在着介词、副词、语气词和连词等不具有实际意义的词汇和标点符号，比如“着”，“和”等。我们需要删除这种无用词以提高文本分析的准确率。这个过程被称作“停用词过滤”。本发明使用基于停用词词典的停用词过滤方法，将分词后的数据集和停用词词表一一对照，如该词存在于停用词表就将该词语丢弃，如果该词不存在停用词表就保留。

3.噪声过滤。文本数据的不规范性体现在其中包含着很多与中文内容无关的数据，如标点符号、数字等。这种噪声数据不但没有实际意义，还增大了特征表示空间的维度，提高了文本挖掘算法计算的复杂度，影响了挖掘结果的准确度。因此噪声过滤对于提升文本数据挖掘的精度至关重要。

4.研究过程中发现，信访关键词很少有一个字的词。根据这一特征，我们对候选词进行进一步的过滤，将抽取出来的词中，词长为1的词过滤掉。

第二步，进行候选关键词选取，主要实施过程如下：

候选关键词的选取是关键词提取中必不可少的步骤，如果候选关键词选择的不好，对结果可能产生很大影响。结合实际情况提出了适合的候选关键词选取方法：

1.经研究发现，信访关键词的长度一般是2到4之间。因此将词长小于2或者大于4的去掉。

2.通过对信访数据的分析，发现介词和副词都不可能是关键词。因此对候选词关键词进行词性过滤，将抽取出的介词和副词过滤掉。

3.计算每篇文章中各个词的tfidf值和textRank值，将每篇文章的前20个tfidf和textRank之和最大的作为候选关键词，这样减少了数据量和算法的计算时间。具体算法如下所示：

经过以上这几步的筛选和处理得到的候选词集就是我们接下要研究的对象。

第三步，进行特征提取，主要实施过程如下：

选择以下特征组成候选词的特征向量：

1.TFIDF特征：

TFIDF特征一直是关键词提取中不可或缺的特征。本发明使用如下tfidf公式：

TF-IDF＝TF*IDF (1)

其中词频(TF)＝某个词在文章中的出现次数/文章总词数，逆文档频率(IDF)＝log(语料库的文档总数/包含该词的文档总数+1)

2.textRank特征：

TextRank算法和TF-IDF算法类似，是一个重要特征，主要用于文档的关键词提取和摘要的生成。本发明使用的TextRank公式如下：

其中In(V_i)为指向V_i的点集合，Out(V_i)为该点指向的点集合。d是阻尼系数(d∈[0,1])，表示图中某点到除这点之外的概率。

3.词频特征：

表示词在文档中出现的频数与文章总词数的比值。

4.头词频特征：

选取文本内容前1/4候选词词频。

5.词长特征：

将每个词的词长用为其特征值。

6.位置特征：

本发明选在了多种位置特征。其中包括标题、第一句、最后一句和其他句子等，该类特征表示为布尔变量，如标题特征，候选词在标题中出现则为1，否则为0。

7.基于词向量的相似度特征：

计算文本相似度，这里直接用doc2vec和每个单词的word2vec做比较，本发明使用了两种计算方法：余弦相似度和欧氏距离。余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上。公式如下：

欧氏距离是最常见的距离度量，衡量的是多维空间中各个点之间的绝对距离。

公式如下：

本发明所使用的相似度特征主要包括文章和词之间的相似度特征、词与词之间的相似度特征。文章与词的相似度直接用doc2vec跟每个单词的word2vec做余弦相似度和欧氏距离计算。词与词之间的相似度直接使用每个词的词向量做余弦相似度和欧氏距离计算，然后对于每个词分别计算其平均相似度和最大相似度。

通过上述方法可以得到特征矩阵。第一段代表特征，其余段代表特征所对应的值。

第四步，是基于lightGBM的关键词提取，主要包括lightGBM模型构建、lightGBM模型训练、lightGBM模型分类三步。图2显示了其算法过程。

(1)LightGBM模型构建。选择合适的初始化参数、算法构建模型。经过多次实验之后选择的lightGBM模型的初始化配置如下表所示：

表1 lightGBM的初始化参数

将上一个步骤中得到的特征和标注的关键词进行数值转换，即将一些非数值类型的数据转换成数值类型，比如得到的词性特征是人名、名词、动词等转换成1、2、3等数值。

(2)lightGBM模型训练。将上步处理好的特征和标注好的关键词放进模型训练得到分类器。本发明使用的是lightGBM集成包，lightGBM模型训练部分主要代码如下算法2所示：

其中输入的是训练数据，使用K_fold的方法对数据集训练集进行分割，k_fold即k-折叠交叉验证，就是将训练集的1/k作为测试集，每个模型训练k次，测试k次，错误率为k次的平均，最终选择平均率最小的模型Mi。输出是auc，即模型的准确率，并将训练好的模型保存。

(3)特征降维，本发明选择了30多种特征，但是有些特征对于本发明算法用处并不大，因此需要特征降维。本发明选择的是特征选取中的封装式方法，即通常利用特定的分类算法，通过交叉验证的方式，训练得到一个分类器，并得到特征子集的权重，然后通过权重评估特征子集中特征的重要性。在进行lightGBM模型训练时，会计算特征子集的权重，然后选择权重较高的前15个特征作为最终特征,然后再重复步骤(2)。

(4)lightGBM模型分类。将要测试的数据集放入训练好的分类器模型中，对于数据集中的每篇文章得到2-3个关键词，得到一个关键词集。

第五步，构建领域词典，主要实施过程如下：

1.对上一步中提取的关键词，进行词性过滤，对于人名、地名直接去除，因为信访领域的关键词不可能是人名地名。然后对已经选出的关键词进行分析，发现关键词主要是名词、动词、动名词、成语、习用语等。将其余词性直接删除。

2.词频过滤，候选领域词集中的词代表的是整个语料库，具有领域特征，因此本发明使用简单的词频对进行进一步的筛选，即统计候选领域词集中每个词出现频率，然后以此频率作为词的权重对词进行排序。最后选择前500个词作为领域关键词用于构建领域词典。

第六步，领域词典扩充，主要实施过程如下：

本发明领域词典的扩充使用的是PMI算法。PMI是一种相似度计算方法，主要用来计算词语之间的语义相似度，其核心思想就是计算两个词语同时出现的概率，如果概率越高，这二者的相似度越高、关联就越密切。其公式如下，其中w₁和w₂表示两个词语，P(w₁)、P(w₂)分别是词w₁和词w₂单独在语料库中出现的概率，P(w₁&w₂)则表示两个词在语料库中同时出现的概率：

如果P(w₁&w₂)越大，PMI就越大，二者之间的相似度和关联度就越大；反之，PMI就越小。上述公式经计算后会得到三种计算结果：当PMI>0时，词w₁和词w₂存在相关性，且PMI值越大，相关性越强；当PMI＝0时，词w₁和词w₂是相互独立的，互不相关也不排斥；当PMI<0时，词w₁和词w₂是相互排斥的。

假设语料集中共有N篇文档，f(w₁)表示在语料库中包含词w₁的文档数。那么P(w)的计算公式如下：

同理，对于词语w₁和w₂，同时包含这两个词语的文本数为f(w₁&w₂),那么p(w₁&w₂)的计算公式如下：

那么将上述(6)和(7)代入到公式(8)中，在语料集中w₁和w₂的PMI计算见公式如下：

通过上式，就可以计算出w₁和w₂之间的相似度。对于一篇领域文档，先进行关键词提取，对于提取的关键词与领域词典中的词进行PMI计算，将PMI大于阈值的关键词加入到领域词典中，对领域词典进行扩充，其余的词舍弃。

本发明从训练剩余的领域文档中选出1000条，然后再从网上爬取1000条与领域不相关的数据进行试验评测。本发明提出的一种领域词典的构建方法，基于监督学习的领域词典自动化构建方法。评测主要分为两部分，针对关键词提取的检测和针对领域词典构建的检测。

针对关键词提取的检测：

实验采用准确率(precision)和召回率(recall)来衡量文本关键词提取的效果。

准确率：

召回率：

F值：

公式含义如下表

表2准确率、召回率参数表

在实验过程中，一般召回率和准确率都会有相对性，一般选取适当的准确率和召回率，以达到最佳的效果。

本发明提出的关键词提取算法准确率实验的结果如表3所示。其中，TextRank方法是一种关键词提取算法，使用本发明所收集的语料进行关键词提取。

表3关键词提取实验结果对别表

由上表可知，本发明提出的关键词提取算法在各项指标上均达到最高值，说明使用多特征的有监督的关键词提取方法是可行的。因为本发明综合利用统计信息、词语之间的信息和各种位置信息，不仅考虑了文章的语义信息，还考虑了词语的词性、词长等信息，这些语义特征对结果影响较大。本发明关键词提取算法中，有一个可调节且对结果影响较大的参数learn_rate，图3显示了相同数据集的情况下，关键词提取效果随着参数learn_rate变化而变化，图中横坐标表示的是学习率，纵坐标表示的是百分比，图中第一个圆柱代表p的值，第二个圆柱代表R的值，第三个圆柱代表P的值。通过对比实验可以看出，当参数learn_rate的取值为0.1时，关键词提取的效果最好。

针对领域词典构建的检测：

评判指标与关键词提取相同，亦为准确率和召回率，但是定义与计算方式稍有不同。准确率是分类器将领域文档正确的分类为领域文档的个数与分类器将文档分类为领域文档的个数之比，召回率是分类器将领域文档正确的分类为领域文档的个数与文档库中的领域文档个数之比。具体步骤如下：

(1)首先将数据集按照8:2分成两份，一份用来训练，一份用来测试。

(2)对数据集进行分词、去除停用词等数据预处理。

(3)以已构建的领域词典为特征构建特征矩阵，即对于一篇文档如果领域词典中的词在文档中出现就表示为1，否则就表示为0。

(4)将特征矩阵放入分类算法中训练得到一个文本分类器。

(5)使用测试集测试分类的准确性。

根据上述实验步骤得到的文本分类的准确性如下表所示：

表4不同算法准确率对比表

通过大量信访领域文档分析，以对比TextRank关键词提取算法，虽然耗时较长，但是准确率有较大的提升。通过使用领域词典进行领域文档识别，准确率高达98.95％，证明该领域词典构建方法准确可行。相对于现有的领域词典构建技术，本发明改进了针对领域的词典构建准确率较低，而且由于信访文档的特殊性和复杂性，目前的方法很难得到一个质量较高的信访领域词典等劣势，将带来以下方面的优势：

(1)引入一种基于tfidf和textRank相结合的候选领域关键词方法，有助于去除数据集中的噪音，增加关键词提取的准确性。

(2)采用基于lightGBM的关键词提取算法，提高了关键词提取的准确率。

(3)提出了一种基于关键词提取的领域词典构建算法，适用于不同领域的词典构建，该关键词提取方法可以使用与不同领域。

(4)建立了领域词典构建的原型系统，实现了基于tfidf和textRank相结合的候选关键词提取算法，并基于该方法提取每个关键词的多种特征，把提取的特征作为样本集并使用lightGBM算法进行学习，并使用训练好的模型提取领域文档的关键词，最后使用这些关键词构建领域词典，经试验检测该方法可以用于多种领域。

Claims

1.一种基于监督学习的领域词典自动化构建方法，其特征在于，包括以下步骤：

1)采集信访数据，并对采集的信访数据进行预处理；

2)提取预处理后的信访数据的候选关键词；

3)利用所述候选关键词提取信访数据的特征；

5)利用所述关键词集构建领域词典。

2.根据权利要求1所述的基于监督学习的领域词典自动化构建方法，其特征在于，步骤1)的具体实现过程包括：

3.根据权利要求1所述的基于监督学习的领域词典自动化构建方法，其特征在于，步骤2)的具体实现过程包括：

4.根据权利要求1所述的基于监督学习的领域词典自动化构建方法，其特征在于，步骤3)中，所述特征包括TFIDF特征、textRank特征、词频特征、头词频特征、词长特征、位置特征、基于词向量的相似度特征中的一种或多种。

5.根据权利要求1所述的基于监督学习的领域词典自动化构建方法，其特征在于，步骤4)的具体实现过程包括：

1)对所述特征和标注的关键词进行数值转换；

6.根据权利要求1所述的基于监督学习的领域词典自动化构建方法，其特征在于，步骤5)的具体实现过程包括：

1)对所述关键词集进行词性过滤；

7.根据权利要求1所述的基于监督学习的领域词典自动化构建方法，其特征在于，步骤5)之后，还对所述领域词典进行扩充。

8.根据权利要求7所述的基于监督学习的领域词典自动化构建方法，其特征在于，扩充方法包括：计算出词语w₁和词语w₂之间的相似度，对于一篇领域文档，先进行关键词提取，将提取的关键词与领域词典中的词进行PMI计算，将PMI大于阈值的关键词加入到领域词典中，对领域词典进行扩充，舍弃其余的词。

9.根据权利要求7所述的基于监督学习的领域词典自动化构建方法，其特征在于，所述阈值为0。