CN107562717B

CN107562717B - 一种基于Word2Vec与词共现相结合的文本关键词抽取方法

Info

Publication number: CN107562717B
Application number: CN201710605900.2A
Authority: CN
Inventors: 李晓飞; 刘佳雯; 韩光
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2017-07-24
Filing date: 2017-07-24
Publication date: 2021-08-03
Anticipated expiration: 2037-07-24
Also published as: CN107562717A

Abstract

本发明公开了一种基于Word2Vec与词共现相结合的文本关键词抽取方法，采用ICTCLAS分词系统对文本进行分词和词性标注得到词汇集合；然后对词汇集合进行预处理，将不合理的词汇组合过滤，得到初步候选集；将初步候选集放置到训练好的Word2Vec模型中得到词向量表，计算词向量表中词向量间的距离，对初步候选集进行kmeans聚类得到关键词的二次候选集，根据词向量距离得到二次候选集在初步候选集中的词共现率；不同词汇长度赋予不同的权值，根据词共现率、词汇长度得到相应的权重，根据权重排序，排名靠前的m个即为最终的关键词。本发明采用Word2Vec生成的词向量进行聚类，再结合词共现等基本特征提取文本关键词，提取的关键词更准确，可以适应不同文本的关键词抽取。

Description

一种基于Word2Vec与词共现相结合的文本关键词抽取方法

技术领域

本发明涉及自然语言处理技术领域，特别是一种基于Word2Vec与词共现相结合的文本关键词抽取方法。

背景技术

关键词提取就是从文本中把跟这篇文章意义最相关的一些词汇抽取出来。这些词汇也可以极大的概括文章的主要内容和中心思想。作者在写论文时一般都要求提供若干关键词，这样可以极大的方便读者来确定该论文是否为所需要的论文，达到预览的效果。

传统的关键词标注，主要是通过人工完成。一般是邀请领域专家对一些特定文档进行阅读，然后根据文本内容，选取一些词作为关键词。这样做的好处是，关键词的精确性比较髙，一般与文章内容非常契合，具有很强的代表性。但是人工标注的一个主要问题是效率太低，传统文本量下，可以采用人工标注，但是在大数据时代，数据爆炸式增长，人工标注无法有效应对如此巨量的数据，使用计算机进行自动关键词抽取成为了主流选择。

关键词抽取算法的不断发展，使得关键词自动标注的准确率不断提高，但是这与人工关键词自动标注相比，依旧显得过低。已有的一些研巧表明，准确率和召回率评价上，一般只有30％-40％，这使得如何进一步提高关键词抽取的效果，成为十分有意义的研究议题。

早期的关键词提取算法使用词频、词性、词在文章中位置等属性来表示词汇，然后根据某个规则计算出每个词的得分，选择得分高的词作为关键词，效果并不理想。除了基于得分的关键词提取方法之外，还有一类是基于机器学习的关键词提取方法。相对于基于得分的方法而言，这些方法虽然利用了数据集中的信息，但是并没有改变词的表示方式。其中词的特征仍然是词的词性、词频等，这种表示方式忽略了词汇之间的语义联系，比如同义词、反义词等。因此不论是聚类还是分类过程中，词汇的特征并不能给出关于词汇语义充分信息，所以这些关键词提取算法的准确率并不理想。

综上，传统的关键词抽取方法存在关键词抽取的效果不佳、关键词抽取效率低的问题。

发明内容

本发明所要解决的技术问题是克服现有技术的不足而提供一种基于Word2Vec与词共现相结合的文本关键词抽取方法，本发明采用Word2Vec生成的词向量进行词间相似度计算而后聚类，再结合词共现等基本特征提取文本关键词，所提取的关键词更加准确，可以较好适应不同文本的关键词抽取。

本发明为解决上述技术问题采用以下技术方案：

根据本发明提出的一种基于Word2Vec与词共现相结合的文本关键词抽取方法，包括以下步骤：

步骤A、将文本分为若干子句，对子句进行分词，同时进行词性标注得到词汇集合；

步骤B、对词汇集合进行预处理，具体如下：

扫描每个子句中的词汇，对相连词汇进行扫描组合得到词汇组合；

根据停用词表，将虚词和以虚词为开头或结尾的词汇组合进行过滤，得到初步候选集D₁；

步骤C、将初步候选集D₁输入到训练好的Word2Vec模型中，得到词向量表；计算词向量表中每个词向量与其余词向量的语义距离，采用该语义距离，对初步候选集D₁进行kmeans聚类；

步骤D、聚类后得到多个类别，删除类别中词汇和词汇组合数少于设定值的类别，然后选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D₂，利用二次候选集D₂中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现，根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D₂在初步候选集D₁中的词共现率；

步骤E、对于二次候选集D₂中的词汇和词汇组合，不同词汇和词汇组合长度赋予不同的权值，根据词共现率、词汇长度得到权重，根据权重排序，排名前m个权重所对应的词汇和词汇组合即为最终的关键词，权重的总个数为M，m为整数，0<(m÷M)<20％。

作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案，步骤A中，根据截断符号将文本分为若干子句；分词和词性标注采用的是ICTCLAS分词系统对子句进行处理得到词汇集合。

作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案，截断符号包括句号、问号、逗号和数字。

作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案，虚词包括副词、介词、连词、助词、叹词和拟声词，步骤B中最大的词汇组合的长度N是预设的。

作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案，步骤B中，词汇组合是指在一句话中，以一个词汇为基准，将该词汇前后相连的n个词汇进行组合，组合出所有的词汇组合，n小于等于N。

作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案，2<N<5。

作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案，所述步骤C中计算词向量表中每个词向量与其余词向量的语义距离，具体如下：采用欧式距离、余弦距离、线性平移距离以及TD-IDF线性平移距离这四种距离计算方法分别计算词向量表中每个词向量与其余词向量的距离，然后对这四种距离计算结果取算数平均得到算数平均语义距离，该算数平均语义距离即为语义距离。

作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案，步骤C中的Word2Vec模型是通过如下过程得到的：

训练Word2Vec模型，训练模型的语料来自于维基百科，对该语料进行分词，词性标注，词汇集合预处理，最终得到所需的Word2Vec模型。

作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案，利用二次候选集D₂中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现，根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D₂在初步候选集D₁中的词共现率；具体如下：

以初步候选集D₁中的每一子句为一个单位，利用二次候选集D₂中每个词汇和词汇组合的词向量计算二次候选集D₂中每个词汇和词汇组合与每个子句中词汇和词汇组合的语义距离，根据语义距离对二次候选集D₂中每个词汇和词汇组合计算词汇和词汇组合与每个子句中的词汇和词汇组合在每个子句中的相似共现，根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D₂在初步候选集D₁中的词共现率CoO。

作为本发明所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法进一步优化方案，所述词共现率是指词汇和汇组合与文本中其他词汇和词汇组合的相似共现所占文中所有语义环境的比例，语义环境是一句话或是一个段落。

本发明采用以上技术方案与现有技术相比，具有以下技术效果：本发明将词汇特征投影在一个更抽象的空间中，并在该空间中进行关键词的初步筛选，再结合词汇和词汇组合在文本中词共现、词汇长度等基本特征作为二次关键词筛选，所提取的关键词效果佳、关键词抽取效率高，可以较好适应不同文本的关键词抽取。

附图说明

图1是一种基于Word2Vec与共现相结合的文本关键词抽取的整体流程图。

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明：

图1为本发明方法的整体流程图，参照图1，本实施例中所述基于Word2Vec与词共现相结合的文本关键词抽取方法，该方法包括以下步骤：详细流程如下：

步骤A)：将文本分为若干子句，对子句进行分词，同时进行词性标注得到词汇集合；

步骤B)：然后对词汇集合进行预处理，对相连词汇进行扫描得到词汇组合，根据停用词表，将语气词，助词和以这些词为开头的不合理的词汇和词汇组合等进行过滤，得到初步候选集D₁；

步骤C)：将初步候选集词D₁输入到训练好Word2Vec模型中，得到词向量表，采用四种不同的距离计算方法计算词向量表中每个词向量与其余词向量的距离，然后对这四种距离计算结果取算数平均得到算数平均语义距离，对处理好的候选集D₁进行kmeans聚类；

步骤D)：聚类后形成多个类别，选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D₂，回到初步候选集D₁当中，根据二次候选集D₂中每个词汇和词汇组合的词向量计算词汇和词汇组合在每句话中的相似共现，得到二次候选集D₂在初步候选集D₁中的词共现率；

步骤E)：对于二次候选集D₂中的词汇和词汇组合，不同词汇和词汇组合的长度赋予不同的权值，根据词共现率、词汇长度得到相应的权重，根据权重排序，排名前m＝5个权重所对应的词汇和词汇组合即为最终的关键词。

其中步骤A中，所述的分词和词性标注采用的是ICTCLAS分词系统对文本进行处理得到词汇集合。

在本实施例中，步骤B，具体按照下述步骤实现：

步骤B.1)，根据特定的截断符号如句号，问号，逗号，数字把文本分为若干子句；

步骤B.2)，扫描子句得到词汇组合，例如句子w₀w₁w₂w₃w₄w₅最大组合数为3，则词汇组合有10个，分别为w₀w₁w₂，w₁w₂w₃，w₂w₃w₄，w₃w₄w₅，w₃w₄w₅，w₀w₁，w₁w₂，w₂w₃，w₃w₄，w₄w₅,其中w_i表示分词系统得到的词汇；

步骤B.3),根据停用词表扫描词汇和词汇组合，将虚词和以虚词为开头或结尾的词汇和词汇组合进行过滤得到初步候选集D₁，所述虚词包括副词、介词、连词、助词、叹词、拟声词等。

在本实施例中，步骤C，具体按照下述步骤实现：

步骤C.1)，训练Word2Vec模型，训练模型的语料来自于维基百科，搜狗的中文新闻语料库，针对语料需进行分词,词性标注,词汇组合预处理工作，训练过程中采用skip-gram模型，训练窗口的大小为8，采样阈值设定为1e^-4，设置最低频率为5，如果一个词汇和词汇组合在文本中出现的次数小于该阈值，那么该词汇和词汇组合就会被舍弃，最终得到目标领域的Word2Vec模型；

步骤C.2)，将初步候选集D₁代入Word2Vec模型，得到初步候选集D₁的词向量表；

步骤C.3),分别采用欧式距离，余弦距离，线性平移距离以及TD-IDF线性平移距离这四种距离计算方法分别计算词向量表中每个词向量与其余词向量的距离，然后对以上四种距离计算结果取算数平均得到算数平均语义距离，然后对初步候选集D₁进行kmeans聚类，从初步候选集D₁中任意选择多个对象作为初始聚类中心，根据每个聚类对象的均值，计算每个对象与这些对象的距离，并根据最小距离重新对相应对象进行划分，重新计算每个有变化聚类的均值，计算标准测度函数，当满足一定条件时，如函数收敛时则算法终止，否则重新根据每个聚类对象的均值重新进行划分，得到多个类别。

在本实施例中，步骤D，具体按照下述步骤实现：

步骤D.1)，聚类完成后，删除类中词汇和词汇组合少于10个的类别，这是为了避免少数与文章中心思想不相关的词汇和词汇组合聚成一类的情况；

步骤D.2)，针对词汇和词汇组合大于10个的类，选取靠近聚类中心三个词汇和词汇组合组成二次候选集D₂，二次候选集D₂中有30个词汇和词汇组合；

步骤D.3)，以初步候选集D₁中的每一子句为一个单位，利用词向量计算二次候选集D₂中每个词汇和词汇组合与每个子句中的词汇和词汇组合的语义距离，从全文来看，当有越多的子句中存在与该词汇和词汇组合的语义距离相近的词汇和词汇组合，则该词汇和词汇组合的相似共现程度越高，表示该词汇和词汇组合越加重要，计算出二次候选集D₂中每个词汇和词汇组合在初步候选集D₁中每个词汇和词汇组合的词共现率CoO，词共现率CoO是指候选关键词与其他候选关键词共现的数量所占文中所有语义环境的比例，语义环境语义环境可以是一句话，也可以是一个段落。本实施例中是一句话的共现。

其中：

CoO(k_i,D₁)表示文本D₁中候选关键词k_i的词共现率。Co(k_i,k_j)表示关键词k_i和k_j在同一句话中是否存在相似共现共现，Sentence(D₁)表示文本D₁中语义环境的数量，本实施例中为句子的数量。

在本实施例中，步骤E，具体按照下述步骤实现：

步骤E.1)，对于二次候选集D₂中的词汇和词汇组合，不同词汇长度赋予不同的权值W_l，长度越长赋予的权值越高，本实施例中

步骤E.2)，根据词共现率CoO，权值W_l，计算最终的权值W＝W_l×CoO，对权值进行排序，排名前6个权重所对应的词汇和词汇组合即为最终的关键词。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替代，都应当视为属于本发明的保护范围。

Claims

1.一种基于Word2Vec与词共现相结合的文本关键词抽取方法，其特征在于，包括以下步骤：

步骤B、对词汇集合进行预处理，具体如下：

根据停用词表，将虚词和以虚词为开头或结尾的词汇组合进行过滤，得到初步候选集D ₁；

步骤C、将初步候选集D ₁输入到训练好的Word2Vec模型中，得到词向量表；计算词向量表中每个词向量与其余词向量的语义距离，采用该语义距离，对初步候选集D ₁进行kmeans聚类；

步骤D、聚类后得到多个类别，删除类别中词汇和词汇组合数少于设定值的类别，然后选取每个类别中靠近聚类中心的多个词汇和词汇组合作为关键词的二次候选集D ₂，利用二次候选集D ₂中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现，根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D ₂在初步候选集D ₁中的词共现率；

利用二次候选集D ₂中每个词汇和词汇组合的词向量计算词汇和词汇组合在每个子句中的相似共现，根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D ₂在初步候选集D ₁中的词共现率，具体如下：

以初步候选集D ₁中的每一子句为一个单位，利用二次候选集D ₂中每个词汇和词汇组合的词向量计算二次候选集D ₂中每个词汇和词汇组合与每个子句中词汇和词汇组合的语义距离，根据语义距离对二次候选集D ₂中每个词汇和词汇组合计算词汇和词汇组合与每个子句中的词汇和词汇组合在每个子句中的相似共现，根据存在相似共现的子句的数量占总子句数量之比得到二次候选集D ₂在初步候选集D ₁中的词共现率CoO；

步骤E、对于二次候选集D ₂中的词汇和词汇组合，不同词汇和词汇组合长度赋予不同的权值，根据词共现率、词汇长度得到权重，根据权重排序，排名前m个权重所对应的词汇和词汇组合即为最终的关键词，权重的总个数为M，m为整数，0<（m÷M）<20%；

步骤B中，词汇组合是指在一句话中，以一个词汇为基准，将该词汇前后相连的n个词汇进行组合，组合出所有的词汇组合，n小于等于N；

所述步骤C中计算词向量表中每个词向量与其余词向量的语义距离，具体如下：采用欧式距离、余弦距离、线性平移距离以及TD-IDF线性平移距离这四种距离计算方法分别计算词向量表中每个词向量与其余词向量的距离，然后对这四种距离计算结果取算数平均得到算数平均语义距离，该算数平均语义距离即为语义距离;

所述词共现率是指词汇和汇组合与文本中其他词汇和词汇组合的相似共现所占文中所有语义环境的比例，语义环境是一句话或是一个段落。

2.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法，其特征在于，步骤A中，根据截断符号将文本分为若干子句；分词和词性标注采用的是ICTCLAS分词系统对子句进行处理得到词汇集合。

3.根据权利要求2所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法，其特征在于，截断符号包括句号、问号、逗号和数字。

4.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法，其特征在于，虚词包括副词、介词、连词、助词、叹词和拟声词，步骤B中最大的词汇组合的长度N是预设的。

5.根据权利要求4所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法，其特征在于，2<N<5。

6.根据权利要求1所述的一种基于Word2Vec与词共现相结合的文本关键词抽取方法，其特征在于，步骤C中的Word2Vec模型是通过如下过程得到的：