CN107122352A

CN107122352A - 一种基于k‑means、word2vec的抽取关键词的方法

Info

Publication number: CN107122352A
Application number: CN201710352450.0A
Authority: CN
Inventors: 蓝科; 王纯斌; 覃进学; 潘小东
Original assignee: Chengdu Sefon Software Co Ltd
Current assignee: Chengdu Sefon Software Co Ltd
Priority date: 2017-05-18
Filing date: 2017-05-18
Publication date: 2017-09-01
Anticipated expiration: 2037-05-18
Also published as: CN107122352B

Abstract

本发明公开了一种基于K‑MEANS、WORD2VEC的抽取关键词的方法，该方法通过归纳全局语义和各分支主题，利用WORD2VEC算法构建出空间向量，使用 K‑means算法剔除模糊词，计算质心距，聚类评估后得到高质量的关键词，并且通过提升权重值，实现词库的动态优化，使关键词提取具备学习进化能力。本发明抽取的关键词能够体现文档的内部分类主题，每一个关键字能够很好地的体现该分类，具有最终关键词质量高，适应性更广泛，结果更加准确等特点。

Description

一种基于K-MEANS、WORD2VEC的抽取关键词的方法

技术领域

本发明涉及关键词抽取方法，尤其涉及一种基于K-MEANS、WORD2VEC的抽取关键词的方法。

背景技术

文档关键词可让阅读者快速把控文档主旨内容、高效的把控和检索文档，在搜索结果排序、文本摘要、文档分类、文档聚类、用户画像、构建文档关联网络等领域多有应用。

通常新闻稿、学术论文等领域作者会主动提出文档的关键词，但绝大多数已知文档是不具备关键词的。随着信息时代的数据增长，人们对自动处理文档并生成关键词的方法需求与日俱增，目前业界也涌现了大量自动处理文档生成抽取关键词的方法或装置。

但是目前各类方法中关键词会存在语义相近、不能反应整个文档内容全貌、不能反应文档内部内容分类等不足。自动抽取关键词的技术或方法通常会涉及到对文档进行分词处理，分词过程会一定程度上影响到关键词抽取，获取已经分词完毕的文档是后续抽取关键词的基础前置条件。

对于基于词频的关键字抽取算法，是基于词语的出现频率作为抽取该关键词的主要依据，基于这个思路很多算法又进行了优化，例如引入IDF逆向文件频率、引入特定领域词库进行优化。但该类算法很难从主题分类的角度来进行分析文档。

对于基于主题模型关键字抽取算法，引入概率模型，构建整个文档的主题模型。这类算法的代表是LDA(线性判别分析Linear Discriminant Analysis，LDA)。但是这种算法不具备从词语向量空间中反应词语关联度的能力。

判断一个词在一篇文档中是否重要，一个很容易想到的衡量指标就是词频，重要的词往往会在文档中出现多次。但另一方面，不是出现次数多的词就一定重要，因为有些词在各个文档中都反复出现，那么它的重要性肯定远不如那些只在某篇文章中频繁出现的词重要性强。从统计学的角度，那就是给予那些不常见的词以较大的权重，减少常见词的权重。使用k-means 算法对文本全局语义和各分支主题进行归纳，实现高质量关键词的提取，并且通过提升权重值，实现词库的动态优化，提取关键词的方法具备学习进化能力，基于k-means算法的关键词抽取方法，不仅可以大幅度文本分类效率，而且分类准确性也能得到很大程度的提高。

综上，现有的关键词抽取方法都不具备能够从全局语义和数类主题分支中分别归纳出每一类关键词的方法，使用基于K-MEANS、WORD2VEC的抽取关键词的方法，不仅能根据全局词义和数类主题分支进行归纳，并且依赖一个可维护文档所在领域的词库，该词库会在使用中动态优化，具备一定的学习进化能力，并且k-means算法作为一种广泛使用的聚类算法，其最大优势就是容易快速实现大型数据集的聚类，使用k-means聚类算法将大幅度提高关键词分析的效率，最终得到的关键词质量也会更高。

发明内容

本发明的目的在于克服现有技术的不足，如现有的关键词抽取方法都还不具备能够从全局语义、从整体、从数类主题分支、从各分支中归纳出每一类的关键词的能力，并且传统关键词抽取方法步骤繁重，就上述缺点，本发明特提供一种能够从整体和分支归纳、文档可维护的领域词库、该词库会在使用中动态优化，具备一定的学习进化能力且步骤简化的高质量关键词抽取方法。

本发明的目的是通过以下技术方案来实现的：

一种基于K-MEANS、WORD2VEC的抽取关键词的方法，该方法通过归纳全局语义和各分支主题，利用WORD2VEC算法构建出空间向量，使用K-means算法对多维空间中词语进行聚类，聚类评估并剔除模糊词后得到高质量的关键词，并且通过提升权重值，实现词库的动态优化，使关键词提取具备学习进化能力。

进一步地，一种基于K-MEANS、WORD2VEC的抽取关键词的方法，它包括以下步骤：

S1：文本预处理；

S2：构建空间向量；

S3：聚类，使用k-means算法对备选关键词进行聚类处理，计算均值得出中心关键词；

S4：聚类评估，剔除模糊词，得到最终关键词；

其中，所述的文本预处理，它包括如下子步骤：

S11：准备被分析的文本、该文本对应的所属领域的领域词库；；

S12：无关词去噪，结合领域词库对文本进行分词处理，分词后的文本结合领域词库，进行去重过滤，剔除无关词语，获得备选关键词。另外，当某文本尚无对应的所属领域的领域词库，则进行构建词库，所述领域词库中，每个词语包含词语本身及权重系数，其中权重系数默认为1。

所述的空间向量构建，包括如下子步骤：

S21:对每个文档，根据文档所属领域词库进行分词；

S22:利用分词后的文档训练Word2Vec模型，得到所属领域词库的Word2Vec模型；

S23:将每个文档中的每个所属的备选关键词代入所述目标领域的Word2Vec模型，得到每个文档中所属的备选关键词的多维度的词向量。

所述的聚类，采用k-means算法对多维空间词语聚类时，对选定的关键词数目为k，首先随机的将文档内容进行初步划分，然后采用迭代方法通过将聚类中心不断移动来尝试改进划分，若有指定关键词数目，则在K-means算法中使用该数目作为聚类数目；若没有指定关键词数目，则默认关键词数目为5个。

所述的聚类包括以下步骤：

S31：从n个备选关键词中任意选择k个备选关键词作为初始聚类中心；

S32：根据每个聚类备选关键词的均值得到中心关键词，计算每个备选关键词与这些中心关键词的距离，并且根据最小距离，重新对相应关键词进行再次划分；

S33：重新计算每个聚类关键词的均值，即中心关键词的均值；

S34：循环步骤S32～S33，直到目标函数不再变化。

所述的聚类评估，剔除模糊词，得到最终关键词包括以下子步骤：

S41：剔除模糊词，剔除对多个质心距离均衡的词语点；

S42：在每个聚类中，根据公式：进行计算，其中，Q为该词语在词库的权重，n为空间维度数目，X_i为该点第i维度值，X_iZ为质心点的第i维度值，L最修订后的最终距离，取该值最小的词语为该分类中的代表关键词；

S43：取出离质心距离最近的词语，该词语作为最终关键词。

所述的一种基于K-MEANS、WORD2VEC的抽取关键词的方法，还包括一个词库优化步骤：

S44：取出离质心距离最近的词语作为最终关键词；

S45：将此词语在领域词库中的权重进行提升，优化词库。

本发明的有益效果是：

(1)抽取的关键词能够体现文档的内部分类主题。本发明首先使用WORD2VEC得到整个词语的空间向量，后使用K-MEANS方法对空间数据进行聚类，聚类的过程可以看作将文档分成了若干子分类主题。

(2)每一个关键字能够高质量的体现该分类。在每一分类中，在词语向量空间中选取离空间质心最接近的词语，该词语处于空间中最接近分类中心的位置。此外计算公式中还是受到词库中权重影响，更高质量的确保了该词语的有效性、代表性。

(3)最终关键词质量高。本方法中考虑到了不同领域中不同的词语的具备不同特性，在选取最终关键词的过程中，会使用到关键词领域词库，尤其将权重作为判断关键词的依据。并且使用K-means方法进行聚类效果评估，剔除对多个质心距离均衡的词语点，将剔除定位模糊的词语剔除。这样本方法的适应性更广泛，使结果更加准确。

(4)领域词库具备学习能力。在执行批量抽取关键词的任务过程中，每一次任务的关键词结果均会反馈到领域词库中，影响所属领域词库中词语的权重值，从而影响未来的抽取关键词的任务，使得领域词库具备学习能力，本抽取关键词的方法也具备了学习能力。

附图说明

图1为一种基于K-MEANS、WORD2VEC的抽取关键词的方法流程图。

具体实施方式

下面结合具体实施例进一步详细描述本发明的技术方案，但本发明的保护范围不局限于以下所述。

一种基于K-MEANS、WORD2VEC的抽取关键词的方法，该方法通过归纳全局语义和各分支主题，利用WORD2VEC算法构建出空间向量，使用K-means算法对多维空间中词语进行聚类，聚类评估并剔除模糊词后得到高质量的关键词，并且通过提升权重值，实现词库的动态优化，使关键词提取具备学习进化能力。如图1，所述的一种基于K-MEANS、WORD2VEC的抽取关键词的方法，它包括以下步骤：

S1:文本预处理；

S2:构建空间向量；

S3:聚类；

S4:聚类评估，剔除模糊词，得到最终关键词。

所述的文本预处理，它包括如下子步骤：

S11:准备被分析的文本、该文本对应的所属领域的领域词库；

S12：无关词去噪，根据所属领域词库对文本进行分词处理，找出文本实体，分词后的文本结合领域词库，进行过滤剔除无关和词语，构建出受控词库。

所述的构建空间向量，使用WORD2VEC构建词语的空间向量，维度应保持在10维度以下，以提升后续步骤中K-means算法的性能，具体包括以下步骤:

S21:对所述文档中的每个文档，根据文档所属领域词库进行分词；

S23:将每个文档中的每个所属的备选关键词代入所述目标领域的Word2Vec模型，得到每个文档中所属的备选关键词的若干维的词向量，具体方法如下：

由于每个词都对应一个词向量，v为维度，假设：

1).两个词的相似度正比于对应词向量的乘积，即：sim(v₁,v₂)＝v₁·v₂；

2).多个词v₁～v_n组成的一个所属领域词库用C来表示，其中称作所属领域词的中心向量；

3).在所属领域词库中出现备选关键词A，A的概率正比于能量因子 e^-E(A,C),whereE＝-A·C，因此：其中V是整个词汇空间，即文档整体，引入函数：σ(x)＝1/(1+e^-x)，得出：P(G/C)＝σ(-(H-G)·C)＝σ((G-H)·C)，然后继续拆分词汇空间递归的计算下去，最后只需要计算各关键词相似部分的向量差而已，其中每个子节点表示一个备选关键词，每个中间节点G or H的向量作为所有子向量的中心。

所述的K-means聚类，k-means算法对多维空间词语聚类，当有指定关键词数目时，则在K-means算法中使用该数目作为聚类数目；若没有指定关键词数目，则默认关键词数目为 5个，k-means算法描述如下：

输入：关键词词库数目k以及包含n个备选关键词的数据集合；输出：满足目标函数值最小的k个聚类算法流程：

S34：循环步骤S422～S423，直到目标函数不再变化。

所述的聚类评估，它包括以下步骤：

S41：剔除模糊词，处理过程中会剔除对多个质心距离均衡的词语点；

S42：聚类评估，在每个聚类中，根据k-means算法公式：进行计算。其中：Q为该词语在词库的权重，n为空间维度数目，X_i为该点第i维度值，X_iZ为质心点的第i维度值。L最修订后的最终距离，取该值最小的词语为该分类中的代表关键词；

S43：取出离质心距离最近的词语，该词语作为最终关键词。

由于k-means算法会受到单位刻度的影响，首先会对该点的维度值进行标准化，即标准化后的值＝(标准化前的值－分量的均值)/分量的标准差，另外选择k-means算法测量的好处是，此算法不会受量纲的影响，两点之间的距离与原始数据的测量单位无关；由标准化数据和中心化数据(即原始数据与均值之差)计算出的二点之间的距离相同，同时此方法测量距离还可以排除变量之间的相关性的干扰。

更进一步地，聚类评估具体算法如下:

基本思路：对选定的关键词数目为k，首先随机的将文档内容进行初步划分，然后采用迭代方法通过将聚类中心不断移动来尝试改进划分:

设备选关键词集合X＝{x₁,x₂,…，x_n}，K个中心关键词分别是z₁,z₂,…，z_k，用 w_iz(iz＝1,2…,，k表)示词语聚类的k个类别，有如下定义：

定义1两个备选关键词之间的欧式距离为：

定义2属于同一领域的备选关键词的算术平均为：

定义3目标函数为：

由定义1.2.3得出质心距公式为：

更进一步地，所述的一种基于K-MEANS、WORD2VEC的抽取关键词的方法，还包括一个词库优化步骤包括以下步骤：

S44：取出离质心距离最近的词语，即L值最小的词语作为最终关键词；

S45：将此词语在领域词库中的权重进行提升，优化词库和方法。

以上所述仅是本发明的优选实施方式，应当理解本发明并非局限于本文所披露的形式，不应看作是对其他实施例的排除，而可用于各种其他组合、修改和环境，并能够在本文所述构想范围内，通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围，则都应在本发明所附权利要求的保护范围内。

Claims

1.一种基于K-MEANS和WORD2VEC的抽取关键词方法，其特征在于，该方法通过归纳全局语义和各分支主题，利用WORD2VEC算法构建出空间向量，使用K-means算法对多维空间中词语进行聚类，聚类评估并剔除模糊词后得到高质量的关键词，并且通过提升权重值，实现词库的动态优化，使关键词提取具备学习进化能力。

2.根据权利要求1所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法，其特征在于，它包括以下步骤：

S1:文本预处理；

S2:空间向量构建；

S3:聚类；

S4:聚类评估，剔除模糊词，得到最终关键词。

3.根据权利要求2所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法，其特征在于，所述的文本预处理包括如下子步骤：

S11：准备被分析的文本、该文本对应的所属领域的领域词库；

S12：无关词去噪，根据领域词库对文本进行分词处理，分词后的文本结合领域词库，进行去重过滤剔除无关词语。

4.根据权利要求3所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法，其特征在于，若某文本尚无对应的所属领域的领域词库，则进行构建词库。

5.根据权利要求3或4所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法，其特征在于，所述领域词库中，每个词语包含词语本身及权重系数，其中权重系数默认为1。

6.根据权利要求2所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法，其特征在于，所述的空间向量构建，包括如下子步骤：

S21:对每个文档，根据文档所属领域词库进行分词；

7.根据权利要求2所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法，其特征在于，采用k-means算法对多维空间词语聚类时，若有指定关键词数目，则在K-means算法中使用该数目作为聚类数目；若没有指定关键词数目，则默认关键词数目为5个。

8.所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法，其特征在于，所述的聚类包括以下步骤：

S34：循环步骤S32～S33，直到目标函数不再变化。

9.根据权利要求2所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法，其特征在于，所述的聚类评估包括以下子步骤：

S41：剔除模糊词，剔除对多个质心距离均衡的词语点；

S43：取出离质心距离最近的词语，该词语作为最终关键词。

10.根据权利要求2所述的一种基于K-MEANS、WORD2VEC的抽取关键词方法，其特征在于，还包括一个词库优化步骤：

S44：取出离质心距离最近的词语作为最终关键词；

S45：将此词语在领域词库中的权重进行提升，优化词库。