CN109766544B

CN109766544B - 基于lda和词向量的文档关键词抽取方法和装置

Info

Publication number: CN109766544B
Application number: CN201811579479.3A
Authority: CN
Inventors: 胡泽林; 曹宜超; 高翊; 李淼; 冯韬; 付莎; 李华龙; 杨选将; 刘先旺; 郭盼盼; 曾伟辉
Original assignee: Hefei Institutes of Physical Science of CAS
Current assignee: Hefei Institutes of Physical Science of CAS
Priority date: 2018-12-24
Filing date: 2018-12-24
Publication date: 2022-09-30
Anticipated expiration: 2038-12-24
Also published as: CN109766544A

Abstract

本发明涉及自然语言处理和深度学习技术领域，特别涉及一种基于LDA和词向量的文档关键词抽取方法，包括以下步骤：(A)使用标题判别器判断文档标题和内容是否相符，如果相符，则执行下一步；(B)计算文档中主题的权重和文档中词汇对主题的权重；(C)计算文档中词汇的权重，并根据权重值大小排序，生成文档的候选关键词集合；(E)将词汇映射到词向量空间中；(F)计算词向量空间中词向量之间的距离，并按照距离排序，选择排序后的前M个词汇作为文档的关键词；还公开一种抽取装置。本方法相比于传统的方法所提取的文档关键词精度高，可靠性强，且过滤掉了“标题党”文档，避免了噪声数据的干扰，进一步提高了准确度。

Description

基于LDA和词向量的文档关键词抽取方法和装置

技术领域

本发明涉及自然语言处理和深度学习技术领域，特别涉及一种基于LDA和词向量的文档关键词抽取方法和装置。

背景技术

关键词能够简洁准确地描述文本的内容，一般由数个词和短语构成。关键词抽取也称为关键词标注，是指从文本或文本集合中抽取出若干有代表性的词或短语，用以反映文本的主要语义信息，是信息时代人们从海量文档数据中快速掌握感兴趣信息的重要的途径。互联网时代的到来为关键词提取工作提出了新的要求，所提取的关键词应该具备以下三个特点：显著性，可读性和全面性。显著性是指所提取出的关键词应该反映文档的核心内容，例如：在双语语料库价值介绍的文档中提取出“机器翻译”，它并非此文档讨论的核心，不符合显著性的特点，因此不能被选取作为此文档的关键词；可读性指的是关键词本身应该有完全含义的词或短语，即含义明确，具有实际的意义；全面性是指所提取出的关键词必须全面反映文档的所有核心主题，不能只集中于某个主题而忽略了其他主题，且关键词或短语不能出现冗余。

关键词提取方法可分为有监督方法和无监督方法两种，主要区别在于是否需要带标签的训练文本集合。有监督关键词抽取方法的核心是用标注好的训练文本集合来进行训练关键词抽取器，这种方法可以看成二分类问题，即训练时提取关键词特征构造分类模型，分类时根据模型判断词语是否为关键词。Nguyen等使用显著的形态特征抽取科学文献的关键词；李素建等利用最大熵模型来提取关键词；Treeratpituk等使用随机深林来识别关键词。有监督的方法虽然准确度较高，但标注的训练集耗时耗力，分类器受限于特定领域且存在过拟合问题，因此目前关键词抽取大多采用无监督的方法。无监督的关键词抽取方法主要包括3种：基于统计信息的方法、基于图模型的方法和基于语义的方法。统计方法主要利用词频(TF)、词频逆文档频率(TFIDF)、词性、词语位置、词语同现频率等抽取关键词，Hurst等使用多个语言模型间的KL散度评价短语的信息量。基于图模型的方法是对文本的处理转化成网络图的连续分析，Mihalcea等基于词汇的共现链提出TextRank模型排序关键词；Litvak等将网页排序的HITS算法引入关键词抽取。在基于语义的研究方法中，胡学钢等利用词语在文档中语义联系将文档表示成词汇链的形式抽取关键词。

现有的无论是有监督的方法还是无监督的方法，它们都缺乏从文档主题的角度对文档进行显著性、可读性和全面性的综合分析和考察。而现有的基于主题模型的研究，大都通过大规模文档集学习隐含主题。Chen等利用候选关键词在潜在语义索引权重的频率来选择关键词；Liu等根据文档主题和候选关键词主题分布的相似度抽取关键词。这些研究中都存在着一些不足：其一，在主题层次推荐的关键词倾向于文档常用词，无法突出每个文档的核心内容；其二，提取出的主题词汇可能含有其他不相关词汇，造成关键词的偏移；其三，主题相关性最大的同义词或近义词出现，导致推荐的关键词出现冗余，无法实现关键词对文档主题的全面性。

发明内容

本发明的首要目的在于提供一种基于LDA和词向量的文档关键词抽取方法，提取的精度高、可靠性强。

为实现以上目的，本发明采用的技术方案为：一种基于LDA和词向量的文档关键词抽取方法，包括以下步骤：(A)使用标题判别器判断文档标题和内容是否相符，如果不相符，则跳过，如果相符，则执行下一步；(B)使用LDA主题模型计算文档中主题的权重；并使用TF-IDF算法计算文档中词汇对主题的权重；(C)根据步骤B的结果计算文档中词汇的权重，并根据权重值按权重从大到小对词汇进行排序，取排序后的N个词汇生成文档的候选关键词集合；(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中；(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离，并按照距离从小到大对关键词集合中词汇进行排序，选择排序后的前M个词汇作为文档的关键词。

与现有技术相比，本发明存在以下技术效果：本方法采用人工智能技术将词映射为词向量，在数学层面结合主题模型解决语义问题，相比于传统的方法所提取的文档关键词精度高，可靠性强，更能体现文档的主旨内容；且训练了一个神经网络用于判断文档的标题和内容是否相符，过滤掉了“标题党”文档，避免了噪声数据的干扰，进一步提高了准确度。

本发明的另一个目的在于提供一种基于LDA和词向量的文档关键词抽取装置，提取的精度高、可靠性强。

为实现以上目的，本发明采用的技术方案为：一种包括基于LDA和词向量的文档关键词抽取方法的装置，包括标题判别器、候选关键词生成器以及关键词生成器；所述的标题判别器用于判别文档的标题和内容是否相符并将判别结果输出至候选关键词生成器中；候选关键词生成器通过LDA主题模型和TF-IDF权值计算生成候选关键词集合；关键词生成器通过词向量空间中的距离从候选关键词集合中挑选出与标题接近的词汇作为文档的关键词后输出。

与现有技术相比，本发明存在以下技术效果：本装置采用人工智能技术将词映射为词向量，在数学层面结合主题模型解决语义问题，相比于传统的方法所提取的文档关键词精度高，可靠性强，更能体现文档的主旨内容；且训练了一个神经网络用于判断文档的标题和内容是否相符，过滤掉了“标题党”文档，避免了噪声数据的干扰，进一步提高了准确度。

附图说明

图1是本发明的流程图；

图2是LDA主题模型生成图；

图3是本发明的结构框图。

具体实施方式

下面结合图1至图3，对本发明做进一步详细叙述。

参阅图1，一种基于LDA和词向量的文档关键词抽取方法，包括以下步骤：(A)使用标题判别器10判断文档标题和内容是否相符，如果不相符，则跳过，如果相符，则执行下一步；(B)使用LDA主题模型计算文档中主题的权重；并使用TF-IDF算法计算文档中词汇对主题的权重；(C)根据步骤B的结果计算文档中词汇的权重，并根据权重值按权重从大到小对词汇进行排序，取排序后的N个词汇生成文档的候选关键词集合；(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中；(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离，并按照距离从小到大对关键词集合中词汇进行排序，选择排序后的前M个词汇作为文档的关键词。本方法采用人工智能技术将词映射为词向量，在数学层面结合主题模型解决语义问题，相比于传统的方法所提取的文档关键词精度高，可靠性强，更能体现文档的主旨内容；且训练了一个神经网络用于判断文档的标题和内容是否相符，过滤掉了“标题党”文档，避免了噪声数据的干扰，进一步提高了准确度。这里的文档可以是新闻，也可以是其他文本、论文等。

优选地，所述的步骤C和步骤E之间还包括如下步骤：(D)用同义词词典对候选关键词集合中的词汇进行处理，去掉同义词中权重较低的词汇；所述的步骤E和F中的关键词集合为去同义词后的剩余词汇生成的关键词集合。这里对同义词进行去除，避免了最后抽取的关键字中存在多个相同意思的词汇。

标题和内容是否相符的判定方案有很多，本发明中优选地，所述的步骤A中，按如下步骤判断文档标题和内容是否相符：(A1)建立一个二分类神经网络，该神经网络由包含两个隐层的多层感知机组成，输出层使用softmax激活函数进行类别的判断；(A2)使用S₁条标题和内容相符的语料以及S₂条标题和内容不相符的语料对二分类神经网络进行训练，实际使用时，S₁和S₂可以分别取值为10万和1万，然后使用这11万条语料对该神经网络进行训练；(A3)将文档标题和内容输入训练好的二分类神经网络中后即可输出判断结果。这里之所以要先进行标题和内容的判定，主要为了挑选出“标题党”文档，由于这种内容一般有断章取义，夸大事实，无中生有，偷换概念等特征，并不符合文档客观公正的特性，无论是在语料挖掘还是在其他方面，“标题党”文档的应用价值不大，因此在本方法中，对这种文档进行跳过，不再做关键词抽取处理。

候选关键词的挑选有很多方案可以实现，本发明中优选地采用LDA主题模型和TF-IDF权值计算生成候选关键词集合。

具体地，所述的步骤B中，按如下步骤计算文档中主题的权重：(B1)在语料库中选择多篇采样文档来训练LDA主题模型；LDA主题模型可以实现对文本数据的主题信息进行完全建模，LDA模型具有词项、主题和文档三层结构，定义

表示主题k中的词汇频率分布，θ_m表示第m篇文档的主题概率分布，

和θ_m服从Dirichlet分布，且这二者作为多项式分布的参数分别用于生成主题和词项；定义α和β分别是θ_m和

的分布参数，α反映了文档集中隐含主题间的相对强弱，β代表了所有隐含主题自身的概率分布；定义K表示主题数目，M代表文档集中文档的数目，N_m表示第m篇文档的词项总数；定义ω_m，n和Z_m，n分别表示第m篇文档中第n个词项及其隐含主题，LDA主题模型生成流程如图2所示。

LDA主题模型的生成过程如下：(1)首先对主题采样：

其中k∈[1，K]；(2)对语料中的第m个文档采样主题概率分布θ_m～Dir(α)，并采样文档长度N_m～Poiss(ξ)，其中m∈[1，M]；(3)对文档m中的第n个单词选择隐含主题Z_m，n～Mult(θ_m)，其中n∈[1，N_m]；(4)生成一个单词

LDA主题模型的生成现有技术中有很多记载，这里简单的写个步骤以供参考。

LDA主题模型的参数估计使用Gibbs采样，在获得每一个词ω的主题Z的标号后，参数

和θ_m，k的计算公式如下：

其中，

表示主题k中词项t的概率，θ_m，k表示文档m中主题k的概率。当LDA主题模型训练好以后，(B2)将待判别文档代入LDA主题模型中得到每个词汇的隐含主题概率；(B3)通过Gibbs采样方法对隐含主题概率进行处理得到每个词汇的主题标号；(B4)对每个词汇的主题标号进行计数累加后再除以总的词汇数量计算得到文档中每个主题的权重，比如某个标号的主题在步骤B3中出现过5次，总词汇数量是1000个，那么该标号对应的主题的权重就是0.5％。

计算出文档中主题的权重后，之后参照TFIDF的思想，根据词汇对主题的权重和词汇在所有主题中出现的频率，计算最终的词汇对主题的权重。TFIDF的思想是根据词汇在文档中出现的频率和词汇在所有文档中出现的频率计算词汇对文档的TFIDF权重，计算公式如下：

其中，N_t表示词汇t在文档d中出现的次数，N_d表示文档d中所有词汇的总数，D表示文档集中文档的数目，D_t表示文档集里包含词汇t的文档数目。这里借鉴TFIDF的思想，计算词汇对主题的权重，即认为一个词汇对主题的权重与这个词在主题中的概率成正比，与词在所有主题中的概率成反比。故本发明中优选地，所述的步骤B中，按如下公式计算词汇对主题的权重：

式中，WT_k，n为词汇ω_n对主题Z_k的权重，

为词汇ω_n对主题Z_k的词频，词在主题上体现的阈值ε＝0.005。在得到词对主题的权重后，结合LDA模型预测的主题在文档中的概率，可以得到词对文档的权重。故进一步地，所述的步骤C中，按以下公式计算文档中词汇的权重：

式中，D_m为词汇ω_n所在的文档，θ_m，k即为步骤B4中计算出的主题Z_k在文档D_m中的权重。

在上述的处理步骤中，所述的步骤C和步骤F中N和M的取值为整数或百分比数，当取值为整数时，则取固定数量的词汇，如果取值是百分比时，则所取词汇的数量是不固定的，跟文档总的词汇数量相关。本发明中优选地，采用百分比的取值方式，比如步骤C中，取排序后的前10％的词汇作为文档的候选关键词放入候选关键词集合；步骤F中，将排序后前60％的词汇作为文档的最终关键词。具体的整数取值和百分比数取值根据实际的需要来设定，这里的10％和60％只是一种较为优选的方案。

所述的步骤E中，按如下步骤得到词向量空间：(E1)搜集多篇网页文档并进行去噪处理得到语料，假设需要新闻语料，那么可以从人民网、新华网、凤凰网等网站使用爬虫程序收集；(E2)使用中科院汉语词法分析系统ICTCLAS对去噪后的语料进行分词、去停用词操作后，得到较高质量的文本级语料；(E3)利用Word2Vec对文本级语料进行词向量模型的训练，将词映射到词向量空间中，在词向量空间中每个词对应一个词向量。在训练好词向量后，就可以将去同义词之后的候选关键词集合中的词汇映射到向量空间中，同时将当前文档的标题词汇作为锚点也映射到相同的向量空间中。在词向量空间中，如果两个词表达的意思相近那么这两个词在向量空间的距离也是相近的，由于在文档中，文档的标题是整个文档的概括性语句，最能表达文档的主旨，因此在过滤掉所谓的“标题党”文档后，就可以使用文档标题中的词汇作为锚点来指导文档关键词的生成。

为了准确的计算两个词在向量空间中的距离，本发明中优选地：所述的步骤F中，按如下步骤进行距离的从小到大排序：(F1)以标题中词汇的词向量作为锚点得到多个锚点词向量；(F2)分别计算每个候选关键词向量与每个锚点词向量之间距离，取最近的距离作为这个候选关键词向量与此文档主题之间的最终距离，词向量之间的最终距离按如下公式计算：

式中，其中X_i表示候选关键词集合中的第i个候选关键词词向量，Y_j表示锚点集合中的第j个锚点词向量，L_i表示第i个候选关键词相对于此文档主题的最终距离，||||_F表示Frobenius范数；(F3)将候选关键词集合中的所有词汇所对应的最终距离按从小到大排序即可。

参阅图3，本发明还公开了一种包括基于LDA和词向量的文档关键词抽取方法的装置，包括标题判别器10、候选关键词生成器20以及关键词生成器30；所述的标题判别器10用于判别文档的标题和内容是否相符并将判别结果输出至候选关键词生成器20中；候选关键词生成器20通过LDA主题模型和TF-IDF权值计算生成候选关键词集合；关键词生成器30通过词向量空间中的距离从候选关键词集合中挑选出与标题接近的词汇作为文档的关键词后输出。本装置采用人工智能技术将词映射为词向量，在数学层面结合主题模型解决语义问题，相比于传统的方法所提取的文档关键词精度高，可靠性强，更能体现文档的主旨内容；且训练了一个神经网络用于判断文档的标题和内容是否相符，过滤掉了“标题党”文档，避免了噪声数据的干扰，进一步提高了准确度。

通过以上方法和装置，可以提取出文档的关键词，为可比语料挖掘等任务打下基础，非常值得推广使用。

Claims

1.一种基于LDA和词向量的文档关键词抽取方法，其特征在于：包括以下步骤：

(A)使用标题判别器(10)判断文档标题和内容是否相符，如果不相符，则跳过，如果相符，则执行下一步；

(B)使用LDA主题模型计算文档中主题的权重；并使用TF-IDF算法计算文档中词汇对主题的权重；

(C)根据步骤B的结果计算文档中词汇的权重，并根据权重值按权重从大到小对词汇进行排序，取排序后的N个词汇生成文档的候选关键词集合；

(E)将文档标题词汇和候选关键词集合中的词汇映射到词向量空间中；

(F)计算候选关键词集合中词汇的词向量与标题词汇的词向量之间的距离，并按照距离从小到大对关键词集合中词汇进行排序，选择排序后的前M个词汇作为文档的关键词。

2.如权利要求1所述的基于LDA和词向量的文档关键词抽取方法，其特征在于：所述的步骤C和步骤E之间还包括如下步骤：

(D)用同义词词典对候选关键词集合中的词汇进行处理，去掉同义词中权重较低的词汇；

所述的步骤E和F中的关键词集合为去同义词后的剩余词汇生成的关键词集合。

3.如权利要求1或2所述的基于LDA和词向量的文档关键词抽取方法，其特征在于：所述的步骤A中，按如下步骤判断文档标题和内容是否相符：

(A1)建立一个二分类神经网络，该神经网络由包含两个隐层的多层感知机组成，输出层使用softmax激活函数进行类别的判断；

(A2)使用S₁条标题和内容相符的语料以及S₂条标题和内容不相符的语料对二分类神经网络进行训练；

(A3)将文档标题和内容输入训练好的二分类神经网络中后即可输出判断结果。

4.如权利要求2所述的基于LDA和词向量的文档关键词抽取方法，其特征在于：所述的步骤B中，按如下步骤计算文档中主题的权重：

(B1)在语料库中选择多篇采样文档来训练LDA主题模型；

(B2)将待判别文档代入LDA主题模型中得到每个词汇的隐含主题概率；

(B3)通过Gibbs采样方法对隐含主题概率进行处理得到每个词汇的主题标号；

(B4)对每个词汇的主题标号进行计数累加后再除以总的词汇数量计算得到文档中每个主题的权重。

5.如权利要求4所述的基于LDA和词向量的文档关键词抽取方法，其特征在于：所述的步骤B中，按如下公式计算词汇对主题的权重：

式中，WT_k，n为词汇ω_n对主题Z_k的权重，

为词汇ω_n对主题Z_k的词频，词在主题上体现的阈值ε＝0.005。

6.如权利要求5所述的基于LDA和词向量的文档关键词抽取方法，其特征在于：所述的步骤C中，按以下公式计算文档中词汇的权重：

7.如权利要求1、2、4、5或6任一项所述的基于LDA和词向量的文档关键词抽取方法，其特征在于：所述的步骤C和步骤F中，N和M的取值为整数或百分比数。

8.如权利要求1、2、4、5或6任一项所述的基于LDA和词向量的文档关键词抽取方法，其特征在于：所述的步骤E中，按如下步骤得到词向量空间：

(E1)搜集多篇网页文档并进行去噪处理得到语料；

(E2)使用中科院汉语词法分析系统ICTCLAS对去噪后的语料进行分词、去停用词操作后，得到文本级语料；

(E3)利用Word2Vec对文本级语料进行词向量模型的训练，将词映射到词向量空间中，在词向量空间中每个词对应一个词向量。

9.如权利要求1、2、4、5或6任一项所述的基于LDA和词向量的文档关键词抽取方法，其特征在于：所述的步骤F中，按如下步骤进行距离的从小到大排序：

(F1)以标题中词汇的词向量作为锚点得到多个锚点词向量；

(F2)分别计算每个候选关键词向量与每个锚点词向量之间距离，取最近的距离作为这个候选关键词向量与此文档主题之间的最终距离，词向量之间的最终距离按如下公式计算：

式中，其中X_i表示候选关键词集合中的第i个候选关键词词向量，Y_j表示锚点集合中的第j个锚点词向量，L_i表示第i个候选关键词相对于此文档主题的最终距离，|| ||_F表示Frobenius范数；

(F3)将候选关键词集合中的所有词汇所对应的最终距离按从小到大排序即可。

10.一种包括权利要求1所述基于LDA和词向量的文档关键词抽取方法的装置，其特征在于：包括标题判别器(10)、候选关键词生成器(20)以及关键词生成器(30)；所述的标题判别器(10)用于判别文档的标题和内容是否相符并将判别结果输出至候选关键词生成器(20)中；候选关键词生成器(20)通过LDA主题模型和TF-IDF权值计算生成候选关键词集合；关键词生成器(30)通过词向量空间中的距离从候选关键词集合中挑选出与标题接近的词汇作为文档的关键词后输出。