CN112100317B

CN112100317B - 一种基于主题语义感知的特征关键词提取方法

Info

Publication number: CN112100317B
Application number: CN202011017875.4A
Authority: CN
Inventors: 戴华; 姜莹莹; 戴雪龙; 周倩; 杨庚; 黄海平
Original assignee: Nanjing University of Posts and Telecommunications
Current assignee: Nanjing University of Posts and Telecommunications
Priority date: 2020-09-24
Filing date: 2020-09-24
Publication date: 2022-10-14
Anticipated expiration: 2040-09-24
Also published as: CN112100317A

Abstract

本发明公开一种基于主题语义感知的特征关键词提取方法，具体包括如下过程：首先，利用关键词与文档主题之间的语义相关度的量化方法，计算关键词集合中每一个关键词的信息增益得分，并计算文档中每一个关键词的主题频率‑逆主题频率(TF‑ITF)得分；然后，选取信息增益得分最大的前κ个关键词，构成信息增益特征关键词集合；并分别针对每个文档，选取该文档中主题相关度得分最大的前λ个关键词，进而构成全局主题信息特征关键词集合；最终，对全局信息增益特征关键词集合和全局主题信息特征关键词集合进行合并，生成最终的特征关键词集合。本发明综合考虑关键词之间以及关键词和文档之间的主题语义关系，实现表征文档主题语义信息的特征关键词提取。

Description

一种基于主题语义感知的特征关键词提取方法

技术领域

本发明属于自然语言处理和文本挖掘领域，具体的说是涉及一种基于主题语义感知的特征关键词提取方法。

背景技术

随着大数据时代的到来，信息爆炸式增长，人们接触到的文档数据日趋增多，面对庞大、繁杂的数据，快速、准确地检索数据，从中挖掘出有用的信息，显得尤为重要，特征关键词提取就是一种有效手段，在文档数据的利用方面起着重要作用，比如在信息检索场景中，精准的关键词提取能大幅提高检索效率，特征关键词提取，就是抓取出最能够代表文档主题和内容的特征词，特征关键词提取作为自然语言处理和文本挖掘领域中的关键技术，在文档检索、文本分类、摘要生成和信息过滤中有着广泛的应用。

现有的特征关键词提取方法可以分为有监督和无监督两类。有监督的方法是将关键词提取看作二分类问题，通过标记语料库训练模型，判断文档中的词语是否为关键词，无监督的方法是将关键词提取看作排序问题，可以分为三大类：一是基于统计的特征关键词提取，二是基于词图模型的特征关键词提取，三是基于主题模型的特征关键词提取。统计方法主要利用词频、词频-逆文档频率、词性、词语位置等信息提取特征关键词，简单易行，但没有考虑关键词的语义信息。词图模型中常用TextRank、PageRank等进行特征关键词提取，无需训练数据，速度快，但也忽略了关键词的语义相关性。基于主题模型的特征关键词提取方法从文档的语义层面分析，充分考虑关键词的上下文语义关系，直观实用，更加符合人们的思维逻辑，受到了广泛关注。LDA主题模型是一种有效的语义模型，能包含文本的隐含语义特征，而信息增益也常被应用于分类问题中的特征提取。但是现有的技术并没有将LDA主题模型和信息增益将结合来完成关键词的提取。

发明内容

为了解决上述问题，本发明综合LDA主题模型和信息增益，提出基于主题语义感知的特征关键词提取方法，实现表征文档主题语义信息的特征关键词的提取。

为了达到上述目的，本发明是通过以下技术方案实现的：

本发明是一种基于主题语义感知的特征关键词提取方法，所述提取方法包括如下步骤：

(1a)根据LDA主题模型，以文档集D作为输入进行训练，提取蕴含语义属性的主题集合T，生成文档-主题矩阵Θ和关键词-主题矩阵Ω；

(1b)采用基于LDA模型的信息增益计算方法，计算文档集D对应的关键词集合W中每一个关键词的信息增益得分，选取信息增益得分最大的前κ个关键词，构成文档集D的全局信息增益特征关键词集合FW_IG；

(1c)利用主题频率-逆主题频率和信息增益的计算方法，计算文档d_j∈D中每一个关键词的主题相关度得分，选取主题相关度得分最大的前λ个关键词，构成文档d_j的主题信息特征关键词集合

合并得到文档集D的全局主题信息特征关键词集合FW_TR；

(1d)对全局信息增益特征关键词集合FW_IG和全局主题信息特征关键词集合FW_TR合并，构成文档集的特征关键词集合FW＝FW_IG∪FW_TR。

本发明进一步改进在于：在所述步骤(1b)中，基于LDA模型的信息增益计算方法包括如下步骤：

(1b1)计算主题集合的信息熵H(T)，计算公式如下：

其中t_i是主题集合T中的第i个主题，P(t_i)是主题i在文档集D中出现的概率，

(1b2)针对W中的每一个关键词w_i，计算w_i在主题集合T下的条件信息熵H(T|w_i)，计算公式如下：

其中，P(w_i)是w_i在D中的概率，P(t_j|w_i)是w_i在主题t_j下的概率，P(t_j|w_i)＝Ω[i][j]·P(t_j)。

是w_i不在t_j下的概率，

(1b3)根据(1b1)和(1b2)中得到的T的信息熵和w_i在T下的条件信息熵，计算关键词w_i在T下的信息增益得分IG(w_i,T)，计算公式如下：

IG(w_i,T)＝H(T)-H(T|w_i)

(1b4)根据W中所有关键词的信息增益得分，选取得分最大的前κ个关键词，构成针对文档集D的全局信息增益特征关键词集合FW_IG。

本发明进一步改进在于：所述步骤(1c)主题频率-逆主题频率和信息增益的计算方法包括如下步骤：(1c1)针对W中的每一个关键词w_i，计算w_i和T之间的主题频率tf(w_i)，计算公式如下：

tf(w_i)＝Ω[i]

(1c2)针对D中的每一个文档d_j，对d_j中每一个关键词w_i，计算w_i和d_j之间的主题频率tf(w_i,d_j)，计算公式如下：

(1c3)针对W中的每一个关键词w_i，计算w_i的逆主题频率itf(w_i)，计算公式如下：

其中t是w_i关于T中主题t_j的主题频率，t＝Ω[i][j]；由于主题向量没有0值，阈值ζ用来过滤主题相关度较低的主题；

(1c4)用TF-ITF得分TI(w_i,d_j)表示关键词w_i在d_j中的重要性，计算公式如下：

TI(w_i,d_j)＝tf(w_i,d_j)·itf(w_i)

(1c5)根据(1b3)和(1c4)中得到的关键词w_i的信息增益得分和TF-ITF得分，计算w_i和d_j之间的主题相关度得分TR(w_i,d_j)，计算公式如下：

TR(w_i,d_j)＝TI(w_i,d_j)·IG(w_i,T)

(1c6)对于D中每一个文档d_j，根据d_j中所有关键词的主题相关度得分，选取得分最大的前λ个关键词，构成文档d_j的主题信息特征关键词集合

(1c7)合并每个文档的主题信息特征关键词集合

构成针对文档集D的全局主题信息特征关键词集合

本发明的有益效果是：本发明用主题频率-逆主题频率描述关键词和文档之间的联系，既融入了主题信息又能体现关键词的词频信息；本发明用信息增益得分描述关键词在语义上包含的信息量，更能体现关键词在整个文档集中对主题信息的贡献；本发明通过主题信息下的信息增益和主题频率-逆主题频率，从统计信息和语义层面分析关键词的重要性，既考虑了关键词在指定文档中的重要性，又考虑了关键词在整个文档集中的贡献量，从而提取出表征文档主题语义信息的特征关键词。

附图说明

图1是本发明特征关键词提取方法的流程图。

图2是本发明全局信息增益特征关键词集合的实现过程示意图。

图3是本发明全局主题信息特征关键词集合的实现过程示意图。

具体实施方式

以下将以图式揭露本发明的实施方式，为明确说明起见，许多实务上的细节将在以下叙述中一并说明。然而，应了解到，这些实务上的细节不应用以限制本发明。也就是说，在本发明的部分实施方式中，这些实务上的细节是非必要的。

为了方便描述，现对相关符号作如下定义：

文档集D＝{d₁,d₂,…,d_n}，D中各文档包含的词构成关键词集合W＝{w₁,w₂,…,w_u}，LDA模型中采用的主题集合为T＝{t₁,t₂,…,t_m}。IG(w_i,T)是关键词w_i在T下的信息增益得分，TI(w_i,d_j)是w_i和D中每个文档d_j之间的TF-ITF得分，TR(w_i,d_j)是w_i和d_j之间的主题相关度得分，FW_IG是全局信息增益特征关键词集合，FW_TR是全局主题信息特征关键词集合，FW是文档集的特征关键词集合。

图1是本发明的流程图，描述了基于主题语义感知提取特征关键词的过程。在LDA主题模型中，以文档集作为输入进行训练，采用基于LDA的信息增益进行关键词的特征提取，生成全局信息增益特征关键词集合，并利用主题频率-逆主题频率和信息增益，生成全局主题信息特征关键词集合，最终得到文档集的特征关键词集合，提取完成。

一种基于主题语义感知的特征关键词提取方法，其特征在于：所述提取方法包括如下步骤：

(1b)采用基于LDA模型的信息增益计算方法，计算文档集D对应的关键词集合W中每一个关键词的信息增益得分，选取信息增益得分最大的前κ个关键词，构成文档集D的全局信息增益特征关键词集合FW_IG，如图2所示，具体处理过程如下：

(1b1)计算主题集合的信息熵H(T)，计算公式如下：

是w_i不在t_j下的概率，

IG(w_i,T)＝H(T)-H(T|w_i)

(1)(1c)利用主题频率-逆主题频率和信息增益的计算方法，计算文档d_j∈D中每一个关键词的主题相关度得分，选取主题相关度得分最大的前λ个关键词，构成文档d_j的主题信息特征关键词集合

合并得到文档集D的全局主题信息特征关键词集合FW_TR；

(1d)对全局信息增益特征关键词集合FW_IG和全局主题信息特征关键词集合FW_TR合并，构成文档集的特征关键词集合FW＝FW_IG∪FW_TR，如图3所示，具体处理过程如下：

(1c1)针对W中的每一个关键词w_i，计算w_i和T之间的主题频率tf(w_i)，计算公式如下：

tf(w_i)＝Ω[i]

TI(w_i,d_j)＝tf(w_i,d_j)·itf(w_i)

TR(w_i,d_j)＝TI(w_i,d_j)·IG(w_i,T)

(1c7)合并每个文档的主题信息特征关键词集合

构成针对文档集D的全局主题信息特征关键词集合

其中：行向量Θ[i]是文档d_i的文档-主题向量，Θ[j][i]表示文档d_i与主题t_j的语义相关度得分，行向量Ω[i]表示关键词w_i的关键词-主题向量，Ω[i][j]表示关键词w_i与主题t_j的语义相关度得分。

以上所述仅为本发明的实施方式而已，并不用于限制本发明。对于本领域技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原理的内所作的任何修改、等同替换、改进等，均应包括在本发明的权利要求范围之内。