CN113255344A

CN113255344A - 一种融合主题信息的关键词生成方法

Info

Publication number: CN113255344A
Application number: CN202110525483.7A
Authority: CN
Inventors: 马甲林; 成洁怡; 魏丹丹; 焦英杰; 李翔; 朱全银; 赵春晓
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2021-05-13
Filing date: 2021-05-13
Publication date: 2021-08-13
Anticipated expiration: 2041-05-13
Also published as: CN113255344B

Abstract

本发明涉及自然语言处理和关键词提取技术领域，公开了一种融合主题信息的关键词生成方法，对语料库C进行预处理得到向量模型；采用word2vec对X_bow预训练得到词向量X_seq；将X_bow输入到基于变分自编码器的GSM神经主题模型生成文档‑主题分布θ；将X_seq输入到带有注意力机制的层次化编码模型进行编码输出为M；将文档‑主题分布θ和编码M输入，采用加入注意力机制和复制机制的循环神经网络对其进行解码，并生成关键词的概率分布；采用集束搜索，生成关键词的排名列表。与现有技术相比，本发明不仅强调了标题对整个文档的主导作用，还使得生成的词更加契合文档的主题。

Description

一种融合主题信息的关键词生成方法

技术领域

本发明涉及自然语言处理和关键词提取技术领域，具体涉及一种融合主题信息的关键词生成方法。

背景技术

关键词通常为一个或多个能够描述文档主题信息的词语或词组。随着自然语言处理研究的逐步深入，关键词作为表达文档主题意义的最小单位在多项自然语言处理任务诸如文本分类、文本摘要、信息检索中都发挥了重要的作用。一般来说，可以细分为关键词抽取技术和关键词生成技术。其中，关键词抽取技术指从文档中筛选得到能表达文档主题的单词(词组)，该关键词必然出现在文档中出现，而关键词生成技术指从词表中选择与文档主题相近的单词(词组)作为该文档的关键词，与该关键词是否在文档中出现出关。例如，在科技文献中，作者给出的关键词有很多并不会在正文中出现。同时，文档的标题是作者对文档内容的概括，对文档的关键词具有重要的导向性作用，但大多关键词生成方法都只是简单地将文档标题和正文同等对待。而文档的主题信息，也能够更好地丰富文档的语义信息。

发明内容

发明目的：针对现有技术中存在的问题，本发明提供一种融合主题信息的关键词生成方法，不仅强调了标题对整个文档的主导作用，还使得生成的词更加契合文档的主题。

技术方案：本发明提供了一种融合主题信息的关键词生成方法，包括如下步骤：

步骤1：输入语料库C并进行预处理得到向量模型X_bow，X_bow＝{T₁,T₂,...,T_N}为C中所有文档的向量空间表示模型，N为语料库文档数量；

步骤2：采用word2vec对X_bow预训练得到词向量X_seq；

步骤3：将X_bow输入到基于变分自编码器的GSM神经主题模型生成文档-主题分布θ；

步骤4：将X_seq输入到带有注意力机制的层次化编码模型进行编码输出为M；

步骤5：将文档-主题分布θ和编码M输入，采用加入注意力机制和复制机制的循环神经网络对其进行解码，并生成关键词的概率分布；

步骤6：采用集束搜索，生成关键词的排名列表。

进一步地，所述步骤3具体过程为：

步骤3.1：通过多层感知机将X_bow编码为一个连续的潜在高斯变量Z，Z服从N(μ,σ²)分布：μ＝f_μ(f_ε(X_bow)),logσ＝f_σ(f_ε(X_bow))，其中，Z表示X_bow的主题，μ和σ均是通过神经网络生成的，N(μ,σ²)来表示各向同性的高斯分布，σ²是协方差矩阵的对角线，f_*(·)是具有RuLU激活函数的多层感知机；

步骤3.2：使用softmax函数，构建文档-主题分布θ＝softmax(W₁ ^TZ)，作为文档的主题分布向量来辅助关键词的生成，其中，W₁为L*K的矩阵，L为Z的维数，K为主题数。

进一步地，所述步骤4具体过程为遍历语料库C中每一个文档及其标题中的所有词，依次按照如下原理进行编码：

步骤4.1：进行第一层序列编码层，使用两个双向门控循环单元网络(GRU)分别x_i和t_j进行编码，将上下文的语义信息整合到每个单词的表示中：

其中，x_i为语料库中文档的第i个单词的向量，t_j为该文档标题的第j个词的向量；u_i和v_j分别为第i个单词和第j个标题词的上下文向量；→表示向右的编码方向，←表示向左的编码方向；

步骤4.2：第二层为基于注意力机制的匹配层，用于聚合标题中的每个单词的相关信息，聚合操作

具体为：

s_i,j＝(u_i)^TW₁v_j

其中，c_i是文档x的第i个单词的聚合后的信息向量，s_i,j是u_i和v_j未归一化的注意力权重，α_i,j是u_i和v_j的归一化的注意力权重；

步骤4.3：第三层为合并层，将上下文向量u_i和聚合后的信息向量c_i作为信息合并层的输入，获得以标题为导向的上下文表示，存储为M：

其中，u_i是一个残差连接，λ∈(0,1)是相应的超参数。

进一步地，所述步骤5具体过程如下：

步骤5.1：将文档-主题分布θ输入单向门控循环单元网络(GRU)，用于添加主题信息θ，具体公式为s_j＝f_GRU([z_j；θ],s_j-1)，其中，z_j为第j个解码器的输入，s_j为第j个时刻的隐藏状态，s_j-1为前一个隐藏状态；

步骤5.2：对序列M进行解码，通过注意力机制捕获重要信息，预测第j个关键词，其注意力分布为α'_ij；

步骤5.3：解码器根据注意力分布α'_ij，即单词的概率分布，来找到下一个单词，通过注意力分布来产生一个编码器隐藏状态的加权和，作为主题感知的上下文向量为c_j，

步骤5.4：将上下文向量c_j与解码器状态s_j连接，通过两个线性层，用一个softmax函数来得到词汇表中所有词的概率分布p_gen：p_gen＝softmax(W_gen[s_j；c_j]+b_gen)，其中，W_gen，b_gen是可训练参数；

步骤5.5：输入主题敏感的上下文向量为c_j、解码器状态s_j，计算时间步长为j的生成概率λ_j，具体公式如下：λ_j＝sigmoid(W_λ[z_j；s_j；c_j；θ]+b_λ)，其中，W_λ，b_λ是可训练参数，λ_j∈[0,1]，λ_j被用作一个软开关，用于判断是从原文中直接提取关键词，还是原文档以外的语料库中生成关键词；

步骤5.6：将生成词汇与原文档中出现的所有单词合并为扩展词汇表，它的概率分布为p_j；

步骤5.7：文档-主题分布θ和编码M作为输入，生成关键词Y的概率。

进一步地，所述注意力分布α'_ij为：

其中，v_α,W_α,b_α是可训练参数，f_α(·)表示第i个词与第j个待预测目标词之间的语义信息。

进一步地，所述步骤5.6中的概率分布p_j为：

其中，若是生成的原文档中没有的单词，则p_gen＝0；

进一步地，所述关键词Y的概率具体为：

其中，Y_＜j＝<y₁,y₂,...,y_j-1>，Y为生成的关键词，X为语料中的词汇，Pr(y_j|Y_＜j,M,θ)用p_j表示，是单词在扩展词汇表的分布。

有益效果：

1、本发明将神经主题模型与Seq2Seq(序列到序列)模型相结合，先采用神经主题模型抽取出主题词。利用主题词来辅助关键词的生成，使得生成的短语更加契合文本的主题。

2、本发明采用基于注意力机制的层次化编码器，其匹配层是由两部分组成，第一部分是标题到标题的自匹配，用来加强标题本身的重要信息；另一部分是正文到标题的匹配部分，每个正文中的词也根据语义关联聚合相关的标题信息。该匹配层，和以往的方法相比，能够更充分地利用标题信息，突出标题在文档中的重要性。

3、本发明采用加入复制机制的循环神经网络，不仅可以从原文档中复制词作为关键词，还可以生成文档中没有出现过的关键词，关键词的抽取方法更优。

具体实施方式

下面结合具体实例对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。

本发明公开的一种融合主题信息的关键词生成方法，包括如下步骤：

具体的，本发明实施例采用的语料库是公开数据集KP20k，数据集共有567,830篇论文。

具体的，对语料库预训练词向量前采用python的结巴分词工具包对预料库中的所有文档进行分词和去停用词，并进行预处理得到向量模型X_bow。

步骤2：采用word2vec对X_bow预训练得到词向量X_seq。

具体的，对语料库预训练词向量采用python开源的gensim包中的word2vec模型进行训练。

步骤3：将X_bow输入到基于变分自编码器的GSM神经主题模型生成文档-主题分布θ。

步骤3.1：通过多层感知机将X_bow编码为一个连续的潜在高斯变量Z，Z服从N(μ,σ²)分布：μ＝f_μ(f_ε(X_bow)),logσ＝f_σ(f_ε(X_bow))，其中，Z表示X_bow的主题，μ和σ均是通过神经网络生成的，N(μ,σ²)来表示各向同性的高斯分布，σ²是协方差矩阵的对角线，f_*(·)是具有RuLU激活函数的多层感知机。

步骤4：将X_seq输入到带有注意力机制的层次化编码模型进行编码输出为M。

具体为：

s_i,j＝(u_i)^TW₁v_j

其中，u_i是一个残差连接，λ∈(0,1)是相应的超参数。

步骤5：将文档-主题分布θ和编码M输入，采用加入注意力机制和复制机制的循环神经网络对其进行解码，并生成关键词的概率分布。

步骤5.1：将文档-主题分布θ输入单向门控循环单元网络(GRU)，用于添加主题信息θ，具体公式为s_j＝f_GRU([z_j；θ],s_j-1)，其中，z_j为第j个解码器的输入，s_j为第j个时刻的隐藏状态，s_j-1为前一个隐藏状态。

步骤5.2：对序列M进行解码，通过注意力机制捕获重要信息，预测第j个关键词，其注意力分布为α'_ij，注意力分布α'_ij为：

步骤5.6：将生成词汇与原文档中出现的所有单词合并为扩展词汇表，它的概率分布为p_j，概率分布p_j为：

其中，若是生成的原文档中没有的单词，则p_gen＝0

关键词Y的概率具体为：

步骤6：采用集束搜索，生成关键词的排名列表。

为进一步说明本发明提供方法的实施效果，另选用最大的公开数据集KP20k作为训练数据集，数据集共有567,830篇论文，其中527,830用于训练，20,000篇用于验证，20,000篇用于测试。采用本发明提供的关键词生成方法来预测前5个、10个关键词，对比了多个现有的关键词抽取算法(TF-IDF、TextRank、Seq2Seq-copy、Seq2Seq-corr)，以F1值作为性能指标预测前5个、10个关键词，F1＝2*(准确率*召回率)/(准确率+召回率)，F1的值是精准率与召回率的调和平均数。F1的取值范围从0到1的数量越大，表明实现越理想。

其中，Precision(精准率)＝TP/(TP+FP)，Recall(召回率)＝TP/(TP+FN)。

实验结果如表1所示：

表1五个模型生成关键词的F1指标

由表1可见，本发明提出的关键词抽取方法比其他四种方法的评价指标F1值更优。

上述实施方式只为说明本发明的技术构思及特点，其目的在于让熟悉此项技术的人能够了解本发明的内容并据以实施，并不能以此限制本发明的保护范围。凡根据本发明精神实质所做的等效变换或修饰，都应涵盖在本发明的保护范围之内。