CN110442705B

CN110442705B - 一种基于概念指针网络的摘要自动生成方法

Info

Publication number: CN110442705B
Application number: CN201910327653.3A
Authority: CN
Inventors: 高扬; 王文博; 周宇翔
Original assignee: Beijing Institute of Technology BIT
Current assignee: Beijing Institute of Technology BIT
Priority date: 2019-04-23
Filing date: 2019-04-23
Publication date: 2021-10-12
Anticipated expiration: 2039-04-23
Also published as: CN110442705A

Abstract

本发明涉及一种基于概念指针网络的摘要自动生成方法，属于自然语言处理技术领域。本方法在指针网络的基础上，提出一个概念指针网络，首先找到输入文本单词的多个概念。然后，根据当前输入文本语义信息、文本单词信息和概念信息，选择最合适的概念，并给予这些概念合适的输出概率。最后，将概念指针网络添加到编码‑解码加注意力模型中，并结合pointer‑generator机制，在交叉熵训练模型的基础上，分别使用强化学习和远程监督方式优化模型，最终生成摘要。本方法在概念这一抽象层次上更深层次的表示了文档内容，利用远程监督策略训练模型，使摘要生成模型具有更强的适应性和泛化能力，构建了高质量的摘要生成方式。

Description

一种基于概念指针网络的摘要自动生成方法

技术领域

本发明涉及一种基于概念指针网络的摘要自动生成方法，属于自然语言处理技术领域。

背景技术

随着社会的发展和进步，互联网上的信息迅速增长，迅速增长的信息量给人们带来了信息的多样性，但同时也使得人们不得不花费大量的时间理解并寻找有用信息，这种信息爆炸问题已经成为当今社会一个十分严峻的问题。如果有一种方法，能够从长文本中提取关键信息，那么这将帮助人们在短时间内了解大量的信息，方便而快捷。自动摘要任务是一种从文本中提取关键信息的任务，摘要生成可以由人工完成，但会消耗大量的人力物力，且面对海量的信息，人工也无法在短时间内完成所有的摘要生成任务。若使用机器自动生成文本摘要，则可大大提高生成效率。因此，用机器学习模型生成摘要任务，越来越受到关注。

自动摘要是自然语言领域的一个重要课题，它的目的是将一段长文本浓缩成一段包含原文本中心思想的短文本。输出的短文本要在减少文字长度的同时尽可能保留长文本的核心内容。文本摘要根据输入文本的长短，可以细分为单文档摘要和多文档摘要，前者是后者的基础，但后者并不是前者的简单叠加，而是采用一些算法进行融合；根据提取摘要的方法，可以细分为抽取式摘要和生成式摘要，抽取式摘要是假设一篇文章的核心思想可以由文章中的一些关键性的语句来描述，用一些算法从原文本中抽取几个句子，进行排列组合，从而获得最终的摘要结果；生成式摘要是在理解原文本的基础上，从更广阔的的词典空间中选择词汇生成最终的摘要。相比于抽取式摘要，生成式摘要更体现智能、更灵活、更有前景，但同时也更具有挑战性。

随着深度学习的研究发展，尤其是当编码器-解码器框架和注意力机制被提出后，生成式摘要在生成的摘要质量和流畅度方面都有了很大的提高。目前生成式摘要任务，主要基于深度神经网络结构来实现，结合编码器-解码器框架和注意力机制几乎成为了生成式摘要模型的基本标准。研究者们在此基础上也做了大量的改进和优化，利用覆盖机制，可以避免模型解码时两个时间步的注意力分布具有相似性，从而大大减少了摘要重复词的数量。利用句法树解析功能获得输入文本实体间的关系，能够让模型获得更多的语义信息。利用机器翻译中的价值网络能够解决束搜索中的短视问题，使得自动摘要模型在使用束搜索中可以选择价值更高的单词组成摘要。利用生成式摘要与抽取式摘要的结合，可以很好的克服抽取式摘要模型生成的摘要语句不通顺和生成式摘要模型生成的摘要内容不准确的不足。针对不同问题的优化使得生成式模型输出的摘要更加简练，而且更具有表达力。不断的优化也使得摘要生成的方式越来越接近人类的思维。但是，生成式摘要依然存在着所生成的摘要抽象性不足问题、未登录词等诸多问题，需要研究者们解决。

生成式摘要技术是一个不断发展的技术，指针网络和强化学习逐渐成为了当前摘要任务研究的热点。指针网络能够直接选择输入文本中的某些词作为输出摘要的一部分，但是其不能增加摘要的抽象性。

概念指针网络能够根据输入文本的语义选择每个单词最符合当前语义的概念，并给予一定的输出概率，能够使模型具有输出更抽象信息的能力，并且通过将概念指针网络与强化学习进行融合，能够大大增强模型输出摘要的质量。

发明内容

本发明的目的是为了解决自动摘要任务中生成摘要的抽象性不足问题，提出一种基于概念指针网络的摘要自动生成方法。

本方法在指针网络的基础上，提出一个概念指针网络，首先找到输入文本单词的多个概念。然后，根据当前输入文本语义信息、文本单词信息和概念信息，选择最合适的概念，并给予这些概念合适的输出概率。最后，将概念指针网络添加到编码-解码加注意力模型中，并结合pointer-generator机制，在交叉熵训练模型的基础上，分别使用强化学习和远程监督方式优化模型，最终生成摘要。

有益效果

本发明方法，对比现有技术，具有如下有益效果：

1.利用概念指针网络，根据语义选择相应的概念，在概念这一抽象层次上更深层次的表示了文档内容；

2.利用远程监督策略训练模型，使摘要生成模型具有更强的适应性和泛化能力；

3.结合概念指针网络和pointer-gengrator机制，使用远程监督策略和强化学习，一起构建了高质量的摘要生成模型。

附图说明

图1为本发明方法的流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下根据附图及实施例对本发明所述的摘要生成方法进一步详细说明。

一种基于概念指针网络的摘要自动生成方法，包括以下步骤：

首先，进行相关定义，具体如下：

定义1：文本序列，文本序列是有序的单词构成的文档；

定义2：输入词表和输出词表，由不同的单词组成的序列；

定义3：词向量和词向量序列，词向量是利用向量表示单词语义的一种方式，将文本序列中有序的单词利用词向量表示的结果为词向量序列，记为x，x＝[x₁,x₂,...,x_n]；

定义4：摘要，较短的文字概括文档的主要内容；

定义5：编码器，对文档内容进行压缩，用一个固定状态向量S来表示文档内容，编码器是神经网络构成，如LSTM等；

定义6：解码器，将固定状态向量S通过解码器得到源文档或者目标序列，解码器是由神经网络构成，如LSTM等；

定义7：隐藏状态和隐藏状态序列，表示神经网络中间层某一时刻的状态，用一个向量表示，隐藏状态所构成的序列称为隐藏状态序列；

步骤一、根据文本序列中的单词，找到对应的k个概念词

以及C_i中每个概念出现的概率

步骤二、初始化词向量，利用文本序列中的单词顺序排列词向量，得到词向量序列X，并将X作为模型输入；

步骤三、利用多层编码器学习隐藏状态序列h，其中，编码器采用多层双向LSTM模型，双向LSTM模型包括前向LSTM和反向LSTM；

具体地，步骤三包括如下步骤：

步骤3.1、将词向量序列X，顺序输入到前向LSTM中，得到前向隐藏状态序列。

具体地，步骤3.1包括如下步骤：

步骤3.1.1、计算前向LSTM当前时刻的遗忘门，来决定丢弃何种信息，通过公式(1)计算：

其中，

表示t时刻前向LSTM的遗忘门，

表示参数，

表示t-1时刻前向LSTM的隐藏状态，x_t表示t时刻输入的词向量，σ表示sigmoid函数；

步骤3.1.2、计算前向LSTM当前时刻的输入门，来决定加入何种新的信息，通过公式(2)计算：

其中，

表示t时刻前向LSTM的输入门，

表示参数，

步骤3.1.3、计算前向LSTM当前时刻更新的信息，通过公式(3)计算：

其中，

表示t时刻前向LSTM更新的信息，

表示参数，tanh表示双曲正切函数，

表示t-1时刻前向LSTM的隐藏状态，x_t表示t时刻输入的词向量；

步骤3.1.4、计算前向LSTM当前时刻的信息，将上一时刻的信息和当前时刻的更新的信息相加得到，通过公式(4)计算：

其中，

表示t时刻前向LSTM的信息，

表示t-1时刻前向LSTM的信息，*表示叉乘，

表示t时刻前向LSTM的遗忘门，

表示t时刻前向LSTM的输入门，

表示t时刻前向LSTM更新的信息；

步骤3.1.5、计算前向LSTM当前时刻的输出门，来控制输入信息，通过公式(5)计算：

其中，

表示t时刻前向LSTM的输出门，W_o、b_o表示参数,

步骤3.1.6、计算前向LSTM当前时刻隐藏状态，通过公式(6)计算：

其中，

表示t时刻前向LSTM隐藏状态，

表示t时刻前向LSTM的输出门，*表示叉乘，

表示t时刻前向LSTM的信息，tanh表示双曲正切函数；

步骤3.1.7、计算第n层前向LSTM当前时刻隐藏状态。相对于传统编码器采用一层双向LSTM，本发明采用了多层双向LSTM，将前一层的隐藏状态和上一时刻的隐藏状态，作为下一层的输入，通过公式(7)计算：

其中，

表示第n层前向LSTM在t时刻的隐藏状态，

表示第n-1层前向LSTM在t时刻的隐藏状态，

表示第n层前向LSTM在t-1时刻的隐藏状态，f表示前馈神经网络函数；

由此得到前向隐藏状态序列

步骤3.2、将词向量序列X，倒序输入到反向LSTM中，得到前反向隐藏状态序列。

具体地，步骤3.2包括如下步骤：

步骤3.2.1、计算反向LSTM当前时刻的遗忘门，来决定丢弃何种信息，通过公式(8)计算：

其中，

表示t时刻反向LSTM的遗忘门，

表示参数，

表示t-1时刻反向LSTM的隐藏状态，x_t表示t时刻输入的词向量，σ表示sigmoid函数；

步骤3.2.2、计算反向LSTM当前时刻的输入门，来决定加入何种新的信息，通过公式(9)计算：

其中，

表示t时刻反向LSTM的输入门，

表示参数，

步骤3.2.3、计算反向LSTM当前时刻更新的信息，通过公式(10)计算：

其中，

表示t时刻反向LSTM更新的信息，

表示参数，tanh表示双曲正切函数，tanh表示双曲正切函数，

表示t-1时刻反向LSTM的隐藏状态，x_t表示t时刻输入的词向量；

步骤3.2.4、计算反向LSTM当前时刻的信息，将上一时刻的信息和当前时刻的更新的信息相加得到，通过公式(11)计算：

其中，

表示t时刻反向LSTM的信息，

表示t-1时刻反向LSTM的信息，*表示叉乘，

表示t时刻反向LSTM的遗忘门，

表示t时刻反向LSTM的输入门，

表示t时刻反向LSTM更新的信息；

步骤3.2.5、计算反向LSTM当前时刻的输出门，用于控制输入信息，通过公式(12)计算：

其中，

表示t时刻反向LSTM的输出门，

表示参数，

步骤3.2.6、计算反向LSTM当前时刻隐藏状态，通过公式(13)计算：

其中，

表示t时刻反向LSTM隐藏状态，

表示t时刻反向LSTM的输出门，tanh表示双曲正切函数，

表示t时刻反向LSTM的信息；

步骤3.2.7、计算第n层反向LSTM当前时刻隐藏状态。相对于传统编码器采用一层双向LSTM，本发明采用了多层双向LSTM，将前一层的隐藏状态和上一时刻的隐藏状态，作为下一层的输入。通过公式(14)计算：

其中，

表示第n层反向LSTM在t时刻的隐藏状态，

表示第n-1层反向LSTM在t时刻的隐藏状态，

表示第n层反向LSTM在t-1时刻的隐藏状态，f表示前馈神经网络函数；

由此得到反向隐藏状态序列

步骤3.3、计算最终隐藏状态序列h，通过前向隐藏状态序列和反向隐藏状态序列连接得到，通过公式(15)得到：

由此得到隐藏状态序列h＝[h₁,h₂,...,h_n]，该序列包含了输入文本序列前后所有的上下文信息；

步骤四、利用步骤一得到的概念词向量序列C，和步骤三得到的隐藏状态序列h，综合上下文信息，结合注意力机制和pointer-generator机制，进行解码器操作，计算t时刻预测单词y_i；

具体地，步骤四包括如下步骤：

步骤4.1、计算解码器第t时刻的隐藏状态s_t，通过公式(16)计算：

其中，s_t-1表示解码器t-1时刻的隐藏状态，y_t-1表示t-1时刻预测单词的词向量，

表示t时刻的上下文信息，g表示前馈神经网络函数；

步骤4.2、利用注意力机制，计算t时刻上下文信息

通过公式(17)计算：

其中，v^T、W_h、W_s、b_attn表示参数，softmax表示归一化函数，tanh表示双曲正切函数，s_t表示解码器第t时刻的隐藏状态，h_i表示文本序列的第i个单词经过编码器后的隐藏状态信息，

表示文本序列中第i个单词的未归一化后的注意力概率，e^t表示文本序列的未归一化后的注意力分布，a^t表示文本序列的归一化后的注意力分布，

表示文本序列中第i个单词归一化后的注意力分布；

步骤4.3、利用解码器隐藏状态st、上下文信息

和输出词表，预测单词y_i，预测条件概率如公式(18)：

其中，

表示t时刻上下文信息，s_t表示t时刻解码器隐藏状态，g表示前馈神经网络函数，p_vocab为输出词表中单词的输出概率；

步骤4.4、利用编码器隐藏状态信息h、t时刻上下文信息

概念词向量序列C得到每个概念的输出概率，通过公式(19)计算：

其中，

表示文本序列的第i个单词的第j个概念的输出概率，W_h'表示参数，h_i表示文本序列的第i个单词经过编码器后的隐藏状态信息、

表示t时刻上下文信息、

表示文本序列的第i个单词的第j个概念的词向量；

步骤4.5、从概念输出概率序列P_i ^c中，选择概率最大的概念及其概率，通过公式(20)计算：

其中，

为概念的输出概率；

步骤4.6、找到

对应的概念词在p(C)中的概率，记为

利用

进一步修正

得到该概念词在当前语义下的输出概率，通过公式(21)计算：

其中，γ表示参数，

表示概念词在当前语义下的输出概率，

为概念的输出概率；

步骤4.7、利用t时刻上下文信息

解码器t时刻隐藏信息s_t和t-1时刻预测的单词y_t-1，得到选择概率p_gen，即预测单词来自输出词表的概率，通过公式(22)计算：

其中，p_gen表示选择概率，W₁、W₂、W₃、b_gen表示参数，σ表示sigmoid函数；

步骤4.8、利用选择概率p_gen、输出词表中单词的输出概率p_vocab、注意力分布a^t和概念最大输出概率

预测最终的输出单词y_i，通过公式(23)计算：

其中，

表示文本序列的第i个单词在t时刻的注意力信息，p_final表示单词的输出信息，包括词表单词、文本序列、文本序列对应的概念词。

通过公式(23)的p_final获取t时刻输出概率最高的n个单词，然后通过束搜索算法，将这些单词与之前t-1时刻的单词进行组合生成一部分摘要(不是完整的，可以理解为只有摘要前面的一部分)，不断重复这个过程，生成最终的摘要。

至此，完成了一种基于概念指针网络的摘要生成方法。

此外，本发明在通过交叉熵训练生成模型之后，还可以进一步采取强化学习训练或远程监督训练，进一步优化模型；

具体地址，采取强化学习训练优化模型的方法为：

经过以L_MLE为目标函数进行训练后，更换目标函数，进行强化学习训练，新的目标函数如公式(25)：

L_final＝λL_RL+(1-λ)L_MLE (25)

其中，

表示在每一个时间步使用贪婪算法得到的摘要的ROUGE值，r(y^s)表示在每一个时间步随机选择得到的摘要ROUGE值，

表示在每一个时间步随机选择得到的摘要序列，λ表示超参数，L_MLE表示交叉熵损失函数，x表示词向量序列；

采取远程监督训练优化模型的方法为：

经过以L_MLE为目标函数进行训练后，更换目标函数，采用远程监督训练，新的目标函数如公式(26)：

其中，δ表示超参数，N表示测试预料的个数，D_KL表示计算KL散度，y^*表示参考摘要，

表示测试语料中的文章，L_MLE表示交叉熵损失函数。

在使用交叉熵损失函数训练模型的基础上，分别使用强化学习或远程监督方式继续优化模型，使模型能够生成更加抽象层次的摘要。

实施例

本实施例叙述了本发明的具体实施过程，如图1所示。

从图1可以看出，本发明方法流程如下：

步骤A、预处理；具体到本实施例是对语料进行分词，去停用词的处理；

其中，分词操作利用PTB分词器进行分词处理，利用nltk工具进行去停用词的操作。

步骤B、初始化概念词向量和输入文本词向量，大小为128维，其中某个概念词的词向量为[8.9154e-05,6.2667e-05,6.4418e-05,...,7.1736e-05,-2.4704e-05,1.2438e-04]，输入文本中某个词的词向量为[2.0672e-04,1.1223e-04,6.8911e-05,...,7.5825e-06,-7.2777e-06,9.8726e-05]

步骤C、用多层编码器学习文档内容表示；将词向量序列输入到多层编码器中，首先计算第一层前向编码器的隐藏状态

维度大小为256维；计算第一层反向编码器的隐藏状态

维度大小为256维；第二层编码器输入为

和

的拼接；最终得到第n层前向编码器的隐藏状态

第n层反向编码器的隐藏状态

将

和

拼接可得最终的第n层的隐藏状态，该隐藏状态包含了文档的内容；

步骤D、根据上下文信息、编码器隐藏信息和概念信息从多个概念中选择最符合当前语义的概念；计算上下文信息

维度为512维，多层的编码器隐藏信息和概念词向量信息已经在步骤C中得到。根据这三部分内容得到输入文本中每个单词对应概念的概率分布，从中选择合适的概念，结合概念词本身出现的概率和模型生成的概率，获得最终的输出概率；

步骤E、根据概念指针网络、pointer-generator和解码器生成摘要；

其中，概念指针网络中概念词及其输出概率在步骤D中已经得到；

pointer-generator中输入文本中各个词的输出概率用该时间步的注意力分布计算，计算第t时间步的注意力分布a^t＝[0.0077,0.0096,0.0117,...,0.0038,0.0019,0.0008]；

计算解码器t时间步的隐藏状态s_t＝[-3.6357e-03,-4.0810e-03,9.7077e-03,...,5.4117e-04,-2.4939e-04,1.3467e-02],结合上下文信息

根据目标函数得到词表的输出概率分布；

最终，结合这三部分的输出概率分布预测单词，完成摘要生成任务。

以上对本发明“一种基于概念指针网络的摘要生成方法”进行了详细的说明，但本发明的具体实施形式并不局限于此。实施例说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种基于概念指针网络的摘要自动生成方法，其特征在于，包括以下步骤：

首先，进行相关定义，具体如下：

定义1：文本序列，文本序列是有序的单词构成的文档；

定义2：输入词表和输出词表，由不同的单词组成的序列；

定义4：摘要，较短的文字概括文档的主要内容；

定义5：编码器，对文档内容进行压缩，用一个固定状态向量S来表示文档内容，编码器是神经网络构成；

定义6：解码器，将固定状态向量S通过解码器得到源文档或者目标序列，解码器是由神经网络构成；

步骤一、根据文本序列中的单词，找到对应的k个概念词

以及C_i中每个概念出现的概率

具体地，步骤三包括如下步骤：

步骤3.1、将词向量序列X，顺序输入到前向LSTM中，得到前向隐藏状态序列；

步骤3.2、将词向量序列X，倒序输入到反向LSTM中，得到前反向隐藏状态序列；

其中，

表示t时刻前向LSTM隐藏状态，

表示t时刻反向LSTM隐藏状态；

步骤四、利用步骤一得到的概念词向量序列C，和步骤三得到的隐藏状态序列h，综合上下文信息，结合注意力机制和pointer-generator机制，进行解码器操作，计算t时刻输出概率最高的n个预测单词y_i；然后通过束搜索算法，将这些单词与之前t-1时刻的单词进行组合生成一部分摘要不断重复这个过程，生成最终的摘要；

步骤四包括以下步骤：