CN109325109B

CN109325109B - 基于注意力编码器的抽取式新闻摘要生成装置

Info

Publication number: CN109325109B
Application number: CN201810978521.2A
Authority: CN
Inventors: 陈洪辉; 邵太华; 蔡飞; 刘俊先; 罗爱民; 郝泽鹏; 陈皖玉; 潘志强; 郭昱普
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2021-11-19
Anticipated expiration: 2038-08-27
Also published as: CN109325109A

Abstract

一种基于注意力编码器的抽取式新闻摘要生成装置，包括：语句编码器，用于获取文档，并将文档划分为多个句子；文档编码器，用于根据所述多个句子与多个句子之间的关系获取文档表示；语句抽取器，用于根据所述多个句子与所述文档表示抽取用于作为摘要的句子。能够更好的捕获句子间的联系和依赖关系，从而准确的进行摘要的提取，在生成摘要时可以展示更丰富的信息。

Description

基于注意力编码器的抽取式新闻摘要生成装置

技术领域

本发明涉及文档摘要抽取技术领域，特别涉及一种基于注意力编码器的抽取式新闻摘要生成装置。

背景技术

随着当下新闻数据的急剧增长，发展自动文摘系统的需求愈发迫切。抽取式文本摘要的方法是通过从文档中抽取显著包含文档主要信息的句子来生成摘要，这样生成的摘要更加通顺。在解决序列化问题中展现强大功能的编码-解码结构，已经成功应用到生成抽取式摘要中，其中编码器读入源句子并用固定长度的向量进行表示，随后解码器输出预测的每个句子的标签，即决定是否抽取某个句子作为摘要的一部分。

但是，现有的针对自动文摘问题的基于编码-解码结构的方法过多地关注解码器部分，即这些方法通常在解码部分使用注意力机制，而不是在编码器中收集文档的更多信息。他们的关注点在于获取与源文档更加相关的句子，但却忽略了不同句子之间的关系。句子之间的关联信息同样包含了文档的很多特征，而且这些特征对选取文档的多种信息是很有帮助的。因此，相关技术需要改进。

发明内容

本发明的目的是提供一种基于注意力编码器的抽取式新闻摘要生成装置，能够更好的捕获句子间的联系和依赖关系。

为解决上述问题，本发明的第一方面提供了一种基于注意力编码器的抽取式新闻摘要生成装置，包括：语句编码器，用于获取文档，并将文档划分为多个句子；文档编码器，用于根据所述多个句子与多个句子之间的关系获取文档表示；语句抽取器，用于根据所述多个句子与所述文档表示抽取用于作为摘要的句子。

进一步地，所述文档编码器还包括：第一层，所述第一层用于获取多个句子之间的联系。第二层，所述第二层用于获取根据多个句子和多个句子之间的联系获取文档表示。

进一步地，所述第一层根据注意力机制获取多个句子之间的联系。

进一步地，所述第一层根据以下公式计算多个句子之间的联系：

其中，

是在时刻t对第j个隐状态的归一化权重，

是第j个隐状态。

进一步地，所述第一层和所述第二层分别通过双向循环神经网络获取隐状态。

本发明的上述技术方案具有如下有益的技术效果：能够更好的捕获句子间的联系和依赖关系，从而准确的进行摘要的提取，在生成摘要时可以展示更丰富的信息。

附图说明

图1为根据本发明实施例的基于注意力编码器的抽取式新闻摘要生成装置的方框示意图；

图2为根据本发明实施例的基于注意力编码器的抽取式新闻摘要生成装置的结构示意图；

图3为根据本发明实施例的文档编码器的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明了，下面结合具体实施方式并参照附图，对本发明进一步详细说明。应该理解，这些描述只是示例性的，而并非要限制本发明的范围。此外，在以下说明中，省略了对公知结构和技术的描述，以避免不必要地混淆本发明的概念。

在附图中示出了根据本发明实施例的层结构示意图。这些图并非是按比例绘制的，其中为了清楚的目的，放大了某些细节，并且可能省略了某些细节。图中所示出的各种区域、层的形状以及它们之间的相对大小、位置关系仅是示例性的，实际中可能由于制造公差或技术限制而有所偏差，并且本领域技术人员根据实际所需可以另外设计具有不同形状、大小、相对位置的区域/层。

显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要说明的是，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

此外，下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。

以下将参照附图更详细地描述本发明。在各个附图中，相同的元件采用类似的附图标记来表示。为了清楚起见，附图中的各个部分没有按比例绘制。

需要说明的是，本发明旨在对一篇由一个句子序列(s₁，s₂，...，s_n)组成的文档d中选取一个由m(m＜n)个句子组成的子集来构成文档d的摘要。其中，n为文档d中句子的个数。同时，对每个句子S_i进行打分并标注标签y_i∈(0,1)，标签1表明句子S_i应该作为摘要的候选句子，0表示否不予考虑。

图1为根据本发明实施例的基于注意力编码器的抽取式新闻摘要生成装置。如图1所示，本发明实施例的基于注意力编码器的抽取式新闻摘要生成装置，包括：语句编码器10、文档编码器20和语句抽取器30。

其中，语句编码器10用于获取文档，并将文档划分为多个语句。

具体地，语句编码器10为卷积神经网络构成。语句编码器10能够利用词向量生成句子的向量，即(s₁，s₂，...，s_n)。

文档编码器20用于根据多个句子与多个句子之间的关系获取文档表示。其中，需要说明的是，当文档输入文档编码器20时，文档编码器20可对每个句子进行处理以获得其对应的隐状态，这些隐状态分别表示每个句子的信息，最终通过文档编码器20可获得通过隐状态表示的文档表示。具体地，隐状态是RNN(循环神经网络)的神经元内不计算过程中生成的量，是一个实值向量。

还需要说明的是，本发明实施例中的文档编码器20可由一个两层的单向循环神经网络构成，其中，第一层用于通过注意力机制获取多个句子之间的联系，为了减少信息丢失，第二层可再次获取句子序列，并将句子的向量表示与多个句子之间的联系结合起来，获取最终的文档表示。

具体地，对于文档d＝(s₁，s₂，...，s_n)，文档编码器20的第一层对每个句子进行求取其对应的隐状态，其中，在t时刻向文档编码器20输入第t个句子，则第t个句子的隐状态根据如下公式进行表示：

其中，初始时刻的隐状态

可设置为零向量，初始时刻为没有任何内容输入时，神经网络的初始状态。应当理解的是，第t个句子的隐状态还包括其前面每个句子的信息。

然后将n个隐状态合并记为H：

在t时刻，隐状态

仅仅含有句子s_t之前的历史信息，即第t个句子之前的内容所包含的信息，而且包含距离s_t较远的句子的信息。

进一步地，根据注意力机制获取多个句子之间的联系具体包括：

对第一层获取的各个隐状态赋予不同的权重，并求和：

其中，

是第j个隐状态，

是在t时刻对第j个隐状态的归一化权重，即：

其中，

表示利用n个隐状态的合并计算得到的初始的权重值：

其中，

是神经网络中的权重、W是权重矩阵，

和W可通过神经网络训练得到。

由此，文档编码器的第一层通过注意力机制获取到文档中多个句子之间的联系。

根据本发明的一个实施例，根据以下公式获取第二层的隐状态：

其中，

表示s_t与

连接起来，

为t-1时刻的隐状态。

需要说明的是，上述第一层和第二层获取隐状态的方法采用单向循环神经网络。

根据本发明的一个实施例，如图3所示，文档编码器20的第一层和第二层还可分别通过双向循环神经网络BiRNN获取对应的隐状态。

其中，双向循环神经网络BiRNN在每个t时刻均会产生两个隐状态：

其中，正向的初始隐状态

和反向的初始隐状态

均可设置为零向量。在t时刻，将两种隐状态连接起来，即可得到第t个句子的隐状态。

应当理解的是，当第一层和第二层采用单向循环神经网络时，文档编码器20为单向的基于注意力机制编码器的摘要模型Uni-AES，当第二层和第二层采用双向循环神经网络时，文档编码器20为双向的基于注意力机制编码器的摘要模型Bi-AES。

由此，根据本发明实施例的文档编码器能够在解码前获得更丰富的文档表示以获取更具表现力的文档摘要，同时，通过本发明实施例提出的文档编码器能够提取文档的多样信息。

根据本发明的一个实施例，语句抽取器30用于根据多个句子与文档表示抽取用于作为摘要的句子。

具体地，在t时刻，语句抽取器30获取文档编码器20的第二层的隐状态，以及语句抽取器30的隐状态，对第t个句子的标签做出预测：

其中，

表示一个多层网络，计算过程为：

其中，U₁、U₂和V均是语句抽取器30中神经网络的权重矩阵，可通过训练获得，语句抽取器30的隐状态可根据以下公式计算：

对句子的标签的预测结果为：

其中，y_t是第t个句子的类别标签，取值为0或1，当y_t取值为1时，表示句子s_t被抽取，当y_t取值为0时，表示句子s_t不被抽取。

最后，在本发明实施例中，可用损失函数对文档编码器和语句抽取器中的权重进行训练，其中，可用负的句子的真实标签的概率作为损失函数：

其中，损失函数是模型预测的标签与真实标签相符的概率的相反数，“负”为相反数的意思。目标是使损失函数最小，也就是模型的预测更准确。具体地，通过文档编码器和语句抽取器可得到语句的预测标签，根据预测标签和真实标签计算损失函数，对损失函数进行反向求偏导，根据偏导的结果对文档编码器和语句抽取器的权重进行优化，即对文档编码器和语句抽取器进行训练，以得到稳定的文档编码器和语句抽取器。

本发明实施例的基于注意力编码器的抽取式新闻摘要生成装置是基于编码-解码结构模型的装置，下面将本发明实施例的装置与抽取式的模型进行对比。

其中，作为对比的模型分别为LEAD模型和NN-SE模型，LEAD模型为选取文档前三句作为摘要的标准模型，NN-SE模型为一种进行抽取式摘要的神经网络模型，由分层文档编码器和一个基于注意力机制的句子抽取器。

进行对比实验的实验数据具体如表1所示，表1为数据集的统计特征。

表1

需要说明的是，用于试验的数据为根据CNN新闻构造的，此数据集中的每篇文档包含新闻原文及新闻编辑人工写就的高亮文本，这些高亮文本是真正的生成式摘要，因此可将作为标准摘要文档中的每个句子都标注标签，当标签为1时表示句子与高亮文本相匹配，当标签为0时，表示句子与高亮文本不匹配。还设定环境窗口大小为6，负采样规模设置为10，分层softmax设置为1。词向量初始化为200维的向量。由于数据集中超过95％的句子不超过50个词，超过95％的文档不超过60个句子，因此，我们将句子长度设置为50，将文档长度设置为60。在对句子进行编码时，我们采用Kim中的方法，用宽度分别为{1，2，3，4，5，6，7}的卷积核进行卷积，卷积核的输出通道大小为50，因而句子向量的维度为350。

针对文档编码器和语句抽取器，我们使用大小为650的长短时记忆(LSTM)单元。在LSTM输入隐层以及句子评分过程中使用的正则化丢弃率为0.5。在训练过程中使用分批训练，一个批次数据包含20篇文档，使用的优化器为Adam优化器，其初始学习率为0.001。

在CNN的整个测试集上使用ROUGE对模型得出摘要质量进行评估，其中，ROUGE是基于召回率的衡量方法。ROUGE-N(N＝1，2，3，4)是衡量候选摘要与参考摘要之间的n元召回率，而ROUGE-L能够检测他们的最长公共自序列。我们使用ROUGE-1(R-1)、ROUGE(R-2)、ROUGE-3(R-3)和ROUGE-4(R-4)反映摘要的信息量，ROUGE-L(R-L)反映摘要的流畅性。我们给出生成完整长度和固定长度(前75比特和275比特)的摘要。为了实现公平地对比，我们选取得分最高的3个句子生成完整长度的摘要。

如表2所示，表2为测试集上各模型得到的完整长度摘要的ROUGE评分。每一列的最好结果进行了加粗。

表2

其中，单向的基于注意力机制编码器的摘要模型Uni-AES和双向的基于注意力机制编码器的摘要模型Bi-AES，相较于最好的基准模型有显著提提升，如表2中“∧”。

如表2所示，对两个基准模型而言，除R-L外，NN-SE生成的摘要的其他ROUGE评分都比LEAD高。这或许是因为一些新闻的前几个句子确实包含一些重要的信息，这些句子正适合作为摘要的一部分。

Uni-AES模型在多数ROUGE评分上都有所改进，R-1提高了0.67％，R-2提高了1.46％，R-4提高了1.79％，R-L提高了0.76％。鼓舞人心的是，我们的Bi-AES模型在所有评分上展现出比最好的基准模型明显的的提高，R-1提高了7.42％，R-2提高了23.36％，R-4提高了13.41％，R-4提高了7.14％，R-L提高了5.74％。这些结果表明我们模型的有效性，并且说明将我们的注意力机制与BiRNN结合起来能够获取新闻的主旨并筛选出包含多种信息的显著的句子。再者，Bi-AES在各个ROUGE评分上有优于Uni-AES，R-1提高了6.7％，R-2提高了21.58％，R-4提高了13.42％，R-4提高了5.26％，R-L提高了7.07％。这些提高说明基于注意力机制的BiRNN能够更好地捕获句子间的联系和依赖关系。

对于不同长度上的效果，具体如表3所示，表3为测试集中各模型生成的75字节和275字节摘要的ROUGE评分，每一列中的最好结果进行了加粗。

表3

表3中给出了上述三个神经网络模型生成的固定长度(75比特和275比特)完整长度(评分最高的3个句子)的摘要的ROUGE评分。表3展示了各模型生成固定长度摘要的ROUGE评分。结合表2，我们可以发现我们的两个模型生成的各种长度的摘要的所有ROUGE评分都优于NN-SE，尤其是Bi-AES模型，这说明结合了注意力机制的BiRNN的性能。

综上所述，根据本发明实施例的基于注意力编码器的抽取式新闻摘要生成装置，通过语句编码器获取文档，并将文档划分为多个句子，然后通过文档编码器根据多个句子与多个句子之间的关系获取文档表示，再通过语句抽取器根据多个句子与文档表示抽取用于作为摘要的句子。由此，能够更好的捕获句子间的联系和依赖关系，从而准确的进行摘要的提取，在生成摘要时可以展示更丰富的信息。

在以上的描述中，对于各层的构图、刻蚀等技术细节并没有做出详细的说明。但是本领域技术人员应当理解，可以通过现有技术中的各种手段，来形成所需形状的层、区域等。另外，为了形成同一结构，本领域技术人员还可以设计出与以上描述的方法并不完全相同的方法。

以上参照本发明的实施例对本发明予以了说明。但是，这些实施例仅仅是为了说明的目的，而并非为了限制本发明的范围。本发明的范围由所附权利要求及其等价物限定。不脱离本发明的范围，本领域技术人员可以做出多种替换和修改，这些替换和修改都应落在本发明的范围之内。

尽管已经详细描述了本发明的实施方式，但是应该理解的是，在不偏离本发明的精神和范围的情况下，可以对本发明的实施方式做出各种改变、替换和变更。

显然，上述实施例仅仅是为清楚地说明所作的举例，而并非对实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。而由此所引伸出的显而易见的变化或变动仍处于本发明创造的保护范围之中。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。