CN110348016A

CN110348016A - 基于句子关联注意力机制的文本摘要生成方法

Info

Publication number: CN110348016A
Application number: CN201910635509.6A
Authority: CN
Inventors: 郭军军; 赵瑶; 余正涛; 黄于欣; 吴瑾娟; 朱恩昌; 相艳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-07-15
Filing date: 2019-07-15
Publication date: 2019-10-18
Anticipated expiration: 2039-07-15
Also published as: CN110348016B

Abstract

本发明涉及基于句子关联注意力机制的文本摘要生成方法，属于自然语言处理技术领域。本发明首先使用分层的双向长短期记忆Bi‑LSTM网络对文档进行编码，获取句子语义向量，然后借助门控网络分析句子间的关联关系，实现句子级别的重要性及冗余性评估，最后提出基于句子关联性注意力机制的解码算法生成摘要；本发明提出在构建神经网络摘要生成框架时，融入句子关联性分析，提升模型对原文中句子重要性及冗余性的评估能力。本发明有效提升了生成式摘要的性能，在当前ROUGH评价指标上取得了较好的效果。

Description

基于句子关联注意力机制的文本摘要生成方法

技术领域

本发明涉及基于句子关联注意力机制的文本摘要生成方法，属于自然语言处理技术领域。

背景技术

文本摘要是对文本内容的简要描述，即用一段精炼的文字对文章的内容进行概括，表达原文中最重要的信息。用户通过摘要就可以了解原文主旨，能够解决信息过载、分析困难等问题。目前在文本摘要方面的研究工作可分为两类，分别是抽取式和生成式。抽取式摘要通常依据一定的规则对原文本中句子重要程度进行分值估算，选择得分高且语义上不重复的句子形成摘要，而生成式则是以理解文本语义为前提再行总结，更接近于摘要的本质。但抽取式摘要需要面对更高的信息冗余以及句子间连贯性较差等问题，生成式摘要是一种类似于人工书写的方式对文本信息进行总结，它涉及多个子问题，如全文语义的理解，要点信息识别，同意转述和文本归纳整理等。早期的研究尝试将原文档转化为深层语义图，在图上进行转化分析生成摘要，但语义图的解析本身也是一项亟待解决的难题，在摘要应用中进展较慢。因此，本发明提出了一种新的在一定程度上模拟人工总结文档多项要点信息时需要关注原文不同句子的认知思想，提出基于句子关联性注意力机制的文本摘要生成方法。

发明内容

本发明提供了基于句子关联注意力机制的文本摘要生成方法，以用于解决现有的摘要生成方法需要面对更高的信息冗余以及句子间连贯性较差等问题，以及生成摘要进展慢的问题。

本发明的技术方案是：基于句子关联注意力机制的文本摘要生成方法，首先使用分层的双向长短期记忆(HBi-LSTM)网络对文档进行编码，分别获取词级、句子级向量表示，然后借助门控网络分析句子间的关联关系，对句子的重要性及冗余性等抽象特征进行明确地建模，最后依据句子的重要程度分配注意力权值解码生成摘要。

所述基于句子关联注意力机制的文本摘要生成方法的具体步骤如下：

Step1、借助互联网爬虫自动获取网上的新闻文本信息作为数据来源，关注新华网、国际在线中文版以及新浪微博等国内媒体，获取的数据包含新闻标题、正文详情、发布时间、媒体来源等信息；收集整理了22万余篇新闻文档作为实验数据，该组实验数据并以9:0.5:0.5的比例划分训练集、验证集、测试集。

Step2、对文档进行预处理，包括分词、去停用词、切分句子；具体的使用NLPIR工具对文档进行预处理；

Step3、使用分层的双向长短期记忆Bi-LSTM网络对文档进行编码，获取全文语义向量；

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、选用Google提供的开源词向量工具word2vec，训练得到词向量。每个单词由一个字嵌入矩阵E映射得到分布表示，D表示由一系列句子组成的文档，且在每个文档结尾处以“end_D”符号进行标记。同理，每个句子由一系列词组成其中N_s表示句子的长度，每个句子以“end_s”标记结尾；

Step3.2、采用双向长短期记忆Bi-LSTM网络构建分层编码器；

(1)第一层是词级编码器，将输入的词向量转换成句子序列：

一级编码状态中，前向长短期记忆LSTM网络顺序读入句子中包含的每个词产生前向隐式状态序列其中表示第i个句子中第n个词，后向长短期记忆LSTM网络逆序读入句子中包含的每个词产生后向隐式状态序列前向和后向对应的隐层状态拼接构成每个句子的编码表示：

在词级别上设置第一层LSTM获取句子级别的向量表示：

h_i,t＝enc(e_i,t,h_i,t-1) (2)

其中e_i,t表示在第i个句子中t位置处的单词嵌入式表示，h_i,t表示隐层向量，词级编码器最后一个时间步的向量输出用于表示句子，定义为

(2)第二层是句子编码器，由句子序列的组合推导出文档的语义向量表示，这种词-句子-文档层次化的编码方式较好地保存了句子的结构信息：

二级编码状态中，同样使用采用双向长短期记忆Bi-LSTM网络获取全文语义信息，前向LSTM顺序读入文档中每个句子产生前向隐式状态序列后向长短期记忆LSTM网络逆序读入文档中每个句子产生后向隐式状态序列前向最后一个隐层状态和后向最后一个隐层状态拼接构成整篇文档的编码表示：

在句子级别上设置第二层LSTM获取文档级的向量表示：

h_t＝enc_sent(e_t,h_t-1) (4)

最后一个时间步的向量表示用于表示整个文档：

e_D＝h_endD (5)

编码器接收”end_s”结束符,更新其隐层状态，获取全文语义向量，e_t表示单词的分布表示，h_t-1表示隐层向量。

Step4、构建第一层门控网络，依据句子间的关联关系识别源文档中句子所占的权重；

本发明结合摘要与源文档间的关系特点，采用门控网络将句子关联性分析融入神经网络识别句子的重要性及冗余性总体架构如图2所示。

由于不同的句子对于摘要的贡献度是不同的，因此本发明借助门控网络将句子的重要性程度融入编码表示中，控制输入到输出端信息的流动，对于具有代表性的句子增强其在解码过程中注意力的分配，对于不足以反映原文主旨的句子减少其信息的传递。受抽取式摘要中为每个句子设置重要性分值的启发，本发明将摘要的生成过程定义为以抽取指导生成的软决策过程，在本阶段将构建第一层门控网络依据句子间的关联关系识别源文档中句子的重要程度。

作为本发明的优选方案，所述Step4中：

构建的第一层门控网络，是由文档中每个句子的隐层编码向量h_i和文档的向量表示d共同组建，通过构建句子与全文语义之间的关联关系识别文档中的句子的权重，门控网络的构建将促使隐层编码向量h_i包含的信息更好的传递至全文语义向量中，参与摘要的生成，第一层门控网络公式如下所示：

G₁＝σ(W₁h_i+U₁d+b₁) (6)

h_iG1＝G₁⊙h_i (7)

其中，G₁是门控向量，W₁和U₁是权重向量，b₁是偏移向量，σ代表sigmoid激活函数，操作符⊙表示按元素相乘，表示文档的语义向量由句子级编码的前向和后向对应的隐层状态拼接而成，h_iG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态；在这个阶段，句子在文档中所占的权重将通过门控网络融入其向量表示中，提升模型对于重要句的识别能力。

Step5、构建第二层门控网络，依据句子的关联性对句子进行冗余约束，过滤多次重复表达的信息；

摘要被视为文本优化压缩的过程，因此摘要系统需要考虑重要性和冗余性之间的权衡。在本发明撰写过程中，重要信息通常会被多次重复强调，尽管这些具有代表性的句子都应当被认为是重要的，但是一个好的摘要中显然不应该包括包含对同一条信息的重复描述。因此在本阶段将依据句子的关联性对句子进行冗余约束，过滤多次重复表达的信息。

作为本发明的优选方案，所述Step5的具体步骤为：依据句子的关联性对句子进行冗余约束，第二层门控网络的输入是当前时刻的句子向量x_i与前一时刻的隐层状态h_(i-1)G1，得到新的编码表示h_iG2，在训练过程中，通过调整第二层门控网络的σ函数动态地控制文档中冗余句子的筛选；由于门控采用了包含句子权重的编码向量作为输入的一部分，因此本阶段同时考虑句子的重要性，冗余性对摘要生成的影响，第二层门控网络的公式如下所示：

G₂＝σ(W₂x_i+U₂h_(i-1)G1+b₂) (9)

h_iG2＝G₂⊙h_iG1 (10)

其中，G₂是门控向量，W₂和U₂是权重向量，b₂是偏移向量，σ是激活函数，和分别表示词级编码中第i个句子的前向最后一个隐层状态和后向最后一个隐层状态，h_iG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态，操作符⊙表示按元素相乘。

经过两层门控网络后，重要性及冗余性将作为约束条件融入文本编码阶段得到新的编码向量(h_1G2,h_2G2,…,h_nG2)，这组编码表示将用于产生上下文向量c。

Step6、基于句子关联性注意力机制的解码算法生成摘要。注意力机制模型计算不同解码状态下输入端句子向量对应的权值，在每个时刻，当前的输入和上一时刻的隐层状态被送到LSTM网络并输出新的权重，计算编码端向量加权和，并将其提供给LSTM第二层解码器；解码器依据动态的上下文向量更新隐层状态和预测输出。本发明的有益效果是：

1、本发明中分层的编码机制能有效捕获句子结构信息，产生信息量更为充足的全文语义向量，避免关键信息的丢失；

2、本发明中依据句子间的关联关系设置的多层门控网络对句子的重要性及冗余性进行了明确建模，通过重要信息的流动传递指导摘要生成；

3、本发明中基于注意力机制的解码算法可以共同考虑输入文档与输出摘要间的关联关系；

4、本发明中深度学中有监督的训练方式可能有助于获取文本摘要的高阶特征，这些特征可指导摘要生成中对原文中特定内容的选择；

5、本发明的注意力机制着重于分析文本中不同的描述内容的关联性，增强了模型对文档重要句子的识别能力以及冗余信息筛选的能力，实验结果表明句子关联分析与神经网络融合的方法取得了较好的效果。其发明主要在以下两点：其一是将分层的神经网络模型使用双向长短期记忆(Bi-LSTM)网络进行改进提升其对文档的建模能力，在词级和句子级上融合前向后向信息，从而增强模型对于句子结构的记忆能力；其二是使用门控网络分析句子间的关联关系，将句子的重要性及冗余性添加到编码信息中，产生融合了句子间关联程度的上下文向量用于解码阶段调节注意力权值的分配，更好地把握文本内容的整体含义。

附图说明

图1为本发明中的流程图；

图2为本发明的基于句子关联注意力机制的文本摘要生成模型示意图。

具体实施方式

实施例1：如图1-2所示，基于句子关联注意力机制的文本摘要生成方法，具体步骤如下：

Step1、收集整理了22万余篇新闻文档作为实验数据，该组实验数据分为三部分：训练集、验证集、测试集，其中训练数据集包含中文新闻语料20万余篇；验证集及测试数据各1万余篇，涉及近年来新闻事件。

Step2、在进行摘要任务之前，对文档进行预处理，包括切分、分词、去停用词等步骤。预处理参数设置如下：使用词向量(word2vec)预先训练的100维词向量作为嵌入初始化并允许在训练期间加以更新，编码器和解码器的隐藏状态维数固定为200。词表从训练集中以词频统计的方式收集，词表大小限制在40K，源端与目标端共享词表。对于低频词使用“UNK”标记。在训练阶段,批次大小设置为32，并使用Adam作为优化函数,学习率设置为0.001，采用梯度裁剪防止梯度爆炸，系数设置为5，采用L2正则化避免过拟合。测试阶段解码集束搜索大小设置为5。

作为本发明的优选方案，所述步骤Step3的具体步骤为：

Step3.1、选用Google提供的开源词向量工具word2vec，训练得到词向量；

Step3.2、采用双向长短期记忆Bi-LSTM网络构建分层编码器；

(1)第一层是词级编码器，将输入的词向量转换成句子序列：

在词级别上设置第一层LSTM获取句子级别的向量表示：

h_i,t＝enc(e_i,t,h_i,t-1) (2)

在句子级别上设置第二层LSTM获取文档级的向量表示：

h_t＝enc_sent(e_t,h_t-1) (4)

最后一个时间步的向量表示用于表示整个文档：

e_D＝h_endD (5)

作为本发明的优选方案，所述Step4中：

G₁＝σ(W₁h_i+U₁d+b₁) (6)

h_iG1＝G₁⊙h_i (7)

其中，G₁是门控向量，W₁和U₁是权重向量，b₁是偏移向量，σ代表sigmoid激活函数，操作符⊙表示按元素相乘，表示文档的语义向量由句子级编码的前向和后向对应的隐层状态拼接而成，h_iG1表示句子的隐层编码向量经过门控网络后形成的新的隐层状态；在这个阶段，句子在文档中所占的权重将通过门控网络融入其向量表示中，提升模型对于重要句的识别能力

G₂＝σ(W₂x_i+U₂h_(i-1)G1+b₂) (9)

h_iG2＝G₂⊙h_iG1 (10)

Step6、基于句子关联性注意力机制的解码算法生成摘要。

作为本发明的优选方案，所述Step6的具体步骤为：解码器根据输入句子的编码向量生成新的句子{s'_j}，用于更新中间状态并预测序列中的下一个字符；本阶段依然使用基于长短期记忆LSTM网络的分层解码器框架来生成摘要，解码器dec_sent接收文档上下文向量表示，c作为初始状态h'₀＝c，第一层为句子级解码，按顺序预测第t个句子的向量表示：

h_t'＝dec_sent(e_t,h′_t-1) (11)

其中h'_t-1是上一个时间步的隐层状态，在最后时间步获得的长短期记忆LSTM网络隐藏向量用于表示当前句子，传递给词解码器dec_word，词解码器按照了类似的方式预测每个词的嵌入式表示：

h'_i,t＝dec_word(e_i,t,h′_i,t-1) (12)

p(w|·)＝softmax(e_i,t,h′_i,t-1) (13)

其中h′_i,t-1是上一个时间步的隐层状态，将其当前时间步的词嵌入表示组合以用于下一个时间步预测，最后生成词汇表中的单词概率分布，e_i,t表示在第i个句子中t位置处的单词嵌入式表示；由于涉及分层解码，解码器应当决定当下时刻的解码状态是否进行，因此将句子结束标记end_S和文档结束标记end_D添加到词汇表，预测到end_D时解码终止。

序列到序列的框架在生成式文本摘要中的应用通常包含两个部分：输入文档编码和输出摘要解码，其核心问题在于输入输出之间如何建立对应关系。在原始解码器模型中，涉及阅读整个文档以理解其内容，然后将原始文档编码成一个固定的上下文向量c，这要求原始文本的语义信息能够充分地压缩至上下文向量中。通常引入注意机制以减轻记忆整个输入序列的负担，并且允许解码器在每个时间步关注于文档的特定区域。

每个时刻特征向量的线性组合权重由注意力机制预测并生成动态的上下文表示：

其中α_i,j由解码端隐层状态h′_j编码端隐层序列共同产生，计算公式如下：

e_i,j＝a(h_i,h′_j) (15)

其中，h_i表示隐层向量，h_j表示编码端隐层状态。

注意力机制计算不同解码状态下输入端句子向量对应的权值，在每个时刻，当前的输入和上一时刻的隐层状态被送到长短期记忆(LSTM)网络并输出新的权重，计算编码端向量加权和，并将其提供给长短期记忆(LSTM)网络第二层解码器。解码器依据动态的上下文向量更新隐层状态和预测输出。

本方法采用摘要任务中广泛使用的ROUGE分值作为评估指标，其工具包已被DUC和TAC等国际会议作为摘要体系的标准评价工具，用于预测生成文本和标准文本之间的接近程度。具体地说，摘要质量将依据模型预测生成的摘要与标准摘要的重叠单元进行量化计算，公式如下：

其中n代表n-gram的长度,Count_match(n-gram)是模型生成摘要和人工书写的标准摘要中共同出现的n-gram的数量，公式旨在通过计算与参考摘要重叠的系统生成摘要中的n-gram的百分比来衡量系统生成摘要与参考摘要的匹配程度。本方法将采用ROUGH评价指标N元共现统计ROUGH-1，ROUGH-2以及句子中最长公共子序列共现统计ROUGH-L，前者预定义n-gram的长度，后者使用最长公共子序列直接进行匹配，因此它自动包括最长的顺序共现，从词共现的角度来说可反映句子包含的结构信息。

为了验证本方法的有效性，设置两组实验评估模型在数据集上的表现。如表1所示，HBi-LSTM为分层Bi-LSTM构建的摘要生成模型，本方法使用Bi-LSTM构建分层架构在参数设置上是有所不同；HBi-LSTM+Gate即本发明提出的模型，在分层Bi-LSTM的基础上添加了两层门控网络控制信息的流向。

表1是否添加门控网络对比实验

	ROUGE-1	ROUGE-2	ROUGE-3
				HBi-LSTM	0.2864	0.1372	0.1876
HBi-LSTM+Gate	0.3127	0.1424	0.2206

另外选取了两种基准模型和本发明提出的方案进行比较，如表2所示。LSA(LatentSemantic Analysis，潜在语义分析)使用潜在语义分析技术来识别语义上重要的句子，通过SVD(singular value decomposition，奇异值分解)从文档向量矩阵中导出潜在的语义结构，能够捕获术语之间的相互关系，以便它可以在语义上对术语和句子进行聚类。LexRank依赖于句子显着性的概念来识别文档中最重要的句子，是一种基于图的摘要模型，句子内相似性的连通矩阵被用作图形表示的邻接矩阵求解句子的显著性分值。

表2不同摘要生成方案对比实验结果

	ROUGE-1	ROUGE-2	ROUGE-3
				LSA	0.2183	0.0795	0.1476
LexRank	0.2701	0.1128	0.1749
				HBi-LSTM+Gate	0.3127	0.1424	0.2206

为了验证句子关联性分析对摘要生成的影响，本方法设置两组实验评估不同模型在数据集上的表现。表1所示为基础的分层编码解码架构与添加门控网络后的实验结果。数据表明，本方法提出的构建门控网络识别句子重要性及冗余性能有效改善摘要生成性能，在ROUGE指标上有所提升，证实了基于句子关联性分析注意力机制应用于摘要生成任务的有效性。对于表1中不同方法的文本预处理及解码阶段参数设置是相同的，区别仅在于是否在编码阶段添加门控网络调整注意力权值分配。表2所示为本发明提出的模型与基准模型的对比试验，并实现Rouge-1，Rouge-2和Rouge-L分别为0.3127，0.1424和0.2206的最佳实验结果，以上数据实验结果显示句子关联性与神经网络结合的方法取得了很好地效果。在训练数据足够的前提下，该模型在文本生成领域具有较强的领域拓展性。但从更细致的角度划分，深度学习中人工设计的特征能有效提高了学习性能，这种现象在机器翻译任务中也较为常见，因此多特征融合的输入编码层和注意力机制可能对于提升模型的性能具有重要意义。

上面结合附图对本发明的具体实施方式作了详细说明，但是本发明并不限于上述实施方式，在本领域普通技术人员所具备的知识范围内，还可以在不脱离本发明宗旨的前提下作出各种变化。

Claims

1.基于句子关联注意力机制的文本摘要生成方法，其特征在于：具体步骤如下：

Step1、收集并处理新闻文本摘要数据作为训练语料、验证语料和测试语料；

Step2、对文档进行预处理，包括分词、去停用词、切分句子；

Step6、基于句子关联性注意力机制的解码算法生成摘要。

2.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法，其特征在于：所述步骤Step1中，借助互联网爬虫自动获取网上的新闻文本信息作为数据来源，收集整理了22万余篇新闻文档作为实验数据，并以9:0.5:0.5的比例划分训练集、验证集、测试集。

3.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法，其特征在于：

所述步骤Step3的具体步骤为：

Step3.2、采用双向长短期记忆Bi-LSTM网络构建分层编码器；

(1)第一层是词级编码器，将输入的词向量转换成句子序列：

在词级别上设置第一层LSTM获取句子级别的向量表示：

h_i,t＝enc(e_i,t,h_i,t-1) (2)

在句子级别上设置第二层LSTM获取文档级的向量表示：

h_t＝enc_sent(e_t,h_t-1) (4)

最后一个时间步的向量表示用于表示整个文档：

e_D＝h_endD (5)

4.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法，其特征在于：所述Step4中：

G₁＝σ(W₁h_i+U₁d+b₁) (6)

h_iG1＝G₁⊙h_i (7)

5.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法，其特征在于：所述Step5的具体步骤为：依据句子的关联性对句子进行冗余约束，第二层门控网络的输入是当前时刻的句子向量x_i与前一时刻的隐层状态h_(i-1)G1，得到新的编码表示h_iG2，在训练过程中，通过调整第二层门控网络的σ函数动态地控制文档中冗余句子的筛选；由于门控采用了包含句子权重的编码向量作为输入的一部分，因此本阶段同时考虑句子的重要性，冗余性对摘要生成的影响，第二层门控网络的公式如下所示：

G₂＝σ(W₂x_i+U₂h_(i-1)G1+b₂) (9)

h_iG2＝G₂⊙h_iG1 (10)

6.根据权利要求1所述的基于句子关联注意力机制的文本摘要生成方法，其特征在于：所述Step6中：

注意力机制模型计算不同解码状态下输入端句子向量对应的权值，在每个时刻，当前的输入和上一时刻的隐层状态被送到LSTM网络并输出新的权重，计算编码端向量加权和，并将其提供给LSTM第二层解码器；解码器依据动态的上下文向量更新隐层状态和预测输出。