CN110209801B

CN110209801B - 一种基于自注意力网络的文本摘要自动生成方法

Info

Publication number: CN110209801B
Application number: CN201910400865.XA
Authority: CN
Inventors: 张宇; 郑冬云; 郭炜强; 郑波; 关健创
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2019-05-15
Filing date: 2019-05-15
Publication date: 2021-05-14
Anticipated expiration: 2039-05-15
Also published as: CN110209801A

Abstract

本发明公开了一种基于自注意力网络的文本摘要自动生成方法，包括步骤：1)将输入文本进行分词，得到词序列；2)将词序列进行词嵌入产生相应的词向量序列；3)使用自注意力网络编码器对词向量序列进行编码；4)使用自注意力网络解码器对输入文本编码向量进行解码，生成文本摘要。本发明方法具有模型计算速度快，训练效率高，生成摘要质量高，模型的泛化性能好等优点。

Description

一种基于自注意力网络的文本摘要自动生成方法

技术领域

本发明涉及自然语言处理的技术领域，尤其是指一种基于自注意力网络的文本摘要自动生成方法。

背景技术

文本摘要是指从源文本中经过提炼总结得到的一个或一段语句，能够充分反映出文本的主旨，并且简练易读。文本摘要自动生成是指使用计算机来自动生成文本摘要的技术，文本摘要自动生成的目标就是：使用计算机科学技术和自然语言处理技术从原始文本中提取出重要内容，然后再将文本重要内容按照用户需求的形式重新呈现给用户。

现有的文本摘要自动生成模型有基于循环神经网络的序列到序列模型、循环神经网络与注意力结合网络、基于长短时记忆网络(LSTM)的与的序列到序列模型、长短时记忆网络(LSTM)注意力结合网络、Pointer Generator等。

基于循环神经网络的序列到序列模型是指编码器和解码器都是只由一层循环神经网络组成的网络，循环神经网络与注意力结合网络是指编码器和解码器只由循环神经网络组成的网络，不同的是，解码器将使用注意力机制计算输入文本中各个词对解码步骤的输出的关注权重以实现提取深层特征。同样的，基于长短时记忆网络(LSTM)的序列到序列模型是指编码器和解码器都是只由一层长短时记忆网络(LSTM)组成的网络，长短时记忆网络(LSTM)与注意力结合网络是指编码器和解码器只由长短时记忆网络组成的网络，不同的是，解码器将使用注意力机制计算输入文本中各个词对解码步骤的输出的关注权重以实现提取深层特征。

Pointer Generator是目前文本摘要自动生成中的最新研究成果，PointerGenerator整体结构为由长短时记忆网络组成的编码器对输入文本编码，编码器中使用了一层长短时记忆网络。随后将编码向量传入同样由长短时记忆网络组成的解码器进行解码，在解码步骤中，将使用注意力机制计算原始输入文本中各个词对应的隐层状态对该解码步骤的解码输出的关注权重并进行加权求和，随后使用指针网络来综合计算解码输出的分布概率。

上述的这几个不同的方法均存在着不足，首先，以上的几种文本摘要生成网络模型都是基于循环神经网络，循环神经网络存在的一个问题是无法并行计算。因为循环神经网络是依次循环地编码输入词向量，当编码后面的词时需要依赖前面的词的编码结果，因此循环神经网络只能一个一个地编码输入词。同理的，使用循环神经网络组成的解码器也只能一个一个的解码输出单词，因此训练和计算速度慢。虽然可以采用使用较小维度的权重矩阵，但这样将面临神经网络对输入文本中的信息编码不够，导致生成的摘要质量不高。

其次，在文本摘要生成任务中，存在着一个未登录词(Out-Of-Vocabulary)无法生成的问题。未登录词是指在训练过程中词表中没有收录到的词，自然语言生成模型的解码器是通过计算生成单词在词表中的分布概率来选择生成单词，因此没有出现在训练词表中的词也就无法通过模型生成。但是文本摘要中往往要出现一些人名、地名等稀有词，这些稀有词对于生成摘要的质量是很重要的。因此，通过以上的方法自动生成文本摘要存在生成摘要质量差、模型计算效率低的问题

发明内容

本发明的目的在于克服现有技术的不足，提出了一种基于自注意力网络的文本摘要自动生成方法，可以通过模型生成出高质量的文本摘要，并且神经网络可通过并行计算优化使得模型计算速度高效。

具体地，通过使用自注意力机制来提取输入文本词之间的长距离依赖关系，使用多头自注意力来增加模型对文本特征的表示空间，然后通过叠加多头自注意力模块来组建深层网络提高模型特征提取能力，最后结合指针网络来解决未登录词的生成问题。

为实现上述目的，本发明所提供的技术方案为：一种基于自注意力网络的文本摘要自动生成方法，包括以下步骤：

1)将输入文本进行分词，得到词序列；

2)将词序列进行词嵌入产生相应的词向量序列；

3)使用自注意力网络编码器对词向量序列进行编码；

4)使用自注意力网络解码器对输入文本编码向量进行解码，生成文本摘要。

在步骤1)中，将输入文本进行分词，具体是：英文文本将使用Stanford提出的CoreNLP工具进行分词，中文文本将使用结巴分词工具进行分词，在经过分词后，原始文本就转换成为一个由多个词组成的词序列。

在步骤2)中，将词序列进行词嵌入产生相应的词向量序列，具体如下：

原始文本经过分词后成为一个词序列，但深度学习神经网络模型无法直接处理词，因此需要将文本中的词向量化；词向量就是用于在深度神经网络中表示词的向量，也能够认为是词的特征向量或表征；采用的词嵌入方法是在模型训练时首先以随机初始化的方式生成词表中的所有词的词向量，然后由模型在训练过程中更新词表的词向量；在验证和测试阶段，模型直接使用由训练得到的词嵌入向量；这种方法的缺点是模型需要学习的参数更多了，但优势是针对特定任务的数据集中时，词的词嵌入表示质量更高，对模型性能表现更好。

在步骤3)中，使用自注意力网络编码器对词向量序列进行编码，具体如下：

编码器的输入是输入序列经分词后的词嵌入向量序列；当词嵌入向量序列传入模型中计算时首先进行位置编码；由于自注意力计算中输入的每个词都会和输入序列中其它所有词都计算相关性，自注意力层中不同位置上的相同词计算后得到的将是相同的输出向量；此时即使将输入文本的词的顺序打乱也不会影响注意力层的输出，即纯粹的完全自注意力网络无法对序列元素的顺序特征进行特征表示；因此，在自注意力层计算之前，选择将输入序列中的词的位置信息添加到词的词嵌入向量中，将使用正弦位置编码的计算方法来进行序列元素的位置编码，这种方式的优点是没有需要学习的训练参数，减少模型计算量；

当输入词向量与位置编码融合后，传入自注意力层进行计算；编码器的每个自注意力层包含8个注意力头，编码器共包含6个自注意力层；当计算每个注意力头时，首先针对输入向量计算自注意力分布，随后将自注意力层计算得到的自注意力分布和输入向量进行残差连接，再进行Dropout计算，随后进行层归一化计算；

残差连接的作用是为了能够帮助构建更深层的网络，并且能够缓解梯度消失/爆炸的问题；Dropout计算是基于Dropout概率来舍弃网络模型的部分参数，是能够有效避免模型过拟合的技术；层归一化是在批归一化的基础上优化而提出来的技术，它通过对模型同一层的数据输入进行汇总，计算平均值和方差，然后对该层的数据进行归一化计算，使得该层的数据分布能够调整到一个大小合适的范围内，以避免数据分布范围过广后导致某些数据对结果影响过大或无法影响结果；

前面的输出在进行层归一化计算之后再将输出传入一个前馈神经网络层，该神经网络层中包含有模型需要学习的参数；编码器输入向量和输出向量的维度都是512，而前馈神经网络中的权重矩阵的第二个维度是2048；之后，前馈神经网络层的输出与输入也进行残差连接，并进行层归一化后再传入下一个编码器模块，或最顶层计算结果传入解码器进行解码计算；在经过编码器处理输入序列后，最顶层的编码器模块输出将会转变为输入文本经过编码后计算得到的隐层状态向量，该向量后续将用于解码器中的编码器-解码器自注意力层，用于解码器计算解码时刻中关注输入序列中每个元素的权重。

在步骤4)中，使用自注意力网络解码器对输入文本编码向量进行解码，生成文本摘要，具体如下：

在解码阶段，每个解码步骤的解码器要计算出最终的输出序列中的一个词，同时每个解码步骤的输出提供给下一步骤的解码器更新输入，然后下一步骤解码器再输出对应的解码结果，接下来重复这个步骤直到遇到解码终止符号；因此，在自注意力网络中，编码器只需要进行一次计算，而解码器需要循环解码，多次计算；解码器中自注意力模块的计算与编码器中类似，不同的是，在解码器中的自注意力模块计算完成之后，结果将传入一个编码-解码注意力层，这层与普通的自注意力层的计算类似，唯一的区别是这层从解码器自注意力层的输出来计算查询向量，而从编码器的输出来计算键向量和值向量；同样的，编码-解码注意力层输出与输入也进行残差连接及层归一化计算，再传入一个前馈神经网络层，这个网络层与编码器中的前馈神经网路层结构一样；

为解决未登录词的生成问题，决定将自注意力网络与指针网络结合；解码器输出的单词分布将是一个生成单词在扩展词表上的分布概率；这个扩展词表既包含训练词表，也包含了当前计算的文本中的未登录词；在解码器的最顶层，将输出一个维度与解码器输入维度相同的实数向量，接下来使用一个线性变换层将该实数向量转换为输出单词在训练词表上的分布概率；线性变换层是一个全连接网络层，这个全连接网络层的作用是将解码器输出的向量投射到一个维度为输出词表大小的向量中，这个向量也被叫做对数几率向量(logits)，该向量中的每一个值表示词表中对应词在该解码步骤的分数；接下来，使用一层softmax层将这个分数变成概率；而指针网络将使用解码器当前解码的最顶层隐层状态与编码器最顶层的隐层向量计算注意力，得到生成单词在输入文本中的分布概率，然后将两个分布概率进行相加得到生成单词在扩展词表上的分布；在训练阶段直接选择概率大的词作为该解码步骤的输出单词，然后当解码出解码终止字符向量后，与相应训练序列的参考摘要进行比较，然后计算交叉熵作为模型损失函数；随后模型根据损失函数使用参数优化方法进行反向传播计算，然后进行模型参数更新；当模型参数更新后，模型根据训练参数读取训练数据集中的下一批次输入序列进行计算，训练模型，直到经过完成指定参数的训练次数作为模型训练完成；当模型经过训练后，即能够用训练后的模型在验证集上验证模型效果，以及用于测试集或实际使用文本的进行提取生成摘要；在验证和测试阶段，模型解码时将使用集束搜索技术来进一步提高模型生成摘要的质量；在测试和验证阶段使用集束搜索，根据集束宽度按照生成词分布概率排序选择最高的指定个词作为该解码步骤的输出。

本发明与现有技术相比，具有如下优点与有益效果：

1、本发明采用自注意力层组建神经网络用于文本摘要自动生成，自注意力机制可以有效提取输入文本的单词之间的长距离依赖关系，使得模型生成的文本摘要质量高。

2、本发明采用自注意力网络结合指针网络来处理文本摘要自动生成问题，指针网络能够有效处理词表中的未登录词生成问题，进一步提高模型的生成摘要的质量。

3、本发明使用叠加自注意力层来组建网络，由于自注意力机制可以并行计算，组建深层模型时计算速度快，训练效率高。

附图说明

图1是本发明方法的一个文本摘要生成流程图。

图2是多头自注意力计算的一个展示图。

图3是本发明方法提出的网络的编码器的结构图。

图4是本发明方法提出的网络的解码器解码模块的结构图。

图5是本发明方法提出的网络结构图。

具体实施方式

下面结合具体实施例对本发明作进一步说明。

本实施例所提供的基于自注意力网络的文本摘要自动生成方法，输入一段文本进行生成。所进行生成摘要的完整流程如图1所示，所设计的文本摘要自动生成的完整神经网络结构如图5所示。在预处理输入文本时，使用分词算法将所要处理的文本分割成一个个语义独立的词，并视输入文本长度进行填充空字符或截断处理；随后，根据词嵌入算法，将输入文本的词序列中的词对应成一个个的相应的词向量序列；接下来，使用编码器对输入文本的词向量序列进行编码；最后，使用解码器根据解码器输入与模型输入的编码进行循环解码生成摘要。该方法具体如下：

1、输入文本预处理：首先，根据输入文本的语言使用相应的分词算法进行分词得到相应输入文本词序列，随后根据分词后的输入文本词序列的长度进行如下处理：如果词序列长度小于400，则将词序列中的不满400个词的部分填充为“UNK”单词；如果词序列的长度大于400，则将词序列中超过400个词的部分进行舍弃处理。因此，经过输入文本预处理后，所要处理的文本序列的长度均为400个词。

2、词嵌入。在模型训练开始时，对训练集上所有输入分词后的词进行收集处理出一个词频表，这个词表根据词在训练集文本中的出现次数进行排序，随后将词表进行截断，选择出现次数排名前50000的词参与训练，同时词表将额外添加4个辅助词，“START”、“END”、“UNK”、“PAD”。在模型训练、验证和测试阶段时，将使用同一个词表进行词嵌入。在本方法中，在模型训练时先通过随机初始化的方式生成词表对应的词向量的词表。词向量的维度为512维，然后根据词找到对应的词向量，最终得到输入文本词序列对应的词向量序列，作为神经网络的输入。

3、编码器编码的计算过程如图3所示。编码器的输入是输入序列经分词后的词嵌入向量序列。当词嵌入向量序列传入模型中计算时首先要进行位置编码。当输入词向量与位置编码融合后，传入自注意力层进行计算。编码器将使用6层自注意力层进行对输入文本的编码，编码器中的自注意力层中的单独一个自注意力头的计算结构如图2所示。在本方法中编码器的每个自注意力层包含8个注意力头，编码器共包含6个自注意力层。当计算每个注意力头时，首先针对输入向量计算自注意力分布，随后将自注意力层计算得到的自注意力分布与自注意力层计算的输入向量进行残差连接，然后再进行Dropout计算以及层归一化计算。

在前面的输出在进行层归一化计算之后再讲输出传入一个前馈神经网络层，该神经网络层中包含有模型需要学习的参数。在本方法中，编码器输入向量和输出向量的维度都是512，而前馈神经网络中的权重矩阵的第二个维度是2048。之后，前馈神经网络层的输出与输入也进行残差连接并进行层归一化再传入下一个编码器模块或最顶层计算结果传入解码器进行解码计算。在经过编码器处理输入序列后，最顶层的编码器模块输出将会转变为包含输入文本经过编码后计算得到的一个维度为512的隐层向量。

4、解码器解码生成输出词的计算过程如图4所示。在解码阶段，每个解码步骤解码器要计算出最终的输出序列中的一个词，同时每个解码步骤的输出提供给下一步骤的解码器更新输入，然后下一步骤解码器再输出对应的解码结果，接下来重复这个步骤直到遇到解码终止符号。因此，在自注意力网络中，编码器只需要进行一次计算，而解码器需要循环解码，多次计算。解码器中自注意力模块的计算与编码器中类似，不同的是，在解码器中的自注意力模块计算完成之后，结果将传入一个编码-解码注意力层，这层与普通的自注意力层的计算类似，唯一的区别是这层从解码器自注意力层的输出来计算查询向量，而从编码器的输出来计算键向量和值向量。同样的，编码-解码注意力层输出与输入也进行残差连接及层归一化计算，再传入一个前馈神经网络层，这个网络层与编码器中的前馈神经网路层结构一样。

当与一个指针网络结合后，解码器输出的单词分布将是一个生成单词在扩展词表上的分布概率。这个扩展词表既包含训练词表，也包含了当前计算的文本中的未登录词。在解码器的最顶层，将输出一个维度与解码器输入维度相同的实数向量，接下来使用一个线性变换层将该实数向量转换为输出单词在训练词表上的分布概率。线性变换层是一个全连接网络层，这个全连接网络层的作用是将解码器输出的向量投射到一个维度为输出词表大小的向量中，这个向量也被叫做对数几率向量(logits)，该向量中的每一个值表示词表中对应词在该解码步骤的分数。接下来，使用一层softmax层将这个分数变成概率。而指针网络将使用解码器当前解码的最顶层隐层状态与编码器最顶层的隐层向量计算注意力，得到生成单词在输入文本中的分布概率，然后将两个分布概率进行相加得到生成单词在扩展词表上的分布。在训练阶段直接选择概率大的词作为该解码步骤的输出单词，然后当解码出解码终止字符向量后，作为模型生成摘要结束。最终，根据解码器生成的摘要，得到不同文本的生成摘要。

以上所述实施例只为本发明之较佳实施例，并非以此限制本发明的实施范围，故凡依本发明之形状、原理所作的变化，均应涵盖在本发明的保护范围内。

Claims

1.一种基于自注意力网络的文本摘要自动生成方法，其特征在于，包括以下步骤：

1)将输入文本进行分词，得到词序列；

2)将词序列进行词嵌入产生相应的词向量序列；

3)使用自注意力网络编码器对词向量序列进行编码；

4)使用自注意力网络解码器对输入文本编码向量进行解码，生成文本摘要，具体如下：

为解决未登录词的生成问题，决定将自注意力网络与指针网络结合；解码器输出的单词分布将是一个生成单词在扩展词表上的分布概率；这个扩展词表既包含训练词表，也包含了当前计算的文本中的未登录词；在解码器的最顶层，将输出一个维度与解码器输入维度相同的实数向量，接下来使用一个线性变换层将该实数向量转换为输出单词在训练词表上的分布概率；线性变换层是一个全连接网络层，这个全连接网络层的作用是将解码器输出的向量投射到一个维度为输出词表大小的向量中，这个向量也被叫做对数几率向量logits，该向量中的每一个值表示词表中对应词在该解码步骤的分数；接下来，使用一层softmax层将这个分数变成概率；而指针网络将使用解码器当前解码的最顶层隐层状态与编码器最顶层的隐层向量计算注意力，得到生成单词在输入文本中的分布概率，然后将两个分布概率进行相加得到生成单词在扩展词表上的分布；在训练阶段直接选择概率大的词作为该解码步骤的输出单词，然后当解码出解码终止字符向量后，与相应训练序列的参考摘要进行比较，然后计算交叉熵作为模型损失函数；随后模型根据损失函数使用参数优化方法进行反向传播计算，然后进行模型参数更新；当模型参数更新后，模型根据训练参数读取训练数据集中的下一批次输入序列进行计算，训练模型，直到经过完成指定参数的训练次数作为模型训练完成；当模型经过训练后，即能够用训练后的模型在验证集上验证模型效果，以及用于测试集或实际使用文本的进行提取生成摘要；在验证和测试阶段，模型解码时将使用集束搜索技术来进一步提高模型生成摘要的质量；在测试和验证阶段使用集束搜索，根据集束宽度按照生成词分布概率排序选择最高的指定个词作为该解码步骤的输出。

2.根据权利要求1所述的一种基于自注意力网络的文本摘要自动生成方法，其特征在于，在步骤1)中，将输入文本进行分词，具体是：英文文本将使用CoreNLP工具进行分词，中文文本将使用结巴分词工具进行分词，在经过分词后，原始文本就转换成为一个由多个词组成的词序列。

3.根据权利要求1所述的一种基于自注意力网络的文本摘要自动生成方法，其特征在于，在步骤2)中，将词序列进行词嵌入产生相应的词向量序列，具体如下：

4.根据权利要求1所述的一种基于自注意力网络的文本摘要自动生成方法，其特征在于：在步骤3)中，使用自注意力网络编码器对词向量序列进行编码，具体如下：