CN113127631A

CN113127631A - 基于多头自注意力机制和指针网络的文本摘要方法

Info

Publication number: CN113127631A
Application number: CN202110441466.5A
Authority: CN
Inventors: 邱东; 杨兵
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2021-04-23
Filing date: 2021-04-23
Publication date: 2021-07-16
Anticipated expiration: 2041-04-23
Also published as: CN113127631B

Abstract

本发明请求保护一种基于多头自注意力机制和指针网络的文本摘要方法，包括步骤：首先，101将对数据集中的文本信息进行预处理操作；102建立神经网络学习模型，在神经网络模型中，建立词向量，多头自注意力机制和指针网络模型，得到每一个词的生成的分布概率以及损失函数；103反向传播，利用合适的梯度下降算法(Adam算法)，进行更新模型参数和损失函数；104束搜索，使用已经训练好的模型结合束搜索，在多个结果中得到最佳的摘要生成。本发明主要是通过公开的数据集，利用神经网络模型，通过对其反向传播训练模型，在通过束搜索得到较好的摘要结果，有效的解决了摘要未登录词和摘要信息不全的问题。

Description

基于多头自注意力机制和指针网络的文本摘要方法

技术领域

本发明属于神经网络、自然语言处理领域，尤其是自然语言处理领域的文本摘要方法。

背景技术

随着互联网产生的文本数据越来越多，文本信息过载问题日益严重，对各类文本进行一个“降维”处理显得非常必要，从大量文本信息中快速提取重要的内容，已成为当今面对信息爆炸的一个迫切需求，因此自动文本摘要任务应运而生文本摘要的研究是自然语言处理领域的一个重要领域研究领域，文本摘要是一种从一个或多个信息源中抽取关键信息的方法，它帮助用户节省了大量时间，用户可以从摘要获取到文本的所有关键信息点而无需阅读整个文档。文本摘要是一个典型的文本压缩任务。

文本摘要的目的是从原文中提取一段内容或者生成一段新的内容，概况出原文的主要信息。即通过自动分析给定的文档或者文档集，摘取其中的要点信息，最终输出一篇短小的摘要，摘要的目的就是通过对原文进行压缩，提炼，为用户提供简明扼要的内容描述，有效的解决了信息过载的问题，降低成本。

近年来，由于抽取式摘要有内容选择错误，连贯性差，灵活性差等问题，而生成式摘要允许生成的摘要包含新的词法或短语，其灵活性更高，其中生成式文本摘要，是一个端到端的过程，这种技术方案，类似于翻译任务，随着近几年的深度学习的火热和神经网络模型的发展，其中序列到序列(Seq2Seq)模型被广泛用于生成式摘要任务，并且取得了一定的成果。生成式文本摘要己经引起多方面的关注，成为文本摘要中的一个前沿课题。生成式摘要根据原文，允许生成新的词语、短语来组成摘要。但是序列到序列模型也存在很多的问题，为了有效的提取原始文本的信息和解决未登录词的问题，一种基于序列到序列的自注意力机制模型的方法来增强文本摘要的生成效果。

本发明提供了一种对原文本从多维度进行组合，并且能够给这些组合不同的权重，能够有效的收集原文本自身的语义信息和利用指针网络和覆盖模型来减少出现的未登录词问题。

发明内容

本发明旨在解决以上现有技术的问题。提出了一种方法。本发明的技术方案如下：

一种基于多头自注意力机制和指针网络的文本摘要方法，其包括以下步骤：

101、计算机对文本语料库进行预处理，包括对CNN/DailyMail数据集进行分词，建立词典文件并且将数据集划分为训练集、测试集、验证集。读取训练数据、测试数据集、验证数据集到计算机中，将每个数据集中的样本划分为文本信息和摘要信息，建立停顿词和特殊词表，利用词典将文本信息和摘要转换为onehot向量和建立未登录词表；

102、基于序列到序列的多头自注意力机制、覆盖机制和指针网络，建立神经网络模型，将101中得到的onehot向量输入，得到整个模型的损失函数值；

103、根据Adam算法，进行梯度下降，更新神经网络模型的参数，降低损失函数值；

104、选取在验证集中损失函数最小的模型，利用束搜索，根据输入文本，生成相应的摘要内容。

进一步的，所述步骤101对语料库进行预处理操作，操作如下：

将CNN/DailyMail数据集，使用了stanford-corenlp进行分词，并且建立词典文件，并且将数据集划分3部分，分别为train，val，test；

每一部分都做如下相同的操作：对每一个样本根据@highlight来将其划分文本与摘要；将文本信息利用词典转换为onehot向量，建立未登录词表以及特殊词表['<pad>','<unk>','<start>','<stop>']，若某个词未出现词典中，则将其加入到未登录词表中，未登录词表是在每一个样本的文本输入时建立的。

进一步的，所述步骤102建立神经网络学习模型操作，主要操作如下：

1)基于序列到序列的自注意力机制、覆盖机制和指针网络建立神经网络学习模型，包括了建立编码层，解码层，多头自注意力机制，软注意力机制，生成门控制值，合成门控制值，训练层和预测模型；

2)在编码层中，将输入的onehot向量进行字嵌入，对输入的信息进行计算其mask值，然后将经过字嵌入的输入信息输入到LSTM中，得到解码层和计算Attention所需要的Output和h值；

3)将编码层得到值，进行降维，然后分别输入到多头自注意力机制中和解码层中；

4)将多头自注意力机制计算的值输入解码层中，在解码层中利用编程层的信息和解码层的输入计算软注意力机制；

5)将软注意力机制值和编程层的值和解码层的输入信息去计算相应的两个门控制；

6)根据计算出的两个不同的注意力机制算出的不同生成层的概率分布进行门控权重求和，并且将未登录词表和生成词的概率进行融合，形成新的生成词概率分布；

7)根据解码层的输入，去查找对应词在概率分布的值，在利用交叉熵去求其损失值，将所有的损害值求和后平均，得到平均损失值。。

进一步的，所述步骤2)中，在编码层中，将输入的onehot向量进行字嵌入，对输入的信息进行计算其mask值，然后将经过字嵌入的输入信息输入到LSTM中，得到解码层和计算Attention所需要的Output和h值；在编码层的LSTM的长度是固定，因此我们需要将样本文本固定为一个相同的长度，比固定长度长的文本截断，比固定长度短的文本，需要补齐，补Pad即为字典中的0。但是这样引入的0会对后面的损失函数计算时候使用的softmax造成误差，因为我们需要计算其mask(mask的长度和文本的固定长度相同)，若在此位置有文本，在mask中用1表示，若此位置是0即是补的长度Pad，在mask中为0，我们使用文本补长后的文本乘以mask的值即可得到真正文本信息。Output,h＝LSTM(X)X表示输入的文本。

进一步的，所述步骤4)将多头自注意力机制计算的值输入解码层中，在解码层中利用编程层的信息和解码层的输入计算软注意力机制。软注意力机制的公式如下：

a^t＝softma x(e^t)

输入的文本信息，经过双向的LSTM后可得到编码的隐藏状态h_i。在解码端，解码器是一个单向的LSTM，在时间步t时得到解码状态为s_t，利用h_i和s_t计算解码时间步t在原文本中第i个词的注意力权重。其中V、W_h、W_s和b_attn是可学习的参数，a^t是当前时刻的注意力分布。

进一步的，所述步骤5)将软注意力机制值和编程层的值和解码层的输入信息去计算相应的两个门控制；门控制的数学公式：

P_gate＝σ(W_yY+W_h*h^*+W_esS_es+W_dsS_t+B)

σ是sigmod函数。Y是来自多头自注意力机制的上下文本向量，h^*是来自软注意力机制的上下文本向量，S_es是编码层的双向LSTM输出的隐层状态值，S_t是解码层当前时间步t的解码的隐层状态值，x_t是解码器的输入。其他参数是可学习的参数。

进一步的，所述步骤6)根据计算出的两个不同的注意力机制算出的不同生成层的概率分布进行门控权重求和，并且将未登录词表和生成词的概率进行融合，形成新的生成词概率分布，数学公式如下：

P_Self-vocab＝softmax(V′(Y)+b)

P_wvocab＝P_gate*P_vocab+(1-P_gate)*P_Self-vocab

P_Self-vocab是多头自注意力机制计算出的概率分布，P_vocab是软注意力机制计算出的概率分布。利用P_gate将两种概率融合。再使用p_gen来融合指针网络，

表示原文本中的词。

进一步的，所述步骤7)根据解码层的输入，去查找对应词在概率分布的值，在利用交叉熵去求其损失值，将所有的损害值求和后平均，得到平均损失值。数学公式如下：

P_w为生成标签中的当前词，在概率分布中的值。

进一步的，所述步骤103根据Adam算法，进行梯度下降，更新神经网络模型的参数，具体包括：

1)使用了Adam优化器，利用梯度下降，更新模型中已有的参数。

2)为了解决过拟合问题，定期使用梯度剪裁方式。

进一步的，所述步骤104束搜索操作，具体如下：

1)根据上面训练好的模型，从中挑选验证集中损失值较)的模型。将测试集中的数据输入到已经训练好的模型中，生成需要的摘要，引入束搜索，每次选取前K个最高的概率值，来预测下一个词，然后在从这K*K个中选取得分最高的K个作为下一路扩展的K个，直到最后，将得到选取整体概率值最高的生成结果；

2)利用Rouge这个包，来对生成的摘要和标记进行对比。来评生成的摘要的效果。

本发明的优点及有益效果如下：

本发明技术方案对指针生成网络算法进行了改进，提出了多头双注意力指针网络(MDAPT)算法，引入门机制去融合文本的关键特征和文本的上下文语义信息，同时使用束搜索来生成更有效的摘要。可以获取原文本内部的语义信息和标签去找寻原文本的注意力机制相融合，使得生成的摘要能够充分获取原文本的重要特征，使生成的摘要更加的简洁。原本的指针生成网络算法，其利用的是软注意机制和指针网络来解决未登录词问题，只根据摘要标签来关注原文本的信息，而忽略了原文本自身信息，摘要是来自对原文本的总结，因此需要原文本信息的提取，为了使原文本信息和标签同时影响摘要的生成，引入门控制来平衡二者，使其生成效果更好的摘要。

附图说明

图1是本发明提供优选实施例的整体流程图；

图2是数据预处理流程图；

图3为本方法的整体架构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、详细地描述。所描述的实施例仅仅是本发明的一部分实施例。

本发明解决上述技术问题的技术方案是：

参考图1，图1为本发明为一种基于序列到序列的多头自注意力机制和指针网络的文本摘要方法的流程图，具体包括：101对语料库进行预处理操作，参考图2，主要操作如下：

1)将CNN/DailyMail数据集，使用了stanford-corenlp进行分词，并且建立词典文件，并且将数据集划分3部分，分别为train，val，test；

2)将上面的三部分数据集都做如下相同的操作：对数据集每一个样本根据@highlight来将其划分文本与摘要；将文本信息利用词典转换为onehot向量，建立未登录词表(若某个词未出现词典中，则将其加入到未登录词表中。未登录词表是在每一个样本的文本输入时建立的)，以及特殊词表['<pad>','<unk>','<start>','<stop>']。

102建立神经网络模型，参考图3，主要操作如下

1)在编码层中，将输入的onehot向量进行字嵌入，变得更加的紧凑。对输入的信息进行计算其mask值(避免在计算机softmax的时候，多个0所带来的误差)，然后将经过字嵌入的输入信息输入到LSTM中，得到解码层和计算Attention所需要的Output和h值。

2)我们用X来代替output的值，我们定义了三个矩阵W_q，W_k，W_v。来计算出自注意机制的QKV的值：Q＝X*W_q，K＝X*W_k，V＝X*W_v。则我们可以计算出自注意力机制得分：

为加强对原始问题信息的提取，我们使用增强的多头自注意机制，即

head_i＝Attention(QW_i ^Q，KW_i ^K，VW_i ^V)

H＝(head₁，...，head_i，...，head_h)

M＝W_mH

Y＝SUM(M)

其中Wm是可以学习到的参数，最终可以利用softmax函数来得到字典的概率分布：

P_Self-vocab＝sottmax(V′(Y)+b)

其中V′和b是可学习到的参数。根据字典概率分布就得到当前时间步生成的预测词：

P(w)＝P_Self-vocab(w)

在训练阶段，时间步t时的损失为：

那么输入句子序列的整体损失为：

3)为了解决文本摘要中的未登录词问题和摘要生成重复问题，我们引入指针生成网络。在模型中，使用每一步解码的隐层状态与编码器状态计算权重。输入的文本信息，经过双向的LSTM后可得到编码的隐藏状态h_i。在解码端，解码器是一个单向的LSTM，在时间步t时得到解码状态为s_t，利用h_i和s_t计算解码时间步t在原文本中第i个词的注意力权重：

a^t＝sottmax(e^t)

其中V、W_h、W_s和b_attn是可学习的参数，a^t是当前时刻的注意力分布。

在指针网络中，为解决OOV问题，选择从原文本提取出部分词来扩展词典。

为了判断当前时间步的解码器生成的词是生成还是复制，引入了一个生成概率P_gen。当P_gen为1时，意味着只能使用来自词典的词，不能使用原文本中的词。当P_gen为0时，意味着只能使用来自原文本的词，不能使用词典中的词。

则时间步t预测词的概率分布为：

4)为了解决Seq2Seq带来的重复问题，将先前时间步的注意力权重加到一起得到覆盖向量c^t(coverage vector)，用先前的注意力权重决策来影响当前注意力权重的决策，避免在同一位置重复，从而避免重复生成文本。计算上，先计算coverage vector c^t：

在覆盖向量添加到注意力权重的计算过程中，c^t用来计算

同时，为避免重复，需要一个损失函数来惩罚重复注意力，coverage loss计算方式为：

coverage loss是一个有界的量

最终的损失函数为：

5)使用多头自注意力机制后，发现对原文本语义提取效果比其他模型更好，并且软注意力机制可以关注文本的关键特征，我们试图将这两者机制进行融合使用，为了构建这种融合，我们在网络中引入了门机制，根据编码的隐层状态和解码的隐层状态来生成解码时每一步所需要的概率值P_gate∈[0，1]，公式如下：

P_gate＝σ(W_yY+W_h*h^*+W_esS_es+W_dsS_t+B)

其中W_y，W_h*，W_es，W_ds和B都是可以学习到的参数，σ是sigmod函数。Y是来自多头自注意力机制的上下文本向量，h^*是来自软注意力机制的上下文本向量，S_es是编码层的双向LSTM输出的隐层状态值，S_t是解码层当前时间步t的解码的隐层状态值，h_i是编码的隐藏状态，

是解码时间步t在原文本中第i个词的注意力权重。P_gate用来确定当前词的生成应该关注原文本的语义信息还是关键特征信息。因此当前词汇表生成的概率为：

P_wvocab＝P_gate*P_vocab+(1-P_gate)*P_Self-vocab

其中V″，V^temp，b′和b和是可以学习的参数，s_t来自时间步为t的解码隐层状态值，引入指针网络，我们可知当前词汇表的生成概率为：

103进行反向传播更新模型的参数，主要操作如下：

根据Adam算法，进行梯度下降，更新模型的参数。

104选取损失函数最小最好的模型，利用束搜索，根据输入文本，生成相应的摘要内容。

综上可知。本发明利用序列到序列模型及增强的多头自注意力机制和指针网络，来找到原始文本中的关键特征和原始文本的上下联系，来增强文本摘要的生成效果。对输入的语句进行分词预测等步骤均是计算机来执行完成的，其是具备工业运用或者产业运用的方法，并不是需要人全程参与的步骤，其是利用了自然规律来完成的技术方案，对现有的计算机文本摘要方式进行改进，因此属于技术方案。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后，技术人员可以对本发明作各种改动或修改，这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims

1.一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，所述步骤101对语料库进行预处理操作，操作如下：

2)将上面的三部分数据集都做如下相同的操作：对数据集每一个样本根据@highlight来将其划分文本与摘要；将文本信息利用词典转换为onehot向量，建立未登录词表以及特殊词表['<pad>','<unk>','<start>','<stop>']，若某个词未出现词典中，则将其加入到未登录词表中，未登录词表是在每一个样本的文本输入时建立的。

3.根据权利要求1所述的一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，所述步骤102建立神经网络学习模型操作，主要操作如下：

3)将编码层得到的值，进行降维，然后分别输入到多头自注意力机制中和解码层中；

4.根据权利要求3所述的一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，所述步骤2)中，在编码层中，将输入的onehot向量进行字嵌入，对输入的信息进行计算其mask值，然后将经过字嵌入的输入信息输入到LSTM中，得到解码层和计算Attention所需要的Output和h值；由于每次需要输入多个样本的文本，而每一个文本的长度又不完全相同，在编码层的LSTM的长度是固定，因此我们需要将样本文本固定为一个相同的长度，比固定长度长的文本截断，比固定长度短的文本，需要补齐，补Pad即为字典中的0。但是这样引入的0会对后面的损失函数计算时候使用的softmax造成误差，因为我们需要计算其mask(mask的长度和文本的固定长度相同)，若在此位置有文本，在mask中用1表示，若此位置是0即是补的长度Pad，在mask中为0，我们使用文本补长后的文本乘以mask的值即可得到真正文本信息。Output,h＝LSTM(X)X表示输入的文本。

5.根据权利要求4所述的一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，所述步骤4)将多头自注意力机制计算的值输入解码层中，在解码层中利用编程层的信息和解码层的输入计算软注意力机制；计算机软注意机制的公式如下：

a^t＝softma x(e^t)

输入的文本信息，经过双向的LSTM后可得到编码的隐藏状态h_i。在解码端，解码器是一个单向的LSTM，在时间步t时得到解码状态为s_t,利用h_i和s_t计算解码时间步t在原文本中第i个词的注意力权重。其中V、W_h、W_s和b_attn是可学习的参数，a^t是当前时刻的注意力分布。

6.根据权利要求5所述的一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，所述步骤5)将软注意力机制值和编程层的值和解码层的输入信息去计算相应的两个门控制；两个门控公式如下：

P_gate＝σ(W_yY+W_h*h^*+W_esS_es+W_dsS_t+B)

7.根据权利要求6所述的一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，所述步骤6)根据计算出的两个不同的注意力机制算出的不同生成层的概率分布进行门控权重求和，并且将未登录词表和生成词的概率进行融合，形成新的生成词概率分布，数学公式如下：

P_Self-vocab＝softmax(V′(Y)+b)

P_wvocab＝P_gate*P_vocab+(1-P_gate)*P_Self-vocab

表示原文本中的词。

8.根据权利要求6所述的一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，所述步骤7)根据解码层的输入，去查找对应词在概率分布的值，在利用交叉熵去求其损失值，将所有的损害值求和后平均，得到平均损失值，数学公式如下：

P_w为生成标签中的当前词，在概率分布中的值。

9.根据权利要求8所述的一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，所述步骤103根据Adam算法，进行梯度下降，更新神经网络模型的参数，具体包括：

2)为了解决过拟合问题，定期使用梯度剪裁方式。

10.根据权利要求8所述的一种基于多头自注意力机制和指针网络的文本摘要方法，其特征在于，所述步骤104束搜索操作，具体如下：