CN112417138A

CN112417138A - 一种结合指针生成式与自注意力机制的短文本自动摘要方法

Info

Publication number: CN112417138A
Application number: CN202011284266.5A
Authority: CN
Inventors: 姜志祥; 闫国玉; 张帆; 秦蕾
Original assignee: Beijing Institute of Computer Technology and Applications
Current assignee: Beijing Institute of Computer Technology and Applications
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-26

Abstract

本发明涉及一种结合指针生成式与自注意力机制的短文本自动摘要方法，包括：对数据集进行分词处理训练，训练得到的结果作为编码器端的输入；在编码器与解码器底部嵌入中加入位置编码；利用解码器当前时刻以及前一时刻的输出，以及注意力分布拼接得到指针生成网络的生成概率，控制复制源文本中内容生成摘要或根据注意力生成摘要，若词汇分布中不存在解码的词，则利用多头部注意力分布复制得到，若词汇分布中存在解码的词，则使用解码的词的分布式表示。本发明提升摘要效果的基础上减少训练时间，提高工作者的浏览和处理信息的效率，降低信息负载。

Description

一种结合指针生成式与自注意力机制的短文本自动摘要方法

技术领域

本发明涉及一种自然语言处理领域，特别涉及一种结合指针生成式与自注意力机制的短文本自动摘要方法。

背景技术

随着信息时代的发展，互联网信息量急剧增长，人们每天都能通过各种渠道接收到海量的文本信息，因此，从大量冗余的信息中提炼出有用的信息成为亟待解决的问题。文本摘要能够识别一个文档或一组相关文档中最重要的信息，并将其压缩为短文本以保留整体含义。自动文本摘要将源文本转化为具有相关语义的短文本，提炼信息，减少人类的阅读时间。

文本自动摘要方法通常可分为抽取式摘要和生成式摘要两种。抽取式方法在理解源文本语义的基础上，利用词库中的单词，将源文本中重要的句子和段落组合成较短的文本，生成摘要。由于抽取式摘要主要考虑单词的词频等特性，并不包含语义信息，所以无法完整的表达文本的语义信息。生成式摘要方法利用自然语言处理算法进行转述、同义替换、句子缩写等操作来获得文档的摘要。生成式摘要的质量更高，但难度较大、复杂性较高。

由于生成式摘要能更好的理解输入信息、得到更好的效果，生成式摘要已经成为主流的方法，迫切需要克服其难度较大、复杂性较高的缺陷。

发明内容

本发明的目的在于提供一种基于指针生成式与自注意力机制的短文本自动摘要方法，用于解决生成式摘要模型中难度较大、复杂性较高的问题。

本发明一种基于指针生成式与自注意力机制的短文本自动摘要方法，其中，包括：对数据集进行分词处理训练，训练得到的结果作为编码器端的输入；在编码器与解码器底部嵌入中加入位置编码；利用解码器当前时刻以及前一时刻的输出，以及注意力分布拼接得到指针生成网络的生成概率，控制复制源文本中内容生成摘要或根据注意力生成摘要，若词汇分布中不存在解码的词，则利用多头部注意力分布复制得到，若词汇分布中存在解码的词，则使用解码的词的分布式表示；编码器由自注意力层和全连接前馈神经网络层两个子层构成，子层之间的连接采用残差连接，然后进行层归一化；解码器由自注意力层、全连接前馈神经网络层以及带掩码注意力层三个子层组成，子层之间采用残差连接并进行归一化。

本发明提升摘要效果的基础上减少训练时间。提高工作者的浏览和处理信息的效率，降低信息负载。

附图说明

图1是本发明的一种基于指针生成式与自注意力机制的短文本自动摘要模型示意图；

图2是本发明的一种基于指针生成式与自注意力机制的短文本自动摘要模型的缩放点积注意力计算示意图；

图3是本发明的一种基于指针生成式与自注意力机制的短文本自动摘要模型的多头注意力计算示意图；

具体实施方式

为使本发明的目的、内容、和优点更加清楚，下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述。

本发明提供一种基于结合指针生成式网络与自注意力机制的短文本自动摘要方法，通过编码器对输入信息进行编码，进行自注意力计算，将对应结果矩阵输入解码器，进行解码计算，同时通过指针概率控制复制还是生成单词。最终实现自动摘要的目标。

一种基于结合指针生成式网络与自注意力机制的短文本自动摘要方法具体包括：

(1)分词以及词向量构建模块，通过预处理将每篇正文和原摘要放在同一行中，利用结巴(jieba)工具对数据集进行分词处理，对照词典，生成句子的有向无环图(DAG)，找到最短路径后，直接对原句进行截取，如果某个字在字典中出现的概率为零，则使用未知(unknown，UNK)标记代替。对未登录词(out of vocabulary，OOV)词，使用隐马尔可夫模型进行新词发现，得到分词后，再使用词向量生成工具gensim进行字向量训练，训练得到的结果再作为编码器端的输入。

(2)位置编码模块，采用在编码器与解码器底部嵌入中加入位置编码，编码信息选择使用不同的正弦和余弦函数，其中，pos表示在句子中的位置，i为维度，d_model＝512。公式如下所示：

(3)以序列到序列为基础的指针式生成网络模型，指针式生成网络模型能够通过指针概率控制是从源文本复制得到摘要还是从解码器利用词典生成摘要。利用解码器当前时刻以及前一时刻的输出，以及注意力分布拼接得到指针生成网络的生成概率P_gens，该概率控制是复制源文本中内容生成摘要还是根据注意力生成摘要，若词汇分布中不存在解码的词，则直接利用多头部注意力分布复制得到，若词汇分布中存在解码的词，则使用该词的分布式表示。

(4)编码模块由6层编码器组成，编码器由自注意力层和全连接前馈神经网络层两个子层构成，子层之间的连接采用残差连接(residual connection)，然后进行层归一化(layer normalization)。每个子层的输出都为LayerNorm(x+Sublayer(x))，其中，sublayer(x)是由子层本身实现的功能，为了使残差连接更加方便计算，所有子层以及嵌入层输出的维度大小d_model都为512。

(5)解码模块由6层解码器组成，解码器由自注意力层和全连接前馈神经网络层以及带掩码注意力层三个子层组成，子层之间采用残差连接并进行归一化，所有子层以及嵌入层输出的维度大小d_model都为512。

图1是本发明的一种基于指针生成式与自注意力机制的短文本自动摘要模型示意图，如图1所示，该发明包括：

如图2以及图3所示，两种注意力计算如下：

首先根据嵌入向量和加权矩阵计算得到三个向量，分别是查询向量Q、键向量K和值向量V。这三个向量的生成方式是词嵌入与三个权重矩阵((W^Q,W^R,W^V))相乘。

Q_i＝QW_i ^Q,K_i＝KW_i ^K,V_i＝VW_i ^V i＝1,2,...,8

接下来使计算缩放点积注意力，计算公式如下所示，计算完成后，通过softmax传递结果，得到注意力向量就可以传递给前馈神经网络。除以d_k是为了防止经过softmax后的结果变得更加集中，使得梯度更稳定。

head_i＝Attention(QW_i ^Q,K_i＝KW_i ^K,V_i＝VW_i ^V)

计算出自注意力头部矩阵后，需要将8个矩阵拼接起来，然后与矩阵W^O相乘，得到多头部自注意力向量，W^O是经过联合训练的矩阵。

Multihead(Q,K,V)＝Concat(head_i,...,head_n)n＝8

多注意力网络相当于多个不同自注意力的集成，将数据X分为8个头，分别输入到8个自注意力层中，乘以各个加权矩阵，得到8个加权后的特征矩阵Z，将8个矩阵Z按列拼成一个大的特征矩阵，乘以权重矩阵W^o得到输出Z。

本发明实施过程中，方法包括：

使用jieba对文本进行分词，同时构建词典。分词结果然后利用gensim中的word2vec进行文本向量化表示，得到的向量输入到模型中。

编码器对输入的向量进行自注意力和多头部自注意力的计算，经过softmax传递结果，再经过前馈神经网络层，输出到下一个编码器，经过6层编码器计算后得到中间注意力变量输入到解码器中。

解码器对输入向量进行计算，每一步输出都会作为下一步的输入，对自注意力的计算与编码器端相同，将最后一个解码器中计算得到的多头部自注意力作为注意力分布。解码器每次解码会输出一个向量，经过线性变化层和softmax后产生当前预测在词典上的词汇分布P_vocab，P_vocab是词典中单词的概率分布。

根据词汇分布和注意力分布计算指针生成概率P_gens，最后根据生成概率和词汇分布确定是从原文本复制单词还是从词典中生成单词。

进一步的，对于一个具体实施例，该方法包括：

步骤1：分词以及词向量构建，通过预处理将每篇正文和原摘要放在同一行中，利用jieba对数据集进行分词处理，对照词典，生成句子的有向无环图(DAG)，找到最短路径后，直接对原句进行截取，如果某个字在字典中出现的概率为零，则使用UNK标记代替。对未登录词，使用隐马尔可夫模型进行新词发现，得到分词后，再使用gensim进行词向量训练，训练得到的结果再作为编码器端的输入。

步骤2：位置编码，因为自注意力机制消除了卷积的同时也不会考虑输入信息的相对位置信息，因此我们采用了在编码器与解码器底部嵌入中加入位置编码，编码信息选择使用不同的正弦和余弦函数，其中pos表示在句子中的位置，i为维度，d_model＝512。公式如下所示

步骤3：两种自注意力计算，先计算放缩点积注意力，即自注意力，计算完成后通过softmax传递结果，得到注意力向量就可以传递给前馈神经网络。除以d_k是为了防止经过softmax后的结果变得更加集中，使得梯度更稳定。计算出自注意力头部矩阵后，需要将8个矩阵拼接起来，然后与矩阵W^o相乘，得到多头部自注意力向量。

步骤4：计算词汇分布P_vocab以及生成概率P_gens。解码器最后会输出一个向量，经过线性变化层把向量投射到一个对数几率(logits)的向量中，向量中的每个单元格都会产生一个分数，经过softmax后会将这些变为一个概率，其中概率最高的单元格会被选中，然后对应单词会作为这一时刻的输出。利用解码器当前时刻以及前一时刻的输出以及注意力分布拼接得到指针生成网络的生成概率P_gens，该概率控制是复制源文本中内容生成摘要还是根据注意力生成摘要，若词汇表分布中不存在解码的词，则直接利用多头部注意力分布复制得到，若词汇表分布中存在分布，则使用词汇表分布。

设解码器输出为d_i，注意力分布为a_i，t-1时刻的注意力向量为a_i-1，词嵌入向量为embX_i，l₂为输出端最大长度，词汇分布为P_vocab。将t-1时刻注意力将其与t时刻嵌入向量进行拼接得到新向量embY_i。

embY_i＝concat[embX_i,a_i-1]

那么在t时刻解码器的输出即为

S_i为解码器输出经过全连接层后的输出：

S_i＝FFN(d_i)

根据t时刻和t-1时刻解码器已经得到的摘要字符的向量。以及最新的注意力分布，利用输入供给可以计算出生成概率P_gens：

P_gens＝sigmod[S_i-1,S_i,a_i]

P_vocab＝softmax([S_i,a_i])

最终单词的概率分布为：

P_gens可以看作是一个开关，控制是从输入队列复制词还是生成新词，如果是未登录单词，P_vocab＝0，只能通过复制得到，并保留右侧部分；如果没有出现在输入文本中时，单词只能通过模型生成，并保留左侧部分。复制网络的引用能够在很大程度上减轻未登录词问题，防止摘要对原文的描述出现细节偏差问题。

步骤5：计算损失函数。在时刻t，目标单词在此时刻被解码，那t时刻的损失函数就是该单词对应的概率分布的对数值的负数，在损失函数前面添加一个以e为底的对数。

在训练过程中对语料进行自动摘要训练时，并不是只需要对每一时刻计算损失函数值，还需要计算整体损失函数值的反向传播，以更新模型。设当前解码总时长为T，则对应输入序列的总体损失函数值为：

通过对输入文本信息进行分词、词向量建模后输入到编码器中，然后在编码器中进行自注意力的计算，经过残差连接后得到中间向量，输入到解码器中进行计算，输出向量经过线性变化层把向量投射到一个对数几率(logits)的向量中，再经过softmax后会将这些变为一个概率，通过此概率确定是从源文本复制还是生成摘要。

本发明公开了一种结合指针生成式与自注意力机制的短文本自动摘要模型，该模型包括：(1)分词以及词向量构建模块，利用jieba分词工具，gensim工具进行词向量计算；(2)位置编码模块，使用正弦和余弦函数表示输入序列的位置信息；(3)以序列到序列为基础的指针式生成网络模型；(4)编码模块，由6层编码器组成，编码器由自注意力层和全连接前馈神经网络层两个子层构成，子层之间采用残差连接；(5)解码模块，由6层相同的解码器组成，解码器由3个子层，子层之间采用残差连接并进行归一化。本发明结合以序列到序列模型为基础的指针生成式和自注意力机制，在有效提高摘要准确率的同时，还能够解决未登录词问题，防止生成摘要的过程中出现重复，使用自注意力机制代替传统的循环神经网络，能提升模型训练的并行性，消除卷积计算，减少训练时间。本发明能够通过将输入的短文本信息进行计算得到文本信息的摘要内容，可以在不改变原文本意思的情况下保留原文中心内容。本发明可以应用于科技情报领域以及信息检索领域中，进行自动摘要，获取文本重要信息，提高工作者浏览和处理信息的效率，有效降低信息负载。

与现有的序列到序列模型相比，本发明在保留原有模型优点的同时，引入自注意力机制和复制机制以及输入嵌入方法，得到一种基于指针生成式与自注意力机制的短文本自动摘要模型，模型完全消除了重复和卷积，避免了递归，具有更高的并行性，能提升训练速度，降低长时间训练导致的性能下降。与原来的混合指针式网络相比，本发明的模型能够快速降低损失函数值，减少训练时间，并提升摘要的准确度。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明技术原理的前提下，还可以做出若干改进和变形，这些改进和变形也应视为本发明的保护范围。

Claims

1.一种基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，包括：

对数据集进行分词处理训练，训练得到的结果作为编码器端的输入；

在编码器与解码器底部嵌入中加入位置编码；

利用解码器当前时刻以及前一时刻的输出，以及注意力分布拼接得到指针生成网络的生成概率，控制复制源文本中内容生成摘要或根据注意力生成摘要，若词汇分布中不存在解码的词，则利用多头部注意力分布复制得到，若词汇分布中存在解码的词，则使用解码的词的分布式表示；

编码器由自注意力层和全连接前馈神经网络层两个子层构成，子层之间的连接采用残差连接，然后进行层归一化；

解码器由自注意力层、全连接前馈神经网络层以及带掩码注意力层三个子层组成，子层之间采用残差连接并进行归一化。

2.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，通过预处理将每篇正文和原摘要放在同一行中，利用jieba分词工具对数据集进行分词处理，对照词典，生成句子的有向无环图，找到最短路径后，对原句进行截取，如果某个字在字典中出现的概率为零，则使用未知标记代替，对未登录词，使用隐马尔可夫模型进行新词发现，得到分词后，使用词向量生成工具gensim进行字向量训练，训练得到的结果作为编码器端的输入。

3.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，采用在编码器与解码器底部嵌入中加入位置编码，编码信息选择使用不同的正弦和余弦函数，其中，pos表示在句子中的位置，i为维度，d_model＝512，公式如下所示：

4.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，编码器每个子层的输出都为LayerNorm(x+Sublayer(x))，其中，sublayer(x)是由子层本身实现的功能，所有子层以及嵌入层输出的维度大小d_model都为512。

5.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，注意力计算包括：

根据嵌入向量和加权矩阵计算得到三个向量，分别是查询向量Q、键向量K和值向量V，三个向量的生成方式是词嵌入与三个权重矩阵((W^Q,W^R,W^V))相乘；

Q_i＝QW_i ^Q,K_i＝KW_i ^K,V_i＝VW_i ^V i＝1,2,...,8；

接下来使计算缩放点积注意力，计算公式：

计算完成后，通过softmax传递结果，得到注意力向量就可以传递给前馈神经网络，除以d_k是为了防止经过softmax后的结果变得更加集中，使得梯度更稳定；

head_i＝Attention(QW_i ^Q,K_i＝KW_i ^K,V_i＝VW_i ^V)；

计算出自注意力头部矩阵后，需要将8个矩阵拼接起来，然后与矩阵W^O相乘，得到多头部自注意力向量，W^O是经过联合训练的矩阵；

Multihead(Q,K,V)＝Concat(head_i,...,head_n)n＝8；

6.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，

计算词汇分布P_vocab以及生成概率P_vocab,解码器最后输出一个向量，经过线性变化层把向量投射到一个对数几率的向量中，向量中的每个单元格都会产生一个分数，经过softmax后变为一个概率，其中概率最高的单元格会被选中，对应单词作为这一时刻的输出,利用解码器当前时刻以及前一时刻的输出以及注意力分布拼接得到指针生成网络的生成概率P_gens，控制是复制源文本中内容生成摘要还是根据注意力生成摘要，若词汇表分布中不存在解码的词，则利用多头部注意力分布复制得到，若词汇表分布中存在分布，则使用词汇表分布。

7.如权利要求6所述的基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，

设解码器输出为d_i，注意力分布为a_i，t-1时刻的注意力向量为a_i-1，词嵌入向量为embX_i，l₂为输出端最大长度，词汇分布为P_vocab，将t-1时刻注意力将其与t时刻嵌入向量进行拼接得到新向量embY_i，

embY_i＝concat[embX_i,a_i-1]；

那么在t时刻解码器的输出即为：

S_i为解码器输出经过全连接层后的输出：

S_i＝FFN(d_i)；

根据t时刻和t-1时刻解码器已经得到的摘要字符的向量，以及最新的注意力分布，利用输入供给可以计算出生成概率P_gens：

P_gens＝sigmod[S_i-1,S_i,a_i]；

P_vocab＝softmax([S_i,a_i])；

最终单词的概率分布为：

P_gens可以看作是一个开关，控制是从输入队列复制词还是生成新词，如果是未登录单词，P_vocab＝0，只能通过复制得到，并保留右侧部分；如果没有出现在输入文本中时，单词只能通过模型生成，并保留左侧部分。

8.如权利要求7所述的基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，还包括：

计算损失函数，在时刻t，目标单词在此时刻被解码，那t时刻的损失函数就是该单词对应的概率分布的对数值的负数，在损失函数前面添加一个以e为底的对数；

通过对输入文本信息进行分词、词向量建模后输入到编码器中，然后在编码器中进行自注意力的计算，经过残差连接后得到中间向量，输入到解码器中进行计算，输出向量经过线性变化层把向量投射到一个对数几率的向量中，再经过softmax后会将这些变为一个概率，通过此概率确定是从源文本复制还是生成摘要。

9.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，注意力计算为多头注意力计算以及缩放点积注意力计算。

10.如权利要求1所述的基于指针生成式与自注意力机制的短文本自动摘要方法，其特征在于，

使用jieba对文本进行分词，同时构建词典。分词结果然后利用gensim中的word2vec进行文本向量化表示，得到的向量输入到模型中；

编码器对输入的向量进行自注意力和多头部自注意力的计算，经过softmax传递结果，再经过前馈神经网络层，输出到下一个编码器，经过6层编码器计算后得到中间注意力变量输入到解码器中；

解码器对输入向量进行计算，每一步输出都会作为下一步的输入，对自注意力的计算与编码器端相同，将最后一个解码器中计算得到的多头部自注意力作为注意力分布，解码器每次解码会输出一个向量，经过线性变化层和softmax后产生当前预测在词典上的词汇分布P_vocab，P_vocab是词典中单词的概率分布；