CN110795556A

CN110795556A - 一种基于细粒度插入式解码的摘要生成方法

Info

Publication number: CN110795556A
Application number: CN201911060930.5A
Authority: CN
Inventors: 苏勤亮; 李腾龙
Original assignee: National Sun Yat Sen University
Current assignee: National Sun Yat Sen University
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-02-14
Anticipated expiration: 2039-11-01
Also published as: CN110795556B

Abstract

本发明提供一种基于细粒度插入式解码的摘要生成方法，该方法将训练目标分解成信息提取压缩和自然语言抽象生成两部分，由内容框架提取器负责信息提取压缩部分，使得神经网络语言模型生成器专注于学习摘要文风技巧；预先提取的内容框架构成上下文信息能指导生成过程，相比于从零产生的自左向右解码方式，内容框架能提供给下一个待生成的词丰富的上下文信息；减少了解码步骤，相对加快了自回归解码过程，缓解了基于自注意力网络解码速度比循环神经网络慢的缺陷，同时一定程度缓解了序列到序列模型的暴露偏差(Expose Bias)问题。

Description

一种基于细粒度插入式解码的摘要生成方法

技术领域

本发明涉及文本处理方法领域，更具体地，涉及一种基于细粒度插入式解码的摘要生成方法。

背景技术

随着互联网技术的高速发展，每天都会产生海量的新闻、博客、评论等文本信息。自动文本摘要的任务是将长文本输入转化为相对简练的短文本作为输出，与此同时要保证短文本摘要忠于原文的中心思想和囊括原文的核心信息，并具有可读连贯性。通过自动文本摘要可以让人们浏览网页内容时快速了解到各信息的关键内容，有助于筛选信息并节省阅读时间。

自动文本摘要的生成主要有两种方式：抽取式和生成式。抽取式摘要的目标是从原文中抽取最能代表全文中心思想的几个句子或短句作为摘要；生成式的方法则是模拟人类的写作方式，总结文章内容然后逐词逐字生成出一段文本作为摘要。相对而言，抽取式摘要方法比较稳定高效，是在工业界中成熟可用的方法。因其直接从原文中抽取句子作为摘要，能保证最终摘要句子的信息可靠性和忠实度。但该方法同时也会引入冗余信息，难以维持既要还原文章关键信息又要简洁精炼的平衡。除此之外，因抽取出的句子在原文当中大部分并不相邻，因为最终摘要句子之间的连贯性欠佳。近年来随着深度神经网络的兴起，基于长短期记忆网络(LSTM)、基于自注意力网络的转换器(Transformer)等神经网络的生成式摘要方法得到快速发展。其通常使用序列到序列框架实现，其中编码器负责处理源文本输入，理解内在语义信息，最终提取出高层次的特征作为解码器的输入。解码器根据编码器输出的原文语义特征和当前已产生的解码输出，依次生成摘要文字。生成式摘要方法得到的摘要连贯性更强，流畅性更好，相对抽取式方法来说上限更高。

考虑到高质量有效的摘要中会出现大部分内容(实体、事实)直接节选来源于原文段落，结合上抽取式的生成式摘要方法能使效果更稳定可观。当前的一些结合手段包括引入复制机制、抽取重写机制、写作模板机制等等。但这些方法各自存在一些缺陷。复制机制能使摘要生成过程中下一个字词的产生既可以从固定大小的词表中选取也可以从原文中选取，如此做法令训练目标复杂化，实际易表现出滥用复制机制导致模型趋向于退化为纯抽取式方法；抽取重写机制先使用抽取式方法从原文抽选几个句子，然后将这些句子代替原文全文作为生成式方法的输入，虽然该方法能有效压缩原文信息，但摘要生成过程可获取的上下文信息非常局限。写作模板机制从过往预存摘要库里挑选出与当前原文语义最相近一段模板摘要，作为额外信息指导摘要生成过程，但引入的模板摘要属于其他文章的信息压缩总结，与当前文章在内容上同时存在一定的相似性与相斥性。

发明内容

本发明提供一种基于细粒度插入式解码的摘要生成方法，该方法避免了产生如抽取重写机制或写作模板机制的冗余表达。

为了达到上述技术效果，本发明的技术方案如下：

一种基于细粒度插入式解码的摘要生成方法，包括以下步骤：

S1：对输入文件进行预处理；

S2：通过编码器对S1中处理的文本进行编码；

S3：内容框架提取器分析编码后的文本；

S4：解码器对内容框架提取器处理后的文本进行处理得到文本摘要。

进一步地，所述步骤S1的具体过程是：

S11：对原始输入文本分词得到词序列，为避免计算复杂度过高，将文章序列按一定长度截断处理，只保留每篇文章前400个词；

S12：在词表中检索文中每一个词，获得每个词对应词表的独热编号，词表通过统计语料库中词频排序取前30000个获得，同时额外添加4个辅助词：“PAD”、“UNK”、“BOS”、“EOS”，其中“PAD”代表空缺填充，“UNK”用于代替词表中未出现的词，“BOS”和“EOS”分别用于引导摘要生成过程的开始与终止；

S13：获得每个词的词嵌入，首先构建一个词向量矩阵，大小为30000×512，即词表大小×模型隐藏层大小，创建后随机初始化，训练过程将不断更新该矩阵参数，除此之外，该矩阵同时也用于模型输出层以确定下一个要生成的词，通过上一步骤的独热编码从词向量矩阵中获得对应行的词向量；

S14：计算位置嵌入，因基于自注意力网络的转换器不具备时序特征，使用三角函数对位置信息编码嵌入：

其中pos代表当前词的位置，i代表位置嵌入的维度，d_model代表模型隐藏层大小；

S15：将词嵌入与位置嵌入叠加，X＝TE(x)+PE(pos_x)，得到包含位置信息的词向量，作为步骤S2和步骤S3编码器和解码器的输入。

进一步地，编码器对S1得到的词嵌入序列输入进行编码，编码器包含6个基于自注意力网络的转换器单元层叠得到，转换器单元包含自注意力层和前馈全连接层，具体编码过程是：

S21：每个转换器单元的输入是上一个单元的编码输出，第一个转换器单元的输入则是步骤1得到的词向量；

S22：在转换器单元内部，输入首先传入自注意力层，使得每一个词对应的向量能感知上下文信息，捕捉当前词与其他词的依赖与联系，自注意力层包含8个参数不同的注意力头，拓展了模型关注不同位置的能力，每一个注意力头包括三个权重矩阵，分别是查询Query、键Key、值Value，中间向量Z通过

获得；

S23：将中间向量Z按位置分别传入前馈全连接层，得到该转换器单元的输出，为提高模型表示能力和稳定性，引入残差连接Residual Connections、层归一化机制LayerNormalization、随机丢弃机制Dropout，自注意力层计算得到的中间向量与自注意力层计算的输入向量进行残差连接，然后再进行随机丢弃以及层归一化，同样的操作也应用于前馈全连接层的输出与中间向量的残差连接。

进一步地，步骤S3中，内容框架提取器分析原文各词的关键程度，决定原文中哪些词作为摘要的一部分，并成为解码器初始输入的一部分，由步骤S2中编码层叠转换器单元得到的输出，即对应原文每一个词的高层级语义向量，将其接入二分类输出层，以Sigmoid函数作为激活函数，将输出映射到0到1之间，设定阈值为0.5，输出值大于0.5对应的词被挑选作为内容框架。

进一步地，所述步骤S4中，解码器结合编码器输出和当前已产生的解码序列作为输入，产生下一个词加入已解码序列，具体街码过程是：

S41：以句子的起始标志“BOS”，再加上步骤S3提取的内容框架，作为解码器初始输入；

S42：根据解码器当前输入，执行词嵌入操作，与步骤S12-S15过程相同，获得解码器的输入词向量；

S43：对于解码器的每个转换器单元，计算过程与步骤S21-S23相似，但在每一个转换器单元的内部引入编码-解码注意力层，以编码器输出作为额外记忆，该部分的自注意层与普通的自注意力层计算原理相同，唯一的区别在于将额外记忆作为键向量和值向量，即用于捕捉解码序列中每一个词与原文每一个词的联系，在得到解码器自注意力层与编码-解码注意力层的输出后，也进行残差连接及层归一化计算，并传入前馈全连接层，得到转换器单元的输出向量；

S44：通过层叠的转换器单元得到当前时刻高层级的隐藏状态向量Z^dec，在内容框架基础上，首先需要决定下一个词在已解码序列中的插入位置，使用指针(Pointer)向量q与隐藏状态向量Z_dec进行点积寻址操作，得到插入位置的概率分布P_insert(l)＝softmax(Z_dec·q)，选择概率最大的位置l_i作为待插入位置；

S45：取第i个位置的隐藏状态向量传入全连接的线性变换层，将该隐藏状态向量投射到维度为输出词表大小的向量中，又称对数几率向量，对应每个词被选取的概率分布可以用

表示；

S46：选择概率最大的词作为该解码步骤的输出单词，若该输出单词不为终止字符“EOS”，则将该词按其插入位置i插入当前解码序列，更新后的解码序列作为解码器下一时刻输入，重复步骤S42-S46，直到输出“EOS”，作为模型生成摘要结束，得到该长文本的短文本摘要。

与现有技术相比，本发明技术方案的有益效果是：

本发明将训练目标分解成信息提取压缩和自然语言抽象生成两部分，由内容框架提取器负责信息提取压缩部分，使得神经网络语言模型生成器专注于学习摘要文风技巧；预先提取的内容框架构成上下文信息能指导生成过程，相比于从零产生的自左向右解码方式，内容框架能提供给下一个待生成的词丰富的上下文信息；减少了解码步骤，相对加快了自回归解码过程，缓解了基于自注意力网络解码速度比循环神经网络慢的缺陷，同时一定程度缓解了序列到序列模型的暴露偏差(Expose Bias)问题。

附图说明

图1是本发明的整体流程图；

图2是本发明方法中的转换器单元模型图；

图3是本发明中基于细粒度插入式解码的摘要生成的总体框架图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

如图1-3所示，本实施例提出一种基于细粒度插入式解码的摘要生成方法，该方法的具体步骤是：

步骤1.输入预处理。预处理操作包括分词、截断、词嵌入。

步骤1.1对原始输入文本分词得到词序列，为避免计算复杂度过高，将文章序列按一定长度截断处理，只保留每篇文章前400个词。

步骤1.2在词表中检索文中每一个词，获得每个词对应词表的独热(One-hot)编号。词表通过统计语料库中词频排序取前30000个获得，同时额外添加4个辅助词：“PAD”、“UNK”、“BOS”、“EOS”，其中“PAD”代表空缺填充，“UNK”用于代替词表中未出现的词(Out ofVocabulary)，“BOS”和“EOS”分别用于引导摘要生成过程的开始与终止。

步骤1.3获得每个词的词嵌入(Token Embedding)。首先构建一个词向量矩阵，大小为30000×512，即词表大小×模型隐藏层大小，创建后随机初始化，训练过程将不断更新该矩阵参数。除此之外，该矩阵同时也用于模型输出层以确定下一个要生成的词。通过上一步骤的独热编码从词向量矩阵中获得对应行的词向量。

步骤1.4计算位置嵌入(Position Embedding)。因基于自注意力网络的转换器不具备时序特征，使用三角函数对位置信息编码嵌入，

其中pos代表当前词的位置，i代表位置嵌入的维度，d_model代表模型隐藏层大小。

步骤1.5将词嵌入与位置嵌入叠加，X＝TE(x)+PE(pos_x)，得到包含位置信息的词向量，作为步骤2和步骤3编码器和解码器的输入。

步骤2.编码器(Encoder)对词嵌入序列输入进行编码。编码器包含6个基于自注意力网络的转换器单元(Transformer Block)层叠得到。转换器单元包含自注意力层和前馈全连接层。

步骤2.1每个转换器单元的输入是上一个单元的编码输出，第一个转换器单元的输入则是步骤1得到的词向量。

步骤2.2在转换器单元内部，输入首先传入自注意力层，使得每一个词对应的向量能感知上下文信息，捕捉当前词与其他词的依赖与联系。自注意力层包含8个参数不同的注意力头，拓展了模型关注不同位置的能力。每一个注意力头包括三个权重矩阵，分别是查询(Query)、键(Key)、值(Value)，中间向量Z通过

获得。

步骤2.3将中间向量Z按位置分别传入前馈全连接层，得到该转换器单元的输出。为提高模型表示能力和稳定性，引入残差连接(Residual Connections)、层归一化机制(Layer Normalization)、随机丢弃机制(Dropout)。自注意力层计算得到的中间向量与自注意力层计算的输入向量进行残差连接，然后再进行随机丢弃以及层归一化。同样的操作也应用于前馈全连接层的输出与中间向量的残差连接。

步骤3内容框架提取器(Content Selector)分析原文各词的关键程度，决定原文中哪些词作为摘要的一部分，并成为解码器初始输入的一部分。由步骤2中编码层叠转换器单元得到的输出，即对应原文每一个词的高层级语义向量，将其接入二分类输出层，以Sigmoid函数作为激活函数，将输出映射到0到1之间，设定阈值为0.5，输出值大于0.5对应的词被挑选作为内容框架。

步骤4解码器(Decoder)结合编码器输出和当前已产生的解码序列作为输入，产生下一个词加入已解码序列。

步骤4.1以句子的起始标志“BOS”，再加上步骤3提取的内容框架，作为解码器初始输入。

步骤4.2根据解码器当前输入，执行词嵌入操作，与步骤1.2-1.5过程相同，获得解码器的输入词向量。

步骤4.3对于解码器的每个转换器单元，计算过程与步骤2.1-2.3相似，但在每一个转换器单元的内部引入编码-解码注意力层，以编码器输出作为额外记忆(ExternalMemories)，该部分的自注意层与普通的自注意力层计算原理相同，唯一的区别在于将额外记忆作为键向量和值向量，即用于捕捉解码序列中每一个词与原文每一个词的联系。在得到解码器自注意力层与编码-解码注意力层的输出后，也进行残差连接及层归一化计算，并传入前馈全连接层，得到转换器单元的输出向量。

步骤4.4通过层叠的转换器单元得到当前时刻高层级的隐藏状态向量Z^dec。在内容框架基础上，首先需要决定下一个词在已解码序列中的插入位置。使用指针(Pointer)向量q与隐藏状态向量Z_dec进行点积寻址操作，得到插入位置的概率分布P_insert(l)＝softmax(Z_dec·q)，选择概率最大的位置l_i作为待插入位置。

步骤4.5取第i个位置的隐藏状态向量

传入全连接的线性变换层，将该隐藏状态向量投射到维度为输出词表大小的向量中，又称对数几率向量(logits)，对应每个词被选取的概率分布可以用表示。

步骤4.6选择概率最大的词作为该解码步骤的输出单词，若该输出单词不为终止字符“EOS”，则将该词按其插入位置i插入当前解码序列，更新后的解码序列作为解码器下一时刻输入，重复步骤4.2-4.6，直到输出“EOS”，作为模型生成摘要结束，得到该长文本的短文本摘要。

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用于仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种基于细粒度插入式解码的摘要生成方法，其特征在于，包括以下步骤：

S1：对输入文件进行预处理；

S2：通过编码器对S1中处理的文本进行编码；

S3：内容框架提取器分析编码后的文本；

2.根据权利要求1所述的基于细粒度插入式解码的摘要生成方法，其特征在于，所述步骤S1的具体过程是：

3.根据权利要求2所述的基于细粒度插入式解码的摘要生成方法，其特征在于，编码器对S1得到的词嵌入序列输入进行编码，编码器包含6个基于自注意力网络的转换器单元层叠得到，转换器单元包含自注意力层和前馈全连接层，具体编码过程是：

获得；

4.根据权利要求3所述的基于细粒度插入式解码的摘要生成方法，其特征在于，步骤S3中，内容框架提取器分析原文各词的关键程度，决定原文中哪些词作为摘要的一部分，并成为解码器初始输入的一部分，由步骤S2中编码层叠转换器单元得到的输出，即对应原文每一个词的高层级语义向量，将其接入二分类输出层，以Sigmoid函数作为激活函数，将输出映射到0到1之间，设定阈值为0.5，输出值大于0.5对应的词被挑选作为内容框架。

5.根据权利要求4所述的基于细粒度插入式解码的摘要生成方法，其特征在于，所述步骤S4中，解码器结合编码器输出和当前已产生的解码序列作为输入，产生下一个词加入已解码序列，具体街码过程是：

S45：取第i个位置的隐藏状态向量

传入全连接的线性变换层，将该隐藏状态向量投射到维度为输出词表大小的向量中，又称对数几率向量，对应每个词被选取的概率分布可以用表示；