CN117951291B

CN117951291B - 一种基于引导机制的二阶段局部生成式摘要方法

Info

Publication number: CN117951291B
Application number: CN202410348190.XA
Authority: CN
Inventors: 杨先凤; 舒惠; 蒋欣岑
Original assignee: Southwest Petroleum University
Current assignee: Southwest Petroleum University
Priority date: 2024-03-26
Filing date: 2024-03-26
Publication date: 2024-05-31
Anticipated expiration: 2044-03-26
Also published as: CN117951291A

Abstract

本发明涉及一种基于引导机制的二阶段局部生成式摘要方法，属于自然语言处理领域；它解决了现有生成式摘要模型处理长文本时计算资源耗费过大以及容易生成不准确信息的问题。其技术方案是：首先获得输入文本的抽取式摘要并将其作为文章的引导信号输入到编码器中进行编码；其次对文章进行分割并输入到编码器中进行局部编码；最后将引导信号的编码信息与分割页面的局部编码信息一起输入解码器中进行解码并对解码后的局部预测信息进行组合预测从而生成文章摘要。本发明具有以下有益效果：利用局部编码减少了编解码过程中需要的计算内存资源；加入引导机制提高生成摘要的质量；采用文章的抽取式摘要作为引导信号以保证引导信号的真实性与显著性。

Description

一种基于引导机制的二阶段局部生成式摘要方法

技术领域

本发明涉及一种基于引导机制的二阶段局部生成式摘要方法，属于自然语言处理领域。

背景技术

自动文摘作为文本生成领域的一个子任务，一直是自然语言处理领域的重要任务，目前自动文摘生成主要有两种方法，分别是抽取式摘要方法和生成式摘要方法。其中抽取式摘要方法主要分为：基于统计学的方法，如TF-IDF方法，该方法将句中单词 TF-IDF 得分的累计值作为句子权重的衡量标准，选取权重较高句子作为摘要；基于图排序的方法，如Textrank模型，该模型通过把文本分割成若干个句子并且用句子作为节点，句子间的相似度作为边的权重来构建连接图，通过循环迭代计算句子的TextRank值，最后抽取排名高的句子组合成为文章摘要；基于机器学习的方法，如贝叶斯、隐马尔可夫、支持向量回归（SVR）、LDA等；基于深度学习的方法，如SummaRuNNer、Memsum等。而生成式摘要方法起步较晚且大多采用基于深度学习的方法来实现，并且随着深度学习的发展，抽取式自动文摘方法和生成式自动文摘方法都得到了极大的发展和提升。

生成式摘要主要是通过对文本全文进行理解，将原文内容压缩成固定大小的节点信息，再参考记忆节点信息和前一个单词来进行文本预测从而用简洁的文本对原文进行概述；而抽取式摘要则是按照一定的方法对原文的句子进行置信度计算并排序后对排名靠前的句子进行组合从而生成抽取式摘要。生成式摘要与抽取式摘要相比生成式摘要会显得更加灵活和多样，生成的摘要也会显得更加简洁，但实现难度更大。目前生成式摘要方法主要都是基于深度学习的，而其中表现较好的生成式摘要模型大多都利用了注意力机制的方法且取得了较大的提升，但是计算注意力权重所需的计算机内存资源会随着输入文本长度的增加而二次增加，这阻碍了生成式摘要模型在长文本领域的发展。且由于生成式摘要不像抽取式摘要那样选择原文句子的组合来生成摘要而是完全由模型本身通过学习并捕获文章的显著信息从而生成摘要，所以生成式摘要常见的一个问题就是会生成事实性错误或不准确的信息且难以控制。

发明内容

本发明的目的是：解决现有的含有注意力机制模块的生成式摘要模型在处理长文本信息时面临的所需计算内存资源大的问题，同时解决目前生成式摘要容易产生事实性错误或不准确信息的问题从而提高模型生成摘要的质量。

为实现上述目的，本发明设计出一种基于引导机制的二阶段局部生成式摘要方法。该方法包括以下步骤：

S100、通过抽取式摘要模型获得本方法模型解码过程中的引导信号；对原始输入文档进行分割处理，将输入文档分割成几个不同的页面部分，输入文档可表示为，其中/>表示预先设定的单文档页面分割数量；

S101、利用抽取式摘要方法Memsum模型对文章进行抽取式摘要的生成；

S102、按照文章句子总数对文章进行划分，将文章划分为包含相同句子数量的几个不同页面，分割页面数量预先设定；

S200、利用预训练的BART模型对分割页面以及输入文档/>的抽取式摘要/>进行词嵌入向量的表示，其中/>表示输入文档分割后页面中的第/>个页面，/>表示第/>个页面的第/>个字符token，/>代表页面中token的总数，/>表示抽取式摘要/>中的第/>个字符token，/>代表输入文档/>的抽取式摘要中token的总数；

S201、利用预训练的BART模型中的词汇表将数据中的单词转换为以数字序列形式表示的唯一的整数标识符token_id；

S202、对多个分割页面进行填充操作，利用填充标识符对页面进行填充使页面长度均统一在最大页面长度，最大页面长度预先设定；

S203、对S202中的词嵌入标记符矩阵进行矩阵形状的重新定义，将文章的矩阵向量从形状转换为/>，其中/>表示预先设定的分割页面数量，表示预先设定的页面最大长度；

S204、将S203中得到的标识符矩阵向量以及输入文档抽取式摘要的标识符矩阵向量输入到模型的嵌入层获得词嵌入向量；

S300、利用模型的两个编码器分别对输入文档的文章信息和引导信号进行编码；将S204中多个分割页面Page的词嵌入向量表示与原始文档的抽取式摘要E的词嵌入向量表示分别输入到两个共享词嵌入层参数的预训练的BART编码器中进行编码操作，编码器包含12个相同的层，每层都由一个自注意力模块和一个前馈神经模块组成，其中两个编码器每层的输出可表示为：

；

其中表示上一层的输出，/>的最初值为文章的文本信息词嵌入向量表示，/>表示用于编码文章信息的编码器每层结构中自注意力模块的输出，/>表示用于编码文章信息编码器每层结构中前馈神经模块的输出；/>表示上一层的输出，/>的最初值为抽取式摘要的词嵌入向量表示, />表示用于编码文章抽取式摘要信息的编码器每层结构中自注意力模块的输出，/>表示用于编码文章抽取式摘要信息编码器每层结构中前馈神经模块的输出；/>表示标准化层；/>表示计算自注意力权重的自注意力模块层；/>表示前馈神经网络层；得到当前层的隐藏向量输出后将之作为下一层的输入继续进行计算直至完成12层的计算操作，得到两个编码器的编码结果即两个编码器最后一层的隐藏向量输出；

S400、利用解码器对S300的隐藏向量进行解码，解码器同编码器一样也包含12个相同的层，每层包含了四个模块分别是一个自注意力模块、两个交叉注意力模块以及一个前馈神经网络模块，其中每层的输出可表示为：

；

其中表示解码器上一层的输出，/>的初始值为输入文档参考摘要的词嵌入向量表示，/>表示解码器每层结构中自注意力模块的输出，/>和/>分别表示解码器每层结构中两个交叉注意力模块的输出，/>表示解码器每层结构中前馈神经模块的输出；/>表示用于对引导信号进行编码的编码器输出；/>表示用于对输入文档文章信息进行编码的编码器输出；表示交叉注意力模块；在解码过程中得到当前层的隐藏向量输出后将之作为下一层的输入继续进行计算直至完成12层的计算操作，得到解码器的预测结果即最后一层的隐藏向量输出，具体过程如S401-S406所示；

S401、将输入文档的参考摘要按照词汇表进行转换得到以标识符表示的参考摘要，再将以标识符表示的参考摘要输入到模型的嵌入层获得参考摘要的词嵌入向量；

S402、将S401中得到的词嵌入向量输入到解码器自注意力模块中，得到包含了上下文信息的参考摘要隐藏向量表示；

S403、将S402中得到的隐藏向量与来自引导信号编码器最后一层输出的隐藏向量一起输入到解码器第一块交叉注意力模块中，得到经过第一块交叉注意力模块计算后的隐藏向量；

S404、将S403中得到的隐藏向量与来自文章信息编码器最后一层输出的隐藏向量一起输入到解码器第二块交叉注意力模块中，得到经过第二块交叉注意力模块计算后的隐藏向量；

S405、将S404中得到的隐藏向量输入到前馈神经网络模块中进行计算，得到该层的隐藏向量输出；

S406、将S405中得到的隐藏向量代替S401中的词嵌入向量输入到S402中进行计算，重复S402-S406的步骤直至获得解码器最后一层即第12层的隐藏向量输出；

S500、对多个分割页面的解码器隐藏向量进行组合预测，将多个局部预测页面的隐藏向量组合起来经过一层线性映射层和激活函数，得到输入文档的全局摘要预测概率分布，按照概率分布再获得最终的生成式摘要并将最终的生成式摘要与参考摘要进行交叉熵损失计算从而进行模型的训练，具体过程如S501-S503所示；

S501、将解码器输出的隐藏向量表示矩阵形状设置为，其中表示预先设定的最大摘要长度，将解码器输出的隐藏向量输入到一层线性层中获得对应的置信度得分，预测第/>个页面的第/>个token时的置信度得分/>可表示为：

；

其中指的是将隐藏向量映射到标量的线性层，/>指的是预测第/>个页面的第/>个token时的解码器输出的隐藏向量，/>标准化后的置信度得分/>可表示为：

；

其中指的是以自然常数/>为底的指数函数，/>指的是第/>个页面的第/>个token的置信度分数；

S502、将多个页面局部预测的隐藏向量与对应的置信度分数做乘积运算后组合起来经过一层线性映射层和激活函数，得到输入文档的全局摘要预测概率分布，具体表示可见公式：

；

其中是一个线性映射层用于将隐藏向量映射到词汇表上，/>指激活函数，/>表示生成摘要中的每个token属于词汇表中每个单词的概率；

S503、对S502得到的概率分布进行解码，得到以标志符token_id形式表示的生成式摘要，并将生成式摘要的标志符表示与参考摘要的标志符表示进行交叉熵损失函数计算，将损失值进行反向传播以进行模型的训练。

本发明的有益效果为：

1、本发明设计的方法通过局部性原理对文章进行局部编码和解码，有效降低了编解码过程中计算注意力权重时所需的计算机内存资源；

2、利用文章的抽取式摘要作为编解码过程中的引导信号，有效的保证了引导信号的真实性与显著性；

3、利用两个编码器分别对输入文章和引导信号进行编码并在解码器中分别利用两个交叉注意力机制模块使模型在解码过程中能同时关注到参考摘要和引导信号的上下文信息从而指导模型生成更加准确以及符合事实的摘要，有效的提高了生成摘要的质量。

附图说明

图1是本发明的技术流程图。

图2是本发明的总体模型图（S100-S500所提模块的组合）。

图3是编解码网络模块图。

具体实施方式

为使本发明的目的、技术方案和优势更加清楚明白，下面结合实施方式和附图，对本发明进一步详细说明。在此，本发明的示意性实施方式以及其说明用于解释本发明，但并不作为本发明的限定。

如图1、图2以及图3所示，一种基于引导机制的二阶段局部生成式摘要方法的技术流程图、总体模型图以及编解码网络图，该方法包括以下步骤：

S100、利用Memsum模型抽取出文章的重要句子集合并将其作为文章的抽取式摘要也即本方法模型解码过程中的引导信号，其中重要句子集合的句子最大数量设置为7；

S101、统计文章的句子总数，将文章划分为包含相同句子数量的7个不同页面，此时输入文档可表示为/>，其中每个页面包含/>个句子，表示文章的句子总数，不能被7整除多余的句子分到最后一页；

S200、利用预训练的BART模型词汇表对分割页面以及S100中获得的抽取式摘要/>进行标识符token_id的表示，即将以文本形式表示的数据均转换为以唯一的整数标识符token_id表示的数据，其中/>表示输入文档分割后页面中的第/>个页面，/>表示第/>个页面的第/>个字符token，/>代表页面中token的总数，表示抽取式摘要/>中的第/>个字符token，/>代表输入文档/>的抽取式摘要中token的总数；

S201、对7个分割页面和E进行填充操作，利用填充标识符对页面进行填充使页面长度均统一在最大页面长度，最大页面长度为1024；

S202、对S201中的词嵌入标记符矩阵进行矩阵形状的重新定义，将文章的矩阵向量从形状转换为/>；

S203、将S202中得到的标识符矩阵向量以及输入文档抽取式摘要E的标识符矩阵向量输入到模型的嵌入层获得词嵌入向量；

S300、将S203中7个分割页面的词嵌入向量矩阵输入到文章信息编码器中，经过一个自注意力模块和一个前馈神经模块得到第一层的隐藏向量输出，编码器中有12层这样的结构，将第一层的隐藏向量输出依次经过其余的11层结构得到最后一层的隐藏向量输出，并将其作为文章信息编码器的输出，其中每层的输出可表示为：

；

其中表示上一层的输出，/>的最初值为词嵌入向量表示，/>表示用于编码文章信息的编码器每层结构中自注意力模块的输出，/>表示用于编码文章信息编码器每层结构中前馈神经模块的输出；/>表示标准化层；/>表示计算自注意力权重的自注意力模块层；表示前馈神经网络层；

S301、将S203中抽取式摘要E的词嵌入向量矩阵输入到引导信号编码器中，经过一个自注意力模块和一个前馈神经模块得到第一层的隐藏向量输出，编码器中有12层这样的结构，将第一层的隐藏向量输出依次经过其余的11层结构得到最后一层的隐藏向量输出，并将其作为引导信号编码器的输出，其中每层的输出可表示为：

；

其中表示上一层的输出，/>的最初值为词嵌入向量表示，/>表示用于编码引导信号信息的编码器每层结构中自注意力模块的输出，/>表示用于编码引导信号信息编码器每层结构中前馈神经模块的输出；/>表示标准化层；/>表示计算自注意力权重的自注意力模块层；/>表示前馈神经网络层；

S400、将输入文档参考摘要的嵌入信息、文章信息编码器的输出隐藏向量以及引导信号编码器的输出隐藏向量一起输入到解码器中进行解码操作，得到解码器最后一层网络结构的隐藏向量输出，具体解码过程如下S401-S406所示；

S401、将输入文档的参考摘要按照预训练BART模型的词汇表进行转换得到以标识符表示的参考摘要，再将以标识符表示的参考摘要输入到模型的嵌入层获得参考摘要的词嵌入向量；

S402、将S401中得到的词嵌入向量输入到解码器的自注意力模块中，得到包含了上下文信息的参考摘要隐藏向量表示；

S403、将S402中得到的隐藏向量与S301最后一层输出的隐藏向量一起输入到解码器第一块交叉注意力模块中，得到经过交叉注意力计算后的隐藏向量；

S404、将S403中得到的隐藏向量与S300最后一层输出的隐藏向量一起输入到解码器第二块交叉注意力模块中，得到经过交叉注意力计算后的隐藏向量；

S405、将S404中得到的隐藏向量输入到前馈神经网络模块中进行计算得到该层的隐藏向量输出；

S406、将S405中得到的隐藏向量代替S401中的词嵌入向量输入到S402中进行计算，重复S402-S406的步骤直至获得解码器最后一层即第12层的隐藏向量输出；其中每层的输出可表示为：

；

其中表示解码器上一层的输出，/>的初始值为输入文档参考摘要的词嵌入向量表示，/>表示解码器每层结构中自注意力模块的输出，/>和/>分别表示解码器每层结构中两个交叉注意力模块的输出，/>表示解码器每层结构中前馈神经模块的输出；/>表示用于对引导信号进行编码的编码器输出；/>表示用于对输入文档文章进行编码的编码器输出；/>表示交叉注意力模块；

S500对多个分割页面的解码器隐藏向量进行组合预测，将多个局部预测页面的隐藏向量组合起来经过一层线性映射层和激活函数，得到输入文档的全局摘要预测概率分布，按照概率分布再获得最终的生成式摘要并将最终的生成式摘要与参考摘要进行交叉熵损失计算从而进行模型的训练，具体过程如S501-S503所示；

S501、将S406得到的最后一层隐藏向量输入到一层线性层中获得对应的置信度得分，预测第个页面的第/>个token时的置信度得分/>可表示为：

；

S502、将7个页面局部预测的隐藏向量与对应的置信度分数做乘积运算后组合起来经过一层线性映射层和激活函数，得到输入文档的全局摘要预测概率分布，具体表示可见公式：

；

S503、对S502得到的概率分布进行解码，得到以标志符token_id形式表示的生成式摘要，并将生成式摘要的标识符表示与参考摘要的标志符表示进行交叉熵损失函数计算，将损失值进行反向传播以进行模型的训练。

最后所应说明的是：以上实施例仅用以说明而非限制本发明的技术方案，尽管参照上述实施例对本发明进行了详细说明，本领域的普通技术人员应该理解：依然可以对本发明进行修改或者等同替换，而不脱离本发明的精神和范围的任何修改或局部替换，其均应涵盖在本发明的权利要求范围当中。

Claims

1.一种基于引导机制的二阶段局部生成式摘要方法，其特征在于：利用局部性原理对文章进行分割从而实现局部编解码；在实现局部编解码生成式摘要模型的基础上中加入了引导机制，所述方法包括以下步骤：

S100、通过抽取式摘要模型对输入文章进行处理从而生成抽取式摘要并将抽取式摘要作为模型解码过程中的引导信号；对原始输入文档进行分割处理，将输入文档分割成几个不同的页面部分，输入文档D可表示为D＝{Page₁,Page₂,…,Page_S}，其中S表示预先设定的单文档页面分割数量；

S200、利用预训练的BART模型对分割页面以及输入文档D的抽取式摘要E＝{w₁,w₂,…,w_N}进行词嵌入向量的表示，其中Page_i表示输入文档分割后页面中的第i个页面，/>表示第i个页面的第n个字符的整数标识符token_id，n代表页面中字符的总数，w_N表示抽取式摘要E中的第N个字符的整数标识符token_id，N代表输入文档D的抽取式摘要中字符的总数；

S300、利用两个编码器分别对文章信息和引导信号进行编码；将S200中多个分割页面Page的词嵌入向量表示与原始文档的抽取式摘要E的词嵌入向量表示分别输入到两个共享词嵌入层参数的预训练的BART编码器中进行编码操作，编码器包含12个相同的层，每层都由一个自注意力模块和一个前馈神经模块组成，其中每层的输出可表示为：

x₁＝ln(x+selfattn(x))；

x₂＝ln(x₁+feedforward(x₁))；

x＝x₂；

g₁＝ln(g+selfattn(g))；

g₂＝ln(g+feedforward(g₁))；

g＝g₂；

其中x表示上一层的输出，x的最初值为词嵌入向量表示，x₁表示用于编码文章信息的编码器每层结构中自注意力模块的输出，x₂表示用于编码文章信息编码器每层结构中前馈神经模块的输出；g表示上一层的输出，g的最初值为词嵌入向量表示，g₁表示用于编码文章抽取式摘要信息的编码器每层结构中自注意力模块的输出，g₂表示用于编码文章抽取式摘要信息编码器每层结构中前馈神经模块的输出；ln表示标准化层；selfattn表示计算自注意力权重的自注意力模块层；feedforward表示前馈神经网络层；得到当前层的隐藏向量输出后将之作为下一层的输入继续进行计算直至完成12层的计算操作，得到两个编码器的编码结果即两个编码器最后一层的隐藏向量输出；

y₁＝ln(y+selfattn(y))；

y₂＝ln(y₁+crossattn(y₁,g))；

y₃＝ln(y₂+crossattn(y₂,x))；

y₄＝ln(y₃+feedforward(y₃))；

y＝y₄；

其中y表示解码器上一层的输出，y的初始值为输入文档参考摘要的词嵌入向量表示，y₁表示解码器每层结构中自注意力模块的输出，y₂和y₃分别表示解码器每层结构中两个交叉注意力模块的输出，y₄表示解码器每层结构中前馈神经模块的输出；g表示用于对引导信号进行编码的编码器输出；x表示用于对输入文档文章进行编码的编码器输出；crossattn表示交叉注意力模块；在解码过程中得到当前层的隐藏向量输出后将之作为下一层的输入继续进行计算直至完成12层的计算操作，得到解码器的预测结果即最后一层的隐藏向量输出；

S500、对多个分割页面的解码器隐藏向量进行组合预测，将多个局部预测页面的隐藏向量组合起来经过一层线性映射层和激活函数，得到输入文档的全局摘要预测概率分布，按照概率分布再获得最终的生成式摘要并将最终的生成式摘要与参考摘要进行交叉熵损失计算从而进行模型的训练。

2.根据权利要求1所述的一种基于引导机制的二阶段局部生成式摘要方法，其特征在于：其中，所述S100中对数据进行抽取式摘要的生成以及对数据进行页面分割的操作具体包含以下步骤：

S102、按照文章句子总数对文章进行划分，将文章划分为包含相同句子数量的几个不同页面，分割页面数量预先设定。

3.根据权利要求1所述的一种基于引导机制的二阶段局部生成式摘要方法，其特征在于：其中，所述S200中对数据进行词嵌入向量表示具体包含以下步骤：

S203、对S202中的词嵌入标记符矩阵进行矩阵形状的重新定义，将文章的矩阵向量从形状[1,S*max_length]转换为[S,max_length]，其中S表示预先设定的分割页面数量，max_length表示预先设定的页面最大长度；

S204、将S203中得到的标识符矩阵向量以及输入文档抽取式摘要的标识符矩阵向量输入到模型的嵌入层获得词嵌入向量。

4.根据权利要求1所述的一种基于引导机制的二阶段局部生成式摘要方法，其特征在于：其中，所述S400中对数据进行解码具体包含以下步骤：

S403、将S402中得到的隐藏向量与来自S300中引导信号编码器最后一层输出的隐藏向量一起输入到解码器第一块交叉注意力模块中，得到经过第一块交叉注意力模块计算后的隐藏向量；

S404、将S403中得到的隐藏向量与来自S300中文章信息编码器最后一层输出的隐藏向量一起输入到解码器第二块交叉注意力模块中，得到经过第二块交叉注意力模块计算后的隐藏向量；

S406、将S405中得到的隐藏向量代替S401中的词嵌入向量输入到S402中进行计算，重复S402-S406的步骤直至获得解码器最后一层即第12层的隐藏向量输出。

5.根据权利要求1所述的一种基于引导机制的二阶段局部生成式摘要方法，其特征在于：其中，所述S500中对数据进行解码具体包含以下步骤：

S501、将解码器输出的隐藏向量表示矩阵形状设定为[S,max_length_target]，其中max_length_target表示预先设定的最大摘要长度，将解码器输出的隐藏向量输入到一层线性层中获得对应的置信度得分，预测第j个页面的第i个字符时的置信度得分c_ij可表示为：

其中L_conf指的是将隐藏向量映射到标量的线性层，指的是预测第j个页面的第i个字符时的解码器输出的隐藏向量，c_ij标准化后的置信度得分/>可表示为：

其中exp指的是以自然常数e为底的指数函数，c_ik指的是第k个页面的第i个字符的置信度分数；

其中L_vocab是一个线性映射层用于将隐藏向量映射到词汇表上，softmax指激活函数，p_gθ(·∣D,S_<i；θ)表示生成摘要中的每个字符的整数标识符token_id属于词汇表中每个单词的概率；

S503、对S502得到的概率分布进行解码，得到以标志符token_id形式表示的生成式摘要并与参考摘要的标志符表示进行交叉熵损失函数计算，将损失值进行反向传播以进行模型的训练。