CN114691858A

CN114691858A - 一种基于改进的unilm摘要生成方法

Info

Publication number: CN114691858A
Application number: CN202210250558.XA
Authority: CN
Inventors: 贾海涛; 刘桐; 李家伟; 黄婧; 邢增桓; 林思远
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2022-03-15
Filing date: 2022-03-15
Publication date: 2022-07-01
Anticipated expiration: 2042-03-15
Also published as: CN114691858B

Abstract

本发明提出了一种基于改进的UNILM摘要生成方法，针对生成式摘要算法现存的问题，如生成细节不准确，语义不通顺的问题，选用在语义特征提取，对文章的理解上优于传统RNN、LSTM的基于Transformer的UNILM模型，融合COPY机制来改善，并且利用稀疏的softmax替代传统softmax，以避免传统softmax过度学习的问题。最后在模型整体损失函数加入coverage损失，达到避免生成重复结果的目的。

Description

一种基于改进的UNILM摘要生成方法

技术领域

本发明属于自然语言生成领域。

背景技术

自动摘要技术通常被分为两类，抽取式摘要和生成式摘要。抽取式摘要指从文本中抽取出对文本内容概括性强的几个句子组成摘要。针对关键信息集中的新闻文本，抽取式摘要的作用不大，且无法压缩句子级别的信息。生成式摘要技术属于自然语言生成任务，与直接从文本中抽取句子的抽取式摘要方法不同，生成式摘要基于对原文内容李姐，概括总结出原文主要信息，极大地减少冗余信息。

目前，主流的生成式摘要技术是基于深度学习的Sequence-to-Sequence方法，或使用各种预训练模型，从而避免繁琐的手工特征提取、权重计算和内容选择等模块，只需要足够的输入和输出即可训练模型。传统的Sequence-to-Sequence编码器(Encoder)端主要利用RNN、 LSTM等。但是相比Transformer，RNN/LSTM的语义特征提取能力较弱，且计算费时，在长距离依赖问题上有所欠缺。基于Transformer的各类语言模型虽比RNN、LSTM特征提取能力强，生成的摘要在可读性上有所提高，但还是存在生成细节不准确，生成结果重复以及结果中出现未登录词的问题。针对上述问题，本发明提出一种基于UNILM模型融合COPY机制的改进方法。

发明内容

本发明提出一种基于改进的UNILM摘要生成方法，所用生成模型是一个Seq-to-Seq模型，以UNILM模型为架构，对大量文本进行预训练，使用基础UNILM模型生成摘要的基础上，添加复制机制用于控制最终生成词的概率分布，目的在于提高生成式摘要的细节准确度，并减小未登录词出现的概率。本发明提出的方法包括以下步骤：

步骤1文本预处理，获得输入表示；

步骤2基于UNILM模型进行预训练，利用三种类型的语言模型共同优化同一Transformer网络，每种语言模型使用不同的自注意力掩码机制；

步骤3利用交叉熵损失函数计算损失，完成基于UNILM模型的预训练；

步骤4基于UNILM模型进行摘要生成任务，通过Seq-to-Seq语言模型的自注意力掩码机制解码，获得词表概率分布；

步骤5融合COPY机制，引入生成概率，进一步优化步骤4中生成的词表概率分布；

步骤6结合交叉熵损失函数和Coverage损失函数作为模型的整体损失函数，利用Beam Search算法获得预测的摘要序列。

步骤1中每次输入两个文本序列Segment1和Segment2，形如“[CLS]午饭吃啥[SEP]汉堡[SEP]”，[CLS]标记序列开端，[SEP]标记序列尾，序列对通过Embedding获得输入表示。

步骤2中所述UNILM模型使用三种特殊的mask作为预训练目标，完成单向、序列到序列以及双向语言模型的预测任务，实现预训练使得模型可应用于自然语言生成任务。UNILM 模型由12个Transformer结构堆叠，每层Transformer的隐藏层有768个隐藏节点以及有12 个头。模型结构同BERT-BASE相同，因此由训练好的BERT-BASE模型初始化参数。针对不同语言模型，使用不同的MASK机制完成完形填空任务。分词被掩蔽概率为15％。在这些被掩蔽的分词中，80％的分词被[MASK]给换掉，10％的分词随机地用字典中词来代替，剩余的分词不做任何处理。此外，在掩蔽分词时，每次掩蔽的分词数不尽相同。而是按照每次掩蔽一个词的概率为80％，剩下20％的概率会一次掩蔽掉连续的2-3个分词。对于要预测的MASK，单向模型允许使用一侧的上下文，双向模型从两个方向编码上下文信息。在序列到序列模型中，若MASK在Segment1中，则只能编码Segment1的上下文信息；若MASK在Segment2 中，则它可获得MASK左侧(包括Segment1)的上下文信息。

步骤3中将上步Transformer网络输出的文本表征输入Softmax分类器，预测被掩蔽的分词，对预测分词和原始分词使用交叉熵损失函数，完成所有语言模型的完形填空任务，优化模型参数，完成预训练。

步骤4中通过序列到序列模型的MASK机制进行解码，随机MASK目标序列中的分词，学习恢复MASK，训练目标就是给定上下文信息时最大化分词的概率，目标序列末尾的[SEP]可被掩蔽，以学习何时终止目标序列的生成。模型利用MASK机制融合编码和解码过程，结合注意力机制获得文本特征向量，将其输入全连接层，获得词表概率分布。

步骤5中将上步生成的词表概率输入全连接层和Sigmoid层，获得生成概率，结合生成概率、词表概率分布及注意力分布，获得改进的词表概率分布。

步骤6中针对生成模型中的重复问题，引入coverage损失，结合交叉熵损失，完成微调任务。使用更容易接近全局最优解的Beam Search算法生成摘要序列。

本发明的有益效果是：本发明使用UNILM模型作为基本架构，该模型使用多种语言模型联合优化，能针对自然语言生成任务进行微调；针对基于Transformer网络生成的摘要细节不够准确、产生未登录词的问题，本发明融合COPY机制以解决；针对生成摘要中生成词语重复的问题，本发明引入Coverage损失，对重复的attention惩罚，以减少重复生成词；针对普通Softmax函数导致稠密对齐，可能影响最终决策，本发明采用Sparse Softmax以避免 Softmax过度学习的问题。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单说明。显然，所描述的附图只是本发明的一部分实施例，而不是全部实施例，本领域的技术人员在不付出创造性劳动的前提下，还可以根据这些附图获得其他设计方案和附图。

图1是本发明的UNILM-COPY摘要生成模型设计结构图。

图2是本发明的采用的UNILM模型架构示意图。

图3是本发明的UNILM-COPY模型框架图。

图4是本发明的实例1UNILM-COPY模型预训练损失曲线图。

具体实施方式

以下将结合实例和附图对本发明的构思、具体结构以及产生的技术效果进行清楚、完整的描述，以使读者充分地理解本发明的目的、特征和效果。显然，所描述的实施例只是本发明的一部分实施例，而不是全部实施例，基于本发明的实施例，本领域的技术人员在不付出创造性劳动的前提下所获得的其他实施例，均属于本发明保护的范围。

如图1所示，本发明主要以UNILM模型为基础，融合了COPY机制，完成基于新闻文本的摘要生成任务，主要包括输入处理、预训练、生成摘要三个阶段。具体实施方式如下：

预训练的数据集包括原文本和标准摘要，完成文本预处理，数据清洗、分句、分词，原文本作为Segment1，标准摘要作为Segment2。加入特殊标记[CLS]和[SEP]，形如“[CLS]X₁ X₂ X₃ X₄[SEP]Y₁ Y₂[SEP]”。如图2所示，模型的输入表示由三部分构成，使用WordPiece获得三种类型的嵌入向量：Position Embedding、Segment Embedding、Token Embedding，求和获得模型的输入表示。

进一步地，进行UNILM-COPY模型的预训练。输入Embedding向量至模型中，每层Transformer编码输入向量，使用自注意力头聚合上层输入，使用掩码矩阵控制每个位置/词能够注意的范围，得到当前位置对其他位置的注意力分布，进而计算出解码器当前位置的特征向量。

生成的词向量对t时刻的文本特征向量X_input的注意力分布a_t如下：

其中，X_t表示t时刻目标向量，X_input表示t时刻文本特征向量，M为掩码矩阵，控制词的注意力范围，d_k为词向量的维度，W_q、W_v、W_k均为学习参数。

t时刻解码器输出的特征向量output_t的公式定义如下：

output_t＝a_t*W_v*X_input (2)

Sparsemax为稀疏Softmax函数，公式定义如下：

其中，Ω_k表示的是z₁,z₂,…,z_n从大到小排列后的前k个元素的下标集合。也就是说，在使用Sparsemax计算概率的时候，只需要保留前k个元素的概率，剩余的直接置为0。

进一步地，对UNILM-COPY模型预测结果output_t(下式记作z)和被掩蔽的原分词z_t计算交叉熵损失，优化模型参数。交叉熵损失函数如下定义：

实例中，预处理过程：将数据预处理好后，输入模型进行训练，一共训练了15个epoch。 Dropout设置为0.3，batch size设置为16，最大原文输入长度设置为512，最大生成摘要的长度设置为128，使用交叉熵损失函数计算损失。训练一共记录了89000步，每隔500步评估一次模型，训练阶段的损失值如图4，在18000步左右时，模型收敛。

进一步地，完成预训练后，利用UNILM的Seq-to-Seq语言模型进行微调，进行摘要生成任务。

模型通过掩码矩阵巧妙地将编码器和解码器结合在一起。例如，有一篇文章“X₁X₂X₃X₄”，当t＝1时刻输入序列为“[CLS]X₁ X₂ X₃ X₄[SEP]Y₁[MASK]”，在序列末尾加入“[MASK]” 对应的表征表示预测下一个词。左侧序列“[CLS]X₁ X₂ X₃ X₄[SEP]”是已知序列，属于编码阶段，能互相看到上下文信息。“Y₁[MASK]”为想要得到的序列，称为目标序列，属于解码阶段，能看到已知序列的信息和目标序列中其左侧部分的信息。样本经过UNILM模型编码后，将会得到一个sequence length×hidden size的矩阵，第一行表示[CLS]的特征表示，第二行是词X₁的特征表示，以此类推。在解码阶段，利用[MASK]的特征表示经过线性层，再利用Sparsemax函数来获得词汇表中词的概率分布，选取概率最大的词作为解码出的单词，重复上述步骤直到生成[SEP]停止。此过程同预训练过程中(1)(2)，可得到t时刻解码器输出的特征向量output_t。

进一步地，将上述得到的output_t经过两次线性变换，以及Sparsemax函数最终获得词表分布P_vocab：

P_vocab＝Sparsemax(W′(W*output_t+b)+b′) (5)

其中W、W′、b、b′均为可学习参数。

进一步地，引入生成概率P_gen，表示从词汇表中生成词的概率，1-P_gen则表示从原文本中生成词的概率，如图3。将output_t、a_t以及X_t通过全连接层并通过sigmoid函数计算得到P_gen：

P_gen＝sigmoid(W[X_t,output_t,a_t]+b) (6)

其中W和b均为可学习的参数。

由此可计算出改进的词表概率分布：

P_(W)＝P_gen*P_vocab(W)+(1-P_gen)*a_t (8)

当W是词表中未收录的词时，P_vocab(W)的值设为0，因而预测的词将会从原文中生成；同样，若W是原文中未出现的词，则a_t的值设为0，预测的词会从词表中生成。起到了扩充词表的作用，从而降低未登录词出现的概率。从原文中复制概率高的词作为生成序列的一部分，在一定程度上也能控制生成结果的准确性。

进一步地，计算模型整体损失，引入Coverage损失。首先计算一个coverage向量c^t，是由将先前时间步的注意力权重求和得到。t时刻对原文的注意力分布将会受到先前注意力分布的影响，这样可以避免在同一位置重复关注过重，从而避免生成结果的重复。

为coverage向量添加损失，该覆盖损失会对重复的attention做出惩罚，coverageloss的计算方式为：

其中，

表示的是t时刻的注意力权重，且covloss_t有上界，

最终模型的整体损失函数为：

进一步地，设置Beam size为4，利用Beam Search算法搜索接近最优的序列，生成摘要。

综上所述，本发明提出了一种基于改进的UNILM摘要生成方法，该方法利用UNILM模型在自然语言生成任务中的优势，结合COPY机制提高生成摘要的准确度、降低未登录词出现频率，摘要质量得到明显提升。

尽管上面对本发明说明性的具体实施方式进行了描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围。凡采用等同替换或等效替换，这些变化是显而易见，一切利用本发明构思的发明创造均在保护之列。

Claims

1.一种基于改进的UNILM摘要生成方法，其特征在于，包括以下步骤：

步骤1：文本预处理，获得输入表示；

步骤2：基于UNILM模型进行预训练，利用三种类型的语言模型共同优化同一Transformer网络，每种语言模型使用不同的自注意力掩码机制；

步骤3：利用交叉熵损失函数计算损失，完成基于UNILM模型的预训练；

步骤4：基于UNILM模型进行摘要生成任务，通过Seq-to-Seq语言模型的自注意力掩码机制解码，获得词表概率分布；

步骤5：融合COPY机制，引入生成概率，进一步优化步骤4中生成的词表概率分布；

步骤6：结合交叉熵损失函数和Coverage损失函数作为模型的整体损失函数，利用BeamSearch算法获得预测的摘要序列。

2.根据权利要求1所述的一种基于改进的UNILM摘要生成方法，其特征在于，所述步骤2具体包括以下步骤：

2.1.以BERT-BASE预训练模型初始化参数；

2.2.将训练数据分批输入到UNILM模型中进行训练；

2.3.基于同一Transformer网络结构，以预测不同的MASK作为预训练目标，完成单向、双向以及序列到序列语言模型的预测任务，均匀分配使用不同语言模型的时间。

2.4采用稀疏的Softmax函数预测MASK的概率分布，避免普通Softmax过度学习的问题。

3.根据权利要求1所述的一种基于改进的UNILM摘要生成方法，其特征在于：所述步骤4具体包括以下步骤：

4.1.利用序列到序列模型的自注意力掩码机制，随机MASK目标序列中的分词，并掩蔽序列末尾以学习何时停止生成摘要；

4.2.以给定上下文信息的情况下最大化分词的概率为训练目标，利用MASK机制融合编码和解码过程，结合注意力机制获得文本特征向量；

4.3.将解码所得特征向量输入全连接层，采用稀疏的Softmax函数获得词表概率分布。

4.根据权利要求1所述的一种基于改进的UNILM摘要生成方法，其特征在于：所述步骤5具体包括以下步骤：

5.1.将步骤4所得词表概率输入全连接层和Sigmoid层，获得生成概率，融合生成概率、词表概率分布及注意力分布，产生改进的词表概率分布，此COPY机制有效地提升生成摘要细节准确性，并可降低未登录词出现的概率。

5.根据权利要求1所述的一种基于改进的UNILM摘要生成方法，其特征在于：所述步骤6引入Coverage损失，以解决生成词的重复问题。