CN110737769A

CN110737769A - 一种基于神经主题记忆的预训练文本摘要生成方法

Info

Publication number: CN110737769A
Application number: CN201910999118.2A
Authority: CN
Inventors: 马廷淮; 潘倩; 金子龙; 田青
Original assignee: Nanjing University of Information Science and Technology
Current assignee: Nanjing University of Information Science and Technology
Priority date: 2019-10-21
Filing date: 2019-10-21
Publication date: 2020-01-31
Anticipated expiration: 2039-10-21
Also published as: CN110737769B

Abstract

本发明公开了一种基于神经主题记忆的预训练文本摘要生成方法，根据完整的输入序列，使用BERT预训练的上下文建模能力，对序列进行编码，完成文本嵌入；将输出的序列表示，使用主题记忆网络编码潜在的主题表示；根据主题表示、推理与经过编码的序列表示进行匹配，形成最终编码表示，再使用解码器来生成初步输出序列；将输出的序列中每一个单词进行掩码喂入BERT并结合输入序列，使用基于transformer和LSTM的解码器来预测每个掩码位置的细化单词，实现微调。本发明通过双向上下文的BERT和LSTM层进行特征的深层捕捉，喂入掩码后的摘要，对参数进行微调，细化每一个摘要单词，使得生成更加流畅、信息量高的文本摘要。

Description

一种基于神经主题记忆的预训练文本摘要生成方法

技术领域

本发明属于自然语言处理领域，具体涉及一种基于神经主题记忆的预训练文本摘要生成方法。

背景技术

由于社交媒体的快速发展，使得网络上的信息日益暴增。巨大的信息量让信息检索变得越来越困难，而信息摘要对于信息的发布者，使用者以及搜索引擎都有着重要的作用。简洁的文本摘要可以帮助用户快速的找到所需的信息，提供给搜索引擎可以提高检索速度。对于虚假的标题党，文本摘要也可以起到很好的监督作用，由于人工提取摘要工作量巨大，自动摘要技术得到了广泛的重视和研究。

文本摘要过程基本包括文本分析过程：对原文本进行分析处理，识别冗余信息；文本内容的选取和泛化过程：从文档中辨认重要信息，通过摘录、概括或计算分析的方法压缩文本；文摘的转换和生成过程：实现对原文内容的重组或者根据内部表示生成文摘，并确保文摘的连贯性。

现自动文摘技术基本分为单文档摘要或者多文档摘要。文摘技术基本分为抽取式摘要：从原文中找到一些关键的句子，组合成一篇摘要；概括式摘要：这需要计算机可以读懂原文的内容，并且用自己的意思将其表达出来。现阶段，相对成熟的是抽取式的方案，有很多算法，也有一些baseline的测试，但得到的摘要效果差强人意，后者的研究效果还有很大的提升。人类语言包括字、词、短语、句子、段落、文档，研究难度依次递增，理解句子、段落尚且困难，何况是文档，这是自动文摘最大的难点。主要的三大问题包括：对于文档冗余信息的识别和处理；对于重要内容和关键信息的概括和辨认；生成文摘的可读性和连贯性。

对于概括式摘要来说，现有的技术倾向于单向理解文档，没有办法完成对倒装句，从句等准确的理解。BERT模型的提出对自然语言处理做出了巨大的贡献，在11项语言任务上达到了最好的效果。BERT训练的语言模型基于双向上下文的理解，同时拥有大量的语料库进行预训练，达到更精确的词嵌入表示。在此基础上，基于主题记忆的机制可以对文摘的生成起到引导、推理的作用。

发明内容

发明目的：本发明提出一种基于神经主题记忆的预训练文本摘要生成方法，在文本摘要中基于预训练语言模型引入主题特征，利用BERT强大的预训练语言模型，结合双向上下文表示与主题推理生成更加自然符合主题的文本摘要，提高文本生成的效率。

技术方案：本发明所述的一种基于神经主题记忆的预训练文本摘要生成方法，包括以下步骤：

(1)根据完整的输入序列，使用BERT预训练的上下文建模能力，对序列进行编码，完成文本嵌入；

(2)将步骤(1)输出的序列表示，使用主题记忆网络编码潜在的主题表示；

(3)根据步骤(2)得到的主题表示、推理与步骤(1)编码完成得到的序列表示进行匹配，形成最终编码表示，再使用一个基于transformer的解码器来生成初步输出序列；

(4)将步骤(3)输出的序列中每一个单词进行掩码喂入BERT并结合输入序列，使用基于transformer和LSTM的解码器来预测每个掩码位置的细化单词，实现微调。

进一步地，所述步骤(1)包括以下步骤：

(11)进行文本词嵌入，将文档X编码成表示向量H_bert＝{h₁,...h_m}；

(12)基于内存和运行时间的考虑，选择BERT_BASE建立预训练模型；

(13)词嵌入使用具有30，000词汇量的WordPiece嵌入。

进一步地，所述步骤(2)包括以下步骤：

(21)将H_bert喂入到神经主题模型去推断隐含主题，用一个连续的隐变量z作为中间表示，其中K表示主题的个数；

(22)假设X有一个K维的主题概率分布θ，由高斯softmax产生，每个话题K下都有基于词汇表的词概率分布φ_K，X生成满足以下公式：z～N(μ,σ²)，θ＝softmax(f_θ(z))，词分布满足：w_n～soft max(f_φ(θ))，其中f_*(·)是一个线性变换输入的神经感知器，由非线性变换激活，先验参数z,μ,σ由输入数据定义，公式为：

μ＝f_μ(f_e(H_bert))

logσ＝f_σ(f_e(H_bert))；

(23)使用变分推理来近似给定所有情况下z上的后验分布，损失函数负变分下界定义为：

L_NTM＝D_KL(q(z)||p(z|x))-E_q(z)[p(x|z)]

其中，q(z)服从标准正态分布N(0,1)，p(z|x)和p(x|z)分别表示编码和解码过程的概率。

进一步地，所述步骤(3)包括以下步骤：

(31)根据步骤(2)得到的主题表示作为主题特征，将生成的W_φ即topic-word权重矩阵作为输入，经过RELU感知器激活的两个矩阵分别是原矩阵S,目标矩阵T，H_bert作为矩阵U,通过匹配S和U，计算第K个话题和索引向量中的第L个词嵌入的匹配度，计算公式如下：

P_K,L＝sigmoid(W^s[S_k；U_L]+b^s)

其中，S和U进行连接，W^s和b^s是需要学习的参数；

(32)定义一个集成记忆权重，公式如下：

其中γ是预定义系数；

(33)给目标矩阵T加权重ξ，公式如下：

R_K＝ξ_KT_K

其中，R_K作为最终的主题表示，与词嵌入和位置嵌入连接作为词的上下文表示；

(34)将上下文表示喂入N层的Transformer的解码器去学习条件概率P(A|H)，Transformer里的每一层都有一个多头自注意子层和一个带有残差连接的线性仿射子层，并且加入标准化和残差连接，注意力得分公式如下：

其中，d_e是输出维数，W^Q,W^K,W^V是需要学习的权重矩阵，h_i为上一层输出；

(35)在t时刻，解码器根据先前的输出和编码器的中间表示来预测输出概率，公式如下：

(36)每一个生成的序列通过‘[PAD]’截断，解码器的目标是最小化负样本似然函数如下：

其中是真实摘要中第i个词；

(37)在生成初步序列摘要中，引入了复制机制处理超出词汇表的部分，核心公式如下：

其中，

为源文档上的注意概率分布，复制门g_t∈[0,1]通过softmax产生，生成在源文档中或者词汇表中选择的概率。

进一步地，所述步骤(4)包括以下步骤：

(41)通过步骤(3)输出的序列，将每一个单词进行掩码喂入BERT并结合输入序列，通过N层的Transformer和LSTM去预测每个细化的摘要词；

(42)在i时刻，BERT的输出层作为LSTM的输入层，核心公式如下：

C_i＝σ(F_i)ΘC_i-1+σ(I_i)Θtanh(G_i-1)

h_i＝σ(O_t)Θtanh(LN_c(C_t))

其中，F_i、I_i、O_i分别是忘记门、输入门、输出门，G_i是隐藏向量，h_i是输出向量，LN_h,LN_x,LN_c是不同层的标准化操作，

为真实摘要第i个词，b_o为偏差项；

(43)两个解码器的参数相同，并且加入了ROUGE作为指导生成更流利的摘要，整个模型联合训练为了更好的捕捉特征，目标为：

有益效果：与现有技术相比，本发明的有益效果：1、本发明建立了一个基于BERT的预训练语言模型，结合语料库充分利用了强大的预训练能力，在文档编码的时候引入神经主题记忆机制，使得文档主题可以作为特征参与到编码中；主题词汇权重也可以自然地与词嵌入、位置嵌入进行连接匹配；2本发明通过解码器使用transformer的多头注意力捕捉到单词与单词之间更深层的信息，来得到一个很好的表示；3、本发明针对文本摘要引入BERT+LSTM对任务进行微调，细化每一个摘要词汇，使得一词多义得到了很好的解决；4、本发明同时引入ROUGR和copy机制，使生成的句子更加流畅自然，同时提高了摘要生成的满意度。

附图说明

图1为基于神经主题记忆的预训练文本摘要生成的流程图；

图2为基于神经主题记忆的预训练文本摘要生成的框架图。

具体实施方式

下面结合附图对本发明作进一步的详细描述。

本发明提出了一种基于神经主题记忆的预训练文本摘要生成方法，该方法充分利用了预训练语言模型在编译码过程中的作用，无需手工特征即可实现端到端训练。同时结合主题记忆网络对文档的潜在主题表示进行编码，该方法可以将预先训练好的主题以及主题词汇作为特征。这样可以更好的捕捉文章的重要信息。将有主题意识的编码序列放入解码器通过transformer多注意力进行软对齐输出初步摘要序列。再通过双向上下文的BERT和LSTM层进行特征的深层捕捉，对参数进行微调，使得生成更加流畅、信息量高的文本摘要，其框架图如图2所示。为了进一步提高生成序列的自然度，将记忆主题机制与解码器，细化解码器相配合，并且联合训练，提高效率。

如图1所示，本方法包含如下步骤：

1、根据完整的输入序列，使用BERT预训练的上下文建模能力，对序列进行编码，完成文本嵌入。

(1)进行文本词嵌入，将文档X编码成表示向量H_bert＝{h₁,...h_m}。

(2)基于内存和运行时间的考虑，选择BERT_BASE建立预训练模型。

(3)词嵌入使用具有30，000词汇量的WordPiece嵌入。

2、根据步骤1输出的序列表示，使用主题记忆网络编码潜在的主题表示。

(1)将H_bert喂入到神经主题模型去推断隐含主题，用一个连续的隐变量z作为中间表示，K表示主题的个数。

(2)生成部分类似于LDA模型，假设X有一个K维的主题概率分布θ，由高斯softmax产生。每个话题K下都有基于词汇表的词概率分布φ_K。X生成满足以下公式：z～N(μ,σ²)，θ＝softmax(f_θ(z))。词分布满足：w_n～soft max(f_φ(θ))，其中f_*(·)是一个线性变换输入的神经感知器，由非线性变换激活。先验参数z,μ,σ由输入数据定义，公式为：

μ＝f_μ(f_e(H_bert))

logσ＝f_σ(f_e(H_bert))

(3)推理部分使用变分推理来近似给定所有情况下z上的后验分布。损失函数负变分下界定义为：

L_NTM＝D_KL(q(z)||p(z|x))-E_q(z)[p(x|z)]

3、根据上一步得到的主题表示、推理与第一步得到的表示进行匹配，形成最终编码表示，再使用一个基于transformer的解码器来生成初步输出序列。

(1)根据上一步得到的主题表示作为主题特征，将生成的W_φ即topic-word权重矩阵作为输入，经过RELU感知器激活的两个矩阵分别是原矩阵S,目标矩阵T，H_bert作为矩阵U,通过匹配S和U，计算第K个话题和索引向量中的第L个词嵌入的匹配度，计算公式如下：

P_K,L＝sigmoid(W^s[S_k；U_L]+b^s)

其中，S和U进行连接，W^s和b^s是需要学习的参数。

(2)定义一个集成记忆权重，公式如下：

其中，γ是预定义系数。

(3)给目标矩阵T加权重ξ，公式如下：

R_K＝ξ_KT_K

其中，R_K作为最终的主题表示，与词嵌入和位置嵌入连接作为词的上下文表示。

(4)将上下文表示喂入N层的Transformer的解码器去学习条件概率P(A|H)。Transformer里的每一层都有一个多头自注意子层和一个带有残差连接的线性仿射子层，并且加入标准化和残差连接。注意力得分公式如下：

其中，d_e是输出维数，W^Q,W^K,W^V是需要学习的权重矩阵，h_i为上一层输出。

(5)在t时刻，解码器根据先前的输出和编码器的中间表示来预测输出概率，公式如下：

(6)每一个生成的序列通过‘[PAD]’截断。解码器的目标是最小化负样本似然函数如下：

其中，

是真实摘要中第i个词。

(7)在生成初步序列摘要中，引入了复制机制处理超出词汇表的部分，核心公式如下：

其中，

4、将步骤3输出的序列中每一个单词进行掩码喂入BERT并结合输入序列，使用基于transformer和LSTM的解码器来预测每个掩码位置的细化单词，实现微调。

(1)通过上一步输出的序列，将每一个单词进行掩码喂入BERT并结合输入序列，通过N层的Transformer和LSTM去预测每个细化的摘要词。

(2)在i时刻，BERT的输出层作为LSTM的输入层，核心公式如下：

C_i＝σ(F_i)ΘC_i-1+σ(I_i)Θtanh(G_i-1)

h_i＝σ(O_t)Θtanh(LN_c(C_t))

其中，F_i,I_i,O_i分别是忘记门，输入门，输出门，G_i是隐藏向量，h_i是输出向量，LN_h,LN_x,LN_c是不同层的标准化操作，

为真实摘要第i个词，b_o为偏差项。

(3)两个解码器的参数相同，并且加入了ROUGE作为指导生成更流利的摘要，整个模型联合训练为了更好的捕捉特征，目标为：

经过三部分的联合训练，验证及测试得到了较高的准确度。文本摘要样例效果如下：

原文本:The us space shuttle atlantis separated from the orbitingrussian mir space station early Saturday,after three days of test runs forlife in a future space facility,nasa announced。

目标文本：atlantis mir part ways after three-day space collaborationby emmanuel UNK。

模型生成文本：space shuttle atlantis separated from mir。

Claims

1.一种基于神经主题记忆的预训练文本摘要生成方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于神经主题记忆的预训练文本摘要生成方法，其特征在于，所述步骤(1)包括以下步骤：

(13)词嵌入使用具有30，000词汇量的WordPiece嵌入。

3.根据权利要求1所述的一种基于神经主题记忆的预训练文本摘要生成方法，其特征在于，所述步骤(2)包括以下步骤：

(22)假设X有一个K维的主题概率分布θ，由高斯softmax产生，每个话题K下都有基于词汇表的词概率分布φ_K，X生成满足以下公式：z～N(μ,σ²)，θ＝softmax(f_θ(z))，词分布满足：w_n～softmax(f_φ(θ))，其中f_*(·)是一个线性变换输入的神经感知器，由非线性变换激活，先验参数z,μ,σ由输入数据定义，公式为：

μ＝f_μ(f_e(H_bert))

logσ＝f_σ(f_e(H_bert))；

L_NTM＝D_KL(q(z)||p(z|x))-E_q(z)[p(x|z)]

4.根据权利要求1所述的一种基于神经主题记忆的预训练文本摘要生成方法，其特征在于，所述步骤(3)包括以下步骤：

P_K,L＝sigmoid(W^s[S_k；U_L]+b^s)

其中，S和U进行连接，W^s和b^s是需要学习的参数；

(32)定义一个集成记忆权重，公式如下：