CN113360601A

CN113360601A - 一种融合主题的pgn-gan文本摘要模型

Info

Publication number: CN113360601A
Application number: CN202110646495.5A
Authority: CN
Inventors: 郭继峰; 费禹潇; 吕帅; 孙文博
Original assignee: Northeast Forestry University
Current assignee: Northeast Forestry University
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2021-09-07

Abstract

本发明涉及一种融合主题的PGN‑GAN摘要生成方法，为了能够生成更加贴近主题信息和源文本的摘要，本发明在指针生成网络的基础上尝试融入了LDA主题模型，并将主题信息融入到结合指针网络和GAN的序列到序列模型中，该模型将利用主题来模拟人类的先验知识，从而使摘要更多的结合主题生成，在获得主题词向量后与上下文共同合成新向量来影响文本的生成。本发明提出的加入了生成对抗网络的指针生成网络模型结果较其他生成的摘要更加通顺，同时因为主题信息的引入，更加贴近原文的含义。

Description

一种融合主题的PGN-GAN文本摘要模型

技术领域：

本发明涉及自然语言处理领域，尤其涉及一种融合主题的PGN-GAN摘要生成方法。

背景技术：

随着近年来互联网文本信息的爆发式增长，极大的增加了阅读的困难，从繁杂的文本中提取有用的信息变得越显得格外重要，因此如何高效准确的从中提取信息组成摘要成为了目前互联网行业的迫切需求。

在先前的工作中，有研究人员利用隐迪利克雷(LDA)方法生成文档主题模型以提取文档集或语料库的潜在主题信息，随着LDA技术的不断成熟，主题模型除了用在分类预测的方面也更多的应用在文本摘要方面的工作。

现阶段文本摘要技术大致分为两类，抽取式摘要与生成式摘要，抽取式摘要技术一般依靠词频、统计等抽取原文的词语或句子，生成式摘要技术一般需要利用神经网络从中提取文本的特征再通过语料生成所需的摘要，但目前常用的基准序列到序列模型仍然具有事实偏差、不够还原等问题。目前解决以上问题的主流思想是指针生成网络。

随着生成对抗网络在图像领域的广泛应用，GAN也被尝试应用在了文本生成中。本文使用生成器G来生成文本，并利用鉴别器D作为文本的分类器，D 的主要作用是鉴别文本是由机器生成还是人为生成。G和D的对抗学习最终可以协助传统的网络结构生成更高质量的文本。

为了能够生成更加贴近主题信息和源文本的摘要，本发明在指针生成网络的基础上尝试融入了LDA主题模型，并将主题信息融入到结合GAN的序列到序列模型中，该模型将利用主题来模拟人类的先验知识，从而使摘要更多的结合主题生成，在获得主题词向量后与上下文共同合成新向量来影响文本的生成。

本发明提出的加入了生成对抗网络的指针生成网络模型结果较其他生成的摘要更加通顺，同时因为主题信息的引入，更加贴近原文的含义。

发明内容：

本发明的目的是克服现有方法的不足，提出一种结合指针网络同生成对抗网络的摘要生成方法,特别是涉及一种融合主题信息的摘要生成方法，以弥补摘要生成中主题信息确实的问题。

1.一种融合主题的PGN-GAN文本摘要模型，其特征在于，包括如下步骤：

步骤1：给定文本集合中的每篇文档，利用隐狄利克雷模型得到主题词和主题文档分布。

步骤2：在主题分布中选取前k个作为主题词，得到主题词向量。

步骤3：将普通编码器的最终隐藏层状态作为主题注意力层的输入，形成复合注意力。

步骤4：生成器将源文本和主题词作为输入，在经过带有复合注意力机制的编码器后将x转变为隐藏状态，搭建指针生成网络和生成对抗网络，鉴别器用来区分文本是机器生成的还是真实样本。

步骤5：将输出向量传入解码器，通过解码器得到最终生成的文本。

2.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型，其特征在于，所述步骤1包括如下步骤：

步骤1.1：给定文本集合中的每篇文档，生成一个隐迪利克雷分布模型，得到θ_m作为主题——文档分布

步骤1.2：每个主题t，依据以β为参数的狄利克雷分布得到分布

即主题词分布。

步骤1.3：利用主题词分布和主题文档分布得到T_mn和w_mn

步骤1.4：利用吉布斯采样来进行求解，对于当前文档的每一个词我们随机赋予一个主题编号，随后重新扫描。对于每一个当前词利用吉布斯采样公式来更新他的主题编号，重复以上步骤直到采样收敛，最后统计文档中各词的主题，得到该文档的主题分布。

3.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型，其特征在于，所述步骤2包括如下步骤

步骤2.1：利用LDA方法生成主题词后于事先设定的主题中训练出t₁…t_k，选取前n个作为对应文本的主题词。

步骤2.2：利用Word2Vec模型获得每个词语的词向量。

4.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型，其特征在于，所述步骤3包括如下步骤。

步骤3.1：将主题词表示为词向量，普通编码器的最终隐藏层状态作为主题注意力层的输入，形成的新编码层。

步骤3.2：生成器首先将源文本作为输入，在使用编码器后将源文本转变为隐藏状态。

步骤3.3：利用注意力机制的原理形成新的主题注意力结果，然后将序列注意力和普通注意力叠加得到输出。

5.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型，其特征在于，所述步骤4包括如下步骤。

步骤4.1：搭建指针网络架构:包含有编码器，attention层，解码器

步骤4.2：搭建生成器与判别器，生成器利用已经建立好的指针网络。鉴别器区分文本是机器生成的还是真实样本，使用LSTM网络来进行特征选择，这些特征最后经过sigmoid函数后得到该文本是否为真实样本的概率。

步骤4.3：对于生成器G和判别器D的训练，我们首先固定生成器的权重，对判别器更新权重，随后两方交替迭代直到生成器生成同训练样本相同的分布。

附图说明：

图1是一种融合主题的PGN-GAN文本摘要模型的流程图。

图2是文本摘要模型中融合主题的PGN模型流程图。

图3是GAN网络结构图。

图4是生成的摘要示例。

具体实施方式：

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

随着深度学习的发展，自动摘要的文本生成效果得到了进一步的提高，本文研究了一种融合主题的PGN-GAN文本摘要模型，参照图1本发明包括以下步骤：

S1、接收文本，通过隐狄利克雷分布建立LDA模型；

S2、利用主题分布选取前k个主题词作为主体信息，然后获取该主题词的词向量；

S3、获取到文本词向量和主题词向量后，将二者结合，形成新的注意力层

S4、使用生成器中编码器解码器结构进行训练，利用鉴别器同生成器对抗学习。

S5、生成器和鉴别器稳定后，将输出向量传入解码器，得到最终生成的文本。

如上述步骤S1所述，建立LDA模型需要确定文档分布和词分布，首先对于给定的数据集会有M个文档，D:{d₁,…，d_m}，文档d中含有S个句子，N个词，在LDA模型中，LDA假定N篇文档中含有K个主题，W_mn代表第m篇文档中的第n个词，T_mn代表第m篇文档的第n个词的主题。θ_m表示第m篇文档的主题概率，服从以α为参数的狄利克雷分布，

代表第k个主题的对应词的概率，服从以β为参数的狄利克雷分布。

1.对于给定文本集合中的每篇文档，生成一个隐迪利克雷分布模型，得到θ_m作为主题—文档分布

2.每个主题t，依据以β为参数的狄利克雷分布得到分布

即主题词分布

3.利用主题词分布和主题文档分布得到词T_mn和w_mn

如上述步骤S2所述，在建立LDA模型后，应确定主题词的个数，利用 Word2Vec方法获取词向量。

如上述步骤S3所述，要实现复合注意力需要将主题词T:(t₁,…,t_n)表示为词向量，利用普通编码器的最终隐藏层状态s₀作为主题注意力层的输入，形成 (s₀,t₁,…,t_n)的新编码层，同样利用注意力机制的原理形成新的主题注意力结果 O_i，然后将序列注意力和普通注意力叠加得到输出。

如上述步骤S4所述，如图将通过指针生成网络与生成对抗网络进行训练， P_gen将隐藏层状态h_i，解码器状态s_t和当前字符的输入x_i，计算得：

其中，w是需要学习的参数，通过σ激活函数激活后，形成P_gen。P_gen代表指针网络生成的概率，通过引入P_gen获得生成单词P(w)的概率分布如下式：

当w不在词典中时，P_vocab＝0表示单词从原始文本中得到，当w在词典中时，通过生成得到。

生成器首先将源文本x＝{x₁,x₂,…,x_t,…,x_T}作为输入，n是单词的个数，预测摘要是y＝{y₁,y₂,…,y_n,…,y_N}，在使用编码器后将x转变为隐藏状态h＝ {h₁,h₂,…,h_t}。鉴别器的目的是区分文本时机器生成的还是真实样本，我们这里使用LSTM网络来进行特征选择，这些特征最后经过sigmoid函数后得到该文本是否为真实样本的概率。

如上述步骤S5所述，将S4得到的最终解码向量传入解码器，在decoder 层，如下式所示每一步的隐向量和传统注意力机制一样将h转化为c_i，然后将主题向量k融入α_oj中，其中s_i是第i-1步的隐藏状态，h_T是句子的最终的隐藏层状态，η是一个多层感知机。

应当理解的是，本说明书未详细阐述的部分均属于现有技术。

以上结合附图所述，仅为本发明的具体实施方式及流程，但本发明的保护范围并不局限于此，任何熟悉本领域的技术人员应当理解，此仅为举例说明，可以对此实施方式做出多种变化和替换，而不背离本发明的实质内容。本发明的范围仅由所附权利要求书限定。

本发明通过参考附图描述的实施方式是示例性的，仅用于对本发明进行解释，不能理解为对本发明的限制，本发明的实施例具体范围不受此限制，相反，本发明的所有实施例包括落入所附权利要求书的精神和内涵范围内的所有变化和修改。

Claims

步骤1：给定文本集合中的每篇文档，利用隐狄利克雷模型得到主题词和主题文档分布

步骤2：在主题分布中选取前k个作为主题词，得到主题词向量

步骤1.2：每个主题t，依据以β为参数的狄利克雷分布得到分布\varphi_k，即主题词分布。

步骤1.3：利用主题词分布和主题文档分布得到词T_{mn}和w_{mn}

步骤2.1：利用LDA方法生成主题词后于事先设定的主题中训练出t_1\cdotst_k，选取前n个作为对应文本的主题词。

步骤2.2：利用Word2Vec模型获得每个词语的词向量。

6.根据权利要求1所述的一种融合主题的PGN-GAN文本摘要模型，其特征在于，所述步骤5包括如下步骤。

步骤5.1将主题向量k融入α_oj中。

步骤5.2将S4得到的最终解码向量传入解码器。