CN110457483B

CN110457483B - 一种基于神经主题模型的长文本生成方法

Info

Publication number: CN110457483B
Application number: CN201910542965.6A
Authority: CN
Inventors: 潘博远; 蔡登�; 赵洲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2019-06-21
Filing date: 2019-06-21
Publication date: 2022-02-18
Anticipated expiration: 2039-06-21
Also published as: CN110457483A

Abstract

本发明公开了一种基于神经主题模型的长文本生成方法，包括：(1)利用长文本训练集对神经主题模型进行训练，每篇文章分解为一个对应的低维主题分布和一个公用的解码器；(2)使用步骤(1)中的低维主题分布作为标签训练一个多层感知机，使用训练完的多层感知机将短文本映射到主题分布；(3)使用步骤(1)得到的解码器对步骤(2)中得到的主题分布解码，得到高维的词分布；(4)训练一个语言模型，以短文本作为初始输入，从步骤(3)得到的词分布中采样出一定数量的主题词；(5)将短文本与步骤(4)中得到的主题词合并，输入一个通用的文本生成模型框架，输出长文本。利用本发明，大大提升了在大规模数据集上进行长文本生成的质量。

Description

一种基于神经主题模型的长文本生成方法

技术领域

本发明属于自然语言处理领域，尤其是一种基于神经主题模型的长文本生成方法。

背景技术

长文本生成任务是自然语言处理中最为重要和棘手的问题之一。与大部分生成式任务不同(例如机器翻译，文本摘要)，长文本生成任务对模型输入的要求是一个远远短于输出的短文本甚至是一个单词，这对内容生成和选择有着更高的要求。一个高效的长文本生成模型可以在以语义理解为基础的众多领域得到广泛应用，如自动新闻生成，教育系统和只能对话机器人等。

长文本生成，尤其是以一个极短的文本作为输入的生成任务近年来被广泛研究。比如2018年发表在国际顶级自然语言处理会议Annual Meeting of the Association forComputational Linguistics上的《Hierarchical neural story generation》在第2页到第4页公布了一种称为Fusion Model的融合卷积序列模型和自注意力模型的算法；2019年发表在国际顶级自然语言处理会议Association for the Advance of ArtificialIntelligence上的《Plan-and-write:Towards better automatic storytelling》在第2页到第3页公布了一种先生成文本框架再基于文本框架来生成文章的方法。对话生成任务也有相关的工作，如2017年发表在国际顶级计算神经理论会议Conference of the NorthAmerican Chapter of the Association for Computational Linguistics上的《Plan,write,and revise:an interactive system for open-domain story generation》在第2页到第3页公布了一种运用人机交互来增强故事叙述能力的模型。

之前的工作都是基于人机交互或者仅仅根据极少数几个关键词来生成长文本，这使得模型的成本十分高昂或者模型的先验知识不足，难以在内容选择上有较好的效果。

发明内容

本发明提供了一种基于神经主题模型的长文本生成方法，通过将短文本映射到低维主题分布上再解码成为主题词来补充输入端的知识，大大提升了在大规模数据集上给定短文本生成长文本的质量。

本发明的技术方案如下：

一种基于神经主题模型的长文本生成方法，包括：

(1)利用长文本训练集对神经主题模型进行训练，每篇文章分解为一个对应的低维主题分布和一个公用的解码器；

(2)使用步骤(1)中的低维主题分布作为标签训练一个多层感知机，使用训练完的多层感知机将短文本映射到主题分布；

(3)使用步骤(1)得到的解码器对步骤(2)中得到的主题分布解码，得到高维的词分布；

(4)训练一个语言模型，以短文本作为初始输入，从步骤(3)得到的词分布中采样出一定数量的主题词；

(5)将短文本与步骤(4)中得到的主题词合并，输入一个通用的文本生成模型框架，输出长文本。

由于神经主题模型能够充分利用语料库中的文章来无监督学习其中的主题知识，并且每篇文章的主题分布是一个可控的低维向量。相比于直接用短文本生成长文本，先用短文本预测长文本的低维主题分布再根据解码器解码出的主题词来生成文章是一个更加可控并且直观的方法。

步骤(1)中，使用变分推断模型作为神经主题模型的主要框架，对数据集中的长文本进行无监督学习。主题模型收敛后，每篇文章会有一个对应的低维主题向量和一个公用的解码器。

假设潜在主题分布为高斯分布，使用变分网络来逼近该主题分布的后验真实分布，从而根据变分自编码网络的损失函数来优化主题模型。

步骤(2)中，将短文本映射到主题分布之前，先使用Glove进行词向量嵌入。

步骤(3)中，训练过程中使用的词分布为真实数据词分布，测试过程中使用的是计算后的预估词分布。

步骤(4)中，所述的语言模型在长文本数据集上训练，并且该语言模型为单向前置型语言模型。训练完后，以短文本为初始输入，使用该语言模型来逐步在步骤(3)得到的词分布中的高频词中采样，作为给短文本补充的主题词。

步骤(5)中，在输入文本生成框架之前，使用词向量Glove对合并后的文本进行词向量嵌入。将上述合并后的文本作为输入，使用通用的文本生成模型框架Transformer来进行长文本生成。

与现有技术相比，本发明具有以下有益效果：

1、本发明使用神经主题模型，充分发挥无监督学习利用现有语料库的优势。

2、本发明将短文本生成长文本的任务转化成短文本生成低维主题向量的任务，使得映射过程变得可控而稳定。

3、本发明使用的神经主题模型和生成模型均为通用框架，方便用更为先进高效的模型替代。

附图说明

图1为本发明一种基于神经主题模型的长文本生成方法的流程示意图；

图2为本发明实施例的整体结构示意图；

图3为本发明实施例在ROCStories数据集上生成文本的示意图。

具体实施方式

下面结合附图和实施例对本发明做进一步详细描述，需要指出的是，以下所述实施例旨在便于对本发明的理解，而对其不起任何限定作用。

如图1和图2所示，一种基于神经主题模型的长文本生成方法，包括以下步骤：

S01训练时，在长文本训练集中利用神经主题模型将每篇文章分解为一个低维主题分布和一个公用的解码器。我们使用大规模综合语料库中的长文本作为训练集，并将其转化为词向量后使用基于变分推断的神经主题模型。主题模型收敛后，每篇文章会有一个对应的低维主题向量θ和一个公用的解码器β。

S02，用一个多层感知机将短文本映射到主题分布，训练时使用步骤S01中的主题分布作为标签优化该感知机。我们首先使用Glove进行词向量嵌入，使用多层感知机将短文本映射到低维主题向量

中，训练时使用步骤S01中对应的低维主题向量作为标签。

S03，用步骤S01中得到的解码器对步骤S02中得到的主题分布解码，得到词分布：

其中p是词分布，其长度为词典中的词数量。

S04，以短文本为初始输入，用一个语言模型从步骤S03中得到的词分布中采样出一定数量的主题词。我们首先在长文本数据集上训练一个小型的语言模型，然后以短文本为初始输入，使用该语言模型来逐步在p中的高频词中采样，作为给短文本补充的主题词。

S05，将短文本与步骤S04中得到的主题词合并，用一个通用文本生成框架将其作为输入来输出长文本。我们使用词向量Glove对并后的文本进行词向量嵌入，然后将其送入基于自注意力的生成模型Transformer中来生成长文本。值得注意的是，未来此处可用其他更好的生成式模型来代替Transformer。

为验证本发明的有效性，我们在ROCStories和CNN/DailyMail上进行了对比实验。ROCStories是罗切斯特大学公开的长文本生成语料库，包括了训练集和测试集中的9万个标题和文章；CNN/DailyMail是谷歌和牛津大学公开的文本摘要数据集，包含了30万个摘要和文章。

本实施例在测试集上与当前效果最好的已发表方法都进行了比较。本实施例使用了相似度和多样性这两种不同的评估方法。其中相似度分为BLEU值和ROUGE-L值，生成的问题和标准问题的语意相似度；多样性氛围Dist-2和Ent-4，衡量生成问题的语意和语法多样性。表1是本发明的方法(TopNet)在ROCStories上的实验结果，最上面的一栏是当前已发表的方法；下面一栏是本发明及其各个组成部分的效果验证。表2是本发明的方法(TopNet)在CNN/DailyMail上的实验结果。

表1

表2

可以看出，本发明在各个指标上都取得了最好的效果，本发明的方法(TopNet)相比于其他方法具有更强的多样性，并且在相似度上达到了目前的最高水平。

表3是本发明方法生成的文章与其他方法生成的文章的人类评估结果，可以看到本发明生成的文章在各个方面都超过了其他方法。这也反映了以神经主题模型为基础来为生成模型做知识补充是一个十分直观且有意义的做法。

表3

本实施例还展示了本发明和其他方法在ROCStories数据集上生成的实例。如图3所示，本发明(TopNet)生成的文章明显比其他方法生成的文章要更长并且信息量丰富，与主题关联度高。

以上所述的实施例对本发明的技术方案和有益效果进行了详细说明，应理解的是以上所述仅为本发明的具体实施例，并不用于限制本发明，凡在本发明的原则范围内所做的任何修改、补充和等同替换，均应包含在本发明的保护范围之内。

Claims

1.一种基于神经主题模型的长文本生成方法，其特征在于，包括：

(4)训练一个语言模型，以短文本作为初始输入，从步骤(3)得到的词分布中采样出主题词；

2.根据权利要求1所述的基于神经主题模型的长文本生成方法，其特征在于，步骤(1)中，使用变分推断模型作为神经主题模型的框架。

3.根据权利要求1所述的基于神经主题模型的长文本生成方法，其特征在于，步骤(2)中，将短文本映射到主题分布之前，先使用Glove进行词向量嵌入。

4.根据权利要求1所述的基于神经主题模型的长文本生成方法，其特征在于，步骤(3)中，训练过程中使用的词分布为真实数据词分布，测试过程中使用的是计算后的预估词分布。

5.根据权利要求1所述的基于神经主题模型的长文本生成方法，其特征在于，步骤(4)中，所述的语言模型在长文本数据集上训练，并且该语言模型为单向前置型语言模型。

6.根据权利要求1所述的基于神经主题模型的长文本生成方法，其特征在于，步骤(5)中，在输入文本生成框架之前，使用词向量Glove对合并后的文本进行词向量嵌入。

7.根据权利要求1所述的基于神经主题模型的长文本生成方法，其特征在于，步骤(5)中，使用通用的文本生成模型框架Transformer来进行长文本生成。