CN110457483B - 一种基于神经主题模型的长文本生成方法 - Google Patents
一种基于神经主题模型的长文本生成方法 Download PDFInfo
- Publication number
- CN110457483B CN110457483B CN201910542965.6A CN201910542965A CN110457483B CN 110457483 B CN110457483 B CN 110457483B CN 201910542965 A CN201910542965 A CN 201910542965A CN 110457483 B CN110457483 B CN 110457483B
- Authority
- CN
- China
- Prior art keywords
- text
- model
- distribution
- long text
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于神经主题模型的长文本生成方法,包括:(1)利用长文本训练集对神经主题模型进行训练,每篇文章分解为一个对应的低维主题分布和一个公用的解码器;(2)使用步骤(1)中的低维主题分布作为标签训练一个多层感知机,使用训练完的多层感知机将短文本映射到主题分布;(3)使用步骤(1)得到的解码器对步骤(2)中得到的主题分布解码,得到高维的词分布;(4)训练一个语言模型,以短文本作为初始输入,从步骤(3)得到的词分布中采样出一定数量的主题词;(5)将短文本与步骤(4)中得到的主题词合并,输入一个通用的文本生成模型框架,输出长文本。利用本发明,大大提升了在大规模数据集上进行长文本生成的质量。
Description
技术领域
本发明属于自然语言处理领域,尤其是一种基于神经主题模型的长文本生成方法。
背景技术
长文本生成任务是自然语言处理中最为重要和棘手的问题之一。与大部分生成式任务不同(例如机器翻译,文本摘要),长文本生成任务对模型输入的要求是一个远远短于输出的短文本甚至是一个单词,这对内容生成和选择有着更高的要求。一个高效的长文本生成模型可以在以语义理解为基础的众多领域得到广泛应用,如自动新闻生成,教育系统和只能对话机器人等。
长文本生成,尤其是以一个极短的文本作为输入的生成任务近年来被广泛研究。比如2018年发表在国际顶级自然语言处理会议Annual Meeting of the Association forComputational Linguistics上的《Hierarchical neural story generation》在第2页到第4页公布了一种称为Fusion Model的融合卷积序列模型和自注意力模型的算法;2019年发表在国际顶级自然语言处理会议Association for the Advance of ArtificialIntelligence上的《Plan-and-write:Towards better automatic storytelling》在第2页到第3页公布了一种先生成文本框架再基于文本框架来生成文章的方法。对话生成任务也有相关的工作,如2017年发表在国际顶级计算神经理论会议Conference of the NorthAmerican Chapter of the Association for Computational Linguistics上的《Plan,write,and revise:an interactive system for open-domain story generation》在第2页到第3页公布了一种运用人机交互来增强故事叙述能力的模型。
之前的工作都是基于人机交互或者仅仅根据极少数几个关键词来生成长文本,这使得模型的成本十分高昂或者模型的先验知识不足,难以在内容选择上有较好的效果。
发明内容
本发明提供了一种基于神经主题模型的长文本生成方法,通过将短文本映射到低维主题分布上再解码成为主题词来补充输入端的知识,大大提升了在大规模数据集上给定短文本生成长文本的质量。
本发明的技术方案如下:
一种基于神经主题模型的长文本生成方法,包括:
(1)利用长文本训练集对神经主题模型进行训练,每篇文章分解为一个对应的低维主题分布和一个公用的解码器;
(2)使用步骤(1)中的低维主题分布作为标签训练一个多层感知机,使用训练完的多层感知机将短文本映射到主题分布;
(3)使用步骤(1)得到的解码器对步骤(2)中得到的主题分布解码,得到高维的词分布;
(4)训练一个语言模型,以短文本作为初始输入,从步骤(3)得到的词分布中采样出一定数量的主题词;
(5)将短文本与步骤(4)中得到的主题词合并,输入一个通用的文本生成模型框架,输出长文本。
由于神经主题模型能够充分利用语料库中的文章来无监督学习其中的主题知识,并且每篇文章的主题分布是一个可控的低维向量。相比于直接用短文本生成长文本,先用短文本预测长文本的低维主题分布再根据解码器解码出的主题词来生成文章是一个更加可控并且直观的方法。
步骤(1)中,使用变分推断模型作为神经主题模型的主要框架,对数据集中的长文本进行无监督学习。主题模型收敛后,每篇文章会有一个对应的低维主题向量和一个公用的解码器。
假设潜在主题分布为高斯分布,使用变分网络来逼近该主题分布的后验真实分布,从而根据变分自编码网络的损失函数来优化主题模型。
步骤(2)中,将短文本映射到主题分布之前,先使用Glove进行词向量嵌入。
步骤(3)中,训练过程中使用的词分布为真实数据词分布,测试过程中使用的是计算后的预估词分布。
步骤(4)中,所述的语言模型在长文本数据集上训练,并且该语言模型为单向前置型语言模型。训练完后,以短文本为初始输入,使用该语言模型来逐步在步骤(3)得到的词分布中的高频词中采样,作为给短文本补充的主题词。
步骤(5)中,在输入文本生成框架之前,使用词向量Glove对合并后的文本进行词向量嵌入。将上述合并后的文本作为输入,使用通用的文本生成模型框架Transformer来进行长文本生成。
与现有技术相比,本发明具有以下有益效果:
1、本发明使用神经主题模型,充分发挥无监督学习利用现有语料库的优势。
2、本发明将短文本生成长文本的任务转化成短文本生成低维主题向量的任务,使得映射过程变得可控而稳定。
3、本发明使用的神经主题模型和生成模型均为通用框架,方便用更为先进高效的模型替代。
附图说明
图1为本发明一种基于神经主题模型的长文本生成方法的流程示意图;
图2为本发明实施例的整体结构示意图;
图3为本发明实施例在ROCStories数据集上生成文本的示意图。
具体实施方式
下面结合附图和实施例对本发明做进一步详细描述,需要指出的是,以下所述实施例旨在便于对本发明的理解,而对其不起任何限定作用。
如图1和图2所示,一种基于神经主题模型的长文本生成方法,包括以下步骤:
S01训练时,在长文本训练集中利用神经主题模型将每篇文章分解为一个低维主题分布和一个公用的解码器。我们使用大规模综合语料库中的长文本作为训练集,并将其转化为词向量后使用基于变分推断的神经主题模型。主题模型收敛后,每篇文章会有一个对应的低维主题向量θ和一个公用的解码器β。
S02,用一个多层感知机将短文本映射到主题分布,训练时使用步骤S01中的主题分布作为标签优化该感知机。我们首先使用Glove进行词向量嵌入,使用多层感知机将短文本映射到低维主题向量中,训练时使用步骤S01中对应的低维主题向量作为标签。
S03,用步骤S01中得到的解码器对步骤S02中得到的主题分布解码,得到词分布:
其中p是词分布,其长度为词典中的词数量。
S04,以短文本为初始输入,用一个语言模型从步骤S03中得到的词分布中采样出一定数量的主题词。我们首先在长文本数据集上训练一个小型的语言模型,然后以短文本为初始输入,使用该语言模型来逐步在p中的高频词中采样,作为给短文本补充的主题词。
S05,将短文本与步骤S04中得到的主题词合并,用一个通用文本生成框架将其作为输入来输出长文本。我们使用词向量Glove对并后的文本进行词向量嵌入,然后将其送入基于自注意力的生成模型Transformer中来生成长文本。值得注意的是,未来此处可用其他更好的生成式模型来代替Transformer。
为验证本发明的有效性,我们在ROCStories和CNN/DailyMail上进行了对比实验。ROCStories是罗切斯特大学公开的长文本生成语料库,包括了训练集和测试集中的9万个标题和文章;CNN/DailyMail是谷歌和牛津大学公开的文本摘要数据集,包含了30万个摘要和文章。
本实施例在测试集上与当前效果最好的已发表方法都进行了比较。本实施例使用了相似度和多样性这两种不同的评估方法。其中相似度分为BLEU值和ROUGE-L值,生成的问题和标准问题的语意相似度;多样性氛围Dist-2和Ent-4,衡量生成问题的语意和语法多样性。表1是本发明的方法(TopNet)在ROCStories上的实验结果,最上面的一栏是当前已发表的方法;下面一栏是本发明及其各个组成部分的效果验证。表2是本发明的方法(TopNet)在CNN/DailyMail上的实验结果。
表1
表2
可以看出,本发明在各个指标上都取得了最好的效果,本发明的方法(TopNet)相比于其他方法具有更强的多样性,并且在相似度上达到了目前的最高水平。
表3是本发明方法生成的文章与其他方法生成的文章的人类评估结果,可以看到本发明生成的文章在各个方面都超过了其他方法。这也反映了以神经主题模型为基础来为生成模型做知识补充是一个十分直观且有意义的做法。
表3
本实施例还展示了本发明和其他方法在ROCStories数据集上生成的实例。如图3所示,本发明(TopNet)生成的文章明显比其他方法生成的文章要更长并且信息量丰富,与主题关联度高。
以上所述的实施例对本发明的技术方案和有益效果进行了详细说明,应理解的是以上所述仅为本发明的具体实施例,并不用于限制本发明,凡在本发明的原则范围内所做的任何修改、补充和等同替换,均应包含在本发明的保护范围之内。
Claims (7)
1.一种基于神经主题模型的长文本生成方法,其特征在于,包括:
(1)利用长文本训练集对神经主题模型进行训练,每篇文章分解为一个对应的低维主题分布和一个公用的解码器;
(2)使用步骤(1)中的低维主题分布作为标签训练一个多层感知机,使用训练完的多层感知机将短文本映射到主题分布;
(3)使用步骤(1)得到的解码器对步骤(2)中得到的主题分布解码,得到高维的词分布;
(4)训练一个语言模型,以短文本作为初始输入,从步骤(3)得到的词分布中采样出主题词;
(5)将短文本与步骤(4)中得到的主题词合并,输入一个通用的文本生成模型框架,输出长文本。
2.根据权利要求1所述的基于神经主题模型的长文本生成方法,其特征在于,步骤(1)中,使用变分推断模型作为神经主题模型的框架。
3.根据权利要求1所述的基于神经主题模型的长文本生成方法,其特征在于,步骤(2)中,将短文本映射到主题分布之前,先使用Glove进行词向量嵌入。
4.根据权利要求1所述的基于神经主题模型的长文本生成方法,其特征在于,步骤(3)中,训练过程中使用的词分布为真实数据词分布,测试过程中使用的是计算后的预估词分布。
5.根据权利要求1所述的基于神经主题模型的长文本生成方法,其特征在于,步骤(4)中,所述的语言模型在长文本数据集上训练,并且该语言模型为单向前置型语言模型。
6.根据权利要求1所述的基于神经主题模型的长文本生成方法,其特征在于,步骤(5)中,在输入文本生成框架之前,使用词向量Glove对合并后的文本进行词向量嵌入。
7.根据权利要求1所述的基于神经主题模型的长文本生成方法,其特征在于,步骤(5)中,使用通用的文本生成模型框架Transformer来进行长文本生成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910542965.6A CN110457483B (zh) | 2019-06-21 | 2019-06-21 | 一种基于神经主题模型的长文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910542965.6A CN110457483B (zh) | 2019-06-21 | 2019-06-21 | 一种基于神经主题模型的长文本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110457483A CN110457483A (zh) | 2019-11-15 |
CN110457483B true CN110457483B (zh) | 2022-02-18 |
Family
ID=68480685
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910542965.6A Active CN110457483B (zh) | 2019-06-21 | 2019-06-21 | 一种基于神经主题模型的长文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110457483B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111581455B (zh) * | 2020-04-28 | 2023-03-21 | 北京字节跳动网络技术有限公司 | 文本生成模型的生成方法、装置和电子设备 |
CN111476038B (zh) * | 2020-05-06 | 2023-04-25 | 中国人民解放军国防科技大学 | 长文本生成方法、装置、计算机设备和存储介质 |
CN113204627B (zh) * | 2021-05-13 | 2022-08-23 | 哈尔滨工业大学 | 利用DialoGPT作为特征标注器的对话摘要生成系统 |
CN116483990A (zh) * | 2023-04-24 | 2023-07-25 | 重庆邮电大学 | 一种基于大数据的互联网新闻内容自动生成方法 |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9811849B2 (en) * | 2007-09-28 | 2017-11-07 | Great-Circle Technologies, Inc. | Contextual execution of automated workflows |
KR102195627B1 (ko) * | 2015-11-17 | 2020-12-28 | 삼성전자주식회사 | 통역 모델 생성 장치 및 방법과, 자동 통역 장치 및 방법 |
CN109558583A (zh) * | 2017-09-27 | 2019-04-02 | 株式会社理光 | 一种自动生成文摘的方法、装置及设备 |
CN108154156B (zh) * | 2017-11-30 | 2021-11-12 | 兰州理工大学 | 基于神经主题模型的图像集成分类方法及装置 |
CN108831559B (zh) * | 2018-06-20 | 2021-01-15 | 清华大学 | 一种中文电子病历文本分析方法与系统 |
CN108984524A (zh) * | 2018-07-05 | 2018-12-11 | 北京理工大学 | 一种基于变分神经网络主题模型的标题生成方法 |
CN109766432B (zh) * | 2018-07-12 | 2021-03-30 | 中国科学院信息工程研究所 | 一种基于生成对抗网络的中文摘要生成方法和装置 |
CN108923922B (zh) * | 2018-07-26 | 2021-04-23 | 北京工商大学 | 一种基于生成对抗网络的文本隐写方法 |
-
2019
- 2019-06-21 CN CN201910542965.6A patent/CN110457483B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110457483A (zh) | 2019-11-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457483B (zh) | 一种基于神经主题模型的长文本生成方法 | |
CN111738004B (zh) | 一种命名实体识别模型的训练方法及命名实体识别的方法 | |
CN108319668B (zh) | 生成文本摘要的方法及设备 | |
CN109344236B (zh) | 一种基于多种特征的问题相似度计算方法 | |
EP3346394A1 (en) | Question answering system training device and computer program therefor | |
Huang et al. | Multimodal continuous emotion recognition with data augmentation using recurrent neural networks | |
Xue et al. | A better way to attend: Attention with trees for video question answering | |
CN110619043A (zh) | 基于动态词向量的自动文本摘要生成方法 | |
Vinnarasu et al. | Speech to text conversion and summarization for effective understanding and documentation | |
CN112016271A (zh) | 语言风格转换模型的训练方法、文本处理方法以及装置 | |
CN115048944A (zh) | 一种基于主题增强的开放域对话回复方法及系统 | |
Nerabie et al. | The impact of Arabic part of speech tagging on sentiment analysis: A new corpus and deep learning approach | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
Ertam et al. | Abstractive text summarization using deep learning with a new Turkish summarization benchmark dataset | |
CN111125323A (zh) | 一种聊天语料标注方法、装置、电子设备及存储介质 | |
Belay et al. | Impacts of homophone normalization on semantic models for amharic | |
Albeer et al. | Automatic summarization of YouTube video transcription text using term frequency-inverse document frequency | |
CN113128199A (zh) | 基于预训练语言模型与多重词信息嵌入的字向量生成方法 | |
Ghasemi et al. | FarSick: A Persian Semantic Textual Similarity And Natural Language Inference Dataset | |
Alfaidi et al. | Exploring the performance of farasa and CAMeL taggers for arabic dialect tweets. | |
Nagatsuka et al. | Paraphrase identification for twitter by co-training based on words and characters | |
Posokhov et al. | Personalizing retrieval-based dialogue agents | |
CN111553168A (zh) | 一种双语短文本匹配方法 | |
Grönroos et al. | North Sámi morphological segmentation with low-resource semi-supervised sequence labeling | |
Golech et al. | A complete human verified Turkish caption dataset for MS COCO and performance evaluation with well-known image caption models trained against it |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |