CN115017876A - 一种自动生成情感文本的方法及终端 - Google Patents

一种自动生成情感文本的方法及终端 Download PDF

Info

Publication number
CN115017876A
CN115017876A CN202210650394.XA CN202210650394A CN115017876A CN 115017876 A CN115017876 A CN 115017876A CN 202210650394 A CN202210650394 A CN 202210650394A CN 115017876 A CN115017876 A CN 115017876A
Authority
CN
China
Prior art keywords
article
text
emotion
obtaining
short text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210650394.XA
Other languages
English (en)
Inventor
薛健武
董云侠
林志扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Pico Information Co Ltd
Original Assignee
Xiamen Meiya Pico Information Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Pico Information Co Ltd filed Critical Xiamen Meiya Pico Information Co Ltd
Priority to CN202210650394.XA priority Critical patent/CN115017876A/zh
Publication of CN115017876A publication Critical patent/CN115017876A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种自动生成情感文本的方法及终端,获取待处理文章和不同情感倾向类别对应的社交短文本模板;根据所述待处理文章得到主题关键词;根据所述主题关键词填充所述社交短文本模板,得到情感文本并输出;本发明将通过待处理文章得到的主题关键词填充到社交短文本模板中,实现自动生成的情感文本与具体的文章主题相关联,更加贴合人在阅读文章或段落后观点的自然表达习惯,从而实现了高质量的情感文本生成。为构建仿真社交网络提供了高质量的素材资源,也为其他模型的训练提供了数据上的补充。

Description

一种自动生成情感文本的方法及终端
技术领域
本发明涉及自然语言处理领域,尤其涉及一种自动生成情感文本的方法及终端。
背景技术
现有技术对文本生成方法主要采用深度学习方法,涉及整理海量且质优的训练数据集进行训练,通过模型输入到输出直接生成最终文本的方式。其中,对训练集的数据要求很高,具体表现为两个难点,第一是源数据必须保证输入输出部分,在内容上保持强联系并输出倾向;其次海量的训练数据标记需要大量的人工成本。因此考虑到人力物力的投入成本,很难制作一个优质的训练数据集,当数据集质量不能得到保证的情况下,现存在的很多训练好的模型生成的文本就表现为质量较低,与文章或话题主题并无强联系,不能起到很好的效果,并且低质量言论信息或明显的机器生成文本内容也很难通过所发布的社交平台的检测机制,不能在没有人工干预的情况下直接作为实际应用。
发明内容
本发明所要解决的技术问题是:提供一种自动生成情感文本的方法及终端,实现高质量文本语料的生成。
为了解决上述技术问题,本发明采用的一种技术方案为:
一种自动生成情感文本的方法,包括步骤:
获取待处理文章和不同情感倾向类别对应的社交短文本模板;
根据所述待处理文章得到主题关键词;
根据所述主题关键词填充所述社交短文本模板,得到情感文本并输出。
为了解决上述技术问题,本发明采用的另一种技术方案为:
一种自动生成情感文本的终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待处理文章和不同情感倾向类别对应的社交短文本模板;
根据所述待处理文章得到主题关键词;
根据所述主题关键词填充所述社交短文本模板,得到情感文本并输出。
本发明的有益效果在于:获取一篇待处理文章,根据不同情感倾向类别训练不同的社交短文本模板,将通过待处理文章得到的主题关键词填充到社交短文本模板中,实现自动生成的情感文本与具体的文章主题相关联,更加贴合人在阅读文章或段落后观点的自然表达习惯,从而实现了高质量的情感文本生成。为构建仿真社交网络提供了高质量的素材资源,也为其他模型的训练提供了数据上的补充。
附图说明
图1为本发明实施例的一种自动生成情感文本的方法的步骤流程图;
图2为本发明实施例的一种自动生成情感文本的终端的结构示意图;
图3为本发明实施例的一种自动生成情感文本的另一方法的步骤流程图;
图4为本发明实施例的seq2seq提取文章摘要过程示意图;
图5为本发明实施例的社交短文本模板生成过程示意图。
标号说明:
1、一种自动生成情感文本的终端;2、处理器;3、存储器。
具体实施方式
为详细说明本发明的技术内容、所实现目的及效果,以下结合实施方式并配合附图予以说明。
请参照图1,一种自动生成情感文本的方法,包括步骤:
获取待处理文章和不同情感倾向类别对应的社交短文本模板;
根据所述待处理文章得到主题关键词;
根据所述主题关键词填充所述社交短文本模板,得到情感文本并输出。
从上述描述可知,本发明的有益效果在于:获取一篇待处理文章,根据不同情感倾向类别训练不同的社交短文本模板,将通过待处理文章得到的主题关键词填充到社交短文本模板中,实现自动生成的情感文本与具体的文章主题相关联,更加贴合人在阅读文章或段落后观点的自然表达习惯,从而实现了高质量的情感文本生成。为构建仿真社交网络提供了高质量的素材资源,也为其他模型的训练提供了数据上的补充。
进一步地,所述根据所述待处理文章得到主题关键词包括:
将所述待处理文章输入长短期记忆网络模型,得到关键词向量和语义向量;
将所述关键词向量和所述语义向量做注意力操作,得到主题关键词向量;
根据所述主题关键词向量得到主题关键词。
由上述描述可知,将待处理文章通过长短期记忆网络模型(LSTM)得到关键词向量和语义向量,最终得到主题关键词,实现对待处理文章主题的提炼。
进一步地,所述获取待处理文章和不同情感倾向类别对应的预设社交短文本模板之前包括:
获取训练评论;
根据TF-IDF词频统计方法计算出所述训练评论中每一训练评论对应的高频词集合;
根据所述高频词集合及情感敏感表得到所述每一训练评论对应的情感倾向类别;
根据所述情感倾向类别对应的所述训练评论得到所述情感倾向类别对应的社交短文本模板。
由上述描述可知,获取训练评论,训练评论可选择符合表达主观情感倾向的文本,再根据不同情感倾向类别训练对应的社交短文本模板,保证最终生成的情感文本更加贴合自然语言。
进一步地,所述根据所述情感倾向类别对应的所述训练评论得到所述情感倾向类别对应的社交短文本模板包括:
去除所述情感倾向类别对应的所述训练评论中的主题词、前缀及后缀,并保留主题词空缺得到所述社交短文本模板。
由上述描述可知,将训练评论中原有的主题词、前缀及后缀删除,保留表达出情感倾向的主干部分,方便后续填充内容实现对不同主题的情感表达,并且能够最大程度保留自然语言中的语言习惯,贴合人发出的文本。
进一步地,所述据所述主题关键词填充所述社交短文本模板,得到情感文本并输出包括:
根据所述主题关键词填充所述社交短文本模板中的主题词空缺,得到情感文本并输出。
由上述描述可知,将根据待处理文章得到的主题关键词填入社交短文本模板中的主题词空缺,则生成了对应待处理文章的情感文本,实现自动生成针对性的观点表达。
进一步地,所述根据所述待处理文章得到主题关键词还包括:
根据所述待处理文章得到文章摘要;
所述根据所述主题关键词填充所述社交短文本模板,得到情感文本并输出具体为:
根据所述主题关键词填充所述社交短文本模板,并和所述文章摘要进行聚合,得到情感文本并输出。
由上述描述可知,还根据待处理文章得到文章摘要,并将文章摘要与填充后的社交短文本模板进行聚合得到情感文本,贴合人在对事物表达情感时进行对应总结的习惯,进一步最终生成的情感文本的质量。
进一步地,所述根据所述待处理文章得到文章摘要包括:
将所述待处理文章通过seq2seq模型得到文章摘要。
由上述描述可知,通过seq2seq模型得到文章摘要,能够保证文章摘要准确反应出文章的真正主题。
进一步地,所述根据所述待处理文章通过seq2seq模型得到文章摘要之前包括:
获取训练文章;
在所述seq2seq模型的编码器中将所述训练文章通过蕴含关系分类器,得到第一向量和第二向量;
将所述第一向量和所述第二向量组合成特征向量通过分类模块进行蕴含预测;
通过所述seq2seq模型的解码器生成文章摘要,并将所述文章摘要被所述训练文章蕴含的比例作为奖励训练所述seq2seq模型,得到训练完成的seq2seq模型。
由上述描述可知,加入蕴含分析,并将文章摘要被训练文章蕴含的比例作为奖励对seq2seq模型进行训练,进一步提高seq2seq模型获取文章摘要的准确性。
进一步地,所述根据所述主题关键词填充所述社交短文本模板,并和所述文章摘要进行聚合,得到情感文本并输出包括:
判断所述社交短文本模板的句法形式,若为短句,则根据所述主题关键词填充所述社交短文本模板,并和所述文章摘要进行拼接,得到情感输出文本;
若为普通长句,则根据所述主题关键词填充所述社交短文本模板,并通过标点符号切分后嵌入所述文章摘要;
若为复杂句,则根据所述主题关键词填充所述社交短文本模板,并将所述文章摘要作为从句嵌入。
由上述描述可知,根据短文本模板的不同句法形式选择不同的聚合方式,使得文章摘要和填充后的短文本模板的融合更加自然,避免出现明显的语法谬误,从而达到真实模拟的效果。
请参照图2,一种自动生成情感文本的终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述的一种自动生成情感文本的方法。
本发明上述一种自动生成情感文本的方法及终端,能够适用于需要生成情感文本进行模型训练或模拟真人发言的场景,特别适用于用于模型训练的语料缺少时进行语料的补充,及针对某一篇具体文章生成对应评论的场景,以下通过具体实施方式进行说明。
请参照图1及图3,本发明的实施例一为:
一种自动生成情感文本的方法,包括步骤:
S1、获取待处理文章和不同情感倾向类别对应的社交短文本模板;
S2、根据所述待处理文章得到主题关键词,具体的,可通过命名实体识别技术提取文章的关键词,包括:
S21、将所述待处理文章输入长短期记忆网络模型(LSTM),得到关键词向量和语义向量;
S22、将所述关键词向量和所述语义向量做注意力操作,得到主题关键词向量;
S23、根据所述主题关键词向量得到主题关键词,所述主题关键词包括实体名词类和观点名词类;
在一种可选的实施方式中,预设主题关键词的数量,若根据主题关键词向量得到的第一主题关键词的数量超过预设主题关键词的数量,则剔除第一主题关键词中非实体名词类且非观点名词类的关键词,得到主题关键词;
S24、根据待处理文章得到文章摘要,包括:将所述待处理文章通过seq2seq模型得到文章摘要,文章摘要反应文章的主要内容或主题观点;其中,文章摘要提取了文章的主要内容或主题观点;
其中,步骤S4与步骤S21-S23二者之间不限定顺序,可同时执行也可先后执行;
S3、根据所述主题关键词填充所述社交短文本模板,得到情感文本并输出,包括:根据所述主题关键词填充所述社交短文本模板,并和所述文章摘要进行聚合,得到情感文本并输出,具体的,判断所述社交短文本模板的句法形式,若为短句,则根据所述主题关键词填充所述社交短文本模板,并和所述文章摘要进行拼接,得到情感输出文本;
若为普通长句,则根据所述主题关键词填充所述社交短文本模板,并通过标点符号切分后嵌入所述文章摘要;
若为复杂句,则根据所述主题关键词填充所述社交短文本模板,并将所述文章摘要作为从句嵌入;
在一种可选的实施方式中,S3还包括:若为长句,则获取预设句法表判断句式,为普通长句或复杂句,并根据预设句法表进行文章摘要的嵌入。
请参照图5,本发明的实施例二为:
一种自动生成情感文本的方法,其与实施例一的不同之处在于,步骤S1之前,还包括:
S01、获取训练评论,所述训练评论为表达主观情感倾向的文本;
S02、根据TF-IDF词频统计方法计算出所述训练评论中每一训练评论对应的高频词集合;
S03、根据所述高频词集合及情感敏感表得到所述每一训练评论对应的情感倾向类别;
在一种可选的实施方式中,请安倾向类别包括积极(支持)、消极(反对)、中立三个类别;
S04、根据所述情感倾向类别对应的所述训练评论得到所述情感倾向类别对应的社交短文本模板,包括:
去除所述情感倾向类别对应的所述训练评论中的主题词、前缀及后缀,并保留主题词空缺得到所述社交短文本模板;
可知,由于是直接将真实的评论进行挖空,保留情感表达的部分而将与主题相关的部分和其余无感部分剔除,则将不同的主题填入空缺处就能够得到对不同主题的情感表达语句,且能够最大程度贴近真人的表达方式;
则S3包括:
根据所述主题关键词填充所述社交短文本模板中的主题词空缺,得到情感文本并输出;
请参照图4,本发明的实施例三为:
一种自动生成情感文本的方法,其与其余实施例的不同之处在于:
所述步骤S24中,根据待处理文章得到文章摘要之前包括:
S211、获取训练文章;
S212、在所述seq2seq模型的编码器中将所述训练文章通过蕴含关系分类器,得到第一向量和第二向量;蕴含关系分类器中包括softmax层;可以使编码器具有蕴含意识;
S213、将所述第一向量和所述第二向量组合成特征向量通过分类模块进行蕴含预测;具体的,在训练蕴含识别时,采用双向长短期记忆网络,将文本蕴含数据集中的语句对分别进行编码得到u向量和v向量,将两个向量组合成特征向量传入分类模块进行蕴含预测;
S214、通过所述seq2seq模型的解码器生成预测文本,并将所述预测文本被所述训练文本蕴含的比例作为奖励训练所述seq2seq模型,得到训练完成的seq2seq模型;则能够生成更能够概述原文的摘要。
请参照图2,本发明的实施例四为:
一种自动生成情感文本的终端1,包括处理器2、存储器3及存储在存储器3上并可在所述处理器2上运行的计算机程序,所述处理器2执行所述计算机程序时实现实施例一、实施例二或实施例三中的各个步骤。
综上所述,本发明提供了一种自动生成情感文本的方法及终端,通过为不同情感倾向类别设置对应的社交短文本模板,在接收到待处理文章后,根据待处理文章得到主题关键词,并根据主题关键词填充社交短文本模板,最终得到与待处理文章相关的情感文本,其中包含了情感倾向和待处理文章中的内容,具有较强的针对性,并且能够在短时间内生成大量与待处理文章强相关且可用性高的短文本语料,该语料能够作为构建仿真社交网络的素瓷资源使用,也可以整理成数据集作为其他模型的训练数据集使用,因是根据真人发出的评论经过挖空和无意义的前缀及后缀排除等方式得到的社交短文本模板,故更加贴近真人的真实表达,并且还根据积极(支持)、消极(反对)和中立三个方向对社交短文本模板进行分类,更加贴合人在不同情感倾向下的不同表达方式,实现了高仿真度的拟人,同时,设置根据不同的句式对应句法,根据句法使用不同的方法拼接文章摘要和填充后的社交短文本模板,还能够造出复杂句,且最大程度避免语义不通的情况,实现高质量文本语料的生成。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等同变换,或直接或间接运用在相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种自动生成情感文本的方法,其特征在于,包括步骤:
获取待处理文章和不同情感倾向类别对应的社交短文本模板;
根据所述待处理文章得到主题关键词;
根据所述主题关键词填充所述社交短文本模板,得到情感文本并输出。
2.根据权利要求1所述的一种自动生成情感文本的方法,其特征在于,所述根据所述待处理文章得到主题关键词包括:
将所述待处理文章输入长短期记忆网络模型,得到关键词向量和语义向量;
将所述关键词向量和所述语义向量做注意力操作,得到主题关键词向量;
根据所述主题关键词向量得到主题关键词。
3.根据权利要求1所述的一种自动生成情感文本的方法,其特征在于,所述获取待处理文章和不同情感倾向类别对应的预设社交短文本模板之前包括:
获取训练评论;
根据TF-IDF词频统计方法计算出所述训练评论中每一训练评论对应的高频词集合;
根据所述高频词集合及情感敏感表得到所述每一训练评论对应的情感倾向类别;
根据所述情感倾向类别对应的所述训练评论得到所述情感倾向类别对应的社交短文本模板。
4.根据权利要求3所述的一种自动生成情感文本的方法,其特征在于,所述根据所述情感倾向类别对应的所述训练评论得到所述情感倾向类别对应的社交短文本模板包括:
去除所述情感倾向类别对应的所述训练评论中的主题词、前缀及后缀,并保留主题词空缺得到所述社交短文本模板。
5.根据权利要求4所述的一种自动生成情感文本的方法,其特在于,所述据所述主题关键词填充所述社交短文本模板,得到情感文本并输出包括:
根据所述主题关键词填充所述社交短文本模板中的主题词空缺,得到情感文本并输出。
6.根据权利要求1所述的一种自动生成情感文本的方法,其特征在于,所述根据所述待处理文章得到主题关键词还包括:
根据所述待处理文章得到文章摘要;
所述根据所述主题关键词填充所述社交短文本模板,得到情感文本并输出具体为:
根据所述主题关键词填充所述社交短文本模板,并和所述文章摘要进行聚合,得到情感文本并输出。
7.根据权利要求6所述的一种自动生成情感文本的方法,其特征在于,所述根据所述待处理文章得到文章摘要包括:
将所述待处理文章通过seq2seq模型得到文章摘要。
8.根据权利要求7所述的一种自动生成情感文本的方法,其特征在于,所述根据所述待处理文章通过seq2seq模型得到文章摘要之前包括:
获取训练文章;
在所述seq2seq模型的编码器中将所述训练文章通过蕴含关系分类器,得到第一向量和第二向量;
将所述第一向量和所述第二向量组合成特征向量通过分类模块进行蕴含预测;
通过所述seq2seq模型的解码器生成文章摘要,并将所述文章摘要被所述训练文章蕴含的比例作为奖励训练所述seq2seq模型,得到训练完成的seq2seq模型。
9.根据权利要求6所述的一种自动生成情感文本的方法,其特征在于,所述根据所述主题关键词填充所述社交短文本模板,并和所述文章摘要进行聚合,得到情感文本并输出包括:
判断所述社交短文本模板的句法形式,若为短句,则根据所述主题关键词填充所述社交短文本模板,并和所述文章摘要进行拼接,得到情感输出文本;
若为普通长句,则根据所述主题关键词填充所述社交短文本模板,并通过标点符号切分后嵌入所述文章摘要;
若为复杂句,则根据所述主题关键词填充所述社交短文本模板,并将所述文章摘要作为从句嵌入。
10.一种自动生成情感文本的终端,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1-9任一所述的一种自动生成情感文本的方法。
CN202210650394.XA 2022-06-09 2022-06-09 一种自动生成情感文本的方法及终端 Pending CN115017876A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210650394.XA CN115017876A (zh) 2022-06-09 2022-06-09 一种自动生成情感文本的方法及终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210650394.XA CN115017876A (zh) 2022-06-09 2022-06-09 一种自动生成情感文本的方法及终端

Publications (1)

Publication Number Publication Date
CN115017876A true CN115017876A (zh) 2022-09-06

Family

ID=83072740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210650394.XA Pending CN115017876A (zh) 2022-06-09 2022-06-09 一种自动生成情感文本的方法及终端

Country Status (1)

Country Link
CN (1) CN115017876A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240054282A1 (en) * 2022-08-15 2024-02-15 International Business Machines Corporation Elucidated natural language artifact recombination with contextual awareness

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240054282A1 (en) * 2022-08-15 2024-02-15 International Business Machines Corporation Elucidated natural language artifact recombination with contextual awareness

Similar Documents

Publication Publication Date Title
CN110462730B (zh) 促进以多种语言与自动化助理的端到端沟通
CN110442718B (zh) 语句处理方法、装置及服务器和存储介质
CN111090736B (zh) 问答模型的训练方法、问答方法、装置及计算机存储介质
CN110705206B (zh) 一种文本信息的处理方法及相关装置
CN107861954B (zh) 基于人工智能的信息输出方法和装置
CN110555213B (zh) 文本翻译模型的训练方法、文本翻译方法及装置
CN114238571A (zh) 模型的训练方法、知识分类方法、装置、设备、介质
WO2024011813A1 (zh) 一种文本扩展方法、装置、设备及介质
CN112349294B (zh) 语音处理方法及装置、计算机可读介质、电子设备
CN111143531A (zh) 一种问答对构建方法、系统、装置及计算机可读存储介质
CN112560510A (zh) 翻译模型训练方法、装置、设备及存储介质
CN111339772B (zh) 俄语文本情感分析方法、电子设备和存储介质
CN114997164A (zh) 文本生成方法及装置
CN115017876A (zh) 一种自动生成情感文本的方法及终端
CN114330483A (zh) 数据处理方法及模型训练方法、装置、设备、存储介质
CN114254658A (zh) 翻译评测训练数据的生成方法及装置、设备和存储介质
CN113486143A (zh) 一种基于多层级文本表示及模型融合的用户画像生成方法
CN113705207A (zh) 语法错误识别方法及装置
Park et al. Automatic analysis of thematic structure in written English
CN112085985B (zh) 一种面向英语考试翻译题目的学生答案自动评分方法
CN115098665A (zh) 一种对话数据扩展方法、装置及设备
CN115186678A (zh) 一种智能问答系统中提问的情感倾向分析方法和系统
CN115408500A (zh) 问答一致性的评估方法、装置、电子设备及介质
JP2018010481A (ja) 深層格解析装置、深層格学習装置、深層格推定装置、方法、及びプログラム
CN112749553A (zh) 视频文件的文本信息处理方法、装置和服务器

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination