CN109086357B - 基于变分自动编码器的情感分类方法、装置、设备及介质 - Google Patents

基于变分自动编码器的情感分类方法、装置、设备及介质 Download PDF

Info

Publication number
CN109086357B
CN109086357B CN201810790901.3A CN201810790901A CN109086357B CN 109086357 B CN109086357 B CN 109086357B CN 201810790901 A CN201810790901 A CN 201810790901A CN 109086357 B CN109086357 B CN 109086357B
Authority
CN
China
Prior art keywords
emotion
word
vector
topic
target text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201810790901.3A
Other languages
English (en)
Other versions
CN109086357A (zh
Inventor
傅向华
王婷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen University
Original Assignee
Shenzhen University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen University filed Critical Shenzhen University
Priority to CN201810790901.3A priority Critical patent/CN109086357B/zh
Publication of CN109086357A publication Critical patent/CN109086357A/zh
Application granted granted Critical
Publication of CN109086357B publication Critical patent/CN109086357B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明适用自然语言处理技术领域,提供了一种基于变分自动编码器的情感分类方法、装置、设备及介质,该方法包括:当接收到对目标文本进行情感分类的请求时,通过话题情感混合模型对目标文本进行训练,以得到目标文本中各个情感话题对与词之间的初始分配,通过词向量训练模型对得到的各个情感话题对与词之间的初始分配进行训练,以得到与话题结合的词向量和与词向量对应的情感向量,将词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中,对目标文本进行情感识别,获得目标文本中各个话题对应的情感,从而提高了对文本中词在不同话题下的情感进行识别的能力,进而提高了方面级情感分类的准确率和精确度。

Description

基于变分自动编码器的情感分类方法、装置、设备及介质
技术领域
本发明属于自然语言处理技术领域,尤其涉及一种基于变分自动编码器的情感分类方法、装置、设备及介质。
背景技术
方面级情感分类依据给定文本和给定文本的各个方面(或话题),来预测文本中各个方面的情感(例如,各个方面的正向、中性或者负向情感)。近年来随着互联网的高速发展,很多用户频繁地在网络上发表评论,这些评论能在一定程度上反映用户对产品的情感评价,帮助商家把握用户的需求,同时帮助其他用户了解产品是否满足自身要求。传统情感分类通常是文档级或句子级的情感分类,得到的整体情感过于粗糙,不能解决具体方面的情感分类问题,而商家和用户往往想要具体了解产品各个方面的情感评价。可见,对文本进行细粒度的方面级情感分类至关重要,有助于用户和商家根据产品各方面的情感倾向针对性地做出购买决策和商业决策。
传统的方面级情感分类方法根据预先设计的特征集和丰富的情感词典建立基于情感词典的特征,并依据基于情感词典的特征进行情感分类。大多数这类研究都使用词袋模型和情感词典来获得特征,并采用支持向量机来建立情感分类器,但是获得的情感分类结果高度依赖于特征的质量。2017年,Wang等人结合文本内容和方面信息,提出基于注意力机制的长短期记忆网络(Long Short-Term Memory,简称LSTM)模型(Attention-basedLong Short-Term Memory with Aspect Embedding,简称ATAE-LSTM)进行方面级情感分类,获得了很好的情感分类性能。当给定文本的方面不同时,该方法通过注意力机制可以注意到ATAE-LSTM模型中的不同部分,从而实现对文本各个方面的情感分类。
然而,ATAE-LSTM模型存在三点不足:(1)该模型中使用单个词向量来表示每个词,词向量包含了一定的语义信息,但是无法区分一个词在不同语境下讨论的方面和表达的情感,无法满足实际应用的需要;(2)该模型只考虑了词本身,忽略了文本中词对应的方面和情感信息,使得该模型对文本方面级的情感分类不够准确;(3)该模型是基于有监督学习的,需要耗费大量的人力物力来获取大量有标签样本,无法充分利用在实际应用中大量存在的无标签样本。
发明内容
本发明的目的在于提供一种基于变分自动编码器的情感分类方法、装置、设备及存储介质,旨在解决由于现有技术无法提供一种有效的基于变分自动编码器的情感分类方法,导致基于变分自动编码器的情感分类不精确的问题。
一方面,本发明提供了一种基于变分自动编码器的情感分类方法,所述方法包括下述步骤:
当接收到对目标文本进行情感分类的请求时,通过预设的话题情感混合模型对所述目标文本进行训练,以得到所述目标文本中各个情感话题对与词之间的初始分配;
通过预设词向量训练模型对所述各个情感话题对与词之间的初始分配进行训练,以得到与话题结合的词向量和所述词向量对应的情感向量;
将所述词向量、所述情感向量以及预设话题向量输入预先训练好的、变分自动编码器的解码器中,对所述目标文本进行情感识别,获得所述目标文本中各个话题对应的情感。
另一方面,本发明提供了一种基于变分自动编码器的情感分类装置,所述装置包括:
目标文本训练单元,用于当接收到对目标文本进行情感分类的请求时,通过预设的话题情感混合模型对所述目标文本进行训练,以得到所述目标文本中各个情感话题对与词之间的初始分配;
词向量获得单元,用于通过预设词向量训练模型对所述各个情感话题对与词之间的初始分配进行训练,以得到与话题结合的词向量和所述词向量对应的情感向量;以及
情感识别单元,用于将所述词向量、所述情感向量以及预设话题向量输入预先训练好的、变分自动编码器的解码器中,对所述目标文本进行情感识别,获得所述目标文本中各个话题对应的情感。
另一方面,本发明还提供了一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述基于变分自动编码器的情感分类方法所述的步骤。
另一方面,本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述基于变分自动编码器的情感分类方法所述的步骤。
本发明在当接收到对目标文本进行情感分类的请求时,通过话题情感混合模型对目标文本进行训练,以得到目标文本中各个情感话题对与词之间的初始分配,通过词向量训练模型对得到的各个情感话题对与词之间的初始分配进行训练,以得到与话题结合的词向量和与词向量对应的情感向量,将词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中,对目标文本进行情感识别,获得目标文本中各个话题对应的情感,从而提高了对文本中词在不同话题下的情感进行识别的能力,进而提高了方面级情感分类的准确率和精确度。
附图说明
图1是本发明实施例一提供的基于变分自动编码器的情感分类方法的实现流程图;
图2是本发明实施例二提供的基于变分自动编码器的情感分类装置的结构示意图;以及
图3是本发明实施例三提供的计算设备的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
以下结合具体实施例对本发明的具体实现进行详细描述:
实施例一:
图1示出了本发明实施例一提供的基于变分自动编码器的情感分类方法的实现流程,为了便于说明,仅示出了与本发明实施例相关的部分,详述如下:
在步骤S101中,当接收到对目标文本进行情感分类的请求时,通过预设的话题情感混合模型对目标文本进行训练,以得到目标文本中各个情感话题对与词之间的初始分配。
本发明实施例适用于计算设备,例如个人计算机、服务器等。在本发明实施例中,接收到的目标文本可以是公用的传统话题检测数据样本,也可以为来自微博、博客、论坛、商品在线评论数据等多领域多语言的数据文档。目标文本可以看成是由多篇文档组成,多篇文档可以涉及相同或不同的情感和话题(即方面),目标文本的同一个词在不同的话题下可能表达不同的情感。优选地,预设的话题情感混合模型为文本弱监督联合情感-话题检测模型(Weakly Supervised Joint Sentiment-Topic Detection from text,简称JST)模型,从而提高各个情感话题对与词之间的初始分配的准确率。
在通过话题情感混合模型对目标文本进行训练之前,优选地,对该目标文档进行预处理,例如,分词、去停用词、高低频词、非字母字符以及非法字符等处理,从而提高了目标文本中有效词的纯净度。
在通过话题情感混合模型对目标文本进行训练之前,又一优选地,获取外部扩展语料,以作为目标文本对应的原始数据的语义补充,使用预设词向量训练模型对获取的外部扩展语料进行预训练,以得到外部扩展语料中各个词语的词向量,将获取的词向量设置为目标文本的词向量的初始值,从而提高后续对目标文本中话题情感分类的准确率。
在获取外部扩展语料时,优选地,外部扩展语料为维基百科或者百度百科,从而提高词向量训练的效率。具体地,外部语料应尽可能地包含目标文本中的所有词,从而保证目标文本中的每个词都能从外部语料获取一个初始的词向量作为该词语义和词义的补充,有利于进一步学习词向量和话题向量。
在使用预设词向量训练模型对获取的外部扩展语料进行预训练时,优选地,预设词向量训练模型为词向量模型(word embeddings,简称word2vec),从而简化词向量的训练过程,提高训练速度,保证了训练结果的稳定性。
在步骤S102中,通过预设词向量训练模型对各个情感话题对与词之间的初始分配进行训练,以得到与话题结合的词向量和词向量对应的情感向量。
在本发明实施例中,在通过预设词向量训练模型对得到的各个情感话题对与词之间的初始分配进行训练时,优选地,通过预设的Skip-gram模型,在目标文本中对词和词的上下文窗口词的概率似然函数进行最大化,以对各个情感话题对与词之间的初始分配进行训练,概率似然函数的公式表示为:
Figure BDA0001734895130000051
从而提高与话题结合的词向量和与词向量对应的情感向量的准确率和匹配率。其中,c是预设上下文窗口的大小,V是预设词汇表的长度,P(<wi+j,ai+j>|<wi,ai>)表示通过第i个词向量<wi,ai>预测第i+j个词向量<wi+j,ai+j>的概率,wi为词汇表中第i个词,ai为wi对应的话题。
在步骤S103中,将词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中,对目标文本进行情感识别,获得目标文本中各个话题对应的情感。
在本发明实施例中,预先训练好变分自动编码器(Variational auto-encoder,简称VAE),优选地,变分自动编码器的编码器采用基于注意力机制的长短期记忆网络(Attention-based LSTM with Aspect Embedding,简称ATAE-LSTM)模型,变分自动编码器的解码器采用长短期记忆网络(Long Short-Term Memory,简称LSTM)模型,在编码器中通过注意力机制来捕捉不同话题的不同关键部分,从而确保解码器能够正确识别目标文本涉及的话题和在涉及话题下表达的情感,进而提高自然语言处理中细粒度方面级情感分类的情感识别能力和识别准确率。
进一步优选地,在通过变分自动编码器的解码器对目标文本进行情感识别的过程中,识别过程的每一步都引入预设的文本标签,从而提高了变分自动编码器的半监督学习能力。
在将结合话题的词向量、情感向量以及预设的话题向量输入预先训练好的变分自动编码器的解码器之前,优选地,通过最小化预设的目标函数对变分自动编码器的解码器进行训练,目标函数的表达公式为:
Figure BDA0001734895130000061
其中,α为预设的超参数,
Figure BDA0001734895130000062
为预设话题情感分类器qφ(y|x,va)的对数似然概率的期望,Sl和Su分别为预设的有标签数据集和无标签数据集,L(x,y,va)为有标签数据集的KL散度,U(x,va)为无标签数据集的KL散度,va为话题向量,x={[W1,s1],[W2,s2],...,[WN,sN]}为词向量WN和对应的情感向量sN的连接集合向量,y为预设的文本标签向量,从而实现半监督的方面级情感分类,弥补了有监督方面级情感分类的不足,进而提高自然语言处理中细粒度方面级情感分类的情感识别能力。
进一步优选地,在变分自动编码器的训练过程中,通过有标签数据集Sl的KL散度L(x,y,va),对变分自动编码器中编码器的后验概率分布qφ(z|x,y,va)和解码器的后验概率分布pθ(z|x,y,va)的相近程度进行衡量,从而提高变分自动编码器的训练速度。其中,
Figure BDA0001734895130000071
z~qφ(z|x,y,va),
Figure BDA0001734895130000072
为通过变分自动编码器的编码器得到有标签数据集对应的最终句子,
Figure BDA0001734895130000073
为编码器输出的均值,
Figure BDA0001734895130000074
为编码器输出的方差,z为从qφ(z|x,y,va)采样的隐含变量。具体地,通过下述步骤计算有标签数据集Sl的KL散度L(x,y,va):
(1)根据KL散度公式得到:
Figure BDA0001734895130000075
(2)将(1)得到的公式进行贝叶斯变换得到:
Figure BDA0001734895130000076
(3)将(2)得到的公式进行化简,得到:
Figure BDA0001734895130000077
(4)根据变分的证据下界ELBO函数,获得有标签数据集的KL散度L(x,y,va)
Figure BDA0001734895130000078
又一优选地,在变分自动编码器的训练过程中,通过无标签数据集Su的KL散度U(x,va)和预设的话题情感分类器qφ(y|x,va),对变分自动编码器中编码器的后验概率分布qφ(y,z|x,va)和解码器的后验概率分布pθ(y,z|x,va)的相近程度进行衡量,从而提高变分自动编码器处理数据集的全面性,进而提高方面级情感分类的准确率。具体地,通过下述步骤计算无标签数据集Su的KL散度U(x,va):
(1)根据KL散度公式得到:
Figure BDA0001734895130000081
(2)对(1)得到的公式进行贝叶斯变换得到:
Figure BDA0001734895130000082
(3)将(2)得到的公式进行化简,得到:
Figure BDA0001734895130000083
(4)根据变分的证据下界ELBO函数,获得无标签数据集的KL散度U(x,va)
Figure BDA0001734895130000084
在本发明实施例中,当接收到对目标文本进行情感分类的请求时,通过话题情感混合模型对目标文本进行训练,得到目标文本中各个情感话题对与词之间的初始分配,通过词向量训练模型对各个情感话题对与词之间的初始分配进行训练,得到结合话题的词向量和词向量对应的情感向量,将结合话题的词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中进行识别,获得目标文本中各个话题对应的情感,从而提高了对文本中词在不同话题下的情感进行识别的能力,提高了方面级情感分类的准确率和精确度。
实施例二:
图2示出了本发明实施例二提供的基于变分自动编码器的情感分类装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分,其中包括:
目标文本训练单元21,用于当接收到对目标文本进行情感分类的请求时,通过预设的话题情感混合模型对目标文本进行训练,以得到目标文本中各个情感话题对与词之间的初始分配。
本发明实施例适用于计算设备,例如个人计算机、服务器等。在本发明实施例中,接收到的目标文本可以是公用的传统话题检测数据样本,也可以为来自微博、博客、论坛、商品在线评论数据等多领域多语言的数据文档。目标文本可以看成是由多篇文档组成,多篇文档可以涉及相同或不同的情感和话题(即方面),目标文本的同一个词在不同的话题下可能表达不同的情感。优选地,预设的话题情感混合模型为文本弱监督联合情感-话题检测模型(Weakly Supervised Joint Sentiment-Topic Detection from text,简称JST)模型,从而提高各个情感话题对与词之间的初始分配的准确率。
在通过话题情感混合模型对目标文本进行训练之前,优选地,对该目标文档进行预处理,例如,分词、去停用词、高低频词、非字母字符以及非法字符等处理,从而提高了目标文本中有效词的纯净度。
在通过话题情感混合模型对目标文本进行训练之前,又一优选地,获取外部扩展语料,以作为目标文本对应的原始数据的语义补充,使用预设词向量训练模型对获取的外部扩展语料进行预训练,以得到外部扩展语料中各个词语的词向量,将获取的词向量设置为目标文本的词向量的初始值,从而提高后续对目标文本中话题情感分类的准确率。
在获取外部扩展语料时,优选地,外部扩展语料为维基百科或者百度百科,从而提高词向量训练的效率。具体地,外部语料应尽可能地包含目标文本中的所有词,从而保证目标文本中的每个词都能从外部语料获取一个初始的词向量作为该词语义和词义的补充,有利于进一步学习词向量和话题向量。
在使用预设词向量训练模型对获取的外部扩展语料进行预训练时,优选地,预设词向量训练模型为词向量模型(word embeddings,简称word2vec),从而简化词向量的训练过程,提高训练速度,保证了训练结果的稳定性。
词向量获得单元22,用于通过预设词向量训练模型对各个情感话题对与词之间的初始分配进行训练,以得到与话题结合的词向量和词向量对应的情感向量。
在本发明实施例中,在通过预设词向量训练模型对得到的各个情感话题对与词之间的初始分配进行训练时,优选地,通过预设的Skip-gram模型,在目标文本中对词和词的上下文窗口词的概率似然函数进行最大化,以对各个情感话题对与词之间的初始分配进行训练,概率似然函数的公式表示为:
Figure BDA0001734895130000101
从而提高与话题结合的词向量和与词向量对应的情感向量的准确率和匹配率。其中,c是预设上下文窗口的大小,V是预设词汇表的长度,P(<wi+j,ai+j>|<wi,ai>)表示通过第i个词向量<wi,ai>预测第i+j个词向量<wi+j,ai+j>的概率,wi为词汇表中第i个词,ai为wi对应的话题。
情感识别单元23,用于将词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中,对目标文本进行情感识别,获得目标文本中各个话题对应的情感。
在本发明实施例中,预先训练好变分自动编码器(Variational auto-encoder,简称VAE),优选地,变分自动编码器的编码器采用基于注意力机制的长短期记忆网络(Attention-based LSTM with Aspect Embedding,简称ATAE-LSTM)模型,变分自动编码器的解码器采用长短期记忆网络(Long Short-Term Memory,简称LSTM)模型,在编码器中通过注意力机制来捕捉不同话题的不同关键部分,从而确保解码器能够正确识别目标文本涉及的话题和在涉及话题下表达的情感,进而提高自然语言处理中细粒度方面级情感分类的情感识别能力和识别准确率。
进一步优选地,在通过变分自动编码器的解码器对目标文本进行情感识别的过程中,识别过程的每一步都引入预设的文本标签,从而提高了变分自动编码器的半监督学习能力。
在将结合话题的词向量、情感向量以及预设的话题向量输入预先训练好的变分自动编码器的解码器之前,优选地,通过最小化预设的目标函数对变分自动编码器的解码器进行训练,目标函数的表达公式为:
Figure BDA0001734895130000111
其中,α为预设的超参数,
Figure BDA0001734895130000112
为预设话题情感分类器qφ(y|x,va)的对数似然概率的期望,Sl和Su分别为预设的有标签数据集和无标签数据集,L(x,y,va)为有标签数据集的KL散度,U(x,va)为无标签数据集的KL散度,va为话题向量,x={[W1,s1],[W2,s2],...,[WN,sN]}为词向量WN和对应的情感向量sN的连接集合向量,y为预设的文本标签向量,从而实现半监督的方面级情感分类,弥补了有监督方面级情感分类的不足,进而提高自然语言处理中细粒度方面级情感分类的情感识别能力。
进一步优选地,在变分自动编码器的训练过程中,通过有标签数据集Sl的KL散度L(x,y,va),对变分自动编码器中编码器的后验概率分布qφ(z|x,y,va)和解码器的后验概率分布pθ(z|x,y,va)的相近程度进行衡量,从而提高变分自动编码器的训练速度。其中,
Figure BDA0001734895130000113
z~qφ(z|x,y,va),
Figure BDA0001734895130000114
为通过变分自动编码器的编码器得到有标签数据集对应的最终句子,
Figure BDA0001734895130000115
为编码器输出的均值,
Figure BDA0001734895130000116
为编码器输出的方差,z为从qφ(z|x,y,va)采样的隐含变量。具体地,通过下述步骤计算有标签数据集Sl的KL散度L(x,y,va):
(1)根据KL散度公式得到:
Figure BDA0001734895130000117
(2)将(1)得到的公式进行贝叶斯变换得到:
Figure BDA0001734895130000118
(3)将(2)得到的公式进行化简,得到:
Figure BDA0001734895130000121
(4)根据变分的证据下界ELBO函数,获得有标签数据集的KL散度L(x,y,va)
Figure BDA0001734895130000122
又一优选地,在变分自动编码器的训练过程中,通过无标签数据集Su的KL散度U(x,va)和预设的话题情感分类器qφ(y|x,va),对变分自动编码器中编码器的后验概率分布qφ(y,z|x,va)和解码器的后验概率分布pθ(y,z|x,va)的相近程度进行衡量,从而提高变分自动编码器处理数据集的全面性,进而提高方面级情感分类的准确率。具体地,通过下述步骤计算无标签数据集Su的KL散度U(x,va):
(1)根据KL散度公式得到:
Figure BDA0001734895130000123
(2)对(1)得到的公式进行贝叶斯变换得到:
Figure BDA0001734895130000124
(3)将(2)得到的公式进行化简,得到:
Figure BDA0001734895130000125
(4)根据变分的证据下界ELBO函数,获得无标签数据集的KL散度U(x,va)
Figure BDA0001734895130000131
因此,优选地,本发明实施例的基于变分自动编码器的情感分类装置还包括:
解码器训练单元,用于通过最小化预设的目标函数,对变分自动编码器的解码器进行训练,该目标函数的公式表示为:
Figure BDA0001734895130000132
其中,α为预设的超参数,
Figure BDA0001734895130000133
为预设话题情感分类器qφ(y|x,va)的对数似然概率的期望,Sl和Su分别为预设的有标签数据集和无标签数据集,L(x,y,va)为有标签数据集的KL散度,U(x,va)为无标签数据集的KL散度,va为话题向量,x={[W1,s1],[W2,s2],...,[WN,sN]}为词向量WN和对应的情感向量sN的连接集合向量,y为预设的文本标签向量;
扩展语料获取单元,用于获取外部扩展语料,以作为目标文本对应的原始数据的语义补充;
扩展语料训练单元,用于使用预设词向量训练模型对获取的外部扩展语料进行预训练,以得到外部扩展语料中各个词的词向量;以及
初始值设置单元,用于将获取的词向量设置为目标文本的词向量的初始值。
在本发明实施例中,基于变分自动编码器的情感分类装置的各单元可由相应的硬件或软件单元实现,各单元可以为独立的软、硬件单元,也可以集成为一个软、硬件单元,在此不用以限制本发明。
实施例三:
图3示出了本发明实施例三提供的计算设备的结构,为了便于说明,仅示出了与本发明实施例相关的部分。
本发明实施例的计算设备3包括处理器30、存储器31以及存储在存储器31中并可在处理器30上运行的计算机程序32。该处理器30执行计算机程序32时实现上述基于变分自动编码器的情感分类方法实施例中的步骤,例如图1所示的步骤S101至S103。或者,处理器30执行计算机程序32时实现上述各装置实施例中各单元的功能,例如图2所示单元21至23的功能。
在本发明实施例中,当接收到对目标文本进行情感分类的请求时,通过话题情感混合模型对目标文本进行训练,得到目标文本中各个情感话题对与词之间的初始分配,通过词向量训练模型对各个情感话题对与词之间的初始分配进行训练,得到结合话题的词向量和词向量对应的情感向量,将结合话题的词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中进行识别,获得目标文本中各个话题对应的情感,从而提高了对文本中词在不同话题下的情感进行识别的能力,提高了方面级情感分类的准确率和精确度。
本发明实施例的计算设备可以为个人计算机、服务器。该计算设备3中处理器30执行计算机程序32时实现基于变分自动编码器的情感分类方法时实现的步骤可参考前述方法实施例的描述,在此不再赘述。
实施例四:
在本发明实施例中,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述基于变分自动编码器的情感分类方法实施例中的步骤,例如,图1所示的步骤S101至S103。或者,该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能,例如图2所示单元21至23的功能。
在本发明实施例中,当接收到对目标文本进行情感分类的请求时,通过话题情感混合模型对目标文本进行训练,得到目标文本中各个情感话题对与词之间的初始分配,通过词向量训练模型对各个情感话题对与词之间的初始分配进行训练,得到结合话题的词向量和词向量对应的情感向量,将结合话题的词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中进行识别,获得目标文本中各个话题对应的情感,从而提高了对文本中词在不同话题下的情感进行识别的能力,提高了方面级情感分类的准确率和精确度。
本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质,例如,ROM/RAM、磁盘、光盘、闪存等存储器。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种基于变分自动编码器的情感分类方法,其特征在于,所述方法包括下述步骤:
当接收到对目标文本进行情感分类的请求时,通过预设的话题情感混合模型对所述目标文本进行训练,以得到所述目标文本中各个情感话题对与词之间的初始分配;
通过预设词向量训练模型对所述各个情感话题对与词之间的初始分配进行训练,以得到与话题结合的词向量和所述词向量对应的情感向量;
将所述词向量、所述情感向量以及预设话题向量输入预先训练好的、变分自动编码器的解码器中,对所述目标文本进行情感识别,获得所述目标文本中各个话题对应的情感;
通过预设的话题情感混合模型对所述目标文本进行训练的步骤之前,所述方法还包括:
通过最小化预设的目标函数,对所述变分自动编码器的解码器进行训练,所述目标函数的公式表示为:
Figure FDA0002990504490000011
其中,α为预设的超参数,
Figure FDA0002990504490000012
为预设话题情感分类器qφ(y|x,va)的对数似然概率的期望,Sl和Su分别为预设的有标签数据集和无标签数据集,L(x,y,va)为所述有标签数据集的KL散度,U(x,va)为所述无标签数据集的KL散度,va为所述话题向量,x={[W1,s1],[W2,s2],...,[WN,sN]}为词向量WN和对应的情感向量sN的连接集合向量,y为预设的文本标签向量。
2.如权利要求1所述的方法,其特征在于,所述变分自动编码器的编码器采用ATAE-LSTM模型,所述变分自动编码器的解码器采用LSTM模型。
3.如权利要求1所述的方法,其特征在于,通过预设词向量训练模型对所述各个情感话题对与词之间的初始分配进行训练的步骤,包括:
通过预设的Skip-gram模型,对所述词和所述词的上下文窗口词的概率似然函数进行最大化,以对所述各个情感话题对与词之间的初始分配进行训练,所述概率似然函数的公式表示为:
Figure FDA0002990504490000021
其中,c是预设上下文窗口的大小,V是预设词汇表的长度,P(<wi+j,ai+j>|<wi,ai>)表示通过第i个词向量<wi,ai>预测第i+j个词向量<wi+j,ai+j>的概率,wi为所述词汇表中第i个词,ai为所述wi对应的话题。
4.如权利要求1所述的方法,其特征在于,通过预设的话题情感混合模型对所述目标文本进行训练之前,所述方法还包括:
获取外部扩展语料,以作为所述目标文本对应的原始数据的语义补充;
使用所述词向量训练模型对所述获取的外部扩展语料进行预训练,以得到所述外部扩展语料中各个词的词向量;
将所述获取的词向量设置为所述目标文本的词向量的初始值。
5.一种基于变分自动编码器的情感分类装置,其特征在于,所述装置包括:
目标文本训练单元,用于当接收到对目标文本进行情感分类的请求时,通过预设的话题情感混合模型对所述目标文本进行训练,以得到所述目标文本中各个情感话题对与词之间的初始分配;
词向量获得单元,用于通过预设词向量训练模型对所述各个情感话题对与词之间的初始分配进行训练,以得到与话题结合的词向量和所述词向量对应的情感向量;以及
情感识别单元,用于将所述词向量、所述情感向量以及预设话题向量输入预先训练好的、变分自动编码器的解码器中,对所述目标文本进行情感识别,获得所述目标文本中各个话题对应的情感;
所述装置还包括:
解码器训练单元,用于通过最小化预设的目标函数,对所述变分自动编码器的解码器进行训练,所述目标函数的公式表示为:
Figure FDA0002990504490000031
其中,α为预设的超参数,
Figure FDA0002990504490000032
为预设话题情感分类器qφ(y|x,va)的对数似然概率的期望,Sl和Su分别为预设的有标签数据集和无标签数据集,L(x,y,va)为所述有标签数据集的KL散度,U(x,va)为所述无标签数据集的KL散度,va为所述话题向量,x={[W1,s1],[W2,s2],...,[WN,sN]}为词向量WN和对应的情感向量sN的连接集合向量,y为预设的文本标签向量。
6.如权利要求5所述的装置,其特征在于,所述装置还包括:
扩展语料获取单元,用于获取外部扩展语料,以作为所述目标文本对应的原始数据的语义补充;
扩展语料训练单元,用于使用所述词向量训练模型对所述获取的外部扩展语料进行预训练,以得到所述外部扩展语料中各个词的词向量;以及
初始值设置单元,用于将所述获取的词向量设置为所述目标文本的词向量的初始值。
7.一种计算设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
CN201810790901.3A 2018-07-18 2018-07-18 基于变分自动编码器的情感分类方法、装置、设备及介质 Expired - Fee Related CN109086357B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810790901.3A CN109086357B (zh) 2018-07-18 2018-07-18 基于变分自动编码器的情感分类方法、装置、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810790901.3A CN109086357B (zh) 2018-07-18 2018-07-18 基于变分自动编码器的情感分类方法、装置、设备及介质

Publications (2)

Publication Number Publication Date
CN109086357A CN109086357A (zh) 2018-12-25
CN109086357B true CN109086357B (zh) 2021-06-22

Family

ID=64837761

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810790901.3A Expired - Fee Related CN109086357B (zh) 2018-07-18 2018-07-18 基于变分自动编码器的情感分类方法、装置、设备及介质

Country Status (1)

Country Link
CN (1) CN109086357B (zh)

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109947894B (zh) * 2019-01-04 2020-04-14 北京车慧科技有限公司 一种文本标签提取系统
CN109871533B (zh) * 2019-01-04 2019-12-10 北京车慧科技有限公司 一种基于语料领域的语料处理系统
CN109960749B (zh) * 2019-02-22 2021-04-06 清华大学 模型获取方法、关键词生成方法、装置、介质及计算设备
CN110069634A (zh) * 2019-04-24 2019-07-30 北京泰迪熊移动科技有限公司 一种生成分类模板的方法、装置及计算机可读存储介质
CN110046356B (zh) * 2019-04-26 2020-08-21 中森云链(成都)科技有限责任公司 标签嵌入的微博文本情绪多标签分类方法
CN110134765B (zh) * 2019-05-05 2021-06-29 杭州师范大学 一种基于情感分析的餐厅用户评论分析系统及方法
CN110866405A (zh) * 2019-11-14 2020-03-06 电子科技大学 一种基于语句信息的方面级情感分类方法
CN110929505B (zh) * 2019-11-28 2021-04-16 北京房江湖科技有限公司 房源标题的生成方法和装置、存储介质、电子设备
CN111160037B (zh) * 2019-12-02 2021-10-26 广州大学 一种支持跨语言迁移的细粒度情感分析方法
CN112528989B (zh) * 2020-12-01 2022-10-18 重庆邮电大学 一种图像语义细粒度的描述生成方法
CN113837309A (zh) * 2021-02-08 2021-12-24 宏龙科技(杭州)有限公司 一种基于变分自编码器的文本分类方法
CN112599194B (zh) * 2021-03-02 2021-06-22 北京橡鑫生物科技有限公司 甲基化测序数据的处理方法和装置
CN113032558B (zh) * 2021-03-11 2023-08-29 昆明理工大学 融合维基知识的变分半监督百度百科分类方法
CN113192484B (zh) * 2021-05-26 2024-09-03 腾讯音乐娱乐科技(深圳)有限公司 基于文本生成音频的方法、设备和存储介质
CN113792143B (zh) * 2021-09-13 2023-12-12 中国科学院新疆理化技术研究所 一种基于胶囊网络的多语言情感分类方法、装置、设备及存储介质
CN114138942A (zh) * 2021-12-09 2022-03-04 南京审计大学 基于文本情感倾向的违规检测方法
CN114970556A (zh) * 2022-04-18 2022-08-30 中国科学院空天信息创新研究院 立场分析模型训练方法、立场分析方法、装置及设备
CN116842181A (zh) * 2023-08-30 2023-10-03 广东赛博威信息科技有限公司 一种基于评论文本的情感分析方法、系统、介质及设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106326210A (zh) * 2016-08-17 2017-01-11 深圳大学 一种文本话题和情感的联合检测方法及装置
CN107273348A (zh) * 2017-05-02 2017-10-20 深圳大学 一种文本的话题和情感联合检测方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120253792A1 (en) * 2011-03-30 2012-10-04 Nec Laboratories America, Inc. Sentiment Classification Based on Supervised Latent N-Gram Analysis

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105975499A (zh) * 2016-04-27 2016-09-28 深圳大学 一种文本主题检测方法及系统
CN106326210A (zh) * 2016-08-17 2017-01-11 深圳大学 一种文本话题和情感的联合检测方法及装置
CN107273348A (zh) * 2017-05-02 2017-10-20 深圳大学 一种文本的话题和情感联合检测方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"Variational Autoencoder for Semi-supervised Text Classification";Weidi Xu等;《Proceedings of the Thirty First AAAI conference on Artifical Intelligence》;20170228;全文 *
"基于词向量概率模型的联合话题情感分析研究";武海瑛;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170715;全文 *

Also Published As

Publication number Publication date
CN109086357A (zh) 2018-12-25

Similar Documents

Publication Publication Date Title
CN109086357B (zh) 基于变分自动编码器的情感分类方法、装置、设备及介质
US11734328B2 (en) Artificial intelligence based corpus enrichment for knowledge population and query response
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
WO2019200806A1 (zh) 文本分类模型的生成装置、方法及计算机可读存储介质
Ayana et al. Recent advances on neural headline generation
CN109190110A (zh) 一种命名实体识别模型的训练方法、系统及电子设备
US20230069935A1 (en) Dialog system answering method based on sentence paraphrase recognition
WO2023159758A1 (zh) 数据增强方法和装置、电子设备、存储介质
CN112632226B (zh) 基于法律知识图谱的语义搜索方法、装置和电子设备
US20200081973A1 (en) Methods, apparatuses, devices, and computer-readable storage media for determining category of entity
CN112699686B (zh) 基于任务型对话系统的语义理解方法、装置、设备及介质
CN110287314B (zh) 基于无监督聚类的长文本可信度评估方法及系统
CN114528919A (zh) 自然语言处理方法、装置及计算机设备
CN113761377A (zh) 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质
WO2022183991A1 (zh) 文档分类方法、装置及电子设备
CN112528653A (zh) 短文本实体识别方法和系统
CN115859980A (zh) 一种半监督式命名实体识别方法、系统及电子设备
CN112036186A (zh) 语料标注方法、装置、计算机存储介质及电子设备
CN111143562B (zh) 一种资讯信息情感分析方法、装置及存储介质
CN118093689A (zh) 基于rpa多模态文档解析与结构化处理系统
CN114398492B (zh) 一种在数字领域的知识图谱构建方法、终端及介质
CN114676699A (zh) 实体情感分析方法、装置、计算机设备和存储介质
CN117151089A (zh) 新词发现方法、装置、设备和介质
CN113139116B (zh) 基于bert的媒体信息观点抽取方法、装置、设备和存储介质
CN111522957A (zh) 一种短语分割模型的训练方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20210622

CF01 Termination of patent right due to non-payment of annual fee