CN109086357B

CN109086357B - 基于变分自动编码器的情感分类方法、装置、设备及介质

Info

Publication number: CN109086357B
Application number: CN201810790901.3A
Authority: CN
Inventors: 傅向华; 王婷
Original assignee: Shenzhen University
Current assignee: Shenzhen University
Priority date: 2018-07-18
Filing date: 2018-07-18
Publication date: 2021-06-22
Anticipated expiration: 2038-07-18
Also published as: CN109086357A

Abstract

本发明适用自然语言处理技术领域，提供了一种基于变分自动编码器的情感分类方法、装置、设备及介质，该方法包括：当接收到对目标文本进行情感分类的请求时，通过话题情感混合模型对目标文本进行训练，以得到目标文本中各个情感话题对与词之间的初始分配，通过词向量训练模型对得到的各个情感话题对与词之间的初始分配进行训练，以得到与话题结合的词向量和与词向量对应的情感向量，将词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中，对目标文本进行情感识别，获得目标文本中各个话题对应的情感，从而提高了对文本中词在不同话题下的情感进行识别的能力，进而提高了方面级情感分类的准确率和精确度。

Description

基于变分自动编码器的情感分类方法、装置、设备及介质

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于变分自动编码器的情感分类方法、装置、设备及介质。

背景技术

方面级情感分类依据给定文本和给定文本的各个方面(或话题)，来预测文本中各个方面的情感(例如，各个方面的正向、中性或者负向情感)。近年来随着互联网的高速发展，很多用户频繁地在网络上发表评论，这些评论能在一定程度上反映用户对产品的情感评价，帮助商家把握用户的需求，同时帮助其他用户了解产品是否满足自身要求。传统情感分类通常是文档级或句子级的情感分类，得到的整体情感过于粗糙，不能解决具体方面的情感分类问题，而商家和用户往往想要具体了解产品各个方面的情感评价。可见，对文本进行细粒度的方面级情感分类至关重要，有助于用户和商家根据产品各方面的情感倾向针对性地做出购买决策和商业决策。

传统的方面级情感分类方法根据预先设计的特征集和丰富的情感词典建立基于情感词典的特征，并依据基于情感词典的特征进行情感分类。大多数这类研究都使用词袋模型和情感词典来获得特征，并采用支持向量机来建立情感分类器，但是获得的情感分类结果高度依赖于特征的质量。2017年，Wang等人结合文本内容和方面信息，提出基于注意力机制的长短期记忆网络(Long Short-Term Memory，简称LSTM)模型(Attention-basedLong Short-Term Memory with Aspect Embedding，简称ATAE-LSTM)进行方面级情感分类，获得了很好的情感分类性能。当给定文本的方面不同时，该方法通过注意力机制可以注意到ATAE-LSTM模型中的不同部分，从而实现对文本各个方面的情感分类。

然而，ATAE-LSTM模型存在三点不足：(1)该模型中使用单个词向量来表示每个词，词向量包含了一定的语义信息，但是无法区分一个词在不同语境下讨论的方面和表达的情感，无法满足实际应用的需要；(2)该模型只考虑了词本身，忽略了文本中词对应的方面和情感信息，使得该模型对文本方面级的情感分类不够准确；(3)该模型是基于有监督学习的，需要耗费大量的人力物力来获取大量有标签样本，无法充分利用在实际应用中大量存在的无标签样本。

发明内容

本发明的目的在于提供一种基于变分自动编码器的情感分类方法、装置、设备及存储介质，旨在解决由于现有技术无法提供一种有效的基于变分自动编码器的情感分类方法，导致基于变分自动编码器的情感分类不精确的问题。

一方面，本发明提供了一种基于变分自动编码器的情感分类方法，所述方法包括下述步骤：

当接收到对目标文本进行情感分类的请求时，通过预设的话题情感混合模型对所述目标文本进行训练，以得到所述目标文本中各个情感话题对与词之间的初始分配；

通过预设词向量训练模型对所述各个情感话题对与词之间的初始分配进行训练，以得到与话题结合的词向量和所述词向量对应的情感向量；

将所述词向量、所述情感向量以及预设话题向量输入预先训练好的、变分自动编码器的解码器中，对所述目标文本进行情感识别，获得所述目标文本中各个话题对应的情感。

另一方面，本发明提供了一种基于变分自动编码器的情感分类装置，所述装置包括：

目标文本训练单元，用于当接收到对目标文本进行情感分类的请求时，通过预设的话题情感混合模型对所述目标文本进行训练，以得到所述目标文本中各个情感话题对与词之间的初始分配；

词向量获得单元，用于通过预设词向量训练模型对所述各个情感话题对与词之间的初始分配进行训练，以得到与话题结合的词向量和所述词向量对应的情感向量；以及

情感识别单元，用于将所述词向量、所述情感向量以及预设话题向量输入预先训练好的、变分自动编码器的解码器中，对所述目标文本进行情感识别，获得所述目标文本中各个话题对应的情感。

另一方面，本发明还提供了一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上述基于变分自动编码器的情感分类方法所述的步骤。

另一方面，本发明还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如上述基于变分自动编码器的情感分类方法所述的步骤。

本发明在当接收到对目标文本进行情感分类的请求时，通过话题情感混合模型对目标文本进行训练，以得到目标文本中各个情感话题对与词之间的初始分配，通过词向量训练模型对得到的各个情感话题对与词之间的初始分配进行训练，以得到与话题结合的词向量和与词向量对应的情感向量，将词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中，对目标文本进行情感识别，获得目标文本中各个话题对应的情感，从而提高了对文本中词在不同话题下的情感进行识别的能力，进而提高了方面级情感分类的准确率和精确度。

附图说明

图1是本发明实施例一提供的基于变分自动编码器的情感分类方法的实现流程图；

图2是本发明实施例二提供的基于变分自动编码器的情感分类装置的结构示意图；以及

图3是本发明实施例三提供的计算设备的结构示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

以下结合具体实施例对本发明的具体实现进行详细描述：

实施例一：

图1示出了本发明实施例一提供的基于变分自动编码器的情感分类方法的实现流程，为了便于说明，仅示出了与本发明实施例相关的部分，详述如下：

在步骤S101中，当接收到对目标文本进行情感分类的请求时，通过预设的话题情感混合模型对目标文本进行训练，以得到目标文本中各个情感话题对与词之间的初始分配。

本发明实施例适用于计算设备，例如个人计算机、服务器等。在本发明实施例中，接收到的目标文本可以是公用的传统话题检测数据样本，也可以为来自微博、博客、论坛、商品在线评论数据等多领域多语言的数据文档。目标文本可以看成是由多篇文档组成，多篇文档可以涉及相同或不同的情感和话题(即方面)，目标文本的同一个词在不同的话题下可能表达不同的情感。优选地，预设的话题情感混合模型为文本弱监督联合情感-话题检测模型(Weakly Supervised Joint Sentiment-Topic Detection from text，简称JST)模型，从而提高各个情感话题对与词之间的初始分配的准确率。

在通过话题情感混合模型对目标文本进行训练之前，优选地，对该目标文档进行预处理，例如，分词、去停用词、高低频词、非字母字符以及非法字符等处理，从而提高了目标文本中有效词的纯净度。

在通过话题情感混合模型对目标文本进行训练之前，又一优选地，获取外部扩展语料，以作为目标文本对应的原始数据的语义补充，使用预设词向量训练模型对获取的外部扩展语料进行预训练，以得到外部扩展语料中各个词语的词向量，将获取的词向量设置为目标文本的词向量的初始值，从而提高后续对目标文本中话题情感分类的准确率。

在获取外部扩展语料时，优选地，外部扩展语料为维基百科或者百度百科，从而提高词向量训练的效率。具体地，外部语料应尽可能地包含目标文本中的所有词，从而保证目标文本中的每个词都能从外部语料获取一个初始的词向量作为该词语义和词义的补充，有利于进一步学习词向量和话题向量。

在使用预设词向量训练模型对获取的外部扩展语料进行预训练时，优选地，预设词向量训练模型为词向量模型(word embeddings，简称word2vec)，从而简化词向量的训练过程，提高训练速度，保证了训练结果的稳定性。

在步骤S102中，通过预设词向量训练模型对各个情感话题对与词之间的初始分配进行训练，以得到与话题结合的词向量和词向量对应的情感向量。

在本发明实施例中，在通过预设词向量训练模型对得到的各个情感话题对与词之间的初始分配进行训练时，优选地，通过预设的Skip-gram模型，在目标文本中对词和词的上下文窗口词的概率似然函数进行最大化，以对各个情感话题对与词之间的初始分配进行训练，概率似然函数的公式表示为：

从而提高与话题结合的词向量和与词向量对应的情感向量的准确率和匹配率。其中，c是预设上下文窗口的大小，V是预设词汇表的长度，P(<w_i+j,a_i+j>|<w_i,a_i>)表示通过第i个词向量<w_i,a_i>预测第i+j个词向量<w_i+j,a_i+j>的概率，w_i为词汇表中第i个词，a_i为w_i对应的话题。

在步骤S103中，将词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中，对目标文本进行情感识别，获得目标文本中各个话题对应的情感。

在本发明实施例中，预先训练好变分自动编码器(Variational auto-encoder，简称VAE)，优选地，变分自动编码器的编码器采用基于注意力机制的长短期记忆网络(Attention-based LSTM with Aspect Embedding，简称ATAE-LSTM)模型，变分自动编码器的解码器采用长短期记忆网络(Long Short-Term Memory，简称LSTM)模型，在编码器中通过注意力机制来捕捉不同话题的不同关键部分，从而确保解码器能够正确识别目标文本涉及的话题和在涉及话题下表达的情感，进而提高自然语言处理中细粒度方面级情感分类的情感识别能力和识别准确率。

进一步优选地，在通过变分自动编码器的解码器对目标文本进行情感识别的过程中，识别过程的每一步都引入预设的文本标签，从而提高了变分自动编码器的半监督学习能力。

在将结合话题的词向量、情感向量以及预设的话题向量输入预先训练好的变分自动编码器的解码器之前，优选地，通过最小化预设的目标函数对变分自动编码器的解码器进行训练，目标函数的表达公式为：

其中，α为预设的超参数，

为预设话题情感分类器q_φ(y|x,v_a)的对数似然概率的期望，S_l和S_u分别为预设的有标签数据集和无标签数据集，L(x,y,v_a)为有标签数据集的KL散度，U(x,v_a)为无标签数据集的KL散度，v_a为话题向量，x＝{[W₁,s₁]，[W₂,s₂]，...，[W_N,s_N]}为词向量W_N和对应的情感向量s_N的连接集合向量，y为预设的文本标签向量，从而实现半监督的方面级情感分类，弥补了有监督方面级情感分类的不足，进而提高自然语言处理中细粒度方面级情感分类的情感识别能力。

进一步优选地，在变分自动编码器的训练过程中，通过有标签数据集S_l的KL散度L(x,y,v_a)，对变分自动编码器中编码器的后验概率分布q_φ(z|x,y,v_a)和解码器的后验概率分布p_θ(z|x,y,v_a)的相近程度进行衡量，从而提高变分自动编码器的训练速度。其中，

z～q_φ(z|x,y,v_a)，

为通过变分自动编码器的编码器得到有标签数据集对应的最终句子，

为编码器输出的均值，

为编码器输出的方差，z为从q_φ(z|x,y,v_a)采样的隐含变量。具体地，通过下述步骤计算有标签数据集S_l的KL散度L(x,y,v_a)：

(1)根据KL散度公式得到：

(2)将(1)得到的公式进行贝叶斯变换得到：

(3)将(2)得到的公式进行化简，得到：

(4)根据变分的证据下界ELBO函数，获得有标签数据集的KL散度L(x,y,v_a)

又一优选地，在变分自动编码器的训练过程中，通过无标签数据集S_u的KL散度U(x,v_a)和预设的话题情感分类器q_φ(y|x,v_a)，对变分自动编码器中编码器的后验概率分布q_φ(y,z|x,v_a)和解码器的后验概率分布p_θ(y,z|x,v_a)的相近程度进行衡量，从而提高变分自动编码器处理数据集的全面性，进而提高方面级情感分类的准确率。具体地，通过下述步骤计算无标签数据集S_u的KL散度U(x,v_a)：

(1)根据KL散度公式得到：

(2)对(1)得到的公式进行贝叶斯变换得到：

(3)将(2)得到的公式进行化简，得到：

(4)根据变分的证据下界ELBO函数，获得无标签数据集的KL散度U(x,v_a)

在本发明实施例中，当接收到对目标文本进行情感分类的请求时，通过话题情感混合模型对目标文本进行训练，得到目标文本中各个情感话题对与词之间的初始分配，通过词向量训练模型对各个情感话题对与词之间的初始分配进行训练，得到结合话题的词向量和词向量对应的情感向量，将结合话题的词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中进行识别，获得目标文本中各个话题对应的情感，从而提高了对文本中词在不同话题下的情感进行识别的能力，提高了方面级情感分类的准确率和精确度。

实施例二：

图2示出了本发明实施例二提供的基于变分自动编码器的情感分类装置的结构，为了便于说明，仅示出了与本发明实施例相关的部分，其中包括：

目标文本训练单元21，用于当接收到对目标文本进行情感分类的请求时，通过预设的话题情感混合模型对目标文本进行训练，以得到目标文本中各个情感话题对与词之间的初始分配。

词向量获得单元22，用于通过预设词向量训练模型对各个情感话题对与词之间的初始分配进行训练，以得到与话题结合的词向量和词向量对应的情感向量。

情感识别单元23，用于将词向量、情感向量以及预设的话题向量输入预先训练好的、变分自动编码器的解码器中，对目标文本进行情感识别，获得目标文本中各个话题对应的情感。

其中，α为预设的超参数，

z～q_φ(z|x,y,v_a)，

为编码器输出的均值，

(1)根据KL散度公式得到：

(2)将(1)得到的公式进行贝叶斯变换得到：

(3)将(2)得到的公式进行化简，得到：

(1)根据KL散度公式得到：

(2)对(1)得到的公式进行贝叶斯变换得到：

(3)将(2)得到的公式进行化简，得到：

因此，优选地，本发明实施例的基于变分自动编码器的情感分类装置还包括：

解码器训练单元，用于通过最小化预设的目标函数，对变分自动编码器的解码器进行训练，该目标函数的公式表示为：

其中，α为预设的超参数，

为预设话题情感分类器q_φ(y|x,v_a)的对数似然概率的期望，S_l和S_u分别为预设的有标签数据集和无标签数据集，L(x,y,v_a)为有标签数据集的KL散度，U(x,v_a)为无标签数据集的KL散度，v_a为话题向量，x＝{[W₁,s₁]，[W₂,s₂]，...，[W_N,s_N]}为词向量W_N和对应的情感向量s_N的连接集合向量，y为预设的文本标签向量；

扩展语料获取单元，用于获取外部扩展语料，以作为目标文本对应的原始数据的语义补充；

扩展语料训练单元，用于使用预设词向量训练模型对获取的外部扩展语料进行预训练，以得到外部扩展语料中各个词的词向量；以及

初始值设置单元，用于将获取的词向量设置为目标文本的词向量的初始值。

在本发明实施例中，基于变分自动编码器的情感分类装置的各单元可由相应的硬件或软件单元实现，各单元可以为独立的软、硬件单元，也可以集成为一个软、硬件单元，在此不用以限制本发明。

实施例三：

图3示出了本发明实施例三提供的计算设备的结构，为了便于说明，仅示出了与本发明实施例相关的部分。

本发明实施例的计算设备3包括处理器30、存储器31以及存储在存储器31中并可在处理器30上运行的计算机程序32。该处理器30执行计算机程序32时实现上述基于变分自动编码器的情感分类方法实施例中的步骤，例如图1所示的步骤S101至S103。或者，处理器30执行计算机程序32时实现上述各装置实施例中各单元的功能，例如图2所示单元21至23的功能。

本发明实施例的计算设备可以为个人计算机、服务器。该计算设备3中处理器30执行计算机程序32时实现基于变分自动编码器的情感分类方法时实现的步骤可参考前述方法实施例的描述，在此不再赘述。

实施例四：

在本发明实施例中，提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现上述基于变分自动编码器的情感分类方法实施例中的步骤，例如，图1所示的步骤S101至S103。或者，该计算机程序被处理器执行时实现上述各装置实施例中各单元的功能，例如图2所示单元21至23的功能。

本发明实施例的计算机可读存储介质可以包括能够携带计算机程序代码的任何实体或装置、记录介质，例如，ROM/RAM、磁盘、光盘、闪存等存储器。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于变分自动编码器的情感分类方法，其特征在于，所述方法包括下述步骤：

将所述词向量、所述情感向量以及预设话题向量输入预先训练好的、变分自动编码器的解码器中，对所述目标文本进行情感识别，获得所述目标文本中各个话题对应的情感；

通过预设的话题情感混合模型对所述目标文本进行训练的步骤之前，所述方法还包括：

通过最小化预设的目标函数，对所述变分自动编码器的解码器进行训练，所述目标函数的公式表示为：

其中，α为预设的超参数，

为预设话题情感分类器q_φ(y|x,v_a)的对数似然概率的期望，S_l和S_u分别为预设的有标签数据集和无标签数据集，L(x,y,v_a)为所述有标签数据集的KL散度，U(x,v_a)为所述无标签数据集的KL散度，v_a为所述话题向量，x＝{[W₁,s₁]，[W₂,s₂]，...，[W_N,s_N]}为词向量W_N和对应的情感向量s_N的连接集合向量，y为预设的文本标签向量。

2.如权利要求1所述的方法，其特征在于，所述变分自动编码器的编码器采用ATAE-LSTM模型，所述变分自动编码器的解码器采用LSTM模型。

3.如权利要求1所述的方法，其特征在于，通过预设词向量训练模型对所述各个情感话题对与词之间的初始分配进行训练的步骤，包括：

通过预设的Skip-gram模型，对所述词和所述词的上下文窗口词的概率似然函数进行最大化，以对所述各个情感话题对与词之间的初始分配进行训练，所述概率似然函数的公式表示为：

其中，c是预设上下文窗口的大小，V是预设词汇表的长度，P(<w_i+j,a_i+j>|<w_i,a_i>)表示通过第i个词向量<w_i,a_i>预测第i+j个词向量<w_i+j,a_i+j>的概率，w_i为所述词汇表中第i个词，a_i为所述w_i对应的话题。

4.如权利要求1所述的方法，其特征在于，通过预设的话题情感混合模型对所述目标文本进行训练之前，所述方法还包括：

获取外部扩展语料，以作为所述目标文本对应的原始数据的语义补充；

使用所述词向量训练模型对所述获取的外部扩展语料进行预训练，以得到所述外部扩展语料中各个词的词向量；

将所述获取的词向量设置为所述目标文本的词向量的初始值。

5.一种基于变分自动编码器的情感分类装置，其特征在于，所述装置包括：

情感识别单元，用于将所述词向量、所述情感向量以及预设话题向量输入预先训练好的、变分自动编码器的解码器中，对所述目标文本进行情感识别，获得所述目标文本中各个话题对应的情感；

所述装置还包括：

解码器训练单元，用于通过最小化预设的目标函数，对所述变分自动编码器的解码器进行训练，所述目标函数的公式表示为：

其中，α为预设的超参数，

6.如权利要求5所述的装置，其特征在于，所述装置还包括：

扩展语料获取单元，用于获取外部扩展语料，以作为所述目标文本对应的原始数据的语义补充；

扩展语料训练单元，用于使用所述词向量训练模型对所述获取的外部扩展语料进行预训练，以得到所述外部扩展语料中各个词的词向量；以及

初始值设置单元，用于将所述获取的词向量设置为所述目标文本的词向量的初始值。

7.一种计算设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。

8.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。