CN107491490A

CN107491490A - 基于情感中心的文本情感分类方法

Info

Publication number: CN107491490A
Application number: CN201710588604.6A
Authority: CN
Inventors: 王茂全; 陈诗韵; 吕钊
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2017-07-19
Filing date: 2017-07-19
Publication date: 2017-12-19
Anticipated expiration: 2037-07-19
Also published as: CN107491490B

Abstract

本发明公开了一种基于情感中心的文本情感分类方法,该方法包括：先将文本向量与类别情感向量中心的距离加入损失函数，通过损失函数将情感中心的影响加入到分类模型中；然后使用BLSTM将文本进行初步编码，通过注意力机制改善文本表示的准确度；在文本表征之上，通过情感类别向量与文本表征的距离值引入情感中心的信息，并在模型训练的过程中不断更新情感中心的实值向量表示，使其更加精准。本发明关注改善目标函数，新的目标函数利用文本情感中心的限制改善了文本情感分类，提升了文本情感分类的准确率。

Description

基于情感中心的文本情感分类方法

技术领域

本发明属于自然语言处理技术领域，尤其涉及一种基于情感中心的文本情感分类方法。

背景技术

随着互联网技术的发展，人们越来越倾向于在社交网站上发表自己对于产品、事件等的情感和观点。于是在这些社交网站中包含了大量富含情感的文本，对这些文本包含的情感信息进行挖掘对研究人员或商家都大有裨益。已经有很多研究致力于挖掘这些数据信息，情感分析的一个关键技术就是情感分类，就是将文本情感分为积极、中立和消极或者更细粒度的分类为非常积极、积极、中立、消极和非常消极。

传统情感分类方法都是基于词典的方法或者基于机器学习的方法，现目前基于深度学习的分类技术取得了比传统分类法更好的效果。但是之前的基于深度学习的各种神经网络主要研究文本表征来区别不同评论文本的情感，这和正常的文本表征方法没有太大的区别，于是目前有很少一部分研究开始关注改善目标函数去提升特征工程的性能。

发明内容

本发明的目的在于关注改善目标函数而提出的一种基于情感中心的情感分类方法，新的目标函数利用文本情感中心的限制改善了文本情感分类，提升了文本情感分类的准确率。

实现本发明目的的具体技术方案是：

一种基于情感中心的文本情感分类方法,特点是：该方法包括以下具体步骤：

步骤1：情感中心约束的损失函数

将文本向量与类别情感向量中心的距离加入损失函数，通过损失函数将情感中心的影响加入到分类模型中；

步骤2：文本表征和注意力(Attention)机制

使用BLSTM将文本进行初步编码，通过注意力机制改善文本表示的准确度；在文本表征之上，通过情感类别向量与文本表征的距离值引入情感中心的信息，并在模型训练的过程中不断更新情感中心的实值向量表示，使其更加精准。

所述将情感中心向量与文本表征的距离归入损失函数，采用学生t-分布来度量文本表征向量和相关情感中心向量的距离；记归一化函数(Softmax)的损失函数值为L_soft，情感中心的损失函数值为：L_center；通过引入一个超参λ将所述两个损失函数值链接起来构成整个模型的损失函数，既：L＝λL_soft+(1-λ)L_center。

所述情感中心的损失函数值L_center的计算，采用随机产生的批量样本来更新情感中心向量；其计算更新梯度为：其中△C_j为梯度，δ(condition)是条件函数，如果条件为真，则δ＝1，否则δ＝0；m为批量样本大小，用i表示第i个样本；,C_yi为y_i的情感中心向量，为样本属于C_yi的概率，y_i为样本类别，j∈[1,k]，k为分类类别。

本发明关注于改善目标函数，新的目标函数利用文本情感中心的限制改善了文本情感分类，通过引入类别情感中心向量来约束文本自动编码结果。提升了文本情感分类准确率，并得到了更好的文本空间表示。

附图说明

图1为基于情感中心的分层神经网络结构图。

具体实施方式

下面结合附图对本发明做详细描述。

参阅图1，本发明包括：

1、情感中心约束的文本表征分类模型

为了在文本表征中加强文本情感特征，很自然的想法就是使得文本表征更加接近情感中心。为了达到这个目的，本发明使用一个核函数去测量文本表征和情感中心的距离，并且将这个距离作为损失函数的一部分来训练整个神经网络。测量距离的函数有很多，本发明采用的是学生t-分布来测量文本向量d_yi和相关情感中心向量c_i的相似度，公式为：其中，c_i表示和文档d_yi有相同情感类别的情感中心，α 是学生-t分布的自由度。所以，情感中心的损失函数为它的softmax损失函数为为了实现同步训练评论文本表征和更新情感中心的表征，本发明在情感中心的softmax损失函数中引入一个超参λ：L＝λL_soft+(1-λ)L_center。实验发现，如果在每个样本训练时都更新情感中心，这个中心会抖动变得难以约束。为了解决这个问题，用随机产生的mini批处理去分批更新情感中心。所以用如下公式计算L_center的梯度：其中△C_j为梯度，δ(condition)是条件函数，如果条件为真，则δ＝1，否则δ＝0；m为批量样本大小，用i表示第i个样本；,C_yi为y_i的情感中心向量，为样本属于C_yi的概率，y_i为样本类别，j∈[1,k]，k为分类类别。

2、文本表征和注意力(Attention)机制

本发明采用一个分层结构(输入层、句子层和文档层)来表征评论文档，该结构通过单词、句子和文档级别的堆栈来建模句子。它提供了一个对文档建模有效的结构。在本发明中，用文档d来表示评论文本，它含有n个句子D＝{S₁,S₂,...,S_n}。其中每个句子由tⁱ个单词组成

输入层：将输入序列中的单词映射到词向量该词向量是一个低维的带情感信息的词向量。输入层简单的讲评论中的每个单词映射到词向量空间。

句子层：LSTM是一种有效的捕捉数据特征的模型，所以本发明用这个模型对输入层中的句子序列进行建模。LSTM通过引入记忆单元c_t和三个门机制(i,o,f)能捕捉句子序列中的长依赖问题，公式如下：

i_t＝σ(W_ix_t+U_ih_t-1+b_i)

o_t＝σ(W_ox_t+U_oh_t-1+b_o)

f_t＝σ(W_fx_t+U_fh_t-1+b_f)

h_t＝o_tΘtanh(c_t)

其中，σ是sigmoid函数，Θ是矩阵元素乘法运算。i_t,f_t,o_t,c_t,b_i,b_o,b_f,b_c∈R^H，W_i,W_o,W_f,W_c∈R^H×d，和U_i,U_o,U_f,U_c∈R^H×H。其中的H和d分别是隐藏层和输入层的维度。

本发明可得到句子S_i的隐藏层状态i＝1,...,n并且k_i代表句子长度。为了得到更全面的句子表征，本发明还使用了attention机制去捕捉句中重要的特征，公式为：其中，s_i是句子表征，是每一个隐藏层状态的attention机制的权重，是隐藏层的表征，u_w是单词级别的上下文信息。

文档层：和句子层一样，本发明用LSTM模型对句子进行建模并用attention机制得到文档表征d。

现存的用于情感分类的数据集都包含很多几句话组成的短段落，比如StanfordSentiment Treebank。它们都能验证分类模型的准确率。本发明在三个普遍的真实数据集上验证模型有效性:Yelp2013、Yelp2014和IMDB。表1表明了这三个数据集的统计信息：

本发明采用准确率(Acc)和均方误差(MSE)来验证情感分类的性能。准确率是一个标准指标来总体分类结果，均方误差用于计算预测的分类结果和真实标签两者之间的差异大小。公式为：

本发明为验证基于情感中心的深度神经网络情感分类的有效性，将该发明的模型在各个真实数据集进行实验,实验结果如下表所示：

数据集	准确率	均方误差
			IMDB	0.512	1.30
Yelp2013	0.648	0.74
			Yelp2014	0.640	0.679

通过在IMDB、Yelp2013和Yelp2014三个标准数据集上的实验，本发明所提出的方法在准确率和均方误差上获得了新的提升。相比于Tang et al.,2015b[1]中对三个数据集的实验结果，本文获得了约2％的准确率提升，并降低了约4％的均方差。

Claims

1.一种基于情感中心的文本情感分类方法,其特征在于，该方法包括以下具体步骤：

步骤1：情感中心约束的损失函数

步骤2：文本表征和注意力机制

2.根据权利要求1所述的情感分类方法，其特征在于，所述将情感中心向量与文本表征的距离归入损失函数，采用学生t-分布来度量文本表征向量和相关情感中心向量的距离；记归一化函数的损失函数值为L_soft，情感中心的损失函数值为：L_center；通过引入一个超参λ将所述两个损失函数值链接起来构成整个模型的损失函数，既：L＝λL_soft+(1-λ)L_center。

3.根据权利要求2所述的情感分类方法，其特征在于，所述情感中心的损失函数值L_center的计算，采用随机产生的批量样本来更新情感中心向量；其计算更新梯度为：其中△C_j为梯度，δ是条件函数，如果条件为真，则δ＝1，否则δ＝0；m为批量样本大小，用i表示第i个样本；为y_i的情感中心向量，为样本属于的概率，y_i为样本类别，j∈[1,k]，k为分类类别。