CN110472244A

CN110472244A - 一种基于Tree-LSTM和情感信息的短文本情感分类方法

Info

Publication number: CN110472244A
Application number: CN201910748149.0A
Authority: CN
Inventors: 李玉军; 张文真; 马宝森; 王泽强; 邓媛洁
Original assignee: Shandong University
Current assignee: Shandong University
Priority date: 2019-08-14
Filing date: 2019-08-14
Publication date: 2019-11-19
Anticipated expiration: 2039-08-14
Also published as: CN110472244B

Abstract

本发明涉及一种基于Tree‑LSTM和情感信息的短文本情感分类方法，包括步骤如下：(1)构建四类情感信息词典；四类情感信息词典包括情感词典、否定词词典、程度副词词典和连词词典；(2)数据预处理：确定每个句子包含的情感信息词及其位置信息；使其符合模型的输入要求；(3)根据不同的情感信息词的作用改进Tree‑LSTM模型；(4)对步骤(2)预处理后的数据进行特征提取；(5)训练模型，将步骤(2)预处理后的数据打乱后，分成训练集和测试集，运用不放回的方式随机抽取训练集中的N条数据做训练，循环多次后，使用测试集的数据测试实验结果的准确性，最终得到实验结果。

Description

一种基于Tree-LSTM和情感信息的短文本情感分类方法

技术领域

本发明涉及一种基于Tree-LSTM和情感信息的短文本情感分类方法，属于自然语言处理技术领域。

背景技术

随着智能时代的到来，对大数据的处理方法向着自动化、智能化的方向发展，各种工作也逐渐由智能机器所代替，在这样的时代背景下，自然语言处理成为计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系，但又有重要的区别。自然语言处理并不是一般地研究自然语言，而在于研制能有效地实现自然语言通信的计算机系统，特别是其中的软件系统。

而自2000年初以来，情感分类已成为自然语言处理领域中最活跃的研究领域之一。情感分类是对带有情感色彩的主观文本进行分析、加工、归纳和推理的过程。随着网络社交媒体(如产品评论、论坛讨论、微博、微信等)的迅速发展，文本的情感分类在自然语言处理领域中显示出了越来越重要的作用。情感分类的目的是将文本中所包含的情感进行分类，如积极的或消极的，或更细粒度的类，如非常积极、积极、中立、非常消极等等。

为此，已有许多方法，如基于词典的分类、早期基于机器学习的方法(卷积神经网络等神经网络模型)、递归自动编码器、长短时记忆(LSTM)等等。基于这些非常成功的模型，许多尝试都取得了进展。例如，树型结构模型，如Tree-LSTM，将语法与神经模型相结合，取得了良好的性能。但这些树型结构模型存在一些缺陷，其中之一就是依赖于昂贵的短语级注释，需要大量的人工标注。神经模型还没有充分利用情感信息，如情感词、否定词(如not、never)、程度副词(如very、absolutely) 和连词。

最近，随着深度学习的发展，以卷积神经网络和循环神经网络为代表的深度神经网络模型在图像识别、计算机视觉和语音识别领域取得了巨大成功，在自然语言处理领域也取得了很大进展，之前的研究成果表明长短时记忆神经网络对处理具有时序特征的自然语言有天然的优势，尤其是 Tree-LSTM和语法的结合，使情感分类任务的结果得到了很大的提升，有研究者将语法信息正则化到模型中的方法用于情感分类任务中，使情感分类任务的结果得到了很大的提升。这种方法的核心思想是将Tree-LSTM和语法信息结合，再利用数据训练分类器，但是依赖短语级注释太过于昂贵，而且语法信息的获得需要花费大量的精力构建正则化的模型，这也使得Tree-LSTM需要依赖一些语法信息才能取得较好的结果。还有研究者利用卷积神经网络做情感分类任务，在句子长度不长时表现比循环神经网络要好，但这种方法只能获得局部上下文信息，存在信息丢失的缺点。

发明内容

针对现有技术的不足，本发明提供了一种基于Tree-LSTM和情感信息的短文本情感分类方法；

本发明提出了一种基于Tree-LSTM与情感信息结合的模型，该模型最大的贡献是将当前节点的预测情绪分布与子节点或父节点的预测情绪分布在树模型中的差异进行正则化。例如，如果当前节点有包括否定词在内的子节点，则当将其他子节点的情绪分布相应转移到当前节点时，应改变其情绪分布。由于对情感词、否定词、程度副词、连词的情感作用进行建模是句子级情感分类的有效方法，因此，本发明将情感信息正则化到Tree-LSTM上。与其他Tree结构模型不同，本发明的模型不需要昂贵的短语级注释，并且在句子级注释上有很好的性能。

术语解释：

1、MPQA词典，Multiple-Perspective QA词典，是Wilson等人总结的；

2、SST数据集，即Stanford Sentiment Treebank数据集；

3、Glove向量，GloVe(Global Vectors for Word Representation)是一个基于全局词频统计 (count-based&overall statistics)的词表征(word representation)工具，是一种用于获得单词矢量表示的无监督学习算法。对来自语料库的聚合全局词-词共现统计进行训练，并且其所得到的表示了展示词向量空间的有趣的线性子结构。

4、随机梯度下降法，大多数深度学习算法都设计某种形式的优化，优化指的是改变x以最小化或最大化某个函数f(x)的任务。我们通常以最小化f(x)指代大多数最优化问题。最大化可经由最小化算法最小化-f(x)来实现。导数对于最小化一个函数很有用，因为它告诉我们如何更改x来略微地改善y。因此我们可以将x往导数的反方向移动一小步来减小f(x)，这种技术称为梯度下降。

随机梯度下降是梯度下降算法的一个扩展，它的核心是梯度是期望。期望可使用小规模的样本近似估计。具体而言，在算法的每一步，我们从训练集中均匀抽取一小批量(minibatch)样本 B＝{x⁽¹⁾,...,x^(m′)}。小批量的数目m′通常是一个相对较小的书，从一到几百。重要的是，当训练机大小m增长时，m′通常是固定的。我们可能在你和几十亿的样本时，每次更新计算只用到几百个样本。使用随机梯度下降很大程度地加速，沿着随机挑选的小批量数据的梯度下降方向。

本发明的技术方案为：

一种基于Tree-LSTM和情感信息的短文本情感分类方法，包括步骤如下：

(1)构建四类情感信息词典；四类情感信息词典包括情感词典、否定词词典、程度副词词典和连词词典；情感词典包括高兴、快乐、郁闷、难受等可以表达情感的词语及其情感分布；否定词词典包括不、否、非等可以表示否定意义的词语及其作用；程度副词词典包括非常、很、一般等可以表示程度的词语及其作用；连词词典包括虽然、因为、但是等可以在文本中起到连接上下文作用的词语及其作用，是根据词语的词性进行分类。

(2)数据预处理：对数据进行预处理，并确定每段文本包含的情感信息词及其位置信息；使其符合模型的输入要求；

(3)根据不同的情感信息词的作用改进Tree-LSTM模型；

(4)对步骤(2)预处理后的数据进行特征提取；

(5)训练模型，将步骤(2)预处理后的数据打乱后，分成训练集和测试集，运用不放回的方式随机抽取训练集中的N条数据做训练，循环多次后，使用测试集的数据测试实验结果的准确性，最终得到实验结果。

根据本发明优选的，所述步骤(1)中，构建情感词典，是指：情感词典包括MPQA词典及SST 数据集所有叶节点接收到的情感词，MPQA词典共有6732个单词，其中除神经类词语外，还有6305 个情感类词语，SST数据集的叶节点有22348个带有情感分布的词语，其中有9717个情感类词语，将MPQA词典的情感类词语及SST数据集的情感类词语进行去重整合后，得到包括13206个情感类词语的词典，即情感词典，且每一个词都有情感分布标签。

构建否定词词典、程度副词词典和连词词典，是指：否定词词典、程度副词词典和连词词典的情感信息词的数量有限且极性特殊，采用人工统计的方式建立否定词词典、程度副词词典和连词词典。

根据本发明优选的，所述步骤(2)中，数据预处理，本发明采用公开的数据集进行结果评测，而公开的数据集是原始数据，不符合模型的输入要求，需要进行预处理。包括步骤如下：

A、由于使用的模型中有树状结构，所以需要对短信进行句法分析，才能应用于树状模型。使用斯坦福句法分析器(Stanford Parser)对短文本进行分析，将序列形式的短信转化为树状数据；然后通过训练词向量，将文本数据转化成数学数据，即将每一条文本中的词转换成一个词向量的表示；使其符合模型的输入要求；

B、根据构建的四类情感信息词典，确定词的属性和词在句子中的位置特征；

词的属性是指词语在句子中起到的作用；比如情感词在句子中起到影响句子极性(积极或者消极)的作用；比如否定词在这个句子中起到使情感翻转的作用；比如程度副词和连词在句子中起到影响(加强、减弱或者翻转)情感强度的作用。每一类词语的词典中都会有每个词语的属性，比如情感词典中包含情感词及其对应的极性(积极或者消极)，否定词词典中包含否定词及其对应的否定程度，连词词典中包含连接词及其对应的作用，程度副词词典中包含程度副词及其对应的对情感的影响程度。

词在句子中的位置特征是指情感词、否定词、程度副词和连词是句子的第几个词；词语位置的不同，词语对句子的影响可能会有差异。比如，“我不爱看电影。”和“不，我爱看电影。”在第一句话中，“不”这个词属于第三个词，“爱看”属于第四个词；在第一句话中，“不”这个词属于第一个词，“爱看”属于第四个词。显而易见，词语位置的不同，可能会导致句子的意思不同。

每一条数据都由句子向量、极性、四类词的属性和位置构成；句子向量是由分完词后词语的词向量组合而成；句子极性作为标签为训练模型提供一个训练的目标；四类词的属性词典中存在。四类词的位置，就是一个句子分完词后得到的词语列表，四类词在列表中的位置；

根据本发明优选的，所述步骤(3)中，根据不同的情感信息词的作用改进Tree-LSTM模型，是指：

Tree-LSTM模型分为child-sum Tree-LSTM和N元Tree-LSTM两种，对于情感分类任务，最适用的是N元Tree-LSTM，因为不同词汇或短语对情感的表达式不同的。

Tree-LSTM模型为二元Tree-LSTM，又被称为选区(constituency)Tree-LSTM；选区Tree-LSTM 的特点是，词语仅在叶节点输入，叶节点细胞不接受其它细胞的输出；每个根节点和子根节点都接收对应两个子节点的输出，隐藏层输入设置为0。

本发明根据词语中所包含的情感信息对的不同，分类了的四类词典，又根据四类词典划定了五种情况，即短文本中包含的词语分别为无情感信息词(本身不表达任何情感或者在句子中对情感分布的影响微乎其微的词语)、情感词、否定词、程度副词、连词，分别表达的情感的变化情况。思路是，将这五种情况的影响抽象成KL散度(相对熵)，利用正则化方法加入到Tree-LSTM模型的损失函数，从而将情感信息融入到神经网络中；

当二元Tree-LSTM应用于短语级标注的短文本时，部分节点甚至所有节点都有情感黄金分布，为充分利用所有标签，二元Tree-LSTM的损失函数如式(Ⅰ)、(Ⅱ)所示：

p_k＝softmax(Wh_k+b) (Ⅱ)

式(Ⅰ)、(Ⅱ)中，J(θ)是Tree-LSTM模型的总损失，是树状短文本i的情感黄金分布，y_i是Tree-LSTM模型预测的情感分布，m是树状短文本i中有标签的节点个数，是树状短文本i中k节点的情感黄金分布，k是树状短文本i的根节点，p_k是Tree-LSTM预测的k节点的情感分布，即k节点隐藏层的输出经过归一化的结果，softmax()是k节点隐藏层最后输出时的激活函数，W是 k节点隐藏层激活函数的权重，h_k是k节点隐藏层的输出，b是k节点隐藏层优化函数的偏置项，β是加入的防止过拟合的正则器的正则化系数，θ是对应的参数向量；

此时，由于标签的增多，情感的信息量增大，在加入正则器的时候应充分利用这些信息，因此，在Tree-LSTM模型中加入两个正则器，对应的损失函数J’(θ)如式(III)所示：

式(III)中，L_k,i和L’_k,j是加入到树状短文本i中的两个正则器，正则器L_k,i与二元Tree-LSTM的正则器相似，正则器L’_k,j将利用根节点的标签，n是树状短文本i加入正则器L_k,i的数量，α和α’是两个正则器对应的权重；

当树状短文本i没有根节点的情感标签时，公式(Ⅰ)、(III)中的m均为0，此时的二元Tree-LSTM 应用于句子级标注的短文本情感分类的损失函数J‘’(θ)、加入正则器后的损失函数J‘’‘(θ)分别如式 (Ⅳ)、式(V)所示：

式(Ⅳ)、(V)中，L_k,i是加入到树状短文本中的正则器，k是树状短文本的根节点，n是短文本i根节点的数量，α是正则器的权重；

针对Tree-LSTM模型的特点和情感信息的七种情况，Tree-LSTM模型中加入正则器的具体应用条件及各种条件下正则器的不同如下：

当子节点均为短语的节点时，由于选区Tree-LSTM仅在叶节点输入词语，那么就会造成根节点的两个子节点均为短语的情况，此时，根节点k1的情感预测分布应与两个子节点相关，但由于这两个节点难以用先验信息来区分，因此本文将子节点k11和k12对节点k1的影响交给模型本身去处理，根节点k1对应的两个正则器如式(Ⅵ)、(Ⅶ)、(Ⅷ)所示：

式(Ⅵ)、(Ⅶ)、(Ⅷ)中，M为边界超参(hyperparameter for margin)，p_k1是节点k1的情感预测分布，是节点k1的情感黄金分布，为节点k1两个子节点k11、k12输出的加权和的归一化分布，这样就可以使模型自主学习两个子节点的权重，p_k11和p_k12分别是子节点k11和k12 的情感预测分布，W₁₁和W₁₂分别是p_k11和p_k12对应的权重矩阵，D_KL是对称KL散度，其定义如式 (Ⅸ)所示：

式(Ⅸ)中，p、q是情感标签l上的分布，C是标签的数量；

当子节点为无情感信息词的节点时，设k21、k22为根节点k2的两个子节点，若k21是叶节点，输入为无情感信息词，k22是根节点或者输入为无情感信息词的叶节点，那么，根节点k2的情感预测分布与子节点k22的情感预测分布相同；当根节点k2有情感黄金分布时，子节点k22的情感预测分布也向该情感黄金分布靠拢，则根节点k2的两个正则器L_k2、L′_k2如式(Ⅹ)、式(Ⅺ)所示：

L_k2＝max(0,D_K4(p_k2||p_k22)-M) (Ⅹ)

式(Ⅹ)、式(Ⅺ)中，p_k2是根节点k2的情感预测分布，是节点k2的情感黄金分布，p_k22分别是子节点k22的情感预测分布，M为边界超参；

当子节点为情感词的节点时，设k31、k32为根节点k3的两个子节点，如果子节点k31是叶节点，其输入为情感词x_k31，另一节点k32是根节点或者是输入为无情感信息词的叶节点，那么，根节点k3的情感预测分布在子节点k32情感预测分布的基础上进行情感漂移，当根节点k3有情感黄金分布时，子节点k32的情感预测分布与该情感黄金分布相差一个情感漂移分布，此时，根节点 k3的两个正则器L_k3、L′_k3分别如式(Ⅻ)、式(XIII)所示：

式(Ⅻ)、式(XIII)中，p_k3是根节点k3的情感预测分布，是根节点k3的情感黄金分布，是子节点k32进行情感漂移后的预测分布，是情感词x_k31的情感漂移分布；同一类极性的情感词共用一个情感漂移分布s_C。情感词的正则器主要作用为，输入情感词时，使得情感预测分布较上一时刻的预测分布有明显的漂移。

当子节点为否定词的节点时，设k41、k42为根节点k4的两个子节点，如果子节点k41是叶节点，其输入为否定词x_k41，另一子节点k42是根节点或者是输入为无情感信息词的叶节点，那么，根节点k4的情感预测分布应在节点k42情感预测分布的基础上进行情感变换，当根节点k4有情感黄金分布时，子节点k42的情感预测分布与该情感黄金分布相差一个否定词的变化矩阵，此时，根节点k4的两个正则器L_k4、L′_k4分别如式(XIV)、式(XV)所示：

式(XIV)、式(XV)中，是子节点k42进行情感变换后的预测分布，否定词x_k41的情感变换矩阵；每个否定词都有专属的变换矩阵，并且变换矩阵可以通过模型进行训练学习。输入否定词时，使得情感预测分布较上一时刻的预测分布在极性上有所转变。

当子节点为程度副词的节点时，设k51、k52为根节点k5的两个子节点，如果子节点k51是叶节点，其输入为程度副词x_k51，另一子节点k52是根节点或者是输入为无情感信息词的叶节点，那么，根节点k5的情感预测分布应在子节点k52情感预测分布的基础上进行情感变换，当根节点k5 有情感黄金分布时，节点子k52的情感预测分布与该情感黄金分布应相差一个程度副词的变化矩阵；此时，根节点k5的两个正则器L_k5、L′_k5分别如式(XVI)、式(XVII)所示：

式(XVI)、式(XVII)中，是子节点k52进行情感变换后的预测分布，是程度副词x_k51的情感变换矩阵；每个程度副词都有专属的变换矩阵，并且变换矩阵可以通过模型进行训练学习。程度副词对情感分类的作用与否定词相似，情感预测分布都是在上一时刻的预测分布的基础上进行变化，不同的是，否定词完全更改了情感极性，而程度副词仅改变情感表达的强度。

当子节点为连词的节点时，设k61、k62为根节点k6的两个子节点，如果子节点k61是叶节点，其输入为连词x_k61，另一子节点k62是根节点或者是输入为无情感信息词的叶节点，那么，根节点k6的情感预测分布应在子节点k62情感预测分布的基础上进行情感变换，当根节点k6有情感黄金分布时，子节点k62的情感预测分布与该情感黄金分布应相差一个连词的变化矩阵；此时，根节点 k6的两个正则器L_k6、L′_k6分别如式(XVIII)、式(XIX)所示：

式(XVIII)、式(XIX)中，是子节点k62进行情感变换后的预测分布，是连词x_k61的情感变换矩阵；每个连词都有专属的变换矩阵，并且变换矩阵可以通过模型进行训练学习。在序列模型中，连词的作用像是否定词和程度副词的结合，输入连词时，情感预测分布较上一时刻的情感预测分布，可能在极性上变化，可能在程度上变化。

当子节点均为情感信息词的节点时，由于这两个节点是等价的，人为设定的规则难以涵盖所有的情况，因此本发明将情感词x_k71、x_k72对根节点k7的影响交给Tree-LSTM模型去处理，根节点 k7对应的两个正则器L_k7、L′_k7分别如式(XX)、式(XXI)所示：

式(XX)、式(XXI)中，p_k7是根节点k7的情感预测分布，是根节点k7的情感黄金分布，为情感词x_k71的情感漂移分布，为情感词x_k72的情感漂移分布，W₇₁、W₇₂分别为子节点k71、k72变换矩阵的权重，节点k71、k72为叶节点，无其它影响情感的输入，情感词x_k71、x_k72的情感漂移分布就代表了节点k71、k72的情感分布；

当子节点k81的输入为情感词，k82的输入为否定词、程度副词或连词时，根节点k8的情感预测分布应在情感词x_k81的基础上进行变换，此时根节点k8对应的两个正则器L_k8、L′_k8如式(XXII)、式(XXIII)所示：

式(XXII)、式(XXIII)中，为子节点k81受情感信息词x_k82影响后的情感预测分布，为情感词x_k81的情感漂移分布，情感信息词x_k82的变换矩阵，为否定词、程度副词或连词的变换矩阵。因为节点k81为叶节点，其唯一输入为情感词x_k81，所以 x_k81的情感漂移分布就代表了节点的情感分布。

使用正则化的方法将文本中包含的情感信息融入到Tree-LSTM中，就是将情感信息转化成正则项加入到神经网络的损失函数中，可以使得损失函数的求解想着正则项约束的方向进行，从而使神经网络对情感的预测更符合情感信息。

根据本发明优选的，所述步骤(4)中，对步骤(2)预处理后的数据进行特征提取，包括步骤如下：

对短文本的特征提取过程包括：Tree-LSTM模型是句法分析树与LSTM结合的产物，Tree-LSTM 模型细胞单元的输入个数不再是固定的，而与它的子节点(child node)数目有关，将Tree-LSTM的节点展开，以图1中节点1为例，其细胞结构如图2所示，可以看出Tree-LSTM细胞与LSTM细胞不同，对于节点1，它的细胞有两个遗忘门，因为它要接收两个子节点的细胞状态，并分别进行遗忘；用于更新细胞状态的备选信息u1也将有两个子节点的输出和当前节点的输入共同组成。而我们在Tree-LSTM的基础上融合了情感信息，通过改进后的模型能更好地获取有效信息，即短文本数据的语义特征及其所包含的情感特征。这种方法的优点是充分利用了文本中包含的情感信息，使模型可以提取到丰富的语义特征和情感特征。

根据本发明优选的，所述步骤(5)中，训练模型，是指：采用交叉熵损失函数进行模型训练，转化为损失函数的最小值问题。损失函数主要有两部分构成，误差项和正则项。误差项用来表示神经网络对数据集的拟合程度，而正则项可以用来防止模型过拟合。由于我们通过正则化的方法改进了Tree-LSTM，标签增多，情感的信息量增大。所以，本发明在模型中加入两个正则器，对应的损失函数如式(III)所示：

式(XXIV)中，L_k,i和L’_k,j是加入到树状短文本i中的两个正则器，正则器L_k,i与二元Tree-LSTM 的正则器相似，正则器L’_k,j将利用根节点的标签，n是树状短文本i加入正则器L_k,i的数量，α和α’是两个正则器对应的权重。

本发明的有益效果为：

1、本发明采用Tree-LSTM作为基础模型，它在LSTM的基础上加入了句法信息，可以解析句子内部的结构，再融入先验情感信息，可以使Tree-LSTM准确判别句子所表达的主要情感。

2、本发明采用融合了情感信息的Tree-LSTM进行特征提取，弥补了神经网络模型在短文本情感分类方面的不足。神经网络接收的输入为词向量，而词向量中并不包含情感信息，这就造成了信息的缺失，使得神经网络在情感分类上的准确率无法突破上限，针对这一不足，本发明在Tree-LSTM 的基础上融合了情感信息，有助于提取短文本中所蕴含的情感特征，有利于情感的分类。

3、本发明采用正则化的方式将情感信息融入Tree-LSTM，将不同情感信息词的作用抽象成正则化公式，加入到Tree-的损失函数中，通过优化损失函数，使神经网络在训练过程中想着符合先验情感信息的方向靠近，进而提升情感分类的结果。

附图说明

图1为Tree-LSTM模型的结构示意图；

图2为Tree-LSTM细胞结构简化示意图；

图3为Tree-LSTM在例句上的应用和部分重点时刻的输出变化情况示意图；

图4(a)为图3中模型在节点P₂₂、P₂₄、P₂₅的情感状态细节示意图；

图4(b)为图3中模型在节点P₁₅、R₁₇、P₂₁、P₂₃的情感状态细节示意图；

图4(c)为图3中模型在节点P₁₄的情感状态细节示意图；

具体实施方式

下面结合说明书附图和实施例对本发明作进一步限定，但不限于此。

实施例1

构建情感词典，是指：情感词典包括MPQA词典及SST数据集所有叶节点接收到的情感词， MPQA词典共有6732个单词，其中除神经类词语外，还有6305个情感类词语，SST数据集的叶节点有22348个带有情感分布的词语，其中有9717个情感类词语，将MPQA词典的情感类词语及SST 数据集的情感类词语进行去重整合后，得到包括13206个情感类词语的词典，即情感词典，且每一个词都有情感分布标签。

(2)数据预处理：对数据进行预处理，并确定每段文本包含的情感信息词及其位置信息；使其符合模型的输入要求；本发明采用公开的数据集进行结果评测，而公开的数据集是原始数据，不符合模型的输入要求，需要进行预处理。包括步骤如下：

(3)根据不同的情感信息词的作用改进Tree-LSTM模型；Tree-LSTM模型分为child-sum Tree-LSTM和N元Tree-LSTM两种，对于情感分类任务，最适用的是N元Tree-LSTM，因为不同词汇或短语对情感的表达式不同的。

Tree-LSTM模型为二元Tree-LSTM，又被称为选区(constituency)Tree-LSTM；其模型结构如图 1所示。其中，方框表示LSTM的一个单元。文本序列为x1,x2,x4,x5,x6，x是输入的序列，y是每个 x输入后经过LSTM一个单元的预测输出。选区Tree-LSTM的特点是，词语仅在叶节点输入，叶节点细胞不接受其它细胞的输出；每个根节点和子根节点都接收对应两个子节点的输出，隐藏层输入设置为0。

p_k＝softmax(Wh_k+b) (Ⅱ)

式(Ⅰ)、(Ⅱ)中，J(θ)是Tree-LSTM模型的总损失，是树状短文本i的情感黄金分布，y_i是Tree-LSTM模型预测的情感分布，m是树状短文本i中有标签的节点个数，是树状短文本i中 k节点的情感黄金分布，k是树状短文本i的根节点，p_k是Tree-LSTM预测的k节点的情感分布，即 k节点隐藏层的输出经过归一化的结果，softmax()是k节点隐藏层最后输出时的激活函数，W是 k节点隐藏层激活函数的权重，h_k是k节点隐藏层的输出，b是k节点隐藏层优化函数的偏置项，β是加入的防止过拟合的正则器的正则化系数，θ是对应的参数向量；

当子节点均为短语的节点时，由于选区Tree-LSTM仅在叶节点输入词语，那么就会造成根节点的两个子节点均为短语的情况，如图1中的节点25。此时，根节点k1的情感预测分布应与两个子节点相关，但由于这两个节点难以用先验信息来区分，因此本文将子节点k11和k12对节点k1的影响交给模型本身去处理，根节点k1对应的两个正则器如式(Ⅵ)、(Ⅶ)、(Ⅷ)所示：

式(Ⅸ)中，p、q是情感标签l上的分布，C是标签的数量；

L_k2＝max(0,D_KL(p_k2||p_k22)-M) (Ⅹ)

式(XIV)、式(XV)中，是子节点k42进行情感变换后的预测分布，是否定词x_k41的情感变换矩阵；每个否定词都有专属的变换矩阵，并且变换矩阵可以通过模型进行训练学习。输入否定词时，使得情感预测分布较上一时刻的预测分布在极性上有所转变。

当子节点为连词的节点时，设k61、k62为根节点k6的两个子节点，如果子节点k61是叶节点，其输入为连词x_k61，另一子节点k62是根节点或者是输入为无情感信息词的叶节点，那么，根节点 k6的情感预测分布应在子节点k62情感预测分布的基础上进行情感变换，当根节点k6有情感黄金分布时，子节点k62的情感预测分布与该情感黄金分布应相差一个连词的变化矩阵；此时，根节点 k6的两个正则器L_k6、L′_k6分别如式(XVIII)、式(XIX)所示：

式(XX)、式(XXI)中，p_k7是根节点k7的情感预测分布，是根节点k7的情感黄金分布，情感词x_k71的情感漂移分布，为情感词x_k72的情感漂移分布，W₇₁、W₇₂分别为子节点k71、k72变换矩阵的权重，节点k71、k72为叶节点，无其它影响情感的输入，情感词x_k71、x_k72的情感漂移分布就代表了节点k71、k72的情感分布；

式(XXII)、式(XXIII)中，为子节点k81受情感信息词x_k82影响后的情感预测分布，为情感词x_k81的情感漂移分布，为情感信息词x_k82的变换矩阵，为否定词、程度副词或连词的变换矩阵。因为节点k81为叶节点，其唯一输入为情感词x_k81，所以 x_k81的情感漂移分布就代表了节点的情感分布。

(4)对步骤(2)预处理后的数据进行特征提取；对短文本的特征提取过程包括：Tree-LSTM 模型是句法分析树与LSTM结合的产物，模型结构如图1所示。Tree-LSTM模型细胞单元的输入个数不再是固定的，而与它的子节点(child node)数目有关，将Tree-LSTM的节点展开，以图1中节点1为例，其细胞结构如图2所示，其中,h为LSTM的隐层，c为LSTM的记忆单元；可以看出 Tree-LSTM细胞与LSTM细胞不同，对于节点1，它的细胞有两个遗忘门，因为它要接收两个子节点的细胞状态，并分别进行遗忘；用于更新细胞状态的备选信息u1也将有两个子节点的输出和当前节点的输入共同组成。而在Tree-LSTM的基础上融合了情感信息，通过改进后的模型能更好地获取有效信息，即短文本数据的语义特征及其所包含的情感特征。这种方法的优点是充分利用了文本中包含的情感信息，使模型可以提取到丰富的语义特征和情感特征。

(5)训练模型，将步骤(2)预处理后的数据打乱后，分成训练集和测试集，运用不放回的方式随机抽取训练集中的N条数据做训练，循环多次后，使用测试集的数据测试实验结果的准确性，最终得到实验结果。是指：采用交叉熵损失函数进行模型训练，转化为损失函数的最小值问题。损失函数主要有两部分构成，误差项和正则项。误差项用来表示神经网络对数据集的拟合程度，而正则项可以用来防止模型过拟合。由于我们通过正则化的方法改进了Tree-LSTM，标签增多，情感的信息量增大。所以，本发明在模型中加入两个正则器，对应的损失函数如式(III)所示：

本实施例选取的两个数据集分别是Pang和Lee的电影评论数据集(Movie Review，MR)和Socher 等人的斯坦福情感树库(Stanford Sentiment Treebank，SST)。MR数据集是句子级标注的数据集，有两类标签，消极和积极；SST数据集是短语级标注的数据集，而且是细粒度标注，有五类标签，非常消极、消极、中性、积极以及非常积极。在使用SST数据集时，本实施例分为两种情况，一种是使用短语级标注，一种是仅使用句子级标注。

Tree-LSTM在LSTM的基础上加入了据发信息，可以解析句子内部的结构，若再融合先验情感信息，便可以使Tree-LSTM准确判别句子所表达的主要情感，例如在图3中，情感分布的预测由上而下，在左分支中，“the starring”为中性，“like the starring”为积极，“Though I like the starring”虽然为积极，但连词“Though”表明了该从句不能代表句子的整体情感；在右分支中，“wonderful movie”为积极，“it is a wonderful movie”仍为积极，“I don’t think it is a wonderful movie”转变为消极；由于连词“Though”表转折，且主句于从句情感极性相反，最后可以判断句子所表达的情感为消极。

图4(a)为图3中模型在节点P₂₂、P₂₄、P₂₅的情感状态细节示意图；图4(b)为图3中模型在节点P₁₅、P₁₇、P₂₁、P₂₃的情感状态细节示意图；图4(c)为图3中模型在节点P₁₄的情感状态细节示意图；柱状图中，横坐标中表示五种情感类别，“--”、“-”、“0”、“+”、“++”、分别表示非常消极、消极、中性、积极、非常积极，纵坐标表示每种情感的预测概率。

采用Glove向量作为词嵌入的初始设置，并且词嵌入通过随机梯度下降来更新，学习速率为 0.1，每个情感词的漂移向量以及用于否定词、程度副词、连词的变换矩阵根据情感信息设定先验值进行初始化；隐藏层的其他参数采用一致性初始化的方式，隐藏层表示的维度设置为300.采用梯度下降算法来训练模型，学习速率为0.1。

对融合情感信息的Tree-LSTM，当仅使用句子级标注时，损失函数中的α和β分别设置为0.5和 0.0001；当使用短语级标注时，损失函数中的α、α′和β分别设置为0.25、0.25和0.0001。训练模型时，MR数据集采用二八原则划分测试集和训练集，即80％的句子用来训练模型，20％的句子用来测试结果；SST数据集则采用其自带的划分方式，即70％的句子做训练集，10％的句子做验证集， 20％的句子做测试集。

模型在MR和SST数据集上的准确率如表1所示，其中带*号的为参考论文中的准确率，带# 号的为本实验中使用参考文献中共享的源代码或复现的代码得到的准确率。

表1

通过各模型的准确率可以直观地看出，无论是在MR数据集、短语级标注的SST数据集还是在句子级标注的SST数据集上，融合了情感信息的Tree-LSTM模型(Tree-LSTM-ILI)的准确率都是最高的。

实施例2

Tree-LSTM模型为二元Tree-LSTM，又被称为选区(constituency)Tree-LSTM；其模型结构如图1所示。选区Tree-LSTM的特点是，词语仅在叶节点输入，叶节点细胞不接受其它细胞的输出；每个根节点和子根节点都接收对应两个子节点的输出，隐藏层输入设置为0。

p_k＝softmax(Wh_k+b) (Ⅱ)

式(Ⅸ)中，p、q是情感标签l上的分布，C是标签的数量；

L_k2＝max(0,D_KL(p_k2||p_k22)-M) (Ⅹ)

(4)对步骤(2)预处理后的数据进行特征提取；对短文本的特征提取过程包括：Tree-LSTM 模型是句法分析树与LSTM结合的产物，模型结构如图1所示。Tree-LSTM模型细胞单元的输入个数不再是固定的，而与它的子节点(child node)数目有关，将Tree-LSTM的节点展开，以图1中节点1为例，其细胞结构如图2所示，可以看出Tree-LSTM细胞与LSTM细胞不同，对于节点1，它的细胞有两个遗忘门，因为它要接收两个子节点的细胞状态，并分别进行遗忘；用于更新细胞状态的备选信息u1也将有两个子节点的输出和当前节点的输入共同组成。而我们在Tree-LSTM的基础上融合了情感信息，通过改进后的模型能更好地获取有效信息，即短文本数据的语义特征及其所包含的情感特征。这种方法的优点是充分利用了文本中包含的情感信息，使模型可以提取到丰富的语义特征和情感特征。

(5)训练模型，将步骤(2)预处理后的数据打乱后，分成训练集和测试集，运用不放回的方式随机抽取训练集中的N条数据做训练，循环多次后，使用测试集的数据测试实验结果的准确性，最终得到实验结果。是指：采用交叉熵损失函数进行模型训练，转化为损失函数的最小值问题。损失函数主要有两部分构成，误差项和正则项。误差项用来表示神经网络对数据集的拟合程度，而正则项可以用来防止模型过拟合。由于我们通过正则化的方法改进了Tree-LSTM，标签增多，情感的信息量增大所以，本发明在模型中加入两个正则器，对应的损失函数如式(III)所示：

本实施例为融合情感信息的Tree-LSTM模型在监狱服刑人员短信上的实际应用；

将使用监狱提供的服刑人员发送的短信，这些短信是杂乱无章的，而且没有黄金标签，因此短信的预处理就显得至关重要。我们对短信的预处理分为三步，首先答题浏览一下短信的内容，对短信整体有一个概念；然后采用随机抽样的方式选取少量短信，分析短信内容的共性和个性，同时进行短信情感分布的人工标注；最后根据前两步总结的短信特点，将影响分类的噪声数据剔除，并扩大人工标注样本的范围。

根据短信的特点，将短信的情感黄金标签分为三类，积极。中性和消极，并从处理后的短信中水机抽取了三万条短信进行人工标注，其中，31％的情感极性为积极，16％的情感极性为消极，超过一半的短信为中性。造成这种分布情况的原因主要有两个，一方面是服刑人员发送短信不方便，需要在特定时间到专门发短信的电脑上编写短信；另一方面是监狱有针对短信的规定，短信内容应积极向上。

由于服刑人员的短信为中文，需要总结中文的情感词。否定词。程度副词和连词。我们使用的情感词典主要分为两部分，一部分来自《知网》情感分析词语集中的情感词；一部分是从短信中人工筛选出的偏口语化的情感词，因为短信有一定的口语化，所以口语化的情感词不可或缺。最终构成的情感词典共含有4673个非中性的情感词。否定词、程度副词和连词主要来自各个博客，少部分为人工添加。作为数据集的3万条短信中，没含有情感词的短信为1.82万条，含有否定词的短信为1.26万条，含有程度副词的短信为0.83万条，含有连词的短信为1.45万条。

使用融合情感信息的Tree-LSTM模型对短信进行情感分类，80％的短信用来训练模型，20％的短信用来验证准确率。由于短信为中文，相较于英文分类就多了一个步骤，那就是分词，分词是为了将句子划分成表达语义的更小单元，从而使模型更好地提取特征。我们使用的是结巴分词，并针对短信口语化的特点，根据短信内容在用户词典中增加了许多口语化的词语。

由于使用的模型中有树状结构，所以需要对短信进行句法分析，才能应用于树状模型。我们使用斯坦福句法分析器(Stanford Parser)对分此后的短信进行分析，将序列形式的短信转化为树状数据。模型词向量的初始化使用腾讯人工智能实验室的中文词向量。其他训练细节和参数设置于例 1相似。最终准确率可以达到67.5％。

Claims

1.一种基于Tree-LSTM和情感信息的短文本情感分类方法，其特征在于，包括步骤如下：

(1)构建四类情感信息词典；四类情感信息词典包括情感词典、否定词词典、程度副词词典和连词词典；

(2)数据预处理：对数据进行预处理，并确定每段文本包含的情感信息词及其位置信息；

(3)根据不同的情感信息词的作用改进Tree-LSTM模型；

(4)对步骤(2)预处理后的数据进行特征提取；

2.根据权利要求1所述的一种基于Tree-LSTM和情感信息的短文本情感分类方法，其特征在于，所述步骤(1)中，构建情感词典，是指：情感词典包括MPQA词典及SST数据集所有叶节点接收到的情感词，MPQA词典共有6732个单词，其中有6305个情感类词语，SST数据集的叶节点有22348个带有情感分布的词语，其中有9717个情感类词语，将MPQA词典的情感类词语及SST数据集的情感类词语进行去重整合后，得到包括13206个情感类词语的词典，即情感词典，且每一个词都有情感分布标签；

构建否定词词典、程度副词词典和连词词典，是指：采用人工统计的方式建立否定词词典、程度副词词典和连词词典。

3.根据权利要求1所述的一种基于Tree-LSTM和情感信息的短文本情感分类方法，其特征在于，所述步骤(2)中，数据预处理，包括步骤如下：

A、使用斯坦福句法分析器对短文本进行分析，将序列形式的短信转化为树状数据；然后通过训练词向量，将文本数据转化成数学数据，即将每一条文本中的词转换成一个词向量的表示；

词的属性是指词语在句子中起到的作用；词在句子中的位置特征是指情感词、否定词、程度副词和连词是句子的第几个词；每一条数据都由句子向量、极性、四类词的属性和位置构成；句子向量是由分完词后词语的词向量组合而成；句子极性作为标签为训练模型提供一个训练的目标；四类词的位置，就是一个句子分完词后得到的词语列表，四类词在列表中的位置。

4.根据权利要求1所述的一种基于Tree-LSTM和情感信息的短文本情感分类方法，其特征在于，所述步骤(3)中，根据不同的情感信息词的作用改进Tree-LSTM模型，是指：

Tree-LSTM模型为二元Tree-LSTM，又被称为选区Tree-LSTM；

根据四类词典划定了五种情况，即短文本中包含的词语分别为无情感信息词、情感词、否定词、程度副词、连词，将这五种情况的影响抽象成KL散度，利用正则化方法加入到Tree-LSTM模型的损失函数，从而将情感信息融入到神经网络中；

当二元Tree-LSTM应用于短语级标注的短文本时，二元Tree-LSTM的损失函数如式(I)、(II)所示：

p_k＝softmax(Wh_k+b) (II)

式(I)、(II)中，J(θ)是Tree-LSTM模型的总损失，是树状短文本i的情感黄金分布，y_i是Tree-LSTM模型预测的情感分布，m是树状短文本i中有标签的节点个数，是树状短文本i中k节点的情感黄金分布，k是树状短文本i的根节点，p_k是Tree-LSTM预测的k节点的情感分布，即k节点隐藏层的输出经过归一化的结果，softmax()是k节点隐藏层最后输出时的激活函数，W是k节点隐藏层激活函数的权重，h_k是k节点隐藏层的输出，b是k节点隐藏层优化函数的偏置项，β是加入的防止过拟合的正则器的正则化系数，θ是对应的参数向量；

在Tree-LSTM模型中加入两个正则器，对应的损失函数J’(θ)如式(III)所示：

式(III)中，L_k，i和L’_k，j是加入到树状短文本i中的两个正则器，正则器L_k，i与二元Tree-LSTM的正则器相似，正则器L’_k，j将利用根节点的标签，n是树状短文本i加入正则器L_k，i的数量，α和α’是两个正则器对应的权重；

当树状短文本i没有根节点的情感标签时，公式(I)、(III)中的m均为0，此时的二元Tree-LSTM应用于句子级标注的短文本情感分类的损失函数J‘’(θ)、加入正则器后的损失函数J‘’‘(θ)分别如式(IV)、式(V)所示：

式(IV)、(V)中，L_k，i是加入到树状短文本中的正则器，k是树状短文本的根节点，n是短文本i根节点的数量，α是正则器的权重。

5.根据权利要求1所述的一种基于Tree-LSTM和情感信息的短文本情感分类方法，其特征在于，Tree-LSTM模型中加入正则器的具体应用条件及各种条件下正则器的不同如下：

当子节点均为短语的节点时，根节点k1对应的两个正则器如式(VI)、(VII)、(VIII)所示：

式(VI)、(VII)、(VIII)中，M为边界超参，p_k1是节点k1的情感预测分布，是节点k1的情感黄金分布，为节点k1两个子节点k11、k12输出的加权和的归一化分布，p_k11和p_k12分别是子节点k11和k12的情感预测分布，W₁₁和W₁₂分别是p_k11和p_k12对应的权重矩阵，D_KL是对称KL散度，其定义如式(IX)所示：

式(IX)中，p、q是情感标签l上的分布，C是标签的数量；

当子节点为无情感信息词的节点时，设k21、k22为根节点k2的两个子节点，若k21是叶节点，输入为无情感信息词，k22是根节点或者输入为无情感信息词的叶节点，那么，根节点k2的情感预测分布与子节点k22的情感预测分布相同；当根节点k2有情感黄金分布时，子节点k22的情感预测分布也向该情感黄金分布靠拢，则根节点k2的两个正则器L_k2、L′_k2如式(X)、式(XI)所示：

L_k2＝max(0，D_KL(p_k2||p_k22)-M)(X)

式(X)、式(XI)中，p_k2是根节点k2的情感预测分布，是节点k2的情感黄金分布，p_k22分别是子节点k22的情感预测分布，M为边界超参；

当子节点为情感词的节点时，设k31、k32为根节点k3的两个子节点，如果子节点k31是叶节点，其输入为情感词x_k31，另一节点k32是根节点或者是输入为无情感信息词的叶节点，那么，根节点k3的情感预测分布在子节点k32情感预测分布的基础上进行情感漂移，当根节点k3有情感黄金分布时，子节点k32的情感预测分布与该情感黄金分布相差一个情感漂移分布，此时，根节点k3的两个正则器L_k3、L′_k3分别如式(XII)、式(XIII)所示：

式(XII)、式(XIII)中，p_k3是根节点k3的情感预测分布，是根节点k3的情感黄金分布，是子节点k32进行情感漂移后的预测分布，是情感词x_k31的情感漂移分布；

式(XIV)、式(XV)中，是子节点k42进行情感变换后的预测分布，是否定词x_k41的情感变换矩阵；

当子节点为程度副词的节点时，设k51、k52为根节点k5的两个子节点，如果子节点k51是叶节点，其输入为程度副词x_k51，另一子节点k52是根节点或者是输入为无情感信息词的叶节点，那么，根节点k5的情感预测分布应在子节点k52情感预测分布的基础上进行情感变换，当根节点k5有情感黄金分布时，节点子k52的情感预测分布与该情感黄金分布应相差一个程度副词的变化矩阵；此时，根节点k5的两个正则器L_k5、L′_k5分别如式(XVI)、式(XVII)所示：

式(XVI)、式(XVII)中，是子节点k52进行情感变换后的预测分布，是程度副词x_k51的情感变换矩阵；

当子节点为连词的节点时，设k61、k62为根节点k6的两个子节点，如果子节点k61是叶节点，其输入为连词x_k61，另一子节点k62是根节点或者是输入为无情感信息词的叶节点，那么，根节点k6的情感预测分布应在子节点k62情感预测分布的基础上进行情感变换，当根节点k6有情感黄金分布时，子节点k62的情感预测分布与该情感黄金分布应相差一个连词的变化矩阵；此时，根节点k6的两个正则器L_k6、L′_k6分别如式(XVIII)、式(XIX)所示：

式(XVIII)、式(XIX)中，是子节点k62进行情感变换后的预测分布，是连词x_k61的情感变换矩阵；

当子节点均为情感信息词的节点时，将情感词x_k71、x_k72对根节点k7的影响交给Tree-LSTM模型去处理，根节点k7对应的两个正则器L_k7、L′_k7分别如式(XX)、式(XXI)所示：

式(XX)、式(XXI)中，pk7是根节点k7的情感预测分布，是根节点k7的情感黄金分布，为情感词x_k71的情感漂移分布，为情感词x_k72的情感漂移分布，W₇₁、W₇₂分别为子节点k71、k72变换矩阵的权重，节点k71、k72为叶节点，无其它影响情感的输入，情感词x_k71、x_k72的情感漂移分布就代表了节点k71、k72的情感分布；

式(XXII)、式(XXIII)中，为子节点k81受情感信息词x_k82影响后的情感预测分布，为情感词x_k81的情感漂移分布，为情感信息词x_k82的变换矩阵，为否定词、程度副词或连词的变换矩阵。

6.根据权利要求1-5任一所述的一种基于Tree-LSTM和情感信息的短文本情感分类方法，其特征在于，所述步骤(5)中，训练模型，是指：采用交叉熵损失函数进行模型训练，转化为损失函数的最小值问题。