CN110502753A

CN110502753A - 一种基于语义增强的深度学习情感分析模型及其分析方法

Info

Publication number: CN110502753A
Application number: CN201910783374.8A
Authority: CN
Inventors: 李卫疆; 漆芳
Original assignee: Kunming University of Science and Technology
Current assignee: Kunming University of Science and Technology
Priority date: 2019-08-23
Filing date: 2019-08-23
Publication date: 2019-11-26

Abstract

本发明公开了一种基于语义增强的深度学习情感分析模型，所述模型由六个层构成，从下到上依次为词嵌入层、情感语义增强层、CNN卷积采样层、池化层、LSTM层和情感分类层；词嵌入层将句子的词转成低维度词向量；情感语义增强层用来增强模型的情感语义；CNN卷积采样层用于自动提取词特征；池化层用于降低特征向量的维度；LSTM层用来捕捉语句中长距离依赖关系，记忆长时依赖的序列化信息；情感分类层采用Softmax进行情感分类。本发明加入LSTM层，可以提高情感分析的精确率，同时又加入了情感语义增强层，增强了模型的情感语义，提高了情感分析效果；本发明还公开了一种基于深度学习情感分析模型的情感分析方法，可以提高中文短文情感分析的准确率。

Description

一种基于语义增强的深度学习情感分析模型及其分析方法

技术领域

本发明涉及自然语言处理和深度学习技术领域，特别涉及一种基于语义增强的深度学习情感分析模型及其分析方法。

背景技术

情感分析，也称为“意见挖掘”，致力于对文本中表达的思想和情感的计算研究。它包括预测文本中表达的观点是正面的还是负面。在传统的情感分析方法中，基于词典的方法受制于词典的覆盖率，取决于情感词典的质量和判断规则，这些都需要人工设计。判断规则的设计需要手动分析数据集中注释语句的句法结构。因此，这些方法的优点在很大程度上取决于手工设计和先验知识，而且推广能力很差。基于机器学习的方法则依赖于特征的设计。近年来深度学习在情感分析任务上表现良好。

现在，深度学习应用到了自然语言处理(NLP)领域的各个任务中，与传统的机器学习方法相比已经取得了良好的结果。深度神经网络的表达能力具有质的飞跃，不受摆特征工程的限制，并且不需要手动进行大量的特征提取，就能得到文本高层情感语义表达，有效提升了模型的推广能力。但是中文存在一词多义、假话反说，一句话还存在情绪转折，明夸暗贬等；最终会导致情感分析不精确。

发明内容

本发明提出一种基于语义增强的深度学习情感分析模型及其分析方法，旨在解决基于词典和统计机器学习方法复杂的特征工程和人工工程的问题，同时，它可以提高中文短文情感分析的准确率。

本发明的上述技术目的是通过以下技术方案实现的：

一种基于语义增强的深度学习情感分析模型，所述模型由六个层构成，从下到上依次为词嵌入层、情感语义增强层、CNN卷积采样层、池化层、LSTM层、情感分类层；所述词嵌入层将句子的词转成低维度词向量；所述情感语义增强层用来增强模型的情感语义；所述CNN卷积采样层用于自动提取词特征；所述池化层用于降低特征向量的维度；所述LSTM层用来捕捉语句中长距离依赖关系，记忆长时依赖的序列化信息；所述情感分类层采用Softmax进行情感分类。

进一步地，所述词嵌入层是由中文文本数据集组成，所述中文文本数据集通过已训练好的Word2vec将文本数据集和表情符号转成词向量；每一列为一个词向量并用x_j(1<j<k)表示，每条微博为一行输入Word2Vec学习词向量；所述词嵌入层通过新浪微博的API接口，从随机收集的2013年到2017年大约2000万条微博文本中，学习得到一个W词向量列表；所述词嵌入层采用word2Vec工具中的Skip-gram模型进行词向量的预训练。

进一步地，所述中文文本数据集是经过预处理后的文本数据集,包括分词和去停用词；所述分词和去停用词使用的是哈工大分词工具和哈工大停用词表，以使其分词结果成为基本语言单位。

进一步地，所述情感语义增强层将表情符号保存在微博数据集中，并允许表情符号参与情感分析。

进一步地，当微博表情符号进行文本预处理时，表情符号被转换成文本格式，便于转换为向量。

进一步地，在情感分析中使用表情符号之前，需要使用表情符号的文本格式的向量来构建情感空间。

进一步地，所述CNN卷积采样层对词向量进行卷积运算，抽取高维特征，把卷积看成作用于矩阵的一个滑动窗口函数，滑动窗口又称作核，在本发明中统一为卷积核；

其中，卷积核为：f＝[f₁+f₂…f_n]，则在卷积之后的特征为

s＝[s₁+s₂+…s_l]；

其中，

在公式中，f(.)是非线性激活函数，r^f是卷积特征矩阵，b为偏移项；

所述池化层用于对在卷积层之后得到的高维特征向量执行下采样(降维)，用于压缩数据量和参数，减小过拟合；

其中，对特征矩阵r^f执行最大化下采样，获取每个维度上的最大值，运算公式如下：

其中，m表示卷积核的个数,i为第i个卷积核。

进一步地，所述LSTM层采用单向LSTM网络，所述LSTM层是对循环神经网络(recurrent neural network，RNN)的改进，是为了解决RNN网络模型训练过程中梯度消失的问题，单向LSTM网络可以学习句子中词语长距离的依赖性；

所述单向LSTM网络通过记忆单元存储句子的重要特征信息，并且选择遗忘不重要的信息；每个单向LSTM网络神经包含核心元素Cell和三个门单元，其中f为遗忘门，i为更新门，O为输出门；

遗忘门:是单向LSTM网络的第一步，以决定从记忆单元中遗忘哪些信息：其中，h_t-1是上一个cell的输出，x_t为当前细胞的输入，σ(·)为sigmoid激励函数,w_f为遗忘门权重矩阵，b_f为遗忘门偏置项；

更新门:用于决定在下一步中添加到Cell状态的新的信息量，包括两个步骤：

首先，一个称为“input gate layer”的sigmoid激励函数层决定需要更新哪些信息；tanh层生成一个向量，这是备选更新的替代内容，在下一步，把这两部分联合以更新Cell的状态,运算公式如下:

i_t＝σ(w_i[h_t-1，x_t]+b_i)

然后，w_i为更新门权重矩阵，b_i为遗忘门偏移项,c_t为更新后的细胞；

输出门:细胞状态由tanh处理(得到一个介于-1到1之间的值)并乘以sigmoid门的输出，然后输出,运算公式如下:

O_t＝σ(w_o[h_t-1，x_t]+b_o)

O_t＝σ(w_o[h_t-1,x_t]+b_o)h_t＝o_t*tanh(c_t)。

进一步地，所述情感分类层对前一层的输出向量进行非线性函数g变换后，完全连接到一个softmax回归层，它返回概率最大的类即：

其中w_j表示类j的权重向量，从中产生具有输入的点积，以及a_j是j类的偏差。

一种基于深度学习情感分析模型的情感分析方法，其特征在于：所述基于深度学习情感分析模型为上述任意一项所述的情感分析模型，所述情感分析方法包括以下步骤：

S1，读取微博短文本词序列，查询词向量列表W，转成词向量；

S2，将文本内容、表情符号进行词向量矩阵拼接生成情感语义增强矩阵；

S3，对通过非线性激活函数得到的特征向量进行CNN卷积；

S4，对卷积后的特征矩阵执行最大化采样；

S5，将处理后的特征送入序列LSTM层；

S6，使用Softmax返回的概率进行情感分析。

与现有技术相比，本发明具有以下有益效果：

本发明采用了基于神经网络的系统，可以有效的解决复杂的特征工程和多余手工工作；本发明的CNN可以自动抽取特征，LSTM可以记忆句中长时依赖关系；同时，本发明还采用了语义增强来捕获句子中最重要的情感语义信息，这个方法不会采用任何来源于词典资源或者NLP系统的特征，可以在不用额外的知识库和NLP工具，增强模型捕捉情感语义的能力，并且充分利用无标注数据集和标注数据集，突出了情感特征，提高了分类效果。具体来说，为达到以上技术目的，本发明需要实施以下步骤：输入微博短文本数据(可含表情符号)，通过之前已预训练好的Word2vec将短文本(可含表情符号)转成词向量；将短文本词向量与表情符号向量进行拼接增强情感语义,将词向量送入CNN进行卷积，获取高维特征；使用池化对通过卷积得到的高维特征向量进行降采样，降低词向量维度；将池化后的向量送入LSTM层以获得输出向量；最后将向量送入Softmax分类，得到目标分类。

附图说明

图1是本发明的情感分析模型的结构图；

图2是本发明的情感分析方法的流程图；

图3是本发明的LSTM层的网络图。

具体实施方式

以下结合附图对本发明作进一步详细说明。

一种基于语义增强的深度学习情感分析模型，如图1所示，所述模型由六个层构成，从下到上依次为词嵌入层、情感语义增强层、CNN卷积采样层、池化层、LSTM层、情感分类层；所述词嵌入层将句子的词转成低维度词向量；所述情感语义增强层用来增强模型的情感语义；所述CNN卷积采样层用于自动提取词特征；所述池化层用于降低特征向量的维度；所述LSTM层用来捕捉语句中长距离依赖关系，记忆长时依赖的序列化信息；所述情感分类层采用Softmax进行情感分类。

具体地，所述词嵌入层是由中文文本数据集组成，所述中文文本数据集通过已训练好的Word2vec将文本数据集和表情符号转成词向量；每一列为一个词向量并用x_j(1<j<k)表示，每条微博为一行输入Word2Vec学习词向量；所述词嵌入层通过新浪微博的API接口，从随机收集的2013年到2017年大约2000万条微博文本中，学习得到一个W词向量列表；所述词嵌入层采用word2Vec工具中的Skip-gram模型进行词向量的预训练。

词嵌入是一组语言模型和自然语言处理中特征学习技术的总称，词汇中的单词(也可能是短语)被映射到相对于词汇量(连续空间)大小的低维空间的实数向量；word2vec模型是一个浅层和双层的神经网络，用于训练重建语言之词文本；训练完成后，word2vec模型可用于将每个单词映射到一个向量，可用来表示词和词之间的关系，该向量为神经网络的隐藏层；word2vec模型一般分为CBOW与Skip-Gram两种模型；CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量，而输出就是这特定的一个词的词向量；Skip-Gram模型和CBOW的思路是反着来的，即输入是特定的一个词的词向量，而输出是特定词对应的上下文词向量。本发明采用Skip-gram模型进行词向量的预训练，采用默认的参数设置。假设将一条微博s输入到模型中，微博内容经过文本预处理后，得到一个词序列，包括k个词：w₁,w₂,…,w_k,然后通过已训练好的Word2Vec，查询词向量列表W以获得对应的词向量。x₁,x₂,…,x_k。从而将语句s＝<w₁,w₂,…,w_k>转化为<x₁,x₂,…,x_k>。

所述中文文本数据集是经过预处理后的文本数据集,包括分词和去停用词；所述分词和去停用词使用的是哈工大分词工具和哈工大停用词表，以使其分词结果成为基本语言单位。例如：在模型中输入微博s，微博内容经过文本预处理后，得到一个词序列，包括k个词：w₁,w₂,…,w_k,然后通过已训练好的Word2Vec，查询词向量列表W以获得相应的词向量x₁,x₂,…,x_k。从而将语句s＝[w₁,w₂,…,w_k]转化为[x₁,x₂,…,x_k]。最后，微博通过训练好的Word2Vec获得一个二维的词向量矩阵R。

具体地，所述情感语义增强层将表情符号保存在微博数据集中，并允许表情符号参与情感分析。优选地，当微博表情符号进行文本预处理时，表情符号被转换成文本格式，便于转换为向量；在情感分析中使用表情符号之前，需要使用表情符号的文本格式的向量来构建情感空间。例如，微博里表情符号“掉眼泪”的文本格式为“[伤心]”，即使用括号和文字来表达表情符号的语义；让表情符号参与情感分析，增强模型的情感语义，需要使用表情符号的词向量通过已经训练好的Word2Vec构建情感空间，之后将文本词向量R^M与表情符号的情感空间向量R^E进行拼接，产生一个带有情感语义的d维矩阵X∈R^d×n，n＝k+1，k个文本词和一个表情符号。

具体地，所述CNN卷积采样层对词向量进行卷积运算，抽取高维特征，把卷积看成作用于矩阵的一个滑动窗口函数，滑动窗口又称作核，在本发明中统一为卷积核；

其中，卷积核为：f＝[f₁+f₂…f_n]，则在卷积之后的特征为

s＝[s₁+s₂+…s_l]；

其中，

CNN卷积采样层在矩阵X上应用一组长度为H的m个卷积核，这些卷积核是在神经网络的训练阶段学习的。

其中，m表示卷积核的个数,i为第i个卷积核。

具体地，所述LSTM层采用单向LSTM网络，所述LSTM层是对循环神经网络(recurrent neural network，RNN)的改进，是为了解决RNN网络模型训练过程中梯度消失的问题，单向LSTM网络可以学习句子中词语长距离的依赖性；

如图3所示，所述单向LSTM网络通过记忆单元存储句子的重要特征信息，并且选择遗忘不重要的信息；每个单向LSTM网络神经包含核心元素Cell和三个门单元，其中f为遗忘门，i为更新门，O为输出门；

i_t＝σ(w_i[h_t-1，x_t]+b_i)

O_t＝σ(w_o[h_t-1，x_t]+b_o)

O_t＝σ(w_o[h_t-1,x_t]+b_o)h_t＝o_t*tanh(c_t)。

具体地，所述情感分类层对前一层的输出向量进行非线性函数g变换后，完全连接到一个softmax回归层，它返回概率最大的类即：

一种基于深度学习情感分析模型的情感分析方法，如图2所示，所述基于深度学习情感分析模型为上述任意一项所述的情感分析模型，所述情感分析方法包括以下步骤：

S3，对通过非线性激活函数得到的特征向量进行CNN卷积；

S4，对卷积后的特征矩阵执行最大化采样；

S5，将处理后的特征送入序列LSTM层；

S6，使用Softmax返回的概率进行情感分析。

在步骤S1中，在读取微博短文本的同时将短文本通过已训练好的Word2Vec转成词向量R^M；微博短文本中的表情符号由Word2Vec转换成为向量R^E。

在步骤S2中，一条微博通过已训练好的Word2Vec，文本内容与文本表情符号进行拼接产生一个带有情感语义的d维矩阵X∈R^d×n，n＝k+1，k个文本词和一个表情符号。

在步骤S3中，对词向量X线性加权并通过非线性激活函数得到特征向量，然后对这些特征向量进行卷积；使用不同的卷积核可以提取不同的特征；卷积层的输出通过非线性激活函数，然后进入池化层。

在步骤S4中，对步骤S3卷积后的特征矩阵r^f执行最大化下采样，本发明采用的是最大池化，即获取每个维度上的最大值x_i进行输出。

在步骤S5中，将池化后的特征经过一个非线性激活函数处理，将其处理后的特征表示为p＝[p₁,p₂,…,p_m]，其中，m为卷积核的数量；将P送入序列LSTM层。

在步骤S6中，对步骤S5的输出向量进行非线性函数g变换，以获得向量y，完全连接到一个softmax回归层，它返回概率最大的类即：

本发明采用无监督的方法分析文本的情感，不需要人工参与，降低成本；增加的语义增强来捕获句子中最重要的情感语义信息，这个方法不会采用任何来源于词典资源或者NLP系统的特征；语义增强可以在不用额外的知识库和NLP工具，提高了分析准确率。本发明的基于语义增强的深度学习模型情感分析方法可以根据文本中的情感词的情感得分确定该文本的情感强度，进一步地，本发明考虑了文本语句中长距离依赖关系，使用LSTM记忆长时依赖的序列化信息，从而使该文本的情感强度更准确。

本发明涉及情感分析的核心问题,情感分类，其目标是判断文本中的情感取向。按区分情感的粒度可分成2种分类问题：1)二分类，积极/消极(pos/neg)或者三分类，积极/中立/消极(pos/neu/neg)；2)多分类，例如，对微博进行“乐观”、“悲伤”、“愤怒”、“惊讶”四元情感分类等。

针对上述分类问题，与传统的基于词典的方法和基于机器学习方法相比，深度神经网络的表达能力具有质的飞跃，摆脱了特征工程的束缚，不需要手工进行大量的特征提取，并利用语义合成原理，通过不同的深度模型将低层词向量合成为高层文本情感语义特征向量。从而，获得文本的高层次情感语义表达，有效地提高了模型的推广能力。

本具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

Claims

1.一种基于语义增强的深度学习情感分析模型，其特征在于：所述模型由六个层构成，从下到上依次为词嵌入层、情感语义增强层、CNN卷积采样层、池化层、LSTM层、情感分类层；所述词嵌入层将句子的词转成低维度词向量；所述情感语义增强层用来增强模型的情感语义；所述CNN卷积采样层用于自动提取词特征；所述池化层用于降低特征向量的维度；所述LSTM层用来捕捉语句中长距离依赖关系，记忆长时依赖的序列化信息；所述情感分类层采用Softmax进行情感分类。

2.根据权利要求1所述的一种基于语义增强的深度学习情感分析模型，其特征在于：所述词嵌入层是由中文文本数据集组成，所述中文文本数据集通过已训练好的Word2vec将文本数据集和表情符号转成词向量；每一列为一个词向量并用x_j(1<j<k)表示，每条微博为一行输入Word2Vec学习词向量；所述词嵌入层通过新浪微博的API接口，从随机收集的2013年到2017年大约2000万条微博文本中，学习得到一个W词向量列表；所述词嵌入层采用word2Vec工具中的Skip-gram模型进行词向量的预训练。

3.根据权利要求2所述的一种基于语义增强的深度学习情感分析模型，其特征在于：所述中文文本数据集是经过预处理后的文本数据集,包括分词和去停用词；所述分词和去停用词使用的是哈工大分词工具和哈工大停用词表，以使其分词结果成为基本语言单位。

4.根据权利要求2所述的一种基于语义增强的深度学习情感分析模型，其特征在于：所述情感语义增强层将表情符号保存在微博数据集中，并允许表情符号参与情感分析。

5.根据权利要求2所述的一种基于语义增强的深度学习情感分析模型，其特征在于：当微博表情符号进行文本预处理时，表情符号被转换成文本格式，便于转换为向量。

6.根据权利要求2所述的一种基于语义增强的深度学习情感分析模型，其特征在于：在情感分析中使用表情符号之前，需要使用表情符号的文本格式的向量来构建情感空间。

7.根据权利要求2所述的一种基于语义增强的深度学习情感分析模型，其特征在于：所述CNN卷积采样层对词向量进行卷积运算，抽取高维特征，把卷积看成作用于矩阵的一个滑动窗口函数，滑动窗口又称作核，在本发明中统一为卷积核；

其中，卷积核为：f＝[f₁+f₂…f_n]，则在卷积之后的特征为

s＝[s₁+s₂+…s_l]；

其中，

其中，m表示卷积核的个数,i为第i个卷积核。

8.根据权利要求2所述的一种基于语义增强的深度学习情感分析模型，其特征在于：所述LSTM层采用单向LSTM网络，所述LSTM层是对循环神经网络(recurrent neural network，RNN)的改进，是为了解决RNN网络模型训练过程中梯度消失的问题，单向LSTM网络可以学习句子中词语长距离的依赖性；

i_t＝σ(w_i[h_t-1，x_t]+b_i)

O_t＝σ(w_o[h_t-1，x_t]+b_o)

h_t＝o_t*tanh(c_t)

O_t＝σ(w_o[h_t-1,x_t]+b_o)。

9.根据权利要求2所述的一种基于语义增强的深度学习情感分析模型，其特征在于：所述情感分类层对前一层的输出向量进行非线性函数g变换后，完全连接到一个softmax回归层，它返回概率最大的类即：

10.一种基于深度学习情感分析模型的情感分析方法，其特征在于：所述基于深度学习情感分析模型为权利要求1-9任意一项所述的情感分析模型，所述情感分析方法包括以下步骤：

S3，对通过非线性激活函数得到的特征向量进行CNN卷积；

S4，对卷积后的特征矩阵执行最大化采样；

S5，将处理后的特征送入序列LSTM层；

S6，使用Softmax返回的概率进行情感分析。