CN114625908A

CN114625908A - 基于多通道注意力机制的文本表情包情感分析方法及系统

Info

Publication number: CN114625908A
Application number: CN202210301316.9A
Authority: CN
Inventors: 林炜; 郭雪; 韩思宇; 郭强; 李茂毅
Original assignee: Chengdu College of University of Electronic Science and Technology of China
Current assignee: Chengdu College of University of Electronic Science and Technology of China
Priority date: 2022-03-24
Filing date: 2022-03-24
Publication date: 2022-06-14

Abstract

本发明公开了一种基于多通道注意力机制的文本表情包情感分析方法，属于情感分析分类技术领域，包括如下步骤：获取表情图片文本数据集；构建并训练图像情感特征提取网络、图像文本情感特征提取网络和主干文本处理网络；基于表情图片文本数据集，得到表情图片数据集、图片文本情感数据集和主干文本数据集；得到若干组图像情感特征、图像文本情感特征和主干文本特征；将各组图像情感特征、图像文本情感特征和主干文本特征拼接后输入分类器进行情感分类，得到对应的情感类型分类结果；本方案解决了针对当下表情包和文本交替出现或同时出现的情况难以实现情感正确分类的问题。

Description

基于多通道注意力机制的文本表情包情感分析方法及系统

技术领域

本发明属于情感分析分类技术领域，尤其涉及一种基于多通道注意力机制的文本表情包情感分析方法及系统。

背景技术

为了挖掘出文本发出者的情感和观点，利用机器学习的方法对于自然语言进行处理成为了一个研究方向，在初期，文本的情感处理是通过传统机器学习的方式通过构造分类器的方法实现，例如，利用传统机器学的方法进行文本情感分类，使用了朴素贝叶斯(Native Bayes，NB)和支持向量机(Support Vector Machine，SVM)等算法。近些年随着计算机硬件以及计算机网络的发展，深度学习的方法逐渐成为解决文本情感分类问题的主流方法，与传统机器学习不同的是深度学习网络可以通过构建神经网络结构模型在训练的过程中自动提取文本特征，从而达到挖掘文本更深的情感的目的。现有技术利用CNN模型进行文本情感分析，得到了74.50％的准确率，也实现了处理不同序列长度的短句，并解决了循环神经网络(Recurrent Neural Network，RNN)只能处理短期依赖，而无法解决长期依赖的问题。

文本情感分析任务已经从利用传统机器学习方式逐步转变为深度学习为核心方式，同时随着互联网文化的发展，人们在使用文字传递情感的过程中，通常会附加表情图片，表情图片能够更加简洁更加生动的描绘出文本发出者的情感以及意图，虽然表情包的加入使得文本情感能够更加简单确切地被文本接收者所理解，但是对于计算机来说却无法再用传统的文本情感分析方式准确分析出文本承载的情感，因为单纯分析文本会遗漏掉表情图片表达的信息，同时表情图片与文本结合后有极大的概率影响文本含义甚至导致与纯文本情感相反，

发明内容

针对现有技术中的上述不足，本发明提供基于多通道注意力机制的文本表情包情感分析方法及系统，结合文本与表情图片的多通道注意力机制，解决了针对当下表情包和文本交替出现或同时出现的情况难以实现情感正确分类的问题。

为了达到上述发明目的，本发明采用的技术方案为：

本发明提供的一种基于多通道注意力机制的文本表情包情感分析方法及系统，其特征在于，包括如下步骤：

S1、获取表情图片文本数据集；

S2、分别构建图像情感特征提取网络、图像文本情感特征提取网络和主干文本处理网络，并分别对图像情感特征提取网络、图像文本情感特征提取网络和主干文本处理网络进行训练；

S3、基于表情图片文本数据集将其中各附带表情图片的文本数据聚类分割，分别得到表情图片数据集、图片文本情感数据集和主干文本数据集；

S4、分别将表情图片数据集和图片文本情感数据集一一对应输入图像情感特征提取网络和图像文本情感特征提取网络，并将主干文本数据集输入主干文本处理网络，分别得到若干组图像情感特征、图像文本情感特征和主干文本特征；

S5、将各组图像情感特征、图像文本情感特征和主干文本特征拼接后输入分类器进行情感分类，得到对应的情感类型分类结果。

本发明的有益效果为：本发明提供的基于多通道注意力机制的文本表情包情感分析方法采用了词嵌入特征和词性特征的多特征融合方式，对表情图片以及表情图片中的文本信息利用构建并训练完成的图像情感特征提取网络、图像文本情感特征提取网络和主干文本处理网络进行特征提取，最后将获取的表情图片、图片文本情感和主干文本三种信息融合作为特征进行分类，实现对具有表情包的文本情感分析。

进一步地，所述图像情感特征提取网络包括依次连接的表情图片输入层、第一卷积层、第二卷积层、第一池化层、第一dropout层、第一展平层、第一全连接层和图像情感特征输出层；

所述图像文本情感特征提取网络包括依次连接的图像文本情感输入层、第三卷积层、第四卷积层、第二池化层、第二dropout层、第二展平层、第二全连接层、第三全连接层和图像文本情感特征输出层；

所述主干文本处理网络包括依次连接的第一主干文本输入层、第五卷积层、第六卷积层、第三池化层、第三dropout层、第三展平层、第二主干文本输入层、BiLstm层、第四全连接层、注意力机制模块、第五全连接层、第四展平层、拼接层和主干文本特征输出层；

所述第一主干文本输入层、第五卷积层、第六卷积层、第三池化层、第三dropout层和第三展平层依次连接，构成词性特征提取子系统；所述第二主干文本输入层、BiLstm层、第四全连接层、注意力机制模块、第五全连接层和第四展平层依次连接；所述第三展平层和第四展平层均与拼接层连接，构成时序信息特征提取子系统；所述拼接层与主干文本特征输出层连接；

所述词性特征提取子系统与时序信息特征提取子系统并行的结构。

采用上述进一步方案的有益效果为：构建图像情感特征提取网络、图像文本情感特征提取网络和主干文本处理网络分别对表情图片数据集、图片文本情感数据集和主干文本数据集进行特征提取，得到若干组图像情感特征、图像文本情感特征和主干文本特征，并利用词性特征提取子系统与时序信息特征提取子系统并行的结构实现对主干文本中情感词汇的准确特征提取。

进一步地，所述得到主干文本特征包括以下步骤：

利用词性特征提取子系统提取主干文本数据集中各类词的词性；

利用时序信息特征提取子系统提取主干文本数据集中主干文本的上下文特征；

通过注意力机制模块对主干文本中的情感词加权，得到主干文本特征。

采用上述进一步方案的有益效果为：提供通过提取词性、上下文特征和通过注意力机制模块进行情感词加权得到主干文本特征的方法。

进一步地，所述得到图片文本情感数据集，其具体为：

将表情图片文本数据集通过K-Means聚类算法进行图像颜色聚类；

对已经图像颜色聚类的表情图片文本数据集进行边缘分割；

根据边缘分割结构利用sobel算子提取图像情感，得到图片文本情感数据集。

采用上述进一步方案的有益效果为：单独采用边缘提取算子进行提取操作在实际应用中的效果并不佳，通过颜色聚类结合边缘特征分割的方式能够有效获取图像情感特征。

进一步地，所述主干文本数据集输入主干文本处理网络前包括以下步骤：

将高维词向量嵌入到低维空间；

通过词性标注和拼接，得到主干文本矩阵X；

X＝[x_w,x_p]

其中，x_w表示词嵌入矩阵，x_p表示词性矩阵。

采用上述进一步方案的有益效果为：通过应用词性特征相结合的方式来使得特征包含的信息更加丰富，词嵌入能够在任务中获取更好的效果，将高维词向量嵌入到低维空间，同时在分词的基础上通过词性标注的方式判断每个词在主干文本中的词性，能够有效消除歧义，将词嵌入的词向量和词性向量拼接为主干文本矩阵。

进一步地，所述BiLstm层的计算表达式如下：

i_t＝σ(W_i[h_t-1,x_t]+b_i)

f_t＝σ(W_f[h_t-1,x_t]+b_f)

O_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝O_t⊙tanhC_t

其中，i_t表示t时刻的输入门控，σ表示激活函数sigmoid，W_i表示输入门控的权重向量，h_t-1表示t-1时刻的隐层输出，x_t表示t时刻的输入，b_i表示输入门控的偏置，f_t表示t时刻的遗忘门控，W_f表示遗忘门控的权重向量，b_f表示遗忘门控的偏置，

表示t时刻临时记忆单元状态，tanh表示激活函数tanh，W_c表示输出门控的权重向量，b_c表示输出门控的偏置，c_t表示t时刻记忆单元状态，⊙表示表示向量乘积运算，c_t-1表示t-1时刻记忆单元状态，O_t表示t时刻的输出门控，W_o表示该层连接对应的权重，b_o表示该层连接对应的偏置，h_t表示t时刻的隐层输出。

采用上述进一步方案的有益效果为：自然语言的语序以及上下文关联能够起到确定文本情感类型的作用，利用双向长短期记忆神经网络通过从前至后和从后至前两种方式运行输入能够更加细致地学习到主干文本的上下文关系。

进一步地，所述注意力机制模块的计算表达式如下：

其中，a_i表示选择第i个输入向量x_i的注意力分布，z表示注意力变量，q表示查询向量，softmax表示softmax分类器，s(xi,q)表示打分函数，j表示第j个打分结果exp(s(x_i,q))的指数值，N表示打分结果的总数，att(X,q)表示主干文本矩阵X的加权平均值。

采用上述进一步方案的有益效果为：通过注意力机制模块对主干文本矩阵中的向量进行注意力分布加权，可以有效提升情感词汇的受关注程度，有效增加本方案的情感识别精度。

本发明还提供一种基于多通道长短期记忆网络的情感分析方法的系统，包括：

获取模块，用于获取具备包括分类标签的表情图片的文本，构成表情图片文本数据集；

构建及训练模块，用于构建图像情感特征提取网络、图像文本情感特征提取网络和主干文本处理网络，并对图像情感特征提取网络、图像文本情感特征提取网络和主干文本处理网络进行训练；

聚类分割模块，用于基于表情图片文本数据集将各附带表情图片的文本数据聚类分割，得到表情图片数据集、图片文本情感数据集和主干文本数据集；

特征提取模块，用于分别将表情图片数据集和图片文本情感数据集对应输入图像情感特征提取网络和图像文本情感特征提取网络，并将主干文本数据集输入主干文本处理网络，得到若干组图像情感特征、图像文本情感特征和主干文本特征；

情感分类模块，用于将各组图像情感特征、图像文本情感特征和主干文本特征拼接后输入分类器进行情感分类，得到对应的情感类型分类结果。

本发明的有益效果为：本方案提供的一种基于多通道长短期记忆网络的情感分析方法的系统为上述基于多通道注意力机制的文本表情包情感分析方法对应设置的系统，用于实现基于多通道注意力机制的文本表情包情感分析方法，完成对附带表情图片的文本数据情感分析。

附图说明

图1为本发明实施例中基于多通道注意力机制的文本表情包情感分析方法的步骤流程图。

图2为本发明实施例中图像情感特征提取网络的结构图。

图3为本发明实施例中图像文本情感特征提取网络的结构图。

图4为本发明实施例中主干文本处理网络的结构图。

图5为本发明实施例中基于多通道注意力机制的文本表情包情感分析方法的示意图。

图6为本发明实施例中基于多通道长短期记忆网络的情感分析方法的系统的框图。

图7为本发明实施例中三种模型10次试验的准确率比较示意图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

实施例1

如图1所示，在本发明的一个实施例中，本发明提供一种基于多通道注意力机制的文本表情包情感分析方法，包括如下步骤：

S1、获取表情图片文本数据集；

如图2所示，所述图像情感特征提取网络包括依次连接的表情图片输入层、第一卷积层、第二卷积层、第一池化层、第一dropout层、第一展平层、第一全连接层和图像情感特征输出层；

如图3所示，所述图像文本情感特征提取网络包括依次连接的图像文本情感输入层、第三卷积层、第四卷积层、第二池化层、第二dropout层、第二展平层、第二全连接层、第三全连接层和图像文本情感特征输出层；

如图4所示，所述第一主干文本输入层、第五卷积层、第六卷积层、第三池化层、第三dropout层和第三展平层依次连接，构成词性特征提取子系统；所述第二主干文本输入层、BiLstm层、第四全连接层、注意力机制模块、第五全连接层和第四展平层依次连接；所述第三展平层和第四展平层均与拼接层连接，构成时序信息特征提取子系统；所述拼接层与主干文本特征输出层连接；

S3、基于表情图片文本数据集将其中各附带表情图片的文本数据聚类分割，分别得到表情图片数据集、图片文本情感数据集和主干文本数据集，如图5所示；

所述得到图片文本情感数据集，其具体为：

对已经图像颜色聚类的表情图片文本数据集进行边缘分割；

根据边缘分割结构利用sobel算子提取图像情感，得到图片文本情感数据集；

所述主干文本数据集输入主干文本处理网络前包括以下步骤：

将高维词向量嵌入到低维空间；

通过词性标注和拼接，得到主干文本矩阵X；

X＝[x_w,x_p]

其中，x_w表示词嵌入矩阵，x_p表示词性矩阵；

所述图像情感特征依次通过第一卷积层、第二卷积层和第一池化层进行特征提取，并通过第一dropout层、第一展平层和第一全连接层随机丢弃、展平和连接得到；

所述图像文本情感特征分别通过第三卷积层、第四卷积层和第二池化层进行特征提取，并通过第二dropout层、第二展平层、第二全连接层、第三全连接层随机丢弃、展平和连接得到；

所述得到主干文本特征包括以下步骤：

通过注意力机制模块对主干文本中的情感词加权，得到主干文本特征；

所述表情图片文本数据集中各附带表情图片的文本数据包括若干张具有情感分类标签的表情图片；

所述BiLstm层的计算表达式如下：

i_t＝σ(W_i[h_t-1,x_t]+b_i)

f_t＝σ(W_f[h_t-1,x_t]+b_f)

O_t＝σ(W_o[h_t-1,x_t]+b_o)

h_t＝O_t⊙tanhC_t

表示t时刻临时记忆单元状态，tanh表示激活函数tanh，W_c表示输出门控的权重向量，b_c表示输出门控的偏置，c_t表示t时刻记忆单元状态，⊙表示表示向量乘积运算，c_t-1表示t-1时刻记忆单元状态，O_t表示t时刻的输出门控，W_o表示该层连接对应的权重，b_o表示该层连接对应的偏置，h_t表示t时刻的隐层输出；

所述注意力机制模块的计算表达式如下：

其中，a_i表示选择第i个输入向量x_i的注意力分布，z表示注意力变量，q表示查询向量，softmax表示softmax分类器，s(xi,q)表示打分函数，j表示第j个打分结果exp(s(x_i,q))的指数值，N表示打分结果的总数，att(X,q)表示主干文本矩阵X的加权平均值；

实施例2

如图6所示，在本实施例中本方案提供一种基于多通道长短期记忆网络的情感分析方法的系统，包括：

实施例提供的基于多通道长短期记忆网络的情感分析方法的系统可以执行上述方法实施例基于多通道长短期记忆网络的情感分析方法所示的技术方案，其实现原理与有益效果类似，此处不再赘述。

本发明实施例中，本申请可以根据基于多通道长短期记忆网络的情感分析方法进行功能单元的划分，例如可以将各个功能划分为各个功能单元，也可以将两个或两个以上的功能集成在一个处理单元中。上述集成单元既可以采用硬件的形式来实现，也可以采用软件功能单元的形式来实现。需要说明的是，本发明中对单元的划分是示意性的，仅仅为一种逻辑划分，实际实现时可以有另外的划分方式。

本发明实施例中，基于多通道长短期记忆网络的情感分析方法的系统为了实现基于多通道长短期记忆网络的情感分析方法的原理与有益效果，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本发明所公开的实施例描述的各示意单元及算法步骤，本发明能够以硬件和/或硬件和计算机软件结合的形式来实现，某个功能以硬件还是计算机软件驱动的方式来执行，取决于技术方案的特定应用和设计约束条件，可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

实施例3,

在本实施例中，本方案所用表情图片文本数据集为电商平台，游戏平台评论数据，来源于京东，拼多多电商平台，与STEAM游戏平台；图像文本情感特征提取网络训练采用微信表情公众号数据，通过类别爬取相应表情解决标签问题。文本表情数量信息如表1所示：

表1

平台	好评	差评	总计	好/坏(比率)
					电商	13948	6436	20384	2.17
STEAM	11623	4307	15930	2.69
					微信表情	25571	10743	33314	2.38
文本总计	25571	10743	33314	2.38

根据表1可得本实施例中使用的数据包括好评25571条，差评10743条，同时对应相应的表情图片，训练过程中训练集和验证集比例为8:2。

本实施例中验证环境为Windows10操作系统，物理内存为32G，训练使用GPU为NVIDIA RTX-2080Super，训练框架为Tensor Flow。

本实施例中将双向长短记忆模型放入并行结构，并且在其中加入了注意力机制，注意力机制层激活函数为Softmax，输出层的激活函数采用Relu，注意力机制的Dropout值设置为0.25。本次实验的模型通过拼接之后，进入全连接层，之后是输出层，全连接层以及输出层的激活函数分别为Relu和Sigmoid，全连接层Dropout值设置为0.5。在表情图片中文字提取与识别和表情图片情感识别步骤中均使用到了卷积神经网络模型，与上表参数相同以保证一致性。训练过程如下：损失函数采用交叉熵函数，优化器采用Adam方法，Batchsize设置为32.进行了20个epoch的训练，训练过程中模型在17个epoch时逐步收敛。

本实施例采用交叉熵损失函数(Binary Cross Entropy)来对实验结果进行检测；

所述交叉熵损失函数表达式如下：

其中，loss表示交叉熵损失值，i表示第i个类别，n表示类别总数，y_i表示真实的离散类别值，

表示预测类别的条件概率分别值。

为避免偶然性带来的误差，本实施例采用textCNN模型、长短期记忆模型与本方案提出的KMCNN&BiLSTM模型进行10次试验对比，且三种模型的平均准确率如表2和图7所示：

表2

模型	平均准确率(10次实验)
		textCNN	0.82659
LSTM	0.87259
		KMCNN&BiLSTM	0.96330

根据表2和图7可得KMCNN&BiLSTM模型在具有表情图片与文本联合情感分析任务中比textCNN模型提升16.53％的准确度，比单独的LSTM模型提升10.39％的准确度。本实施例提出的词性标注双通道Bilstm模型相对于单一text CNN模型和单一Lstm模型能够更好地根据文本词性分析出情感内容，为避免偶然性，本实验采用十次实验结果绘制上图，从结果中可看出采用词性标注的双通道BiLSTM模型能够在纯文本的情感分析任务中获得更加好的效果。