CN112651448B

CN112651448B - 一种面向社交平台表情包的多模态情感分析方法

Info

Publication number: CN112651448B
Application number: CN202011600096.7A
Authority: CN
Inventors: 万海; 张漫榕; 刘亚男; 黄佳莉; 曾娟; 范科峰
Original assignee: Sun Yat Sen University
Current assignee: Sun Yat Sen University
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2023-09-15
Anticipated expiration: 2040-12-29
Also published as: CN112651448A

Abstract

本发明提供一种面向社交平台表情包的多模态情感分析方法，包括以下步骤：S1：使用爬虫工具从社交平台爬取表情包图片，并对表情包图片进行情感标注后，进行预处理；S2：获取步骤S1爬取到的表情包图片的语义信息，得到每张表情包图片对应的文本信息特征向量表示；S3：获取步骤S1爬取到的表情包图片的视觉特征，得到每张表情包图片对应的视觉特征向量表示；S4：所述文本信息特征向量表示和视觉特征向量表示经多模态融合，得到多模态融合特征向量表示；S5：所述多模态融合特征向量表示经过分类器得到情感识别结果，选取置信度最高的情感识别结果作为预测的情感，本发明引入了图片的文本语义特征，能够更好地捕获表情包中的隐含语义信息。

Description

一种面向社交平台表情包的多模态情感分析方法

技术领域

本发明涉及人工智能领域，更具体地，涉及一种面向社交平台表情包的多模态情感分析方法。

背景技术

情感分析是人工智能领域的一个重要任务，是自然语言处理领域的研究热点之一。情感分析通过处理信息数据，挖掘人们的真实观点和情感。比如，判断该信息反映出的是正面情绪还是负面情绪，或者按照量表将情感从非常满意到非常不满意划分成几个不同的评分等级。情感分析任务最初在自然语言处理领域被广泛研究，指在对文本内容进行情感识别，即情感分类。早期的情感分析仅关注纯文本信息，利用传统机器学习分类算法或者深度学习分类算法对情感进行分类。随着互联网的蓬勃发展，人们在社交媒体越来越多使用文字、图片、语音、视频等多模态信息来分享观点。通过对人们发表的多模态数据进行情感分析，不仅同时考虑图片及文本的情感倾向，并且捕获了图文之间的语义关联，为社交媒体的多模态情感分析提供了新思路及新视角。目前面向社交媒体的多模态情感分析已经成为人工智能领域一个重要的研究热点。

近年来不同社交平台的迅速崛起，衍生出了表达情绪和传达信息的新载体——表情包。表情包的起始可以追溯到1982年，美国卡耐基·梅隆大学的斯科特·法尔曼教授使用符号“:)”来表示微笑表情，随后直观可爱的颜文字在网络上广泛流行。随着用户在网络社交平台上的互动日益频繁，系统或者平台制作的表情包已经不能够满足用户的日常使用，许多网络用民们开始自制表情包。自制表情包包括图片表情包、图文表情包、GIF动图等，通常是用户在不同截图或者照片上配上相关文字制作而成，最终以图文的形式表达自己的情绪或者想法。表情包以一种委婉诙谐的方式表达用户的情绪，为日常社交增添趣味性，也因此受到了用户们的喜爱，尤其在年轻群体中得到了广泛使用及推广，代替了一部分文本信息的日常使用。利用机器学习或者深度学习算法对表情包进行情感分析，可以帮助机器更好地了解用户表达的情绪状态。例如，针对用户在社交平台上不同话题下回复的表情包进行情感分析，可以了解到用户对不同话题的情感态度。

公开日为2020年6月9日，公开号为CN111259141A的中国专利公开了一种一种基于多模型融合的社交媒体语料情感分析方法，使用pyspide爬虫框架从社交媒体获取，并对爬虫获取的数据集进行处理，将数据集拆分为三类：只包含文本信息、只包含图像信息以及文本图像信息均包含，本发明利用跨媒体的方法进行语料处理，对于语料中的文本信息，使用SO-PMI算法构建情感词典，分析逐点互信息积极性、中性和消极性。使用相似距离在单词之间替换PMI并构建新的公式；对于图像或者视频的语料，利用视觉文本联合建模方法去得到、解析图像的含义，从得出对于图像或者视频的含义。利用纯文本的分析结果和视觉得出的分析结果，进行加权融合得到最后的情感分析的结果。

现有技术存在以下问题

(1)现有的情感分析方法将表情包图片当作普通图片进行情感分析，忽略了表情包图片中包含的文本信息，并丢失了表情包中图片及文本的语义关联信息。

(2)现有的多模态情感分析方法只适用于多模态数据，无法处理单模态数据。即使预先抽取表情包所包含的文字信息，将表情包由图片信息转换为图片及文本信息，现有的多模态情感分析方法只能处理图文表情包，无法处理纯图片表情包。

(3)目前的多模态特征融合方法主要包括早融合和晚融合两种方法。早融合方法对抽取多模态特征进行融合，再经过分类器进行情感分类；晚融合方法对每种模态信息训练分类器进行情感分类，再对情感分类结果进行决策投票。现有社交媒体的多模态情感分析大多数采用晚融合的方式进行情感分析，忽略了不同模态特征间的语义关联，难以学习到不同模态之间的相互联系。

发明内容

本发明提供一种面向社交平台表情包的多模态情感分析方法，解决了现有情感分析研究中缺乏针对社交平台表情包的情感分析方法，仅把表情包图片作为普通图片进行情感分析，忽略了表情包图片上的文本内容的问题。

为解决上述技术问题，本发明的技术方案如下：

一种面向社交平台表情包的多模态情感分析方法，包括以下步骤：

S1：使用爬虫工具从社交平台爬取表情包图片，并对表情包图片进行情感标注后，进行预处理；

S2：获取步骤S1爬取到的表情包图片的语义信息，得到每张表情包图片对应的文本信息特征向量表示；

S3：获取步骤S1爬取到的表情包图片的视觉特征，得到每张表情包图片对应的视觉特征向量表示；

S4：所述文本信息特征向量表示和视觉特征向量表示经多模态融合，得到多模态融合特征向量表示；

S5：所述多模态融合特征向量表示经过分类器得到情感识别结果，选取置信度最高的情感识别结果作为预测的情感。

优选地，步骤S1中的表情包图片包括图文表情包和图片表情包。

优选地，步骤S1中使用爬虫工具从社交平台爬取表情包图片，并表情包图片进行情感标注后，进行预处理，具体包括以下步骤：

S1.1：利用爬虫工具爬取主流社交平台的表情包数据，并对原始爬取结果进行清洗和过滤；

S1.2：按照积极、消极、中性三种情感极性，对表情包图片进行情感标注；

S1.3：识别每一张表情包图片中的对应文本，按照表情包图片中是否包含有文本，将表情包图片划分为图文表情包和图片表情包，分别形成图文表情包数据集和图片表情包数据集；

S1.4：图片表情包数据集中每一张图片记为(I,p),其中I表示对应图片，p表示情感极性；图文表情包中每一张图片记为(I,s,p),其中I表示对应图片，s表示对应文本，p表示情感极性；

S1.5：所有表情包图片进行数据预处理，为了避免表情包图片的文本内容对图像特征的影响，为表情包图片的文本内容添加水印进行遮盖。

优选地，步骤S1.3中识别每一张表情包图片中的对应文本，具体为：

利用OCR文本识别技术，识别每一张表情包图片中的对应文本，如果OCR文本识别技术抽取得到的文本长度小于1，则认为该表情包图片中没有包含文本，该表情包图片为图片表情包；如果OCR文本识别技术抽取得到的文本长度不小于1，则认为该表情包图片中包含文本，该表情包图片为图文表情包。

优选地，步骤S2中获取步骤S1爬取到的表情包图片的语义信息，得到每张表情包图片对应的文本信息特征向量表示，具体为：

对图文表情包使用OCR技术识别表情包上的文本；

对图片表情包使用图片描述文本生成模型生成图片表情包对应的文本描述，所述图片描述文本生成模型基于图文表情包数据集训练，用于为图片表情包数据集中的每一张图片生成一句文本描述；

将图文表情包上的文本和图片表情包的文本描述经过预训练语言模型，得到每张表情包图片对应的文本信息特征向量表示。

优选地，所述图片描述文本生成模型为图片表情包数据集中的每一张图片生成一句描述文本，具体为：

划分图文表情包数据集为训练集和测试集，其中训练集占70％，测试集占30％；为了抽取图文表情包的文字信息，利用OCR文本识别技术识别图文表情包中包含的文本内容，为了避免图文表情包中文字信息对图像信息的干扰，为图文表情包中的文字部分添加水印；

图片描述文本生成模型采用编码器-解码器结构，编码器部分采用预训练深层卷积模型，解码器部分为循环神经网络，同时，解码器部分引入了注意力机制以捕捉图片中的重要区域，训练模型时，采用负对数似然损失函数作为损失函数，采用BLEU作为评价指标，使用随机梯度下降的方式更新参数；

选取在测试集上BLEU得分最高的模型作为训练好的图片描述文本生成模型，将图片表情包数据集中的每一张图片输入图片描述文本生成模型，生成图片对应的文本描述。

优选地，所述经过预训练语言模型，得到每张表情包图片对应的文本信息特征向量表示，具体为：

预训练语言模型的输入句子为图文表情包上的文本或图片表情包的文本描述，由n个单词构成的单词序列，记为sw₁,w₂,…,w_n}；在单词序列的头尾加入“[CLS]”以及“[SEP”两个特殊标记,得到预训练语言模型的输入序列s′＝{[CLS],w₁,w₂,…,w_n,SEP]}；

预训练语言模型采用BERT模型，输入序列经过BERT模型，得到768维向量的向量序列抽取“[CLS]”标记对应隐含特征向量V_[CLS]，经过一层全连接层，得到表情包文本特征向量表示B(s)。

优选地，步骤S3中获取步骤S1爬取到的表情包图片的视觉特征，得到每张表情包图片对应的视觉特征向量表示，具体为：

将表情包图片经过预训练深层卷积模型，抽取得到对应的是视觉特征向量表示，预训练深层卷积模型采用VGG19在ImageNet上的预训练模型，表情包图片经过VGG19模型，VGG19模型中fc7层的4096维隐含向量输出X_I经过一层全连接层，得到表情包图片的视觉特征向量表示V(I)。

优选地，步骤S4中所述文本信息特征向量表示和视觉特征向量表示经多模态融合，得到多模态融合特征向量表示，具体为：

多模态融合模块采用Transformer模型，文本特征向量B(s)和视觉特征向量V(I)经过Transformer模型得到多模态特征向量表示T(I,s)。

优选地，步骤S5中所述多模态融合特征向量表示经过分类器得到情感识别结果，选取置信度最高的情感识别结果作为预测的情感，具体为：

S5.1：多模态融合特征向量表示T(I,s)经过单层全连接层，得到3维隐含向量表示；

S5.2：步骤S5.1得到的3维隐含向量表示经过softmax激活函数，得到情感极性的概率分布，选择置信度最高的情感极性作为预测的表情包情感极性。

与现有技术相比，本发明技术方案的有益效果是：

(1)本发明针对社交平台表情包进行情感分析，首次提出针对社交平台图片表情包及图文表情包的情感分析方法。

(2)本发明利用图像描述文本生成模型为图片表情包生成对应描述文本，引入了文本的语义特征，能够更好地捕获表情包中的隐含语义信息。

(3)本发明利用早融合的方式融合视觉特征以及文本特征，考虑了不同模态的语义关联，帮助模型更好地进行情感极性预测。

(4)本发明验证了多模态情感分析模型能够较好地对网络表情包进行情感识别，具有较好的实用性。

附图说明

图1为本发明的方法流程示意图。

具体实施方式

附图仅用于示例性说明，不能理解为对本专利的限制；

为了更好说明本实施例，附图某些部件会有省略、放大或缩小，并不代表实际产品的尺寸；

对于本领域技术人员来说，附图中某些公知结构及其说明可能省略是可以理解的。

下面结合附图和实施例对本发明的技术方案做进一步的说明。

实施例1

本实施例提供一种面向社交平台表情包的多模态情感分析方法，如图1所示，包括以下步骤：

步骤S1中的表情包图片包括图文表情包和图片表情包。

步骤S1中使用爬虫工具从社交平台爬取表情包图片，并表情包图片进行情感标注后，进行预处理，具体包括以下步骤：

S1.3：识别每一张表情包图片中的对应文本，按照表情包图片中是否包含有文本，将表情包图片分为图文表情包和图片表情包，分别形成图文表情包数据集和图片表情包数据集；

S1.4：图片表情包数据集中每一张图片记为(I,p),其中I表示对应图片，p表示情感极性；图文表情包中每一张图片记为(I,s,p),其中I表示对应图片，s表示对应文本，p表示情感极性，p{积极，中性，消极}；

步骤S1.3中识别每一张表情包图片中的对应文本，具体为：

步骤S2中获取步骤S1爬取到的表情包图片的语义信息，得到每张表情包图片对应的文本信息特征向量表示，具体为：

对图文表情包使用OCR技术识别表情包上的文本；

所述图片描述文本生成模型为图片表情包数据集中的每一张图片生成一句描述文本，具体为：

图片描述文本生成模型采用编码器-解码器结构，编码器部分采用ImageNet数据集的ResNet152预训练模型，将预训练深层ResNet152模型的全连接层替换为卷积层，输入图片经过预训练深层卷积模型后得到L个向量，每个向量对应D维的向量特征表示，对应图片中不同区域的视觉特征，记为a{a₁,…,a_L}；

图片描述文本生成模型的解码器器部分采用LSTM模型，对于解码器时刻t的输入，解码器将上一个时刻的隐藏层状态h_t-1和视觉特征a{a₁,…,a_L}映射为z_t:

z_t＝φ({a_i},α_ti})

其中，h_t-1为LSTM模型输出的上一个时刻的隐藏层状态，α_ti为t时刻视觉特征a_i对应的权重，f_att和φ为注意力层。利用z_t、循环神经网络在t时刻的隐藏层状态h_t及t-1时刻单词y_t-1计算t时刻预测单词的概率分布

其中，L₁、E、L_h、L_z均为可学习的参数，为开始时刻至t-1时刻的单词序列。

训练模型时，采用负对数似然损失函数作为损失函数，采用BLEU作为评价指标，使用随机梯度下降的方式更新参数；选取在测试集上BLEU得分最高的模型作为训练好的图片描述文本生成模型，将图片表情包数据集中的每一张图片输入图片描述文本生成模型，生成图片对应的文本描述。

所述经过预训练语言模型，得到每张表情包图片对应的文本信息特征向量表示，具体为：

预训练语言模型采用BERT模型，输入序列经过BERT模型，得到768维向量的向量序列抽取“[CLS]”标记对应隐含特征向量V_[CLS]，经过一层全连接层，得到表情包文本特征向量表示B(s)：

B(s)＝tanh(E_BV_[CLS]+b₁)

其中，W_B和b₁为可学习的参数。

步骤S3中获取步骤S1爬取到的表情包图片的视觉特征，得到每张表情包图片对应的视觉特征向量表示，具体为：

将表情包图片经过预训练深层卷积模型，抽取得到对应的是视觉特征向量表示，预训练深层卷积模型采用VGG19在ImageNet上的预训练模型，表情包图片经过VGG19模型，VGG19模型中fc7层的4096维隐含向量输出X_I经过一层全连接层，得到表情包图片的视觉特征向量表示V(I)：

V(I)＝tanh(W_IX_I+b₂)

其中，W_I和b₂为可学习的参数。

步骤S4中所述文本信息特征向量表示和视觉特征向量表示经多模态融合，得到多模态融合特征向量表示，具体为：

多模态融合模块采用Transformer模型，文本特征向量B(s)和视觉特征向量V(I)经过Transformer模型得到多模态特征向量表示T(I,s)：

MATT(I,s)＝W_m[ATT₁(I,s),…,ATT_m(I,s)]^T

其中，ATT(I,s表示经过Transformer模型单次注意力层的输出，MATT(I,s)表示经过Transformer模型多头注意层的输出，d为文本信息特征向量B(s)的向量维度，W_Q、W_K、W_V、W_m为可学习的参数，softmax为激活函数；

T_h(I,s)＝LayerNorm(B(s)+MATT(I,s))

其中，T_h(I,s)表示经过Transformer模型第一次残差连接和归一化处理的输出，LayerNorm表示层归一化处理；

T(I,s)＝LayerNorm(B(s)+GeLU(W_TT_h(I,s)+b₃))

其中，E_T、b₃为可学习的参数，GeLU为激活函数。

步骤S5中所述多模态融合特征向量表示经过分类器得到情感识别结果，选取置信度最高的情感识别结果作为预测的情感，具体为：

相同或相似的标号对应相同或相似的部件；

附图中描述位置关系的用语仅用于示例性说明，不能理解为对本专利的限制；

显然，本发明的上述实施例仅仅是为清楚地说明本发明所作的举例，而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明权利要求的保护范围之内。

Claims

1.一种面向社交平台表情包的多模态情感分析方法，其特征在于，包括以下步骤：

S5：所述多模态融合特征向量表示经过分类器得到情感识别结果，选取置信度最高的情感识别结果作为预测的情感；

对图文表情包使用OCR技术识别表情包上的文本；

将图文表情包上的文本和图片表情包的文本描述经过预训练语言模型，得到每张表情包图片对应的文本信息特征向量表示；

划分图文表情包数据集为训练集和测试集，其中训练集占70％，测试集占30％，为了抽取图文表情包的文字信息，利用OCR文本识别技术识别图文表情包中包含的文本内容，为了避免图文表情包中文字信息对图像信息的干扰，为图文表情包中的文字部分添加水印；

图片描述文本生成模型采用编码器-解码器结构，编码器部分采用预训练深层卷积模型，将预训练深层卷积模型的全连接层替换为卷积层，输入图片经过预训练深层卷积模型后得到L个向量表示，对应图片中不同区域的视觉特征，记为a{a₁,…,a_L}，解码器部分为循环神经网络，并引入了注意力机制以捕捉图片中的重要区域；

训练模型时，采用负对数似然损失函数作为损失函数，采用BLEU作为评价指标，使用随机梯度下降的方式更新参数；

选取在测试集上BLEU得分最高的模型作为训练好的图片描述文本生成模型，将图片表情包数据集中的每一张图片输入图片描述文本生成模型，生成图片对应的文本描述；

所述循环神经网络用于预测当前单词的分布概率，同时引入了注意力机制用以捕捉图片中的重要区域，具体为：

对于解码器时刻t的输入，解码器将上一个时刻的隐藏层状态h_t-1和视觉特征a{a₁,…,a_L}映射为z_t:

z_t＝φ({a_i},α_ti})

其中，h_t-1为循环神经网络输出的上一个时刻的隐藏层状态，α_ti为t时刻视觉特征a_i对应的权重，f_att和φ为注意力层，利用z_t、循环神经网络在t时刻的隐藏层状态h_t及t-1时刻单词y_t-1计算t时刻预测单词的概率分布

其中，L₁、E、L_h、L_z均为学习的参数，为开始时刻至t-1时刻的单词序列。

2.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法，其特征在于，步骤S1中使用爬虫工具从社交平台爬取表情包图片，并对表情包图片进行情感标注后，进行预处理，具体包括以下步骤：

3.根据权利要求2所述的面向社交平台表情包的多模态情感分析方法，其特征在于，步骤S1.3中识别每一张表情包图片中的对应文本，具体为：

4.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法，其特征在于，所述经过预训练语言模型，得到每张表情包图片对应的文本信息特征向量表示，具体为：

预训练语言模型的输入句子为图文表情包上的文本或图片表情包的文本描述，由n个单词构成的单词序列，记为sw₁,w₂,…,w_n}；在单词序列的头尾加入“[CLS]”以及“[SEP”两个标记,得到预训练语言模型的输入序列s′＝{[CLS],w₁,w₂,…,w_n,SEP]}；

B(s)＝tanh(W_BV_[CLS]+b₁)

其中，W_B和b₁为学习的参数。

5.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法，其特征在于，步骤S3中获取步骤S1爬取到的表情包图片的视觉特征，得到每张表情包图片对应的视觉特征向量表示，具体为：

V(I)＝tanh(W_IX_I+b₂)

其中，W_I和b₂为学习的参数。

6.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法，其特征在于，步骤S4中所述文本信息特征向量表示和视觉特征向量表示经多模态融合，得到多模态融合特征向量表示，具体为：

MATT(I,s)＝W_m[ATT₁(I,s),…,ATT_m(I,s)]^T

其中，ATT_i(I,s)表示经过Transformer模型单次注意力层的输出，MATT(I,s)表示经过Transformer模型多头注意层的输出，d为文本信息特征向量B(s)的向量维度，W_Q、W_K、W_V、W_m为学习的参数，softmax为激活函数；

T_h(I,s)＝LayerNorm(B(s)+MATT(I,s))

T(I,s)＝LayerNorm(B(s)+GeLU(W_TT_h(I,s)+b₃))

其中，W_T、b₃为学习的参数，GeLU为激活函数。

7.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法，其特征在于，步骤S5中所述多模态融合特征向量表示经过分类器得到情感识别结果，选取置信度最高的情感识别结果作为预测的情感，具体为：