CN112651448B - 一种面向社交平台表情包的多模态情感分析方法 - Google Patents
一种面向社交平台表情包的多模态情感分析方法 Download PDFInfo
- Publication number
- CN112651448B CN112651448B CN202011600096.7A CN202011600096A CN112651448B CN 112651448 B CN112651448 B CN 112651448B CN 202011600096 A CN202011600096 A CN 202011600096A CN 112651448 B CN112651448 B CN 112651448B
- Authority
- CN
- China
- Prior art keywords
- picture
- text
- expression package
- expression
- emotion
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/251—Fusion techniques of input or preprocessed data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/254—Fusion techniques of classification results, e.g. of results related to same input data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Biophysics (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种面向社交平台表情包的多模态情感分析方法,包括以下步骤:S1:使用爬虫工具从社交平台爬取表情包图片,并对表情包图片进行情感标注后,进行预处理;S2:获取步骤S1爬取到的表情包图片的语义信息,得到每张表情包图片对应的文本信息特征向量表示;S3:获取步骤S1爬取到的表情包图片的视觉特征,得到每张表情包图片对应的视觉特征向量表示;S4:所述文本信息特征向量表示和视觉特征向量表示经多模态融合,得到多模态融合特征向量表示;S5:所述多模态融合特征向量表示经过分类器得到情感识别结果,选取置信度最高的情感识别结果作为预测的情感,本发明引入了图片的文本语义特征,能够更好地捕获表情包中的隐含语义信息。
Description
技术领域
本发明涉及人工智能领域,更具体地,涉及一种面向社交平台表情包的多模态情感分析方法。
背景技术
情感分析是人工智能领域的一个重要任务,是自然语言处理领域的研究热点之一。情感分析通过处理信息数据,挖掘人们的真实观点和情感。比如,判断该信息反映出的是正面情绪还是负面情绪,或者按照量表将情感从非常满意到非常不满意划分成几个不同的评分等级。情感分析任务最初在自然语言处理领域被广泛研究,指在对文本内容进行情感识别,即情感分类。早期的情感分析仅关注纯文本信息,利用传统机器学习分类算法或者深度学习分类算法对情感进行分类。随着互联网的蓬勃发展,人们在社交媒体越来越多使用文字、图片、语音、视频等多模态信息来分享观点。通过对人们发表的多模态数据进行情感分析,不仅同时考虑图片及文本的情感倾向,并且捕获了图文之间的语义关联,为社交媒体的多模态情感分析提供了新思路及新视角。目前面向社交媒体的多模态情感分析已经成为人工智能领域一个重要的研究热点。
近年来不同社交平台的迅速崛起,衍生出了表达情绪和传达信息的新载体——表情包。表情包的起始可以追溯到1982年,美国卡耐基·梅隆大学的斯科特·法尔曼教授使用符号“:)”来表示微笑表情,随后直观可爱的颜文字在网络上广泛流行。随着用户在网络社交平台上的互动日益频繁,系统或者平台制作的表情包已经不能够满足用户的日常使用,许多网络用民们开始自制表情包。自制表情包包括图片表情包、图文表情包、GIF动图等,通常是用户在不同截图或者照片上配上相关文字制作而成,最终以图文的形式表达自己的情绪或者想法。表情包以一种委婉诙谐的方式表达用户的情绪,为日常社交增添趣味性,也因此受到了用户们的喜爱,尤其在年轻群体中得到了广泛使用及推广,代替了一部分文本信息的日常使用。利用机器学习或者深度学习算法对表情包进行情感分析,可以帮助机器更好地了解用户表达的情绪状态。例如,针对用户在社交平台上不同话题下回复的表情包进行情感分析,可以了解到用户对不同话题的情感态度。
公开日为2020年6月9日,公开号为CN111259141A的中国专利公开了一种一种基于多模型融合的社交媒体语料情感分析方法,使用pyspide爬虫框架从社交媒体获取,并对爬虫获取的数据集进行处理,将数据集拆分为三类:只包含文本信息、只包含图像信息以及文本图像信息均包含,本发明利用跨媒体的方法进行语料处理,对于语料中的文本信息,使用SO-PMI算法构建情感词典,分析逐点互信息积极性、中性和消极性。使用相似距离在单词之间替换PMI并构建新的公式;对于图像或者视频的语料,利用视觉文本联合建模方法去得到、解析图像的含义,从得出对于图像或者视频的含义。利用纯文本的分析结果和视觉得出的分析结果,进行加权融合得到最后的情感分析的结果。
现有技术存在以下问题
(1)现有的情感分析方法将表情包图片当作普通图片进行情感分析,忽略了表情包图片中包含的文本信息,并丢失了表情包中图片及文本的语义关联信息。
(2)现有的多模态情感分析方法只适用于多模态数据,无法处理单模态数据。即使预先抽取表情包所包含的文字信息,将表情包由图片信息转换为图片及文本信息,现有的多模态情感分析方法只能处理图文表情包,无法处理纯图片表情包。
(3)目前的多模态特征融合方法主要包括早融合和晚融合两种方法。早融合方法对抽取多模态特征进行融合,再经过分类器进行情感分类;晚融合方法对每种模态信息训练分类器进行情感分类,再对情感分类结果进行决策投票。现有社交媒体的多模态情感分析大多数采用晚融合的方式进行情感分析,忽略了不同模态特征间的语义关联,难以学习到不同模态之间的相互联系。
发明内容
本发明提供一种面向社交平台表情包的多模态情感分析方法,解决了现有情感分析研究中缺乏针对社交平台表情包的情感分析方法,仅把表情包图片作为普通图片进行情感分析,忽略了表情包图片上的文本内容的问题。
为解决上述技术问题,本发明的技术方案如下:
一种面向社交平台表情包的多模态情感分析方法,包括以下步骤:
S1:使用爬虫工具从社交平台爬取表情包图片,并对表情包图片进行情感标注后,进行预处理;
S2:获取步骤S1爬取到的表情包图片的语义信息,得到每张表情包图片对应的文本信息特征向量表示;
S3:获取步骤S1爬取到的表情包图片的视觉特征,得到每张表情包图片对应的视觉特征向量表示;
S4:所述文本信息特征向量表示和视觉特征向量表示经多模态融合,得到多模态融合特征向量表示;
S5:所述多模态融合特征向量表示经过分类器得到情感识别结果,选取置信度最高的情感识别结果作为预测的情感。
优选地,步骤S1中的表情包图片包括图文表情包和图片表情包。
优选地,步骤S1中使用爬虫工具从社交平台爬取表情包图片,并表情包图片进行情感标注后,进行预处理,具体包括以下步骤:
S1.1:利用爬虫工具爬取主流社交平台的表情包数据,并对原始爬取结果进行清洗和过滤;
S1.2:按照积极、消极、中性三种情感极性,对表情包图片进行情感标注;
S1.3:识别每一张表情包图片中的对应文本,按照表情包图片中是否包含有文本,将表情包图片划分为图文表情包和图片表情包,分别形成图文表情包数据集和图片表情包数据集;
S1.4:图片表情包数据集中每一张图片记为(I,p),其中I表示对应图片,p表示情感极性;图文表情包中每一张图片记为(I,s,p),其中I表示对应图片,s表示对应文本,p表示情感极性;
S1.5:所有表情包图片进行数据预处理,为了避免表情包图片的文本内容对图像特征的影响,为表情包图片的文本内容添加水印进行遮盖。
优选地,步骤S1.3中识别每一张表情包图片中的对应文本,具体为:
利用OCR文本识别技术,识别每一张表情包图片中的对应文本,如果OCR文本识别技术抽取得到的文本长度小于1,则认为该表情包图片中没有包含文本,该表情包图片为图片表情包;如果OCR文本识别技术抽取得到的文本长度不小于1,则认为该表情包图片中包含文本,该表情包图片为图文表情包。
优选地,步骤S2中获取步骤S1爬取到的表情包图片的语义信息,得到每张表情包图片对应的文本信息特征向量表示,具体为:
对图文表情包使用OCR技术识别表情包上的文本;
对图片表情包使用图片描述文本生成模型生成图片表情包对应的文本描述,所述图片描述文本生成模型基于图文表情包数据集训练,用于为图片表情包数据集中的每一张图片生成一句文本描述;
将图文表情包上的文本和图片表情包的文本描述经过预训练语言模型,得到每张表情包图片对应的文本信息特征向量表示。
优选地,所述图片描述文本生成模型为图片表情包数据集中的每一张图片生成一句描述文本,具体为:
划分图文表情包数据集为训练集和测试集,其中训练集占70%,测试集占30%;为了抽取图文表情包的文字信息,利用OCR文本识别技术识别图文表情包中包含的文本内容,为了避免图文表情包中文字信息对图像信息的干扰,为图文表情包中的文字部分添加水印;
图片描述文本生成模型采用编码器-解码器结构,编码器部分采用预训练深层卷积模型,解码器部分为循环神经网络,同时,解码器部分引入了注意力机制以捕捉图片中的重要区域,训练模型时,采用负对数似然损失函数作为损失函数,采用BLEU作为评价指标,使用随机梯度下降的方式更新参数;
选取在测试集上BLEU得分最高的模型作为训练好的图片描述文本生成模型,将图片表情包数据集中的每一张图片输入图片描述文本生成模型,生成图片对应的文本描述。
优选地,所述经过预训练语言模型,得到每张表情包图片对应的文本信息特征向量表示,具体为:
预训练语言模型的输入句子为图文表情包上的文本或图片表情包的文本描述,由n个单词构成的单词序列,记为sw1,w2,…,wn};在单词序列的头尾加入“[CLS]”以及“[SEP”两个特殊标记,得到预训练语言模型的输入序列s′={[CLS],w1,w2,…,wn,SEP]};
预训练语言模型采用BERT模型,输入序列经过BERT模型,得到768维向量的向量序列抽取“[CLS]”标记对应隐含特征向量V[CLS],经过一层全连接层,得到表情包文本特征向量表示B(s)。
优选地,步骤S3中获取步骤S1爬取到的表情包图片的视觉特征,得到每张表情包图片对应的视觉特征向量表示,具体为:
将表情包图片经过预训练深层卷积模型,抽取得到对应的是视觉特征向量表示,预训练深层卷积模型采用VGG19在ImageNet上的预训练模型,表情包图片经过VGG19模型,VGG19模型中fc7层的4096维隐含向量输出XI经过一层全连接层,得到表情包图片的视觉特征向量表示V(I)。
优选地,步骤S4中所述文本信息特征向量表示和视觉特征向量表示经多模态融合,得到多模态融合特征向量表示,具体为:
多模态融合模块采用Transformer模型,文本特征向量B(s)和视觉特征向量V(I)经过Transformer模型得到多模态特征向量表示T(I,s)。
优选地,步骤S5中所述多模态融合特征向量表示经过分类器得到情感识别结果,选取置信度最高的情感识别结果作为预测的情感,具体为:
S5.1:多模态融合特征向量表示T(I,s)经过单层全连接层,得到3维隐含向量表示;
S5.2:步骤S5.1得到的3维隐含向量表示经过softmax激活函数,得到情感极性的概率分布,选择置信度最高的情感极性作为预测的表情包情感极性。
与现有技术相比,本发明技术方案的有益效果是:
(1)本发明针对社交平台表情包进行情感分析,首次提出针对社交平台图片表情包及图文表情包的情感分析方法。
(2)本发明利用图像描述文本生成模型为图片表情包生成对应描述文本,引入了文本的语义特征,能够更好地捕获表情包中的隐含语义信息。
(3)本发明利用早融合的方式融合视觉特征以及文本特征,考虑了不同模态的语义关联,帮助模型更好地进行情感极性预测。
(4)本发明验证了多模态情感分析模型能够较好地对网络表情包进行情感识别,具有较好的实用性。
附图说明
图1为本发明的方法流程示意图。
具体实施方式
附图仅用于示例性说明,不能理解为对本专利的限制;
为了更好说明本实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;
对于本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
下面结合附图和实施例对本发明的技术方案做进一步的说明。
实施例1
本实施例提供一种面向社交平台表情包的多模态情感分析方法,如图1所示,包括以下步骤:
S1:使用爬虫工具从社交平台爬取表情包图片,并对表情包图片进行情感标注后,进行预处理;
S2:获取步骤S1爬取到的表情包图片的语义信息,得到每张表情包图片对应的文本信息特征向量表示;
S3:获取步骤S1爬取到的表情包图片的视觉特征,得到每张表情包图片对应的视觉特征向量表示;
S4:所述文本信息特征向量表示和视觉特征向量表示经多模态融合,得到多模态融合特征向量表示;
S5:所述多模态融合特征向量表示经过分类器得到情感识别结果,选取置信度最高的情感识别结果作为预测的情感。
步骤S1中的表情包图片包括图文表情包和图片表情包。
步骤S1中使用爬虫工具从社交平台爬取表情包图片,并表情包图片进行情感标注后,进行预处理,具体包括以下步骤:
S1.1:利用爬虫工具爬取主流社交平台的表情包数据,并对原始爬取结果进行清洗和过滤;
S1.2:按照积极、消极、中性三种情感极性,对表情包图片进行情感标注;
S1.3:识别每一张表情包图片中的对应文本,按照表情包图片中是否包含有文本,将表情包图片分为图文表情包和图片表情包,分别形成图文表情包数据集和图片表情包数据集;
S1.4:图片表情包数据集中每一张图片记为(I,p),其中I表示对应图片,p表示情感极性;图文表情包中每一张图片记为(I,s,p),其中I表示对应图片,s表示对应文本,p表示情感极性,p{积极,中性,消极};
S1.5:所有表情包图片进行数据预处理,为了避免表情包图片的文本内容对图像特征的影响,为表情包图片的文本内容添加水印进行遮盖。
步骤S1.3中识别每一张表情包图片中的对应文本,具体为:
利用OCR文本识别技术,识别每一张表情包图片中的对应文本,如果OCR文本识别技术抽取得到的文本长度小于1,则认为该表情包图片中没有包含文本,该表情包图片为图片表情包;如果OCR文本识别技术抽取得到的文本长度不小于1,则认为该表情包图片中包含文本,该表情包图片为图文表情包。
步骤S2中获取步骤S1爬取到的表情包图片的语义信息,得到每张表情包图片对应的文本信息特征向量表示,具体为:
对图文表情包使用OCR技术识别表情包上的文本;
对图片表情包使用图片描述文本生成模型生成图片表情包对应的文本描述,所述图片描述文本生成模型基于图文表情包数据集训练,用于为图片表情包数据集中的每一张图片生成一句文本描述;
将图文表情包上的文本和图片表情包的文本描述经过预训练语言模型,得到每张表情包图片对应的文本信息特征向量表示。
所述图片描述文本生成模型为图片表情包数据集中的每一张图片生成一句描述文本,具体为:
划分图文表情包数据集为训练集和测试集,其中训练集占70%,测试集占30%;为了抽取图文表情包的文字信息,利用OCR文本识别技术识别图文表情包中包含的文本内容,为了避免图文表情包中文字信息对图像信息的干扰,为图文表情包中的文字部分添加水印;
图片描述文本生成模型采用编码器-解码器结构,编码器部分采用ImageNet数据集的ResNet152预训练模型,将预训练深层ResNet152模型的全连接层替换为卷积层,输入图片经过预训练深层卷积模型后得到L个向量,每个向量对应D维的向量特征表示,对应图片中不同区域的视觉特征,记为a{a1,…,aL};
图片描述文本生成模型的解码器器部分采用LSTM模型,对于解码器时刻t的输入,解码器将上一个时刻的隐藏层状态ht-1和视觉特征a{a1,…,aL}映射为zt:
zt=φ({ai},αti})
其中,ht-1为LSTM模型输出的上一个时刻的隐藏层状态,αti为t时刻视觉特征ai对应的权重,fatt和φ为注意力层。利用zt、循环神经网络在t时刻的隐藏层状态ht及t-1时刻单词yt-1计算t时刻预测单词的概率分布
其中,L1、E、Lh、Lz均为可学习的参数,为开始时刻至t-1时刻的单词序列。
训练模型时,采用负对数似然损失函数作为损失函数,采用BLEU作为评价指标,使用随机梯度下降的方式更新参数;选取在测试集上BLEU得分最高的模型作为训练好的图片描述文本生成模型,将图片表情包数据集中的每一张图片输入图片描述文本生成模型,生成图片对应的文本描述。
所述经过预训练语言模型,得到每张表情包图片对应的文本信息特征向量表示,具体为:
预训练语言模型的输入句子为图文表情包上的文本或图片表情包的文本描述,由n个单词构成的单词序列,记为sw1,w2,…,wn};在单词序列的头尾加入“[CLS]”以及“[SEP”两个特殊标记,得到预训练语言模型的输入序列s′={[CLS],w1,w2,…,wn,SEP]};
预训练语言模型采用BERT模型,输入序列经过BERT模型,得到768维向量的向量序列抽取“[CLS]”标记对应隐含特征向量V[CLS],经过一层全连接层,得到表情包文本特征向量表示B(s):
B(s)=tanh(EBV[CLS]+b1)
其中,WB和b1为可学习的参数。
步骤S3中获取步骤S1爬取到的表情包图片的视觉特征,得到每张表情包图片对应的视觉特征向量表示,具体为:
将表情包图片经过预训练深层卷积模型,抽取得到对应的是视觉特征向量表示,预训练深层卷积模型采用VGG19在ImageNet上的预训练模型,表情包图片经过VGG19模型,VGG19模型中fc7层的4096维隐含向量输出XI经过一层全连接层,得到表情包图片的视觉特征向量表示V(I):
V(I)=tanh(WIXI+b2)
其中,WI和b2为可学习的参数。
步骤S4中所述文本信息特征向量表示和视觉特征向量表示经多模态融合,得到多模态融合特征向量表示,具体为:
多模态融合模块采用Transformer模型,文本特征向量B(s)和视觉特征向量V(I)经过Transformer模型得到多模态特征向量表示T(I,s):
MATT(I,s)=Wm[ATT1(I,s),…,ATTm(I,s)]T
其中,ATT(I,s表示经过Transformer模型单次注意力层的输出,MATT(I,s)表示经过Transformer模型多头注意层的输出,d为文本信息特征向量B(s)的向量维度,WQ、WK、WV、Wm为可学习的参数,softmax为激活函数;
Th(I,s)=LayerNorm(B(s)+MATT(I,s))
其中,Th(I,s)表示经过Transformer模型第一次残差连接和归一化处理的输出,LayerNorm表示层归一化处理;
T(I,s)=LayerNorm(B(s)+GeLU(WTTh(I,s)+b3))
其中,ET、b3为可学习的参数,GeLU为激活函数。
步骤S5中所述多模态融合特征向量表示经过分类器得到情感识别结果,选取置信度最高的情感识别结果作为预测的情感,具体为:
S5.1:多模态融合特征向量表示T(I,s)经过单层全连接层,得到3维隐含向量表示;
S5.2:步骤S5.1得到的3维隐含向量表示经过softmax激活函数,得到情感极性的概率分布,选择置信度最高的情感极性作为预测的表情包情感极性。
相同或相似的标号对应相同或相似的部件;
附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制;
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。
Claims (7)
1.一种面向社交平台表情包的多模态情感分析方法,其特征在于,包括以下步骤:
S1:使用爬虫工具从社交平台爬取表情包图片,并对表情包图片进行情感标注后,进行预处理;
S2:获取步骤S1爬取到的表情包图片的语义信息,得到每张表情包图片对应的文本信息特征向量表示;
S3:获取步骤S1爬取到的表情包图片的视觉特征,得到每张表情包图片对应的视觉特征向量表示;
S4:所述文本信息特征向量表示和视觉特征向量表示经多模态融合,得到多模态融合特征向量表示;
S5:所述多模态融合特征向量表示经过分类器得到情感识别结果,选取置信度最高的情感识别结果作为预测的情感;
步骤S2中获取步骤S1爬取到的表情包图片的语义信息,得到每张表情包图片对应的文本信息特征向量表示,具体为:
对图文表情包使用OCR技术识别表情包上的文本;
对图片表情包使用图片描述文本生成模型生成图片表情包对应的文本描述,所述图片描述文本生成模型基于图文表情包数据集训练,用于为图片表情包数据集中的每一张图片生成一句文本描述;
将图文表情包上的文本和图片表情包的文本描述经过预训练语言模型,得到每张表情包图片对应的文本信息特征向量表示;
所述图片描述文本生成模型为图片表情包数据集中的每一张图片生成一句描述文本,具体为:
划分图文表情包数据集为训练集和测试集,其中训练集占70%,测试集占30%,为了抽取图文表情包的文字信息,利用OCR文本识别技术识别图文表情包中包含的文本内容,为了避免图文表情包中文字信息对图像信息的干扰,为图文表情包中的文字部分添加水印;
图片描述文本生成模型采用编码器-解码器结构,编码器部分采用预训练深层卷积模型,将预训练深层卷积模型的全连接层替换为卷积层,输入图片经过预训练深层卷积模型后得到L个向量表示,对应图片中不同区域的视觉特征,记为a{a1,…,aL},解码器部分为循环神经网络,并引入了注意力机制以捕捉图片中的重要区域;
训练模型时,采用负对数似然损失函数作为损失函数,采用BLEU作为评价指标,使用随机梯度下降的方式更新参数;
选取在测试集上BLEU得分最高的模型作为训练好的图片描述文本生成模型,将图片表情包数据集中的每一张图片输入图片描述文本生成模型,生成图片对应的文本描述;
所述循环神经网络用于预测当前单词的分布概率,同时引入了注意力机制用以捕捉图片中的重要区域,具体为:
对于解码器时刻t的输入,解码器将上一个时刻的隐藏层状态ht-1和视觉特征a{a1,…,aL}映射为zt:
zt=φ({ai},αti})
其中,ht-1为循环神经网络输出的上一个时刻的隐藏层状态,αti为t时刻视觉特征ai对应的权重,fatt和φ为注意力层,利用zt、循环神经网络在t时刻的隐藏层状态ht及t-1时刻单词yt-1计算t时刻预测单词的概率分布
其中,L1、E、Lh、Lz均为学习的参数,为开始时刻至t-1时刻的单词序列。
2.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法,其特征在于,步骤S1中使用爬虫工具从社交平台爬取表情包图片,并对表情包图片进行情感标注后,进行预处理,具体包括以下步骤:
S1.1:利用爬虫工具爬取主流社交平台的表情包数据,并对原始爬取结果进行清洗和过滤;
S1.2:按照积极、消极、中性三种情感极性,对表情包图片进行情感标注;
S1.3:识别每一张表情包图片中的对应文本,按照表情包图片中是否包含有文本,将表情包图片分为图文表情包和图片表情包,分别形成图文表情包数据集和图片表情包数据集;
S1.4:图片表情包数据集中每一张图片记为(I,p),其中I表示对应图片,p表示情感极性;图文表情包中每一张图片记为(I,s,p),其中I表示对应图片,s表示对应文本,p表示情感极性;
S1.5:所有表情包图片进行数据预处理,为了避免表情包图片的文本内容对图像特征的影响,为表情包图片的文本内容添加水印进行遮盖。
3.根据权利要求2所述的面向社交平台表情包的多模态情感分析方法,其特征在于,步骤S1.3中识别每一张表情包图片中的对应文本,具体为:
利用OCR文本识别技术,识别每一张表情包图片中的对应文本,如果OCR文本识别技术抽取得到的文本长度小于1,则认为该表情包图片中没有包含文本,该表情包图片为图片表情包;如果OCR文本识别技术抽取得到的文本长度不小于1,则认为该表情包图片中包含文本,该表情包图片为图文表情包。
4.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法,其特征在于,所述经过预训练语言模型,得到每张表情包图片对应的文本信息特征向量表示,具体为:
预训练语言模型的输入句子为图文表情包上的文本或图片表情包的文本描述,由n个单词构成的单词序列,记为sw1,w2,…,wn};在单词序列的头尾加入“[CLS]”以及“[SEP”两个标记,得到预训练语言模型的输入序列s′={[CLS],w1,w2,…,wn,SEP]};
预训练语言模型采用BERT模型,输入序列经过BERT模型,得到768维向量的向量序列抽取“[CLS]”标记对应隐含特征向量V[CLS],经过一层全连接层,得到表情包文本特征向量表示B(s):
B(s)=tanh(WBV[CLS]+b1)
其中,WB和b1为学习的参数。
5.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法,其特征在于,步骤S3中获取步骤S1爬取到的表情包图片的视觉特征,得到每张表情包图片对应的视觉特征向量表示,具体为:
将表情包图片经过预训练深层卷积模型,抽取得到对应的是视觉特征向量表示,预训练深层卷积模型采用VGG19在ImageNet上的预训练模型,表情包图片经过VGG19模型,VGG19模型中fc7层的4096维隐含向量输出XI经过一层全连接层,得到表情包图片的视觉特征向量表示V(I):
V(I)=tanh(WIXI+b2)
其中,WI和b2为学习的参数。
6.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法,其特征在于,步骤S4中所述文本信息特征向量表示和视觉特征向量表示经多模态融合,得到多模态融合特征向量表示,具体为:
多模态融合模块采用Transformer模型,文本特征向量B(s)和视觉特征向量V(I)经过Transformer模型得到多模态特征向量表示T(I,s):
MATT(I,s)=Wm[ATT1(I,s),…,ATTm(I,s)]T
其中,ATTi(I,s)表示经过Transformer模型单次注意力层的输出,MATT(I,s)表示经过Transformer模型多头注意层的输出,d为文本信息特征向量B(s)的向量维度,WQ、WK、WV、Wm为学习的参数,softmax为激活函数;
Th(I,s)=LayerNorm(B(s)+MATT(I,s))
其中,Th(I,s)表示经过Transformer模型第一次残差连接和归一化处理的输出,LayerNorm表示层归一化处理;
T(I,s)=LayerNorm(B(s)+GeLU(WTTh(I,s)+b3))
其中,WT、b3为学习的参数,GeLU为激活函数。
7.根据权利要求1所述的面向社交平台表情包的多模态情感分析方法,其特征在于,步骤S5中所述多模态融合特征向量表示经过分类器得到情感识别结果,选取置信度最高的情感识别结果作为预测的情感,具体为:
S5.1:多模态融合特征向量表示T(I,s)经过单层全连接层,得到3维隐含向量表示;
S5.2:步骤S5.1得到的3维隐含向量表示经过softmax激活函数,得到情感极性的概率分布,选择置信度最高的情感极性作为预测的表情包情感极性。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011600096.7A CN112651448B (zh) | 2020-12-29 | 2020-12-29 | 一种面向社交平台表情包的多模态情感分析方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011600096.7A CN112651448B (zh) | 2020-12-29 | 2020-12-29 | 一种面向社交平台表情包的多模态情感分析方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112651448A CN112651448A (zh) | 2021-04-13 |
CN112651448B true CN112651448B (zh) | 2023-09-15 |
Family
ID=75364345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011600096.7A Active CN112651448B (zh) | 2020-12-29 | 2020-12-29 | 一种面向社交平台表情包的多模态情感分析方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112651448B (zh) |
Families Citing this family (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113434721A (zh) * | 2021-06-30 | 2021-09-24 | 平安科技(深圳)有限公司 | 表情包分类方法、装置、计算机设备和存储介质 |
CN113722477B (zh) * | 2021-08-09 | 2023-09-19 | 北京智慧星光信息技术有限公司 | 基于多任务学习的网民情绪识别方法、系统及电子设备 |
CN113627550A (zh) * | 2021-08-17 | 2021-11-09 | 北京计算机技术及应用研究所 | 一种基于多模态融合的图文情感分析方法 |
CN113704502B (zh) * | 2021-08-27 | 2023-04-21 | 电子科技大学 | 社交媒体中基于多模态信息融合账号位置识别方法 |
CN113449085B (zh) * | 2021-09-02 | 2021-11-26 | 华南师范大学 | 多模态情感分类方法、装置以及电子设备 |
CN113761204B (zh) * | 2021-09-06 | 2023-07-28 | 南京大学 | 一种基于深度学习的emoji文本情感分析方法及系统 |
CN113761377B (zh) * | 2021-09-13 | 2023-12-15 | 中国科学院新疆理化技术研究所 | 基于注意力机制多特征融合的虚假信息检测方法、装置、电子设备及存储介质 |
CN113723112B (zh) * | 2021-11-02 | 2022-02-22 | 天津海翼科技有限公司 | 多模态情感分析预测方法、装置、设备及存储介质 |
CN114169450A (zh) * | 2021-12-10 | 2022-03-11 | 同济大学 | 社交媒体数据多模态态度分析方法 |
CN114786057A (zh) * | 2022-03-29 | 2022-07-22 | 广州埋堆堆科技有限公司 | 一种基于深度学习及表情包数据集的视频弹幕生成系统 |
CN115017900B (zh) * | 2022-04-24 | 2024-05-10 | 北京理工大学 | 一种基于多模态多去偏见的对话情感识别方法 |
CN114969458B (zh) * | 2022-06-28 | 2024-04-26 | 昆明理工大学 | 基于文本指导的层级自适应融合的多模态情感分析方法 |
CN115601553B (zh) * | 2022-08-15 | 2023-08-18 | 杭州联汇科技股份有限公司 | 一种基于多层级图片描述数据的视觉模型预训练方法 |
CN115496077B (zh) * | 2022-11-18 | 2023-04-18 | 之江实验室 | 一种基于模态观察和评分的多模态情感分析方法和装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108764268A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的图文多模态情感识别方法 |
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN110852368A (zh) * | 2019-11-05 | 2020-02-28 | 南京邮电大学 | 全局与局部特征嵌入及图文融合的情感分析方法与系统 |
CN111259141A (zh) * | 2020-01-13 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的社交媒体语料情感分析方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
-
2020
- 2020-12-29 CN CN202011600096.7A patent/CN112651448B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019148898A1 (zh) * | 2018-02-01 | 2019-08-08 | 北京大学深圳研究生院 | 基于受限文本空间的对抗性跨媒体检索方法 |
CN108764268A (zh) * | 2018-04-02 | 2018-11-06 | 华南理工大学 | 一种基于深度学习的图文多模态情感识别方法 |
WO2020143137A1 (zh) * | 2019-01-07 | 2020-07-16 | 北京大学深圳研究生院 | 基于受限文本空间的多步自注意力跨媒体检索方法及系统 |
CN110852368A (zh) * | 2019-11-05 | 2020-02-28 | 南京邮电大学 | 全局与局部特征嵌入及图文融合的情感分析方法与系统 |
CN111259141A (zh) * | 2020-01-13 | 2020-06-09 | 北京工业大学 | 一种基于多模型融合的社交媒体语料情感分析方法 |
Non-Patent Citations (1)
Title |
---|
融合多标签和双注意力机制的图像语义理解模型;吴倩;应捷;黄影平;杨海马;胡文凯;;智能计算机与应用(01);第20-29页 * |
Also Published As
Publication number | Publication date |
---|---|
CN112651448A (zh) | 2021-04-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112651448B (zh) | 一种面向社交平台表情包的多模态情感分析方法 | |
CN110609891B (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
CN107609572B (zh) | 基于神经网络和迁移学习的多模态情感识别方法、系统 | |
CN109977416A (zh) | 一种多层次自然语言反垃圾文本方法及系统 | |
Xie et al. | Attention-based dense LSTM for speech emotion recognition | |
CN115329779B (zh) | 一种多人对话情感识别方法 | |
CN111738251A (zh) | 一种融合语言模型的光学字符识别方法、装置和电子设备 | |
CN111311364B (zh) | 基于多模态商品评论分析的商品推荐方法及系统 | |
CN114662497A (zh) | 一种基于协同神经网络的虚假新闻检测方法 | |
CN112149632A (zh) | 一种视频识别方法、装置及电子设备 | |
CN112800225A (zh) | 一种微博评论情绪分类方法和系统 | |
CN111581970A (zh) | 一种网络语境的文本识别方法、装置及存储介质 | |
Rwelli et al. | Gesture based Arabic sign language recognition for impaired people based on convolution neural network | |
Alon et al. | Deep-hand: a deep inference vision approach of recognizing a hand sign language using american alphabet | |
Khatun et al. | A systematic review on the chronological development of bangla sign language recognition systems | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
US11869130B2 (en) | Generating visual feedback | |
CN116661603A (zh) | 复杂人机交互场景下的多模态融合的用户意图识别方法 | |
Shurid et al. | Bangla sign language recognition and sentence building using deep learning | |
CN111046966A (zh) | 基于度量注意力机制的图像字幕生成方法 | |
CN115171673A (zh) | 一种基于角色画像的交流辅助方法、装置及存储介质 | |
Hewahi et al. | Impact of ethnic group on human emotion recognition using backpropagation neural network | |
CN111444787B (zh) | 一种性别约束的全智能化人脸表情识别方法及系统 | |
CN113642446A (zh) | 一种基于人脸动态情绪识别的检测方法和装置 | |
CN117150320B (zh) | 对话数字人情感风格相似度评价方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |