CN114626454A - 一种融合自监督学习和注意力机制的视觉情感识别方法 - Google Patents

一种融合自监督学习和注意力机制的视觉情感识别方法 Download PDF

Info

Publication number
CN114626454A
CN114626454A CN202210240956.3A CN202210240956A CN114626454A CN 114626454 A CN114626454 A CN 114626454A CN 202210240956 A CN202210240956 A CN 202210240956A CN 114626454 A CN114626454 A CN 114626454A
Authority
CN
China
Prior art keywords
feature
emotion
self
loss function
data set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210240956.3A
Other languages
English (en)
Inventor
徐向民
张莹莹
郭锴凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
South China University of Technology SCUT
Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Original Assignee
South China University of Technology SCUT
Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by South China University of Technology SCUT, Zhongshan Institute of Modern Industrial Technology of South China University of Technology filed Critical South China University of Technology SCUT
Priority to CN202210240956.3A priority Critical patent/CN114626454A/zh
Publication of CN114626454A publication Critical patent/CN114626454A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种融合自监督学习和注意力机制的视觉情感识别方法。所述方法包括以下步骤:构建情感识别模型,包括主干特征提取网络、情感识别分类器和旋转自监督分类器;构建自监督学习任务;构建情感分类任务;分别构建优化自监督学习任务和情感分类任务的第一损失函数和第二损失函数,构建总损失函数;通过总损失函数对自监督学习任务和情感分类任务进行优化,得到优化后的主干特征提取网络和情感计算分类器;获取待识别图像,输入优化的主干特征提取网络和情感计算分类器,完成视觉情感识别。本发明充分考虑了图像的全局和局部特征,通过注意力机制增强了特征表示,同时通过自监督辅助任务丰富了特征语义信息,从而提升了视觉情感分类的效果。

Description

一种融合自监督学习和注意力机制的视觉情感识别方法
技术领域
本发明涉及图像处理技术领域,具体为一种融合自监督学习和注意力机制的视觉情感识别方法。
背景技术
随着信息技术的迅速发展和互联网媒体的革命性转变,互联网已经成为现代社会进行信息交流的重要途径,人们更趋向于在社交媒体上发布图像来表达情感和观点,情感分析在人类感知、推理、决策、计划、创造和社交等诸多活动中起着不可或缺的作用,因此视觉情感分析也引起了研究人员的极大的关注。理解这种视觉内容传达的情感将有利于广泛的应用,如多媒体检索、广告推荐等。近年来,视觉情感分析任务取得了很大进展,这些任务试图挖掘图像中包含的情感。
对于视觉情感分析来说,如何提取有效判别特征是关键因素。在早期研究中通常使用手工提取的特征,包括颜色、成分、纹理等元素信息、低层次整体特征和形容词名词对等高层次特征。近年来,随着深度网络的快速发展,研究人员设计了很多深度学习模型来探索视觉中的情感信息,这种由深度模型提取出的特征具有更强的语义表示能力,相比于传统手工特征性能更好。
注意力机制最初被用于机器翻译,现在已成为神经网络领域的一个重要概念。在人工智能领域,注意力已成为神经网络结构的重要组成部分,并在自然语言处理、统计学习、语音和计算机视觉等领域有着大量的应用。注意力机制可以利用人类视觉机制进行直观解释。例如,视觉系统倾向于关注图像中辅助判断的部分信息,并忽略掉不相关的信息。同样,在涉及语言或视觉的问题中,输入的某些部分可能会比其他部分对决策更有帮助。例如,在翻译和总结任务中,输入序列中只有某些单词可能与预测下一个单词相关。
由于人类认知的主观性,图像的不同区域和内容可能对情感的唤起有不同的贡献。早期的研究经常从图像中提取全局特征,因此未能深入研究图像的不同区域可能触发不同情感的可能性。一些研究采用注意力机制来提取更有效的局部特征,但目前的大部分研究仍然没有细化每种情感对不同区域的反应或探索每种情感与情感感知区域之间的潜在关系。因此有效地为每种情感定位相关图像区域并捕获区域之间的依赖关系以帮助视觉情感分析仍具有挑战性。
自监督学习主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信号,通过这种构造的监督信息对网络进行训练,从而可以学习到对下游任务有价值的表征。对于自监督学习来说,主要有三类方法:基于上下文约束,例如单词顺序,图片各部分相对位置等;基于时序约束,例如基于帧的相似性,物体的多个视角等;基于对比约束,例如学习对两个事物的相似或不相似进行编码。
近年来关于视觉情感的研究中大多都使用了注意力机制来定位情感激发区域,以提升情感分类效果,但通过深度学习网络得到的特征中语义信息仍不够丰富,给数据集增加语义标签费时耗力,而仅实现图像情感标签要容易得多,使得视觉情感研究受到限制(WSCNet:Weakly Supervised Coupled Networks for Visual SentimentClassification and Detection)。
发明内容
本发明的目的在于提供一种融合自监督学习和注意力机制的视觉情感识别方法,以解决上述背景技术中提到的现有的基于深度学习的图片情感分类方法中情感特征语义信息有限,增加语义标签费时耗力的问题。
研究发现,通过自监督旋转分类任务,为图像语义特征学习提供了一个强大的监督信号,使得特征提取网络能够提取出图片中丰富的语义信息。本发明在情感分类主任务中增加自监督辅助任务,通过同一个特征提取网络提取图片特征,对其进行多任务学习,使得主干网络在有限的情感标签下能够提取图像中对象的类型、位置、姿势等更加丰富的语义特征,在主任务中基于通道和空间注意力机制强化特征,解决了在有限的情感标签下,情感特征语义信息有限的问题。
本发明的目的至少通过如下技术方案之一实现。
一种融合自监督学习和注意力机制的视觉情感识别方法,包括以下步骤:
S1、构建情感识别模型,包括主干特征提取网络、情感识别分类器和旋转自监督分类器;
S2、构建自监督学习任务;
S3、构建情感分类任务;
S4、分别构建优化自监督学习任务和情感分类任务的第一损失函数和第二损失函数,构建总损失函数;
S5、通过总损失函数对自监督学习任务和情感分类任务进行优化,得到优化后的主干特征提取网络和情感计算分类器;
S6、获取待识别图像,输入优化的主干特征提取网络和情感计算分类器,完成视觉情感识别。
进一步地,步骤S1中,主干特征提取网络的构建具体如下:
通过预训练得到训练好的卷积神经网络,将训练好的卷积神经网络的最后两层即全局平均池化层和全连接层去除,得到主干特征提取网络。
进一步地,步骤S2中,获取公开的原始数据集,对原始数据集中的图像进行扩充,包括翻转和转置操作,并对通过扩充操作得到的每一张图片补充相应的旋转角度标签,得到扩充数据集;
所述自监督学习任务包括以下步骤:
S2.1、通过主干特征提取网络提取扩充数据集中的图像样本的第一层次特征frot
S2.2、对第一层次特征frot进行下采样,生成特征向量drot,将特征向量drot输入到旋转自监督分类器中,计算图像样本的旋转角度。
进一步地,步骤S2.2中,将第一层次特征frot依次通过全局空间池化层和全连接层,生成特征向量drot,将特征向量drot输入到旋转自监督分类器中,通过softmax函数计算输入图像样本的旋转角度预测概率
Figure BDA0003541633170000031
具体如下:
Figure BDA0003541633170000032
其中,i=1,…,Nrot,Nrot表示扩充数据集中图片的总数,r表示第r个旋转标签,
Figure BDA0003541633170000033
表示经过旋转后的第i张图片,
Figure BDA0003541633170000034
表示经过旋转后的第i张图片对应第r个旋转标签的概率。
进一步地,步骤S3中,对所述原始数据集中的每张图像进行随机旋转裁剪归一化预处理,得到尺寸相同的图像,得到预处理数据集;
所述情感分类任务包括以下步骤:
S3.1、通过主干特征提取网络提取预处理数据集中的图像样本的第二层次特征f1
S3.2、通过空间和通道注意力对第二层次特征f1进行强化表示,得到注意力强化特征;
S3.3、将注意力强化特征与第二层次特征f1耦合融合,得到判别性特征,将判别性特征输入到情感识别分类器中计算情感类别。
进一步地,步骤S3.2包括以下步骤:
S3.2.1、通过卷积操作压缩输入第二层次特征f1的空间维度,得到第三层次特征f2
S3.2.2、对第三层次特征f2在空间维度上分别进行平均池化层和最大池化层操作,得到空间维度上的平均池化层特征
Figure BDA0003541633170000035
和空间维度上的最大池化层特征
Figure BDA0003541633170000036
将空间维度上的平均池化层特征
Figure BDA0003541633170000037
和空间维度上的最大池化层特征
Figure BDA0003541633170000038
输入到共享网络即多层感知器中生成通道注意图,对通过多层感知器后的通道注意图进行逐元素求和,得到通道注意力强化特征M1,计算公式如下:
Figure BDA0003541633170000041
其中,sigmoid为激活函数,MLP表示多层感知器;
S3.2.3、对第三层次特征f2在通道维度上分别进行平均池化层和最大池化层操作,得到通道维度上的平均池化层特征
Figure BDA0003541633170000042
和通道维度上的最大池化层特征
Figure BDA0003541633170000043
并将所得到的通道维度上的平均池化层特征
Figure BDA0003541633170000044
和通道维度上的最大池化层特征
Figure BDA0003541633170000045
连接起来以得到特征描述符,将特征描述符输入到一个卷积层中得到空间注意力强化特征M2,计算公式如下:
Figure BDA0003541633170000046
其中,sigmoid为激活函数,conv表示卷积操作。
进一步地,步骤S3.3包括以下步骤:
S3.3.1、将第三层次特征f2、通道注意力强化特征M1和空间注意力强化特征M2三者相乘,得到第四层次特征f3,与第三层次特征f2相比,第四层次特征f3含有情感激活区域的位置和有效信息;
S3.3.2、将第二层次特征f1中的每个特征图都与第四层次特征f3逐元素相乘,得到耦合特征图u=[u1,u2,……,un],其中,n表示特征的通道数,un表示耦合后的第n通道特征,公式如下:
Figure BDA0003541633170000047
其中,
Figure BDA0003541633170000048
表示逐元素相乘;
S3.3.3、将第二层次特征f1和耦合特征图u连接起来并输入到全局平均池化层中,得到第五层次特征f4,具有更丰富的语义信息,公式如下:
f4=GAP(f1;u),
其中,GAP表示全局平均池化层操作;
S3.3.4、将第五层次特征f4通过全连接层生成判别性特征向量d,然后通过softmax函数计算输入图像的情感类别预测概率p(yk=c),其中,yk表示预处理数据集中第k张图片,c表示第c个情感标签;计算公式如下:
Figure BDA0003541633170000049
其中,j=1,2,……,m,m表示情感标签总量,dj表示判别性特征向量d的第j个值,dc表示判别性特征向量d中对应于情感标签c的值。
进一步地,步骤S4中,通过最小化交叉熵损失函数优化自监督学习任务,第一损失函数Lrot具体如下:
Figure BDA0003541633170000051
其中,i表示扩充数据集中的第i张图片,Nrot表示扩充数据集中图片的总数,r表示第r个旋转标签,R表示旋转标签的总数,
Figure BDA0003541633170000052
表示经过旋转后的第i张图片,
Figure BDA0003541633170000053
表示经过旋转后的第i张图片对应第r个旋转标签的概率,
Figure BDA0003541633170000054
表示等式成立时为1,否则为0。
进一步地,步骤S4中,通过最小化交叉熵损失函数优化情感分类任务,第二损失函数Lcls具体如下:
Figure BDA0003541633170000055
其中,k表示原始数据集中的第k张图片,N表示原始数据集中图片的总数,c表示第c个情感标签,C表示情感标签总量,p(yk=c)表示原始数据集中的第k张图片对应第c个情感标签的概率;1(yk=c)表示等式成立时为1,否则为0。
进一步地,步骤S4中,联合第一损失函数Lrot和第二损失函数Lcls以同时优化自监督学习任务和情感分类任务,通过自监督学习任务,使得优化后的主干特征提取网络能够提取到语义更丰富的信息,进一步提高情感分类的精度;构建总损失函数L,并通过随机梯度下降最小化总损失函数L,具体如下:
L=Lcls+γLrot
其中,γ表示第一损失函数Lrot的约束系数。
与现有技术相比,本发明的有益效果是:
通过深度残差网络提取图像特征;通过空间和通道注意力机制处理强化特征,并与原始特征耦合,使得特征中包含图片整体和局部信息;增加自监督辅助任务,使得通过主干网络能够准确的定位到图像语义信息丰富的区域,减轻了标签负担,并使得提取的特征信息更具判别性,提升了视觉情感分类的效果。
附图说明
图1为本发明实施例中情感识别模型的整体结构图;
图2为本发明自监督模块的结构图;
图3为本发明注意力模块结构图;
图4为本发明情感分类模块结构图。
具体实施方法
下面将结合本发明实施例中的附图,对本发明实施例中的技术方法进行清楚、完整的描述。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例1:
一种融合自监督学习和注意力机制的视觉情感识别方法,如图1所示,包括以下步骤:
S1、构建情感识别模型,包括主干特征提取网络、情感识别分类器和旋转自监督分类器;
主干特征提取网络的构建具体如下:
本实施例中,通过预训练得到训练好的ResNet-101网络,将训练好的ResNet-101网络的最后两层即全局平均池化层和全连接层去除,得到主干特征提取网络。
S2、构建自监督学习任务;
获取公开的原始数据集,对原始数据集中的图像进行扩充,包括使用翻转和转置操作,并对通过扩充操作得到的每一张图片补充相应的旋转角度标签,得到扩充数据集;
本实施例中,对于顺时针90度旋转,首先转置图像,然后垂直翻转(倒置);对于顺时针180度旋转,先垂直翻转图像,然后水平翻转(左右翻转);对于顺时针270度旋转,首先垂直翻转图像,然后将其转置;对数据集中的每一张图片分别顺时针旋转0度,90度,180度,270度,并对第i种扩充操作得到的图片补充第i个标签,标签分别为0,1,2,3。
本发明使用图片旋转角度预测即自监督学习任务作为情感分类任务中的辅助任务,研究发现,自监督学习任务使得主干特征提取网络能够迅速准确的定位到图像语义丰富的区域,使主干特征提取网络能够学习到图像中对象的类型、位置、姿势等丰富的语义特征,提取的特征判别性更强,具有更可转移的视觉表示。通过自我监督,本发明可以提高视觉情感识别能力。
通过增加自监督学习任务,对图像的旋转角度进行识别,使得主干特征提取网络提取到的特征含有更加丰富的语义信息,提取到的特征更具判别性,以增加情感分类任务的情感分类精度;所述自监督学习任务包括以下步骤:
S2.1、通过主干特征提取网络提取扩充数据集中的图像样本的第一层次特征frot
S2.2、对第一层次特征frot进行下采样,生成特征向量drot,将特征向量drot输入到旋转自监督分类器中,计算图像样本的旋转角度。
如图2所示,将第一层次特征frot依次通过全局空间池化层和全连接层,生成特征向量drot,将特征向量drot输入到旋转自监督分类器中,通过softmax函数计算输入图像样本的旋转角度预测概率
Figure BDA0003541633170000071
具体如下:
Figure BDA0003541633170000072
其中,i=1,…,Nrot,Nrot表示扩充数据集中图片的总数,r表示第r个旋转标签,
Figure BDA0003541633170000073
表示经过旋转后的第i张图片,
Figure BDA0003541633170000074
表示经过旋转后的第i张图片对应第r个旋转标签的概率。
S3、构建情感分类任务;
对所述原始数据集中的每张图像进行随机旋转裁剪归一化预处理,得到尺寸相同的图像,调整为448×448×3,得到预处理数据集;
本实施例中,扩充数据集的大小是预处理数据集的4倍。
为了获得更具判别性的图像特征,首先将图像输入到主干特征提取网络中,提取图像的特征,然后将特征输入到基于注意力机制的情感分类任务中,通过空间注意力机制和通道注意力机制得到强化特征,使得强化后的特征包含情感激发区域的信息,能够关注到图像中更能凸显情感的区域以及选择更重要的通道特征;所述情感分类任务包括以下步骤:
S3.1、通过主干特征提取网络提取预处理数据集中的图像样本的第二层次特征f1
S3.2、如图3所示,通过空间和通道注意力对第二层次特征f1进行强化表示,得到注意力强化特征,包括以下步骤:
S3.2.1、通过卷积操作压缩输入第二层次特征f1的空间维度,得到第三层次特征f2
S3.2.2、对第三层次特征f2在空间维度上分别进行平均池化层和最大池化层操作,得到空间维度上的平均池化层特征
Figure BDA0003541633170000075
和空间维度上的最大池化层特征
Figure BDA0003541633170000076
将空间维度上的平均池化层特征
Figure BDA0003541633170000077
和空间维度上的最大池化层特征
Figure BDA0003541633170000078
输入到共享网络即多层感知器中生成通道注意图,对通过多层感知器后的通道注意图进行逐元素求和,得到通道注意力强化特征M1,计算公式如下:
Figure BDA0003541633170000079
其中,sigmoid为sigmoid激活函数,MLP表示多层感知器;
S3.2.3、对第三层次特征f2在通道维度上分别进行平均池化层和最大池化层操作,得到通道维度上的平均池化层特征
Figure BDA00035416331700000710
和通道维度上的最大池化层特征
Figure BDA00035416331700000711
并将所得到的通道维度上的平均池化层特征
Figure BDA00035416331700000712
和通道维度上的最大池化层特征
Figure BDA0003541633170000081
连接起来以得到特征描述符,将特征描述符输入到一个卷积层中得到空间注意力强化特征M2,计算公式如下:
Figure BDA0003541633170000082
其中,sigmoid为sigmoid激活函数,conv表示卷积操作。
S3.3、如图3和图4所示,将注意力强化特征与第二层次特征f1耦合融合,得到判别性特征,将判别性特征输入到情感识别分类器中计算情感类别,包括以下步骤:
S3.3.1、将第三层次特征f2、通道注意力强化特征M1和空间注意力强化特征M2三者相乘,得到第四层次特征f3,与第三层次特征f2相比,第四层次特征f3含有情感激活区域的位置和有效信息;
S3.3.2、将第二层次特征f1中的每个特征图都与第四层次特征f3逐元素相乘,得到耦合特征图u=[u1,u2,……,un],其中,n表示特征的通道数,un表示耦合后的第n通道特征,公式如下:
Figure BDA0003541633170000083
其中,
Figure BDA0003541633170000084
表示逐元素相乘;
S3.3.3、将第二层次特征f1和耦合特征图u连接起来并输入到全局平均池化层中,得到第五层次特征f4,具有更丰富的语义信息,公式如下:
f4=GAP(f1;u),
其中,GAP表示全局平均池化层操作;
S3.3.4、将第五层次特征f4通过全连接层生成判别性特征向量d,然后通过softmax函数计算输入图像的情感类别预测概率p(yk=c),其中,yk表示数据集中第k张图片,c表示第c个情感标签;计算公式如下:
Figure BDA0003541633170000085
其中,j=1,2,……,m,m表示情感标签总量,dj表示判别性特征向量d的第j个值,dc表示判别性特征向量d中对应于情感标签c的值。
S4、分别构建优化自监督学习任务和情感分类任务的第一损失函数和第二损失函数,构建总损失函数;
通过最小化交叉熵损失函数优化自监督学习任务,第一损失函数Lrot具体如下:
Figure BDA0003541633170000086
其中,i表示扩充数据集中的第i张图片,Nrot表示扩充数据集中图片的总数,r表示第r个旋转标签,R表示旋转标签的总数,
Figure BDA0003541633170000091
表示经过旋转后的第i张图片,
Figure BDA0003541633170000092
表示经过旋转后的第i张图片对应第r个旋转标签的概率。
Figure BDA0003541633170000093
表示等式成立时为1,否则为0。
通过最小化交叉熵损失函数优化情感分类任务,第二损失函数Lcls具体如下:
Figure BDA0003541633170000094
其中,k表示原始数据集中的第k张图片,N表示原始数据集中图片的总数,c表示第c个情感标签,C表示情感标签总量,p(yk=c)表示原始数据集中的第k张图片对应第c个情感标签的概率;1(yk=c)表示等式成立时为1,否则为0。
联合第一损失函数Lrot和第二损失函数Lcls以同时优化自监督学习任务和情感分类任务,通过自监督学习任务,使得优化后的主干特征提取网络能够提取到语义更丰富的信息,进一步提高情感分类的精度;构建总损失函数L,并通过随机梯度下降最小化总损失函数L,具体如下:
L=Lcls+γLrot
其中,γ表示第一损失函数Lrot的约束系数。
S5、通过总损失函数对自监督学习任务和情感分类任务进行优化,得到优化后的主干特征提取网络和情感计算分类器;
S6、获取待识别图像,输入优化的主干特征提取网络和情感计算分类器,完成视觉情感识别。
本实施例中,在数据集Twitter I上进行了评估,以证明本发明的有效性;数据集采用随机划分的形式划分为训练集80%,测试集20%。
本实施例中,特征提取网络为经过预训练的ResNet-101,输入batch-size设置为4,该模型中均采用随机梯度下降算法进行优化,权重衰减设置为0.0005,特征提取网络的学习率设置为0.0001,旋转分类任务和情感分类任务的学习率设置为0.01,γ设置为1。
本实施例中,为证明本发明多提出方法的有效性,在相同的数据集上对比了多种不同的图片情感分类方法,主要对比方法说明如下:
SPN来自文献1(详见:Y.Zhu,Y.Zhou,Q.Ye,Q.Qiu,and J.Jiao,“Soft proposalnetworks for weakly supervised object localization,”inProc.Int.Conf.Comput.Vis.,2017,pp.1859–1868.);
WILDCAT来自文献2(详见:T.Durand,T.Mordan,N.Thome,and M.Cord,“Wildcat:Weakly supervised learning of deep ConvNets for image classification,pointwise localization and segmentation,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit,2017,pp.5957–5966.);
CAM_Res101来自文献3(详见:B.Zhou,A.Khosla,
Figure BDA0003541633170000102
Lapedriza,A.Oliva,andA.Torralba,“Learning deep featuresfor discriminative localization,”inProc.IEEE Conf.Comput.Vis.Pattern Recognit,2016,pp.2921–2929.);
WSCNet来自文献4(详见:D.She,J.Yang,M.-M.Cheng,Y.-K.Lai,P.L.Rosin andL.Wang,"WSCNet:Weakly Supervised Coupled Networks for Visual SentimentClassification and Detection,"in IEEE Transactions on Multimedia,vol.22,no.5,pp.1358-1371,May 2020,doi:10.1109/TMM.2019.2939744.)。
实施例2:
本实施例中,与实施例1的不同之处在于,在数据集Twitter II上进行了评估,以证明本发明的有效性。
实施例3:
本实施例中,与实施例1的不同之处在于,在数据集EmotionROI上进行了评估,以证明本发明的有效性。
表1给出了本发明与其他对比方法在情感图像数据集Twitter I、Twitter II和EmotionROI上的分类结果,分类结果以准确率进行评估,准确率定义为正确分类的样本数量占总样本数数量的比例。
由表1可知,本发明在Twitter I上的分类准确率为84.98%,在Twitter II上的分类准确率为83.19%,在EmotionROI上的分类准确率为59.43%,对比其他模型,本发明在这三个数据集上的分类准确率均有所提高,可以说明在有限的标签下,本发明能够发现语义更加丰富的信息,提取到更具判别性的特征,从而提升图片情感分类效果。
表1不同方法在Twitter I、Twitter II和EmotionROI数据集上的分类准确率
Figure BDA0003541633170000101
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

Claims (10)

1.一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,包括以下步骤:
S1、构建情感识别模型,包括主干特征提取网络、情感识别分类器和旋转自监督分类器;
S2、构建自监督学习任务;
S3、构建情感分类任务;
S4、分别构建优化自监督学习任务和情感分类任务的第一损失函数和第二损失函数,构建总损失函数;
S5、通过总损失函数对自监督学习任务和情感分类任务进行优化,得到优化后的主干特征提取网络和情感计算分类器;
S6、获取待识别图像,输入优化的主干特征提取网络和情感计算分类器,完成视觉情感识别。
2.根据权利要求1所述的一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,步骤S1中,主干特征提取网络的构建具体如下:
通过预训练得到训练好的卷积神经网络,将训练好的卷积神经网络的最后两层即全局平均池化层和全连接层去除,得到主干特征提取网络。
3.根据权利要求1所述的一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,步骤S2中,获取公开的原始数据集,对原始数据集中的图像进行扩充,包括翻转和转置操作,并对通过扩充操作得到的每一张图片补充相应的旋转角度标签,得到扩充数据集;
所述自监督学习任务包括以下步骤:
S2.1、通过主干特征提取网络提取扩充数据集中的图像样本的第一层次特征frot
S2.2、对第一层次特征frot进行下采样,生成特征向量drot,将特征向量drot输入到旋转自监督分类器中,计算图像样本的旋转角度。
4.根据权利要求3所述的一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,步骤S2.2中,将第一层次特征frot依次通过全局空间池化层和全连接层,生成特征向量drot,将特征向量drot输入到旋转自监督分类器中,通过softmax函数计算输入图像样本的旋转角度预测概率
Figure FDA0003541633160000011
具体如下:
Figure FDA0003541633160000012
其中,i=1,...,Nrot,Nrot表示扩充数据集中图片的总数,r表示第r个旋转标签,
Figure FDA0003541633160000021
表示经过旋转后的第i张图片,
Figure FDA0003541633160000022
表示经过旋转后的第i张图片对应第r个旋转标签的概率。
5.根据权利要求3所述的一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,步骤S3中,对所述原始数据集中的每张图像进行随机旋转裁剪归一化预处理,得到尺寸相同的图像,得到预处理数据集;
所述情感分类任务包括以下步骤:
S3.1、通过主干特征提取网络提取预处理数据集中的图像样本的第二层次特征f1
S3.2、通过空间和通道注意力对第二层次特征f1进行强化表示,得到注意力强化特征;
S3.3、将注意力强化特征与第二层次特征f1耦合融合,得到判别性特征,将判别性特征输入到情感识别分类器中计算情感类别。
6.根据权利要求5所述的一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,步骤S3.2包括以下步骤:
S3.2.1、通过卷积操作压缩输入第二层次特征f1的空间维度,得到第三层次特征f2
S3.2.2、对第三层次特征f2在空间维度上分别进行平均池化层和最大池化层操作,得到空间维度上的平均池化层特征
Figure FDA0003541633160000023
和空间维度上的最大池化层特征
Figure FDA0003541633160000024
将空间维度上的平均池化层特征
Figure FDA0003541633160000025
和空间维度上的最大池化层特征
Figure FDA0003541633160000026
输入到共享网络即多层感知器中生成通道注意图,对通过多层感知器后的通道注意图进行逐元素求和,得到通道注意力强化特征M1,计算公式如下:
Figure FDA0003541633160000027
其中,sigmoid为激活函数,MLP表示多层感知器;
S3.2.3、对第三层次特征f2在通道维度上分别进行平均池化层和最大池化层操作,得到通道维度上的平均池化层特征
Figure FDA0003541633160000028
和通道维度上的最大池化层特征
Figure FDA0003541633160000029
并将所得到的通道维度上的平均池化层特征
Figure FDA00035416331600000210
和通道维度上的最大池化层特征
Figure FDA00035416331600000211
连接起来以得到特征描述符,将特征描述符输入到一个卷积层中得到空间注意力强化特征M2,计算公式如下:
Figure FDA00035416331600000212
其中,sigmoid为激活函数,conv表示卷积操作。
7.根据权利要求6所述的一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,步骤S3.3包括以下步骤:
S3.3.1、将第三层次特征f2、通道注意力强化特征M1和空间注意力强化特征M2三者相乘,得到第四层次特征f3
S3.3.2、将第二层次特征f1中的每个特征图都与第四层次特征f3逐元素相乘,得到耦合特征图u=[u1,u2,......,un],其中,n表示特征的通道数,un表示耦合后的第n通道特征,公式如下:
Figure FDA0003541633160000031
其中,
Figure FDA0003541633160000032
表示逐元素相乘;
S3.3.3、将第二层次特征f1和耦合特征图u连接起来并输入到全局平均池化层中,得到第五层次特征f4,公式如下:
f4=GAP(f1;u),
其中,GAP表示全局平均池化层操作;
S3.3.4、将第五层次特征f4通过全连接层生成判别性特征向量d,然后通过softmax函数计算输入图像的情感类别预测概率p(yk=c),其中,yk表示预处理数据集中第k张图片,c表示第c个情感标签;计算公式如下:
Figure FDA0003541633160000033
其中,j=1,2,......,m,m表示情感标签总量,dj表示判别性特征向量d的第j个值,dc表示判别性特征向量d中对应于情感标签c的值。
8.根据权利要求1~7任一项所述的一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,步骤S4中,通过最小化交叉熵损失函数优化自监督学习任务,第一损失函数Lrot具体如下:
Figure FDA0003541633160000034
其中,i表示扩充数据集中的第i张图片,Nrot表示扩充数据集中图片的总数,r表示第r个旋转标签,R表示旋转标签的总数,
Figure FDA0003541633160000035
表示经过旋转后的第i张图片,
Figure FDA0003541633160000036
表示经过旋转后的第i张图片对应第r个旋转标签的概率,
Figure FDA0003541633160000037
表示等式成立时为1,否则为0。
9.根据权利要求8所述的一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,步骤S4中,通过最小化交叉熵损失函数优化情感分类任务,第二损失函数Lcls具体如下:
Figure FDA0003541633160000041
其中,k表示原始数据集中的第k张图片,N表示原始数据集中图片的总数,c表示第c个情感标签,C表示情感标签总量,p(yk=c)表示原始数据集中的第k张图片对应第c个情感标签的概率;1(yk=c)表示等式成立时为1,否则为0。
10.根据权利要求9所述的一种融合自监督学习和注意力机制的视觉情感识别方法,其特征在于,步骤S4中,联合第一损失函数Lrot和第二损失函数Lcls以同时优化自监督学习任务和情感分类任务,通过自监督学习任务,使得优化后的主干特征提取网络能够提取到语义更丰富的信息,进一步提高情感分类的精度;构建总损失函数L,并通过随机梯度下降最小化总损失函数L,具体如下:
L=Lcls+γLrot
其中,γ表示第一损失函数Lrot的约束系数。
CN202210240956.3A 2022-03-10 2022-03-10 一种融合自监督学习和注意力机制的视觉情感识别方法 Pending CN114626454A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210240956.3A CN114626454A (zh) 2022-03-10 2022-03-10 一种融合自监督学习和注意力机制的视觉情感识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210240956.3A CN114626454A (zh) 2022-03-10 2022-03-10 一种融合自监督学习和注意力机制的视觉情感识别方法

Publications (1)

Publication Number Publication Date
CN114626454A true CN114626454A (zh) 2022-06-14

Family

ID=81901498

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210240956.3A Pending CN114626454A (zh) 2022-03-10 2022-03-10 一种融合自监督学习和注意力机制的视觉情感识别方法

Country Status (1)

Country Link
CN (1) CN114626454A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761569A (zh) * 2022-10-20 2023-03-07 之江实验室 一种基于情感分类的视频情感定位方法
CN117556147A (zh) * 2024-01-11 2024-02-13 中国传媒大学 电商数据分类推荐系统、方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119688A (zh) * 2019-04-18 2019-08-13 南开大学 一种利用视觉注意力协同网络的图像情感分类方法
CN114145745A (zh) * 2021-12-15 2022-03-08 西安电子科技大学 基于图的多任务自监督情绪识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110119688A (zh) * 2019-04-18 2019-08-13 南开大学 一种利用视觉注意力协同网络的图像情感分类方法
CN114145745A (zh) * 2021-12-15 2022-03-08 西安电子科技大学 基于图的多任务自监督情绪识别方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
SHAMANE SIRIWARDHANA等: "Multimodal Emotion Recognition With Transformer-Based Self Supervised Feature Fusion", 《HTTPS://IEEEXPLORE.IEEE.ORG/DOCUMENT/9206016 》, 31 December 2020 (2020-12-31), pages 176274 *
徐向民等: "The Relationship between EEG and Depression under Induced Emotions Using VR Scenes", 《2019 IEEE MTT-S INTERNATIONAL MICROWAVE BIOMEDICAL CONFERENCE (IMBIOC)》, 6 September 2019 (2019-09-06), pages 1 *
赵小明等: "面向深度学习的多模态情感识别研究进展", 《计算机科学与探索》, 7 March 2022 (2022-03-07), pages 1479 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115761569A (zh) * 2022-10-20 2023-03-07 之江实验室 一种基于情感分类的视频情感定位方法
CN117556147A (zh) * 2024-01-11 2024-02-13 中国传媒大学 电商数据分类推荐系统、方法
CN117556147B (zh) * 2024-01-11 2024-04-12 中国传媒大学 电商数据分类推荐系统、方法

Similar Documents

Publication Publication Date Title
CN110490946B (zh) 基于跨模态相似度和生成对抗网络的文本生成图像方法
Rouhou et al. Transformer-based approach for joint handwriting and named entity recognition in historical document
Xiao et al. Convolutional hierarchical attention network for query-focused video summarization
Chen et al. Efficient spatial temporal convolutional features for audiovisual continuous affect recognition
CN114626454A (zh) 一种融合自监督学习和注意力机制的视觉情感识别方法
CN112651940B (zh) 基于双编码器生成式对抗网络的协同视觉显著性检测方法
CN113806554B (zh) 面向海量会议文本的知识图谱构建方法
Ocquaye et al. Dual exclusive attentive transfer for unsupervised deep convolutional domain adaptation in speech emotion recognition
Zhang et al. CNN-transformer based generative adversarial network for copy-move source/target distinguishment
CN113537322B (zh) 一种跨模态语义增强生成对抗网络的零样本视觉分类方法
Nitisara et al. Speech age-gender classification using long short-term memory
Le et al. Multi visual and textual embedding on visual question answering for blind people
Thangavel et al. A novel method for image captioning using multimodal feature fusion employing mask RNN and LSTM models
Devi et al. Dive in Deep Learning: Computer Vision, Natural Language Processing, and Signal Processing
Ma et al. Multi-scale cooperative multimodal transformers for multimodal sentiment analysis in videos
Sun et al. FR-DETR: End-to-end flowchart recognition with precision and robustness
CN116452688A (zh) 一种基于共同注意力机制的图像描述生成方法
CN116977701A (zh) 视频分类模型训练的方法、视频分类的方法和装置
CN115937672A (zh) 一种基于深度神经网络的遥感旋转目标检测方法
CN115952360A (zh) 基于用户和物品共性建模的域自适应跨域推荐方法及系统
CN115934883A (zh) 一种基于语义增强的多特征融合的实体关系联合抽取方法
CN115374943A (zh) 一种基于域对抗迁移网络的数据认知计算方法及其系统
CN115346132A (zh) 多模态表示学习的遥感图像异常事件检测方法及装置
CN109857906B (zh) 基于查询的无监督深度学习的多视频摘要方法
Mars et al. Combination of DE-GAN with CNN-LSTM for Arabic OCR on Images with Colorful Backgrounds

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination