CN114626454A

CN114626454A - 一种融合自监督学习和注意力机制的视觉情感识别方法

Info

Publication number: CN114626454A
Application number: CN202210240956.3A
Authority: CN
Inventors: 徐向民; 张莹莹; 郭锴凌
Original assignee: South China University of Technology SCUT; Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Current assignee: South China University of Technology SCUT; Zhongshan Institute of Modern Industrial Technology of South China University of Technology
Priority date: 2022-03-10
Filing date: 2022-03-10
Publication date: 2022-06-14

Abstract

本发明公开了一种融合自监督学习和注意力机制的视觉情感识别方法。所述方法包括以下步骤：构建情感识别模型，包括主干特征提取网络、情感识别分类器和旋转自监督分类器；构建自监督学习任务；构建情感分类任务；分别构建优化自监督学习任务和情感分类任务的第一损失函数和第二损失函数，构建总损失函数；通过总损失函数对自监督学习任务和情感分类任务进行优化，得到优化后的主干特征提取网络和情感计算分类器；获取待识别图像，输入优化的主干特征提取网络和情感计算分类器，完成视觉情感识别。本发明充分考虑了图像的全局和局部特征，通过注意力机制增强了特征表示，同时通过自监督辅助任务丰富了特征语义信息，从而提升了视觉情感分类的效果。

Description

一种融合自监督学习和注意力机制的视觉情感识别方法

技术领域

本发明涉及图像处理技术领域，具体为一种融合自监督学习和注意力机制的视觉情感识别方法。

背景技术

随着信息技术的迅速发展和互联网媒体的革命性转变，互联网已经成为现代社会进行信息交流的重要途径，人们更趋向于在社交媒体上发布图像来表达情感和观点，情感分析在人类感知、推理、决策、计划、创造和社交等诸多活动中起着不可或缺的作用，因此视觉情感分析也引起了研究人员的极大的关注。理解这种视觉内容传达的情感将有利于广泛的应用，如多媒体检索、广告推荐等。近年来，视觉情感分析任务取得了很大进展，这些任务试图挖掘图像中包含的情感。

对于视觉情感分析来说，如何提取有效判别特征是关键因素。在早期研究中通常使用手工提取的特征，包括颜色、成分、纹理等元素信息、低层次整体特征和形容词名词对等高层次特征。近年来，随着深度网络的快速发展，研究人员设计了很多深度学习模型来探索视觉中的情感信息，这种由深度模型提取出的特征具有更强的语义表示能力，相比于传统手工特征性能更好。

注意力机制最初被用于机器翻译，现在已成为神经网络领域的一个重要概念。在人工智能领域，注意力已成为神经网络结构的重要组成部分，并在自然语言处理、统计学习、语音和计算机视觉等领域有着大量的应用。注意力机制可以利用人类视觉机制进行直观解释。例如，视觉系统倾向于关注图像中辅助判断的部分信息，并忽略掉不相关的信息。同样，在涉及语言或视觉的问题中，输入的某些部分可能会比其他部分对决策更有帮助。例如，在翻译和总结任务中，输入序列中只有某些单词可能与预测下一个单词相关。

由于人类认知的主观性，图像的不同区域和内容可能对情感的唤起有不同的贡献。早期的研究经常从图像中提取全局特征，因此未能深入研究图像的不同区域可能触发不同情感的可能性。一些研究采用注意力机制来提取更有效的局部特征，但目前的大部分研究仍然没有细化每种情感对不同区域的反应或探索每种情感与情感感知区域之间的潜在关系。因此有效地为每种情感定位相关图像区域并捕获区域之间的依赖关系以帮助视觉情感分析仍具有挑战性。

自监督学习主要是利用辅助任务从大规模的无监督数据中挖掘自身的监督信号，通过这种构造的监督信息对网络进行训练，从而可以学习到对下游任务有价值的表征。对于自监督学习来说，主要有三类方法：基于上下文约束，例如单词顺序，图片各部分相对位置等；基于时序约束，例如基于帧的相似性，物体的多个视角等；基于对比约束，例如学习对两个事物的相似或不相似进行编码。

近年来关于视觉情感的研究中大多都使用了注意力机制来定位情感激发区域，以提升情感分类效果，但通过深度学习网络得到的特征中语义信息仍不够丰富，给数据集增加语义标签费时耗力，而仅实现图像情感标签要容易得多，使得视觉情感研究受到限制(WSCNet:Weakly Supervised Coupled Networks for Visual SentimentClassification and Detection)。

发明内容

本发明的目的在于提供一种融合自监督学习和注意力机制的视觉情感识别方法，以解决上述背景技术中提到的现有的基于深度学习的图片情感分类方法中情感特征语义信息有限，增加语义标签费时耗力的问题。

研究发现，通过自监督旋转分类任务，为图像语义特征学习提供了一个强大的监督信号，使得特征提取网络能够提取出图片中丰富的语义信息。本发明在情感分类主任务中增加自监督辅助任务，通过同一个特征提取网络提取图片特征，对其进行多任务学习，使得主干网络在有限的情感标签下能够提取图像中对象的类型、位置、姿势等更加丰富的语义特征，在主任务中基于通道和空间注意力机制强化特征，解决了在有限的情感标签下，情感特征语义信息有限的问题。

本发明的目的至少通过如下技术方案之一实现。

一种融合自监督学习和注意力机制的视觉情感识别方法，包括以下步骤：

S1、构建情感识别模型，包括主干特征提取网络、情感识别分类器和旋转自监督分类器；

S2、构建自监督学习任务；

S3、构建情感分类任务；

S4、分别构建优化自监督学习任务和情感分类任务的第一损失函数和第二损失函数，构建总损失函数；

S5、通过总损失函数对自监督学习任务和情感分类任务进行优化，得到优化后的主干特征提取网络和情感计算分类器；

S6、获取待识别图像，输入优化的主干特征提取网络和情感计算分类器，完成视觉情感识别。

进一步地，步骤S1中，主干特征提取网络的构建具体如下：

通过预训练得到训练好的卷积神经网络，将训练好的卷积神经网络的最后两层即全局平均池化层和全连接层去除，得到主干特征提取网络。

进一步地，步骤S2中，获取公开的原始数据集，对原始数据集中的图像进行扩充，包括翻转和转置操作，并对通过扩充操作得到的每一张图片补充相应的旋转角度标签，得到扩充数据集；

所述自监督学习任务包括以下步骤：

S2.1、通过主干特征提取网络提取扩充数据集中的图像样本的第一层次特征f_rot；

S2.2、对第一层次特征f_rot进行下采样，生成特征向量d_rot，将特征向量d_rot输入到旋转自监督分类器中，计算图像样本的旋转角度。

进一步地，步骤S2.2中，将第一层次特征f_rot依次通过全局空间池化层和全连接层，生成特征向量d_rot，将特征向量d_rot输入到旋转自监督分类器中，通过softmax函数计算输入图像样本的旋转角度预测概率

具体如下：

其中，i＝1,…,N_rot，N_rot表示扩充数据集中图片的总数，r表示第r个旋转标签，

表示经过旋转后的第i张图片，

表示经过旋转后的第i张图片对应第r个旋转标签的概率。

进一步地，步骤S3中，对所述原始数据集中的每张图像进行随机旋转裁剪归一化预处理，得到尺寸相同的图像，得到预处理数据集；

所述情感分类任务包括以下步骤：

S3.1、通过主干特征提取网络提取预处理数据集中的图像样本的第二层次特征f¹；

S3.2、通过空间和通道注意力对第二层次特征f¹进行强化表示，得到注意力强化特征；

S3.3、将注意力强化特征与第二层次特征f¹耦合融合，得到判别性特征，将判别性特征输入到情感识别分类器中计算情感类别。

进一步地，步骤S3.2包括以下步骤：

S3.2.1、通过卷积操作压缩输入第二层次特征f¹的空间维度，得到第三层次特征f²；

S3.2.2、对第三层次特征f²在空间维度上分别进行平均池化层和最大池化层操作，得到空间维度上的平均池化层特征

和空间维度上的最大池化层特征

将空间维度上的平均池化层特征

和空间维度上的最大池化层特征

输入到共享网络即多层感知器中生成通道注意图，对通过多层感知器后的通道注意图进行逐元素求和，得到通道注意力强化特征M₁，计算公式如下：

其中，sigmoid为激活函数，MLP表示多层感知器；

S3.2.3、对第三层次特征f²在通道维度上分别进行平均池化层和最大池化层操作，得到通道维度上的平均池化层特征

和通道维度上的最大池化层特征

并将所得到的通道维度上的平均池化层特征

和通道维度上的最大池化层特征

连接起来以得到特征描述符，将特征描述符输入到一个卷积层中得到空间注意力强化特征M₂，计算公式如下：

其中，sigmoid为激活函数，conv表示卷积操作。

进一步地，步骤S3.3包括以下步骤：

S3.3.1、将第三层次特征f²、通道注意力强化特征M₁和空间注意力强化特征M₂三者相乘，得到第四层次特征f³，与第三层次特征f²相比，第四层次特征f³含有情感激活区域的位置和有效信息；

S3.3.2、将第二层次特征f¹中的每个特征图都与第四层次特征f³逐元素相乘，得到耦合特征图u＝[u₁,u₂,……,u_n]，其中，n表示特征的通道数，u_n表示耦合后的第n通道特征，公式如下：

其中，

表示逐元素相乘；

S3.3.3、将第二层次特征f¹和耦合特征图u连接起来并输入到全局平均池化层中，得到第五层次特征f⁴，具有更丰富的语义信息，公式如下：

f⁴＝GAP(f¹；u)，

其中，GAP表示全局平均池化层操作；

S3.3.4、将第五层次特征f⁴通过全连接层生成判别性特征向量d，然后通过softmax函数计算输入图像的情感类别预测概率p(y_k＝c)，其中，y_k表示预处理数据集中第k张图片，c表示第c个情感标签；计算公式如下：

其中，j＝1,2,……,m，m表示情感标签总量，d_j表示判别性特征向量d的第j个值，d_c表示判别性特征向量d中对应于情感标签c的值。

进一步地，步骤S4中，通过最小化交叉熵损失函数优化自监督学习任务，第一损失函数L_rot具体如下：

其中，i表示扩充数据集中的第i张图片，N_rot表示扩充数据集中图片的总数，r表示第r个旋转标签，R表示旋转标签的总数，

表示经过旋转后的第i张图片，

表示经过旋转后的第i张图片对应第r个旋转标签的概率，

表示等式成立时为1，否则为0。

进一步地，步骤S4中，通过最小化交叉熵损失函数优化情感分类任务，第二损失函数L_cls具体如下：

其中，k表示原始数据集中的第k张图片，N表示原始数据集中图片的总数，c表示第c个情感标签，C表示情感标签总量，p(y_k＝c)表示原始数据集中的第k张图片对应第c个情感标签的概率；1(y_k＝c)表示等式成立时为1，否则为0。

进一步地，步骤S4中，联合第一损失函数L_rot和第二损失函数L_cls以同时优化自监督学习任务和情感分类任务，通过自监督学习任务，使得优化后的主干特征提取网络能够提取到语义更丰富的信息，进一步提高情感分类的精度；构建总损失函数L，并通过随机梯度下降最小化总损失函数L，具体如下：

L＝L_cls+γL_rot，

其中，γ表示第一损失函数L_rot的约束系数。

与现有技术相比，本发明的有益效果是：

通过深度残差网络提取图像特征；通过空间和通道注意力机制处理强化特征，并与原始特征耦合，使得特征中包含图片整体和局部信息；增加自监督辅助任务，使得通过主干网络能够准确的定位到图像语义信息丰富的区域，减轻了标签负担，并使得提取的特征信息更具判别性，提升了视觉情感分类的效果。

附图说明

图1为本发明实施例中情感识别模型的整体结构图；

图2为本发明自监督模块的结构图；

图3为本发明注意力模块结构图；

图4为本发明情感分类模块结构图。

具体实施方法

下面将结合本发明实施例中的附图，对本发明实施例中的技术方法进行清楚、完整的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例，基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1：

一种融合自监督学习和注意力机制的视觉情感识别方法，如图1所示，包括以下步骤：

主干特征提取网络的构建具体如下：

本实施例中，通过预训练得到训练好的ResNet-101网络，将训练好的ResNet-101网络的最后两层即全局平均池化层和全连接层去除，得到主干特征提取网络。

S2、构建自监督学习任务；

获取公开的原始数据集，对原始数据集中的图像进行扩充，包括使用翻转和转置操作，并对通过扩充操作得到的每一张图片补充相应的旋转角度标签，得到扩充数据集；

本实施例中，对于顺时针90度旋转，首先转置图像，然后垂直翻转(倒置)；对于顺时针180度旋转，先垂直翻转图像，然后水平翻转(左右翻转)；对于顺时针270度旋转，首先垂直翻转图像，然后将其转置；对数据集中的每一张图片分别顺时针旋转0度，90度，180度，270度，并对第i种扩充操作得到的图片补充第i个标签，标签分别为0，1，2，3。

本发明使用图片旋转角度预测即自监督学习任务作为情感分类任务中的辅助任务，研究发现，自监督学习任务使得主干特征提取网络能够迅速准确的定位到图像语义丰富的区域，使主干特征提取网络能够学习到图像中对象的类型、位置、姿势等丰富的语义特征，提取的特征判别性更强，具有更可转移的视觉表示。通过自我监督，本发明可以提高视觉情感识别能力。

通过增加自监督学习任务，对图像的旋转角度进行识别，使得主干特征提取网络提取到的特征含有更加丰富的语义信息，提取到的特征更具判别性，以增加情感分类任务的情感分类精度；所述自监督学习任务包括以下步骤：

如图2所示，将第一层次特征f_rot依次通过全局空间池化层和全连接层，生成特征向量d_rot，将特征向量d_rot输入到旋转自监督分类器中，通过softmax函数计算输入图像样本的旋转角度预测概率

具体如下：

表示经过旋转后的第i张图片，

表示经过旋转后的第i张图片对应第r个旋转标签的概率。

S3、构建情感分类任务；

对所述原始数据集中的每张图像进行随机旋转裁剪归一化预处理，得到尺寸相同的图像，调整为448×448×3，得到预处理数据集；

本实施例中，扩充数据集的大小是预处理数据集的4倍。

为了获得更具判别性的图像特征，首先将图像输入到主干特征提取网络中，提取图像的特征，然后将特征输入到基于注意力机制的情感分类任务中，通过空间注意力机制和通道注意力机制得到强化特征，使得强化后的特征包含情感激发区域的信息，能够关注到图像中更能凸显情感的区域以及选择更重要的通道特征；所述情感分类任务包括以下步骤：

S3.2、如图3所示，通过空间和通道注意力对第二层次特征f¹进行强化表示，得到注意力强化特征，包括以下步骤：

和空间维度上的最大池化层特征

将空间维度上的平均池化层特征

和空间维度上的最大池化层特征

其中，sigmoid为sigmoid激活函数，MLP表示多层感知器；

和通道维度上的最大池化层特征

并将所得到的通道维度上的平均池化层特征

和通道维度上的最大池化层特征

其中，sigmoid为sigmoid激活函数，conv表示卷积操作。

S3.3、如图3和图4所示，将注意力强化特征与第二层次特征f¹耦合融合，得到判别性特征，将判别性特征输入到情感识别分类器中计算情感类别，包括以下步骤：

其中，

表示逐元素相乘；

f⁴＝GAP(f¹；u)，

其中，GAP表示全局平均池化层操作；

S3.3.4、将第五层次特征f⁴通过全连接层生成判别性特征向量d，然后通过softmax函数计算输入图像的情感类别预测概率p(y_k＝c)，其中，y_k表示数据集中第k张图片，c表示第c个情感标签；计算公式如下：

通过最小化交叉熵损失函数优化自监督学习任务，第一损失函数L_rot具体如下：

表示经过旋转后的第i张图片，

表示经过旋转后的第i张图片对应第r个旋转标签的概率。

表示等式成立时为1，否则为0。

通过最小化交叉熵损失函数优化情感分类任务，第二损失函数L_cls具体如下：

联合第一损失函数L_rot和第二损失函数L_cls以同时优化自监督学习任务和情感分类任务，通过自监督学习任务，使得优化后的主干特征提取网络能够提取到语义更丰富的信息，进一步提高情感分类的精度；构建总损失函数L，并通过随机梯度下降最小化总损失函数L，具体如下：

L＝L_cls+γL_rot，

其中，γ表示第一损失函数L_rot的约束系数。

本实施例中，在数据集Twitter I上进行了评估，以证明本发明的有效性；数据集采用随机划分的形式划分为训练集80％，测试集20％。

本实施例中，特征提取网络为经过预训练的ResNet-101，输入batch-size设置为4，该模型中均采用随机梯度下降算法进行优化，权重衰减设置为0.0005，特征提取网络的学习率设置为0.0001，旋转分类任务和情感分类任务的学习率设置为0.01，γ设置为1。

本实施例中，为证明本发明多提出方法的有效性，在相同的数据集上对比了多种不同的图片情感分类方法，主要对比方法说明如下：

SPN来自文献1(详见：Y.Zhu,Y.Zhou,Q.Ye,Q.Qiu,and J.Jiao,“Soft proposalnetworks for weakly supervised object localization,”inProc.Int.Conf.Comput.Vis.,2017,pp.1859–1868.)；

WILDCAT来自文献2(详见：T.Durand,T.Mordan,N.Thome,and M.Cord,“Wildcat:Weakly supervised learning of deep ConvNets for image classification,pointwise localization and segmentation,”in Proc.IEEE Conf.Comput.Vis.PatternRecognit,2017,pp.5957–5966.)；

CAM_Res101来自文献3(详见：B.Zhou,A.Khosla,

Lapedriza,A.Oliva,andA.Torralba,“Learning deep featuresfor discriminative localization,”inProc.IEEE Conf.Comput.Vis.Pattern Recognit,2016,pp.2921–2929.)；

WSCNet来自文献4(详见：D.She,J.Yang,M.-M.Cheng,Y.-K.Lai,P.L.Rosin andL.Wang,"WSCNet:Weakly Supervised Coupled Networks for Visual SentimentClassification and Detection,"in IEEE Transactions on Multimedia,vol.22,no.5,pp.1358-1371,May 2020,doi:10.1109/TMM.2019.2939744.)。

实施例2：

本实施例中，与实施例1的不同之处在于，在数据集Twitter II上进行了评估，以证明本发明的有效性。

实施例3：

本实施例中，与实施例1的不同之处在于，在数据集EmotionROI上进行了评估，以证明本发明的有效性。

表1给出了本发明与其他对比方法在情感图像数据集Twitter I、Twitter II和EmotionROI上的分类结果，分类结果以准确率进行评估，准确率定义为正确分类的样本数量占总样本数数量的比例。

由表1可知，本发明在Twitter I上的分类准确率为84.98％，在Twitter II上的分类准确率为83.19％，在EmotionROI上的分类准确率为59.43％，对比其他模型，本发明在这三个数据集上的分类准确率均有所提高，可以说明在有限的标签下，本发明能够发现语义更加丰富的信息，提取到更具判别性的特征，从而提升图片情感分类效果。

表1不同方法在Twitter I、Twitter II和EmotionROI数据集上的分类准确率

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，包括以下步骤：

S2、构建自监督学习任务；

S3、构建情感分类任务；

2.根据权利要求1所述的一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，步骤S1中，主干特征提取网络的构建具体如下：

3.根据权利要求1所述的一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，步骤S2中，获取公开的原始数据集，对原始数据集中的图像进行扩充，包括翻转和转置操作，并对通过扩充操作得到的每一张图片补充相应的旋转角度标签，得到扩充数据集；

所述自监督学习任务包括以下步骤：

4.根据权利要求3所述的一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，步骤S2.2中，将第一层次特征f_rot依次通过全局空间池化层和全连接层，生成特征向量d_rot，将特征向量d_rot输入到旋转自监督分类器中，通过softmax函数计算输入图像样本的旋转角度预测概率

具体如下：

其中，i＝1，...，N_rot，N_rot表示扩充数据集中图片的总数，r表示第r个旋转标签，

表示经过旋转后的第i张图片，

表示经过旋转后的第i张图片对应第r个旋转标签的概率。

5.根据权利要求3所述的一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，步骤S3中，对所述原始数据集中的每张图像进行随机旋转裁剪归一化预处理，得到尺寸相同的图像，得到预处理数据集；

所述情感分类任务包括以下步骤：

6.根据权利要求5所述的一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，步骤S3.2包括以下步骤：

和空间维度上的最大池化层特征

将空间维度上的平均池化层特征

和空间维度上的最大池化层特征

其中，sigmoid为激活函数，MLP表示多层感知器；

和通道维度上的最大池化层特征

并将所得到的通道维度上的平均池化层特征

和通道维度上的最大池化层特征

其中，sigmoid为激活函数，conv表示卷积操作。

7.根据权利要求6所述的一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，步骤S3.3包括以下步骤：

S3.3.1、将第三层次特征f²、通道注意力强化特征M₁和空间注意力强化特征M₂三者相乘，得到第四层次特征f³；

S3.3.2、将第二层次特征f¹中的每个特征图都与第四层次特征f³逐元素相乘，得到耦合特征图u＝[u₁，u₂，......，u_n]，其中，n表示特征的通道数，u_n表示耦合后的第n通道特征，公式如下：

其中，

表示逐元素相乘；

S3.3.3、将第二层次特征f¹和耦合特征图u连接起来并输入到全局平均池化层中，得到第五层次特征f⁴，公式如下：

f⁴＝GAP(f¹；u)，

其中，GAP表示全局平均池化层操作；

其中，j＝1，2，......，m，m表示情感标签总量，d_j表示判别性特征向量d的第j个值，d_c表示判别性特征向量d中对应于情感标签c的值。

8.根据权利要求1～7任一项所述的一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，步骤S4中，通过最小化交叉熵损失函数优化自监督学习任务，第一损失函数L_rot具体如下：

表示经过旋转后的第i张图片，

表示经过旋转后的第i张图片对应第r个旋转标签的概率，

表示等式成立时为1，否则为0。

9.根据权利要求8所述的一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，步骤S4中，通过最小化交叉熵损失函数优化情感分类任务，第二损失函数L_cls具体如下：

10.根据权利要求9所述的一种融合自监督学习和注意力机制的视觉情感识别方法，其特征在于，步骤S4中，联合第一损失函数L_rot和第二损失函数L_cls以同时优化自监督学习任务和情感分类任务，通过自监督学习任务，使得优化后的主干特征提取网络能够提取到语义更丰富的信息，进一步提高情感分类的精度；构建总损失函数L，并通过随机梯度下降最小化总损失函数L，具体如下：

L＝L_cls+γL_rot，

其中，γ表示第一损失函数L_rot的约束系数。