CN111832620A

CN111832620A - 一种基于双注意力多层特征融合的图片情感分类方法

Info

Publication number: CN111832620A
Application number: CN202010530306.3A
Authority: CN
Inventors: 蔡国永; 储阳阳
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-06-11
Filing date: 2020-06-11
Publication date: 2020-10-27

Abstract

本发明公开了一种基于双注意力多层特征融合的图片情感分类方法，属于图像处理技术领域。该基于双注意力多层特征融合的图片情感分类方法包括一个多层次特征提取网络、双注意力机制和注意力特征融合的情感分类模块，该方法首先通过多层次特征提取网络提取图像多通道的多层次特征；然后通过空间注意力机制对多通道的低层特征赋予空间注意力权重，通过通道注意力机制对多通道的高层特征赋予通道注意力权重，分别强化不同层次的特征表示。本发明设计合理，充分利用了图像不同层次特征的互补性，同时充分考虑到了特征的空间信息和不同通道特征的语义差异，通过注意力机制增强了特征表示，从而提升了图片情感分类的效果。

Description

一种基于双注意力多层特征融合的图片情感分类方法

技术领域

本发明涉及图像处理技术领域，具体为一种基于双注意力多层特征融合的图片情感分类方法。

背景技术

社交网络在人们日常生活中发挥着重要作用，随着移动终端技术的发展和可拍照设备的普及，越来越多的社交用户每天通过社交媒体创建和分享海量文本、图像和视频内容，针对这些内容的情感分析被广泛应用于推荐、广告、舆情监控等领域。图像情感分类需要解决图像视觉特征和情感语义之间的“情感鸿沟”，同时由于情感的复杂性和主观性，情感分析极具挑战性。

已有研究表明，图像情感与图像的不同层次的视觉特征相关。早期的图像情感分类研究主要利用图像的低层特征，如颜色、纹理等，有一些利用构图等艺术特征作为图像的中层特征进行情感分析，还有一些利用语义内容等高层特征进行图像情感分类。近年来深度学习特别是卷积神经网络(CNN)在视觉识别领域展现出优异性能，基于深度学习的图像情感分类方法也已经取得了不错的效果，但在克服“情感鸿沟”方面仍然有提升空间。

一幅图像传达的情感不仅由图像的语义内容等高层特征所反映，还与图像的低层视觉特征相关。现有的图像情感分类方法并没有充分利用多层次特征同时对特征的空间信息和不同通道特征的语义挖掘不足，这使得其性能受到限制。因此，需要一种新的图像情感分类方法克服现有方法所存在的这些问题。

发明内容

本发明的目的在于提供一种基于双注意力多层特征融合的图片情感分类方法，以解决上述背景技术中提出的现有的基于深度学习的图片情感分类方法未能充分利用多层次特征且特征表达能力不足的问题。

为实现上述目的，本发明提供如下技术方案：一种基于双注意力多层特征融合的图片情感分类方法，该基于双注意力多层特征融合的图片情感分类方法的具体分类步骤如下：

S1：准备用于训练模型的情感图像数据集，对数据集进行扩充，并将数据集中图像样本的尺寸调整为224×224×3；

S2：通过多层次特征提取网络提取S1中图像样本的多层次特征，即高层特征f^h和低层特征f^l；

S3：通过双注意力机制对S2提取的特征进行强化表示，通过空间注意力对低层特征f^l强化得到；

S4：融合强化后的注意力特征，得到判别性特征f，将其输入到softmax情感分类器计算情感类别概率，最终将概率最大的情感类别作为图像情感分类的结果。

优选的，所述步骤S1中数据集选取公开情感图像数据集TwitterⅠ、TwitterⅡ和EmotionROI，对每张图像分别取其四角和中心5个位置裁剪并进行水平翻转得到10张图224×224的图像。

优选的，步骤S2所述的多层次特征提取网络由5个卷积层组成，S2具体步骤为：将第一个卷积层和第二个卷积层的输出通过下采样，将第四个卷积层和第五个卷积层的输出通过上采样，均调整为与第三个卷积层的输出相同尺寸，再将各层分别进行一次3×3卷积核的卷积操作后，将第一层和第二层的输出进行拼接融合得到包含较多空间信息的低层特征f^l∈R^W×H×C，将第三、第四层和第五层的输出进行拼接融合得到包含较多语义信息的高层特征f^h∈R^W×H×C，其中W和H分别为卷积特征映射的宽和高，C为卷积特征映射的通道数。

优选的，所述步骤S3中的空间注意力强化低层特征包括如下步骤：

(1)先将低层特征f^l输入一个卷积核尺寸为1×1的卷积层，利用1×1的卷积层遍历特征图的所有位置，对同一位置在所有通道中的特征值相加，实现跨通道的信息交互和整合，然后通过tanh激活函数生成尺寸大小为W×H的特征映射M，计算式为：

M＝tan(conv₁f^l)

(2)再将M经过卷积层和Sigmoid激活函数生成空间注意力权重sa，计算式为：

sa＝sigmoid(conv₂M)

其中，conv₁、conv₂表示卷积操作；

(3)对低层特征进行加权，最终空间注意力加权后的特征输出为：

式中，

表示元素相乘。

优选的，所述步骤S3中的通道注意力强化高层特征包括如下步骤：

(1)对于高层特征f^h，可以进一步表示为：

其中f_i ^h表示第i个通道的特征图，首先对每个通道特征f_i ^h进行全局平均池化操作以聚合每个特征通道的信息，从而将高层特征f^h压缩为C维特征向量v，其第i个元素的值为：

式中，f_i ^h(m,n)表示第i个通道的特征图上位置(m,n)的值；

(2)为了生成通道注意力权重，将v通过全连接层和ReLU激活层得到

其维度变为C/r，r为全连接层神经元数量，计算式为：

(3)再通过全连接层调整维度为C，然后通过sigmoid函数为每个通道生成注意力权值ca，计算式为：

式中，fc₁、fc₂表示相应的全连接层；

(4)对高层特征进行加权，最终通道注意力加权后的特征输出为：

优选的，所述步骤S4中注意力特征融合的情感分类包括如下步骤：

(1)先对输入的低层特征和高层特征分别进行1×1卷积操作，得到尺寸一致的特征映射l和h；

(2)再对l和h进行拼接融合成判别性特征，令f表示融合后得到的判别性特征,则

其中

表示特征张量的拼接操作；

(3)将融合后形成的特征映射f通过全连接层生成特征向量d，然后通过softmax函数计算输入图像的情感类别预测概率p_i，具体计算方式如下：

其中m表示情感类别。

优选的，通过最小化化交叉熵损失函数L对多层次特征提取网络进行优化，损失函数如下：

其中y_i表示图像的真实标签，通过随机梯度下降算法(SGD)最小化损失函数L，梯度通过下式计算：

与现有技术相比，本发明的有益效果是：

通过卷积神经网络提取图像多通道的多层次特征；然后通过空间注意力机制对多通道的低层特征赋予空间注意力权重，通过通道注意力机制对多通道的高层特征赋予通道注意力权重，分别强化不同层次的特征表示；最后融合强化后的高层特征和低层特征，形成用于训练情感分类器的判别性特征，提升了社交媒体图片情感分类的效果。

附图说明

图1为本发明模型本发明整体结构图；

图2为本发明多层CNN特征提取的结构图；

图3为本发明空间注意力模块结构图；

图4为本发明通道注意力模块结构图；

图5为本发明多层特征融合过程图；

图6为本发明不同数据集的图片样本图；

图7为本发明不同方法在EmotionROI数据集上的分类准确率图；

图8为本发明正确分类的样例以及错误分类的样例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

在本发明的描述中，需要理解的是，术语“上”、“下”、“前”、“后”、“左”、“右”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

实施例：

请参阅图1-8，本发明提供一种技术方案：一种基于双注意力多层特征融合的图片情感分类方法，该基于双注意力多层特征融合的图片情感分类方法的具体分类步骤如下：S1：准备用于训练模型的情感图像数据集，对数据集进行扩充，并将数据集中图像样本的尺寸调整为224×224×3；

进一步地，所述步骤S1中数据集选取公开情感图像数据集TwitterⅠ、TwitterⅡ和EmotionROI，对每张图像分别取其四角和中心5个位置裁剪并进行水平翻转得到10张图224×224的图像。

进一步地，步骤S2所述的多层次特征提取网络由5个卷积层组成，S2具体步骤为：将第一个卷积层和第二个卷积层的输出通过下采样，将第四个卷积层和第五个卷积层的输出通过上采样，均调整为与第三个卷积层的输出相同尺寸，再将各层分别进行一次3×3卷积核的卷积操作后，将第一层和第二层的输出进行拼接融合得到包含较多空间信息的低层特征f^l∈R^W×H×C，将第三、第四层和第五层的输出进行拼接融合得到包含较多语义信息的高层特征f^h∈R^W×H×C，其中W和H分别为卷积特征映射的宽和高，C为卷积特征映射的通道数。

进一步地，所述步骤S3中的空间注意力强化低层特征包括如下步骤：

M＝tan(conv₁f^l)

sa＝sigmoid(conv₂M)

其中，conv₁、conv₂表示卷积操作；

式中，

表示元素相乘。

进一步地，所述步骤S3中的通道注意力强化高层特征包括如下步骤：

(1)对于高层特征f^h，可以进一步表示为：

式中，f_i ^h(m,n)表示第i个通道的特征图上位置(m,n)的值；

其维度变为C/r，r为全连接层神经元数量，计算式为：

式中，fc₁、fc₂表示相应的全连接层；

进一步地，所述步骤S4中注意力特征融合的情感分类包括如下步骤：

其中

表示特征张量的拼接操作；

其中m表示情感类别。

进一步地，通过最小化化交叉熵损失函数L对多层次特征提取网络进行优化，损失函数如下：

基于双注意力多层特征融合的图片情感分类模型本发明整体结构如图1所示，主要包含三个部分：多层CNN特征提取、双注意力机制、注意力特征融合的情感分类，分别表示如图1的(a)、(b)、(c)三部分。

为了获得更具判别性的图像特征，首先将图像输入到具有多分支结构的CNN模型，提取图像的不同层次的特征，即CNN浅层提取到的低层特征_f ^l和深层提取到的高层特征_f ^h；然后将低层特征输入空间注意力模块，将高层特征输入通道注意力模块，以关注图像中更能凸显情感的区域以及选择更重要的通道特征；最后融合空间注意力模块输出的结果

和通道注意力模块的输出结果

形成具有判别性的特征表示用于训练情感分类器。下面具体阐述各部分细节。

(一)多层CNN特征提取

近年来通过对CNN可视化研究表明CNN的不同层提取的图像信息具有不同性质。具体而言，浅层提取到的信息更倾向于反映图像的空间信息等低层特征，而深层提取到的信息则更倾向于反映图像的语义内容等高层特征。考虑到图像情感与图像的不同层次的特征相关，本发明利用不同层特征的互补性来提升情感分析性能，为此，提出一种多层全卷积网络结构MLCNN用来提取多层次的图像特征。与大部分视觉任务工作类似，本发明采用近年来在计算机视觉领域应用广泛的卷积神经网络模型VGGNet-16作为多层特征抽取网络MLCNN的基础。VGGNet-16由5个卷积块和3个全连接层组成，其中卷积块包括卷积层和池化层。参照图2，在VGGNet-16基础上，将网络各层输出的特征通过不同的采样方法，使其转化为相同尺寸，如将卷积层Conv1_2、Conv2_2的输出通过下采样，将Conv4_3、Conv5_3的输出通过上采样的方法，均调整为与Conv3_3相同尺寸，再将各层分别进行一次3×3卷积核的卷积操作后进行融合。其中，卷积层Conv1_2、Conv2_2的输出经过以上操作融合后的输出得到包含较多空间信息的低层特征f^l∈R^W×H×C，卷积层Conv3_3、Conv4_3、Conv5_3的输出经过以上操作融合后的输出得到包含较多语义信息的高层特征f^h∈R^W×H×C，其中W和H分别为卷积特征映射的宽和高，_C为卷积特征映射的通道数。

(二)双注意力机制

人类的视觉注意力可以突出整体特征中更重要的部分，以加强人类视觉识别的能力。注意力机制对图片情感分类也至关重要，在图片情感分类任务中，如果能发掘出图像中信息量最大的区域以及更重要的通道特征，将可能提升情感分类的效果。本发明方法中的双注意力机制包括空间注意力和通道注意力两个部分。高层特征主要包含图像高层次的抽象语义，因此对高层特征使用通道注意力使用通道注意力加强情感语义信息更丰富的特征，以此进行特征的重新标定。低层特征主要包含图像的空间信息，因此对低层特征使用空间注意力，以更加关注图像的情感区域。

2.1空间注意力机制

仅仅利用全局图像特征向量来进行图像情感分类，结果可能不是最优的。图像中的局部区域对于图像整体的情感表达至关重要，例如图像中包含鲜花和笑脸的区域。引入空间注意力机制，通过训练方式定位出图像中凸显情感的局部区域并对其赋予更高的权重，以加强图像空间域上的特征表示。

参照图3，先将低层特征f^l输入一个卷积核尺寸为1×1的卷积层，利用1×1的卷积层遍历特征图的所有位置，对同一位置在所有通道中的特征值相加，实现跨通道的信息交互和整合，然后通过tanh激活函数生成尺寸大小为W×H的特征映射M，再将M经过卷积层和sigmoid激活函数生成空间注意力权重sa，计算式为

M＝tan(conv₁f^l) (1)

sa＝sigmoid(conv₂M) (2)

其中，conv₁、conv₂表示卷积操作。最终加权后的特征输出为

式中，

表示元素相乘。

2.2通道注意力机制

CNN提取的特征是多通道的，每个通道的特征表示该图片特征在相应卷积核上的分量，不同通道的特征所提取到的信息是不同的，因此不同特征通道对情感分类的重要性是不同的。现有的基于深度学习的图片情感分类方法平等地对待每个通道特征，这在很大程度上限制了情感分类的性能。通道注意力机制关注重要的通道特征，过滤无关的通道特征，可以看做一个对特征进行重新标定的过程。本发明引入了通道注意力机制对那些对情感有高响应的通道特征分配更大的权重以加强特征表示。

参照图4，对于高层特征f^h，可以进一步表示为

式中，f_i ^h(m,n)表示第i个通道的特征图上位置(m,n)的值。为了生成通道注意力权重，先将v通过全连接层和ReLU激活层得到

其维度变为C/r，r为全连接层神经元数量。再通过全连接层调整维度为C，最后通过sigmoid函数为每个通道生成注意力权值ca。计算式为：

式中，_fc1、_fc2表示相应的全连接层。最终加权后的特征输出为：

(三)注意力特征融合的情感分类

参照图5，为了获取判别性的视觉情感特征表示，将经过注意力机制强化后的高低层次特征通过特征融合层进行融合。具体地，先对输入的低层特征和高层特征分别进行1×1卷积操作，得到尺寸一致的特征映射l和h。再对l和h进行拼接融合成判别性特征f。

将融合后形成的特征映射f通过全连接层生成特征向量d，然后通过softmax函数计算输入图像的情感类别预测概率p_i。具体计算方式如下：

其中_m表示情感类别。最后通过优化交叉熵损失函数_L进行分类，损失函数如下：

其中y_i表示图像的真实标签。可以通过随机梯度下降算法(SGD)最小化损失函数_L，从而实现网络的优化。梯度可通过下式计算：

(四)实验过程及结果分析

1.数据集

对本发明所提出的方法在三个数据集TwitterⅠ、TwitterⅡ和EmotionROI上进行了评估，以证明其有效性。实验中三个数据集均采用随机划分的形式划分为训练集80％，测试集20％。

TwitterⅠ包含1269张同样来自于Twitter中的图像，其中标签为积极的769张，标签为消极的500张。TwitterⅡ数据集从社交软件Twitter中收集的603张包含两类情感极性，即积极(positive)和消极(negative)的图像及其对应的基于群体智慧策略的人工标注的情感标签。其中积极的图片470张，消极的图片133张。EmotionROI数据集从社交网站Flickr收集的1980张情感图像，一共包含6类情感，即恐惧(fear)、悲伤(sadness)、愤怒(anger)、厌恶(disgust)、惊喜(surprise)、喜悦(joy)。

图6给出了三个不同数据集的图片样本及其对应情感标签的示例。

2.实验设置

实验的基础网络为VGGNet-16，所有卷积层均采用大小为为3×3的卷积核，步长均设置为1，池化层采用2×2的最大池化，步长均设置为2，并在ImageNet进行预训练。输入图片为224×224的RGB彩色图像，并采用随机水平翻转的预处理操作作为数据扩充以防止过拟合，每次输入的batch-size设为32。采用随机梯度下降算法对网络进行优化，权重衰减设为0.0005，学习率设为0.001。模型采用Dropout策略和L2范式防止过拟合，Dropout值设为0.5。实验开发环境为Linux-Ubuntu14.04,Python 2.7,Tensorflow1.3.0，开发工具为PyCharm。模型的训练和测试均在Tesla P100-PCIE GPU工作站上完成。

3.对比方法

为证明本发明所提出方法的有效性，我们在相同的数据集上对比了基于手工设计特征的图片情感分类方法和基于深度学习的方法。主要对比方法说明如下。

GCH：融合由64位二进制RGB直方图组成的全局颜色直方图特征GCH和局部颜色直方图特征LCH作为图像特征训练SVM分类器进行情感分类。

SentiBank：通过构建由1200个形容词名词对(ANP)组成的视觉情感本体库作为图像中层语义表示，来自动地探测图像情感。

DeepSentiBank：利用卷积神经网络在大规模数据集上训练的视觉情感概念分类器进行情感分类。

PCNN：通过利用大规模的噪声数据(约1万张图像)训练CNN，然后通过递进的剔除噪声样本，筛选成高质量的训练子集作为训练集进一步调试模型，从而获得鲁棒的PCNN模型用于图像情感分类。

VGGNet-16：通过在ImageNet数据集上进行预训练，获得较好的模型初始化参数，然后在情感图像数据集上进行微调，进行图像情感分类。

以上对比方法中的前两种GCH和SentiBank均为基于手工设计特征的图片情感分类方法，后三种DeepSentiBank、PCNN和VGGNet-16为基于深度学习的图片情感分类方法。

4.实验结果分析

表1给出了本发明与5种对比方法在两个二分类情感图像数据集TwitterⅠ和TwitterⅡ上的分类结果，分类结果以准确率(Accuracy％)进行评估，准确率定义为正确分类的样本数量占总样本数数量的比例。

由表1可知，本发明在TwitterⅠ和TwitterⅡ数据集上的分类准确率分别达到了79.83％和78.25％，准确率均高于基于手工设计特征的图片情感分类方法GCH和Sentbank。本发明同样对比了基于深度学习的视觉情感分类模型DeepSentiBank、PCNN和VGGNet-16。由表1可知本发明提出的方法在两个数据集上的分类效果相较于对比方法均有提升。

表1不同方法在TwitterⅠ、TwitterⅡ数据集上的分类准确率

方法	TwitterⅠ	TwitterⅡ
			GCH	66.43	66.79
SentiBank	66.59	65.93
			DeepSentiBank	71.24	70.23
PCNN	76.36	76.83
			VGGNet-16	75.49	71.79
本发明	79.83	78.25

图7给出了本发明与5种对比方法在多分类情感图像数据集EmotionROI上的分类结果，分类结果以准确率(Accuracy％)进行评估。

由图7可知，本发明在多分类情感图像数据集EmotionROI上分类准确率达到了49.34％，准确率高于基于手工设计特征的图片情感分类方法GCH和Sentbank。对比基于深度学习的视觉情感分类模型，本发明比DeepSentiBank和VGGNet-16的分类准确率分别提升了6.81％和3.88％，比PCNN模型的分类准确率提升了1.78％。通过对比各类方法在多分类数据集上的分类结果，可以说明本发明同样能够适应视觉情感的多分类任务。综合在二分类和多分类情感图像数据集上的分类表现，说明本发明能够学习更具判别性的视觉特征，从而提升图片情感分类效果。

图8给出了利用本发明正确分类的样例以及错误分类的样例。其中(a)、(b)、(c)、(e)均被正确分类；图片(d)被预测为joy类，而其真实标签为surprise，(f)被预测为anger类，而其真实标签为fear，故为错误分类。

5.多层特征及注意力机制的有效性分析

为了进一步验证特征融合以及注意力机制在视觉情感分类任务中的作用及有效性，通过实验对比了本发明及其不同设置的分类效果，具体说明如下：

VGGNet-16：本发明模型本发明所使用的基础网络。

MLCNN：不使用视觉注意力机制，仅仅通过多层CNN特征提取网络提取图像的多层次特征，并融合多层特征进行情感分类。

SA-MLCNN：在MLCNN基础上，提取多层次特征，仅仅对低层特征使用空间注意力，并融合多层特征进行情感分类。

CA-MLCNN：在MLCNN基础上，提取多层次特征，仅仅对高层特征使用通道注意力，并融合多层特征进行情感分类。

表2展示了本发明及其不同设置在不同数据集上的分类准确率结果。由表2可知，融合多层特征后的MLCNN模型的分类准确率明显高于VGGNet-16的分类准确率，可以验证多层CNN特征融合能够充分利用不同层次特征的互补优势，提高情感分类效果；由表2可知，SA-MLCNN、CA-MLCNN、本发明相较于MLCNN，其分类准确率分别有不同程度的提升，其中本发明准确率提升最高，说明空间注意力和通道注意力能够实现更细化的特征抽取，从而加强特征表示，进而提高视觉情感分类效果。

表2本发明及其不同设置在不同数据集上的分类准确率(％)

以上显示和描述了本发明的基本原理和主要特征和本发明的优点,对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明；因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于双注意力多层特征融合的图片情感分类方法，其特征在于：该基于双注意力多层特征融合的图片情感分类方法的具体分类步骤如下：

2.根据权利要求1所述的一种基于双注意力多层特征融合的图片情感分类方法，其特征在于：所述步骤S1中数据集选取公开情感图像数据集TwitterⅠ、TwitterⅡ和EmotionROI，对每张图像分别取其四角和中心5个位置裁剪并进行水平翻转得到10张图224×224的图像。

3.根据权利要求1所述的一种基于双注意力多层特征融合的图片情感分类方法，其特征在于：步骤S2所述的多层次特征提取网络由5个卷积层组成，S2具体步骤为：将第一个卷积层和第二个卷积层的输出通过下采样，将第四个卷积层和第五个卷积层的输出通过上采样，均调整为与第三个卷积层的输出相同尺寸，再将各层分别进行一次3×3卷积核的卷积操作后，将第一层和第二层的输出进行拼接融合得到包含较多空间信息的低层特征f^l∈R^W ^×H×C，将第三、第四层和第五层的输出进行拼接融合得到包含较多语义信息的高层特征f^h∈R^W×H×C，其中W和H分别为卷积特征映射的宽和高，C为卷积特征映射的通道数。

4.根据权利要求1所述的一种基于双注意力多层特征融合的图片情感分类方法，其特征在于：所述步骤S3中的空间注意力强化低层特征包括如下步骤：

M＝tan(conv₁f^l)

sa＝sigmoid(conv₂M)

其中，conv₁、conv₂表示卷积操作；