CN111832573B

CN111832573B - 一种基于类激活映射和视觉显著性的图像情感分类方法

Info

Publication number: CN111832573B
Application number: CN202010536571.2A
Authority: CN
Inventors: 蔡国永; 储阳阳
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2022-04-15
Anticipated expiration: 2040-06-12
Also published as: CN111832573A

Abstract

本发明提供一种基于类激活映射和视觉显著性的图像情感分类方法，涉及计算机视觉和图像处理技术领域。该方法首先通过深度卷积神经网络提取图像整体特征，利用多尺度全卷积神经网络对图像进行显著性检测，进一步得到图像的显著性区域特征，同时仅仅利用图像级别的情感标签，通过类激活映射生成图像的情感分布图并提取情感区域特征。图像显著性区域特征和情感区域特征均视为图像的局部表示，将其与图像的整体特征进一步融合从而得到更具判别性的视觉特征并将其用于视觉情感分类。本发明不仅考虑图像整体信息，还充分利用了图像中重要的局部区域的信息，同时仅仅需要图片级别的情感标签，大大减轻了标注负担。

Description

一种基于类激活映射和视觉显著性的图像情感分类方法

技术领域

本发明属于计算机视觉与图像处理技术领域，具体涉及一种基于类激活映射和视觉显著性的图像情感分类方法。

背景技术

作为用户创建和分享信息的平台，社交媒体已经成为人们生活的重要组成部分，每天越来越多的人通过社交媒体发布海量的多媒体内容以表达自己的观点和情感。针对这些用户生成数据的情感分析能够有效分析用户行为和心理，发掘用户需求，具有重要的应用价值。随着社交媒体中用户发布的视觉内容日益增多，图像情感分类引起了广泛关注。

与目标识别任务不同，图像的情感涉及到高层次的抽象和认知的主观性，因此图像的情感识别是一种更具挑战性的的任务。传统的图像情感分类方法主要利用手工提取图像低级视觉特征并设计分类器进行图像的情感分类。但是这些算法不足以弥补图像低级视觉特征和高级情感语义之间巨大的语义鸿沟，所以情感分类效果并不理想。同时，手工提取特征是一个复杂繁琐的过程，在面对大规模数据时，就会十分费时费力。

作为一种基于对数据进行表征学习的方法，深度学习算法能够自动地从大规模原始数据中学到高层次而且抽象的特征，同时深度学习可以通过无监督式或半监督式的特征学习和分层特征提取的高效算法来替代手工获取特征，因而吸引了学术界和工业界的广泛关注。特别地，卷积神经网络作为一种特殊的深度学习模型，通过对原始图像数据交替进行卷积和采样操作，从而能够捕获图像更复杂更抽象的信息，因此在计算机视觉领域得到了广泛应用。随着深度学习和卷积神经网络在图像识别领域获得了巨大的成功，越来越多的研究者开始将深度学习技术应用于图像情感分类，同时，大规模情感图像数据库的建立使得深度学习技术应用于图像情感分类任务在实践上变得可行。

现有的基于深度学习的图像情感分类算法大都从整张图像的信息中提取整体特征，往往忽略了图像的重要的局部区域信息。特别地，一幅图像表达的情感可能仅仅来自于图像特定的某些区域，例如积极的情感被图像中包含阳光和鲜花的区域所反映，消极的情感被图像中哭泣的人脸区域所反映。因此，充分挖掘图像中重要的局部区域的信息，将可能提高情感分类的性能。已有工作尝试利用精确定位的图像区域信息来提升情感分类效果，例如通过目标检测框架自动发现图像的情感区域，然后结合这些情感区域特征以及图像整体特征用于训练情感分类器进行分类。然而这些强监督的检测方法需要大量精准的图像标注，例如矩形框标注，标注过程需要耗费极大的人力和时间。同时，除了显著性区域，图像其他区域同样可能刺激观看者产生情感，甚至图像本身并不包含明确的物理对象，但这些通常没有被考虑到。

综上所述，需要一种新的图像情感分类方法克服现有方法的不足。

发明内容

针对现有的图像情感分类方法仅仅考虑图像整体信息，没有充分利用图像中重要的局部区域的信息，限制了情感分类性能的问题，提出了一种基于类激活映射和视觉显著性的图像情感分类方法。

本发明提供了如下的技术方案：

一种基于类激活映射和视觉显著性的图像情感分类方法，包括以下步骤：

S1：准备用于训练模型的情感图像数据集，对数据集进行扩充，并将数据集中图像样本的尺寸调整为448×448×3；

S2：通过模型的整体特征提取网络提取每张图像的整体特征F；

S3：通过模型的显著性区域特征提取网络生成图像显著性图并提取其显著区域特征F_S；

S4：通过类激活映射生成图像情感分布图并提取情感区域特征F_M；

S5：融合整体特征F和局部特征F_S、F_M，得到判别性特征，经过全局平均池化操作生成语义向量d；

S6：将语义向量d输入到带有全连接层的softmax分类器计算情感类别的概率得分，并得到图像情感分类任务的损失函数，通过最小化损失函数训练模型；

S7：对目标图像使用训练好的模型和softmax分类器实现对图像的情感分类。

优选的，步骤S1中所述数据集选取公开情感图像数据集TwitterⅠ、TwitterⅡ和Art Photo数据集，对每张图像分别取其四角和中心5个位置裁剪并进行水平翻转得到10张图448×448的图像。

优选的，步骤S2中所述的整体特征提取网络采用全卷积神经网络，该全卷积神经网络是由在大规模数据集ImageNet上预训练的ResNet-101的卷积层组迁移得到的。

优选的，步骤S3中所述的显著性区域特征提取网络设计实现方法，包括以下步骤：

S31：通过多尺度全卷积神经网络生成图像的显著性图，具体步骤如下：

S311：首先用卷积层替换原16层VGGNet中的最后两个全连接层，构成全卷积网络；

S312：在VGGNet的基础上，将前四个池化层均连接三个不同的卷积层，使其产生尺寸一致的单通道特征图；

S313：将不同尺度的个单通道特征图进行叠加，得到一个多通道的特征图，再经过卷积和上采样操作调整尺寸，得到一个单通道的输出，即为图像的显著性图S∈R^W×H；

S32：将显著性图通过Sigmoid激活函数进行归一化，产生图像的显著性的概率分布A_S∈R^W×H，计算式为：

A_S＝sigmoid(S)；

S33：通过将图像的显著性的概率分布与图像整体特征相乘，加权图像显著性区域的特征表示，最终得到图像显著性区域特征表示F_S∈R^W×H×C，计算式为：

其中，

表示对应元素之间的乘法。

优选的，步骤S4中所述的情感区域特征提取网络设计实现方法，包括以下步骤：

S41：首先将整体特征通过1×1的卷积层以捕捉和每个情感种类相关的多种信息，从而得到特征F′∈R^W×H×C；

S42：通过类激活映射生成图像的情感类激活图并最终通过多个类激活图生成情感分布图，该过程仅仅利用图像级别的情感标签，具体步骤为：

S421：对F′进行全局平均池化，计算其每个通道的特征图的平均值，并用该平均值代替每个通道的特征图，从而将特征F′转化为特征向量v，对于v的每一个元素v_i,i∈{1,2,...,C}，其计算式为：

其中f_i(m,n)表示特征F′的第i个特征图的(m,n)位置元素的值；

S422：将特征向量输入到一个全连接层进行分类，对于最终输出的每一个分类结果，全连接层均有与之对应的权重参数，令c表示全连接层最终输出的类别，则该类别的类激活映射M_c计算如下：

其中，

表示全连接层对应的权重，f_i表示F′的第i个特征图；

S423：通过类激活映射生成所有情感类别的类激活图，利用所有情感类别的类激活映射来捕捉情感传达区域，通过堆叠每一类情感类别所生成的类激活图，最终生成整张图像的情感分布图M∈R^W×H；

S43：将情感分布图通过sigmoid激活函数进行归一化，产生图像的情感概率分布A_M∈R^W×H，计算式为：

A_M＝sigmoid(M)；

S44：通过图像的情感概率分布与图像整体特征相乘，即加权每个区域的特征表示，最终得到图像情感区域特征表示F_M∈R^W×H×C，计算式为：

优选的，所述步骤S5中，整体特征提取网络的输出F作为图像的整体特征，显著性区域特征F_S和情感区域特征F_M均视为图像的局部特征，特征的融合方式采用张量拼接的方式。

优选的，所述步骤S6中，通过softmax函数计算输入图像的情感类别预测概率得分p_i，具体计算方式如下：

其中m表示情感类别；

通过随机梯度下降算法最小化化交叉熵损失函数L更新模型参数从而对网络进行优化，损失函数如下：

其中y_i表示输入图像的真实情感标签。

优选的，所述步骤S7中，最终将概率最大的情感类别作为图像情感分类的结果。

本发明的有益效果是：本发明相比于现有的基于人工提取特征的图像情感分类方法，通过采用卷积神经网络模型能够自动学习到图像的情感特征，有效减少了人工设计和提取图像特征所花费的时间，同时提取到的特征更具鲁棒性，提高了图像情感分类的效果；

本发明相比于现有的基于深度学习的图像情感分类方法，不仅考虑图像整体信息，还充分利用图像中重要的局部区域的信息，同时在获取局部区域信息的过程中仅仅利用了图像级别的情感标签，而不需要精确的人工标注，在获得更好情感分类效果的同时减小了人工标注的负担；

本发明相比于现有的图像情感分类方法，通过端到端的模型结构提取图像的整体特征、显著性区域特征和情感区域特征并进行融合，从而获得更具判别性的图像特征输入softmax分类器进行情感分类，提升了情感分类效果，同时本发明不仅适用于二分类，可以扩展到图像情感多分类的任务中。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1是本发明基于类激活映射和视觉显著性的图像情感分类模型结构图；

图2是本发明多尺度全卷积神经网络结构图；

图3是本发明类激活映射生成情感分布图过程示意图；

图4是本发明不同方法在Art Photo数据集上多分类结果；

图5是本发明图像情感分类结果样例图。

具体实施方式

如图1所示，一种基于类激活映射和视觉显著性的图像情感分类方法，包括以下步骤：

S4：通过模型的情感区域特征提取网络生成图像情感分布图并提取情感区域特征F_M；

具体的，步骤S1中，数据集包括三规模数据集Art Photo数据集、Twitter I数据集和Twitter II数据集。

步骤S2中所述的整体特征提取网络采用全卷积神经网络，该全卷积神经网络是由在大规模数据集ImageNet上预训练的ResNet-101的卷积层组迁移得到的。

步骤S3中所述的显著性区域特征提取网络设计实现步骤如下：

(1)通过多尺度全卷积神经网络生成图像的显著性图。如图2所示，多尺度全卷积神经网络构建步骤如下：

①首先用卷积层替换原16层VGGNet中的最后两个全连接层，构成全卷积网络；

②在VGGNet的基础上，将前四个池化层均连接三个不同的卷积层，使其产生尺寸一致的单通道特征图；

③将不同尺度的个单通道特征图进行叠加，得到一个多通道的特征图，再经过卷积和上采样操作调整尺寸，得到一个单通道的输出，即为图像的显著性图S∈R^W×H；

(2)将显著性图通过Sigmoid激活函数进行归一化，产生图像的显著性的概率分布A_S∈R^W×H，计算式为：

A_S＝sigmoid(S)；

(3)进一步，通过将图像的显著性的概率分布与图像整体特征相乘，加权图像显著性区域的特征表示，最终得到图像显著性区域特征表示F_S∈R^W×H×C，计算式为：

其中，

表示对应元素之间的乘法。

步骤S4中所述的情感区域特征提取网络设计实现方法，包括以下步骤：

(1)首先将整体特征通过1×1的卷积层以捕捉和每个情感种类相关的多种信息，从而得到特征F′∈R^W×H×C；

(2)如图3所示，通过类激活映射生成图像的情感类激活图并最终通过多个类激活图生成情感分布图，该过程仅仅利用图像级别的情感标签，具体步骤为：

①对F′进行全局平均池化，计算其每个通道的特征图的平均值，并用该平均值代替每个通道的特征图，从而将特征F′转化为特征向量v，对于v的每一个元素v_i,i∈{1,2,...,C}，其计算式为：

其中f_i(m,n)表示特征F′的第i个特征图的(m,n)位置元素的值；

②将特征向量输入到一个全连接层进行分类，对于最终输出的每一个分类结果，全连接层均有与之对应的权重参数，令c表示全连接层最终输出的类别，则该类别的类激活映射M_c计算如下：

其中，

表示全连接层对应的权重，f_i表示F′的第i个特征图；

③通过类激活映射生成所有情感类别的类激活图，利用所有情感类别的类激活映射来捕捉情感传达区域，通过堆叠每一类情感类别所生成的类激活图，最终生成整张图像的情感分布图M∈R^W×H；

(3)将情感分布图通过sigmoid激活函数进行归一化，产生图像的情感概率分布A_M∈R^W×H，计算式为：

A_M＝sigmoid(M)；

(4)进一步，通过图像的情感概率分布与图像整体特征相乘，即加权每个区域的特征表示，最终得到图像情感区域特征表示F_M∈R^W×H×C，计算式为：

步骤S5中，整体特征提取网络的输出F作为图像的整体特征，显著性区域特征F_S和情感区域特征F_M均视为图像的局部特征，特征的融合方式采用张量拼接的方式。

步骤S6中，通过softmax函数计算输入图像的情感类别预测概率得分p_i，具体计算方式如下：

其中m表示情感类别；

其中y_i表示输入图像的真实情感标签。

步骤S7中，最终将概率最大的情感类别作为图像情感分类的结果。

下面结合真实数据集详细描述实验过程及结果分析。

(1)数据集

实验数据集采用公开数据集Art Photo、Twitter I和Twitter II。Art Photo数据集是包含从艺术网站上收集而来的806张艺术图片的公开数据集，这些艺术图片通过特定的构图、内容、颜色等艺术属性表达作者的某种情绪，该数据集总共有8种不同的标签。Twitter I数据集是从社交软件Twitter上收集的1269张情感图片，其中积极情感的图片769张，消极情感的图片500张。Twitter II数据集总共包含了603张从社交软件Twitter上收集的图片，其中包括470张积极情感和133张消极情感的图片。对数据集中每张图像分别取其四角和中心5个位置裁剪并进行水平翻转得到10张图448×448的图像。

(2)实验设置

实验中每次输入的batch-size设为32。采用随机梯度下降算法对网络进行优化，权重衰减设为0.0005，学习率设为0.001。模型采用Dropout策略和L2范式防止过拟合，Dropout值设为0.5。实验开发环境为Linux-Ubuntu14.04,Python 2.7,Tensorflow1.3.0，开发工具为PyCharm。模型的训练和测试均在Tesla P100-PCIE GPU工作站上完成。

(3)对比方法

为了验证所提出方法的有效性，实验相同的数据集上对比了传统图像情感分类方法、基于中层语义表达的图像情感分类方法和基于深度学习的图像情感分类方法。对比方法说明如下：

GCH：利用64位二进制RGB直方图组成的全局颜色直方图特征作为图像特征训练SVM分类器进行情感分类。

SentiBank：该方法通过构建由1200个形容词名词对(ANP)组成的视觉情感本体库作为图像中层语义表示，来自动地探测图像情感。

Sentribute：该方法利用场景图像数据，训练了一个102类场景的分类器，能够利用输入的图像生成一个102维向量，该向量可视为图像情感特征训练SVM分类器进行图像情感分类。

PCNN：该方法通过利用大规模的噪声数据(约1万张图像)训练CNN，然后通过递进的剔除噪声样本，筛选成高质量的训练子集作为训练集进一步调试模型，从而获得鲁棒的PCNN模型用于图像情感分类。

VGGNet-16：仅利用VGGNet-16模型，通过在ImageNet数据集上进行预训练，获得较好的模型初始化参数，然后在情感图像数据集上进行微调，进行图像情感分类。

ResNet-101：仅利用深度残差网络ResNet-101，通过在ImageNet数据集上进行预训练，获得较好的模型初始化参数，然后在情感图像数据集上进行微调，进行图像情感分类。

(4)结果分析

表1展示了本发明与对比方法在情感图像数据集Art Photo、Twitter I、TwitterII上的二分类分类结果。本发明所提出的图像情感分类方法在三个二分类数据集上的准确率分别达到了75.1％、81.5％和81.1％，性能表现均优于对比方法。

表1

如图4所示，给出了本发明与对比方法在Art Photo数据集多分类性能表现。由图5可知，本发明提出的方法在多分类情感图像数据集Art Photo分类准确率达到了53.3％。通过对比各类方法在多分类数据集上的分类结果，可以说明本发明提出的方法同样能够适应视觉情感的多分类任务。

如图5所示，展示了使用本发明对图片进行情感分类的样例，其中(a)为二分类样例，(b)为多分类样例。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。