CN111832573B - 一种基于类激活映射和视觉显著性的图像情感分类方法 - Google Patents

一种基于类激活映射和视觉显著性的图像情感分类方法 Download PDF

Info

Publication number
CN111832573B
CN111832573B CN202010536571.2A CN202010536571A CN111832573B CN 111832573 B CN111832573 B CN 111832573B CN 202010536571 A CN202010536571 A CN 202010536571A CN 111832573 B CN111832573 B CN 111832573B
Authority
CN
China
Prior art keywords
image
emotion
feature
class activation
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010536571.2A
Other languages
English (en)
Other versions
CN111832573A (zh
Inventor
蔡国永
储阳阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guilin University of Electronic Technology
Original Assignee
Guilin University of Electronic Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guilin University of Electronic Technology filed Critical Guilin University of Electronic Technology
Priority to CN202010536571.2A priority Critical patent/CN111832573B/zh
Publication of CN111832573A publication Critical patent/CN111832573A/zh
Application granted granted Critical
Publication of CN111832573B publication Critical patent/CN111832573B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明提供一种基于类激活映射和视觉显著性的图像情感分类方法,涉及计算机视觉和图像处理技术领域。该方法首先通过深度卷积神经网络提取图像整体特征,利用多尺度全卷积神经网络对图像进行显著性检测,进一步得到图像的显著性区域特征,同时仅仅利用图像级别的情感标签,通过类激活映射生成图像的情感分布图并提取情感区域特征。图像显著性区域特征和情感区域特征均视为图像的局部表示,将其与图像的整体特征进一步融合从而得到更具判别性的视觉特征并将其用于视觉情感分类。本发明不仅考虑图像整体信息,还充分利用了图像中重要的局部区域的信息,同时仅仅需要图片级别的情感标签,大大减轻了标注负担。

Description

一种基于类激活映射和视觉显著性的图像情感分类方法
技术领域
本发明属于计算机视觉与图像处理技术领域,具体涉及一种基于类激活映射和视觉显著性的图像情感分类方法。
背景技术
作为用户创建和分享信息的平台,社交媒体已经成为人们生活的重要组成部分,每天越来越多的人通过社交媒体发布海量的多媒体内容以表达自己的观点和情感。针对这些用户生成数据的情感分析能够有效分析用户行为和心理,发掘用户需求,具有重要的应用价值。随着社交媒体中用户发布的视觉内容日益增多,图像情感分类引起了广泛关注。
与目标识别任务不同,图像的情感涉及到高层次的抽象和认知的主观性,因此图像的情感识别是一种更具挑战性的的任务。传统的图像情感分类方法主要利用手工提取图像低级视觉特征并设计分类器进行图像的情感分类。但是这些算法不足以弥补图像低级视觉特征和高级情感语义之间巨大的语义鸿沟,所以情感分类效果并不理想。同时,手工提取特征是一个复杂繁琐的过程,在面对大规模数据时,就会十分费时费力。
作为一种基于对数据进行表征学习的方法,深度学习算法能够自动地从大规模原始数据中学到高层次而且抽象的特征,同时深度学习可以通过无监督式或半监督式的特征学习和分层特征提取的高效算法来替代手工获取特征,因而吸引了学术界和工业界的广泛关注。特别地,卷积神经网络作为一种特殊的深度学习模型,通过对原始图像数据交替进行卷积和采样操作,从而能够捕获图像更复杂更抽象的信息,因此在计算机视觉领域得到了广泛应用。随着深度学习和卷积神经网络在图像识别领域获得了巨大的成功,越来越多的研究者开始将深度学习技术应用于图像情感分类,同时,大规模情感图像数据库的建立使得深度学习技术应用于图像情感分类任务在实践上变得可行。
现有的基于深度学习的图像情感分类算法大都从整张图像的信息中提取整体特征,往往忽略了图像的重要的局部区域信息。特别地,一幅图像表达的情感可能仅仅来自于图像特定的某些区域,例如积极的情感被图像中包含阳光和鲜花的区域所反映,消极的情感被图像中哭泣的人脸区域所反映。因此,充分挖掘图像中重要的局部区域的信息,将可能提高情感分类的性能。已有工作尝试利用精确定位的图像区域信息来提升情感分类效果,例如通过目标检测框架自动发现图像的情感区域,然后结合这些情感区域特征以及图像整体特征用于训练情感分类器进行分类。然而这些强监督的检测方法需要大量精准的图像标注,例如矩形框标注,标注过程需要耗费极大的人力和时间。同时,除了显著性区域,图像其他区域同样可能刺激观看者产生情感,甚至图像本身并不包含明确的物理对象,但这些通常没有被考虑到。
综上所述,需要一种新的图像情感分类方法克服现有方法的不足。
发明内容
针对现有的图像情感分类方法仅仅考虑图像整体信息,没有充分利用图像中重要的局部区域的信息,限制了情感分类性能的问题,提出了一种基于类激活映射和视觉显著性的图像情感分类方法。
本发明提供了如下的技术方案:
一种基于类激活映射和视觉显著性的图像情感分类方法,包括以下步骤:
S1:准备用于训练模型的情感图像数据集,对数据集进行扩充,并将数据集中图像样本的尺寸调整为448×448×3;
S2:通过模型的整体特征提取网络提取每张图像的整体特征F;
S3:通过模型的显著性区域特征提取网络生成图像显著性图并提取其显著区域特征FS
S4:通过类激活映射生成图像情感分布图并提取情感区域特征FM
S5:融合整体特征F和局部特征FS、FM,得到判别性特征,经过全局平均池化操作生成语义向量d;
S6:将语义向量d输入到带有全连接层的softmax分类器计算情感类别的概率得分,并得到图像情感分类任务的损失函数,通过最小化损失函数训练模型;
S7:对目标图像使用训练好的模型和softmax分类器实现对图像的情感分类。
优选的,步骤S1中所述数据集选取公开情感图像数据集TwitterⅠ、TwitterⅡ和Art Photo数据集,对每张图像分别取其四角和中心5个位置裁剪并进行水平翻转得到10张图448×448的图像。
优选的,步骤S2中所述的整体特征提取网络采用全卷积神经网络,该全卷积神经网络是由在大规模数据集ImageNet上预训练的ResNet-101的卷积层组迁移得到的。
优选的,步骤S3中所述的显著性区域特征提取网络设计实现方法,包括以下步骤:
S31:通过多尺度全卷积神经网络生成图像的显著性图,具体步骤如下:
S311:首先用卷积层替换原16层VGGNet中的最后两个全连接层,构成全卷积网络;
S312:在VGGNet的基础上,将前四个池化层均连接三个不同的卷积层,使其产生尺寸一致的单通道特征图;
S313:将不同尺度的个单通道特征图进行叠加,得到一个多通道的特征图,再经过卷积和上采样操作调整尺寸,得到一个单通道的输出,即为图像的显著性图S∈RW×H
S32:将显著性图通过Sigmoid激活函数进行归一化,产生图像的显著性的概率分布AS∈RW×H,计算式为:
AS=sigmoid(S);
S33:通过将图像的显著性的概率分布与图像整体特征相乘,加权图像显著性区域的特征表示,最终得到图像显著性区域特征表示FS∈RW×H×C,计算式为:
Figure BDA0002537195070000041
其中,
Figure BDA0002537195070000042
表示对应元素之间的乘法。
优选的,步骤S4中所述的情感区域特征提取网络设计实现方法,包括以下步骤:
S41:首先将整体特征通过1×1的卷积层以捕捉和每个情感种类相关的多种信息,从而得到特征F′∈RW×H×C
S42:通过类激活映射生成图像的情感类激活图并最终通过多个类激活图生成情感分布图,该过程仅仅利用图像级别的情感标签,具体步骤为:
S421:对F′进行全局平均池化,计算其每个通道的特征图的平均值,并用该平均值代替每个通道的特征图,从而将特征F′转化为特征向量v,对于v的每一个元素vi,i∈{1,2,...,C},其计算式为:
Figure BDA0002537195070000043
其中fi(m,n)表示特征F′的第i个特征图的(m,n)位置元素的值;
S422:将特征向量输入到一个全连接层进行分类,对于最终输出的每一个分类结果,全连接层均有与之对应的权重参数,令c表示全连接层最终输出的类别,则该类别的类激活映射Mc计算如下:
Figure BDA0002537195070000051
其中,
Figure BDA0002537195070000052
表示全连接层对应的权重,fi表示F′的第i个特征图;
S423:通过类激活映射生成所有情感类别的类激活图,利用所有情感类别的类激活映射来捕捉情感传达区域,通过堆叠每一类情感类别所生成的类激活图,最终生成整张图像的情感分布图M∈RW×H
S43:将情感分布图通过sigmoid激活函数进行归一化,产生图像的情感概率分布AM∈RW×H,计算式为:
AM=sigmoid(M);
S44:通过图像的情感概率分布与图像整体特征相乘,即加权每个区域的特征表示,最终得到图像情感区域特征表示FM∈RW×H×C,计算式为:
Figure BDA0002537195070000053
优选的,所述步骤S5中,整体特征提取网络的输出F作为图像的整体特征,显著性区域特征FS和情感区域特征FM均视为图像的局部特征,特征的融合方式采用张量拼接的方式。
优选的,所述步骤S6中,通过softmax函数计算输入图像的情感类别预测概率得分pi,具体计算方式如下:
Figure BDA0002537195070000054
其中m表示情感类别;
通过随机梯度下降算法最小化化交叉熵损失函数L更新模型参数从而对网络进行优化,损失函数如下:
Figure BDA0002537195070000061
其中yi表示输入图像的真实情感标签。
优选的,所述步骤S7中,最终将概率最大的情感类别作为图像情感分类的结果。
本发明的有益效果是:本发明相比于现有的基于人工提取特征的图像情感分类方法,通过采用卷积神经网络模型能够自动学习到图像的情感特征,有效减少了人工设计和提取图像特征所花费的时间,同时提取到的特征更具鲁棒性,提高了图像情感分类的效果;
本发明相比于现有的基于深度学习的图像情感分类方法,不仅考虑图像整体信息,还充分利用图像中重要的局部区域的信息,同时在获取局部区域信息的过程中仅仅利用了图像级别的情感标签,而不需要精确的人工标注,在获得更好情感分类效果的同时减小了人工标注的负担;
本发明相比于现有的图像情感分类方法,通过端到端的模型结构提取图像的整体特征、显著性区域特征和情感区域特征并进行融合,从而获得更具判别性的图像特征输入softmax分类器进行情感分类,提升了情感分类效果,同时本发明不仅适用于二分类,可以扩展到图像情感多分类的任务中。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1是本发明基于类激活映射和视觉显著性的图像情感分类模型结构图;
图2是本发明多尺度全卷积神经网络结构图;
图3是本发明类激活映射生成情感分布图过程示意图;
图4是本发明不同方法在Art Photo数据集上多分类结果;
图5是本发明图像情感分类结果样例图。
具体实施方式
如图1所示,一种基于类激活映射和视觉显著性的图像情感分类方法,包括以下步骤:
S1:准备用于训练模型的情感图像数据集,对数据集进行扩充,并将数据集中图像样本的尺寸调整为448×448×3;
S2:通过模型的整体特征提取网络提取每张图像的整体特征F;
S3:通过模型的显著性区域特征提取网络生成图像显著性图并提取其显著区域特征FS
S4:通过模型的情感区域特征提取网络生成图像情感分布图并提取情感区域特征FM
S5:融合整体特征F和局部特征FS、FM,得到判别性特征,经过全局平均池化操作生成语义向量d;
S6:将语义向量d输入到带有全连接层的softmax分类器计算情感类别的概率得分,并得到图像情感分类任务的损失函数,通过最小化损失函数训练模型;
S7:对目标图像使用训练好的模型和softmax分类器实现对图像的情感分类。
具体的,步骤S1中,数据集包括三规模数据集Art Photo数据集、Twitter I数据集和Twitter II数据集。
步骤S2中所述的整体特征提取网络采用全卷积神经网络,该全卷积神经网络是由在大规模数据集ImageNet上预训练的ResNet-101的卷积层组迁移得到的。
步骤S3中所述的显著性区域特征提取网络设计实现步骤如下:
(1)通过多尺度全卷积神经网络生成图像的显著性图。如图2所示,多尺度全卷积神经网络构建步骤如下:
①首先用卷积层替换原16层VGGNet中的最后两个全连接层,构成全卷积网络;
②在VGGNet的基础上,将前四个池化层均连接三个不同的卷积层,使其产生尺寸一致的单通道特征图;
③将不同尺度的个单通道特征图进行叠加,得到一个多通道的特征图,再经过卷积和上采样操作调整尺寸,得到一个单通道的输出,即为图像的显著性图S∈RW×H
(2)将显著性图通过Sigmoid激活函数进行归一化,产生图像的显著性的概率分布AS∈RW×H,计算式为:
AS=sigmoid(S);
(3)进一步,通过将图像的显著性的概率分布与图像整体特征相乘,加权图像显著性区域的特征表示,最终得到图像显著性区域特征表示FS∈RW×H×C,计算式为:
Figure BDA0002537195070000081
其中,
Figure BDA0002537195070000082
表示对应元素之间的乘法。
步骤S4中所述的情感区域特征提取网络设计实现方法,包括以下步骤:
(1)首先将整体特征通过1×1的卷积层以捕捉和每个情感种类相关的多种信息,从而得到特征F′∈RW×H×C
(2)如图3所示,通过类激活映射生成图像的情感类激活图并最终通过多个类激活图生成情感分布图,该过程仅仅利用图像级别的情感标签,具体步骤为:
①对F′进行全局平均池化,计算其每个通道的特征图的平均值,并用该平均值代替每个通道的特征图,从而将特征F′转化为特征向量v,对于v的每一个元素vi,i∈{1,2,...,C},其计算式为:
Figure BDA0002537195070000091
其中fi(m,n)表示特征F′的第i个特征图的(m,n)位置元素的值;
②将特征向量输入到一个全连接层进行分类,对于最终输出的每一个分类结果,全连接层均有与之对应的权重参数,令c表示全连接层最终输出的类别,则该类别的类激活映射Mc计算如下:
Figure BDA0002537195070000092
其中,
Figure BDA0002537195070000093
表示全连接层对应的权重,fi表示F′的第i个特征图;
③通过类激活映射生成所有情感类别的类激活图,利用所有情感类别的类激活映射来捕捉情感传达区域,通过堆叠每一类情感类别所生成的类激活图,最终生成整张图像的情感分布图M∈RW×H
(3)将情感分布图通过sigmoid激活函数进行归一化,产生图像的情感概率分布AM∈RW×H,计算式为:
AM=sigmoid(M);
(4)进一步,通过图像的情感概率分布与图像整体特征相乘,即加权每个区域的特征表示,最终得到图像情感区域特征表示FM∈RW×H×C,计算式为:
Figure BDA0002537195070000094
步骤S5中,整体特征提取网络的输出F作为图像的整体特征,显著性区域特征FS和情感区域特征FM均视为图像的局部特征,特征的融合方式采用张量拼接的方式。
步骤S6中,通过softmax函数计算输入图像的情感类别预测概率得分pi,具体计算方式如下:
Figure BDA0002537195070000101
其中m表示情感类别;
通过随机梯度下降算法最小化化交叉熵损失函数L更新模型参数从而对网络进行优化,损失函数如下:
Figure BDA0002537195070000102
其中yi表示输入图像的真实情感标签。
步骤S7中,最终将概率最大的情感类别作为图像情感分类的结果。
下面结合真实数据集详细描述实验过程及结果分析。
(1)数据集
实验数据集采用公开数据集Art Photo、Twitter I和Twitter II。Art Photo数据集是包含从艺术网站上收集而来的806张艺术图片的公开数据集,这些艺术图片通过特定的构图、内容、颜色等艺术属性表达作者的某种情绪,该数据集总共有8种不同的标签。Twitter I数据集是从社交软件Twitter上收集的1269张情感图片,其中积极情感的图片769张,消极情感的图片500张。Twitter II数据集总共包含了603张从社交软件Twitter上收集的图片,其中包括470张积极情感和133张消极情感的图片。对数据集中每张图像分别取其四角和中心5个位置裁剪并进行水平翻转得到10张图448×448的图像。
(2)实验设置
实验中每次输入的batch-size设为32。采用随机梯度下降算法对网络进行优化,权重衰减设为0.0005,学习率设为0.001。模型采用Dropout策略和L2范式防止过拟合,Dropout值设为0.5。实验开发环境为Linux-Ubuntu14.04,Python 2.7,Tensorflow1.3.0,开发工具为PyCharm。模型的训练和测试均在Tesla P100-PCIE GPU工作站上完成。
(3)对比方法
为了验证所提出方法的有效性,实验相同的数据集上对比了传统图像情感分类方法、基于中层语义表达的图像情感分类方法和基于深度学习的图像情感分类方法。对比方法说明如下:
GCH:利用64位二进制RGB直方图组成的全局颜色直方图特征作为图像特征训练SVM分类器进行情感分类。
SentiBank:该方法通过构建由1200个形容词名词对(ANP)组成的视觉情感本体库作为图像中层语义表示,来自动地探测图像情感。
Sentribute:该方法利用场景图像数据,训练了一个102类场景的分类器,能够利用输入的图像生成一个102维向量,该向量可视为图像情感特征训练SVM分类器进行图像情感分类。
PCNN:该方法通过利用大规模的噪声数据(约1万张图像)训练CNN,然后通过递进的剔除噪声样本,筛选成高质量的训练子集作为训练集进一步调试模型,从而获得鲁棒的PCNN模型用于图像情感分类。
VGGNet-16:仅利用VGGNet-16模型,通过在ImageNet数据集上进行预训练,获得较好的模型初始化参数,然后在情感图像数据集上进行微调,进行图像情感分类。
ResNet-101:仅利用深度残差网络ResNet-101,通过在ImageNet数据集上进行预训练,获得较好的模型初始化参数,然后在情感图像数据集上进行微调,进行图像情感分类。
(4)结果分析
表1展示了本发明与对比方法在情感图像数据集Art Photo、Twitter I、TwitterII上的二分类分类结果。本发明所提出的图像情感分类方法在三个二分类数据集上的准确率分别达到了75.1%、81.5%和81.1%,性能表现均优于对比方法。
Figure BDA0002537195070000121
表1
如图4所示,给出了本发明与对比方法在Art Photo数据集多分类性能表现。由图5可知,本发明提出的方法在多分类情感图像数据集Art Photo分类准确率达到了53.3%。通过对比各类方法在多分类数据集上的分类结果,可以说明本发明提出的方法同样能够适应视觉情感的多分类任务。
如图5所示,展示了使用本发明对图片进行情感分类的样例,其中(a)为二分类样例,(b)为多分类样例。
以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (5)

1.一种基于类激活映射和视觉显著性的图像情感分类方法,其特征在于,包括以下步骤:
S1:准备用于训练模型的情感图像数据集,对数据集进行扩充,并将数据集中图像样本的尺寸调整为448×448;
S2:通过模型的整体特征提取网络提取每张图像的整体特征F;
S3:通过模型的显著性区域特征提取网络生成图像显著性图并提取其显著区域特征FS
S4:通过类激活映射生成图像情感分布图并提取情感区域特征FM
S5:融合整体特征F和局部特征FS、FM,得到判别性特征,经过全局平均池化操作生成语义向量d;
S6:将语义向量d输入到带有全连接层的softmax分类器计算情感类别的概率得分,并得到图像情感分类任务的损失函数,通过最小化损失函数训练模型;
S7:对目标图像使用训练好的模型和softmax分类器实现对图像的情感分类;
步骤S3中所述的显著性区域特征提取网络设计实现方法,包括以下步骤:
S31:通过多尺度全卷积神经网络生成图像的显著性图,具体步骤如下:
S311:首先用卷积层替换原16层VGGNet中的最后两个全连接层,构成全卷积网络;
S312:在VGGNet的基础上,将前四个池化层均连接三个不同的卷积层,使其产生尺寸一致的单通道特征图;
S313:将不同尺度的个单通道特征图进行叠加,得到一个多通道的特征图,再经过卷积和上采样操作调整尺寸,得到一个单通道的输出,即为图像的显著性图S∈RW×H
S32:将显著性图通过Sigmoid激活函数进行归一化,产生图像的显著性的概率分布AS∈RW×H,计算式为:
AS=sigmoid(S);
S33:通过将图像的显著性的概率分布与图像整体特征相乘,加权图像显著性区域的特征表示,最终得到图像显著性区域特征表示FS∈RW×H×C,计算式为:
Figure FDA0003532877020000021
其中,
Figure FDA0003532877020000022
表示对应元素之间的乘法;
步骤S4中所述的情感区域特征提取网络设计实现方法,包括以下步骤:
S41:首先将整体特征通过1×1的卷积层以捕捉和每个情感种类相关的多种信息,从而得到特征F′∈RW×H×C
S42:通过类激活映射生成图像的情感类激活图并最终通过多个类激活图生成情感分布图,该过程仅仅利用图像级别的情感标签,具体步骤为:
S421:对F′进行全局平均池化,计算其每个通道的特征图的平均值,并用该平均值代替每个通道的特征图,从而将特征F′转化为特征向量v,对于v的每一个元素vi,i∈{1,2,...,C},其计算式为:
Figure FDA0003532877020000031
其中fi(m,n)表示特征F′的第i个特征图的(m,n)位置元素的值;
S422:将特征向量输入到一个全连接层进行分类,对于最终输出的每一个分类结果,全连接层均有与之对应的权重参数,令c表示全连接层最终输出的类别,则该类别的类激活映射Mc计算如下:
Figure FDA0003532877020000032
其中,
Figure FDA0003532877020000034
表示全连接层对应的权重,fi表示F′的第i个特征图;
S423:通过类激活映射生成所有情感类别的类激活图,利用所有情感类别的类激活映射来捕捉情感传达区域,通过堆叠每一类情感类别所生成的类激活图,最终生成整张图像的情感分布图M∈RW×H
S43:将情感分布图通过sigmoid激活函数进行归一化,产生图像的情感概率分布AM∈RW ×H,计算式为:
AM=sigmoid(M);
S44:通过图像的情感概率分布与图像整体特征相乘,即加权每个区域的特征表示,最终得到图像情感区域特征表示FM∈RW×H×C,计算式为:
Figure FDA0003532877020000033
所述步骤S5中,整体特征提取网络的输出F作为图像的整体特征,显著性区域特征FS和情感区域特征FM均视为图像的局部特征,特征的融合方式采用张量拼接的方式。
2.根据权利要求1所述的一种基于类激活映射和视觉显著性的图像情感分类方法,其特征在于,步骤S1中所述数据集选取公开情感图像数据集Twitter Ⅰ、Twitter Ⅱ和ArtPhoto数据集,对每张图像分别取其四角和中心5个位置裁剪并进行水平翻转得到10张图448×448的图像。
3.根据权利要求1所述的一种基于类激活映射和视觉显著性的图像情感分类方法,其特征在于,步骤S2中所述的整体特征提取网络采用全卷积神经网络,该全卷积神经网络是由在大规模数据集ImageNet上预训练的ResNet-101的卷积层组迁移得到的。
4.根据权利要求1所述的一种基于类激活映射和视觉显著性的图像情感分类方法,其特征在于,所述步骤S6中,通过softmax函数计算输入图像的情感类别预测概率得分pi,具体计算方式如下:
Figure FDA0003532877020000041
其中k表示情感类别;
通过随机梯度下降算法最小化交叉熵损失函数L更新模型参数从而对网络进行优化,损失函数如下:
Figure FDA0003532877020000042
其中yi表示输入图像的真实情感标签。
5.根据权利要求1所述的一种基于类激活映射和视觉显著性的图像情感分类方法,其特征在于,所述步骤S7中,最终将概率最大的情感类别作为图像情感分类的结果。
CN202010536571.2A 2020-06-12 2020-06-12 一种基于类激活映射和视觉显著性的图像情感分类方法 Active CN111832573B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010536571.2A CN111832573B (zh) 2020-06-12 2020-06-12 一种基于类激活映射和视觉显著性的图像情感分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010536571.2A CN111832573B (zh) 2020-06-12 2020-06-12 一种基于类激活映射和视觉显著性的图像情感分类方法

Publications (2)

Publication Number Publication Date
CN111832573A CN111832573A (zh) 2020-10-27
CN111832573B true CN111832573B (zh) 2022-04-15

Family

ID=72899184

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010536571.2A Active CN111832573B (zh) 2020-06-12 2020-06-12 一种基于类激活映射和视觉显著性的图像情感分类方法

Country Status (1)

Country Link
CN (1) CN111832573B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112465909B (zh) * 2020-12-07 2022-09-20 南开大学 基于卷积神经网络的类激活映射目标定位方法及系统
CN114140792B (zh) * 2022-02-08 2022-07-01 山东力聚机器人科技股份有限公司 基于动态滑动窗口的微小目标检测方法及装置
CN115100390B (zh) * 2022-08-24 2022-11-18 华东交通大学 一种联合对比学习与自监督区域定位的图像情感预测方法
CN116030363B (zh) * 2023-02-20 2023-06-23 北京数慧时空信息技术有限公司 遥感图像类激活映射图优化方法
CN117079103B (zh) * 2023-10-16 2024-01-02 暨南大学 一种用于神经网络训练的伪标签生成方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886580A (zh) * 2017-01-23 2017-06-23 北京工业大学 一种基于深度学习的图片情感极性分析方法
CN107341506A (zh) * 2017-06-12 2017-11-10 华南理工大学 一种基于多方面深度学习表达的图像情感分类方法
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN110119688A (zh) * 2019-04-18 2019-08-13 南开大学 一种利用视觉注意力协同网络的图像情感分类方法
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101814147B (zh) * 2010-04-12 2012-04-25 中国科学院自动化研究所 一种实现场景图像的分类方法
CN104239383A (zh) * 2014-06-09 2014-12-24 合肥工业大学 一种微博情感可视化方法
CN107633207B (zh) * 2017-08-17 2018-10-12 平安科技(深圳)有限公司 Au特征识别方法、装置及存储介质
CN110619369B (zh) * 2019-09-23 2020-12-11 常熟理工学院 基于特征金字塔与全局平均池化的细粒度图像分类方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106886580A (zh) * 2017-01-23 2017-06-23 北京工业大学 一种基于深度学习的图片情感极性分析方法
CN107341506A (zh) * 2017-06-12 2017-11-10 华南理工大学 一种基于多方面深度学习表达的图像情感分类方法
CN107679580A (zh) * 2017-10-21 2018-02-09 桂林电子科技大学 一种基于多模态深度潜在关联的异构迁移图像情感极性分析方法
CN110119688A (zh) * 2019-04-18 2019-08-13 南开大学 一种利用视觉注意力协同网络的图像情感分类方法
CN110852368A (zh) * 2019-11-05 2020-02-28 南京邮电大学 全局与局部特征嵌入及图文融合的情感分析方法与系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"Image sentiment analysis using latent correlations among visual, textual, and sentiment views";Marie Katsurai 等;《IEEE》;20160519;第2837-2841页 *
"图像整体与局部区域嵌入的视觉情感分析";蔡国永 等;《计算机应用》;20190418;第39卷(第8期);第2181-2185页 *
"基于多层次深度卷积神经网络的图像情感分类";王伟凝 等;《华南理工大学学报(自然科学版)》;20190615;第47卷(第6期);第39-50页 *

Also Published As

Publication number Publication date
CN111832573A (zh) 2020-10-27

Similar Documents

Publication Publication Date Title
CN111832573B (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
He et al. Emotion recognition by assisted learning with convolutional neural networks
Castellano et al. Deep learning approaches to pattern extraction and recognition in paintings and drawings: An overview
Tan et al. Photograph aesthetical evaluation and classification with deep convolutional neural networks
CN110196945B (zh) 一种基于LSTM与LeNet融合的微博用户年龄预测方法
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
Garain et al. GRA_Net: A deep learning model for classification of age and gender from facial images
Chen et al. Recognizing the style of visual arts via adaptive cross-layer correlation
Balaji et al. Multi-level feature fusion for group-level emotion recognition
CN109508640A (zh) 一种人群情感分析方法、装置和存储介质
CN116258990A (zh) 一种基于跨模态亲和力的小样本参考视频目标分割方法
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Akhlaghi et al. Farsi handwritten phone number recognition using deep learning
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
Sumalakshmi et al. Fused deep learning based Facial Expression Recognition of students in online learning mode
Li Parallel two-class 3D-CNN classifiers for video classification
Jadhav et al. Content based facial emotion recognition model using machine learning algorithm
Cucurull et al. Deep inference of personality traits by integrating image and word use in social networks
Vivek et al. A Way to Mark Attentance using Face Recognition using PL
Bose et al. Light Weight Structure Texture Feature Analysis for Character Recognition Using Progressive Stochastic Learning Algorithm
Desai et al. Automatic visual sentiment analysis with convolution neural network
Renjith et al. Indian sign language recognition: A comparative analysis using cnn and rnn models
Xin et al. Fruit Image Recognition Based on Census Transform and Deep Belief Network
Aulestia et al. Real-time face detection using artificial neural networks
Michaelsen On the depth of gestalt hierarchies in common imagery

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20201027

Assignee: Guangxi wisdom Valley Technology Co.,Ltd.

Assignor: GUILIN University OF ELECTRONIC TECHNOLOGY

Contract record no.: X2022450000202

Denomination of invention: An image emotion classification method based on class activation mapping and visual saliency

Granted publication date: 20220415

License type: Common License

Record date: 20221125