CN108427740B - 一种基于深度度量学习的图像情感分类与检索算法 - Google Patents

一种基于深度度量学习的图像情感分类与检索算法 Download PDF

Info

Publication number
CN108427740B
CN108427740B CN201810173303.1A CN201810173303A CN108427740B CN 108427740 B CN108427740 B CN 108427740B CN 201810173303 A CN201810173303 A CN 201810173303A CN 108427740 B CN108427740 B CN 108427740B
Authority
CN
China
Prior art keywords
emotion
image
retrieval
classification
neural network
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810173303.1A
Other languages
English (en)
Other versions
CN108427740A (zh
Inventor
杨巨峰
程明明
折栋宇
王恺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nankai University
Original Assignee
Nankai University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nankai University filed Critical Nankai University
Priority to CN201810173303.1A priority Critical patent/CN108427740B/zh
Publication of CN108427740A publication Critical patent/CN108427740A/zh
Application granted granted Critical
Publication of CN108427740B publication Critical patent/CN108427740B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5862Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Abstract

本发明公开了一种基于深度度量学习的图像情感分类与检索方法,属于图像处理技术领域。该方法的目的是结合情感标签间的相互关系进行图像情感的分类及检索。该方法设计了一种多任务的卷积神经网络架构,用于同时优化分类及检索两个任务。这种卷积神经网络架构利用基于多层卷积层的情感向量来作为图像的纹理信息表达,用于区别不同图像中的情感,并提出新型的情感约束考虑不同情感间的关系。最终将得到的模型用于图像情感分类,得到的情感向量作为嵌入特征用于图像情感检索。

Description

一种基于深度度量学习的图像情感分类与检索算法
技术领域
本发明属于图像处理技术领域,特别涉及到一种基于深度度量学习的图像情感分类与检索的方法。
背景技术
伴随多媒体技术的迅速发展,图片、视频等媒介已变成网络社交文化中的一种主流,人们更多地利用多媒体内容来表达自己的情感或观念。图像情感分析旨在使机器可以辨认甚至产生类似于人的情绪,是计算机视觉、模式识别等范畴的重要挑战之一。与传统物体分类不同,情感分类更为主观也更具有挑战性,一个主要原因是情感类别之间并非完全独立,有着不同文化背景的人对同一幅图像产生的感觉可能不尽相同。
传统的情感分析方法提取低层人工特征用于情感分类,如颜色、纹理、线条等特征,或者利用名词形容词对探测器Sentibank提取图像中的中层表征。近年来,卷积神经网络的运用在很多视觉任务中取得较好的效果,例如图像分类、物体检测、语义分割等。卷积神经网络具有很强的学习图像高层次特征表征的能力,因此一些研究者开始使用卷积神经网络进行情感分类。如You Quanzeng等2016年在AAAI(308-314)发表的论文“Building alarge scale dataset for image emotion recognition:The fine print and thebenchmark”中在大规模情感数据集上微调AlexNet网络。但是大多数基于卷积神经网络的方法都利用softmax损失函数优化分类任务,该函数只用于最大化正确类别的概率,而不能考虑到情感标签间天然存在的关系,如属于相同极性的情感(积极、消极)之间会比不同极性间更为相似。度量学习在过去几十年被广泛用于图像处理当中,近来一些方法将卷积神经网络与三元约束结合用来学习嵌入特征能够捕捉图像中的语义相似度。这类深度度量学习方法也被成功运用在了很多领域当中,如人脸识别,图像检索等。Zhang xiaofan等2016年在CVPR(1114-1123)发表的论文“Embedding label structures for fine-grainedfeature representation”中协同训练softmax及三元损失函数来获取图像语义特征,但利用全卷积特征并不能充分捕捉图像中的情感信息,此外,细分类物体类别间的三元约束也不适用于为情感种类间的关系建模。
上述领域的一些最新成果激发了我们的灵感,也为我们开发基于分层特征选择的高效分割方法提供了坚实的技术基础。
发明内容
本发明需要解决的技术问题是输入一张任意大小的图片,系统可以预测其所属的情感种类,及用于检索情感相近的图像的嵌入特征。
为了实现本发明的目的,我们依靠以下技术方案来实现:
a.将训练样本输入到卷积神经网络模型中,计算样本的各层特征表示,并根据真实类别得到分类损失。
b.将卷积神经网络中的所有卷积层特征的gram矩阵结合到一起作为情感向量,实现多层次的纹理信息充分的结合。
c.利用情感约束建模情感标签的混合关系,计算得到相似性损失,保证输入样本在特征空间中与所有相同类别的样本距离比其他具有相同极性情感的样本近,而距具有相反极性情感的样本最远。
d.结合分类损失及相似度损失为总损失,通过随机梯度下降方法训练整个卷积神经网络。
e.利用训练好的卷积神经网络预测输入图像的情感类别,同时提取情感向量用于检索相应情感的图片。
本发明的有益效果为:该方法设计了一种多任务的卷积神经网络架构,用于同时优化分类及检索两个任务。这种卷积神经网络架构利用基于多层卷积层的情感向量来作为图像的纹理信息表达,用于区别不同图像中的情感,并提出新型的情感约束考虑不同情感间的关系。最终将得到的模型用于图像情感分类,得到的情感向量作为嵌入特征用于图像情感检索。该发明方法具有按照图像情感语义检索相关图片的效果。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1为进行图像情感分类与检索型设计的卷积神经网络架构图。
图2为进行图像情感分类与检索的流程图。
图3为基于新的卷积神经网络架构进行图像检索的效果图。
具体实施方式
本发明设计了一种新的卷积神经网络架构,结合了所有的可用的卷积层gram矩阵,利用基于三元约束的情感约束来对不同情感标签间的关系建模。
本发明方法包含如下步骤:
a.用户输入一张任意大小的图像,输入到卷积神经网络中,系统输出图像的情感类别,并获得情感向量用于图像检索;
b.此网络模型可以利用全部的卷积层的gram矩阵来获得图像中丰富的纹理特征,并作为图像情感检索的嵌入特征;
c.此网络模型使用基于三元约束的情感约束计算得到相似度损失,将情感类别之间的极性关系考虑到训练过程中,即输入图像在特征空间中与所有相同类别的图像距离比其他具有相同极性情感的图像近,而与具有相反极性情感的图像距离最远。
d.此网络模型结合分类损失及相似度损失两种损失为总损失,用于同时优化分类及检索两种任务。
下面结合附图,对本发明的具体实施方式作进一步详细描述。以下实施例用于说明本发明,但不用来限制本发明的范围。
参照图1,表示本发明改进的卷积神经网络架构,下面详述设计过程:
本网络模型是由两个分支组成,第一个分支使用全连接层映射为预测的情感类别,并计算softmax损失函数,用于分类;第二个分支将所有的卷积层连接到一起以充分利用纹理特征并通过情感约束计算相似度损失函数,用于检索任务。我们利用ChristianSzegedy等2015在CVPR(1-9)发表的“Going deeper with convolutions”文章中提到的GoogleNet-Inception架构,在这个架构的基础上进行实验改进,首先我们在每个卷积层后都新增一个计算gram矩阵的层,并将所有的特征合并为情感向量SV。对于输入样本a,本发明随机从送入的样本集中选取具有相同情感类别的样本p,具有相同极性但不同情感类别的样本r,及具有相反情感极性的样本n,则情感约束可表示为:
Figure BDA0001586480880000041
其中,α1及a2控制不同情感标签间的远近,D(·,·)为两个样本间情感向量的欧式距离。
通过情感约束条件计算得到相似度损失函数,该约束基于三元约束,保证输入图像在特征空间中与所有相同类别的图像距离比其他具有相同极性情感的图像近,而与具有相反极性情感的图像距离最远。在情感数据集上训练此网络模型,得到用于分类及检索的卷积神经网络模型。
参照图2,表示本发明的方法流程图,下面详述使用过程:
本发明首先利用改进的卷积神经网络在大规模图像情感数据集上微调,调整框架下的全部模型参数。对于用户输入的任意图像,先将该图像送入训练好的神经网络中,得到分类分支下的输出做为分类结果;同时,可以将检索分支中的情感向量SV提取出来作为这张图像的特征表达,计算其与其他已知样本情感向量的欧式距离,选择距离最近的样本作为检索结果并返回。
图3展示了两个图像情感检索的例子。左侧图是用户输入图像,右侧图是根据输出的嵌入特征间的欧式距离得到的最相近的三个情感检索结果图,成功检索到与查询图像属于相同情感的结果,分别为搞笑及伤心。该发明方法具有按照图像情感语义检索相关图片的效果。

Claims (2)

1.一种基于深度度量学习的图像情感分类与检索方法,其特征在于,该方法包含如下步骤:
a.用户输入一张任意大小的图像,输入到卷积神经网络中,系统输出图像的情感类别,并获得情感向量用于图像检索;
b.此卷积神经网络利用全部的卷积层的gram矩阵来获得图像中丰富的纹理特征,并作为图像情感检索的嵌入特征;
c.此卷积神经网络使用基于三元约束的情感约束计算得到相似度损失,将情感类别之间的极性关系考虑到训练过程中,即输入图像在特征空间中与所有相同类别的图像距离比其他具有相同极性情感的图像近,而与具有相反极性情感的图像距离最远;
d.此卷积神经网络结合分类损失及相似度损失两种损失为总损失,用于同时优化分类及检索两种任务;
卷积神经网络是由两个分支组成,两个分支共享网络卷积层,第一个分支使用全连接层映射为预测的情感类别,并计算softmax损失函数,用于分类;第二个分支将所有的卷积层gram矩阵连接到一起作为情感向量SV,以充分利用纹理特征并通过情感约束计算相似度损失函数,用于检索任务;对于输入样本a,随机从送入的训练样本集中选取具有相同情感类别的样本p,具有相同极性但不同情感类别的样本r,及具有相反情感极性的样本n,则情感约束可表示为:
Figure FDA0003199308620000011
其中,α1及α2为控制不同情感标签间的远近的阈值,D(·,·)为两个样本间情感向量SV的欧式距离。
2.根据权利要求1所述的基于深度度量学习的图像情感分类与检索方法,其特征在于:通过情感约束条件计算得到相似度损失函数,该约束基于三元约束,保证输入图像在特征空间中与所有相同类别的图像距离比其他具有相同极性情感的图像近,而与具有相反极性情感的图像距离最远,在情感数据集上训练此卷积神经网络,得到用于分类及检索的卷积神经网络模型。
CN201810173303.1A 2018-03-02 2018-03-02 一种基于深度度量学习的图像情感分类与检索算法 Active CN108427740B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810173303.1A CN108427740B (zh) 2018-03-02 2018-03-02 一种基于深度度量学习的图像情感分类与检索算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810173303.1A CN108427740B (zh) 2018-03-02 2018-03-02 一种基于深度度量学习的图像情感分类与检索算法

Publications (2)

Publication Number Publication Date
CN108427740A CN108427740A (zh) 2018-08-21
CN108427740B true CN108427740B (zh) 2022-02-18

Family

ID=63157471

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810173303.1A Active CN108427740B (zh) 2018-03-02 2018-03-02 一种基于深度度量学习的图像情感分类与检索算法

Country Status (1)

Country Link
CN (1) CN108427740B (zh)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109977253B (zh) * 2019-03-29 2022-10-28 哈尔滨工业大学 一种基于语义和内容的快速图像检索方法及装置
CN110119688A (zh) * 2019-04-18 2019-08-13 南开大学 一种利用视觉注意力协同网络的图像情感分类方法
CN110135461B (zh) * 2019-04-18 2023-05-05 南开大学 基于分层注意感知深度度量学习的情感图像检索的方法
CN110188791B (zh) * 2019-04-18 2023-07-07 南开大学 基于自动估计的视觉情感标签分布预测方法
CN110263822B (zh) * 2019-05-29 2022-11-15 广东工业大学 一种基于多任务学习方式的图像情感分析方法
CN111523574B (zh) * 2020-04-13 2022-09-06 云南大学 一种基于多模态数据的图像情感识别方法及系统

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10113910B2 (en) * 2014-08-26 2018-10-30 Digimarc Corporation Sensor-synchronized spectrally-structured-light imaging
CN106446754A (zh) * 2015-08-11 2017-02-22 阿里巴巴集团控股有限公司 图像识别方法、度量学习方法、图像来源识别方法及装置
CN105760833A (zh) * 2016-02-14 2016-07-13 北京飞搜科技有限公司 一种人脸特征识别方法
CN105808732B (zh) * 2016-03-10 2019-05-17 北京大学 一种基于深度度量学习的一体化目标属性识别与精确检索方法
CN106897390B (zh) * 2017-01-24 2019-10-15 北京大学 基于深度度量学习的目标精确检索方法
CN107103281A (zh) * 2017-03-10 2017-08-29 中山大学 基于聚集损失深度度量学习的人脸识别方法
CN107122396B (zh) * 2017-03-13 2019-10-29 西北大学 基于深度卷积神经网络的三维模型检索方法

Also Published As

Publication number Publication date
CN108427740A (zh) 2018-08-21

Similar Documents

Publication Publication Date Title
CN108427740B (zh) 一种基于深度度量学习的图像情感分类与检索算法
Yang et al. Visual sentiment prediction based on automatic discovery of affective regions
Singh et al. A deeply coupled ConvNet for human activity recognition using dynamic and RGB images
Yang et al. Deep relative attributes
Lin et al. RSCM: Region selection and concurrency model for multi-class weather recognition
CN112131978B (zh) 一种视频分类方法、装置、电子设备和存储介质
CN112784763B (zh) 基于局部与整体特征自适应融合的表情识别方法及系统
CN106126581A (zh) 基于深度学习的手绘草图图像检索方法
CN111666843A (zh) 一种基于全局特征和局部特征拼接的行人重识别方法
Gu et al. Image annotation by latent community detection and multikernel learning
CN109271539A (zh) 一种基于深度学习的图像自动标注方法及装置
CN111832573B (zh) 一种基于类激活映射和视觉显著性的图像情感分类方法
Wang et al. CLARE: A joint approach to label classification and tag recommendation
CN108154156B (zh) 基于神经主题模型的图像集成分类方法及装置
CN110008365B (zh) 一种图像处理方法、装置、设备及可读存储介质
CN112364168A (zh) 一种基于多属性信息融合的舆情分类方法
CN110647907A (zh) 利用多层分类和字典学习的多标签图像分类算法
CN112883931A (zh) 基于长短期记忆网络的实时真假运动判断方法
CN104376308A (zh) 一种基于多任务学习的人体动作识别方法
CN112183464A (zh) 基于深度神经网络和图卷积网络的视频行人识别方法
Saqib et al. Intelligent dynamic gesture recognition using CNN empowered by edit distance
CN110765285A (zh) 基于视觉特征的多媒体信息内容管控方法及系统
Bengamra et al. A comprehensive survey on object detection in Visual Art: taxonomy and challenge
Juyal et al. Multilabel image classification using the CNN and DC-CNN model on Pascal VOC 2012 dataset
CN113516118B (zh) 一种图像与文本联合嵌入的多模态文化资源加工方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant