CN110135461B - 基于分层注意感知深度度量学习的情感图像检索的方法 - Google Patents
基于分层注意感知深度度量学习的情感图像检索的方法 Download PDFInfo
- Publication number
- CN110135461B CN110135461B CN201910311067.XA CN201910311067A CN110135461B CN 110135461 B CN110135461 B CN 110135461B CN 201910311067 A CN201910311067 A CN 201910311067A CN 110135461 B CN110135461 B CN 110135461B
- Authority
- CN
- China
- Prior art keywords
- emotion
- features
- layer
- attention
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Abstract
本发明公开了基于分层注意感知深度度量学习的情感图像检索的方法,属于计算机视觉技术领域。该方法利用不同层次的情感标签分别在卷积神经网络的高层和低层监督学习,通过注意力机制对特征进行加权。之后利用双线性池化操作将来自高层和低层加权后的特征进行交互融合,得到了同时蕴含不同层次信息的特征。通过网络低层和高层加权后的特征向量利用双线性池化进行有效地融合,然后进行降维、正则化等操作。同时,提出了EP损失函数,分别从极性内和极性间度量样本间的空间距离。通过同时优化EP损失函数、注意力损失函数和Softmax函数进行端到端地训练卷积神经网络。最后根据卷积神经网络提取的特征之间的欧式距离来检索情感图片。
Description
技术领域
本发明属于计算机视觉技术领域,涉及一种基于分层注意力机制度量情感图片在欧式空间中的距离,进而有效地检索情感图片的深度卷积神经网络方法。
背景技术
关注情感图片检索任务的工作在十年前就已经出现,但是数量并不多,因此推动这个方向发展是很有意义的事情。Wang等人在文献1中发明了基于情感的图片检索系统,该系统通过情感语义单词来检索相关情感的图片。2010年,Olkiewicz等人在文献2中提取图片的情感特征描述子,然后输入神经网络中进行训练,根据情感特征间的相似性进行排序,选出离搜索图片最近的样本。Zhao等人在文献3中利用了多图学习的方法进行检索和输入样本情感相近的图片,进而探索了有利于表达情感的视觉特征组合。2018年,在文献4中,Yang等人提出了一个可以端到端训练的深度学习框架,能够同时进行情感图片分类和检索任务,两个任务互相促进,达到了目前最好的检索效果。
由于注意力机制能够自动找到图片中起决定作用的区域,因此被广泛地应用在了多种视觉任务中,包括分割、为图配文、或行人重识别等。Wang等人在文献5中通过引入一个基于注意力机制的方法训练了深度残差网络用于图片分类。在文献6中,Chen等人结合了空间级和通道级的注意力机制进行了为图搭配字幕的任务。根据文献7中描述的心理学理论可知,情感内容比非情感内容更容易引起人们的注意。
最近,有很多工作利用深度度量学习度量图片之间的相似性。基于比较流行的pairwise损失函数,Song等人在文献8中利用由小批量的成对距离组成的矩阵,创建一个包含所有样本的损失函数,形成一个嵌入式结构。2018年,Duan等人在文献9中为了获得更加鲁棒的模型,利用深度对抗学习由简单的负例生成困难的负例来训练模型,提升了模型的判别能力。
上述领域的一些最新成果激发了我们的灵感,也为我们使用深度卷积神经网络实现图片情感分类和分布共同学习的方法提供了坚实的理论技术基础。
文献:
1、Image retrieval by emotional semantics:A study of emotional spaceand feature extraction.In SMC,2006.
2、Emotion-based image retrievalan artificial neural networkapproach.In IMCSIT,2010.
3、Affective image retrieval via multi-graph learning.In ACM MM,20144、Retrieving and classifying affective images via deep metric learning.InAAAI,2018.
5、Residual attention network for image classification.In CVPR,2017.
6、Sca-cnn:Spatial and channel-wise attention in convolutionalnetworks for image captioning.In CVPR,2016.
7、How brains beware:neural mechanisms of emotional attention.Trendsin cognitive sciences,9(12):585–594,2005.
8、Deep metric learning via lifted structured feature embedding.InCVPR,2016.
9、Deep adversarial metric learning.In CVPR,2018.
发明内容
本发明需要解决的技术问题是将图片按照情感相似性度量他们之间的距离,进而准确地检索出和输入图片在情感上相符的图片。使用分层注意力机制结合双线性池化操作得到具有强表达能力的特征组合。利用深度度量学习进行嵌入式特征学习,使嵌入式特征在欧式空间中的分布符合情感极性间和极性内的关系。为了获得更鲁棒的卷积神经网络作为特征提取器,同时优化度量学习损失、注意力损失和Softmax损失函数,进行端到端的训练网络。
为了实现本发明的目的,我们依靠以下技术方案来实现:
a.将数据进行图像增强等预处理操作,然后输入到深度卷积网络;
b.在卷积神经网络的低层,依靠情感极性标签的监督,生成由底层特征对应位置的权值组成的注意力响应图;在卷积神经网络的高层,依靠情感类别标签的监督,生成由高层语义特征对应位置的权值组成的注意力响应图;
c.将分别来自网络高层和低层加权后的特征向量利用双线性池化进行有效地融合,然后进行降维、正则化等操作;
d.将c中得到的特征输入度量学习的损失函数中,结合注意力损失和Softmax损失函数,对模型进行端到端地特征学习;
e.利用训练好的模型对图片进行特征提取,然后按照特征在欧式空间中的距离检索样本的距离远近对图片进行排序。
进一步的,本发明将低层的特征图下采样,使其大小和来自高层的特征图相同,然后将不同层的特征通过双线性池化操作融合,使来自不同层的特征之间能够相互交互,相互影响。
进一步的,双线性操作后得到的特征要依次进行降维、正则化等处理。
进一步的,本发明注意力机制的训练过程中只需要图片的类别标签,不需要对情感区域的标注信息,大大减少了标注数据的负担。
进一步的,本发明根据情感在情感空间中按极性分布的特点,设计了EP损失函数对图片进行深度度量学习,得到判别力较强的嵌入特征,用于情感图像检索。
本发明的有益效果为:本方法能够应用在多种卷积神经网络上,在选择不同模型的情况下,只需要将网络按照根据前面叙述的方法进行必要的组件增减,并根据模型的能力和特点设置模型的学习参数和数据处理批量的大小。该方法按照情感分层的特点提取多层注意力感知的局部特征,并可以对卷积神经网络进行端到端地训练和学习,使用提出的EP损失函数分别在情感极性内部和情感极性外部对特征进行嵌入式学习,使其在欧式空间中的分布符合情感类别之间的关系。总的来说,本方法为图片情感检索任务提供了一个全新的解决方案,使得图片的特征更具鲁棒性。
附图说明
下面结合附图和具体实施方式对本发明作进一步详细的说明:
图1为通过深度卷积神经网络对多层加权特征融合的情感图片特征进行度量学习方法的流程图。
图2为分层注意力机制的示意图。
具体实施方式
参照图1,表示通过深度卷积神经网络对多层加权特征融合的情感图片特征进行度量学习方法的流程图,图中表示的步骤为:
a.对图片进行重置大小、数据增强等操作后送入模型,原始模型在大规模数据集ImageNet上预训练。模型倒数第二层的特征由度量学习的损失函数进行约束,最后一层的维数和情感图片的类别数一致,由Softmax损失进行约束。
b.对于分别来自网络低层和高层的特征图,首先利用一个1×1的卷积层去将特征通道分别降维至2层(积极和消极)和N层(情感具体类别),获取针对每一极性或每一类别的特征响应图。然后经过全局平均池化操作获得每个极性或类别的得分向量。得分最高的极性或类别对应的特征响应图就作为图片的注意力权值分布图。
c.对高层和低层的特征图进行加权后,通过双线性池化将其融合,得到同时含有多层信息的特征组合,并对其进行降维,正则化处理。
d.将c中得到的特征输入度量学习的EP损失函数中,计算本组输入样本的度量损失。
设计的度量损失函数公式如下:
LEP=L1+L2
N表示情感类别的数目,表示该批次输入图片中和搜索图片在同一极性的图片数目,表示该批次输入图片中和搜索图片在不同极性的图片数目,表示搜索图片的特征,表示和搜索图片不同类别的图片特征,表示和搜索图片相同类别的图片特征。L1是极性间的度量损失函数,L2是极性内部的度量损失函数,LEP是EP损失函数,i,j表示类别标号。
e.该步骤针对训练过程,将度量损失、注意力损失和Softmax损失加权求和,得到最后的损失函数,通过最小化最后的损失函数端到端地训练模型。
Claims (3)
1.基于分层注意感知深度度量学习的情感图像检索的方法,其特征在于,该方法包含如下步骤:
a.将数据进行图像增强预处理操作,然后输入到深度卷积网络;
b.在卷积神经网络的低层,依靠情感极性标签的监督,生成由底层特征对应位置的权值组成的注意力响应图;在卷积神经网络的高层,依靠情感类别标签的监督,生成由高层语义特征对应位置的权值组成的注意力响应图;
c.将分别来自网络高层和低层加权后的特征向量利用双线性池化进行有效地融合,然后进行降维、正则化操作;
d.将c中得到的特征输入度量学习的损失函数中,结合注意力损失和Softmax损失函数,对模型进行端到端地特征学习;
e.利用训练好的模型对图片进行特征提取,然后按照特征在欧式空间中的距离检索样本的距离远近对图片进行排序;
将低层的特征图下采样,使其大小和来自高层的特征图相同,然后将不同层的特征通过双线性池化操作融合,使来自不同层的特征之间能够相互交互,相互影响;
根据情感在情感空间中按极性分布的特点,设计了EP损失函数对图片进行深度度量学习,得到嵌入特征,用于情感图像检索。
2.根据权利要求1所述的基于分层注意感知深度度量学习的情感图像检索的方法,其特征在于:双线性操作后得到的特征要依次进行降维、l2正则化处理;
其中L2是极性内部的度量损失函数。
3.根据权利要求1所述的基于分层注意感知深度度量学习的情感图像检索的方法,其特征在于:注意力机制的训练过程中只需要图片的类别标签,不需要对情感区域的标注信息,大大减少了标注数据的负担。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311067.XA CN110135461B (zh) | 2019-04-18 | 2019-04-18 | 基于分层注意感知深度度量学习的情感图像检索的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910311067.XA CN110135461B (zh) | 2019-04-18 | 2019-04-18 | 基于分层注意感知深度度量学习的情感图像检索的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110135461A CN110135461A (zh) | 2019-08-16 |
CN110135461B true CN110135461B (zh) | 2023-05-05 |
Family
ID=67570226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910311067.XA Active CN110135461B (zh) | 2019-04-18 | 2019-04-18 | 基于分层注意感知深度度量学习的情感图像检索的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110135461B (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111091141B (zh) * | 2019-11-21 | 2022-05-17 | 浙江大学 | 一种基于分层Softmax的光伏背板故障诊断方法 |
CN110866140B (zh) * | 2019-11-26 | 2024-02-02 | 腾讯科技(深圳)有限公司 | 图像特征提取模型训练方法、图像搜索方法及计算机设备 |
CN111680176B (zh) * | 2020-04-20 | 2023-10-10 | 武汉大学 | 基于注意力与双向特征融合的遥感图像检索方法及系统 |
CN111611420B (zh) * | 2020-05-26 | 2024-01-23 | 北京字节跳动网络技术有限公司 | 用于生成图像描述信息的方法和装置 |
CN111694974A (zh) * | 2020-06-12 | 2020-09-22 | 桂林电子科技大学 | 一种融合注意力机制的深度哈希车辆图像检索方法 |
CN112200043B (zh) * | 2020-09-30 | 2022-04-19 | 中邮通建设咨询有限公司 | 面向室外施工现场的危险源智能识别系统及方法 |
CN112613552A (zh) * | 2020-12-18 | 2021-04-06 | 北京工业大学 | 一种结合情感类别注意力损失的卷积神经网络情感图像分类方法 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107066583B (zh) * | 2017-04-14 | 2018-05-25 | 华侨大学 | 一种基于紧凑双线性融合的图文跨模态情感分类方法 |
CN107341506A (zh) * | 2017-06-12 | 2017-11-10 | 华南理工大学 | 一种基于多方面深度学习表达的图像情感分类方法 |
CN108427740B (zh) * | 2018-03-02 | 2022-02-18 | 南开大学 | 一种基于深度度量学习的图像情感分类与检索算法 |
-
2019
- 2019-04-18 CN CN201910311067.XA patent/CN110135461B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110135461A (zh) | 2019-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135461B (zh) | 基于分层注意感知深度度量学习的情感图像检索的方法 | |
CN109949317B (zh) | 基于逐步对抗学习的半监督图像实例分割方法 | |
CN108960073B (zh) | 面向生物医学文献的跨模态图像模式识别方法 | |
Panda et al. | Contemplating visual emotions: Understanding and overcoming dataset bias | |
WO2022037233A1 (zh) | 一种基于自监督知识迁移的小样本视觉目标识别方法 | |
CN111144448A (zh) | 基于多尺度注意力卷积编码网络的视频弹幕情感分析方法 | |
CN111950528B (zh) | 图表识别模型训练方法以及装置 | |
CN108427740B (zh) | 一种基于深度度量学习的图像情感分类与检索算法 | |
CN114092742B (zh) | 一种基于多角度的小样本图像分类装置和方法 | |
CN113516152B (zh) | 一种基于复合图像语义的图像描述方法 | |
CN107247755A (zh) | 一种基于上下文序列记忆网络的个性化图像字幕生成方法 | |
US11568140B2 (en) | Optical character recognition using a combination of neural network models | |
CN110263174A (zh) | —基于焦点关注的主题类别分析方法 | |
CN113032601A (zh) | 一种基于判别性提升的零样本草图检索方法 | |
Zhu et al. | Two-stream transformer for multi-label image classification | |
CN116258990A (zh) | 一种基于跨模态亲和力的小样本参考视频目标分割方法 | |
CN109190471B (zh) | 基于自然语言描述的视频监控行人搜索的注意力模型方法 | |
CN112434686B (zh) | 针对ocr图片的端到端含错文本分类识别仪 | |
CN111680190B (zh) | 一种融合视觉语义信息的视频缩略图推荐方法 | |
CN112686305A (zh) | 一种自监督学习辅助下的半监督学习方法及系统 | |
Kundu et al. | Deep multi-modal networks for book genre classification based on its cover | |
CN115292533B (zh) | 视觉定位驱动的跨模态行人检索方法 | |
CN115391520A (zh) | 一种文本情感分类方法、系统、装置及计算机介质 | |
CN115439791A (zh) | 跨域视频动作识别方法、装置、设备和计算机可存储介质 | |
CN111340329B (zh) | 演员评估方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |