CN110135461B

CN110135461B - 基于分层注意感知深度度量学习的情感图像检索的方法

Info

Publication number: CN110135461B
Application number: CN201910311067.XA
Authority: CN
Inventors: 杨巨峰; 姚星旭; 折栋宇
Original assignee: Nankai University
Current assignee: Nankai University
Priority date: 2019-04-18
Filing date: 2019-04-18
Publication date: 2023-05-05
Anticipated expiration: 2039-04-18
Also published as: CN110135461A

Abstract

本发明公开了基于分层注意感知深度度量学习的情感图像检索的方法，属于计算机视觉技术领域。该方法利用不同层次的情感标签分别在卷积神经网络的高层和低层监督学习，通过注意力机制对特征进行加权。之后利用双线性池化操作将来自高层和低层加权后的特征进行交互融合，得到了同时蕴含不同层次信息的特征。通过网络低层和高层加权后的特征向量利用双线性池化进行有效地融合，然后进行降维、正则化等操作。同时，提出了EP损失函数，分别从极性内和极性间度量样本间的空间距离。通过同时优化EP损失函数、注意力损失函数和Softmax函数进行端到端地训练卷积神经网络。最后根据卷积神经网络提取的特征之间的欧式距离来检索情感图片。

Description

基于分层注意感知深度度量学习的情感图像检索的方法

技术领域

本发明属于计算机视觉技术领域，涉及一种基于分层注意力机制度量情感图片在欧式空间中的距离，进而有效地检索情感图片的深度卷积神经网络方法。

背景技术

关注情感图片检索任务的工作在十年前就已经出现，但是数量并不多，因此推动这个方向发展是很有意义的事情。Wang等人在文献1中发明了基于情感的图片检索系统，该系统通过情感语义单词来检索相关情感的图片。2010年，Olkiewicz等人在文献2中提取图片的情感特征描述子，然后输入神经网络中进行训练，根据情感特征间的相似性进行排序，选出离搜索图片最近的样本。Zhao等人在文献3中利用了多图学习的方法进行检索和输入样本情感相近的图片，进而探索了有利于表达情感的视觉特征组合。2018年，在文献4中，Yang等人提出了一个可以端到端训练的深度学习框架，能够同时进行情感图片分类和检索任务，两个任务互相促进，达到了目前最好的检索效果。

由于注意力机制能够自动找到图片中起决定作用的区域，因此被广泛地应用在了多种视觉任务中，包括分割、为图配文、或行人重识别等。Wang等人在文献5中通过引入一个基于注意力机制的方法训练了深度残差网络用于图片分类。在文献6中，Chen等人结合了空间级和通道级的注意力机制进行了为图搭配字幕的任务。根据文献7中描述的心理学理论可知，情感内容比非情感内容更容易引起人们的注意。

最近，有很多工作利用深度度量学习度量图片之间的相似性。基于比较流行的pairwise损失函数，Song等人在文献8中利用由小批量的成对距离组成的矩阵，创建一个包含所有样本的损失函数，形成一个嵌入式结构。2018年，Duan等人在文献9中为了获得更加鲁棒的模型，利用深度对抗学习由简单的负例生成困难的负例来训练模型，提升了模型的判别能力。

上述领域的一些最新成果激发了我们的灵感，也为我们使用深度卷积神经网络实现图片情感分类和分布共同学习的方法提供了坚实的理论技术基础。

文献：

1、Image retrieval by emotional semantics:A study of emotional spaceand feature extraction.In SMC,2006.

2、Emotion-based image retrievalan artificial neural networkapproach.In IMCSIT,2010.

3、Affective image retrieval via multi-graph learning.In ACM MM,20144、Retrieving and classifying affective images via deep metric learning.InAAAI,2018.

5、Residual attention network for image classification.In CVPR,2017.

6、Sca-cnn:Spatial and channel-wise attention in convolutionalnetworks for image captioning.In CVPR,2016.

7、How brains beware:neural mechanisms of emotional attention.Trendsin cognitive sciences,9(12):585–594,2005.

8、Deep metric learning via lifted structured feature embedding.InCVPR,2016.

9、Deep adversarial metric learning.In CVPR,2018.

发明内容

本发明需要解决的技术问题是将图片按照情感相似性度量他们之间的距离，进而准确地检索出和输入图片在情感上相符的图片。使用分层注意力机制结合双线性池化操作得到具有强表达能力的特征组合。利用深度度量学习进行嵌入式特征学习，使嵌入式特征在欧式空间中的分布符合情感极性间和极性内的关系。为了获得更鲁棒的卷积神经网络作为特征提取器，同时优化度量学习损失、注意力损失和Softmax损失函数，进行端到端的训练网络。

为了实现本发明的目的，我们依靠以下技术方案来实现：

a.将数据进行图像增强等预处理操作，然后输入到深度卷积网络；

b.在卷积神经网络的低层，依靠情感极性标签的监督，生成由底层特征对应位置的权值组成的注意力响应图；在卷积神经网络的高层，依靠情感类别标签的监督，生成由高层语义特征对应位置的权值组成的注意力响应图；

c.将分别来自网络高层和低层加权后的特征向量利用双线性池化进行有效地融合，然后进行降维、正则化等操作；

d.将c中得到的特征输入度量学习的损失函数中，结合注意力损失和Softmax损失函数，对模型进行端到端地特征学习；

e.利用训练好的模型对图片进行特征提取，然后按照特征在欧式空间中的距离检索样本的距离远近对图片进行排序。

进一步的，本发明将低层的特征图下采样，使其大小和来自高层的特征图相同，然后将不同层的特征通过双线性池化操作融合，使来自不同层的特征之间能够相互交互，相互影响。

进一步的，双线性操作后得到的特征要依次进行降维、正则化等处理。

进一步的，本发明注意力机制的训练过程中只需要图片的类别标签，不需要对情感区域的标注信息，大大减少了标注数据的负担。

进一步的，本发明根据情感在情感空间中按极性分布的特点，设计了EP损失函数对图片进行深度度量学习，得到判别力较强的嵌入特征，用于情感图像检索。

本发明的有益效果为：本方法能够应用在多种卷积神经网络上，在选择不同模型的情况下，只需要将网络按照根据前面叙述的方法进行必要的组件增减，并根据模型的能力和特点设置模型的学习参数和数据处理批量的大小。该方法按照情感分层的特点提取多层注意力感知的局部特征，并可以对卷积神经网络进行端到端地训练和学习，使用提出的EP损失函数分别在情感极性内部和情感极性外部对特征进行嵌入式学习，使其在欧式空间中的分布符合情感类别之间的关系。总的来说，本方法为图片情感检索任务提供了一个全新的解决方案，使得图片的特征更具鲁棒性。

附图说明

下面结合附图和具体实施方式对本发明作进一步详细的说明:

图1为通过深度卷积神经网络对多层加权特征融合的情感图片特征进行度量学习方法的流程图。

图2为分层注意力机制的示意图。

具体实施方式

参照图1，表示通过深度卷积神经网络对多层加权特征融合的情感图片特征进行度量学习方法的流程图，图中表示的步骤为：

a.对图片进行重置大小、数据增强等操作后送入模型，原始模型在大规模数据集ImageNet上预训练。模型倒数第二层的特征由度量学习的损失函数进行约束，最后一层的维数和情感图片的类别数一致，由Softmax损失进行约束。

b.对于分别来自网络低层和高层的特征图，首先利用一个1×1的卷积层去将特征通道分别降维至2层(积极和消极)和N层(情感具体类别)，获取针对每一极性或每一类别的特征响应图。然后经过全局平均池化操作获得每个极性或类别的得分向量。得分最高的极性或类别对应的特征响应图就作为图片的注意力权值分布图。

c.对高层和低层的特征图进行加权后，通过双线性池化将其融合，得到同时含有多层信息的特征组合，并对其进行降维，正则化处理。

d.将c中得到的特征输入度量学习的EP损失函数中，计算本组输入样本的度量损失。

设计的度量损失函数公式如下：

L_EP＝L₁+L₂

N表示情感类别的数目，

表示该批次输入图片中和搜索图片在同一极性的图片数目，

表示该批次输入图片中和搜索图片在不同极性的图片数目，

表示搜索图片的特征，

表示和搜索图片不同类别的图片特征，

表示和搜索图片相同类别的图片特征。L₁是极性间的度量损失函数，L₂是极性内部的度量损失函数，L_EP是EP损失函数，i,j表示类别标号。

e.该步骤针对训练过程，将度量损失、注意力损失和Softmax损失加权求和，得到最后的损失函数，通过最小化最后的损失函数端到端地训练模型。

图2(a)展示低层情感极性注意力响应图的产生过程，图2(b)展示高层层情感类别注意力响应图的产生过程。

和

代表两种极性代表的特征响应图，

表示每类情感对应的特征响应图。分别选择得分p_j、q_v最高的极性和类别对应的特征响应图作为低层极性注意力响应图和高层类别注意力响应图，j^*，v^*表示被选择的特征响应图的下标，N表示情感类别的数量。