CN110598018B

CN110598018B - 一种基于协同注意力的草图图像检索方法

Info

Publication number: CN110598018B
Application number: CN201910746351.XA
Authority: CN
Inventors: 雷建军; 宋宇欣; 彭勃; 侯春萍; 李鑫宇; 丛润民
Original assignee: Tianjin University
Current assignee: Tianjin University
Priority date: 2019-08-13
Filing date: 2019-08-13
Publication date: 2022-11-15
Anticipated expiration: 2039-08-13
Also published as: CN110598018A

Abstract

本发明公开了一种基于协同注意力的草图图像检索方法，包括：构建由自然图像分支、边缘图分支和草图分支构成的三分支网络，并进行预训练；构建三分支网络的注意力模块，自然图像分支和边缘图分支的注意力模块权重异构，边缘图分支和草图分支的注意力模块共享权重；学习两个不同数据域上的公共注意力掩膜捕获两个域之间的公共通道级依赖关系，聚焦学习来自两个不同域的公共信息特征，缩小查询数据域和检索数据域的差距；通过跨域公共注意力掩膜分别对自然图像和边缘图分支最后一个池化层输出特征图进行通道相应加权，输出对特征通道重要程度进行重校准后的自然图像特征图和边缘特征图；对三分支网络进行联合训练，获得草图和自然图像的跨域表示。

Description

一种基于协同注意力的草图图像检索方法

技术领域

本发明涉及图像检索、计算机视觉技术领域，尤其涉及一种基于协同注意力的草图图像检索方法。

背景技术

随着互联网媒体图像数据的急剧增加，基于内容的图像检索技术已成为计算机视觉领域的热门话题。早期的基于文本的检索方式依赖人工标注、且具有歧义性，无法适用于大规模图像检索。近年来，随着触摸屏设备的普及，基于草图的图像检索(Sketch-basedImage Retrieval,SBIR)引起了广泛的关注，并取得了显著的性能。

近年来，卷积神经网络已广泛应用于诸如人脸识别，物体检测和图像检索等许多领域。与传统手工制作特征的方法相比，卷积神经网络可以自动聚合从底部卷积层学到的浅层特征。因此，目前基于草图的图像检索方法大多与深度学习方法相结合，许多基于卷积神经网络的SBIR框架被提出。Qi等人引入了一种新颖的孪生卷积神经网络，通过联合训练两个卷积神经网络来分别学习草图和边缘图的特征。同时，Triplet网络架构被广泛应用，Triplet网络包括草图分支，正自然图像分支和负自然图像分支，通过加入三元组排序损失保留输入三元组的相对相似性，即约束草图和自然图像正样本特征之间的距离小于草图和自然图像负样本特征之间的距离。Sangkloy等人通过预训练策略学习跨域映射，将自然图像和草图嵌入到同一高层语义空间中去，取得了卓越的检索性能。最近，深度哈希方法也被应用到基于草图的图像检索任务中去。Liu等人提出深度草图哈希方法(Deep SketchHashing，DSH)，将卷积神经网络集成到哈希框架中以捕获跨域相似性并加速检索过程。Zhang等人提出了一种生成域迁移哈希(Generative Domain-migration Hashing，GDH)方法，该方法使用生成模型将草图域迁移到自然图像域，并在两个基于草图的图像检索数据集上取得优越性能。

注意力模型最近已成功应用于各种深度学习任务，例如：自然语言处理(NaturalLanguage Processing，NLP)、细粒度图像识别、视觉问题回答(Visual QuestionAnswering， VQA)等。在图像处理领域，广泛使用的注意力模型包括软注意模型(Soft-attention model) 和硬注意模型(Hard-attention model)。软注意模型通过学习得到注意力掩模，为图像的不同空间区域或不同通道分配不同权重。硬注意模型通过使用强化学习，为图像搜索潜在的判别区域。Hu等人提出了一种通道级注意力模型来重新校正不同通道的权重，有效地增强了特征的判别能力，获得了优越的分类性能。Li等人提出了一种同时结合了软注意力和硬注意力的模型用于行人重识别任务，其中软注意力通过学习图像中的重要像素以获得精细级信息匹配，硬注意力模型搜索潜在的判别区域。Song等人提出了一种空间软注意力模型用于细粒度级草图图像检索，以捕获更具辨别力的细粒度特征，通过学习得到Triplet网络的每个分支的注意力掩模，重新加权特征图的不同空间区域。

发明人在实现本发明的过程中，发现现有技术中至少存在以下缺点和不足：

首先，与充满色彩和纹理信息的目标自然图像相比，草图是具有高度标志性和抽象性的曲线的组合。因此，草图和自然图像属于两个异构数据域。如何将这两个异构数据域在高层语义空间中进行对齐仍然是SBIR中最具挑战性的问题。

其次，尽管上述注意机制已经获得了更强的特征学习能力，但是它们通常仅通过输入图像本身来学习辨别特征，即它们都属于自注意力模型。在基于草图的图像检索任务中涉及到两种不同的数据输入模态，我们更关心的是在不同数据输入模态上学习公共的跨域判别特征。因此，本发明提出了一种基于协同注意力的草图图像检索方法，捕获不同域之间的共同特征，进一步缩小跨域差距。

发明内容

为了捕捉草图和自然图像域之间的共同判别特征，提高基于草图的图像检索性能，本发明提出了一种基于协同注意力的草图图像检索方法，通过应用所提出的协同注意力机制，网络能够关注自然图像和边缘图的共同判别特征，并丢弃对检索任务不重要的信息，缩小草图域和自然图像域之间的域差距，从而实现自然图像和草图在高层语义空间中的对齐，详见下文描述：

一种基于协同注意力的草图图像检索方法，所述方法包括以下步骤：

构建由自然图像分支、边缘图分支和草图分支构成的三分支网络，并进行预训练；

构建三分支网络的注意力模块，自然图像分支和边缘图分支的注意力模块权重异构，边缘图分支的注意力模块和草图分支的注意力模块共享权重；

学习两个不同数据域上的公共注意力掩膜捕获两个域之间的公共通道级依赖关系，聚焦学习来自两个不同域的公共信息特征，缩小查询数据域和检索数据域的差距；

通过跨域公共注意力掩膜分别对自然图像和边缘图分支最后一个池化层输出特征图进行通道相应加权，最终输出对特征通道重要程度进行重校准后的自然图像特征图和边缘特征图；

对三分支网络进行联合训练，获得草图和自然图像的跨域表示。

所述学习两个不同数据域上的公共注意力掩膜捕获两个域之间的公共通道级依赖关系具体为：

通过对应相乘自然图像注意力掩膜M_I和边缘图注意力掩膜M_E，得到跨域公共注意力掩膜M_CO∈R^1×1×c，其中

表示元素乘法。

其中，所述自然图像特征图和边缘特征图分别为：

其中，f_scale(·)表示跨域公共注意力掩膜和输入特征映射之间的按通道方式的乘法，

为自然图像分支注意力模块输入特征图，

为边缘图分支注意力模块输入特征图。

本发明提供的技术方案的有益效果是：

1.本发明引入边缘分支作为沟通草图域和自然图像域之间的桥梁，相比自然图像，草图缺少颜色和纹理信息且具有高度抽象性，而边缘图是从自然图像中抽取出来的，和自然图像具有一一对应性，同时去除了诸如纹理和颜色的详细外观信息，和草图属于相同数据域；

2、本发明在自然图像和边缘图分支之间提出一个协同注意力模型，通过执行动态通道特征重新校准来捕获自然图像和对应边缘图的共同判别特征，以边缘图作为桥梁，有效缩小了草图域和自然图像域之间的域差距；

3、本发明能够有效地使得网络通过特征学习过程，将草图和自然图像映射到一个公共的语义空间中，实现草图和自然图像域在共同的高级语义空间中的充分对齐，从而有效地提高了检索性能。

附图说明

图1为一种基于协同注意力的草图图像检索方法的流程图；

图2为本方法和其他方法在Sketchy-Extension数据集上的检索平均准确率对比图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。

将边缘图作为沟通自然图像和草图的桥梁，借助自然图像及其边缘图的一一对应关系，捕获自然图像及其对应边缘图之间的共同判别特征。本发明实施例提出了一种基于协同注意力机制的草图图像检索方法，能够有效缩小域差距，促进草图域和自然图像域在高层公共语义空间域的对齐，从而进一步提高基于草图的图像检索性能，具体实现步骤如下：

本发明实施例提出了一种基于协同注意力的草图图像检索方法，在自然图像分支和边缘图分支之间设计一个协同注意力模块。给定最后一个池化层产生的特征映射，协同注意力模块旨在学习一个跨域公共注意力掩膜来重新调整自然图像和边缘特征图中每个通道的重要性，从而有效缩小域差距，促进草图域和自然图像域在高层公共语义空间域的对齐，进一步提高基于草图的图像检索性能。

整个流程分为五步：1)三分支网络预训练；2)三分支网络注意力模块搭建；3)协同注意力模块搭建，获得跨域公共注意力掩膜；4)利用跨域公共注意力掩膜重新加权自然图像及边缘图特征通道响应；5)三分支网络联合训练，具体实现步骤如下：

一、三分支网络预训练

整体网络由三个分支组成，分别是：自然图像分支、边缘图分支和草图分支(其中，该三个分支为本领域技术人员所公知，本发明实施例对此不做赘述)。在预训练阶段，单个分支都是独立训练的，即每个分支分别基于在ImageNet上预训练的VGG19模型进行微调。对于每个分支具体来说，首先去除VGG19最后一个全连接层，然后为了将不同域映射到同一个高层语义空间中去，新加入一个经过L2归一化后的嵌入层。嵌入层是一个全连接层，经过该全连接层得到的特征向量再通过L2归一化，即特征向量中的每个元素除以该向量的L2范数，得到输出特征。接着在嵌入层之后再加入一个全连接层，其维度和实验数据集类别相对应。

采用交叉熵损失，通过使用训练数据集中的相应源数据来对每个单分支进行预训练，即自然图像分支对应采用数据集中的自然图像数据进行预训练，边缘图分支对应采用从自然图像中提取的边缘图进行预训练，草图分支对应采用数据集中的草图数据进行预训练。预训练阶段旨在不学习共同嵌入的情况下，使得网络分别学习适合于识别自然图像、边缘图和草图的权重。

二、三分支网络注意力模块搭建

注意力模块采用基于通道的软注意机制，通过执行动态通道特征重新校准来分别捕获自然图像和边缘图的判别特征。由于自然图像和边缘图属于异构数据域，而边缘图和草图域属于同一数据域，因此自然图像分支和边缘图分支的注意力模块权重异构，而边缘图分支的注意力模块和草图分支的注意力模块完全共享权重。因此为了方便描述，下面省略草图分支注意力模块搭建过程。

每个注意力模块由全局平均池化层，两个全连接层，一个ReLU层和一个Sigmoid层组成。注意力模块的输入为每个分支最后一个池化层输出的特征图，用

和

表示自然图像分支和边缘图分支的注意模块的输入，其中h，w和c分别表示特征图的高度，宽度和通道数目。

首先通过全局平均池化层，聚合

和

的全局空间信息，聚合后得到的自然图像和边缘图的特征描述符分别表示为：

基于

和

应用两个全连接层和一个ReLU(线性整流单元)来模拟特征图通道间的相互依赖性，并分别获得自然图像和边缘图的注意力特征图。再将得到的注意力特征图进行Sigmoid(双弯曲函数)操作，将每个通道上的值归一化为[0,1]。最终网络学习到的自然图像注意力掩膜M_I∈R^1×1×c和边缘图注意力掩膜M_E∈R^1×1×c分别表示为：

其中，

和

表示第一层全连接层的权重，

和

表示第二层全连接层的权重。

通过搭建各个分支的注意力模块，使得每个分支分别聚焦于提取各自输入域数据的判别特征，保留对检索有用的信息，抛弃对检索无用的冗余信息。

三、协同注意力模块搭建，获得跨域公共注意力掩膜

SBIR作为图像检索的子任务，其关键问题在于捕获两个不同域中的共同判别信息，并最终实现共同高级语义空间中两个不同域的对齐。因此，与上述直接使用所得注意力掩模来重新加权通道响应的大多数现有工作不同，本发明实施例所提出的协同注意力机制不仅考虑单个数据域的通道特征响应，还通过学习两个不同数据域上的公共注意力掩膜来捕获两个域之间的公共通道方式依赖性，聚焦学习来自两个不同域的公共信息特征，从而有效缩小查询数据域和检索数据域的差距，获得较好的检索性能。

具体操作如下：

通过对应相乘自然图像注意力掩膜和边缘图注意力掩膜，得到跨域公共注意力掩膜 M_CO∈R^1×1×c，其中

表示元素乘法，M_CO中的元素用于衡量自然图像和边缘图像域中对应通道的共同重要性。

四、利用跨域公共注意力掩膜重新加权自然图像及边缘图特征通道响应

通过利用上一步得到的跨域公共注意力掩膜M_CO分别对自然图像和边缘图分支最后一个池化层输出特征图进行通道相应加权，最终输出对特征通道重要程度进行重校准后的自然图像特征图

和边缘特征图

为自然图像分支注意力模块输入特征图，

为边缘图分支注意力模块输入特征图。

五、三分支网络联合训练

将网络的三个分支整合起来进行联合训练，共同学习三个分支的权重，通过训练整个三分支网络获得查询数据(草图)和检索数据(自然图像)的跨域表示。公式中的整体损失函数包含交叉熵损失和对比损失。

1)交叉熵损失

为提取每个分支的判别特征，引入了三个分支的交叉熵损失L_{cross-entropy}(p,y)。其公式为：

其中，p＝(p₁,...p_K)表示一个数据样本在K个类别上的离散概率分布，表示对应于每个类别的典型独热标签y＝(y₁,...y_K)，z＝(z₁,...z_K)表示由最后一个完全连接层产生的特征向量。交叉熵损失的作用是强制网络提取每个分支的典型判别特征。

2)对比损失

在SBIR中，应该拉近来自相同类别的草图和自然图像，推远来自不同类别的草图和自然图像。因此，给定草图S和自然图像I及它们的对应相似标签l_sim(假如草图和自然图像来自相同类l_sim设置为1，假如草图和自然图像来自不同类l_sim设置为0)，对比损失可表示为：

其中，I⁺,I^-分别表示正负自然图像，

表示草图经过草图分支L2归一化层后的特征图，

表示自然图像正样本经过图像分支L2归一化层后的特征图，

表示自然图像负样本经过图像分支L2归一化层后的特征图，d(·)表示欧式距离，用于计算草图和自然图像的特征相似程度，m表示边距，实验中设置为0.3。对比损失有效地度量了草图与自然图像之间的跨域相似性。

最后，联合训练过程的整体损失函数融合了三个分支的交叉熵损失及对比损失，表示为：

其中，β表示各损失的权重比，在实验过程中β设置为10。

实施例2

图1给出了本发明的技术流程图，主要包括三分支网络预训练、三分支网络注意力模块搭建、协同注意力模块搭建，获得跨域公共注意力掩膜、利用跨域公共注意力掩膜重新加权自然图像及边缘图特征通道响应以及三分支网络联合训练五个部分。

图2给出了本方法和其他方法在Sketchy-Extension测试集上的检索平均准确率对比图。第一列为用Siamese CNN方法得到的检索平均准确率，第二列为用GN-Triplet方法得到的检索平均准确率，第三列为本方法得到的检索平均准确率。

从结果可以看出，本方法使得草图域和自然图像域在高维语义空间中实现充分对齐，因此获得了更好的检索性能。

本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。