CN111488474A

CN111488474A - 基于增强注意力的细粒度手绘草图图像检索方法

Info

Publication number: CN111488474A
Application number: CN202010204392.9A
Authority: CN
Inventors: 张玥杰; 王燕飞
Original assignee: Fudan University
Current assignee: Fudan University
Priority date: 2020-03-21
Filing date: 2020-03-21
Publication date: 2020-08-04
Anticipated expiration: 2040-03-21
Also published as: CN111488474B

Abstract

本发明属于跨媒体检索技术领域，具体为基于增强注意力的细粒度手绘草图图像检索方法。本发明提出一种深度细粒度手绘草图图像检索FG‑SBIR模型，使用不同的注意力机制来进一步关注草图和图像之间的细粒度细节。新模型不仅关注草图和图像两种模态之间的相关性信息，同时也关注单一模态内的区别性信息。本发明提出互损失方法，以增强传统的三元组损失，并提高模型在单一模态内部细粒度特征的辨别能力。对于给定查询草图，本发明可返回其在特定类别中具有细粒度实例级相似性的相关图像，满足细粒度手绘草图图像检索的实例级检索严格要求。

Description

基于增强注意力的细粒度手绘草图图像检索方法

技术领域

本发明属于跨媒体检索技术领域，具体涉及基于增强注意力的细粒度手绘草图图像检索方法。

背景技术

如今，移动设备无处不在，人们在屏幕上绘制草图变得越来越方便。特别是当搜索特定图像时，人们需要给出较长的文字描述，但实际上他们也可绘制一个包含细粒度视觉特征的草图来表达检索需求。因此，细粒度手绘草图图像检索(Fine-grained Sketch-based Image Retrieval,FG-SBIR)引起学者广泛的研究兴趣。近年来，虽然在该领域已经取得丰硕的研究成果，但其仍然面临许多挑战性问题，需要开展更深入的研究工作来获得更好的解决方案。这些挑战性问题包括，如何缩小来自不同模态的草图和图像之间的语义差异；如何在细粒度级别上建立草图和图像之间的对应关系等。与图像相比，草图较为抽象，其主要由线条轮廓组成。对于给定的一张查询草图，可能会检索出多幅图像在视觉上与其相似，然而实际上在这些图像中可能只有一幅与查询草图在细节方面更为接近，即细粒度的细节信息可有助于找到唯一正确的图像。

当前的FG-SBIR模型主要集中在如何缩小草图和图像之间的语义差异。现有的研究通常采用包含三个分支的深度神经网络框架，并使用三元组损失来迫使模型区分草图和图像之间的细微差别。但除DSSA模型引入空间注意力机制来处理这些细节，其他的大部分研究工作很少关注细粒度的细节信息。

综上，本发明提出一种新颖的FG-SBIR模型。通过使用不同的注意力机制，使得模型更加关注草图和图像的细粒度细节。本发明引入“残差通道注意力机制(ResidualChannel Attention)”和“局部自我空间注意力机制(Local Self-spatial Attention)”，以重点关注重要的特征并抑制不必要的特征。本发明还使用Transformer机制来建立草图和图像空间序列之间的关系。此外，由于三元组损失主要关注两个模态之间的距离关系，忽略单个模态内部之间的关系，因此，本发明特别提出互损失(Mutual Loss)来解决该问题。

发明内容

本发明解决的问题包括：现有手绘草图图像检索模型在手绘草图图像检索结果中检索出的图像准确率较低；检索出的图像与查询草图中目标对象不一致；缺乏对单一模态内部关系的研究。为此，本发明提供基于增强注意力的细粒度手绘草图图像检索方法。

本发明提供的基于增强注意力的细粒度手绘草图图像检索方法(FG-SBIR)，包括：(1)在低层和高层同时引入改进的空间注意力机制和通道注意力机制，以克服其固有的缺陷并增强模型的鲁棒性；(2)使用Transformer机制来增强模型构造空间序列信息的能力；(3)提出互损失(Mutual Loss)以改善传统的三元组损失并增强单一模态内部的判别能力；

本发明所提出的方法目标集中在为草图与图像构建深度表示上，并学习跨越两个模态的深层关联。因此，对于给定的查询草图，模型可返回其在特定类别中具有细粒度实例级相似性的相关图像，满足FG-SBIR实例级检索的严格要求。本发明在目前可用于FG-SBIR领域研究的最大公开数据集——Sketchy上取得优异的性能表现。

本发明提供的基于增强注意力的细粒度手绘草图图像检索方法，具体步骤如下。

(1)通过在线采样，生成训练用三元组样本；

在生成用于训练的三元组样本时，本发明使用在线采样策略。在线采样策略的核心思想是，在最小批量(mini-batch)中生成三元组。假设有一个用于训练的最小批量(mini-batch)

其中包含n对草图s_i及其匹配图像

对于每个草图-图像对

选择K个图像作为其负样本图像

这些负样本图像来自当前最小批量(mini-batch)

中的其它草图-图像对，并与目标草图-图像对一起构成三元组。K的最大值为n-1，这意味着可将所有可能的三元组都考虑在内，这就是本发明中所采用的基本采样方法，难样本挖掘(hard-mining)。但对每个可能的三元组都进行采样不是必需的，也不是有效的。因此，除基本采样方法外，本发明还采用最难样本挖掘(hardest-mining)方法。最难样本挖掘可看作是在最小批量(mini-batch)中选择最困难的样本，其挖掘过程可以表述为：首先计算给定草图与所有候选图像

之间的距离，然后选取具有最小距离的图像，最终将在一个最小批量(mini-batch)中获得n个三元组。这种处理方法非常合理，因为当最困难的情况满足时，其他情况自然也会满足。

(2)建立残差通道注意力机制(Residual Channel Attention)

通道注意力机制可看作是为给定的特征图选择不同模式检测器的过程，每个通道都对应一个卷积滤波器，且该卷积滤波器被用作模式检测器。按照CBAM模型中的方法，基本通道注意力机制可用如下公式(1)来表示：

其中，F是输入的特征图；AvgPool和MaxPool分别是平均池化和最大池化；MLP是多层感知机；σ是激活函数；W₀和W₁是多层感知机不同层的权重；

和

分别是平均池化和最大池化操作输出的特征图。注意力掩码m_c是通过通道注意力函数M_c，利用中间特征图

作为输入获得。输出特征F^att_c是通过将注意力掩码m_c与输入特征图进行相乘获得，如下述公式(2)所示：

但是，这种注意力机制使用平均池化和最大池化操作来压缩输入特征，这些操作方法会丢失细粒度的信息，却对细粒度的特征提取具有破坏性，最终使得网络失去提取细粒度特征的表达能力。为解决此问题，本发明进一步引入残差通道注意力机制，该注意力机制使用带有可学习参数的残差连接将输入特征图直接与注意力特征图进行连接。带有残差连接的注意力特征图可按下述公式(3)进行计算：

其中，δ是一个可学习的参数，在训练开始时会初始化为0。原始特征图和注意力特征图通过自学习自动组合。网络可以先学习原始特征，然后在学习过程中逐渐增加注意力特征的权重。

(3)建立局部自我空间注意力机制(Local Self-spatial Attention)

不同的草图或图像区域对检索性能具有不同影响，因此模型需要找到一种有效方法汇总来自这些区域的信息。本发明将自我空间注意力机制引入模型中，以对这些分散的空间区域之间的关系进行建模。本发明按照SAGAN模型中的方法来计算自我空间注意力：第一步将原始特征图

嵌入至不同的特征空间q、k和v中，通过将它们输入至不同的卷积层中来获得不同的特征图Q、K和V；第二步将这些新的特征图重新调整为

N＝H×W；第三步，按下述公式(4)计算在自我注意空间的注意力图

中每个元素的值：

最后，将特征图V与M_s的转置和可学习的参数γ相乘，把结果重新调整为

然后将其与原始输入特征图相加，如下述公式(5)所示：

其中，γ初始化为0，与残差通道注意力中的δ作用相同。

前述的自我空间注意力机制在特征图上建立一个区域和其他所有区域之间的关系。但是，当在较大的空间(较低级别的特征图)中进行注意力计算时，希望更多地关注于当前区域与其邻近区域之间的关系，并可将当前区域与遥远区域的关系建模为更高层的注意力图。此外，自我空间注意力计算过程会消耗大量的计算资源。因此，本发明提出局部自我空间注意力机制，将整个大空间划分为小区域以进行注意力处理。值得一提的是，通过划分空间，可同时获得不同区域的注意力，从而可通过尺寸变换和共享注意力权重来实现并行加速，加快计算过程。如图2所示，局部自我空间注意力机制的计算过程包括：首先将特征图变换为

其中

N＝n²，n为在空间分割中边的长度；其次，将自我空间注意力应用于特征图

其中N被视为批大小；最后，结果恢复为原始输入的特征图形状。

(4)通过空间序列(Transformer)按照空间顺序构造草图-图像的对应关系。

受到人们绘制草图方式的启发，本发明考虑按照空间顺序构造草图-图像的对应关系。如图3所示，这是一种新颖的方法，能够使草图和图像在空间序列上进行对齐。

Transformer在自然语言处理领域显示出优异性能。本发明将Transformer与CNN结合以对草图空间序列与图像空间序列之间的关系进行建模。在为自然语言建模时，Transformer的输入通常是一个单词嵌入序列。为适应这种输入要求，本发明将特征图视为

N＝H×W的一个空间序列，其中N是空间序列的长度。本发明采用和BERT中的相同实现，使用双向多头注意力Transformer。如图4所示，对于给定的局部空间，其输入表示为相应局部空间特征和位置嵌入的总和。

(5)采用互损失(Mutual Loss)方法，控制单一模态内部两幅草图/图像之间的距离；

现有研究通常采用三元组损失L_t＝max(0,m+D(s^a,i^p)-D(s^a,iⁿ))和交叉熵损失

来优化FG-SBIR模型。但以上两种损失都未考虑到单一模态内部的关系。在训练过程中，两幅图像之间的距离并不固定，尤其对于语义相似的图像，两幅图像之间的距离可能会减小，从而导致检索精度下降。因此，本发明提出互损失(Mutual Loss)方法，通过限制两幅图像之间的距离来克服上面两个损失的缺点。互损失(Mutual Loss)方法可表示为下述公式(6)：

L_m(x_i,x_j)＝max(0,m-D(x_i,x_j)) (6)

其中，m是一个偏置量，用来控制单一模态内部两幅草图/图像之间的距离。

如图5所示，没有互损失(Mutual Loss)方法的训练过程可能会导致s²太接近

这会导致错误的检索结果，而互损失(Mutual Loss)方法可减轻这类问题。

由于模型包含两个经过对应模态训练的网络分支，因此总的损失函数可以定义为下述公式(7)：

其中，

和

分别表示草图和图像模态，而α、λ和β表示损失权重。

进一步地，本发明提供的基于增强注意力的细粒度手绘草图图像检索方法，其操作流程为：

流程一、CNN网络训练：

采用ResNet网络作为网络骨架，加入残差通道注意力机制、局部自我空间注意力机制和空间序列(Transformer)，整体模型如图1所示。采用在线采样策略，生成训练三元组样本，作为网络输入，使用公式(7)来训练搭建好的网络模型；

流程二、图像语义特征提取：

使用训练好的网络模型来提取每幅手绘草图和彩色图像视觉特征；采用带有注意力机制的ResNet网络作为图像语义提取器，最后一层的输出特征表示视觉全局特征；由此，对于输入的每幅图像，网络会输出其全局视觉特征表示；

对于输入的手绘草图和彩色图像分别利用相对应的模态网络分支来提取语义特征，即对于输入的查询草图，利用草图网络分支来提取草图的语义特征；对于检索数据库中的所有彩色图像，利用图像网络分支来提取图像的语义特征；

流程三、排序选择：

对于已提取到的手绘草图特征和彩色图像特征，直接利用特征之间的欧式距离来衡量查询草图与彩色图像之间的相似性；这是由于本发明所构建的模型是端到端的设计，在经过图像语义特征嵌入后，手绘草图特征和彩色图像特征在高维嵌入空间已完成距离映射，只需要简单计算它们之间的欧式距离就能反应出它们之间的相似度；然后按相似度大小排序。

本发明研究细粒度手绘草图图像检索FG-SBIR任务，并提出基于增强注意力的细粒度手绘草图图像检索方法。所提模型考虑到现有大多数模型都集中于缩小两个模态之间的语义差异，很少关注细粒度的细节等问题。为解决跨模态检索问题，本发明提出一种新颖的深度FG-SBIR模型，使用不同的注意力机制来进一步关注草图和图像的细粒度细节。新模型不仅关注草图和图像两种模态之间的相关性信息，而且也关注单一模态内的区别性信息。本发明提出互损失(Mutual Loss)方法来增强传统的三元组损失，提高模型在单一模态内部细粒度特征的辨别能力。对于给定查询草图，本发明可返回其在特定类别中具有细粒度实例级相似性的相关图像，满足FG-SBIR实例级检索的严格要求。通过在大规模公开数据集上进行测试验证，所构建模型可取得非常显著的效果。

附图说明

图1是本发明的框架图。

图2为局部自我空间注意力机制的示意。

图3为以相同颜色表示对应空间区域的示意。

图4为采用视觉表示的输入示意图。

图5为损失(Mutual Loss)示意图。

具体实施方式

下面详细介绍本发明的具体实现细节。

(一)图像语义特征提取

使用CNN来提取每幅手绘草图和彩色图像视觉特征。与传统特征提取方法相对比，CNN对于特征的学习和提取能力更加强大；采用带有注意力机制的ResNet网络作为图像语义提取器，最后一层的输出特征表示视觉全局特征。由此，对于每幅输入图像，网络会输出其全局视觉特征表示。

本发明中，对于输入的手绘草图和彩色图像分别利用相对应的模态网络分支来提取语义特征，即对于输入的查询草图，利用草图网络分支来提取草图的语义特征；对于检索数据库中的所有彩色图像，利用图像网络分支来提取图像的语义特征。

(二)排序选择

对于已提取到的手绘草图特征和彩色图像特征，本发明直接利用特征之间的欧式距离来衡量查询草图与彩色图像之间的相似性。因为本发明所构建的模型是端到端设计，在经过图像语义特征嵌入后，手绘草图特征和彩色图像特征在高维嵌入空间已完成距离映射，只需要简单计算它们之间的欧式距离就能反应出它们之间的相似度；然后按相似度大小排序。

本发明使用ResNet作为三个网络分支的基本骨架。每个分支都在ImageNet上进行预训练，然后在Sketchy上进行微调。值得注意的是，在本发明的三元组网络模型中，两个图像分支仍共享其权重。因此，模型分别具有一组草图模态和图像模态的权重。初始学习速率为1×10^-5，最小批量大小为64。在训练阶段，除调整草图和图像的大小，没有其他额外的数据增强操作。Transformer的层数设置为2，损失权重设置为α＝50,λ＝1,β＝20。

本发明虽然已以较佳实施例公开如上，但其并不是用来限定本发明，任何本领域技术人员在不脱离本发明的精神和范围内，都可以利用上述揭示的方法和技术内容对本发明技术方案做出可能的变动和修改，因此，凡是未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化及修饰，均属于本发明技术方案的保护范围。

Claims

1.一种基于增强注意力的细粒度手绘草图图像检索方法，其特征在于，具体步骤为：

(1)通过在线采样，生成训练用三元组样本；

在生成用于训练的三元组样本时，使用在线采样策略，以实现在最小批量中生成三元组；包括：

(1.1)基本采样方法，即难样本挖掘方法；

假设有一个用于训练的最小批量

其中包含n对草图s_i及其匹配图像

对于每个草图-图像对

选择K个图像作为其负样本图像

这些负样本图像来自当前最小批量

中的其它草图-图像对，并与目标草图-图像对一起构成三元组；K的最大值为n-1，这意味着可将所有可能的三元组都考虑在内；

(1.2)最难样本挖掘方法；

最难样本挖掘看作是在最小批量中选择最困难的样本，其挖掘过程为：首先计算给定草图与所有候选图像

之间的距离，然后选取具有最小距离的图像，最终将在一个最小批量中获得n个三元组；

(2)建立残差通道注意力机制

通道注意力机制是为给定的特征图选择不同模式检测器的过程，每个通道都对应一个卷积滤波器，且该卷积滤波器被用作模式检测器；按照CBAM模型中的方法，基本通道注意力机制用如下公式(1)来表示：

和

分别是平均池化和最大池化操作输出的特征图；注意力掩码m_c是通过通道注意力函数M_c，利用中间特征图

作为输入获得；输出特征F^att_c是通过将注意力掩码m_c与输入特征图进行相乘获得，如下述公式(2)所示：

这种注意力机制使用平均池化和最大池化操作来压缩输入特征，这些操作方法会丢失细粒度的信息，对细粒度的特征提取具有破坏性，最终使得网络失去提取细粒度特征的表达能力；为解决此问题，进一步引入残差通道注意力机制，该残差通道注意力机制使用带有可学习参数的残差连接将输入特征图直接与注意力特征图进行连接；带有残差连接的注意力特征图按下述公式(3)进行计算：

其中，δ是一个可学习的参数，在训练开始时会初始化为0；原始特征图和注意力特征图通过自学习自动组合；网络可以先学习原始特征，然后在学习过程中逐渐增加注意力特征的权重；

(3)建立局部自我空间注意力机制

不同的草图或图像区域对检索性能具有不同影响，模型需要找到一种有效方法汇总来自这些区域的信息；为此，引入自我空间注意力机制，以对这些分散的空间区域之间的关系进行建模；按照SAGAN模型中的方法来计算自我空间注意力：

第一步将原始特征图

嵌入至不同的特征空间q、k和v中，通过将它们输入至不同的卷积层中来获得不同的特征图Q、K和V；

第二步将这些新的特征图重新调整为

N＝H×W；

第三步，按下述公式(4)计算在自我注意空间的注意力图

中每个元素的值：

然后将其与原始输入特征图相加，如下述公式(5)所示：

其中，γ初始化为0，与残差通道注意力中的δ作用相同；

前述的自我空间注意力机制在特征图上建立一个区域和其他所有区域之间的关系；

进一步采用局部自我空间注意力机制，将整个大空间划分为小区域以进行注意力处理；通过划分空间，可同时获得不同区域的注意力，从而可通过尺寸变换和共享注意力权重来实现并行加速，加快计算过程；局部自我空间注意力机制的计算过程包括：首先将特征图变换为

其中

其中N被视为批大小；最后，结果恢复为原始输入的特征图形状；

(4)通过空间序列(Transformer)按照空间顺序构造草图-图像的对应关系；

将Transformer与CNN结合以对草图空间序列与图像空间序列之间的关系进行建模；在为自然语言建模时，Transformer的输入通常是一个单词嵌入序列；为适应这种输入要求，将特征图视为

N＝H×W的一个空间序列，其中N是空间序列的长度；采用和BERT中的相同实现方式，使用双向多头注意力Transformer；对于给定的局部空间，其输入表示为相应局部空间特征和位置嵌入的总和；

(5)采用互损失方法，控制单一模态内部两幅草图/图像之间的距离；

所述互损失方法，是采用通常的三元组损失L_t＝max(0，m+D(s^a，i^p)-D(s^a，iⁿ))和交叉熵损失

来优化FG-SBIR模型的基础上，进一步通过限制两幅图像之间的距离来克服上面两个损失的缺点，互损失方法表示为下述公式(6)：

L_m(x_i，x_j)＝max(0，m-D(x_i，x_j)) (6)

其中，m是一个偏置量，用来控制单一模态内部两幅草图/图像之间的距离；

由于模型包含两个经过对应模态训练的网络分支，因此总的损失函数定义为下述公式(7)：

其中，

和

分别表示草图和图像模态，而α、λ和β表示损失权重。

2.根据权利要求1所述的基于增强注意力的细粒度手绘草图图像检索方法，其特征在于：

步骤一、CNN网络训练：

采用ResNet网络作为网络骨架，加入残差通道注意力机制、局部自我空间注意力机制和空间序列；采用在线采样策略，生成训练三元组样本，作为网络输入，使用公式(7)来训练搭建好的网络模型；

步骤二、图像语义特征提取：

使用CNN来提取每幅手绘草图和彩色图像视觉特征；采用带有注意力机制的ResNet网络作为图像语义提取器，最后一层的输出特征表示视觉全局特征；由此，对于输入的每幅图像，网络会输出其全局视觉特征表示；

步骤三、排序选择：

对于已提取到的手绘草图特征和彩色图像特征，直接利用特征之间的欧式距离来衡量查询草图与彩色图像之间的相似性；这是由于所构建的模型是端到端的设计，在经过图像语义特征嵌入后，手绘草图特征和彩色图像特征在高维嵌入空间已完成距离映射，只需要简单计算它们之间的欧式距离就能反应出它们之间的相似度；然后按相似度大小排序。