CN111984817A

CN111984817A - 一种基于自注意力机制加权的细粒度图像检索方法

Info

Publication number: CN111984817A
Application number: CN202010793691.0A
Authority: CN
Inventors: 林红利; 吴汉; 王伟胜; 贺可心
Original assignee: Hunan University
Current assignee: Hunan University
Priority date: 2020-08-10
Filing date: 2020-08-10
Publication date: 2020-11-24
Anticipated expiration: 2040-08-10
Also published as: CN111984817B

Abstract

本发明涉及图像检索和计算机视觉技术领域，一种基于视觉注意力机制加权的细粒度图像检索方法。本发明的方法包括：图像预处理，将图像的最长边长度设置500像素；特征提取，将图像输入卷积神经网络后，选择最后一个卷积层的特征输出；目标特征选择，先对局部激活图进行优化处理，再根据激活图结果选择局部特征向量，从而实现了更加精确的目标特征选择；特征加权聚合，评估每个特征的重要程度，使得加权后的细粒度局部特征在池化聚合时仍然能够得以体现，从而提升细粒度检索的精度；进行图像检索，计算查询图像与数据库图像的特性向量之间的余弦相似度。其图像特征提取及编码细节图如图1所示。该方法能够实现细粒度图像的检索，提高检索的准确度。

Description

一种基于自注意力机制加权的细粒度图像检索方法

技术领域

本发明涉及图像检索和计算机视觉技术领域。特别是涉及一种基于视觉注意力机制加权的细粒度图像检索方法。

背景技术

尽管图像检索已经取得了非常出色的表现，但从细粒度图像的级别来看，其仍然是一个具有挑战性的问题。与一般的图像检索任务相比，细粒度图像检索方法应该能够定位并表达子类别内细微的视觉差异。例如，给定一个查询图像包含一个基本类别的子类别，如鸟类的“黑脚信天翁”子类别，我们应该从数据库中返回与该查询处于同一子类别的图像，而不是简单返回任意一个鸟类的图像。

根据是否需要在新数据集中训练模型，可以将现有的基于深度学习的图像检索方法分为两组。第一组方法将细粒度图像检索定义为度量学习问题，它们尝试通过增加“局部检测”模块并设计特定的度量损失来训练神经网络，使其学习定位和表达图像中具有判别性的特征。但是，这些方法都依赖大量标注数据进行训练。当我们需要检索上万个细粒度类别时，就对这类方法提出了巨大的挑战。第二类方法——无监督方法则天然的可以避免上述问题。这类方法通常包括三个步骤：1、从预训练的卷积神经网络中提取图像的特征图；2、在特征图中选择目标对象特征；3、将目标特征聚合为最终的描述符。由于从预训练的卷积神经网络中提取的特征图是粗粒度的，因此，这类方法需要在筛选和聚合步骤中对处理细粒度局部特征提出更高的精度要求。

另外，由于视觉注意力机制具有突出显著目标区域的功能，因此，近年来在计算机视觉领域中提出了许多不同的注意力方法，并且取得了显着的效果。尽管一些基于学习的方法效果很好，但它们不适合融入无监督方法。因此，另一种分类方法更值得关注。这类方法也被称为自注意力机制。双线性合并方法对来自不同特征图中同一部分的两个局部特征执行外积运算，然后执行合并。非局部方法在语义分割任务中表现出色，后来被也用于细粒度的识别任务中。但是，这种方法的缺点是计算复杂度太高。

综上所述，现有细粒度图像检索方法仍然有以下几个问题需要解决：1、从图像的卷积特征图中筛选目标特征的方法不精确，包含了过多的背景噪声特征；2、目标特征聚合时细粒度特征不能很好表达，虽然结合当前的视觉注意力方法的可以提高表达效果，但是计算复杂度太高不具有实用性。

发明内容

本发明针对现有方法存在的目标特征选择不准确、视觉注意力方法计算耗时高等缺点，提出了一种有效的方法来创建用于细粒度图像检索的强大特征表示。该发明主要包括两个部分：1、双选模块，可以根据卷积神经网络输出的局部和全局激活图的值快速且准确地选择出目标特征；2、自注意力权重模块，可以增大细粒度特征的权重，用于最终描述符中的细粒度性特征表达。具体步骤如下：

(1)图像尺寸处理。本发明中输入图像最长边的长度限制为500像素。

(2)获得卷积神经网络的输出。将图像送入一个已经在ImageNet数据集上训练过的卷积神经网络，选取网络中最后一个卷积层的输出，可以得到的一个三维张量，其形状记为h×w×c。

(3)基于双选模块的目标特征选择。通常认为卷积神经网络输出的三维张量有两种概念：局部激活图集合和局部特征向量集合。本方法同时考虑了这两种概念，先对局部激活图进行优化处理，再根据激活图结果选择局部特征向量，从而实现了更加精确的目标特征选择。具体可以进一步分为以下三个步骤：

(3.1)局部激活图筛选。将输出的三维张量视为c个形状为h×w的局部激活图的激活，对每个局部激活图都进行噪声值抑制处理。

(3.2)全局激活图筛选。将处理过的局部激活图相加，得到的全局激活图。取全局激活图中所有值的均值作为阈值，全局激活图中每个激活值与阈值比较结果记为0或1。最后得到一个二值化掩膜。

(3.3)目标特征选择。此时将步骤(3.2)得到三维张量视为h×w个长度为c的局部特征向量，同时只保留二值化掩膜中值为1的位置对应的局部特征向量。将筛选出的m个目标特征集，记作形状为m×c的目标特征矩阵。

(4)基于自注意力权重的特征聚合。本发明提出了基于自注意力机制的加权方法，评估了每个特征的重要程度，使得加权后的细粒度局部特征在池化聚合时仍然能够得以体现，从而提升细粒度检索的精度。整个特征聚合步骤也可以进一步分为以下三个步骤：

(4.1)局部特征全局相关性分数。目标特征矩阵中一个特性向量与所有的m个特征向量进行内积运算，再将m个结果求和，即得到该特征向量的全局相关性分数。

(4.2)局部特征权重。所有特征向量的全局相关性分数统一进行softmax函数归一化处理，然后经过sigmoid函数最终每个特征的全局相关性得分转换为权重值。

(4.3)加权特征聚合。对加权后的特征矩阵分别进行平均值池化和最大值处理，可以得到两个特征向量。在将两个特征向量分别进行L2-norm处理后，进行串联，得到图像最终的特征向量表示。

(5)细粒度检索测试。计算查询图像特征与数据库图像特征之间的余弦相似度。

现有的细粒度检索方法相比，本发明的优点在于：

(1)本发明在特征选择阶段同时考虑局部激活图集合和局部特征向量集合两个概念，设计了无监督的双选模块。其在目标定位中的准确度完全优于其他无监督的方法，甚至可以与基于监督的方法准确度相竞争。而相比于监督方法，本发明没有对数据标注的依赖，更具有实用价值。

(2)本方法引入并改进自注意力机制，不仅降低了计算复杂度，而且加权后的特征聚合更好的保留了细粒度特征，从而提高细粒度检索精度。

附图说明

图1：图像检索流程图

图2：图像特征提取及编码细节图

具体实施方式

1、图像预处理

本发明没有对图像的分辨率做具体的要求，但是出于对检索效率的考虑，实施时将图像的最长边长度设置500像素的上限。当图像需要缩小时，将保持原始的长宽比。除此之外，利用ImageNet数据提供的数据，对图像的每个通道上像素值做零均值处理。

2、获取卷积神经网络输出

本发明是无监督方法，因此只使用在ImageNet数据集中预训练过的卷积神经网络。将图像输入网络后，选择最后一个卷积层的输出，可以得到一个形状为h×w×c的三维张量T。卷积网络输出的三维张量有两个被广泛应用的概念：(1)由(h×w)个长度为c的局部特征组成的特征图；(2)由c个形状为h×w局部激活图组成的集合。在后续处理中，本发明同时使用了着两种概念。

3、局部激活图优化处理

以第n个局部激活图Aⁿ为例，详细介绍实施细节。由于局部激活图是处理是为了过滤掉其中的低激活噪声值，防止局部激活图求和后形成高激活值噪声，因此，阈值Tⁿ不能设置的过高。这里设置为均值的二分之一：

然后，低于阈值的激活值被视为噪声并重置为0：

最终得到优化的局部激活图A^′n。

对每个局部激活图做相同的处理之后，可以得到一个优化后的局部激活图集合A′＝{A′ⁿ}n＝(1，2，…，c)。

4、全局激活图处理

首先把全部的局部激活图相加，得到全局激活图A^g：

接下来采用与局部激活图类似的处理策略。首先设置一个阈值T^g：

因为全局激活图中的噪声值较大，所有这里的阈值直接取均值。然后，阈值筛选步骤也和上面有些不同。除了要将低于阈值的激活值设置为0之外，还要将大于阈值的激活值设置为1：

阈值筛选后，所有的m_i.j组成了一个二值化掩膜M，而m_i.j的值表示特征图中对应位置(i，j)的局部特征向量是否为目标特征向量。

5、目标特征选择

因为我们知道图像中目标主体区域要比噪声部分的面积大，因此，我们首先使用泛洪算法(Flood Fill Algorithm)求出二值化掩膜中1的最大连通区域，然后将其余连通区域的值重置为0。通过以上步骤进一步去除噪声区域，此时可以使用精修后的二值化掩膜M′来选择目标特征：

F＝{f_i，j|M′_i，j＝1}，#96)

最后，将得到目标特征集合使用矩阵表示：

其中，m是目标特征的数量，c是特性向量的长度。

6、目标特征的全局相关性分数

以第i个目标特征为例，讲解其具体实施细节。将当前特征与m个特征进行内积运算，求得m个特征之间的相关性分数。然后将m个结果求和，即可得到当前特征的全局相关性分数s_i：

当每个特征都计算全局相关性分数后，组成了一个分数向量S＝[s₁，s₂，…，s_m]。

7、全局相关性分数转换为权重系数

首先使用softmax函数对分数向量进行归一化处理：

S′＝softmax(S).＃(9)

在对分数向量S′零均值处理之后，接着使用sigmoid函数来放大分数之间的细微差异,并最终得到权重向量W：

S′＝S′-average(S′)，#(10)

W＝sigmoid(S′)，#(11)

8、目标特征加权聚合

根据上一步得到权重向量，为每个特征进行加权处理，得到加权后的特征矩阵F′：

F′＝[w₁·f₁，w₂·f₂，…，w_m·f_m，]，#(12)

为了兼顾最终特征表示的鲁棒性和差异性，本发明对特征矩阵分别进行了均值池化和最大值池化，记作P_avg和P_max：

P_max＝[max(x₁)，max(x₂)，…，max(xc)]，#(14)

公式中的f′_i和x_j表示特征矩阵F’中的行向量和列向量。

P_avg和P_max分别进行L2规范化处理后，我们将两个特征向量串联起来，最终结果即为图像的特征向量表示。

9、检索测试

进行图像检索时，查询图像与数据库图像的特性向量之间的相似度计算使用余弦相似性度量。将所有余弦相似度降序排序后，返回检索结果。

使用top1和top5的mAP指标对检索性能进行评价。其计算方法如下：

mAP＝(AP₁+AP₂+AP₃+…+AP_n)/n

其中，t_k表示当前检索结果topk中正确的数量，AP_n表示第n个查询图片的AP。

Claims

1.一种基于自注意力机制加权的细粒度图像检索方法，其特征在于实施步骤为：

(1)将图像输入卷积神经网络，获取卷积神经网络的输出特征层；

(2)将得到的特征层基于双选模块进行目标特征选择；

(3)经过选择的特征采用自注意力权重的方法进行特征聚合；

(4)通过计算特征向量的余弦相似度进行图像检索。

2.根据权利要求1所述的基于自注意力机制加权的细粒度图像检索方法，其特征在于本方法在图像预处理和特征提取阶段：

(1)基于对检索效率的考虑将图像的输入最大尺寸限制为500像素；

(2)使用ImageNet数据集训练得到的卷积神经网络模型提取数据特征，将网络模型最后一层的输出层作为输出特征。

3.根据权利要求1所述的基于自注意力机制加权的细粒度图像检索方法，其特征在于本方法的基于双选模块的目标特征选择：

(1)卷积神经网络输出的三维张量有两种概念：局部激活图集合和局部特征向量集合。本方法同时考虑了这两种概念，先对局部激活图进行优化理，再根据激活图结果选择局部特征向量，从而实现了更加精确的目标特征选择；

(2)局部激活图筛选。将输出的三维张量视为c个形状为h×w的局部激活图的激活，对每个局部激活图都进行噪声值抑制处理；

(3)全局激活图筛选。将处理过的局部激活图相加，得到的全局激活图。取全局激活图中所有值的均值作为阈值，全局激活图中每个激活值与阈值比较结果记为0或1。最后得到一个二值化掩膜；

(4)目标特征选择。此时将步骤(3.2)得到三维张量视为h×w个长度为c的局部特征向量，同时只保留二值化掩膜中值为1的位置对应的局部特征向量。将筛选出的m个目标特征集，记作形状为m×c的目标特征矩阵。

4.根据权利要求1所述的基于自注意力机制加权的细粒度图像检索方法，其特征在于本方法的基于自注意力权重的特征聚合，基于自注意力机制的加权方法，评估了每个特征的重要程度，使得加权后的细粒度局部特征在池化聚合时仍然能够得以体现，从而提升细粒度检索的精度。整个特征聚合步骤也可以进一步分为以下三个步骤；

(1)局部特征全局相关性分数。目标特征矩阵中一个特性向量与所有的m个特征向量进行内积运算，再将m个结果求和，即得到该特征向量的全局相关性分数；

(2)局部特征权重。所有特征向量的全局相关性分数统一进行softmax函数归一化处理，然后经过sigmoid函数最终每个特征的全局相关性得分转换为权重值；

(3)加权特征聚合。对加权后的特征矩阵分别进行平均值池化和最大值处理，可以得到两个特征向量。在将两个特征向量分别进行L2-norm处理后，进行串联，得到图像最终的特征向量表示。

5.根据权利要求1所述的基于自注意力机制加权的细粒度图像检索方法，其特征在于本方法的细粒度图像检索方法：

(1)基于以上的权利要求2、3、4的方法，构建每个图像类的图像特征库；

(1)进行图像检索时，将待检索的图像采用同样的过程提取特征，进而计算它与每个类别的特征之间的余弦相似度排序，得到检索的结果。