CN111625675A

CN111625675A - 基于注意力机制下特征金字塔的深度哈希图像检索方法

Info

Publication number: CN111625675A
Application number: CN202010282573.3A
Authority: CN
Inventors: 李泽超; 孙燮; 金露
Original assignee: Nanjing University of Science and Technology
Current assignee: Nanjing University of Science and Technology
Priority date: 2020-04-12
Filing date: 2020-04-12
Publication date: 2020-09-04

Abstract

本发明公开了一种基于注意力机制下特征金字塔的深度哈希图像检索方法，包含图像数据集预处理、基于注意力机制下特征金字塔网络的构建、训练哈希层编码、测试检索性能四个过程，该方法旨在结合注意力机制和特征金字塔两个模块去提取具有局部显著视觉信息、多层语义信息的图像高维特征，并将其映射成低维汉明空间的哈希值来进行相似图像的检索。本发明提出的将注意力模块和特征金字塔模块结合的深度哈希方法可以充分挖掘局部显著视觉信息和多层语义信息来获取高质量的图像特征，并将高维的图像特征映射成低维哈希值来进行图像相似性检索，通过实验对比，检索性能优于大部分同类哈希方法。

Description

基于注意力机制下特征金字塔的深度哈希图像检索方法

技术领域

本发明涉及计算机视觉领域，特别是一种基于注意力机制下特征金字塔的深度哈希图像检索方法。

背景技术

图像检索是计算机视觉领域中至关重要的一个方向，其目的是通过提取图像特征来检索与其相似的图像，从而代替人眼的客观判断。图像检索可以分为两类：基于文本的图像检索和基于内容的图像检索。基于内容的图像检索是依据提取的图像特征来寻找语义内容上最相近的图像。

近年来由于表示学习的有效性，深度哈希方法在基于内容的图像检索中越来越受到重视。深度哈希方法是通过一个训练成熟的端到端的深度神经网络将学习到的高维图片特征映射成紧凑的二进制编码，从而在低维的汉明空间进行相似性检索。但是，现有的深度哈希方法在提取特征时只对哈希学习的最后一层的原始特征信息进行编码处理，忽略了图像的浅层信息，同时也未关注图像局部显著信息的问题。

发明内容

本发明的目的在于提供一种基于注意力机制下特征金字塔的深度哈希图像检索方法。

实现本发明的技术解决方案为：一种基于注意力机制下特征金字塔的深度哈希图像检索方法，包括：

图像数据集预处理：将数据集分成训练集和测试集，对训练集随机抽取一定比例的正负样本；

基于注意力机制下特征金字塔网络的构建：将神经网络最后两个卷积层经过最大池化获取该层多个尺寸大小的特征图构建特征金字塔，然后对不同尺寸的特征图根据注意力机制的计算公式对局部显著信息加权，非显著信息抑制；对每个特征金字塔的多尺寸特征图采取自顶及下的融合策略输出与该卷积层原始尺寸大小一样的特征张量，并将最后两个特征金字塔输出的张量合并成一个最终的高维特征输入到哈希层；

训练哈希层编码：在哈希层中设置两个损失函数：一个交叉熵损失函数用来使网络逼近学习最具判别力的图像特征，一个均方差损失函数用来学习最优的哈希值；

测试检索性能：在深度神经网络训练完毕后，分别将训练集和测试集作为网络输入进行哈希映射，得到两个存有哈希值的.mat文件进行测试；测试检索性能时的训练集作为base数据集，测试集作为待检索数据集，进行性能测试。

与现有技术相比，本发明的显著优点为：本发明提出一种全新的结合空间金字塔和注意力机制来提取图像特征并生成哈希编码的方法，该方法利用两层特征金字塔来联合挖掘图像浅层信息与深层信息，并通过特征金字塔内不同尺寸的特征图来实现不同大小的感知野获取图像信息；通过注意力机制来加强图像显著部分信息；通过实验对比，检索性能优于同类哈希方法。

附图说明

图1为基于注意力机制下特征金字塔网络的基本框架图。

具体实施方式

本发明的一种基于注意力机制下特征金字塔的深度哈希图像检索方法，包括：

基于注意力机制下特征金字塔网络的构建：将神经网络最后两个卷积层经过最大池化来获取该层多个尺寸大小的特征图构建特征金字塔，然后对不同尺寸的特征图根据注意力机制的计算公式对局部显著信息加权，非显著信息抑制；对每个特征金字塔的多尺寸特征图采取自顶及下的融合策略输出与该卷积层原始尺寸大小一样的特征张量，并将最后两个特征金字塔输出的张量合并成一个最终的高维特征输入到哈希层；

训练哈希层编码：在哈希层中设置了两个损失函数：一个交叉熵损失函数用来使网络逼近学习最具判别力的图像特征和一个均方差损失函数用来学习最优的哈希值；

进一步的，图像数据集预处理具体包括以下步骤：

步骤A01，将数据集分成训练集和测试集，然后对训练集随机抽取一定比例的正负样本；

步骤A02，对图像数据集进行标准化处理，得到在固定尺寸的输入大小，然后获得每张图片在RGB通道下的张量；

步骤A03，将训练集图片1在RGB下的张量、图片1的类别、训练集随机图片2在RGB下的张量、图片2的类别、训练集随机图片3在RGB下的张量、图片3的类别、图片2和3是否相似这七个输入值组成一个批次，每次训练固定批次并行输入到网络中。

进一步的，基于注意力机制下特征金字塔的构建具体包括以下步骤：

步骤B01，以ResNet-18网络为神经网络框架，在最后两层卷积块上构建特征金字塔，分别在最后两层输出的原尺寸的特征图上进行最大值池化，获得较原尺寸更小的特征图；每一层多个尺寸的特征图构成一个特征金字塔，由此可以得到两个特征金字塔；以224*224的图片输入为例，最后两层的原始尺寸分别为 14x14，7x7，经过特征金字塔的处理可以获得两个特征金字塔里的特征图尺寸为 (14x14，7x7，3x3)以及(7x7，3x3)；

步骤B02，对步骤B01得到的特征金字塔中每个不同尺寸(h x w)的特征图计算通道注意力权重channel-wise attention：

然后在经过channel-wise attention加权的特征图上计算空间注意力权重spatial attention，最终得到多个不同尺寸下加权过channel-spatial attention的特征图，即两个经过注意力机制加权的特征金字塔；

步骤B03，对步骤B02中每个特征金字塔的不同尺寸特征图采取自顶及下的融合；具体方法为对小尺寸的特征图通过反卷积恢复到和所属特征金字塔下一层尺寸一样的特征图，然后对两个特征图进行该尺寸下的累加，直至得到一张最大尺寸的特征图，如(3x3→7x7→14x14)；

步骤B04，分别对两个特征金字塔融合后的最终特征图进行全局平均池化输出256维和512维的张量，最后在通道上合并成768维特征。

进一步的，训练哈希层编码具体包含以下步骤：

训练时，通过设置网络参数8-bit、16-bit、24bit、32-bit的哈希编码长度来进行不同长度的哈希映射；

步骤C01，网络的损失函数设置一个多任务损失：一个交叉熵损失函数，一个均方差损失函数，通过SGD优化器来逼近学习两个损失函数和的最优解；

步骤C02，设置交叉熵损失函数对步骤A03中的图片1进行分类训练，用于学习最具鉴别性的图像特征，即通过优化注意力机制模块的权值参数来对图片局部显著信息进行较大加权，而非显著信息进行较大抑制；

步骤C03，均方差损失函数对随机图片2和3的相似性进行训练，用于监督映射哈希值的学习，使其逼近最优的低维哈希值。

进一步的，测试检索性能具体包含以下步骤：

步骤D01，在深度神经网络训练完毕以后，分别将步骤A01的训练集和测试集作为网络输入进行哈希映射，得到两个存有哈希值的.mat文件进行测试。测试检索性能时的训练集作为base数据集，测试集作为待检索数据集；

步骤D02，采用平均精度均值mAP、P@5000曲线、Precision-Recall曲线三种常用的衡量标准来测试性能。

下面结合附图和实施例对本发明进行进一步详细的说明：

实施例

一种基于注意力机制下特征金字塔的深度哈希图像检索方法，包括图像数据集预处理、基于注意力机制下特征金字塔网络的构建、训练哈希层编码、测试检索性能四个过程。

A.图像数据集预处理包括以下步骤：

步骤A01.将数据集分成训练集和验证集，然后对测试集随机抽取1:5的正负样本，其中如果两张图片拥有同一个类别标签则认为是相似的正样本对，反之亦然；

步骤A02.对数据集所有的图片进行标准化处理，得到固定尺寸的输入大小，然后获取每张图片在RGB通道下的张量；

步骤A03.每次训练时，将训练集图片1在RGB下的张量、图片1的类别、训练集随机图片2在RGB下的张量、图片2的类别、训练集随机图片3在RGB 下的张量、图片3的类别、图片2和3是否相似七个输入值组成一个批次，以固定批次并行输入到网络中；

B.基于注意力机制下特征金字塔网络的构建包括以下步骤：

步骤B01.以ResNet-18网络为神经网络框架，如图1中Attention-aware Pyramid部分，在最后两层卷积块上构建特征金字塔，对两层卷积块中原尺寸的特征图进行最大值池化，获得较原尺寸更小的特征图，将该卷积块的多个尺寸的特征图作为一个特征金字塔，由此最后可以得到两个特征金字塔。以224*224 的图片输入为例，最后两层的原始尺寸分别为14x14，7x7，经过特征金字塔的处理可以获得两个包含不同尺寸特征图的特征金字塔：(14x14，7x7，3x3)以及 (7x7，3x3)；

步骤B02.对步骤B01得到的特征金字塔中尺寸h*w的特征图Z(h,w)计算通道注意力权重channel-wise attention

公式(1)中先用AvePool2D平均函数沿着图像的高度h和宽度w来压缩空间权重，得到压缩后的特征向量a，然后将a依次输入两个全连接层，其中(W₁,b₁) 和(W₂,b₂)分别为两个全连接层的权重参数和偏置参数。另外，需要对两个全连接层后的结果先后加上Relu和Sigmoid函数进行激活，确保图像在通道注意力下的权值最终映射到(0,1)区间内。同时为了避免权值过小带来训练时梯度弥散，在权值与原有特征图点乘时采用了优化后的公式(2)来求得尺寸为h*w 下经过通道注意力后的特征图

其中c是公式(1)中的通道注意力权值。通过优化公式可以避免部分权值较小的趋于0，同时又保证权值较大的得到极大增强。

下面介绍空间注意力权重spatial attention的计算公式(3)：

其中

代表尺寸为h*w下经过通道注意力加权的特征图，而Conv2D是一个二维卷积层来学习卷积层的权重参数W_u，W_u∈1x C x 1x 1，并利用 Sigmoid函数来使尺寸为h*w的特征图

在空间注意力下的权重u约束到(0,1)区间内。

根据公式(4)来计算联合通道和空间两个注意力机制下的特征图。

其中

是第c^th个通道上基于通道注意力加权后的特征图，u代表由公式(3) 求得的空间注意力，然后由C个

得到在k尺寸下基于先通道后空间注意力机制加权后的特征图

步骤B03.对步骤B02对每个特征金字塔采取自顶及下的融合。如附图1 Multi-scale Feature Fusion Module部分，具体方法为对小尺寸的特征图通过反卷积层恢复到该尺寸所属特征金字塔下一层较大尺寸的特征图，然后对两个特征图进行该尺寸下的累加，直至输出与最大尺寸大小一致的特征图。以(3x 3→7x 7→14x 14)为例，该特征金字塔最终输出14x 14的融合后的特征图，融合时参照公式(5)：

其中Δ为上采样操作，利用反卷积层将尺寸k的特征图上采样到上一层k+1 尺寸,然后与原始的k+1尺寸融合成该尺寸下新的特征图

步骤B04.分别对两个特征金字塔融合后输出的最终特征图

和

进行全局平均池化操作，从而输出256维和512维的张量，最后在通道上合并成768 维特征r：

其中GAP(Global Average Pooling)是全局平均池化操作，Concat是通道的拼接操作。

C.训练哈希层编码包含以下步骤：

步骤C01.在网络训练时，依次对哈希层设置四个编码长度的全连接层结点数：8-bit、16-bit、24bit、32-bit，从而进行不同编码长度的哈希映射。分类层的全连接结点数则设置步骤A01中训练集的总标签类别个数。

步骤C02.如附图1第三部分，网络的损失函数设置一个多任务损失：一个是交叉熵损失函数，一个是均方差损失函数，通过SGD优化器来逼近学习两个损失函数和的最优解；

步骤C03.分类层设置交叉熵损失函数对步骤A03中的图片1进行分类训练，用于学习最具鉴别性的图像特征，即通过优化注意力机制模块的权值参数来对图片局部显著信息进行较大加权，而非显著信息进行较大抑制，其中交叉熵损失函数公式如公式(7)：

其中y_il是图片x_i的l^th个标签，

是图片x_i预测概率，N是图片总数，L是图片标签属性总数。

步骤C04.哈希层使用均方差损失函数来判别步骤A03中的随机图片2和3 的相似性，用于监督映射哈希值的学习，使其逼近最优的低维哈希值，其中均方差损失函数如下式(8)：

其中s_ij为图片x_i和x_j的哈希值b_i和b_j是否相似的真实值，

为预估概率，计算公式如公式(9)：

其中v_i ^q和v_j ^q分别是图片x_i和x_j在哈希层的q个切片，因此

是第q^th个哈希层的权重，φ(*)代表softMax函数，r_*为前面公式(6)中合并后的最终特征。

D.测试检索性能包含以下步骤：

步骤D01.测试时，在网络参数里依次设置四个哈希编码长度：8-bit、16-bit、24bit、32-bit。分别将步骤A01中的训练集和测试集中的图片作为网络输入，输出训练集和测试集8-bit、16-bit、24bit、32-bit四个不同长度下的哈希值的.mat 文件，其中训练集作为base数据集，测试集作为待检索数据集。

步骤D02.采用平均精度均值mAP、P@5000曲线、Precision-Recall曲线三种通用的衡量标准来对步骤D01中的.mat文件进行性能测试并画取结果图。

Claims

1.一种基于注意力机制下特征金字塔的深度哈希图像检索方法，其特征在于，包括：

2.根据权利要求1所述的基于注意力机制下特征金字塔的深度哈希图像检索方法，其特征在于，图像数据集预处理具体包括以下步骤：

步骤A02，对图像数据集进行标准化处理，得到在固定尺寸的输入大小下每张图片在RGB通道下的张量；

步骤A03，将训练集图片1在RGB下的张量、图片1的类别、训练集随机图片2在RGB下的张量、图片2的类别、训练集随机图片3在RGB下的张量、图片3的类别、图片2和3是否相似七个输入值组成一个批次，以固定批次并行输入到网络中。

3.根据权利要求2所述的基于注意力机制下特征金字塔的深度哈希图像检索方法，其特征在于，基于注意力机制下特征金字塔的构建具体包括以下步骤：

步骤B01，以ResNet-18网络为神经网络框架，在最后两层卷积块上构建特征金字塔，分别在最后两层输出的原尺寸的特征图上进行最大值池化，获得较原尺寸更小的特征图；每一层多个尺寸的特征图构成一个特征金字塔，由此得到两个特征金字塔；

步骤B02，对步骤B01得到的特征金字塔中每个不同尺寸的特征图计算通道注意力权重channel-wise attention：然后在经过channel-wise attention加权的特征图上计算空间注意力权重spatial attention，最终得到多个不同尺寸下加权过channel-spatialattention的特征图，即两个经过注意力机制加权的特征金字塔；

步骤B03，对步骤B02中每个特征金字塔的不同尺寸特征图采取自顶及下的融合；

4.根据权利要求3所述的基于注意力机制下特征金字塔的深度哈希图像检索方法，其特征在于，步骤B03中融合方法为：对小尺寸的特征图通过反卷积恢复到和所属特征金字塔下一层尺寸一样的特征图，然后对两个特征图进行该尺寸下的累加，直至得到一张最大尺寸的特征图。

5.根据权利要求3所述的基于注意力机制下特征金字塔的深度哈希图像检索方法，其特征在于，训练哈希层编码具体包含以下步骤：

6.根据权利要求5所述的基于注意力机制下特征金字塔的深度哈希图像检索方法，其特征在于，测试检索性能时，采用平均精度均值mAP、P@5000曲线、Precision-Recall曲线三种衡量标准测试性能。