CN111694974A

CN111694974A - 一种融合注意力机制的深度哈希车辆图像检索方法

Info

Publication number: CN111694974A
Application number: CN202010532689.8A
Authority: CN
Inventors: 谢武; 崔梦银; 刘满意; 强保华; 贾清玉; 谢天
Original assignee: Guilin University of Electronic Technology
Current assignee: Guilin University of Electronic Technology
Priority date: 2020-06-12
Filing date: 2020-06-12
Publication date: 2020-09-22

Abstract

本发明公开了一种融合注意力机制的深度哈希车辆图像检索方法，目的是为了提高车辆图像检索的准确率。由于数据量的增大和特征维数的增高所带来庞大计算量及获取特征向量中包含较多的干扰因素导致精确度低的问题。本发明针对该问题，引入注意力机制，提出了融合注意力机制的残差网络深度哈希模型，该模型借助注意力机制来识别车辆图像中多个目标对象的近似位置，以获得一个更为专注的特征表示。同时，本发明引入类别交叉熵损失函数来解决融入注意力机制的模型学习。

Description

一种融合注意力机制的深度哈希车辆图像检索方法

技术领域

本发明涉及车辆图像检索领域，具体是一种融合注意力机制的深度哈希车辆图像检索方法。

背景技术

在车辆图像检索方法中，一般首先将车辆图像映射为特征向量，然后将特征向量编码为二值检索码。然而，获取的特征向量包含图像的全局信息，其中包括目标信息和杂乱的背景信息。在基于深度哈希方法的车辆图像检索研究中，研究人员往往希望哈希码编码的主要对象为车辆图像的目标信息而不是背景信息。同时，由于数据量的增大和特征维数的增高，所带来庞大计算量及获取特征向量中还包含较多的干扰因素导致精确度低的问题。

发明内容

为了提高车辆图像检索的准确率，本发明提出了一种融合注意力机制的深度哈希车辆图像检索方法，该方法借助注意力机制来识别车辆图像中目标对象的近似位置，获取一个专注的特征表示，进一步提高车辆图像检索的精度。

实现本发明目的的技术方案是：

一种融合注意力机制的深度哈希车辆图像检索方法，包括如下步骤：

(1)搭建基于Pytorch的深度学习车辆图像检索环境；

(2)数据预处理：对车辆图像数据集进行归一化，处理成网络模型需要的数据输入格式；

(3)车辆数据集划分：将车辆图像数据集按8:1:1的比例划分为训练集、验证集和检索测试集，从检索测试集中随机选取一批图片作为查询图片，其余图片作为图像数据库；

(4)模型构建：使用深度神经网络中的残差网络模型作为车辆图像检索模型，并在训练集上进行训练：

接收一个三元组的输入(u_i,u_j,m_ij)，在残差网络的第四阶段和第五阶段之间添加一个注意力机制模块，借助注意力机制来识别车辆图像中多个目标对象的近似位置，获得一个专注的特征表示，然后添加一个哈希层生成定长的二值编码；另外，将成对车辆图像标签向量的余弦距离作为监督信息参加模型训练；同时，引入成对相似性损失函数以维持车辆图像之间的相似性，并且引入量化损失函数来控制二值编码的质量；

(5)特征提取：使用训练好的模型对车辆图像进行特征提取；

(6)测试模型：把步骤(3)挑选出来的图片作为查询图片，使用训练好的模型提取该车辆图像的特征，使用汉明距离与特征数据库中的所有特征进行相似度度量，并按照相似度大小返回检索的结果；最后用ACG和NDCG评价指标对返回的结果进行评价。

步骤(4)所述注意力机制模块分为主干分支和掩膜分支两个分支，其中，主干分支执行特征提取，给定输入x，主干分支输出T(x)；掩膜分支执行特征选择，使用自上而下和自下而上的结构学习相同大小的掩膜M(x)，这种结构模仿了快速前馈和反馈注意力过程，输出的掩膜分支作为主干输出的控制门，注意力模块H(x)的输出为公式(1)：

H_i,c(x)＝M_i,c(x)*T_i,c(x) (1)

其中i覆盖到空间中所有位置，c是通道的索引，整个结构可以进行端到端的训练。在注意力机制模块中，注意力掩膜分支不仅可在前向传播阶段做特征选择器，还可以在反向传播阶段用作梯度更新滤波器。在注意力掩膜分支中，输入特征的掩膜梯度为公式(2)：

其中θ为掩膜分支的参数，φ为主干分支参数。然而，简单地堆叠注意力模块会导致性能明显的下降，首先，掩膜分支的取值范围为[0,1]，使用注意力掩膜分支反复点乘会降低输入主干分支良好的表征能力，其次，增加注意力掩膜分支会增加模型训练的难度。与构建残差网络的思想类似，若注意力掩膜分支可以被构造为恒等映射，在不添加注意力掩膜分支的情况下，性能不应该有所下降。因此，利用残差学习思想，公式(1)注意力模块的输出可以改写成(3)：

H_i,c(x)＝(1+M_i,c(x))*F_i,c(x) (3)

当注意力掩膜分支M(x)的取值接近为0时，H(x)将近似于原始特征F(x)。基于残差学习思想，本发明将注意力机制与残差网络相结合，提出注意力残差模块。注意力残差模块与原始残差网络有所区别，在原始的残差网络中，残差学习表达式为H_i,c＝x+F_i,c(x)，其中F_i,c(x)为残差函数。而在注意力残差模块中，F_i,c(x)表示深度卷积网络生成的特征，注意力残差模块关键在于掩膜分支M_i,c(x)，它可作为特征选择器，保留主干分支特征的优良性能同时抑制噪音。注意力残差模块不仅可以保持原始特征的良好属性，而且可以让原始特征绕过软掩膜分支并直接转发到下一层，以削弱掩膜分支的特征选择能力。在注意力残差模块中，存在着三个超参数p,t,r。超参数p表示在分裂成主干分支和掩膜分支之前预处理残差单元的数量。t表示主干分支残差单元的数量。r表示掩膜分支中相邻池化层之间的残差单元数量。本发明使用以下超参数设置{p＝1,t＝2,r＝1}，注意力掩膜分支残差单元通道数与对应主干分支的通道数相同。

步骤(5)所述的特征提取包括两个面：一个是对用户上传的查询图片进行特征提取，另一个是对车辆图片数据库进行特征提取构建车辆图像特征数据库。

步骤(6)所述选取两种评价指标对实验结果进行评价，分别为平均累加增益(ACG)和归一化折扣累加增益(NDCG)。ACG(平均累加增益)表示查询图像和前n个检索到的图像之间共享标签的平均数量，给定查询图像I_q，前n个返回图像的ACG得分由公式(5)来计算，其中C(q,i)为I_q和I_i共享标签的数量。

NDCG(归一化折扣累加增益)是一种用来衡量车辆图像检索任务排序结果质量的评价指标。给定一个查询图像，在返回结果的图像列表中某一特定位置k处累加的DCG得分计算公式定义为：

其中，rel_i为相似度级别，通过两幅图像之间共有的标签数量来衡量，最大值为查询图像与数据库中图像的最大的相同标签数，最小值为0。NDCG在k处的计算得分如公式(7)所示，其中Z_k为DCG理想情况下的最大值，所以NDCG的取值范围为[0,1]。

本发明的有益效果是：本发明是在残差网络的基础之上，引入注意力机制，提出了融合注意力机制的残差网络深度哈希模型，该模型借助注意力机制来识别车辆图像中目标对象(前景)的近似位置，这样我们可以获得一个专注的特征表示，然后将此特征编码为二值编码，进一步提高车辆图像检索的精度。训练完成后调用该模型在车辆图像查询数据集上进行图像检索，并评估该模型的泛化能力及检索准确度。

附图说明

图1为本发明的融合注意力机制的深度哈希车辆图像检索图。

图2为本发明中的注意力模块。

图3为VehicleID车辆图像数据集在不同网络上的ACG评价指标。

图4为VehicleID车辆图像数据集在不同网络上的NDCG评价指标。

具体实施方式

下面着重详细地描述本发明的技术方案和技术效果。

(1)搭建基于Pytorch的深度学习车辆图像检索环境；

(2)数据预处理：本发明用了VehicleID车辆图像数据集，数据集进行归一化，处理成网络模型需要的输入格式；

(3)车辆数据集划分：将VehicleID车辆图像数据集按8:1:1的比例划分为训练集、验证集和检索测试集，从检索测试集中随机选取一批图片作为查询图片，其余图片作为图像数据库；

(4)构建融合注意力机制的深度哈希网络模型：本发明用的是深度神经网络中的残差网络模型作为本发明的车辆图像检索模型，并在训练集上进行训练，在残差网络的第四阶段和第五阶段之间添加一个注意力机制模块，借助注意力机制来识别车辆图像中多个目标对象的近似位置，获得一个专注的特征表示，然后添加一个哈希层生成定长的二值编码；另外，将成对车辆图像标签向量的余弦距离作为监督信息参加模型训练；

(5)车辆图像特征提取。使用训练好的模型对VehicleID车辆图像数据集进行特征提取。这里的特征提取包括两个面：一个是对用户上传的查询图片进行特征提取，另一个是对车辆图片数据库进行特征提取构建图像特征数据库。

(6)测试和评估车辆图像模型。

把步骤3挑选出来的图片作为查询图片，使用训练好的模型提取该车辆图像的特征，使用汉明距离与特征数据库中的所有特征进行相似度度量，并按照相似度大小返回检索的结果。最后用ACG和NDCG两种评价指标应用到本发明所提出的融合注意力机制模型和三种无监督哈希学习方法LSH，SH，ITQ及四种监督哈希方法ISDH，KSH，DHN，DLBHC上，根据不同的检索图片数量呈现出不同网络模型评价指标的变化，对返回的结果进行评价，从图3和图4中可以看出引入注意力机制的网络模型更好。

Claims

1.一种融合注意力机制的深度哈希车辆图像检索方法，其特征是：包括如下步骤：

(1)搭建基于Pytorch的深度学习车辆图像检索环境；

(5)特征提取：使用训练好的模型对车辆图像进行特征提取；

2.根据权利要求1所述的融合注意力机制的深度哈希车辆图像检索方法，其特征是：步骤(4)所述注意力机制模块分为主干分支和掩膜分支两个分支，其中：

主干分支执行特征提取，给定输入x，主干分支输出T(x)；

掩膜分支执行特征选择，使用自上而下和自下而上的结构学习相同大小的掩膜M(x)，输出的掩膜分支作为主干输出的控制门，注意力模块H(x)的输出为公式(1)：

H_i,c(x)＝M_i,c(x)*T_i,c(x) (1)

其中i覆盖到空间中所有位置，c是通道的索引，整个结构可以进行端到端的训练；在注意力掩膜分支中，输入特征的掩膜梯度为公式(2)：

其中θ为掩膜分支的参数，φ为主干分支参数，掩膜分支的取值范围为[0,1]，利用残差学习思想，公式(1)注意力模块的输出可以改写成(3)：

H_i,c(x)＝(1+M_i,c(x))*F_i,c(x) (3)

当注意力掩膜分支M(x)的取值接近为0时，H(x)将近似于原始特征F(x)；将注意力机制与残差网络相结合，提出注意力残差模块，在注意力残差模块中，F_i,c(x)表示深度卷积网络生成的特征，在注意力残差模块中，存在着三个超参数p,t,r，超参数p表示在分裂成主干分支和掩膜分支之前预处理残差单元的数量；t表示主干分支残差单元的数量；r表示掩膜分支中相邻池化层之间的残差单元数量。

3.根据权利要求2所述的融合注意力机制的深度哈希车辆图像检索方法，其特征是：所述注意力掩膜分支残差单元通道数与对应主干分支的通道数相同。

4.根据权利要求1所述的融合注意力机制的深度哈希车辆图像检索方法，其特征是：步骤(5)所述的特征提取包括两个面：一个是对用户上传的查询图片进行特征提取，另一个是对车辆图片数据库进行特征提取构建车辆图像特征数据库。

5.根据权利要求1所述的融合注意力机制的深度哈希车辆图像检索方法，其特征是：步骤(6)所述选取两种评价指标对实验结果进行评价，分别为平均累加增益(ACG)和归一化折扣累加增益(NDCG)；ACG(平均累加增益)表示查询图像和前n个检索到的图像之间共享标签的平均数量，给定查询图像I_q，前n个返回图像的ACG得分由公式(5)来计算，其中C(q,i)为I_q和I_i共享标签的数量：

NDCG(归一化折扣累加增益)是一种用来衡量车辆图像检索任务排序结果质量的评价指标；给定一个查询图像，在返回结果的图像列表中某一特定位置k处累加的DCG得分计算公式定义为：

其中，rel_i为相似度级别，通过两幅图像之间共有的标签数量来衡量，最大值为查询图像与数据库中图像的最大的相同标签数，最小值为0；NDCG在k处的计算得分如公式(7)所示，其中Z_k为DCG理想情况下的最大值，所以NDCG的取值范围为[0,1]：