CN116501908B

CN116501908B - 一种基于特征融合可学习图注意力网络的图像检索方法

Info

Publication number: CN116501908B
Application number: CN202310546775.8A
Authority: CN
Inventors: 王兴梅; 汪进利; 任伟; 胡晓宇; 杨东梅; 张万松
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2023-05-16
Filing date: 2023-05-16
Publication date: 2024-04-26
Anticipated expiration: 2043-05-16
Also published as: CN116501908A

Abstract

本发明公开了一种基于特征融合可学习图注意力网络的图像检索方法，具体包括以下步骤：获取原始图像数据和原始点云数据；基于所述原始图像数据和所述原始点云数据，获取图像特征向量和点云特征向量；构建基于特征融合可学习图注意力网络模型，利用所述图像特征向量和所述点云特征向量训练所述特征融合可学习图注意力网络模型；利用所述基于特征融合可学习图注意力网络模型进行图像检索，完成基于特征融合课学习图注意力网络的图像检索。本发明提出的基于特征融合可学习图注意力网络的图像检索方法，在识别精度、任务适应性和抗噪鲁棒性上有较好的表现，具有一定的有效性。

Description

一种基于特征融合可学习图注意力网络的图像检索方法

技术领域

本发明属于图像检索技术领域，尤其涉及一种基于特征融合可学习图注意力网络的图像检索方法。

背景技术

得益于移动设备的普及和互联网技术的提升，每天通过互联网传输的图像数据数量也在飞速增长。而如何利用计算机高效地从图像中提取有效的视觉信息，已逐渐成为大数据时代下图像处理的研究热点。不过依然存在许多问题，一方面现有的图像检索算法往往由于硬件设备的限制每次仅能使用少部分数据参与训练。另一方面，图像数据虽然包含了丰富的颜色、纹理与形状信息但缺少了必要的深度信息。因此，国内外学者对图像检索进行了深入的分析研究，取得了相关突破。其中在已有的文献中最著名和效果的图像检索方法主要包括：跨批次内存嵌入学习；深度局部与全局特征融合在图像搜索中的应用；激光雷达和单目图像融合的场所识别技术；深度正交融合局部和全局特征的单阶段图像检索。

图注意力网络是一种可以学习到图结构中节点重要性的机制，主要用于图神经网络中。它通过对节点之间的关系进行建模，对节点的特征进行加权汇聚，从而实现对节点的重要程度的评估。图注意力网络不依赖固定的图数据结构，且可以每次根据相邻顶点的特征向量动态分配权重。在已有的文献中，最著名的图注意力机制方法主要包括：用于图分类的端到端深度学习架构；关于视觉问答的关系感知图注意力网络；一种面向OSN的多方面图注意力网络模型的信任评估方法。

现有的图像检索方法主要依赖于图像数据进行训练和检索，而随着自动驾驶技术的普及，单一的图像数据表达的信息可能因为距离的原因而导致实际不同大小的物体在图像数据中呈现相同的大小，难以满足实际的场景需求。

发明内容

本发明的目的在于提供一种能更好的提高图像检索精度、任务适应性和抗噪鲁棒性的基于特征融合可学习图注意力网络的图像检索方法。

为实现上述目的，本发明提供了一种基于特征融合可学习图注意力网络的图像检索方法，具体包括以下步骤：

获取原始图像数据和原始点云数据；

基于所述原始图像数据和所述原始点云数据，获取图像特征向量和点云特征向量；

构建基于特征融合可学习图注意力网络模型，利用所述图像特征向量和所述点云特征向量训练所述特征融合可学习图注意力网络模型；

利用所述基于特征融合可学习图注意力网络模型进行图像检索，完成基于特征融合课学习图注意力网络的图像检索。

可选的，基于所述原始图像数据，获取所述图像特征向量包括：

对所述原始图像数据进行预处理，获取预处理后的图像；

利用特征提取网络对所述预处理后的图像进行特征提取，获取高维特征图；

对所述高维特征图进行池化和白化操作，获取所述图像特征向量。

可选的，对所述原始图像数据进行预处理，获取所述预处理后的图像包括：

对所述原始图像数据进行随机剪裁、随机旋转和随机反转操作，获取所述预处理后的图像。

可选的，基于所述原始点云数据，获取所述点云特征向量包括：

对所述原始点云数据进行随机采样，获取处理后的点云数据；

利用PointNetVLAD网络对所述处理后的点云数据进行处理，获取所述点云特征向量。

可选的，利用所述PointNetVLAD网络对所述处理后的点云数据进行处理，获取所述点云特征向量包括：

所述PointNetVLAD网络包括PointNet、NetVLAD与全连接层；

将所述处理后的点云数据输入所述PointNetVLAD网络，基于所述PointNet对所述原始点云数据进行采样，获取点云特征图；

基于所述NetVLAD对所述点云特征图进行特征提取，获取点云特征向量；

将所述点云特征向量输入所述全连接层进行降维处理，获取所述点云特征向量。

可选的，构建所述基于特征融合可学习图注意力网络模型，利用所述图像特征向量和所述点云特征向量训练所述特征融合可学习图注意力网络模型包括：

所述图像特征向量和所述点云特征向量进行训练时，基于可学习图注意力网络获取图像损失和点云损失；

基于多尺度空间卷积模块将所述图像特征向量和所述点云特征向量进行融合，获取融合特征向量；

基于所述融合特征向量利用一维路径聚合网络进行融合处理，获取最终融合特征向量后，基于所述原始图像数据、所述原始点云数据和所述可学习图注意力网络，获取损失函数；

将所述图像损失、所述点云损失和所述损失函数加和并结合软标签策略，获取总的损失函数，构建所述基于特征融合可学习图注意力网络模型。

可选的，基于所述多尺度空间卷积模块将所述图像特征向量和所述点云特征向量进行融合，获取所述融合特征向量包括：

将所述图像特征向量和所述点云特征向量输入所述多尺度空间卷积模块，利用多尺度卷积核进行卷积处理，获取所述多尺度卷积核处理后的特征向量；

将所述多尺度卷积核处理后的特征向量、所述图像特征向量和所述点云特征向量进行拼接，获取第一拼接后的特征向量；

利用空洞分离卷积层对所述第一拼接后的特征向量进行卷积处理，获取所述空洞分离卷积层处理后的特征向量；

将所述第一拼接后的特征向量和所述空洞分离卷积层处理后的特征向量进行拼接，并基于一维最大池化层进行降维，获取所述融合特征向量。

可选的，基于所述一维路径聚合网络对所述融合特征向量进行融合，获取所述最终融合特征向量包括：

将所述融合特征向量输入所述一维路径聚合网络，所述融合特征向量包括低维特征向量、中间层特征向量和高维特征向量；

所述低维特征向量基于一维卷积层调整通道数并进行上采样，将上采样后的特征向量与所述中间层特征向量加和完成拼接操作，获取拼接后的中间层特征向量；

基于所述一维卷积层调整所述拼接后的中间层特征向量的维度并进行上采样，将所述拼接后的中间层特征向量和所述高维特征向量进行拼接，获取拼接后的高维特征向量；

所述低维特征向量通过上采样与所述拼接后的高维特征向量进行拼接，基于所述一维卷积层获取所述最终融合特征向量。

可选的，利用所述基于特征融合可学习图注意力网络模型进行图像检索，完成所述基于特征融合课学习图注意力网络的图像检索包括：

将所述原始图像数据和所述原始点云数据输入所述基于特征融合可学习图注意力网络模型，获取对应的融合特征向量；

基于所述对应的融合特征向量利用相似性度量进行图像检索，获取所述图像检索结果，完成所述基于特征融合课学习图注意力网络的图像检索。

本发明具有以下有益效果：图像检索模型在训练时旨在缩小相同类别样本之间的距离，扩大不同类别样本之间的距离，因此模型需要利用每次迭代中载入的数据构建足够多的正负样本。但由于GPU性能的限制，在训练时每次迭代可利用的数据十分有限，比如每次的训练数据占数据集的比例不足千分之一。这种有限的输入会导致模型仅能构建出少量且缺乏多样性的样本对，从而影响模型的检索效果与泛化性，且以往的图像检索方法主要依赖于图像数据进行训练和检索，而随着自动驾驶技术的普及，单一的图像数据表达的信息不足以满足实际的场景需求。图注意力网络可以充分利用相邻节点之间的关系，通过注意力机制动态的分配权重且不依赖固定的图数据结构，有助于图像检索模型挖掘每一批次样本中的正负样本关系，同时融合点云特征数据补充图像数据缺失的深度信息，本发明提出基于特征融合可学习图注意力网络的图像检索方法；针对图像数据缺失深度信息的问题，本发明提出构建多尺度空洞卷积模块，通过充分融合图像特征向量与点云特征向量，利用点云数据弥补图像数据中缺失的深度信息，提升图像特征向量与点云特征向量融合后特征的可解释性，同时提高模型的计算速度；针对高维特征向量与低维特征向量缺乏关联的问题，本发明提出构建一维路径聚合网络，通过建立高维特征与低维特征之间的关联，帮助模型更好的融合不同感受野下的特征信息；针对自动驾驶数据集中数据连续采样的特点，本发明提出构建软标签策略，通过采集区域的重叠比例重新定义两数据间的标签，降低模型训练时的噪声，提高模型的性能。本发明提出的基于特征融合可学习图注意力网络的图像检索方法，在识别精度、任务适应性和抗噪鲁棒性上有较好的表现，具有一定的有效性。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本发明实施例一种基于特征融合可学习图注意力网络的图像检索方法的流程示意图；

图2为本发明实施例提出的图像特征提取网络的结构图；

图3为本发明实施例提出的输入变换结构图；

图4为本发明实施例提出的点云特征提取网络的结构图；

图5为本发明实施例提出的FFLDGA-Net模型结构图；

图6为本发明实施例提出的多尺度空洞卷积模块结构图；

图7为本发明实施例提出的一维路径聚合网络结构图；

图8为本发明实施例提出的软标签策略结构图；

图9为本发明实施例提出的图像数据模型、点云数据模型和FFLDGA-Net给出的正确首个预测结果图；

图10为本发明实施例提出的图像数据模型、点云数据模型和FFLDGA-Net给出的错误首个预测结果图；

图11为本发明实施例提出的FFLDGA-Net对模型硬负样本挖掘能力的影响结果图；

图12为本发明实施例提出的采用添加FFLDGA-Net的ROADMAP方法的平均训练损失结果图；

图13为本发明实施例提出的添加FFLDGA-Net的对比损失方法平均训练损失结果图；

图14为本发明实施例提出的添加FFLDGA-Net的SmoothAP方法平均训练损失结果图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

如图1所示，本实施例为了取得更好的图像检索效果，提供一种基于特征融合可学习图注意力网络的图像检索方法，即原始图像数据通过图像特征提取网络提取具有颜色和纹理信息的图像特征向量，原始点云数据通过点云特征提取网络提取具有物体深度信息的点云特征向量；为了解决图像数据缺失深度信息的问题，提出构建FFLDGA-Net模型。FFLDGA-Net由多尺度空洞卷积模块、一维路径聚合网络与软标签策略构成。多尺度空洞卷积模块能够充分融合图像特征向量与点云特征向量，利用点云数据弥补图像数据中缺失的深度信息，提升图像特征向量与点云特征向量融合后特征的可解释性，同时提高模型的计算速度；一维路径聚合网络能够建立高维特征与低维特征之间的关联，帮助模型更好的融合不同感受野下的特征信息。依据实验中自动驾驶数据集的特点，FFLDGA-Net利用软标签策略更加精准的度量样本数据之间的关系，降低模型在训练时的噪声。将图像数据与点云数据通过FFLDGA-Net提取得到对应的融合特征向量，返回距离最近的特征向量对应数据作为检索结果，最终完成图像检索任务。具体步骤如下：

S1、对原始图像数据与点云数据进行特征提取；

S101、对原始图像数据利用图像特征提取网络提取具有颜色与纹理信息的图像特征向量；

如图2所示，实施例从数据集中选出一批数据(mini-batch)作为输入图像，对于输入图像首先进行预处理，预处理包括随机裁剪、随机旋转与随机翻转操作，将预处理后的图像通过特征提取网络进行特征提取，常用ResNet与DeiT作为特征提取网络。ResNet通过构建残差结构有效解决了梯度消失、梯度爆炸与退化问题。输入的特征图x先经过两层卷积层得到输出F(x)，残差结构保证输出F(x)的维度与输入维度一致，且在卷积层后令输出特征图与输入特征图直接相加得到H(x)＝F(x)+x，残差结构直接拟合了卷积层中潜在的恒等变换H(x)＝x，令后续的卷积层近似残差函数F(x)＝H(x)-x，若恒等映射是最优的则卷积层的权重将置于0。残差结构的激活函数为修正线性单元(Rectified Linear Unit，ReLU)，其公式为：

f(x)＝max(x,0)

其中，F(x)表示通过卷积后的特征图，H(x)表示下一层的特征图，f(x)表示修正线性单元。

从式中可以看出，ReLU激活函数保留了神经网络的正向输出而抑制了负输出，保证了网络的非线性变换，相比于Sigmoid与tanh激活函数，ReLU激活函数的梯度为定值，加速了模型的收敛。残差结构及不引入复杂的计算也没有增加额外的参数，有效的缓解了退化问题。兼顾考虑图像检索性能与速度的前提下选择ResNet50作为特征提取网络。

DeiT采用了纯注意力机制的网络架构而并未使用任何CNN结构。DeiT是在ViT(Vision Transformer)的基础上做了改进。而ViT是首个在ImageNet数据集上表现达到领先水平的非CNN网络架构。ViT首先将输入的图像都分解为M个固定大小(如16*16)的块，随后将M个块都线性映射到M个向量中，并且额外添加上CLS向量得到M+1个向量，然后将位置编码添加到这M+1个向量中，添加方式为将位置信息直接与M+1个向量加和，最后将这些向量依次通过多个Transformer Encoder模块得到维度不变的输出，此时CLS向量已经获得了整张图像的关键特征信息，在进行下游任务(如图像分类)时，仅需提取对应的CLS向量，再通过全连接层与Softmax激活函数，便可以得到图像的分类结果。在图像检索任务中同样可以将CLS向量作为整张图像的特征向量。然而ViT在训练时使用了约3亿张图片的私有图像数据集JFT-300M，且当训练数据不足时，ViT的准确率将大打折扣。DeiT引入了蒸馏的策略，仅通过三天训练便可在ImageNet数据集上取得更好的实验效果。DeiT通过教师模型训练出一个新的学生模型，学生模型通过真实标签与教师模型的输出计算损失。DeiT在训练时添加了额外的Distillation向量，其总的计算损失L_global可以表示为：

其中，L_CLS表示分类损失，L_Teacher表示教师模型损失，Ψ(·)表示Softmax激活函数，Z_s表示学生模型的输出，y_t表示教师模型的输出，y表示标签值。在保证图像检索速度与性能选择DeiT-S作为特征提取网络。

随后将高维特征图通过GeM池化(广义平均池化)与白化操作得到当前mini-batch图像对应的特征向量，GeM池化可以看作平均池化与最大池化的推广，其公式为：

其中，表示输出向量，R⁽ⁿ⁾表示每个通道对应特征的维度，n表示特征图的通道数，m表示某一具体通道，/>表示当前通道对应特征向量的值，p表示超参数，当p≥1时，p值越大GeM池化层越专注于特征图中的极值，p值越小GeM池化层会更融合特征图的全局信息；当p＝1时，GeM池化将变为平均池化；当p→∞时，GeM池化将变为最大池化，因此GeM池化在专注于图像纹理信息的同时兼顾了特征图中的环境信息。

白化操作旨在减少高维特征中的冗余信息并将各个特征转换到相同的尺度下，同时白化操作降低了特征向量的维度，减少了模型的参数并减轻了计算压力。白化操作通过一层带有偏置项的全连接层与l₂-norm实现。l₂-norm也称l₂正则化严厉惩罚了数值大的向量值，可以防止模型过拟合。通过白化操作后最终生成了当前批次图像对应的特征向量。

S102、对原始点云数据利用点云特征提取网络提取具有物体深度信息的点云特征向量；

如图4所示，为了获取同一时刻相同位置的图像数据与点云数据，需要配置不同的数据采集设备，点云数据常通过激光雷达设备获取。点云数据则采用PointNetVLAD获取用于图像检索的点云特征向量。

PointNetVLAD由三部分构成，分别为PointNet、NetVLAD与全连接层。由于物体的表面的材质与粗糙度的差异，不同位置的点云数据并不完全相同，在PointNetVLAD中随机采样4096个样本点作为输入。相同的物体由于角度不同，其对应的点云数据也不相同，为了模型能够识别相同物体由于平移或旋转而导致的输入不同，PointNetVLAD通过输入变换学习到一个最有利于模型学习的映射变换。输入的点云数据先通过三层卷积层用于提取数据中的平移与旋转信息，设输入数据X的维度为[B,4096,3]，B为数据批次的大小，4096为采样的点云个数，3为每个点云数据对应的位置信息XYZ。将输入数据扩展在dim＝1处扩展后经过三层卷积层可以表示为：

F(X)＝Conv3(Conv2(Conv1(X)))

其中，F(X)表示输出数据，Conv3表示第三个卷积层，Conv2表示第二个卷积层，Conv1表示第一个卷积层，X表示输入数据。。

输出F(X)的维度为[B,1024,4096,3]，将F(X)经过全局的最大池化层获取数据全局的平移与旋转信息，全局最大池化G(X)可以表示为：

G(X)＝MaxPool(F(X))

输出G(X)的维度为[B,1024,1,1]，将G(X)的维度调整为[B,1024]后依次通过三层全连接层进行降维，此时得到输出H(X)为：

H(X)＝FC3(FC2(FC1(G(F(x)))))

其中，H(X)表示输出数据，FC3表示第三个全连接层，FC2表示第二个全连接层，FC1表示第一个全连接层。

输出H(X)的维度为[B,9]，此时H(X)已经包含了可学习的映射变换，将H(X的维度调整为[B,3,3]后与输入数据做矩阵乘法得到最后的输出，如图3所示。

输出的数据先经过两层权重共享的全连接层扩展了数据的维度，使得模型能够充分提取数据中的特征信息，为了减少计算的复杂性，在实验中利用1*1卷积核大小的卷积层替代权重共享的全连接层，随后数据将通过特征变换进一步提取特征，数据变换与输入变换的网络结构相同仅输入数据的维度不同，然后再次通过三层权重共享的全连接层扩展数据维度，得到了包含了足够特征信息的特征向量T(X)。

由于特征向量T(X)的维度很高，不利于模型的计算，因此在图像检索中常采用VLAD方法降低T(X)的维度，设点云数据特征图维度为N×D，则对全部的特征做K-means聚类，获得K个聚类中心C_k，将点云数据特征图映射成维度为K×D的特征图，其具体过程为：

其中，V(j,k)表示输出特征向量，j表示当前向量的某一维度，k表示某一向量，N表示向量个数，x_i(j)为第i个特征向量中第j维度的值，c_k(j)为第k个聚类中心第j维度的值，a_k(x_i)表示特征向量x_i属于哪个聚类中心，即如果聚类中心c_k距离x_i最近则a_k(x_i)＝1，否则a_k(x_i)＝0。通过计算N×D维的特征向量被分配给K×D个聚类中心，完成了特征向量的降维。上述算法中a_k(x_i)为不可导的符号函数，无法实现反向传播，因此在本文中采用可导的NetVLAD方法，NetVLAD采用了可导的权重函数替换掉了原有的符号函数a_k(x_i)，其具体表示为：

其中，表示输入向量，k'表示某一聚类中心，c_k'表示某一聚类中心对应特征向量，特征向量x_i根据与聚类中心的距离分配权重，的值[0，1]之间并保证将最大的权重分配给最近的聚类中心，α为控制着权重随距离衰减的超参数，当α→∞时，/>将退化为a_k(x_i)。上式可以进一步化简为：

其中，表示线性映射，b_k'表示偏置量，T表示转置，向量w_k＝2αc_k，标量b_k＝-α||c_k||²，NetVLAD的过程V(j,k)可以被表示为：

其中，w_k、b_k与c_k都是可学习的参数。相比于原始的VLAD，NetVLAD增加了两个独立的参数w_k与b_k并具有更大的灵活性。上式可以被看作为Softmax函数，因此NetVLAD在是实现时可以分为两步，首先将输入[B,H,D]作为N×D大小的点云特征图，通过1*1卷积核的卷积层产生输出通过Softmax函数获得特征向量的权重分配；随后按照权重分配加权聚合得到K×D维特征图，将特征图做归一化后得到NetVLAD的输出特征向量。输出的特征向量还需通过全连接层降低维度，缓解模型的计算压力，并通过l₂正则化输出最终的点云特征向量。

S2、提出构建基于特征融合可学习图注意力网络(Feature Fusion LearnableDescriptor Graph Attention Network，FFLDGA-Net)模型；

利用图像特征提取网络与点云特征提取网络对原始数据进行特征提取，并利用基于可学习特征图注意力网络(Learnable Descriptor Graph Attention Network，LDGA-Net)构建出包含更多硬负样本的新特征向量，并计算损失；

利用图像数据先经过预处理与图像特征提取网络得到对应的图像特征向量。图像特征向量在训练时先通过LDGA-Net与对应的图片数据构建正负样本对并计算图像损失，记为L_fig；同理点云数据先通过随机采样与点云特征提取网络得到对应的点云特征向量。点云特征向量在训练时通过LDGA-Net与对应的点云数据构建正负样本对并计算点云损失，记为L_point。而图像特征数据与点云特征数据将共同作为多尺度空洞卷积网络的输入，充分融合图像与点云特征，随后经过一维路径聚合网络充分挖掘各个尺度下的特征信息得到最终的融合特征向量，融合特征向量将分为两个部分计算损失，其中一个分支将根据图像与点云数据构建正负样本对计算损失，记为L_ff1，另一个分支将通过LDGA-Net聚合相邻顶点的特征信息，构建正负样本对计算损失，记为L_ff2。将上述损失函数加和并结合软标签策略，可以计算得到总的损失函数L_total，具体为：

L_total＝(1-γ)(L_ff1+L_ff2)+γ(τ²L_fig+L_point)

其中，γ与τ均为超参数，γ用于控制融合前与融合后的损失比例，τ用于控制融合前的损失输入比例。图5是本发明提出的FFLDGA-Net模型结构图。下面将分别具体介绍多尺度空洞卷积模块、一维路径聚合网络与软标签策略。

多尺度空洞卷积模块：

利用多尺度空洞卷积模块设计不同大小的卷积核在多个尺度融合物体的特征信息，提升的模型的融合性能，同时设计空洞分离卷积层，分离各个结果之间的关联，使得特征向量当前位置专注于网格效应内的特定位置；

将图像特征向量与点云特征向量进行特征融合得到融合特征向量，融合特征向量包含了当前物体的色彩、纹理与深度等信息，有效弥补了图像数据缺失的深度信息，但由于图像数据与点云数据的构造不同，简单的融合方式无法充分获取对应的特征信息，导致检索效果变差，提出构建多尺度空洞卷积模块，其能够充分融合图像特征向量与点云特征向量，增加特征的可解释性，提高融合性能。

如图6所示，输入的图像点云特征向量与点云特征向量首先通过卷积核大小为1的一维卷积层，融合信息的同时调整了特征的维度，随后，将输出的特征向量依次通过三层卷积核大小分别为5、9与13的一维卷积层，分别在不同的尺度融合物体的特征信息，将输出的特征向量与原特征向量在通道维度上进行拼接，以便模块可以整合这些特征信息。输出的特征向量通过卷积核大小为1的一维卷积层再次调整维度后，同样分为三个分支，分别通过扩张率分别为4、16与64的空洞分离卷积层，使得特征向量当前位置专注于网格效应内的其他对应位置，将上述过程重复三次得到三组特征维度依次减半的特征向量。为了进一步增加各个维度之间的独立性并减轻模块的计算负担，结合深度分离卷积的思想，空洞分离卷积层中的每个通道都是单独计算完成的，输出的特征向量在通道维度上拼接并通过一维最大池化层进行降维。通过多尺度空洞卷积模块将特征向量充分融合，补充了额外的深度信息，提升了模型的可解释性。

一维路径聚合网络：

利用一维路径聚合网络建立上采样建立高维特征与低维特征之间的联系，充分捕捉不同感受野下的特征信息；

通过多尺度空洞卷积模块得到的三组特征向量，随着维度的降低，特征向量包含了更多深层次的信息。这些信息对于图像检索模型同样重要，通过构建一维路径聚合网络建立高维特征与低维特征之间的联系，充分捕捉不同感受野下的特征信息。

如图7所示，设批次大小为B，输入的三组特征向量的维度依次为[B,C₁,N]、[B,C₂,2N]与[B,C₃,4N]，维度最低的特征向量组首先通过一维卷积层调整通道数为C₂，随后通过上采样将维度全部调整为2N，其过程可以表示为：

其中，Y'₂表示输出特征向量，Y₁表示最低维特征向量，Y₂表示中间层特征向量，UpSample(·)表示上采样操作，采用最临近插值法。将上采样后的特征向量与中间维度的特征直接加和完成拼接操作，通过一维卷积调整维度后，进行上采样与拼接操作将拼接后的中间层特征向量与高维特征向量融合，然后低维特征向量通过上采样与高维特征向量进行拼接，通过一维卷积层后生成最终的融合特征向量，融合后的特征向量保留数据细节的同时融合了数据的纹理背景等信息。

软标签策略：

利用软标签策略，通过数据采集中带有的GPS坐标计算数据采样距离，计算重叠比例作为软标签，对不同的数据间分配不同的软标签，降低模型训练时的噪声，提高模型的性能；

自动驾驶数据集中的数据是车辆在行驶中采样生成的连续数据，任意两组数据由于拍摄角度、光线与位置等原因都不相同，但它们之间又包含着共同的物体，仅根据部分相同的特征将两组数据的相似性度量优化为1会导致模型产生无效训练。利用软标签策略将二元标签连续化，通过数据采集中带有的GPS坐标，计算数据采样距离，进而计算重叠比例，可以有效解决上述问题。定义数据采集设备的有效距离为60m，采集的区域近似为扇形区域并忽略转弯等因素，将采集区域的重叠比例定义为两数据间的软标签。

如图8所示，设d₁为两次数据采样之间的距离，h为采集设备的有效距离，d₂为重叠区域扇形的半径，则重叠比例S_overlap可以表示为：

其中，α为弧长所对的圆心角。在数据集中通常仅给出采样点的经纬度坐标，实验中通过半正矢公式计算两采样点之间的距离其具体过程为：

其中，R为地球半径，通常取值为6371km，与/>分别为两采样点的维度值，Δλ为两采样点的维度差，harversin(·)具体为：

harversin(θ)＝sin²(θ)＝(1-cos(θ))/2

通过上式可以计算出两次数据采样之间的距离d₁，进而计算出重叠比例，将重叠比例记为两样本之间的软标签，当重叠比例小于0.3时则认为两组数据的相同特征不足，则将标签置为0。通过软标签策略可以降低模型训练时的噪声，提高模型的性能。

S3、完成基于特征融合可学习图注意力网络的图像检索方法；

将训练好的基于FFLDGA-Net的图像模型提取图像数据与点云数据得到对应的融合特征向量，通过相似性度量，返回与当前融合特征向量距离最近的融合向量对应数据作为检索结果，最终完成图像检索任务。

为验证本发明提出的一种基于FFLDGA-Net模型的图像检索方法的有效性，给出利用自动驾驶数据集KITTI与NUSCENES构建的图像与点云数据对应的图像检索数据集上的在检索精度与收敛速度的实验。表1给出了实验数据的构成。实验数据集的样本依标签随机打乱均分为训练集与测试集。本发明采用在k处的召回率R@K作为模型的评价指标，对于一张查询图像，在数据库中查询到最相似的前k张图片中有与其类别相同的图像时，R@K的值为1，否则R@K的值为0，在测试中通过全部查询图片的平均值计算得到模型的R@K。

表1

数据集	场景	数据数量	场景(标签)数量	场景数据比
					KITTI	城市	798	133	6.0
KITTI	住宅	2，766	461	6.0
					KITTI	道路	642	107	6.0
KITTI	校园	63	9	6.0
					NUSCENES	-	2，820	564	5.0

实验采用了对比损失、三元组损失、对比损失、三元组损失、BlackBoxAP、SmoothAP、metric与ROADMAP方法，实验将R@1、R@5、R@10与R@20作为评价指标，表2给出了各个方法的实验结果，其中，“-F”表示方法仅采用图像数据进行实验，“-P”表示方法仅采用点云数据进行实验，“+”表示方法采用FFLDGA-Net进行实验，“*”表示模型采用DeiT作为图像特征提取网络，其余模型采用ResNet50作为图像特征提取网络。

表2

从表2中可知，采用FFLDGA-Net融合图像特征向量与点云特征向量后，模型的性能得到了极大的提升，对比损失与三元组损失相较于单一类型数据在分别提升3.2％与4.1％，在BlackBoxAP、SmoothAP和Metric中分别提升2.7％、4.5％与4.2％，这说明图像数据与点云数据融合后能够提取更多的数据特征，且FFLDGA-Net方法同样适用于多种不同类型的方法。ROADMAP方法同样可以取得最好的实验效果，采用ResNet50作为图像特征提取网络时为70.1％，超过了单一类型数据方法3.6％，DeiT同样可以提升至70.7％。这说明FFLDGA-Net充分融合了图像特征与点云特征，利用点云数据补充了图像数据中缺失的深度信息，提升了图像检索的性能。

作为定性评估，如图9-10所示，是采用FFLDGA-Net的模型与单一数据模型的结果，为方便展示实验采用ROADMAP方法且所有的点云图像查询结果将转变为对应的图像数据，当输入最左侧查询数据(点云/图像数据)时，在数据库中查询最相似的数据对应的结果，实线边框表示与查询数据是相同标签(查询正确)，虚线边框为不同标签(查询错误)。图9为三个模型都给出正确首个预测的结果，图10为三个模型都给出错误首个预测的结果，从图中可以看出，三个模型中，结合了FFLDGA-Net的模型能够利用图像数据获取物体的颜色与纹理等信息，利用点云数据得到物体的深度信息，表现效果最好。

表3给出了多尺度空洞卷积模块对实验结果的影响，为了保证移除多尺度空洞卷积模块后模型仍能使用后续网络，实验中将其替换为三层全连接层，每层全连接层的维度与一维路径聚合网络的输入维度相同，“-Conv”表示FFLDGA-Net移除了多尺度空洞卷积模块，从表中可知，在对比损失与三元组损失中加入多尺度空洞卷积模块能够使得模型的R@1分别提升0.2％与0.4％，在SmoothAP与ROADMAP中加入多尺度空洞卷积模块能够使得模型的R@1分别提升0.4％与0.3％。多尺度空洞卷积模块提升了图像特征向量与点云特征向量的融合效果，并且具有一定的泛化能力。表4给出了空洞分离卷积层对于实验结果的影响，其中“-Conv”表示将空洞分离卷积层替换为卷积核大小的相同的卷积，实验证明空洞分离卷积层利用网格效应与各卷积核的分离运算，在加速模型推理的同时，有效分离数据中的各种特征信息，增强各个维度之间的独立性。表5给出了软标签策略对于实验结果的影响，其中“-soft”表示实验采用软标签策略，实验表明该策略能够降低模型在训练时的噪声，提升模型的性能。

表3

表4

方法	R@1	计算时间增加
			Contrastive+-Conv	49.6	+5.7ms
Contrastive+	49.7	-
			Triplet+-Conv	52.4	+6.2ms
Triplet+	52.6	-
			SmoothAP+-Conv	65.1	+6.1ms
SmoothAP+	65.3	-
			ROADMAP+-Conv	68.3	+5.9ms
ROADMAP+	68.4	-

表5

方法	R@1
		Contrastive+	49.6
Contrastive+-soft	49.7
		Triplet+	52.3
Triplet+-soft	52.6
		SmoothAP+	65.2
SmoothAP+-soft	65.3
		ROADMAP+	68.1
ROADMAP+-soft	68.4

融合特征向量既包含了图像数据中的颜色与纹理信息，也包含了点云数据中补充的物体深度信息，其维度影响着包含信息的容量，表6γ对于实验结果的影响给出了不同大小的融合特征向量对于结果的影响，实验中保持了图像特征向量、点云特征向量与融合特征向量维度相同，从表中可知，当融合特征向量的维度为1024时模型取得了最好的效果。批次大小对于实验的结果同样重要，批次越大方便模型构建更多的正负样本对，加速模型训练，表7τ对于实验结果的影响给出了不同批次大小的实验结果，当批次大小为128时模型取得最好的结果。

表6

表7

如图11所示，“+”表示采用FFLDGA-Net进行实验，“-F”表示仅采用图像数据进行实验，“-P”表示仅采用点云数据进行实验，实验每10步统计有效负样本对的平均值。从图11可知，利用FFLDGA-Net后，每个批次模型可以贡献13对以上的有效负样本对，而仅采用单一图像数据与点云数据的模型平均仅贡献9对有效负样本对且稳定性较差，影响模型的训练效果。FFLDGA-Net同样可以加速模型在训练时的收敛速度，如图12所示，从图中可知添加FFLDGA-Net后模型的平均训练损失会略高于单一数据的模型，这证明FFLDGA-Net挖掘出更多的有效样本贡献了更多的损失，加速了模型训练时的收敛速度。如图13-14所示，是采用添加FFLDGA-Net的对比损失方法与SmoothAP方法的平均训练损失结果图，其中图13为添加FFLDGA-Net的对比损失方法平均训练损失结果图，图14为添加FFLDGA-Net的SmoothAP方法平均训练损失结果图。图13-14同样证明，FFLDGA-Net能够挖掘出更多的有效样本，且具有很强的泛化性。

本发明提出的基于特征融合可学习图注意力网络的图像检索方法，在识别精度、任务适应性和抗噪鲁棒性上有较好的表现，具有一定的有效性。

以上所述，仅为本申请较佳的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应该以权利要求的保护范围为准。

Claims

1.一种基于特征融合可学习图注意力网络的图像检索方法，其特征在于，具体包括以下步骤：

获取原始图像数据和原始点云数据；

构建所述基于特征融合可学习图注意力网络模型，利用所述图像特征向量和所述点云特征向量训练所述特征融合可学习图注意力网络模型包括：

将所述图像损失、所述点云损失和所述损失函数加和并结合软标签策略，获取总的损失函数，构建所述基于特征融合可学习图注意力网络模型；

基于所述多尺度空间卷积模块将所述图像特征向量和所述点云特征向量进行融合，获取所述融合特征向量包括：

将所述第一拼接后的特征向量和所述空洞分离卷积层处理后的特征向量进行拼接，并基于一维最大池化层进行降维，获取所述融合特征向量；

基于所述一维路径聚合网络对所述融合特征向量进行融合，获取所述最终融合特征向量包括：

所述低维特征向量通过上采样与所述拼接后的高维特征向量进行拼接，基于所述一维卷积层获取所述最终融合特征向量；

利用所述基于特征融合可学习图注意力网络模型进行图像检索，完成基于特征融合可学习图注意力网络的图像检索。

2.如权利要求1所述的基于特征融合可学习图注意力网络的图像检索方法，其特征在于，基于所述原始图像数据，获取所述图像特征向量包括：

对所述原始图像数据进行预处理，获取预处理后的图像；

3.如权利要求2所述的基于特征融合可学习图注意力网络的图像检索方法，其特征在于，对所述原始图像数据进行预处理，获取所述预处理后的图像包括：

4.如权利要求1所述的基于特征融合可学习图注意力网络的图像检索方法，其特征在于，基于所述原始点云数据，获取所述点云特征向量包括：

5.如权利要求4所述的基于特征融合可学习图注意力网络的图像检索方法，其特征在于，利用所述PointNetVLAD网络对所述处理后的点云数据进行处理，获取所述点云特征向量包括：

所述PointNetVLAD网络包括PointNet、NetVLAD与全连接层；

6.如权利要求1所述的基于特征融合可学习图注意力网络的图像检索方法，其特征在于，利用所述基于特征融合可学习图注意力网络模型进行图像检索，完成所述基于特征融合课学习图注意力网络的图像检索包括：