CN116704171A

CN116704171A - 基于多尺度局部描述符聚合网络的跨视角跨模态地理定位方法

Info

Publication number: CN116704171A
Application number: CN202310233836.5A
Authority: CN
Inventors: 张秀伟; 张艳宁; 黄龙; 范文超; 尹翰林
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2023-03-13
Filing date: 2023-03-13
Publication date: 2023-09-05

Abstract

本发明涉及一种基于多尺度局部描述符聚合网络的跨视角跨模态地理定位方法，属于定位技术领域。设计了一种跨视角地理定位网络模型，首先，坐标注意力对输入特征图行列加权优化特征细节，特征压缩模块负责压缩特征图尺寸，去除冗余的通道信息，并压缩编码长度，多尺度注意力融合模块则将两个不同尺度的特征利用注意力加权后融合，提升了多尺度融合效果。针对三元组损失训练中后期小批量内缺少有价值的难样本导致训练停滞的问题，设计了一个跨批量难样本挖掘方法，根据当前网络状态从队列中挖掘最难的负样本，扩大了难样本挖掘范围，并实时更新队列描述符，使得网络可以更加关注卫星图像和街景图中难以区分的局部特征细节，提升最终的检索精度。

Description

基于多尺度局部描述符聚合网络的跨视角跨模态地理定位方法

技术领域

本发明属于地理定位技术领域，具体涉及一种基于多尺度局部描述符生成网络及跨批量难样本挖掘的跨视角地理定位方法。

背景技术

基于图像的地理定位是计算机视觉中十分重要的应用领域，它是将查询图像与带有地理标记的参考数据库图像进行匹配来确定查询图像地理位置的一种地理定位方法，是无GPS信号或GPS信号受干扰场景下的一种潜在的辅助定位方法。由于卫星图像覆盖区域广，同时采集方便，基于卫星-地面街景图匹配的跨视角地理定位成为基于图像地理定位的重要研究方向。该技术在自动驾驶，无人机导航，无人配送等领域有着重要的应用价值。

跨视角地理定位一般被定义为一个图像检索问题，传统方法往往采用SIFT或VLAD等传统图像描述子去为每一个图像去生成描述符，通过查询图像描述符和参考图像描述符的相似度去匹配检索图像。由于参考卫星图像和待查询地面图像之间巨大的视角差异，传统图像描述方法往往性能不佳。近年来，随着深度学习方法的快速发展和大规模跨视角地理定位数据集的出现，基于深度学习的跨视角地理定位方法逐渐成为研究的热点，深度度量学习方法利用深度网络去学习图像表征并构建一个度量空间，在度量空间中推近来自同一个地点的图像正对，拉远来自不同地点的图像负对，来使得查询图像能够通过相似度匹配到与其相对应的参考图像，实现地理定位。为了克服卫星图像和地面查询图像巨大的视角差异，提取更有鉴别力的图像特征来帮助检索，Shi在Spatial-aware featureaggregation for image based cross-view geo-localization[J].Advances in NeuralInformation Processing Systems,2019,32.中提出了极坐标变换方法来将参考卫星图像进行极坐标变换以减少卫星图像和地面图像的视角差异，并提出了一个空间感知特征聚合模块提取对全局空间位置差异鲁棒的全局描述符来克服视角差异。Cai和Guo在Ground-to-aerial image geo-localization with a hard exemplar reweighting triplet loss[C]Proceedings of the IEEE/CVF International Conference on ComputerVision.2019:8391-8400.中提出了一种新的批内重加权三重态损失，以强调硬范例在端到端训练中的积极作用，对具有距离修正因子的三元组进行修正逻辑回归。然后，设置相应锚样本的参考负距离，并通过将其与相应锚样本的难度进行比较，计算出三元组的相对权重，同时为了减少极端硬数据和不太有用的简单范例的影响，使用上界和下界约束修剪。尽管如此，现有技术仍有一定的局限性：①全局描述符虽然对视角差异鲁棒，但很难注意到细微的图像局部细节差异，很难实现更高精度的跨视角地理定位②目前的跨视角地理定位领域的难样本挖掘方法要么只侧重在小批量内部进行挖掘，受到批量大小的限制，在训练的中后期过程中由于小批量缺乏有价值的难样本而陷入停滞状态，要么则采用全局挖掘方法，在采样时进行难样本挖掘，更新样本过慢，无法实时的根据网络状态去筛选出真正有价值的难负样本。

发明内容

要解决的技术问题

为了避免现有技术的不足之处，本发明提供一种基于多尺度局部描述符聚合网络及跨批量难样本挖掘的跨视角跨模态地理定位方法。

技术方案

一种基于多尺度局部描述符聚合网络的跨视角跨模态地理定位方法，其特征在于步骤如下：

步骤1：图像预处理并输入网络

步骤1.1：对卫星图像S进行极坐标变换，并将其转换为与地面图像相同尺寸，得到S_polar；

步骤1.2：将极坐标卫星图像S_polar和地面图像G输入两个并行的类孪生VGG16主干网络的第四个块和第五个块分别提取高低层图像特征和/>

步骤2：将特征图输入局部多尺度特征注意力模块

步骤2.1：将和/>F_l ^g分别输入到特征压缩模块，即经过一个2×2最大池化和3×3卷积减少特征图尺寸，再经过一个1×1卷积减少冗余的通道信息，得到/>和/>

步骤2.2：将和/>沿通道方向拼接后，送入多尺度注意力融合模块学习到各自的空间权重后，再对进行/>和/>加权相加后得到最终的特征图F_s，将F_s展开拉成向量，即可得到最终的描述符D_s；/>和/>也按相同操作输入到另一个不共享权重的多尺度注意力融合模块，进行相同操作后，可得到D_g；

步骤3：进行批量内难样本挖掘

步骤3.1：进行批量内难样本挖掘，初始网络参数设为θ₀，网络训练损失函数采用软间隔加权三元组损失，训练初期只进行小批量内的难样本挖掘，设置四个难样本挖掘阶段，每个阶段的难样本挖掘比例不同，随着训练的深入，不断减少难样本挖掘比例；根据当前训练损失值的大小判断是否进入难样本挖掘的下一个阶段，每个阶段通过网络反向传播改变网络参数，四个阶段网络参数变化依次记为θ₀→θ₁→θ₂→θ₃→θ₄；

步骤4：实现跨批量难样本挖掘

步骤4.1：开辟两个队列Q_sat和Q_grd，Q_sat存储每个小批量生成的卫星描述符D_s和对应的图像类别标签L_s,Q_grd则存储每个小批量生成的地面描述符和对应的图像类别标签L_g；

步骤4.2：当最后一个批量内难样本挖掘阶段结束时，进行跨批量的难样本挖掘来更新此时的参数θ₄，此时每个小批量的样本生成的描述符D_s和D_g将会被存储进队列Q_sat和Q_grd；利用当前小批量内的正样本和锚样本描述符和队列中的所有负样本描述符计算相似度，据此为当前小批量内的每个正样本在队列中挖掘最难的负样本并获取对应的标签L_s和L_g，将对应的卫星和地面图像重新加载进网络作为负样本，生成新的描述符，与小批量内正样本和锚样本的描述符计算三元组损失；

步骤4.3：将重新加载进网络的负样本所生成的描述符放到对应队列Q_sat和Q_grd中，更新队列Q_sat和Q_grd；

步骤4.4：重复以上步骤，当队列满时，出队最早进队的描述符，更新队列Q_sat和Q_grd；

步骤4.5：按照以上步骤遍历训练数据集中所有图像，计算损失并反向传播，更新网络权重，得到最终的网络参数θ_f；

步骤5：进行推理测试

步骤5.1：利用训练得到的模型参数θ_f进行推理实现跨视角地理定位，将测试集中的查询图像和参考图像输入训练好的网络进行测试，得到查询图像描述符集合和参考图像描述符集合；

步骤5.2：为每一张查询图像按照其描述符寻找与其描述符最为相似的卫星图像描述符，并用卫星图像描述符的地理位置作为查询图像的地理位置实现地理定位。

本发明进一步的技术方案：步骤2.1中卷积步长均为1，2×2池化步长均为2，3×3卷积填充为1，1×1卷积填充为0。

一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述的方法。

一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现上述的方法。

有益效果

本发明提供的一种基于多尺度局部描述符聚合网络及跨批量难样本挖掘的跨视角跨模态地理定位方法，设计了一种高精度的跨视角地理定位网络模型EffGeoNet。首先，坐标注意力对输入特征图行列加权优化特征细节，特征压缩模块负责压缩特征图尺寸，去除冗余的通道信息，并压缩编码长度，多尺度注意力融合模块则将两个不同尺度的特征利用注意力加权后融合，提升了多尺度融合效果。此外，针对三元组损失训练中后期小批量内缺少有价值的难样本导致训练停滞的问题，本发明设计了一个跨批量难样本挖掘方法，根据当前网络状态从队列中挖掘最难的负样本，扩大了难样本挖掘范围，并实时更新队列描述符，使得网络可以更加关注卫星图像和街景图中难以区分的局部特征细节，提升最终的检索精度。

1、本发明可以提取显著的局部多尺度细节特征，获取更具区分性的跨视角图像特征。

2、本发明提出的跨批量难样本挖掘方法CBHER可以使难样本挖掘不受批量大小的限制，可以缓解训练中后期小批量内没有有价值的难样本而导致训练停滞的问题。

附图说明

附图仅用于示出具体实施例的目的，而并不认为是对本发明的限制，在整个附图中，相同的参考符号表示相同的部件。

图1是本发明实施例的网络结构图。

图2是本发明特征压缩模块和多尺度注意力融合模块结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图和实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。此外，下面描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

本发明提供了一种基于局部描述符聚合卷积网络的跨视角地理定位方法，通过设计新的基于局部描述符聚合融合多尺度特征的卷积网络架构用于跨视角地理定位领域。该匹配架构包含一个局部多尺度特征注意力模块(特征压缩模块和多尺度注意力融合模块两个子模块组成)以及一个跨批量实时难样本挖掘模块。特征压缩模块负责去除冗余的通道信息并压缩特征图尺寸，获取局部描述符，多尺度注意力融合模块负责按通道注意力加权融合两个不同尺度的局部描述符生成模块提取的特征信息。最后将特征图直接展开成向量获取最终的局部图像描述符。跨批量难样本挖掘方法CBHER则动态的从数据中获取当前锚样本所需的难负样本，挖掘时不受批量大小的限制。

包括如下步骤：

步骤1：图像预处理并输入网络

步骤1.1：对卫星图像S进行极坐标变换，并将其转换为与地面图像相同尺寸，得到S_polar，初步减少视角差异。

步骤1.2：将训练集中的极坐标卫星图像S_polar和地面图像G输入两个并行的类孪生VGG16主干网络的第四个块和第五个块分别提取高低层图像特征和/>(第四个块的特征图尺寸是第五个块的两倍，所以需要在第四个块上追加2×2池化，将其尺寸降为与第五个块相同)。注：从此处开始，以下操作分别独立地在两个类孪生网络分支并行进行，不共享权重，在计算损失之前无任何交互。

步骤2：将特征图输入局部多尺度特征注意力模块；

步骤2.1：再将和/>分别输入到并行的特征压缩模块中，减少特征图空间尺寸和冗余的通道，以便后面得到更短长度的描述符，提升检索性能。特征压缩模块首先是一个2×2池化操作减少空间尺寸，然后接一个3×3卷积来学习局部特征细节。最后接一个1×1卷积将通道数目减少至8，得到8通道的注意力图特征/>和/>

步骤2.2：最后将卫星图像多尺度特征输入到多尺度注意力融合模块中，融合两个不同尺度的特征。多尺度注意力融合模块首先将两个尺度的特征图直接相加，并据此来计算注意力权重。然后再接一个全局平均池化操作获取通道向量，将得到的向量接两个1×1卷积先减少通道至原来的1/k倍，再增加k倍通道数目，做通道压缩膨胀操作，中间加上批量正则化加Relu激活函数，再沿通道平分成两个向量，随后两个向量分别连接一个softmax函数转化为概率，得到/>和/>所对应的权重/>和/>将其加权相乘后即可得到网络的最终输出/>再将其拉平成向量即可得到网络最终输出的描述符D_s。地面图像分支按照相同操作输入到另一个不共享权重的多尺度注意力融合模块可得到D_g。

步骤3：进行小批量内难样本挖掘，为跨批量难样本挖掘做铺垫。本方法网络采用的损失函数为软间隔三元组损失函数。不采用难样本挖掘时的损失计算方法如下。首先，计算时将训练集中的地面图像和卫星图像按类别进行标记，假设训练集上有C类，则第i类的极坐标后卫星图像描述符记作地面图像描述符记作/>在一个大小为b的小批量内就有b对来自不同类别的地面-极坐标卫星图像对，选取每一对中的卫星图像描述符/>作为锚样本，则同一类别的地面图像描述符/>则为正样本，其他的来自另外b-1个类别的地面图像描述符/>则为负样本，选取地面图像描述符/>作为锚样本同上，则共有N＝2*b*(b-1)对由锚样本，正样本，负样本组成的三元组。下式中Anc,Neg,Pos代表三元组中的锚样本，正样本和负样本所对应的描述符，d为欧式距离。将一个小批量内的所有三元组分别计算下面的损失后求和平均即可得到当前批量的软间隔三元组损失值。

为了让网络学习到有价值的信息，所以我们需要减少一些过于简单的三元组，使其不参与反向传播，使得网络聚焦于有价值的三元组，这也是难样本挖掘的目的。

步骤3.1：因为如果一开始就学习过于难的样本，会使网络难以收敛，所以我们在跨批量难样本挖掘之前设置四个阶段的小批量内难样本挖掘，每个阶段的难样本挖掘比例r逐级递减，分别设为1，0.1，0.05，0.01，将计算三元组的数目减少为r*N，根据训练集上损失值的大小来动态的调整难样本挖掘的比例。初始网络参数设为θ₀，如果当前训练周期平均损失值小于0.001则进入下一个训练阶段，每个训练阶段只会按照损失值大小去挖掘每个批量内前top 100*r％个损失值最大的最难的三元组计算损失。逐级去减小难样本挖掘比例，使得挖掘的难样本不会过难，导致网络难以收敛。每个阶段通过网络反向传播改变网络参数，四个阶段网络参数变化依次记为θ₀→θ₁→θ₂→θ₃→θ₄。

步骤3.2：当最后一个小批量内难样本挖掘阶段损失值小于0.001时，进入跨批量难样本挖掘阶段。

步骤4：进行跨批量难样本挖掘；

步骤4.1：创建两个FIFO队列Q_sat和Q_grd，两者队列长度相同，记为m，用于存储卫星图像描述符和地面图像对应的描述符以及对应的图像类别标签。

步骤4.2：在每个训练周期，将每个小批量生成的卫星图像描述符可记作和地面图像描述符/>分别追加到对应队列Q_sat和Q_grd末尾(b为小批量大小)。

步骤4.3：将当前小批量内卫星图像生成的描述符与队列Q_grd中存储的地面描述符/>计算相似度，用矩阵操作优化运算即可得到相似度矩阵S＝X×Y^T(X为当前批量/>拼接成的b×d矩阵，Y为队列中描述符拼接成的m×d矩阵，(其中d为描述符长度，m为队列长度，b为小批量大小，可选d＝512，m＝500，d＝3)。小批量内地面图像生成的描述符/>与队列Q_sat中存储的卫星图像描述符/>的操作与上面相同，不再赘述。

步骤4.4：按照上述所求得的相似度矩阵S,在每一行中取最大值，最大值所在列即为和每行所对应卫星图像描述符最相似的负对地面图像所对应的描述符所在列，据此找到此描述符所对应的最难的负样本所对应标签。按照这种方法为当前批量内的每个地面图像描述符和卫星图像描述符/>分别作为锚样本在队列中找到其所对应的最难的负样本/>和/>

步骤4.5：在步骤4.4中找到难负样本和/>的标签后，可用标签从数据集中重新加载难负样本/>和/>进网络，获取最新状态的描述符/>和/>利用此难负样本描述符与当前批量中的相对应的锚样本和正样本/>和/>计算软间隔加权三元组损失。

步骤4.6：当队列满时出队最先进入队列的描述符，然后再将当前批量描述符入队。

步骤4.7：按照以上步骤遍历训练数据集中所有图像，计算损失并反向传播，更新网络权重，得到最终的网络权重θ_f。

步骤5：进行推理测试，利用训练得到的模型参数θ_f在测试集上进行推理实现跨视角地理定位；

步骤5.1：将卫星图像数据库D_sat中所有图像输入到训练好的网络得到描述符存储下来，得到参考图像描述符集合记为Ω_sat。从多个需要进行地理定位的用户手中获取查询图像，并统一存入查询图像集合D_grd，输入到训练好的网络得到描述符存储下来，得到查询图像描述符集合记为Ω_grd。

步骤5.2：将Ω_grd中的每一个查询图像描述符与Ω_sat中的每一个参考图像描述符计算相似度。为每个查询图像G_i∈D_grd找到和它相似度最大的卫星图像S_j∈D_sat。利用卫星图像S_j的位置作为G_i的地理位置，并输出作为地理定位的结果。同时可以为每张查询图像按相似度大小返回和查询图像最为相似的几张卫星图像，将其地理位置作为定位的辅助参考。

为了验证本方法的有效性，我们在CVUSA和CVACT数据集上并且与其他方法进行了对比。CVUSA数据集和CVACT数据集均包含35532对训练图像对、8884对测试图像对，每一对数据包含来自同一地点的卫星图像和街景图像。本实施例提出的网络与4种最新的跨视角地理定位方法，SAFA，DSM,L2LTR,TransGeo等网络进行对比。具体结果如下表所示。评估指标为图像检索领域常用的指标召回率(Recall)top 1,top5,top1％等。结合表1可以看出，本实施例网络EffGeoNet取得了最优结果并达到最高的Recall top 1(CVUSA上95.37％，CVACT上86.34％)，与第二好的方法相比，EffGeoNet将CVUSA上的Recall top 1的准确率提高了1.0％，CVACT上的Recall top 1的准确率提高了1.4％。

表1是本发明实施例中本发明方法和其他现有方法的测试结果对比表

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明公开的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。

Claims

1.一种基于多尺度局部描述符聚合网络的跨视角跨模态地理定位方法，其特征在于步骤如下：

步骤1：图像预处理并输入网络

步骤2：将特征图输入局部多尺度特征注意力模块

步骤2.1：将和/>分别输入到特征压缩模块，即经过一个2×2最大池化和3×3卷积减少特征图尺寸，再经过一个1×1卷积减少冗余的通道信息，得到/> 和

步骤3：进行批量内难样本挖掘

步骤4：实现跨批量难样本挖掘

步骤4.1：开辟两个队列Q_sat和Q_grd，Q_sat存储每个小批量生成的卫星描述符D_s和对应的图像类别标签L_s，Q_grd则存储每个小批量生成的地面描述符和对应的图像类别标签L_g；

步骤5：进行推理测试

2.根据权利要求1所述基于多尺度局部描述符聚合网络的跨视角跨模态地理定位方法，其特征在于：步骤2.1中卷积步长均为1，2×2池化步长均为2，3×3卷积填充为1，1×1卷积填充为0。

3.一种计算机系统，其特征在于包括：一个或多个处理器，计算机可读存储介质，用于存储一个或多个程序，其中，当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现权利要求1所述的方法。

4.一种计算机可读存储介质，其特征在于存储有计算机可执行指令，所述指令在被执行时用于实现权利要求1所述的方法。