CN115719455A - 一种地空地理定位方法 - Google Patents

一种地空地理定位方法 Download PDF

Info

Publication number
CN115719455A
CN115719455A CN202211712282.9A CN202211712282A CN115719455A CN 115719455 A CN115719455 A CN 115719455A CN 202211712282 A CN202211712282 A CN 202211712282A CN 115719455 A CN115719455 A CN 115719455A
Authority
CN
China
Prior art keywords
image
layer
matrix
convolution
satellite
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211712282.9A
Other languages
English (en)
Inventor
魏倩茹
赵鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Northwestern Polytechnical University
Original Assignee
Northwestern Polytechnical University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Northwestern Polytechnical University filed Critical Northwestern Polytechnical University
Priority to CN202211712282.9A priority Critical patent/CN115719455A/zh
Publication of CN115719455A publication Critical patent/CN115719455A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Processing (AREA)

Abstract

本发明公开了一种地空地理定位方法,其特征在于,包括:对地面图像和卫星图像的局部特征提取;将地面图像的局部特征传输到卫星图像域以实现特征对齐;使用三重损失函数来计算两者特征之间的差距并反向更新网络参数。本发明的方法将地面图像的局部特征传输到卫星图像域,提高交叉视图地理定位的准确度;该方法对于方向扰动具有鲁棒性。当地面图像没有指定北向时仍有良好的定位效果。

Description

一种地空地理定位方法
技术领域
本发明涉及跨域识别技术,具体涉及一种地空地理定位方法。
背景技术
目前,跨域识别所观察的图像信息来源于不同的摄像头下,由于每个摄像头自身的差异性,导致重识别具有几个特征。一是由于摄像头高低、拍摄方向的不同,不同目标拍摄出来的图像可能比同一目标在不同姿态下拍摄出来的图像在外观上更加相似。二是在实际拍摄中,由于清晰程度有限和拍摄角度限制,很难获取到正面的信息,仅能利用外观特征进行判断。三是在不同摄像头下,同一个目标由于受到光线、角度和姿态等因素的影响,其所表现出来的外观特征也是不一样的。收到以上几方面特征的影响,对于跨域目标的重识别一直是关注的热点,人们在不断探索研究,寻找更好的方法。近年来,在单域任务的前提下,不断改进的特征提取和度量学习方法对于大规模数据集的重识别准确率已经有了巨大的提升。然而,当在不同的域中直接使用模型时,性能会有巨大的下降, 这在新数据集上测试模型时很明显。例如目前在 Market1501上 top-1召回率最高可达到 95%以上,但类似精度的模型直接用于非同源任务,如 Duke MTMC reid时,top-1 召回率往往不到40%。这就是跨域重识别中的域适应问题,这在机器学习领域普遍存在。而考虑到跨域识别领域相对较小的数据集和较单一的场景,且在跨域重识别任务中,源域和目标域之间通常存在显著的域差,这个问题就格外的严重。本专利主要研究的问题是地面图像与对应卫星图像的跨域定位,其本质也是跨域重识别问题,源域与目标域在视角上相差了 90°。任务是:给定街道场景的地面图像(例如街景图像),希望根据估计其相对于卫星地图的定理位置来估计该图像的拍摄位置。由于高分辨率卫星图像的广泛可获得性,这种交叉视图定位问题不仅具有实际意义,而且具有重要的科学意义,如无人机在空中飞行时的目标定位、根据地理 7图片来进行卫星定位等。但也具有很大的挑战性,挑战主要来自于不同图像的视角的显著差异(一个来自地面,另一个来自头顶)和视觉外观的巨大差异。
在早期阶段,人们利用计算机视觉界常用的传统特征进行交叉视图图像匹配。然而,由于视点上的巨大差异,同一位置的卫星图像和地面图像在特征上有很大的不同,这导致传统 局部特征的直接匹配失败。因此,许多地方将地面图像扭曲为自顶向下的视图,以改进特征匹配。例如,如果卫星图像是倾斜的,并且建筑立面是可见的,则可以通过立面面片匹配实现地理定位。
由于深度学习方法在图像/视频分类和识别任务中被证明是非常成功的,人们努力将深度学习引入交叉视图图像匹配和检索领域。Workman 和 Jacobs在 ImagNet和Places上对 AlexNet进行了微调,然后应用神经网络提取特征以进行交叉视图匹配/定位。他们表明,普通图像分类的深层特征明显优于手工制作的特征。有的学者指出,通过最小化卫星和地面图像之间的距离来微调卫星分支,可以获得更好的定位性能。后来,Workman 等人通过在空中分支上训练卷积神经网络,进一步提高了匹配精度。有对现有的分类和检索网络进行了彻底的试验,包括二分类网络、Siamese 网络和三元组网络。图像检索最重要的部分是找到一个好的图像描述符,该描述符应具有很好 的区分性和快速的比较性。有提出了视觉单词描述符包, 将一组局部特征聚合成视觉单词的直方图,即全局描述符。结果表明,该描述符具有部分视点和遮挡不变性,优于局部特征匹配。有创建了树结构词汇表,以支持更多视觉词汇。有提出了VLAD 描述符,他们将局部特征的残差聚合到聚类质心,而不是直方图。基于这项工作, 有的提出了一个可学习的 VLAD 层,即 Net-VLAD,它可以嵌入到深度网络中进行端到端培训。在他们的扩展论文中,他们说明了Net-VLAD 优于多个完全连接层,max pooling 和 VLAD。由于 Net-VLAD 的优越性能, CVM-NET 在网络中采用了Net-VLAD 层。Hu 等人在 Siamese 网络的基础上,在 VGG 网络的顶部嵌入了一个 Net-VLAD 层,以提取对大视角变化不变性的描述符。有将每像素方向信息合并到 CNN 中,以学习交叉视图定位的方向选择功能。通过新的软边缘三元损失函数和穷举小批量训练策略,它们在检索精度上取得了显著的提高。另一方面,有提出了一种弱监督的训练网络来获取卫星图像的语义布局。这些布局被用作图像描述符,用于从数据库中进行检索。
现有方法虽然在交叉视图地理定位任务上能取得较好的成绩,但都存在一个缺点,即都忽略了地面图像的空间布局信息。它们只关注特征是什么,而不关注特征于特征之间的关系,这导致在某些应用场景下定位效果很差。如在野外树林或荒野上的定位,因为没有突出的特征,很容易出现误判的情况。事实上,地面图像的空间布局信息对于进行定位有很重要的意义,如现实中常常会根据房屋、汽车的布局信息来进行定位。
发明内容
本发明的主要目的在于提供一种地空地理定位方法,将地面图像的局部特征传输到卫星图像域,提高交叉视图地理定位的准确度;该方法对于方向扰动具有鲁棒性。当地面图像没有指定北向时仍有良好的定位效果。
本发明采用的技术方案是:一种地空地理定位方法,包括:
对地面图像和卫星图像的局部特征提取;
将地面图像的局部特征传输到卫星图像域以实现特征对齐;
使用三重损失函数来计算两者特征之间的差距并反向更新网络参数。
进一步地,所述对地面图像和卫星图像的局部特征提取包括:
使用VGG16网络进行地面图像和卫星图像的局部特征提取;
VGG16网络由五层卷积层,四层池化层组成;
在第一层卷积层中,输 入为地面图像和卫星图像,其维度分别为112 × 616 ×3和256 × 256 × 3,对图 像进行两次卷积操作,卷积核维度分别为3 × 3 × 3 × 64和3 × 3 × 64 × 64,即 卷积核长宽分别为 3,3,输入深度为 3,输出深度为 64 以及输入 深度为 64,输出深度为 64,第一层卷积过后连接一个最大池化层;
在第二层卷 积层中,输入为第一层卷积层的输出,输入深度为 64,进行两次卷积操作,卷积核维度分别为3 × 3 × 64 × 128和3 × 3 × 128 × 128,然后连接一个最大池化 层;
在第三层卷积层中,输入为第二层卷积层的输出,输入深度为 128,进行 三次卷积操作,卷积核维度分别为3 × 3 × 128 × 256、3 × 3 × 256 × 256和3 × 3 ×256 × 256,然后连接一个最大池化层;
在第四层卷积层中输入为第三层卷 积层的输出,进行三次卷积操作,卷积核维度分别为3 × 3 × 256 × 512、3 × 3 × 512 × 512和3 × 3 × 512 × 512,在每次卷积后都使用一次 dropout 函数, keep prob 设定为 0.8,然后连接一个最大池化层;
在第五层卷积层中,输入为第四层卷积层的输出,进行三次卷积操作,卷积核维度分别为3 × 3 × 512 × 512、 3 × 3 × 512 × 512和3 × 3 × 512 × 512,在每次卷积后都是用一次 dropout 函数, keep prob 设定为 0.8;
在所有卷积操作中,步长都设定为 1,激活函数都是 relu, padding模式都设定为 SAME;
在所有的池化操作中,池化核维度都为2 × 2;经 过五层卷积层和 4 层池化层后,最终输出维度为8 × 8 × 512的特征图。
更进一步地,所述将地面图像的局部特征传输到卫星图像域以实现特征对齐包括:
使用sinkhorn-knopp算法进行特征的传输对齐;正则化的定义如下:
Figure 326132DEST_PATH_IMAGE001
其中
Figure 794153DEST_PATH_IMAGE002
由代价函数经过正则化操作得到,最优传输问题正则化后可以描述为:
Figure 344083DEST_PATH_IMAGE003
其中
Figure 287769DEST_PATH_IMAGE004
是正则化系数,它能够影响正则化对于最优传输问题的作用强度;
Figure 713106DEST_PATH_IMAGE005
,可得
Figure 160268DEST_PATH_IMAGE006
,当转移元素时,如果质量分布在少数的
Figure 881100DEST_PATH_IMAGE007
上,会使得每一个
Figure 46502DEST_PATH_IMAGE007
的取值变大,而将质量分布在多个
Figure 753558DEST_PATH_IMAGE007
上时,每个
Figure 55226DEST_PATH_IMAGE007
取值会比较小;
Sinkhorn-Knopp算法首先对代价矩阵
Figure 946959DEST_PATH_IMAGE008
应用指数核,得到
Figure 599657DEST_PATH_IMAGE009
其次,Sinkhorn-Knopp算法迭代地
Figure 844825DEST_PATH_IMAGE010
的行和列,转换
Figure 266579DEST_PATH_IMAGE010
为一个双随机矩阵;其中行和列的规范化如下:
Figure 329213DEST_PATH_IMAGE011
其中
Figure 344573DEST_PATH_IMAGE012
代表
Figure 783645DEST_PATH_IMAGE013
中的一个元素;
对于第m次迭代,Sinkhorn算法
Figure 59905DEST_PATH_IMAGE014
的输出可以由式3-4递归表示:
Figure 293440DEST_PATH_IMAGE015
当迭代收敛时,可以得到特征传输矩阵:
Figure 29053DEST_PATH_IMAGE016
获得传输矩阵后,可以在地面图像和卫星图像之间进行特征传输,如下式所示:
Figure 740657DEST_PATH_IMAGE017
其中
Figure 137003DEST_PATH_IMAGE018
,代表通道的索引,
Figure 541440DEST_PATH_IMAGE019
Figure 265813DEST_PATH_IMAGE020
分别代表卫星图像和地面图像在第
Figure 781108DEST_PATH_IMAGE021
个通道中的特征数;
在经过VGG16网络提取地面图像和卫星图像的特征图后,首先采用另一个卷积层沿通道维度而非空间维度降低特征维度,保留了提取特征的空间布局信息,最终的输出特征维度为 8×8×64=4096,然后用双线性插值法将地面图像的特征图调整到与卫星图像特征图一样的维度;经过调整后,地面图像特征图和卫星图像特征图的维度都是8x8x64;然后对提取的地面特征图进行一次卷积操作,卷积核维度为1×1×64×1,步长为1,padding模式为SAME,激活函数为relu,经过卷积后,得到8×8×1的矩阵,接下来将这个矩阵通过一层全连接层,得到维度为1×64×64的矩阵;
将该矩阵进行Sinkhorn熵正则化操作,得到特征传输矩阵;熵正则化能有效地降低计算复杂度,将地面图像的特征图矩阵1×8×8×64调整为1×64×64维度的矩阵,三个维度分别代表batch、channel和输入维度,然后与特征传输矩阵1×64×64做矩阵乘法,得到1×64×64的矩阵,将其维度调整为1×8×8×64,即得到地面图像特征传输后的卫星域特征;
将传输后的地面图像特征矩阵和卫星图像特征矩阵都调整维度为1×4096,再沿行坐标进行L2范数正则化;最后将该传输后的特征矩阵与卫星域图像的特征矩阵进行比较,计算loss,并反向传播更新传输矩阵。
更进一步地,所述使用三重损失函数来计算两者特征之间的差距并反向更新网络参数包括:
采用加权软边界三元损失函数,该损失函数在计算
Figure 31961DEST_PATH_IMAGE022
时按系数
Figure 607299DEST_PATH_IMAGE023
缩放
Figure 818969DEST_PATH_IMAGE024
Figure 137954DEST_PATH_IMAGE025
一次性输入12张图像对,每个地面图像有一个匹配的卫星图像以及11个非匹配的卫星图像,地面图像、匹配的卫星图像和非匹配的卫星图像构成一个三元组。
本发明的优点:
本发明的方法将地面图像的局部特征传输到卫星图像域,提高交叉视图地理定位的准确度;该方法对于方向扰动具有鲁棒性。当地面图像没有指定北向时仍有良好的定位效果。
除了上面所描述的目的、特征和优点之外,本发明还有其它的目的、特征和优点。下面将参照图,对本发明作进一步详细的说明。
附图说明
构成本申请的一部分的附图用来提供对本发明的进一步理解,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。
图1是本发明的图像输入图;
图2是本发明的特征对齐效果图;
图3是本发明的网络结构图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本方法可以分为三个大的部分,首先是对地面图像和卫星图像的局部特征提取,然后是将地面图像的局部特征传输到卫星图像域以实现特征对齐,最后使用三重损失函数来计算两者特征之间的差距并反向更新网络参数。
本方法整体网络结构设计如图3所示
(1)局部特征提取。该方法的输入为地面的全景图和卫星图像。如图1所示。使用VGG16网络来进行地面图像和卫星图像的局部特征提取。用的 VGG16 由五层卷积层,四层池化层组成。在第一层卷积层中,输 入为地面图像和卫星图像,其维度分别为112 × 616× 3和256 × 256 × 3,对图 像进行两次卷积操作,卷积核维度分别为3 × 3 × 3 ×64和3 × 3 × 64 × 64,即 卷积核长宽分别为 3,3,输入深度(即通道数)为 3,输出深度为 64 以及输入 深度为 64,输出深度为 64,第一层卷积过后连接一个最大池化层。在第二层卷 积层中,输入为第一层卷积层的输出,输入深度为 64,进行两次卷积操作,卷积核维度分别为3 × 3 × 64 × 128和3 × 3 × 128 × 128,然后连接一个最大池化层。在第三层卷积层中,输入为第二层卷积层的输出,输入深度为 128,进行 三次卷积操作,卷积核维度分别为3 × 3 × 128 × 256、3 × 3 × 256 × 256和3 × 3 × 256× 256,然后连接一个最大池化层。在第四层卷积层中输入为第三层卷 积层的输出,进行三次卷积操作,卷积核维度分别为3 × 3 × 256 × 512、3 × 3 × 512 × 512和3 ×3 × 512 × 512,在每次卷积后都使用一次 dropout 函数, keep prob 设定为 0.8,然后连接一个最大池化层。在第五层卷积层中,输入为第 四层卷积层的输出,进行三次卷积操作,卷积核维度分别为3 × 3 × 512 × 512、 3 × 3 × 512 × 512和3 × 3 ×512 × 512,在每次卷积后都是用一次 dropout 函数, keep prob 设定为 0.8。在所有卷积操作中,步长都设定为 1,激活函数都是 relu, padding模式都设定为 SAME。在所有的池化操作中,池化核维度都为2 × 2。经 过五层卷积层和 4 层池化层后,最终输出维度为8 × 8 × 512的特征图。
(2)特征传输与对齐。利用最优传输(optimaltransport)的思想,并使用sinkhorn-knopp算法进行特征的传输对齐。Sinkhorn-knopp算法是对最优传输的熵正则化解法,能降低计算成本,提高计算速度。正则化的定义如下:
Figure 243314DEST_PATH_IMAGE026
其中
Figure 989553DEST_PATH_IMAGE027
由代价函数经过正则化操作得到。最优传输问题正则化后可以描述为:
Figure 422939DEST_PATH_IMAGE028
其中
Figure 545616DEST_PATH_IMAGE029
是正则化系数,它能够影响正则化对于最优传输问题的作用强度。由于
Figure 505482DEST_PATH_IMAGE030
,可得
Figure 422622DEST_PATH_IMAGE031
,当转移元素时,如果质量分布在少数的
Figure 372999DEST_PATH_IMAGE032
上,会使得每一个
Figure 33787DEST_PATH_IMAGE032
的取值变大,而将质量分布在多个
Figure 848159DEST_PATH_IMAGE032
上时,每个
Figure 77146DEST_PATH_IMAGE032
取值会比较小。前者的成本将会比后者更大。
具体来说,Sinkhorn-Knopp算法首先对代价矩阵
Figure 609759DEST_PATH_IMAGE033
应用指数核,得到
Figure 808659DEST_PATH_IMAGE034
其次,Sinkhorn-Knopp算法迭代地规范化
Figure 743117DEST_PATH_IMAGE035
的行和列,以便转换
Figure 143005DEST_PATH_IMAGE035
为一个双随机矩阵。其中行和列的规范化如下:
Figure 897335DEST_PATH_IMAGE036
其中
Figure 165505DEST_PATH_IMAGE037
代表
Figure 954470DEST_PATH_IMAGE035
中的一个元素。
对于第m次迭代,Sinkhorn算法
Figure 259680DEST_PATH_IMAGE038
的输出可以由式3-4递归表示:
Figure 766885DEST_PATH_IMAGE039
当迭代收敛时,可以得到特征传输矩阵:
Figure 573167DEST_PATH_IMAGE040
获得传输矩阵后,可以在地面图像和卫星图像之间进行特征传输,如下式所示:
Figure 216638DEST_PATH_IMAGE041
其中
Figure 456864DEST_PATH_IMAGE042
,代表通道的索引,
Figure 185786DEST_PATH_IMAGE043
Figure 795758DEST_PATH_IMAGE044
分别代表卫星图像和地面图像在第
Figure 559315DEST_PATH_IMAGE046
个通道中的特征数。
Sinkhorn-Knopp算法在深度神经网络中具体应用为:在经过VGG16网络提取地面图像和卫星图像的特征图后,首先采用另一个卷积层沿通道维度而非空间维度降低特征维度,保留了提取特征的空间布局信息,最终的输出特征维度为 8×8×64=4096,然后用双线性插值法将地面图像的特征图调整到与卫星图像特征图一样的维度。经过调整后,地面图像特征图和卫星图像特征图的维度都是8x8x64。然后对提取的地面特征图进行一次卷积操作,卷积核维度为1×1×64×1,步长为1,padding模式为SAME,激活函数为relu,经过卷积后,得到8×8×1的矩阵,接下来将这个矩阵通过一层全连接层,得到维度为1×64×64的矩阵。最后将该矩阵进行Sinkhorn熵正则化操作,得到特征传输矩阵。熵正则化能有效地降低计算复杂度。将地面图像的特征图矩阵(1×8×8×64)调整为1×64×64维度的矩阵,三个维度分别代表batch、channel和输入维度(即一个通道中的特征数),然后与特征传输矩阵(1×64×64)做矩阵乘法,得到1×64×64的矩阵,将其维度调整为1×8×8×64,即得到地面图像特征传输后的卫星域特征。最后将传输后的地面图像特征矩阵和卫星图像特征矩阵都调整维度为1×4096,再沿行坐标进行L2范数正则化。最后将该传输后的特征矩阵与卫星域图像的特征矩阵进行比较,计算loss,并反向传播更新传输矩阵。效果如图2所示。
(3)三重损失函数。在方法中使用的是三元损失函数(triple loss),三重损失函数被广泛用于训练用于图像定位和匹配任务的深层神经网络。其定义为:使锚点和具有相同身份的正样本之间的距离最小,同时使锚点和具有不同身份的负样本之间的距离最大。其目标是使得相同标签的特征在空间位置上尽量靠近,同时不同标签的特征在空间位置上尽量远离。其中triple指的是三元组:anchor,positive和negative,即锚点,正样本和负样本,在本文的应用场景下就是地面图像,与地面图像相匹配的卫星图像和非匹配的卫星图像。最简单的三元损失函数是max-margin三元损失函数:
Figure 206328DEST_PATH_IMAGE047
其中
Figure 953704DEST_PATH_IMAGE048
Figure 101789DEST_PATH_IMAGE049
表示所有正样本和负样本到所选定锚点的距离,而
Figure 595218DEST_PATH_IMAGE050
是距离边缘。后来相关学者提出了软边界三元损失函数,以避免确定三元损失函数中的边缘值margin:
Figure 537767DEST_PATH_IMAGE051
其中
Figure 241280DEST_PATH_IMAGE052
。CVM-NET网络使用的是软边界三元损失函数来进行训练,但在训练中会出现损失函数收敛速度缓慢的问题。为了提高收敛速度,本算法采用了一种加权软边界三元损失函数,该损失函数在计算
Figure 193056DEST_PATH_IMAGE053
时按系数
Figure 540992DEST_PATH_IMAGE054
缩放
Figure 920020DEST_PATH_IMAGE055
Figure 110830DEST_PATH_IMAGE056
在本发明的方法中,一次性输入12张图像对,每个地面图像有一个匹配的卫星图像以及11个非匹配的卫星图像,地面图像、匹配的卫星图像和非匹配的卫星图像构成一个三元组。
本发明的图像特征提取可采用resnet50、inception_v4等其他神经网络的方法替代。
本发明将地面图像局部特征传输到卫星图像域以实现特征对齐。
本发明针对现有无人机航拍图像序列拼接技术存在的问题以及无人机航拍图像序列的特点,提出一种增量式实时无人机航拍图像序列拼接算法。
针对现有方法忽略地面图像空间布局信息的缺点,突出一种新的交叉视图地理定位方法。该方法能将地面图像的局部特征传输到卫星图像域,实现两者特征的对齐,以进行更有意义的比较,最终提升地理定位的准确率与可信度。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (4)

1.一种地空地理定位方法,其特征在于,包括:
对地面图像和卫星图像的局部特征提取;
将地面图像的局部特征传输到卫星图像域以实现特征对齐;
使用三重损失函数来计算两者特征之间的差距并反向更新网络参数。
2.根据权利要求1所述的地空地理定位方法,其特征在于,所述对地面图像和卫星图像的局部特征提取包括:
使用VGG16网络进行地面图像和卫星图像的局部特征提取;
VGG16网络由五层卷积层,四层池化层组成;
在第一层卷积层中,输 入为地面图像和卫星图像,其维度分别为112 × 616 × 3和256 × 256 × 3,对图 像进行两次卷积操作,卷积核维度分别为3 × 3 × 3 × 64和3× 3 × 64 × 64,即 卷积核长宽分别为 3,3,输入深度为 3,输出深度为 64 以及输入深度为 64,输出深度为 64,第一层卷积过后连接一个最大池化层;
在第二层卷 积层中,输入为第一层卷积层的输出,输入深度为 64,进行两次卷积操作,卷积核维度分别为3 × 3 × 64 × 128和3 × 3 × 128 × 128,然后连接一个最大池化 层;
在第三层卷积层中,输入为第二层卷积层的输出,输入深度为 128,进行 三次卷积操作,卷积核维度分别为3 × 3 × 128 × 256、3 × 3 × 256 × 256和3 × 3 × 256× 256,然后连接一个最大池化层;
在第四层卷积层中输入为第三层卷 积层的输出,进行三次卷积操作,卷积核维度分别为3 × 3 × 256 × 512、3 × 3 × 512 × 512和3 × 3 × 512 × 512,在每次卷积后都使用一次 dropout 函数, keep prob 设定为 0.8,然后连接一个最大池化层;
在第五层卷积层中,输入为第四层卷积层的输出,进行三次卷积操作,卷积核维度分别为3 × 3 × 512 × 512、 3 × 3 × 512 × 512和3 × 3 × 512 × 512,在每次卷积后都是用一次 dropout 函数, keep prob 设定为 0.8;
在所有卷积操作中,步长都设定为 1,激活函数都是 relu, padding模式都设定为SAME;
在所有的池化操作中,池化核维度都为2 × 2;经 过五层卷积层和 4 层池化层后,最终输出维度为8 × 8 × 512的特征图。
3.根据权利要求1所述的地空地理定位方法,其特征在于,所述将地面图像的局部特征传输到卫星图像域以实现特征对齐包括:
使用sinkhorn-knopp算法进行特征的传输对齐;正则化的定义如下:
Figure 199762DEST_PATH_IMAGE001
其中
Figure 735916DEST_PATH_IMAGE002
由代价函数经过正则化操作得到,最优传输问题正则化后可以描述为:
Figure 550289DEST_PATH_IMAGE003
其中
Figure 169489DEST_PATH_IMAGE004
是正则化系数,它能够影响正则化对于最优传输问题的作用强度;
Figure 577468DEST_PATH_IMAGE005
,可得
Figure 41947DEST_PATH_IMAGE006
,当转移元素时,如果质量分布在少数的
Figure 710826DEST_PATH_IMAGE007
上,会使得每一个
Figure 235348DEST_PATH_IMAGE007
的取值变大,而将质量分布在多个
Figure 629158DEST_PATH_IMAGE007
上时,每个
Figure 631749DEST_PATH_IMAGE007
取值会比较小;
Sinkhorn-Knopp算法首先对代价矩阵
Figure 420713DEST_PATH_IMAGE008
应用指数核,得到
Figure 116137DEST_PATH_IMAGE009
其次,Sinkhorn-Knopp算法迭代地规范化
Figure 233129DEST_PATH_IMAGE010
的行和列,转换
Figure 39411DEST_PATH_IMAGE010
为一个双随机矩阵;其中行和列的规范化如下:
Figure 948461DEST_PATH_IMAGE011
其中
Figure 549206DEST_PATH_IMAGE012
代表
Figure 419073DEST_PATH_IMAGE013
中的一个元素;
对于第m次迭代,Sinkhorn算法
Figure 763467DEST_PATH_IMAGE014
的输出可以由式3-4递归表示:
Figure 792603DEST_PATH_IMAGE015
当迭代收敛时,可以得到特征传输矩阵:
Figure 439616DEST_PATH_IMAGE016
获得传输矩阵后,可以在地面图像和卫星图像之间进行特征传输,如下式所示:
Figure 921413DEST_PATH_IMAGE017
其中
Figure 69498DEST_PATH_IMAGE018
,代表通道的索引,
Figure 687561DEST_PATH_IMAGE019
Figure 269590DEST_PATH_IMAGE020
分别代表卫星图像和地面图像在第
Figure 973103DEST_PATH_IMAGE021
个通道中的特征数;
在经过VGG16网络提取地面图像和卫星图像的特征图后,首先采用另一个卷积层沿通道维度而非空间维度降低特征维度,保留了提取特征的空间布局信息,最终的输出特征维度为 8×8×64=4096,然后用双线性插值法将地面图像的特征图调整到与卫星图像特征图一样的维度;经过调整后,地面图像特征图和卫星图像特征图的维度都是8x8x64;然后对提取的地面特征图进行一次卷积操作,卷积核维度为1×1×64×1,步长为1,padding模式为SAME,激活函数为relu,经过卷积后,得到8×8×1的矩阵,接下来将这个矩阵通过一层全连接层,得到维度为1×64×64的矩阵;
将该矩阵进行Sinkhorn熵正则化操作,得到特征传输矩阵;熵正则化能有效地降低计算复杂度,将地面图像的特征图矩阵1×8×8×64调整为1×64×64维度的矩阵,三个维度分别代表batch、channel和输入维度,然后与特征传输矩阵1×64×64做矩阵乘法,得到1×64×64的矩阵,将其维度调整为1×8×8×64,即得到地面图像特征传输后的卫星域特征;
将传输后的地面图像特征矩阵和卫星图像特征矩阵都调整维度为1×4096,再沿行坐标进行L2范数正则化;最后将该传输后的特征矩阵与卫星域图像的特征矩阵进行比较,计算loss,并反向传播更新传输矩阵。
4.根据权利要求1所述的地空地理定位方法,其特征在于,所述使用三重损失函数来计算两者特征之间的差距并反向更新网络参数包括:
采用加权软边界三元损失函数,该损失函数在计算
Figure 659300DEST_PATH_IMAGE022
时按系数
Figure 397448DEST_PATH_IMAGE023
缩放
Figure 386264DEST_PATH_IMAGE024
Figure 577074DEST_PATH_IMAGE025
一次性输入12张图像对,每个地面图像有一个匹配的卫星图像以及11个非匹配的卫星图像,地面图像、匹配的卫星图像和非匹配的卫星图像构成一个三元组。
CN202211712282.9A 2022-12-30 2022-12-30 一种地空地理定位方法 Pending CN115719455A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211712282.9A CN115719455A (zh) 2022-12-30 2022-12-30 一种地空地理定位方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211712282.9A CN115719455A (zh) 2022-12-30 2022-12-30 一种地空地理定位方法

Publications (1)

Publication Number Publication Date
CN115719455A true CN115719455A (zh) 2023-02-28

Family

ID=85257866

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211712282.9A Pending CN115719455A (zh) 2022-12-30 2022-12-30 一种地空地理定位方法

Country Status (1)

Country Link
CN (1) CN115719455A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078985A (zh) * 2023-10-17 2023-11-17 之江实验室 一种景象匹配方法、装置、存储介质及电子设备

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117078985A (zh) * 2023-10-17 2023-11-17 之江实验室 一种景象匹配方法、装置、存储介质及电子设备
CN117078985B (zh) * 2023-10-17 2024-01-30 之江实验室 一种景象匹配方法、装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
US11810366B1 (en) Joint modeling method and apparatus for enhancing local features of pedestrians
Shi et al. Accurate 3-DoF camera geo-localization via ground-to-satellite image matching
CN110781790A (zh) 基于卷积神经网络与vlad的视觉slam闭环检测方法
US11495055B1 (en) Pedestrian trajectory prediction method and system based on multi-interaction spatiotemporal graph network
CN110968711B (zh) 一种基于序列图像特征的自主无人系统位置识别定位方法
CN103679674A (zh) 一种无人飞行器实时图像拼接方法及系统
CN114241464A (zh) 基于深度学习的跨视角影像实时匹配地理定位方法及系统
CN112084895B (zh) 一种基于深度学习的行人重识别方法
Zhu et al. Simple, effective and general: A new backbone for cross-view image geo-localization
Tian et al. Cross-time and orientation-invariant overhead image geolocalization using deep local features
CN110969648A (zh) 一种基于点云序列数据的3d目标跟踪方法及系统
CN113160291B (zh) 一种基于图像配准的变化检测方法
CN112883850A (zh) 一种基于卷积神经网络的多视角空天遥感图像匹配方法
CN114170410A (zh) 基于PointNet的图卷积与KNN搜索的点云零件级分割方法
CN115272719A (zh) 一种用于无人机图像和卫星图像的跨视角景象匹配方法
CN113850136A (zh) 基于yolov5与BCNN的车辆朝向识别方法及系统
CN115719455A (zh) 一种地空地理定位方法
CN114882537B (zh) 一种基于神经辐射场的手指新视角图像生成方法
CN116311368A (zh) 行人重识别方法
Shao et al. Style alignment-based dynamic observation method for UAV-view geo-localization
CN116797948A (zh) 一种用于无人机图像和卫星图像的跨视角景象匹配方法
CN116109930A (zh) 一种基于动态观测的跨视角地理视图定位方法
CN116597267A (zh) 图像识别方法、装置、计算机设备和存储介质
CN116704171A (zh) 基于多尺度局部描述符聚合网络的跨视角跨模态地理定位方法
CN114067356B (zh) 基于联合局部引导与属性聚类的行人重识别方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination