CN115719455A

CN115719455A - 一种地空地理定位方法

Info

Publication number: CN115719455A
Application number: CN202211712282.9A
Authority: CN
Inventors: 魏倩茹; 赵鑫
Original assignee: Northwestern Polytechnical University
Current assignee: Northwestern Polytechnical University
Priority date: 2022-12-30
Filing date: 2022-12-30
Publication date: 2023-02-28

Abstract

本发明公开了一种地空地理定位方法，其特征在于，包括：对地面图像和卫星图像的局部特征提取；将地面图像的局部特征传输到卫星图像域以实现特征对齐；使用三重损失函数来计算两者特征之间的差距并反向更新网络参数。本发明的方法将地面图像的局部特征传输到卫星图像域，提高交叉视图地理定位的准确度；该方法对于方向扰动具有鲁棒性。当地面图像没有指定北向时仍有良好的定位效果。

Description

一种地空地理定位方法

技术领域

本发明涉及跨域识别技术，具体涉及一种地空地理定位方法。

背景技术

目前，跨域识别所观察的图像信息来源于不同的摄像头下，由于每个摄像头自身的差异性，导致重识别具有几个特征。一是由于摄像头高低、拍摄方向的不同，不同目标拍摄出来的图像可能比同一目标在不同姿态下拍摄出来的图像在外观上更加相似。二是在实际拍摄中，由于清晰程度有限和拍摄角度限制，很难获取到正面的信息，仅能利用外观特征进行判断。三是在不同摄像头下，同一个目标由于受到光线、角度和姿态等因素的影响，其所表现出来的外观特征也是不一样的。收到以上几方面特征的影响，对于跨域目标的重识别一直是关注的热点，人们在不断探索研究，寻找更好的方法。近年来，在单域任务的前提下，不断改进的特征提取和度量学习方法对于大规模数据集的重识别准确率已经有了巨大的提升。然而，当在不同的域中直接使用模型时，性能会有巨大的下降，这在新数据集上测试模型时很明显。例如目前在 Market1501上 top-1召回率最高可达到 95%以上，但类似精度的模型直接用于非同源任务，如 Duke MTMC reid时，top-1 召回率往往不到40%。这就是跨域重识别中的域适应问题，这在机器学习领域普遍存在。而考虑到跨域识别领域相对较小的数据集和较单一的场景，且在跨域重识别任务中，源域和目标域之间通常存在显著的域差，这个问题就格外的严重。本专利主要研究的问题是地面图像与对应卫星图像的跨域定位，其本质也是跨域重识别问题，源域与目标域在视角上相差了 90°。任务是：给定街道场景的地面图像（例如街景图像），希望根据估计其相对于卫星地图的定理位置来估计该图像的拍摄位置。由于高分辨率卫星图像的广泛可获得性，这种交叉视图定位问题不仅具有实际意义，而且具有重要的科学意义，如无人机在空中飞行时的目标定位、根据地理 7图片来进行卫星定位等。但也具有很大的挑战性，挑战主要来自于不同图像的视角的显著差异（一个来自地面，另一个来自头顶）和视觉外观的巨大差异。

在早期阶段，人们利用计算机视觉界常用的传统特征进行交叉视图图像匹配。然而，由于视点上的巨大差异，同一位置的卫星图像和地面图像在特征上有很大的不同，这导致传统局部特征的直接匹配失败。因此，许多地方将地面图像扭曲为自顶向下的视图，以改进特征匹配。例如，如果卫星图像是倾斜的，并且建筑立面是可见的，则可以通过立面面片匹配实现地理定位。

由于深度学习方法在图像/视频分类和识别任务中被证明是非常成功的，人们努力将深度学习引入交叉视图图像匹配和检索领域。Workman 和 Jacobs在 ImagNet和Places上对 AlexNet进行了微调，然后应用神经网络提取特征以进行交叉视图匹配/定位。他们表明，普通图像分类的深层特征明显优于手工制作的特征。有的学者指出，通过最小化卫星和地面图像之间的距离来微调卫星分支，可以获得更好的定位性能。后来，Workman 等人通过在空中分支上训练卷积神经网络，进一步提高了匹配精度。有对现有的分类和检索网络进行了彻底的试验，包括二分类网络、Siamese 网络和三元组网络。图像检索最重要的部分是找到一个好的图像描述符，该描述符应具有很好的区分性和快速的比较性。有提出了视觉单词描述符包，将一组局部特征聚合成视觉单词的直方图，即全局描述符。结果表明，该描述符具有部分视点和遮挡不变性，优于局部特征匹配。有创建了树结构词汇表，以支持更多视觉词汇。有提出了VLAD 描述符，他们将局部特征的残差聚合到聚类质心，而不是直方图。基于这项工作，有的提出了一个可学习的 VLAD 层，即 Net-VLAD，它可以嵌入到深度网络中进行端到端培训。在他们的扩展论文中，他们说明了Net-VLAD 优于多个完全连接层，max pooling 和 VLAD。由于 Net-VLAD 的优越性能， CVM-NET 在网络中采用了Net-VLAD 层。Hu 等人在 Siamese 网络的基础上，在 VGG 网络的顶部嵌入了一个 Net-VLAD 层，以提取对大视角变化不变性的描述符。有将每像素方向信息合并到 CNN 中，以学习交叉视图定位的方向选择功能。通过新的软边缘三元损失函数和穷举小批量训练策略，它们在检索精度上取得了显著的提高。另一方面，有提出了一种弱监督的训练网络来获取卫星图像的语义布局。这些布局被用作图像描述符，用于从数据库中进行检索。

现有方法虽然在交叉视图地理定位任务上能取得较好的成绩，但都存在一个缺点，即都忽略了地面图像的空间布局信息。它们只关注特征是什么，而不关注特征于特征之间的关系，这导致在某些应用场景下定位效果很差。如在野外树林或荒野上的定位，因为没有突出的特征，很容易出现误判的情况。事实上，地面图像的空间布局信息对于进行定位有很重要的意义，如现实中常常会根据房屋、汽车的布局信息来进行定位。

发明内容

本发明的主要目的在于提供一种地空地理定位方法，将地面图像的局部特征传输到卫星图像域，提高交叉视图地理定位的准确度；该方法对于方向扰动具有鲁棒性。当地面图像没有指定北向时仍有良好的定位效果。

本发明采用的技术方案是：一种地空地理定位方法，包括：

对地面图像和卫星图像的局部特征提取；

将地面图像的局部特征传输到卫星图像域以实现特征对齐；

使用三重损失函数来计算两者特征之间的差距并反向更新网络参数。

进一步地，所述对地面图像和卫星图像的局部特征提取包括：

使用VGG16网络进行地面图像和卫星图像的局部特征提取；

VGG16网络由五层卷积层，四层池化层组成；

在第一层卷积层中，输入为地面图像和卫星图像，其维度分别为112 × 616 ×3和256 × 256 × 3，对图像进行两次卷积操作，卷积核维度分别为3 × 3 × 3 × 64和3 × 3 × 64 × 64，即卷积核长宽分别为 3，3，输入深度为 3，输出深度为 64 以及输入深度为 64，输出深度为 64，第一层卷积过后连接一个最大池化层；

在第二层卷积层中，输入为第一层卷积层的输出，输入深度为 64，进行两次卷积操作，卷积核维度分别为3 × 3 × 64 × 128和3 × 3 × 128 × 128，然后连接一个最大池化层；

在第三层卷积层中，输入为第二层卷积层的输出，输入深度为 128，进行三次卷积操作，卷积核维度分别为3 × 3 × 128 × 256、3 × 3 × 256 × 256和3 × 3 ×256 × 256，然后连接一个最大池化层；

在第四层卷积层中输入为第三层卷积层的输出，进行三次卷积操作，卷积核维度分别为3 × 3 × 256 × 512、3 × 3 × 512 × 512和3 × 3 × 512 × 512，在每次卷积后都使用一次 dropout 函数， keep prob 设定为 0.8，然后连接一个最大池化层；

在第五层卷积层中，输入为第四层卷积层的输出，进行三次卷积操作，卷积核维度分别为3 × 3 × 512 × 512、 3 × 3 × 512 × 512和3 × 3 × 512 × 512，在每次卷积后都是用一次 dropout 函数， keep prob 设定为 0.8；

在所有卷积操作中，步长都设定为 1，激活函数都是 relu， padding模式都设定为 SAME；

在所有的池化操作中，池化核维度都为2 × 2；经过五层卷积层和 4 层池化层后，最终输出维度为8 × 8 × 512的特征图。

更进一步地，所述将地面图像的局部特征传输到卫星图像域以实现特征对齐包括：

使用sinkhorn-knopp算法进行特征的传输对齐；正则化的定义如下：

其中

由代价函数经过正则化操作得到，最优传输问题正则化后可以描述为：

其中

是正则化系数，它能够影响正则化对于最优传输问题的作用强度；

，可得

，当转移元素时，如果质量分布在少数的

上，会使得每一个

的取值变大，而将质量分布在多个

上时，每个

取值会比较小；

Sinkhorn-Knopp算法首先对代价矩阵

应用指数核，得到

其次，Sinkhorn-Knopp算法迭代地

的行和列，转换

为一个双随机矩阵；其中行和列的规范化如下：

其中

代表

中的一个元素；

对于第m次迭代，Sinkhorn算法

的输出可以由式3-4递归表示：

当迭代收敛时，可以得到特征传输矩阵：

获得传输矩阵后，可以在地面图像和卫星图像之间进行特征传输，如下式所示：

其中

，代表通道的索引，

和

分别代表卫星图像和地面图像在第

个通道中的特征数；

在经过VGG16网络提取地面图像和卫星图像的特征图后，首先采用另一个卷积层沿通道维度而非空间维度降低特征维度，保留了提取特征的空间布局信息，最终的输出特征维度为 8×8×64=4096，然后用双线性插值法将地面图像的特征图调整到与卫星图像特征图一样的维度；经过调整后，地面图像特征图和卫星图像特征图的维度都是8x8x64；然后对提取的地面特征图进行一次卷积操作，卷积核维度为1×1×64×1，步长为1，padding模式为SAME，激活函数为relu，经过卷积后，得到8×8×1的矩阵，接下来将这个矩阵通过一层全连接层，得到维度为1×64×64的矩阵；

将该矩阵进行Sinkhorn熵正则化操作，得到特征传输矩阵；熵正则化能有效地降低计算复杂度，将地面图像的特征图矩阵1×8×8×64调整为1×64×64维度的矩阵，三个维度分别代表batch、channel和输入维度，然后与特征传输矩阵1×64×64做矩阵乘法，得到1×64×64的矩阵，将其维度调整为1×8×8×64，即得到地面图像特征传输后的卫星域特征；

将传输后的地面图像特征矩阵和卫星图像特征矩阵都调整维度为1×4096，再沿行坐标进行L2范数正则化；最后将该传输后的特征矩阵与卫星域图像的特征矩阵进行比较，计算loss，并反向传播更新传输矩阵。

更进一步地，所述使用三重损失函数来计算两者特征之间的差距并反向更新网络参数包括：

采用加权软边界三元损失函数，该损失函数在计算

时按系数

缩放

：

一次性输入12张图像对，每个地面图像有一个匹配的卫星图像以及11个非匹配的卫星图像，地面图像、匹配的卫星图像和非匹配的卫星图像构成一个三元组。

本发明的优点：

本发明的方法将地面图像的局部特征传输到卫星图像域，提高交叉视图地理定位的准确度；该方法对于方向扰动具有鲁棒性。当地面图像没有指定北向时仍有良好的定位效果。

除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明的图像输入图；

图2是本发明的特征对齐效果图；

图3是本发明的网络结构图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

本方法可以分为三个大的部分，首先是对地面图像和卫星图像的局部特征提取，然后是将地面图像的局部特征传输到卫星图像域以实现特征对齐，最后使用三重损失函数来计算两者特征之间的差距并反向更新网络参数。

本方法整体网络结构设计如图3所示

（1）局部特征提取。该方法的输入为地面的全景图和卫星图像。如图1所示。使用VGG16网络来进行地面图像和卫星图像的局部特征提取。用的 VGG16 由五层卷积层，四层池化层组成。在第一层卷积层中，输入为地面图像和卫星图像，其维度分别为112 × 616× 3和256 × 256 × 3，对图像进行两次卷积操作，卷积核维度分别为3 × 3 × 3 ×64和3 × 3 × 64 × 64，即卷积核长宽分别为 3，3，输入深度（即通道数）为 3，输出深度为 64 以及输入深度为 64，输出深度为 64，第一层卷积过后连接一个最大池化层。在第二层卷积层中，输入为第一层卷积层的输出，输入深度为 64，进行两次卷积操作，卷积核维度分别为3 × 3 × 64 × 128和3 × 3 × 128 × 128，然后连接一个最大池化层。在第三层卷积层中，输入为第二层卷积层的输出，输入深度为 128，进行三次卷积操作，卷积核维度分别为3 × 3 × 128 × 256、3 × 3 × 256 × 256和3 × 3 × 256× 256，然后连接一个最大池化层。在第四层卷积层中输入为第三层卷积层的输出，进行三次卷积操作，卷积核维度分别为3 × 3 × 256 × 512、3 × 3 × 512 × 512和3 ×3 × 512 × 512，在每次卷积后都使用一次 dropout 函数， keep prob 设定为 0.8，然后连接一个最大池化层。在第五层卷积层中，输入为第四层卷积层的输出，进行三次卷积操作，卷积核维度分别为3 × 3 × 512 × 512、 3 × 3 × 512 × 512和3 × 3 ×512 × 512，在每次卷积后都是用一次 dropout 函数， keep prob 设定为 0.8。在所有卷积操作中，步长都设定为 1，激活函数都是 relu， padding模式都设定为 SAME。在所有的池化操作中，池化核维度都为2 × 2。经过五层卷积层和 4 层池化层后，最终输出维度为8 × 8 × 512的特征图。

（2）特征传输与对齐。利用最优传输（optimaltransport）的思想，并使用sinkhorn-knopp算法进行特征的传输对齐。Sinkhorn-knopp算法是对最优传输的熵正则化解法，能降低计算成本，提高计算速度。正则化的定义如下：

其中

由代价函数经过正则化操作得到。最优传输问题正则化后可以描述为：

其中

是正则化系数，它能够影响正则化对于最优传输问题的作用强度。由于

，可得

，当转移元素时，如果质量分布在少数的

上，会使得每一个

的取值变大，而将质量分布在多个

上时，每个

取值会比较小。前者的成本将会比后者更大。

具体来说，Sinkhorn-Knopp算法首先对代价矩阵

应用指数核，得到

其次，Sinkhorn-Knopp算法迭代地规范化

的行和列，以便转换

为一个双随机矩阵。其中行和列的规范化如下：

其中

代表

中的一个元素。

对于第m次迭代，Sinkhorn算法

的输出可以由式3-4递归表示：

当迭代收敛时，可以得到特征传输矩阵：

其中

，代表通道的索引，

和

分别代表卫星图像和地面图像在第

个通道中的特征数。

Sinkhorn-Knopp算法在深度神经网络中具体应用为：在经过VGG16网络提取地面图像和卫星图像的特征图后，首先采用另一个卷积层沿通道维度而非空间维度降低特征维度，保留了提取特征的空间布局信息，最终的输出特征维度为 8×8×64=4096，然后用双线性插值法将地面图像的特征图调整到与卫星图像特征图一样的维度。经过调整后，地面图像特征图和卫星图像特征图的维度都是8x8x64。然后对提取的地面特征图进行一次卷积操作，卷积核维度为1×1×64×1，步长为1，padding模式为SAME，激活函数为relu，经过卷积后，得到8×8×1的矩阵，接下来将这个矩阵通过一层全连接层，得到维度为1×64×64的矩阵。最后将该矩阵进行Sinkhorn熵正则化操作，得到特征传输矩阵。熵正则化能有效地降低计算复杂度。将地面图像的特征图矩阵(1×8×8×64)调整为1×64×64维度的矩阵，三个维度分别代表batch、channel和输入维度（即一个通道中的特征数），然后与特征传输矩阵(1×64×64)做矩阵乘法，得到1×64×64的矩阵，将其维度调整为1×8×8×64，即得到地面图像特征传输后的卫星域特征。最后将传输后的地面图像特征矩阵和卫星图像特征矩阵都调整维度为1×4096，再沿行坐标进行L2范数正则化。最后将该传输后的特征矩阵与卫星域图像的特征矩阵进行比较，计算loss，并反向传播更新传输矩阵。效果如图2所示。

（3）三重损失函数。在方法中使用的是三元损失函数（triple loss），三重损失函数被广泛用于训练用于图像定位和匹配任务的深层神经网络。其定义为：使锚点和具有相同身份的正样本之间的距离最小，同时使锚点和具有不同身份的负样本之间的距离最大。其目标是使得相同标签的特征在空间位置上尽量靠近，同时不同标签的特征在空间位置上尽量远离。其中triple指的是三元组：anchor，positive和negative，即锚点，正样本和负样本，在本文的应用场景下就是地面图像，与地面图像相匹配的卫星图像和非匹配的卫星图像。最简单的三元损失函数是max-margin三元损失函数：

其中

和

表示所有正样本和负样本到所选定锚点的距离，而

是距离边缘。后来相关学者提出了软边界三元损失函数，以避免确定三元损失函数中的边缘值margin：

其中

。CVM-NET网络使用的是软边界三元损失函数来进行训练，但在训练中会出现损失函数收敛速度缓慢的问题。为了提高收敛速度，本算法采用了一种加权软边界三元损失函数，该损失函数在计算

时按系数

缩放

：

在本发明的方法中，一次性输入12张图像对，每个地面图像有一个匹配的卫星图像以及11个非匹配的卫星图像，地面图像、匹配的卫星图像和非匹配的卫星图像构成一个三元组。

本发明的图像特征提取可采用resnet50、inception_v4等其他神经网络的方法替代。

本发明将地面图像局部特征传输到卫星图像域以实现特征对齐。

本发明针对现有无人机航拍图像序列拼接技术存在的问题以及无人机航拍图像序列的特点，提出一种增量式实时无人机航拍图像序列拼接算法。

针对现有方法忽略地面图像空间布局信息的缺点，突出一种新的交叉视图地理定位方法。该方法能将地面图像的局部特征传输到卫星图像域，实现两者特征的对齐，以进行更有意义的比较，最终提升地理定位的准确率与可信度。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种地空地理定位方法，其特征在于，包括：

对地面图像和卫星图像的局部特征提取；

将地面图像的局部特征传输到卫星图像域以实现特征对齐；

2.根据权利要求1所述的地空地理定位方法，其特征在于，所述对地面图像和卫星图像的局部特征提取包括：

使用VGG16网络进行地面图像和卫星图像的局部特征提取；

VGG16网络由五层卷积层，四层池化层组成；

在第一层卷积层中，输入为地面图像和卫星图像，其维度分别为112 × 616 × 3和256 × 256 × 3，对图像进行两次卷积操作，卷积核维度分别为3 × 3 × 3 × 64和3× 3 × 64 × 64，即卷积核长宽分别为 3，3，输入深度为 3，输出深度为 64 以及输入深度为 64，输出深度为 64，第一层卷积过后连接一个最大池化层；

在第三层卷积层中，输入为第二层卷积层的输出，输入深度为 128，进行三次卷积操作，卷积核维度分别为3 × 3 × 128 × 256、3 × 3 × 256 × 256和3 × 3 × 256× 256，然后连接一个最大池化层；

在所有卷积操作中，步长都设定为 1，激活函数都是 relu， padding模式都设定为SAME；

3.根据权利要求1所述的地空地理定位方法，其特征在于，所述将地面图像的局部特征传输到卫星图像域以实现特征对齐包括：