CN114241464A

CN114241464A - 基于深度学习的跨视角影像实时匹配地理定位方法及系统

Info

Publication number: CN114241464A
Application number: CN202111444175.8A
Authority: CN
Inventors: 涂志刚; 李松廉; 陈雨劲
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-11-30
Filing date: 2021-11-30
Publication date: 2022-03-25
Anticipated expiration: 2041-11-30
Also published as: CN114241464B

Abstract

本发明提供一种基于深度学习的跨视角影像实时匹配地理定位方法及系统，包括利用域对齐算法将空视图像与街景图像初步对齐；构建孪生神经网络，所述孪生神经网络的结构包括两个提取特征图的卷积神经网络分支，后接全局描述向量编码模块，再接距离度量层；在包含街景图像与遥感图像的已有数据集基础上训练孪生神经网络；构建具体应用场景的数据集，并继续在训练所得的孪生神经网络基础上进行微调训练；现场抓拍街景图片，并利用训练好的网络在构建的数据集中检索与之匹配的卫星图像，从而完成街景图片的定位。本发明能适用于各类场景下的跨视角图像地理定位，对实际应用中定位的精度和鲁棒性都有一定程度的提高。

Description

基于深度学习的跨视角影像实时匹配地理定位方法及系统

技术领域

本发明涉及计算机视觉图像定位技术领域，特别是涉及一种基于深度学习的地空跨视角图像实时匹配地理定位方法及系统。

背景技术

图像地理定位是指仅根据视觉信息确定图像的拍摄位置的问题。这类问题在计算机视觉领域有着广阔的应用场景，例如移动终端导航、AR/VR、汽车自动驾驶和视频地理轨迹生成等。传统的图像定位方法是基于街景图像与街景图像数据库进行匹配定位。近年来随着遥感卫星的不断发展，海量带有地理位置信息的卫星图像被采集下来。因此，估计拍摄图像地理位置的问题就被转换为了地面视角图像与空视图像的匹配问题，即通过匹配到的带有地理坐标的卫星图像去确定拍摄图像的地理位置，从而实现全球范围内的图像定位。

目前，主流的图像地理定位方法主要分为图像特征提取、图像全局描述向量编码和图像检索匹配这三个步骤。在学术研究领域。随着深度学习技术的不断发展，Workman和Jacobs首先将深度特征引入到图像定位匹配任务中。在图像特征提取方面，Workman等作者首先提出利用卷积神经网络从查询图像中提取特征图，再使用普通的全连接神经网络将特征图编码为全局描述向量，最后从构建的街景数据库中检索出全局描述向量与其最为接近的街景图像作为匹配图片；在图像全局描述向量编码之中，为了让网络结构学习到图像的旋转不变特征，Hu等人将VLAD池化算法进行了改进，通过引入soft assignment让其变成了一个可微分的算法，即可以通过反向传播算法端到端地训练该模块，并在卷积神经网络网络上上嵌入NetVLAD，用于跨视角视角图像匹配；在图像检索匹配中，Vo和Hays等作者采用计算全局描述向量的欧氏距离作为度量图像之间相似度的依据，即全局描述向量间欧式距离越大说明两图像相似度越低，被后续学者广泛采用。

但是，现有的地面图像与空视图像的跨视角匹配方法没能考虑到两视角图像之间巨大的域差异以及尺度差异。具体来说，首先地面图像一般为水平方向上的街景图像，其获取的往往是物体的侧面信息而空视图像则是垂直向下的视角，这种视角之下拍摄的往往是物体的上表面信息；其次，地面图像通常为小范围的街景图像而空视图像一般为覆盖大面积区域的遥感卫星图像。本发明则从这两个跨视角图像匹配中存在的主要问题入手，首先提出了域对齐算法将地面视角与遥感卫星图像的空间格局进行粗略地对齐从而加速匹配过程并且提高匹配精度。然后，本发明提出了多尺度注意力编码器充分考虑两图像的多尺度信息，并将其编码进图像全局描述向量之中，以提高模型整体的鲁棒性。

在实际运用领域，百度公司研发了一个定位一张图片位置的地点识别技术。用户将需要识别的图片上到服务器中，当服务器接收到需要定位的图片时，它会将图片编码为一维的全局描述向量，然后将这些信息与自己的地标数据库中的信息进行对比，通过一定的算法判识别照片中出现的中外著名地标、景点。然而此定位方法要求用户上传的图像必须包含全球范围内的著名建筑地标，定位准确率低，无法满足实际需求。

发明内容

为了解决跨视角图像定位匹配速度慢、匹配准确率低和覆盖范围小的问题，本发明公开了一种基于深度学习的地空跨视角图像实时匹配地理定位方法和系统，可以仅利用图片视觉信息进行地理定位，具有匹配速度快、定位精度高和覆盖范围广的特点。

本发明解决其技术问题所采用的技术方案是一种基于深度学习的跨视角影像实时匹配地理定位方法，包括以下步骤：

步骤S1，利用域对齐算法将空视图像与街景图像初步对齐；

步骤S2，构建孪生神经网络，所述孪生神经网络的结构包括两个提取特征图的卷积神经网络分支，后接全局描述向量编码模块，再接距离度量层；

步骤S3，在包含街景图像与遥感图像的已有数据集基础上训练步骤S2所述孪生神经网络；

步骤S4，构建具体应用场景的数据集，并继续在步骤S3训练所得的孪生神经网络基础上进行微调训练；

步骤S5，现场抓拍街景图片，并利用训练好的网络在步骤S4构建的数据集中检索与之匹配的卫星图像，从而完成街景图片的定位。

而且，所述步骤S1中的域对齐算法实现方式如下，

将街景图像近似转换为空视图像的逆极坐标转换，通过以下公式进行转换，

其中，

是原始街景图像像素坐标，

是合成空视图像像素坐标，W_a和H_a分别为原始空视图像的宽和高，W_s和H_s分别为原始街景图像的宽和高。

或者，所述步骤S1中的域对齐算法实现方式如下，

将空视图像近似转换为街景图像，通过以下公式进行转换，

其中，

是原始空视图像像素坐标，

是合成街景图像像素坐标，W_a和H_a分别为原始空视图像的宽和高，W_s和H_s分别为原始街景图像的宽和高。

而且，所述步骤S2的孪生神经网络具体结构实现如下，

两个提取特征图的卷积神经网络分支，采用卷积层与池化层的复合而成的网络；

全局描述向量编码模块为全连接层，其中每层的节点个数根据实际应用场景设定；

距离度量层计算全局描述向量的欧式距离。

而且，所述步骤S3的网络训练实现方式如下，

每次训练时，按三元组样本对训练网络，从训练集中随机选择一张来自同一地点拍摄的街景图像和卫星图像作为正样本对，再选择一张来自另一地点的卫星图像与前面选择的街景图像组成负样本对，这三张图像组成三元组输入进网络；

将样本输入网络，依次经过特征提取层，全局描述向量编码层，距离度量层，最后得出样本对之间的距离大小，并带入加权软间距排序损失；

网络根据损失函数反向传播以自动调整参数。

而且，步骤S5中利用训练好的网络判断街景图像地理位置，实现方式如下，

将拍摄的街景图片与卫星图片数据集中的图片输入训练好的网络中；

网络自动将两视角图片编码为一维的全局描述向量，并计算两向量之间的距离，最后从卫星图片数据集中检索出与查询街景图片特征距离最近的卫星图片，将其位置坐标赋与查询街景图片。

另一方面，本发明提供一种基于深度学习的跨视角影像实时匹配地理定位系统，用于实现如上所述的一种基于深度学习的跨视角影像实时匹配地理定位方法。

而且，包括以下模块，

第一模块，用于利用域对齐算法将空视图像与街景图像初步对齐；

第二模块，用于构建孪生神经网络，所述孪生神经网络的结构包括两个提取特征图的卷积神经网络分支，后接全局描述向量编码模块，再接距离度量层；

第三模块，用于在包含街景图像与遥感图像的已有数据集基础上训练第二模块所得孪生神经网络；

第四模块，用于构建具体应用场景的数据集，并继续在第三模块训练所得的孪生神经网络基础上进行微调训练；

第五模块，用于现场抓拍街景图片，并利用训练好的网络在第四模块构建的数据集中检索与之匹配的卫星图像，从而完成街景图片的定位。

或者，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于深度学习的跨视角影像实时匹配地理定位方法。

或者，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于深度学习的跨视角影像实时匹配地理定位方法。

本发明使用域对齐算法减小跨视角图片匹配难度，并利用多尺度注意力孪生神经网络对地空视角图片进行匹配定位。该问题的研究可以用于无人驾驶导航、AR/VR场景定位、以及弱GPS信号地区的移动设备导航等等。多尺度注意力孪生神经网络可以有充分考虑地空视角图像之间存在的尺度差异，通过大量的训练，希望能解决依靠视角信息完成图像定位的问题。

本发明能适用于各类场景下的跨视角图像地理定位，对实际应用中定位的精度和鲁棒性都有一定程度的提高。

附图说明

图1是本发明实施例方法流程图；

图2是本发明实施例孪生神经网络单次训练过程示意图

图3是本发明实施例多尺度注意力编码网络的结构示意图；

图4是本发明实施例域对齐算法示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，下面对本申请实施例中的技术方案进行清楚、完整地描述。应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

随着遥感卫星的不断发展，大量带有地理数据标签的图像被采集下来。因此，估计拍摄图像地理位置的问题被转换为了地面视角图像与空域视角卫星图像的匹配问题，即通过匹配到的带有地理坐标的卫星图像去确定拍摄图像的地理位置，从而实现全球范围内的图像定位。由于地空视角图像之间存在巨大的视角差异，预测照片的地理位置是一项非常艰巨的任务。由此，本发明基于深度学习技术提供了一种统一的跨视角图像地理定位流程，专门用于解决跨视角图像定位存在的问题，最终得到高定位精度、简单易部署、抗噪声能力强的跨视角图像定位标准流程。本流程主要分为四个阶段，首先是域对齐算法，利用极坐标转换将空视图像转换为街景图像或逆极坐标转换将街景视角转换为空域视角图像，以此减少两者间的域差异；其次是图像全局描述向量提取阶段，训练神经网络来对不同视角的图像进行编码以获得更加鲁棒的图像全局向量描述子；然后是大规模空视图像数据库构建阶段，即使用训练完成的神经网络将带有地理位置标签的空视图像转换为全局描述向量并构建空间索引，用于后续的检索和匹配；最后就是图像匹配定位阶段，即使用训练好的网络将拍摄的街景图像转换为全局描述向量，选择数据库中与其匹配相似度最高的候选空视图像作为匹配图像，再将匹好的空视图像地理坐标赋给街景图像从而完成跨视角图像地理定位。

如图1所示，实施例提供一种基于深度学习的跨视角图像定位方法，具体步骤如下：

步骤S1：利用域对齐算法将空视图像与街景图像初步对齐，以减少训练难度；

参见图4，所述步骤S1中的域对齐算法主要分为两种，在进行域对齐操作时选择其中的一种即可：

S1.1：将街景图像近似转换为空视图像的逆极坐标转换，通过以下公式进行转换：

其中，

是原始街景图像像素坐标，

S1.2：将空视图像近似转换为街景图像，通过以下公式进行转换：

其中，

是原始空视图像像素坐标，

步骤S2：构建多尺度注意力孪生神经网络，其结构为：两个结构完全一致但不共享权重的卷积神经网络分支以提取特征图，后接多尺度注意力编码模块，再接距离度量层；

S2.1：两分支特征提取网络为卷积神经网络，包含VGGNet、ResNet、DenseNet等在内所有卷积层与池化层的复合而成的网络均可使用。

实施例中优选采用的孪生神经网络如图3所示，其中每个卷积神经网络分支都如图3中下方的具体结构所示，使用去除原有分类层的VGG16网络作为骨架网络以提取图像的判别性特征。VGG16网络提取特征的过程总共分为五个阶段。每个阶段由一组不同大小的卷积核与最大池化层构成，最后输出不同尺度的_i(i∈{1,2,...,5})特征图，特征图逐渐减小而感受野逐渐增大，因此每个阶段包含着不同的层次信息，网络浅层包含图像的细节信息，深层则包含整体的语义信息。本发明通过使用多组固定大小的卷积核g_p去显式地挖掘特征空间的上下文信息，而为了挖掘多尺度信息使用了一组3×3、5×5和7×7的卷积核去捕捉不同尺度之下的特征空间上下文信息，多尺度信息提取公式如下所示：

d＝∪(d_i)

s＝∪(g_p(d)+c)

m＝f(s)

s′＝m×s

其中，∪()代表通道拼接操作，d_i代表输入第i个尺度的特征图，g_p(d)代表第p∈{3,5,7}组卷积核的输出，c代表偏置常数，s代表原始的多尺度特征图，f()代表输出通道为1的1×1的卷积操作，m代表注意力掩膜，s′代表最终的多尺度特征图。

S2.2：全局描述向量编码模块为全连接层，其中每层的节点个数根据实际应用场景设定，其主要功能就是将S2.1提取的特征图编码为一维的描述向量。假设f1为街景图像的全局描述向量，f2为卫星图像的全局描述向量。

S2.3：距离度量层为全局描述向量的欧式距离，通过以下公式计算两向量之间的距离：

其中，j,d,n分别是向量的维度标记，两向量之间的距离和向量的总长度，即f1^(j)表示向量的第j维度，f2^(j)表示向量的第j维度，j＝1,2,…,n。

步骤S3：在CVUSA数据集上训练步骤S2所述孪生神经网络，该数据集是一个包含各地数万对地面和航空/卫星图像的大型数据集。本数据集带有地理坐标的遥感空域图像和对应的地面街景视角图像是从谷歌街景和必应地图网站上搜集的。本数据集的训练集包含了35532对街景图像与遥感图像，测试集包含了8884对用于验证的街景图像与遥感图像。除此之外，CVUSA中的街景图像还提供了语义分割标签，由于本论文的方法不依赖于其他任何附加信息，因此不使用该语义分割标签；

如图2所示，所述步骤S3中的具体网络的训练步骤为：

S3.1：每次训练时，按三元组样本对训练网络，从训练集中随机选择一张来自同一地点拍摄的街景图像和卫星图像作为正样本对，再选择一张来自另一地点的卫星图像与前面选择的街景图像组成负样本对，这三张图像组成三元组输入进网络。

S3.2：将样本输入网络，依次经过特征提取层，全局描述向量编码层，距离度量层，最后得出样本对之间的距离大小，并带入加权软间距排序损失：

其中，α为加权常数10，d_pos为正样本对的距离，d_neg为负样本对的距离，e为自然对数函数的底数。

S3.3：网络根据损失函数反向传播以自动调整参数。

步骤S4：构建具体应用场景的数据集，并继续在步骤S3训练所得的孪生神经网络基础上进行微调训练；

所述步骤S4中的构建具体应用场景的数据集并进一步训练步骤为：

S4.1：根据应用需求在实际场地拍摄若干张不同地点的街景图像，并与对应地点的遥感图像组成小型数据集。

S4.2：与步骤S3所述的训练方法相同，在该小型数据集上调小初始化学习率然后进一步训练网络。

步骤S5：现场抓拍街景图片，并利用训练好的网络在S4构建的数据集中检索与之匹配的卫星图像，从而完成街景图片的定位。

所述步骤S5中利用训练好的网络判断街景图像地理位置的步骤为：

S5.1：将拍摄的街景图片与卫星图片数据库中的图片输入训练好的网络中。

S5.2：网络自动将两视角图片编码为一维的全局描述向量，并计算两向量之间的距离，最后从卫星图片数据集中检索出与查询街景图片特征距离最近的卫星图片，将其位置坐标赋与查询街景图片。

具体实施时，本发明技术方案提出的方法可由本领域技术人员采用计算机软件技术实现自动运行流程，实现方法的系统装置例如存储本发明技术方案相应计算机程序的计算机可读存储介质以及包括运行相应计算机程序的计算机设备，也应当在本发明的保护范围内。

在一些可能的实施例中，提供一种基于深度学习的跨视角影像实时匹配地理定位系统，包括以下模块，

在一些可能的实施例中，提供一种基于深度学习的跨视角影像实时匹配地理定位系统，包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如上所述的一种基于深度学习的跨视角影像实时匹配地理定位方法。

在一些可能的实施例中，提供一种基于深度学习的跨视角影像实时匹配地理定位系统，包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如上所述的一种基于深度学习的跨视角影像实时匹配地理定位方法。

以上所述仅是本发明的优选实施方案，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种基于深度学习的跨视角影像实时匹配地理定位方法，其特征在于，包括以下步骤：

步骤S1，利用域对齐算法将空视图像与街景图像初步对齐；

2.根据权利要求1所述的一种基于深度学习的跨视角影像实时匹配地理定位方法，其特征在于：所述步骤S1中的域对齐算法实现方式如下，

其中，

是原始街景图像像素坐标，

3.根据权利要求1所述的一种基于深度学习的跨视角影像实时匹配地理定位方法，其特征在于：所述步骤S1中的域对齐算法实现方式如下，

将空视图像近似转换为街景图像，通过以下公式进行转换，

其中，

是原始空视图像像素坐标，

4.根据权利要求1或2或3所述的一种基于深度学习的跨视角影像实时匹配地理定位方法，其特征在于：所述步骤S2的孪生神经网络具体结构实现如下，

距离度量层计算全局描述向量的欧式距离。

5.根据权利要求1或2或3所述的一种基于深度学习的跨视角影像实时匹配地理定位方法，其特征在于：所述步骤S3的网络训练实现方式如下，

网络根据损失函数反向传播以自动调整参数。

6.根据权利要求1或2或3所述的一种基于深度学习的跨视角影像实时匹配地理定位方法，其特征在于：步骤S5中利用训练好的网络判断街景图像地理位置，实现方式如下，

7.一种基于深度学习的跨视角影像实时匹配地理定位系统，其特征在于：用于实现如权利要求1-6任一项所述的一种基于深度学习的跨视角影像实时匹配地理定位方法。

8.根据权利要求7所述基于深度学习的跨视角影像实时匹配地理定位系统，其特征在于：包括以下模块，

9.根据权利要求7所述基于深度学习的跨视角影像实时匹配地理定位系统，其特征在于：包括处理器和存储器，存储器用于存储程序指令，处理器用于调用存储器中的存储指令执行如权利要求1-6任一项所述的一种基于深度学习的跨视角影像实时匹配地理定位方法。

10.根据权利要求7所述基于深度学习的跨视角影像实时匹配地理定位系统，其特征在于：包括可读存储介质，所述可读存储介质上存储有计算机程序，所述计算机程序执行时，实现如权利要求1-6任一项所述的一种基于深度学习的跨视角影像实时匹配地理定位方法。