CN115205715A - 一种跨视图地理定位方法、装置、电子设备及存储介质 - Google Patents
一种跨视图地理定位方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115205715A CN115205715A CN202210860525.7A CN202210860525A CN115205715A CN 115205715 A CN115205715 A CN 115205715A CN 202210860525 A CN202210860525 A CN 202210860525A CN 115205715 A CN115205715 A CN 115205715A
- Authority
- CN
- China
- Prior art keywords
- feature
- image
- target
- training
- aerial vehicle
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/42—Global feature extraction by analysis of the whole pattern, e.g. using frequency domain transformations or autocorrelation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/76—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Remote Sensing (AREA)
- Image Analysis (AREA)
Abstract
本申请提供一种跨视图地理定位方法、装置、电子设备及存储介质。所述方法包括:获取无人机图像和至少一张卫星图像;所述无人机图像包括有目标对象;根据所述无人机图像,通过神经网络模型,提取得到第一特征;根据所述卫星图像,通过神经网络模型,提取得到第二特征;每一所述卫星图像对应一个所述第二特征;计算所述第一特征与每一所述第二特征间的距离;响应于确定所述第一特征与目标第二特征间距离最短,确定所述目标第二特征对应的卫星影像为目标卫星影像,所述无人机图像与所述目标卫星图像匹配,所述目标卫星图像包括有目标对象;根据所述目标卫星图像中目标对象的位置信息,对所述无人机图像中目标对象进行地理定位。
Description
技术领域
本申请涉及地理定位技术领域,尤其涉及一种跨视图地理定位方法、装置、电子设备及存储介质。
背景技术
随着信息技术的不断发展,对目标的高精度地理定位在现代化战争和人们日常生活中都发挥着越来越重要的作用,跨视图地理定位技术应运而生。
跨视图地理定位技术包括建立无人机拍摄图像与卫星图像之间的视图关联模型,利用卫星图像自身包含的地理位置信息实现对无人机目标对象的定位。例如:对于一张无人机拍摄的图像,系统致力于寻找出包含相同目标对象的卫星图像,再利用卫星图像自身包含的地理位置信息,便可实现对无人机拍摄图像中目标对象的地理定位。
但是由于视觉关联图像的视点之间存在较大的偏差,导致跨视图图像对同一场景的描述可能存在较大的视觉差异,不利于模型提取出具有分辨能力的特征,因此需要构建视图信息关联模型从而实现对无人机对象的地理定位。现有技术中一般通过对无人机图像和卫星图像进行特征关联或在此基础上先对卫星图像及无人机图像进行校正和投影变换,缩小图像间图像间隙后再进行特征关联,从而构建视觉信息关联模型。然而,现有方法大多聚焦于图像中心信息,忽略了目标周围对象所蕴含的细节信息,导致定位精度较低。同时,现有技术往往利用人工提取特征的方式进行特征提取,降低了特征匹配的效率和精度。综上所述,相关技术仍然存在地理定位精度不高以及效率较低的问题。
发明内容
有鉴于此,本申请的目的在于提出一种跨视图地理定位方法、装置、电子设备及存储介质。
基于上述目的,本申请提供了一种跨视图地理定位方法,包括:
获取无人机图像和至少一张卫星图像;所述无人机图像包括有目标对象;
根据所述无人机图像,通过神经网络模型,提取得到第一特征;根据所述卫星图像,通过神经网络模型,提取得到第二特征;每一所述卫星图像对应一个所述第二特征;
计算所述第一特征与每一所述第二特征间的距离;
响应于确定所述第一特征与目标第二特征间距离最短,确定所述目标第二特征对应的卫星影像为目标卫星影像,所述无人机图像与所述目标卫星图像匹配,所述目标卫星图像包括有目标对象;
根据所述目标卫星图像中目标对象的位置信息,对所述无人机图像中目标对象进行地理定位。
可选的,所述特征包括全局特征和局部特征;
根据所述无人机图像提取得到第一特征;根据所述卫星图像,分别提取得到至少一个第二特征,包括:
根据所述无人机图像和所述卫星图像,利用训练后的神经网络模型,分别提取得到所述无人机图像的第一特征图和所述卫星图像的第二特征图;每一所述卫星图像对应一个所述第二特征图;
对所述第一特征图和所述第二特征图进行全局平均池化,得到所述第一目标的第一全局特征和所述第二目标的第二全局特征;
根据特征图分割、对齐与重排列策略,对所述第一特征图和所述第二特征图进行分割、对齐与重排列,得到所述第一目标的第一局部特征和所述第二目标的第二局部特征。
可选的,所述根据特征图分割、对齐与重排列策略,对所述第一特征图和所述第二特征图进行分割、对齐与重排列,得到所述第一目标的第一局部特征和所述第二目标的第二局部特征,包括:
对所述第一特征图和所述第二特征图中每个元素,计算得到热力值;
将所述第一特征图和所述第二特征图中的每个元素按照所述热力值分别进行排序后划分,得到包含第一预定数值个元素的第一特征区域和包含第二预定数值个元素的第二特征区域;
对所述包含第一预定数值个元素的第一特征区域和所述包含第二预定数值个元素的第二特征区域分别进行平均池化,得到第一预定数值个第一局部特征和第二预定数值个第二局部特征。
可选的,所述计算所述第一特征与每一所述第二特征间的距离,包括:
通过余弦距离,计算所述第一特征与每一所述第二特征间的距离。
可选的,所述神经网络模型的训练过程,包括:
获取训练用图像集;
根据所述训练用图像集,确定对应的分类结果集;
根据所述训练用图像集和所述分类结果集,构建训练集;
根据所述训练用图像集,通过所述神经网络模型,提取得到训练用特征向量集;
根据所述训练用特征向量集,通过图像分类层进行分类得到训练结果集;
根据所述分类结果集,通过损失函数对所述训练结果集进行验证,响应于确定所述损失函数值收敛,确定所述神经网络模型完成训练。
可选的,所述获取训练用图像集,包括:
获取训练用卫星图像和训练用无人机图像;
对所述卫星图像根据多采样策略,进行图像增广处理,得到预定数值张所述卫星图像。
可选的,所述根据所述训练结果集,通过损失函数进行验证,若所述损失函数值收敛,所述神经网络模型完成训练,包括:
根据所述训练用特征向量集和所述分类结果集,利用三元组函数,计算得到三元组损失值;
根据所述训练结果集和所述分类结果集,利用交叉熵损失函数,计算得到交叉熵损失值;
将所述交叉熵损失值和所述三元组损失值相加,得到总损失值,响应于确定所述总损失值收敛,确定所述神经网络模型完成训练。
基于同一发明构思,本说明书一个或多个实施例还提供了一种跨视图地理定位装置,包括:
获取模块,被配置为获取无人机图像和至少一张卫星图像;所述无人机图像包括有目标对象;
特征提取模块,被配置为根据所述无人机图像,通过神经网络模型,提取得到第一特征;根据所述卫星图像,通过神经网络模型,提取得到第二特征;
计算模块,被配置为计算所述第一特征与每一所述第二特征间的距离;
目标匹配模块,被配置为响应于确定所述第一特征与目标第二特征间距离最短,确定所述目标第二特征对应的卫星影像为目标卫星影像,所述无人机图像与所述目标卫星图像匹配,所述目标卫星图像包括有目标对象;
地理定位模块,被配置为根据所述目标卫星图像中目标对象的位置信息,对所述无人机图像中目标对象进行地理定位。
基于同一发明构思,本说明书一个或多个实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任意一项所述的跨视图地理定位方法。
基于同一发明构思,本说明书一个或多个实施例还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行上述任一所述的跨视图地理定位方法。
从上面所述可以看出,本申请提供的一个或多个实施例的一种跨视图地理定位方法、装置、电子设备及存储介质,通过分别对无人机图像和卫星图像进行全局特征和局部特征的提取,然后根据上述全局特征和局部特征对上述无人机图像和卫星图像进行匹配。匹配完成后,通过卫星图像上携带的地理定位信息赋予卫星图像中目标相同的定位信息。通过全局特征和局部特征的关联,综合考虑了图像的中心信息和其他区域所蕴含的信息。同时,神经网络技术的引用,提高了特征提取和匹配的效率和精度。进而提高了地理定位的效率和精度。
附图说明
为了更清楚地说明本申请或相关技术中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请一个或多个实施例的跨视图地理定位方法的流程示意图;
图2为本申请一个或多个实施例的跨视图地理定位方法的实验结果对照图;
图3为本申请一个或多个实施例的跨视图地理定位方法中神经网络模型的训练方法的流程示意图
图4为本申请一个或多个实施例的跨视图地理定位方法的模型结构示意图;
图5为本申请一个或多个实施例的跨视图地理定位方法的电子设备示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本申请进一步详细说明。
需要说明的是,除非另外定义,本申请实施例使用的技术术语或者科学术语应当为本申请所属领域内具有一般技能的人士所理解的通常意义。本申请实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接,而是可以包括电性的连接,不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系,当被描述对象的绝对位置改变后,则该相对位置关系也可能相应地改变。
如背景技术部分所述,相关技术中为进行跨视图地理定位,通常通过对待测目标不同视角的图像——如卫星图像和无人机图像——进行特征提取和匹配,然后进行地理定位。相关技术一般通过三维重建、triangulation等方法对比提取出的图像特征实现图像间的匹配。上述方法一般包括特征点的检测、特征点的描述与特征点的匹配三个部分。一些相关技术为提高特征提取的精度,会事先对不同视角的图像进行投影转换。但上述方法仍然存在特征提取精度不高,以及忽略了图像边缘信息进而导致定位精度不高的问题。
综合上述考虑,本申请一个或多个实施例提出一种跨视图地理定位方法,利用神经网络技术对无人机图像和卫星图像的全局特征、局部特征同时进行特征提取和匹配,进而提高地理定位的精度和效率。本申请一个或多个实施例提出的方法在University-1652公开数据集上的跨视图任务中取得了当前最佳水平,在无人机目标地理定位任务中,返回的第一个结果的正确率和所有结果的平均精确率分别比当前最好方法FSRA分别提高了4.88%和4.39%;在无人机导航任务中,返回的第一个结果的正确率和所有结果的平均精确率分别比当前最好方法FSRA分别提高了8.71%和5.74%。
以下,通过具体的实施例来详细说明本说明书一个或多个实施例的技术方案。
参考图1,本申请一个实施例的跨视图地理定位方法,包括以下步骤:
步骤S101:获取无人机图像和至少一张卫星图像;所述无人机图像包括有目标对象。
在本步骤中,首先获取无人机图像和至少一张卫星图像。其中无人机图像中包含有目标对象,根据后续步骤,通过将包含有相同目标对象的卫星图像和无人机图像进行匹配,然后利用卫星图像包含的位置信息对无人机图像中的目标对象进行地理定位。
步骤S102:根据所述无人机图像,通过神经网络模型,提取得到第一特征;根据所述卫星图像,通过神经网络模型,提取得到第二特征;每一所述卫星图像对应一个所述第二特征。
本步骤中,首先对无人机图像和卫星图像分别进行特征提取,得到第一特征和第二特征。在一些实施例中,上述特征包括全局特征和局部特征。通过全局特征和局部特征的关联,可以使得在进行特征匹配的同时考虑到图像中的上下文内容之间的联系,减少图像信息的损失。在一些实施例中,可以通过训练后的神经网络模型对图像进行特征提取。在一些实施例中,可以通过训练后的ConvNeXt卷积网络模型对图像进行特征提取。在一些实施例中,首先通过神经网络模型得到特征图,然后根据上述特征图进行全局特征和局部特征的提取。其中得到特征图并以此得到全局特征的步骤如下,输入x∈RH×W×C(H,W,C分别代表了高度,宽度,通道数)首先经过一个卷积层与归一化层,输出预定数值大小的中间特征图。然后进行下采样和ConvNeXt块对特征元素数据进行缩放。在得到特征图后,对其进行全局平局池化处理用以获取输入的全局特征。将上述操作记为FConvNeXt,则整个图像特征提取方法可以表示如下:
f=FConvNeXt(x)
其中,f表示网络提取到的特征,x表示输入图片。
在实现本申请的过程中,发明人发现可以根据输入图像的视图差异大小决定网络是否共享权值。由于无人机视图与卫星视图之间的差异较小,因此,在一些实施例中,在无人机与卫星视图图像进行匹配的过程中,采取共享权值的做法。利用上述方法,一方面可以增大网络的学习数据,另一方面可以提高模型的泛化能力。
在实现本发明的过程中,发明人发现,虽然获取鲁棒性强、富含语义信息的全局特征对解决跨视图问题富有成效,但是基于局部特征的方法对于抓取与表示细粒度的图像信息更具有优势,因此可以基于全局特征与局部特征共同进行图像匹配。在实现本发明的过程中,发明人发现根据全局特征图进行分割得到的局部特征图可以有效地抓取图像细节信息。在一些实施例中,在获取上述特征图的基础上,本文进一步对图像的局部特征进行提取。在一些实施例中,首先对特征图中的所有元素进行热力值计算,然后根据热力值大小对元素进行排序,之后将元素分为预定数值个大小相同的区域,例如,可以将元素分为2个大小相同的区域。在一些实施例中,通过下述步骤分割区特征图:首先,通过ConvNeXt Layer的前向传播过程FConvNeXt Layer(x),获得最后一层特征图输出L∈RB×N×S,其中B代表batchsize的大小,N代表特征图中的元素数目,S代表每个特征元素的向量长度,整个过程可以表示如下:
L=FConvNeXt Layer(x)
特征图中每个元素的热力值下式计算得到。
其中Pc表示特征图中第c个特征元素的热力值,Mi表示第c个特征元素的特征向量中的第i个值。然后,对P1-N的值进行降序排序,再根据排序顺序将元素划分为n个相等的区域,每个区域对应的元素个数如下:
其中Ni表示第i个区域的元素数目,表示向下取整函数。通过上述方法将特征图分为n个相等的特征区域。在一些实施例中,对特征图根据上述特征区域进行分割,得到n个区域特征图。在上述区域特征基础上进行特征对齐和重排列,得到局部特征。在一些实施例中,对n个特征区域对应元素的特征向量进行平均池化操作以获得该反映该区域的特征向量 Vi的计算表达式如下:
其中,n表示划分区域的数目。fi j表示第i个区域第j个元素的特征向量。得到特征向量后,通过分类层对每个特征向量进行分类。在一些实施例中,还可以利用TripletLoss损失函数缩小不同特征区域相同目标之间的距离。通过上述方式,可以得到区域特征。
步骤S103:计算所述第一特征与每一所述第二特征间的距离。
在本步骤中,对步骤S102中提取得到的第一特征和第二特征进行特征距离的计算。在一些实施例中,采用余弦相似度来衡量两个特征向量之间的距离:
其中,fA和fB表示图像A和B的特征,fAi和fBi表示特征向量中的元素。CS的值越大,两个向量之间的距离就越小,两幅图像之间的关联度就越大。
步骤S104:响应于确定所述第一特征与目标第二特征间距离最短,确定所述目标第二特征对应的卫星影像为目标卫星影像,所述无人机图像与所述目标卫星图像匹配,所述目标卫星图像包括有目标对象。
根据步骤S103得到无人机图像的第一特征与全部卫星图像的第二特征,分别计算上述第一特征与每一个第二特征之间的距离,并对比确定其中与之距离最短的第二特征对应的卫星图像。一般认为,特征距离越近,两张图像包含的特征元素越相似,包含相同目标对象的可能性越大。在一些实施例中,只需要通过图像匹配方法得到包含相同目标对象的两张不同视角的图像时,可以通过上述方式进行匹配。
图2为发明人利用University-1652数据集测试了本申请一个或多个实施例提供的方法与相关技术中一些方法在无人机目标地理定位方面和无人机导航方面的对比实验结果。无人机目标地理定位指给定一张无人机视图的图像或视频,该任务的目的是寻找一张最相似的卫星视图图像,利用该卫星图像中包含的地理位置信息实现对无人机视图图像中目标的地理定位。无人机导航指给定一张卫星视图图像,无人机致力于从它所经过的地方中寻找一个最相似的目标(即找到与该卫星图像最相似的无人机图像),之后根据无人机的航行历史,其可自动导航至该目标位置。由图5可知,对于无人机目标定位任务(Drone→Satellite),本文所提出的方法达到了87.31%Recall@1和89.21%AP;对于无人机导航任务(Satellite→Drone),本文所提出的方法达到了93.58%Recall@1和87.27%AP,其表现相对于当前效果最好的模型FSRA大约有6%AP的提升。当利用多采样策略对卫星视图图像进行数据增广处理时,实验结果也有了进一步的提升。当使用3倍多采样时,针对无人机目标定位任务(Drone→Satellite),Recall@1从87.13%提升到89.02%,AP从89.21%提升到90.76%;针对对于无人机导航任务(Satellite→Drone),Recall@1从87.27%提升到89.01%。
步骤S105:根据所述目标卫星图像中目标对象的位置信息,对所述无人机图像中目标对象进行地理定位。
根据步骤S104,确定与包含目标对象的无人机图像匹配的卫星图像后,由于卫星图像包含位置信息,因此可以利用卫星图像所包含的位置信息对无人机图像中的对象进行地理定位。
本申请一个或多个实施例中,通过神经网络模型提取得到图像特征,参考图3,训练上述神经网络模型包括如下步骤:
步骤S201:获取训练用图像集。
本步骤中获取训练用图像集,上述训练用图像集包括至少一张训练用无人机图像和至少一张训练用卫星图像。数据集中样本的大小和比例对模型训练非常重要。在一些实施例中,卫星图像的数量远少于无人机图像的数量,例如University-1652数据集中每个目标有1幅卫星图像,54幅无人机图像。上述情况具有不同类的样本数量不平衡的问题。为解决样本不平衡导致的模型偏差问题,可以基于多采样策略对数据集进行增广。增广方法可以包括随机移动、随机填充、随机切割、随机色彩抖动等。其不同的增广方法只要能达到相应的目的,不同的方法均不会影响本发明的保护范围。在一些实施例中,可以通过增广方法获取与无人机图像数量相同的卫星图像。在一些实施例中,发明人在实现本申请的过程中,发现当通过数据增广方法获取的卫星图像数量为3时,模型训练效果最佳。
步骤S202:根据所述训练用图像集,确定对应的分类结果集。
本步骤中,通过认为对步骤S201中的训练用图像进行分类,得到分类结果集。在实现本申请的过程中,申请人发现在跨视图图像匹配任务中可以认为每个目标是一个单独的类别,因此,可以将该图像检索问题转化为图像分类问题。
步骤S203:根据所述训练用图像集和所述分类结果集,构建训练集。
步骤S204:根据所述训练用图像集,通过所述神经网络模型,提取得到训练用特征向量集。
在本步骤中,利用神经网络模型,根据上述训练用图像集提取得到训练用特征向量集。在一些实施例中,可以利用ConvNeXt卷积网络模型完成训练。
步骤S205:根据所述训练用特征向量集,通过图像分类层进行分类得到训练结果集。
在本步骤中,根据上述特征向量集,利用过图像分类层,分类得到训练结果集。后续步骤中,将根据上述训练结果集以及分类结果集、训练用特征向量集,通过损失函数,评价模型训练情况。
步骤S206:根据所述分类结果集,通过损失函数对所述训练结果集进行验证,响应于确定所述损失函数值收敛,确定所述神经网络模型完成训练。
在本步骤中,通过计算训练用特征向量集、训练结果集以及分类结果集,通过损失函数,计算得到损失值。
在一些实施例中,可以利用三元损失函数(TripletLoss)减小相同类别不同视图图像之间的距离,增大不同类别不同视图图像之间的距离,三元损失函数计算公式为:
TL=max(d(a,p)-d(a,n)+M,0)
其中,a表示卫星/无人机视图图像的特征向量,p表示与a拥有相同标签的不同视图图像的特征向量,n表示与a拥有不同标签的不同视图图像的特征向量,M表示外边距,是一个常数。d(a,n)表示向量之间的距离。在实现本申请的过程中,发明人发现由于跨视图图像匹配任务的目的是匹配不同视图的图像,而不是为了区分来自相同视图的图像,因此,在应用三元损失计算损失值时,只需要考虑不同视图之间的图像。
在一些实施例中,可以应用欧氏距离d(a,x)=(a-x)2来衡量向量之间的距离。x指a或p。
在一些实施例中,可以通过损失函数计算特征图损失值的方式评估分类结果。在一些实施例中,在训练模型的过程中对每个特征分别应用交叉熵损失函数(Cross EntropyLoss)计算损失值,得到交叉熵损失值,计算公式为:
其中p(xi)是正确类别的分布,q(xi)是模型输出的分布,s是样本的个数。
总损失函数包括全局与局部特征的交叉熵损失函数与三元损失函数,计算公式为:
其中,LS表示损失函数之和,当k≠0时,表示局部区域编号,当k=0时,则代表全局特征。
需要说明的是,本申请实施例的方法可以由单个设备执行,例如一台计算机或服务器等。本实施例的方法也可以应用于分布式场景下,由多台设备相互配合来完成。在这种分布式场景的情况下,这多台设备中的一台设备可以只执行本申请实施例的方法中的某一个或多个步骤,这多台设备相互之间会进行交互以完成所述的方法。
需要说明的是,上述对本申请的一些实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于上述实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种跨视图地理定位装置。
参考图4,所述跨视图地理定位装置,包括:
获取模块11,被配置为获取无人机图像和至少一张卫星图像;所述无人机图像包括有目标对象;
特征提取模块12,被配置为根据所述无人机图像,通过神经网络模型,提取得到第一特征;根据所述卫星图像,通过神经网络模型,提取得到第二特征;
计算模块13,被配置为计算所述第一特征与每一所述第二特征间的距离;
目标匹配模块14,被配置为响应于确定所述第一特征与目标第二特征间距离最短,确定所述目标第二特征对应的卫星影像为目标卫星影像,所述无人机图像与所述目标卫星图像匹配,所述目标卫星图像包括有目标对象;
地理定位模块15,被配置为根据所述目标卫星图像中目标对象的位置信息,对所述无人机图像中目标对象进行地理定位。
为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本申请时可以把各模块的功能在同一个或多个软件和/或硬件中实现。
上述实施例的装置用于实现前述任一实施例中相应的跨视图地理定位方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上任意一实施例所述的跨视图地理定位方法。
图5示出了本实施例所提供的一种更为具体的电子设备硬件结构示意图,该设备可以包括:处理器1010、存储器1020、输入/输出接口1030、通信接口1040和总线1050。其中处理器1010、存储器1020、输入/输出接口1030和通信接口1040通过总线1050实现彼此之间在设备内部的通信连接。
处理器1010可以采用通用的CPU(Central Processing Unit,中央处理器)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本说明书实施例所提供的技术方案。
存储器1020可以采用ROM(Read Only Memory,只读存储器)、RAM(Random AccessMemory,随机存取存储器)、静态存储设备,动态存储设备等形式实现。存储器1020可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器1020中,并由处理器1010来调用执行。
输入/输出接口1030用于连接输入/输出模块,以实现信息输入及输出。输入输出/模块可以作为组件配置在设备中(图中未示出),也可以外接于设备以提供相应功能。其中输入设备可以包括键盘、鼠标、触摸屏、麦克风、各类传感器等,输出设备可以包括显示器、扬声器、振动器、指示灯等。
通信接口1040用于连接通信模块(图中未示出),以实现本设备与其他设备的通信交互。其中通信模块可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信。
总线1050包括一通路,在设备的各个组件(例如处理器1010、存储器1020、输入/输出接口1030和通信接口1040)之间传输信息。
需要说明的是,尽管上述设备仅示出了处理器1010、存储器1020、输入/输出接口1030、通信接口1040以及总线1050,但是在具体实施过程中,该设备还可以包括实现正常运行所必需的其他组件。此外,本领域的技术人员可以理解的是,上述设备中也可以仅包含实现本说明书实施例方案所必需的组件,而不必包含图中所示的全部组件。
上述实施例的电子设备用于实现前述任一实施例中相应的跨视图地理定位方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
基于同一发明构思,与上述任意实施例方法相对应的,本申请还提供了一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上任一实施例所述的跨视图地理定位方法。
本实施例的计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
上述实施例的存储介质存储的计算机指令用于使所述计算机执行如上任一实施例所述的跨视图地理定位方法,并且具有相应的方法实施例的有益效果,在此不再赘述。
所属领域的普通技术人员应当理解:以上任何实施例的讨论仅为示例性的,并非旨在暗示本申请的范围(包括权利要求)被限于这些例子;在本申请的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本申请实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。
另外,为简化说明和讨论,并且为了不会使本申请实施例难以理解,在所提供的附图中可以示出或可以不示出与集成电路(IC)芯片和其它部件的公知的电源/接地连接。此外,可以以框图的形式示出装置,以便避免使本申请实施例难以理解,并且这也考虑了以下事实,即关于这些框图装置的实施方式的细节是高度取决于将要实施本申请实施例的平台的(即,这些细节应当完全处于本领域技术人员的理解范围内)。在阐述了具体细节(例如,电路)以描述本申请的示例性实施例的情况下,对本领域技术人员来说显而易见的是,可以在没有这些具体细节的情况下或者这些具体细节有变化的情况下实施本申请实施例。因此,这些描述应被认为是说明性的而不是限制性的。
尽管已经结合了本申请的具体实施例对本申请进行了描述,但是根据前面的描述,这些实施例的很多替换、修改和变型对本领域普通技术人员来说将是显而易见的。例如,其它存储器架构(例如,动态RAM(DRAM))可以使用所讨论的实施例。
本申请实施例旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此,凡在本申请实施例的精神和原则之内,所做的任何省略、修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (10)
1.一种跨视图地理定位方法,其特征在于,包括:
获取无人机图像和至少一张卫星图像;所述无人机图像包括有目标对象;
根据所述无人机图像,通过神经网络模型,提取得到第一特征;根据所述卫星图像,通过神经网络模型,提取得到第二特征;每一所述卫星图像对应一个所述第二特征;
计算所述第一特征与每一所述第二特征间的距离;
响应于确定所述第一特征与目标第二特征间距离最短,确定所述目标第二特征对应的卫星影像为目标卫星影像,所述无人机图像与所述目标卫星图像匹配,所述目标卫星图像包括有目标对象;
根据所述目标卫星图像中目标对象的位置信息,对所述无人机图像中目标对象进行地理定位。
2.根据权利要求1所述的跨视图地理定位方法,其特征在于,所述特征包括全局特征和局部特征;
根据所述无人机图像,通过神经网络模型,提取得到第一特征;根据所述卫星图像,通过神经网络模型,提取得到第二特征,包括:
根据所述无人机图像和所述卫星图像,利用训练后的神经网络模型,分别提取得到所述无人机图像的第一特征图和所述卫星图像的第二特征图;每一所述卫星图像对应一个所述第二特征图;
对所述第一特征图和所述第二特征图进行全局平均池化,得到所述第一目标的第一全局特征和所述第二目标的第二全局特征;
根据特征图分割、对齐与重排列策略,对所述第一特征图和所述第二特征图进行分割、对齐与重排列,得到所述第一目标的第一局部特征和所述第二目标的第二局部特征。
3.根据权利要求2所述的跨视图地理定位方法,其特征在于,所述根据特征图分割、对齐与重排列策略,对所述第一特征图和所述第二特征图进行分割、对齐与重排列,得到所述第一目标的第一局部特征和所述第二目标的第二局部特征,包括:
对所述第一特征图和所述第二特征图中每个元素,计算得到热力值;
将所述第一特征图和所述第二特征图中的每个元素按照所述热力值分别进行排序后划分,得到包含第一预定数值个元素的第一特征区域和包含第二预定数值个元素的第二特征区域;
对所述包含第一预定数值个元素的第一特征区域和所述包含第二预定数值个元素的第二特征区域分别进行平均池化,得到第一预定数值个第一局部特征和第二预定数值个第二局部特征。
4.根据权利要求1所述的跨视图地理定位方法,其特征在于,所述计算所述第一特征与每一所述第二特征间的距离,包括:
通过余弦距离,计算所述第一特征与每一所述第二特征间的距离。
5.根据权利要求1所述的所述的跨视图地理定位方法,其特征在于,所述神经网络模型的训练过程,包括:
获取训练用图像集;
根据所述训练用图像集,确定对应的分类结果集;
根据所述训练用图像集和所述分类结果集,构建训练集;
根据所述训练用图像集,通过所述神经网络模型,提取得到训练用特征向量集;
根据所述训练用特征向量集,通过图像分类层进行分类得到训练结果集;
根据所述分类结果集,通过损失函数对所述训练结果集进行验证,响应于确定所述损失函数值收敛,确定所述神经网络模型完成训练。
6.根据权利要求5所述的所述的跨视图地理定位方法,其特征在于,所述获取训练用图像集,包括:
获取训练用卫星图像和训练用无人机图像;
对所述卫星图像根据多采样策略,进行图像增广处理,得到预定数值张所述卫星图像。
7.根据权利要求5所述的所述的跨视图地理定位方法,其特征在于,所述根据所述分类结果集,通过损失函数对所述训练结果集进行验证,响应于确定所述损失函数值收敛,确定所述神经网络模型完成训练,包括:
根据所述训练用特征向量集和所述分类结果集,利用三元组函数,计算得到三元组损失值;
根据所述训练结果集和所述分类结果集,利用交叉熵损失函数,计算得到交叉熵损失值;
将所述交叉熵损失值和所述三元组损失值相加,得到总损失值,响应于确定所述总损失值收敛,确定所述神经网络模型完成训练。
8.一种跨视图地理定位装置,其特征在于,包括:
获取模块,被配置为获取无人机图像和至少一张卫星图像;所述无人机图像包括有目标对象;
特征提取模块,被配置为根据所述无人机图像,通过神经网络模型,提取得到第一特征;根据所述卫星图像,通过神经网络模型,提取得到第二特征;
计算模块,被配置为计算所述第一特征与每一所述第二特征间的距离;
目标匹配模块,被配置为响应于确定所述第一特征与目标第二特征间距离最短,确定所述目标第二特征对应的卫星影像为目标卫星影像,所述无人机图像与所述目标卫星图像匹配,所述目标卫星图像包括有目标对象;
地理定位模块,被配置为根据所述目标卫星图像中目标对象的位置信息,对所述无人机图像中目标对象进行地理定位。
9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任意一项所述的方法。
10.一种非暂态计算机可读,所述非暂态计算机可读存储介质存储计算机指令,其特征在于,所述计算机指令用于使计算机执行权利要求1至7任一所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210860525.7A CN115205715A (zh) | 2022-07-21 | 2022-07-21 | 一种跨视图地理定位方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210860525.7A CN115205715A (zh) | 2022-07-21 | 2022-07-21 | 一种跨视图地理定位方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115205715A true CN115205715A (zh) | 2022-10-18 |
Family
ID=83583355
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210860525.7A Pending CN115205715A (zh) | 2022-07-21 | 2022-07-21 | 一种跨视图地理定位方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115205715A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078985A (zh) * | 2023-10-17 | 2023-11-17 | 之江实验室 | 一种景象匹配方法、装置、存储介质及电子设备 |
-
2022
- 2022-07-21 CN CN202210860525.7A patent/CN115205715A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078985A (zh) * | 2023-10-17 | 2023-11-17 | 之江实验室 | 一种景象匹配方法、装置、存储介质及电子设备 |
CN117078985B (zh) * | 2023-10-17 | 2024-01-30 | 之江实验室 | 一种景象匹配方法、装置、存储介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8768107B2 (en) | Matching an approximately located query image against a reference image set | |
US8144920B2 (en) | Automated location estimation using image analysis | |
US9076069B2 (en) | Registering metadata apparatus | |
US10311595B2 (en) | Image processing device and its control method, imaging apparatus, and storage medium | |
EP2711670A1 (en) | Visual localisation | |
CN110782531A (zh) | 处理三维点云数据的方法和计算设备 | |
Vishal et al. | Accurate localization by fusing images and GPS signals | |
US11341183B2 (en) | Apparatus and method for searching for building based on image and method of constructing building search database for image-based building search | |
CN113340312A (zh) | 一种ar室内实景导航方法及系统 | |
CN114241464A (zh) | 基于深度学习的跨视角影像实时匹配地理定位方法及系统 | |
CN115205715A (zh) | 一种跨视图地理定位方法、装置、电子设备及存储介质 | |
US20150254527A1 (en) | Methods for 3d object recognition and registration | |
CN117726747A (zh) | 补全弱纹理场景的三维重建方法、装置、存储介质和设备 | |
CN115952248A (zh) | 终端设备的位姿处理方法、装置、设备、介质及产品 | |
CN114943766A (zh) | 重定位方法、装置、电子设备及计算机可读存储介质 | |
CN112615993A (zh) | 深度信息获取方法、双目摄像模组、存储介质及电子设备 | |
US20150149458A1 (en) | Method for generating blocks for video searching and method for processing queries based on blocks generated thereby | |
JP7435907B2 (ja) | 画像マッチング装置、制御方法、及びプログラム | |
CN113535996B (zh) | 一种基于航拍图像的道路图像数据集制备方法及装置 | |
CN111340090B (zh) | 图像特征比对方法及装置、设备、计算机可读存储介质 | |
CN115982399B (zh) | 图像查找方法、移动设备、电子设备、及计算机程序产品 | |
Yang et al. | a 3d Map Aided Deep Learning Based Indoor Localization System for Smart Devices | |
CN117975044A (zh) | 基于特征空间的图像处理方法及装置 | |
CN117745830A (zh) | 车辆初定位方法、装置、设备及存储介质 | |
AU2013248183B2 (en) | Matching an approximately located query image against a reference image set |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |