CN116797948A - 一种用于无人机图像和卫星图像的跨视角景象匹配方法 - Google Patents
一种用于无人机图像和卫星图像的跨视角景象匹配方法 Download PDFInfo
- Publication number
- CN116797948A CN116797948A CN202310691371.8A CN202310691371A CN116797948A CN 116797948 A CN116797948 A CN 116797948A CN 202310691371 A CN202310691371 A CN 202310691371A CN 116797948 A CN116797948 A CN 116797948A
- Authority
- CN
- China
- Prior art keywords
- unmanned aerial
- aerial vehicle
- feature
- satellite
- image
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 239000013598 vector Substances 0.000 claims abstract description 75
- 238000012549 training Methods 0.000 claims abstract description 34
- 238000013528 artificial neural network Methods 0.000 claims abstract description 10
- 238000010586 diagram Methods 0.000 claims description 21
- 238000007781 pre-processing Methods 0.000 claims description 19
- 230000006870 function Effects 0.000 claims description 18
- 238000000605 extraction Methods 0.000 claims description 15
- 230000008569 process Effects 0.000 claims description 15
- 238000004364 calculation method Methods 0.000 claims description 13
- 230000002787 reinforcement Effects 0.000 claims description 12
- 238000013507 mapping Methods 0.000 claims description 9
- 238000011176 pooling Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 claims description 5
- 230000004927 fusion Effects 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 4
- 238000012360 testing method Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 239000012141 concentrate Substances 0.000 claims description 3
- 210000002569 neuron Anatomy 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 230000006872 improvement Effects 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 4
- 238000013135 deep learning Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000002411 adverse Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000005286 illumination Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000000873 masking effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 230000036544 posture Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000005728 strengthening Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/17—Terrestrial scenes taken from planes or by drones
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
- G06N3/0455—Auto-encoder networks; Encoder-decoder networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/764—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/10—Terrestrial scenes
- G06V20/13—Satellite images
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Evolutionary Computation (AREA)
- Multimedia (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Molecular Biology (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Remote Sensing (AREA)
- Astronomy & Astrophysics (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开了一种用于无人机图像和卫星图像的跨视角景象匹配方法,包括分别获得至少上千张无人机图和对应场景的卫星图作为数据集,将数据集中的无人机图转换为特征向量,卫星图也转换为特征向量,根据这些特征向量训练基于孪生神经网络的景象匹配模型,得到训练好的景象匹配模型等步骤,本发明通过设计基于局部特征与全局特征的混合架构神经网络模型,通过HBP加强特征表示,实现了提高模型推理阶段的精度和大幅提高了在不同环境和姿态下的鲁棒性的技术效果,基于Identityloss和Circleloss的联合度量损失函数,实现了提高景象匹配模型的收敛速度,以及帮助景象匹配模型学习到更好的权重参数的技术效果。
Description
技术领域
本发明属于无人机导航和定位领域,具体地说,公开了一种用于无人机图像和卫星图像的跨视角景象匹配方法。
背景技术
跨视角图像匹配的目的是将来自同一目标场景,但是不同视角的获取的图像匹配起来,从而推断该地点的位置,近年来,随着无人机技术的快速发展,如何通过跨视角匹配技术帮助无人机定位导航已经成为了一个研究热点。常见的跨视角匹配的过程如下:在某一视角的待检索数据集中给出一张待检索的图片,匹配系统能够在另一视角的候选数据集中找到同一地点下的图片。对卫星和无人机平台下的跨视角匹配而言,主要需要解决两个任务:1.无人机定位:给出一张无人机视角下的图像,寻找最匹配的卫星视角图像。2.无人机导航:给出一张卫星视角下图像,寻找到最匹配的无人机图像。因此,跨视角匹配技术的核心是通过训练深度学习模型,学习不同视角下图像的不变特征,以提高匹配系统的准确度和鲁棒性。
跨视角匹配算法经历了从最初的提取图像的点特征描述符到通过深度卷积网络提取图像的全局特征的发展过程,VLAD(vector of locally aggregated descriptors)是经典的图像检索算法,也可应用于跨视角景象匹配领域,VLAD把聚集起来的点局部描述子构造成一个向量,用该向量作为图像的全局描述子,再根据特征向量对图像做最优特征匹配。Arandjelovic在2016年提出了NetVLAD,which用神经网络改进了VLAD,将VLAD中hand-craft描述子描述的局部特征用卷积神经网络提取的全局特征代替,并将VLAD中不可微分的hard-assignment部分,替换为可微分的softmax函数,使得NetVLAD能通过训练优化参数。
得益于近些年来深度卷积神经网络打下的基础,基于深度学习的模型被广泛地应用于提取图像的特征。Workman在2015年研究发现,由深度卷积网络提取的特征具有可区分度高,容易计算的特点,实验结果显示在Place数据集上比点特征的表现更好,为接下来的跨视角匹配研究指明了方向。随着University1652数据集的发布,近一年来,基于无人机视角和卫星视角的跨视角匹配算法也取得了一定进展。Ding在2021年提出了LCM(a cross-view matching method based on location classification)。在训练阶段,LCM把图像检索问题视为分类问题进行训练,并考虑了不同特征尺寸对最终结果的影响,结果表明LCM较University1652的基线模型提升了5-10%。
Wang在2021年考虑了邻近区域的上下文信息后,提出了LPN(Local PatternNetwork)深度神经网络,其采用了方环特征分割策略,根据图像中心的距离提高注意力,这种策略对旋转变化具有良好的鲁棒性,极大的提高了匹配的效率。Tian在2021年提出了一种综合考虑卫星视图和周边区域信息空间对应关系的方法,该方法包含两个部分,1.通过透视变换将无人机的倾斜视图转换为垂直视图。2.通过条件生成对抗网络使得无人机视角的图像更加接近卫星图,实验结果显示该方法在LPN的基础上提升了5%。Zhuang在2021年为了消除不同视角下获取到图像的差异,参考multi-scale block attention(MSBA)的思路,将不同视图的特征通过多分支的结果提取,提高特征提取的效率。
现有技术的缺陷和不足:
1、通过提取图像角点特征进行匹配的传统特征提取算法鲁棒性较差,易受光照、遮掩等不利因素影响,特别是当无人机在较低的高度飞行时,由于采集到的图像与卫星视角的差异过大,往往会出现匹配系统失效或出现大量误匹配的问题。
2、现有的深度学习方法的匹配精度仍然较低,大多数网络依旧采用了硬注意力策略,容易导致图像语义信息的丢失,对后续的特征匹配效果产生负面影响。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种用于无人机图像和卫星图像的跨视角景象匹配方法。
本发明的目的可以通过以下技术方案来实现:
一种用于无人机图像和卫星图像的跨视角景象匹配方法,该方法包括以下步骤:
步骤1:分别获得至少上千张无人机图和对应场景的卫星图作为数据集;
步骤2:将数据集中的无人机图转换为特征向量,卫星图也转换为特征向量,根据这些特征向量训练基于孪生神经网络的景象匹配模型,得到训练好的景象匹配模型;
步骤3:根据训练好的景象匹配模型的预处理层,对无人机图进行预处理得到预处理的无人机图,卫星图也进行预处理得到预处理的卫星图;
步骤4:将预处理后的无人机图输入至景象匹配模型的主干网络层中,对进行无人机图进行景象特征提取,获得初级无人机特征图,将预处理后的卫星图输入至景象匹配模型的主干网络层中,卫星图也进行景象特征提取,获得初级卫星特征图;
步骤5:根据HBP模块对无人机特征图进行特征加强并输入MLP层统一特征维度,得到加强后的无人机特征图,根据HBP模块对卫星特征图也进行特征加强并输入MLP层统一特征维度,得到加强后的卫星特征图;
步骤6:计算加强后的无人机特征图和加强后的卫星特征图之间的特征距离,执行特征匹配以实现无人机定位和导航任务。
作为进一步地改进,本发明所述的步骤2中,将数据集中的无人机图转换为特征向量,卫星图也转换为特征向量,根据这些特征向量训练基于孪生神经网络的景象匹配模型,得到训练好的景象匹配模型,景象匹配模型包括预处理层、特征提取器以及匹配层,所述的特征提取器采用CNN和Transformer层的混合架构。
作为进一步地改进,本发明所述的步骤3中,根据训练好的景象匹配模型的预处理层,对无人机图进行预处理得到预处理的无人机图,卫星图也进行预处理得到预处理的卫星图的过程具体为:
将图像的尺寸统一,并采用随机切块以及随机水平翻转的图像增强操作,随机切块在图像的随机位置,按照设定的大小进行裁剪,随机水平翻转通过一定的概率水平翻转图像。
作为进一步地改进,本发明所述的步骤4中,将预处理后的无人机图输入至景象匹配模型的主干网络层中,对进行无人机图进行景象特征提取,获得初级无人机特征图,将预处理后的卫星图输入至景象匹配模型的主干网络层中,卫星图也进行景象特征提取,获得初级卫星特征图的过程具体包括以下步骤:
步骤401:将图像输入至ResNetV2,输出维度为(1024,24,24)的特征图,将输入的特征图进行方格化,并将方格进行线性映射;
步骤402:将线性映射得到的向量输入12层连续的Transformer层,当处于训练阶段时,Transformer层将输出的向量送入到分类层的全连接层和softmax层进行分类和训练,得到每个类的概率,以训练分类网络的形式提高景象匹配模型的特征提取能力,当处于测试阶段时,Transformer网络块直接导出特征并映射至512维,作为该图像的特征图。
作为进一步地改进,本发明所述的步骤401中,ResNetV2经过了4个Block,每一个Block中分别有3、4、6和3个Bottleneck,在Bottleneck中采用预激活的残差单元提高网络的训练效率,每一个Block输出的特征图以特征金字塔的形式依次增加其特征图的深度,以提高网络结构计算时的有效信息密度,并将网络注意力集中至目标场景中,即提取图像的局部特征。
随后采用卷积核大小为1,步长为1的卷积对特征图进行卷积操作,即切割为1x1的方格得到特征向量,以将特征图转换为Transformer层能够处理的特征向量
作为进一步地改进,本发明所述的步骤402中,Transformer层的输入为方格化的特征向量,引入类似flag的class token和用以对每一方格进行编号的positionembedding,进而送入Transformer block中,Transformer block的结构包括Layer Norm、多头注意力机制、drop out层和MLP层,Transformer层通过多头注意力机制使得网络在方格化的向量中将注意力转移至全局。
作为进一步地改进,本发明所述的步骤402中,当处于训练阶段时,Transformer层输出的向量通过分类层中全连接层的神经元映射至需要分类的目标场景数,并通过softmax层对输出的数值进行归一化处理,基于损失函数和损失函数的联合度量损失函数优化景象匹配模型在训练时得到的权重参数。
作为进一步地改进,本发明所述的Cross-entropy损失函数的计算公式为:
其中,为景象匹配模型的预测值,y为标签值,/>为预测值/>被识别为y类的预测概率,/>为标签的列向,/>为样本的列向量,i为场景总数的索引,j为景象匹配模型输出的第j个向量,c为本轮训练的第c个样本,C为训练的样本数;
所述的Circle Loss损失函数的计算公式为:
其中,sij表示样本xi是否属于类别j,dij表示样本xi与类别j的中心点的欧几里得距离,m表示一个预先定义的margin,可以控制同一类别内样本的紧密度和不同类别之间的分离度,通过最小化Circle Loss,可以使得同一类别内的样本尽可能地聚集在一个圆形区域内,同时将不同类别之间的距离尽可能地拉开,从而提高匹配的准确率。
作为进一步地改进,本发明所述的步骤5中,根据HBP模块对无人机特征图进行特征加强并输入MLP层统一特征维度,得到加强后的无人机特征图,根据HBP模块对卫星特征图也进行特征加强并输入MLP层统一特征维度,得到加强后的卫星特征图的过程具体包括以下步骤:
首先通过HBP(Hierarchical Bilinear Pooling)模块对主干网络输出的特征进行加强,具体流程是将ResNet输出的(1024,24,24)的特征图与,主干网络输出的(1024,24,24)的特征图输入HBP模块进行融合加强,HBP模块的结构如图2所示,HBP的实现分为两个步骤:双线性变换和空间全局池化。在第一步中,本发明将fj表示为从输入图像中提取的特征,Fconv表示为CNN模块,其中包含卷积层、批量归一化层和Relu层,具体公式的计算方法如下:
fj=Fconv(fj)
在第二步中,是全局特征,/>是局部特征,×表示两个向量的外积:
然后,对融合特征进行归一化,生成最终的特征向量/>此时的∈=1×10-12:
把HBP合并的特征图输入MLP(Multilayer Perceptron)模块,MLP的结构如图3所示,Dense代表全连接层,Gelu代表激活函数,BN表示批量归一化,Drop out表示部分丢弃操作。MLP执行特征维度统一操作,将HBP输出特征的维度统一为512维。
作为进一步地改进,本发明所述的步骤6中,计算加强后的无人机特征图和加强后的卫星特征图之间的特征距离,执行特征匹配以实现无人机定位和导航任务的过程具体为:
将得到的卫星图的特征向量与无人机图的特征向量采用欧氏距离衡量距离,将距离最接近的特征向量对作为匹配,当执行无人机定位任务时,计算一张无人机图像与所有卫星图像之间的距离,选择其中距离最近的一组向量作为匹配对,当执行无人机导航任务时,计算一张卫星图像与所有无人机图像之间的距离,选择其中距离最近的一组向量作为匹配对;
所述的欧氏距离的计算公式为:
其中,p和q分别表示两个n维向量,pi和qi表示向量中的第i个元素。
本发明针对现有的跨视角匹配方法不适用于无人机与卫星视角之间的跨视角图像匹配处理的技术问题,基于无人机图像和卫星图像的相似性,利用局部特征与全局特征相结合的思想,以实现卫星视角图像与无人机视角图像的相互匹配,通过构建深度学习模型(景象匹配模型)提取不同图像的深度特征,深度特征对旋转和光照等不利因素具有较强的鲁棒性,能够帮助无人机在低空进行定位和导航工作,景象匹配模型采用了CNN与Transformer层的混合架构作为特征提取器,CNN能够提取图像的局部特征,而Transformer层专注于提取图像的全局特征,基于混合架构的深度学习能够有效解决语义信息丢失的问题,特别地,本发明还提出了HBP模块以及基于Identity Loss函数与Circle Loss函数的联合度量优化函数,用以帮助深度学习模型在训练时得到更好的参数。
与现有技术相比,本发明具有以如下有益效果:
1、本发明采用了基于随机水平翻转和随机裁切的图像增广技术,以防止景象匹配模型训练时出现过拟合的情况;
2、本发明通过设计基于局部特征与全局特征的混合架构神经网络模型,通过HBP加强特征表示,实现了提高模型推理阶段的精度和大幅提高了在不同环境和姿态下的鲁棒性的技术效果;
3、本发明通过设计基于Identity loss和Circle loss的联合度量损失函数,实现了提高景象匹配模型的收敛速度,以及帮助景象匹配模型学习到更好的权重参数的技术效果。
附图说明
图1是跨视角景象匹配的流程图
图2是基于ResNet和Transformer主干网络的总体结构图;
图3是HBP模块结构图;
图4是MLP模块结构图。
具体实施方式
下面通过结合说明书附图,通过具体实施例,对本发明的技术方案作进一步地说明:
本发明的目的是针对现有的景象匹配算法鲁棒性差,匹配精度低的问题,提出了一种用于无人机图像和卫星图像的跨视角景象匹配方法,图1是本发明的跨视角景象匹配流程图:
步骤1:分别获得至少上千张无人机图和对应场景的卫星图作为数据集;
步骤2:将数据集中的无人机图转换为特征向量,卫星图也转换为特征向量,根据这些特征向量训练基于孪生神经网络的景象匹配模型,得到训练好的景象匹配模型;
步骤3:根据训练好的景象匹配模型的预处理层,对无人机图进行预处理得到预处理的无人机图,卫星图也进行预处理得到预处理的卫星图;
步骤4:将预处理后的无人机图输入至景象匹配模型的主干网络层中,对进行无人机图进行景象特征提取,获得初级无人机特征图,将预处理后的卫星图输入至景象匹配模型的主干网络层中,卫星图也进行景象特征提取,获得初级卫星特征图;
步骤5:根据HBP模块对无人机特征图进行特征加强并输入MLP层统一特征维度,得到加强后的无人机特征图,根据HBP模块对卫星特征图也进行特征加强并输入MLP层统一特征维度,得到加强后的卫星特征图;
步骤6:计算加强后的无人机特征图和加强后的卫星特征图之间的特征距离,执行特征匹配以实现无人机定位和导航任务。
在步骤1中,分别获得至少上千张无人机图像和对应场景的卫星图像作为数据集。
本实施例通过无人机在多个目标地点实地采集航拍视频后,通过平均抽帧获取图像数据,然后通过采集相同目标地点的17级卫星瓦片地图作为卫星图像。
在步骤2中,将数据集中的无人机图转换为特征向量,卫星图也转换为特征向量,根据这些特征向量训练基于孪生神经网络的景象匹配模型,得到训练好的景象匹配模型;
在本实施例中,采用随机梯度下降训练模型,学习率为0.01,权重衰退值为0.0001,训练轮数为80轮,保存训练过程中损失函数值最小的一组参数作为模型,景象匹配模型的总体结构如图2所示。
在步骤3中,根据训练好的景象匹配模型的预处理层,对无人机图进行预处理得到预处理的无人机图,卫星图也进行预处理得到预处理的卫星图;;
本实施例在预处理阶段中,孪生神经网络对图像进行数据增强,以防止模型训练时出现过拟合,随机切块具体为在图像的随机位置,按照128像素的大小进行裁剪,这种数据增强的方式能够提高无人机仅仅拍摄到目标场景一个侧面的情况下对特征的提取能力;
随机水平翻转具体为将以给定的概率水平(随机)翻转图像,有利于无人机在不同角度拍摄图像时与卫星图的角度没有对齐的情况下的特征提取能力。
在步骤4中,将预处理后的无人机图输入至景象匹配模型的主干网络层中,对进行无人机图进行景象特征提取,获得初级无人机特征图,将预处理后的卫星图输入至景象匹配模型的主干网络层中,卫星图也进行景象特征提取,获得初级卫星特征图的过程具体包括以下步骤:
步骤401:图像进入CNN架构的ResNetV2,经过多个瓶颈模块,输出维度为(1024,24,24)的特征图,将输入的特征图切割为1×1的方格,并将方格进行线性映射;
步骤402:将线性映射得到的向量输入12层连续的Transformer网络块,如果在训练阶段,把分类头的向量送入到全连接层和softmax层进行分类和训练,如果是在测试阶段,直接导出特征并映射至512维作为该图像的特征向量;
在步骤401中,ResNetV2经过了3个瓶颈模块,每一个瓶颈模块中分别有3、4、9残差块,在残差块中采用预激活的残差单元提高网络的训练效率,每一个瓶颈模块输出的特征图以特征金字塔的形式依次增加其特征图的深度,以提高网络结构计算时的有效信息密度,并将网络注意力集中至目标场景中,即提取图像的局部特征。
随后将ResNetV2输出的特征图切割为1×1方格,具体操作是采用卷积核大小为1,步长为1的卷积对特征图进行卷积操作,得到(1024,768)的特征向量,方格化将特征图转换为Transformer层能够处理的特征向量,并将后续网络注意力转移到全局上。
在步骤402中,Transformer层的输入为方格化的特征向量,在再上class token和position embedding之后,送入一个Transformer Block中,Transformer Block的结构包括Layer Norm、多头注意力机制、drop out层和MLP层,在Transformer层中,通过多头注意力机制,使得网络在方格化的向量中将注意力转移至全局。
在训练阶段中,在本实施例中,采用数据集中的无人机视角图像和卫星视角图像,并将其划分为训练数据和测试数据两部分,在网络部分,Transformer层输出的向量通过分类层中的神经元的全连接层将映射至需要分类的目标场景数,然后通过softmax层归一化输出的数值,最后设计基于Identity Loss和Circle Loss的联合度量损失函数,用以优化模型在训练时得到的权重参数。
Identity Loss的计算公式为:
其中,为景象匹配模型的预测值,y为标签值,/>为预测值/>被识别为y类的预测概率,/>为标签的列向量,/>为样本的列向量,i为场景总数的索引,j为景象匹配模型输出的第j个向量,c为本轮训练的第c个样本,C为训练的样本数;
所述的Circle Loss损失函数的计算公式为:
其中,sij表示样本xi是否属于类别j,dij表示样本xi与类别j的中心点的欧几里得距离,m表示一个预先定义的margin=0.1,可以控制同一类别内样本的紧密度和不同类别之间的分离度,通过最小化Circle Loss,可以使得同一类别内的样本尽可能地聚集在一个圆形区域内,同时将不同类别之间的距离尽可能地拉开,从而提高匹配的准确率。
所述的步骤5中,根据HBP模块对无人机特征图进行特征加强并输入MLP层统一特征维度,得到加强后的无人机特征图,根据HBP模块对卫星特征图也进行特征加强并输入MLP层统一特征维度,得到加强后的卫星特征图的过程具体包括以下步骤:
首先通过HBP(Hierarchical Bilinear Pooling)模块对主干网络输出的特征进行加强,具体流程是将ResNet输出的(1024,24,24)的特征图与,主干网络输出的(1024,24,24)的特征图输入HBP模块进行融合加强HBP模块的结构如图3所示,HBP的实现分为两个步骤:双线性变换和空间全局池化。在第一步中,本发明将fj表示为从输入图像中提取的特征,Fconv表示为CNN模块,其中包含卷积层、批量归一化层和Relu层,具体公式的计算方法如下:
fj=Fconv(fj)
在第二步中,是全局特征,/>是局部特征,×表示两个向量的外积:
然后,对融合特征进行归一化,生成最终的特征向量/>此时的∈=1×10-12:
随后把HBP合并的特征图输入MLP(Multilayer Perceptron)模块,MLP的结构如图4所示,Dense代表全连接层,Gelu代表激活函数,BN表示批量归一化,Drop out表示部分丢弃操作。MLP执行特征维度统一操作,将HBP输出特征的维度统一为512维。
在步骤6中,计算加强后的无人机特征图和加强后的卫星特征图之间的特征距离,执行特征匹配以实现无人机定位和导航任务的过程包括以下步骤:
本实施例分别提取无人机图像和卫星图像的特征向量,用欧氏距离衡量它们之间的距离,在执行无人机定位任务时,计算一张无人机图像与所有卫星图像之间的距离,选择其中距离最近的一组向量作为匹配对,在执行无人机导航任务时,计算一张卫星图像与所有无人机图像之间的距离,选择其中距离最近的一组向量作为匹配对,欧氏距离的计算公式为:
以上所述并非是对本发明的限制,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明实质范围的前提下,还可以做出若干变化、改型、添加或替换,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,包括以下步骤:
步骤1:分别获得至少上千张无人机图和对应场景的卫星图作为数据集;
步骤2:将数据集中的无人机图转换为特征向量,卫星图也转换为特征向量,根据这些特征向量训练基于孪生神经网络的景象匹配模型,得到训练好的景象匹配模型;
步骤3:根据训练好的景象匹配模型的预处理层,对无人机图进行预处理得到预处理的无人机图,卫星图也进行预处理得到预处理的卫星图;
步骤4:将预处理后的无人机图输入至景象匹配模型的主干网络层中,对进行无人机图进行景象特征提取,获得初级无人机特征图,将预处理后的卫星图输入至景象匹配模型的主干网络层中,卫星图也进行景象特征提取,获得初级卫星特征图;
步骤5:根据HBP模块对无人机特征图进行特征加强并输入MLP层统一特征维度,得到加强后的无人机特征图,根据HBP模块对卫星特征图也进行特征加强并输入MLP层统一特征维度,得到加强后的卫星特征图;
步骤6:计算加强后的无人机特征图和加强后的卫星特征图之间的特征距离,执行特征匹配以实现无人机定位和导航任务。
2.根据权利要求1所述的用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,所述的步骤2中,将数据集中的无人机图转换为特征向量,卫星图也转换为特征向量,根据这些特征向量训练基于孪生神经网络的景象匹配模型,得到训练好的景象匹配模型,景象匹配模型包括预处理层、特征提取器以及匹配层,所述的特征提取器采用ResNetV2和Transformer层的混合架构。
3.根据权利要求1所述的用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,所述的步骤三中,根据训练好的景象匹配模型的预处理层,对无人机图进行预处理得到预处理的无人机图,卫星图也进行预处理得到预处理的卫星图的过程具体为:
将图像的尺寸统一为384x384像素,并采用随机切块以及随机水平翻转的图像增强操作,随机切块在图像的随机位置,按照设定的大小进行裁剪,随机水平翻转通过一定的概率水平翻转图像。
4.根据权利要求1所述的用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,所述的步骤4中,将预处理后的无人机图输入至景象匹配模型的主干网络层中,对进行无人机图进行景象特征提取,获得初级无人机特征图,将预处理后的卫星图输入至景象匹配模型的主干网络层中,卫星图也进行景象特征提取,获得初级卫星特征图过程具体包括以下步骤:
步骤401:将图像输入至ResNetV2,输出维度为1024,24,24的特征图,将输入的特征图进行方格化,并将方格进行线性映射;
步骤402:将线性映射得到的向量输入12层连续的Transformer层,当处于训练阶段时,Transformer层将输出的向量送入到分类层的全连接层和softmax层进行分类和训练,得到每个类的概率,以训练分类网络的形式提高景象匹配模型的特征提取能力,当处于测试阶段时,Transformer网络块直接导出特征并映射至512维,作为该图像的特征图。
5.根据权利要求4所述的用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,所述的步骤401中,ResNetV2经过了3个瓶颈模块,每一个瓶颈模块中分别有3、4、9残差块,在残差块中采用预激活的残差单元提高网络的训练效率,每一个瓶颈模块输出的特征图以特征金字塔的形式依次增加其特征图的深度,以提高网络结构计算时的有效信息密度,并将网络注意力集中至目标场景中,即提取图像的局部特征。
随后采用卷积核大小为1,步长为1的卷积对特征图进行卷积操作,即切割为1x1的方格得到特征向量,以将特征图转换为Transformer层能够处理的特征向量。
6.根据权利要求4所述的用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,所述的步骤402中,Transformer层的输入为方格化的特征向量,引入类似flag的classtoken和用以对每一方格进行编号的position embedding,进而送入Transformerblock中,Transformer block的结构包括Layer Norm、多头注意力机制、drop out层和MLP层,Transformer层通过多头注意力机制使得网络在方格化的向量中将注意力转移至全局。
7.根据权利要求4或5或7所述的用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,所述的步骤402中,当处于训练阶段时,Transformer层输出的向量通过分类层中全连接层的神经元映射至需要分类的目标场景数,并通过softmax层对输出的数值进行归一化处理,基于Cross-entropy损失函数和Circle损失函数的联合度量损失函数优化景象匹配模型在训练时得到的权重参数。
8.根据权利要求8所述的用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,所述的Cross-entropy损失函数的计算公式为:
其中,为景象匹配模型的预测值,y为标签值,/>为预测值/>被识别为y类的预测概率,/>为标签的列向量,/>为样本的列向量,i为场景总数的索引,j为景象匹配模型输出的第j个向量,c为本轮训练的第c个样本,C为训练的样本数;
所述的Circle损失函数的计算公式为:
其中,sij表示样本xi是否属于类别j,dij表示样本xi与类别j的中心点的欧几里得距离,m表示一个预先定义的margin=0.1。
9.根据权利要求1或2或3或4所述的用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,所述的步骤5中,根据HBP模块对无人机特征图进行特征加强并输入MLP层统一特征维度,得到加强后的无人机特征图,根据HBP模块对卫星特征图也进行特征加强并输入MLP层统一特征维度,得到加强后的卫星特征图的过程具体包括以下步骤:
首先通过HBP(Hierarchical Bilinear Pooling)模块对主干网络输出的特征进行加强,具体流程是将ResNetV2输出的(1024,24,24)的特征图与,主干网络输出的(1024,24,24)的特征图输入HBP模块进行融合加强,HBP的实现分为两个步骤:双线性变换和空间全局池化;在第一步中,将fj表示为从输入图像中提取的特征,Fconv表示为CNN模块,其中包含卷积层、批量归一化层和Relu层,具体公式的计算方法如下:
fj=Fconv(fj)
在第二步中,是全局特征,/>是局部特征,×表示两个向量的外积:
然后,对融合特征进行归一化,生成最终的特征向量/>此时的∈=1×10-12:
随后将HBP合并的特征图输入MLP(Multilayer Perceptron)模块,MLP的结构中包括全连接层,激活函数,归一化,部分丢弃操作,MLP执行特征维度统一操作,将HBP输出特征的维度统一为512维。
10.根据权利要求1所述的用于无人机图像和卫星图像的跨视角景象匹配方法,其特征在于,所述的步骤6中,计算加强后的无人机特征图和加强后的卫星特征图之间的特征距离,执行特征匹配以实现无人机定位和导航任务的过程具体为:
将得到的卫星图的特征向量与无人机图的特征向量采用欧氏距离衡量距离,将距离最接近的特征向量对作为匹配,当执行无人机定位任务时,计算一张无人机图像与所有卫星图像之间的距离,选择其中距离最近的一组向量作为匹配对,当执行无人机导航任务时,计算一张卫星图像与所有无人机图像之间的距离,选择其中距离最近的一组向量作为匹配对;
所述的欧氏距离的计算公式为:
其中,p和q分别表示两个n维向量,pi和qi表示向量中的第i个元素。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310691371.8A CN116797948A (zh) | 2023-06-12 | 2023-06-12 | 一种用于无人机图像和卫星图像的跨视角景象匹配方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310691371.8A CN116797948A (zh) | 2023-06-12 | 2023-06-12 | 一种用于无人机图像和卫星图像的跨视角景象匹配方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116797948A true CN116797948A (zh) | 2023-09-22 |
Family
ID=88035489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310691371.8A Pending CN116797948A (zh) | 2023-06-12 | 2023-06-12 | 一种用于无人机图像和卫星图像的跨视角景象匹配方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116797948A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078985A (zh) * | 2023-10-17 | 2023-11-17 | 之江实验室 | 一种景象匹配方法、装置、存储介质及电子设备 |
CN118379517A (zh) * | 2024-02-29 | 2024-07-23 | 河北中色测绘有限公司 | 一种应用于无人机的异源影像匹配方法及系统 |
-
2023
- 2023-06-12 CN CN202310691371.8A patent/CN116797948A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117078985A (zh) * | 2023-10-17 | 2023-11-17 | 之江实验室 | 一种景象匹配方法、装置、存储介质及电子设备 |
CN117078985B (zh) * | 2023-10-17 | 2024-01-30 | 之江实验室 | 一种景象匹配方法、装置、存储介质及电子设备 |
CN118379517A (zh) * | 2024-02-29 | 2024-07-23 | 河北中色测绘有限公司 | 一种应用于无人机的异源影像匹配方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113807464B (zh) | 基于改进yolo v5的无人机航拍图像目标检测方法 | |
Chandio et al. | Precise single-stage detector | |
CN116797948A (zh) | 一种用于无人机图像和卫星图像的跨视角景象匹配方法 | |
CN111899172A (zh) | 一种面向遥感应用场景的车辆目标检测方法 | |
CN106504233A (zh) | 基于Faster R‑CNN的无人机巡检图像电力小部件识别方法及系统 | |
CN106529446A (zh) | 基于多分块深层卷积神经网络的车型识别方法和系统 | |
CN115272719A (zh) | 一种用于无人机图像和卫星图像的跨视角景象匹配方法 | |
CN109034035A (zh) | 基于显著性检测和特征融合的行人重识别方法 | |
CN113160291B (zh) | 一种基于图像配准的变化检测方法 | |
CN113283409B (zh) | 基于EfficientDet和Transformer的航空图像中的飞机检测方法 | |
CN112364721A (zh) | 一种道面异物检测方法 | |
CN113159215A (zh) | 一种基于Faster Rcnn的小目标检测识别方法 | |
CN115375948A (zh) | 基于全局注意力的卷积-Transformer的RGB-T目标跟踪网络 | |
CN116721398A (zh) | 一种基于跨阶段路由注意力模块和残差信息融合模块的Yolov5目标检测方法 | |
CN116543269B (zh) | 基于自监督的跨域小样本细粒度图像识别方法及其模型 | |
CN117132914B (zh) | 通用电力设备识别大模型方法及系统 | |
CN111368775A (zh) | 一种基于局部上下文感知的复杂场景密集目标检测方法 | |
CN112395953A (zh) | 一种道面异物检测系统 | |
CN112668662B (zh) | 基于改进YOLOv3网络的野外山林环境目标检测方法 | |
CN117373062A (zh) | 一种基于联合学习的实时端到端跨分辨率行人重识别方法 | |
CN112801179A (zh) | 面向跨领域复杂视觉任务的孪生分类器确定性最大化方法 | |
CN112418262A (zh) | 车辆再识别的方法、客户端及系统 | |
CN115049842B (zh) | 一种飞机蒙皮图像损伤检测与2d-3d定位方法 | |
CN114937153B (zh) | 弱纹理环境下基于神经网络的视觉特征处理系统及方法 | |
CN115719455A (zh) | 一种地空地理定位方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |