CN115203460A - 一种基于深度学习的像素级跨视角图像定位方法及系统 - Google Patents

一种基于深度学习的像素级跨视角图像定位方法及系统 Download PDF

Info

Publication number
CN115203460A
CN115203460A CN202210782818.8A CN202210782818A CN115203460A CN 115203460 A CN115203460 A CN 115203460A CN 202210782818 A CN202210782818 A CN 202210782818A CN 115203460 A CN115203460 A CN 115203460A
Authority
CN
China
Prior art keywords
image
ground
network
pixel
feature extraction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210782818.8A
Other languages
English (en)
Inventor
郭裕兰
管玮珺
李坤洪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National University of Defense Technology
Sun Yat Sen University
Sun Yat Sen University Shenzhen Campus
Original Assignee
Sun Yat Sen University
Sun Yat Sen University Shenzhen Campus
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sun Yat Sen University, Sun Yat Sen University Shenzhen Campus filed Critical Sun Yat Sen University
Priority to CN202210782818.8A priority Critical patent/CN115203460A/zh
Publication of CN115203460A publication Critical patent/CN115203460A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/587Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种基于深度学习的像素级跨视角图像定位方法及系统,方法包括:获取待定位目标的待定位图像以及待定位图像对应的俯拍候选图像集合;通过卷积神经网络对待定位图像和俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图;根据特征之间的特征相似性,计算待定位目标的目标地点概率分布,进而计算像素级定位坐标;根据像素级定位坐标,结合俯拍候选图像集合的拍摄参数信息,确定待定位目标的定位信息。本发明的灵活性高、精度高且泛化能力高,通过高分辨率的俯拍特征和地面全局特征计算定位概率图,进而得到地面图像的像素坐标,最终转化为实际的地理坐标,可广泛应用于图像处理技术领域。

Description

一种基于深度学习的像素级跨视角图像定位方法及系统
技术领域
本发明涉及图像处理技术领域,尤其是一种基于深度学习的像素级跨视角图像定位方法及系统。
背景技术
跨视角图像定位的目标是利用带有地理坐标的俯拍数据库图像得到地面待查询图像的位置信息。由于待查询图像与数据库图像视角变化剧烈,时间跨度不确定,导致待查询图像和数据库图像存在巨大的表观差异,使得跨视角图像定位任务具有极大的挑战性。
现有的近似实现方案主要包括以下两种:
(1)跨视角图像检索方案
这类方案将跨视角定位任务简化为跨视角图像检索任务,要求待查询图像和数据库图像中心对齐。这类方案主要应对的挑战是由视角变化带来的表观差异。首先,不同视角下的目标,尤其是建筑、山脉、植被等具有显著高度差的目标,其形状、外观等会发生显著变化。其次,不同视角图像的可视范围具有显著差异,导致图像中包含的信息具有极大的不同。最后,由于地面全景图像存在严重畸变,导致物体间的几何关系也完全不同。
为缓解上述问题带来的影响,这类方案通常采用孪生神经网络提取地面和数据库图像的全局特征,利用深度神经网络强大的表征能力实现鲁邦的图像特征表示,以应对目标在不同视角下的表观变化。其次,这类方案采用注意力机制等技术实现有效的特征提取与增强,应对可视范围变化带来的影响。最后,这类方案通常会采用极坐标变换将俯视图像中变换为伪全景图,缩小待定位图像与俯视图像中之间的表观差异。
(2)直接回归的跨视角图像定位方案
这类方案提出了一个从粗到细的联合检索和校准的地理定位框架,将坐标计算建模为回归问题,以待定位图像和数据库图像的全局特征向量作为输入,利用MLP(多层感知机)预测待定位图像的像素坐标。查询图像可以在感兴趣的区域内是任意的,并且在查询出现之前就捕获了参考图像。该方案打破了大多数据集的一对一检索设置,因为查询和参考图像不是完美对齐的,并且可能有多个参考图像覆盖一个查询位置。
该方案先使用孪生网络输出其嵌入高维空间的表征,以比较两个样本的相似程度,从而从数据库俯视图像中筛选出与待定位图像相似度最高的图像完成图像检索,再将筛选出的俯视图特征向量与待定位图像的特征向量做特征融合,随后将其输入到多层感知器(MLP)中来预测查询位置相对于检索到的俯视图像中心的偏移。
上述两种相关技术方案的缺点:
(1)跨视角图像检索方案的缺点
a.使用跨视角图像检索方案多为一对一的检索,其简单地假设每个查询地面视图图像都有一个对应的参考俯视视图图像,并且俯视图像与查询图像的中心对齐。这在现实世界的应用程序是不实际的,因为查询图像可能出现在感兴趣区域(俯视图像)的任意位置。在这种情况下,跨视角图像检索方案并不能获取地面图像的精准地理位置。
b.现有的跨视角定位网络基本为孪生网络,孪生神经网络以两个样本为输入,输出其嵌入高维空间的表征,以比较两个样本的相似程度,从而从数据库俯视图像中筛选出与待定位图像相似度最高的图像完成图像检索,并不能进一步做到像素级的图像定位。
(2)直接回归的跨视角图像定位方案的缺点
直接回归的跨视角地理定位方案将坐标计算建模为回归问题,以待定位图像和数据库图像的全局特征向量作为输入,利用MLP(多层感知机)预测待定位图像的像素坐标。这类方法性能有限,且泛化性差,难以得到实际应用。
发明内容
有鉴于此,本发明实施例提供一种高灵活性、高精度以及高泛化能力的,基于深度学习的像素级跨视角图像定位方法及系统。
本发明实施例的一方面提供了一种基于深度学习的像素级跨视角图像定位方法,包括:
获取待定位目标的待定位图像以及所述待定位图像对应的俯拍候选图像集合;
通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图;
根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布;
根据所述目标地点概率分布计算像素级定位坐标;
根据所述像素级定位坐标,结合所述俯拍候选图像集合的拍摄参数信息,确定所述待定位目标的定位信息。
可选地,所述通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图这一步骤,包括:
通过地面图像特征提取网络对所述待定位图像进行图像特征提取,得到地面特征图;
通过俯拍图像特征提取网络对所述俯拍候选图像集合进行图像特征提取,得到俯视特征图;
其中,所述地面图像特征提取网络用于将地面图像映射成一个高维特征向量;
所述俯拍图像特征提取网络用于保持图像分辨率的同时聚合图像信息,生成保持空间结构和空间分辨率、具有特异性的俯拍特征图。
可选地,所述地面图像特征提取网络采用“编码器-解码器”的网络结构;所述俯拍图像特征提取网络采用“编码器-解码器”的网络结构;
可选地,所述地面图像特征提取网络的编码器以VGG16网络为基础,用于对图片信息进行解析;所述地面图像特征提取网络的解码器使用浅层的卷积神经网络,用于压缩特征图的空间尺寸从而得到特征向量;
所述地面图像特征提取网络的编码器沿用VGG16网络的前十三层,所述地面图像特征提取网络的编码器的池化层使用2x2的大小,每经过一次池化层的处理后,则图像的长和宽均缩小一半,经过所述地面图像特征提取网络的编码器的13层卷积层和池化层之后,原图像的通道数为512个;
所述地面图像特征提取网络的解码器使用浅层的卷积神经网络,网络的前两层用于缩小特征图像的大小和通道数,网络的第三层沿空间方向做全局平均池化,生成1x1x128的特征向量,用于在后面跟俯视图像的高分辨率稠密特征的特征图做像素级的相似度计算;
可选地,所述俯拍图像特征提取网络以U-net网络为基础,所述俯拍图像特征提取网络的处理过程包括下采样过程和上采样过程,其中,所述下采样过程用于提取图像特征,所述上采样过程用于将包含高级抽象特征低分辨率的图片在保留高级抽象特征的同时变为高分辨率,然后再与低级表层特征高分辨率图片进行特征融合操作,从而得到保持原分辨率的特征图;
所述俯拍图像特征提取网络的下采样过程由编码器的一个卷积块和两个下采样模块实现,每个下采样模块包含两个3x3的卷积层和一个2x2的池化层,下采样模块用于进行特征提取,进而获取局部特征,并进行图片级分类,得到抽象语义特征;图像在经过下采样之后图像的长和宽均变为原来的1/4,通道数为512;
所述俯拍图像特征提取网络的上采样过程由解码器的一层反卷积、特征拼接和两个3x3的卷积层实现,每一次上采样操作的过程中,图像的长宽均变为原来的两倍;
所述上采样操作得到的图像与下采样的图像进行拼接处理后,经由一个1×1的卷积层进行降维处理,将通道数降低至128,得到原始分辨率下的俯视图像特征图。
可选地,所述根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布,包括:
通过余弦相似度的计算方法逐一计算所述地面特征图和所述俯视特征图之间各个像素点的相似度,得到初始响应图;
将所述初始响应图乘以预设的温度系数后,通过softmax函数进行处理,得到各个地点的概率图,进而确定所述待定位目标的目标地点概率分布;
其中,所述地面特征图和所述俯视特征图的通道数相同。
可选地,所述方法还包括:得到所述像素级定位坐标后,通过损失函数计算各个坐标的损失值,当损失值满足预设条件时,确定网络训练完成;
其中,所述损失值的计算公式为:
Figure BDA0003730290930000041
其中,loss(x,y)表示与(x,y)坐标有关的函数式;x1代表实际定位坐标x轴坐标;x2代表预测定位坐标x轴坐标;y1代表实际定位坐标y轴坐标;y2代表预测定位坐标y轴坐标。
可选地,所述根据所述目标地点概率分布计算像素级定位坐标这一步骤中,所述像素级定位坐标的计算公式为:
Figure BDA0003730290930000042
其中,r为地球半径;(lat1,lon1)代表俯视图中心点的经纬度;(lat2,lon2)代表网络预测位置的经纬度,d代表两点之间的实际距离(单位为米),令经度相等和纬度相等可分别计算出俯视图和预测位置的像素坐标的x与y轴偏移实际距离,又已知俯视图每像素实际距离,从而可计算出像素坐标。
在网络推理过程中,在得到预测位置的像素坐标之后,则通过上式公式的逆变换将像素坐标转换为实际地理坐标,其转换公式为:
Figure BDA0003730290930000043
Figure BDA0003730290930000044
其中dy为垂直距离,dx为两点的水平距离,(lat1,lon1)代表俯视图中心点的经纬度;(lat2,lon2)代表网络预测位置的经纬度。
本发明实施例的另一方面还提供了一种基于深度学习的像素级跨视角图像定位系统,包括:
第一模块,用于获取待定位目标的待定位图像以及所述待定位图像对应的俯拍候选图像集合;
第二模块,用于通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图;
第三模块,用于根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布;
第四模块,用于根据所述目标地点概率分布计算像素级定位坐标;
第五模块,用于根据所述像素级定位坐标,结合所述俯拍候选图像集合的拍摄参数信息,确定所述待定位目标的定位信息。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,
所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
本发明的实施例获取待定位目标的待定位图像以及所述待定位图像对应的俯拍候选图像集合;通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图;根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布;根据所述目标地点概率分布计算像素级定位坐标;根据所述像素级定位坐标,结合所述俯拍候选图像集合的拍摄参数信息,确定所述待定位目标的定位信息。本发明的灵活性高、精度高且泛化能力高,通过高分辨率的俯拍特征和地面全局特征计算定位概率图,进而得到地面图像的像素坐标,最终转化为实际的地理坐标。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的整体步骤流程图;
图2为本发明实施例提供的地面图像特征提取网络的结构示意图;
图3为本发明实施例提供的俯拍图像特征提取网络的结构示意图;
图4为本发明实施例提供的计算相似度的流程图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
由于现有技术中跨视角图像检索方案并不能获取地面图像的精准地理位置的问题,针对该缺点,本发明不需要考虑图像中心对齐的问题;
由于现有的跨视角定位网络基本为孪生网络,孪生神经网络以两个样本为输入,输出其嵌入高维空间的表征,以比较两个样本的相似程度,从而从数据库俯视图像中筛选出与待定位图像相似度最高的图像完成图像检索,并不能进一步做到像素级的图像定位。针对该缺点,本发明使用异构的网络设计,使用高分辨率网络生成俯拍图的高分辨率稠密特征图,使用金字塔网络提取带查询全局特征向量,最后通过度量特征相似度实现像素级的定位,并转化为相应地理坐标。
由于现有技术直接回归的跨视角地理定位方案将坐标计算建模为回归问题,以待定位图像和数据库图像的全局特征向量作为输入,利用MLP(多层感知机)预测待定位图像的像素坐标。这类方法性能有限,且泛化性差,难以得到实际应用。针对该缺点,本发明则以表示学习的方式实现坐标定位,通过高分辨率的俯拍特征和地面全局特征计算定位概率图,进而得到地面图像的像素坐标,最终转化为实际的地理坐标。
具体地,本发明实施例的一方面提供了一种基于深度学习的像素级跨视角图像定位方法,包括:
获取待定位目标的待定位图像以及所述待定位图像对应的俯拍候选图像集合;
通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图;
根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布;
根据所述目标地点概率分布计算像素级定位坐标;
根据所述像素级定位坐标,结合所述俯拍候选图像集合的拍摄参数信息,确定所述待定位目标的定位信息。
可选地,所述通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图这一步骤,包括:
通过地面图像特征提取网络对所述待定位图像进行图像特征提取,得到地面特征图;
通过俯拍图像特征提取网络对所述俯拍候选图像集合进行图像特征提取,得到俯视特征图;
其中,所述地面图像特征提取网络用于将地面图像映射成一个高维特征向量;
所述俯拍图像特征提取网络用于保持图像分辨率的同时聚合图像信息,生成保持空间结构和空间分辨率、具有特异性的俯拍特征图。
可选地,所述地面图像特征提取网络采用“编码器-解码器”的网络结构;所述俯拍图像特征提取网络采用“编码器-解码器”的网络结构;
可选地,所述地面图像特征提取网络的编码器以VGG16网络为基础,用于对图片信息进行解析;所述地面图像特征提取网络的解码器使用浅层的卷积神经网络,用于压缩特征图的空间尺寸从而得到特征向量;
所述地面图像特征提取网络的编码器沿用VGG16网络的前十三层,所述地面图像特征提取网络的编码器的池化层使用2x2的大小,每经过一次池化层的处理后,则图像的长和宽均缩小一半,经过所述地面图像特征提取网络的编码器的13层卷积层和池化层之后,原图像的通道数为512个;
所述地面图像特征提取网络的解码器使用浅层的卷积神经网络,网络的前两层用于缩小特征图像的大小和通道数,网络的第三层沿空间方向做全局平均池化,生成1x1x128的特征向量,用于在后面跟俯视图像的高分辨率稠密特征的特征图做像素级的相似度计算;
可选地,所述俯拍图像特征提取网络以U-net为基础,所述俯拍图像特征提取网络的处理过程包括下采样过程和上采样过程,其中,所述下采样过程用于提取图像特征,所述上采样过程用于将包含高级抽象特征低分辨率的图片在保留高级抽象特征的同时变为高分辨率,然后再与低级表层特征高分辨率图片进行特征融合操作,从而得到保持原分辨率的特征图;
所述俯拍图像特征提取网络的下采样过程由编码器的一个卷积块和两个下采样模块实现,每个下采样模块包含两个3x3的卷积层和一个2x2的池化层,下采样模块用于进行特征提取,进而获取局部特征,并进行图片级分类,得到抽象语义特征;图像在经过下采样之后图像的长和宽均变为原来的1/4,通道数为512;
所述俯拍图像特征提取网络的上采样过程由解码器的一层反卷积、特征拼接和两个3x3的卷积层实现,每一次上采样操作的过程中,图像的长宽均变为原来的两倍;
所述上采样操作得到的图像与下采样的图像进行拼接处理后,经由一个1×1的卷积层进行降维处理,将通道数降低至128,得到原始分辨率下的俯视图像特征图。
可选地,所述根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布,包括:
通过余弦相似度的计算方法逐一计算所述地面特征图和所述俯视特征图之间各个像素点的相似度,得到初始响应图;
将所述初始响应图乘以预设的温度系数后,通过softmax函数进行处理,得到各个地点的概率图,进而确定所述待定位目标的目标地点概率分布;
其中,所述地面特征图和所述俯视特征图的通道数相同。
可选地,所述方法还包括:得到所述像素级定位坐标后,通过损失函数计算各个坐标的损失值,当损失值满足预设条件时,确定网络训练完成;
其中,所述损失值的计算公式为:
Figure BDA0003730290930000081
其中,loss(x,y)表示与(x,y)坐标有关的函数式,为真实位置与网络预测位置的损失值;(x1,y1)代表真实位置的像素坐标;(x2,y2)代表网络预测位置的像素坐标。
可选地,所述根据所述目标地点概率分布计算像素级定位坐标这一步骤中,所述像素级定位坐标的计算公式为:
Figure BDA0003730290930000082
其中,r为地球半径;(lat1,lon1)代表俯视图中心点的经纬度;(lat2,lon2)代表网络预测位置的经纬度,d代表两点之间的实际距离(单位为米),令经度相等和纬度相等可分别计算出俯视图和预测位置的像素坐标的x与y轴偏移实际距离,又已知俯视图每像素实际距离,从而可计算出像素坐标。
在网络推理过程中,在得到预测位置的像素坐标之后,则通过上式公式的逆变换将像素坐标转换为实际地理坐标,其转换公式为:
Figure BDA0003730290930000083
Figure BDA0003730290930000084
其中dy为垂直距离,dx为两点的水平距离,(lat1,lon1)代表俯视图中心点的经纬度;(lat2,lon2)代表网络预测位置的经纬度。
本发明实施例的另一方面还提供了一种基于深度学习的像素级跨视角图像定位系统,包括:
第一模块,用于获取待定位目标的待定位图像以及所述待定位图像对应的俯拍候选图像集合;
第二模块,用于通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图;
第三模块,用于根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布;
第四模块,用于根据所述目标地点概率分布计算像素级定位坐标;
第五模块,用于根据所述像素级定位坐标,结合所述俯拍候选图像集合的拍摄参数信息,确定所述待定位目标的定位信息。
本发明实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如前面所述的方法。
本发明实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,
所述程序被处理器执行实现如前面所述的方法。
本发明实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行前面的方法。
下面结合说明书附图,对本发明的具体实现过程进行详细描述:
本发明目的是实现跨视角图像定位,即在给出一张地面拍摄的全景图的情况下,结合卫星或无人机收集的俯拍全景图实现地面图拍摄地点的定位预测。本发明的算法输入为一张待定位图像和若干俯拍候选图像,待定位图像为地面拍摄的全景图像,俯拍候选图像为从数据库中检索出的、可能包含待定位图像拍摄地点的、非中心对齐的数据库图像。
以一张待定位图像和一张俯拍候选图像为例,本发明的核心思路是利用卷积神经网络分别对待定位图像的俯拍图像提取特征,根据特征间的相似性计算拍摄地点的概率分布,并根据概率分布得到像素级定位坐标,最后结合俯拍图像的地理标签以及相机参数得到拍摄地点的地理坐标。整体流程如图1所示。
1、图像特征提取过程:
为保证算法的泛化性能,本发明将跨视角定位问题建模为一个表示学习问题,即根据俯拍图像和待定位图像之间的特征相似度计算待定位图像的位置坐标。鉴于卷积神经网路强大的函数拟合能力,本发明采用卷积神经网络作为特征提取器对俯拍图像和待定位图像进行特征提取。由于对俯拍特征图和地面特征图有不同的算法需求,本发明采用异构的特征提取网络分别处理俯拍图和地面全景图,后文将地面图像特征提取网络和俯拍图像特征提取网络分别简称为地面网络和俯拍网络。
地面图像特征提取网络:地面网络的用途是将地面图像映射为一个高维的特征表示(特征向量),本发明使用“编码器-解码器”结构的卷积神经网络作为地面网络。其中编码器以VGG16网络为基础,用于对图片信息进行解析,解码器使用浅层的卷积神经网络,用于压缩特征图的空间尺寸从而得到特征向量。
地面图像特征提取网络的网络结构如图2所示。编码器沿用VGG16网络的前十三层,VGG16结构简洁,使用多个较小卷积核(3x3)的卷积层代替一个卷积核较大的卷积层,一方面可以减少参数,另一方面相当于进行了更多的非线性映射,可以增加网络的表达能力。而池化层使用2x2的大小,每经过一次池化层,图像长和宽均变为原来的二分之一。经过13层卷积层和池化层之后,原图像的通道数达到了512个,使得原图像更多的信息可以被提出取来。
俯拍图像特征提取网络:俯拍网络的用途是在保持图像分辨率的同时聚合图像信息,生成保持空间结构和空间分辨率、具有特异性的俯拍特征图。本发明使用UNet作为俯拍网络基础框架,其结构如图3所示。
其中,左半部分为下采样过程,用于提出图像的特征,而右半部分为上采样过程,让包含高级抽象特征低分辨率图片在保留高级抽象特征的同时变为高分辨率,然后再与左边低级表层特征高分辨率图片进行特征融合操作从而得到保持原分辨率的特征图。
俯拍图像特征提取网络的编码器:左半部分为下采样过程,由一个卷积块和两个下采样模块组成,每个下采样模块包含两个3x3的卷积层和一个2x2的池化层,它的作用是特征提取(获取局部特征,并做图片级分类),得到抽象语义特征。图像在经过下采样之后图像的长和宽均变为原来的1/4,通道数为512,即原图像更多的信息被提出了取来。
俯拍图像特征提取网络的解码器:右半部分(上采样),由一层反卷积、特征拼接和两个3x3的卷积层反复构成,一共经过4次这样的操作,与特征提取网络刚好相对应,每经过一次上采样操作,图像的长宽均变为原来的两倍,再与下采样的图像做拼接。最后接一层1x1卷积,降维处理,即将通道数降低至特定的数量128,令其与地面特征图的通道数相匹配,由此得到原始分辨率下的俯视图像特征图。
2、网络模型训练过程:
通过前述的图像特征提取网络可以得到地面图像和俯拍图像的特征图,其中地面图像为1x1xC的特征向量,俯视图为HxWxC的特征图,通道数相同,因此可以逐一计算两张图像特征图像素点相似度。本实施例采用余弦相似度来度量图像之间的相似性。余弦值越接近1,就表明夹角越接近0度,也就是两个向量越相似。夹角余弦的计算公式如下所示。
Figure BDA0003730290930000111
其中,a为地面特征向量,b为俯视特征图中一个主像素点的特征向量,经过余弦相似度计算之后可以得到一张大小为HxW的初始响应图。将所述初始响应图乘以温度系数(为避免softmax之后得到的值太小)再经过softmax得到概率图,使响应图各位置的输出值范围映射到[0,1],并约束各位置输出值总和为1。令概率图各输出值与对应位置二维坐标相乘后求和得到网络的预测坐标,具体地,计算相似度的流程如图4所示。
在求得网络预测坐标之后,本发明使用L1损失函数作为网络训练的损失函数,如下式所示,用此来计算网络预测坐标的损失值。
所述损失值的计算公式为:
Figure BDA0003730290930000112
其中,loss(x,y)表示与(x,y)坐标有关的函数式,为真实位置与网络预测位置的损失值;(x1,y1)代表真实位置的像素坐标;(x2,y2)代表网络预测位置的像素坐标。
本发明使用多层次的网络监督,将Unet上采样阶段的每层特征图与地面特征图做像素相关性计算得到相应的相应图、概率图,并求得各自的损失值,将三层的损失值的和作为整个网络训练的损失值,由此监督每个上采样过程的学习,提高训练的准确度。
3、地理坐标计算过程:
通过前述的网络训练之后,将新的待定位图像和数据库图像放入本发明之后便能够得到某张俯视图像的预测坐标,此坐标为像素坐标,需要通过公式转化为实际的地理坐标,本发明采用haversine(半正矢)公式来计算实际的地理坐标,实际的地理坐标d的计算公式如下所示:
Figure BDA0003730290930000113
Figure BDA0003730290930000114
Figure BDA0003730290930000115
其中,dy预测点与俯视图中心点垂直方向的距离,dx为两点间水平方向的距离,(lat1,lon1)代表俯视图中心点的经纬度;(lat2,lon2)代表网络预测位置的经纬度,r为地球半径,lat1和lat2为两点的纬度坐标,lon1和lon2为两点的经度坐标。数据库图像中带有俯视图中心点的实际地理位置坐标,可以根据相机的内参来获取每个像素点的实际距离偏移量,从而计算实际的地理坐标。
综上所述,本发明采用的是度量学习的像素级跨视角图像定位整体方案,而现有的跨视角图像定位方案大多为图像检索方案,这类方案要求待定位图像的拍摄点位于数据库图像的中心位置,通过图像检索的方式匹配待定位图像与数据库图像,最后以匹配得到的数据库图像携带的地理标签作为待定位图像的定位结果。本发明则不要求待定位图像与数据库图像中心对齐,可以在包含待定位图像拍摄点的俯视图像中进行准确定位并能,获得拍摄点的准确地理位置。
本发明提出了特殊的特征提取网络的训练方法。由于现有的像素级跨视角图像定位方案以待定位图像和数据库图像的全局特征向量作为输入,利用MLP(多层感知机)预测待定位图像的像素坐标。本发明采用度量特征相似度的方式获取响应图以实现像素级的定位,为获取高分辨率的俯视特征图,采用异构的网络设计来提取图像特征。
本发明采用了异构的图像特征提取网络设计。由于现有的跨视角定位网络基本为孪生网络,孪生神经网络以两个样本为输入,输出其嵌入高维空间的表征,以比较两个样本的相似程度,从而从数据库俯视图像中筛选出与待定位图像相似度最高的图像完成图像检索。本发明为实现像素级定位,使用异构网络设计,使用高分辨率网络生成俯视图的高分辨率稠密特征图,使用金字塔网络提取带查询全局特征向量,最后通过度量特征相似度实现像素级的定位,并转化为相应地理坐标。
本发明采用基于特征相似度的像素级跨视角定位算法。现有的跨视角定位坐标计算方案将坐标计算建模为回归问题,以待定位图像和数据库图像的全局特征向量作为输入,利用MLP(多层感知机)预测待定位图像的像素坐标。这类方法性能有限,且泛化性差,难以得到实际应用。本发明则以表示学习的方式实现坐标定位,通过高分辨率的俯拍特征和地面全局特征相似度计算定位概率图,进而得到地面图像的像素坐标,最终转化为实际的地理坐标。
相较于现有技术,本发明具有以下优点:
1、高灵活性:不需要待定位图像与数据库图像中心对齐。
2、高定位精度:可以在包含待定位图像拍摄点的俯视图像中精准定位,获取拍摄点的准确地理位置。
3、高泛化能力:使用地面图像和俯视图像的特征图相似度预测像素坐标,泛化能力强。
4、多层次监督学习:系统会根据多个阶段的损失值对模型进行修正,使得系统随着训练时间的推进,准确率越来越高。
在一些可选择的实施例中,在方框图中提到的功能/操作可以不按照操作示图提到的顺序发生。例如,取决于所涉及的功能/操作,连续示出的两个方框实际上可以被大体上同时地执行或所述方框有时能以相反顺序被执行。此外,在本发明的流程图中所呈现和描述的实施例以示例的方式被提供,目的在于提供对技术更全面的理解。所公开的方法不限于本文所呈现的操作和逻辑流程。可选择的实施例是可预期的,其中各种操作的顺序被改变以及其中被描述为较大操作的一部分的子操作被独立地执行。
此外,虽然在功能性模块的背景下描述了本发明,但应当理解的是,除非另有相反说明,所述的功能和/或特征中的一个或多个可以被集成在单个物理装置和/或软件模块中,或者一个或多个功能和/或特征可以在单独的物理装置或软件模块中被实现。还可以理解的是,有关每个模块的实际实现的详细讨论对于理解本发明是不必要的。更确切地说,考虑到在本文中公开的装置中各种功能模块的属性、功能和内部关系的情况下,在工程师的常规技术内将会了解该模块的实际实现。因此,本领域技术人员运用普通技术就能够在无需过度试验的情况下实现在权利要求书中所阐明的本发明。还可以理解的是,所公开的特定概念仅仅是说明性的,并不意在限制本发明的范围,本发明的范围由所附权利要求书及其等同方案的全部范围来决定。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。
计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。
应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
尽管已经示出和描述了本发明的实施例,本领域的普通技术人员可以理解:在不脱离本发明的原理和宗旨的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由权利要求及其等同物限定。
以上是对本发明的较佳实施进行了具体说明,但本发明并不限于所述实施例,熟悉本领域的技术人员在不违背本发明精神的前提下还可做出种种的等同变形或替换,这些等同的变形或替换均包含在本申请权利要求所限定的范围内。

Claims (10)

1.一种基于深度学习的像素级跨视角图像定位方法,其特征在于,包括:
获取待定位目标的待定位图像以及所述待定位图像对应的俯拍候选图像集合;
通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图;
根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布;
根据所述目标地点概率分布计算像素级定位坐标;
根据所述像素级定位坐标,结合所述俯拍候选图像集合的拍摄参数信息,确定所述待定位目标的定位信息。
2.根据权利要求1所述的一种基于深度学习的像素级跨视角图像定位方法,其特征在于,所述通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图这一步骤,包括:
通过地面图像特征提取网络对所述待定位图像进行图像特征提取,得到地面特征图;
通过俯拍图像特征提取网络对所述俯拍候选图像集合进行图像特征提取,得到俯视特征图;
其中,所述地面图像特征提取网络用于将地面图像映射成一个高维特征向量;
所述俯拍图像特征提取网络用于保持图像分辨率的同时聚合图像信息,生成保持空间结构和空间分辨率、具有特异性的俯拍特征图。
3.根据权利要求2所述的一种基于深度学习的像素级跨视角图像定位方法,其特征在于,所述地面图像特征提取网络采用“编码器-解码器”的网络结构;所述俯拍图像特征提取网络采用“编码器-解码器”的网络结构;
所述地面图像特征提取网络的编码器以VGG16网络为基础,用于对图片信息进行解析;所述地面图像特征提取网络的解码器使用浅层的卷积神经网络,用于压缩特征图的空间尺寸从而得到特征向量;
所述地面图像特征提取网络的编码器沿用VGG16网络的前十三层,所述地面图像特征提取网络的编码器的池化层使用2x2的大小,每经过一次池化层的处理后,则图像的长和宽均缩小一半,经过所述地面图像特征提取网络的编码器的13层卷积层和池化层之后,原图像的通道数为512个;
所述地面图像特征提取网络的解码器使用浅层的卷积神经网络,网络的前两层用于缩小特征图像的大小和通道数,网络的第三层沿空间方向做全局平均池化,生成1x1x128的特征向量,用于在后面跟俯视图像的高分辨率稠密特征的特征图做像素级的相似度计算;
所述俯拍图像特征提取网络以U-net网络为基础,所述俯拍图像特征提取网络的处理过程包括下采样过程和上采样过程,其中,所述下采样过程用于提取图像特征,所述上采样过程用于将包含高级抽象特征低分辨率的图片在保留高级抽象特征的同时变为高分辨率,然后再与低级表层特征高分辨率图片进行特征融合操作,从而得到保持原分辨率的特征图;
所述俯拍图像特征提取网络的下采样过程由编码器的一个卷积块和两个下采样模块实现,每个下采样模块包含两个3x3的卷积层和一个2x2的池化层,下采样模块用于进行特征提取,进而获取局部特征,并进行图片级分类,得到抽象语义特征;图像在经过下采样之后图像的长和宽均变为原来的1/4,通道数为512;
所述俯拍图像特征提取网络的上采样过程由解码器的一层反卷积、特征拼接和两个3x3的卷积层实现,每一次上采样操作的过程中,图像的长宽均变为原来的两倍;
所述上采样操作得到的图像与下采样的图像进行拼接处理后,经由一个1×1的卷积层进行降维处理,将通道数降低至128,得到原始分辨率下的俯视图像特征图。
4.根据权利要求1所述的一种基于深度学习的像素级跨视角图像定位方法,其特征在于,所述根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布,包括:
通过余弦相似度的计算方法逐一计算所述地面特征图和所述俯视特征图之间各个像素点的相似度,得到初始响应图;
将所述初始响应图乘以预设的温度系数后,通过softmax函数进行处理,得到各个地点的概率图,进而确定所述待定位目标的目标地点概率分布;
其中,所述地面特征图和所述俯视特征图的通道数相同。
5.根据权利要求4所述的一种基于深度学习的像素级跨视角图像定位方法,其特征在于,所述方法还包括:得到所述像素级定位坐标后,通过损失函数计算各个坐标的损失值,当损失值满足预设条件时,确定网络训练完成;
其中,所述损失值的计算公式为:
Figure FDA0003730290920000021
其中,loss(x,y)表示与(x,y)坐标有关的函数式;x1代表实际定位坐标x轴坐标;x2代表预测定位坐标x轴坐标;y1代表实际定位坐标y轴坐标;y2代表预测定位坐标y轴坐标。
6.根据权利要求1所述的一种基于深度学习的像素级跨视角图像定位方法,其特征在于,所述根据所述目标地点概率分布计算像素级定位坐标这一步骤中,所述像素级定位坐标的计算公式为:
Figure FDA0003730290920000031
其中,r为地球半径;(lat1,lon1)代表俯视图中心点的经纬度;(lat2,lon2)代表网络预测位置的经纬度。
7.一种基于深度学习的像素级跨视角图像定位系统,其特征在于,包括:
第一模块,用于获取待定位目标的待定位图像以及所述待定位图像对应的俯拍候选图像集合;
第二模块,用于通过卷积神经网络对所述待定位图像和所述俯拍候选图像集合进行图像特征提取,得到地面特征图和俯视特征图;
第三模块,用于根据所述地面特征图和所述俯视特征图之间的特征相似性,计算待定位目标的目标地点概率分布;
第四模块,用于根据所述目标地点概率分布计算像素级定位坐标;
第五模块,用于根据所述像素级定位坐标,结合所述俯拍候选图像集合的拍摄参数信息,确定所述待定位目标的定位信息。
8.一种电子设备,其特征在于,包括处理器以及存储器;
所述存储器用于存储程序;
所述处理器执行所述程序实现如权利要求1至6中任一项所述的方法。
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有程序,所述程序被处理器执行实现如权利要求1至6中任一项所述的方法。
10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。
CN202210782818.8A 2022-07-05 2022-07-05 一种基于深度学习的像素级跨视角图像定位方法及系统 Pending CN115203460A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210782818.8A CN115203460A (zh) 2022-07-05 2022-07-05 一种基于深度学习的像素级跨视角图像定位方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210782818.8A CN115203460A (zh) 2022-07-05 2022-07-05 一种基于深度学习的像素级跨视角图像定位方法及系统

Publications (1)

Publication Number Publication Date
CN115203460A true CN115203460A (zh) 2022-10-18

Family

ID=83578778

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210782818.8A Pending CN115203460A (zh) 2022-07-05 2022-07-05 一种基于深度学习的像素级跨视角图像定位方法及系统

Country Status (1)

Country Link
CN (1) CN115203460A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909255A (zh) * 2023-01-05 2023-04-04 北京百度网讯科技有限公司 图像生成、图像分割方法、装置、设备、车载终端及介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115909255A (zh) * 2023-01-05 2023-04-04 北京百度网讯科技有限公司 图像生成、图像分割方法、装置、设备、车载终端及介质

Similar Documents

Publication Publication Date Title
CN111862126B (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN109655019B (zh) 一种基于深度学习和三维重建的货物体积测量方法
Wiesmann et al. Deep compression for dense point cloud maps
CN107980150B (zh) 对三维空间建模
CN110910437B (zh) 一种复杂室内场景的深度预测方法
US10943321B2 (en) Method and system for processing image data
Pashaei et al. Deep learning-based single image super-resolution: an investigation for dense scene reconstruction with UAS photogrammetry
CN113313047B (zh) 一种基于车道结构先验的车道线检测方法及系统
KR102188035B1 (ko) 위성영상의 해상도 복원을 위한 학습 방법 및 장치
CN113850129A (zh) 一种旋转等变的空间局部注意力遥感图像目标检测方法
CN114429555A (zh) 由粗到细的图像稠密匹配方法、系统、设备及存储介质
CN115147723B (zh) 一种内河船舶识别与测距方法、系统、介质、设备及终端
CN113705375A (zh) 一种船舶航行环境视觉感知设备及方法
Lentsch et al. Slicematch: Geometry-guided aggregation for cross-view pose estimation
CN115203460A (zh) 一种基于深度学习的像素级跨视角图像定位方法及系统
CN114663880A (zh) 基于多层级跨模态自注意力机制的三维目标检测方法
CN116912675A (zh) 一种基于特征迁移的水下目标检测方法及系统
CN116311218A (zh) 基于自注意力特征融合的带噪植株点云语义分割方法及系统
CN115825946A (zh) 基于无监督学习的毫米波雷达测距方法及装置
Treible et al. Learning dense stereo matching for digital surface models from satellite imagery
KR102433632B1 (ko) 라이다 깊이 이미지 채움 장치 및 방법
CN117529749A (zh) 无约束的图像稳定
CN115457120A (zh) 一种gps拒止条件下的绝对位置感知方法与系统
Sehli et al. WeLDCFNet: Convolutional Neural Network based on Wedgelet Filters and Learnt Deep Correlation Features for depth maps features extraction
US11887275B1 (en) Elevated lookout apparatus and a method for its use

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20240108

Address after: 518107 Room 501, building 3, Herun Jiayuan, Huaxia Road, Guangming Street, Guangming New District, Shenzhen City, Guangdong Province

Applicant after: Shenzhen, Zhongshan University

Applicant after: SUN YAT-SEN University

Applicant after: NATIONAL University OF DEFENSE TECHNOLOGY

Address before: 518107 Room 501, building 3, Herun Jiayuan, Huaxia Road, Guangming Street, Guangming New District, Shenzhen City, Guangdong Province

Applicant before: Shenzhen, Zhongshan University

Applicant before: SUN YAT-SEN University