CN110349215A - 一种相机位姿估计方法及装置 - Google Patents

一种相机位姿估计方法及装置 Download PDF

Info

Publication number
CN110349215A
CN110349215A CN201910621126.3A CN201910621126A CN110349215A CN 110349215 A CN110349215 A CN 110349215A CN 201910621126 A CN201910621126 A CN 201910621126A CN 110349215 A CN110349215 A CN 110349215A
Authority
CN
China
Prior art keywords
image
network
estimation
sub
indicate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910621126.3A
Other languages
English (en)
Other versions
CN110349215B (zh
Inventor
钱智明
刘洋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing See Technology Co Ltd
Original Assignee
Beijing See Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing See Technology Co Ltd filed Critical Beijing See Technology Co Ltd
Priority to CN201910621126.3A priority Critical patent/CN110349215B/zh
Publication of CN110349215A publication Critical patent/CN110349215A/zh
Application granted granted Critical
Publication of CN110349215B publication Critical patent/CN110349215B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • G06T7/73Determining position or orientation of objects or cameras using feature-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本发明提供一种相机位姿估计方法及装置,该方法包括:获取第一图像的特征图和第二图像,所述第一图像为所述第二图像的前一帧图像;将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络,得到所述第二图像对应的相机位姿,所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络,所述第一任务包括相机位姿估计,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。通过本发明提供的相机位姿估计方法,可以提高相机位姿估计的鲁棒性和准确性。

Description

一种相机位姿估计方法及装置
技术领域
本发明涉及信息处理技术领域,尤其涉及一种相机位姿估计方法及装置。
背景技术
相机位姿估计属于计算机视觉中的重要组成部分,其可以根据已知三维空间中一些三维点以及它们在相机图像上的二维投影点,来估算相机在三维空间中的位置和姿态。
在现有技术中,相机位姿估计的方法,可以包括基于结构匹配的方法和基于图像检索的方法。其中,上述基于结构匹配的方法直接将二维特征点或三维特征点与三维点进行匹配,并根据匹配上的点对来计算输入图像所对应的相机位姿。上述基于图像检索的方法首先通过图像检索技术来确定与输入图像最相关的若干基准图像,然后通过匹配算法计算输入图像所对应的相机位姿。
然而,上述基于结构匹配的方法和基于图像检索的方法往往依赖于特征描述算子来建立各种观测条件下同一关键点之间的联系,在实际情况下,观测条件的变化使得现有特征描述算子很难准确捕捉各个关键点的不变性,尤其在缺少特征的地方往往容易导致相机位姿估计失败,鲁棒性较差。
发明内容
本发明实施例提供一种相机位姿估计方法及装置,以解决现有技术中相机位姿估计的鲁棒性较差的问题。
为了解决上述技术问题,本发明是这样实现的:
第一方面,本发明实施例提供了一种相机位姿估计方法。该方法包括:
获取第一图像的特征图和第二图像,所述第一图像为所述第二图像的前一帧图像;
将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络,得到所述第二图像对应的相机位姿,所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络,所述第一任务包括相机位姿估计,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。
第二方面,本发明实施例还提供一种相机位姿估计装置。该相机位姿估计装置包括:
获取模块,用于获取第一图像的特征图和第二图像,所述第一图像为所述第二图像的前一帧图像;
相机位姿估计模块,用于将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络,得到所述第二图像对应的相机位姿,所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络,所述第一任务包括相机位姿估计,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。
第三方面,本发明实施例还提供一种相机位姿估计装置,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述的相机位姿估计方法的步骤。
第四方面,本发明实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述的相机位姿估计方法的步骤。
本发明实施例中,通过将第一图像的特征图和第二图像输入预先训练的多任务学习网络以得到所述第二图像对应的相机位姿,这样可以提高相机位姿估计的鲁棒性,此外,由于多任务学习网络为基于具有相关性的相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项训练得到的,可以提高相机位姿估计的准确性。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的相机位姿估计方法的流程图;
图2是本发明实施例提供的多任务学习网络结构的示意图;
图3是本发明又一实施例提供的多任务学习网络结构的示意图;
图4是本发明实施例提供的相机位姿估计装置的结构图;
图5是本发明又一实施例提供的相机位姿估计装置的结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例提供一种相机位姿估计方法。参见图1,图1是本发明实施例提供的相机位姿估计方法的流程图,如图1所示,包括以下步骤:
步骤101、获取第一图像的特征图和第二图像,所述第一图像为所述第二图像的前一帧图像。
本实施例中,上述第一图像和第二图像可以是任意相邻的两帧图像。具体的,可以通过相机采集上述第一图像和第二图像,其中,上述相机可以是任意的可采集图像的设备。
可选的,可以通过卷积神经网络提取第一图像的特征图,例如,MobileNet、ResNet、Inception或Xception等网络。其中,上述第一图像的特征图可以包括第一图像的多层次特征图中的部分或全部,第一图像的多层次特征图可以是上述卷积神经网络的不同网络层输出的不同分辨率的特征图。
需要说明的是,若上述第二图像为采集的第一帧图像,则上述第一图像的特征图可以为默认值,例如0。
步骤102、将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络,得到所述第二图像对应的相机位姿,所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络,所述第一任务包括相机位姿估计,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。
实际情况中,由于图像的语义信息、深度信息、视觉里程计(即VO,也可称为相对位姿)等均和相机位姿之间存在相关关系,因此可以通过图像语义分割、图像深度估计和视觉里程计估计中的至少一项优化相机位姿估计,以提高相机位姿估计的准确性。其中,上述相机位姿可以包括相机的位置和姿态。
本实施例中,在多任务学习网络的训练阶段,上述多任务学习网络可以同时进行相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项等学习和训练,这样通过训练得到的多任务学习网络可以实现相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项。
实际应用中,可以在采集到第一图像后,将第一图像输入上述多任务学习网络,得到第一图像的特征图和第一图像对应的相机位姿;若采集到第二图像,则可以将第一图像的特征图和第二图像输入上述多任务学习网络,得到第二图像的特征图以及第二图像对应的相机位姿;若采集到第三图像,则可以将第二图像的特征图和第三图像输入上述多任务学习网络,得到第三图像的特征图,以此类推。
可选的,本发明实施例通过上述多任务学习网络也可以得到第二图像对应的语义分割信息、深度信息和相对位姿。
本发明实施例提供的相机位姿估计方法,通过将第一图像的特征图和第二图像输入预先训练的多任务学习网络以得到所述第二图像对应的相机位姿,这样可以提高相机位姿估计的鲁棒性,此外,由于多任务学习网络为基于具有相关性的相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项训练得到的,可以提高相机位姿估计的准确性。
可选的,所述第二任务可以包括图像语义分割、图像深度估计和视觉里程计估计;
参见图2,所述多任务学习网络可以包括主干网络10、视觉里程计估计子网络20、相机位姿估计子网络30、图像语义分割子网络40和图像深度估计子网络50;
所述主干网络10可以分别与所述视觉里程计估计子网络20、所述相机位姿估计子网络30、所述图像语义分割子网络40和所述图像深度估计子网络50连接,用于获取所述第二图像的多层次特征图。
本实施例中,上述主干网络10可以是MobileNet、ResNet、Inception或Xception等网络。上述多层次特征图可以包括上述主干网络的不同网络层输出的不同分辨率的特征图,其中,上述主干网络的网络层可以根据实际情况进行合理设置,例如,参见图3,上述主干网络10可以包括五个网络层,可以分别输出第二图像It(例如,448*448*3的图像)的特征图Bt,1至特征图Bt,5
可选的,上述第一图像的特征图可以至少包括将第一图像输入上述主干网络10所得到的第一图像的多层次特征图中的最后一层的特征图。
上述视觉里程计估计子网络20可以根据第一图像的特征图和上述主干网络10输出的第二图像的特征图计算第一图像和第二图像的相对位姿。上述相机位姿估子计网络30可以用于根据上述主干网络10输出的第二图像的特征图计算第二图像的相机位姿。上述图像语义分割子网络40可以用于根据上述主干网络10输出的第二图像的特征图输出第二图像的语义分割结果。上述图像深度估计子网络50可以用于根据上述主干网络10输出的第二图像的特征图输出所述第二图像的深度估计结果。
本发明实施例基于相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计共同训练得到的多任务学习网络,以进行相机位姿估计,可以提高相机位姿估计的准确性。
可选的,所述视觉里程计估计子网络20包括第一连接层、第一卷积层和第一全连接层;
所述第一连接层用于将所述第一图像的多层次特征图中的最后一层特征图和所述第二图像的多层次特征图中的最后一层特征图进行直接连接;
所述第一卷积层用于对所述第一连接层输出的特征图进行卷积;
所述第一全连接层用于根据所述第一卷积层输出的特征图,输出所述第一图像和所述第二图像的相对位姿。
本实施例中,上述第一图像的特征图可以包括将第一图像输入上述主网络所输出的第一图像的多层次特征图中的最后一层特征图。上述第一连接层可以包括一个或多个连接层,例如,参见图3,第一连接层可以包括一个连接层。上述第一卷积层可以包括一个或多个卷积层,例如,参见图3,上述第一卷积层可以包括一个卷积层。上述第一全连接层可以包括一个或多个全连接层,例如,参见图3,上述第一全连接层可以包括两个全连接层。
以图3所示的视觉里程计估计子网络为例进行说明,参见图3,将第二图像It的特征图Bt,5和第一图像It-1的特征图Bt-1,5进行直接连接和卷积,得到特征图Vt,t-1(例如,14*14*256的特征图),并对特征图Vt,t-1进行全连接,得到特征图Gt,t-1,再对特征图Gt,t-1进行全连接,得到第一图像和第二图像的相对位姿Ot,t-1
本实施例根据第一图像的多层次特征图中的最后一层特征图和所述第二图像的多层次特征图中的最后一层特征图计算第一图像和第二图像的相对位姿,可以提高相对位姿计算的准确性。
可选的,所述多任务学习网络还包括共享子网络,所述共享子网络分别和所述图像语义分割子网络40、所述图像深度估计子网络50和所述相机位姿估计子网络30连接,用于将所述第二图像的多层次特征图和所述第一图像的共享特征图进行特征融合;
所述第一图像的共享特征图为根据所述视觉里程计估计子网络20输出的相对位姿,对所述第一图像在所述共享子网络输出的特征图进行特征偏移得到的特征图。
本实施例中,上述共享子网络可以包括多个卷积模块,其中,每个卷积模块可以包括但不限于一个上采样层、一个连接层和一个卷积层。
例如,参见图3,上述共享子网络包括依次连接的三个卷积模块,上述三个卷积模块分别与主干网络的五个网络层中的后三个网络层一一对应且连接。上述三个卷积模块中的第一个卷积模块用于对主干网络输出的特征图Bt,5进行上采样、连接和卷积,以得到特征图Ht,1(例如,14*14*256的特征图),第二卷积模块用于将特征图Ht,1和特征图Bt,4进行上采样、连接和卷积,得到特征图Ht,2(例如,28*28*256的特征图),上述第三个卷积模块用于对第一图像的共享特征图Wt,t-1(例如,56*56*256的特征图)和特征图Ht,2进行上采样、连接和卷积,得到第二图像特征图Ht,3
其中,第一图像的共享特征图Wt,t-1可以是根据视觉里程计估计子网络输出的相对位姿Ot,t-1和第一图像It-1的特征图Ht-1,3(也即第一图像在共享子网络输出的特征图)进行特征融合得到的特征图,例如,将相对位姿Ot,t-1和第一图像It-1的特征图Ht-1,3进行仿射变换和扭曲(即Feature Warping)得到的特征图(即Warping Features)。
本实施例通过对第二图像的多层次特征图和第一图像的共享特征图进行特征融合,并可以基于融合后的特征图进行相机位姿估计、图像深度估计和图像语义分割等,可以提高相机位姿估计、图像深度估计和图像语义分割等的准确性。
可选的,所述图像语义分割子网络40可以包括第二卷积层和SoftMax层;
所述第二卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积;
所述SoftMax层用于根据所述第二卷积层输出的特征图,输出所述第二图像的语义分割结果。
本实施例中,上述第二卷积层可以包括一个或多个用于图像语义分割的卷积层,例如,上述第二卷积层可以包括两个用于图像语义分割的卷积层,用于对共享子网络输出的特征图进行卷积。
上述SoftMax层用于根据第二卷积层输出的第二图像的特征图,输出第二图像的语义分割结果。例如,若上述第二卷积层可以包括两个用于图像语义分割的卷积层,则上述SoftMax层可以基于两个用于图像语义分割的卷积层中最后一个卷积层输出的第二图像的特征图,输出第二图像的语义分割结果。
例如,参见图3,图像语义分割子网络可以对第二图像的特征图Ht,3进行卷积和归一化,得到第二图像的图像语义分割结果,如特征图St(例如,56*56*64的特征图),其中,图3中的Segmentation特征图为特征图St的示意图。
可选的,所述图像深度估计子网络可以包括第三卷积层;
所述第三卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积,输出所述第二图像的深度估计结果。
本实施例中,上述第三卷积层可以包括一个或多个用于图像深度估计的卷积层,例如,上述第三卷积层可以包括两个用于图像深度估计的卷积层。
例如,参见图3,图像深度估计子网络可以对共享子网络输出的第二图像的特征图Ht,3进行卷积,得到第二图像的深度估计结果,如深度特征图Dt(例如,56*56*64的特征图),其中,图3中的Depth特征图为深度特征图Dt的示意图。
可选的,所述相机位姿估计子网络包括第二连接层、第四卷积层和第二全连接层;
所述第二连接层用于将所述共享子网络输出的特征图降采样后与所述第二图像的多层次特征图的最后一层输出进行直接连接;
所述第四卷积层用于对所述第二连接层输出的特征图进行卷积;
所述第二全连接层用于根据所述第四卷积层输出的特征图,输出所述第二图像的相机位姿。
本实施例中,上述第二连接层可以包括一个或多个连接层,例如,参见图3,上述第二连接层可以包括一个连接层。上述第四卷积层可以包括一个或多个卷积层,例如,参见图3,上述第四卷积层可以包括一个卷积层。上述第二全连接层可以包括一个或多个全连接层,例如,参见图3,上述第二全连接层可以包括两个全连接层。
以下以图3所示的相机位姿估计子网络为例进行说明,参见图3,相机位姿估计子网络可以对共享子网络输出的第二图像的特征图Bt,5降采样后与第二图像的特征图Ht,3进行直接连接和卷积,得到特征图Pt,1(例如,14*14*256的特征图),并对特征图Pt,1进行全连接,得到特征图Pt,2,再对特征图Pt,2进行全连接,得到第二图像It的对应的相机位姿Pt
可选的,用于所述多任务学习网络训练的损失函数可以如下:
其中,Lpose表示所述相机位姿估计的损失函数,Lvo表示所述视觉里程计估计的损失函数,Ljoin表示所述图像语义分割和图像深度估计的联合一致性损失函数,表示所述相机位姿估计损失函数的可学习参数,表示所述视觉里程计估计损失函数的可学习参数,表示所述图像语义分割和图像深度估计联合一致性损失函数的可学习参数。
可选的,所述相机位姿估计子网络的损失函数Lpose可以如下:
其中,Pt分别表示所述相机位姿估计子网络输出的相机位姿和其真值,xt分别表示所述相机位姿的相机位置和其真值,qt分别表示所述相机位姿的相机姿态和其真值,Lx表示所述相机位置的损失函数,Lq表示所述相机姿态的损失函数,表示所述相机位置的损失函数的可学习参数,表示所述相机姿态的损失函数的可学习参数。
需要说明的是,上述||||2表示矢量的2-范数。
可选的,所述视觉里程计估计子网络的损失函数Lvo可以如下:
其中,Ot,t-1表示所述视觉里程计子网络输出的相对位姿,xt,t-1表示所述相对位姿的位置,qt,t-1表示所述相对位姿的姿态,分别表示所述第一图像和第二图像的相机位姿真值,分别表示所述第一图像和第二图像的相机位置真值,分别表示所述第一图像和第二图像的相机姿态真值,Lxvo表示所述视觉里程计估计的位置损失函数,Lqvo表示所述视觉里程计估计的姿态损失函数,表示所述位置损失函数的可学习参数,所述表示所述姿态损失函数的可学习参数。
实际应用中,联合一致性可以是指前一帧图像在经过相对位姿调整后,其空间上对应点的语义标记信息和深度信息应该是相互一致的。具体的,可通过语义标记信息过滤掉运动目标,如人、狗和汽车等。若空间中的某一点在t-1时刻相机中心坐标系下的坐标为则:
其中,(xt-1,yt-1)表示t-1时刻相机平面的二维(即2D)坐标,(x0,y0)表示相机中心点在相机平面上的对应坐标,fx、fy分别为相机平面上x轴和y轴方向上的尺度因子。令Tt,t-1为图像It和前一帧图像It-1的相对位姿Ot,t-1所对应的三维(即3D)变换矩阵,则(xt-1,yt-1)点在t时刻相机平面的投影可以为:
由上式可得到t时刻相机平面的3D坐标,将其投影到t时刻相机平面可得:
根据联合一致性,图像It上的点(x′t,y′t)和前一帧图像It-1的点(xt-1,yt-1)所对应的语义标签和深度值应该是一致的。
可选的,所述联合一致性损失函数Ljoin可以如下:
其中,St分别表示所述图像语义分割子网络的输出结果及其真值,Dt分别表示所述图像深度估计子网络的输出结果及其真值,Ot,t-1表示所述视觉里程计估计子网络的输出结果,Ls、Ld、Ljs和Ljd分别表示所述图像语义分割损失函数、图像深度估计损失函数、图像语义一致性损失函数和图像深度一致性损失函数,分别表示所述图像语义分割损失函数、所述图像深度估计损失函数、所述图像语义一致性损失函数和所述图像深度一致性损失函数的可学习参数,x′和y′分别表示x和y根据Ot,t-1进行位姿变换后的结果,St(x,y,c)和分别表示坐标(x,y)所对应的标记类别为c的概率及其真值。
可选的,在多任务学习网络的训练过程中,对于每个输入,可以采用多任务交替优化的策略,首先优化图像语义分割子网络,其次优化图像深度估计子网络,然后优化视觉里程计估计网络,最后优化相机位姿估计子网络。
以图3所示的多任务学习网络为例,若本发明实施例采用Xception网络作为主网络的第一特征提取网络,Ht,1、Ht,2和Ht,3的特征通道数分别为1024、512和256,Pt,1的特征通道数为256,Pt,2和Gt,t-1的特征维数为1024,Pt和Ot,t-1的特征维数为6。如表1和表2所示,本发明实施例提供的相机位姿估计方法与基于PoseNet、VidLoc、MapNet、SVSPose、LSTMPose以及VidLocNet等相机位姿估计方法进行比较可知,在7-Scenes和Cambridge-Landmarks数据集上本发明实施提供的相机位姿估计方法得到的相机的平移精度上可提升约两倍,在旋转精度上可提升约一倍。
表1 7-Scenes数据集上的各种相机位姿估计方法比较
Scene PoseNet SVSPose LSTMPose VidLocNet 本方案
King’s College 1.92m,5.40° 1.06m,2.81° 0.99m,3.65° 0.84m,1.42° 0.61m,0.89°
Old Hospital 2.31m,5.38° 1.50m,4.03° 1.51m,4.29° 1.08m,2.41° 0.73m,1.32°
Shop Facade 1.46m,8.08° 0.63m,5.73° 1.18m,7.44° 0.59m,3.53° 0.39m,1.33°
St Mary’s Church 2.65m,8.46° 2.11m,8.11° 1.52m,6.68° 0.63m,3.91° 0.47m,1.41°
Average 2.08m,6.83° 1.33m,5.17° 1.30m,5.52° 0.78m,2.82° 0.55m,1.24°
表2 Cambridge-Landmarks数据集上的各种相机位姿估计方法比较
Scene PoseNet VidLoc MapNet VidLocNet 本方案
Chess 0.13m,4.48° 0.18m,NA 0.08m,3.25° 0.036m,1.71° 0.026m,0.89°
Fire 0.27m,11.30° 0.26m,NA 0.27m,11.69° 0.039m,5.34° 0.028m,2.34°
Heads 0.17m,13.00° 0.14m,NA 0.18m,13.25° 0.046m,6.65° 0.032m,2.76°
Office 0.19m,5.55° 0.26m,NA 0.17m,5.15° 0.039m,1.95° 0.031m,1.61°
Pumpkin 0.26m,4.75° 0.36m,NA 0.22m,4.02° 0.037m,2.28° 0.032m,1.72°
RedKitchen 0.23m,5.35° 0.31m,NA 0.23m,4.93° 0.039m,2.21° 0.033m,1.57°
Stairs 0.35m,12.40° 0.26m,NA 0.30m,12.08° 0.097m,6.48° 0.046m,3.99°
Average 0.23m,8.12° 0.25m,NA 0.21m,7.77° 0.048m,3.80° 0.55m,2.11°
由上可知,本发明实施例提供的相机位姿估计方法在室内场景中,其平移精度和旋转精度可分别达到0.03米和2度;在室外场景中,其平移精度和旋转精度可分别达到0.5米和1度。另外,本发明实施例提供的相机位姿估计方法采用全卷积网络,可快速实现相机位姿估计(也可称为视觉定位),在1080Ti上其处理速度可达到30fps(即30帧每秒),在iOSA12处理器上可达到15fps。
参见图4,图4是本发明实施例提供的相机位姿估计装置的结构图。如图4所示,相机位姿估计装置400包括:
获取模块401,用于获取第一图像的特征图和第二图像,所述第一图像为所述第二图像的前一帧图像;
相机位姿估计模块402,用于将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络,得到所述第二图像对应的相机位姿,所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络,所述第一任务包括相机位姿估计,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。
可选的,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计;
所述多任务学习网络包括主干网络、视觉里程计估计子网络、图像语义分割子网络、图像深度估计子网络和相机位姿估计子网络;
所述主干网络用于获取所述第二图像的多层次特征图,并分别与所述视觉里程计估计子网络、所述图像语义分割子网络、所述图像深度估计子网络和所述相机位姿估计子网络连接。
可选的,所述视觉里程计估计子网络包括第一连接层、第一卷积层和第一全连接层;
所述第一连接层用于将所述第一图像的多层次特征图中的最后一层特征图和所述第二图像的多层次特征图中的最后一层特征图进行直接连接;
所述第一卷积层用于对所述第一连接层输出的特征图进行卷积;
所述第一全连接层用于根据所述第一卷积层输出的特征图,输出所述第一图像和所述第二图像的相对位姿。
可选的,所述多任务学习网络还包括共享子网络,所述共享子网络分别和所述图像语义分割子网络、所述图像深度估计子网络和所述相机位姿估计子网络连接,用于将所述第二图像的多层次特征图和所述第一图像的共享特征图进行特征融合;
所述第一图像的共享特征图为根据所述视觉里程计估计子网络输出的相对位姿,对所述第一图像在所述共享子网络输出的特征图进行特征偏移得到的特征图。
可选的,所述图像语义分割子网络包括第二卷积层和SoftMax层;
所述第二卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积;
所述SoftMax层用于根据所述第二卷积层输出的特征图,输出所述第二图像的语义分割结果。
可选的,所述图像深度估计子网络包括第三卷积层;
所述第三卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积,输出所述第二图像的深度估计结果。
可选的,所述相机位姿估计子网络包括第二连接层、第四卷积层和第二全连接层;
所述第二连接层用于将所述共享子网络输出的特征图降采样后与所述第二图像的多层次特征图的最后一层输出进行直接连接;
所述第四卷积层用于对所述第二连接层输出的特征图进行卷积;
所述第二全连接层用于根据所述第四卷积层输出的特征图,输出所述第二图像的相机位姿。
可选的,用于所述多任务学习网络训练的损失函数如下:
其中,Lpose表示所述相机位姿估计的损失函数,Lvo表示所述视觉里程计估计的损失函数,Ljoin表示所述图像语义分割和图像深度估计的联合一致性损失函数,表示所述相机位姿估计损失函数的可学习参数,表示所述视觉里程计估计损失函数的可学习参数,表示所述图像语义分割和图像深度估计联合一致性损失函数的可学习参数。
可选的,所述相机位姿估计子网络的损失函数Lpose如下:
其中,Pt分别表示所述相机位姿估计子网络输出的相机位姿和其真值,xt和分别表示所述相机位姿的相机位置和其真值,qt分别表示所述相机位姿的相机姿态和其真值,Lx表示所述相机位置的损失函数,Lq表示所述相机姿态的损失函数,表示所述相机位置的损失函数的可学习参数,表示所述相机姿态的损失函数的可学习参数。
可选的,所述视觉里程计估计子网络的损失函数Lvo如下:
其中,Ot,t-1表示所述视觉里程计子网络输出的相对位姿,xt,t-1表示所述相对位姿的位置,qt,t-1表示所述相对位姿的姿态,分别表示所述第一图像和第二图像的相机位姿真值,分别表示所述第一图像和第二图像的相机位置真值,分别表示所述第一图像和第二图像的相机姿态真值,Lxvo表示所述视觉里程计估计的位置损失函数,Lqvo表示所述视觉里程计估计的姿态损失函数,表示所述位置损失函数的可学习参数,所述表示所述姿态损失函数的可学习参数。
可选的,所述联合一致性损失函数Ljoin如下:
其中,St分别表示所述图像语义分割子网络的输出结果及其真值,Dt分别表示所述图像深度估计子网络的输出结果及其真值,Ot,t-1表示所述视觉里程计估计子网络的输出结果,Ls、Ld、Ljs和Ljd分别表示所述图像语义分割损失函数、图像深度估计损失函数、图像语义一致性损失函数和图像深度一致性损失函数,分别表示所述图像语义分割损失函数、所述图像深度估计损失函数、所述图像语义一致性损失函数和所述图像深度一致性损失函数的可学习参数,x′和y′分别表示x和y根据Ot,t-1进行位姿变换后的结果,St(x,y,c)和分别表示坐标(x,y)所对应的标记类别为c的概率及其真值。
本发明实施例提供的相机位姿估计装置400能够实现上述方法实施例中的各个过程,为避免重复,这里不再赘述。
本发明实施例的相机位姿估计装置400,获取模块401,用于获取第一图像的多层次特征图和第二图像,所述第一图像为所述第二图像的前一帧图像;相机位姿估计模块402,用于将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络,得到所述第二图像对应的相机位姿,所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络,所述第一任务包括相机位姿估计,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。通过将第一图像的特征图和第二图像输入预先训练的多任务学习网络以得到所述第二图像对应的相机位姿,这样可以提高相机位姿估计的鲁棒性,此外,由于多任务学习网络为基于具有相关性的相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项训练得到的,可以提高相机位姿估计的准确性。
参见图5,图5是本发明又一实施提供的相机位姿估计装置的结构图,如图5所示,相机位姿估计装置500包括:处理器501、存储器502及存储在所述存储器502上并可在所述处理器上运行的计算机程序,数据发送装置500中的各个组件通过总线接口503耦合在一起,所述计算机程序被所述处理器501执行时实现如下步骤:
获取第一图像的特征图和第二图像,所述第一图像为所述第二图像的前一帧图像;
将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络,得到所述第二图像对应的相机位姿,所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络,所述第一任务包括相机位姿估计,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。
可选的,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计;
所述多任务学习网络包括主干网络、视觉里程计估计子网络、图像语义分割子网络、图像深度估计子网络和相机位姿估计子网络;
所述主干网络用于获取所述第二图像的多层次特征图,并分别与所述视觉里程计估计子网络、所述图像语义分割子网络、所述图像深度估计子网络和所述相机位姿估计子网络连接。
可选的,所述视觉里程计估计子网络包括第一连接层、第一卷积层和第一全连接层;
所述第一连接层用于将所述第一图像的多层次特征图中的最后一层特征图和所述第二图像的多层次特征图中的最后一层特征图进行直接连接;
所述第一卷积层用于对所述第一连接层输出的特征图进行卷积;
所述第一全连接层用于根据所述第一卷积层输出的特征图,输出所述第一图像和所述第二图像的相对位姿。
可选的,所述多任务学习网络还包括共享子网络,所述共享子网络分别和所述图像语义分割子网络、所述图像深度估计子网络和所述相机位姿估计子网络连接,用于将所述第二图像的多层次特征图和所述第一图像的共享特征图进行特征融合;
所述第一图像的共享特征图为根据所述视觉里程计估计子网络输出的相对位姿,对所述第一图像在所述共享子网络输出的特征图进行特征偏移得到的特征图。
可选的,所述图像语义分割子网络包括第二卷积层和SoftMax层;
所述第二卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积;
所述SoftMax层用于根据所述第二卷积层输出的特征图,输出所述第二图像的语义分割结果。
可选的,所述图像深度估计子网络包括第三卷积层;
所述第三卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积,输出所述第二图像的深度估计结果。
可选的,所述相机位姿估计子网络包括第二连接层、第四卷积层和第二全连接层;
所述第二连接层用于将所述共享子网络输出的特征图降采样后与所述第二图像的多层次特征图的最后一层输出进行直接连接;
所述第四卷积层用于对所述第二连接层输出的特征图进行卷积;
所述第二全连接层用于根据所述第四卷积层输出的特征图,输出所述第二图像的相机位姿。
可选的,用于所述多任务学习网络训练的损失函数如下:
其中,Lpose表示所述相机位姿估计的损失函数,Lvo表示所述视觉里程计估计的损失函数,Ljoin表示所述图像语义分割和图像深度估计的联合一致性损失函数,表示所述相机位姿估计损失函数的可学习参数,表示所述视觉里程计估计损失函数的可学习参数,表示所述图像语义分割和图像深度估计联合一致性损失函数的可学习参数。
可选的,所述相机位姿估计子网络的损失函数Lpose如下:
其中,Pt分别表示所述相机位姿估计子网络输出的相机位姿和其真值,xt和分别表示所述相机位姿的相机位置和其真值,qt分别表示所述相机位姿的相机姿态和其真值,Lx表示所述相机位置的损失函数,Lq表示所述相机姿态的损失函数,表示所述相机位置的损失函数的可学习参数,表示所述相机姿态的损失函数的可学习参数。
可选的,所述视觉里程计估计子网络的损失函数Lvo如下:
其中,Ot,t-1表示所述视觉里程计子网络输出的相对位姿,xt,t-1表示所述相对位姿的位置,qt,t-1表示所述相对位姿的姿态,分别表示所述第一图像和第二图像的相机位姿真值,分别表示所述第一图像和第二图像的相机位置真值,分别表示所述第一图像和第二图像的相机姿态真值,Lxvo表示所述视觉里程计估计的位置损失函数,Lqvo表示所述视觉里程计估计的姿态损失函数,表示所述位置损失函数的可学习参数,所述表示所述姿态损失函数的可学习参数。
可选的,所述联合一致性损失函数Ljoin如下:
其中,St分别表示所述图像语义分割子网络的输出结果及其真值,Dt分别表示所述图像深度估计子网络的输出结果及其真值,Ot,t-1表示所述视觉里程计估计子网络的输出结果,Ls、Ld、Ljs和Ljd分别表示所述图像语义分割损失函数、图像深度估计损失函数、图像语义一致性损失函数和图像深度一致性损失函数,分别表示所述图像语义分割损失函数、所述图像深度估计损失函数、所述图像语义一致性损失函数和所述图像深度一致性损失函数的可学习参数,x′和y′分别表示x和y根据Ot,t-1进行位姿变换后的结果,St(x,y,c)和分别表示坐标(x,y)所对应的标记类别为c的概率及其真值。
本发明实施例还提供一种相机位姿估计装置,包括处理器,存储器,存储在存储器上并可在所述处理器上运行的计算机程序,该计算机程序被处理器执行时实现上述相机位姿估计方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
本发明实施例还提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现上述相机位姿估计方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。其中,所述的计算机可读存储介质,如只读存储器(Read-Only Memory,简称ROM)、随机存取存储器(Random Access Memory,简称RAM)、磁碟或者光盘等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个......”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
上面结合附图对本发明的实施例进行了描述,但是本发明并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本发明的启示下,在不脱离本发明宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本发明的保护之内。

Claims (13)

1.一种相机位姿估计方法,其特征在于,包括:
获取第一图像的特征图和第二图像,所述第一图像为所述第二图像的前一帧图像;
将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络,得到所述第二图像对应的相机位姿,所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络,所述第一任务包括相机位姿估计,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。
2.根据权利要求1所述的方法,其特征在于,所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计;
所述多任务学习网络包括主干网络、视觉里程计估计子网络、图像语义分割子网络、图像深度估计子网络和相机位姿估计子网络;
所述主干网络用于获取所述第二图像的多层次特征图,并分别与所述视觉里程计估计子网络、所述图像语义分割子网络、所述图像深度估计子网络和所述相机位姿估计子网络连接。
3.根据权利要求2所述的方法,其特征在于,所述视觉里程计估计子网络包括第一连接层、第一卷积层和第一全连接层;
所述第一连接层用于将所述第一图像的多层次特征图中的最后一层特征图和所述第二图像的多层次特征图中的最后一层特征图进行直接连接;
所述第一卷积层用于对所述第一连接层输出的特征图进行卷积;
所述第一全连接层用于根据所述第一卷积层输出的特征图,输出所述第一图像和所述第二图像的相对位姿。
4.根据权利要求2所述的方法,其特征在于,所述多任务学习网络还包括特征共享子网络,所述特征共享子网络分别和所述图像语义分割子网络、所述图像深度估计子网络和所述相机位姿估计子网络连接,用于将所述第二图像的多层次特征图和所述第一图像的共享特征图进行特征融合;
所述第一图像的共享特征图为根据所述视觉里程计估计子网络输出的相对位姿,对所述第一图像在所述特征共享子网络输出的特征图进行特征偏移得到的特征图。
5.根据权利要求4所述的方法,其特征在于,所述图像语义分割子网络包括第二卷积层和SoftMax层;
所述第二卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积;
所述SoftMax层用于根据所述第二卷积层输出的特征图,输出所述第二图像的语义分割结果。
6.根据权利要求4所述的方法,其特征在于,所述图像深度估计子网络包括第三卷积层;
所述第三卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积,输出所述第二图像的深度估计结果。
7.根据权利要求4所述的方法,其特征在于,所述相机位姿估计子网络包括第二连接层、第四卷积层和第二全连接层;
所述第二连接层用于将所述共享子网络输出的特征图降采样后与所述第二图像的多层次特征图的最后一层输出进行直接连接;
所述第四卷积层用于对所述第二连接层输出的特征图进行卷积;
所述第二全连接层用于根据所述第四卷积层输出的特征图,输出所述第二图像的相机位姿。
8.根据权利要求2所述的方法,其特征在于,用于所述多任务学习网络训练的损失函数如下:
其中,Lpose表示所述相机位姿估计的损失函数,Lvo表示所述视觉里程计估计的损失函数,Ljoin表示所述图像语义分割和图像深度估计的联合一致性损失函数,表示所述相机位姿估计损失函数的可学习参数,表示所述视觉里程计估计损失函数的可学习参数,表示所述图像语义分割和图像深度估计联合一致性损失函数的可学习参数。
9.根据权利要求8所述的方法,其特征在于,所述相机位姿估计子网络的损失函数Lpose如下:
其中,Pt分别表示所述相机位姿估计子网络输出的相机位姿和其真值,xt分别表示所述相机位姿的相机位置和其真值,qt分别表示所述相机位姿的相机姿态和其真值,Lx表示所述相机位置的损失函数,Lq表示所述相机姿态的损失函数,表示所述相机位置的损失函数的可学习参数,表示所述相机姿态的损失函数的可学习参数。
10.根据权利要求8所述的方法,其特征在于,所述视觉里程计估计子网络的损失函数Lvo如下:
其中,Ot,t-1表示所述视觉里程计子网络输出的相对位姿,xt,t-1表示所述相对位姿的位置,qt,t-1表示所述相对位姿的姿态,分别表示所述第一图像和第二图像的相机位姿真值,分别表示所述第一图像和第二图像的相机位置真值,分别表示所述第一图像和第二图像的相机姿态真值,Lxvo表示所述视觉里程计估计的位置损失函数,Lqvo表示所述视觉里程计估计的姿态损失函数,表示所述位置损失函数的可学习参数,所述表示所述姿态损失函数的可学习参数。
11.根据权利要求8所述的方法,其特征在于,所述联合一致性损失函数Ljoin如下:
其中,St分别表示所述图像语义分割子网络的输出结果及其真值,Dt分别表示所述图像深度估计子网络的输出结果及其真值,Ot,t-1表示所述视觉里程计估计子网络的输出结果,Ls、Ld、Ljs和Ljd分别表示所述图像语义分割损失函数、图像深度估计损失函数、图像语义一致性损失函数和图像深度一致性损失函数,分别表示所述图像语义分割损失函数、所述图像深度估计损失函数、所述图像语义一致性损失函数和所述图像深度一致性损失函数的可学习参数,x′和y′分别表示x和y根据Ot,t-1进行位姿变换后的结果,St(x,y,c)和分别表示坐标(x,y)所对应的标记类别为c的概率及其真值。
12.一种相机位姿估计装置,其特征在于,包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至11中任一项所述的相机位姿估计方法的步骤。
13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的相机位姿估计方法的步骤。
CN201910621126.3A 2019-07-10 2019-07-10 一种相机位姿估计方法及装置 Active CN110349215B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910621126.3A CN110349215B (zh) 2019-07-10 2019-07-10 一种相机位姿估计方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910621126.3A CN110349215B (zh) 2019-07-10 2019-07-10 一种相机位姿估计方法及装置

Publications (2)

Publication Number Publication Date
CN110349215A true CN110349215A (zh) 2019-10-18
CN110349215B CN110349215B (zh) 2021-10-12

Family

ID=68174971

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910621126.3A Active CN110349215B (zh) 2019-07-10 2019-07-10 一种相机位姿估计方法及装置

Country Status (1)

Country Link
CN (1) CN110349215B (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080699A (zh) * 2019-12-11 2020-04-28 中国科学院自动化研究所 基于深度学习的单目视觉里程计方法及系统
CN111612842A (zh) * 2020-05-29 2020-09-01 贝壳技术有限公司 生成位姿估计模型的方法和装置
CN112528873A (zh) * 2020-12-15 2021-03-19 西安电子科技大学 基于多级语义表征和语义计算的信号语义识别方法
CN113034581A (zh) * 2021-03-15 2021-06-25 中国空间技术研究院 基于深度学习的空间目标相对位姿估计方法
CN113378855A (zh) * 2021-06-22 2021-09-10 北京百度网讯科技有限公司 用于处理多任务的方法、相关装置及计算机程序产品
CN114155294A (zh) * 2021-10-25 2022-03-08 东北大学 一种基于深度学习的工程机械工作装置位姿估计方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451620A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于多任务学习的场景理解方法
CN108986166A (zh) * 2018-07-20 2018-12-11 山东大学 一种基于半监督学习的单目视觉里程预测方法及里程计
US20190108651A1 (en) * 2017-10-06 2019-04-11 Nvidia Corporation Learning-Based Camera Pose Estimation From Images of an Environment
US20190122373A1 (en) * 2018-12-10 2019-04-25 Intel Corporation Depth and motion estimations in machine learning environments
CN109977981A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 基于双目视觉的场景解析方法、机器人及存储装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107451620A (zh) * 2017-08-11 2017-12-08 深圳市唯特视科技有限公司 一种基于多任务学习的场景理解方法
US20190108651A1 (en) * 2017-10-06 2019-04-11 Nvidia Corporation Learning-Based Camera Pose Estimation From Images of an Environment
CN109977981A (zh) * 2017-12-27 2019-07-05 深圳市优必选科技有限公司 基于双目视觉的场景解析方法、机器人及存储装置
CN108986166A (zh) * 2018-07-20 2018-12-11 山东大学 一种基于半监督学习的单目视觉里程预测方法及里程计
US20190122373A1 (en) * 2018-12-10 2019-04-25 Intel Corporation Depth and motion estimations in machine learning environments

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
NOHA RADWAN等: "VLocNet++: Deep Multitask Learning for Semantic Visual Localization and Odometry", 《 IEEE ROBOTICS AND AUTOMATION LETTERS》 *
丁文东等: "移动机器人视觉里程计综述", 《自动化学报》 *

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111080699A (zh) * 2019-12-11 2020-04-28 中国科学院自动化研究所 基于深度学习的单目视觉里程计方法及系统
CN111080699B (zh) * 2019-12-11 2023-10-20 中国科学院自动化研究所 基于深度学习的单目视觉里程计方法及系统
CN111612842A (zh) * 2020-05-29 2020-09-01 贝壳技术有限公司 生成位姿估计模型的方法和装置
CN111612842B (zh) * 2020-05-29 2023-08-18 如你所视(北京)科技有限公司 生成位姿估计模型的方法和装置
CN112528873A (zh) * 2020-12-15 2021-03-19 西安电子科技大学 基于多级语义表征和语义计算的信号语义识别方法
CN112528873B (zh) * 2020-12-15 2022-03-22 西安电子科技大学 基于多级语义表征和语义计算的信号语义识别方法
CN113034581A (zh) * 2021-03-15 2021-06-25 中国空间技术研究院 基于深度学习的空间目标相对位姿估计方法
CN113378855A (zh) * 2021-06-22 2021-09-10 北京百度网讯科技有限公司 用于处理多任务的方法、相关装置及计算机程序产品
CN114155294A (zh) * 2021-10-25 2022-03-08 东北大学 一种基于深度学习的工程机械工作装置位姿估计方法

Also Published As

Publication number Publication date
CN110349215B (zh) 2021-10-12

Similar Documents

Publication Publication Date Title
CN110349215A (zh) 一种相机位姿估计方法及装置
CN112435325B (zh) 基于vi-slam和深度估计网络的无人机场景稠密重建方法
Alexiadis et al. An integrated platform for live 3D human reconstruction and motion capturing
CN108898676B (zh) 一种虚实物体之间碰撞及遮挡检测方法及系统
Tang et al. ESTHER: Joint camera self-calibration and automatic radial distortion correction from tracking of walking humans
EP3786900A2 (en) Markerless multi-user multi-object augmented reality on mobile devices
EP3308323B1 (en) Method for reconstructing 3d scene as 3d model
CN104616247B (zh) 一种用于基于超像素sift航拍地图拼接的方法
CN110363817A (zh) 目标位姿估计方法、电子设备和介质
CN108932734A (zh) 单目图像的深度恢复方法及装置、计算机设备
CN113689503B (zh) 目标对象的姿态检测方法、装置、设备及存储介质
CN102607532B (zh) 一种利用飞控数据的低空影像快速匹配方法
CN109741240A (zh) 一种基于层次聚类的多平面图像拼接方法
CN106125907A (zh) 一种基于线框模型的三维目标注册定位方法
Jog et al. Automated computation of the fundamental matrix for vision based construction site applications
CN117132737B (zh) 一种三维建筑模型构建方法、系统及设备
CN115457176A (zh) 一种图像生成方法、装置、电子设备及存储介质
CN110060296A (zh) 估计姿态的方法、电子设备和显示虚拟对象的方法及设备
Chen et al. Epipole Estimation under Pure Camera Translation.
Khan et al. Towards monocular neural facial depth estimation: Past, present, and future
CN113225484B (zh) 快速获取屏蔽非目标前景的高清图片的方法及装置
CN113538579B (zh) 基于无人机地图与地面双目信息的移动机器人定位方法
Kim et al. FPGA implementation of stereoscopic image proceesing architecture base on the gray-scale projection
Maxey et al. Uav-sim: Nerf-based synthetic data generation for uav-based perception
Medioni et al. Generation of a 3-D face model from one camera

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant