CN110349215A

CN110349215A - 一种相机位姿估计方法及装置

Info

Publication number: CN110349215A
Application number: CN201910621126.3A
Authority: CN
Inventors: 钱智明; 刘洋
Original assignee: Beijing See Technology Co Ltd
Current assignee: Beijing See Technology Co Ltd
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2019-10-18
Anticipated expiration: 2039-07-10
Also published as: CN110349215B

Abstract

本发明提供一种相机位姿估计方法及装置，该方法包括：获取第一图像的特征图和第二图像，所述第一图像为所述第二图像的前一帧图像；将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络，得到所述第二图像对应的相机位姿，所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络，所述第一任务包括相机位姿估计，所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。通过本发明提供的相机位姿估计方法，可以提高相机位姿估计的鲁棒性和准确性。

Description

一种相机位姿估计方法及装置

技术领域

本发明涉及信息处理技术领域，尤其涉及一种相机位姿估计方法及装置。

背景技术

相机位姿估计属于计算机视觉中的重要组成部分，其可以根据已知三维空间中一些三维点以及它们在相机图像上的二维投影点，来估算相机在三维空间中的位置和姿态。

在现有技术中，相机位姿估计的方法，可以包括基于结构匹配的方法和基于图像检索的方法。其中，上述基于结构匹配的方法直接将二维特征点或三维特征点与三维点进行匹配，并根据匹配上的点对来计算输入图像所对应的相机位姿。上述基于图像检索的方法首先通过图像检索技术来确定与输入图像最相关的若干基准图像，然后通过匹配算法计算输入图像所对应的相机位姿。

然而，上述基于结构匹配的方法和基于图像检索的方法往往依赖于特征描述算子来建立各种观测条件下同一关键点之间的联系，在实际情况下，观测条件的变化使得现有特征描述算子很难准确捕捉各个关键点的不变性，尤其在缺少特征的地方往往容易导致相机位姿估计失败，鲁棒性较差。

发明内容

本发明实施例提供一种相机位姿估计方法及装置，以解决现有技术中相机位姿估计的鲁棒性较差的问题。

为了解决上述技术问题，本发明是这样实现的：

第一方面，本发明实施例提供了一种相机位姿估计方法。该方法包括：

获取第一图像的特征图和第二图像，所述第一图像为所述第二图像的前一帧图像；

将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络，得到所述第二图像对应的相机位姿，所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络，所述第一任务包括相机位姿估计，所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。

第二方面，本发明实施例还提供一种相机位姿估计装置。该相机位姿估计装置包括：

获取模块，用于获取第一图像的特征图和第二图像，所述第一图像为所述第二图像的前一帧图像；

相机位姿估计模块，用于将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络，得到所述第二图像对应的相机位姿，所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络，所述第一任务包括相机位姿估计，所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。

第三方面，本发明实施例还提供一种相机位姿估计装置，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述的相机位姿估计方法的步骤。

第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述的相机位姿估计方法的步骤。

本发明实施例中，通过将第一图像的特征图和第二图像输入预先训练的多任务学习网络以得到所述第二图像对应的相机位姿，这样可以提高相机位姿估计的鲁棒性，此外，由于多任务学习网络为基于具有相关性的相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项训练得到的，可以提高相机位姿估计的准确性。

附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对本发明实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例提供的相机位姿估计方法的流程图；

图2是本发明实施例提供的多任务学习网络结构的示意图；

图3是本发明又一实施例提供的多任务学习网络结构的示意图；

图4是本发明实施例提供的相机位姿估计装置的结构图；

图5是本发明又一实施例提供的相机位姿估计装置的结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明实施例提供一种相机位姿估计方法。参见图1，图1是本发明实施例提供的相机位姿估计方法的流程图，如图1所示，包括以下步骤：

步骤101、获取第一图像的特征图和第二图像，所述第一图像为所述第二图像的前一帧图像。

本实施例中，上述第一图像和第二图像可以是任意相邻的两帧图像。具体的，可以通过相机采集上述第一图像和第二图像，其中，上述相机可以是任意的可采集图像的设备。

可选的，可以通过卷积神经网络提取第一图像的特征图，例如，MobileNet、ResNet、Inception或Xception等网络。其中，上述第一图像的特征图可以包括第一图像的多层次特征图中的部分或全部，第一图像的多层次特征图可以是上述卷积神经网络的不同网络层输出的不同分辨率的特征图。

需要说明的是，若上述第二图像为采集的第一帧图像，则上述第一图像的特征图可以为默认值，例如0。

步骤102、将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络，得到所述第二图像对应的相机位姿，所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络，所述第一任务包括相机位姿估计，所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。

实际情况中，由于图像的语义信息、深度信息、视觉里程计(即VO，也可称为相对位姿)等均和相机位姿之间存在相关关系，因此可以通过图像语义分割、图像深度估计和视觉里程计估计中的至少一项优化相机位姿估计，以提高相机位姿估计的准确性。其中，上述相机位姿可以包括相机的位置和姿态。

本实施例中，在多任务学习网络的训练阶段，上述多任务学习网络可以同时进行相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项等学习和训练，这样通过训练得到的多任务学习网络可以实现相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项。

实际应用中，可以在采集到第一图像后，将第一图像输入上述多任务学习网络，得到第一图像的特征图和第一图像对应的相机位姿；若采集到第二图像，则可以将第一图像的特征图和第二图像输入上述多任务学习网络，得到第二图像的特征图以及第二图像对应的相机位姿；若采集到第三图像，则可以将第二图像的特征图和第三图像输入上述多任务学习网络，得到第三图像的特征图，以此类推。

可选的，本发明实施例通过上述多任务学习网络也可以得到第二图像对应的语义分割信息、深度信息和相对位姿。

本发明实施例提供的相机位姿估计方法，通过将第一图像的特征图和第二图像输入预先训练的多任务学习网络以得到所述第二图像对应的相机位姿，这样可以提高相机位姿估计的鲁棒性，此外，由于多任务学习网络为基于具有相关性的相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项训练得到的，可以提高相机位姿估计的准确性。

可选的，所述第二任务可以包括图像语义分割、图像深度估计和视觉里程计估计；

参见图2，所述多任务学习网络可以包括主干网络10、视觉里程计估计子网络20、相机位姿估计子网络30、图像语义分割子网络40和图像深度估计子网络50；

所述主干网络10可以分别与所述视觉里程计估计子网络20、所述相机位姿估计子网络30、所述图像语义分割子网络40和所述图像深度估计子网络50连接，用于获取所述第二图像的多层次特征图。

本实施例中，上述主干网络10可以是MobileNet、ResNet、Inception或Xception等网络。上述多层次特征图可以包括上述主干网络的不同网络层输出的不同分辨率的特征图，其中，上述主干网络的网络层可以根据实际情况进行合理设置，例如，参见图3，上述主干网络10可以包括五个网络层，可以分别输出第二图像I_t(例如，448*448*3的图像)的特征图B_t,1至特征图B_t,5。

可选的，上述第一图像的特征图可以至少包括将第一图像输入上述主干网络10所得到的第一图像的多层次特征图中的最后一层的特征图。

上述视觉里程计估计子网络20可以根据第一图像的特征图和上述主干网络10输出的第二图像的特征图计算第一图像和第二图像的相对位姿。上述相机位姿估子计网络30可以用于根据上述主干网络10输出的第二图像的特征图计算第二图像的相机位姿。上述图像语义分割子网络40可以用于根据上述主干网络10输出的第二图像的特征图输出第二图像的语义分割结果。上述图像深度估计子网络50可以用于根据上述主干网络10输出的第二图像的特征图输出所述第二图像的深度估计结果。

本发明实施例基于相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计共同训练得到的多任务学习网络，以进行相机位姿估计，可以提高相机位姿估计的准确性。

可选的，所述视觉里程计估计子网络20包括第一连接层、第一卷积层和第一全连接层；

所述第一连接层用于将所述第一图像的多层次特征图中的最后一层特征图和所述第二图像的多层次特征图中的最后一层特征图进行直接连接；

所述第一卷积层用于对所述第一连接层输出的特征图进行卷积；

所述第一全连接层用于根据所述第一卷积层输出的特征图，输出所述第一图像和所述第二图像的相对位姿。

本实施例中，上述第一图像的特征图可以包括将第一图像输入上述主网络所输出的第一图像的多层次特征图中的最后一层特征图。上述第一连接层可以包括一个或多个连接层，例如，参见图3，第一连接层可以包括一个连接层。上述第一卷积层可以包括一个或多个卷积层，例如，参见图3，上述第一卷积层可以包括一个卷积层。上述第一全连接层可以包括一个或多个全连接层，例如，参见图3，上述第一全连接层可以包括两个全连接层。

以图3所示的视觉里程计估计子网络为例进行说明，参见图3，将第二图像I_t的特征图B_t，5和第一图像I_t-1的特征图B_t-1，5进行直接连接和卷积，得到特征图V_t，t-1(例如，14*14*256的特征图)，并对特征图V_t，t-1进行全连接，得到特征图G_t，t-1，再对特征图G_t，t-1进行全连接，得到第一图像和第二图像的相对位姿O_t，t-1。

本实施例根据第一图像的多层次特征图中的最后一层特征图和所述第二图像的多层次特征图中的最后一层特征图计算第一图像和第二图像的相对位姿，可以提高相对位姿计算的准确性。

可选的，所述多任务学习网络还包括共享子网络，所述共享子网络分别和所述图像语义分割子网络40、所述图像深度估计子网络50和所述相机位姿估计子网络30连接，用于将所述第二图像的多层次特征图和所述第一图像的共享特征图进行特征融合；

所述第一图像的共享特征图为根据所述视觉里程计估计子网络20输出的相对位姿，对所述第一图像在所述共享子网络输出的特征图进行特征偏移得到的特征图。

本实施例中，上述共享子网络可以包括多个卷积模块，其中，每个卷积模块可以包括但不限于一个上采样层、一个连接层和一个卷积层。

例如，参见图3，上述共享子网络包括依次连接的三个卷积模块，上述三个卷积模块分别与主干网络的五个网络层中的后三个网络层一一对应且连接。上述三个卷积模块中的第一个卷积模块用于对主干网络输出的特征图B_t，5进行上采样、连接和卷积，以得到特征图H_t，1(例如，14*14*256的特征图)，第二卷积模块用于将特征图H_t，1和特征图B_t，4进行上采样、连接和卷积，得到特征图H_t，2(例如，28*28*256的特征图)，上述第三个卷积模块用于对第一图像的共享特征图W_t，t-1(例如，56*56*256的特征图)和特征图H_t，2进行上采样、连接和卷积，得到第二图像特征图H_t，3。

其中，第一图像的共享特征图W_t，t-1可以是根据视觉里程计估计子网络输出的相对位姿O_t，t-1和第一图像I_t-1的特征图H_t-1，3(也即第一图像在共享子网络输出的特征图)进行特征融合得到的特征图，例如，将相对位姿O_t，t-1和第一图像I_t-1的特征图H_t-1，3进行仿射变换和扭曲(即Feature Warping)得到的特征图(即Warping Features)。

本实施例通过对第二图像的多层次特征图和第一图像的共享特征图进行特征融合，并可以基于融合后的特征图进行相机位姿估计、图像深度估计和图像语义分割等，可以提高相机位姿估计、图像深度估计和图像语义分割等的准确性。

可选的，所述图像语义分割子网络40可以包括第二卷积层和SoftMax层；

所述第二卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积；

所述SoftMax层用于根据所述第二卷积层输出的特征图，输出所述第二图像的语义分割结果。

本实施例中，上述第二卷积层可以包括一个或多个用于图像语义分割的卷积层，例如，上述第二卷积层可以包括两个用于图像语义分割的卷积层，用于对共享子网络输出的特征图进行卷积。

上述SoftMax层用于根据第二卷积层输出的第二图像的特征图，输出第二图像的语义分割结果。例如，若上述第二卷积层可以包括两个用于图像语义分割的卷积层，则上述SoftMax层可以基于两个用于图像语义分割的卷积层中最后一个卷积层输出的第二图像的特征图，输出第二图像的语义分割结果。

例如，参见图3，图像语义分割子网络可以对第二图像的特征图H_t，3进行卷积和归一化，得到第二图像的图像语义分割结果，如特征图S_t(例如，56*56*64的特征图)，其中，图3中的Segmentation特征图为特征图S_t的示意图。

可选的，所述图像深度估计子网络可以包括第三卷积层；

所述第三卷积层用于对所述第二图像在所述共享子网络输出的特征图进行卷积，输出所述第二图像的深度估计结果。

本实施例中，上述第三卷积层可以包括一个或多个用于图像深度估计的卷积层，例如，上述第三卷积层可以包括两个用于图像深度估计的卷积层。

例如，参见图3，图像深度估计子网络可以对共享子网络输出的第二图像的特征图H_t，3进行卷积，得到第二图像的深度估计结果，如深度特征图D_t(例如，56*56*64的特征图)，其中，图3中的Depth特征图为深度特征图D_t的示意图。

可选的，所述相机位姿估计子网络包括第二连接层、第四卷积层和第二全连接层；

所述第二连接层用于将所述共享子网络输出的特征图降采样后与所述第二图像的多层次特征图的最后一层输出进行直接连接；

所述第四卷积层用于对所述第二连接层输出的特征图进行卷积；

所述第二全连接层用于根据所述第四卷积层输出的特征图，输出所述第二图像的相机位姿。

本实施例中，上述第二连接层可以包括一个或多个连接层，例如，参见图3，上述第二连接层可以包括一个连接层。上述第四卷积层可以包括一个或多个卷积层，例如，参见图3，上述第四卷积层可以包括一个卷积层。上述第二全连接层可以包括一个或多个全连接层，例如，参见图3，上述第二全连接层可以包括两个全连接层。

以下以图3所示的相机位姿估计子网络为例进行说明，参见图3，相机位姿估计子网络可以对共享子网络输出的第二图像的特征图B_t，5降采样后与第二图像的特征图H_t，3进行直接连接和卷积，得到特征图P_t，1(例如，14*14*256的特征图)，并对特征图P_t，1进行全连接，得到特征图P_t，2，再对特征图P_t，2进行全连接，得到第二图像I_t的对应的相机位姿P_t。

可选的，用于所述多任务学习网络训练的损失函数可以如下：

其中，L_pose表示所述相机位姿估计的损失函数，L_vo表示所述视觉里程计估计的损失函数，L_join表示所述图像语义分割和图像深度估计的联合一致性损失函数，表示所述相机位姿估计损失函数的可学习参数，表示所述视觉里程计估计损失函数的可学习参数，表示所述图像语义分割和图像深度估计联合一致性损失函数的可学习参数。

可选的，所述相机位姿估计子网络的损失函数L_pose可以如下：

其中，P_t和分别表示所述相机位姿估计子网络输出的相机位姿和其真值，x_t和分别表示所述相机位姿的相机位置和其真值，q_t和分别表示所述相机位姿的相机姿态和其真值，L_x表示所述相机位置的损失函数，L_q表示所述相机姿态的损失函数，表示所述相机位置的损失函数的可学习参数，表示所述相机姿态的损失函数的可学习参数。

需要说明的是，上述||||₂表示矢量的2-范数。

可选的，所述视觉里程计估计子网络的损失函数L_vo可以如下：

其中，O_t，t-1表示所述视觉里程计子网络输出的相对位姿，x_t，t-1表示所述相对位姿的位置，q_t，t-1表示所述相对位姿的姿态，和分别表示所述第一图像和第二图像的相机位姿真值，和分别表示所述第一图像和第二图像的相机位置真值，和分别表示所述第一图像和第二图像的相机姿态真值，L_xvo表示所述视觉里程计估计的位置损失函数，L_qvo表示所述视觉里程计估计的姿态损失函数，表示所述位置损失函数的可学习参数，所述表示所述姿态损失函数的可学习参数。

实际应用中，联合一致性可以是指前一帧图像在经过相对位姿调整后，其空间上对应点的语义标记信息和深度信息应该是相互一致的。具体的，可通过语义标记信息过滤掉运动目标，如人、狗和汽车等。若空间中的某一点在t-1时刻相机中心坐标系下的坐标为则：

其中，(x_t-1，y_t-1)表示t-1时刻相机平面的二维(即2D)坐标，(x₀，y₀)表示相机中心点在相机平面上的对应坐标，f_x、f_y分别为相机平面上x轴和y轴方向上的尺度因子。令T_t，t-1为图像I_t和前一帧图像I_t-1的相对位姿O_t，t-1所对应的三维(即3D)变换矩阵，则(x_t-1，y_t-1)点在t时刻相机平面的投影可以为：

由上式可得到t时刻相机平面的3D坐标，将其投影到t时刻相机平面可得：

根据联合一致性，图像I_t上的点(x′_t，y′_t)和前一帧图像I_t-1的点(x_t-1，y_t-1)所对应的语义标签和深度值应该是一致的。

可选的，所述联合一致性损失函数L_join可以如下：

其中，S_t和分别表示所述图像语义分割子网络的输出结果及其真值，D_t和分别表示所述图像深度估计子网络的输出结果及其真值，O_t，t-1表示所述视觉里程计估计子网络的输出结果，L_s、L_d、L_js和L_jd分别表示所述图像语义分割损失函数、图像深度估计损失函数、图像语义一致性损失函数和图像深度一致性损失函数，和分别表示所述图像语义分割损失函数、所述图像深度估计损失函数、所述图像语义一致性损失函数和所述图像深度一致性损失函数的可学习参数，x′和y′分别表示x和y根据O_t，t-1进行位姿变换后的结果，S_t(x，y，c)和分别表示坐标(x，y)所对应的标记类别为c的概率及其真值。

可选的，在多任务学习网络的训练过程中，对于每个输入，可以采用多任务交替优化的策略，首先优化图像语义分割子网络，其次优化图像深度估计子网络，然后优化视觉里程计估计网络，最后优化相机位姿估计子网络。

以图3所示的多任务学习网络为例，若本发明实施例采用Xception网络作为主网络的第一特征提取网络，H_t，1、H_t，2和H_t，3的特征通道数分别为1024、512和256，P_t，1的特征通道数为256，P_t，2和G_t，t-1的特征维数为1024，P_t和O_t，t-1的特征维数为6。如表1和表2所示，本发明实施例提供的相机位姿估计方法与基于PoseNet、VidLoc、MapNet、SVSPose、LSTMPose以及VidLocNet等相机位姿估计方法进行比较可知，在7-Scenes和Cambridge-Landmarks数据集上本发明实施提供的相机位姿估计方法得到的相机的平移精度上可提升约两倍，在旋转精度上可提升约一倍。

表1 7-Scenes数据集上的各种相机位姿估计方法比较

Scene	PoseNet	SVSPose	LSTMPose	VidLocNet	本方案
						King’s College	1.92m，5.40°	1.06m，2.81°	0.99m，3.65°	0.84m，1.42°	0.61m，0.89°
Old Hospital	2.31m，5.38°	1.50m，4.03°	1.51m，4.29°	1.08m，2.41°	0.73m，1.32°
						Shop Facade	1.46m，8.08°	0.63m，5.73°	1.18m，7.44°	0.59m，3.53°	0.39m，1.33°
St Mary’s Church	2.65m，8.46°	2.11m，8.11°	1.52m，6.68°	0.63m，3.91°	0.47m，1.41°
						Average	2.08m，6.83°	1.33m，5.17°	1.30m，5.52°	0.78m，2.82°	0.55m，1.24°

表2 Cambridge-Landmarks数据集上的各种相机位姿估计方法比较

Scene	PoseNet	VidLoc	MapNet	VidLocNet	本方案
						Chess	0.13m，4.48°	0.18m，NA	0.08m，3.25°	0.036m，1.71°	0.026m，0.89°
Fire	0.27m，11.30°	0.26m，NA	0.27m，11.69°	0.039m，5.34°	0.028m，2.34°
						Heads	0.17m，13.00°	0.14m，NA	0.18m，13.25°	0.046m，6.65°	0.032m，2.76°
Office	0.19m，5.55°	0.26m，NA	0.17m，5.15°	0.039m，1.95°	0.031m，1.61°
						Pumpkin	0.26m，4.75°	0.36m，NA	0.22m，4.02°	0.037m，2.28°	0.032m，1.72°
RedKitchen	0.23m，5.35°	0.31m，NA	0.23m，4.93°	0.039m，2.21°	0.033m，1.57°
						Stairs	0.35m，12.40°	0.26m，NA	0.30m，12.08°	0.097m，6.48°	0.046m，3.99°
Average	0.23m，8.12°	0.25m，NA	0.21m，7.77°	0.048m，3.80°	0.55m，2.11°

由上可知，本发明实施例提供的相机位姿估计方法在室内场景中，其平移精度和旋转精度可分别达到0.03米和2度；在室外场景中，其平移精度和旋转精度可分别达到0.5米和1度。另外，本发明实施例提供的相机位姿估计方法采用全卷积网络，可快速实现相机位姿估计(也可称为视觉定位)，在1080Ti上其处理速度可达到30fps(即30帧每秒)，在iOSA12处理器上可达到15fps。

参见图4，图4是本发明实施例提供的相机位姿估计装置的结构图。如图4所示，相机位姿估计装置400包括：

获取模块401，用于获取第一图像的特征图和第二图像，所述第一图像为所述第二图像的前一帧图像；

相机位姿估计模块402，用于将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络，得到所述第二图像对应的相机位姿，所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络，所述第一任务包括相机位姿估计，所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。

可选的，所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计；

所述多任务学习网络包括主干网络、视觉里程计估计子网络、图像语义分割子网络、图像深度估计子网络和相机位姿估计子网络；

所述主干网络用于获取所述第二图像的多层次特征图，并分别与所述视觉里程计估计子网络、所述图像语义分割子网络、所述图像深度估计子网络和所述相机位姿估计子网络连接。

可选的，所述视觉里程计估计子网络包括第一连接层、第一卷积层和第一全连接层；

可选的，所述多任务学习网络还包括共享子网络，所述共享子网络分别和所述图像语义分割子网络、所述图像深度估计子网络和所述相机位姿估计子网络连接，用于将所述第二图像的多层次特征图和所述第一图像的共享特征图进行特征融合；

所述第一图像的共享特征图为根据所述视觉里程计估计子网络输出的相对位姿，对所述第一图像在所述共享子网络输出的特征图进行特征偏移得到的特征图。

可选的，所述图像语义分割子网络包括第二卷积层和SoftMax层；

可选的，所述图像深度估计子网络包括第三卷积层；

可选的，用于所述多任务学习网络训练的损失函数如下：

可选的，所述相机位姿估计子网络的损失函数L_pose如下：

其中，P_t和分别表示所述相机位姿估计子网络输出的相机位姿和其真值，xt和分别表示所述相机位姿的相机位置和其真值，q_t和分别表示所述相机位姿的相机姿态和其真值，L_x表示所述相机位置的损失函数，L_q表示所述相机姿态的损失函数，表示所述相机位置的损失函数的可学习参数，表示所述相机姿态的损失函数的可学习参数。

可选的，所述视觉里程计估计子网络的损失函数L_vo如下：

可选的，所述联合一致性损失函数L_join如下：

本发明实施例提供的相机位姿估计装置400能够实现上述方法实施例中的各个过程，为避免重复，这里不再赘述。

本发明实施例的相机位姿估计装置400，获取模块401，用于获取第一图像的多层次特征图和第二图像，所述第一图像为所述第二图像的前一帧图像；相机位姿估计模块402，用于将所述第一图像的特征图和所述第二图像输入预先训练的多任务学习网络，得到所述第二图像对应的相机位姿，所述多任务学习网络为基于具有相关性的第一任务和第二任务训练得到的网络，所述第一任务包括相机位姿估计，所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计中的至少一项。通过将第一图像的特征图和第二图像输入预先训练的多任务学习网络以得到所述第二图像对应的相机位姿，这样可以提高相机位姿估计的鲁棒性，此外，由于多任务学习网络为基于具有相关性的相机位姿估计以及图像语义分割、图像深度估计和视觉里程计估计中的至少一项训练得到的，可以提高相机位姿估计的准确性。

参见图5，图5是本发明又一实施提供的相机位姿估计装置的结构图，如图5所示，相机位姿估计装置500包括：处理器501、存储器502及存储在所述存储器502上并可在所述处理器上运行的计算机程序，数据发送装置500中的各个组件通过总线接口503耦合在一起，所述计算机程序被所述处理器501执行时实现如下步骤：

可选的，所述图像深度估计子网络包括第三卷积层；

可选的，用于所述多任务学习网络训练的损失函数如下：

可选的，所述相机位姿估计子网络的损失函数L_pose如下：

可选的，所述视觉里程计估计子网络的损失函数L_vo如下：

可选的，所述联合一致性损失函数L_join如下：

本发明实施例还提供一种相机位姿估计装置，包括处理器，存储器，存储在存储器上并可在所述处理器上运行的计算机程序，该计算机程序被处理器执行时实现上述相机位姿估计方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述相机位姿估计方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。其中，所述的计算机可读存储介质，如只读存储器(Read-Only Memory，简称ROM)、随机存取存储器(Random Access Memory，简称RAM)、磁碟或者光盘等。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个......”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

上面结合附图对本发明的实施例进行了描述，但是本发明并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本发明的启示下，在不脱离本发明宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本发明的保护之内。

Claims

1.一种相机位姿估计方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述第二任务包括图像语义分割、图像深度估计和视觉里程计估计；

3.根据权利要求2所述的方法，其特征在于，所述视觉里程计估计子网络包括第一连接层、第一卷积层和第一全连接层；

4.根据权利要求2所述的方法，其特征在于，所述多任务学习网络还包括特征共享子网络，所述特征共享子网络分别和所述图像语义分割子网络、所述图像深度估计子网络和所述相机位姿估计子网络连接，用于将所述第二图像的多层次特征图和所述第一图像的共享特征图进行特征融合；

所述第一图像的共享特征图为根据所述视觉里程计估计子网络输出的相对位姿，对所述第一图像在所述特征共享子网络输出的特征图进行特征偏移得到的特征图。

5.根据权利要求4所述的方法，其特征在于，所述图像语义分割子网络包括第二卷积层和SoftMax层；

6.根据权利要求4所述的方法，其特征在于，所述图像深度估计子网络包括第三卷积层；

7.根据权利要求4所述的方法，其特征在于，所述相机位姿估计子网络包括第二连接层、第四卷积层和第二全连接层；

8.根据权利要求2所述的方法，其特征在于，用于所述多任务学习网络训练的损失函数如下：

9.根据权利要求8所述的方法，其特征在于，所述相机位姿估计子网络的损失函数L_pose如下：

10.根据权利要求8所述的方法，其特征在于，所述视觉里程计估计子网络的损失函数L_vo如下：

其中，O_t,t-1表示所述视觉里程计子网络输出的相对位姿，x_t,t-1表示所述相对位姿的位置，q_t,t-1表示所述相对位姿的姿态，和分别表示所述第一图像和第二图像的相机位姿真值，和分别表示所述第一图像和第二图像的相机位置真值，和分别表示所述第一图像和第二图像的相机姿态真值，L_xvo表示所述视觉里程计估计的位置损失函数，L_qvo表示所述视觉里程计估计的姿态损失函数，表示所述位置损失函数的可学习参数，所述表示所述姿态损失函数的可学习参数。

11.根据权利要求8所述的方法，其特征在于，所述联合一致性损失函数L_join如下：

其中，S_t和分别表示所述图像语义分割子网络的输出结果及其真值，D_t和分别表示所述图像深度估计子网络的输出结果及其真值，O_t,t-1表示所述视觉里程计估计子网络的输出结果，L_s、L_d、L_js和L_jd分别表示所述图像语义分割损失函数、图像深度估计损失函数、图像语义一致性损失函数和图像深度一致性损失函数，和分别表示所述图像语义分割损失函数、所述图像深度估计损失函数、所述图像语义一致性损失函数和所述图像深度一致性损失函数的可学习参数，x′和y′分别表示x和y根据O_t,t-1进行位姿变换后的结果，S_t(x,y,c)和分别表示坐标(x,y)所对应的标记类别为c的概率及其真值。

12.一种相机位姿估计装置，其特征在于，包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1至11中任一项所述的相机位姿估计方法的步骤。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的相机位姿估计方法的步骤。