CN113256711A

CN113256711A - 一种单目相机的位姿估计方法及系统

Info

Publication number: CN113256711A
Application number: CN202110584125.3A
Authority: CN
Inventors: 郝洁; 罗远志
Original assignee: Nanjing University of Aeronautics and Astronautics
Current assignee: Nanjing University of Aeronautics and Astronautics
Priority date: 2021-05-27
Filing date: 2021-05-27
Publication date: 2021-08-13
Anticipated expiration: 2041-05-27
Also published as: CN113256711B

Abstract

本发明提供了一种单目相机的位姿估计方法及系统，首先确定当前帧图像，然后得到当前帧图像对应的语义标签信息；标定单目相机，得到像素坐标系在世界坐标系下的第一映射关系；根据第一映射关系、前一帧图像对应的语义标签信息和当前帧图像对应的语义标签信息，得到当前帧图像与前一帧图像的相对位姿；获取前一帧图像的绝对位姿；根据前一帧图像的绝对位姿和当前帧图像与前一帧图像的相对位姿得到当前帧图像的绝对位姿，从而利用语义标签的一致性，避免了由于光照不稳定、单个像素点区分度低等问题影响位姿估计的鲁棒性。

Description

一种单目相机的位姿估计方法及系统

技术领域

本发明涉及计算机视觉技术领域，特别是涉及一种单目相机的位姿估计方法及系统。

背景技术

视觉SLAM技术指的是搭载摄像机传感器的主体，在没有任何环境先验信息的情况下，于运动过程中建立周围环境的模型。其中，相机可以分为单目相机、双目相机和深度相机三大类，只使用一个摄像头进行SLAM的做法称为单目SLAM。现有的大部分单目视觉SLAM方案都是使用一定的数学方法，通过单目相机获得的信息，计算出相机的姿态变化。单目相机结构简单，成本低，非常受研究者的关注。一系列应用视觉SLAM技术的产品也逐渐走向大众视野，例如自动驾驶汽车、虚拟现实、智能机器人等。

经典的视觉SLAM框架主要由传感器信息读取模块、前端视觉里程计模块、后端优化模块、回环检测模块以及建图模块组成。其中，前端视觉里程计模块解决的核心问题是如何根据图像估计相机运动，即如何通过摄像机拍摄的两张相邻图片来推测相机的位姿变化。具体地，可以通过旋转矩阵R和平移向量t表示相机的旋转角度和平移距离。

前端视觉里程计模块的算法主要分为特征点法和直接法两大类。直接法是视觉里程计的一个重要分支，它克服了特征点法计算量大、特征信息单一等缺点。基于灰度不变假设，根据像素的亮度信息估计相机的运动，不用计算关键点和描述子，避免了特征的计算时间和特征缺失的情况。并且，直接法分为稀疏、稠密和半稠密三种，稀疏方法可以快速的求解相机位姿，稠密方法可以建立完整地图。目前，直接法的应用有SVO、DSO、LSD-SLAM等。

传统的SLAM方案还无法直接通过单张图片计算场景中物体与相机之间的距离，不过随着深度学习的发展，现在可以通过CNN的方法得到图片中场景到相机之间的深度信息及语义信息，通过深度学习网络提取的特征具有较高的泛化性能。此外，传统SLAM方案容易受光照条件的限制，在光照条件变化较大等不利条件下，其算法的鲁棒性不高。

因此，亟需一种不受光照影响、鲁棒性高的单目相机位姿估计方法。

发明内容

本发明的目的是提供一种单目相机的位姿估计方法及系统，基于同一物体的语义标签具有一致性来估计单目相机的位姿变化，从而避免光照条件的影响，提高单目相机位姿估计方法的鲁棒性。

为实现上述目的，本发明提供了如下方案：

一种单目相机的位姿估计方法，包括：

确定当前帧图像；

将所述当前帧图像输入到基于神经网络的图像信息获取模型，得到所述当前帧图像对应的语义标签信息；

标定单目相机，得到像素坐标系在世界坐标系下的第一映射关系；

根据所述第一映射关系、前一帧图像对应的语义标签信息和当前帧图像对应的语义标签信息，得到当前帧图像与前一帧图像的相对位姿；

获取前一帧图像的绝对位姿；

根据所述前一帧图像的绝对位姿和所述当前帧图像与前一帧图像的相对位姿，计算当前帧图像的绝对位姿。

可选地，所述确定当前帧图像，具体包括：

获取当前帧第一图像；

对所述当前帧第一图像进行预处理，得到当前帧图像；所述当前帧图像为图像金字塔结构。

可选地，所述根据所述第一映射关系、前一帧图像对应的语义标签信息和当前帧图像对应的语义标签信息，得到当前帧图像与前一帧图像的相对位姿，具体包括：

根据前一帧图像对应的语义标签信息和所述第一映射关系，确定前一帧图像中的第一投影点在世界坐标系下的空间点；

根据当前帧图像对应的语义信息和所述第一映射关系，确定所述空间点在所述当前帧图像中的第二投影点；

根据公式

确定所述第一投影点与所述第二投影点的标签匹配误差；

其中，e(u,T_k,k-1)表示标签匹配误差，L_k-1(u)表示第一投影点的语义标签信息，L_k(v)表示第二投影点的语义标签信息，u表示第一投影点，v表示第二投影点，T_k,k-1表示当前帧图像与前一帧图像的相对位姿，k为图像帧的序列值；

根据所述标签匹配误差确定误差函数；所述误差函数为

其中，U表示前一帧图像中第一区域内的像素子集；所述第一区域包括静态物体标签区域和高灰度梯度区域；

对所述误差函数求解最优值，得到所述当前帧图像与前一帧图像的相对位姿。

可选地，所述根据当前帧图像对应的语义信息和所述第一映射关系，确定所述空间点在所述当前帧图像中的第二投影点，具体包括：

根据公式v＝π(KT_k,k-1·V_k-1(u))计算第二投影点；

其中，π表示将空间点的世界坐标系坐标映射到像素坐标系坐标的投影函数，π([x,y,z]^T)＝(x/z,y/z)^T，[x,y,z]表示空间点在世界坐标系下的坐标，K表示单目相机的内参矩阵，V_k-1(u)表示前一帧图像中的第一投影点对应的空间点的世界坐标系坐标，

表示u的齐次表示，z_k-1表示前一帧图像的深度信息。

可选地，所述根据所述前一帧图像的绝对位姿和所述当前帧图像与前一帧图像的相对位姿，计算当前帧图像的绝对位姿，具体包括：

根据公式T_k＝T_k,k-1·T_k-1确定当前帧图像的绝对位姿；

其中，T_k-1表示前一帧图像的绝对位姿，T_k,k-1表示当前帧图像与前一帧图像的相对位姿，T_k表示当前帧图像的绝对位姿，k为图像帧的序列值。

为实现上述目的，本发明还提供了如下方案：

一种单目相机的位姿估计系统，包括：

图像确定模块，用于确定当前帧图像；

语义标签确定模块，用于将所述当前帧图像输入到基于神经网络的图像信息获取模型，得到所述当前帧图像对应的语义标签信息；

映射关系确定模块，用于标定单目相机，得到像素坐标系在世界坐标系下的第一映射关系；

相对位姿确定模块，用于根据所述第一映射关系、所述前一帧图像对应的语义标签信息和当前帧图像对应的语义标签信息，得到当前帧图像与前一帧图像的相对位姿；

前一帧图像的绝对位姿确定模块，用于获取前一帧图像的绝对位姿；

当前帧图像的绝对位姿确定模块，用于根据所述前一帧图像的绝对位姿和所述当前帧图像与前一帧图像的相对位姿，计算当前帧图像的绝对位姿。

可选地，所述图像确定模块，具体包括：

第一图像获取子模块，用于获取当前帧第一图像；

图像获取子模块，用于对所述当前帧第一图像进行预处理，得到当前帧图像；所述当前帧图像为图像金字塔结构。

可选地，所述相对位姿确定模块，具体包括：

空间点确定子模块，用于根据前一帧图像对应的语义标签信息和所述第一映射关系，确定所述前一帧图像中的第一投影点在世界坐标系下的空间点；

第二投影点确定子模块，用于根据当前帧图像对应的语义信息和所述第一映射关系，确定所述空间点在所述当前帧图像中的第二投影点；

标签匹配误差计算子模块，用于根据公式

确定所述第一投影点与所述第二投影点的标签匹配误差；

误差函数计算子模块，用于根据所述标签匹配误差确定误差函数；所述误差函数为

相对位姿计算子模块，用于对所述误差函数求解最优值，得到所述当前帧图像与前一帧图像的相对位姿。

可选地，所述第二投影点确定子模块，具体包括：

第二投影点计算单元，用于根据公式v＝π(KT_k,k-1·V_k-1(u))计算第二投影点；

表示u的齐次表示，z_k-1表示前一帧图像的深度信息。

可选地，所述当前帧图像的绝对位姿确定模块，具体包括：

绝对位姿计算子模块，用于根据公式T_k＝T_k,k-1·T_k-1确定当前帧图像的绝对位姿；

根据本发明提供的具体实施例，本发明公开了以下技术效果：

本发明利用语义标签信息具有一致性的特点，通过像素坐标系在世界坐标系下的第一映射关系、前一帧图像对应的语义标签信息和当前帧图像对应的语义标签信息计算得到当前帧图像与前一帧图像的相对位姿，然后获取前一帧图像的绝对位姿，最后根据前一帧图像的绝对位姿和当前帧图像与前一帧图像的相对位姿计算得到当前帧图像的绝对位姿，从而避免了由于光照不稳定、单个像素点区分度低等问题影响位姿估计的鲁棒性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一中单目相机的位姿估计方法的流程示意图；

图2为本发明实施例二中单目相机的位姿估计系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明的目的是提供一种单目相机的位姿估计方法及系统，通过将神经网络预测的语义标签信息与单目相机的同步定位以及建图等功能融合，从而利用语义标签的一致性对单目相机的位姿进行估计，避免了由于光照或者其他情况导致图像帧中像素点区分度小，而影响位姿估计的鲁棒性和准确性。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

本实施例提供了一种单目相机的位姿估计方法，应用于自动驾驶领域，如图1所示，所述单目相机的位姿估计方法包括：

步骤100：确定当前帧图像。

具体包括：获取当前帧第一图像；对所述当前帧第一图像进行预处理，得到当前帧图像；所述当前帧图像为图像金字塔结构。通过将当前帧第一图像预处理化为具有图像金字塔结构的当前帧图像，避免了由于图像具有非凸性，导致优化算法进入极小值而非最小值的问题。

步骤101：将所述当前帧图像输入到基于神经网络的图像信息获取模型，得到所述当前帧图像对应的语义标签信息；具体地，所述图像信息获取模型是根据利用位姿样本图像对神经网络进行训练得到的，所述位姿样本图像是由网络下载的用于模型训练的数据集。在本实施例中，所述位姿评测样本为KITTI数据集。

具体地，将KITTI数据集划分为训练数据集和验证数据集；根据所述训练数据集对神经网络进行训练得到图像信息获取训练模型；所述图像信息获取训练模型获取的图像信息包括图像的像素级语义标签信息、图像的深度信息以及置信度。将验证数据集输入到所述图像信息获取训练模型，以验证所述图像信息获取训练模型输出的参数是否可靠，若是所得到的的图像信息获取训练模型达到可靠标准，那么将所述图像信息获取训练模型定义为图像信息获取模型；若是所得到的的图像信息获取训练模型未达到可靠标准，那么重新对神经网络进行训练，直到所得到的模型达到可靠标准。

步骤102：标定单目相机，得到像素坐标系在世界坐标系下的第一映射关系。具体地，标定单目相机后，还得到相机坐标系在世界坐标系下的第二映射关系。在本实施例中，以第一帧图像的单目相机的光心处为世界坐标系的原点，通过对第一映射关系和第二映射关系的确定，可实现单目相机的同步定位以及建图等功能。优选地，对单目相机标定后，还需要获取单目相机的内参矩阵。

步骤103：根据所述第一映射关系、前一帧图像对应的语义标签信息和当前帧图像对应的语义标签信息，得到当前帧图像与前一帧图像的相对位姿。

具体包括：

步骤1031：根据前一帧图像对应的语义标签信息和所述第一映射关系，确定所述前一帧图像中的第一投影点在世界坐标系下的空间点。

步骤1031具体包括：

根据同一物体的语义标签的一致性，确定前一帧图像中的第一投影点在世界坐标系下的空间点；假设前一帧图像中的第一投影点为u，则P为前一帧图像中的第一投影点u在世界坐标系下的空间点。具体地，u为前一帧图像中的像素点。

根据所述第一映射关系确定所述空间点与所述第一投影点的投影方程为：

其中，k为图像帧的序列值，K表示单目相机的内参矩阵，

表示u的齐次表示，z_k-1表示前一帧图像的深度信息。

步骤1032：根据当前帧图像对应的语义信息和所述第一映射关系，确定所述空间点在所述当前帧图像中的第二投影点。

步骤1032具体包括：

根据公式v＝π(KT_k,k-1·V_k-1(u))计算第二投影点。其中，π表示将空间点的世界坐标系坐标映射到像素坐标系坐标的投影函数，π([x,y,z]^T)＝(x/z,y/z)^T，[x,y,z]表示空间点在世界坐标系下的坐标，K表示单目相机的内参矩阵，V_k-1(u)表示前一帧图像中的第一投影点对应的空间点的世界坐标系坐标，

表示u的齐次表示，z_k-1表示前一帧图像的深度信息。

进一步地，公式v＝π(KT_k,k-1·V_k-1(u))的计算过程如下：

根据同一物体的语义标签的一致性，通过所述第一投影点确定空间点在所述当前帧图像中的第二投影点；即v为空间点P在当前帧图像中的第二投影点。具体地，v为当前帧图像中的像素点。

根据所述第一映射关系确定所述空间点与所述第二投影点的投影方程为：

其中，

表示v的齐次表示，z_k表示当前帧图像的深度信息。

对于给定u，根据投影方程

和投影方程

可以求出：v＝π(KT_k,k-1·V_k-1(u))。

步骤1033：根据公式

确定所述第一投影点与所述第二投影点的标签匹配误差。其中，e(u,T_k,k-1)表示标签匹配误差，L_k-1(u)表示第一投影点的语义标签信息，L_k(v)表示第二投影点的语义标签信息，u表示第一投影点，v表示第二投影点，T_k,k-1表示当前帧图像与前一帧图像的相对位姿，k为图像帧的序列值。

具体地，由于u和v是同一空间点P的投影，在不考虑语义分割误差的情况下，u在前一帧图像的语义标签和v在当前帧图像的语义标签相同，因此，建立标签匹配误差公式：

理想情况下，标签匹配误差为0。

步骤1034：根据所述标签匹配误差确定误差函数；所述误差函数为

其中，U表示前一帧图像中第一区域内的像素子集；所述第一区域包括静态物体标签区域和高灰度梯度区域。

具体地，考虑到同一帧图像中所有像素点的匹配误差，前一帧图像到当前帧图像的相机位姿优化为匹配误差函数：

其中，I表示前一帧图像中的所有像素点。

由于图像帧中可能存在动态干扰点，使语义利用不够充分，为了提高效率，采用半稠密方法，在计算匹配误差函数时不考虑动态不稳定和标签置信度低的像素点。例如处于运动状态下的物体，仅考虑静态物体标签区域和高灰度梯度区域内的像素子集。

若使用U表示前一帧图像中第一区域内的像素子集，所述第一区域包括静态物体标签区域和高灰度梯度区域，则误差函数可优化表示为：

步骤1035：对所述误差函数求解最优值，得到所述当前帧图像与前一帧图像的相对位姿。具体地，对所述误差函数进行优化求解得到最优的T_k,k-1。

步骤104：获取前一帧图像的绝对位姿。

步骤105：根据所述前一帧图像的绝对位姿和所述当前帧图像与前一帧图像的相对位姿，计算当前帧图像的绝对位姿。

具体包括：根据公式T_k＝T_k,k-1·T_k-1确定当前帧图像的绝对位姿。

在本实施例中，相机坐标系在世界坐标系下的第二映射关系可用李群表示进行表示。假设拍摄前一帧图像的相机位置，到拍摄当前帧图像的相机位置经过了旋转R_k,k-1和平移t_k,k-1，则对应李群表示为

具体地，根据步骤105计算得到的当前帧图像的相对位姿T_k,k-1，结合上述李群表示可逆推得到相机位姿变化。

进一步地，本实施例提供的单目相机的位姿估计方法，以第一帧图像的单目相机的光心处为世界坐标系的原点，通过获取设定时间内单目相机的绝对位姿，并根据所述单目相机在所述设定时间内的第一帧图像的绝对位姿为基础，依次求得并更新后续图像帧的相机位姿，从而确定设定时间内自动行驶车辆的行驶轨迹。

实施例二

本实施例提供了如图2所示的一种单目相机的位姿估计系统，包括：

图像确定模块200，用于确定当前帧图像。

具体地，所述图像确定模块200，具体包括：

第一图像获取子模块，用于获取当前帧第一图像。

语义标签确定模块201，用于将所述当前帧图像输入到基于神经网络的图像信息获取模型，得到所述当前帧图像对应的语义标签信息。

映射关系确定模块202，用于标定单目相机，得到像素坐标系在世界坐标系下的第一映射关系。

相对位姿确定模块203，用于根据所述第一映射关系、所述前一帧图像对应的语义标签信息和当前帧图像对应的语义标签信息，得到当前帧图像与前一帧图像的相对位姿。

具体地，所述相对位姿确定模块，具体包括：

空间点确定子模块，用于根据前一帧图像对应的语义标签信息和所述第一映射关系，确定所述前一帧图像中的第一投影点在世界坐标系下的空间点。

第二投影点确定子模块，用于根据当前帧图像对应的语义信息和所述第一映射关系，确定所述空间点在所述当前帧图像中的第二投影点。

具体地，所述第二投影点确定子模块，具体包括：

第二投影点计算单元，用于根据公式v＝π(KT_k,k-1·V_k-1(u))计算第二投影点。其中，π表示将空间点的世界坐标系坐标映射到像素坐标系坐标的投影函数，π([x,y,z]^T)＝(x/z,y/z)^T，[x,y,z]表示空间点在世界坐标系下的坐标，K表示单目相机的内参矩阵，V_k-1(u)表示前一帧图像中的第一投影点对应的空间点的世界坐标系坐标，

表示u的齐次表示，z_k-1表示前一帧图像的深度信息。

标签匹配误差计算子模块，用于根据公式

确定所述第一投影点与所述第二投影点的标签匹配误差。其中，e(u,T_k,k-1)表示标签匹配误差，L_k-1(u)表示第一投影点的语义标签信息，L_k(v)表示第二投影点的语义标签信息，u表示第一投影点，v表示第二投影点，T_k,k-1表示当前帧图像与前一帧图像的相对位姿，k为图像帧的序列值；

前一帧图像的绝对位姿确定模块204，用于获取前一帧图像的绝对位姿。

当前帧图像的绝对位姿确定模块205，用于根据所述前一帧图像的绝对位姿和所述当前帧图像与前一帧图像的相对位姿，计算当前帧图像的绝对位姿。

具体地，所述当前帧图像的绝对位姿确定模块，具体包括：

绝对位姿计算子模块，用于根据公式T_k＝T_k,k-1·T_k-1确定当前帧图像的绝对位姿。其中，T_k-1表示前一帧图像的绝对位姿，T_k,k-1表示当前帧图像与前一帧图像的相对位姿，T_k表示当前帧图像的绝对位姿，k为图像帧的序列值。

相对于现有技术，本发明还具有以下优点：

本发明提供了一种单目相机的位姿估计方法，引入图像金字塔模型，将深度神经网络预测的深度信息和语义信息与单目相机的同步定位与建图系统融合，还滤除动态目标点，提高了单目相机位姿估计方法性能的鲁棒性及精确性。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处。综上所述，本说明书内容不应理解为对本发明的限制。

Claims

1.一种单目相机的位姿估计方法，其特征在于，所述单目相机的位姿估计方法包括：

确定当前帧图像；

获取前一帧图像的绝对位姿；

2.根据权利要求1所述的单目相机的位姿估计方法，其特征在于，所述确定当前帧图像，具体包括：

获取当前帧第一图像；

3.根据权利要求1所述的单目相机的位姿估计方法，其特征在于，所述根据所述第一映射关系、前一帧图像对应的语义标签信息和当前帧图像对应的语义标签信息，得到当前帧图像与前一帧图像的相对位姿，具体包括：

根据公式

确定所述第一投影点与所述第二投影点的标签匹配误差；

根据所述标签匹配误差确定误差函数；所述误差函数为

4.根据权利要求3所述的单目相机的位姿估计方法，其特征在于，所述根据当前帧图像对应的语义信息和所述第一映射关系，确定所述空间点在所述当前帧图像中的第二投影点，具体包括：

根据公式v＝π(KT_k,k-1·V_k-1(u))计算第二投影点；

表示u的齐次表示，z_k-1表示前一帧图像的深度信息。

5.根据权利要求1所述的单目相机的位姿估计方法，其特征在于，所述根据所述前一帧图像的绝对位姿和所述当前帧图像与前一帧图像的相对位姿，计算当前帧图像的绝对位姿，具体包括：

根据公式T_k＝T_k,k-1·T_k-1确定当前帧图像的绝对位姿；

6.一种单目相机的位姿估计系统，其特征在于，所述单目相机的位姿估计系统包括：

图像确定模块，用于确定当前帧图像；

7.根据权利要求6所述的单目相机的位姿估计系统，其特征在于，所述图像确定模块，具体包括：

第一图像获取子模块，用于获取当前帧第一图像；

8.根据权利要求6所述的单目相机的位姿估计系统，其特征在于，所述相对位姿确定模块，具体包括：

标签匹配误差计算子模块，用于根据公式

确定所述第一投影点与所述第二投影点的标签匹配误差；

9.根据权利要求8所述的单目相机的位姿估计系统，其特征在于，所述第二投影点确定子模块，具体包括：

表示u的齐次表示，z_k-1表示前一帧图像的深度信息。

10.根据权利要求6所述的单目相机的位姿估计系统，其特征在于，所述当前帧图像的绝对位姿确定模块，具体包括：