CN116721206A

CN116721206A - 一种实时的室内场景视觉同步定位与建图方法

Info

Publication number: CN116721206A
Application number: CN202310606005.8A
Authority: CN
Inventors: 朱建科; 倪广琛; 刘邵凡
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-05-26
Filing date: 2023-05-26
Publication date: 2023-09-08

Abstract

本发明公开了一种实时的室内场景视觉同步定位与建图方法。首先，利用相机实时采集场景图像和对应的深度图并记为当前帧数据，再根据当前帧数据优化当前帧的初始相机位姿，获得当前帧的优化相机位姿并作为下一帧的初始相机位姿；如果当前帧是关键帧，则对当前有符号距离与颜色预测网络进行训练并更新网络以及获得当前关键帧中各像素点的预测深度和颜色值；如果当前帧是普通帧，则利用当前有符号距离与颜色预测网络进行预测，进而获得当前普通帧中各像素点的预测深度和颜色值，从而构建当前视角区域内场景的表面几何结构图，直至获得整个场景的表面几何结构图。本发明使用轻量级且无需预训练的网络，提高了定位速度从而保证同步定位与建图的实时性。

Description

一种实时的室内场景视觉同步定位与建图方法

技术领域

本发明涉及一种视觉同步定位与建图方法，具体涉及一种实时的室内场景视觉同步定位与建图方法。

背景技术

同步定位与建图是机器人与自动驾驶等领域当中的一个重要技术，其目标是构建用户所处场景的环境地图并确定用户在其中的位姿。基于同步定位与建图技术，用户系统可以根据实时获取的周围环境信息和自身位置信息合理决策行进路线和行为，确保其功能的正常、稳定实现。

视觉同步定位与建图基于计算机视觉信息与方法，可以取得较为良好的结果。常规的视觉定位与建图方法大多基于PTAM，将整个系统划分为相机追踪和局部建图两个部分。然而这些方法往往难以对弱纹理场景以及未观测到的区域进行几何估计，并且需要大量的内存资源来存储整个场景的几何信息。

基于场景的隐式表示的视觉同步定位与建图方法采用以坐标为输入的多层感知机网络来同时复原场景的几何构造与相机位姿，这样的方法避免了传统的视觉同步定位与建图方法中的图像匹配、局部建图等复杂的操作，但其通过采样点的体密度积分来预测场景深度的方法会导致表面粗糙、纹理细节不足、重建出的几何存在瑕疵的问题。

目前的现有技术之一，Sucar等人在论文“iMAP:Implicit mapping andpositioning in real-time”中的方法，其以一系列颜色与深度图为输入数据，采用一个多层感知机网络来表示整个场景。然而囿于单个多层感知机网络的模型容量的限制，其无法进行细节的场景几何信息获取以及准确的相机位姿跟踪，特别是对于较大的场景。

目前的现有技术之二，Zhu等人在论文“NICE-SLAM:Neural Implicit ScalableEncoding for SLAM”中的方法，其同样以一系列颜色与深度图为输入数据，采用多层级的特征网格来编码和表示场景的几何与外观信息，并引入了在不同的分辨率程度下预训练的神经解码器，可以实现对较大场景的细节程度较高的建图与更准确的定位，且速度快、计算成本低。但在特定数据集上对解码器进行预训练导致其难以泛化到不同类型的场景当中。

发明内容

为了能够有效地解决已有的视觉同步定位与建图方法存在的对三维场景重建的效果与精度不佳、网络模型需要预训练因而无法泛化到不同场景、网络模型庞大消耗较大内存的问题，本发明提出一种实时的室内场景视觉同步定位与建图方法，利用一个无需预训练的浅层多层感知机网络，能够对室内场景的三维几何构造进行构建并同步优化实时相机位姿，提高了场景重建效果与实时性，同时降低了模型对内存和计算资源的要求。

本发明采用的技术方案是：

S1：建立有符号距离与颜色预测网络；

S2：利用相机实时采集场景图像和对应的深度图并记为当前帧数据，判断当前帧是否为关键帧，如果是关键帧，则执行S3；否则则记为普通帧并执行S4；

S3：根据当前关键帧数据，对当前有符号距离与颜色预测网络进行训练，获得训练好的有符号距离与颜色预测网络并更新网络以及获得当前关键帧中各像素点的预测深度和颜色值；同时，根据当前关键帧数据优化当前关键帧的初始相机位姿，获得当前关键帧的优化相机位姿并作为下一帧的初始相机位姿；

S4：根据当前普通帧数据，利用当前有符号距离与颜色预测网络进行预测，获得网络的预测输出，根据网络的预测输出计算获得当前普通帧中各像素点的预测深度和颜色值；同时，根据当前普通帧数据优化当前普通帧的初始相机位姿，获得当前普通帧的优化相机位姿并作为下一帧的初始相机位姿；

S5：根据当前帧的预测深度和颜色值以及优化相机位姿，构建当前视角下场景的表面几何结构图；

S6：不断重复S2-S5，获得不同视角下场景的表面几何结构图。

所述S1中，有符号距离与颜色预测网络为浅层的多层感知机网络。

所述S2中，相邻两个关键帧之间间隔若干个普通帧。

所述S3或者S4中，对于当前帧的场景图像上的每个像素，首先，沿每个像素对应的射线在相机范围内确定采样点集合，再根据射线方向和采样点深度计算采样点集合中所有采样点的坐标，利用正弦激活位置编码SIREN分别对所有采样点的坐标进行位置编码后再输入到有符号距离与颜色预测网络，分别得到各采样点对应的有符号距离和颜色值，进而计算得到当前帧的场景图像上各像素点对应的预测深度和颜色值并作为当前帧的预测深度和颜色值。

所述采样点集合包括射线上各段等间隔内按均匀分布的采样点以及在相机深度范围内按以由真实深度图确定的场景深度为中心的正态分布的采样点。

与现有技术相比，本发明的有益效果为：

本发明采用一个浅层的多层感知机网络对室内场景的几何信息进行编码，无需对输入图像进行以往通常的视觉同步定位与建图方法中的预处理操作，且轻量级的网络模型也降低了模型的内存资源消耗和计算开销与速度，提高了模型运行的实时性。

本发明在利用由深度相机获得的场景深度信息的基础上，采用有符号距离场来进行场景深度估计，能够避免由体密度积分进行深度估计导致的不准确，提升了室内场景几何信息复原重建的效率与准确性。

本发明采用的有符号距离与颜色预测网络模型由深度相机实时采集获取的场景图像与深度图数据在模型运行过程中实时训练优化，无需在特定数据集上预训练，能够泛化到不同种类的场景当中。

附图说明

图1为本发明实施例的一种实时的室内场景视觉同步定位与建图方法的总体流程图。

图2为本发明实施例的一种实时的室内场景视觉同步定位与建图方法的详细流程图。

图3为本发明实施例在一个室内场景中局部区域上的场景几何构造的重建效果展示。

具体实施方式

下面将结合本发明的附图，对本发明方法的具体流程进行清晰、详细、完整的描述。

如图1和图2所示，本发明包括以下步骤：

S1：建立有符号距离与颜色预测网络；

S1中，有符号距离与颜色预测网络为浅层的多层感知机网络。浅层的多层感知机网络是隐藏层小于10层的多层感知机网络，本实施例中，有符号距离与颜色预测网络为一个包括4个隐藏层的多层感知机网络，网络的隐藏层采用GeLU作为激活函数。

S2：利用相机实时采集场景图像和对应的深度图并记为当前帧数据，每一组场景图像与深度图对应相机的一组位姿参数。判断当前帧是否为关键帧，如果是关键帧，则执行S3；否则则记为普通帧并执行S4；

S2中，相邻两个关键帧之间间隔若干个普通帧。具体实施中，将第一帧作为第一个关键帧，第一个关键帧用于初始化预测网络。除第一个关键帧之外的每一个关键帧，都是动态地计算并判断当前帧像素点样本中预测深度与真实深度图所得深度之间相对误差小于阈值的比例，将比例大于设定值的当前帧作为关键帧。

S3或者S4中，对于当前帧的场景图像上的每个像素，首先，沿每个像素对应的射线在相机范围内确定采样点集合，采样点集合包括射线上各段等间隔内按均匀分布的采样点以及在相机深度范围内按以由真实深度图确定的场景深度为中心的正态分布采样点。再根据射线方向和采样点深度计算采样点集合中所有采样点的坐标，利用正弦激活位置编码SIREN分别对所有采样点的坐标进行位置编码后再输入到有符号距离与颜色预测网络，分别得到各采样点对应的有符号距离和颜色值，进而计算得到当前帧的场景图像上各像素点对应的预测深度和颜色值并作为当前帧的预测深度和颜色值。在有符号距离与颜色预测网络的训练过程中，基于当前帧的场景图像上各像素点对应的预测深度和颜色值计算并优化有符号距离与颜色预测网络的深度与颜色损失并对网络参数进行反向梯度传播与更新，不断迭代训练至网络收敛，获得当前关键帧下的训练好的有符号距离与颜色预测网络，从而实现室内场景的三维几何构造的构建与表达。

具体地：

场景图像上每个像素点对应的射线r按下式计算：

r＝T_wcK[u,v]

其中，K为相机内参矩阵，T_wc为相机位姿，[u,v]为射线r对应的相机图像上像素点坐标。

射线上等间隔内按均匀分布采样的采样点按如下公式确定其三维坐标x_i：

x_i＝t_ir

其中，t_i表示采样点i沿射线方向的采样深度值，r为对应于场景图像上像素点的射线，为均匀分布，t_n和t_f分别表示相机沿射线r的深度下限与上限值，N_c为相机深度范围内射线划分的等间隔数量，即按此方法采样的采样点数量。

在相机深度范围内按以由真实深度图确定的场景深度为中心的正态分布的采样点按如下公式确定其三维坐标x_i：

x_i＝t_ir

其中，为正态分布，d[u,v]为深度相机得到的像素点[u,v]处对应的场景深度，N_f为按此方法采样的采样点数量。

采样点对应的预测深度由以下公式计算得到：

其中，s_i为采样点的有符号距离预测值，由采样点的三维坐标x_i经SIREN编码后输入至有符号距离与颜色预测网络中输出得到。

图像上像素点对应的预测颜色值由采样点处的概率密度σ与颜色预测值c计算得到。概率密度σ按下式计算：

其中，σ()表示概率密度值，s为每个采样点的有符号距离预测值，tr为截断距离。像素点对应的颜色预测值按以下公式计算得到：

τ(t)＝σ(r(t))T(t)

其中，T()表示透明度函数，r()表示采样点所在射线的方向，t为从相机原点沿像素点对应射线r的采样点深度，τ()为概率密度函数，c为采样点处的颜色预测值。

具体实施中，将场景图像划分为8×8的网格，计算每块区域内渲染损失的平均值，并根据计算结果建立像素点采样策略，使得在模型优化过程中更多地提取对应的区域内场景细节较多或场景几何信息复原尚不精确、完善的像素点而非以图像上的所有像素点进行计算。这种做法可以降低方法实施过程的计算开销、提高运行效率。在优化相机位姿时，将相机位姿参数矩阵SE(3)中包含的平移与旋转信息解耦为Cartesian乘积SO(3)×T(3)，并在训练优化过程中对旋转部分和平移采用不同的Adam优化器和学习率进行优化，提高系统的稳定性。

S6：不断重复S2-S5，获得不同视角下场景的表面几何结构图。如图3所示，本实施例复原了室内场景各个区域的大部分几何构造信息，且在细节比较丰富的区域取得了良好的效果。

本发明提出的一种实时的室内场景视觉同步定位与建图方法，能够实时地根据深度相机采集的室内场景的颜色图像与深度图数据进行定位跟踪，并同步复原重建室内场景的三维几何构造信息，模型具有轻量级、计算开销小、无需预训练的优点。

最后所应说明的是，以上实施例和阐述仅用以说明本发明的技术方案而非进行限制。本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，不脱离本发明技术方案公开的精神和范围的，其均应涵盖在本发明的权利要求保护范围之中。

Claims

1.一种实时的室内场景视觉同步定位与建图方法，其特征在于，包括以下步骤：

S1：建立有符号距离与颜色预测网络；

S6：不断重复S2-S5，获得不同视角下场景的表面几何结构图。

2.根据权利要求1所述的一种实时的室内场景视觉同步定位与建图方法，其特征在于，所述S1中，有符号距离与颜色预测网络为浅层的多层感知机网络。

3.根据权利要求1所述的一种实时的室内场景视觉同步定位与建图方法，其特征在于，所述S2中，相邻两个关键帧之间间隔若干个普通帧。

4.根据权利要求1所述的一种实时的室内场景视觉同步定位与建图方法，其特征在于，所述S3或者S4中，对于当前帧的场景图像上的每个像素，首先，沿每个像素对应的射线在相机范围内确定采样点集合，再根据射线方向和采样点深度计算采样点集合中所有采样点的坐标，利用正弦激活位置编码SIREN分别对所有采样点的坐标进行位置编码后再输入到有符号距离与颜色预测网络，分别得到各采样点对应的有符号距离和颜色值，进而计算得到当前帧的场景图像上各像素点对应的预测深度和颜色值并作为当前帧的预测深度和颜色值。

5.根据权利要求4所述的一种实时的室内场景视觉同步定位与建图方法，其特征在于，所述采样点集合包括射线上各段等间隔内按均匀分布的采样点以及在相机深度范围内按以由真实深度图确定的场景深度为中心的正态分布的采样点。