CN116486002A

CN116486002A - 一种面向真实场景的隐式自主三维重建方法

Info

Publication number: CN116486002A
Application number: CN202310358422.5A
Authority: CN
Inventors: 叶琦; 李艳旭; 曾静; 冉云龙
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2023-04-06
Filing date: 2023-04-06
Publication date: 2023-07-25

Abstract

本发明公开了一种面向真实场景的隐式自主三维重建方法，该方法包括：将传统标定方法与动作捕捉系统相结合，通过动作捕捉系统获得的机器人位姿得到相机位姿；将三维场景的隐式神经表示与体素表示相结合，使用粗糙的体素表示加速采样以及障碍检测，使用精细的隐式神经表示进行三维场景重建；引入一种全新的代价函数计算方法，兼顾路径长度与三维重建质量；基于代价函数分布获得目标位姿以及可达路径。解决了三维重建领域，隐式神经表示大多应用于仿真环境，难以部署到移动机器人，进行真实环境的自主三维重建的问题。

Description

一种面向真实场景的隐式自主三维重建方法

技术领域

本发明涉及机器人领域，具体涉及一种面向真实场景的隐式自主三维重建方法。

背景技术

随着计算机视觉及其相关领域的飞速发展，机器人领域的研究人员希望利用相关的视觉知识，赋予机器人更多自主性。在这种情况下，机器人能够自主调整其搭载的视觉传感器，以获取更多的信息。其中视图规划作为机器人调整其运动状态的基本依据，越来越受到研究人员的关注。基于视图规划算法，机器人视觉系统能够处理和分析当前获得的信息，使机器人能够尽可能地探索未知空间。

实现三维场景重建首先需要一种数据结构来对观测的模型进行存储和表示。三维模型的表示方法整体上可以分为两种：显式表示和隐式表示。显式表示的以体素表示最为常见，隐式表示则以神经隐式表示最为常见。

体素表示将三维模型离散化为栅格或八叉树，计算复杂度较小，然而不能展现模型表面的细节。因此，体素表示在质量和效率之间提供了良好的平衡。其主要缺点是存储浪费,正常情况下待测模型可能只占整个环境的小部分。

近些年，随着深度学习的蓬勃发展，通过神经网络模型存储一个环境的方法越来越受到欢迎，即神经隐式表示。神经隐式表示使用深度神经网络来表示场景，其输入是连续5D坐标(空间位置和观测视角)，输出是对应空间位置的透明度和颜色，同时使用经典的体积渲染技术将输出的颜色和透明度投影到图像中，从而实现任意视角的场景表示。神经隐式表示相对于传统方法需要内存小，具有一定平滑性，同时可以对未知空间进行填充，缺点是神经隐式表示的很多方法都是离线训练的，模型优化所需要时间长。因此目前自主三维重建方法大多基于传统体素表示，隐式神经表示大多用于新视角合成等离线场景。

发明内容

针对上述现有技术的不足，本发明提供一种面向现实场景的隐式自主三维重建方法，目标是实现基于移动机器人平台的隐式场景表示，完成高精度三维场景重建，解决传统自主三维重建算法重建精度较差，缺乏对未观测区域的预测能力的问题。

本发明的目的是通过以下技术方案实现的：一种面向真实场景的隐式自主三维重建方法，包括以下步骤：

S1：建立世界坐标系，获取相机坐标系相对于世界坐标系的位姿和机器人坐标系相对于世界坐标系的位姿，由此获得相机坐标系相对于机器人坐标系的偏移，每一张图片对应的相机位姿通过机器人位姿间接获得；

S2：对当前观测位置获得的RGBD图片与相机位姿进行同步，并转换到世界坐标系；

S3：对隐式神经表示，使用第一多层感知机模型，输入步骤S2获得的已同步的世界坐标系下图片和位姿，输出场景相应点的颜色值、体素密度、不确定度；

S4：对体素表示，将步骤S2获得的已同步的世界坐标系下图片和位姿转换为三维空间点，融合至已有TSDF地图，更新地图状态；

S5：利用步骤S3隐式神经表示输出的不确定度与步骤S4体素表示记录的地图状态，在当前观测位置附近进行离散采样，记录采样点的位姿与不确定度；

S6：建立第二多层感知机模型，拟合步骤S5得到的采样点位姿与相应的不确定度，得到连续的信息增益场，结合梯度下降算法获得信息增益最大值，将其作为目标位姿；

S7：基于步骤S6获得的目标位姿与步骤S4得到的TSDF地图，利用A*算法进行路径规划，将栅格点对应的信息增益作为启发函数，从而得到一条兼顾路径长度与重建质量的路径；

S8：基于步骤S7获得的路径进行机器人的自主运动，在运动过程中采集多张图片加速重建，重复S2-S8步骤，直至第一多层感知机模型收敛，完成当前场景的隐式三维重建。

进一步地，所述步骤S1中对应的相机位姿通过机器人位姿间接获得的计算方法具体为：

首先，在棋盘格标定板的角点上粘贴动作捕捉系统的荧光标记球，此时获得它们在世界坐标系以及棋盘格坐标系的坐标，利用ICP算法，得到棋盘格坐标系相对于世界坐标系的变换；其次，利用机器人上携带的相机对标定板进行拍照，由此获得相机相对于棋盘格坐标系的位姿，进而得到相机相对于世界坐标系的位姿；最后，在机器人上粘贴动作捕捉系统的荧光标记球，获得机器人相对于世界坐标系的位姿，得到当前时刻相机位姿相对于机器人位姿的偏移，每个时刻的相机位姿都可以通过机器人位姿间接得到。

进一步地，所述步骤S3中第一多层感知机模型的构建具体为：

隐式神经表示的第一多层感知机模型由10个全连接层组成，输入是当前相机位置，前九个全连接层的神经元数目均为256，在第五层引入了前馈操作，第九层增加了相机观测姿态作为输入，同时第九层的输出为预测的体素密度，第十层的神经元数目为128，输出为预测的颜色值；在训练时，执行dropout操作，以减轻过拟合；将相机相对于世界坐标系的位姿作为可优化的变量，用于减少真实场景的位姿噪声的影响。

进一步地，所述步骤S3中不确定度的获取方式具体为：

将步骤S3中模型预测的每个采样点的颜色值看作服从同一高斯分布的随机变量，则有c(μ,σ)，其中c代表颜色值，μ代表颜色均值，σ代表颜色方差，方差越大代表该点的不确定度越大，需要更多的观测数据；由此可得输入图片的不确定度为：

其中R代表输入图片中的像素数目，N代表预测每个像素需要的采样点数目，σ_I，σ_r，σ_ri分别代表输入图片，像素点，采样点的不确定度；W_ri代表每个采样点对应的权重。

进一步地，步骤S3中第一多层感知机模型的损失函数具体为：

其中R代表输入图片的像素数目，C_r，C_I分别代表像素与图片的颜色真值，μ_r，μ_I分别代表像素与图片的预测均值。

进一步地，所述步骤S4具体为：

对地图中的栅格x，计算其到相机坐标系原点的距离distance(x)，然后将该点投影至像素坐标系，根据深度图片获得的该点对应的深度值depth(x)，则有该点到表面的距离可表示为：sdf(x)＝depth(x)-distance(x)，然后根据截断距离u进行截断。

将当前计算结果融入现有地图：

其中TSDF_i-1(x)为现有地图上x到最近表面的截断距离，TSDF_i(x)为融合后地图上x到最近表面的截断距离，tsdf(x)为当前帧x到最近表面的截断距离，W(x)为融合权重值，w(x)为当前帧的权重值，W(x)随观测数据的增加而增长。

进一步地，所述步骤S5中采样算法具体为：

在以当前观测位置为圆心，半径为s的球环内随机采样N个点，然后对这些点分别在pitch方向和roll方向采样N_pitch，N_roll个角度并进行随机组合，作为该采样点的候选姿态，最后根据S3中的隐式神经表示计算这些采样点对应的不确定度，对每个采样点，筛选出不确定最大的三个候选姿态作为该采样点的最终姿态，通过S4更新后的地图得知采样点状态信息，并选取无障碍物区域采样。

进一步地，所述步骤S6中建立信息增益场的方法具体为：

g_θ:→I

其中P＝p₁,p₂,p₃…p_N代表采样点位姿，I＝I₁,I₂,I₃…I_N代表采样点对应的不确定度，g_θ代表信息增益场；该步骤损失函数定义为

进一步地，步骤S7中A*算法的改进为：

根据在步骤S5建立的连续信息增益场，栅格地图上任一点都可计算相应的信息增益，因此在原始A*算法的代价函数上引入信息增益作为启发函数，最终表示形式为：F(p)＝G(p_s,p)+λ₁H(p,p_t)+λ₂I_p，其中λ₁，λ₂为相应权重值，p为当前位置，p_s代表起始位置，p_t代表目标位置，G(p_s,p)代表起始位置到当前位置的最短路径长度，H(p,p_t)代表当前位置到目标位置的直线距离，I_p代表p点的信息增益。

本发明的有益效果是：

1、隐式神经表示要求相机位姿的精度较高，传统的视觉里程计定位方法并不满足要求，本发明结合传统的棋盘格标定法以及点云匹配算法ICP，基于动作捕捉系统实现了厘米级的定位精度，从而使得神经隐式表示能够应用于自主三维重建。

2、神经隐式表示大多使用已采集好的图片，进行离线三维重建，使用本发明可以使神经隐式表示用于指导视图规划，从而实现自主在线三维重建，极大地提高机器人自主探索的重建精度，同时对未探索区域具有一定的预测能力。

3、将传统体素表示与神经隐式表示相结合，体素表示可以弥补神经隐式表示障碍检测困难，采样效率低的缺点；神经隐式表示可以弥补体素表示重建精度不高，对未观测区域缺乏预测能力的缺点，兼顾效率和精度。

4、解决了离散采样容易陷入局部最优的问题，本发明通过神经网络拟合采样点信息获得连续函数，进而通过优化算法便可获得全局最优。

5、引入连续的信息增益场，从而使图搜素的路径规划算法可以应用于视图规划，相较于基于采样的路径规划算法，可以获得更短的路径长度。

6、本发明适用于任意形式的神经隐式表示。

7、对A*算法的启发函数进行改进，引入信息增益作为启发函数，兼顾路径长度与重建质量。

附图说明

图1为本发明实施例中一种面向现实场景的隐式自主三维重建方法的架构图；

图2为本发明实施例中用于神经隐式表示的多层感知机模型示意图；

图3为本发明实施例中用于体素表示的栅格地图示意图；

图4为本发明实施例中视图规划算法流程图。

具体实施方式

为了更好的理解本申请的技术方案，下面结合附图对本申请实施例进行详细描述。

应当明确，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本申请保护的范围。

在本申请实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请实施例和所附权利要求书中所使用的单数形式的“一种”、“”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

如图1所示，在本实施例中，提供了面向现实场景的隐式自主三维重建方法，实验场景为6m×6m×3m的室内房间。包括以下步骤：

S1，计算相机位姿与机器人刚体位姿的偏移，具体为

首先，在棋盘格标定板的角点上粘贴动作捕捉系统的荧光标记球，此时可以获得它们在世界坐标系(也就是动作捕捉系统设定的坐标系)以及棋盘格坐标系的坐标系，利用ICP算法，得到棋盘格坐标系相对于世界坐标系的变换T_WB。

其次，利用机器人上携带的相机对标定板进行拍照，由此可以获得相机相对于棋盘格坐标系的位姿T_BC，进而得到相机相对于世界坐标系的位姿T_WC。

最后，在机器人上粘贴动作捕捉系统的荧光标记球，获得机器人相对于世界坐标系的位姿T_WR，这样便得到了当前时刻相机位姿相对于机器人位姿的偏移T_CR，由此之后，每个时刻的相机位姿都可以通过机器人位姿间接得到。具体公式为，假设当前机器人位姿为T_R，则相机位姿T_c为：

S3，建立第一多层感知机模型用于场景的隐式神经表示；多层感知机模型又可以叫做多层全连接神经网络，结构简单，适合用于各种回归、分类任务。

在本实施例中，步骤S3中第一多层感知机模型的构建具体为：

每种类型神经网络层的预测模型由十个全连接层组成，每个全连接层执行如下操作：

Y＝W·X+b

其中，W是全连接层的权重矩阵，X是全连接层的输入数据，W是偏置参数，Y是全连接层的输出数据，此外，每个隐藏层的输出会经过ReLU激活函数，其表达式如下所示，它保证了整个神经网络是非线性且稀疏的。

最后在该实施例中，训练时，在输出层经过ReLU激活函数之前会以20％的概率对其执行dropout操作以减轻过拟合。构建的多层感知机模型如图2所示，模型输入是当前相机位置，前九个全连接层的神经元数目均为256，不同处在于第五层引入了前馈操作，第九层增加了相机姿态作为输入，同时第九层的输出为预测的体素密度，输出神经元数目为1，第十层的神经元数目为128，输出为预测的颜色值，输出神经元数目为3。

建立场景的神经隐式表示，具体为：

首先根据相机内参，将图片从二维像素坐标系转换到三维相机坐标系，对于每个像素点，沿相机坐标系原点与其的射线方向随机采样，采样点数目为64，采样区间为(0.5m,6m)再根据相机位姿，将采样点转换至世界坐标系。

其次为了让隐式神经表示学到高频信息，对原本采样点进行位姿编码，即加入傅里叶级数形式的高频分量：

γ(p)＝sin(2⁰πp),cos(2⁰πp)…sin(2^L-1πp),cos(2^L-1πp)

其中L代表最高频率指数，取10，将原本采样位置信息叠加高频信息后作为模型输入。

模型输出为像素点对应的体素密度、颜色值、不确定度，其中不确定度计算依据是将每个采样点的颜色值看作服从同一高斯分布的随机变量，则有c＝N(μ,σ)，其中c代表颜色值，μ代表颜色均值，σ代表颜色方差，方差越大代表该点的不确定度越大，需要更多的观测数据。由此可得输入图片的不确定度为：

其中R代表输入图片中的像素数目，N代表预测每个像素需要的采样点数目，σ_I，σ_r，σ_ri分别代表输入图片，像素点，采样点的不确定度。W_ri代表每个采样点对应的权重，根据体素密度得到，具体为：

α_i＝1-exp(σ_iδ_i)

W_ri＝T_iα_i

其中σ_j代表采样点j的体素密度，δ_j代表采样间隔。

最后，模型的损失函数具体为：

使用这个损失函数是因为模型训练的最终目的是希望不确定度最小，也就是方差σ最小，因为假设颜色值满足高斯分布，根据观测数据对方差进行极大似然估计(忽略常数项)有：

对L_color关于σ_I求极小值有：

也就说明了训练模型的过程中，对L_I进行反向传播，等价于减小场景的不确定度。

S4.建立场景的体素表示，具体为：

根据场景实际大小对场景进行划分，本实施例栅格分辨率为0.1m，具体如图3所示，计算其到相机坐标系原点的距离distance(x)，然后将该点投影至像素坐标系，根据深度图片获得的该点对应的深度值depth(x)，则有该点到表面的距离可表示为：sdf(x)＝depth(x)-distance(x)，然后根据截断距离u进行截断：

最后进行将当前计算结果融入现有地图：

其中TSDF_i-1(x)为现有地图上x到最近表面的截断距离，TSDF_i(x)为融合后地图上x到最近表面的截断距离，tsdf(x)为当前帧x到最近表面的截断距离，W(x)为融合权重值，w(x)为当前帧的权重值，W(x)随观测数据的增加而增长。根据TSDF值赋予栅格状态，出于截断距离u内的栅格状态设为occupy，代表其处于障碍物内，其余已被观测到的栅格状态设为empty，代表其可以通过，未被观测到栅格设为unknown，代表其未被观测到，尚不能通过。

S5.在当前观测位置附近进行离散采样，记录采样点的位姿与不确定度。具体为：

在以当前观测位置为圆心，半径为s的球环内随机采样N个点，然后对这些点分别在pitch方向和roll方向采样N_pitch，N_roll个角度并进行随机组合，作为该采样点的候选姿态，最后根据S3中的隐式神经表示计算这些采样点对应的不确定度，对每个采样点，筛选出不确定最大的三个候选姿态作为该采样点的最终姿态，通过S4更新后的地图得知采样点状态信息，并选取无障碍物区域采样。在本实例中，N＝100，N_pitch＝5，N_roll＝12。

S6、建立信息增益场，获得信息增益最大值：使用由八层全连接层构成的第二多层感知机模型对采样位姿与对应的信息增益进行拟合，信息增益等价于不确定度，不确定度越高，代表其能提供的信息越多。全连接层的神经元数目为128，输出神经元数目为1。具体为：

g_θ:P→I

其中P＝p₁,p₂,p₃…p_N代表采样点，I＝I₁,I₂,I₃…I_N代表采样点对应的不确定度，g_θ代表信息增益场。信息增益场拟合的损失函数定义为

S7.如图4所示，利用信息增益场，使用A*算法进行路径搜索。具体为：

A*算法是一种很常用的路径查找和图形遍历算法。它有较好的性能和准确度，它利用启发信息寻找最优路径。A*算法需要在地图中搜索节点，并设定适合的启发函数进行指导。通过评价各个节点的代价值，获取下一需要拓展的最佳节点，直至到达最终目标点位置。A*算法优点在于对环境反应迅速，搜索路径直接，是一种直接的搜索算法。

首先，A*算法需要建立两个集合：open集和close集，open集存放已被探索过，但尚未确定最优代价函数的节点，close集存放已确定代价损失函数的节点，将起始点放入open集。

然后，A*算法进行如下循环：从open集中取出代价函数最小的节点，作为当前节点，若其为目标位置节点则退出循环，否则将其加入close集并从open集中删除。遍历当前节点的所有相邻节点，在本发明中，相邻节点即当前节点所在栅格的八邻域节点，将其加入open集。这里需要注意：处于close集的节点不需添加，已处于open集的节点需要更新损失函数。

原始A*算法的代价函数表示为F(p)＝G(p_s,)+H(p,p_t)，其中p为当前位置，p_s代表起始位置，p_t代表目标位置，G(p_s,)代表起始位置到当前位置的最短路径长度，H(p,p_t)代表当前位置到目标位置的直线距离，I_p代表p点的信息增益。本发明根据在步骤S6建立的连续信息增益场，栅格地图上任一点都可计算相应的信息增益，因此在原始A*算法的代价函数上引入信息增益启发函数，最终表示形式为：F(p)＝G(p_s,)+λ₁H(p,p_t)+λ₂I_p，其中λ₁，λ₂为相应权重值，本实施例λ₁，λ₂取1。

最后，在搜素到目标节点后，进行回溯即可找到最优路径，重复以上步骤，直至第一多层感知机模型网络收敛，收敛原则为损失函数L_I数值浮动不超过3％。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。

以上所述仅为本说明书一个或多个实施例的较佳实施例而已，并不用以限制本说明书一个或多个实施例，凡在本说明书一个或多个实施例的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本说明书一个或多个实施例保护的范围之内。

Claims

1.一种面向真实场景的隐式自主三维重建方法，其特征在于，包括以下步骤：

S3：对隐式神经表示，使用第一多层感知机模型，输入步骤S2获得的已同步的世界坐标系下图片和位姿，输出场景相应点的颜色值、体素密度和不确定度；

S7：基于步骤S6获得的目标位姿与步骤S4更新后的TSDF地图，利用A*算法进行路径规划，将栅格点对应的信息增益作为启发函数，从而得到一条兼顾路径长度与重建质量的路径；

S8：基于步骤S7获得的路径进行机器人的自主运动，在运动过程中采集多张图片加速重建，重复步骤S2-S8，直至第一多层感知机模型收敛，完成当前场景的隐式三维重建。

2.根据权利要求1所述的方法，其特征在于，所述步骤S1中，每一张图片对应的相机位姿通过机器人位姿间接获得的计算方法具体为：

首先，在棋盘格标定板的角点上粘贴动作捕捉系统的荧光标记球，此时获得它们在世界坐标系以及棋盘格坐标系的坐标，利用ICP算法，得到棋盘格坐标系相对于世界坐标系的变换；其次，利用机器人上携带的相机对标定板进行拍照，由此获得相机相对于棋盘格坐标系的位姿，进而得到相机相对于世界坐标系的位姿；最后，在机器人上粘贴动作捕捉系统的荧光标记球，获得机器人相对于世界坐标系的位姿，得到当前时刻相机位姿相对于机器人位姿的偏移，每个时刻的相机位姿都通过机器人位姿间接得到。

3.根据权利要求1所述的方法，其特征在于，所述步骤S3中第一多层感知机模型的构建具体为：

4.根据权利要求3所述的方法，其特征在于，所述步骤S3中不确定度的获取方式具体为：

将步骤S3中模型预测的每个采样点的颜色值看作服从同一高斯分布的随机变量，则有其中c代表颜色值，μ代表颜色均值，σ代表颜色方差，方差越大代表该点的不确定度越大，需要更多的观测数据；由此可得输入图片的不确定度为：

5.根据权利要求1所述的方法，其特征在于，步骤S3中第一多层感知机模型的损失函数L_I具体为：

其中R代表输入图片的像素数目，C_r，C_I分别代表像素与图片的颜色真值，μ_r，μ_I分别代表像素与图片的颜色预测均值。

6.根据权利要求1所述的方法，其特征在于，所述步骤S4具体为：

对地图中的栅格点x，计算其到相机坐标系原点的距离distance(x)，然后将该点投影至像素坐标系，根据深度图片获得的该点对应的深度值depth(x)，则有该点到表面的距离可表示为：sdf(x)＝depth(x)-distance(x)，然后根据截断距离u进行截断；

将当前计算结果融入现有地图：

7.根据权利要求1所述的方法，其特征在于，所述步骤S5中采样算法具体为：

8.根据权利要求1所述的方法，其特征在于，所述步骤S6中建立信息增益场的方法具体为：

g_θ:P→I

9.根据权利要求1所述的方法，其特征在于，步骤S7中利用改进的A*算法进行路径规划，具体为：

根据在步骤S6建立的连续信息增益场，栅格地图上任一点都可计算相应的信息增益，因此在原始A*算法的代价函数上引入信息增益作为启发函数，最终表示形式为：F(p)＝G(p_s,p)+λ₁H(p,p_t)+λ₂I_p，其中λ₁，λ₂为相应权重值，p为当前位置，p_s代表起始位置，p_t代表目标位置，G(p_s,p)代表起始位置到当前位置的最短路径长度，H(p,p_t)代表当前位置到目标位置的直线距离，I_p代表p点的信息增益。