CN117765187A

CN117765187A - 基于多模态深度估计引导的单目隐神经的建图方法

Info

Publication number: CN117765187A
Application number: CN202410196740.0A
Authority: CN
Inventors: 王录涛; 戈胥; 王紫威; 沈艳; 郜东瑞; 陈俊; 陈海宁
Original assignee: Chengdu University of Information Technology
Current assignee: Chengdu University of Information Technology
Priority date: 2024-02-22
Filing date: 2024-02-22
Publication date: 2024-03-26
Anticipated expiration: 2044-02-22
Also published as: CN117765187B

Abstract

本发明公开了基于多模态深度估计引导的单目隐神经的建图方法，采用模糊深度感知模块的条件隐式最大似然估计技术生成深度多模态分布先验，提高存在非不透明介质时的场景重建精度，引入空间雕刻损失实现多视图深度估计的有效融合，获得全局一致的场景表征，引入表面法线损失，加强局部几何一致性约束，优化场景表示的同时使得系统在仅RGB输入的条件下，也具备精确的位姿跟踪精度和鲁棒性，解决了现有技术中因形状辐射歧义导致的全局表面重建不一致性，受限于物体空间位置遮挡与传感器测量精度导致建图不完整，定位效果不理想的问题。

Description

基于多模态深度估计引导的单目隐神经的建图方法

技术领域

本发明属于三维重建领域，具体涉及基于多模态深度估计引导的单目隐神经的建图方法。

背景技术

同步定位与建图（Simultaneous Localization and Mapping，SLAM）经历了以下发展阶段：

1)传统视觉SLAM，这大多采用特征匹配的方法进行连续帧之间的匹配，通过特征提取的SLAM可以实时跟踪并建立稀疏点云地图，但在真实的世界中缺乏鲁棒性，如特征点跟踪丢失，姿态估计累积偏移等问题导致系统失效，传统的密集视觉SLAM，可以生成稠密的地图且有一定的实时性，但系统不能估计未观测区域，使得生成的场景出现空洞及断层现象；

2)基于深度学习的SLAM，通过将深度学习应用于图像特征提取以提供更好的特征描述，或与经典的后端优化相结合，提高系统的精度和鲁棒性，改善SLAM系统的工作的稳定性与可靠性，但在基准测试上的准确性却低于经典SLAM系统，受训练数据集影响，其应用场景规模与泛化能力均受到较大限制；

3)基于神经辐射场(NeRF)的SLAM，只需图像和相机位姿信息来学习场景，训练过程自监督，利用MLP实现场景的隐式连续表征，对低纹理或无纹理的三维结构也能进行精细重建，此外，通过多视约束，可以实现未观测或遮挡区域的估计，改善传统SLAM建图空洞、断层等问题，但原生NeRF存在形状辐射歧义问题，在缺乏约束的情况下只能合成高质量的视图而不能很好的重建三维结构。

结合SLAM系统应用特点，寻找合适的几何先验，提高建图质量是当前基于NeRF的SLAM技术的一个重要研究方向。目前基于NeRF的视觉SLAM大多依赖传感器提供的深度信息，建图质量受限于传感器测量精度，采用单目相机可以减少系统设计复杂度，降低系统成本，但是在输入仅为单幅视图的情况下，利用深度神经网络估计深度存在固有的尺度模糊性，导致无法重建一致的几何表面与姿态跟踪失效。

发明内容

针对现有技术中的上述不足，本发明提供的基于多模态深度估计引导的单目隐神经的建图方法解决了现有技术中因形状辐射歧义导致的全局表面重建不一致性，受限于物体空间位置遮挡与传感器测量精度导致建图不完整，定位效果不理想的问题。

为了达到上述发明目的，本发明采用的技术方案为：基于多模态深度估计引导的单目隐神经的建图方法，包括以下步骤：

S1、获取单目RGB图像帧，通过模糊深度感知模块得到单目RGB图像帧的深度多模态先验分布，根据深度多模态先验分布构建体素空间；

S2、从单目RGB图像帧中选取像素，根据选取的像素和单目RGB图像帧对应的相机位姿构造空间射线，根据待重建场景尺度计算空间射线的深度取值范围，在深度取值范围内根据深度多模态先验分布在空间射线上采样，得到空间位置点；

S3、将空间位置点的坐标输入体素空间，得到第二特征向量，将第二特征向量输入全连接神经网络，得到体密度；

S4、根据体密度计算空间射线截断距离的概率质量分布，根据空间射线截断距离的概率质量分布和深度多模态先验分布计算交叉熵，根据交叉熵约束空间射线截断距离的概率质量分布；

S5、计算约束后的空间射线截断距离的概率质量分布的累积分布函数，根据累积分布函数逆运算得到空间射线截断距离样本，根据空间射线截断距离样本和深度多模态先验分布样本计算空间雕刻损失，根据空间雕刻损失调整空间点位置分布，生成新的空间位置点，将新的空间位置点输入体素空间，得到优化后的体密度和颜色RGB值；

S6、根据颜色RGB值计算光度损失，联合光度损失、空间雕刻损失和表面法线损失构建总损失函数，根据总损失函数优化体素空间的空间表征和相机位姿；

S7、重复S1~S6，直到体素空间的优化次数达到优化阈值，得到优化后的体素空间，根据优化后的体素空间输出相机位姿与MLP空间编码，完成基于多模态深度估计引导的建图方法。

进一步地：所述S1中，所述体素空间包括若干体素网格，体素网格顶点存储第一特征向量。

进一步地：所述S2中，空间射线的表达式具体为：

式中，为相机光心，其根据单目RGB图像帧对应的相机位姿得到，/>为观测方向的3D笛卡尔单位向量表示，其根据选取的像素和相机外参得到，t为相机采样点离相机光心的距离。

进一步地：所述S3中，全连接神经网络的全连接层数量范围为2~5，每个全连接层包含256个隐藏单元。

进一步地：所述S4中，所述空间射线截断距离的概率质量分布的表达式具体为：

式中，为空间射线，/>为体密度，/>为采样点，且/>，/>和/>为空间射线采样的边界条件，/>为光线沿着采样点的射线累积透射率，其表达式具体为下式：

所述交叉熵的表达式具体为：

式中，为深度多模态先验分布，/>为空间射线截断距离的概率质量分布的期望。

进一步地：所述S5中，累积分布函数的表达式具体为：

式中，m为空间射线上的设定点；

所述空间雕刻损失的表达式具体为：

式中，为空间射线截断距离样本，N为空间射线截断距离样本集，/>为深度多模态先验分布的样本，K为深度多模态先验分布的样本集，/>为/>与/>之间距离的平方。

进一步地：所述S6中，光度损失的表达式具体为：

式中，为像素颜色真值，/>为像素的序数，/>为从单目RGB图像帧中选取像素数量，/>为经典的体渲染技术的表达式，其具体为下式：

式中，为优化后的颜色RGB值，/>为优化后的体密度。

进一步地：所述S6中，表面法线损失的表达式具体为：

式中，为空间射线上采样点/>处的体渲染表面法线，/>为空间射线上采样点/>处的单目表面法线，N为采样点的数量，/>为/>的转置，/>为单位矩阵，/>描述其内两个向量接近程度。

上述进一步方案的有益效果为：采用光度损失，空间雕刻损失和表面法线损失对位姿估计与建图进行联合优化体素空间，能够实现相机位姿的准确跟踪和构建全局一致的场景表示。

本发明的有益效果为：

（1）本发明提供了基于多模态深度估计引导的单目隐神经的建图方法，采用模糊深度感知模块的条件隐式最大似然估计技术生成深度多模态分布先验，提高存在非不透明介质时的场景重建精度，引入空间雕刻损失实现多视图深度估计的有效融合，获得全局一致的场景表征，引入表面法线损失，加强局部几何一致性约束，优化场景表示的同时使得系统在仅RGB输入的条件下，也具备精确的位姿跟踪精度和鲁棒性，解决了现有技术中因形状辐射歧义导致的全局表面重建不一致性，受限于物体空间位置遮挡与传感器测量精度导致建图不完整，定位效果不理想的问题。

（2）本发明利用深度多模态分布先验引导空间射线采样分布，实现场景重建的三维监督，相对于经典的基于NeRF的方法仅采用射线截断距离的一阶矩或矩的方差计算渲染损失，可实现对非不透明表面的物体重建，并能显著提高稀疏输入视图情况下表面几何重建精度。

（3）由于单视图深度估计误差与固有的模糊性，重建场景不具有立体一致性，本发明提供的方法通过引入一种新的空间雕刻损失，消除单视图深度估计中的不确定性，获得全局一致的基于神经辐射场的三维场景表征。此外，通过增加表面法线损失，加强局部几何一致性约束，在优化场景表示的同时使得系统在仅RGB输入的条件下，也具备精确的位姿跟踪精度和鲁棒性。

附图说明

图1为本发明基于多模态深度估计引导的单目隐神经的建图方法流程图。

具体实施方式

下面对本发明的具体实施方式进行描述，以便于本技术领域的技术人员理解本发明，但应该清楚，本发明不限于具体实施方式的范围，对本技术领域的普通技术人员来讲，只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内，这些变化是显而易见的，一切利用本发明构思的发明创造均在保护之列。

如图1所示，在本发明的一个实施例中，基于多模态深度估计引导的单目隐神经的建图方法，包括以下步骤：

所述S1中，所述体素空间包括若干体素网格，体素网格顶点存储第一特征向量。

在本实施例中，模糊深度感知模块采用条件隐式最大似然估计(cIMLE)与单目深度估计网络LeReS来学习深度多模态分布先验。

所述S2中，空间射线的表达式具体为：

所述S3中，全连接神经网络的全连接层数量范围为2~5，每个全连接层包含256个隐藏单元。

所述S4中，所述S4中，所述空间射线截断距离的概率质量分布的表达式具体为：

所述交叉熵的表达式具体为：

在本实施例中，交叉熵用来描述两个概率分布的接近程度，值越小，说明空间射线概率分布与多模态先验分布越接近，空间雕刻损失可以理解为由交叉熵推导得来，是概率分布具体的表现形式。

所述S5中，累积分布函数的表达式具体为：

式中，m为空间射线上的设定点；

所述空间雕刻损失的表达式具体为：

在本实施例中，空间雕刻损失可以直接调整空间射线采样点的分布，实现对同一条射线上的不同采样点的监督。这种损失有别于现有的2D监督方法，可在3D监督下计算基于样本的可微分损失，对不存在单一的光线截断距离的场景也可进行有效重建。

所述S6中，光度损失的表达式具体为：

式中，为优化后的颜色RGB值，/>为优化后的体密度。

在本实施例中，光度损失中采用经典的体渲染技术，能够渲染出任意从相机光心出发穿过场景的空间射线在成像平面上形成的像素颜色。

所述S6中，表面法线损失的表达式具体为：

在本实施例中，表面法线损失能提供更多的局部几何细节，实现提高系统的跟踪精度和建图的一致性。

采用光度损失，空间雕刻损失和表面法线损失对位姿估计与建图进行联合优化体素空间，能够实现相机位姿的准确跟踪和构建全局一致的场景表示。

本发明的有益效果为：本发明提供了基于多模态深度估计引导的单目隐神经的建图方法，采用模糊深度感知模块的条件隐式最大似然估计技术生成深度多模态分布先验，提高存在非不透明介质时的场景重建精度，引入空间雕刻损失实现多视图深度估计的有效融合，获得全局一致的场景表征，引入表面法线损失，加强局部几何一致性约束，优化场景表示的同时使得系统在仅RGB输入的条件下，也具备精确的位姿跟踪精度和鲁棒性，解决了现有技术中因形状辐射歧义导致的全局表面重建不一致性，受限于物体空间位置遮挡与传感器测量精度导致建图不完整，定位效果不理想的问题。

本发明利用深度多模态分布先验引导空间射线采样分布，实现场景重建的三维监督，相对于经典的基于NeRF的方法仅采用射线截断距离的一阶矩或矩的方差计算渲染损失，可实现对非不透明表面的物体重建，并能显著提高稀疏输入视图情况下表面几何重建精度。

由于单视图深度估计误差与固有的模糊性，重建场景不具有立体一致性，本发明提供的方法通过引入一种新的空间雕刻损失，消除单视图深度估计中的不确定性，获得全局一致的基于神经辐射场的三维场景表征。此外，通过增加表面法线损失，加强局部几何一致性约束，在优化场景表示的同时使得系统在仅RGB输入的条件下，也具备精确的位姿跟踪精度和鲁棒性。

在本发明的描述中，需要理解的是，术语“中心”、“厚度”、“上”、“下”、“水平”、“顶”、“底”、“内”、“外”、“径向”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明的技术特征的数量。因此，限定由“第一”、“第二”、“第三”的特征可以明示或隐含地包括一个或者更多个该特征。

Claims

1.基于多模态深度估计引导的单目隐神经的建图方法，其特征在于，包括以下步骤：

S3、将空间位置点的坐标输入体素空间，得到第二特征向量，将第二特征向量输入全连接神经网络，得到体密度和颜色RGB值；

2.根据权利要求1所述的基于多模态深度估计引导的单目隐神经的建图方法，其特征在于，所述S1中，所述体素空间包括若干体素网格，体素网格顶点存储第一特征向量。

3.根据权利要求1所述的基于多模态深度估计引导的单目隐神经的建图方法，其特征在于，所述S2中，空间射线的表达式具体为：

4.根据权利要求1所述的基于多模态深度估计引导的单目隐神经的建图方法，其特征在于，所述S3中，全连接神经网络的全连接层数量范围为2~5，每个全连接层包含256个隐藏单元。

5.根据权利要求4所述的基于多模态深度估计引导的单目隐神经的建图方法，其特征在于，所述S4中，所述空间射线截断距离的概率质量分布的表达式具体为：

所述交叉熵的表达式具体为：

6.根据权利要求5所述的基于多模态深度估计引导的单目隐神经的建图方法，其特征在于，所述S5中，累积分布函数的表达式具体为：

式中，m为空间射线上的设定点；

所述空间雕刻损失的表达式具体为：

7.根据权利要求5所述的基于多模态深度估计引导的单目隐神经的建图方法，其特征在于，所述S6中，光度损失的表达式具体为：

式中，为优化后的颜色RGB值，/>为优化后的体密度。

8.根据权利要求7所述的基于多模态深度估计引导的单目隐神经的建图方法，其特征在于，所述S6中，表面法线损失的表达式具体为：

式中，为空间射线上采样点/>处的体渲染表面法线，/>为空间射线上采样点处的单目表面法线，N为采样点的数量，/>为/>的转置，/>为单位矩阵，/>描述其内两个向量接近程度。