CN115035240B

CN115035240B - 实时三维场景重建方法及装置

Info

Publication number: CN115035240B
Application number: CN202210524657.2A
Authority: CN
Inventors: 季向阳; 张晨阳光; 娄志强
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2023-04-11
Anticipated expiration: 2042-05-13
Also published as: WO2023216435A1; CN115035240A

Abstract

本申请公开了一种实时三维场景重建方法及装置，其中，方法包括：获取单目相机的相机内参；提取单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点；以及利用预设三维场景重建网络，基于由相机内参、实际相机位姿和稀疏深度点得到的融合时空信息生成三维场景重建结果。由此，解决了相关技术中忽视粗略稀疏特征点的深度估计数据，对空间信息的利用不完善，导致三维重建结果连续性、准确性较差，且实用性较差的技术问题。

Description

实时三维场景重建方法及装置

技术领域

本申请涉及图像处理技术领域，特别涉及一种实时三维场景重建方法及装置。

背景技术

三维场景重建技术是计算机视觉的核心问题，在许多应用场景如AR/VR，机器人运动规划，机器人场景理解中，精细、稠密地重建智能体所在的三维场景是不可或缺的。如今，稠密地重建三维场景可以利用多种传感器输入，包括激光雷达、深度相机等提供深度信息的设备，但这些设备具有成本过高、较为笨重的缺点，应用场景十分受限，而仅仅使用单目相机拍摄的视频进行三维场景重建拥有成本低、应用方便的优势，所以成为了目前的研究热点。

然而相关技术中，利用单目相机重建三维场景，输入的为已知的场景全部的扫描序列，并不是增量式的未知输入，实用性较差，且在三维特征体素表示的构建方面，使用对二维图像特征进行反投影后平均池化的方法，忽视了图像特征间的时域联系，同时，还忽易视粗略稀疏特征点的深度估计数据，对空间信息的利用不完善，亟需改善。

发明内容

本申请是基于发明人对以下问题的认知和发现作出的：

利用单目相机得到的多角度图像直接进行稠密三维重建目前面临很大的问题，如有限的计算资源、重建场景的连续性不好、噪音太多等等。目前，直接利用深度神经网络进行端到端重建方法能够部分解决重建质量问题，但已有的方法忽视了多角度图像的时域联系，以及可以提取出的空间信息。

现有的利用单目相机重建三维场景的技术主要分为：(1)传统VSLAM(VisualSimultaneous Localization And Mapping，视觉同时定位与建图)方法，利用图像中的纹理、颜色等低级特征以及对应的几何约束构建稀疏的三维点模型，是一种基于优化的方法；(2) MVS(Multi-view Stereo，多视角立体)方法，对每帧或连续多帧输入图像估计深度，利用估计的深度值再进行三维重建；(3)基于神经网络的端到端方法，设计端到端的人工神经网络，输入序列图像，输出场景的三维表示。

(1)传统VSLAM方法

传统的VSLAM方法注重对相机位姿的估计，其估计相机位姿以及重建场景点云都基于优化方法，即利用帧间匹配特征点的几何约束构建损失函数进行优化，得到最优的相机位姿和三维特征点坐标。这类方法的特征点提取十分稀疏，所以重建结果也大多并不稠密，并且受制于计算性能限制、图像纹理丰富程度等，对于纹理不明确的区域会出现重建失败的情况。

(2)MVS方法

MVS方法是一种两阶段重建的方法，第一阶段需要估计每帧输入图像的深度图，再根据滤波等手段传递相邻帧间深度，进行深度修正，然后第二阶段再利用估计的深度值进行场景的三维重建。

基于传统的图像块匹配的方法进行建图，在缺少鲜明图像特征的时候难以完整重建场景；多数基于深度学习的方法利用二维特征平均池化构建三维特征体素，少数注重帧间深度信息的传播。

MVS方法因为每帧深度由分别估计得到，并不考虑三维场景的整体空间连续性，故最后的三维重建结果经常面临连续性差、噪声较大的缺点，另外，对每帧都进行深度估计也存在重复计算的问题。

(3)基于神经网络的端到端方法

基于神经网络的端到端方法输入单目相机拍摄的连续图像序列，输出场景的三维表示，大多端到端方法都利用CNN(Convolutional Neural Network，卷积神经网络)等提取图像二维特征，利用对应的相机位姿，基于此建立场景的三维特征体素表示，最后利用TSDF(Truncated Signed Distance Function，截断符号距离函数)作为网络输出，得到连续性、一致性较好的三维重建结果。

具体而言，需要同时输入一个场景的全部序列，而不能处理现实生活中机器人只能获取到的增量式输入，所以应用场景受限。基于神经网络的端到端方法采用局部平均池化构建三维特征体素，然后使用GRU(Gate Recurrent Unit，门控循环单元)模块进行全局融合的方法，是目前效果最好的实时重建工作，但平均池化忽视了帧间的时序特征联系；还可以利用注意力机制直接重建全局特征体素，但直接构建全局体素消耗很大的显存和运行时间，故该方法不能做到实时重建。

然而，传统的VSLAM方法存在计算量大，大多方法重建不稠密，难以处理图像纹理不明显的区域等问题。

MVS方法因为每帧深度分别估计得到，并不考虑三维场景的整体空间连续性，故最后的三维重建结果经常面临连续性差、噪声较大的缺点，另外，对每帧都进行深度估计也存在重复计算，浪费计算资源的问题。

现有的基于神经网络的端到端方法中，有些方法输入的是已知的场景全部的扫描序列，并不是增量式的未知输入，这类方法并没有实用价值，因为机器人并不能获取场景的全部图像信息，而只能处理增量式输入。

另外，在三维特征体素表示的构建方面，相关方法大都使用对二维图像特征进行反投影后平均池化的方法，忽视了图像特征间的时域联系，且相关方法需要基于实时VSLAM前端得到的相机位姿数据，但忽视了VSLAM前端能得到的粗略稀疏特征点的深度估计数据，对这部分空间信息的利用也并不完善。

综上所述，在基于单目相机拍摄的视频进行实时三维场景重建领域，提出一种实时三维场景重建方法及装置，以解决相关技术中忽视粗略稀疏特征点的深度估计数据，对空间信息的利用不完善，导致三维重建结果连续性、准确性较差，且实用性较差的技术问题。

本申请第一方面实施例提供一种实时三维场景重建方法，包括以下步骤：获取单目相机的相机内参；提取所述单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点；以及利用预设三维场景重建网络，基于由所述相机内参、所述实际相机位姿和所述稀疏深度点得到的融合时空信息生成三维场景重建结果。

可选地，在本申请的一个实施例中，所述利用预设三维场景重建网络，基于由所述相机内参、所述实际相机位姿和所述稀疏深度点得到的融合时空信息生成三维场景重建结果，包括：分别提取所述实际相机位姿和所述稀疏深度点的二维特征，并分别反投影为对应的初始局部三维特征体素；从所述稀疏深度点提取空间信息，并融合所述空间信息和帧间时序特征联系，得到局部融合三维特征体素；将所述局部融合三维特征体素融合至全局，得到最终的全局融合三维特征体素；基于所述最终的全局融合三维特征体素利用预设MLP网络得到所述三维场景重建结果。

可选地，在本申请的一个实施例中，分别提取所述实际相机位姿和所述稀疏深度点的二维特征之前，还包括：计算所述稀疏深度点的归一化置信度；将所述稀疏深度点和所述归一化置信度投影成对应的稀疏深度图及置信度；由所述稀疏深度图及置信度得到稀疏深度先验。

可选地，在本申请的一个实施例中，所述局部融合三维特征体素为：

其中，

为片段特征体素，F为将片段特征体素进行融合的过程，

为得到的局部融合三维特征体素。

可选地，在本申请的一个实施例中，所述基于所述最终全局融合三维特征体素利用预设MLP网络得到所述三维场景重建结果，包括：基于所述最终全局融合三维特征体素，利用所述预设MLP网络中级联的两个MLP层得到估计的占用度栅格和场景TSDF体素；根据所述占用度栅格和场景TSDF体素生成所述三维场景重建结果。

本申请第二方面实施例提供一种实时三维场景重建装置，包括：获取模块，用于获取单目相机的相机内参；提取模块，用于提取所述单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点；以及重建模块，用于利用预设三维场景重建网络，基于由所述相机内参、所述实际相机位姿和所述稀疏深度点得到的融合时空信息生成三维场景重建结果。

可选地，在本申请的一个实施例中，所述重建模块包括：提取单元，用于分别提取所述实际相机位姿和所述稀疏深度点的二维特征，并分别反投影为对应的初始局部三维特征体素；第一融合单元，用于从所述稀疏深度点提取空间信息，并融合所述空间信息和帧间时序特征联系，得到局部融合三维特征体素；第二融合单元，用于将所述局部融合三维特征体素融合至全局，得到最终的全局融合三维特征体素；重建单元，用于基于所述最终的全局融合三维特征体素利用预设MLP网络得到所述三维场景重建结果。

可选地，在本申请的一个实施例中，所述重建模块还包括：第一计算单元，用于计算所述稀疏深度点的归一化置信度；投影单元，用于将所述稀疏深度点和所述归一化置信度投影成对应的稀疏深度图及置信度；第二计算单元，用于由所述稀疏深度图及置信度得到稀疏深度先验。

其中，

为片段特征体素，F为将片段特征体素进行融合的过程，

为得到的局部融合三维特征体素。

可选地，在本申请的一个实施例中，所述重建单元包括：估计子单元，用于基于所述最终全局融合三维特征体素，利用所述预设MLP网络中级联的两个MLP层得到估计的占用度栅格和场景TSDF体素；生成子单元，用于根据所述占用度栅格和场景TSDF体素生成所述三维场景重建结果。

本申请第三方面实施例提供一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如上述实施例所述的实时三维场景重建方法。

本申请第四方面实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行，以用于实现如权利要求1-5任一项所述的实时三维场景重建方法。

本申请实施例可以利用三维场景重建网络，基于融合稀疏深度点得到的时空信息，生成三维场景重建结果，充分挖掘视频帧间语义特征的时序联系，同时融合稀疏空间深度信息，使得重建结果更为精确和完整。由此，解决了相关技术中忽视粗略稀疏特征点的深度估计数据，对空间信息的利用不完善，导致三维重建结果连续性、准确性较差，且实用性较差的技术问题。

本申请附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本申请的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为根据本申请实施例提供的一种实时三维场景重建方法的流程图；

图2为根据本申请一个实施例的实时三维场景重建方法的原理示意图；

图3为根据本申请一个实施例的实时三维场景重建方法的局部时空融合模块结构示意图；

图4为根据本申请一个实施例的实时三维场景重建方法的三维重建定性对比；

图5为根据本申请一个实施例与目前几种实时或非实时的端到端三维重建网络的定性、定量结果对比示意图；

图6为根据本申请实施例提供的一种实时三维场景重建装置的结构示意图；

图7为根据本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本申请，而不能理解为对本申请的限制。

下面参考附图描述本申请实施例的实时三维场景重建方法及装置。针对上述背景技术中心提到的相关技术中忽视粗略稀疏特征点的深度估计数据，对空间信息的利用不完善，导致三维重建结果连续性、准确性较差，且实用性较差的技术问题，本申请提供了一种实时三维场景重建方法，在该方法中，可以利用三维场景重建网络，基于融合稀疏深度点得到的时空信息，生成三维场景重建结果，充分挖掘视频帧间语义特征的时序联系，同时融合稀疏空间深度信息，使得重建结果更为精确和完整。由此，解决了相关技术中忽视粗略稀疏特征点的深度估计数据，对空间信息的利用不完善，导致三维重建结果连续性、准确性较差，且实用性较差的技术问题。

具体而言，图1为本申请实施例所提供的一种实时三维场景重建方法的流程示意图。

如图1所示，该实时三维场景重建方法包括以下步骤：

在步骤S101中，获取单目相机的相机内参。

可以理解的是，相机内参是与相机自身特性相关的参数，可以包括内参矩阵和畸变矩阵，把相机坐标系下3D空间点投影到像素坐标系中，本申请实施例可以通过获取单目相机的相机内参K，便于后续进行时空信息融合，实现高精度的三维场景重建。

在步骤S102中，提取单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点。

在实际执行过程中，本申请实施例可以通过给静的单目视频{I_t}，利用VSLAM(Visual Simultaneous Localization and Mapping，视觉同步定位与建模)系统，提取单目相机的目标图片的实际相机位姿{T_t}和带噪音的稀疏深度先验{G_t}，便于后续获取关键帧，进而有利于三维场景的重建。

可选地，在本申请的一个实施例中，分别提取实际相机位姿和稀疏深度点的二维特征之前，还包括：计算稀疏深度点的归一化置信度；将稀疏深度点和归一化置信度投影成对应的稀疏深度图及置信度；由稀疏深度图及置信度得到稀疏深度先验。

可以理解的是，带噪音的稀疏深度先验{G_t}可以包含稀疏深度点{P_t}和对应的重投影误差{E_t}，其中，{P_t}和{E_t}的估计来自于实时VSLAM系统。此外，和{P_t}、{E_t}同时产生的还有本申请实施例的实际相机位姿{T_t}。

由于原始的{E_t}无界，并不适合用神经网络处理，因此本申请实施例可以将计算深度点对应的归一化置信度CO_t＝xp(-λ E_t)作为网络输入，λ为预设的权重，给定相机位姿{T_t}和相机内参K，本申请实施例可以将{P_t}和{CO_t}投影成对应的稀疏深度图{D_t}和对应置信度 {CO′_t}，稀疏深度图{D_t}和对应置信度{CO′_t}的通道合并即为带噪音的稀疏深度先验{G_t}。

在步骤S103中，利用预设三维场景重建网络，基于由相机内参、实际相机位姿和稀疏深度点得到的融合时空信息生成三维场景重建结果。

作为一种可能实现的方式，本申请实施例可以根据相机内参K、实际相机位姿{T_t}和稀疏深度点{P_t}，得到融合时空信息，进而将时空信息输入至预设的三维场景重建网络，生成三维场景重建结果，使得本申请实施例的重建结果更为精确和完整，可以恢复明显的锐利的场景几何特征，极大解决了相关技术太过平滑的问题，并通过有效的时空信息融合机制，有效提升了三维场景重建的完成行，实现目标的完整重建。

需要注意的是，预设的三维场景重建网络会在下文进行详细阐述。

可选地，在本申请的一个实施例中，利用预设三维场景重建网络，基于由相机内参、实际相机位姿和稀疏深度点得到的融合时空信息生成三维场景重建结果，包括：分别提取实际相机位姿和稀疏深度点的二维特征，并分别反投影为对应的初始局部三维特征体素；从稀疏深度点提取空间信息，并融合空间信息和帧间时序特征联系，得到局部融合三维特征体素；将局部融合三维特征体素融合至全局，得到最终的全局融合三维特征体素；基于最终的全局融合三维特征体素利用预设MLP网络得到三维场景重建结果。

在实际执行过程中，本申请实施例可以利用三层“粗糙到精细”构建三维重建网络，如图2所示，其中，三层“粗糙到精细”结构可以包括特征提取模块、局部时空融合模块和全局时空融合模块。

特征提取模块，可以利用基于CNN设计的深度神经网络，分别提取{I_t}和{G_t}的二维特征，反投影成未经处理的三维特征体素

局部时空融合模块，可以收集一个输入片段产生的特征

利用Transformer发掘帧间时序特征联系，同时利用通道间交互机制融合从稀疏深度点提取的空间信息，得到融合三维特征体素

全局时空融合模块，可以使用基于GRU的结构，将局部融合三维特征体素

融合至全局三维特征体素FV^global，利用MLP得到最终的精细TSDF的预测。

从而实现利用低层预测的粗糙结果引导高层精细结果的优化，得到精细、完整的场景三维重建结果。

具体地，特征提取模块中，本申请实施例可以利用基于CNN设计的深度神经网络，分别提取单目视频{I_t}和带噪音的稀疏深度先验{G_t}的二维特征，反投影成未经处理的三维特征体素

具体而言，本申请实施例可以使用基于MnasNet改进的变体提取图像特征F_t,color。对于稀疏深度特征点，本申请实施例可以设计一种轻量级的CNN，由4个卷积层级联而成，输出8通道的隐式稀疏深度特征表示F_t,geo。

需要注意的是，为了配合本申请实施例的三层“粗糙到精细”结构，特征提取部分可以提取3种对应不同分辨率的特征。

反投影后的未经处理的三维特征体素

可以表示为：

其中，Cat表示按照通道进行特征合并，Unproj表示利用相机内参、外参进行从二维到三维的反投影。

可选地，在本申请的一个实施例中，局部融合三维特征体素为：

其中，

为片段特征体素，F为将片段特征体素进行融合的过程，

为得到的局部融合三维特征体素。

进一步地，在局部时空融合模块中，本申请实施例可以收集一个输入片段产生的特征

在相关技术中，片段输入对应的局部三维特征体素由片段直接平均池化得到，即，对于每个体素v_i，

需要注意的是，这种方法建立的特征体素对每帧一视同仁，不能加强对某些对重建质量影响很大的空间结构，如角、垂线、平面等的注意力，也不能够给予更有信息的帧输入在构建特征体素时更大的权重。

另外，由于本申请实施例还涉及对于稀疏深度先验的多模态特征融合，如果采用平均池化，图像纹理特征和稀疏深度特征不能够进行交互融合，从而无法充分利用稀疏深度特征点对重建质量进行有效提升。

考虑到上述不足，本申请实施例可以提出用基于Transformer的结构，引入注意力机制发掘帧间信息时序联系，赋予对重建效果作用更大的帧更强的注意力；同时引入通道间多模态信息交互机制来融合稀疏深度先验信息，进而有效利用稀疏深度特征点来引导场景重建。

利用注意力机制的推理过程可以如下：

Q＝W_qA_in，K＝W_kA_in，V＝W_vA_in，

ω_l＝S oftmax(QK^T)，

A_out＝ω _lV，

其中，ω_l代表注意力权重，A_in、A_out和W_*分别代表输入、输出和注意力模块的可学习参数。

通过对ω_l的学习，本申请实施例可以减弱对重建无必要的特征提取而加强对重要几何结构线索的保留，充分发掘帧间特征的时序联系。

而通过W_v的学习，本申请实施例可以集合图像特征通道和稀疏深度特征通道，实现了不同模态特征的有机融合，充分挖掘了输入的空间特征。

局部时空融合模块的输出局部三维融合特征体素可以为：

其中，

为片段特征体素，F为将片段特征体素进行融合的过程，

为得到的局部融合三维特征体素。。

局部融合模块的设计细节可以如图3所示，本申请实施例输入的片段特征体素

首先进入多头深度注意力层，完成时序信息的融合，然后进入前向传播层完成多模态通道间的特征交互，进行空间特征融合，之后得到时空融合后的高效的三维特征体素表示

有利于更精确的场景三维重建。

可选地，在本申请的一个实施例中，基于最终全局融合三维特征体素利用预设MLP网络得到三维场景重建结果，包括：基于最终全局融合三维特征体素，利用预设MLP网络中级联的两个MLP层得到估计的占用度栅格和场景TSDF体素；根据占用度栅格和场景TSDF 体素生成三维场景重建结果。

在实际执行过程中，全局时空融合模块是实现增量式重建的重要部分，本申请实施例可以利用GRU将局部融合三维特征体素

融合至全局三维特征体素FV^global，随后利用级联的两个MLP层得到估计的占用度栅格O^global和场景TSDF体素

具体地，全局时空融合模块可以利用基于稀疏卷积的GRU，其具体实现，可以基于torchsparse库。

在“粗糙到精细”结构中，最精细的体素分辨率可以为4cm，TSDF截断距离设置可以为 12cm。在底层粗糙的占用度栅格、TSDF体素预测以及对应三维特征体素上采样到顶层精细层的流程中，本申请实施例使用的上采样方法为最近邻插值。

在处理输入过程中，深度值大于3m可以视为无效。

整个网络除了提取二维图像特征的MnasNet是利用在ImageNet上预训练的权重初始化之外，其余部分都随机初始化进行端到端训练，其中，训练使用AdamW优化器，整个神经网络设计实现基于PyTorch。

需要注意的是，本申请实施例减少了GRU模块中稀疏卷积层的个数，可以极大加快网络的运行速度，增强了其实时性，同时对重建质量并无影响。

此外，本申请实施例可以采用监督占用度栅格的二分类交叉熵损失函数以及监督TSDF 值预测的l₁损失函数，两种损失函数都分别应用于“粗糙到精细”结构中的三层网络结构。

下面结合图4和图5所示，对本申请实施例的动力电池云储能系统的梯次利用方法的有效性进行详细阐述。

本申请实施例可以利用利用ScanNet数据集进行结果对比与分析，该数据集包含1713 个室内场景的三维重建数据。

在定性结果方面，如图4所示，与相关技术中的实时三维重建网络相比，本申请实施例的重建结果更为精确和完整，其中左列是相关技术的重建结果，中列是本申请实施例的重建结果，右列是数据集提供的三维重建真实值。本申请实施例的重建结果可以恢复明显的锐利的场景几何特征，如沙发靠背的垂直角以及椅子背的垂直平面，极大解决了相关技术中端到端神经网络重建太过平滑的问题。

另外，之前的三维重建网络重建的完整性较差，而本申请实施例通过有效的时空信息融合机制，很好地提升了三维场景重建的完成行，比如图4所示的桌子腿的完整重建。

本申请实施例定量的结果如表1和表2所示。其中，表1为在ScanNet数据集上的三维重建定量指标表，表2为在ScanNet数据集上的二维深度估计定量指标表。

表1

Method	Comp↓	Ace↓	Recall↑	Prec↑	F-score↑	FPS↑
							MVDepthNet	<u>0.040</u>	0.240	<u>0.831</u>	0.208	0.329	28
GPMVS	0.031	0.879	0.871	0.188	0.304	27
							DPSNet	0.045	0.284	0.793	0.223	0.344	4
COLMAP	0.079	0.135	0.734	0.505	0.558	0.4
							NeuralRecon	0.138	<u>0.053</u>	0.472	<u>0.787</u>	<u>0.559</u>	<u>47</u>
Ours	0.122	0.052	0.505	0.798	0.587	59
							TransformerFusion	0.082	0.055	<u>0.700</u>	0.728	0.755	7
Atlas	0.077	0.071	0.705	0.775	0.737	4
							NeuralRecon	<u>0.075</u>	<u>0.051</u>	0.557	0.707	0.721	<u>47</u>
Ours	0.079	0.050	0.585	<u>0.719</u>	<u>0.745</u>	59

表2

Method	Abs Rel↓	Abs Diff↓	SqRel↓	RMSE↓	δ＜1.25↑
						MVDepthNet	0.098	0.191	0.071	0.293	89.7
GPMVS	0.130	0.239	0.339	0.472	90.7
						DPSNet	0.087	0.158	0.035	0.232	92.5
COLMAP	0.137	0.274	0.138	0.502	83.4
						Atlas	0.075	0.123	0.045	0.251	93.7
NeuralRecon	0.075	0.099	0.034	0.197	93.7
						Ours	0.058	0.089	0.033	0.184	94.2

表1展示了通行的三维重建数值指标，表中上部分的指标与实时增量式三维重建网络中效果最好的工作定义相同，下部分的指标与非实时增量式三维重建网络中效果最好的工作定义相同。其余对比的工作中，MVDepthNet、GPMVS、DPSNet和COLMAP为MVS 方法，Atlas为非实时、非增量式的三维重建端到端网络。

可以发现本申请实施例无论在三维重建指标还是在运行速度上都超过了目前最优秀的实时网络，而与非实时的工作相比也仅仅只有微小的劣势。

表2展示了二维深度估计数值指标，二维深度估计是利用本申请实施例的端到端重建的三维TSDF模型投影会二维进行深度测评的，可见本申请实施例的深度估计性能领先于所有对比的重建方法，包括MVS方法和端到端方法。

本申请实施例与常用的端到端方法的定量、定性总体对比见图5，如图5所示，本申请实施例与目前几种实时或非实时的端到端三维重建网络的定性、定量结果对比，Acc表现三维重建准确程度，FPS表现重建速度。可见本发明从重建质量和速度上都领先于原有的端到端三维重建网络。

根据本申请实施例提出的实时三维场景重建方法，可以利用三维场景重建网络，基于融合稀疏深度点得到的时空信息，生成三维场景重建结果，充分挖掘视频帧间语义特征的时序联系，同时融合稀疏空间深度信息，使得重建结果更为精确和完整。由此，解决了相关技术中忽视粗略稀疏特征点的深度估计数据，对空间信息的利用不完善，导致三维重建结果连续性、准确性较差，且实用性较差的技术问题。

其次参照附图描述根据本申请实施例提出的实时三维场景重建装置。

图6是本申请实施例的实时三维场景重建装置的方框示意图。

如图6所示，该实时三维场景重建装置10包括：获取模块100、提取模块200和重建模块300。

具体地，获取模块100，用于获取单目相机的相机内参。

提取模块200，用于提取单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点。

重建模块300，用于利用预设三维场景重建网络，基于由相机内参、实际相机位姿和稀疏深度点得到的融合时空信息生成三维场景重建结果。

可选地，在本申请的一个实施例中，重建模块300包括：提取单元、第一同和单元、第二融合单元和重建单元。

其中，提取单元，用于分别提取实际相机位姿和稀疏深度点的二维特征，并分别反投影为对应的初始局部三维特征体素。

第一融合单元，用于从稀疏深度点提取空间信息，并融合空间信息和帧间时序特征联系，得到局部融合三维特征体素。

第二融合单元，用于将局部融合三维特征体素融合至全局，得到最终的全局融合三维特征体素。

重建单元，用于基于最终的全局融合三维特征体素利用预设MLP网络得到三维场景重建结果。

可选地，在本申请的一个实施例中，重建模块300还包括：第一计算单元、投影单元和第二计算单元。

其中，第一计算单元，用于计算稀疏深度点的归一化置信度。

投影单元，用于将稀疏深度点和归一化置信度投影成对应的稀疏深度图及置信度。

第二计算单元，用于由稀疏深度图及置信度得到稀疏深度先验。

其中，

为片段特征体素，F为将片段特征体素进行融合的过程，

为得到的局部融合三维特征体素。

可选地，在本申请的一个实施例中，重建单元包括：估计子单元和生成子单元。

其中，估计子单元，用于基于最终全局融合三维特征体素，利用预设MLP网络中级联的两个MLP层得到估计的占用度栅格和场景TSDF体素。

生成子单元，用于根据占用度栅格和场景TSDF体素生成三维场景重建结果。

需要说明的是，前述对实时三维场景重建方法实施例的解释说明也适用于该实施例的实时三维场景重建装置，此处不再赘述。

根据本申请实施例提出的实时三维场景重建装置，可以利用三维场景重建网络，基于融合稀疏深度点得到的时空信息，生成三维场景重建结果，充分挖掘视频帧间语义特征的时序联系，同时融合稀疏空间深度信息，使得重建结果更为精确和完整。由此，解决了相关技术中忽视粗略稀疏特征点的深度估计数据，对空间信息的利用不完善，导致三维重建结果连续性、准确性较差，且实用性较差的技术问题。

图7为本申请实施例提供的电子设备的结构示意图。该电子设备可以包括：

存储器701、处理器702及存储在存储器701上并可在处理器702上运行的计算机程序。

处理器702执行程序时实现上述实施例中提供的实时三维场景重建方法。

进一步地，电子设备还包括：

通信接口703，用于存储器701和处理器702之间的通信。

存储器701，用于存放可在处理器702上运行的计算机程序。

存储器701可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。

如果存储器701、处理器702和通信接口703独立实现，则通信接口703、存储器701和处理器702可以通过总线相互连接并完成相互间的通信。总线可以是工业标准体系结构(Industry Standard Architecture，简称为ISA)总线、外部设备互连(PeripheralComponent，简称为PCI)总线或扩展工业标准体系结构(Extended Industry StandardArchitecture，简称为EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图7中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

可选的，在具体实现上，如果存储器701、处理器702及通信接口703，集成在一块芯片上实现，则存储器701、处理器702及通信接口703可以通过内部接口完成相互间的通信。

处理器702可能是一个中央处理器(Central Processing Unit，简称为CPU)，或者是特定集成电路(Application Specific Integrated Circuit，简称为ASIC)，或者是被配置成实施本申请实施例的一个或多个集成电路。

本实施例还提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上的实时三维场景重建方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本申请的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或N个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本申请各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本申请的限制，本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种实时三维场景重建方法，其特征在于，包括以下步骤：

获取单目相机的相机内参；

提取所述单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点；以及

利用预设三维场景重建网络，基于由所述相机内参、所述实际相机位姿和所述稀疏深度点得到的融合时空信息生成三维场景重建结果，包括：分别提取所述实际相机位姿和所述稀疏深度点的二维特征，并分别反投影为对应的初始局部三维特征体素；从所述稀疏深度点提取空间信息，并融合所述空间信息和帧间时序特征联系，得到局部融合三维特征体素；将所述局部融合三维特征体素融合至全局，得到最终的全局融合三维特征体素；基于所述最终的全局融合三维特征体素利用预设MLP网络得到所述三维场景重建结果，利用三层粗糙到精细构建三维重建网络，其中，三层粗糙到精细结构包括特征提取模块、局部时空融合模块和全局时空融合模块；

所述特征提取模块，利用基于CNN设计的深度神经网络，分别提取单目视频{I_t}和带噪音的稀疏深度先验{G_t}的二维特征，反投影成未经处理的三维特征体素

反投影后的未经处理的三维特征体素表示为

Cat表示按照通道进行特征合并，Unproj表示利用相机内参、外参进行从二维到三维的反投影；其中，通过给定的单目视频{I_t}，利用VSLAM系统，提取单目相机的目标图片的实际相机位姿{T_t}和带噪音的稀疏深度先验{G_t}；所述带噪音的稀疏深度先验{G_t}包含稀疏深度点{P_t}和对应的重投影误差{E_t}；

所述局部时空融合模块，收集一个输入片段产生的特征

其中，

为片段特征体素，F为将片段特征体素进行融合的过程，

为得到的局部融合三维特征体素；

所述全局时空融合模块，使用基于GRU的结构，将局部融合三维特征体素

融合至全局三维特征体素FV^global，利用级联的两个MLP层得到估计的占用度栅格O^global和场景TSDF体素

根据所述占用度栅格O^global和所述场景TSDF体素

生成所述三维场景重建结果。

2.根据权利要求1所述的方法，其特征在于，分别提取所述实际相机位姿和所述稀疏深度点的二维特征之前，还包括：

计算所述稀疏深度点的归一化置信度；

将所述稀疏深度点和所述归一化置信度投影成对应的稀疏深度图及置信度；

由所述稀疏深度图及置信度得到所述稀疏深度先验。

3.一种实时三维场景重建装置，其特征在于，包括：

获取模块，用于获取单目相机的相机内参；

提取模块，用于提取所述单目相机的目标图片的实际相机位姿和由稀疏深度先验得到的稀疏深度点；以及

重建模块，用于利用预设三维场景重建网络，基于由所述相机内参、所述实际相机位姿和所述稀疏深度点得到的融合时空信息生成三维场景重建结果，包括：分别提取所述实际相机位姿和所述稀疏深度点的二维特征，并分别反投影为对应的初始局部三维特征体素；从所述稀疏深度点提取空间信息，并融合所述空间信息和帧间时序特征联系，得到局部融合三维特征体素；将所述局部融合三维特征体素融合至全局，得到最终的全局融合三维特征体素；基于所述最终的全局融合三维特征体素利用预设MLP网络得到所述三维场景重建结果，利用三层粗糙到精细构建三维重建网络，其中，三层粗糙到精细结构包括特征提取模块、局部时空融合模块和全局时空融合模块；

反投影后的未经处理的三维特征体素表示为

所述局部时空融合模块，收集一个输入片段产生的特征

其中，

为片段特征体素，F为将片段特征体素进行融合的过程，

为得到的局部融合三维特征体素；

所述全局时空融合模块，使用基于GRU的结构，将局部融合三维特征体素FV_l ^frag融合至全局三维特征体素FV^global，利用级联的两个MLP层得到估计的占用度栅格O^global和场景TSDF体素TSDF_l ^global；根据所述占用度栅格O^global和所述场景TSDF体素TSDF_l ^global生

成所述三维场景重建结果。

4.根据权利要求3所述的装置，其特征在于，所述重建模块还包括：

第一计算单元，用于计算所述稀疏深度点的归一化置信度；

投影单元，用于将所述稀疏深度点和所述归一化置信度投影成对应的稀疏深度图及置信度；

第二计算单元，用于由所述稀疏深度图及置信度得到稀疏深度先验。

5.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1或2所述的实时三维场景重建方法。

6.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1或2所述的实时三维场景重建方法。