CN113870413A

CN113870413A - 三维重建方法、装置、电子设备及存储介质

Info

Publication number: CN113870413A
Application number: CN202110936712.4A
Authority: CN
Inventors: 陈天
Original assignee: Beijing Dajia Internet Information Technology Co Ltd
Current assignee: Beijing Dajia Internet Information Technology Co Ltd
Priority date: 2021-08-16
Filing date: 2021-08-16
Publication date: 2021-12-31

Abstract

本公开关于一种三维重建方法、装置、电子设备及存储介质，其中方法通过获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，以及获取采集待重建图像的图像采集设备的位姿信息，并根据位姿信息以及每一帧待重建图像的深度图将待重建图像的像素点投影至已进行空间体素块划分的三维空间，得到每一帧待重建图像的若干个体素块，并获取每一帧待重建图像中每个体素块的体素特征值，进而进行面元提取，以得到每一帧待重建图像对应的三维重建图像。由于在上述三维重建的过程中，通过位置预测网络估计每一帧待重建图像的深度图和分割图，从而不依赖于深度传感器，且通过空间体素划分进行面元提取，能够实现高质量的曲面建模。

Description

三维重建方法、装置、电子设备及存储介质

技术领域

本公开涉及计算机技术领域，尤其涉及一种三维重建方法、装置、电子设备及存储介质。

背景技术

三维重建(3D Reconstruction)是指对三维物体建立适合计算机表示和处理的数学模型，是在计算机环境下对其进行处理、操作和分析其性质的基础，也是在计算机中建立表达客观世界的虚拟现实的关键技术。

随着制造和增强虚拟现实、游戏和机器人等应用程序的普及，大规模实时三维重建需求得到极大提升。在这些任务中，用户或机器人实时扫描空间，将累积的三维信息即时连续地集成到所需的应用程序中，从而在实物映射至虚拟世界的过程中立即提供用户反馈。尽管现有很多三维重建系统，但大部分三维重建技术是需要在PC端利用GPU实现大规模的并行计算操作从而满足实时性的要求，而在少数针对于移动端的三维重建技术中，则需要依赖于移动终端的深度传感器采集深度图实现三维重建。因此，目前亟需一种不依赖于移动终端的深度传感器且能实现高质量的三维重建技术。

发明内容

本公开提供一种三维重建方法、装置、电子设备及存储介质，以至少解决相关技术中三维重建技术在移动端的发展受限的问题。本公开的技术方案如下：

根据本公开实施例的第一方面，提供一种三维重建方法，包括：

获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，以及获取采集所述待重建图像的图像采集设备的位姿信息；

根据所述位姿信息以及每一帧待重建图像的深度图将所述待重建图像的像素点投影至已进行空间体素块划分的三维空间，得到每一帧待重建图像的若干个体素块；

基于每一帧待重建图像的每个体素块对应的像素点的深度值以及所述体素块的投影深度，获取每一帧待重建图像中每个体素块的体素特征值；

根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值进行面元提取，得到每一帧所述待重建图像对应的三维重建图像。

在其中一个实施例中，所述体素特征值包括初始体素值和预设的初始权重值；所述基于每一帧待重建图像的每个体素块对应的像素点的深度值以及所述体素块的投影深度，获取每一帧待重建图像中每个体素块的体素特征值，包括：基于每一帧待重建图像的每个体素块对应的像素点的深度值与所述体素块的投影深度之间的差值，确定对应体素块的初始体素值；根据每一帧待重建图像中每个体素块的初始体素值和预设的初始权重值，更新所述待重建图像中对应体素块的体素特征值。

在其中一个实施例中，所述根据每一帧待重建图像中每个体素块的初始体素值和预设的初始权重值，更新所述待重建图像中对应体素块的体素特征值，包括：基于所述待重建图像中每个体素块的初始体素值和预设的初始权重值，以及与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值，采用基于截断的带符号距离函数获取所述待重建图像中每个体素块的体素更新值；以及，基于所述待重建图像中每个体素块预设的初始权重值以及与所述待重建图像相邻的上一帧图像中对应体素块的权重值，获取所述待重建图像中每个体素块的权重更新值。

在其中一个实施例中，若与所述待重建图像相邻的上一帧图像为首帧图像，则与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值包括所述体素块的初始体素值以及预设的初始权重值，所述对应体素块的权重值为预设的初始权重值；若与所述待重建图像相邻的上一帧图像不是首帧图像，则与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值包括所述体素块的体素更新值以及权重更新值，所述对应体素块的权重值为相应的权重更新值。

在其中一个实施例中，所述得到每一帧所述待重建图像对应的三维重建图像之后，所述方法还包括：基于每一帧所述待重建图像对应的三维重建图像，采用空间哈希函数对与所述三维重建图像对应的体素块的位置进行编码存储。

在其中一个实施例中，所述位置预测网络包括深度估计网络和平面分割网络；所述获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，包括：采用所述深度估计网络对每一帧待重建图像进行深度检测，得到与待重建图像对应的深度图和法线；将每一帧待重建图像的深度图和对应的法线输入所述平面分割网络，得到每一帧待重建图像对应的分割图。

在其中一个实施例中，所述获取采集所述待重建图像的图像采集设备的位姿信息，包括：对与所述待重建图像相邻的上一帧图像进行特征点提取，基于初始位姿信息对提取的所述特征点在所述待重建图像中进行特征点跟踪，得到所述待重建图像中所述特征点的第一坐标信息；根据所述上一帧图像对应的深度图确定所述上一帧图像提取的特征点对应的空间坐标，将所述空间坐标重投影到所述待重建图像中，得到所述待重建图像中所述特征点的第二坐标信息；根据所述第一坐标信息以及所述第二坐标信息进行位姿优化求解，得到所述位姿信息。

在其中一个实施例中，所述根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值进行面元提取，得到每一帧所述待重建图像对应的三维重建图像，包括：根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值，获取与所述体素块相交的面元；基于所述面元、以及所述面元与所述体素块相交的交点，确定所述面元的法线；根据所述面元以及所述面元的法线，得到每一帧所述待重建图像对应的三维重建图像。

在其中一个实施例中，所述获取与所述体素块相交的面元之前，所述方法还包括：基于每一帧待重建图像的深度图，将深度值相同的若干个相邻体素块投影到平面中，得到若干个相邻体素块的平面投影坐标；若所述平面投影坐标均位于所述分割图中对应的一个平面中，则合并所述若干个相邻体素块。

在其中一个实施例中，所述获取与所述体素块相交的面元，包括：基于合并后的体素块获取对应的体素特征值，采用移动立方体算法获取与所述合并后的体素块相交的面元。

根据本公开实施例的第二方面，提供一种三维重建装置，包括：

获取模块，被配置为执行获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，以及获取采集所述待重建图像的图像采集设备的位姿信息；

体素投影模块，被配置为执行根据所述位姿信息以及每一帧待重建图像的深度图将所述待重建图像的像素点投影至已进行空间体素块划分的三维空间，得到每一帧待重建图像的若干个体素块；

体素特征值确定模块，被配置为执行基于每一帧待重建图像的每个体素块对应的像素点的深度值以及所述体素块的投影深度，获取每一帧待重建图像中每个体素块的体素特征值；

面元提取模块，被配置为执行根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值进行面元提取，得到每一帧所述待重建图像对应的三维重建图像。

在其中一个实施例中，所述体素特征值包括初始体素值和预设的初始权重值；所述体素特征值确定模块包括：初始体素值计算单元，被配置为执行基于每一帧待重建图像的每个体素块对应的像素点的深度值与所述体素块的投影深度之间的差值，确定对应体素块的初始体素值；体素特征值更新单元，被配置为执行根据每一帧待重建图像中每个体素块的初始体素值和预设的初始权重值，更新所述待重建图像中对应体素块的体素特征值。

在其中一个实施例中，所述体素特征值更新单元被配置为执行：基于所述待重建图像中每个体素块的初始体素值和预设的初始权重值，以及与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值，采用基于截断的带符号距离函数获取所述待重建图像中每个体素块的体素更新值；以及，基于所述待重建图像中每个体素块预设的初始权重值以及与所述待重建图像相邻的上一帧图像中对应体素块的权重值，获取所述待重建图像中每个体素块的权重更新值。

在其中一个实施例中，所述装置还包括编码存储模块，被配置为执行：基于每一帧所述待重建图像对应的三维重建图像，采用空间哈希函数对与所述三维重建图像对应的体素块的位置进行编码存储。

在其中一个实施例中，所述位置预测网络包括深度估计网络和平面分割网络；所述获取模块被配置为执行：采用所述深度估计网络对每一帧待重建图像进行深度检测，得到与待重建图像对应的深度图和法线；将每一帧待重建图像的深度图和对应的法线输入所述平面分割网络，得到每一帧待重建图像对应的分割图。

在其中一个实施例中，所述获取模块还被配置为执行：对与所述待重建图像相邻的上一帧图像进行特征点提取，基于初始位姿信息对提取的所述特征点在所述待重建图像中进行特征点跟踪，得到所述待重建图像中所述特征点的第一坐标信息；根据所述上一帧图像对应的深度图确定所述上一帧图像提取的特征点对应的空间坐标，将所述空间坐标重投影到所述待重建图像中，得到所述待重建图像中所述特征点的第二坐标信息；根据所述第一坐标信息以及所述第二坐标信息进行位姿优化求解，得到所述位姿信息。

在其中一个实施例中，所述面元提取模块被配置为执行：根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值，获取与所述体素块相交的面元；基于所述面元、以及所述面元与所述体素块相交的交点，确定所述面元的法线；根据所述面元以及所述面元的法线，得到每一帧所述待重建图像对应的三维重建图像。

在其中一个实施例中，所述面元提取模块还被配置为执行：基于每一帧待重建图像的深度图，将深度值相同的若干个相邻体素块投影到平面中，得到若干个相邻体素块的平面投影坐标；若所述平面投影坐标均位于所述分割图中对应的一个平面中，则合并所述若干个相邻体素块；基于合并后的体素块获取对应的体素特征值，采用移动立方体算法获取与所述合并后的体素块相交的面元。

根据本公开实施例的第三方面，提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，使得电子设备执行第一方面的任一项实施例中所述的三维重建方法。

根据本公开实施例的第四方面，提供一种存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行第一方面的任一项实施例中所述的三维重建方法。

根据本公开实施例的第五方面，提供一种计算机程序产品，所述程序产品包括计算机程序，所述计算机程序存储在可读存储介质中，设备的至少一个处理器从所述可读存储介质读取并执行所述计算机程序，使得设备执行第一方面的任一项实施例中所述的三维重建方法。

本公开的实施例提供的技术方案至少带来以下有益效果：通过获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，以及获取采集待重建图像的图像采集设备的位姿信息，并根据位姿信息以及每一帧待重建图像的深度图将待重建图像的像素点投影至已进行空间体素块划分的三维空间，得到每一帧待重建图像的若干个体素块，基于每一帧待重建图像的每个体素块对应的像素点的深度值以及体素块的投影深度，获取每一帧待重建图像中每个体素块的体素特征值，进而根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值进行面元提取，以得到每一帧待重建图像对应的三维重建图像。由于在上述三维重建的过程中，通过位置预测网络估计每一帧待重建图像的深度图和分割图，从而不依赖于深度传感器，且通过空间体素划分进行面元提取，能够实现高质量的曲面建模，进而有利于三维重建技术在移动终端的发展。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理，并不构成对本公开的不当限定。

图1是根据一示例性实施例示出的一种三维重建方法的流程图。

图2是根据一示例性实施例示出的获取体素块的体素特征值的步骤示意图。

图3是根据一示例性实施例示出的另一种三维重建方法的流程图。

图4是根据一示例性实施例示出的获取深度图和分割图的步骤示意图。

图5是根据一示例性实施例示出的获取深度图和分割图具体场景示意图。

图6是根据一示例性实施例示出的获取位姿信息的具体场景示意图。

图7是根据一示例性实施例示出的面元提取的步骤示意图。

图8是根据一示例性实施例示出的面元基本模式示意图。

图9是根据一示例性实施例示出的又一种三维重建方法的流程图。

图10是根据一示例性实施例示出的一种三维重建装置的框图。

图11是根据一示例性实施例示出的一种电子设备的框图。

具体实施方式

为了使本领域普通人员更好地理解本公开的技术方案，下面将结合附图，对本公开实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开所提供的三维重建方法，可以应用于终端，也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。

图1是根据一示例性实施例示出的一种三维重建方法的流程图，如图1所示，包括以下步骤。

在步骤S110中，获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，以及获取采集待重建图像的图像采集设备的位姿信息。

其中，位置预测网络是能够进行前向检测的深度学习网络，例如，具体可以是卷积神经网络。待重建图像是指待进行三维重建的图像，可以是实时拍摄的图像，也可以是从实时拍摄的视频数据中获取的图像帧，还可以是保存在本地或服务器中的静态图像，本实施例中并不对此进行限定。深度图是指图像的每一个像素值表示场景中某点与对应图像采集设备之间的距离。分割图是基于图像中每一个像素的投影状态确定的平面二值化图，例如，若某一像素的投影位于平面中，则在分割图中其对应的值由1表示，若某一像素的投影不在平面中，则在分割图中其对应的值由0表示。图像采集设备的位姿信息是基于图像采集设备采集的若干图像估计的图像采集设备的运动信息。由于实时稠密的深度估计是MR(MixedReality，混合现实技术)实现沉浸感交互的先决条件，而通过添加深度传感器获取深度图的方式又限制了三维重建技术在移动终端的发展，基于此，在本实施例中，当要进行三维重建时，则首先基于位置预测网络获取每一帧待重建图像的深度图和分割图，以及获取采集待重建图像的图像采集设备的位姿信息，并采用后续步骤完成三维重建。

在步骤S120中，根据位姿信息以及每一帧待重建图像的深度图将待重建图像的像素点投影至已进行空间体素块划分的三维空间，得到每一帧待重建图像的若干个体素块。

其中，已进行空间体素块划分的三维空间是指对三维空间每立方米进行N*N*N的网格划分。具体地，在本实施例中，根据上述获取的位姿信息以及每一帧待重建图像的深度图，将待重建图像的像素点投影至已进行空间体素块划分的三维空间，从而得到每一帧待重建图像投影后对应的若干个体素块。

在步骤S130中，基于每一帧待重建图像的每个体素块对应的像素点的深度值以及体素块的投影深度，获取每一帧待重建图像中每个体素块的体素特征值。

其中，像素点的深度值是指对应于深度图中，该像素点与对应图像采集设备之间的距离。体素块的投影深度是指体素块投影后与对应图像采集设备之间的距离。体素特征值是基于TSDF(truncated signed distance function，带符号的截断距离函数)算法表达图像真实场景表面区域的参数。在本实施例中，可以基于每一帧待重建图像的每个体素块对应的像素点的深度值以及体素块的投影深度，通过数学计算而得到每一帧待重建图像中每个体素块的体素特征值。

在步骤S140中，根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值进行面元提取，得到每一帧待重建图像对应的三维重建图像。

面元是将物体表面或机翼中弧面等特征面进行离散，生成网格后对每个网格，用一个平面或曲面代替原来的物面称为面元，在本实施例中，面元是基于真实场景描述待重建图像表面区域的平面或曲面。具体地，根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值进行面元提取，从而得到每一帧待重建图像对应的三维重建图像。

上述三维重建方法中，通过获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，以及获取采集待重建图像的图像采集设备的位姿信息，并根据位姿信息以及每一帧待重建图像的深度图将待重建图像的像素点投影至已进行空间体素块划分的三维空间，得到每一帧待重建图像的若干个体素块，基于每一帧待重建图像的每个体素块对应的像素点的深度值以及体素块的投影深度，获取每一帧待重建图像中每个体素块的体素特征值，进而根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值进行面元提取，以得到每一帧待重建图像对应的三维重建图像。由于在上述三维重建的过程中，通过位置预测网络估计每一帧待重建图像的深度图和分割图，从而不依赖于深度传感器，且通过空间体素划分进行面元提取，能够实现高质量的曲面建模。

在一示例性实施例中，体素特征值包括初始体素值和预设的初始权重值，如图2所示，在步骤S130中，基于每一帧待重建图像的每个体素块对应的像素点的深度值以及体素块的投影深度，获取每一帧待重建图像中每个体素块的体素特征值，具体可以通过以下步骤实现：

在步骤S210中，基于每一帧待重建图像的每个体素块对应的像素点的深度值与体素块的投影深度之间的差值，确定对应体素块的初始体素值。

其中，预设的初始权重值可以是预先设置的固定值，通常设置为1。初始体素值是基于待重建图像本身的特征确定的初始TSDF值，具体地，在本实施例中，通过计算每一帧待重建图像的每个体素块对应的像素点的深度值与体素块的投影深度之间的差值，从而将该差值确定为对应体素块的初始体素值。

在步骤S220中，根据每一帧待重建图像中每个体素块的初始体素值和预设的初始权重值，更新待重建图像中对应体素块的体素特征值。

其中，更新待重建图像中对应体素块的体素特征值，是综合考虑待重建图像的特征以及与该待重建图像相邻的上一帧图像的特征，而确定该待重建图像中每个体素块的融合TSDF值的过程。在本实施例中，通过更新待重建图像中对应体素块的体素特征值，可以得到待重建图像中对应体素块的体素更新值和权重更新值。

上述实施例中，基于每一帧待重建图像的每个体素块对应的像素点的深度值与体素块的投影深度之间的差值，确定对应体素块的初始体素值，进而根据每一帧待重建图像中每个体素块的初始体素值和预设的初始权重值，更新待重建图像中对应体素块的体素特征值，也即对待重建图像中每个体素块的TSDF值进行融合更新，从而得到高质量的稠密表面，有利于实现连续曲面的建模。

在一示例性实施例中，在步骤S220中，根据每一帧待重建图像中每个体素块的初始体素值和预设的初始权重值，更新待重建图像中对应体素块的体素特征值，具体包括：基于待重建图像中每个体素块的初始体素值和预设的初始权重值，以及与待重建图像相邻的上一帧图像中对应体素块的体素特征值，采用基于截断的带符号距离函数获取待重建图像中每个体素块的体素更新值；以及，基于待重建图像中每个体素块预设的初始权重值以及与待重建图像相邻的上一帧图像中对应体素块的权重值，获取待重建图像中每个体素块的权重更新值。其中，上一帧图像中对应体素块的体素特征值包括对应体素块的体素值和权重值，需要说明的是，若与待重建图像相邻的上一帧图像为首帧图像(也即该上一帧图像为第一帧图像)，则该上一帧图像中对应体素块的体素特征值中的体素值为对应的初始体素值，其权重值为对应的初始权重值；若与待重建图像相邻的上一帧图像不是首帧图像，则该上一帧图像中对应体素块的体素特征值中的体素值为对应的体素更新值，其权重值为对应的权重更新值。

举例来说，对于待重建图像i中的体素块x，若该体素块x的初始体素值为tsdf_i(x),预设的初始权重值为w_i(x),与待重建图像i相邻的上一帧图像(i-1)中对应体素块x的体素值为TSDF_i-1(x),对应的权重值为W_i-1(x)，则采用如下基于截断的带符号距离函数计算待重建图像i中的体素块x的体素更新值TSDF_i(x)：

采用如下公式计算待重建图像i中的体素块x的权重更新值W_i(x)：

W_i(x)＝W_i-1(x)+w_i(x)

上述实施例中，基于待重建图像中每个体素块的初始体素值和预设的初始权重值，以及与待重建图像相邻的上一帧图像中对应体素块的体素特征值，采用基于截断的带符号距离函数计算待重建图像中每个体素块的体素更新值，从而实现对待重建图像中每个体素块的体素值进行融合更新。

进而基于待重建图像中每个体素块预设的初始权重值以及与待重建图像相邻的上一帧图像中对应体素块的权重值，获取待重建图像中每个体素块的权重更新值，从而实现对待重建图像中每个体素块的权重值进行融合更新。使得待重建图像中每个体素块的体素特征都融合了上一帧图像中对应体素块的体素特征，也即融合了不同角度的信息，从而能够减小噪声，有利于提高三维重建的精确度。

在一示例性实施例中，如图3所示，在步骤S140中，得到每一帧待重建图像对应的三维重建图像之后，上述方法还可以包括：

在步骤S150中，基于每一帧待重建图像对应的三维重建图像，采用空间哈希函数对与三维重建图像对应的体素块的位置进行编码存储。

其中，体素块的位置是指体素块的坐标位置，具体地，可以是体素块某一顶点的坐标位置，例如，体素块左下角顶点的坐标位置。在本实施例中，若与待重建图像对应的三维重建图像中某一体素块左下角顶点的坐标位置为(x,y,z)，则使用空间哈希函数f(x)对其进行编码表示如下：

f(x)＝(x×73856093^y×19349669^z×83492791)％N

其中，N为哈希表的长度，与坐标位置相乘的常数为经验值。在本实施例中，通过使用空间哈希函数对与待重建图像对应的三维重建图像中的每个体素块的坐标位置进行编码存储，从而能够优化存储和计算内存。

在一示例性实施例中，位置预测网络包括深度估计网络和平面分割网络，则如图4所示，在步骤S110中，获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，具体包括：

在步骤S410中，采用深度估计网络对每一帧待重建图像进行深度检测，得到与待重建图像对应的深度图和法线。

其中，深度估计网络是能够进行前向检测的深度学习网络，具体地，其可以是卷积神经网络。深度图是指图像的每一个像素值表示场景中某点与对应图像采集设备之间的距离。法线则是指垂直于深度图中各像素点的切线分别对应的线。在本实施例中，通过深度估计网络对每一帧待重建图像进行深度检测，从而得到对应待重建图像的深度图以及法线。

在步骤S420中，将每一帧待重建图像的深度图和对应的法线输入平面分割网络，得到每一帧待重建图像对应的分割图。

其中，平面分割网络也是能够进行前向检测的深度学习网络，具体地，其也可以是卷积神经网络。在本实施例中，基于深度估计网络估计的深度图和法线，将其输入平面分割网络，从而得到每一帧待重建图像对应的分割图。

具体地，如图5所示，由于深度图是指图像的每一个像素值表示场景中某点与对应图像采集设备之间的距离，因此，深度图中像素点的深度值可以基于深度估计网络预测的深度与深度样本图(即图中的深度gt)计算得到的深度损失进行监督。而分割图是基于图像中每一个像素的投影状态确定的平面二值化图，因此，对于深度图中的任意位置，将其对应的深度和法线输入平面分割网络，可以得到其对应的平面分割信息。例如，若某一像素的投影位于平面中，则在分割图中其对应的值由1表示，若某一像素的投影不在平面中，则在分割图中其对应的值由0表示。在本实施例中，分割图中的平面分割信息也可以基于平面分割网络预测的分割信息与平面样本图(即图中的平面gt)计算得到的平面分割损失进行监督。

上述实施例中，通过采用深度估计网络对每一帧待重建图像进行深度检测，得到与待重建图像对应的深度图和法线，并将每一帧待重建图像的深度图和对应的法线输入平面分割网络，得到每一帧待重建图像对应的分割图，从而不依赖于深度传感器，无需额外引入高端的图像采集设备，提高了三维重建的应用范围。

在一示例性实施例中，获取采集待重建图像的图像采集设备的位姿信息，具体包括：对与待重建图像相邻的上一帧图像进行特征点提取，基于初始位姿信息对提取的特征点在待重建图像中进行特征点跟踪，得到待重建图像中特征点的第一坐标信息。根据上一帧图像对应的深度图确定上一帧图像提取的特征点对应的空间坐标，将空间坐标重投影到待重建图像中，得到待重建图像中特征点的第二坐标信息。根据第一坐标信息以及第二坐标信息进行位姿优化求解，得到图像采集设备的位姿信息。其中，初始位姿信息是基于图像采集设备的IMU(Inertial measurement unit，惯性测量单元)得到，通常，对于每一帧待重建图像，都有一个对应的IMU读数。

具体地，如图6所示，I_j为待重建图像，I_i为与该待重建图像I_j相邻的上一帧图像，则对图像I_i进行特征提取，若提取的特征点包括a1、a2以及a3，则基于初始位姿信息对提取的特征点a1、a2以及a3在待重建图像I_j中进行特征点跟踪，从而得到待重建图像I_j中相应特征点的第一坐标信息，如I_j中的a1’、a2’以及a3’。进而根据上一帧图像I_i对应的深度图I_id确定图像I_i提取的特征点a1、a2以及a3对应的空间坐标a1_t、a2_t和a3_t，将空间坐标a1_t、a2_t和a3_t重投影到待重建图像I_j中，从而得到待重建图像I_j中相应特征点的第二坐标信息，如I_j中的a1”、a2”以及a3”。进而根据第一坐标信息a1’、a2’以及a3’以及第二坐标信息a1”、a2”以及a3”进行位姿优化求解，具体可以采用PnP(Perspective-n-Point，求解3D到2D点对运动的方法)算法进行优化求解，即通过最小化a1”、a2”以及a3”与对应a1’、a2’以及a3’之间的距离，从而得到图像采集设备的位姿信息，其在不依赖于时间相干性的情况下，实现了鲁棒的重定位方式。

在一示例性实施例中，如图7所示，在步骤S140中，根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值进行面元提取，得到每一帧待重建图像对应的三维重建图像，具体包括：

在步骤S710中，根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值，获取与体素块相交的面元。

在本实施例中，可以采用移动立方体(marching cube)算法获取与待重建图像中体素块相交的面元。具体地，对于每个体素块来说，其每个顶点具有两种情况，即顶点高于等值在表面的内部，或顶点低于等值在表面的外部，而一个体素块具有8个顶点，则其存在256种情况。又由于考虑到旋转对称性，因此，对这256种情况进行重新分类后，则可以得到如图8所示的15种基本模式。例如，在本实施例中，根据体素块的每个顶点的体素特征值的正负状态，来确定对应的模式，如图8中第一种模式，表示体素块中各顶点的体素特征值均为负值，也即该体素块的内部不存在等值面；对于图8中的第二种模式，表示体素块的各顶点中存在一个顶点(即图中实心圆点所在的顶点)的体素特征值为正值，其他顶点的体素特征值均为负值，表示在该种模式中体素块的内部存在至少一个等值面(即图中对应的小三角形，也就是与体素块相交的面元)，其他模式以此类推，此处不再一一赘述。

在本实施例中，为了便于快速确定待重建图像中体素块属于何种模式，可以根据如图8所示的每种模式中每个顶点的状态，预先将这15种模式编码成体素状态表，从而可以根据当前体素块的顶点状态索引快速计算出体素内部的等值面与边的位置关系，即得到边的交叉情况，也即确定哪些边上有交点。进而基于对各交点进行连线而得到逼近等值面的近似面元，也即得到与体素块相交的面元(如图8中体素块内部的阴影小三角形)。

在一示例性实施例中，还可以基于每一帧待重建图像的深度图，将深度值相同的若干个相邻体素块投影到平面中，从而得到若干个相邻体素块的平面投影坐标，如果得到的若干个相邻体素块的平面投影坐标均位于分割图中对应的一个平面中，则合并该若干个相邻体素块，进而基于合并后的体素块获取对应的体素特征值，并采用上述移动立方体算法获取与合并后的体素块相交的面元。在本实施例中，通过对体素块的合并，可以删除细粒度的体素特征，而输出不同大小的三角面元，以进一步提高存储和计算效率。

在步骤S720中，基于面元、以及面元与体素块相交的交点，确定面元的法线。

又由于每个体素块内最多有1至4个三角面元，因此，基于体素块内的每个面元，以及每个面元与体素块相交的交点(即每个面元的顶点)，通过法线计算公式即可得到每个面元的法线。

在步骤S730中，根据面元以及面元的法线，得到每一帧待重建图像对应的三维重建图像。

具体地，基于上述得到的面元以及面元的法线，即得到了能够表示待重建图像全局的稠密表面，因此，基于该稠密表面进行三维重建，则可以得到待重建图像对应的三维重建图像。由于采用上述实施例的方法提取面元，不仅能够保留全局结构，且具有较高的局部精度，因此，其对应的三维重建图像能够很好的反应全局特征及局部特征，从而提高了三维重建图像的质量。

在一示例性实施例中，以下结合图9进一步说明本申请的三维重建方法，具体实现如下所示：

1)数据获取部分：基于深度估计网络得到每一帧待重建图像的深度图，深度图中包括每一像素点对应的深度值；基于平面分割网络，得到每一帧待重建图像对应的平面分割图；基于每一帧待重建图像与图像采集设备的IMU，得到图像采集设备的位姿估计。具体可参考如图4、图5以及图6对应的实施例，本实施例中不再对此进行赘述。

2)基于上述得到的深度值以及位姿估计，进行点云前处理，例如进行统计滤波处理、置信度筛选处理以及点云平滑处理等，从而得到映射到三维空间的点云图。

3)基于三维空间的体素划分情况，得到点云图的若干个体素块，对于每一个体素块采用TSDF融合算法计算对应的TSDF值以及权重值，并采用空间哈希函数对体素块的位置进行编码，在CPU中分块存储相应的体素信息。

4)基于深度值进行多尺度处理，如通用动态物体的删除，基于平面分割对满足条件的体素块进行合并，从而实现细粒度体素块的删除，基于处理后的深度图以及平面分割图，在GPU中对体素块进行体素截断值更新，同时将更新结果保存在CPU中。

5)基于体素截断值更新结果进行面元提取、法线计算(可以基于法线平滑以提高法线的精确度)，进而更新面元地图，同时输出提取的面元，输出的面元还可以做为下一帧待重建图像在三维重建过程中的参考依据，例如进行TSDF融合计算等。

在上述三维重建过程中，通过深度估计网络和平面分割网络估计每一帧待重建图像的深度图和分割图，并基于图像采集设备的IMU进行位姿估计，从而不依赖于深度传感器，有利于三维重建技术在移动终端的发展，基于细粒度体素块的删除及合并，从而输出不同大小的三角面元，提高了存储和计算效率。

应该理解的是，虽然图1-图9流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1-图9中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

图10是根据一示例性实施例示出的一种三维重建装置框图。参照图10，该装置包括获取模块1002，体素投影模块1004,体素特征值确定模块1006和面元提取模块1008。

获取模块1002，被配置为执行获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，以及获取采集所述待重建图像的图像采集设备的位姿信息；

体素投影模块1004，被配置为执行根据所述位姿信息以及每一帧待重建图像的深度图将所述待重建图像的像素点投影至已进行空间体素块划分的三维空间，得到每一帧待重建图像的若干个体素块；

体素特征值确定模块1006，被配置为执行基于每一帧待重建图像的每个体素块对应的像素点的深度值以及所述体素块的投影深度，获取每一帧待重建图像中每个体素块的体素特征值；

面元提取模块1008，被配置为执行根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值进行面元提取，得到每一帧所述待重建图像对应的三维重建图像。

在一示例性实施例中，所述体素特征值包括初始体素值和预设的初始权重值；所述体素特征值确定模块包括：初始体素值计算单元，被配置为执行基于每一帧待重建图像的每个体素块对应的像素点的深度值与所述体素块的投影深度之间的差值，确定对应体素块的初始体素值；体素特征值更新单元，被配置为执行根据每一帧待重建图像中每个体素块的初始体素值和预设的初始权重值，更新所述待重建图像中对应体素块的体素特征值。

在一示例性实施例中，所述体素特征值更新单元被配置为执行：基于所述待重建图像中每个体素块的初始体素值和预设的初始权重值，以及与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值，采用基于截断的带符号距离函数获取所述待重建图像中每个体素块的体素更新值；以及，基于所述待重建图像中每个体素块预设的初始权重值以及与所述待重建图像相邻的上一帧图像中对应体素块的权重值，获取所述待重建图像中每个体素块的权重更新值。

在一示例性实施例中，若与所述待重建图像相邻的上一帧图像为首帧图像，则与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值包括所述体素块的初始体素值以及预设的初始权重值，所述对应体素块的权重值为预设的初始权重值；若与所述待重建图像相邻的上一帧图像不是首帧图像，则与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值包括所述体素块的体素更新值以及权重更新值，所述对应体素块的权重值为相应的权重更新值。

在一示例性实施例中，所述装置还包括编码存储模块，被配置为执行：基于每一帧所述待重建图像对应的三维重建图像，采用空间哈希函数对与所述三维重建图像对应的体素块的位置进行编码存储。

在一示例性实施例中，所述位置预测网络包括深度估计网络和平面分割网络；所述获取模块被配置为执行：采用所述深度估计网络对每一帧待重建图像进行深度检测，得到与待重建图像对应的深度图和法线；将每一帧待重建图像的深度图和对应的法线输入所述平面分割网络，得到每一帧待重建图像对应的分割图。

在一示例性实施例中，所述获取模块还被配置为执行：对与所述待重建图像相邻的上一帧图像进行特征点提取，基于初始位姿信息对提取的所述特征点在所述待重建图像中进行特征点跟踪，得到所述待重建图像中所述特征点的第一坐标信息；根据所述上一帧图像对应的深度图确定所述上一帧图像提取的特征点对应的空间坐标，将所述空间坐标重投影到所述待重建图像中，得到所述待重建图像中所述特征点的第二坐标信息；根据所述第一坐标信息以及所述第二坐标信息进行位姿优化求解，得到所述位姿信息。

在一示例性实施例中，所述面元提取模块被配置为执行：根据每一帧待重建图像的分割图以及每一帧待重建图像中每个体素块的体素特征值，获取与所述体素块相交的面元；基于所述面元、以及所述面元与所述体素块相交的交点，确定所述面元的法线；根据所述面元以及所述面元的法线，得到每一帧所述待重建图像对应的三维重建图像。

在一示例性实施例中，所述面元提取模块还被配置为执行：基于每一帧待重建图像的深度图，将深度值相同的若干个相邻体素块投影到平面中，得到若干个相邻体素块的平面投影坐标；若所述平面投影坐标均位于所述分割图中对应的一个平面中，则合并所述若干个相邻体素块；基于合并后的体素块获取对应的体素特征值，采用移动立方体算法获取与所述合并后的体素块相交的面元。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图11是根据一示例性实施例示出的一种用于三维重建的设备Z00的框图。例如，设备Z00可以是移动电话、计算机、数字广播终端、消息收发设备、游戏控制台、平板设备、医疗设备、健身设备、个人数字助理等。

参照图11，设备Z00可以包括以下一个或多个组件：处理组件Z02、存储器Z04、电源组件Z06、多媒体组件Z08、音频组件Z10、输入/输出(I/O)的接口Z12、传感器组件Z14以及通信组件Z16。

处理组件Z02通常控制设备Z00的整体操作，诸如与显示、电话呼叫、数据通信、相机操作和记录操作相关联的操作。处理组件Z02可以包括一个或多个处理器Z20来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件Z02可以包括一个或多个模块，便于处理组件Z02和其他组件之间的交互。例如，处理组件Z02可以包括多媒体模块，以方便多媒体组件Z08和处理组件Z02之间的交互。

存储器Z04被配置为存储各种类型的数据以支持在设备Z00的操作。这些数据的示例包括用于在设备Z00上操作的任何应用程序或方法的指令、联系人数据、电话簿数据、消息、图片、视频等。存储器Z04可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)、电可擦除可编程只读存储器(EEPROM)、可擦除可编程只读存储器(EPROM)、可编程只读存储器(PROM)、只读存储器(ROM)、磁存储器、快闪存储器、磁盘或光盘。

电源组件Z06为设备Z00的各种组件提供电力。电源组件Z06可以包括电源管理系统，一个或多个电源，及其他与为设备Z00生成、管理和分配电力相关联的组件。

多媒体组件Z08包括在所述设备Z00和用户之间的提供一个输出接口的屏幕。在一些实施例中，屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板，屏幕可以被实现为触摸屏，以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界，而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中，多媒体组件Z08包括一个前置摄像头和/或后置摄像头。当设备Z00处于操作模式，如拍摄模式或视频模式时，前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件Z10被配置为输出和/或输入音频信号。例如，音频组件Z10包括一个麦克风(MIC)，当设备Z00处于操作模式，如呼叫模式、记录模式和语音识别模式时，麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器Z04或经由通信组件Z16发送。在一些实施例中，音频组件Z10还包括一个扬声器，用于输出音频信号。

I/O接口Z12为处理组件Z02和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

传感器组件Z14包括一个或多个传感器，用于为设备Z00提供各个方面的状态评估。例如，传感器组件Z14可以检测到设备Z00的打开/关闭状态，组件的相对定位，例如所述组件为设备Z00的显示器和小键盘，传感器组件Z14还可以检测设备Z00或设备Z00一个组件的位置改变，用户与设备Z00接触的存在或不存在，设备Z00方位或加速/减速和设备Z00的温度变化。传感器组件Z14可以包括接近传感器，被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件Z14还可以包括光传感器，如CMOS或CCD图像传感器，用于在成像应用中使用。在一些实施例中，该传感器组件Z14还可以包括加速度传感器、陀螺仪传感器、磁传感器、压力传感器或温度传感器。

通信组件Z16被配置为便于设备Z00和其他设备之间有线或无线方式的通信。设备Z00可以接入基于通信标准的无线网络，如WiFi，运营商网络(如2G、3G、4G或5G)，或它们的组合。在一个示例性实施例中，通信组件Z16经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信组件Z16还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，设备Z00可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的计算机可读存储介质，例如包括指令的存储器Z04，上述指令可由设备Z00的处理器Z20执行以完成上述方法。例如，计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上所述的三维重建方法。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种三维重建方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述体素特征值包括初始体素值和预设的初始权重值；所述基于每一帧待重建图像的每个体素块对应的像素点的深度值以及所述体素块的投影深度，获取每一帧待重建图像中每个体素块的体素特征值，包括：

基于每一帧待重建图像的每个体素块对应的像素点的深度值与所述体素块的投影深度之间的差值，确定对应体素块的初始体素值；

根据每一帧待重建图像中每个体素块的初始体素值和预设的初始权重值，更新所述待重建图像中对应体素块的体素特征值。

3.根据权利要求2所述的方法，其特征在于，所述根据每一帧待重建图像中每个体素块的初始体素值和预设的初始权重值，更新所述待重建图像中对应体素块的体素特征值，包括：

基于所述待重建图像中每个体素块的初始体素值和预设的初始权重值，以及与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值，采用基于截断的带符号距离函数获取所述待重建图像中每个体素块的体素更新值；以及，

基于所述待重建图像中每个体素块预设的初始权重值以及与所述待重建图像相邻的上一帧图像中对应体素块的权重值，获取所述待重建图像中每个体素块的权重更新值。

4.根据权利要求3所述的方法，其特征在于，

若与所述待重建图像相邻的上一帧图像为首帧图像，则与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值包括所述体素块的初始体素值以及预设的初始权重值，所述对应体素块的权重值为预设的初始权重值；

若与所述待重建图像相邻的上一帧图像不是首帧图像，则与所述待重建图像相邻的上一帧图像中对应体素块的体素特征值包括所述体素块的体素更新值以及权重更新值，所述对应体素块的权重值为相应的权重更新值。

5.根据权利要求1所述的方法，其特征在于，所述得到每一帧所述待重建图像对应的三维重建图像之后，所述方法还包括：

基于每一帧所述待重建图像对应的三维重建图像，采用空间哈希函数对与所述三维重建图像对应的体素块的位置进行编码存储。

6.根据权利要求1至5任一项所述的方法，其特征在于，所述位置预测网络包括深度估计网络和平面分割网络；所述获取基于位置预测网络估计的每一帧待重建图像的深度图和分割图，包括：

采用所述深度估计网络对每一帧待重建图像进行深度检测，得到与待重建图像对应的深度图和法线；

将每一帧待重建图像的深度图和对应的法线输入所述平面分割网络，得到每一帧待重建图像对应的分割图。

7.一种三维重建装置，其特征在于，包括：

8.一种电子设备，其特征在于，包括：

处理器；

用于存储所述处理器可执行指令的存储器；

其中，所述处理器被配置为执行所述指令，以实现如权利要求1至6中任一项所述的三维重建方法。

9.一种计算机可读存储介质，其特征在于，当所述计算机可读存储介质中的指令由电子设备的处理器执行时，使得所述电子设备能够执行如权利要求1至6中任一项所述的三维重建方法。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6任一项所述的三维重建方法。