CN108986210A

CN108986210A - 三维场景重建的方法和设备

Info

Publication number: CN108986210A
Application number: CN201810980624.2A
Authority: CN
Inventors: 胡事民; 曹炎培; 刘政宁; 匡正非
Original assignee: Tsinghua University
Current assignee: Tsinghua University
Priority date: 2018-08-27
Filing date: 2018-08-27
Publication date: 2018-12-11
Anticipated expiration: 2038-08-27
Also published as: CN108986210B

Abstract

本发明实施例提供一种三维场景重建的方法和设备，通过包括多个神经网络以层级的形式级联而形成的级联神经网络，首先基于多幅深度图像在较低预设分辨率下获取当前处理区域的每一像素点对应的直方图，结合当前神经网络确定当前处理区域内的下一级神经网络对应的子处理区域和当前神经网络学习到的体素重建数据，然后对于下一级神经网络，将子处理区域作为处理对象，在对处理对象提高分别率进行处理的基础上，重复上述过程；并根据每一级神经网络学习到的体素重建数据实现三维场景重建。本方法和装置以渐进的方式对处理区域进行从整体到局部的逐步处理，大大简化了神经网络的学习任务，且显著降低了计算成本，同时具有较高的效率、准确性和实用性。

Description

三维场景重建的方法和设备

技术领域

本发明实施例涉及通信技术领域，更具体地，涉及一种三维场景重建的方法和设备。

背景技术

三维场景的高质量重建是多年来计算机视觉和计算机图像学研究的主要前沿之一。同时，消费级彩色-深度(RGB-D)传感器(如Microsoft Kinect和IntelRealSense)的逐渐普及，使得更多初级用户能够对周围环境进行三维扫描，同时也增大了用户对三维重建算法的鲁棒性的需求。尽管近期学界在三维环境重建方面取得了诸多进展，但利用消费级RGB-D传感器从随意的扫描过程中获取的低质量数据重建高精确度的三维场景模型，仍然是一个非常具有挑战性的问题。

由于神经网络在三维模型分类、检索及分割等各项任务上均取得了令人印象深刻的结果，因此学术界中引入了一些基于神经网络学习的三维重建方法。

目前，一些学术论文公开了一些基于神经网络学习的三维重建方法，但是这些方法或者需要在局部推算之前进行额外的、耗时的步骤，或者需要在全局上优化三维体素表示的中间结果，使得这些方法很难生成更高分辨率的结果。

发明内容

为了克服上述问题或者至少部分地解决上述问题，本发明实施例提供一种三维场景重建的方法和设备。

根据本发明实施例的第一方面，提供一种三维场景重建的方法，包括：S11，对于场景重建区域，将场景重建区域作为级联神经网络的第一级神经网络对应的处理区域，根据从多角度采集的场景重建区域的多幅深度图像，获取在预设分辨率下的场景重建区域中每一像素点对应的直方图，将所有像素点对应的直方图输入到已训练的第一级神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；S12，将前一级神经网络确定的待优化区域作为当前神经网络对应的处理区域，根据多幅深度图像，获取在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，当前预设分辨率高于前一预设分辨率，前一预设分辨率为前一级神经网络中所使用的预设分辨率，将前一级神经网络所确定的待优化区域的三维特性图，以及当前所获取的所有像素点对应的直方图输入到已训练的当前神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；S13，重复S12直至当前神经网络确定不存在待优化区域或者当前神经网络为级联神经网络的最后一级神经网络；S14，根据每一级神经网络输出的无需优化区域中每一像素点的体素重建数据重建场景重建区域的三维场景；其中，直方图的横坐标为多个数值范围，纵坐标为根据同一个像素点在多幅深度图像中的多个距离值在横坐标的数值范围内的数量分布，每一距离值为像素点距离对应的深度图像的视界表面的距离。

根据本发明实施例的第二方面，提供一种电子设备，包括：至少一个处理器、至少一个存储器和数据总线；其中：处理器与存储器通过数据总线完成相互间的通信；存储器存储有可被处理器执行的程序指令，处理器调用程序指令以执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的三维场景重建的方法。

根据本发明实施例的第三方面，提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机程序，该计算机程序使计算机执行第一方面的各种可能的实现方式中任一种可能的实现方式所提供的三维场景重建的方法。

本发明实施例提供的一种三维场景重建的方法和设备，通过包括多个神经网络以层级的形式级联而形成的级联神经网络，首先基于多幅深度图像在较低预设分辨率下获取当前处理区域的每一像素点对应的直方图，结合当前神经网络确定当前处理区域内的下一级神经网络对应的子处理区域和当前神经网络学习到的体素重建数据，然后对于下一级神经网络，将子处理区域作为处理对象，在对处理对象提高分别率进行处理的基础上，重复上述过程；并根据每一级神经网络学习到的体素重建数据实现三维场景重建。本方法和装置以渐进的方式对处理区域进行从整体到局部的逐步处理，大大简化了神经网络的学习任务，且显著降低了计算成本，同时具有较高的效率、准确性和实用性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为根据本发明实施例提供的三维场景重建的方法的流程图；

图2为根据本发明实施例提供的每一级神经网络的结构的示意图；

图3为根据本发明实施例提供的三维场景重建的装置的示意图；

图4为根据本发明实施例提供的电子设备的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1为本发明实施例提供的三维场景重建的方法的流程图，如图1所示，一种三维场景重建的方法，包括：S11，对于场景重建区域，将场景重建区域作为级联神经网络的第一级神经网络对应的处理区域，根据从多角度采集的场景重建区域的多幅深度图像，获取在预设分辨率下的场景重建区域中每一像素点对应的直方图，将所有像素点对应的直方图输入到已训练的第一级神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；S12，将前一级神经网络确定的待优化区域作为当前神经网络对应的处理区域，根据多幅深度图像，获取在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，当前预设分辨率高于前一预设分辨率，前一预设分辨率为前一级神经网络中所使用的预设分辨率，将前一级神经网络所确定的待优化区域的三维特性图，以及当前所获取的所有像素点对应的直方图输入到已训练的当前神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；S13，重复S12直至当前神经网络确定不存在待优化区域或者当前神经网络为级联神经网络的最后一级神经网络；S14，根据每一级神经网络输出的无需优化区域中每一像素点的体素重建数据重建场景重建区域的三维场景；其中，直方图的横坐标为多个数值范围，纵坐标为根据同一个像素点在多幅深度图像中的多个距离值在横坐标的数值范围内的数量分布，每一距离值为像素点距离对应的深度图像的视界表面的距离。

具体地，对于场景重建区域，区域内的场景信息并不是均匀分布的，在某些子区域内，场景的信息量很小，但是在其他一些子区域内，场景的信息量可能很大；基于该场景重建区域从多角度采集的场景重建区域的多幅深度图像，每一深度图像中不同子区域也体现了不同的信息量，一些子区域的深度图像不需要在高分辨率的条件下进行处理，就能获得满意的三维场景重建效果，而一些子区域的深度图像需要在高分辨率的条件下进行处理，才能获得精细的三维场景，对于整个区域的深度图像，如果只在低分辨率的条件下进行处理，重建的精细度和准确性不足，如果只在高分辨率的条件下进行处理，重建的计算成本会提高和处理效率会降低。

本实施例设计一种级联神经网络，该级联神经网络包括多个神经网络以层级的形式级联而形成，每一级神经网络对应处理一种预设分辨率下的处理区域内的深度图像，其中，下一级神经网络中使用的预设分辨率比上一级神经网路中使用的预设分辨率要高，下一级神经网络对应的处理区域是上一级神经网络对应的处理区域中的子区域，并由上一级神经网络所确定，更具体地为：

对于第一级神经网络，将场景重建区域作为第一级神经网络对应的处理区域，根据从多角度采集的场景重建区域的多幅深度图像，获取在预设分辨率下的场景重建区域中每一像素点对应的直方图，将所有像素点对应的直方图输入到已训练的第一级神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图。

对于第一级神经网络以外的各级神经网络，将前一级神经网络确定的待优化区域作为当前神经网络对应的处理区域，根据多幅深度图像，获取在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，当前预设分辨率高于前一预设分辨率，前一预设分辨率为前一级神经网络中所使用的预设分辨率，将前一级神经网络所确定的待优化区域的三维特性图，以及当前所获取的所有像素点对应的直方图输入到已训练的当前神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图。

重复上述过程直至当前神经网络确定不存在待优化区域或者当前神经网络为级联神经网络的最后一级神经网络；最后根据每一级神经网络输出的无需优化区域中每一像素点的体素重建数据重建场景重建区域的三维场景。

其中，每一级神经网络中包括结构细化层，每一结构细化层根据对应层级的神经网络获取的三维特性图确定下一级神经网络对应的处理区域。

每一级神经网络可采用如图2所示的U形结构，其中，1和2为当前神经网络的输入，分别为当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图和前一级神经网络所确定的待优化区域的三维特性图，其中，第一级神经网络的输入为在第一级的预设分辨率下的场景重建区域中每一像素点对应的直方图，3和4当前神经网络的输出，分别为当前的无需优化区域中每一像素点的体素重建数据和当前的待优化区域的三维特性图；5可选择为由OctNet中的卷积层、激活层堆叠组成，6为对应的编码器层与解码器层之间使用了跳跃连接(skip connection)，7为OctNet中的池化层，8为结构细化层，结构细化层根据对应层级的神经网络得到的三维特性图确定下一级神经网络对应的处理区域。

本实施例的三维场景重建的方法以渐进的方式对处理区域进行从整体到局部的逐步处理，大大简化了神经网络的学习任务，且显著降低了计算成本，同时具有较高的效率、准确性和实用性。

基于以上实施例，进一步地，根据多幅深度图像，获取在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，包括：以当前预设分辨率在每一深度图像的前一级神经网络所确定的待优化区域内划分网格，将每一网格作为一个像素点；获取每一像素点距离每一深度图像的视界表面的距离值；对于任一像素点，统计所述任一像素点在多幅深度图像中的多个距离数值在多个预设数值范围内的数量分布，以获得所述任一像素点对应的直方图。

具体地，对于每一级神经网络对应的处理区域，对处理区域的深度图像的处理精细度决定了神经网络输出的体素重建数据的精细度，对于当前神经网络，作为输入之一的在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，其获取方式为：以当前预设分辨率在每一深度图像的前一级神经网络所确定的待优化区域内划分网格，将每一网格作为一个像素点；获取每一像素点距离每一深度图像的视界表面的距离值，该距离值可基于空间尺度的截断符号距离函数(TSDF，truncated signeddistance function)获取；对于任一像素点，统计所述任一像素点在多幅深度图像中的多个距离数值在多个预设数值范围内的数量分布，以获得所述任一像素点对应的直方图，进一步的获得每一像素点对应的直方图。直方图可选择10个维度，其中5个维度分别为预设数值范围内的数量分布，第一个和最后一个维度可用来存储截断符号距离函数处理过程中的截断距离参数，各深度观测值的贡献所在的维度在距其最近的两个维度之间呈线性分配。

基于以上实施例，进一步地，将前一级神经网络所确定的待优化区域的三维特性图，以及当前所获取的所有像素点对应的直方图输入到已训练的当前神经网络之前，还包括：将当前所获取的所有像素点对应的直方图进行八叉树组织处理。

具体地，八叉树是一种用于描述三维空间的树状数据结构，树中任一节点的子节点恰好只会有八个，或零个，由于当前所获取的所有像素点对应的直方图的数据量很大，通过八叉树组织处理，可节省数据处理量和存储空间。

基于以上实施例，进一步地，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图之后，还包括：将无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图进行八叉树组织处理。

具体地，将无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图进行八叉树组织处理，可节省数据处理量和存储空间外，还可基于待优化区域的三维特性图的八叉树结构，通过结构细化层确定下一级神经网络对应的处理区域，结构细化层使用3*3*3的卷积核直接从三维特性图的八叉树结构中预测对应的八叉树节点是否应该被进一步精细化，将所有应该被进一步精细化的节点对应的区域作为下一级神经网络对应的处理区域。

基于以上实施例，进一步地，根据每一级神经网络输出的无需优化区域中每一像素点的体素重建数据重建场景重建区域的三维场景，包括：将每一级神经网络输出的无需优化区域中每一像素点的体素重建数据均转化为最高分别率下每一像素点的体素重建数据，最高分别率为级联神经网络的最后一级神经网络中使用的预设分辨率；根据最高分别率下每一像素点的体素重建数据提取场景重建区域的三维表面，以重建场景重建区域的三维场景。

具体地，每一级神经网络输出的是各自对应的不同分辨率下的体素重建数据，低分辨率下的一个像素点对应的网格可能包括高分辨率下的多个像素点对应的网格，某一分辨率下一个像素点对应的网格中包括的最高分辨率下的若干像素点对应的网格集合，则将某一分辨率下该像素点的体素重建数据赋值到最高分辨率下该网格集合中每一网格对应的像素点的体素重建数据，以此将每一级神经网络输出的无需优化区域中每一像素点的体素重建数据均转化为最高分别率下每一像素点的体素重建数据，然后根据最高分别率下每一像素点的体素重建数据提取场景重建区域的三维表面，以重建场景重建区域的三维场景。

基于以上实施例，进一步地，根据最高分别率下每一像素点的体素重建数据提取场景重建区域的三维表面之前，还包括：将对每一级神经网络输出的无需优化区域所额外增加的边缘区域中每一像素点的体素重建数据丢弃。

具体地，为了保证数据的完整性，区域划分时需增加额外的边缘区域，在对每一区域内的体素重建数据整合至整个场景重建区域时，需要将额外增加的边缘区域内的体素重建数据丢弃，否则会造成这些额外增加的边缘区域内的数据的重叠处理。

基于以上实施例，进一步地，级联神经网络训练的步骤包括：S81，生成初始合成数据集和初始真实数据集，初始合成数据集为根据多角度采集的目标区域的多幅深度图像所获取在预设分辨率下的目标区域中每一像素点对应的直方图，初始真实数据集为基于自由视点视频系统对目标区域的深度扫描数据融合重建的高精度三维网格模型进行虚拟扫描获取的每一网格的体素值，将初始合成数据集和初始真实数据集输入到级联神经网络的第一级神经网络，对第一级神经网络进行训练，并输出下一级神经网络对应的处理区域的三维特性图；S82，根据前一级神经网络所确定的当前神经网络对应的处理区域，生成新的合成数据集和新的真实数据集，新的合成数据集为根据多角度采集的目标区域的多幅深度图像所获取在当前分预设辨率下的当前神经网络对应的处理区域中每一像素点对应的直方图，当前预设分辨率高于前一预设分辨率，前一预设分辨率为前一级神经网络中所使用的预设分辨率，新的真实数据集为基于自由视点视频系统对当前神经网络对应的处理区域的深度扫描数据融合重建的高精度三维网格模型进行虚拟扫描获取的每一网格的体素值，将新的合成数据集，前一级神经网络所确定的当前神经网络对应的处理区域的三维特性图和新的真实数据集输入到当前神经网络，对当前神经网络进行训练，输出下一级神经网络对应的处理区域的三维特性图，并根据当前神经网络的训练结果反向更新优化当前神经网络之前的各级神经网络的参数；S83，重复S82直至完成对级联神经网络中每一级神经网络的训练。

具体地，第一级神经网络的训练数据包括初始合成数据集和初始真实数据集，其中，初始合成数据集为根据多角度采集的目标区域的多幅深度图像所获取在预设分辨率下的目标区域中每一像素点对应的直方图，可基于合成三维模型数据库ModelNet40，模拟双目深度相机，使用散斑结构光照射各个目标区域，使用PatchMatch Stereo算法从双目散斑图像中估计视差以及对应的深度图像；初始真实数据集为基于自由视点视频系统，随机选取2或4个视角的原始深度扫描数据，对目标区域的深度扫描数据融合重建的高精度三维网格模型，并进行虚拟扫描获取的每一网格的体素值。将初始合成数据集和初始真实数据集输入到级联神经网络的第一级神经网络，对第一级神经网络进行训练，并输出下一级神经网络对应的处理区域的三维特性图。

对于第一级神经网络以外的各级神经网络的训练，采用新的合成数据集和新的真实数据集，新的合成数据集和新的真实数据集得获取方式与第一级神经网络的初始合成数据集和初始真实数据集的获取方式类似，区别在于使用的分辨率逐级提高，处理区域由前一级神经网络所确定，输入的数据需增加前一级神经网络输出的下一级神经网络对应的处理区域的三维特性图；重复以上步骤直至完成对级联神经网络中每一级神经网络的训练。

对于每一级神经网络，通过以下公式计算神经网络的混合损失函数：

其中，λ₁和λ₁为权重参数，是合成数据集的预测结果与真实数据集中的数据之间的l1损失函数。是为合成数据集的预测结果的去噪和重建而设计的，使用l1而不是l2损失函数的原因在于前者对于输入中存在的大量异常值更加鲁棒；是合成数据集的预测结果的正负与真实数据集中的数据正负的二元交叉熵损失项，使用的原因为神经网络学习三维形体补全提供更多的引导，加快网络训练过程的收敛；用于衡量合成数据集的预测结果的八叉树划分结构与真实数据集中的数据的八叉树结构的一致性，其公式如下：

上式的O表示八叉树结构的叶节点集合，BCE表示二元交叉熵。p(o)代表是否将叶节点o对应的区域作为待优化区域的组成部分,o′是o在真实数据集中的数据的八叉树结构T_gt中对应的叶节点。f(o′,T_gt)定义为一个指标函数，用来指示在T_gt中是否有o′存在：

图3为本发明实施例提供的三维场景重建的装置的示意图，如图3所示，一种三维场景重建的装置，包括：第一处理模块31、第二处理模块32、重复模块33和重建模块34，其中：

第一处理模块31，用于对于场景重建区域，将场景重建区域作为级联神经网络的第一级神经网络对应的处理区域，根据从多角度采集的场景重建区域的多幅深度图像，获取在预设分辨率下的场景重建区域中每一像素点对应的直方图，将所有像素点对应的直方图输入到已训练的第一级神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；

第二处理模块32，用于将前一级神经网络确定的待优化区域作为当前神经网络对应的处理区域，根据多幅深度图像，获取在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，当前预设分辨率高于前一预设分辨率，前一预设分辨率为前一级神经网络中所使用的预设分辨率，将前一级神经网络所确定的待优化区域的三维特性图，以及当前所获取的所有像素点对应的直方图输入到已训练的当前神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；

重复模块33，用于重复第二处理模块中的处理步骤直至当前神经网络确定不存在待优化区域或者当前神经网络为级联神经网络的最后一级神经网络；

重建模块34，用于根据每一级神经网络输出的无需优化区域中每一像素点的体素重建数据重建场景重建区域的三维场景。

本发明实施例的装置，可用于执行图1所示的三维场景重建的方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图4为根据本发明实施例提供的电子设备的示意图，如图4所示，一种电子设备，包括：至少一个处理器41、至少一个存储器42和数据总线43；其中：处理器41与存储器42通过数据总线43完成相互间的通信；存储器42存储有可被处理器41执行的程序指令，处理器41调用程序指令以执行上述各方法实施例所提供的三维场景重建的方法，例如包括：S11，对于场景重建区域，将场景重建区域作为级联神经网络的第一级神经网络对应的处理区域，根据从多角度采集的场景重建区域的多幅深度图像，获取在预设分辨率下的场景重建区域中每一像素点对应的直方图，将所有像素点对应的直方图输入到已训练的第一级神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；S12，将前一级神经网络确定的待优化区域作为当前神经网络对应的处理区域，根据多幅深度图像，获取在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，当前预设分辨率高于前一预设分辨率，前一预设分辨率为前一级神经网络中所使用的预设分辨率，将前一级神经网络所确定的待优化区域的三维特性图，以及当前所获取的所有像素点对应的直方图输入到已训练的当前神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；S13，重复S12直至当前神经网络确定不存在待优化区域或者当前神经网络为级联神经网络的最后一级神经网络；S14，根据每一级神经网络输出的无需优化区域中每一像素点的体素重建数据重建场景重建区域的三维场景；其中，直方图的横坐标为多个数值范围，纵坐标为根据同一个像素点在多幅深度图像中的多个距离值在横坐标的数值范围内的数量分布，每一距离值为像素点距离对应的深度图像的视界表面的距离。

本发明实施例提供一种非暂态计算机可读存储介质，该非暂态计算机可读存储介质存储计算机程序，该计算机程序使该计算机执行上述各方法实施例所提供的三维场景重建的方法，例如包括：S11，对于场景重建区域，将场景重建区域作为级联神经网络的第一级神经网络对应的处理区域，根据从多角度采集的场景重建区域的多幅深度图像，获取在预设分辨率下的场景重建区域中每一像素点对应的直方图，将所有像素点对应的直方图输入到已训练的第一级神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；S12，将前一级神经网络确定的待优化区域作为当前神经网络对应的处理区域，根据多幅深度图像，获取在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，当前预设分辨率高于前一预设分辨率，前一预设分辨率为前一级神经网络中所使用的预设分辨率，将前一级神经网络所确定的待优化区域的三维特性图，以及当前所获取的所有像素点对应的直方图输入到已训练的当前神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；S13，重复S12直至当前神经网络确定不存在待优化区域或者当前神经网络为级联神经网络的最后一级神经网络；S14，根据每一级神经网络输出的无需优化区域中每一像素点的体素重建数据重建场景重建区域的三维场景；其中，直方图的横坐标为多个数值范围，纵坐标为根据同一个像素点在多幅深度图像中的多个距离值在横坐标的数值范围内的数量分布，每一距离值为像素点距离对应的深度图像的视界表面的距离。

本领域普通技术人员可以理解：实现上述方法实施例的全部或部分步骤可以通过计算机程序指令相关的硬件来完成，前述的计算机程序可以存储于一计算机可读取存储介质中，该计算机程序在执行时，执行包括上述方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种三维场景重建的方法，其特征在于，包括：

S11，对于场景重建区域，将所述场景重建区域作为级联神经网络的第一级神经网络对应的处理区域，根据从多角度采集的所述场景重建区域的多幅深度图像，获取在预设分辨率下的所述场景重建区域中每一像素点对应的直方图，将所有像素点对应的直方图输入到已训练的第一级神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；

S12，将前一级神经网络确定的待优化区域作为当前神经网络对应的处理区域，根据所述多幅深度图像，获取在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，当前预设分辨率高于前一预设分辨率，前一预设分辨率为前一级神经网络中所使用的预设分辨率，将前一级神经网络所确定的待优化区域的三维特性图，以及当前所获取的所有像素点对应的直方图输入到已训练的当前神经网络，输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图；

S13，重复S12直至当前神经网络确定不存在待优化区域或者当前神经网络为所述级联神经网络的最后一级神经网络；

S14，根据每一级神经网络输出的无需优化区域中每一像素点的体素重建数据重建所述场景重建区域的三维场景；

其中，直方图的横坐标为多个数值范围，纵坐标为根据同一个像素点在多幅深度图像中的多个距离值在横坐标的数值范围内的数量分布，每一距离值为像素点距离对应的深度图像的视界表面的距离。

2.根据权利要求1所述的方法，其特征在于，所述根据所述多幅深度图像，获取在当前预设分辨率下的前一级神经网络所确定的待优化区域中每一像素点对应的直方图，包括：

以当前预设分辨率在每一深度图像的前一级神经网络所确定的待优化区域内划分网格，将每一网格作为一个像素点；

获取每一像素点距离每一深度图像的视界表面的距离值；

对于任一像素点，统计所述任一像素点在多幅深度图像中的多个距离数值在多个预设数值范围内的数量分布，以获得所述任一像素点对应的直方图。

3.根据权利要求1所述的方法，其特征在于，所述将前一级神经网络所确定的待优化区域的三维特性图，以及当前所获取的所有像素点对应的直方图输入到已训练的当前神经网络之前，还包括：

将当前所获取的所有像素点对应的直方图进行八叉树组织处理。

4.根据权利要求1所述的方法，其特征在于，所述输出无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图之后，还包括：

将无需优化区域中每一像素点的体素重建数据和待优化区域的三维特性图进行八叉树组织处理。

5.根据权利要求1所述的方法，其特征在于，所述根据每一级神经网络输出的无需优化区域中每一像素点的体素重建数据重建所述场景重建区域的三维场景，包括：

将每一级神经网络输出的无需优化区域中每一像素点的体素重建数据均转化为最高分别率下每一像素点的体素重建数据，所述最高分别率为所述级联神经网络的最后一级神经网络中使用的预设分辨率；

根据最高分别率下每一像素点的体素重建数据提取所述场景重建区域的三维表面，以重建所述场景重建区域的三维场景。

6.根据权利要求5所述的方法，其特征在于，所述根据最高分别率下每一像素点的体素重建数据提取所述场景重建区域的三维表面之前，还包括：

将对每一级神经网络输出的无需优化区域所额外增加的边缘区域中每一像素点的体素重建数据丢弃。

7.根据权利要求1所述的方法，其特征在于，每一级神经网络中包括结构细化层，每一结构细化层根据对应层级的神经网络获取的三维特性图确定下一级神经网络对应的处理区域。

8.根据权利要求1所述的方法，其特征在于，对所述级联神经网络训练的步骤包括：

S81，生成初始合成数据集和初始真实数据集，所述初始合成数据集为根据多角度采集的目标区域的多幅深度图像所获取在预设分辨率下的所述目标区域中每一像素点对应的直方图，所述初始真实数据集为基于自由视点视频系统对所述目标区域的深度扫描数据融合重建的高精度三维网格模型进行虚拟扫描获取的每一网格的体素值，将所述初始合成数据集和所述初始真实数据集输入到所述级联神经网络的第一级神经网络，对所述第一级神经网络进行训练，并输出下一级神经网络对应的处理区域的三维特性图；

S82，根据前一级神经网络所确定的当前神经网络对应的处理区域，生成新的合成数据集和新的真实数据集，所述新的合成数据集为根据多角度采集的目标区域的多幅深度图像所获取在当前分预设辨率下的当前神经网络对应的处理区域中每一像素点对应的直方图，当前预设分辨率高于前一预设分辨率，前一预设分辨率为前一级神经网络中所使用的预设分辨率，所述新的真实数据集为基于自由视点视频系统对当前神经网络对应的处理区域的深度扫描数据融合重建的高精度三维网格模型进行虚拟扫描获取的每一网格的体素值，将所述新的合成数据集，前一级神经网络所确定的当前神经网络对应的处理区域的三维特性图和所述新的真实数据集输入到当前神经网络，对当前神经网络进行训练，输出下一级神经网络对应的处理区域的三维特性图，并根据当前神经网络的训练结果反向更新优化当前神经网络之前的各级神经网络的参数；

S83，重复S82直至完成对所述级联神经网络中每一级神经网络的训练。

9.一种电子设备，其特征在于，包括：

至少一个处理器、至少一个存储器和数据总线；其中：

所述处理器与所述存储器通过所述数据总线完成相互间的通信；所述存储器存储有可被所述处理器执行的程序指令，所述处理器调用所述程序指令以执行如权利要求1至8任一所述的方法。

10.一种非暂态计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储计算机程序，所述计算机程序使所述计算机执行如权利要求1至8任一所述的方法。