CN109003325A

CN109003325A - 一种三维重建的方法、介质、装置和计算设备

Info

Publication number: CN109003325A
Application number: CN201810557777.6A
Authority: CN
Inventors: 王加芳; 刘海伟; 丛林
Original assignee: Netease Hangzhou Network Co Ltd
Current assignee: Hangzhou Yixian Advanced Technology Co ltd
Priority date: 2018-06-01
Filing date: 2018-06-01
Publication date: 2018-12-14
Anticipated expiration: 2038-06-01
Also published as: CN109003325B

Abstract

本发明的实施方式提供了一种三维重建方法。该方法包括：基于第一图像和第一图像对应的第一深度图，创建第一图像的初始三维点云；将该初始三维点云重投影至共视图得到图像坐标，并判断该初始三维点云在所述共视图中是否可视；若该初始三维点云在共视图中可视，则将初始三维点云和图像坐标进行融合得到三维重建模型。本发明的方法通过共视图对三维点云进行优化，并将优化后的三维点云与初始三位点云进行融合，从而获得稠密的三维点云数据用以实现高精度的三维重建，提高了三维重建的准确性，降低了三维重建的成本。

Description

一种三维重建的方法、介质、装置和计算设备

技术领域

本发明的实施方式涉及软件技术领域，更具体地，本发明的实施方式涉及一种三维重建的方法、介质、装置和计算设备。

背景技术

本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

在计算机等虚拟环境内生成物体的三维信息的方法主要有两类：一类是使用几何建模软件通过人机交互生成人为控制下的物体三维几何模型，这一类方法的的技术实现已经十分成熟，如3DMAX、Maya、AutoCAD、UG等软件均支持该技术，这些软件一般使用具有数学表达式的曲线曲面表示几何形状；另一类是通过一定的手段获取真实物体的几何形状，这一类方法的实现技术则通常被称为三维重建(3D Reconstruction)。

三维重建是一种对三维物体建立适用于计算机处理的数学模型的技术，也是在计算机环境下对三维物体进行处理和分析的基础，更是在计算机中建立用于表达客观世界的虚拟现实的关键技术。可以理解的，三维重建是指利用物体的二维投影恢复该物体的三维信息(形状等)的数学过程和计算机技术，包括数据获取、预处理、点云拼接(融合)和特征分析等步骤。如微软公司的Kinect Fusion等传统的三维重建技术是基于kinect等深度采集设备来采集深度图，由于深度采集设备采集到的深度图精度高、噪声小，该深度图可以直接投影至三维点云，通过三维点云的ICP配准来解算相机位姿，从而根据解算出的相机位姿进行点云融合、场景构建等过程实现三维重建。但受限于深度采集设备，传统的三维重建技术存在成本较高、设备体积大、应用场景较为局限等问题。

为了解决上述问题，随着手机、运动相机、航拍无人机等移动设备的发展，如单目SLAM算法等基于机器视觉的单目相机建图技术应运而生。这项技术通常是通过机器视觉算法对相机进行定位跟踪，采用重投影、立体匹配等方法估计出该三维物体的深度信息来实现三维重建的，这使得这项技术可以解决上述传统的三维重建技术存在的问题。但这项技术仍存在以下几个缺陷：第一，单目相机无法获取其拍摄到的三维物体的尺度信息。第二，由于机器视觉算法无法获取到稠密的三维点云数据，因此通过这项技术仍无法实现稠密三维重建，即恢复三维物体的表面。

综上，亟待设计一种三维重建技术，用于克服传统的三维重建技术和现有的单目相机建图技术存在的问题。

发明内容

传统的三维重建技术受限于深度采集设备，存在成本较高、设备体积大、应用场景较为局限等问题。而现有的单目相机建图技术通过采用重投影、立体匹配等方法估计出该三维物体的深度信息来实现三维重建的，这使得这项技术可以解决上述传统的三维重建技术存在的问题。但现有的单目相机建图技术仍存在以下几个缺陷：第一，单目相机无法获取其拍摄到的三维物体的尺度信息。第二，由于机器视觉算法无法获取到稠密的三维点云数据，因此通过这项技术仍无法实现稠密三维重建，即恢复三维物体的表面。

为此，非常需要一种改进的三维重建的技术方案，用以克服现有的三维重建技术存在的技术问题。

在本上下文中，本发明的实施方式期望提供一种三维重建的方法、装置、介质和计算设备。

在本发明实施方式的第一方面中，提供了一种三维重建方法，包括：基于第一图像和第一图像对应的第一深度图创建第一图像的初始三维点云；将初始三维点云重投影至共视图得到图像坐标，并判断初始三维点云在共视图中是否可视；若初始三维点云在共视图中可视，则将初始三维点云和图像坐标进行融合得到三维重建模型。

在本发明的一个实施例中，该方法还包括通过如下方法获取第一深度图：

利用神经网络对第一图像进行拟合得到第一深度图，其中第一深度图包括第一图像中的三维物体的尺度信息和空间距离信息。

在本发明的另一实施例中，该方法还包括通过如下方法对神经网络进行训练：输入用于训练的第二图像和第二图像对应的真值深度图，真值深度图包括第二图像中的三维物体的真实尺度信息和真实空间距离信息；利用神经网络对第二图像进行拟合得到第二深度图，第二深度图包括基于第二图像拟合出的三维物体的尺度信息和空间距离信息；对比真值深度图和第二深度图，对神经网络进行优化和训练。

相应地，在本发明的一个实施例中，神经网络的基本网络结构所采用的模型为深度残差网络。

相应地，在本发明的又一实施例中，神经网络中还包括用于估计每个像素点的深度信息的网络层。

在本发明的再一个实施例中，该方法包括：基于第一图像和第一图像对应的第一深度图，创建第一图像的初始三维点云，包括：对第一图像和第一深度图进行求解得到初始位姿；将共视图作为第一图像的参考帧，对初始位姿进行优化得到相对位姿；根据相对位姿将第一图像投影至三维空间得到初始三维点云。

在本发明的又一个实施例中，该方法包括：将初始三维点云重投影至共视图得到图像坐标，包括：根据相对位姿将初始三维点云重投影至共视图得到图像坐标。

在本发明的还一个实施例中，该方法包括：判断初始三维点云在共视图中是否可视，包括：判断图像坐标是否处于共视图的边界内。若初始三维点云在共视图中可视，则将初始三维点云和图像坐标进行融合得到三维重建模型，包括：若图像坐标处于共视图的边界内，则将初始三维点云和图像坐标进行移动加权平均得到三维重建模型。

在本发明实施方式的第二方面中，提供了一种三维重建装置，包括：创建单元，用于基于第一图像和第一图像对应的第一深度图创建第一图像的初始三维点云；投影单元，用于将初始三维点云重投影至共视图得到图像坐标；判断单元，用于判断初始三维点云在共视图中是否可视；融合单元，用于若初始三维点云在共视图中可视，则将初始三维点云和图像坐标进行融合得到三维重建模型。

在本发明的一个实施例中，该装置还包括拟合单元，用于利用神经网络对第一图像进行拟合得到第一深度图，其中第一深度图包括第一图像中的三维物体的尺度信息和空间距离信息。

在本发明的另一个实施例中，该装置还包括训练单元，用于输入用于训练的第二图像和第二图像对应的真值深度图，真值深度图包括第二图像中的三维物体的真实尺度信息和真实空间距离信息；利用神经网络对第二图像进行拟合得到第二深度图，第二深度图包括基于第二图像拟合出的三维物体的尺度信息和空间距离信息；对比真值深度图和第二深度图，对神经网络进行优化和训练。

相应地，在本发明的一个实施例中，神经网络中还包括用于估计每个像素点的深度信息的网络层。

在本发明的再一个实施例中，创建单元具体用于：对第一图像和第一深度图进行求解得到初始位姿；将共视图作为第一图像的参考帧，对初始位姿进行优化得到相对位姿；根据相对位姿将第一图像投影至三维空间得到初始三维点云。

在本发明的又一个实施例中，投影单元具体用于：根据相对位姿将初始三维点云重投影至共视图得到图像坐标。

在本发明的还一个实施例中，判断单元具体用于：判断图像坐标是否处于共视图的边界内。融合单元具体用于：若图像坐标处于共视图的边界内，则将初始三维点云和图像坐标进行移动加权平均得到三维重建模型。

在本发明实施方式的第三方面中，提供了一种介质，该介质存储有计算机可执行指令，计算机可执行指令用于使计算机执行第一方面中任一实施例的方法。

在本发明实施方式的第四方面中，提供了一种计算设备，包括处理器、存储器以及收发机；存储器，用于存储处理器执行的程序；处理器，用于根据存储器存储的程序，执行第一方面中任一实施例的方法；收发机，用于在处理器的控制下接收或发送数据。

根据本发明实施方式通过共视图对三维点云进行优化，并将优化后的三维点云与初始三位点云进行融合，从而获得稠密的三维点云数据用以实现高精度的三维重建，提高了三维重建的准确性，降低了三维重建的成本。同时，克服了传统的三维重建技术和现有的单目相机建图技术存在的问题，增加了三维重建的稳定性，提高了点云融合的精度，改善了三维重建的不收敛以及重建表面模糊等问题。

附图说明

通过参考附图阅读下文的详细描述，本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中，以示例性而非限制性的方式示出了本发明的若干实施方式，其中：

图1示意性地示出了本发明实施例涉及的一种三维重建方法的流程示意图；

图2示意性地示出了本发明实施例涉及的一种三维重建装置的结构示意图；

图3示意性地示出了本发明实施例涉及的一种介质的结构示意图；

图4示意性地示出了本发明实施例涉及的一种计算设备的结构示意图。

在附图中，相同或对应的标号表示相同或对应的部分。

具体实施方式

下面将参考若干示例性实施方式来描述本发明的原理和精神。应当理解，给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本发明，而并非以任何方式限制本发明的范围。相反，提供这些实施方式是为了使本公开更加透彻和完整，并且能够将本公开的范围完整地传达给本领域的技术人员。

本领域技术人员知道，本发明的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此，本公开可以具体实现为以下形式，即：完全的硬件、完全的软件(包括固件、驻留软件、微代码等)，或者硬件和软件结合的形式。

根据本发明的实施方式，提出了一种三维重建方法、介质、装置和计算设备。

在本文中，需要理解的是，所涉及的几个概念的含义如下：

三维重建(3D Reconstruction)是一种对三维物体建立适用于计算机处理的数学模型的技术，也是在计算机环境下对三维物体进行处理和分析的基础，更是在计算机中建立用于表达客观世界的虚拟现实的关键技术。三维重建即是根据二维投影(如单视图、多视图等图像信息)重建三维信息的过程。由于单视图所携带的图像信息并不完全，因此基于单视图的三维重建需要具备丰富的经验知识，较难实现；而由于多视图所携带的图像信息较为完整，因此基于多视图的三维重建(例如Kinect Fusion等传统的三维重建技术、基于机器视觉的单目相机建图技术)较容易实现，这种三维重建方法的实现过程通常为：先对采集设备(如摄像机等)进行标定,即计算出采集设备所采集到的二维图象的图像坐标系与世界坐标系的关系，然后再利用多个采集到的二维图象中的图像信息来重建三维信息。

坐标系：在二维图像或三维空间中所有点都需要以坐标的形式来表示，而这些点可以在不同坐标系之间进行转换。本发明实施例中，将会涉及到图像坐标系、世界坐标系。例如，以坐标(u，v)来表示图像坐标系中每一像素(Pixel)的位置，每一像素的数值即是图像点的灰度值。世界坐标系，也称客观坐标系，是指客观三维世界的绝对坐标系。由于三维重建需要构建的三维物体是处于由世界坐标系表示的三维空间中，因此需要以世界坐标系为基准坐标系来描述该三维物体在三维空间中的位置。通常，可以用(X,Y,Z)表示世界坐标系中任何三维物体的坐标值。

体素(Voxel)，是指待识别图像构建的三维空间中用于承载数据的基本单位。例如，将由世界坐标系表示的三维空间分割成多个单位体积的立方体，这种立方体即为体素。

位姿，即相机位姿，是指采集设备对待识别图像进行采集时的位置和姿态。位姿是指三维空间中该采集设备相对于基准平面的欧拉角，或是三维空间中该采集设备相对于基准平面的四元数(例如俯仰角等)。

深度信息，是指三维空间中的物体到采集设备之间的距离。由于深度信息仅与三维空间中的物体到采集设备之间的距离有关，而与采集时的环境、光线、方向等因素无关，因此深度信息能够较为真实准确地体现三维空间的几何信息。通常，深度信息可以用深度图来表示。

深度图，又被称为距离图像，深度图中的像素存储有该像素对应的三维空间中的物体表面到采集设备之间的距离(深度信息)。

彩色图像，又被称为RGB图像，R、G、B三个字母分别表示RGB图像中对应于红(Red)、绿(Green)、蓝(Blue)这三个颜色，在RGB图像中包括这三个颜色的相关信息，并且由这三个颜色的相关信息叠加组成RGB图像的像素的不同灰度级。RGB图像的颜色空间是构成多彩现实世界的基础。

此外，附图中的任何元素数量均用于示例而非限制，以及任何命名都仅用于区分，而不具有任何限制含义。

下面参考本发明的若干代表性实施方式，详细阐释本发明的原理和精神。

发明概述

本发明人发现，现有的单目相机建图技术存在以下几个缺陷：第一，单目相机无法获取其拍摄到的三维物体的尺度信息。第二，由于机器视觉算法无法获取到稠密的三维点云数据，因此通过这项技术仍无法实现稠密三维重建，即恢复三维物体的表面。

为了克服单目相机建图技术存在的问题，本发明中提出了一种三维重建方法、装置、介质和计算设备。该方法包括：基于第一图像和第一图像对应的第一深度图，创建第一图像的初始三维点云；将该初始三维点云重投影至共视图得到图像坐标，并判断该初始三维点云在所述共视图中是否可视；若该初始三维点云在共视图中可视，则将初始三维点云和图像坐标进行融合得到三维重建模型。本发明的方法通过共视图对三维点云进行优化，并将优化后的三维点云与初始三位点云进行融合，从而获得稠密的三维点云数据，用以实现高精度的三维重建，提高了三维重建的准确性，降低了三维重建的成本。

在介绍了本发明的基本原理之后，下面具体介绍本发明的各种非限制性实施方式。

应用场景总览

本发明实施例可以应用于三维重建场景，尤其是实时在线的三维重建场景。由于实时在线的三维重建场景对三维重建的精度、速度以及资源占用率等要求较高，因此传统的三维重建技术和现有的单目相机建图技术均无法较好地实现该场景下的三维重建，而。本发明实施例既可以应用于静态的三维重建场景，又可以应用于动态的三维重建场景，还可以应用于其他三维重建场景，此处并不限定。本发明实施例所提供的技术方案适用于计算机辅助几何设计(CAGD)、计算机图形学(CG)、计算机动画、计算机视觉、医学图像处理、科学计算和虚拟现实、数字媒体创作等多个领域的三维重建。

示例性方法

下面结合上文所示的应用场景，参考图1来描述根据本发明示例性实施方式的用于三维重建的方法。需要注意的是，上述应用场景仅是为了便于理解本发明的精神和原理而示出，本发明的实施方式在此方面不受任何限制。相反，本发明的实施方式可以应用于适用的任何场景。

本发明实施例提供了一种三维重建方法，如图1所示，该方法包括：

S101、基于第一图像和该第一图像对应的第一深度图，创建该第一图像的初始三维点云；

S102、将初始三维点云重投影至共视图得到图像坐标，并判断该初始三维点云在共视图中是否可视；

S103、若初始三维点云在共视图中可视，则将初始三维点云和图像坐标进行融合得到三维重建模型。

本发明的方法通过共视图对三维点云进行优化，并将优化后的三维点云与初始三位点云进行融合，从而获得稠密的三维点云数据，实现了高精度的三维重建，提高了三维重建的准确性，降低了三维重建的成本。此外，由于

下面对该方法的各个步骤进行详细说明。

S101中，基于第一图像和该第一图像对应的第一深度图创建第一图像的初始三维点云。

本发明实施例中，第一图像包括单张或多张图像，该第一图像的图像类型可以为RGB，也可以为其他类型，此处并不限定。第一深度图包括但不限于第一图像中的三维物体的尺度信息和空间距离信息，以便后续生成的三维重建模型可以反映三维物体的真实尺寸。由于传统的三维重建技术需要通过如Kinect等结构光设备来采集深度图，因此传统的三维重建技术通常会存在成本较高、设备体积大、应用场景较为局限等问题。同时，由于手机、平板电脑、PC等终端中通常均未配置有深度采集设备(如精度较高的深度摄像头等)，无法进行深度图的采集。为了解决传统的三维重建技术存在的问题，也为适应这些终端内的三维重建，本发明实施例提出了采用神经网络对第一图像进行深度预测得到该第一图像对应的深度图(即第一深度图)的方法。需说明的是，下文中将详细说明获取第一深度图的方法，此处不再赘述。

本发明实施例中，三维点云是三维物体的表面信息的集合。三维物体的表面信息以三维点云数据的形式进行记录，这些三维点云数据包括但不限于：三维空间中物体的坐标、颜色、表面材质、粗糙度、物体属性以及光照强度。实际应用中，三维点云数据可以采用PCD格式进行保存，PCD格式的三维点云数据具有较强的可操作性，并且有助于提高点云融合(配准)的速度。通常，各个点之间的距离较大的三维点云称为稀疏点云，各个点之间的距离较小且点的数量较多的三维点云称为稠密点云。

S101中基于第一图像和第一深度图创建第一图像的初始三维点云的实现方式有多种，此处并不限定。例如其中一种实现方式包括以下步骤：

步骤一：对第一图像和该第一深度图进行求解得到初始位姿。

本发明实施例中，初始位姿即是采集第一图像的采集设备的位姿。以第一图像为RGB图像，第一深度图为由该RGB图像预测得到的深度图为例，步骤一中可以将该RGB图像和该深度图输入到SLAM系统，然后采用SLAM系统中的PNP算法根据该RGB图像和该深度图来求解初始位姿。需要说明的是，此处并不限定步骤二中向SLAM系统输入RGB图像和深度图的顺序，此步骤所使用的SLAM系统中的PNP算法与现有技术中类似，此处不再赘述。

步骤二：将共视图作为第一图像的参考帧，对初始位姿进行优化得到相对位姿。

本发明实施例中，若采集设备在不同视角下获取的图像包括同一三维点云中点的数量达到一定阈值(例如点的数量超过50个)，则这些不同视角下的图像即构成共视图。可选的，共视图可以是由多幅深度图构成的。

现有的基于机器视觉的单目相机建图技术中，受到采集图像时环境光线、运动方式等因素的影响，拟合过程中容易出现无法高精度拟合浮点型深度数据，无法获取到稠密的三维点云数据的问题，这造成了ICP匹配算法极易发散，从而导致现有的单目相机建图技术存在三维重建稳定性差、不收敛，TSDF融合过程的精度低、重建表面模糊等问题。

为了克服上述这些问题，步骤二中引入共视图作为第一图像的参考帧，根据参考帧对初始位姿进行调整从而得到相对位姿。通过共视图优化SLAM解算的位姿，有助于弥补ICP匹配算法易发散的缺点，增强三维重建的稳定性，提高三维重建的精度。可选的，步骤二的实现方式有多种，其中一种实现方式是：将共视图作为第一图像的参考帧，第一图像中的像素与该像素对应的三维点云满足如下投影关系：

D(u v 1)^T＝KT_cw(X_W Y_W Z_W)^T

其中，D表示像素对应的深度值，(u v)表示像素在图像中的坐标，K表示内参矩阵，T_cw表示相机位姿，(X_W Y_W Z_W)表示三维点云坐标。假设第一图像为当前帧，若当前帧与参考帧可共视到的三维点云的数量为N个，则根据上述投影关系可联立得到2*N对最小二乘误差方程组，然后将初始位姿作为初值代入上述方程组并采用高斯-牛顿迭代法进行优化求解得到相对位姿。

步骤三：根据相对位姿将第一图像投影至三维空间得到初始三维点云。

即根据经过优化得到的相对位姿，将第一图像中的所有像素投影至三维空间内与这些像素对应的体素中创建初始三维点云。以第一图像为多帧RGB图像，第一深度图为由这多帧RGB图像预测得到的多个深度图为例，步骤三中基于经过共视图优化的相对位姿，将每一帧RGB图像包括的所有像素投影至三维空间内与这些像素一一对应的体素中创建当前帧三维点云，在对这多帧RGB图像进行投影之后，得到由这多个当前帧三维点云构成的初始三维点云。这样，通过步骤三得到的初始三维点云，有助于解决现有技术无法获取到稠密的三维点云数据的问题，弥补了ICP匹配算法易发散的缺点，有助于增强三维重建的稳定性，提高三维重建的精度。

在S101之前，上文所述的获取第一深度图的方法具体为：输入第一图像，然后利用神经网络对第一图像进行拟合得到第一深度图，其中第一深度图包括第一图像中的三维物体的尺度信息和空间距离信息。该第一深度图包括的三维物体的尺度信息和空间距离信息是通过神经网络拟合得到的。需要注意的是，尺度信息包括但不限于三维物体的尺寸大小。此方法具体可以为：S101之前，在线预测深度图时可以先输入单张RGB图像(即第一图像)，然后通过神经网络对该单张RGB图像进行拟合得到该RGB图像对应的初始深度图，并对该初始深度图进行梯度滤波等预处理，从而在预处理之后得到该RGB图像对应的预测深度图(即第一深度图)，该预测深度图携带有该RGB图像包括的三维物体的尺度信息。这样，通过预测深度图携带的三维物体的尺度信息，有助于解决单目相机无法获取其拍摄到的三维物体的尺度信息的问题。

S101之前，通过如下步骤对上文中的神经网络进行训练：

训练步骤一：输入用于训练的第二图像和该第二图像对应的真值深度图，真值深度图包括第二图像中的三维物体的真实尺度信息和真实空间距离信息。该真值深度图包括的三维物体的真实尺度信息和真实空间距离信息是通过采集设备采集到的。

训练步骤二：利用神经网络对第二图像进行拟合得到第二深度图，第二深度图包括基于第二图像拟合出的三维物体的尺度信息和空间距离信息。

训练步骤三：对比真值深度图和第二深度图，对神经网络进行优化和训练。

本发明实施例中，为得到真实世界的尺度信息，神经网络可以设计为有监督的卷积神经网络(Convolutional Neural Network，CNN)，并将第一图像的深度预测问题作为回归拟合问题。

相应地，本发明实施例中，神经网络的基本网络结构所采用的模型可以为深度残差网络，有助于提升训练效果，提升网络预测精度，使得训练易收敛，从而解决梯度消失的问题。例如神经网络可以是基于深度残差网络构建的Resnet50。

本发明实施例中，神经网络中还包括用于估计每个像素点的深度信息的网络层，这样有助于提高神经网络预测的精度和边缘细节的精度，从而较好地满足深度预测的精度要求。例如可以在resnet50之后引入Deconv层。由于经过resnet50的卷积操作后图像尺寸较小，因此为了提高resnet50预测的精度和边缘细节的精度，引入Deconv层估计每个像素点的深度信息，以便扩大图像的尺寸后再输出最终的深度信息。

假设神经网络的基本网络结构采用的是resnet50，并且在resnet50后神经网络还引入了Deconv层，以第二图像是RGB图像，真值深度图是该RGB图像对应的真值深度图为例说明上文中的训练步骤一至三：训练步骤一中，向resnet50输入RGB图像和该RGB图像对应的真值深度图。可选的，该真值深度图可以是通过深度采集设备获取的。训练步骤二中，利用resnet50对该RGB图像进行拟合得到第二深度图，其中resnet50后还引入Deconv层用于估计该RGB图像中每个像素点的深度信息，该真值深度图包括基于该RGB图像拟合出的三维物体的尺度信息和空间距离信息。训练步骤三中，对比该RGB图像对应的真值深度图和第二深度图，通过学习迭代过程实现对resnet50进行优化和训练，以便提升resnet50对每个像素的深度信息的拟合效果。

S102中将初始三维点云重投影至共视图得到图像坐标，并判断该初始三维点云在共视图中是否可视。

本发明实施例中，S102的重投影可理解为对由第一图像投影得到的初始三维点云进行再次投影的过程。S102中将初始三维点云重投影至共视图得到图像坐标的实现方式有多种，其中一种可以为：根据相对位姿将初始三维点云重投影至共视图得到图像坐标。具体的，根据相对位姿将初始三维点云中所有点重投影至共视图像帧内与这些点一一对应的像素中，并获取这些像素的坐标作为这些像素对应的点在共视图中的图像坐标。例如，S102中引入共视图作为参考帧图像，根据相对位姿将初始三维点云P_curr重投影至参考帧图像像帧内与该初始三维点云P_curr对应的像素，并获取该像素的平面坐标X_ref作为该初始三维点云P_curr在参考帧图像中的图像坐标。

S102中判断初始三维点云在共视图中是否可视的实现方式也有多种。照应上文所示的重投影方法，由于初始三维点云重投影至共视图中得到的图像坐标均为共视图所在平面内的平面坐标，因此S102中可以通过判断这些图像坐标是否处于共视图的边界内来确定初始三维点云在共视图中是否可视。即若初始三维点云重投影至共视图中得到的图像坐标处于共视图的边界内，则记录该初始三维点云在共视图中可视，并记录该初始三维点云对应的图像坐标；若初始三维点云重投影至共视图中得到的图像坐标没有处于共视图的边界内，则确定不记录该初始三维点云在共视图中可视。

具体的，假设初始三维点云P_curr，该初始三维点云P_curr在共视图中的图像坐标为X_ref，引入共视图作为参考帧图像，S103中若初始三维点云中的点P_curr对应的图像坐标X_ref处于参考帧图像的边界内，则将该初始三维点云P_curr标记为在参考帧图像中可视，并记录该初始三维点云P_curr的图像坐标X_ref；若初始三维点云P_curr对应的图像坐标X_ref没有处于参考帧图像的边界内，则确定不将该初始三维点云P_curr标记为在参考帧图像中可视。

S103中若初始三维点云在共视图中可视，则将初始三维点云和图像坐标进行融合得到三维重建模型。S103的一种实现方式为：若图像坐标处于共视图的边界内，则将该图像坐标对应的初始三维点云中各点的坐标和该图像坐标进行移动加权平均得到三维重建模型。

具体的，假设初始三维点云P_curr，该初始三维点云P_curr在共视图中的图像坐标为X_ref，引入共视图作为参考帧图像，S103中若图像坐标X_ref处于参考帧图像的边界内，则根据相对位姿计算出该图像坐标X_ref对应的参考帧三维点云P_ref，将该参考帧三维点云P_ref的值与初始三维点云P_curr的值进行加权平均得到三维重建模型P。

通过S103中基于在共视图中构建的可视关系获得稠密的三维点云数据，并以稠密的三维点云数据为基础进行点云融合，避免了噪声点(即不具有可视性的三维点云)对点云融合过程的影响，完成了点云融合中的平滑去躁、三维模型的提取(refine)等过程，从而实现了高精度的三维重建，提高了三维重建的准确性，降低了三维重建的成本。同时，克服了传统的三维重建技术和现有的单目相机建图技术存在的问题，增加了三维重建的稳定性，提高了点云融合的精度，改善了三维重建的不收敛以及重建表面模糊等问题。

示例性装置

在介绍了本发明示例性实施方式的方法之后，接下来，介绍本发明提供了示例性实施的装置。

参考图2，本发明提供了一种三维重建装置，该装置可以实现图1对应的对本发明示例性实施方式中的方法。参阅图2所示，该装置包括：创建单元、投影单元、判断单元以及融合单元，其中，

创建单元，用于基于第一图像和第一图像对应的第一深度图创建第一图像的初始三维点云；

投影单元，用于将初始三维点云重投影至共视图得到图像坐标；

判断单元，用于判断初始三维点云在共视图中是否可视；

融合单元，用于若初始三维点云在共视图中可视，则将初始三维点云和图像坐标进行融合得到三维重建模型。

可选的，该装置还包括拟合单元，用于利用神经网络对第一图像进行拟合得到第一深度图，其中第一深度图包括第一图像中的三维物体的尺度信息和空间距离信息。

可选的，该装置还包括训练单元，用于输入用于训练的第二图像和第二图像对应的真值深度图，真值深度图包括第二图像中的三维物体的真实尺度信息和真实空间距离信息；利用神经网络对第二图像进行拟合得到第二深度图，第二深度图包括基于第二图像拟合出的三维物体的尺度信息和空间距离信息；对比真值深度图和第二深度图，对神经网络进行优化和训练。

相应地，神经网络的基本网络结构所采用的模型为深度残差网络。

相应地，神经网络中还包括用于估计每个像素点的深度信息的网络层。

可选的，创建单元具体用于：对第一图像和第一深度图进行求解得到初始位姿；将共视图作为第一图像的参考帧，对初始位姿进行优化得到相对位姿；根据相对位姿将第一图像投影至三维空间得到初始三维点云。

可选的，投影单元具体用于：根据相对位姿将初始三维点云重投影至共视图得到图像坐标。

可选的，判断单元具体用于：判断图像坐标是否处于共视图的边界内。融合单元具体用于：若图像坐标处于共视图的边界内，则将初始三维点云和图像坐标进行移动加权平均得到三维重建模型。

示例性介质

在介绍了本发明示例性实施方式的方法和装置之后，接下来，参考图3，本发明提供了一种示例性介质，该介质存储有计算机可执行指令，该计算机可执行指令可用于使所述计算机执行图1对应的本发明示例性实施方式中任一项所述的方法。

示例性计算设备

在介绍了本发明示例性实施方式的方法、介质和装置之后，接下来，参考图4，介绍本发明提供的一种示例性计算设备，该设备包括处理器、存储器以及收发机，其中该存储器，用于存储处理器执行的程序；该处理器，用于根据该存储器存储的程序，执行图1对应的本发明示例性实施方式中任一项所述的方法；该收发机，用于在该处理器的控制下接收或发送数据。

应当注意，尽管在上文详细描述中提及了三维重建装置的若干单元/模块或子单元/模块，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之，上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

虽然已经参考若干具体实施方式描述了本发明的精神和原理，但是应该理解，本发明并不限于所公开的具体实施方式，对各方面的划分也不意味着这些方面中的特征不能组合以进行受益，这种划分仅是为了表述的方便。本发明旨在涵盖所附权利要求的精神和范围内所包括的各种修改和等同布置。

Claims

1.一种三维重建方法，其特征在于，包括：

基于第一图像和所述第一图像对应的第一深度图，创建所述第一图像的初始三维点云；

将所述初始三维点云重投影至共视图得到图像坐标，并判断所述初始三维点云在所述共视图中是否可视；

若所述初始三维点云在所述共视图中可视，则将所述初始三维点云和所述图像坐标进行融合得到三维重建模型。

2.如权利要求1所述的方法，其特征在于，通过如下方法获取所述第一深度图，还包括：

利用神经网络对所述第一图像进行拟合得到所述第一深度图，其中所述第一深度图包括所述第一图像中的三维物体的尺度信息和空间距离信息。

3.如权利要求2所述的方法，其特征在于，通过如下方法对所述神经网络进行训练，还包括：

输入用于训练的第二图像和所述第二图像对应的真值深度图，所述真值深度图包括所述第二图像中的三维物体的真实尺度信息和真实空间距离信息；

利用所述神经网络对所述第二图像进行拟合得到第二深度图，所述第二深度图包括基于所述第二图像拟合出的三维物体的尺度信息和空间距离信息；

对比所述真值深度图和所述第二深度图，对所述神经网络进行优化和训练。

4.如权利要求2或3所述的方法，其特征在于，所述神经网络的基本网络结构所采用的模型为深度残差网络。

5.如权利要求1至4任一所述的方法，其特征在于，所述基于第一图像和所述第一图像对应的第一深度图，创建所述第一图像的初始三维点云，包括：

对所述第一图像和所述第一深度图进行求解得到初始位姿；

将所述共视图作为所述第一图像的参考帧，对所述初始位姿进行优化得到相对位姿；

根据所述相对位姿将所述第一图像投影至三维空间得到所述初始三维点云。

6.如权利要求5所述的方法，其特征在于，所述将所述初始三维点云重投影至共视图得到图像坐标，包括：

根据所述相对位姿将所述初始三维点云重投影至所述共视图得到所述图像坐标。

7.如权利要求5所述的方法，其特征在于，所述判断所述初始三维点云在所述共视图中是否可视，包括：

判断所述图像坐标是否处于所述共视图的边界内；

所述若所述初始三维点云在所述共视图中可视，则将所述初始三维点云和所述图像坐标进行融合得到三维重建模型，包括：

若所述图像坐标处于所述共视图的边界内，则将所述初始三维点云和所述图像坐标进行移动加权平均得到所述三维重建模型。

8.一种三维重建装置，其特征在于，包括：

创建单元，用于基于第一图像和所述第一图像对应的第一深度图创建所述第一图像的初始三维点云；

投影单元，用于将所述初始三维点云重投影至共视图得到图像坐标；

判断单元，用于判断所述初始三维点云在所述共视图中是否可视；

融合单元，用于若所述初始三维点云在所述共视图中可视，则将所述初始三维点云和所述图像坐标进行融合得到三维重建模型。

9.一种计算设备，其特征在于，包括处理器、存储器以及收发机；

所述存储器，用于存储所述处理器执行的程序；

所述处理器，用于根据所述存储器存储的程序，执行权利要求1至7任一项所述的方法；

所述收发机，用于在所述处理器的控制下接收或发送数据。

10.一种介质，其特征在于，所述介质存储有计算机可执行指令，所述计算机可执行指令用于使所述计算机执行权利要求1至7任一项所述的方法。