CN106934827A

CN106934827A - 三维场景的重建方法和装置

Info

Publication number: CN106934827A
Application number: CN201511032810.6A
Authority: CN
Inventors: 陈子冲; 章国锋; 吕朝阳; 吕培
Original assignee: Hangzhou Huawei Digital Technologies Co Ltd
Current assignee: Hangzhou Huawei Digital Technologies Co Ltd
Priority date: 2015-12-31
Filing date: 2015-12-31
Publication date: 2017-07-07

Abstract

本发明提供一种三维场景的重建方法和装置，包括：根据当前帧的深度图像以及参考帧的深度图像，获取当前帧的第一相机姿态；根据当前帧的灰度图像以及参考帧的灰度图像，估计当前帧的第二相机姿态；根据当前帧的第一相机姿态以及当前帧的第二相机姿态，获取当前帧的融合后的相机姿态；根据当前帧的深度图像和当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型。本实施例的三维场景的重建方法，通过将基于深度信息的第一相机姿态估计和基于灰度信息的第二相机姿态估计进行融合，缩小了相机姿态估计中的累计误差，在不同场景下表现更加稳定，使得重建的三维场景更准确。

Description

三维场景的重建方法和装置

技术领域

本发明实施例涉及图像处理技术，尤其涉及一种三维场景的重建方法和装置。

背景技术

三维重建是指对三维物体建立适合计算机表示和处理的数学模型,是在计算机中建立表达客观世界的虚拟现实的关键技术。实现三维重建的技术主要有Kinect Fusion技术，其是基于彩色和深度图像的实时姿态定位匹配(Simultaneous Localization and Mapping，简称SLAM)技术，即利用Kinect摄像机围绕待重建的三维物体进行拍摄，从而实时重建物体的三维模型。但是Kinect Fusion的工作场景大小和分辨率由图形处理器GPU的显存大小决定，对于超出该显存大小的场景将无法计算处理。

另一种三维重建技术Kintinous技术，是在Kinect Fusion的基础上，扩展到大场景下的一种三维重建技术。与Kinect Fusion相比，Kintinous主要解决了Kinect Fusion由于GPU显存限制而导致的场景限制问题。Kintinous在实时的姿态估计过程中，基于之前的相机姿态获取当前的相机姿态，并根据当前的相机姿态，更新三维场景模型。

虽然Kintinous解决了Kinect Fusion三维场景受限的问题，但当系统长时间运行时，由于Kintinous中相机姿态的都是基于前一帧的姿态轨迹进行估计得到，当其中某一帧中相机的姿态轨迹出现误差时，会导致后续帧中相机的姿态轨迹产生累计误差，因而相机的姿态轨迹偏离真实轨迹，导致重建的三维场景不准确。

发明内容

本发明实施例提供一种三维场景的重建方法和装置，缩小了相机姿态估计中的累计误差。

第一方面，本发明实施例提供一种三维场景的重建方法，包括：

根据当前帧的深度图像以及参考帧的深度图像，获取所述当前帧的第一相机姿态，所述第一相机姿态包括用于获取所述当前帧的深度图像的相机的位置信息以及朝向信息；

根据所述当前帧的灰度图像以及所述参考帧的灰度图像，估计所述当前帧的第二相机姿态，所述第二相机姿态包括用于获取所述当前帧的灰度图像的相机的位置信息以及朝向信息；

根据所述当前帧的第一相机姿态以及所述当前帧的第二相机姿态，获取所述当前帧的融合后的相机姿态；

根据所述当前帧的深度图像和所述当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型。

其中，所述第一相机姿态为：根据当前帧的深度图像和参考帧的深度图像，利用迭代最近点法ICP算法获得的相机姿态。第二相机姿态为：根据当前帧的灰度图像和参考帧的灰度图像，利用特征点匹配算法估计得到的当前帧的相机姿态。

结合第一方面，在第一方面的第一种可能的实现方式中，所述根据当前帧的深度图像以及参考帧的深度图像，获取所述当前帧的第一相机姿态包括：

将所述当前帧的深度图像中的像素与所述参考帧的深度图像中的像素进行匹配，根据匹配的像素点对以及所述参考帧的第一相机姿态，获取所述当前帧的第一相机姿态；相应的，

所述根据所述当前帧的第一相机姿态以及所述当前帧的第二相机姿态，获取所述当前帧的融合后的相机姿态包括：

根据所述匹配的像素点对的个数以及所述当前帧的像素点个数，获取匹配成功率；

判断所述匹配成功率是否小于或等于第一阈值；

若所述匹配成功率小于或等于所述第一阈值，将所述当前帧的第二相机姿态作为初始姿态，基于所述初始姿态、所述当前帧的灰度图像以及所述参考帧的灰度图像，迭代获取所述当前帧的第二优化相机姿态；

将所述当前帧的第二优化相机姿态和所述当前帧的第一相机姿态进行融合，从而获取所述当前帧的融合后的相机姿态。

本实施例中，根据当前帧的深度图像中的像素与所述参考帧的深度图像中的像素进行匹配计算当前帧的第一相机姿态，并计算该过程中的匹配成功率，当匹配成功率小于预设第一阈值时，采用当前帧的第二相机姿态作为当前帧的初始姿态，基于参考帧的第二相机姿态、当前帧的灰度图像以及参考帧的灰度图像，迭代获取当前帧的第二优化相机姿态，从而根据第二优化相机姿态和第一相机姿态进行融合获取融合后的相机姿态，通过判断获取第一相机姿态过程中的匹配成功率，从而可以合理选择初始姿态，使得融合时的相机姿态更准确。

结合第一方面的第一种可能的实现方式，在第一方面的第二种可能的实现方式中，所述根据所述当前帧的第一相机姿态以及所述当前帧的第二相机姿态融合，获取所述当前帧的融合后的相机姿态还包括：

若所述匹配成功率大于所述第一阈值，将所述当前帧的第一相机姿态作为初始姿态，基于所述初始姿态、所述当前帧的灰度图像以及所述参考帧的灰度图像，迭代获取所述当前帧的第二优化相机姿态；

本实施例中，当相机姿态变化较小，场景几何信息丰富的情况下，由于ICP算法具有精度高速度快，不受光照影响的优点，因此，当获取第一相机姿态时的匹配成功率大于预设第一阈值时，采用当前帧的第一相机姿态作为当前帧的初始姿态，缩短了特征匹配计算第二相机姿态算法消耗的时间，满足实时性的要求。

结合第一方面的第一种可能的实现方式，在第一方面的第三种可能的实现方式中，所述根据所述当前帧的灰度图像以及所述参考帧的灰度图像，估计所述当前帧的第二相机姿态包括：

提取所述当前帧的灰度图像中的特征点；

提取所述参考帧的灰度图像中的特征点；

将所述当前帧的灰度图像中的特征点与所述参考帧的灰度图像中的特征点进行匹配，根据匹配获得的特征点对以及所述参考帧的第二相机姿态，获取所述当前帧的第二相机姿态；相应的，

所述将所述当前帧的第二相机姿态作为初始姿态，基于所述初始姿态、所述当前帧的灰度图像以及所述参考帧的灰度图像，迭代获取所述当前帧的第二优化相机姿态包括：

根据所述当前帧的第二相机姿态和所述参考帧的第二相机姿态，将所述当前帧的灰度图像的特征点投影到所述参考帧的灰度图像，获取所述当前帧的灰度图像的特征点到所述参考帧的灰度图像的特征点的第一投影误差；

根据所述当前帧的第二相机姿态和参考帧的第二相机姿态，将所述参考帧的灰度图像的特征点投影到所述当前帧的灰度图像，获取所述参考帧的灰度图像的特征点到所述当前帧的灰度图像的特征点的第二投影误差；

建立所述第一投影误差以及所述第二投影误差均小于第二阈值的第一特征点对的第一能量模型，所述第一能量模型指示所述第一投影误差以及所述第二投影误差的大小；

迭代求解所述第一能量模型得到所述当前帧的第二优化相机姿态。

本实施例中，通过对提取当前帧和参考帧的灰度图像的特征点并进行匹配，然后计算双向投影误差，建立能量模型，从而对第二相机姿态进行优化，使得获得的第二相机姿态更准确。

结合第一方面的第一至第三种任一种可能的实现方式，在第一方面的第四种可能的实现方式中，所述融合后的相机姿态包括所述融合后的相机姿态的平移矩阵，所述将所述当前帧的第二优化相机姿态和所述当前帧的第一相机姿态进行融合，从而获取所述当前帧的融合后的相机姿态包括：

根据公式T＝w_icp·T_icp+w_rgb·T_rgb获取融合后的相机姿态的平移矩阵，其中，T_icp为所述第一相机姿态的平移矩阵，T_rgb为所述第二相机姿态的平移矩阵，T为融合后的相机姿态的平移矩阵；

其中，w_icp＝w_icp'/(w_icp'+w_rgb')，w_rgb＝1-w_icp，w_icp为所述第一相机姿态的权重，w_rgb所述第二相机姿态的权重；

其中，为所述当前帧的深度图像中的像素和所述参考帧的深度图像中的像素之间匹配的像素点个数，nt_icp为当前帧的深度图像中的所有像素点的个数，a，b为系数；

为所述当前帧的灰度图像中的特征点与所述参考帧的灰度图像中的特征点之间匹配的特征点个数,nt_rgb为所述当前帧的灰度图像中的所有特征点个数，c，d为系数。

本实施例中，在将第二优化相机姿态和第一相机姿态进行融合时分别计算第一相机姿态和第二相机姿态的权重，并利用球面线性差值算法将二者融合，计算出融合后的相机姿态的平移矩阵，从而更高效准确的获得当前帧的相机姿态。

结合第一方面的第一至第四种任一种可能的实现方式，在第一方面的第五种可能的实现方式中，所述融合后的相机姿态包括所述融合后的相机姿态的旋转矩阵，所述将所述当前帧的第二优化相机姿态和所述当前帧的第一相机姿态进行融合，从而获取所述当前帧的融合后的相机姿态包括：

根据公式获取融合后的相机姿态的旋转矩阵，其中，为所述第一相机姿态的旋转矩阵，为所述第二相机姿态的旋转矩阵，R^q为所述融合后的相机姿态的旋转矩阵，teta为从的朝向到的朝向的夹角；

其中，w_icp＝w_icp'/(w_icp'+w_rgb')，w_icp为所述第一相机姿态的权重；

为所述当前帧的深度图像中的像素和所述参考帧的深度图像中的像素之间匹配的像素点个数，nt_icp为当前帧的深度图像中的所有像素点的个数，a，b为系数；

本实施例中，在将第二优化相机姿态和第一相机姿态进行融合时分别计算第一相机姿态和第二相机姿态的权重，并利用球面线性差值算法将二者融合，计算出融合后的相机姿态的旋转矩阵，从而更高效准确的获得当前帧的相机姿态。

结合第一方面，第一方面的第一至第五种任一种可能的实现方式，在第一方面的第六种可能的实现方式中，所述根据所述当前帧的深度图像和所述当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型包括：

若第二特征点对的个数小于第三阈值时，将所述当前帧加入到所述参考帧所在的关键帧序列从而得到更新后的关键帧序列，所述第二特征点对通过将所述当前帧的灰度图像中的特征点与所述参考帧的灰度图像中的特征点进行匹配获得；

根据所述更新后的关键帧序列，获取所述更新后的关键帧序列对应三维点云，所述三维点云中的点与所述更新后的关键帧序列中灰度图像的特征点对应；

根据所述当前帧的融合后的相机姿态，将所述三维点云的点投影到所述当前帧的灰度图像，获取所述三维点云的点到所述当前帧的灰度图像的特征点的第三投影误差；

建立所述第三投影误差的第二能量模型，迭代求解所述第二能量模型得到所述当前帧的目标相机姿态；

根据所述当前帧的深度图像和所述当前帧的目标相机姿态，生成当前帧对应的三维场景模型。

本实施例中，通过将匹配的特征点和之前保存的关键帧的特征点建立对应关系，将未匹配的特征点加入到三维点云结构，从而完成对已有点云信息的增补，并通过建立更新后的三维点云到当前帧的束优化约束方程，可以逼近其最优解，最大程度消除了累积误差。

第二方面，本发明实施例提供一种三维场景的重建装置，包括：

第一获取模块，用于根据当前帧的深度图像以及参考帧的深度图像，获取所述当前帧的第一相机姿态，所述第一相机姿态包括用于获取所述当前帧图的深度图像的相机的位置信息以及朝向信息；

第二获取模块，用于根据所述当前帧的灰度图像以及所述参考帧的灰度图像，估计所述当前帧的第二相机姿态，所述第二相机姿态包括用于获取所述当前帧的灰度图像的相机的位置信息以及朝向信息；

融合模块，用于根据所述第一获取模块获取得到的所述当前帧的第一相机姿态以及所述第二获取模块获取得到的所述当前帧的第二相机姿态，获取所述当前帧的融合后的相机姿态；

生成模块，用于根据所述当前帧的深度图像和所述融合模块获取得到的所述当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型。

结合第二方面，在第二方面的第一种可能的实现方式中，所述第一获取模块用于：

将所述当前帧的深度图像中的像素与所述参考帧的深度图像中的像素进行匹配；根据匹配的像素点对以及所述参考帧的第一相机姿态，获取所述当前帧的第一相机姿态；相应的，

所述融合模块用于：

判断所述匹配成功率是否小于或等于第一阈值；

若所述匹配成功率小于或等于所述第一阈值，将所述当前帧的第二相机姿态作为初始姿态，基于所述初始姿态、所述当前帧的灰度图像以及所述参考帧的灰度图像，迭代获取所述当前帧的第二优化相机姿态；将所述当前帧的第二优化相机姿态和所述当前帧的第一相机姿态进行融合，从而获取所述当前帧的融合后的相机姿态。

结合第二方面的第一种可能的实现方式，在第二方面的第二种可能的实现方式中，所述第二获取模块用于：

提取所述当前帧的灰度图像中的特征点；

提取所述参考帧的灰度图像中的特征点；

将所述当前帧的灰度图像中的特征点与所述参考帧的灰度图像中的特征点进行匹配，根据匹配获得的特征点对以及所述参考帧的第二相机姿态，获取所述当前帧的第二相机姿态；

建立所述第一投影误差以及所述第二投影误差均小于第二阈值的第一特征点对的第一能量模型，所述第一能量模型指示第一投影误差以及所述第二投影误差的大小；

结合第二方面的第一或第二种可能的实现方式，在第二方面的第三种可能的实现方式中，所述融合模块用于：

结合第二方面的第一至第三种任一种可能的实现方式，在第二方面的第四种可能的实现方式中，所述融合模块用于：

结合第二方面，第二方面的第一至第四种任一种可能的实现方式，在第二方面的第五种可能的实现方式中，所述生成模块用于：

本发明实施例的三维场景的重建方法和装置，通过根据当前帧的深度图像以及参考帧的深度图像，获取当前帧的第一相机姿态，并根据当前帧的灰度图像以及参考帧的灰度图像，估计当前帧的第二相机姿态；然后根据当前帧的第一相机姿态以及当前帧的第二相机姿态，获取当前帧的融合后的相机姿态；最后根据当前帧的深度图像和当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型。本实施例的三维场景的重建方法，通过将基于深度信息的第一相机姿态估计和基于灰度信息的第二相机姿态估计进行融合，缩小了相机姿态估计中的累计误差，在不同场景下表现更加稳定，使得重建的三维场景更准确。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明的应用场景图；

图2是本发明提供的三维场景的重建方法实施例一的流程图；

图3为双向投影误差示意图；

图4为TSDF体的动态变化示意图；

图5为球面线性差值SLERP原理示意图；

图6为空间中三维点云的与融合的三维模型的关系示意图；

图7为三维点云与关键帧图像建立约束的过程示意图；

图8为特征点的匹配过程中当前帧与2号关键帧的特征点匹配结果；

图9为本发明提供的三维场景的重建方法在室内场景4*4*4的区域融合后得到的三维模型；

图10为本发明提供的三维场景的重建装置实施例一的结构示意图；

图11为本发明提供的三维场景的重建装置实施例二的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明应用在三维场景重建中，图1为本发明的应用场景图，如图1所示，包括：室内场景，基于颜色深度RGB-D传感器的相机(例如Kinect摄像机)以及图形处理器GPU和中央处理器CPU，在实际建模的过程中，需要人手持该相机对室内场景进行扫描，然后将扫描得到的视频序列传输给GPU和CPU进行处理，最后得到重建的三维场景。

现有三维场景重建方法，在对相机的姿态进行跟踪时，当相机姿态变化较小，场景几何信息丰富的情况下，以GPU实现的ICP算法具有精度高速度快，不受光照影响的优点；但是在大范围场景的测试中，相机在某个时刻姿态移动较大，或者移动到某个简单场景，亦或将相机太高，深度信息丢失时，依赖于ICP算法的姿态估计算法会导致姿态的累积误差突然增大，甚至完全跟踪失败。而利用特征点的跟踪算法，可以弥补ICP算法在场景简单，深度信息丢失严重等场景下的跟踪能力的不足。因此，本发明提出了对两种姿态跟踪算法进行融合，在保证实时性的前提下，建立一种新的RGB-D姿态估算器。

图2是本发明提供的三维场景的重建方法实施例一的流程图，如图2所示，该方法包括以下步骤：

步骤101：根据当前帧的深度图像以及参考帧的深度图像，获取当前帧的第一相机姿态。

其中，第一相机姿态包括用于获取当前帧的深度图像的相机的位置信息以及朝向信息。

具体的，第一相机姿态是指：基于RGB-D相机拍摄的当前帧的深度图像和参考帧的深度图像，利用迭代最近点法ICP算法获得的相机姿态。相机姿态包括相机的位置信息和朝向信息，用于获取当前帧图的深度图像。其中，ICP算法是基于几何模型的三维物体对准算法，其具有非常精确的配准效果，运算速度非常快。因而，在深度图像上应用ICP算法计算当前帧的第一相机姿态。其中，参考帧为关键帧序列中在时间方向上和当前帧最接近的关键帧。关键帧序列的选取方法如下：初始关键帧即为第一帧。将当前帧与参考帧进行匹配时候，内点inliers点的数目大于一定阈值的时候，该阈值可选的为150，认为是准确的匹配。当前帧无法与关键帧进行准确匹配时，即将当前帧作为新的关键帧。如此遍历完所有的图像帧，即完成所有关键帧的选取。该过程是在CPU端完成。

步骤102：根据当前帧的灰度图像以及参考帧的灰度图像，估计当前帧的第二相机姿态。

其中，第二相机姿态包括用于获取当前帧的灰度图像的相机的位置信息以及朝向信息。

具体的，第二相机姿态是指：基于RGB-D相机拍摄的当前帧的灰度图像和参考帧的灰度图像，利用特征点匹配算法估计得到的当前帧的第二相机姿态。

步骤103：根据当前帧的第一相机姿态以及所述当前帧的第二相机姿态，获取当前帧的融合后的相机姿态。

具体的，根据获得的当前帧的第一相机姿态和当前帧的第二相机姿态后，进行融合得到当前帧的融合后的相机姿态。结合第二相机姿态，可以弥补第一相机姿态算法在场景简单，深度信息丢失严重等场景下的跟踪能力的不足问题。

步骤104：根据当前帧的深度图像和当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型。

具体的，在本步骤中，根据当前帧的深度图像和融合后的相机姿态，生成当前帧对应的三维场景模型。具体的，根据当前帧的深度图像和当前帧的融合后的相机姿态，可以得到当前帧对应的TSDF体，并估计当前帧的TSDF体的姿态。其中，TSDF体是一个三维体，被划分为规则的体像素voxel，每个体像素里存储的是该体像素到被拍摄的物体表面surface的距离，根据深度图像可以得到对应的TSDF体。

然后保存当前帧的TSDF体和TSDF体的姿态到本地磁盘，需要说明的是，当TSDF体动态移动时，针对TSDF体中每个体素的移动，将每个体素从当前工作区三维体向新建立的三维体拷贝。最后，将当前工作区三维体保存到本地磁盘，与新建立的三维体交换指针位置。当TSDF体移动到已经存储过的场景，仍然建立新的空TSDF体进行存储。图3为TSDF体的动态变化示意图；如图3所示，将三维体保存到本地磁盘是一个易受I/O影响的过程。在步骤中，由于后续过程中可以对不同工作区进行有效的融合，因此可以将三维体工作区的大小限制在一个合理大小(2m*2m*2m)，该大小场景的三维体在GPU到CPU以及磁盘的拷贝过程中不影响该方法的实时性。

当实时的扫描完成后，统一对所有的TSDF三维体进行融合。即当不再有新的图像加入时，将保存在本地的TSDF体逐一融合到全局的模型之中，TSDF体中每个体素根据其对应的三维体的姿态对应到目标位置，与之融合。

最后，当空间中的一块V_i ^g融合完毕后，将其利用移动立方体marching cube算法生成全局的surface信息，并对此surface进行保存。此时清空GPU的显存，加载下一块区域的重复执行将扫描过程中已保存的TSDF三维体模型逐一融合到中。

本实施例的三维场景的重建方法，通过根据当前帧的深度图像以及参考帧的深度图像，获取当前帧的第一相机姿态，并根据当前帧的灰度图像以及参考帧的灰度图像，估计当前帧的第二相机姿态；然后根据当前帧的第一相机姿态以及当前帧的第二相机姿态，获取当前帧的融合后的相机姿态；最后根据当前帧的深度图像和当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型。本实施例的三维场景的重建方法，通过将基于深度信息的第一相机姿态估计和基于灰度信息的第二相机姿态估计进行融合，缩小了相机姿态估计中的累计误差，在不同场景下表现更加稳定，使得重建的三维场景更准确。

进一步地，在图1所示实施例的基础上，所述根据当前帧的深度图像以及参考帧的深度图像，获取所述当前帧的第一相机姿态包括：

判断所述匹配成功率是否小于或等于第一阈值；

具体的，根据当前帧的深度图像以及参考帧的深度图像，获取当前帧的第一相机姿态包括，将当前帧的深度图像中的像素与参考帧的深度图像中的像素进行匹配，根据匹配的像素点对和参考帧的第一相机姿态，获取当前帧的第一相机姿态。相应的，根据当前帧的第一相机姿态以及当前帧的第二相机姿态，获取当前帧的融合后的相机姿态具体为：

首先，计算在获取第一相机姿态时的匹配成功率，具体根据匹配的像素点对的个数以及当前帧的像素点个数来计算；判断该匹配成功率是否小于或等于第一阈值，如果小于等于第一阈值，则将当前帧的第二相机姿态作为初始姿态，根据该初始姿态、当前帧的灰度图像以及参考帧的灰度图像，迭代获取当前帧的第二优化相机姿态。然后，将当前帧的第二优化相机姿态和当前帧的第一相机姿态进行融合，获取当前帧的融合后的相机姿态。

进一步地，所述根据所述当前帧的第一相机姿态以及所述当前帧的第二相机姿态融合，获取所述当前帧的融合后的相机姿态还包括：

具体的，由于匹配成功率大于第一阈值，此时利用ICP算法获取第一相机姿态时的匹配较好，且ICP算法具有精度高速度快，不受光照影响的优点，因此采用当前帧的第一相机姿态作为初始姿态，基于初始姿态、当前帧的灰度图像以及参考帧的灰度图像，迭代获取当前帧的第二优化相机姿态，将当前帧的第二优化相机姿态和当前帧的第一相机姿态进行融合，从而获取当前帧的融合后的相机姿态，缩短了特征匹配计算初始姿态时消耗的时间，满足实时性的要求。

进一步地，所述根据所述当前帧的灰度图像以及所述参考帧的灰度图像，估计所述当前帧的第二相机姿态包括：

提取所述当前帧的灰度图像中的特征点；

提取所述参考帧的灰度图像中的特征点；

具体的，在根据当前帧的灰度图像以及参考帧的灰度图像，估计当前帧的第二相机姿态之前还包括：将RGB-D相机拍摄的当前帧的RGB彩色图像转化为灰度图像，具体是通过对RGB-D相机拍摄的当前帧的RGB彩色图像进行灰度变换，将彩色图像转化为灰度图像。然后对灰度图像进行高斯金字塔分层，使得该方法能够更好的应对尺度的变化和运动模糊的情况。这里对原始分辨率(640x480)的图像，做两次降采样(加上原始的图像总共是3个层次)，每次降采样都采用高斯作为卷积的内核。通过对图像进行高斯金字塔分层，使得系统能够更好的应对尺度的变化和运动模糊的情况。接着，提取当前帧和参考帧的灰度图像中的特征点，其中，灰度图像上特征点的检测和提取都采用FAST特征点，提取出的特征点信息包括：

1)特征点在灰度图像上的二维坐标uv；

2)特征点在图像金字塔中的层次索引；

3)特征点在当前帧坐标系下的三维坐标；

4)特征点的FAST描述符；

5)特征点描述符的索引。对于每一个特征点来说，仅保存该特征点在关键帧中的索引，以及该关键帧在全局所有关键帧的索引即可。

最后，对当前帧的灰度图像中的特征点和参考帧的灰度图像中的特征点进行匹配，根据匹配的特征点对和参考帧的第二相机姿态，获取当前帧的第二姿态。

其中，迭代获取当前帧的第二优化相机姿态具体为，根据当前帧的第二相机姿态和参考帧的第二相机姿态，利用双向投影误差，获取第二优化相机姿态。利用当前帧的第二相机姿态与参考帧的第二相机姿态，可以把当前帧的灰度图像的特征点投影到参考帧的灰度图像，同时把参考帧的灰度图像的特征点投影到当前帧的灰度图像。

具体的，依据当前帧的第二相机初始姿态，以及当前帧的参考帧的相机姿态，基于双向投影误差算法，对当前帧的第二相机姿态进行优化。图4为双向投影误差示意图；如图4所示，可以利用三维的投影约束来剔除外点outliers，每一帧的特征点都有一个局部的三维坐标，利用求得的当前帧与参考帧的相对姿态，可以把当前帧的灰度图像的特征点投影到参考帧，同时把参考帧的灰度图像的对应的特征点投影到当前帧，这两次投影都对应一个投影误差，当这个误差超过一定阈值，即认为为outliers点。去除outliers点后，利用同样的投影关系，对所有inliers点建立能量方程，此方程可通过Gauss-Newton迭代求解，求解得到的姿态即为当前帧的第二优化相机姿态。

去除outliers点后，利用同样的投影关系，对所有inliers点建立能量方程，建立的方程如下所示：

其中，三维空间到二维图像的投影关系如下所示：

uv_i＝K*Pose^-1*Point3d_i，

而反向投影的过程则是它的逆过程，其关系如下所示：

Point3d_i＝Pose*depth_i*(K^-1*uv_i)，

其中，depth是为了坐标统一到世界坐标系的尺度中，这样从当前帧投影到参考帧的转化关系为：

在方程(1)中，只有Pose_ref是需要优化的，此方程可通过Gauss-Newton迭代求解，求解得到的姿态即为当前帧的RGB相机姿态。

进一步地，所述融合后的相机姿态包括所述融合后的相机姿态的平移矩阵，所述将所述当前帧的第二优化相机姿态和所述当前帧的第一相机姿态进行融合，从而获取所述当前帧的融合后的相机姿态包括：

进一步地，所述融合后的相机姿态包括所述融合后的相机姿态的旋转矩阵，所述将所述当前帧的第二优化相机姿态和所述当前帧的第一相机姿态进行融合，从而获取所述当前帧的融合后的相机姿态包括：

根据获取当前帧的融合后的相机姿态的旋转矩阵，其中，为第一相机姿态的旋转矩阵，为第二相机姿态的旋转矩阵，R^q为融合后的相机姿态的旋转矩阵，teta为从的朝向到的朝向的夹角。

具体的，为了比较第一相机姿态估计和第二相机姿态估计在各自场景下的工作情况，在各自估算过程中，分别记录下：w_icp和w_rgb分别表示第一相机姿态的权重和第二相机姿态的权重，为当前帧的深度图像中的像素和参考帧的深度图像中的像素之间匹配的像素点个数,nt_icp为当前帧的深度图像中的所有像素点的个数,为所述当前帧的灰度图像中的特征点与所述参考帧的灰度图像中的特征点之间匹配的特征点个数，nt_rgb为当前帧的灰度图像中的所有的特征点个数，a，b，c，d为系数。

上述权重的计算，通过选择合适的参数，可以指数曲线设置在合适的范围内。wi_cp和w_rgb的取值为0～1之间的实数。例如，利用ICP对第一相机姿态进行估计时，当nc_icp/nt_icp>25％时，ICP有较好的工作效果，当nc_icp/nt_icp<10％时，跟踪效果显著下降。当选取nc_icp/nt_icp＝25％时，w_icp的值为0.5，nc_icp/nt_icp＝10％时，w_icp值为0.01，计算出相应的系数值。a，b，c，d通过仿真统计得到，其取值满足如下关系：b和d均为小于0.5的正数，在本实施例中，选取a＝-4.621,b＝0.4621,c＝-1.386,d＝0.1386。

在得到相应权重系数后，分别对两种姿态估计得到的姿态进行加权即可得到当前帧的相机姿态，由于旋转矩阵R不能通过直接加权得到，通过其四元数的表达形式R^q进行球面线性插值SLERP计算，得到旋转矩阵R和平移矩阵T，利用R和T得到当前帧的相机姿态。图5为球面线性差值SLERP原理示意图，如图5所示，从的朝向到的朝向的夹角为teta。

进一步地，所述根据所述当前帧的深度图像和所述当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型包括：

具体的，对当前帧的灰度图像中的特征点和参考帧的灰度图像中的特征点进行匹配时候，第二特征点对，即内点inliers点的数目大于第三阈值的时候，该阈值可选的为150，认为是准确的匹配。当第二特征点对的个数小于第三阈值时，认为无法匹配，将当前帧作为新的关键帧，并加入到关键帧序列中，从而得到更新后的关键帧序列。

图6为空间中三维点云的与融合的三维模型的关系示意图。其中，三维点云中的每一个特征点包括以下信息：

1)特征点所在的关键帧索引；

2)特征点在此关键帧上所对应的图像金字塔层级；

3)特征点在此图像金字塔层级图片上对应的点的索引。

根据此结构，可以由空间的某个三维点云，对应到某关键帧的相应特征点位置。对三维点云仅需依据此索引结构，即可索引到关键帧的相应特征点的相应信息。

图7为三维点云与关键帧图像建立约束的过程示意图，如图7所示，三维点P与三维点Q，建立匹配关系：P在Frame A上匹配，P点与Frame A建立约束，P在Frame B上匹配，P点与Frame B建立约束，Frame C上未匹配，不建立约束。Q点未获得匹配，反射投影到空间中，作为新三维点加入三维点云中。由于特征点会出现在多个关键帧中，对于每一个关键帧中的信息，都会按照上述结构存储在特征点对应的容器中。由此，建立了从特征点和关键帧双向索引。对于每一个三维点云，其对应一个索引组，存储各个关键帧上对应特征点的索引。通过以上结构，可以根据某一特征点索引到相关的所有关键帧；同时在每一个关键帧上，特征点都是顺序存储在关键帧的容器中，从某一关键帧也可以索引到某一个特征点。由于关于特征点的具体信息都保存在关键帧中，空间中点云只保存索引。这样防止保存了冗余的特征信息，迭代过程也更加迅速。同时，三维点云的索引不仅是为了便捷的获取其对应的特征描述量等信息。更重要的是，每一组索引对应了三维空间中点与二维关键帧平面的约束关系。对三维空间点位置的优化，以及关键帧对应的相机姿态的优化，都依赖于此约束关系。

三维点云的更新主要包括将已有点云与当前关键帧点云进行匹配，和加入新点云，这两个过程。

当有检测出有新的关键帧后，需要对此关键帧上信息与已有的三维点云之间建立约束关系，对点云中每个三维点与此关键帧的索引根据上述约束关系进行更新。已有点云与此关键帧上进行匹配主要通过将三维点云向当前关键帧进行投影，利用如下公式进行计算：

uv_i＝K·Pose^-1·P^3d _i

P^3d _i＝Pose·depth·K^-1·uv_i

两式分别表示了将三维点云向关键帧投影得到二维坐标，以及将关键帧中二维坐标特征点反射投影得到三维坐标的关系。其中P^3d _i表示三维点云的三维坐标，K和Pose表示关键帧对应的相机的内参与外参。uv_i表示关键帧上的二维坐标。在相应的关键帧中，在投影坐标uv_i的临近像素内进行搜索。

为了对三维点云进行优化，需要建立三维点云与关键帧之间的约束关系。当找到相应的匹配特征点时，该特征点在当前关键帧中的一组索引信息，即被加入到该特征点对应的索引组中，此索引组里保存了此三维点与所有关键帧的约束关系。

对于没有成功获得匹配的特征点，根据此关键帧对应的相机姿态信息，将特征点反射投影到空间中，即为新的三维点云。将新的三维点云加入到全局的三维点云中，完成了对已有点云信息的增补。在将三维点云向当前关键帧投影进行匹配时，并没有采用所有的三维点云，而是将新加入的关键帧(参考帧)之前的若干关键帧建立约束的所有点云，投影到当前关键帧中，进行局部的投影匹配。图8为特征点的匹配过程中当前帧与2号关键帧的特征点匹配结果，其中，上面图示为当前帧与2号关键帧的匹配结果，左下为2号关键帧上所有的特征点，右下为当前帧与关键帧匹配上的特征点。

当检测是否存在闭合回路时，我们将相机的当前位置作为先验信息，在此附近选取关键帧及其对应的三维点云进行投影匹配。该匹配过程与RGB跟踪过程中的匹配类似。对于特征匹配成功的inlier设置阈值180。当匹配上的特征点数目超过此数目时，利用ICP算法对当前关键帧，与待匹配的关键帧进行验证。ICP成功匹配后即可认为回路成功闭合。闭合回路的三维点云与关键帧间的约束关系，同样按照上述过程建立。

已有点云与此关键帧上进行匹配主要通过将三维点云向当前关键帧进行投影，利用如下公式进行计算：

uv_i＝K·Pose^-1·P^3d _i

P^3d _i＝Pose·depth·K^-1·uv_i

对空间中的特征点，根据其特征点所对应的关键帧组索引，建立优化公式：

其中，d(x,y)表示两者之间的欧氏距离。Q_ij表示三维点j在关键帧i上的投影位置。同时，在每一个关键帧i上，三维点j对应的特征点的坐标为xij。投影与特征点坐标之差即为二者间的误差，依据此误差建立约束方程。优化目标是将三维点与其投影对应的特征点间误差最小。

通过Levenberg-Marquardt(LM)算法迭代优化，可以逼近其最优解。当最优解达到时，该公式对应的相机轨迹和三维点云坐标即达到最优值，最大程度消除了累积误差。

进一步地，如果进行束优化后，三维点云坐标进行了更新，则根据束优化后的三维点云坐标求解所述当前帧的TSDF体的三维姿态增量。具体过程为：由于三维点云的坐标与TSDF体上的对应点的坐标一一对应，可以将这些三维特征点视为其对TSDF体上的点的采样。假设在一个TSDF体上有n个采样点，通过建立以下优化公式，可以对TSDF体的姿态转换增量进行求解：

其中，表示第i个特征点在优化过后的三维坐标值，表示第i个特征点在优化之前的三维坐标值。[R_inc|T_inc]分别表示希望求解的旋转增量和位移增量。同样通过LM算法进行迭代优化，获得方程的最优解即为当前优化结果下的此TSDF体的旋转增量和位移增量。

理论上需要对每一个保存的TSDF体做此类操作。但事实上，当有新关键帧加入时，主要修正的点云信息为最近几个关键帧的信息。因此可以设置合适的阈值，仅对特征点位置发生一定变化的TSDF三维体区域进行姿态更新。这种做法也可以保证方法的实时性。

对于已经保存到本地的TSDF三维体信息，各自对应修正过的[R|T]信息。在全部输入扫描结束后，根据GPU的内存大小，在全局坐标系下对空间进行分块，确定每块空间坐标区域，得到对于每一块空间区域在GPU中生成其对应大小的TSDF体。此时将扫描过程中已经保存到本地的TSDF三维模型根据其坐标，进行坐标转换后，逐一加载到此空间TSDF三维体中。其中对应的每一个体素，经过[R|T]的坐标转换即可得到目标体素在中的位置，其融合关系由每个体素中TSDF值F_k及其权重wk确定,其中k表示每个体素单元的索引，p表示每个体素单元的物理位置：

当空间中一块V_i ^g融合完毕后，将其由marching cube算法提取点云生成全局的surface信息，并对此surface进行保存。此时清空GPU的显存，加载下一块区域的重复执行将扫描过程中已保存的TSDF三维体模型逐一融合到中。

在实际操作中，由于坐标准换后的体素位置并不是整数。直接取整会出现三维表面值不连续的情况。针对此种情况，可以选取将该体素取整插入到目标体素后，对整个TSDF三维体采用滤波平滑处理。但这样会导致值不精确，表面接缝初过于平滑模糊等问题。更可靠的方案是，对目标TSDF体中的每一个体素，由[R|T]^-1确定其在原TSDF体中的位置。对原TSDF体目标值周围的邻近体素(27个)进行插值，可以获得该目标体素的TSDF值和权重信息，以上TSDF的更新方程可以如下进行：

F(p')＝Interpolation(F([R|T]^-1p))

w(p')＝Interpolation(w([R|T]^-1p))

由于插值过程计算简单独立，可以并行处理，整个过程可以高效的完成。

图9为本发明提供的三维场景的重建方法在室内场景4*4*4的区域融合后得到的三维模型。

本实施例的三维场景的重建方法，相机的姿态轨迹接近真实轨迹，重建后的三维物体准确。

图10为本发明提供的三维场景的重建装置实施例一的结构示意图，如图10所示，该装置包括：

第一获取模块11，用于根据当前帧的深度图像以及参考帧的深度图像，获取所述当前帧的第一相机姿态，所述第一相机姿态包括用于获取所述当前帧的深度图像的相机的位置信息以及朝向信息；

第二获取模块12，用于根据所述当前帧的灰度图像以及所述参考帧的灰度图像，估计所述当前帧的第二相机姿态，所述第二相机姿态包括用于获取所述当前帧的灰度图像的相机的位置信息以及朝向信息；

融合模块13，用于根据所述第一获取模块获取得到的所述当前帧的第一相机姿态以及所述第二获取模块获取得到的所述当前帧的第二相机姿态，获取所述当前帧的融合后的相机姿态；

生成模块14，用于根据所述当前帧的深度图像和所述融合模块获取得到的所述当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型。

本实施例的三维场景的重建装置，通过根据当前帧的深度图像以及参考帧的深度图像，获取当前帧的第一相机姿态，相机姿态包括用于获取所述当前帧图的深度图像的相机的位置信息以及朝向信息，并根据当前帧的灰度图像以及参考帧的灰度图像，估计当前帧的第二相机姿态；然后根据当前帧的第一相机姿态以及当前帧的第二相机姿态，获取当前帧的融合后的相机姿态；最后根据当前帧的深度图像和当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型。本实施例的三维场景的重建装置，通过将基于深度信息的第一相机姿态估计和基于灰度信息的第二相机姿态估计进行融合，缩小了相机姿态估计中的累计误差，在不同场景下表现更加稳定，使得重建的三维场景更准确。

本实施例提供的三维场景的重建装置，可以用于执行本发明图1所示实施例提供的三维场景的重建方法的技术方案，其实现原理类似，此处不再赘述。

进一步的，所述第一获取模块11用于：

所述融合模块13用于：

判断所述匹配成功率是否小于或等于第一阈值；

本实施例提供的三维场景的重建装置，可以用于执行上述实施例提供的三维场景的重建装置的技术方案，其实现原理和技术效果类似，此处不再赘述。

进一步地，所述第二获取模块12用于：

提取所述当前帧的灰度图像中的特征点；

提取所述参考帧的灰度图像中的特征点；

进一步地，所述融合模块13用于：

所述融合模块13用于：

进一步地，所述生成模块14用于：

图11为本发明提供的三维场景的重建装置实施例二的结构示意图，所述三维场景的重建装置的控制器1400包括通信接口1401、存储器1403和处理器1402，其中，通信接口1401、处理器1402、存储器1403、通过总线1404相互连接；总线1404可以是外设部件互连标准(peripheral componentinterconnect，简称PCI)总线或扩展工业标准结构(extended industry standardarchitecture，简称EISA)总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图11中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

所述通信接口1401用于与OpenFlow交换机通信。

存储器1403，用于存放程序。具体地，程序可以包括程序代码，所述程序代码包括计算机操作指令。存储器1403可能包含随机存取存储器(randomaccess memory，简称RAM)，也可能还包括非易失性存储器(non-volatilememory)，例如至少一个磁盘存储器。

处理器1402，用于执行存储器1403所存放的程序，实现本发明前述方法实施例的方法：

包括：根据当前帧的深度图像以及参考帧的深度图像，获取所述当前帧的第一相机姿态，所述相机姿态包括用于获取所述当前帧图的深度图像的相机的位置信息以及朝向信息；

根据所述当前帧的灰度图像以及所述参考帧的灰度图像，估计所述当前帧的第二相机姿态；

上述的处理器1402可以是通用处理器，包括中央处理器(CentralProcessing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种三维场景的重建方法，其特征在于，包括：

根据所述当前帧的灰度图像以及所述参考帧的灰度图像，获取所述当前帧的第二相机姿态，所述第二相机姿态包括用于获取所述当前帧的灰度图像的相机的位置信息以及朝向信息；

2.根据权利要求1所述的方法，其特征在于，所述根据当前帧的深度图像以及参考帧的深度图像，获取所述当前帧的第一相机姿态包括：

判断所述匹配成功率是否小于或等于第一阈值；

3.根据权利要求2所述的方法，其特征在于，所述根据所述当前帧的灰度图像以及所述参考帧的灰度图像，估计所述当前帧的第二相机姿态包括：

提取所述当前帧的灰度图像中的特征点；

提取所述参考帧的灰度图像中的特征点；

4.根据权利要求2或3所述的方法，其特征在于，所述融合后的相机姿态包括所述融合后的相机姿态的平移矩阵，所述将所述当前帧的第二优化相机姿态和所述当前帧的第一相机姿态进行融合，从而获取所述当前帧的融合后的相机姿态包括：

其中，nc_icp为所述当前帧的深度图像中的像素和所述参考帧的深度图像中的像素之间匹配的像素点个数，nt_icp为当前帧的深度图像中的所有像素点的个数，a，b为系数；

nc_rgb为所述当前帧的灰度图像中的特征点与所述参考帧的灰度图像中的特征点之间匹配的特征点个数,nt_rgb为所述当前帧的灰度图像中的所有特征点个数，c，d为系数。

5.根据权利要求2至4任意一项所述的方法，其特征在于，所述融合后的相机姿态包括所述融合后的相机姿态的旋转矩阵，所述将所述当前帧的第二优化相机姿态和所述当前帧的第一相机姿态进行融合，从而获取所述当前帧的融合后的相机姿态包括：

根据公式

R^{q} = R_{i c p}^{q} \cdot \frac{\sin ((1 - w_{i c p}) \cdot t e t a)}{\sin (t e t a)} + R_{r g b}^{q} \cdot \frac{\sin (w_{i c p} \cdot t e t a)}{\sin (t e t a)}

获取融合后的相机姿态的旋转矩阵，其中，为所述第一相机姿态的旋转矩阵，为所述第二相机姿态的旋转矩阵，R^q为所述融合后的相机姿态的旋转矩阵，teta为从的朝向到的朝向的夹角；

nc_icp为所述当前帧的深度图像中的像素和所述参考帧的深度图像中的像素之间匹配的像素点个数，nt_icp为当前帧的深度图像中的所有像素点的个数，a，b为系数；

6.根据权利要求1至5任一项所述的方法，其特征在于，所述根据所述当前帧的深度图像和所述当前帧的融合后的相机姿态，生成当前帧对应的三维场景模型包括：

根据所述更新后的关键帧序列，获取所述更新后的关键帧序列对应的三维点云，所述三维点云中的点与所述更新后的关键帧序列中灰度图像的特征点对应；

7.一种三维场景的重建装置，其特征在于，包括：

第一获取模块，用于根据当前帧的深度图像以及参考帧的深度图像，获取所述当前帧的第一相机姿态，所述第一相机姿态包括用于获取所述当前帧的深度图像的相机的位置信息以及朝向信息；

8.根据权利要求7所述的装置，其特征在于，所述第一获取模块用于：

所述融合模块用于：

判断所述匹配成功率是否小于或等于第一阈值；

9.根据权利要求8所述的装置，其特征在于，所述第二获取模块用于：

提取所述当前帧的灰度图像中的特征点；

提取所述参考帧的灰度图像中的特征点；

10.根据权利要求8或9所述的装置，其特征在于，所述融合模块用于：

11.根据权利要求8至10任一项所述的装置，其特征在于，所述融合模块用于：

根据公式

R^{q} = R_{i c p}^{q} \cdot \frac{\sin ((1 - w_{i c p}) \cdot t e t a)}{\sin (t e t a)} + R_{r g b}^{q} \cdot \frac{\sin (w_{i c p} \cdot t e t a)}{\sin (t e t a)}

12.根据权利要求7至11任一项所述的装置，其特征在于，所述生成模块用于：