CN109410321B

CN109410321B - 基于卷积神经网络的三维重建方法

Info

Publication number: CN109410321B
Application number: CN201811207269.1A
Authority: CN
Inventors: 王诚斌; 杨鑫; 尹宝才; 魏小鹏; 张强
Original assignee: Dalian University of Technology
Current assignee: Dalian University of Technology
Priority date: 2018-10-17
Filing date: 2018-10-17
Publication date: 2022-09-20
Anticipated expiration: 2038-10-17
Also published as: CN109410321A

Abstract

本发明提供了一种基于卷积神经网络的三维重建方法，属于计算机视觉技术领域。三维特征更加精确，检索精度更高：相较于目前流行的特征提取网络，本方法的网络学习能力更强，通过网络提取出的对象点云特征信息更丰富。本算法具有良好的实时性，无论是建模、特征提取、数据库检索还是最后的模型配准均能在较短时间内完成。并且，本方法提出的网络模型在模型分类任务中的精确度优于多种基于深度学习的模型，说明本网络结构可以直接从三维点云学习到数据分布规律。优化时间大大缩短：相较于传统的特征提取方法，利用本方法提出的基于卷积神经网络提取特征方法显著减少计算时间，同时利用欧氏距离按类检索的算法也将提高检索的效率。

Description

基于卷积神经网络的三维重建方法

技术领域

本发明属于计算机视觉技术领域，尤其涉及基于卷积神经网络对三维场景进行重建的方法。

背景技术

场景建模在计算机视觉领域一直是研究热点，高精度的三维场景建模是机器人感知、虚拟现实等技术得以实现的前提。三维重建一般包含三部分，首先使用手持相机对待重建目标进行多个视角的扫描，然后对扫描到的多帧图片进行特征的提取、匹配、与相机位姿估算，最后通过立体视觉技术完成二维像素到三维坐标点的映射，得到最终重建的模型。然而，在以往的工作中，扫描过程中存在物体相互遮挡、光照不足及视角无法全覆盖等客观条件限制，模型存在点云缺失、噪声等问题影响建模的质量。因此，一种能够在建模完成后利用深度学习方法对场景中质量较差的模型进行替换完成场景重建是当前待攻克的技术难关，也是本专利的发明动机。接下来详细介绍这一领域中相关的背景技术。

(1)三维建模技术

近年来，随着商用深度相机的出现，三维场景建模方面的研究已经获得很大进展。KinectFusion提出新的建模框架，通过深度相机获取场景的RGB-D信息，利用体素融合与ICP(迭代最近点算法)追踪算法完成建模。BundleFusion算法在前人工作的基础上进行创新，提出一种实时的端到端重建框架来完成建模任务，该算法对输入的RGB-D信息进行高效分层，同时对原有的姿态估计与帧优化策略进行改进，提高建模精度。上述建模框架不仅显著减少建模所需时间而且也获得较好的建模质量。但是，由于扫描过程中存在物体相互遮挡、光照不足及视角无法全覆盖等客观条件限制，模型存在点云缺失、噪声等问题。

(2)三维重建技术

为解决场景建模中存在物体相互遮挡、光照不足及视角无法全覆盖等客观条件限制，模型存在点云缺失、噪声而影响质量的问题，Liyanyang提出基于数据库的场景重建算法，该算法利用3D哈里斯角落点算法选取点云边缘形变较大区域内的点作为关键点，并将关键点周围的几何信息作为对象点云特征，特征的相似度作为检索依据，将场景中不完整的点云替换为数据库点云对象，但算法很难提取形状较小、包含球面的物体的关键点。

(3)三维特征提取技术

针对人工选取特征不准确、不完整、抽象能力不强的情况，研究人员利用卷积神经网络这一抽象能力强大的工具对三维对象进行特征提取，得到的特征鲁棒性明显提高。按照网络输入的不同，这些富有成效的工作可分为三大类，1。基于多视角渲染的卷积神经网络，将三维对象点云进行多角度渲染得到多张轮廓图，利用卷积神经网络将多张轮廓图的特征进行融合，得到信息更加丰富的高维特征，但该方法对于视角的选择依赖度较高且需要将三维对象进行二维投影，如在实时场景重模过程中采用此算法将会消耗大量时间进行预处理。2：基于体素的卷积神经网络，点云对象体素化完成后可直接在三维空间进行卷积、下采样操作，这一开创性的工作在解决三维数据稀疏性高、不规则的同时，可以提取信息丰富三维特征，但是可处理对象的分辨率较低，对于细节也不够敏感。3：二维多视角与三维体素相融合的卷积神经网络，Charles R的工作通过将二维投影与三维体素信息相结合的方式，分别利用卷积神经网络进行特征提取、进而融合，以得到高维特征。但是在实时建模过程中，需要三维对象进行多种预处理操作，预处理本身消耗大量时间。

综上所述，三维对象特征选取的好坏对基于数据库的重建算法性能产生直接影响。利用深度学习方式提取鲁棒性强、精确度高的三维特征是这一领域的研究方向。

发明内容

专利为解决传统三维场景重建方法中提取特征不准确、不完整、抽象能力差难题以及消耗时间较长的技术瓶颈，设计一个基于卷积神经网络的三维重建框架及软件平台。

本发明的技术方案：

基于卷积神经网络的三维重建方法，通过三个模块实现，步骤如下：

(1)预处理模块

(1.1)模块输入：使用RGBD相机采集室内目标的信息并完成三维场景模型的建立；将建模完成后的场景中质量较差的对象分割出来，扫描对象与数据库对象作为预处理模块的输入；

(1.2)提取表面信息：采用虚拟扫描技术对点云稠密区域进行采样，在采样点中选取法向量方向变化最大的点作为特征点，将该特征点的法向量与曲率信息作为点云区域的底层特征；具体操作如下：将多个虚拟相机放置在点云截断球体中心位置，朝向不同的方向，并在每个方向发射出多束平行光线，当光线与球体表面相交时，完成对点云表面点的采样；在采样点周围区域选取法向量变化最大的点作为该区域的特征点并计算其法向量，对该区域中任一点p_i，其法向量的变化程度为此点法向量与其k-近邻点法向量夹角的算术平均值；据此定义，特征度越大的点表示该区域起伏变化较大，选取阈值ε在0.2～0.5，去掉点云较为平坦的部分，寻找f_i>ε的点集S，并在点集S中选取变化程度最大的点p_m，p_m满足式(2)的要求，确定p_m的法向量之后，取p_m临近k个点的曲率并求平均值，作为p_m的曲率信息；

(1.3)八叉树构建：

八叉树是具有自适应尺寸的三维网格结构，与常规体素网格相比，在同样的分辨率下其显著减少内存消耗。将点云模型放置于单位长度的正方体包围盒中，以广度优先次序递归地细分正方体包围盒；递归过程如下：当遍历至八叉树的第I层时，递归的访问每一包含模型边界的节点并将其等分为8份作为该节点的I+1层子节点，当节点中不包含模型时，将不再继续划分；

八叉树创建完成后，为减少在八叉树上直接进行卷积、下采样等操作所需要的时间，为八叉树中的每一层建立多个散列表，分别存放每一层中树节点位置信息与标记信息，子节点可通过散列表中键值快速找到父节点与兄弟节点位置。

(2)特征提取模块：

(2.1)模块输入：首先将采集完成的目标点云对象的法向量与曲率信息存入八叉树的叶子节点中作为底层特征，将此八叉树作为特征模块的输入。特征提取模块利用检索网络来实现，通过在八叉树所对应的散列哈希表与标记哈希表上进行卷积与池化操作，得到每一个三维点云对象的特征。

(2.2)检索网络：

点云对象完成一系列预处理后，得到存有表面特征点的法向量与曲率信息的八叉树网格，检索网络将以此八叉树网格作为输入，提取高维特征向量，检索网络作用看作将点云对象映射为高维空间中一个点；

检索网络分别对存储曲率信息与法向量信息的网格进行4次卷积与下采样操作，得到2个64维特征向量，这些操纵为浅层特征提取，随后对两个特征进行融合，对融合后特征重复2次卷积与下采样操作，得到256维向量，经过全连接操作，最后利用softmax得到55维向量，即检索网络的输出；为消除数据分布对网络训练的影响，本方法在卷积操作之后对数据进行批标准化，同时为提高模型的表达能力在下采样之前加入非线性激活函数计算，使用修正线性单元激活函数(ReLu)作为激活函数，为防止过拟合的情况发生，在全连接层之后加入Dropout层。

(2.3)数据集与训练过程：

将数据库中70％的数据用作训练，20％用作测试，10％用作验证集，同时进行数据增值以提高训练集的数量，具体操作为，将数据库中数据沿正方向每隔旋转一次共旋转模型12次，每旋转一次得到一个新的模型。

本方法采用梯度下降算法(SGD)算法来训练网络，其中张量数据momentum设定为0.9，权重衰减系数(decay)设定为0.0005，训练阶段每次将64个对象作为一个批次数据送入网络中进行训练，通过最小化交叉熵损失函数完成训练过程，整个模型需要50个训练epoch。网络训练完成后即可作为特征提取模块，对数据库中三维对象与扫描场景中需优化对象进行特征提取，将每一对象映射为55维空间中的一个点。

(3)检索与配准模块：

(3.1)检索模块：经过特征提取模块得到目标对象与数据库对象的高维度特征向量，利用欧氏距离计算目标对象与数据库中同一类对象的欧式距离，找出最相似的前5个模型，作为配准的备选模型。

(3.2)配准模块：ICP(迭代最近点算法)是基于最小二乘法的最优的配准方法，是对齐点云的常用方法。本质上该算法重复进行选择对应关系点对，通过重复计算最优刚体变换这一过程，直到满足正确配准的收敛精度要求后完成配准。点云对齐的数学定义可以这样描述：给定两个来自不同坐标系的三维数据点集，找到两个点集空间的变换关系，使得两个点集能统一到同一坐标系统中，即配准过程，该方法关键有二：一是寻找点云间的对应点对；二是根据这些点对计算使得两帧点云距离最小的变换矩阵；该算法能够比较准确地得到两帧点云间的变换矩阵，但算法对初值比较敏感，当初始变换矩阵选取得不恰当时，算法可能陷入局部最优点。为避免限于局部最优点，本方法在预处理阶段将扫描模型与数据库模型正方向朝向一致。通过将从数据库中检索出的模型与场景进行配准，选择配准效果最好的场景作为重建结果。

本发明与同类相比具有显著的特点，具体详细说明如下：

(1)三维特征更加精确，检索精度更高：相较于目前流行的特征提取网络，本方法的网络学习能力更强，通过网络提取出的对象点云特征信息更丰富。本算法具有良好的实时性，无论是建模、特征提取、数据库检索还是最后的模型配准均能在较短时间内完成。并且，本方法提出的网络模型在模型分类任务中的精确度优于多种基于深度学习的模型，说明本网络结构可以直接从三维点云学习到数据分布规律。

(2)优化时间大大缩短：相较于传统的特征提取方法，利用本方法提出的基于卷积神经网络提取特征方法显著减少计算时间，同时利用欧氏距离按类检索的算法也将提高检索的效率。

附图说明

图1是网络架构图；图中将三维对象的法向量与曲率作为输入，经过一系列卷积与池化操作，在经过两对随即失效层与全连接层，最终经过归一化操作得到高维度特征向量。

图2谁重建效果图；图2a表示初次建模的效果图，图2b表示利用数据库中的模型与原场景配准之后的效果图。

具体实施方式

以下结合附图和技术方案，进一步说明本发明的具体实施方式。

(1)预处理模块

(1.2)提取表面信息：采用虚拟扫描技术对点云稠密区域进行采样，在采样点中选取法向量方向变化最大的点作为特征点，将该特征点的法向量与曲率信息作为点云区域的底层特征；具体操作如下：将多个虚拟相机放置在点云截断球体中心位置，朝向不同的方向，并在每个方向发射出多束平行光线，当光线与球体表面相交时，完成对点云表面点的采样；在采样点周围区域选取法向量变化最大的点作为该区域的特征点并计算其法向量，对该区域中任一点p_i，其法向量的变化程度为此点法向量与其k-近邻点法向量夹角的算术平均值：

式(1)中θ_ij为点p_i的法向量与其近邻点p_j的法向量的夹角；据此定义，特征度越大的点表示该区域起伏变化较大，选取阈值ε在0.2～0.5，去掉点云较为平坦的部分，寻找f_i>ε的点集S，并在点集S中选取变化程度最大的点p_m，p_m满足式(2)的要求：

确定p_m的法向量之后，取p_m临近k个点的曲率并求平均值，作为p_m的曲率信息，计算公式如(3)所示：

其中C_i代表k个临近点的曲率；

(1.3)八叉树构建：

散列表按类型分为以下两类：

散列哈希表：为八叉树的每层节点建立哈希表S_l,哈希表中的键值表示I层节点相较于其I-1层父节点的相对位置，并按照升序排列存入哈希表中,表中键值key(O)由公式(4)求得，其中x_iy_iz_i表示每个子节点与其父节点之间的相对位置：

key(O)：＝x₁y₁z₁x₂y₂z₂…x_ly_lz_l(4)

标记哈希表：表中第L[j]位置的键值p表示，该层S[j]节点为I层的第p个非空节点，如节点为空则键值为0；使用标记哈希表L可快速的得到父节点的子节点。

在哈希表中进行卷积计算的公式如下：

其中O_ijk代表被卷积的相邻节点，T⁽ⁿ⁾(＊)代表O_ijk节点中的存储的n通道特征向量，

为卷积层的权值，如果O_ijk不存在，T(O_ijk)设置为0；

(2)特征提取模块：

(2.2)检索网络：

检索网络分别对存储曲率信息与法向量信息的网格进行4次卷积与下采样操作，得到2个64维特征向量，这些操纵为浅层特征提取，随后对两个特征进行融合，对融合后特征重复2次卷积与下采样操作，得到256维向量，经过全连接操作，最后利用softmax得到55维向量，即检索网络的输出；为消除数据分布对网络训练的影响，本方法在卷积操作之后对数据进行批标准化，同时为提高模型的表达能力在下采样之前加入非线性激活函数计算，使用修正线性单元激活函数(ReLu)作为激活函数，为防止过拟合的情况发生，在全连接层之后加入Dropout层。为表述简便，本方法将卷积操作、批标准化、修正线性单元激活函数、下采样操作集合为一个基本操作单元用Q_l表示，在网络的每一层中的特征图通道数设定为2^max(1，9-l)，卷机操作的卷积核设定为3；浅层特征提取可由公式(6)表述：

Nor/Cur→Q_d→Q_d-1→…→Q₂(6)

其中Nor与Cur分别代表存储法向量与曲率信息的网格，经过一系列卷积与下采样操作，分别得到浅层特征向量

与

随后将

与

进行特征融合得到

融合的特征经过Dropout层，然后经过第一个包含有128神经元的全连接层，随后经过第二个Dropout层，最后再次通过包含有55个神经元的全连接层，经过softmax操作得到最终输出，输出为长度为55维的特征向量。公式(7)表述上述过程：

检索网络所使用的损失函数选择交叉熵损失函数，公式(8)表述上述过程：

其中y为期望的输出，a为神经元实际输出，R(W)为权重衰减项；

(2.3)数据集与训练过程：

本方法实验数据来源于目前流行的3维数据集ShapeNetCore5。数据集共有55个大类，204个子类，共有51190个三维模型。数据集中模型均经过标准化处理，空间大小一致，模型方向沿y轴朝上。为训练本方法的网络结构，特将数据库中70％的数据用作训练，20％用作测试，10％用作验证集，同时进行数据增值以提高训练集的数量，具体操作为，将数据库中数据沿正方向每隔旋转一次共旋转模型12次，每旋转一次得到一个新的模型。

(3)检索与配准模块：

(3.1)检索模块：

经过特征提取模块得到目标对象与数据库对象的高维度特征向量，利用欧氏距离计算目标对象与数据库中同一类对象的欧式距离，找出最相似的前5个模型，作为配准的备选模型。

(3.2)配准模块：

ICP(迭代最近点算法)是基于最小二乘法的最优的配准方法，是对齐点云的常用方法。本质上该算法重复进行选择对应关系点对，通过重复计算最优刚体变换这一过程，直到满足正确配准的收敛精度要求后完成配准。点云对齐的数学定义可以这样描述：给定两个来自不同坐标系的三维数据点集，找到两个点集空间的变换关系，使得两个点集能统一到同一坐标系统中，即配准过程，该方法关键有二：一是寻找点云间的对应点对；二是根据这些点对计算使得两帧点云距离最小的变换矩阵；假定{P_i|P_i∈R³，i＝1，2，…，N}表示第一个点集，第2个点集表示为{Q_i|Q_i∈R³，i＝1，2，…，M}，2个点集的对齐配准转化为使公式n目标函数最小，该函数如(9)所示

其中R与T为旋转平移矩阵，该算法能够比较准确地得到两帧点云间的变换矩阵，但算法对初值比较敏感，当初始变换矩阵选取得不恰当时，算法可能陷入局部最优点。为避免限于局部最优点，本方法在预处理阶段将扫描模型与数据库模型正方向朝向一致。通过将从数据库中检索出的模型与场景进行配准，选择配准效果最好的场景作为重建结果。

Claims

1.一种基于卷积神经网络的三维重建方法，通过三个模块实现，其特征在于，步骤如下：

(1)预处理模块

其中C_i代表k个临近点的曲率；

(1.3)八叉树构建：

将点云模型放置于单位长度的正方体包围盒中，以广度优先次序递归地细分正方体包围盒；递归过程如下：当遍历至八叉树的第I层时，递归的访问每一包含模型边界的节点并将其等分为8份作为该节点的I+1层子节点，当节点中不包含模型时，将不再继续划分；

八叉树创建完成后，为减少在八叉树上直接进行卷积、下采样操作所需要的时间，为八叉树中的每一层建立多个散列表，分别存放每一层中树节点位置信息与标记信息，子节点通过散列表中键值快速找到父节点与兄弟节点位置；

散列表按类型分为以下两类：

散列哈希表：为八叉树的每层节点建立哈希表S_l，哈希表中的键值表示I层节点相较于其I-1层父节点的相对位置，并按照升序排列存入哈希表中，表中键值key(O)由公式(4)求得，其中x_iy_iz_i表示每个子节点与其父节点之间的相对位置：

key(O)：＝x₁y₁z₁x₂y₂z₂…x_ly_lz_l (4)

标记哈希表：表中第L[j]位置的键值p表示，该层S[j]节点为I层的第p个非空节点，如节点为空则键值为0；使用标记哈希表L可快速的得到父节点的子节点；

在哈希表中进行卷积计算的公式如下：

为卷积层的权值，如果O_ijk不存在，T(O_ijk)设置为0；

(2)特征提取模块：

(2.1)模块输入：首先将采集完成的目标点云对象的法向量与曲率信息存入八叉树的叶子节点中作为底层特征，将此八叉树作为特征模块的输入；特征提取模块利用检索网络来实现，通过在八叉树所对应的散列哈希表与标记哈希表上进行卷积与池化操作，得到每一个三维点云对象的特征；

(2.2)检索网络：

检索网络分别对存储曲率信息与法向量信息的网格进行4次卷积与下采样操作，得到2个64维特征向量，这些操纵为浅层特征提取，随后对两个特征进行融合，对融合后特征重复2次卷积与下采样操作，得到256维向量，经过全连接操作，最后利用softmax得到55维向量，即检索网络的输出；为消除数据分布对网络训练的影响，本方法在卷积操作之后对数据进行批标准化，同时为提高模型的表达能力在下采样之前加入非线性激活函数计算，使用修正线性单元激活函数作为激活函数，为防止过拟合的情况发生，在全连接层之后加入Dropout层；本方法将卷积操作、批标准化、修正线性单元激活函数、下采样操作集合为一个基本操作单元用Q_l表示，在网络的每一层中的特征图通道数设定为2^max(1，9-l)，卷机操作的卷积核设定为3；浅层特征提取由公式(6)表述：

Nor/Cur→Q_d→Q_d-1→…→Q₂ (6)

与

随后将

与

进行特征融合得到

融合的特征经过Dropout层，然后经过第一个包含有128神经元的全连接层，随后经过第二个Dropout层，最后再次通过包含有55个神经元的全连接层，经过softmax操作得到最终输出，输出为长度为55维的特征向量；公式(7)表述上述过程：

(2.3)数据集与训练过程：

本方法实验数据来源于3维数据集ShapeNetCore5；数据集共有55个大类，204个子类，共有51190个三维模型；数据集中模型均经过标准化处理，空间大小一致，模型方向沿y轴朝上；为训练本方法的网络结构，将数据库中70％的数据用作训练，20％用作测试，10％用作验证集，同时进行数据增值以提高训练集的数量，具体操作为，将数据库中数据沿正方向每隔旋转一次共旋转模型12次，每旋转一次得到一个新的模型；

本方法采用梯度下降算法来训练网络，其中张量数据momentum设定为0.9，权重衰减系数设定为0.0005，训练阶段每次将64个对象作为一个批次数据送入网络中进行训练，通过最小化交叉熵损失函数完成训练过程，整个模型需要50个训练epoch；网络训练完成后即作为特征提取模块，对数据库中三维对象与扫描场景中需优化对象进行特征提取，将每一对象映射为55维空间中的一个点；

(3)检索与配准模块：

(3.1)检索模块：

经过特征提取模块得到目标对象与数据库对象的高维度特征向量，利用欧氏距离计算目标对象与数据库中同一类对象的欧式距离，找出最相似的前5个模型，作为配准的备选模型；

(3.2)配准模块：

迭代最近点算法ICP是基于最小二乘法的最优的配准方法，是对齐点云的常用方法；本质上该算法重复进行选择对应关系点对，通过重复计算最优刚体变换这一过程，直到满足正确配准的收敛精度要求后完成配准；点云对齐的数学定义描述如下：给定两个来自不同坐标系的三维数据点集，找到两个点集空间的变换关系，使得两个点集统一到同一坐标系统中，即配准过程，该方法关键：一是寻找点云间的对应点对；二是根据这些点对计算使得两帧点云距离最小的变换矩阵；假定{P_i|P_i∈R³，i＝1，2，…，N}表示第一个点集，第2个点集表示为{Q_i|Q_i∈R³，i＝1，2，…，M}，2个点集的对齐配准转化为使公式n目标函数最小，该函数如(9)所示

其中，R与T为旋转平移矩阵，该算法比较准确地得到两帧点云间的变换矩阵，但算法对初值比较敏感，当初始变换矩阵选取得不恰当时，算法可能陷入局部最优点；为避免限于局部最优点，本方法在预处理阶段将扫描模型与数据库模型正方向朝向一致；通过将从数据库中检索出的模型与场景进行配准，选择配准效果最好的场景作为重建结果。