CN113077554A

CN113077554A - 一种基于任意视角图片的三维结构化模型重建的方法

Info

Publication number: CN113077554A
Application number: CN202110378246.2A
Authority: CN
Inventors: 毛爱华; 代沧澜
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2021-04-08
Filing date: 2021-04-08
Publication date: 2021-07-06

Abstract

本发明公开了一种基于任意视角图片的三维结构化模型重建的方法，包括以下步骤：步骤1、采集图片，构成训练数据集；步骤2、对图片的物体部件进行分割，获取每个部件的包围盒；步骤3、构建深度卷积网络模型，从图像中提取对应的深度图像；步骤4、构建深度网络模型，解码出物体的结构表示；步骤5、构建并训练深度三维网格变形网络，将包围盒变形成结构良好的三维模型。本发明通过对物体结构表示进行变形并使用一种拓扑自适应的方法，可以改善使用一般图卷积拓扑不变的问题，并且保证物体恢复的几何细节和结构信息。

Description

一种基于任意视角图片的三维结构化模型重建的方法

技术领域

本发明涉及计算机视觉技术领域，具体涉及一种基于任意视角图片的三维结构化模型重建的方法。

背景技术

三维重建是一种利用二维信息投影恢复三维信息的计算机技术。在计算机视觉的领域中，三维重建具有非常高的研究价值，广泛应用于无人驾驶、人工智能、SLAM、虚拟现实等领域。最近，基于深度卷积神经网络学习的三维重建方法已经普及。与传统的多视图立体算法相比，学习模型能够编码关于三维形状空间的丰富的先验信息，这有助于解决输入中的模糊问题。

尽管基于体素和点云的方法已经被用于三维重建上，但是这两种表示方式不能很好的表达物体的几何细节并且会缺失物体的结构特征。体素类似于二维图像中的像素，由于占位栅格对算力和存储要求太高，因此这种方法重建出的结果分辨率不会很高，重构出的表面也不够精细；直接使用点云这种最接近传感器的原始数据去重建物体，可能导致无法学习出物体的拓扑结构，精细表面和重建的结构信息都无法得到。

基于网格的三维重建方法以他的灵活性越来越受到关注。在三维重建中，三角形网格的模型会被视作图，这有利于进行卷积以达到重建的目的。尽管这些方法可以重建出物体的表面，但是其重建结果受限于特定的3D模型的类别并且缺少结构信息。图像和网格之间的转换产生的离散操作会阻碍反向传播的过程,导致基于深度学习重建网格表示的三维模型面临不小的挑战。一般的实现操作是利用图卷积去变形一个预先定义好的网格(通常是一个球)去重建物体。图卷积通常在识别和分类问题上有很好的效果。但是它在三维模型重建、模型生成和结构分析中缺乏应用，这是因为图卷积在点上面进行聚合信息时会发生过光滑的现象。更重要的是，目前使用网格重建的图卷积只能处理固定拓扑结构的网格。

在现有的技术中，《一种多视图三维重建方法》(CN110570522A)对单个物体的不同视角的多幅彩色图片提取融合特征，然后将四个不同尺度的特征进行融合，最后通过网格变形模块进行变形得到最终重建的模型；《一种基于RGB数据与生成对抗网络的点云三维重建方法》(CN111899328A)该发明主要通过生成网络从单张RGB图片中生成图片的深度图，然后根据深度计算图片物体的三维点云数据，最后使用判别网路判断估计的点云是否合理，以得到完整的三维模型；《基于单目视图的三维重建方法与装置》(CN112116700A)对输入图像进行多次卷积处理，得到多层特征图序列后并局部增强特征；最后将特征图输入到三维重建部件中生成部件级的三维体素信息。《一种基于符号距离函数的三维重建方法》(CN112184899A)该方法是基于符号距离函数来重建三维模型。首先对关键帧的深度图进行双边滤波，然后对模型进行上采样得到图片和三维模型对应的训练集，并输入到神经网路中进行训练，最后使用Marching Cubes算法重建出较为精细的三维模型。

现有技术的缺点：

1、基于多视角的三维重建(CN110570522A)需要对同一物体的不同视角的图片进行特征融合后再进行二维图片到三维模型映射，虽然可以实现三维模型的实现，但是这种方法受限于输入复杂的数据，多视角图片的采集需要额外设备的辅助；

2、(CN112116700A)通过多次卷积后将图片的特征输入到三维部件生产器，虽然可以实现物体的部件级的重建，但是由于基于体素本身的局限性，其分辨率仅有32³；

3、基于单视角的图片(CN111899328A)使用了点云这种数据结构，在表面生成中，点云的代价是缺失点的领域信息以至于重建出的结果缺少表面细节和结构信息。

4、(CN112184899A)引入一种基于符号距离场函数表示形状，通过对连续的体积场表示形状的表面。该表达可以隐式地将形状的边界编码为学习函数的零集几何，但是当重建出带符号的距离之后，一般需要进行后处理，如Marching Cubes算法，来识别等值面进而重建出物体的表面，相比网络的方法来说，其代价较大。

5、现有方法只考虑了物体整体的几何特征。对于基于网格的方法而言，提取图片的特征后会对一个固定的椭球进行变形得以重建模型，最后的结果会丧失物体本身的结构性。这是由于在变形过程中只有一个连通分量，本来不应该连通的两个点仍会连通。

发明内容

本发明提出一个完整的学习框架，旨在重建出带有复杂结构的物体表面。该框架的输入为任意视角的单一RGB图像，然后通过一个高效的结构恢复网络重建出物体的包围盒，最后通过变形网络来变形包围盒。将物体每个部件的包围盒当做物体的结构信息，在直观表现上为是一组包围盒，将物体的部件结构当做层次化的包围盒，而包围盒又可以作为后续变形网络的输入，这样就可以重建出具有结构特征的三维模型。本发明使用一种拓扑自适应的图卷积，来解决在现有技术在变形过程中需要固定拓扑关系的瓶颈。一般的图卷积要求输入的点的连接关系不变，而拓扑自适应的图卷积只关注图中的局部位置而不关心图的整体的连接关系，所以可以输入不同的拓扑进行变形。另外，由于传统的图卷积在训练过程会发生过光滑的现象，本发明在具体实施过程中会采取短链接的操作，来缓解过光滑的现象发生，以便让网络学习到具体变形的参数。

本发明至少通过如下技术方案之一实现。

一种基于任意视角图片的三维结构化模型重建的方法，包括以下步骤：

步骤1、采集图片，构成训练数据集；

步骤2、对图片的物体部件进行分割，获取每个部件的包围盒；

步骤3、构建深度图提取网络，从图像中提取对应的深度图像；

步骤4、构建结构恢复网络，解码出物体的结构表示；

步骤5、构建并训练深度三维网格变形网络，将包围盒变形成三维模型。

优选的，所述训练数据集的图片包括物体的三维网格和与之对应的RGB图片和深度图片。

优选的，所述包围盒的参数包括：中心点的坐标、包围盒的长宽高以及长和宽的单位方向向量；并对每个分割好的部件进行采样。

优选的，所述深度图提取网络包括两个尺度网络，第一个尺度网络用于捕获整个图像的信息，架构为RestNet18，并连接两个全连接层；第二个尺度网络对输入的图像先进行卷积和池化，再进行连续卷积；

所述深度图提取网络搭建并训练RGB图片到深度图的映射，该深度图提取网络的输入为二维图片，输出为该图片对应的深度图，训练完成后保存该网络模型参数；

所述深度图提取网络训练时，目标函数最小化预测出来的深度值和真实值的差：

其中，Predict_i,j为预测的深度图中的索引为(i,j)的值；GT_i,j为真实的深度图中的索引为(i,j)的值。

优选的，所述结构恢复网络包括两个部分，第一个部分是融合深度图的特征和RGB图片的特征，将提取得到的特征集成到潜在向量中，并递归的将该潜在向量解码到物体各个部件的包围盒中；第二部分包括递归神经网络(RvNN)，该RvNN递归地将潜在向量解码为不同的特征层次，直到到达叶节点，叶节点进一步解码为包围盒的参数。

优选的，所述结构恢复网络的损失函数如下：

L_mask＝CHS(T(B_i)U,T(B_j)U)

其中，T(B_i)是单位正方体经过旋转变换成包围盒B_i的旋转矩阵；U为对单位正方体进行采样的点；CHS是计算两簇点的最小距离；T(B_j)是单位正方体经过旋转变换成包围盒B_j的旋转矩阵。

优选的，所述深度三维网格变形网络包括多个网格变形块，每个网格变形块包括n个卷积层和上采样层；网格变形块之间通过短链接进行连接；

所述结构恢复网络得到的是包围盒的格式是三维网格，所以把该包围盒构建成一张图，并在图上进行图卷积操作进而达到网格变形的效果，图卷积公式如下：

其中，

是第l个隐藏层中图卷积的第f个输出；C_l表示输入图的顶点的特征数；

为第f个图过滤器，c输入特征的通道数；

为输入的特征；b_f为需要学习的偏差，并且

为全是1的N_l维向量；假设网格定义为图

其中V为网格的所有点的集合，ε为网格中边的几何，定义

为邻接矩阵；在图

上定义长度维m的路径v＝(v₀,v₁,v₂,v₃,v_i,…,v_m),其中v_i表示该图中顶点的序号，i为该顶点在路径中的序号，其中路径中的每一步对应图中的一条边，整个图卷积公式为：

其中

为输入的特征；

为点j到点i中长度为k的路径的权重之和；

代表点j到点i长度为k的路径；

为图卷积的多项式系数；K_l滤波器的个数；

为

中k路径内到顶点i的输入特征的加权和；上述公式中，每一层图卷积中的神经单元只其局部区域的点相连，以保证卷积操作适应不同图的拓扑结构。

优选的，在计算损失函数之前，需对预测出来的网格进行采样，具体的采样策略如下：

考虑一个面片，面片上的三个定点分别为v₁、v₂、v₃，则采样新的点r公式为：

其中，u、w～U(0,1)，即u、w均服从均值为0，方差为1的正态分布。

优选的，所述深度三维网格变形网络包括多个损失函数：

第一个损失函数为计算预测出来的网格和真实网格最短的距离：

L_pts＝L_cd(Sample(P),G)

其中，P为预测出来的网格；G是真实值；Sample表示采样操作；L_cd为倒角距离,计算两簇点之间的最短距离为：

其中，x为预测出来网格的点的坐标；y为真实网格中的点的坐标；

则最终预测出来的网格和真实网格最短的距离的损失函数为：

L_pts＝L_cd(Sample(P),Sample(G))；

第二个损失函数为法向损失函数：

其中p、s和q表示网格上的点，另外，s为p领域的一个点，q是在计算ChamferDistance时离p最近的点，<p-s>代表两个向量的内积，并且n_q为真实网格的法向；

第三个损失函数是拉普拉斯损失函数：

其中，δ_p为点p的拉普拉斯坐标；δ_p和δ′_p分别表示变形前后的拉普拉斯坐标；

第四个损失函数是边的损失函数：

其中，q为点p的领域的点，N(p)为点p的领域。

优选的，对深度三维网格变形网络的各个损失函数加上权重进行网络训练：

L_loss＝L_recovery+L_pts+λ₁L_normal+λ₂L_laplace+λ₃L_edge.

其中，λ₁、λ₂和λ₃是权重每个损失项重要性的超参数。

与现有的技术相比，本发明的有益效果为：

1、与基于多视图的方法不同在于本发明使用普通相机捕获RGB图像，输入不依赖昂贵的设备，这极大的简化数据捕获的过程。

2、基于网格的方法在提取图像特征中，通常仅考虑RGB图像的特征信息，本发明利用一个多尺度的卷积神经网络来提取物体的深度信息，深度图像可以提供物体明显的结构特征，进而得到物体的结构表示，这为恢复物体的结构信息提供了依据。另外，用部件的包围盒来表示重建物体的结构可以弥补现有基于网格的方法中缺失结构的缺点；

3、基于网格的重建方法中会受限于其拓扑不变的问题，本发明通过对物体结构表示进行变形并使用一种拓扑自适应的方法，可以改善使用一般图卷积拓扑不变的问题，并且保证物体恢复的几何细节和结构信息。

附图说明

构成本申请的一部分的说明书附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。

图1是本实施例的处理流程图；

图2是本实施例输入用于重建的图像样例图；

图3是本实施例对应的重建结果示例图；

图4是本实施例深度图预测实例图。

具体实施方式

以下结合实施例及其附图对本发明作进一步说明。

如图1所示的一种基于任意视角图片的三维结构化模型重建的方法，包括以下步骤：

步骤1、采集训练数据，包括物体的三维网格和与之对应的RGB图片和深度图片。

步骤2、首先对物体部件进行分割，不同种类的物体分割的语义不同，然后计算每个部件的包围盒，包围盒的参数包括：中心点的坐标、包围盒的长宽高以及长和宽的单位方向向量；并对每个分割好的部件进行采样，根据每个三角形面的面积的大小一共采取16890个点。如图2所示。

步骤3、构建深度图提取网络，实现从RGB图像中提取对应的深度图像，该网络模型的输入输出分别为RGB图像和深度图，具体包括以下步骤：

步骤3.1、如图4所示，搭建并训练RGB图片到深度图的映射，该深度图提取网络的输入为224×224的二维图片，其中第1、3为输入的图片，第2、4为输出的深度图样例。输出为该图片对应的深度图，训练完成后保存该网络参数；

步骤3.2、该深度图提取网络包括两个尺度的网络；第一个尺度捕获整个图像的信息，架构是RestNet18用于提取RGB图片中的全局特征，然后连接两个全连接层；第二个尺度的网络包括卷积和池化，对输入的图像进行9×9卷积和池化，然后再进行9个连续的5×5个卷积；并且第一个尺度中的第3、第5个池化层和第一个尺度网络的输出分别被输入到第二个尺度网络中的第2、第4和第6个卷积层。

另外一个实施例可以采用VGG-16(直到其中的第5个池化)架构来提取RGB图片中的全局特征，且将第一个尺度中的第2、第4个池化层和第一个尺度网络的输出分别被输入到第二个尺度网络中的第2、第4和第6个卷积层以此来恢复图片的深度图。

步骤3.3、训练时，目标函数是最小化预测出来的深度值和真实值的差：

步骤4、构建从单张RGB图像中预测物体结构表示的结构恢复网络，其中物体的结构表示为一组包围盒。将物体的RGB图片和物体的结构表示输入到一个递归的深度学习网络中，经过一个编码器将图片映射成一个高维的向量，然后通过一个解码器递归的进行解码出物体的结构表示。进一步的，步骤4具体包括：

步骤4.1、构建所述深度网络模型，所述深度网络模型由两部分组成：第一个部分是融合深度图的特征和RGB图片的特征，提取深度图的网络为步骤3中训练好的网络，提取RGB图片特征的网络架构是ResNet18，最后将提取的特征集成到潜在向量(latent code)中，并递归的将该潜在向量解码到物体各个部件的包围盒中；第二部分是递归神经网络(RvNN)，该RvNN递归地将潜在向量解码为一个个特征层次，直到到达叶节点，叶节点可以进一步解码为一个包围盒的参数；

另一个实施例可以是直接使用提取RGB特征网络，后面紧接三个全连接层，将图片特征编码成其潜在向量，然后再用RvNN递归地将潜在向量解码为一个个特征层次，直到到达叶节点。

步骤4.2、所述结构恢复网络络的损失函数如下：

L_mask＝CHS(T(B_i)U,T(B_j)U)

其中，T(B_i)是单位正方体经过旋转变换成包围盒B_i的旋转矩阵；U为对单位正方体进行采样的点；CHS是计算两簇点的最小距离；T(B_j)是单位正方体经过旋转变换成包围盒B_j的旋转矩阵；

步骤5、构建深度三维网格变形网络。得到物体的结构表示后，使用深度三维网格变形网络将包围盒逐步变形成一个具有良好结构的模型，具体包括以下步骤：

步骤5.1、由于步骤4中生成的包围盒格式是三维网格，所以把一个该包围盒构建成一张图，并在图上进行图卷积操作进而达到网格变形的效果，图卷积公式如下：

其中，

为第f个图过滤器；

为输入的特征；b_f为需要学习的偏差，并且

为全是1的N_l维向量。假设网格定义为图

其中v为网格的所有点的集合，ε为网格中边的几何，定义

为邻接矩阵。在图

上定义长度维m的路径v＝(v₀,v₁,v₂,v₃,v_i,…,v_m),其中v_i表示该图中顶点的序号，i为该顶点在路径中的序号，其中路径中的每一步对应图中的一条边。例如：v_k∈v,(v_k,v_k+1)∈ε，而

是一个对称的矩阵，在路径定义对应的权重

其中p_0,m＝(v₀,v₁,…,v_m),其中v_m表示该路径中的第m个顶点；p_0,m表示从v₀到v_m的一条路径；

为邻接矩阵中索引为(v_k-1,v_k)的值，把整个图卷积公式重新写成：

其中，

为输入的特征；

为点j到点i中长度为k的路径的权重之和；

代表点j到点i长度为k的路径；

为图卷积的多项式系数；K_l滤波器的个数，一般设置为超参数；

为

中k路径内到顶点i的输入特征的加权和；g为图卷积多项式的系数；w为该路径上所有边的权重的乘积。上述公式中，每一层图卷积中的神经单元只其局部区域的点相连，这样可以保证卷积操作可以适应不同图的拓扑结构。

步骤5.2、深度三维网格变形网络包括三个重复的网格变形块。每个网格变形块包括14个卷积层和一个上采样层。另外，网格变形块之间通过短链接进行连接，来缓解过光滑现象的发生；

步骤5.3、在计算损失函数之前，需对预测出来的网格进行采样，具体的采样策略如下：

考虑一个三角形面片，其上的三个定点分别为v₁、v₂、v₃，则采样的新的点r公式：

另外一个实施例可以使用重心坐标进行采样，其上的三个定点分别为v₁、v₂、v₃，则使用重心坐标采样的新的点r公式为：

r＝u*v₁+w*v₂+t*v₃

其中，u、w、t∈(0,1)且u+w+t＝1，t为随机的参数；

步骤5.4、设置多个深度三维网格变形网络的损失函数：

第一个为计算预测出来的网格和真实网格最短的距离：

L_pts＝L_cd(Sample(P),G)

其中，P为预测出来的网格；G是真实值；Sample表示采样操作；L_cd为ChamferDistance,计算两簇点之间的最短距离，其公式表述为：

此外，另一个实施例为直接计算其EMD距离，考虑大小相等的点集P,G∈R³，R为实数集合，P＝G则EMD的定义为：

其中，φ:P→G是一个双射。EMD距离优化问题，对于非空点集对以外的所有子集，最优双射式唯一的，并且在点的无穷小移动下不变。x为未预测出来网格顶点的坐标，φ(x)为一个双射函数；

L_pts＝L_cd(Sample(P),Sample(G))

第二个损失函数是法向损失函数：

其中p、s和q表示网格上的点。另外，s为p领域的一个点，q是在计算ChamferDistance时离p最近的点，<p-s>代表两个向量的内积，并且n_q为真实网格的法向。

第三个损失函数是拉普拉斯损失函数：

其中，δ_p为点p的拉普拉斯坐标；δ_p和δ′_p分别表示变形前后的拉普拉斯坐标。

第四个损失函数是边的损失函数：

其中，q为点p的领域的点，N(p)为点p的领域。

步骤6、按照步骤3进行训练深度图提取网络，并保存网络参数。联合训练步骤4至步骤5，并且对结构恢复网络和网格变形网络的损失函数加上权重，整个进行训练：

L_loss＝L_pts+λ₁L_normal+λ₂L_laplace+λ₃L_edge.

其中，λ₁、λ₂和λ₃是权重每个损失项重要性的超参数。

使用Adam梯度下降算法联合训练，直到损失函数在一定迭代轮数内不在下降或满足预设的迭代轮数，则完成本训练，本实施例中一般取值为3000轮。训练好后，保存其参数。

图3为本发明提出的图卷积示意图，当从1号节点滑动都2号节点的过程示意图。

以上公开的本发明优选实施例只是用于帮助阐述本发明。优选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本发明的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本发明。本发明仅受权利要求书及其全部范围和等效物的限制。

Claims

1.一种基于任意视角图片的三维结构化模型重建的方法，其特征在于，包括以下步骤：

步骤1、采集图片，构成训练数据集；

步骤4、构建结构恢复网络，解码出物体的结构表示；

2.根据权利要求1所述的一种基于任意视角图片的三维结构化模型重建的方法，其特征在于，所述训练数据集的图片包括物体的三维网格和与之对应的RGB图片和深度图片。

3.根据权利要求2所述的一种基于任意视角图片的三维结构化模型重建的方法，其特征在于，所述包围盒的参数包括：中心点的坐标、包围盒的长宽高以及长和宽的单位方向向量；并对每个分割好的部件进行采样。

4.根据权利要求3所述的一种基于任意视角图片的三维结构化模型重建的方法，其特征在于，所述深度图提取网络包括两个尺度网络，第一个尺度网络用于捕获整个图像的信息，架构为RestNet18，并连接两个全连接层；第二个尺度网络对输入的图像先进行卷积和池化，再进行连续卷积；

5.根据权利要求4所述的一种基于任意视角图片的三维结构化模型重建的方法，其特征在于，所述结构恢复网络包括两个部分，第一个部分是融合深度图的特征和RGB图片的特征，将提取得到的特征集成到潜在向量中，并递归的将该潜在向量解码到物体各个部件的包围盒中；第二部分包括递归神经网络(RvNN)，该RvNN递归地将潜在向量解码为不同的特征层次，直到到达叶节点，叶节点进一步解码为包围盒的参数。

6.根据权利要求5所述的一种基于任意视角图片的三维结构化模型重建的方法，其特征在于，所述结构恢复网络的损失函数如下：

L_mask＝CHS(T(B_i)U,T(B_j)U)

7.根据权利要求6所述的一种基于任意视角图片的三维结构化模型重建的方法，其特征在于，所述深度三维网格变形网络包括多个网格变形块，每个网格变形块包括n个卷积层和上采样层；网格变形块之间通过短链接进行连接；