CN112365581A

CN112365581A - 一种基于rgb数据的单视角和多视角三维重建方法及装置

Info

Publication number: CN112365581A
Application number: CN202011281969.2A
Authority: CN
Inventors: 孔德慧; 高俊娜; 王少帆; 李敬华; 王立春
Original assignee: Beijing University of Technology
Current assignee: Beijing University of Technology
Priority date: 2020-11-17
Filing date: 2020-11-17
Publication date: 2021-02-12
Anticipated expiration: 2040-11-17
Also published as: CN112365581B

Abstract

一种基于RGB数据的单视角和多视角三维重建方法及装置，能够充分利用输入图像的个性特征和其属于特定类别的共性特征，以及物体自身的几何信息来增强三维重建效果，能够获得高精度的三维重建结果。方法包括：(1)融合输入视角的个性化特征和其所属类别的共性化特征，重建得到初始化的三维体素；(2)在初始化的三维体素基础上，利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建，基于体素注意力图结构，利用多尺度图卷积对初始体素进行细化处理。

Description

一种基于RGB数据的单视角和多视角三维重建方法及装置

技术领域

本发明涉及图像处理的技术领域，尤其涉及一种基于RGB数据的单视角和多视角三维重建方法，以及基于RGB数据的单视角和多视角三维重建装置。

背景技术

基于计算机视觉技术的三维物体重建在人类生活的众多领域得到广泛应用，如人机交互、虚拟现实、增强现实和医疗诊断等。

目前，基于RGB的三维物体重建方法主要分为传统方法和基于深度学习的方法。

传统的三维重建方法的核心环节是多视图图像特征匹配，重建模型质量高度依赖特征匹配精度。但是，由于外观变化或自遮挡，使得不同视点图像差异较大，因此很难建立精确稠密的特征对应关系。而且，重构的三维形状通常是一个没有几何细节的稀疏点云，精度待提升。此外，传统的三维重建方法涉及的环节较多，一般主要包括图像预处理，特征的计算与配准，数据融合，纹理映射等，导致环节之间的误差传递积累，最后严重影响重建效果。

基于深度学习的特征提取及三维模型重建克服了上述传统方法中的弊端，从而受到广泛关注。与此同时此类方法随着大量三维计算机辅助设计模型的出现而飞速发展。例如基于循环神经网络的三维重建方法将三维重建看作序列学习问题，使用循环神经网络去融合从输入图像提取的深度特征从而去重建三维形状；但是这类方法在给定不同顺序的输入图像时，三维重建结果存在差异，不能保证三维重建形状的一致性。为了克服这个问题，基于编码器-解码器结构的生成网络的三维重建方法被提出，即用编码器映射二维图像得到潜在特征表示，解码器将潜在特征表示解码得到一个三维形状；但是此类方法是针对每个输入视图单独处理，提取当前输入独有的潜在特征，没有充分利用与特定类别关联的视图共有信息，同时也没有明确利用物体可见部分和遮挡部分相关的几何线索和感知线索，比如模型的几何对称性。这些局限性限制了精细化三维重建的实现。

发明内容

为克服现有技术的缺陷，本发明要解决的技术问题是提供了一种基于RGB数据的单视角和多视角三维重建方法，其能够充分利用输入图像的个性特征和其属于特定类别的共性特征，以及物体自身的几何信息来增强三维重建效果，能够获得高精度的三维重建结果。

本发明的技术方案是：这种基于RGB数据的单视角和多视角三维重建方法，包括以下步骤：

(1)融合输入视角的个性化特征和其所属类别的共性化特征，重建得到初始化的三维体素；

(2)在初始化的三维体素基础上，利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建，基于体素注意力图结构，利用多尺度图卷积对初始体素进行细化处理。

本发明将输入视角的个性化特征和它属于特定类别的共性化特征相融合进行初始化三维体素重建，利用模型在特定视角下的先验对称性和三维体素本身具有的上下文依赖关系指导三维模型的图构建并利用精心设计的多尺度图卷积进行细化，从而得到完整的合理的三维体素，因此能够充分利用输入图像的个性特征和其属于特定类别的共性特征，以及物体自身的几何信息来增强三维重建效果，能够获得高精度的三维重建结果。

还提供了一种基于RGB数据的单视角和多视角三维重建装置，该装置包括：

三维体素重建模块，其融合输入视角的个性化特征和其所属类别的共性化特征，重建得到初始化的三维体素；

体素精细化模块，其在初始化的三维体素基础上，利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建，基于体素注意力图结构，利用多尺度图卷积对初始体素进行细化处理。

附图说明

图1示出了根据本发明的基于RGB数据的单视角和多视角三维重建装置的总体框架图。

图2示出了单视角的图连接关系。

图3示出了多视角的图连接关系。

图4示出了ShapeNet数据集上单视角重建结果。

图5示出了ShapeNet数据集上多视角重建结果。

具体实施方式

这种基于RGB数据的单视角和多视角三维重建方法，包括以下步骤：

如图1所示，还提供了一种基于RGB数据的单视角和多视角三维重建装置，该装置包括：

优选地，所述三维体素重建模块包括两个编码-解码网络，一个融合模块；其中第一编码-解码网络中的编码器E_Com从图像中学习潜在特征，并对其进行分类处理以获得属于特定类别的共性特征，送入第一编码-解码网络中的解码器D_Com重建出共性粗糙三维体素；第二编码-解码网络中的编码器E_Ind-解码器D_Ind提取输入图像的个性化潜在特征并解码生成个性初始三维体素；融合模块利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。

优选地，所述第一编码-解码网络中，对于n个视角的输入图像

经过E_Com得到潜在变量

分类该潜在变量到它所属的类别c_j中，其分类损失为公式(1)：

其中p_k表示真实的类别，q_k表示预测的类别；然后将潜在特征送入解码器D_Com得到重建的

优选地，所述第二编码-解码网络中，将输入图像

经过E_Ind得到潜在特征

z_i表示第i个视角的个性潜在特征，后将其送入解码器D_Ind得到重建的个性初始三维体素

优选地，所述融合模块中，分别通过共性和个性的上下文打分网络对

和

对打分，得到

和

然后将体素和相应的分数相乘再进行融合得到融合后的三维体素

为了评估重建的体素，在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量，定义为公式(2)：

其中N表示三维物体中体素的数量，p_i和gt_i代表预测体素的占用率和相应的真实体素的占用率。

优选地，所述体素精细化模块中，

使用图卷积公式：

其中σ表示激活函数，X^l和X^l+1分别表示图中节点在l层前后的特征矩阵，

表示可学习的权重矩阵，

表示图中对称的归一化邻接矩阵,

其中

表示对角节点度矩阵，

定义每个节点使用其他节点特征的程度，

表示图的邻接矩阵，当两边之间有连接关系将其置为1，否则置为0。

优选地，对于公开数据集ShapeNet，其中的大多数模型是呈对称性的，其x-y平面是对称面，其他两个x-z，y-z坐标平面都是非对称平面；对于每一个尺度d_r ³下的三维体素进行基于GCN的多通道融合具体操作为：首先将其定义为V；然后定义

和

为切片方向,分别表示沿着y-z、x-z、x-y坐标平面对三维体素切片，得到

和

三个集合，其中每个集合表示一个d_r×d_r的二维切片序列，序列长度为d_r；每个二维切片被转换为大小为D_l的特征向量，并把此特征向量作为图结构中每个节点的特征，那么图结构中节点的特征矩阵为D_l×d_r；接下来随机打乱视图的顺序，将沿同一坐标平面的视图与随机另外一个视图进行组合，那么对于n个视角，则有n对组合且图结构大小固定为2d_r×2d_r；最终图的节点特征矩阵为

邻接矩阵表示为A^K×K，其中D_l＝d_r×d_r,K＝2d_r；在单视角图结构中，每个切片只与前后切片以及对称切片之间建立连接关系；在多视角图结构中，每个切片还额外与其他视角位置相同的切片建立连接关系；另外两个分支将三维体素沿着非对称平面即x-z、y-z平面进行切片构建图结构，不同之处在于不建立对称性连接；随后使用GCN对所构造的图进行细化；最后将同一视图对应的三个分支的特征进行融合并送到图池化层，得到另一个尺度的体素。

优选地，对于三维体素优化模块，损失函数包括重建损失和对称约束；重建损失为loss_rec，对称约束项为：

其中k表示对称切片对的数量，s_k和s_31-k表示一对对称切片。

以下更详细地说明本发明。

本发明主要包括三个关键的技术点：1)融合输入视角的个性化特征和其所属类别的共性化特征，重建得到初始化的三维体素；2)在初始化三维体素基础上，利用体素在特定视角下的先验对称性和本身具有的内部上下文依赖关系指导体素注意力图结构的构建；3)基于体素注意力图结构，利用精心设计的多尺度图卷积对初始体素进行细化处理。

1.融合个性潜在特征和共性潜在特征的三维体素重建模块

三维体素重建模块主要负责提取输入视图本身的个性潜在特征和其属于特定类别的共性潜在特征，生成个性初始三维体素和共性初始三维体素。这些潜在特征包含丰富的指导信息，消除了信息不足对恢复三维形状的影响。此外，为了获得共性潜在特征，从域自适应角度提出了一种有效的域混淆方法，通过约束潜在特征支持体素对象分类到特定的类别内，从而获取该体素所共有的类别共性特征。在得到个性初始三维体素和共性初始三维体素后，利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。

该模块主要由两个编码-解码网络，一个融合模块组成，具体如图1上部所示。其中编码器E_Com从图像中学习潜在特征，并对其进行分类处理以获得属于特定类别的共性特征，送入解码器D_Com重建出共性粗糙三维体素。具体来说，对于n个视角的输入图像

经过E_Com得到潜在变量

分类该潜在变量到它所属的类别c_j中，其分类损失为：

其中p_k表示真实的类别，q_k表示预测的类别。然后将潜在特征送入解码器D_Com得到重建的

另一个编码器E_Ind-解码器D_Ind主要负责提取输入图像的个性化潜在特征并解码生成个性初始三维体素。具体来说，将输入图像

经过E_Ind得到潜在特征

z_i表示第i个视角的个性潜在特征。然后将其送入解码器D_Ind得到重建的个性初始三维体素

在得到个性粗糙三维体素和共性粗糙三维体素后，利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。具体来说，分别通过共性和个性的上下文打分网络对

和

对打分得到

和

为了评估重建的体素，在重建的三维体素与真实的三维体素之间采用基于体素的二值交叉熵的平均值进行度量。更具体地，它可以被定义为：

其中N表示三维物体中体素的数量。p_i和gt_i代表预测体素的占用率和相应的真实体素的占用率。损失越小，预测结果越接近真实体素。

2.图卷积的体素精细化模块：

经过体素重建模块，得到同一物体不同视角下的初始化三维体素。三维对象具有局部连续性和内部关联性。为了获取这些关系，设计了多尺度图U-Net来精细化体素，这种方法可以捕获更丰富的三维体素局部之间的依赖关系，探索细节信息，最终得到完整的合理的三维体素。

使用的图卷积公式如下：

表示可学习的权重矩阵，

表示图中对称的归一化邻接矩阵,

其中

表示对角节点度矩阵。

简单地定义每个节点使用其他节点特征的程度。A∈[0,1]^K×K表示图的邻接矩阵，当两边之间有连接关系将其置为1，否则置为0。

三维体素的局部特征之间具有关联关系，这对于三维体素细化也是必不可少的指导信息。因此，利用对称性将体素数据建模为二维切片序列来构造图结构，从而捕获相关依赖关系最终得到可靠的三维体素。设计的多尺度图U-Net网络结构如图1下部所示。编码器是由三个编码块组成，每个编码块包含一个GCN层和一个图池化层。解码器由三个解码块组成，每个解码块包含一个GCN层和一个图解池化层。在编码器和解码器的对应块之间有跳跃连接，它将空间信息从编码器传输到解码器以获得更好的解码性能。三维体素的尺度变化依次为32³，16³，8³，4³，8³，16³，32³，这样一个多尺度的设计可以捕捉更细粒度的更具完整细节的三维体素。

日常物体往往具有全局对称性，这一性质有利于恢复被遮挡或局部观察到的部分。本发明实验所用的公开数据集ShapeNet中的大多数模型也是呈对称性的，其x-y平面是对称面。其他两个x-z，y-z坐标平面都是非对称平面。对于每一个尺度d_r ³下的三维体素进行基于GCN的多通道融合具体操作如下，首先将其定义为V；然后定义

和

和

三个集合，其中每个集合表示一个d_r×d_r的二维切片序列，序列长度为d_r。每个二维切片被转换为大小为D_l的特征向量，并把此特征向量作为图结构中每个节点的特征，那么图结构中节点的特征矩阵为D_l×d_r。接下来随机打乱视图的顺序，将沿同一坐标平面的视图与随机另外一个视图进行组合，那么对于n个视角，则有n对组合且图结构大小固定为2d_r×2d_r。也就是说，最终图的节点特征矩阵为

邻接矩阵表示为A^K×K，其中D_l＝d_r×d_r,K＝2d_r。在单视角图结构中，每个切片只与前后切片以及对称切片之间建立连接关系，如图2所示。在多视角图结构中，每个切片还额外与其他视角位置相同的切片建立连接关系，如图3所示。类似地，另外两个分支将三维体素沿着非对称平面即x-z、y-z平面进行切片构建图结构，不同之处在于不建立对称性连接。随后使用GCN对所构造的图进行细化。最后将同一视图对应的三个分支的特征进行融合并送到图池化层，得到另一个尺度的体素。

本发明建立的单视角以及多视角的图结构，捕获了相邻，对称，以及不同视角相同位置的信息。这些信息对填补三维体素缺失或遮挡部分和重建一个具有细粒度的高质量三维体素产生巨大作用。最后输出的体素进行视角之间的平均融合，得到细化后的体素。对于三维体素优化模块，我们的损失函数包括重建损失和对称约束。重建损失如上所述的loss_rec，对称约束项如下：

其中k表示对称切片对的数量。s_k和s_31-k表示一对对称切片。

本发明已经在公开数据集ShapeNet上得到验证，取得不错的实验效果。表1展示本发明在ShapeNet数据集上的单视角重建结果，可以看出，与其他方法相比，本方法已经达到了目前最好的效果。表2展示了本发明在ShapeNet数据集上的多视角重建结果，本方法同样是目前最好的结果。图4、5给出ShapeNet数据集上一些三维重建的主观效果，实验效果表明了在各类物体上，该方法都能取得较好的重建效果。

表1:ShapeNet数据集上单视角的重建精度(度量：IoU)

表2:ShapeNet数据集上多视角的重建精度(度量：IoU)

方法	1view	2views	3views	4views	5views	8views	12views	16views	20views
										3D-R2N2	0.560	0.603	0.617	0.625	0.634	0.635	0.636	0.636	0.636
AttSets	0.642	0.662	0.670	0.675	0.677	0.685	0.688	0.692	0.693
										Pix2Vox-F+	0.634	0.653	0.661	0.666	0.668	0.672	0.674	0.675	0.676
Pix2Vox-F	0.634	0.660	0.668	0.673	0.676	0.680	0.682	0.684	0.684
										Pix2Vox-A+	0.661	0.678	0.684	0.687	0.689	0.692	0.694	0.695	0.695
Pix2Vox-A	0.661	0.686	0.693	0.697	0.699	0.702	0.704	0.705	0.706
										本发明方法	0.670	0.693	0.701	0.706	0.709	0.713	0.716	0.718	0.719

以上所述，仅是本发明的较佳实施例，并非对本发明作任何形式上的限制，凡是依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰，均仍属本发明技术方案的保护范围。

Claims

1.一种基于RGB数据的单视角和多视角三维重建方法，其特征在于：该方法包括以下步骤：

2.一种基于RGB数据的单视角和多视角三维重建装置，其特征在于：其包括：

3.根据权利要求2所述的基于RGB数据的单视角和多视角三维重建装置，其特征在于：所述三维体素重建模块包括两个编码-解码网络，一个融合模块；

其中第一编码-解码网络中的编码器E_Com从图像中学习潜在特征，并对其进行分类处理以获得属于特定类别的共性特征，送入第一编码-解码网络中的解码器D_Com重建出共性粗糙三维体素；第二编码-解码网络中的编码器E_Ind-解码器D_Ind提取输入图像的个性化潜在特征并解码生成个性初始三维体素；融合模块利用基于个性-共性的上下文感知融合模块得到融合的初始三维体素。

4.根据权利要求3所述的基于RGB数据的单视角和多视角三维重建装置，其特征在于：所述第一编码-解码网络中，对于n个视角的输入图像

经过E_Com得到潜在变量

5.根据权利要求4所述的基于RGB数据的单视角和多视角三维重建装置，其特征在于：所述第二编码-解码网络中，将输入图像

经过E_Ind得到潜在特征

6.根据权利要求5所述的基于RGB数据的单视角和多视角三维重建装置，其特征在于：所述融合模块中，分别通过共性和个性的上下文打分网络对

和

对打分，得到

和

7.根据权利要求6所述的基于RGB数据的单视角和多视角三维重建装置，其特征在于：所述体素精细化模块中，

使用图卷积公式：

表示可学习的权重矩阵，

表示图中对称的归一化邻接矩阵,

其中

表示对角节点度矩阵，

定义每个节点使用其他节点特征的程度，A∈[0,1]^K×K表示图的邻接矩阵，当两边之间有连接关系将其置为1，否则置为0。

8.根据权利要求7所述的基于RGB数据的单视角和多视角三维重建装置，其特征在于：对于公开数据集ShapeNet，其中的大多数模型是呈对称性的，其x-y平面是对称面，其他两个x-z，y-z坐标平面都是非对称平面；对于每一个尺度d_r ³下的三维体素进行基于GCN的多通道融合具体操作为：首先将其定义为V；然后定义

和

和

9.根据权利要求8所述的基于RGB数据的单视角和多视角三维重建装置，其特征在于：对于三维体素优化模块，损失函数包括重建损失和对称约束；重建损失为loss_rec，对称约束项为：

其中k表示对称切片对的数量，s_k和s_31-k表示一对对称切片。