CN115330935A

CN115330935A - 一种基于深度学习的三维重建方法及系统

Info

Publication number: CN115330935A
Application number: CN202210924780.3A
Authority: CN
Inventors: 张维; 林晓明; 王洋; 王爽; 巩高
Original assignee: Guangdong Shunde Industrial Design Institute
Current assignee: Guangdong Shunde Industrial Design Institute
Priority date: 2022-08-02
Filing date: 2022-08-02
Publication date: 2022-11-11

Abstract

本发明公开了一种基于深度学习的三维重建方法及系统，包括：获取目标物体对应的多个待处理图像；将所有待处理图像输入至深度图像获取模型，以获得各待处理图像对应的深度图像；通过预设的三维重建算法，结合所有深度图像，获得目标物体的三维重建模型，实现对目标物体的三维重建；其中，深度图像获取模型为通过在预设的多视角立体视觉神经网络MVSNet的基础上，引入交叉注意力机制而获得的。本发明通过在预设的多视角立体视觉神经网络MVSNet的基础上，引入交叉注意力机制，以优化深度图像获取模型的信息捕捉性能和信息匹配性能，并逐图像获取目标物体的多视角深度信息，进而提升对于目标物体的三维重建精度和三维重建效率。

Description

一种基于深度学习的三维重建方法及系统

技术领域

本发明涉及三维重建技术领域，尤其涉及一种基于深度学习的三维重建方法及系统。

背景技术

三维重建能够反映图像中完整的场景信息，在工业自动化、虚拟现实应用、视觉导航等领域应用广泛。传统三维模型重建方法以传感器是否主动向物体照射光源为依据，可将传统方法分为被动式三维重建方法和主动式三维重建方法。其中，被动式三维重建方法利用成像投影过程中物体自身的几何特征来逆向计算物体的深度信息，局限性在于需要设置严苛的先验及约束，而主动式三维重建方法由于需要精密的硬件设备意味着高昂的成本，并且设备的使用容易受环境因素影响，进而造成提取特征不够精确以及耗费时间较长等不良影响。近年来随着深度学习的迅速发展，卷积神经网络(Convolutional NeuralNetworks，CNN)也逐渐应用于三维重建领域中，早期的神经网络方法主要是处理两张图对应点的匹配问题，并通过网络计算出两点的相似度。

目前，比较常见的基于卷积神经网络的三维重建方法有：多视角立体视觉神经网络SurfaceNet和Multi-view Stereo(MVSNet)、以及Learned Stereo Machine(LSM)模型。SurfaceNet是先重建彩色体素立方体，再将所有像素的颜色信息和相机参数构成一个三维代价体，所构成的三维代价体即为网络的输入，并输出三维构建结果，这种基于分割的三维重建方法，耗时较长。而LSM虽然直接采用了端到端学习的方法，但是与SurfaceNet相同，都需要用规则的网格表示，存在空间离散带来的误差以及内存消耗等缺点，且LSM使用手工进行合成，立体分辨率较低。另外地，端到端的多视图深度预测网络MVSNet，和其他基于深度图像的MVS方法类似，是将一张参考图像和多张源图像作为输入，为参考图像预测深度图像，其关键之处在于可微分的单应变换操作，使得能够在从二维特征图构建三维代价体的过程中，将相机参数隐式地编码入该网络。相较于其他的基于深度学习的三维重建方法，MVSNet对三维代价体的构建是基于相机视锥体而不是规整的欧式空间，并且将整体的三维构建划分为逐视图的深度估计问题，使得大规模的重建成为可能。然而，MVSNet在获取深度信息的过程中，容易造成关键信息的丢失和冗余信息的存在，进而影响整体的重建精度和重建效率。

发明内容

本发明提供了一种基于深度学习的三维重建方法及系统，在基于大量图像进行三维重建时，提升整体的三维重建精度和三维重建效率。

为了解决上述技术问题，本发明实施例提供了一种基于深度学习的三维重建方法，包括：

获取目标物体对应的多个待处理图像；

将所有所述待处理图像输入至深度图像获取模型，以获得各所述待处理图像对应的深度图像；

通过预设的三维重建算法，结合所有所述深度图像，获得所述目标物体的三维重建模型，实现对所述目标物体的三维重建；

其中，所述深度图像获取模型为通过在预设的多视角立体视觉神经网络MVSNet的基础上，引入交叉注意力机制而获得的。

实施本发明实施例，对预设的多视角立体视觉神经网络MVSNet进行改进，即引入交叉注意力机制，使得深度图像获取模型能够更好地处理目标物体对应的多个待处理图像，以优化深度图像获取模型的信息捕捉性能和信息匹配性能，进而提升对于目标物体的三维重建精度和三维重建效率。另外地，通过逐图像获取目标物体的多个深度信息，能够丰富目标物体的三维重建的依据，进一步提升其三维重建精度。

作为优选方案，所述将所有所述待处理图像输入至深度图像获取模型，以获得各所述待处理图像对应的深度图像，具体为：

将所有所述待处理图像输入至所述深度图像获取模型，通过特征提取层，分别提取各所述待处理图像对应的局部特征和全局特征，并融合所述局部特征和所述全局特征，以获得各所述待处理图像对应的深度特征；

通过单应性变换层，对各所述深度特征进行可微单应性变换，以获得各所述待处理图像对应的单应矩阵，并根据各所述单应矩阵，构建各所述单应矩阵对应的第一代价空间；

通过代价空间正则化层，对各所述第一代价空间进行正则化，以获得各所述第一代价空间对应的第二代价空间、以及各所述第二代价空间对应的概率体积；

通过深度图像获取层，按照预设的算法，结合各所述概率体积，计算得到各所述待处理图像对应的所述深度图像；

其中，所述深度图像获取模型依次包括所述特征提取层、所述单应性变换层、所述代价空间正则化层和所述深度图像获取层。

实施本发明实施例的优选方案，通过深度图像获取模型的特征提取层，不仅能够捕捉待处理图像的全局特征，还能够捕捉其局部特征，并融合其局部特征和全局特征，以减少关键信息丢失和冗余信息占用等情况，进而提升特征提取精度并减少整体计算量。

作为优选方案，所述深度图像获取模型的获取，具体为：

在所述多视角立体视觉神经网络MVSNet的特征提取阶段，引入所述交叉注意力机制，以形成所述深度图像获取模型的所述特征提取层，并在所述多视角立体视觉神经网络MVSNet的代价空间正则化阶段，引入所述交叉注意力机制，以形成所述深度图像获取模型的所述代价空间正则化层，进而获得所述深度图像获取模型；

其中，所述交叉注意力机制通过Transformer模型实现。

实施本发明实施例的优选方案，在特征提取阶段和代价空间正则化阶段引入Transformer技术，以形成深度图像获取模型的特征提取层和代价空间正则化层，使得深度图像获取模型能够更好提取待处理图像中的关键信息，避免冗杂信息对三维模型的构建精度、以及过多的数据对深度图像获取模型的处理效率造成负面影响，并且通过代价空间正则化层的编码器-解码器结构，从一个大的感受野聚集相邻的关键信息，从而提升生成的深度图像的准确性，以进一步提升三维重建模型的构建精度。

作为优选方案，所述通过预设的三维重建算法，结合所有所述深度图像，获得所述目标物体的三维重建模型，实现对所述目标物体的三维重建，具体为：

通过预设的三维重建算法，对同一视角下的所述深度图像和所述待处理图像进行融合处理，以获得各所述深度图像对应的融合图像；

根据所有所述融合图像，获取所述目标物体的三维点云数据，并利用所述三维点云数据，构建所述目标物体的所述三维重建模型，实现对所述目标物体的三维重建。

实施本发明实施例的优选方案，对同一视角下的深度图像和待处理图像进行融合，并将融合得到的图像转换为三维点云数据，进而对三维点云数据进行可视化，实现对目标物体的三维重建，可以提高点云数据的精确性，以提升构建得到的三维重建模型与目标物体的贴合度。

作为优选方案，所述获取目标物体对应的多个待处理图像，具体为：

通过双目相机，从不同视角对所述目标物体进行拍摄，以获得多个单视角图像；

对所有所述单视角图像进行预处理，获得各所述单视角图像对应的所述待处理图像。

实施本发明实施例的优选方案，从不同视角对目标物体进行拍摄，以获得多个单视角图像，并对之进行预处理，以获得各单视角图像对应的待处理图像，为后续的三维模型构建提供多个视角的图像数据，避免仅根据单一视角构建目标物体的三维模型，而造成的三维重建精度较低的问题。

为了解决相同的技术问题，本发明实施例还提供了一种基于深度学习的三维重建系统，包括：

数据获取模块，用于获取目标物体对应的多个待处理图像；

数据处理模块，用于将所有所述待处理图像输入至深度图像获取模型，以获得各所述待处理图像对应的深度图像；其中，所述深度图像获取模型为通过在预设的多视角立体视觉神经网络MVSNet的基础上，引入交叉注意力机制而获得的；

三维重建模块，用于通过预设的三维重建算法，结合所有所述深度图像，获得所述目标物体的三维重建模型，实现对所述目标物体的三维重建。

作为优选方案，所述数据处理模块，具体包括：

特征提取单元，用于通过所述深度图像获取模型，分别提取各所述待处理图像对应的局部特征和全局特征，并融合所述局部特征和所述全局特征，以获得各所述待处理图像对应的深度特征；

单应性变换单元，用于对各所述深度特征进行可微单应性变换，以获得各所述待处理图像对应的单应矩阵，并根据各所述单应矩阵，构建各所述单应矩阵对应的第一代价空间；

代价空间正则化单元，用于对各所述第一代价空间进行正则化，以获得各所述第一代价空间对应的第二代价空间、以及各所述第二代价空间对应的概率体积；

深度图像获取单元，用于按照预设的算法，结合各所述概率体积，计算得到各所述待处理图像对应的所述深度图像。

作为优选方案，所述的一种基于深度学习的三维重建系统，还包括：

模型构建模块，用于在所述多视角立体视觉神经网络MVSNet的特征提取阶段和代价空间正则化阶段，分别引入所述交叉注意力机制，以获得所述深度图像获取模型；其中，所述交叉注意力机制通过Transformer模型实现。

作为优选方案，所述三维重建模块，具体包括：

融合处理单元，用于通过预设的三维重建算法，对同一视角下的所述深度图像和所述待处理图像进行融合处理，以获得各所述深度图像对应的融合图像；

三维重建单元，用于根据所有所述融合图像，获取所述目标物体的三维点云数据，并利用所述三维点云数据，构建所述目标物体的所述三维重建模型，实现对所述目标物体的三维重建。

作为优选方案，所述数据获取模块，具体包括：

数据获取单元，用于通过双目相机，从不同视角对所述目标物体进行拍摄，以获得多个单视角图像；

预处理单元，用于对所有所述单视角图像进行预处理，获得各所述单视角图像对应的所述待处理图像。

附图说明

图1：为本发明实施例一提供的一种基于深度学习的三维重建方法的流程示意图；

图2：为本发明实施例一提供的深度图像获取模型的结构示意图；

图3：为本发明实施例一提供的特征提取层2D U-Transformer的结构示意图；

图4：为本发明实施例一提供的一种基于深度学习的三维重建系统的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

请参照图1，为本发明实施例提供的一种基于深度学习的三维重建方法，该方法包括步骤S1至步骤S3，各步骤具体如下：

步骤S1，获取目标物体对应的多个待处理图像。

作为优选方案，步骤S1包括步骤S11至步骤S12，各步骤具体如下：

步骤S11，通过双目相机，从不同视角对目标物体进行拍摄，以获得多个单视角图像。

步骤S12，对所有单视角图像进行预处理，获得各单视角图像对应的待处理图像。

步骤S2，将所有待处理图像输入至深度图像获取模型，以获得各待处理图像对应的深度图像；其中，深度图像获取模型为通过在预设的多视角立体视觉神经网络MVSNet的基础上，引入交叉注意力机制而获得的。

作为优选方案，步骤S2包括步骤S21至步骤S24，各步骤具体如下：

步骤S21，请参照图2，将所有待处理图像输入至深度图像获取模型，通过特征提取层2D U-Transformer，分别提取各待处理图像对应的局部特征和全局特征，并融合局部特征和全局特征，以获得各待处理图像对应的深度特征；其中，深度图像获取模型依次包括特征提取层2D U-Transformer、单应性变换层、代价空间正则化层3D U-Transformer和深度图像获取层。

在本实施例中，请参照图3，特征提取层2D U-Transformer由编码器(Encoder)、瓶颈(Bottleneck)、解码器(Decoder)和跳跃连接(Skip Connection)组成。

当待处理图像输入至深度图像获取模型的特征提取层2D U-Transformer时，编码器对待处理图像进行表征学习，其中特征维度和分辨率保持不变。同时，Patch Merging层将待处理图像的patches分为4部分，并经由Patch Merging层将分成的各patch连接在一起，此时特征分辨率将被下采样2倍，并且由于连接操作导致特征维数增加了4倍，因此在连接后的特征上应用线性层以将特征维数统一为原始维数的2倍。上述Patch Merging层的下采样过程在编码器中重复3次。接着，由于Transformer太深而无法收敛，因此只使用两个连续的Transformer Block来构建瓶颈以学习深度特征表示，在瓶颈中，特征维度和分辨率保持不变。然后，对应于编码器，使用解码器中的Patch Expanding层，对瓶颈输出的深度特征进行上采样，此时Patch Expanding层将相邻维度的特征图重塑为更高分辨率的特征图(2倍上采样)，并相应地将特征维度减少到原始维度的一半。最后，跳跃连接将来自编码器的多尺度特征与来自解码器的上采样特征进行融合，获得待处理图像对应的深度特征，即为将浅层特征和深层特征连接在一起，以减少下采样造成的空间信息丢失。

需要说明的是，Transformer Block中使用交叉注意力(Cross Attention)机制，以使在patch内部而不是整个图像中交替使用attention，以捕捉其局部特征，并在从图像对应的各单通道特征图中划分出来的patches之间应用attention，以捕捉其全局信息，进而实现在保持特征提取性能的同时减少其计算量，以进一步提升整体的三维构建效率。

步骤S22，通过单应性变换层，对各深度特征进行可微单应性变换，以获得各待处理图像对应的单应矩阵，并根据各单应矩阵，构建各单应矩阵对应的第一代价空间V′。

在本实施例中，利用可微单应性变换，描述物体在世界坐标系和像素坐标系之间的位置映射关系，将各深度特征变换到参考相机的锥形立体空间，形成N+1个代价空间V′，其中N为Cross Attention中的patch尺寸。N+1个特征图，在参考相机锥形空间的同一空间位置同时产生N+1个代价空间。

需要说明的是，不同深度的单应性变换公式请参见式(1)，而单应矩阵H的定义请参见式(2)。

x′～H_i(d)·x (1)

其中，x为投影前的像素点，x′为投影后的像素点，～为投影操作，H_i(d)为第i个深度特征图到参考图像相机视锥的深度d平面的单应矩阵，H_i(d)的计算公式请参见式(3)。

其中，K_i、R_i和t_i分别为第i个视角图像的相机内参矩阵、旋转矩阵和位移矩阵，I为单位矩阵，d为深度值。

步骤S23，通过代价空间正则化层(3D U-Transformer)，对各第一代价空间进行正则化，以获得各第一代价空间对应的第二代价空间、以及各第二代价空间对应的概率体积。

在本实施例中，通过3D U-Transformer，对各第一代价空间进行正则化，以获得各第一代价空间对应的第二代价空间，然后沿深度维度，使用softmax操作生成对应的概率体积P。

步骤S24，通过深度图像获取层，按照预设的算法，结合各概率体积，计算得到各待处理图像对应的深度图像。

在本实施例中，为了产生连续的深度估计，通过深度图像获取层，使用SoftArgmin操作来估计各像素点的深度E，以形成各待处理图像对应的深度图像预测结果Predicted Depth Map，深度E的估计公式请参见式(4)。

其中，P(d)表示深度假设为d的所有像素的估计概率，[d_min,d_max]为采样深度取值范围。

需要说明的是，请参照式(5)，计算各深度图像的预测结果的平均均对误差

以体现深度图像预测结果的准确性，并利用平均均对误差

对各深度图像预测结果PredictedDepth Map进行优化，以形成各深度图像预测结果对应的优化结果GT Depth Map，并将该优化结果作为最终的各待处理图像对应的深度图像，从而为后续对目标物体的三维重建提供准确的深度图像。

其中，x_valid表示地面实况中的有效像素集，d(x)和

分别表示深度图像的预测结果Predicted Depth Map所对应的深度预测结果和地面实况深度。

步骤S3，通过预设的三维重建算法，结合所有深度图像，获得目标物体的三维重建模型，实现对目标物体的三维重建。

作为优选方案，步骤S3包括步骤S31至步骤S32，各步骤具体如下：

步骤S31，通过预设的三维重建算法，对同一视角下的深度图像和待处理图像进行融合处理，以获得各深度图像对应的融合图像。

步骤S32，根据所有融合图像，获取目标物体的三维点云数据，并利用三维点云数据，构建目标物体的三维重建模型，实现对目标物体的三维重建。

作为优选方案，深度图像获取模型的获取流程为步骤S4，具体如下：

步骤S4，在多视角立体视觉神经网络MVSNet的特征提取阶段，引入交叉注意力机制，以形成深度图像获取模型的特征提取层，并在多视角立体视觉神经网络MVSNet的代价空间正则化阶段，引入交叉注意力机制，以形成深度图像获取模型的代价空间正则化层，进而获得深度图像获取模型；其中，交叉注意力机制通过Transformer模型实现。

在本实施例中，深度图像获取模型的特征提取层即为2D U-Transformer，深度图像获取模型的代价空间正则化层即为3D U-Transformer。

请参照图4，为本发明实施例提供的一种基于深度学习的三维重建系统的结构示意图，该系统包括数据获取模块1、数据处理模块2和三维重建模块3，各模块具体如下：

数据获取模块1，用于获取目标物体对应的多个待处理图像；

数据处理模块2，用于将所有待处理图像输入至深度图像获取模型，以获得各待处理图像对应的深度图像；其中，深度图像获取模型为通过在预设的多视角立体视觉神经网络MVSNet的基础上，引入交叉注意力机制而获得的；

三维重建模块3，用于通过预设的三维重建算法，结合所有深度图像，获得目标物体的三维重建模型，实现对目标物体的三维重建。

作为优选方案，数据处理模块2，具体包括特征提取单元21、单应性变换单元22、代价空间正则化单元23和深度图像获取单元24，各单元具体如下：

特征提取单元21，用于通过深度图像获取模型，分别提取各待处理图像对应的局部特征和全局特征，并融合局部特征和全局特征，以获得各待处理图像对应的深度特征；

单应性变换单元22，用于对各深度特征进行可微单应性变换，以获得各待处理图像对应的单应矩阵，并根据各单应矩阵，构建各单应矩阵对应的第一代价空间；

代价空间正则化单元23，用于对各第一代价空间进行正则化，以获得各第一代价空间对应的第二代价空间、以及各第二代价空间对应的概率体积；

深度图像获取单元24，用于按照预设的算法，结合各概率体积，计算得到各待处理图像对应的深度图像。

作为优选方案，请参照图4，所述的一种基于深度学习的三维重建系统，还包括：

模型构建模块4，用于在多视角立体视觉神经网络MVSNet的特征提取阶段和代价空间正则化阶段，分别引入交叉注意力机制，以获得深度图像获取模型；其中，交叉注意力机制通过Transformer模型实现。

作为优选方案，三维重建模块3，具体包括融合处理单元31和三维重建单元32，各单元具体如下：

融合处理单元31，用于通过预设的三维重建算法，对同一视角下的深度图像和待处理图像进行融合处理，以获得各深度图像对应的融合图像；

三维重建单元32，用于根据所有融合图像，获取目标物体的三维点云数据，并利用三维点云数据，构建目标物体的三维重建模型，实现对目标物体的三维重建。

作为优选方案，数据获取模块1，具体包括数据获取单元11和预处理单元12，各单元具体如下：

数据获取单元11，用于通过双目相机，从不同视角对目标物体进行拍摄，以获得多个单视角图像；

预处理单元12，用于对所有单视角图像进行预处理，获得各单视角图像对应的待处理图像。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

相比于现有技术，本发明实施例具有如下有益效果：

本发明提供了一种基于深度学习的三维重建方法及系统，通过在预设的多视角立体视觉神经网络MVSNet的基础上，引入交叉注意力机制，以优化深度图像获取模型的信息捕捉性能和信息匹配性能，从而提升生成的深度图像的准确性，以进一步提升三维重建模型的精度和效率，使得三维重建模型更贴合于目标物体。另外地，逐图像获取目标物体的多个深度信息，并根据多个深度信息构建得到三维重建模型，使得三维重建模型能够融合多视角深度信息，从而更好地表征目标物体。

进一步地，利用深度图像获取模型的特征提取层，不仅能够捕捉待处理图像的全局特征，还能够捕捉其局部特征，并融合其局部特征和全局特征，以减少关键信息丢失和冗余信息占用等情况，进而提升特征提取精度并减少整体计算量。此外，通过代价空间正则化层的编码器-解码器结构，从一个大的感受野聚集相邻的关键信息，从而提升生成的深度图像的准确性，以进一步提升三维重建模型的构建精度。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步的详细说明，应当理解，以上所述仅为本发明的具体实施例而已，并不用于限定本发明的保护范围。特别指出，对于本领域技术人员来说，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于深度学习的三维重建方法，其特征在于，包括：

获取目标物体对应的多个待处理图像；

2.如权利要求1所述的一种基于深度学习的三维重建方法，其特征在于，所述将所有所述待处理图像输入至深度图像获取模型，以获得各所述待处理图像对应的深度图像，具体为：

3.如权利要求2所述的一种基于深度学习的三维重建方法，其特征在于，所述深度图像获取模型的获取，具体为：

其中，所述交叉注意力机制通过Transformer模型实现。

4.如权利要求1所述的一种基于深度学习的三维重建方法，其特征在于，所述通过预设的三维重建算法，结合所有所述深度图像，获得所述目标物体的三维重建模型，实现对所述目标物体的三维重建，具体为：

5.如权利要求1所述的一种基于深度学习的三维重建方法，其特征在于，所述获取目标物体对应的多个待处理图像，具体为：

6.一种基于深度学习的三维重建系统，其特征在于，包括：

数据获取模块，用于获取目标物体对应的多个待处理图像；

7.如权利要求6所述的一种基于深度学习的三维重建系统，其特征在于，所述深度图像获取模块，具体包括：

8.如权利要求7所述的一种基于深度学习的三维重建系统，其特征在于，还包括：

9.如权利要求6所述的一种基于深度学习的三维重建系统，其特征在于，所述三维重建模块，具体包括：

10.如权利要求6所述的一种基于深度学习的三维重建系统，其特征在于，所述数据获取模块，具体包括：