CN113762358A

CN113762358A - 一种基于相对深度训练的半监督学习三维重建方法

Info

Publication number: CN113762358A
Application number: CN202110946711.8A
Authority: CN
Inventors: 顾寄南; 胡君杰
Original assignee: Jiangsu University
Current assignee: Jiangsu University
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-12-07
Anticipated expiration: 2041-08-18
Also published as: CN113762358B

Abstract

本发明提供了一种基于相对深度训练的半监督学习三维重建方法，首先构建用于三维重建网络训练的目标物体图像数据集，搭建U型结构的三维重建网络模型，对三维重建网络模型进行无监督和半监督训练，对训练好的三维重建网络进行减支，将三维重建网络中用于计算损失的多尺度预测分支进行裁剪，只留下最后一层的输出；预测时，三维重建网络模型输入单张图像、输出一张视差图，再结合双目相机的参数以及视差‑深度的转换关系，计算得到深度图，最终完成三维重建。本发明解决了现有基于深度学习的三维重建算法中存在的无监督训练精度不高、有监督训练真实数据难以获取等问题。

Description

一种基于相对深度训练的半监督学习三维重建方法

技术领域

本发明涉及机器视觉的三维重建技术领域，具体涉及一种基于相对深度训练的半监督学习三维重建方法。

背景技术

三维重建作为环境感知的关键技术之一，其用处涉及自动驾驶、虚拟现实、运动目标监测、行为分析、安防监控和重点人群监护等。目前大部分三维重建都是基于二维RGB图像到RBG-D图像的转化估计，主要包括从图像明暗、不同视角、光度、纹理信息等获取场景深度形状的Shape from X方法，还有结合SFM和SLAM等方式预测相机位姿的算法。虽然有很多设备可以直接获取深度，比如激光雷达，但因其价格昂贵，目前多用于技术研发和测试阶段，距离大规模市场化应用还有一定的距离；除此之外，近年来随着卷积神经网络的快速发展，基于深度学习的三维重建技术逐渐成为了研究的热点。

目前国内外很多学者对三维重建这个领域进行了深入的研究，也取得了一些较大的进展，基于有监督和无监督深度学习的三维重建算法也取得了非常好的效果。但同时这些算法都各自存在着一些问题：(1)基于完全监督的方法需要真实三维数据训练，但是深度数据的获取难度较高且成本较大；(2)基于无监督或自监督的方法完全不利用三维信息导致精度不高，并且需要挖掘先验知识。

发明内容

针对现有技术中存在不足，本发明提供了一种基于相对深度训练的半监督学习三维重建方法，克服有监督方法数据获取难，无监督方法精度低、鲁棒性不强等问题。

本发明是通过以下技术手段实现上述技术目的的。

一种基于相对深度训练的半监督学习三维重建方法，包括如下步骤：

S1，通过双目相机采集目标物体的立体图像对，并对每一对图像进行处理，包括对图像的矫正以及人工标注，处理后的图像构成训练数据集；

S2，搭建U型结构的三维重建网络模型，包括特征提取部分和解码部分，所述特征提取部分的基础网络模块采用残差结构，所述特征提取部分还引入了卷积核注意力机制；

S3，将立体图像对输入三维重建网络进行特征提取，预测得到一对视差图，利用预测视差图以及视差图-原图的关系，重构出一对原图，通过重构原图和真实原图的对比计算重构误差损失；

S4，在S3中获得的预测视差图上进行训练，构建对应的损失项，对不满足相对深度值的像素点对进行惩罚；

S5，对训练好的三维重建网络进行减支，将三维重建网络中用于计算损失的多尺度预测分支进行裁剪，只留下最后一层的输出；预测时，三维重建网络模型输入单张图像、输出一张视差图，再结合双目相机的参数以及视差-深度的转换关系，计算得到深度图，最终完成三维重建。

上述技术方案中，所述人工标注具体为：

在目标物体的立体图像对上均进行标注，在立体图像对的两张图像上选择不同的像素点对进行标注，每张图像上选取两对像素点，标注出这两对像素点的相对深度关系，并把相对深度关系量化，转为相对深度值R；按照取点顺序，若第一个点比第二个点远，令R＝1，若第一个点比第二个点近，令R＝-1，若两个点同深度，令R＝0。

上述技术方案中，所述残差结构具体为：

后面某一层与前面某一层进行了跳跃连接：输入特征首先经过一个残差块，采用Attention-block作为该残差块主分支的开端，两个分支均使用1*1卷积升维后进行元素级相加，经过BN层、ReLU激活后送入第二个残差块，第二个残差块的主分支由两次3*3的卷积组成，卷积后与第二个残差块的输入直接进行元素级相加，再由BN层、ReLU激活后输出。

上述技术方案中，所述卷积核注意力机制具体为：

对输入特征图分别进行3*3和7*7的卷积，将原图分辨率缩小一倍，并对两个分支的结果进行元素级相加融合，对融合后的特征图进行全局平均池化，得到一个C×1×1的一维向量，接着经过两层全连接层后，得到两个C×1×1的一维向量，再送入softmax分析器进行非负性和归一化操作，生成权重矩阵；两个分支的特征图与各自的权重矩阵相乘后，进行元素级相加，得到最后的输出特征；其中C为通道数。

上述技术方案中，所述三维重建网络模型前半部分是特征提取，后半部分是上采样，将目标物体训练数据集的分辨率统一调整后，输入三维重建网络模型，首先进行一次卷积和一次下采样，再经过4次基础网络模块，随后进行6次上采样、同级拼接和卷积，在后4次上采样、同级拼接和卷积得到的特征图上均进行视差的预测，用于训练。

上述技术方案中，所述S3具体为：将立体图像对输入搭建好的三维重建网络模型中，分别得到4个尺度的预测视差图，由左图得到的称为左视差图，由右图得到的称为右视差图，将与原图尺寸一样的左视差图结合右图，插值生成左图的估计，与原图尺寸一样的右视差图结合左图，插值生成右图的估计，生成了一对重构的原图，与真实原图进行对比形成了重构损失，损失函数如下：

式中，I_ij为立体图像对其中一张视图的每个像素点，

为预测视差图上的每个像素点，N为像素点总数，SSIM为滤波函数。

上述技术方案中，所述S4中在S3中获得的预测视差图上进行训练具体为：

在S3中获得的预测视差图上查找人工标注出的且包含相对深度信息的像素点对的二维位置坐标，获得每一个像素点的预测视差值；通过一对像素点的预测视差值之间的大小关系，得到预测相对深度，并量化为预测相对深度值D，根据查询点顺序，若第一点的视差比第二点的视差小，则D＝1，若第一点的视差比第二点的视差大，则D＝-1，若两点视差相等，则D＝0；

所述构建对应的损失项，具体构建损失函数

式中，I表示当前处理的图像，D为预测相对深度值，R为真实相对深度值，d为预测视差值，i为像素点对中的第一个点，j为像素点对中的第二个点。

上述技术方案中，所述视差图-原图的关系为：利用已知视差图，将立体图像对的其中一张视图的每一个像素点进行坐标偏移，重构出立体图像对的另一张视图。

本发明的有益效果为：

(1)本发明对双目相机采集目标物体的立体图像对进行矫正以及人工标注，方便训练。

(2)本发明三维重建网络模型的特征提取部分的基础网络模块采用残差结构，避免在三维重建网络在训练到深层时，出现梯度消失或梯度爆炸；三维重建网络模型的特征提取部分还引入卷积核注意力机制，提高三维重建的精度。

(3)本发明在无监督训练的基础上引入了相对深度概念，将这种三维信息通过人工标注转化为训练数据，加入了三维信息的辅助训练，可以显著提高三维重建算法的鲁棒性和预测结果的精细度。

(4)本发明的无监督训练、半监督训练方法均不需要采集真实深度数据作为训练数据，大大降低了数据采集难度和训练成本。

附图说明

图1为本发明所述基于相对深度训练的半监督学习三维重建方法流程图；

图2为本发明所述深度学习三维重建算法流程图；

图3为本发明所述注意力机制(Attention-block)结构示意图；

图4为本发明所述基础网络模块(Basic-block)结构示意图；

图5为本发明所述三维重建网络模型(改进U-Net)结构示意图。

具体实施方式

下面结合附图以及具体实施例对本发明作进一步的说明，但本发明的保护范围并不限于此。

如图1所示，本发明一种基于相对深度训练的半监督学习三维重建方法，具体包括如下步骤：

步骤(1)，构建用于三维重建网络训练的目标物体图像数据集

通过双目相机采集大量目标物体的立体图像对(即左视图、右视图)，然后对该双目相机进行标定，获得外参数矩阵、内参数矩阵、畸变参数矩阵和结构参数；利用内参数和畸变参数对立体图像进行畸变矫正，消除因为双目相机镜头物理畸变而产生的成像畸变，再利用结构参数对立体图像进行左右视图的外极线校准(平行校准)，使物体在两幅图中的大小一样且对应像素点水平在一条直线上；这样对所有源图像进行处理之后，生成新的校正后的图像，在矫正后的图像上对“相对深度”进行人工标注，为半监督训练做准备，所述相对深度为两个像素点相对于双目相机平面的相对远近关系；在立体图像上选取两点，记录两点二维坐标值并分别标注该点为近点或远点，即完成一次相对深度标注，标注的质量决定着监督训练的效果；本发明提出一种相对深度的标注策略，即：在目标物体的左、右视图上均进行标注，在两张图像上选择不同的像素点对进行标注，每张图像上选取4个像素点，即2对像素点，其中一对为深度差距明显的点、另一对为深度差距小的点，标注出这两对像素点的相对深度关系，并且把相对深度关系量化，转为相对深度值R，按照取点顺序，若第一个点比第二个点远，令R＝1，若第一个点比第二个点近，令R＝-1，若两个点同深度，令R＝0；这样，在步骤(1)中采集并校正的所有图像上进行标注，保存标注后的图片和相关文件，构成目标物体的训练数据集。

步骤(2)，搭建三维重建网络模型

三维重建网络模型总体采用一种U型的结构，包括特征提取(编码)部分以及解码部分，特征提取部分的基础网络模块采用残差结构，并引入了一种卷积核注意力机制。

如图3所示，是本发明优选的一种注意力机制(Attention-block)的结构示意图，由于不同大小的感受视野(卷积核)对于不同尺度(远近、大小)的目标会有不同的效果，因此，使用固定的卷积核是有失偏颇的，本发明在网络特征提取部分引入一种卷积核注意力机制，来针对不同的输入图像动态生成卷积核，优选地，对输入特征图分别进行3*3和7*7的卷积，将原图分辨率缩小一倍，每次卷积后设置BN层和ReLU激活，并对两个分支的结果进行元素级相加融合，对融合后的特征图进行全局平均池化，得到了关于channel的信息是一个C×1×1的一维向量，代表各个通道的信息的重要程度，接着经过两层全连接层后，得到两个C×1×1的一维向量，再送入softmax分析器进行非负性和归一化操作，生成权重矩阵，两个分支的特征图与各自的权重矩阵相乘后，进行元素级相加，得到最后的输出特征，经过该模块后，特征图的宽(W)高(H)缩小一半，其中C为通道数。

如图4所示，本发明所述的基础网络模块(Basic-block)结构示意图，该基础模块采用了残差结构，即后面某一层与前面某一层进行了跳跃连接，不断更新特征的过程中还保留了低维的特征，具体地，输入特征首先经过一个残差块，采用Attention-block作为该残差块主分支的开端，两个分支均使用1*1卷积升维后进行元素级相加，经过BN层、ReLU激活后送入第二个残差块，该残差块的主分支由两次3*3的卷积组成，卷积后与输入直接进行元素级相加，再由BN层、ReLU激活后输出。

如图5所示，三维重建网络模型前半部分是特征提取，后半部分是上采样，将步骤(1)中获得的目标物体训练数据集的分辨率统一调整到256*512，输入三维重建网络模型，首先进行一次卷积和一次下采样，得到64*128分辨率的特征图，再经过4次Basic-block(基础网络模块)，依次得到分辨率为32*64、16*32、8*16、4*8的特征图，随后基于4*8大小的特征图进行上采样，分辨率增大一倍至8*16，再与前半部分同样8*16大小的特征图进行通道拼接，然后对拼接后的特征进行卷积和上采样，重复上述过程6次，最后一次得到和原图一样大小的特征图(256*512)，其中，在后4次过程中，上采样、同级拼接、卷积这一系列操作得到的特征图上均进行视差的预测，用于训练，使用sigmoid函数为每一个像素预测视差值；

三维重建网络模型的技术参数如表1所示：

表1网络模型技术参数表

表1中的Stack()为通道维度的拼接操作，将每次上采样后的特征与特征提取部分中相同尺寸的特征拼接，保留低维信息，使网络可以训练得更深，准确率更高。

步骤(3)，无监督训练

采用一种无需真实三维数据的无监督(或自监督)训练方法，做法是：将立体图像对输入三维重建网络进行特征提取，预测得到一对视差图，利用预测视差图以及视差图-原图的关系，重构出一对原图，通过重构原图和真实原图的对比计算重构误差损失。所述视差图-原图的关系为：真实世界的一个点，在立体图像对的两张视图上的坐标差值称为视差，视差图即是通过立体图像对的两张视图计算得到的目标物体上每一个点的视差，利用已知视差图，将立体图像对的其中一张视图的每一个像素点进行坐标偏移，偏移值的大小即为每一个像素点的视差值大小，重构出立体图像对的另一张视图。

步骤(4)，半监督训练

引入“相对深度”作为辅助信息进行半监督训练，在步骤(3)中获得的预测视差图上进行训练，构建对应的损失项，对不满足相对深度值的像素点对进行惩罚。

步骤(3)、(4)的具体过程为：

如图2所示，在一种无监督训练方法的基础上，引入“相对深度”作为监督训练标签，进行半监督训练；将目标物体的左、右视图对输入搭建好的三维重建网络模型中，分别得到4个尺度的预测视差图，由左图得到的称为左视差图，由右图得到的称为右视差图，将与原图尺寸一样的左视差图结合右图，插值生成左图的估计，与原图尺寸一样的右视差图结合左图，插值生成右图的估计，生成了一对重构的原图，与真实原图进行对比形成了重构损失，即完成了无监督训练，损失函数如下：

式中，I_ij为立体图像对其中一张视图的每个像素点，

同时，通过无监督训练获得了一对分辨率为原图大小的预测视差图，在这对视差图上查找人工标注出的且包含相对深度信息的像素点对的二维位置坐标，获得每一个像素点的预测视差值；通过一对像素点的预测视差值之间的大小关系，得到预测相对深度，并量化为预测相对深度值D，根据查询点顺序，若第一点的视差比第二点的视差小，则D＝1，若第一点的视差比第二点的视差大，则D＝-1，若两点视差相等，则D＝0；对于每一对标注过的像素点对，获得其预测相对深度值D，并根据标注文件，查找每一对像素点的真实相对深度值R，进行比较，若D＝R则表示预测正确，D≠R则表示预测错误；同时设计一个损失函数，根据预测情况的不同，给予梯度下降不同的贡献，预测正确则贡献小，预测错误则贡献大，损失函数如下：

式中，I表示当前处理的图像，D为预测相对深度值，R为真实相对深度值，d为预测视差值，其中，i为像素点对中的第一个点，j为第二个点。

完成了上述无监督训练以及监督训练后，即完成了所述的半监督训练。

步骤(5)，三维重建

对训练好的三维重建网络进行减支，将三维重建网络中尺寸为32*64*1、64*128*1、128*256*1的预测分支进行裁剪，只留下最后一层256*512*1尺度作为输出，以提高预测速度，预测时只需输入单张分辨率为256*512*3的图像，即可输出一张256*512*1的视差图，再结合双目相机的参数以及视差-深度的转换关系，计算得到深度图，最终完成三维重建，视差图和深度图的转换关系如下：

Z＝(f*b)/d₁

上式中，Z为像素点绝对深度，d₁为像素点视差值，f为双目相机焦距，b为两双目相机平移偏置量。

所述实施例为本发明的优选的实施方式，但本发明并不限于上述实施方式，在不背离本发明的实质内容的情况下，本领域技术人员能够做出的任何显而易见的改进、替换或变型均属于本发明的保护范围。

Claims

1.一种基于相对深度训练的半监督学习三维重建方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于相对深度训练的半监督学习三维重建方法，其特征在于，所述人工标注具体为：

3.根据权利要求1所述的基于相对深度训练的半监督学习三维重建方法，其特征在于，所述残差结构具体为：

4.根据权利要求1所述的基于相对深度训练的半监督学习三维重建方法，其特征在于，所述卷积核注意力机制具体为：

5.根据权利要求3所述的基于相对深度训练的半监督学习三维重建方法，其特征在于，所述三维重建网络模型前半部分是特征提取，后半部分是上采样，将目标物体训练数据集的分辨率统一调整后，输入三维重建网络模型，首先进行一次卷积和一次下采样，再经过4次基础网络模块，随后进行6次上采样、同级拼接和卷积，在后4次上采样、同级拼接和卷积得到的特征图上均进行视差的预测，用于训练。

6.根据权利要求1所述的基于相对深度训练的半监督学习三维重建方法，其特征在于，所述S3具体为：将立体图像对输入搭建好的三维重建网络模型中，分别得到4个尺度的预测视差图，由左图得到的称为左视差图，由右图得到的称为右视差图，将与原图尺寸一样的左视差图结合右图，插值生成左图的估计，与原图尺寸一样的右视差图结合左图，插值生成右图的估计，生成了一对重构的原图，与真实原图进行对比形成了重构损失，损失函数如下：

式中，I_ij为立体图像对其中一张视图的每个像素点，

7.根据权利要求6所述的基于相对深度训练的半监督学习三维重建方法，其特征在于，所述S4中在S3中获得的预测视差图上进行训练具体为：

所述构建对应的损失项，具体为构建损失函数

8.根据权利要求1所述的基于相对深度训练的半监督学习三维重建方法，其特征在于，所述视差图-原图的关系为：利用已知视差图，将立体图像对的其中一张视图的每一个像素点进行坐标偏移，重构出立体图像对的另一张视图。