CN111310916B

CN111310916B - 一种区分左右眼图片的深度系统训练方法及系统

Info

Publication number: CN111310916B
Application number: CN202010075224.4A
Authority: CN
Inventors: 李承远; 李宏
Original assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Current assignee: Advanced Institute of Information Technology AIIT of Peking University; Hangzhou Weiming Information Technology Co Ltd
Priority date: 2020-01-22
Filing date: 2020-01-22
Publication date: 2022-10-25
Anticipated expiration: 2040-01-22
Also published as: CN111310916A

Abstract

本发明公开了一种区分左右眼图片的深度系统训练方法及系统，对于输入的图像I_l、I_r、m(I_r)和m(I_l)，随机选取一对图像I_x和I_y，将I_x输入到编码器当中，编码形成特征Z，根据特征z是来自于左眼图(I_l，m(I_r))还是右眼图(I_r，m(I_l))，分别添加A和B两个不同的指导向量指导训练过程，特征z因此变成z′并将其输入到解码器当中，最终输出深度图d_x，d_x和参考图像I_y经过投影插值形成I′_x，最终利用I′_x和I_x之间的L1误差和结构相似性误差以及d_x的深度连续性误差优化整个深度神经网络。

Description

一种区分左右眼图片的深度系统训练方法及系统

技术领域

本发明属于计算机视觉领域的视觉里程计领域，特别是一种区分左右眼图片的深度系统训练方法及系统。

背景技术

单目深度估计是计算机视觉领域的重要研究课题，其在机器人、自动驾驶、增强现实等领域拥有诸多广泛的应用。近些年来，基于深度神经网络的有监督单目深度估计方法取得了重大的进展，这些方法使用激光雷达计算出的深度值作为监督信号去训练神经网络。最终，深度神经网络能够根据输入的彩色图片生成与之对应的稠密深度图。但是，这些有监督深度学习方法存在一个问题，在复杂的室外场景中，往往难以用激光雷达获得足量的深度值进行训练，因此也限制了这些有监督深度估计系统的应用场景。

为了解决这些问题，近年来出现了一些用无监督方法进行单目深度估计的系统。输入双目图像对，这些方法首先利用深度神经网络对目标图像预测深度，并利用该预测出来的深度图和另外一个参考图片重建出一个新的目标图像。重建出来的图片和原图片之间的光度误差用来优化整个深度神经网络。

但是，这些基于双目图像对的无监督单目深度估计方法存在一个问题，这些方法使用左眼图片和右眼图片去优化同一个网络，可事实上，左眼图片和右眼图片由于其对应的相机位置的不同，其数据分布是不一样的，并且左眼图片和右眼图片会存在不同的边缘伪影现象。因此，用左右眼图片去优化同一个网络会造成网络性能的下降。

总而言之，需要发展一种新的系统，能够在训练的过程中将左右眼图像区分开，从而减少两种图片之间的相互影响，提升网络性能。

发明内容

本发明的工作原理为：对于输入的图像I_l、I_r、m(I_r)和m(I_l)，随机选取一对图像I_x和I_y，将I_x输入到编码器当中，编码形成特征z，根据特征z是来自于左眼图(I_l，m(I_r))还是右眼图(I_r，m(I_l))，分别添加A和B两个不同的指导向量指导训练过程，特征z因此变成z＇并将其输入到解码器当中，最终输出深度图d_x，d_x和参考图像I_y经过投影插值形成I′_x，最终利用I′_x和I_x之间的L1误差和结构相似性误差以及d_x的深度连续性误差优化整个深度神经网络。

为了解决上述问题，本发明提出一种区分左右眼图片的深度系统训练方法及系统。

本发明所采用的技术方案是：

一种区分左右眼图片的深度系统训练方法，包括以下步骤：

S1，从数据集当中取双目图像对，对双目图像对(I_l,I_r)镜像翻转，形成翻转图像对(m(I_l),m(I_r))；

S2，从双目图像对及翻转图像对中取一张，为目标图像I_x，则图像对中的另外一张为参考图像I_y，将目标图像输入编码网络，生成特征z；

S3,在特征z后增加指导向量生成特征z′：如果是I_l或m(I_l)生成的特征z，在其后添加指导向量A，如果是I_r或m(I_r)生成的特征z，在其后添加指导向量B，指导向量A和指导向量B不同；

S4，将特征z′输入解码网络，生成与目标图像分辨率相同的深度图d_x。

S5，利用深度图d_x和双目图像之间的基线距离，先将I_x中的像素点投影到I_y中，再从参考图像I_y中的投影位置采样合成新像素，生成对比图片I＇_x；

S6，利用I_x和I＇_x构建光度误差损失函数和深度连续性损失函数,通过光度误差损失函数计算I_x和I＇_x之间的图像相似程度，通过深度连续性损失函数计算d_x的深度图光滑程度，将光度误差损失函数和深度连续性函数的输出结果求和得到总误差；

S7,通过总误差对解码网络和编码网络进行迭代优化，直至网络达到收敛。

在训练过程中通过添加两个不同的指导向量A和B去分别指导左右眼图片的训练过程，通过这样的训练方式，减少左右眼图片之间的相互影响，可以消除现有方法存在的边缘伪影现象，提升网络精度。

进一步的，所述S1中的双目图像对沿垂直中轴线镜像翻转。

进一步的，所述S3中的指导向量A或指导向量B的长宽与特征z的长宽相同。

进一步的，S5中目标图像I_x向参考图像I_y的投影方法为：

p_y～KBD(p_x)K^-1p_x

其中，p_x表示目标图像I_x中的像素点坐标，K、B表示已知的双目相机内参和基线距离，p_y表示投影在目标图像I_y中的位置坐标。

进一步的，所述S6中的光度损失函数为：

其中，p表示图像I_x中的像素，SSIM表示结构相似性误差函数。

进一步的，所述S6中的深度连续性函数为：

其中，p表示图像中的像素，d表示网络预测出的深度图，I表示与深度图对应的图像。

优选的，所述S4中，解码网络通过上采样和反卷积生成深度图d_x。

优选的，所述S2中的编码网络进行预训练，解码网络进行初始化，编码网络的结构与解码网络相同，但两者的排列相反。

一种区分左右眼图片的深度系统的训练系统，包含编码网络、解码网络和处理模块，编码网络用于提取图像特征，处理模块用于在特征的末端分别针对左右眼图片添加不同的指导向量，解码网络用于生成深度图

本发明同现有技术相比具有以下优点及效果：

1、本发明在训练过程中通过添加两个不同的指导向量A和B去分别指导左右眼图片的训练过程，通过这样的训练方式，减少左右眼图片之间的相互影响，可以消除现有方法存在的边缘伪影现象，提升网络精度。

附图说明

构成本申请的一部分的附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1为本发明的总流程图；

图2为本方法预测阶段后处理的流程图；

图3为本发明预测出的深度图；

图4为本发明深度预测精度和其它方法的对比图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

实施例1：

如图1-4所示，一种区分左右眼图片的深度系统训练方法，深度系统由编码网络和解码网络构成，解码网络结构与编码网络相同但排列相反。ResNet50使用预训练模型初始化，比如使用在ImageNet上预训练好的网络参数进行初始化。整个网络的训练过程在数据集上进行训练，比如使用KITTI数据集训练。

步骤1，选取网络中的数据集，例如KITTI无人驾驶数据集、Cityscape无人驾驶数据集等网络中公开的数据集，本实施例选用KITTI无人驾驶数据集，该数据集内的图像分辨率可以为任意分辨率，例如1024×960、1080×600、960×480等，本实施例中选用1024×320分辨的图像。随机的从数据集当中读取一对或多对双目图像(I_l，I_r)，并将该同一对的双目图像沿垂直中轴线进行镜像翻转，对于一对双目图像，经翻转后会形成4个图像(I_l，I_r，m(I_l)，m(I_r))。其中I_l和m(I_r)同为左眼图片(因为镜像翻转，m(I_r)在m(I_l)的左边)，I_r和m(I_l)同为右眼图片。

步骤2，从步骤1中的翻转后的图像中随机选取一个图像，定为目标图像I_x，则与该图像同属于一对的另一个图像，定为参考图像I_y。例如选取一个双目图像对中的I_l，则I_l为目标图像I_x，I_r为参考图像I_y；又如选取一个翻转图像对中的m(I_r)，则m(I_r)为目标图像I_x，m(I_l)为参考图像I_y。随后将将目标图像输入网络。编码网络和解码网络优选预训练过的网络，例如ResNet50读取ImageNet上的预训练模型进行初始化，解码网络进行随机初始化。编码网络通过层层的卷积操作，将输入的分辨率为1024×320的目标图像编码成一个维度为2048×10×32的特征z。

步骤3：对输入的特征z进行处理。由于目标图像分为左眼图(I_l或m(I_l))或右眼图(I_r或m(I_r))，针对左眼图生成的特征z，我们向特征添加训练指导向量A，针对右眼图生成的特征z，我们向特征添加训练指导向量B，其中，训练指导向量A和B为不同的指导向量。例如0、1或者01、10或者3、5或者01、05等，训练指导向量A的维度为2×10×32。向量B的维度为2×10×32。添加完指导向量后，维度为2048×10×32特征z变成了维度为2050×10×32的特征z′。

步骤4：将特征z′输入到解码网络当中，通过上采样和反卷积，输出分辨率为1024×320的目标图像的深度图d_x。

步骤5：通过目标图像的深度图和双目摄像头之间的基线距离，先将I_x中的像素点投影到I_y中，再从参考图像I_y中的投影位置进行非线性插值采样，重建出对比图像I′_x。

步骤6：计算原目标图像I_x与对比图像I′_x之间的L1误差和结构相似性误差之和，误差函数如下：

上式中的p表示图像I_x中的像素，SSIM表示结构相似性误差函数。

计算输出深度图的深度连续性误差，误差函数如下：

上式中p表示图像中的像素，d表示网络预测出的深度图，I表示与深度图对应的图像。

求出L1误差、结构相似性误差和深度连续性误差后，对深度连续性误差、L1误差和结构相似性误差求和得到总误差。

步骤7：用总误差优化整个深度神经网络，重复步骤1至6，例如在KITTI数据集上迭代100个周期、150个周期、200个周期等，直至光度误差损失函数和深度连续性损失函数的输出不再有明显下降，得到收敛后的网络参数。

最终可以通过测试该参数来满足不同的网络需要，例如，在KITTI数据集中的测试集上测试，依次向网络输入697张测试图像，在输入网络时将测试图像沿着垂直中轴线镜像翻转，将测试图像和镜像翻转后的测试图像一起输入网络。对这两个图像同时使用A指导向量(维度为2×10×32)，最终得到两种深度图，并对翻转后的深度图再次翻转回来，对输出的两个深度图取平均，便得到了最终的深度图。

如图2所示，在预测阶段同时向网络输入I_l和m(I_l)，并共同使用A指导向量，对最终输出的m(d_l)再进行翻转得到

对d_l和

取加权平均得到最终的深度图，可以看到这种后处理的方式可以消除现有方法存在的边缘伪影现象。

如图3所示，本发明得到的深度图结果，可以看到我们方法可以得到高质量的深度预测结果。

如图4所示，本发明和其它算法深度图预测精度的对比，加粗的数值表示最优的结果，可以看到，本发明的精度超过了现有算法。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。