CN112233160B

CN112233160B - 一种基于双目摄像头的实时深度及置信度的预测方法

Info

Publication number: CN112233160B
Application number: CN202011101670.4A
Authority: CN
Inventors: 李科敏; 金华兴
Original assignee: Hangzhou Zhilu Technology Co ltd
Current assignee: Hangzhou Zhilu Technology Co ltd
Priority date: 2020-10-15
Filing date: 2020-10-15
Publication date: 2022-04-19
Anticipated expiration: 2040-10-15
Also published as: CN112233160A

Abstract

一种基于双目摄像头的实时深度及置信度的预测方法，先构建特定架构的神经网络模型，神经网络模型采用编码加解码的神经网络架构，并准备三个数据集，在分类数据集上训练神经网络的编码部分，再冻结神经网络编码部分的参数，在人工合成的数据集上对神经网络解码部分的参数进行训练，待损失收敛后，解冻神经网络的所有参数，在人工合成数据集上继续训练，真实场景的数据集上对神经网络的参数进行微调，并在测试集上对神经网络进行测试。本发明的神经网络只采用2D卷积，增加了预测置信度的分支，子网络中串联操作聚合多种信息，得到的神经网络模型在低端GPU以及能耗更低的嵌入式设备中有更快的推理速度，并能给出相应的置信度。

Description

一种基于双目摄像头的实时深度及置信度的预测方法

技术领域

本发明涉及计算机视觉技术领域，尤其是一种基于双目摄像头的实时深度及置信度的预测方法。

背景技术

视觉深度信息是让计算机理解我们物理世界的一个重要组成部分，对深度进行准确而快速的预测将对无人驾驶、三维重建、建图与定位等各个领域产生积极重要的影响。现有的视觉深度预测方法主要集中在单目摄像头、双目摄像头和激光雷达等设备上，单目摄像头是通过单张图片来预测物体深度的方法，从原则上来说，它无法判别图片中尺寸小的物体是距离摄像头近的小物体还是距离摄像头远的大物体，其尺度不确定，而激光雷达的深度预测方案目前价格高昂，并且只能进行稀疏的深度预测。双目摄像头仿照人眼观察世界的方式，通过计算左图和右图的视差从而重构出物体距摄像头的深度，近年来，随着深度学习方法的改进以及一些优质的基于双目摄像头的数据集陆续推出，如真实场景的数据集kitti、drivingStereo等，也有人工合成数据集sceneflow、vkitti2等，使得通过双目摄像头预测深度的方法在精度上能够媲美价格高昂的激光雷达深度预测方案，并且可以得到比激光雷达更加稠密的深度信息。

然而现有的基于双目摄像头的方案中仍存在三个主要问题，一是实时效果不佳，实时效果差的原因之一是大量使用3D卷积、3D反卷积，使得神经网络的计算量过大，无法达到实时的效果，如CSPN、PSMNet在高端GPU上的推理速度分别为1000和410ms/image，HD3模型没有3D卷积操作，采用的是2D卷积方案，但是其模型冗余不够精简，为了适应预测光流和视差两种任务，一定程度上增加了模型的容量，在高端GPU上的推理速度为140ms/image，第二个现有技术缺陷是在深度预测的同时没有给出相应的置信度，置信度即深度预测的可靠程度，其在下游任务(如无人驾驶中的决策规划)中有着不可或缺的作用，第三个现有技术缺陷则是在预测出的深度图像中，物体的轮廓不够清晰。

发明内容

本发明的目的在于克服现有技术的不足，提供一种解决现有技术中存在的推理速度慢、缺乏相应置信度、物体轮廓模糊等技术问题的基于双目摄像头的实时深度及置信度的预测方法。

本发明解决其技术问题是采取以下技术方案实现的：

一种基于双目摄像头的实时深度及置信度的预测方法，包括以下步骤：

第一步，构建特定架构的神经网络模型，神经网络模型采用编码加解码的神经网络架构，并准备三个数据集，分别为分类数据集、人工合成的数据集和真实场景的数据集；

第二步，在分类数据集上训练神经网络的编码部分，或选用预训练的分类神经网络，编码部分为特征提取过程，共分五层，每层由若干个卷积层单元构成，每一层提取都会进行下采样，解码部分即视差和置信度的逐级调整，采用模块化、轻量级的子网络来完成；

第三步，冻结神经网络编码部分的参数，在人工合成的数据集上对神经网络解码部分的参数进行训练；

第四步，待损失收敛后，解冻神经网络的所有参数，在人工合成的数据集上继续训练；

第五步，在真实场景的数据集上对神经网络的参数进行微调，并在测试集上对神经网络进行测试；

其中，在人工合成的数据集和在真实场景的数据集上进行参数训练所用的视差损失函数为：

y表示训练时神经网络模型的视差输出值，

表示训练时神经网络模型的视差真实值，i表示视差图中像素点的坐标；

其中，在人工合成的数据集和在真实场景的数据集上进行参数训练所用的置信度信息的损失函数为：

t_i表示训练时神经网络模型的置信度的输出值，

表示置信度的真实值，y_i表示神经网络模型预测的视差，

表示视差的真实值。

优选的，所述的第一步中神经网络模型基于2D卷积处理得到。

优选的，所述的第二步中子网络包括串联模块，串联模块的输入端连接有采样模块、相似性计算模块和上一级的子网络的卷积模块，串联模块将输入信息进行串联并输送至卷积模块中进行处理。

优选的，所述的串联模块中输入的信息包括上级子网络输出的解码信息、置信度信息、相似性计算模块输出的对应层级的左图特征和采样模块的视差信息。

优选的，所述的相似性计算模块沿着channel维度使用余弦距离来评估左图特征和采样后的右图特征的相似性。

优选的，所述的子网络中串联模块的信息传输采用高速通道进行连接，使子网络中内部卷积层的学习目标变为视差和置信度的微调量。

优选的，所述的卷积模块连接有视差加权计算模块，视差加权计算模块将其输入数据沿着第二个维度做softmax操作，并沿着第二个维度做加权相加，其权值由-d到d。

优选的，所述的子网络的损失为损失加权相加之和，其权重的选取从第一层子网络到第五层子网络依次递增

本发明的优点和积极效果是：

1、本发明的神经网络只采用2D卷积，增加了预测置信度的分支，采用视差和置信度逐级调整的策略，子网络中串联操作聚合多种信息，训练时采用分阶段训练，最终的模型能在确保精度不下降的情况下，明显提升推理速度，得到的神经网络模型在低端GPU以及能耗更低的嵌入式设备中具有更快的推理速度，并能给出相应的置信度，物体轮廓足够清晰。

2、本发明生成双目深度预测模型时，首先构建神经网络模型，然后在分类数据集上对神经网络的编码部分进行训练，接着冻结神经网络编码部分的参数，在人工合成的数据集上对神经网络的解码部分进行训练，在损失收敛后，解冻所有神经网络的参数在人工合成的数据集上继续训练，最后在真实场景的数据集上对神经网络模型的参数进行微调，训练完成后得到预测深度的神经网络，其推理速度更快。

附图说明

图1是本发明的预测深度神经网络的生成流程示意图；

图2是本发明的神经网络的结构示意图；

图3是本发明的子网络的组成流程图；

图4是本发明通过深度信息和置信度将二维图片映射到三维空间的展示图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，当组件被称为“固定于”另一个组件，它可以直接在另一个组件上或者也可以存在居中的组件。当一个组件被认为是“连接”另一个组件，它可以是直接连接到另一个组件或者可能同时存在居中组件。当一个组件被认为是“设置于”另一个组件，它可以是直接设置在另一个组件上或者可能同时存在居中组件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

以下结合附图对本发明实施例做进一步详述：

如图1和图2所示，本发明所述的一种基于双目摄像头的实时深度及置信度的预测方法，包括以下步骤：

第一步，构建特定架构的神经网络模型，采用经典的编码加解码的神经网络架构，并基于2D卷积处理得到，不包含计算量大的3D卷积，并准备三个数据集，即分类数据集、人工合成的数据集和真实场景的数据集，分类数据集如imagenet，人工合成的数据集如sceneflow和vkitti2，真实场景的数据集如kitti和drivingStereo；

虽然本神经网络可以直接在上述人工合成的数据集或真实场景的数据集上进行端到端的训练，然而经过实际操作发现，其训练的模型精度不是很高，采用下述第二步到第五步的训练方法能够获得精度更好的模型。

第二步，在分类数据集上训练神经网络的编码部分，或选用预训练的分类神经网络，编码部分为特征提取过程，共分五层，每层由若干个卷积层单元构成，在每一层的第一个卷积层单元会进行一次下采样，经过下采样后，特征的宽和高均变为原来的二分之一，使得卷积的感受也随之增大，由此特征的分辨率变小，特征的语义信息变的更加高级，神经网络从第一层到第五层所提取的语义信息逐渐从低级到高级，该部分神经网络结构可以自行设计并训练，也可以采用预训练的模型，如ResNet系列、DLANet系列，解码部分即视差和置信度的逐级调整，采用模块化、轻量级的子网络来完成，预测从第五层子网络开始，利用高级的语义信息对视差和置信度先进行一次粗略的估计，紧接着第四层子网络在第五层子网络的基础上利用次高级的语义信息对视差和置信度进行微调得到更加精细的结果，如此直到第一层子网络利用低级的语义信息再进行一次微调得到最后的视差和置信度。

第三步，冻结神经网络编码部分的参数，在人工合成的数据集上对神经网络解码部分的参数进行训练，模型训练的优化器采用Adam，训练的目标是最小化损失函数；

y表示训练时神经网络模型的视差输出值，

表示训练时神经网络模型的视差真实值，i表示视差图上像素点的坐标；

t_i表示训练时神经网络模型的置信度的输出值，

表示置信度的真实值，y_i表示神经网络模型预测的视差，

表示视差的真实值。

进一步，第二步中子网络包括串联模块，串联模块的输入端连接有采样模块、相似性计算模块和上一级的子网络的卷积模块，串联模块将输入信息进行串联并输送至卷积模块中进行处理，串联模块中输入的信息包括上级子网络输出的解码信息、置信度信息、相似性计算模块输出的对应层级的左图特征和采样模块的视差信息，相似性计算模块沿着channel维度使用余弦距离来评估左图特征和采样后的右图特征之间的相似性，子网络中串联模块的信息传输采用高速通道进行连接，使子网络中内部卷积层的学习目标变为视差和置信度的微调量，卷积模块连接有视差加权计算模块，视差加权计算模块将其输入数据沿着第二个维度做softmax操作，并沿着第二个维度做加权相加，其权值由-d到d。

进一步，每个子网络都会输出视差和置信度信息，所以需要对每个子网络都记算损失，并将这些损失加权相加，从第一层子网络到第五层子网络，权重依次递增例如0.1，0.2，0.3，0.4，0.5。之所以给低分辨率的子网络分配较大的权重，是因为高分辨率的子网络是在低分辨率的子网络的基础上来微调视差和置信度的，所以首先要保证低分辨率的子网络预测视差的正确性，才能给后续微调奠定一个良好的基础。训练过程中采用分阶段训练的方式，其中人工合成的数据集，具有稠密的标签，即图片中每个像素点都有对应的视差标签。在人工合成的数据集上训练后，模型在预测时能够得到物体清晰的轮廓。最后在真实场景的数据集上进行微调，是为了让模型能够适应真实场景的图片。

进一步，本神经网络采用逐级预测和调整的策略，除第五层子网络之外，其他层的子网络均是在上级子网络预测结果的基础上进行的微调，具体的操作如图3中所示的高速通道连接，此处借鉴了残差网络的思想。基于此，每层子网络搜索的视差维度d只需在3到5的范围之内。相比于现有其他方案中常用的搜索范围192，本技术方案的视差搜索范围减小了两个数量级，从而在另一层面加快了本神经网络的推理。

此外，在子网络的结构中加入了置信度的分支，通过对损失函数的设计，将置信度和视差预测的误差挂钩。如果视差预测的误差越大，则置信度越低，反之，视差预测的误差越小，置信度越高。视差预测的误差即子网络输出的视差值和真实视差值的差。

进一步，在第五步中，真实场景数据集的视差标签是通过激光雷达的数据重建出来的，由于激光雷达的数据具有稀疏性，所以图片上并不是每个像素点都有视差的标签，落在物体轮廓附近的标签数量更是微乎其微，这就导致了如果直接在真实场景数据集上训练模型，则训练出的模型在物体轮廓的预测上会很糟糕。人工合成的数据集具有稠密的标签，即图片的每个像素点都有对应的视差信息，先让模型在人工合成的数据集上进行训练，后在真实场景数据集上进行微调，既可以保证模型对物体轮廓预测的准确性，又没有减弱模型对真实场景数据的适应能力。

进一步，子网络中串联操作需要聚合来自相似性计算后的特征和上级子网络输出的左图特征、视差信息、解码信息、置信度信息。若不存在上级子网络，如第五层子网络的情况，则直接由左图特征和右图特征计算相似度后与左图特征进行串联操作。

如图2所示，该神经网络的输入是双目摄像头拍摄的左图和右图，输出是视差和对应的置信度。视差图中，像素的亮度代表视差的大小，置信度图中像素的亮度代表置信度的大小，置信度的取值在0到1之间，代表预测的视差信息的可靠程度，视差和深度是反比的关系，具体的深度＝常数/视差，常数的具体值和相机的焦距、像素尺寸、双目摄像头的基线长度有关，也可以通过实测得到常数的值，该常数所代表的物理含义是双目摄像头观察单位距离处物体的视差。

如图3所示，子网络的输入有对应层级的左图特征和右图特征、来自上级子网络的解码信息、置信度信息和视差信息。子网络的输出包括当前层级的解码信息、置信度信息和视差信息，此处解码信息的作用是传递高级的语义信息，使得后续子网络能够兼顾高级语义信息和高分辨率。

如图4所示，由图片和图片的深度信息我们可以重构出真实的三维世界，并且根据置信度信息可以将一些不可靠的点剔除。

进一步，子网络内部的流程，首先根据来自上级子网络的视差信息在右图特征上进行采样，比如D[:,0,i,j]的值为4，那么在右图特征上的采样点为[:,:,i,j+4]，特别的如果j+4超过了右图特征的边界，则采样值为0，这里用D表示视差信息，用RS表示采样后得到的特征，方括号[,]里的符号表示下标索引，圆括号(,)里的符号表示维度大小，下标计数从0开始，采样方式为双线性采样，然后RS和左图特征L进行相似性计算，具体的采用余弦距离评估相似性，若视差的搜索范围为d，则相似性评估会进行2d+1次，比如d＝1，则评估会进行3次，分别在RS[:,:,:,0:w-1]和L[:,:,:,1:w]，RS[:,:,:,0:w]和L[:，:,:,0:w]，RS[:,:,:,1:w]和L[:,:,:,0:w-1]之间，将评估的结果沿着第二个维度串联得到维度为(n,2d+1,h,w)的特征。该特征和视差信息(n,1,h,w)、左图特征(n,c,h,w)、解码信息(n,e,h,w)、置信度信息(n,f,h,w)沿着第二个维度串联得到维度为(n,2d+2+c+e+f,h,w)的特征T。特征T被后续的2D卷积、2D反卷积进一步提炼，然后该特征被三个轻量级卷积分支分别用来得到视差、解码信息和置信度信息。视差和置信度在子网络中有高速通道连接，此处采用了残差网络的思想，使得子网络内部卷积层的学习目标变成视差和置信度的微调量。

本发明的神经网络只采用2D卷积，增加了预测置信度的分支，采用视差和置信度逐级调整的策略，子网络中串联操作聚合多种信息，训练时采用分阶段训练，最终的模型能在确保精度不下降的情况下，明显提升推理速度，得到的神经网络模型在低端GPU以及能耗更低的嵌入式设备中具有更快的推理速度，并能给出相应的置信度，物体轮廓足够清晰。

需要强调的是，本发明所述的实施例是说明性的，而不是限定性的，因此本发明并不限于具体实施方式中所述的实施例，凡是由本领域技术人员根据本发明的技术方案得出的其他实施方式，同样属于本发明保护的范围。

Claims

1.一种基于双目摄像头的实时深度及置信度的预测方法，其特征在于：包括以下步骤：

第一步，构建特定架构的神经网络模型，神经网络模型基于2D卷积处理得到，神经网络模型采用编码加解码的神经网络架构，并准备三个数据集，分别为分类数据集、人工合成的数据集和真实场景的数据集；

y表示训练时神经网络模型的视差输出值，

t_i表示训练时神经网络模型的置信度的输出值，

表示置信度的真实值，y_i表示神经网络模型预测的视差，

表示视差的真实值。

2.根据权利要求1所述的一种基于双目摄像头的实时深度及置信度的预测方法，其特征在于：所述的第二步中子网络包括串联模块，串联模块的输入端连接有采样模块、相似性计算模块和上一级的子网络的卷积模块，串联模块将输入信息进行串联并输送至卷积模块中进行处理。

3.根据权利要求2所述的一种基于双目摄像头的实时深度及置信度的预测方法，其特征在于：所述的串联模块中输入的信息包括上级子网络输出的解码信息、置信度信息、相似性计算模块输出的对应层级的左图特征和采样模块的视差信息。

4.根据权利要求3所述的一种基于双目摄像头的实时深度及置信度的预测方法，其特征在于：所述的相似性计算模块沿着channel维度使用余弦距离来评估左图特征和采样后的右图特征的相似性。

5.根据权利要求2所述的一种基于双目摄像头的实时深度及置信度的预测方法，其特征在于：所述的子网络中串联模块的信息传输采用高速通道进行连接，使子网络中内部卷积层的学习目标变为视差和置信度的微调量。

6.根据权利要求2所述的一种基于双目摄像头的实时深度及置信度的预测方法，其特征在于：所述的卷积模块连接有视差加权计算模块，视差加权计算模块将其输入数据沿着第二个维度做softmax操作，并沿着第二个维度做加权相加，其权值由-d到d。

7.根据权利要求2所述的一种基于双目摄像头的实时深度及置信度的预测方法，其特征在于：所述的子网络的损失为损失加权相加之和，其权重的选取从第一层子网络到第五层子网络依次递增。