CN109472819B

CN109472819B - 一种基于级联几何上下文神经网络的双目视差估计方法

Info

Publication number: CN109472819B
Application number: CN201811038173.7A
Authority: CN
Inventors: 张运辉; 吴子朝; 王毅刚
Original assignee: Hangzhou Dianzi University
Current assignee: Hangzhou Dianzi University
Priority date: 2018-09-06
Filing date: 2018-09-06
Publication date: 2021-12-28
Anticipated expiration: 2038-09-06
Also published as: CN109472819A

Abstract

本发明提出了一种基于级联几何上下文神经网络的双目视差估计方法；本发明设计了一种新的级联卷积神经网络Cascaded GCNet(CGCNet)，该网络主要通过改进GCNet,通过将3d卷积和原有的2d卷积操作结合，得到了较好的视差图特征表述，有利于后续网络训练；并且利用RefineNet对GCnet网络输出的粗糙视差图进行优化，迭代求精，提高了视差图的预测精度；RefineNet优化过程中，利用难例挖掘使得网络模型专注于难得样本学习，以此提高本网络对于不同复杂度图像对的视差估计精度。

Description

一种基于级联几何上下文神经网络的双目视差估计方法

技术领域

本发明属于计算机视觉技术领域，具体涉及一种基于级联几何上下文神经网络的双目视差估计方法。

背景技术

深度图是三维重建和三维场景理解中不可或缺的部分。通过给定一对校正后的双目相机生成的图，就可以利用两张图同一行对应的像素去估计它的深度，例如，对于左图的像素(x，y)，假设在右图上所对应的像素是(x+d，y)，我们就可以通过f*l/d去计算它的深度，其中f是相机的焦距，l是双目相机的两个中心点的距离，d是左右图的视差。深度与视差成反比关系，只要计算出了视差，我们就可以直接通过上述计算公式得到深度。目前有利用三维传感器来得到深度图的方法，但是计算非常耗时。传统算法通常把双目视差估计分为多个阶段去优化。直到近几年，才有一些学者使用卷积神经网络计算视差，将其转换成了一个学习任务。在使用了大量的可用的数据后，使用卷积神经网络在计算视差无论是在速度还是精度上，都超越了传统算法。

然而，在一些复杂场景中，比如低纹理，目标遮挡，纹理重复等，这仍然是一个很难解决的问题。在低纹理区域，将非常容易得到许多候选的像素点；另外，如果目标在一张图出现而在另一张图被遮挡，那么这个目标将非常难找到。

发明内容

本发明针对现有技术所存在的上述问题，本发明提出了一种基于级联几何上下文神经网络的双目视差估计方法。主要设计了一种新的级联卷积神经网络Cascaded GCNet(CGCNet)，该网络由两部分组成几何上下文网络GCNet和RefineNet，且采用端到端的训练模式。由于该网络不需要分别计算匹配代价，代价聚合，视差优化等，大大提升了网络训练的效率，同时在精度上也有所提高。

一种基于级联几何上下文神经网络的双目视差估计方法，包括如下步骤：

步骤(1)图像预处理。对带有参考实参图的双目图像对的左图和右图分别作归一化处理，使其图像像素值在[-1,1]中；

步骤(2)构造级联卷积神经网络CGCNet。包括以下网络层：

2-1.构造粗略视差图像估计层。该网络层由GCNet(Geometry and ContextNetwork)网络构成。

2-2.构造视差求精层。该网络层为RefineNet，将步骤2-1中生成的粗糙视差图输入构造视差求精层，输出的结果便是精确的视差图。

步骤(3)网络训练。收集数据集，对网络进行有监督的反向传播算法训练，包含以下步骤：

3-1.对训练数据进行预处理；

3-2.将数据输入GCNet进行训练得到粗糙视差图；

3-3.将粗糙视差图输入RefineNet进行训练，并利用难例挖掘进行有监督的反向传播训练；

3-4.通过3-1和3-2的各自网络训练得到该两个网络的权重，利用这些权重将网络级联进行端到端的训练。

步骤(4)求视差图。从Kitti2015测试数据集中取双目图像对进行测试，对测试图像对进行步骤(1)的预处理，接着将预处理后的图像对输入到步骤(3)中训练完成的网络，最终得到相应的视差图。

所述的步骤(2)中，构造级联卷积神经网络CGCNet。包括以下网络层：

2-1.GCnet网络结合二维和三维卷积神经网络学习图像的特征，计算匹配代价，输出视差图。其首先利用5*5的卷积核减小特征图的大小，即对特征图进行降采样，降采样层的步长为2，即将特征图的大小缩小了32倍；再用6个残差模块去学习特征，且用3d卷积进行上下文学习；接着利用这些左右图的特征计算匹配代价，计算匹配代价的具体方法为：左图固定，将右图做偏移，再与左图对应像素相乘得到匹配代价量，该量的维度为高*宽*(最大视差值+1)*特征图通道；并且通过softargmin输出视差图；2-2.RefineNet网络为沙漏形状。该网络使用反卷积将特征图放大，使得其输出图像的大小与输入图像的大小保持一致，其网络结构如图1所示。RefineNet的输入是左图I_L和右图I_R，通过GCNet输出的视差值，构建了一个

表示合成的左图，即对输入的右图I_R的x坐标与视差图值进行相加得到

其数学表达式如下：

并将Error输入网络中，辅助网络更好地学习，Error的计算公式如下：

RefineNet在5个尺度上使用了残差结构，该五个尺度分别为原图大小的1/16,1/8，1/4，1/2,1/1。网络在每个尺度上都学习了一个残差，用数学表示如下：

其中，N为该网络中总尺度数量；当n＝0时，

为当前结构的输出，当n>0时，

只辅助网络学习，

是GCNet输出的视差图，r₂ ⁽ⁿ⁾是每层上的残差。对于不同尺度的监督信息，利用双线性差值方法将不同的标准视差图进行下采样到相应的尺度。

所述的步骤(3)中，收集的数据集来源于两个开源数据库，Sceneflow和KITTI，网络训练在TensorFlow框架下进行，且利用L1 loss进行训练监督，L1 loss收敛时说明网络训练完成，其数学表达式如下:

其中N表示图像中的总像素数，d_n表示RefineNet网络中预测出来的视差图，

表示已有的标准视差图ground truth。

3-1.预处理包括图像数据填充和随机裁剪。先对Kitti数据集中的图像进行填充达到分辨率一致的效果，填充后的图像分辨率为1248*384；接着对高分辨率图像进行随机裁剪处理，得到512*256的子图像作为网络训练学习的样本，以此来加快网络训练速度；

3-2.GCNet网络的训练过程由两部分组成，先使用Sceneflow数据集对网络进行预训练，得到一个预训练模型，然后使用Kitti数据集对预训练模型进行微调训练，以此完成GCNet网络的训练；

3-3.难例挖掘的操作方式是对RefineNet输出的loss进行降序排，并只对排序后的前三分之一求和作为新的loss进行反向传播训练。

本发明有益效果如下：

本发明提出了一种基于级联几何上下文神经网络的双目视差估计方法。该网络主要通过改进GCNet,通过将3d卷积和原有的2d卷积操作结合，得到了较好的视差图特征表述，有利于后续网络训练；并且利用RefineNet对GCnet网络输出的粗糙视差图进行优化，迭代求精，提高了视差图的预测精度；RefineNet优化过程中，利用难例挖掘使得网络模型专注于难得样本学习，以此提高本网络对于不同复杂度图像对的视差估计精度。

附图说明

图1为RefineNet结构图。

具体实施方式

步骤(2)构造联级卷积神经网络CGCNet。包括以下网络层：

2-1.构造粗略视差图像估计层。该网络层主要由GCNet(Geometry and ContextNetwork)网络构成。

2-2.构造视差求精层。该网络层为RefineNet，将步骤2-1中生成的粗糙视差图输入该网络层，输出的结果便是精确的视差图。

构造联级卷积神经网络CGCNet。包括以下网络层：

2-1.GCnet网络主要结合二维和三维卷积神经网络学习图像的特征，输出匹配代价。其首先利用5*5的卷积核减小特征图的大小，即对特征图进行降采样，降采样层的步长为2，即将特征图的大小缩小了32倍；再用6个残差模块去学习特征，且用3d卷积进行上下文学习；接着利用这些左右图的特征计算匹配代价，计算匹配代价的具体方法为：左图固定，将右图做偏移，再与左图对应像素相乘得到匹配代价量，该量的维度为高*宽*(最大视差值+1)*特征图通道；

2-2.RefineNet网络为沙漏形状。该网络使用反卷积将特征图放大，使得其输出图像的大小与输入图像的大小保持一致，其网络结构如图1所示。RefineNet的输入是左图I_L和右图I_R，通过GCNet输出的视差值，构建了一个

其数学表达式如下：

Error的计算公式如下：

其中，

为当前结构的输出，

d2是GCNet输出的视差图。对于不同尺度的监督信息，利用双线性差值方法将不同的标准视差图进行下采样到相应的尺度。

3-1.对训练数据进行预处理；

3-2.将数据输入GCNet进行训练得到粗糙视差图；

收集的数据集来源于两个开源数据库，Sceneflow和KITTI，网络训练在TensorFlow框架下进行，且利用L1 loss进行训练监督，L1 loss收敛时说明网络训练完成，其数学表达式如下:

其中N表示图像中的总像素数，d_n表示网络预测出来的视差图，

表示已有的标准视差图ground truth。

3-2.GCNet网络的训练过程主要有两部分组成，先使用Sceneflow数据集对网络进行预训练，得到一个预训练模型，然后使用Kitti数据集对预训练模型进行微调训练，以此完成GCNet网络的训练；

3-3.难例挖掘的操作方式是对RefineNet输出的loss进行排序，选择一些较大的loss进行反向传播训练。

步骤(4)求视差图。从Kitti2015测试数据集中取双目图像对进行测试，对测试图像对进行步骤(1)的预处理，接着将预处理后的图像对其输入步骤(3)中训练完成的网络，最终得到相应的视差图。

Claims

1.一种基于级联几何上下文神经网络的双目视差估计方法，其特征在于，该方法具体包括以下步骤：

步骤(1)：图像预处理；对带有参考实参图的双目图像对的左图和右图分别作归一化处理，使其图像像素值在[-1,1]中；

步骤(2)：构造级联卷积神经网络CGCNet；包括以下网络层：

2-1.构造粗略视差图像估计层；该网络层由几何上下文网络GCNet网络构成；

2-2.构造视差求精层；该网络层为RefineNet，将步骤2-1中生成的粗糙视差图输入构造视差求精层，输出的结果便是精确的视差图；

其中RefineNet网络为沙漏形状；该网络使用反卷积将特征图放大，使得其输出图像的大小与输入图像的大小保持一致；RefineNet的输入是左图I_L和右图I_R，通过GCNet输出的视差值，构建了一个

其数学表达式如下：

RefineNet在5个尺度上使用了残差结构，该五个尺度分别为原图大小的1/16,1/8，1/4，1/2,1/1；网络在每个尺度上都学习了一个残差，用数学表示如下：

其中，N为该网络中总尺度数量；当n＝0时，

为当前结构的输出，当n>0时，

只辅助网络学习，

是GCNet输出的视差图，r₂ ⁽ⁿ⁾是每层上的残差；对于不同尺度的监督信息，利用双线性差值方法将不同的标准视差图进行下采样到相应的尺度；

步骤(3)：网络训练；收集数据集，对网络进行有监督的反向传播算法训练，包含以下步骤：

3-1.对训练数据进行预处理；

3-2.将数据输入GCNet进行训练得到粗糙视差图；

3-4.通过3-1和3-2的各自网络训练得到该两个网络的权重，利用这些权重将网络级联进行端到端的训练；

步骤(4)：求视差图；

从Kitti2015测试数据集中取双目图像对进行测试，对测试图像对进行步骤(1)的预处理，接着将预处理后的图像对输入到步骤(3)中训练完成的网络，最终得到相应的视差图。

2.根据权利要求1所述的一种基于级联几何上下文神经网络的双目视差估计方法，其特征在于：

所述的步骤(2)中，构造级联卷积神经网络CGCNet；具体为：

2-1.GCnet网络结合二维和三维卷积神经网络学习图像的特征，计算匹配代价，输出视差图；其首先利用5*5的卷积核减小特征图的大小，即对特征图进行降采样，降采样层的步长为2，即将特征图的大小缩小了32倍；再用6个残差模块去学习特征，且用3d卷积进行上下文学习；接着利用这些左右图的特征计算匹配代价，计算匹配代价的具体方法为：左图固定，将右图做偏移，再与左图对应像素相乘得到匹配代价量，该量的维度为高*宽*(最大视差值+1)*特征图通道；并且通过softargmin输出视差图。

3.根据权利要求1所述的一种基于级联几何上下文神经网络的双目视差估计方法，其特征在于：

表示已有的标准视差图ground truth；

3-1.预处理包括图像数据填充和随机裁剪；先对Kitti数据集中的图像进行填充达到分辨率一致的效果，填充后的图像分辨率为1248*384；接着对高分辨率图像进行随机裁剪处理，得到512*256的子图像作为网络训练学习的样本，以此来加快网络训练速度；