CN109308719B

CN109308719B - 一种基于三维卷积的双目视差估计方法

Info

Publication number: CN109308719B
Application number: CN201811011545.7A
Authority: CN
Inventors: 李宏亮; 邓志康; 颜海强; 尹康; 袁欢; 梁小娟
Original assignee: University of Electronic Science and Technology of China
Current assignee: University of Electronic Science and Technology of China
Priority date: 2018-08-31
Filing date: 2018-08-31
Publication date: 2022-03-15
Anticipated expiration: 2038-08-31
Also published as: CN109308719A

Abstract

本发明公开了一种基于三维卷积的双目视差估计方法。包括下列步骤：利用双目标定方法标定双目摄像头，得到双目矫正映射图；对待估计的双目图像进行矫正，得到矫正后的双目图像；将矫正后的双目图像送入预设的二维卷积神经网络，得到经过特征变换后的特征图；将当前帧的特征图和之前多帧图像的特征图进行拼接，送入三维卷积神经网络，得到多帧图像的特征图。将多帧图像的特征图进行转置卷积，重新变换回像素域，得到视差估计图。本发明相较于现有的基于卷积神经网络的双目视差估计方法，通过三维卷积提取时间维度上的信息，结合当前帧与之前多帧的双目信息来估计当前帧的双目视差图。相较于原有方法，本方法在准确度、前后帧间的连贯性上有改进。

Description

一种基于三维卷积的双目视差估计方法

技术领域

本发明属于计算机视觉技术领域，具体地说，是对输入的双目摄像头信息进行处理，生成相应的视差图的方法。

背景技术

获取准确的双目视差图是深度估计的前提，深度估计是双目立体视觉领域中一个重要的研究课题，在机器人导航，精密工业测量、物体识别、虚拟现实、场景重建，勘测等众多领域都有应用。在左右摄像头观察一个物体，获取在双目视角下的图像，根据图像之间像素的匹配关系可以获得视差图。通过三角测量原理计算出像素之间的偏移来获取物体的三维信息。得到了物体的景深信息，就可以计算出物体与相机之间的实际距离，物体三维大小，两点之间实际距离。

早期的双目视差估计是基于小窗口的区域匹配，提取的特征值大多为灰度、颜色等信息。后来开发出自适应窗口技术，针对特征值也开发出对光照鲁棒性的变换值，如Census变换等。其后，逐步发展出基于局部的立体匹配、基于全局的立体匹配和基于半全局的立体匹配。

近年来，基于卷积神经网络的双目视差估计方法取得了较多进展，包括利用卷积神经网络进行块匹配、利用全卷积神经网络直接生成整张双目视差估计图等方法。基于卷积神经网络的双目视差估计方法相较于早期的双目视差估计方法，在准确度、处理速度上都有了较大提升。但现有的卷积神经网络的双目视差估计方法在准确度、前后帧间的连贯性上还有待进一步改进。

发明内容

本发明的发明目的在于：针对上述存在的问题，提供

现有的基于卷积神经网络的双目视差估计方法对每帧图像单独处理。当输入信息是连续视频时，由于没有利用前后帧的信息，从时间维度上看连续性存在一定的问题。本发明旨在通过三维卷积利用前后帧信息，使双目视差估计图更准确、在前后帧更平滑一致。

一种基于三维卷积的双目视差估计方法，包括下列步骤：

双目摄像头标定步骤：对双目摄像头进行标定，分别得到左、右目摄像头的内参数矩阵以及外参数矩阵；

双目图像校正步骤：通过内参数矩阵，分别对左、右目摄像头拍摄的图像进行去畸变处理；再结合内参数矩阵与外参数矩阵进行双目图像校正处理，将三维空间中的同一点投影到二维左、右目图像的同一水平扫描线上；

二维特征提取步骤：选取二维卷积神经网络，并进行神经网络训练，作为二维特征提取器；

将矫正后的双目图像送入二维特征提取器，进行前向传播，得到经过特征变换后的特征图；

三维特征提取步骤：选取三维卷积积神经网络，并进行神经网络训练，作为三维特征提取器，所述三维特征提取器用于在空间维度与时间维度上进行多级的特征提取与变换，以融合空间维度和时间维度的信息，得到多帧信息融合的特征图；

对二维特征提取所得到的特征图，将当前帧的特征图和之前多帧图像的特征图在特征维度上进行叠加后，再送入维特征提取器，进行前向传播提取特征，得到多帧图像的特征图；

视差估计步骤：对三维提取步骤得到的多帧图像的特征图进行转置卷积，重新变换回像素域，得到视差估计图。

综上所述，由于采用了上述技术方案，本发明的有益效果是：本发明所提出的基于三维卷积的双目视差估计方法能有效利用通过双目摄像头拍摄的视频的帧间信息，从而提升双目视差估计的准确性和前后一致性。

附图说明

图1：本发明流程示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面结合实施方式和附图，对本发明作进一步地详细描述。

相较于现有的基于卷积神经网络的双目视差估计方法，本发明通过三维卷积提取时间维度上的信息，结合当前帧与之前多帧的双目信息来估计当前帧的双目视差图，从而提升现有双目视差估计方法准确度、前后帧间的连贯性。

本发明首先对双目摄像头进行标定，分别得到左目、右目摄像头的内参数矩阵以及左、右目摄像头间的外参数矩阵。

通过内参数矩阵，可以分别对左目、右目摄像头拍摄的图像进行去畸变处理。

通过外参数矩阵，可以联合对左目、右目的图像进行双目矫正，以使现实三维空间中的同一点被投影到二维左、右目图像的同一水平扫描线上，以便后续处理。

在得到经过矫正的双目图像后，对每一帧图像利用传统二维卷积提取特征，得到单帧信息的特征图。可以利用VGG(Visual Geometry Group)网络、残差网络等网络结构作为特征提取器。

得到单帧信息的特征图后，将当前帧和之前N帧的特征图在特征维度进行拼接，得到多张特征图的堆叠。

将拼接后的特征图作为输入，送入三维卷积网络，通过三维卷积、三维池化等操作在空间维度与时间维度上进行多级的特征提取与变换，以融合空间维度和时间维度的信息，最终得到多帧信息融合的特征图。

得到多帧信息的特征图后，利用转置卷积，将特征图恢复到像素域，得到最终的视差估计图。

本发明可使用Python结合PyTorch等深度学习库开发出程序，可在CPU或GPU上运行。对于实时捕捉的双目视频，可以进行时差估计，并进一步转换成深度信息。本发明生成的视差估计图准确，且前后帧间连续、流畅。具体实现本发明所提出的方法时，包括五个步骤，参见图1，各步骤具体为：

步骤一、利用双目标定方法标定双目摄像头，得到双目矫正映射图。

步骤二、从双目摄像头读入双目图像，并利用步骤一中得到的双目矫正映射图进行矫正，

得到矫正后的双目图像。

步骤三、将矫正后的双目图像送入预设的二维卷积神经网络，进行前向传播，得到经过特征变换后的特征图。

步骤四、将当前帧的特征图和之前多帧图像的特征图进行拼接，送入三维卷积神经网络，进行前向传播提取特征，得到多帧图像的特征图。

步骤五、将多帧图像的特征图进行转置卷积，重新变换回像素域，得到视差估计图。

以上所述，仅为本发明的具体实施方式，本说明书中所公开的任一特征，除非特别叙述，均可被其他等效或具有类似目的的替代特征加以替换；所公开的所有特征、或所有方法或过程中的步骤，除了互相排斥的特征和/或步骤以外，均可以任何方式组合。

Claims

1.一种基于三维卷积的双目视差估计方法，其特征在于，包括下列步骤：

三维特征提取步骤：选取三维卷积神经网络，并进行神经网络训练，作为三维特征提取器，所述三维特征提取器用于在空间维度与时间维度上进行多级的特征提取与变换，以融合空间维度和时间维度的信息，得到多帧信息融合的特征图；

对二维特征提取所得到的特征图，将当前帧的特征图和之前多帧图像的特征图在特征维度上进行叠加后，再送入三维特征提取器，进行前向传播提取特征，得到多帧图像的特征图；

2.如权利要求1所述的方法，其特征在于，所述二维特征提取器的网络结构为VGG网络或残差网络。