CN106780543A

CN106780543A - 一种基于卷积神经网络的双框架估计深度和运动方法

Info

Publication number: CN106780543A
Application number: CN201710025984.2A
Authority: CN
Inventors: 夏春秋
Original assignee: Shenzhen Vision Technology Co Ltd
Current assignee: Shenzhen Vision Technology Co Ltd
Priority date: 2017-01-13
Filing date: 2017-01-13
Publication date: 2017-05-31
Anticipated expiration: 2037-01-13
Also published as: CN106780543B

Abstract

本发明中提出的一种基于卷积神经网络的图像像素分类方法，其主要内容包括：图像输入、自助网络处理、迭代处理、图像细化、获得估计结果，其过程为，采用卷积网络估计深度和相机运动，它包含三个阶段：从场景数据集采样图像对并丢弃具有高光一致性误差的图像对；接下来，预处理后的图像对输入自助网络中分别计算光流、深度和相机运动；然后，经由迭代网络多次迭代反复改进现有的估计结果；最后由细化网络精细化后获得高分辨率深度图和运动估计。本发明的网络明显优于传统的运动结构，结果更准确和更鲁棒；与从单个图像估计深度的网络不同，本网络学习匹配的概念，可以利用运动视差，从而处理新类型的场景，并且允许估计运动。

Description

一种基于卷积神经网络的双框架估计深度和运动方法

技术领域

本发明涉及计算机视觉领域，尤其是涉及了一种基于卷积神经网络的双框架估计深度和运动方法。

背景技术

随着科技技术迅速发展，在深度学习研究领域，运动结构是计算机视觉中的长期任务。代表现有技术的系统是由几个连续处理步骤组成的精心设计的管线，这些系统具有某些固有的局限性。在开始估计相机运动之前，通常先通过稠密一致搜索来推断场景的结构，相机运动的不正确估计导致错误的深度预测。此外，根据关键点检测和描述符匹配计算的稀疏一致来估计相机运动的过程易于出现异常，并且在非纹理区域中不起作用，而且所有的运动结构方法不适应于小型相机的情况。而如果采用基于卷积神经网络的双框架估计深度和运动方法，则可以从一个无约束图像对联合估计深度和相机运动，还可以应用于机器人视觉导航、地图生成、航空勘测、目标识别以及计算机图像学中的虚拟现实等领域。

本发明提出了一种基于卷积神经网络的双框架估计深度和运动方法，它采用端到端的卷积网络估计深度和相机运动，它包含三个阶段：从场景数据集采样图像对并丢弃具有高光一致性误差的图像对；接下来，预处理后的图像对输入自助网络中第一编码器-解码器网络和第二编码器-解码器网络中分别计算光流、深度和相机运动；然后，经由迭代网络多次迭代反复改进现有的估计结果；最后由细化网络精细化后获得高分辨率深度图和运动估计。本发明的网络明显由于传统的双框架运动结构，结果更准确和更鲁棒，因为它是端对端训练的，并且学习从X个线索集成其他形状；与从单个图像估计深度的网络不同，本网络学习匹配的概念，可以利用运动视差，从而处理新类型的场景，并且允许估计运动。

发明内容

针对深度和相机运动估计不准确和适用范围不广泛的问题，本发明的目的在于提供一种基于卷积神经网络的双框架估计深度和运动方法。

为解决上述问题，本发明提供一种基于卷积神经网络的双框架估计深度和运动方法，其主要内容包括：

(一)图像输入；

(二)自助网络处理；

(三)迭代处理；

(四)图像细化；

(五)获得估计结果。

其中，一种基于卷积神经网络的双框架估计深度和运动方法，包括端到端的卷积网络来计算连续的、无约束的图像对的深度和相机运动；该架构由多个堆叠的编码器-解码器网络组成，包括自助网络、迭代网络和细化网络，核心部分是能够改进自身预测的迭代网络；网络不仅估计深度和运动，而且还估计表面法线、图像之间的光流以及匹配的置信度。

其中，所述的图像输入，选取有深度和相机姿势的室内场景图像作为场景数据集，包括从卡通到写实的多种不同场景；从数据集中采样图像对时，自动丢弃具有高光一致性误差的图像对，并分割数据集，使得相同的场景不会同时出现在训练集和测试集中。

其中，所述的自助网络处理，自助网络获取图像对作为输入，并输出初始深度和运动估计；由编码器-解码器网络对组成，其中第一个计算光流，而第二个计算深度和相机运动。

进一步地，所述的第一编码器-解码器网络，编码器由在y和x方向上具有一维滤波器的卷积层对组成；一维滤波器允许使用空间大的滤波器，同时保持参数的数量和运行时间可管理，在增加通道数的同时以2的步幅逐渐减小空间分辨率；解码器部分通过一系列向上卷积层从编码器的表示产生光流估计，该层随后是两个步幅为2的卷积层，它输出光流场的两个分量和它们的置信度的估计。

进一步地，所述的第二编码器-解码器网络，将光流、其置信度，图像对以及被估计的流场扭曲的第二图像作为输入；基于这些输入，它估计深度、表面法线和相机运动；除了计算相机运动的额外3个完全连接层和用于深度预测的缩放因子之外，该架构与第一编码器-解码器网络相同。

其中，所述的迭代处理，该编码器-解码器对的架构与自助网络相同，但它需要额外的输入；训练迭代网络以改进现有的深度、法线和运动估计；将由自助网络或迭代网络的先前迭代所估计的深度图和相机运动转换成光流场，并将其与其它输入一起反馈到第一编码器-解码器中；同样，使用先前的相机运动预测将光流转换为深度图，并将其与光流一起反馈到第二编码器-解码器中。

进一步地，所述的训练优化，在训练期间，通过将先前的训练迭代的预测附加到minibatch来模拟4次迭代；与展开不同，没有通过迭代的梯度反向传播，而是每次迭代的梯度由定义的网络输出的损失来描述：光流，深度，法线和相机运动；与通过时间反向传播相比，这节省了大量的内存，并允许训练一个更大的网络和更多的迭代。

其中，所述的图像细化，通过自主网络和迭代网络得到低分辨率图像对(64×48)作为输入，细化网络将预测上调至全输入图像分辨率；它获得全分辨率输入对和最近邻上采样深度和法线场作为输入，输出高分辨率图像对(256×192)。

其中，所述的图像细化，采用由θ₃参数化的深度残差卷积神经网络作为细化子网；在训练期间，细化子网的输入图像没有重新调整为1024×1024，仍是512×512的分辨率；细化子网删除图像的局部像素化伪影，并进一步细化结果，最后获得最具视觉吸引力的高分辨率图像

进一步地，所述的获取估计结果，该网络通过计算得到第一视图中的深度图和第二视图的相机运动作为估计结果；获取结果之前必须参数化深度和运动：用表示第二相机的相对姿态；旋转r＝θv是具有角度θ和轴线v的角度轴表示，平移t在笛卡尔坐标中给出；

来自具有未知相机运动的图像的场景的重建可以仅按尺度确定，通过归一化平移和深度值来解决尺度模糊问题，使得‖t‖＝1；这样，该网络学习预测单位标准平移向量；

网络估计逆深度ξ＝1/Z，而不是深度Z；逆深度允许表示无穷远处的点，并且说明随着距离增加，点的局部不确定性也随之增加；为了匹配单元平移，网络预测标量缩放因子s，其用于获得最终深度值sξ。

附图说明

图1是本发明一种基于卷积神经网络的双框架估计深度和运动方法的系统流程图。

图2是本发明一种基于卷积神经网络的双框架估计深度和运动方法的模型架构图。

图3是本发明一种基于卷积神经网络的双框架估计深度和运动方法的编码器-解码器对示意图。

图4是本发明一种基于卷积神经网络的双框架估计深度和运动方法的场景数据集。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互结合，下面结合附图和具体实施例对本发明作进一步详细说明。

图1是本发明一种基于卷积神经网络的双框架估计深度和运动方法的系统流程图。主要包括图像输入；自助网络处理；迭代处理；图像细化；获得估计结果。

图2是本发明一种基于卷积神经网络的双框架估计深度和运动方法的模型架构图。该架构是解决不同任务的编码器-解码器网络链，采用图像对作为输入，预测第一图像的深度图和第二图像相机的相对姿态。其包括三个主要部分：自助网络，迭代网络和细化网络。前两个部分是编码器解码器网络对，其中第一个计算光流，而第二个计算深度和相机运动；递归地应用迭代网络以连续地改进先前迭代的估计。最后一个部分是单个编码器-解码器网络，它生成最终上采样和细化的深度图。

图3是本发明一种基于卷积神经网络的双框架估计深度和运动方法的编码器-解码器对示意图。具有灰色字体的输入仅可用于迭代网络。第一编码器-解码器从图像对和先前的估计预测光流和其置信度。第二编码器-解码器预测深度图和表面法线。附加到编码器的完全连接层的网络估计相机运动r，t和深度比例因子s。比例因子s关联深度值与相机运动。

图4是本发明一种基于卷积神经网络的双框架估计深度和运动方法的场景数据集。选取有深度和相机姿势的室内场景图像作为场景数据集，包括图中第一行的现实室内场景和图中第二行的卡通形象的室内场景这两类不同的场景图像；从数据集中采样图像对时，自动丢弃具有高光一致性误差的图像对，并分割数据集，使得相同的场景不会同时出现在训练集和测试集中。

对于本领域技术人员，本发明不限制于上述实施例的细节，在不背离本发明的精神和范围的情况下，能够以其他具体形式实现本发明。此外，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围，这些改进和变型也应视为本发明的保护范围。因此，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

Claims

1.一种基于卷积神经网络的双框架估计深度和运动方法，其特征在于，主要包括图像输入(一)；自助网络处理(二)；迭代处理(三)；图像细化(四)；获取估计结果(五)。

2.基于权利要求书1所述的一种基于卷积神经网络的双框架估计深度和运动方法，其特征在于，包括端到端的卷积网络来计算连续的、无约束的图像对的深度和相机运动；该架构由多个堆叠的编码器-解码器网络组成，包括自助网络、迭代网络和细化网络，核心部分是能够改进自身预测的迭代网络；网络不仅估计深度和运动，而且还估计表面法线、图像之间的光流以及匹配的置信度。

3.基于权利要求书1所述的图像输入(一)，其特征在于，选取有深度和相机姿势的室内场景图像作为场景数据集，包括从卡通到写实的多种不同场景；从数据集中采样图像对时，自动丢弃具有高光一致性误差的图像对，并分割数据集，使得相同的场景不会同时出现在训练集和测试集中。

4.基于权利要求书1所述的自助网络处理(二)，其特征在于，自助网络获取图像对作为输入，并输出初始深度和运动估计；由编码器-解码器网络对组成，其中第一个计算光流，而第二个计算深度和相机运动。

5.基于权利要求书4所述的第一编码器-解码器网络，其特征在于，编码器由在y和x方向上具有一维滤波器的卷积层对组成；一维滤波器允许使用空间大的滤波器，同时保持参数的数量和运行时间可管理，在增加通道数的同时以2的步幅逐渐减小空间分辨率；解码器部分通过一系列向上卷积层从编码器的表示产生光流估计，该层随后是两个步幅为2的卷积层，它输出光流场的两个分量和它们的置信度的估计。

6.基于权利要求书4所述的第二编码器-解码器网络，其特征在于，将光流、其置信度，图像对以及被估计的流场扭曲的第二图像作为输入；基于这些输入，它估计深度、表面法线和相机运动；除了计算相机运动的额外3个完全连接层和用于深度预测的缩放因子之外，该架构与第一编码器-解码器网络相同。

7.基于权利要求书1所述的迭代处理(三)，其特征在于，该编码器-解码器对的架构与自助网络相同，但它需要额外的输入；训练迭代网络以改进现有的深度、法线和运动估计；将由自助网络或迭代网络的先前迭代所估计的深度图和相机运动转换成光流场，并将其与其它输入一起反馈到第一编码器-解码器中；同样，使用先前的相机运动预测将光流转换为深度图，并将其与光流一起反馈到第二编码器-解码器中。

8.基于权利要求书7所述的训练迭代，其特征在于，在训练期间，通过将先前的训练迭代的预测附加到minibatch来模拟4次迭代；与展开不同，没有通过迭代的梯度反向传播，而是每次迭代的梯度由定义的网络输出的损失来描述：光流，深度，法线和相机运动；与通过时间反向传播相比，这节省了大量的内存，并允许训练一个更大的网络和更多的迭代。

9.基于权利要求书1所述的图像细化(四)，其特征在于，通过自主网络和迭代网络得到低分辨率图像对(64×48)作为输入，细化网络将预测上调至全输入图像分辨率；它获得全分辨率输入对和最近邻上采样深度和法线场作为输入，输出高分辨率图像对(256×192)。

10.基于权利要求书1所述的获得估计结果(五)，其特征在于，该网络通过计算得到第一视图中的深度图和第二视图的相机运动作为估计结果；获取结果之前必须参数化深度和运动：用表示第二相机的相对姿态；旋转r＝θv是具有角度θ和轴线v的角度轴表示，平移t在笛卡尔坐标中给出；

网络估计逆深度而不是深度逆深度允许表示无穷远处的点，并且说明随着距离增加，点的局部不确定性也随之增加；为了匹配单元平移，网络预测标量缩放因子s，其用于获得最终深度值sξ。