CN108932725B

CN108932725B - 基于卷积神经网络的场景流估计方法

Info

Publication number: CN108932725B
Application number: CN201810589261.XA
Authority: CN
Inventors: 项学智; 翟明亮; 张荣芳; 吕宁; 郭鑫立; 于泽婷; 王帅; 张玉琦
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2018-06-08
Filing date: 2018-06-08
Publication date: 2021-10-26
Anticipated expiration: 2038-06-08
Also published as: CN108932725A

Abstract

本发明公开了基于卷积神经网络的场景流估计方法，属于计算机视觉领域。该方法将卷积神经网络与场景流估计相结合，可以从大量无标注的数据集中无监督学习得到场景流，进而提出了一种新的网络架构，命名为SF‑Net，端到端地进行场景流无监督学习，该模型能够从输入的图像中直接提取出场景流。在估计场景流时，通过使用预先训练好的网络模型，只需通过前向计算就可以得到场景流，能够满足实时应用要求。

Description

基于卷积神经网络的场景流估计方法

技术领域

本发明属于计算机视觉领域，具体涉及基于卷积神经网络的场景流估计方法。

背景技术

动态图像的处理是近些年计算机视觉研究的一个热点。相比与传统的静态图像，动态图像的主要研究目标是运动的物体。动态图像不仅包含景物的色彩、位置等空间上的信息，也包含了景物的时间信息。人们往往通过对对图像序列中图像进行分析计算，从而获得物体的运动状况。

目前动态图像处理包含多个方面，光流分析是目前动态图像处理中一种典型的处理方法。光流(optical flow)的概念是Gibson在1950年提出来的，是指空间运动物体在观察成像平面上的像素运动的瞬时速度。观察视频图像可以发现，时间相邻的图像存在着一定的时间相关性和位置相关性。利用这种相关性可以计算出物体的运动信息。这就是光流法的核心思想。将图像中多个像素的光流汇集，就可获得光流场。因此，光流场可以看作是二维的瞬时速度场，而其中二维速度矢量是图像中三维速度矢量在成像表面的投影。

由于光流不仅包含了物体的运动信息，而且还包含了结构信息，所以近些年来对光流的研究日渐增多，针对光流的研究成为计算机视觉领域的研究热点和难点。光流估计是运动估计的重要手段。通过光流计算，可获得在图像中的全部运动信息。光流估计在视觉计算与分析中扮演着非常重要的角色。基于光流的应用可以在多个领域，如军事、交通、医学、工业信息等。

与光流经历了三十多年的发展不同，场景流是一个很新的研究方向。场景流的概念虽然最早在1999年就被提出，但直到2005年，关于场景流的研究才正式在权威期刊中出现。简单的来讲，光流是平面上物体运动的二维信息，而场景流则包括了空间中物体运动的三维信息。光流估计往往是基于目标刚体或分片刚体假设的二维运动重构方法，而场景流则假设目标完全非刚体，各点运动彼此独立，并同时估计三维场景的运动和结构。因而场景流是运动估计方法由传统二维到三维的一个飞跃，也成为三维视觉最有前景的方向之一。

场景流是光流的三维拓展，该领域目前是计算机视觉的重要研究方向之一。传统的场景流估计模型使用的是变分框架，在能量泛函中定义数据项和平滑项，通过极小化能量泛函的方式求取场景流。优化一个复杂的能量泛函通常是十分耗时的，大多数基于变分模型的算法很难满足实际的应用场景。而且这些方法不能从现有的大量数据集中学习得到先验知识。

针对以上问题，本发明提出了一种基于卷积神经网络的场景流估计方法，该方法将卷积神经网络与场景流估计相结合，可以从大量无标注的数据集中无监督学习得到场景流，该模型能够从输入的图像中直接提取出场景流。在估计场景流时，通过使用预先训练好的网络模型，只需通过前向计算就可以得到场景流，能够满足实时的应用场合。

发明内容

本发明的目的在于提出基于一种新的网络架构和全新的损失函数的基于卷积神经网络的场景流估计方法。

本发明的目的通过如下技术方案来实现：

基于卷积神经网络的场景流估计方法，包括如下步骤：

(1)准备用于场景流网络训练的立体图像对，包括左目相机t，t+1时刻的图像，以及右目相机t，t+1时刻的图像，t为正整数；

(2)构建光流估计子网络，输入左目t时刻和t+1时刻图像，输出得到稠密的光流；

(3)构建视差估计子网络，输入左目t时刻与右目t时刻图像，输出为t时刻视差，输入左目t+1时刻与右目t+1时刻图像，输出为t+1时刻的视差；

(4)构建融合子网络，该网络将光流子网络中的部分特征图以及视差子网络中的部分特征图进行特征融合，采用无监督学习场景流损失函数引导网络的训练；

(5)构建并训练场景流整体网络，首先训练光流子网络以及视差子网络，然后将预训练好的光流及视差子网络与融合子网络相连接，固定光流及视差子网络的权值，进行融合子网络的训练，最终得到场景流估计整体网络；

(6)利用训练得到的场景流网络对测试图像对进行前向计算，输出即为预测所得到的场景流。

所述的步骤(2)具体包括：

所述的光流估计子网络由收缩和扩张两部分构成，收缩部分包7个卷积层，扩张部分包括4个反卷积层，每个反卷积层后面都连接一个ReLU激活函数；

(2.1)光流估计子网络的损失函数定义如下，

其中λ₁,λ₂,λ₃为各项的平衡因子；

为图像亮度损失函数，具体定义如下，

其中I₁，I₂为输入图像对，x为图像像素点坐标，w(x)＝(u,v)为预测所得到的光流；

为鲁棒惩罚函数；

(2.2)图像梯度损失函数

定义如下，

其中

为图像空间梯度算子；

(2.3)定义光流空间平滑损失函数

如下，

其中

和

分别对应预测光流(u,v)的横向梯度与纵向梯度，同时引入平滑驱动因子

α为驱动因子系数。

所述的步骤(3)具体包括：

视差子网络由收缩和扩张两部分构成，收缩部分包括7个卷积层，每个卷积层后都连接一个ReLU激活函数，扩张部分包括4个反卷积层，每个反卷积层后面都连接一个ReLU激活函数；

(3.1)视差子网络的损失函数定义如下，

其中η₁，η₂为各项平衡因子，

为图像亮度损失函数，具体定义如下，

其中I_l，I_r分别为左右目图像，x为图像坐标位置，d(x)为在x位置估计得到的视差值；

(3.2)定义视差空间平滑损失函数如下，

其中

和

分别为视差图水平和竖直方向上的梯度，同时引入平滑驱动因子

其中α为驱动因子系数。

所述的步骤(4)具体包括：

(4.1)定义融合子网络场景流损失函数如下,

其中μ₁,μ₂和μ₃为3项损失函数的平衡因子；

为场景流融合子网络光流损失函数，具体定义如下所示，

其中

和

为左右目t时刻和t+1时刻的图像，w＝(u,v)为融合网络预测所得到的光流，d为t时刻的预测视差，d′为t+1时刻预测视差；

(4.2)定义场景流融合子网络视差损失函数

如下，

(4.3)定义场景流融合子网络空间平滑损失函数

如下，

其中

为横向光流与纵向光流的梯度，

为t时刻和t+1时刻的视差的差的梯度，

为t时刻视差的梯度。

本发明的有益效果在于：

提出一种基于卷积神经网络的场景流估计方法，该方法将光流估计子网络与视差估计子网络进行融合设计，进而提出了一种新的网络架构，命名为SF-Net，端到端的进行场景流无监督学习，与此同时提出了一种全新的损失函数，用于引导网络的训练过程。

附图说明

图1为本发明流程图；

图2为本发明的光流子网络架构图；

图3为本发明的视差子网络架构图；

图4为本发明的视差共享网络结构图；

图5为本发明的融合子网络架构图；

图6为本发明的场景流网络总体架构图。

具体实施方式

下面结合附图对本发明的具体实施方式作进一步说明：

S1.首先将训练数据集按照网络训练输入图像的形式整理，其中包括左目相机t，t+1 时刻图像，以及右目相机t，t+1时刻图像。

S2.如图2所示，光流子网络输入为左目相机t时刻与t+1时刻的图像。该网络由收缩和扩张两部分构成。收缩部分包7个卷积层，具体结构及参数见图2，每个卷积层后都连接一个ReLU激活函数。扩张部分包括4个反卷积层，具体结构及参数见图2，每个反卷积层后面都连接一个ReLU激活函数。每个卷积层输出不同分辨率下计算得到的预测光流值。在模型的测试阶段，扩张部分最后连接一个上采样层，用来将预测得到的光流上采样到与输入图像相同的分辨率。该网络的损失函数定义如下，

其中λ₁,λ₂,λ₃为各项的平衡因子。

为图像亮度损失函数，具体定义如下，

其中I₁，I₂为输入图像对，x为图像像素点坐标。w(x)＝(u,v)为预测所得到的光流。

为鲁棒惩罚函数。

图像梯度损失函数

定义如下，

其中

为图像空间梯度算子。

定义光流空间平滑损失函数

如下，

其中

和

分别对应预测光流(u,v)的横向梯度与纵向梯度。同时引入平滑驱动因子

α为驱动因子系数。

光流子网络在不同分辨率下预测光流并计算损失，具体可见图2。

S3.如图3所示，视差子网络分为t时刻子网络与t+1时刻子网络，两个子网络采用共享网络结构，权值共享，具体结构见图4。该网络由收缩和扩张两部分构成。收缩部分包括7 个卷积层，具体结构及参数可见于图3，每个卷积层后都连接一个ReLU激活函数。扩张部分包括4个反卷积层，具体结构及参数可见于图3，每个反卷积层后面都连接一个ReLU激活函数。每个卷积层输出不同分辨率下计算得到的预测视差值。在模型的测试阶段，扩张部分最后连接一个上采样层，用来将预测得到的视差上采样到与输入图像相同的分辨率。该网络的损失函数定义如下，

其中η₁，η₂为各项平衡因子，

为图像亮度损失函数，具体定义如下，

其中I_l，I_r分别为左右目图像。x为图像坐标位置。d(x)为在x位置估计得到的视差值。

定义视差空间平滑损失函数如下，

其中

和

分别为视差图水平和竖直方向上的梯度。同时引入平滑驱动因子

其中α为驱动因子系数。

视差子网络损失函数计算不同分辨率下预测视差的损失，具体可见图3。

S4.如图5所示，融合子网络包括3个反卷积层，步长设置为2，激活函数选用ReLU，并且将光流子网络和视差子网络中部分特征图做堆叠处理，以达到特征融合的目的。首先定义融合子网络场景流损失函数如下,

其中μ₁,μ₂和μ₃为3项损失函数的平衡因子。

为场景流融合子网络光流损失函数，具体定义如下所示，

其中

和

为左右目t时刻和t+1时刻的图像，w＝(u,v)为融合网络预测所得到的光流，d为t时刻的预测视差，d′为t+1时刻预测视差。

定义场景流融合子网络视差损失函数

如下，

定义场景流融合子网络空间平滑损失函数

如下，

其中

为横向光流与纵向光流的梯度，

为t时刻和t+1时刻的视差的差的梯度，

为t时刻视差的梯度。

场景流融合子网络在不同分辨率下预测场景流并计算损失，具体可见图5。

S5.构建并训练场景流整体网络，如图6所示。网络的训练步骤可分为如下几步：首先训练光流子网络以及视差子网络。然后将预训练好的光流及视差子网络与融合子网络相连接，固定光流及视差子网络的权值，进行融合子网络的训练。最终得到场景流估计整体网络。

S6.利用训练得到的场景流网络对测试图像对进行前向计算，输出即为预测所得到的场景流。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。