CN107993255A

CN107993255A - 一种基于卷积神经网络的稠密光流估计方法

Info

Publication number: CN107993255A
Application number: CN201711220774.5A
Authority: CN
Inventors: 项学智; 翟明亮; 吕宁; 张荣芳; 郭鑫立; 王帅; 于泽婷; 张玉琦
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2017-11-29
Filing date: 2017-11-29
Publication date: 2018-05-04
Anticipated expiration: 2037-11-29
Also published as: CN107993255B

Abstract

本发明属于计算机视觉领域，提供了一种基于卷积神经网络的稠密光流估计方法，以解决现有技术计算时间长，计算量大，计算效率不高的问题，包含如下步骤：(1)提取运动图像信息：构建全卷积网络架构，然后在输入层输入两幅通道数都为C的图像，从卷积层8输出光流_6；(2)生成光流：构建稠密光流生成模型。光流_6输入反卷积层1，反卷积层2输出光流_5，反卷积层3输出光流_4，反卷积层4输出光流_3，反卷积层5输出光流_2，反卷积层6输出光流_1；(3)模型训练：用最终损失函数进行训练；(4)光流估计：从全卷积网络架构的输入层输入图像对，输出最终预测的光流。本发明能够有效地利用先验知识，模型可以预先训练，大大减少了计算时间。

Description

一种基于卷积神经网络的稠密光流估计方法

技术领域

本发明属于计算机视觉领域，尤其涉及一种基于卷积神经网络的稠密光流估计方法。

背景技术

光流估计是计算机视觉领域内的一个重要基础模块，其研究目的是通过建模计算出视频连续两帧间的运动信息，具体就是第一帧中每个像素在第二帧中的对应匹配像素。经过三十多年的发展，光流估计问题已经有非常多的相关研究，但在真实世界视频里的鲁棒光流估计仍然是个富有挑战性的问题。

光流估计根据所采用的方法的不同，大体可以分为两种：一种是基于Horn和Schunck提出的变分能量优化模型，一种是基于匹配的插值优化模型。基于变分能量优化模型的算法虽然能够在小位移光流估计中取得非常精确的结果，但这种方法通常会在有大位移运动物体的场景下失败。基于匹配的插值优化模型主要利用了在大位移运动中，两帧之间视觉关键点的匹配信息对光流估计结果的重要性。以一种相对稠密的匹配结果作为光流估计的初始值，可以很好的解决传统变分能量优化模型存在的问题。然而，基于匹配的插值优化模型主要问题在于计算稠密匹配需要相当大的代价，并且其匹配结果的精度也直接影响到最终光流估计的效果。针对这种问题，本发明提出一种新的适用于大位移光流估计的稠密匹配算法，可以高效地得到精确的匹配信息光流估计是计算机视觉的重要研究方向之一，近年来，光流估计越来越受到国内外学者的关注，是计算机视觉领域中的研究热点。

申请公布号为CN105809712A的专利，公开了一种高效大位移光流估计方法：从视频里获取两张连续图像，将两帧图像按时间顺序分别标记为I1和I2；以I1和I2为最底层分别构造图像金字塔和在图像金字塔的每层上生成相同数目的种子点，并将最顶层上的种子点的匹配初始化为随机值；将获得的种子点在由图像金字塔依次从顶层到底层逐层进行匹配，每层种子点的匹配结果作为下一层相应种子点的初始值；将最底层种子点的匹配结果利用对边缘敏感的插值算法进行插值，将插值结果作为光流估计的初始值，然后利用变分能量优化模型进行优化，最终得到大位移光流估计结果。但该方法计算量大，效率不高。

从上面来看，传统的光流估计模型使用的是变分框架，在能量泛函中定义数据项平滑项等约束，通过极小化能量泛函的方式求取光流。该方法不能利用先验知识，并且此种方法在求解过程中往往需要较多的迭代次数，计算时间较长，无法达到较高的计算速度。所以传统方法很难达到实际场景的应用需求。

发明内容

本发明的目的在于提供计算时间少，计算速度快，能够有效地利用先验知识的一种基于卷积神经网络的稠密光流估计方法。

本发明的目的是这样实现的：

一种基于卷积神经网络的稠密光流估计方法，包含如下步骤：

(1)提取运动图像信息：

构建全卷积网络架构：包括输入层，卷积层1，卷积层2，卷积层3，卷积层4，卷积层5，卷积层6，卷积层7，卷积层8，卷积层9；输入层，卷积层1，卷积层2，卷积层3，卷积层4，卷积层5，卷积层6，卷积层7，卷积层8，卷积层9顺次连接；卷积层1的卷积核长宽以及卷积核个数分别为7,7,64；卷积层2的卷积核长宽以及卷积核个数分别为3,3,128；卷积层3的卷积核长宽以及卷积核个数分别为3,3,256；卷积层4的卷积核长宽以及卷积核个数分别为3,3,256；卷积层5的卷积核长宽以及卷积核个数分别为3,3,512；卷积层6的卷积核长宽以及卷积核个数分别为3,3,512；卷积层7的卷积核长宽以及卷积核个数分别为3,3,512；卷积层8的卷积核长宽以及卷积核个数分别为3,3,512；卷积层9的卷积核长宽以及卷积核个数分别为3,3,1024；卷积层1，卷积层2，卷积层3，卷积层4，卷积层5，卷积层6，卷积层7，卷积层8，卷积层9的步长分别设置为2，2，2，1，1，2，1，1，2；卷积层1，卷积层2，卷积层3，卷积层4，卷积层5，卷积层6，卷积层7，卷积层8，卷积层9的激活函数都是RELU函数；然后在输入层输入两幅通道数都为C的图像，从卷积层8输出光流_6，光流_6为预测光流；

(2)生成光流：

构建稠密光流生成模型：定义密集体1，密集体2，密集体3，密集体4，密集体5，每个密集体包含L个团块，每个团块包括batch normalization,卷积核大小为3*3的卷积层，dropout层3个部分；batch normalization的激活函数为RELU函数；如图4，团块内部的连接方式：batch normalization，卷积核大小为3*3的卷积层，dropout层顺次连接；在密集体内部，团块L-1，团块L-2，团块L-3，到团块1共L-1个团块的输出与团块L相连接；定义反卷积层1，反卷积层2，反卷积层3，反卷积层4，反卷积层5，反卷积层6；反卷积层1的卷积核长宽以及卷积核个数分别为3,3,512；反卷积层2的卷积核长宽以及卷积核个数分别为3,3,256；反卷积层3的卷积核长宽以及卷积核个数分别为3,3,128；反卷积层4的卷积核长宽以及卷积核个数分别为3,3,64；反卷积层5的卷积核长宽以及卷积核个数分别为3,3,32；反卷积层6的卷积核长宽以及卷积核个数分别为3,3,16；卷积层9，反卷积层1，密集体1，反卷积层2，密集体2，反卷积层3，密集体3，反卷积层4，密集体4，反卷积层5，密集体5，反卷积层6顺次连接；

光流_6输入反卷积层1，卷积层9将处理后的信息输入反卷积层1，反卷积层2输出光流_5，反卷积层3输出光流_4，反卷积层4输出光流_3，反卷积层5输出光流_2，反卷积层6输出光流_1；光流_2,光流_3,光流_4,光流_5,光流_6为不同分辨率下的预测光流值；光流_1为最终预测的光流值，与两幅通道数都为C的图像同分辨率；

(3)模型训练：

最终损失函数：

L_final＝λ₁L_epe+λ₂L_brightness+λ₃L_smoothness；

上式中，λ₁，λ₂和λ₃为3种约束的平衡因子；L_epe为端点误差损失函数，L_brightness为亮度恒常损失函数，L_smoothness为运动平滑损失函数。

端点误差损失函数L_epe：

上式中，W和H分别为两幅通道数都为C的图像的宽度和高度，u_i,j和v_i,j为预测的光流值，″u_i,j和v_i,j为对应的光流真值。

亮度恒常损失函数L_brightness：

上式中，x为两幅通道数都为C的图像的横坐标，y为两幅通道数都为C的图像的纵坐标，u水平方向的光流，v是竖直方向的光流，N为像素点个数，I_x为x方向的导数，I_y为y方向的导数，I_t为时间方向的导数；ρ_D为鲁棒惩罚函数，ρ_D＝(x²+ε²)^α。

运动平滑损失函数L_smoothness：

上式中，为光流水平方向的梯度值，为光流竖直方向的梯度值，ρ_S为鲁棒惩罚函数，ρ_S＝(x²+ε²)^α。

分别用最终损失函数作用于反卷积层1，反卷积层2，反卷积层3，反卷积层4，反卷积层5，反卷积层6进行训练；

(4)光流估计：

从全卷积网络架构的输入层输入图像对，输出最终预测的光流。

本发明的有益效果为：

本发明提出的一种基于卷积神经网络的稠密光流估计方法，能够有效地利用先验知识并通过训练得到可靠的网络模型，并且在先验知识的基础上，将传统框架中的约束项与神经网络相结合，模型能够实现从图像到稠密光流的映射。计算速度方面，由于模型可以预先训练，使得模型在运行阶段不需要繁杂的迭代计算，大大减少了计算时间。

附图说明

图1是一种基于卷积神经网络的稠密光流估计方法流程图；

图2是提取图像运动信息网络结构；

图3是稠密光流生成部分网络结构；

图4是密集体中的团块内部结构；

图5是密集体内部团块连接图。

具体实施方式

下面结合附图对本发明作进一步的描述。

如图1，一种基于卷积神经网络的稠密光流估计方法，包含如下步骤：

(1)提取运动图像信息：

构建全卷积网络架构，如图2，包括输入层，卷积层1，卷积层2，卷积层3，卷积层4，卷积层5，卷积层6，卷积层7，卷积层8，卷积层9。输入层，卷积层1，卷积层2，卷积层3，卷积层4，卷积层5，卷积层6，卷积层7，卷积层8，卷积层9顺次连接。卷积层1的卷积核长宽以及卷积核个数分别为7,7,64；卷积层2的卷积核长宽以及卷积核个数分别为3,3,128；卷积层3的卷积核长宽以及卷积核个数分别为3,3,256；卷积层4的卷积核长宽以及卷积核个数分别为3,3,256；卷积层5的卷积核长宽以及卷积核个数分别为3,3,512；卷积层6的卷积核长宽以及卷积核个数分别为3,3,512；卷积层7的卷积核长宽以及卷积核个数分别为3,3,512；卷积层8的卷积核长宽以及卷积核个数分别为3,3,512；卷积层9的卷积核长宽以及卷积核个数分别为3,3,1024；卷积层1，卷积层2，卷积层3，卷积层4，卷积层5，卷积层6，卷积层7，卷积层8，卷积层9的步长分别设置为2，2，2，1，1，2，1，1，2。卷积层1，卷积层2，卷积层3，卷积层4，卷积层5，卷积层6，卷积层7，卷积层8，卷积层9的激活函数都是RELU函数。然后在输入层输入两幅通道数都为C的图像，提取运动图像信息，卷积层8输出光流_6，光流_6为预测光流。

(2)生成光流

如图3，构建稠密光流生成模型：定义密集体1，密集体2，密集体3，密集体4，密集体5，每个密集体包含L个团块，每个团块包括batch normalization,卷积核大小为3*3的卷积层，dropout层3个部分。batch normalization的激活函数为RELU函数。如图4，团块内部的连接方式：batch normalization，卷积核大小为3*3的卷积层，dropout层顺次连接。在密集体内部，团块L-1，团块L-2，团块L-3，…，团块1的输出与团块L相连接，这样不仅增强了网络的监督特性，还能够将特征图复用。如图5，假如取L为5，那么团块间的连接方式如图5所示。定义反卷积层1，反卷积层2，反卷积层3，反卷积层4，反卷积层5，反卷积层6。反卷积层1的卷积核长宽以及卷积核个数分别为3,3,512；反卷积层2的卷积核长宽以及卷积核个数分别为3,3,256；反卷积层3的卷积核长宽以及卷积核个数分别为3,3,128；反卷积层4的卷积核长宽以及卷积核个数分别为3,3,64；反卷积层5的卷积核长宽以及卷积核个数分别为3,3,32；反卷积层6的卷积核长宽以及卷积核个数分别为3,3,16。卷积层9，反卷积层1，密集体1，反卷积层2，密集体2，反卷积层3，密集体3，反卷积层4，密集体4，反卷积层5，密集体5，反卷积层6顺次连接。光流_6输入反卷积层1，卷积层9将处理后的信息输入反卷积层1，反卷积层2输出光流_5，反卷积层3输出光流_4，反卷积层4输出光流_3，反卷积层5输出光流_2，反卷积层6输出光流_1。光流_2,光流_3,光流_4,光流_5,光流_6为不同分辨率下的预测光流值；光流_1为最终预测的光流值，与两幅通道数都为C的图像同分辨率。

(3)模型训练

定义端点误差损失函数L_epe：

上式中，W和H分别为两幅通道数都为C的图像的宽度和高度，u_i,j和v_i,j为预测的光流值，u′_i,j和v′_i,j为对应的光流真值。

反向传播误差过程中，令L_epe分别对u对v求导：

定义亮度恒常损失函数L_brightness：

上式中，x为两幅通道数都为C的图像的横坐标，y为两幅通道数都为C的图像的纵坐标，u水平方向的光流，v是竖直方向的光流，N为像素点个数，I_x为x方向的导数，I_y为y方向的导数，I_t为时间方向的导数。ρ_D为鲁棒惩罚函数，ρ_D＝(x²+ε²)^α。

令亮度恒常损失函数L_brightness分别对u对v求导

定义运动平滑损失函数L_smoothness：

令运动平滑损失函数分别对u对v求导

定义最终损失函数：

L_final＝λ₁L_epe+λ₂L_brightness+λ₃L_smoothness；

上式中，λ₁，λ₂和λ₃为3种约束的平衡因子。

(4)光流估计

需要特别指出的是，本发明中未作具体说明的部分，均为本领域技术人员所公知，查阅相关文献就可以知晓，因此未作具体描述。

Claims

1.一种基于卷积神经网络的稠密光流估计方法，其特征在于：包含如下步骤：

(1)提取运动图像信息：

(2)生成光流：

(3)模型训练：

(4)光流估计：

2.根据权利要求1所述的一种基于卷积神经网络的稠密光流估计方法，其特征在于：所述的最终损失函数：

L_final＝λ₁L_epe+λ₂L_brightness+λ₃L_smoothness；

3.根据权利要求2所述的一种基于卷积神经网络的稠密光流估计方法，其特征在于：所述的端点误差损失函数L_epe：

<mrow> <msub> <mi>L</mi> <mrow> <mi>e</mi> <mi>p</mi> <mi>e</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>W</mi> </munderover> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>H</mi> </munderover> <msqrt> <mrow> <msup> <mrow> <mo>(</mo> <msub> <mi>u</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msubsup> <mi>u</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>+</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>v</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> </msub> <mo>-</mo> <msubsup> <mi>v</mi> <mrow> <mi>i</mi> <mo>,</mo> <mi>j</mi> </mrow> <mo>&prime;</mo> </msubsup> <mo>)</mo> </mrow> <mn>2</mn> </msup> </mrow> </msqrt> <mo>;</mo> </mrow>

4.根据权利要求2所述的一种基于卷积神经网络的稠密光流估计方法，其特征在于：所述的亮度恒常损失函数L_brightness：

<mrow> <msub> <mi>L</mi> <mrow> <mi>b</mi> <mi>r</mi> <mi>i</mi> <mi>g</mi> <mi>h</mi> <mi>t</mi> <mi>n</mi> <mi>e</mi> <mi>s</mi> <mi>s</mi> </mrow> </msub> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>x</mi> <mo>,</mo> <mi>y</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>&rho;</mi> <mi>D</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>I</mi> <mi>x</mi> </msub> <mi>u</mi> <mo>+</mo> <msub> <mi>I</mi> <mi>y</mi> </msub> <mi>v</mi> <mo>+</mo> <msub> <mi>I</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>;</mo> </mrow>

5.根据权利要求2所述的一种基于卷积神经网络的稠密光流估计方法，其特征在于：所述的运动平滑损失函数L_smoothness：