CN108010061A

CN108010061A - 一种基于运动边界指导的深度学习光流估计方法

Info

Publication number: CN108010061A
Application number: CN201711378159.7A
Authority: CN
Inventors: 罗良华; 徐巧鸽; 肖玉虎
Original assignee: Hunan Daniel Intelligent Technology Co ltd
Current assignee: Hunan Daniel Intelligent Technology Co ltd
Priority date: 2017-12-19
Filing date: 2017-12-19
Publication date: 2018-05-08

Abstract

本发明公开一种基于运动边界指导的深度学习光流估计方法，属于图像处理领域。包括以下步骤：构建光流估计的深度学习数据集；构建基于运动边界指导的深度学习光流估计模型，该模型包括光流估计模块、运动边界估计模块、导向滤波权值生成模块和导向滤波模块；利用数据集对深度学习模型进行训练，得到训练完成的深度学习模型；直接将待估计光流的图像输入训练完成的深度学习模型，快速估计出光流。本发明的方法利用深度学习模型自动学习图像中运动边界图像和光流图像的图像特征，同时将运动边界估计和光流估计融合到一个整体框架中，利用运动边界估计结果指导对初始光流做导向滤波，可进一步提升光流估计的精度，并缩短光流估计所需的时间。

Description

一种基于运动边界指导的深度学习光流估计方法

技术领域

本发明涉及图像处理技术，具体指一种基于运动边界指导的深度学习光流估计方法。

背景技术

光流估计是计算机视觉领域的基本问题之一，是目前运动图像分析的重要方法，光流不仅包含了被观察物体的运动信息，而且还包含有关景物三维结构的丰富信息，在计算机视觉研究领域，光流在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。运动边界估计即确定光流结果中的不连续边界，是光流估计过程中的重要步骤。

现有光流估计方法的主要缺点在于，估计运动边界时多采用人工设计特征，鲁棒性差，运动边界估计精度低，从而影响光流估计精度，而且现有光流估计方法需要大量迭代运算，耗费大量计算资源和时间。因此，提出更加有效的光流估计方法，是图像处理领域急需解决的问题。

发明内容

本发明为克服上述情况不足，旨在提供一种基于运动边界指导的深度学习光流估计方法，利用深度网络从大量训练样本中自动学习提取运动边界，同时将运动边界估计和光流估计融合到一个整体框架中，利用运动边界估计结果，指导对初始光流做导向滤波，进一步提升光流估计的精度，以解决现有技术中需要人工提取运动边界图像特征，准确率低，鲁棒性差，耗时长的问题。

为解决上述技术问题，本发明提出的技术方案是：

一种基于运动边界指导的深度学习光流估计方法，其特征在于，包括以下步骤：

步骤一：构建光流估计的深度学习数据集；

所述步骤一中光流估计深度学习数据集中的样本数量不少于20000，其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的运动边界图像与光流图像。

步骤二：构建基于运动边界指导的深度学习光流估计模型，该模型包括光流估计模块、运动边界估计模块、导向滤波权值生成模块和导向滤波模块；

所述步骤二中基于运动边界指导的深度学习光流估计模型中每个模块的具体结构为：

(1)光流估计模块：采用encoder-decoder网络结构，包括10个卷积层和5个反卷积层，对输入的相邻视频帧图像I₀和I₁做光流估计，得到初始光流结果F₀，并对输入图像I₀按初始光流F₀做变换，得到变换误差E_w；

(2)运动边界估计模块：采用encoder-decoder网络结构，包括5个卷积层和5个反卷积层，以输入图像I₀和I₁、初始光流F₀和变换误差E_w为输入，获得运动边界B_m；

(3)导向滤波权值生成模块：包括3个卷积层，以运动边界B_m为输入，获得导向滤波权值W；

(4)导向滤波模块：包括1个导向滤波层，以初始光流F₀和导向滤波权值W为输入，对初始光流进行导向滤波，去除初始光流中的噪声，进一步加强边缘，得到最终的光流结果F₁。

步骤三：利用数据集对深度学习模型进行训练，得到训练完成的深度学习模型；

所述步骤三中训练深度学习模型使用Caffe框架。

步骤四：直接将待估计光流的图像输入训练完成的深度学习模型，快速估计出光流。

本发明有益效果：与现有技术中的光流估计方法相比，本发明的方法利用深度学习模型来自动学习运动边界图像和光流图像的图像特征，省略了人工提取运动边界图像特征的过程，能够充分挖掘输入图像中的多维特征，同时将运动边界估计和光流估计融合到一个整体框架中，利用运动边界估计结果，指导对初始光流做导向滤波，进一步提升光流估计的效率和准确率，而且大大缩短光流估计所需的计算时间。

附图说明

图1是本发明方法的流程图；

图2是光流估计的深度学习数据集示意图；

其中，(a)表示运动视频中两帧相邻图像的均值融合图像，(b)表示运动边界图像，(c)表示光流图像。

图3是基于运动边界指导的深度学习光流估计模型示意图；

图4是encoder-decoder网络结构示意图；

图5是运动视频中两帧相邻图像的均值融合图像；

图6是深度学习模型直接估计出的光流结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例提供的一种基于运动边界指导的深度学习光流估计方法，包括如下步骤：

步骤一：构建光流估计的深度学习数据集，数据集中样本数量为40000，其中每个样本包括运动视频中两帧相邻图像和这两帧图像所对应的运动边界图像与光流图像，如图2所示。

步骤二：构建基于运动边界指导的深度学习光流估计模型，该模型如图3所示，包括光流估计模块、运动边界估计模块、导向滤波权值生成模块和导向滤波模块，其中每个模块的具体结构为：

(1)光流估计模块：采用encoder-decoder网络结构，encoder-decoder网络结构示意图如图4所示(可根据具体情况适当添加层)，包括10个卷积层和5个反卷积层，其中10个卷积层的特征图数量分别为21、21、64、64、128、128、256、256、512、521，卷积核尺寸为3×3，5个反卷积层的特征图数量分别为256、128、128、64、21，卷积核尺寸为2×2，对输入的相邻视频帧图像I₀和I₁做光流估计，得到初始光流结果F₀，并对输入图像I₀按初始光流F₀做变换，得到变换误差E_w；

(2)运动边界估计模块：采用encoder-decoder网络结构，encoder-decoder网络结构示意图如图4所示(可根据具体情况适当添加层)，包括5个卷积层和5个反卷积层，其中5个卷积层的特征图数量分别为64、128、128、256、256，卷积核尺寸为3×3，5个反卷积层的特征图数量分别为256、256、128、128、64，卷积核尺寸为2×2，以输入图像I₀和I₁、初始光流F₀和变换误差E_w为输入，获得运动边界B_m；

(3)导向滤波权值生成模块：包括3个卷积层，这3个卷积层的特征图数量分别为128、64、21，卷积核为3×3，以运动边界B_m为输入，获得导向滤波权值W；

步骤三：利用数据集对深度学习模型进行训练，得到训练完成的深度学习模型，利用安装在Ubuntu系统上的Caffe环境训练该深度学习模型，采用ADAGRAD优化算法进行训练，初始学习率为0.01，训练次数为600000次，其中，在训练次数为300000、400000和500000时，学习率分别除以10，降低学习率。

步骤四：对于待进行光流估计的运动视频中两帧相邻的图像，如图5所示(为方便显示，图5为两帧图像的均值融合结果)，直接将这两帧图像输入训练完成的深度学习模型，可直接快速估计出所需的光流图像，如图6所示。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于运动边界指导的深度学习光流估计方法，其特征在于，包括以下步骤：

步骤一：构建光流估计的深度学习数据集；

2.根据权利要求1所述的基于运动边界指导的深度学习光流估计方法，其特征在于：所述步骤一中光流估计深度学习数据集中的样本数量不少于20000，其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的运动边界图像与光流图像。

3.根据权利要求1所述的基于运动边界指导的深度学习光流估计方法，其特征在于：所述步骤二中基于运动边界指导的深度学习光流估计模型中每个模块的具体结构为：

4.根据权利要求1所述的基于运动边界指导的深度学习光流估计方法，其特征在于：所述步骤三中训练深度学习模型使用Caffe框架。