CN108122249A

CN108122249A - 一种基于gan网络深度学习模型的光流估计方法

Info

Publication number: CN108122249A
Application number: CN201711386897.6A
Authority: CN
Inventors: 张智福; 余思洋; 陈捷; 郭玉其
Original assignee: Panodux Imaging Technology Co ltd
Current assignee: Panodux Imaging Technology Co ltd
Priority date: 2017-12-20
Filing date: 2017-12-20
Publication date: 2018-06-05

Abstract

本发明公开一种基于GAN网络深度学习模型的光流估计方法，属于图像处理领域。包括以下步骤：构建光流估计的深度学习数据集，构建GAN网络深度学习模型，该模型包括卷积模块，残差模块和反卷积模块，利用数据集对深度学习模型进行训练，得到训练完成的深度学习模型，直接将待估计光流的图像输入训练完成的深度学习模型，快速估计出光流图像。本发明的方法利用深度学习模型来自动学习光流图像的图像特征，进行端到端光流估计，无需估计运动边界进行辅助，而且所采用的GAN网络深度学习模型能够充分挖掘输入图像中的多维特征，可提升光流估计的效率和准确率。

Description

一种基于GAN网络深度学习模型的光流估计方法

技术领域

本发明涉及图像处理技术，具体指一种基于GAN网络深度学习模型的光流估计方法。

背景技术

光流估计是计算机视觉领域的基本问题之一，是目前运动图像分析的重要方法，光流不仅包含了被观察物体的运动信息，而且还包含有关景物三维结构的丰富信息，在计算机视觉研究领域，光流在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。

现有光流估计方法的主要缺点在于，估计光流时一般需要首先估计运动边界进行辅助，而估计运动边界时多采用人工设计特征，鲁棒性差，运动边界估计精度低，从而影响光流估计精度，而且现有光流估计方法需要大量迭代运算，耗费大量计算资源和时间。因此，提出更加有效的光流估计方法，是图像处理领域急需解决的问题。

发明内容

本发明为克服上述情况不足，旨在提供一种基于GAN(Generative AdversarialNets)网络深度学习模型的端到端光流估计方法，利用深度网络从大量训练样本中自动学习提取光流图像，以解决现有技术中需要估计运动边界进行辅助，而且需要人工提取运动边界图像特征，准确率低，鲁棒性差，耗时长的问题。

为解决上述技术问题，本发明提出的技术方案是：

一种基于GAN网络深度学习模型的端到端光流估计方法，其特征在于，包括以下步骤：

步骤1：构建光流估计的深度学习数据集；

所述光流估计深度学习数据集中的样本数量不少于20000，其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的光流图像。

步骤2：构建GAN网络深度学习模型，该模型包括卷积模块，残差模块和反卷积模块；

所述卷积模块包括4个卷积层，残差模块包括5个子网络，其中每个子网络包括1个卷积层，1个归一化层和1个ReLU激活层，反卷积模块包括4个反卷积层，反卷积模块中每个反卷积层在作反卷积时调用对应卷积层的图像特征，上一层的输出结果作为下一层的输入。

步骤3：利用数据集对深度学习模型进行训练，得到训练完成的深度学习模型；

所述步骤三中训练深度学习模型使用Caffe框架。

步骤4：直接将待估计光流的图像输入训练完成的深度学习模型，快速估计出光流图像。

本发明有益效果：与现有技术中的光流估计方法相比，本发明的方法利用深度学习模型来自动学习光流图像的图像特征，进行端到端光流估计，无需估计运动边界进行辅助，而且所采用的GAN网络深度学习模型能够充分挖掘输入图像中的多维特征，可提升光流估计的效率和准确率。

附图说明

图1是本发明方法的流程图；

图2是光流估计的深度学习数据集示意图；

其中，(a)表示运动视频中两帧相邻图像的均值融合图像，(b)表示光流图像。

图3是GAN网络深度学习模型示意图；

图4是GAN网络深度学习模型的残差模块中每个子网络结构示意图；

图5是运动视频中两帧相邻图像的均值融合图像；

图6是深度学习模型直接估计出的光流结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例提供的一种基于GAN网络深度学习模型的光流估计方法，包括如下步骤：

步骤1：构建光流估计的深度学习数据集，数据集中样本数量为40000，其中每个样本包括运动视频中两帧相邻图像和这两帧图像所对应的光流图像，如图2所示。

步骤2：构建GAN网络深度学习模型，如图3所示，该模型包括卷积模块，残差模块和反卷积模块，卷积模块包括4个卷积层，这4个卷积层的特征图数量分别为64、128、256、512，残差模块包括5个子网络，其中每个子网络的结构如图4所示，包括1个卷积层，1个归一化层和1个ReLU激活层，5个子网络中每个卷积层的特征图数量都为128，反卷积模块包括4个反卷积层，这4个反卷积层的特征图数量分别为512、256、128、64，反卷积模块中每个反卷积层在作反卷积时调用对应卷积层的图像特征，上一层的输出结果作为下一层的输入。

步骤3：利用数据集对深度学习模型进行训练，得到训练完成的深度学习模型，利用安装在Ubuntu系统上的Caffe环境训练该深度学习模型，采用ADAGRAD优化算法进行训练，初始学习率为0.01，训练次数为600000次，其中，在训练次数为300000、400000和500000时，学习率分别除以10，降低学习率。

步骤4：对于待进行光流估计的运动视频中两帧相邻的图像，如图5所示(为方便显示，图5为两帧图像的均值融合结果)，直接将这两帧图像输入训练完成的深度学习模型，可直接快速估计出所需的光流图像，如图6所示。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.一种基于GAN网络深度学习模型的光流估计方法，其特征在于，包括以下步骤：

步骤1：构建光流估计的深度学习数据集；

2.根据权利要求1所述的基于GAN网络深度学习模型的光流估计方法，其特征在于：所述步骤1中光流估计深度学习数据集中的样本数量不少于20000，其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的光流图像。

3.根据权利要求1所述的基于GAN网络深度学习模型的光流估计方法，其特征在于：所述步骤2中的卷积模块包括4个卷积层，残差模块包括5个子网络，其中每个子网络包括1个卷积层，1个归一化层和1个ReLU激活层，反卷积模块包括4个反卷积层，反卷积模块中每个反卷积层在作反卷积时调用对应卷积层的图像特征，上一层的输出结果作为下一层的输入。

4.根据权利要求1所述的基于GAN网络深度学习模型的光流估计方法，其特征在于：所述步骤3中训练深度学习模型使用Caffe框架。