CN108122249A - 一种基于gan网络深度学习模型的光流估计方法 - Google Patents
一种基于gan网络深度学习模型的光流估计方法 Download PDFInfo
- Publication number
- CN108122249A CN108122249A CN201711386897.6A CN201711386897A CN108122249A CN 108122249 A CN108122249 A CN 108122249A CN 201711386897 A CN201711386897 A CN 201711386897A CN 108122249 A CN108122249 A CN 108122249A
- Authority
- CN
- China
- Prior art keywords
- light stream
- deep learning
- estimation
- learning model
- gan network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明公开一种基于GAN网络深度学习模型的光流估计方法,属于图像处理领域。包括以下步骤:构建光流估计的深度学习数据集,构建GAN网络深度学习模型,该模型包括卷积模块,残差模块和反卷积模块,利用数据集对深度学习模型进行训练,得到训练完成的深度学习模型,直接将待估计光流的图像输入训练完成的深度学习模型,快速估计出光流图像。本发明的方法利用深度学习模型来自动学习光流图像的图像特征,进行端到端光流估计,无需估计运动边界进行辅助,而且所采用的GAN网络深度学习模型能够充分挖掘输入图像中的多维特征,可提升光流估计的效率和准确率。
Description
技术领域
本发明涉及图像处理技术,具体指一种基于GAN网络深度学习模型的光流估计方法。
背景技术
光流估计是计算机视觉领域的基本问题之一,是目前运动图像分析的重要方法,光流不仅包含了被观察物体的运动信息,而且还包含有关景物三维结构的丰富信息,在计算机视觉研究领域,光流在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。
现有光流估计方法的主要缺点在于,估计光流时一般需要首先估计运动边界进行辅助,而估计运动边界时多采用人工设计特征,鲁棒性差,运动边界估计精度低,从而影响光流估计精度,而且现有光流估计方法需要大量迭代运算,耗费大量计算资源和时间。因此,提出更加有效的光流估计方法,是图像处理领域急需解决的问题。
发明内容
本发明为克服上述情况不足,旨在提供一种基于GAN(Generative AdversarialNets)网络深度学习模型的端到端光流估计方法,利用深度网络从大量训练样本中自动学习提取光流图像,以解决现有技术中需要估计运动边界进行辅助,而且需要人工提取运动边界图像特征,准确率低,鲁棒性差,耗时长的问题。
为解决上述技术问题,本发明提出的技术方案是:
一种基于GAN网络深度学习模型的端到端光流估计方法,其特征在于,包括以下步骤:
步骤1:构建光流估计的深度学习数据集;
所述光流估计深度学习数据集中的样本数量不少于20000,其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的光流图像。
步骤2:构建GAN网络深度学习模型,该模型包括卷积模块,残差模块和反卷积模块;
所述卷积模块包括4个卷积层,残差模块包括5个子网络,其中每个子网络包括1个卷积层,1个归一化层和1个ReLU激活层,反卷积模块包括4个反卷积层,反卷积模块中每个反卷积层在作反卷积时调用对应卷积层的图像特征,上一层的输出结果作为下一层的输入。
步骤3:利用数据集对深度学习模型进行训练,得到训练完成的深度学习模型;
所述步骤三中训练深度学习模型使用Caffe框架。
步骤4:直接将待估计光流的图像输入训练完成的深度学习模型,快速估计出光流图像。
本发明有益效果:与现有技术中的光流估计方法相比,本发明的方法利用深度学习模型来自动学习光流图像的图像特征,进行端到端光流估计,无需估计运动边界进行辅助,而且所采用的GAN网络深度学习模型能够充分挖掘输入图像中的多维特征,可提升光流估计的效率和准确率。
附图说明
图1是本发明方法的流程图;
图2是光流估计的深度学习数据集示意图;
其中,(a)表示运动视频中两帧相邻图像的均值融合图像,(b)表示光流图像。
图3是GAN网络深度学习模型示意图;
图4是GAN网络深度学习模型的残差模块中每个子网络结构示意图;
图5是运动视频中两帧相邻图像的均值融合图像;
图6是深度学习模型直接估计出的光流结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供的一种基于GAN网络深度学习模型的光流估计方法,包括如下步骤:
步骤1:构建光流估计的深度学习数据集,数据集中样本数量为40000,其中每个样本包括运动视频中两帧相邻图像和这两帧图像所对应的光流图像,如图2所示。
步骤2:构建GAN网络深度学习模型,如图3所示,该模型包括卷积模块,残差模块和反卷积模块,卷积模块包括4个卷积层,这4个卷积层的特征图数量分别为64、128、256、512,残差模块包括5个子网络,其中每个子网络的结构如图4所示,包括1个卷积层,1个归一化层和1个ReLU激活层,5个子网络中每个卷积层的特征图数量都为128,反卷积模块包括4个反卷积层,这4个反卷积层的特征图数量分别为512、256、128、64,反卷积模块中每个反卷积层在作反卷积时调用对应卷积层的图像特征,上一层的输出结果作为下一层的输入。
步骤3:利用数据集对深度学习模型进行训练,得到训练完成的深度学习模型,利用安装在Ubuntu系统上的Caffe环境训练该深度学习模型,采用ADAGRAD优化算法进行训练,初始学习率为0.01,训练次数为600000次,其中,在训练次数为300000、400000和500000时,学习率分别除以10,降低学习率。
步骤4:对于待进行光流估计的运动视频中两帧相邻的图像,如图5所示(为方便显示,图5为两帧图像的均值融合结果),直接将这两帧图像输入训练完成的深度学习模型,可直接快速估计出所需的光流图像,如图6所示。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (4)
1.一种基于GAN网络深度学习模型的光流估计方法,其特征在于,包括以下步骤:
步骤1:构建光流估计的深度学习数据集;
步骤2:构建GAN网络深度学习模型,该模型包括卷积模块,残差模块和反卷积模块;
步骤3:利用数据集对深度学习模型进行训练,得到训练完成的深度学习模型;
步骤4:直接将待估计光流的图像输入训练完成的深度学习模型,快速估计出光流图像。
2.根据权利要求1所述的基于GAN网络深度学习模型的光流估计方法,其特征在于:所述步骤1中光流估计深度学习数据集中的样本数量不少于20000,其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的光流图像。
3.根据权利要求1所述的基于GAN网络深度学习模型的光流估计方法,其特征在于:所述步骤2中的卷积模块包括4个卷积层,残差模块包括5个子网络,其中每个子网络包括1个卷积层,1个归一化层和1个ReLU激活层,反卷积模块包括4个反卷积层,反卷积模块中每个反卷积层在作反卷积时调用对应卷积层的图像特征,上一层的输出结果作为下一层的输入。
4.根据权利要求1所述的基于GAN网络深度学习模型的光流估计方法,其特征在于:所述步骤3中训练深度学习模型使用Caffe框架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711386897.6A CN108122249A (zh) | 2017-12-20 | 2017-12-20 | 一种基于gan网络深度学习模型的光流估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711386897.6A CN108122249A (zh) | 2017-12-20 | 2017-12-20 | 一种基于gan网络深度学习模型的光流估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108122249A true CN108122249A (zh) | 2018-06-05 |
Family
ID=62230672
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711386897.6A Pending CN108122249A (zh) | 2017-12-20 | 2017-12-20 | 一种基于gan网络深度学习模型的光流估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108122249A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003297A (zh) * | 2018-07-18 | 2018-12-14 | 亮风台(上海)信息科技有限公司 | 一种单目深度估计方法、装置、终端和存储介质 |
CN109361934A (zh) * | 2018-11-30 | 2019-02-19 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN113837968A (zh) * | 2021-09-29 | 2021-12-24 | 北京地平线信息技术有限公司 | 人脸光流估计网络的训练以及人脸光流估计方法和装置 |
US11967132B2 (en) | 2020-12-16 | 2024-04-23 | Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. | Lane marking detecting method, apparatus, electronic device, storage medium, and vehicle |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150116597A1 (en) * | 2013-10-31 | 2015-04-30 | Nec Laboratories America, Inc. | Trajectory Features and Distance Metrics for Hierarchical Video Segmentation |
CN106407889A (zh) * | 2016-08-26 | 2017-02-15 | 上海交通大学 | 基于光流图深度学习模型在视频中人体交互动作识别方法 |
CN106503799A (zh) * | 2016-10-11 | 2017-03-15 | 天津大学 | 基于多尺度网络的深度学习模型及在脑状态监测中的应用 |
CN106658023A (zh) * | 2016-12-21 | 2017-05-10 | 山东大学 | 一种基于深度学习的端到端视觉里程计及方法 |
CN106683048A (zh) * | 2016-11-30 | 2017-05-17 | 浙江宇视科技有限公司 | 一种图像超分辨率方法及设备 |
-
2017
- 2017-12-20 CN CN201711386897.6A patent/CN108122249A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150116597A1 (en) * | 2013-10-31 | 2015-04-30 | Nec Laboratories America, Inc. | Trajectory Features and Distance Metrics for Hierarchical Video Segmentation |
CN106407889A (zh) * | 2016-08-26 | 2017-02-15 | 上海交通大学 | 基于光流图深度学习模型在视频中人体交互动作识别方法 |
CN106503799A (zh) * | 2016-10-11 | 2017-03-15 | 天津大学 | 基于多尺度网络的深度学习模型及在脑状态监测中的应用 |
CN106683048A (zh) * | 2016-11-30 | 2017-05-17 | 浙江宇视科技有限公司 | 一种图像超分辨率方法及设备 |
CN106658023A (zh) * | 2016-12-21 | 2017-05-10 | 山东大学 | 一种基于深度学习的端到端视觉里程计及方法 |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109003297A (zh) * | 2018-07-18 | 2018-12-14 | 亮风台(上海)信息科技有限公司 | 一种单目深度估计方法、装置、终端和存储介质 |
CN109003297B (zh) * | 2018-07-18 | 2020-11-24 | 亮风台(上海)信息科技有限公司 | 一种单目深度估计方法、装置、终端和存储介质 |
CN109361934A (zh) * | 2018-11-30 | 2019-02-19 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
CN109361934B (zh) * | 2018-11-30 | 2021-10-08 | 腾讯科技(深圳)有限公司 | 图像处理方法、装置、设备及存储介质 |
US11798145B2 (en) | 2018-11-30 | 2023-10-24 | Tencent Technology (Shenzhen) Company Limited | Image processing method and apparatus, device, and storage medium |
US11967132B2 (en) | 2020-12-16 | 2024-04-23 | Apollo Intelligent Connectivity (Beijing) Technology Co., Ltd. | Lane marking detecting method, apparatus, electronic device, storage medium, and vehicle |
CN113837968A (zh) * | 2021-09-29 | 2021-12-24 | 北京地平线信息技术有限公司 | 人脸光流估计网络的训练以及人脸光流估计方法和装置 |
CN113837968B (zh) * | 2021-09-29 | 2024-01-23 | 北京地平线信息技术有限公司 | 人脸光流估计网络的训练以及人脸光流估计方法和装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Valentin et al. | Depth from motion for smartphone AR | |
CN107578436B (zh) | 一种基于全卷积神经网络fcn的单目图像深度估计方法 | |
CN110969589B (zh) | 基于多流注意对抗网络的动态场景模糊图像盲复原方法 | |
CN108520554B (zh) | 一种基于orb-slam2的双目三维稠密建图方法 | |
CN108122249A (zh) | 一种基于gan网络深度学习模型的光流估计方法 | |
US20200234397A1 (en) | Automatic view mapping for single-image and multi-view captures | |
CN111091091A (zh) | 目标对象重识别特征的提取方法、装置、设备及存储介质 | |
US11367195B2 (en) | Image segmentation method, image segmentation apparatus, image segmentation device | |
EP3847619B1 (en) | Unsupervised depth prediction neural networks | |
CN112418288B (zh) | 一种基于gms和运动检测的动态视觉slam方法 | |
CA2613116A1 (en) | Video object cut and paste | |
CN103729860B (zh) | 一种图像目标跟踪的方法和装置 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN110706269B (zh) | 一种基于双目视觉slam的动态场景密集建模方法 | |
CN108124489B (zh) | 信息处理方法、装置、云处理设备以及计算机程序产品 | |
CN106997478B (zh) | 基于显著中心先验的rgb-d图像显著目标检测方法 | |
CN105141807A (zh) | 视频信号图像处理方法和装置 | |
CN110866936A (zh) | 视频标注方法、跟踪方法、装置、计算机设备及存储介质 | |
CN112330589A (zh) | 估计位姿的方法、装置及计算机可读存储介质 | |
CN107909602A (zh) | 一种基于深度学习的运动边界估计方法 | |
CN110298281A (zh) | 视频结构化方法、装置、电子设备及存储介质 | |
CN104778736A (zh) | 单视频内容驱动的服装三维动画生成方法 | |
CN108010061A (zh) | 一种基于运动边界指导的深度学习光流估计方法 | |
CN107295296A (zh) | 一种监控视频选择性存储与恢复方法及系统 | |
CN104700384B (zh) | 基于增强现实技术的展示系统及展示方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180605 |
|
WD01 | Invention patent application deemed withdrawn after publication |