CN108010061A - 一种基于运动边界指导的深度学习光流估计方法 - Google Patents
一种基于运动边界指导的深度学习光流估计方法 Download PDFInfo
- Publication number
- CN108010061A CN108010061A CN201711378159.7A CN201711378159A CN108010061A CN 108010061 A CN108010061 A CN 108010061A CN 201711378159 A CN201711378159 A CN 201711378159A CN 108010061 A CN108010061 A CN 108010061A
- Authority
- CN
- China
- Prior art keywords
- light stream
- deep learning
- estimation
- moving boundaries
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
- G06T7/251—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments involving models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20212—Image combination
- G06T2207/20221—Image fusion; Image merging
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Image Processing (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于运动边界指导的深度学习光流估计方法,属于图像处理领域。包括以下步骤:构建光流估计的深度学习数据集;构建基于运动边界指导的深度学习光流估计模型,该模型包括光流估计模块、运动边界估计模块、导向滤波权值生成模块和导向滤波模块;利用数据集对深度学习模型进行训练,得到训练完成的深度学习模型;直接将待估计光流的图像输入训练完成的深度学习模型,快速估计出光流。本发明的方法利用深度学习模型自动学习图像中运动边界图像和光流图像的图像特征,同时将运动边界估计和光流估计融合到一个整体框架中,利用运动边界估计结果指导对初始光流做导向滤波,可进一步提升光流估计的精度,并缩短光流估计所需的时间。
Description
技术领域
本发明涉及图像处理技术,具体指一种基于运动边界指导的深度学习光流估计方法。
背景技术
光流估计是计算机视觉领域的基本问题之一,是目前运动图像分析的重要方法,光流不仅包含了被观察物体的运动信息,而且还包含有关景物三维结构的丰富信息,在计算机视觉研究领域,光流在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。运动边界估计即确定光流结果中的不连续边界,是光流估计过程中的重要步骤。
现有光流估计方法的主要缺点在于,估计运动边界时多采用人工设计特征,鲁棒性差,运动边界估计精度低,从而影响光流估计精度,而且现有光流估计方法需要大量迭代运算,耗费大量计算资源和时间。因此,提出更加有效的光流估计方法,是图像处理领域急需解决的问题。
发明内容
本发明为克服上述情况不足,旨在提供一种基于运动边界指导的深度学习光流估计方法,利用深度网络从大量训练样本中自动学习提取运动边界,同时将运动边界估计和光流估计融合到一个整体框架中,利用运动边界估计结果,指导对初始光流做导向滤波,进一步提升光流估计的精度,以解决现有技术中需要人工提取运动边界图像特征,准确率低,鲁棒性差,耗时长的问题。
为解决上述技术问题,本发明提出的技术方案是:
一种基于运动边界指导的深度学习光流估计方法,其特征在于,包括以下步骤:
步骤一:构建光流估计的深度学习数据集;
所述步骤一中光流估计深度学习数据集中的样本数量不少于20000,其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的运动边界图像与光流图像。
步骤二:构建基于运动边界指导的深度学习光流估计模型,该模型包括光流估计模块、运动边界估计模块、导向滤波权值生成模块和导向滤波模块;
所述步骤二中基于运动边界指导的深度学习光流估计模型中每个模块的具体结构为:
(1)光流估计模块:采用encoder-decoder网络结构,包括10个卷积层和5个反卷积层,对输入的相邻视频帧图像I0和I1做光流估计,得到初始光流结果F0,并对输入图像I0按初始光流F0做变换,得到变换误差Ew;
(2)运动边界估计模块:采用encoder-decoder网络结构,包括5个卷积层和5个反卷积层,以输入图像I0和I1、初始光流F0和变换误差Ew为输入,获得运动边界Bm;
(3)导向滤波权值生成模块:包括3个卷积层,以运动边界Bm为输入,获得导向滤波权值W;
(4)导向滤波模块:包括1个导向滤波层,以初始光流F0和导向滤波权值W为输入,对初始光流进行导向滤波,去除初始光流中的噪声,进一步加强边缘,得到最终的光流结果F1。
步骤三:利用数据集对深度学习模型进行训练,得到训练完成的深度学习模型;
所述步骤三中训练深度学习模型使用Caffe框架。
步骤四:直接将待估计光流的图像输入训练完成的深度学习模型,快速估计出光流。
本发明有益效果:与现有技术中的光流估计方法相比,本发明的方法利用深度学习模型来自动学习运动边界图像和光流图像的图像特征,省略了人工提取运动边界图像特征的过程,能够充分挖掘输入图像中的多维特征,同时将运动边界估计和光流估计融合到一个整体框架中,利用运动边界估计结果,指导对初始光流做导向滤波,进一步提升光流估计的效率和准确率,而且大大缩短光流估计所需的计算时间。
附图说明
图1是本发明方法的流程图;
图2是光流估计的深度学习数据集示意图;
其中,(a)表示运动视频中两帧相邻图像的均值融合图像,(b)表示运动边界图像,(c)表示光流图像。
图3是基于运动边界指导的深度学习光流估计模型示意图;
图4是encoder-decoder网络结构示意图;
图5是运动视频中两帧相邻图像的均值融合图像;
图6是深度学习模型直接估计出的光流结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供的一种基于运动边界指导的深度学习光流估计方法,包括如下步骤:
步骤一:构建光流估计的深度学习数据集,数据集中样本数量为40000,其中每个样本包括运动视频中两帧相邻图像和这两帧图像所对应的运动边界图像与光流图像,如图2所示。
步骤二:构建基于运动边界指导的深度学习光流估计模型,该模型如图3所示,包括光流估计模块、运动边界估计模块、导向滤波权值生成模块和导向滤波模块,其中每个模块的具体结构为:
(1)光流估计模块:采用encoder-decoder网络结构,encoder-decoder网络结构示意图如图4所示(可根据具体情况适当添加层),包括10个卷积层和5个反卷积层,其中10个卷积层的特征图数量分别为21、21、64、64、128、128、256、256、512、521,卷积核尺寸为3×3,5个反卷积层的特征图数量分别为256、128、128、64、21,卷积核尺寸为2×2,对输入的相邻视频帧图像I0和I1做光流估计,得到初始光流结果F0,并对输入图像I0按初始光流F0做变换,得到变换误差Ew;
(2)运动边界估计模块:采用encoder-decoder网络结构,encoder-decoder网络结构示意图如图4所示(可根据具体情况适当添加层),包括5个卷积层和5个反卷积层,其中5个卷积层的特征图数量分别为64、128、128、256、256,卷积核尺寸为3×3,5个反卷积层的特征图数量分别为256、256、128、128、64,卷积核尺寸为2×2,以输入图像I0和I1、初始光流F0和变换误差Ew为输入,获得运动边界Bm;
(3)导向滤波权值生成模块:包括3个卷积层,这3个卷积层的特征图数量分别为128、64、21,卷积核为3×3,以运动边界Bm为输入,获得导向滤波权值W;
(4)导向滤波模块:包括1个导向滤波层,以初始光流F0和导向滤波权值W为输入,对初始光流进行导向滤波,去除初始光流中的噪声,进一步加强边缘,得到最终的光流结果F1。
步骤三:利用数据集对深度学习模型进行训练,得到训练完成的深度学习模型,利用安装在Ubuntu系统上的Caffe环境训练该深度学习模型,采用ADAGRAD优化算法进行训练,初始学习率为0.01,训练次数为600000次,其中,在训练次数为300000、400000和500000时,学习率分别除以10,降低学习率。
步骤四:对于待进行光流估计的运动视频中两帧相邻的图像,如图5所示(为方便显示,图5为两帧图像的均值融合结果),直接将这两帧图像输入训练完成的深度学习模型,可直接快速估计出所需的光流图像,如图6所示。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (4)
1.一种基于运动边界指导的深度学习光流估计方法,其特征在于,包括以下步骤:
步骤一:构建光流估计的深度学习数据集;
步骤二:构建基于运动边界指导的深度学习光流估计模型,该模型包括光流估计模块、运动边界估计模块、导向滤波权值生成模块和导向滤波模块;
步骤三:利用数据集对深度学习模型进行训练,得到训练完成的深度学习模型;
步骤四:直接将待估计光流的图像输入训练完成的深度学习模型,快速估计出光流。
2.根据权利要求1所述的基于运动边界指导的深度学习光流估计方法,其特征在于:所述步骤一中光流估计深度学习数据集中的样本数量不少于20000,其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的运动边界图像与光流图像。
3.根据权利要求1所述的基于运动边界指导的深度学习光流估计方法,其特征在于:所述步骤二中基于运动边界指导的深度学习光流估计模型中每个模块的具体结构为:
(1)光流估计模块:采用encoder-decoder网络结构,包括10个卷积层和5个反卷积层,对输入的相邻视频帧图像I0和I1做光流估计,得到初始光流结果F0,并对输入图像I0按初始光流F0做变换,得到变换误差Ew;
(2)运动边界估计模块:采用encoder-decoder网络结构,包括5个卷积层和5个反卷积层,以输入图像I0和I1、初始光流F0和变换误差Ew为输入,获得运动边界Bm;
(3)导向滤波权值生成模块:包括3个卷积层,以运动边界Bm为输入,获得导向滤波权值W;
(4)导向滤波模块:包括1个导向滤波层,以初始光流F0和导向滤波权值W为输入,对初始光流进行导向滤波,去除初始光流中的噪声,进一步加强边缘,得到最终的光流结果F1。
4.根据权利要求1所述的基于运动边界指导的深度学习光流估计方法,其特征在于:所述步骤三中训练深度学习模型使用Caffe框架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711378159.7A CN108010061A (zh) | 2017-12-19 | 2017-12-19 | 一种基于运动边界指导的深度学习光流估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711378159.7A CN108010061A (zh) | 2017-12-19 | 2017-12-19 | 一种基于运动边界指导的深度学习光流估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108010061A true CN108010061A (zh) | 2018-05-08 |
Family
ID=62059853
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711378159.7A Pending CN108010061A (zh) | 2017-12-19 | 2017-12-19 | 一种基于运动边界指导的深度学习光流估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108010061A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285182A (zh) * | 2018-09-29 | 2019-01-29 | 北京三快在线科技有限公司 | 模型生成方法、装置、电子设备和计算机可读存储介质 |
CN112465872A (zh) * | 2020-12-10 | 2021-03-09 | 南昌航空大学 | 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法 |
CN112991398A (zh) * | 2021-04-20 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于协同深度神经网络的运动边界指导的光流滤波方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102014281A (zh) * | 2009-09-04 | 2011-04-13 | 夏普株式会社 | 具有非线性运动场平滑的运动估计的方法和系统 |
CN107220616A (zh) * | 2017-05-25 | 2017-09-29 | 北京大学 | 一种基于自适应权重的双路协同学习的视频分类方法 |
EP3249610A1 (en) * | 2016-05-26 | 2017-11-29 | Nokia Technologies Oy | A method, an apparatus and a computer program product for video object segmentation |
-
2017
- 2017-12-19 CN CN201711378159.7A patent/CN108010061A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102014281A (zh) * | 2009-09-04 | 2011-04-13 | 夏普株式会社 | 具有非线性运动场平滑的运动估计的方法和系统 |
EP3249610A1 (en) * | 2016-05-26 | 2017-11-29 | Nokia Technologies Oy | A method, an apparatus and a computer program product for video object segmentation |
CN107220616A (zh) * | 2017-05-25 | 2017-09-29 | 北京大学 | 一种基于自适应权重的双路协同学习的视频分类方法 |
Non-Patent Citations (5)
Title |
---|
EDDY ILG等: ""FlowNet 2.0: Evolution of Optical Flow Estimation with Deep Networks"", 《2017 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
MAHMUDUL HASAN等: ""Learning Temporal Regularity in Video Sequences"", 《2016 IEEE CONFERENCE ON COMPUTER VISION AND PATTERN RECOGNITION (CVPR)》 * |
ROBAIL YASRAB等: ""SCNet: A simplified encoder-decoder CNN for semantic segmentation"", 《2016 5TH INTERNATIONAL CONFERENCE ON COMPUTER SCIENCE AND NETWORK TECHNOLOGY (ICCSNT)》 * |
YU-HUI HUANG等: ""Do Motion Boundaries Improve Semantic Segmentation?"", 《ECCV2016》 * |
朱新建等: ""基于光流法和运动边界识别的超声弹性成像"", 《清华大学学报(自然科学版)》 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109285182A (zh) * | 2018-09-29 | 2019-01-29 | 北京三快在线科技有限公司 | 模型生成方法、装置、电子设备和计算机可读存储介质 |
CN112465872A (zh) * | 2020-12-10 | 2021-03-09 | 南昌航空大学 | 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法 |
CN112991398A (zh) * | 2021-04-20 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于协同深度神经网络的运动边界指导的光流滤波方法 |
CN112991398B (zh) * | 2021-04-20 | 2022-02-11 | 中国人民解放军国防科技大学 | 基于协同深度神经网络的运动边界指导的光流滤波方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110108258B (zh) | 一种单目视觉里程计定位方法 | |
CN109479098A (zh) | 多视图场景分割和传播 | |
CN103544685B (zh) | 一种基于主体调整的图像构图美化方法及系统 | |
CN110706269B (zh) | 一种基于双目视觉slam的动态场景密集建模方法 | |
CN103729860B (zh) | 一种图像目标跟踪的方法和装置 | |
CN110570435B (zh) | 用于对车辆损伤图像进行损伤分割的方法及装置 | |
CN106251365A (zh) | 多曝光视频融合方法及装置 | |
CN106056607A (zh) | 一种基于鲁棒主成分分析的监控图像背景建模方法 | |
CN108122249A (zh) | 一种基于gan网络深度学习模型的光流估计方法 | |
CN108010061A (zh) | 一种基于运动边界指导的深度学习光流估计方法 | |
CN107833186A (zh) | 一种基于Encoder‑Decoder深度学习模型的单透镜空间变化图像复原方法 | |
CN102982524B (zh) | 玉米果穗有序图像的拼接方法 | |
CN107527358A (zh) | 一种稠密光流估计方法及装置 | |
CN107909602A (zh) | 一种基于深度学习的运动边界估计方法 | |
CN108377374A (zh) | 用于产生与图像相关的深度信息的方法和系统 | |
CN112330589A (zh) | 估计位姿的方法、装置及计算机可读存储介质 | |
CN110009675A (zh) | 生成视差图的方法、装置、介质及设备 | |
CN107948586A (zh) | 基于视频拼接的跨区域运动目标检测方法和装置 | |
CN106384338B (zh) | 一种基于形态学的光场深度图像的增强方法 | |
CN110189390A (zh) | 一种单目视觉slam方法及系统 | |
CN109523558A (zh) | 一种人像分割方法及系统 | |
CN104778750A (zh) | 一种面部表情捕捉系统及实现方法 | |
CN113284184A (zh) | 面向机器人rgbd视觉感知的6d位姿估计方法及系统 | |
CN108053376A (zh) | 一种语义分割信息指导深度学习鱼眼图像校正方法 | |
CN102724530B (zh) | 基于反馈控制的平面视频立体化方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |