CN107909602A - 一种基于深度学习的运动边界估计方法 - Google Patents
一种基于深度学习的运动边界估计方法 Download PDFInfo
- Publication number
- CN107909602A CN107909602A CN201711294387.6A CN201711294387A CN107909602A CN 107909602 A CN107909602 A CN 107909602A CN 201711294387 A CN201711294387 A CN 201711294387A CN 107909602 A CN107909602 A CN 107909602A
- Authority
- CN
- China
- Prior art keywords
- deep learning
- moving boundaries
- image
- estimation
- learning model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Image Analysis (AREA)
Abstract
本发明公开一种基于深度学习的运动边界估计方法,构建运动边界估计的数据集和用于运动边界估计的深度学习模型,深度学习模型包括编码部分和解码部分,使用Caffe框架训练该深度学习模型,利用训练好的深度学习模型,直接输入运动视频中两帧相邻的图像即可快速直接得到所需要的运动边界图像。本发明方法利用深度学习模型自动学习图像中运动边界的图像特征,并利用所学到的图像特征自动进行端到端的运动边界估计,省略了复杂的人工提取图像特征过程,而且可以提高运动边界估计的效率和准确率。
Description
技术领域
本发明涉及图像处理技术,具体指一种基于深度学习的运动边界估计方法。
背景技术
光流估计是计算机视觉领域的基本问题之一,是目前运动图像分析的重要方法,光流不仅包含了被观察物体的运动信息,而且还包含有关景物三维结构的丰富信息,在计算机视觉研究领域,光流在目标对象分割、识别、跟踪、机器人导航以及形状信息恢复等都有着非常重要的应用。由光流的定义可以引申出光流场,它是图像中所有像素点构成的一种二维瞬时速度场。光流场包含由运动边界分割出的较大平滑区域,由于运动边界不满足光流的平滑假设,对光流估计的精确度有很大影响,因此,为更好地进行视频运动分析,准确估计运动边界,并提高光流估计精度是关键。
现有运动边界估计方法主要依据输入RGB图像的边缘和运动信息检测运动边界,但这类方法的主要缺点在于:(1)主要通过人工提取简单的图像特征,无法充分利用输入图像中的丰富信息。(2)运动边界估计算法过于简单,无法模拟从输入图像到运动边界的复杂函数关系,因此鲁棒性差、准确率低。(3)现有运动边界估计方法中需要进行大量的迭代运算,耗费大量计算资源和时间。因此,提出更加有效的运动边界估计方法,是视频运动分析中急需解决的问题。
发明内容
本发明为克服上述情况不足,旨在提供一种利用深度学习模型进行端到端运动边界估计的方法,利用大量数据集自动学习运动边界图像的图像特征,并自动估计运动边界,以解决现有技术中需要人工提取运动边界图像特征,准确率低,鲁棒性差的问题。
一种基于深度学习的运动边界估计方法,其特征在于,包括以下步骤:
步骤一:构建运动边界估计的数据集。
所述运动边界估计数据集中的样本数量不少于20000,其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的运动边界图像。
步骤二:构建用于运动边界估计的深度学习模型。
所述用于运动边界估计的深度学习模型的输入是运动视频中两帧相邻的图像,该深度学习模型共包括12层,其中前6层是编码部分,为6个卷积层,后6层是解码部分,为6个反卷积层,每个反卷积层在具体计算时需要调用对应卷积层的图像特征,输出为运动边界图像。
步骤三:利用运动边界估计的数据集对深度学习模型进行训练,得到训练完成的深度学习模型;
训练所述深度学习模型使用Caffe框架。
步骤四:直接将待估计运动边界的图像输入训练完成的深度学习模型,快速估计出运动边界。
本发明有益效果:与现有技术中的运动边界估计方法相比,本发明的方法利用深度学习模型来自动学习运动边界图像的图像特征,省略了人工提取运动边界图像特征的过程,能够充分挖掘输入图像中的多维特征,并且在所学习的图像特征基础上,自动进行运动边界估计,能够准确模拟从输入图像到运动边界的复杂函数关系,提高运动边界估计的效率和准确率。
附图说明
图1是本发明方法的流程图;
图2是运动估计数据集示意图;
其中,(a)表示运动视频中两帧相邻图像的均值融合图像,(b)表示运动边界图像。
图3是用于运动边界估计的深度学习模型;
图4是待估计运动边界的运动视频中两帧相邻图像的均值融合图像;
图5是深度学习模型直接估计出的运动边界结果;
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供的一种基于深度学习的运动边界估计方法,包括如下步骤:
步骤一:构建运动边界估计的数据集。运动边界估计数据集中每个样本包括运动视频中两帧相邻的图像和这两帧图像的运动边界图像,分别如图2(a)和图2(b)所示,为方便展示,图2(a)为两帧相邻图像的均值融合结果。在具体实施过程中,运动边界估计数据集中样本数量为40000。
步骤二:构建用于运动边界估计的深度学习模型,深度学习模型的具体结构如图3所示,输入是运动视频中两帧相邻的图像,共包括12层,其中前6层是编码部分,为6个卷积层,其中特征图数量分别为64、128、128、256、256、512,卷积核尺寸为3×3,后6层是解码部分,为6个反卷积层,其中特征图数量分别为256、256、128、128、64、21,卷积核尺寸为2×2,解码部分每个反卷积层在作反卷积时,调用编码部分对应的卷积层图像特征,上一层的输出结果作为下一层的输入,输出为运动边界图像,输入图像和输出图像的大小都为256×256。
步骤三:利用仿真数据集对深度学习模型进行训练,得到训练完成的深度学习模型。利用安装在Ubuntu系统上的Caffe环境训练该深度学习模型,采用ADAGRAD优化算法进行训练,初始学习率为0.01,训练次数为600000次,其中,在训练次数为300000、400000和500000时,学习率分别除以10,降低学习率。
步骤四:对于待估计运动边界的运动视频中两帧相邻的图像,如图4所示(方便显示,图4为均值融合结果),直接将运动视频中两帧相邻的图像输入训练完成的深度学习模型,可直接快速估计出所需的运动边界结果图,如图5所示。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (4)
1.一种基于深度学习的运动边界估计方法,其特征在于,包括以下步骤:
步骤一:构建运动边界估计的数据集;
步骤二:构建用于运动边界估计的深度学习模型;
步骤三:利用运动边界估计的数据集对深度学习模型进行训练,得到训练完成的深度学习模型;
步骤四:直接将待估计运动边界的图像输入训练完成的深度学习模型,快速估计出运动边界。
2.根据权利要求1所述的基于深度学习的运动边界估计方法,其特征在于:所述步骤一中运动边界估计数据集中的样本数量不少于20000,其中每个样本包含运动视频中两帧相邻图像和这两帧图像所对应的运动边界图像。
3.根据权利要求1所述的基于深度学习的运动边界估计方法,其特征在于:所述步骤二中用于运动边界估计的深度学习模型的输入是运动视频中两帧相邻的图像,该深度学习模型共包括12层,其中前6层是编码部分,为6个卷积层,后6层是解码部分,为6个反卷积层,每个反卷积层在具体计算时需要调用对应卷积层的图像特征,输出为运动边界图像。
4.根据权利要求1所述的语义分割信息指导的深度学习鱼眼图像校正方法,其特征在于:所述步骤三中训练深度学习模型使用Caffe框架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711294387.6A CN107909602A (zh) | 2017-12-08 | 2017-12-08 | 一种基于深度学习的运动边界估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711294387.6A CN107909602A (zh) | 2017-12-08 | 2017-12-08 | 一种基于深度学习的运动边界估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107909602A true CN107909602A (zh) | 2018-04-13 |
Family
ID=61854119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711294387.6A Pending CN107909602A (zh) | 2017-12-08 | 2017-12-08 | 一种基于深度学习的运动边界估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107909602A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145874A (zh) * | 2018-09-28 | 2019-01-04 | 大连民族大学 | 度量视频连续帧与其卷积特征图间差异在自主汽车视觉感应部分的障碍物检测中的应用 |
CN112231627A (zh) * | 2020-10-14 | 2021-01-15 | 南京风兴科技有限公司 | 边界卷积计算方法、装置、计算机设备及可读存储介质 |
CN112991398A (zh) * | 2021-04-20 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于协同深度神经网络的运动边界指导的光流滤波方法 |
CN113808162A (zh) * | 2021-08-26 | 2021-12-17 | 中国人民解放军军事科学院军事医学研究院 | 目标跟踪方法、装置、电子设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106599805A (zh) * | 2016-12-01 | 2017-04-26 | 华中科技大学 | 一种基于有监督数据驱动的单目视频深度估计方法 |
CN106658023A (zh) * | 2016-12-21 | 2017-05-10 | 山东大学 | 一种基于深度学习的端到端视觉里程计及方法 |
CN107123131A (zh) * | 2017-04-10 | 2017-09-01 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的运动目标检测方法 |
WO2017150032A1 (en) * | 2016-03-02 | 2017-09-08 | Mitsubishi Electric Corporation | Method and system for detecting actions of object in scene |
CN107437083A (zh) * | 2017-08-16 | 2017-12-05 | 上海荷福人工智能科技(集团)有限公司 | 一种自适应池化的视频行为识别方法 |
-
2017
- 2017-12-08 CN CN201711294387.6A patent/CN107909602A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017150032A1 (en) * | 2016-03-02 | 2017-09-08 | Mitsubishi Electric Corporation | Method and system for detecting actions of object in scene |
CN106599805A (zh) * | 2016-12-01 | 2017-04-26 | 华中科技大学 | 一种基于有监督数据驱动的单目视频深度估计方法 |
CN106658023A (zh) * | 2016-12-21 | 2017-05-10 | 山东大学 | 一种基于深度学习的端到端视觉里程计及方法 |
CN107123131A (zh) * | 2017-04-10 | 2017-09-01 | 安徽清新互联信息科技有限公司 | 一种基于深度学习的运动目标检测方法 |
CN107437083A (zh) * | 2017-08-16 | 2017-12-05 | 上海荷福人工智能科技(集团)有限公司 | 一种自适应池化的视频行为识别方法 |
Non-Patent Citations (1)
Title |
---|
YU-HUI HUANG, JOSE ORAMAS M, TINNE TUYTELAARS, LUC VAN GOOLM: "Do Motion Boundaries Improve Semantic Segmentation", 《ECCV2016》 * |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109145874A (zh) * | 2018-09-28 | 2019-01-04 | 大连民族大学 | 度量视频连续帧与其卷积特征图间差异在自主汽车视觉感应部分的障碍物检测中的应用 |
CN112231627A (zh) * | 2020-10-14 | 2021-01-15 | 南京风兴科技有限公司 | 边界卷积计算方法、装置、计算机设备及可读存储介质 |
CN112991398A (zh) * | 2021-04-20 | 2021-06-18 | 中国人民解放军国防科技大学 | 基于协同深度神经网络的运动边界指导的光流滤波方法 |
CN112991398B (zh) * | 2021-04-20 | 2022-02-11 | 中国人民解放军国防科技大学 | 基于协同深度神经网络的运动边界指导的光流滤波方法 |
CN113808162A (zh) * | 2021-08-26 | 2021-12-17 | 中国人民解放军军事科学院军事医学研究院 | 目标跟踪方法、装置、电子设备及存储介质 |
CN113808162B (zh) * | 2021-08-26 | 2024-01-23 | 中国人民解放军军事科学院军事医学研究院 | 目标跟踪方法、装置、电子设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105718878B (zh) | 基于级联卷积神经网络的第一视角空中手写和空中交互方法 | |
CN107909602A (zh) | 一种基于深度学习的运动边界估计方法 | |
CN110827312B (zh) | 一种基于协同视觉注意力神经网络的学习方法 | |
CN113240691A (zh) | 一种基于u型网络的医学图像分割方法 | |
CN103927016A (zh) | 一种基于双目视觉的实时三维双手手势识别方法及其系统 | |
CN108388882A (zh) | 基于全局-局部rgb-d多模态的手势识别方法 | |
CN102609950B (zh) | 一种二维视频深度图的生成方法 | |
CN103942843A (zh) | 一种基于视频的航道船舶三维模型动态呈现方法 | |
CN109712247B (zh) | 基于混合现实技术的实景训练系统 | |
CN111124117B (zh) | 基于手绘草图的增强现实交互方法和设备 | |
CN104036483A (zh) | 图像处理系统和图像处理方法 | |
CN112330589A (zh) | 估计位姿的方法、装置及计算机可读存储介质 | |
CN102034247A (zh) | 一种基于背景建模对双目视觉图像的运动捕捉方法 | |
CN112819853B (zh) | 一种基于语义先验的视觉里程计方法 | |
Yan et al. | Depth map generation for 2d-to-3d conversion by limited user inputs and depth propagation | |
CN108122249A (zh) | 一种基于gan网络深度学习模型的光流估计方法 | |
CN111667005A (zh) | 一种采用rgbd视觉传感的人体交互系统 | |
CN104778736A (zh) | 单视频内容驱动的服装三维动画生成方法 | |
CN111414938B (zh) | 一种板式换热器内气泡的目标检测方法 | |
CN107613161A (zh) | 基于虚拟世界的视频数据处理方法及装置、计算设备 | |
CN103413323A (zh) | 基于部件级表观模型的物体跟踪方法 | |
CN104159098B (zh) | 一种视频的时域一致性半透明边缘提取方法 | |
CN108010061A (zh) | 一种基于运动边界指导的深度学习光流估计方法 | |
CN101449293A (zh) | 视频对象的多跟踪 | |
CN103914822A (zh) | 基于超像素分割的交互式视频前景对象提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20180413 |