CN112991398B - 基于协同深度神经网络的运动边界指导的光流滤波方法 - Google Patents
基于协同深度神经网络的运动边界指导的光流滤波方法 Download PDFInfo
- Publication number
- CN112991398B CN112991398B CN202110422946.7A CN202110422946A CN112991398B CN 112991398 B CN112991398 B CN 112991398B CN 202110422946 A CN202110422946 A CN 202110422946A CN 112991398 B CN112991398 B CN 112991398B
- Authority
- CN
- China
- Prior art keywords
- optical flow
- network
- motion boundary
- multiplied
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/10—Image acquisition modality
- G06T2207/10016—Video; Image sequence
Abstract
本发明公开基于协同深度神经网络的运动边界指导的光流滤波方法,构建运动边界指导的光流滤波数据集和协同深度神经网络,输入为初始光流估计结果和运动边界,输出为滤波后的光流估计结果,包括初始光流特征提取子网络、运动边界特征提取子网络、光流滤波第一子网络和光流滤波第二子网络,利用训练集对协同深度神经网络进行训练,利用训练完成的协同深度神经网络对初始光流估计结果进行滤波,快速生成更高精度的光流估计结果。本发明的方法利用协同深度神经网络来自动学习运动边界指导的光流滤波过程,准确模拟从输入变量到输出光流滤波结果的复杂函数关系,避免除运动边界之外的无关边缘信息引入新误差,提高光流滤波的效率和准确率。
Description
技术领域
本发明涉及图像处理与运动估计技术,具体指基于协同深度神经网络的运动边界指导的光流滤波方法。
背景技术
光流是视频图像中所有像素点的二维瞬时速度矢量场。作为计算机视觉领域的核心问题之一,光流估计是图像处理与运动估计的基础,在目标检测、目标识别、目标跟踪、目标分割、视频去噪和视频超分辨率等方面都有非常广泛的应用。运动边界是光流的不连续边界,将光流分割成若干区域,每个区域内部的光流值满足平滑性特征。利用运动边界指导初始光流进行滤波,能够滤除初始光流中的噪声和强化光流中的边缘信息,对于提高光流估计的精度具有重要意义。
现有光流滤波方法主要的缺点在于:(1)对光流滤波过程建模不够准确,滤波效果欠佳;(2)直接基于图像边缘进行光流滤波,而不是基于运动边界,在光流滤波过程中容易引入新的误差。本专利提出协同深度神经网络的运动边界指导的光流滤波方法,是视频图像运动分析中急需解决的问题。
发明内容
本发明为克服上述问题,旨在提供一种协同深度神经网络的运动边界指导的光流滤波方法,利用大量样本数据自动学习运动边界中的结构信息,并指导光流的滤波优化,以解决现有光流滤波方法建模不准确和引入新误差等问题。
基于协同深度神经网络的运动边界指导的光流滤波方法,包括以下步骤:
步骤一:构建运动边界指导的光流滤波数据集,包括训练集和测试集两部分;
所述步骤一中运动边界指导的光流滤波数据集的样本数量为22000,其中每个样本包含初始光流估计结果和运动边界,所述训练集和测试集的样本数量比为10:1。
步骤二:构建协同深度神经网络,输入为初始光流估计结果和运动边界,输出为滤波后的光流估计结果,包括四个子网络:初始光流特征提取子网络、运动边界特征提取子网络、光流滤波第一子网络和光流滤波第二子网络;
所述步骤二中初始光流特征提取子网络用于提取初始光流的特征,输入为初始光流,输出为初始光流特征;运动边界特征提取子网络用于提取运动边界的特征,输入为运动边界,输出为运动边界特征;光流滤波第一、第二子网络对光流进行两阶段滤波,其中:光流滤波第一子网络输入为初始光流特征和运动边界特征,输出为第一阶段光流滤波特征;光流滤波第二子网络输入为初始光流特征、运动边界特征和第一阶段光流滤波特征,输出为最终的光流滤波结果。
所述步骤二中初始光流特征提取子网络和运动边界特征提取子网络具有相同的网络结构,均包括3个卷积层,每个卷积层的输出特征图尺寸表示为高×宽×通道数,3个卷积层输出特征图尺寸依次为h×w×32,h×w×64,h×w×64。
所述步骤二中光流滤波第一子网络和光流滤波第二子网络具有相同的网络结构,均包括12个网络层,其中前6层为编码部分,为6个卷积层,后6层是解码部分,解码部分包括3个反卷积层和3个卷积层,每个反卷积层在具体计算时需要调用编码部分对应卷积层的图像特征,12个网络层输出特征图尺寸表示为高×宽×通道数,12个网络层输出特征图尺寸依次为h×w×32,h/2×w/2×64,h/2×w/2×64,h/4×w/4×128,h/4×w/4×128,h/8×w/8×256,h/8×w/8×256,h/4×w/4×128,h/4×w/4×128,h/2×w/2×64,h/2×w/2×64,h×w×32。
所述初始光流的尺寸为H×W×2,运动边界尺寸为H×W,其中H和W分别表示光流/运动边界的高和宽。
所述步骤二中初始光流结果可通过FlowNet算法获取,运动边界可通过LDMB算法获取。
步骤三:利用步骤一中的训练集对协同深度神经网络进行训练,得到训练完成的协同深度神经网络;
所述步骤三中协同深度神经网络的训练过程可使用Caffe、Tensorflow或PyTorch深度学习框架。
步骤四:利用训练完成的协同深度神经网络,对初始光流估计结果进行滤波,快速生成更高精度的光流估计结果。
本发明有益效果:
与现有技术中的光流滤波方法相比,本发明的方法利用协同深度神经网络来自动学习运动边界指导的光流滤波过程,省略了人工提取特征的过程,能够充分挖掘输入变量中的多维特征,准确模拟从输入变量到输出光流滤波结果的复杂函数关系,避免除运动边界之外的无关边缘信息引入新误差,提高光流滤波的效率和准确率。协同深度神经网络包括四个子网络:初始光流特征提取子网络、运动边界特征提取子网络、光流滤波第一子网络和光流滤波第二子网络。其中,初始光流特征提取子网络用于提取初始光流的特征,运动边界特征提取子网络用于提取运动边界的特征,光流滤波第一、第二子网络对光流进行两阶段滤波。
附图说明
图1是本发明方法的流程图;
图2是本发明协同深度神经网络架构。其中,EN1为初始光流特征提取子网络,EN2为运动边界特征提取子网络,FN1为光流滤波第一子网络,FN2为光流滤波第二子网络;
图3是初始光流特征提取子网络EN1和运动边界特征提取子网络EN2的网络架构;
图4是光流滤波第一子网络FN1和光流滤波第二子网络FN2的网络架构;
图5是光流滤波效果示意图。其中,图5(a)表示光流真实值,图5(b)表示初始光流估计结果,图5(c)表示光流滤波结果。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示,本实施例提供的基于协同深度神经网络的运动边界指导的光流滤波方法,包括如下步骤:
步骤一:构建运动边界指导的光流滤波数据集,该数据集中每个样本包括初始光流估计结果、运动边界和光流真实值。在具体实施过程中,运动边界指导的光流滤波数据集中样本数量为22000,其中训练样本数量为20000,测试样本数量为2000。在构建数据集过程中,可以采用多种方法进行数据扩增,包括图像缩放、平移和增加噪声等方式,进一步提高网络模型性能。
步骤二:构建协同深度神经网络,模型总体结构如图2所示。模型输入为初始光流估计结果和运动边界,输出为滤波后的光流估计结果,包括四个子网络:初始光流特征提取子网络、运动边界特征提取子网络、光流滤波第一子网络和光流滤波第二子网络。
初始光流特征提取子网络用于提取初始光流的特征,输入为初始光流,输出为初始光流特征;运动边界特征提取子网络用于提取运动边界的特征,输入为运动边界,输出为运动边界特征;光流滤波第一、第二子网络对光流进行两阶段滤波,其中:光流滤波第一子网络输入为初始光流特征和运动边界特征,输出为第一阶段光流滤波特征;光流滤波第二子网络输入为初始光流特征、运动边界特征和第一阶段光流滤波特征,输出为最终的光流滤波结果。
初始光流特征:用初始光流特征提取子网络对初始光流进行处理,提取出的特征,具体形式为特征图;运动边界特征:用运动边界特征提取子网络对运动边界进行处理,提取出的特征,具体形式为特征图;第一阶段光滤波特征:用光流滤波第一子网络对初始光流特征和运动边界特征进行处理,提取出的特征,具体形式为特征图。
初始光流特征提取子网络和运动边界特征提取子网络具有相同的网络结构,如图3所示。两个子网络均包括3个卷积层,每个卷积层的输出特征图尺寸表示为高×宽×通道数,3个卷积层输出特征图尺寸依次为h×w×32,h×w×64,h×w×64。
光流滤波第一子网络和光流滤波第二子网络具有相同的网络结构,如图4所示。两个子网络均包括12个网络层,其中前6层为编码部分,为6个卷积层,后6层是解码部分,解码部分包括3个反卷积层和3个卷积层,每个反卷积层在具体计算时需要调用编码部分对应卷积层的图像特征,12个网络层输出特征图尺寸表示为高×宽×通道数,12个网络层输出特征图尺寸依次为h×w×32,h/2×w/2×64,h/2×w/2×64,h/4×w/4×128,h/4×w/4×128,h/8×w/8×256,h/8×w/8×256,h/4×w/4×128,h/4×w/4×128,h/2×w/2×64,h/2×w/2×64,h×w×32。卷积核尺寸为3×3,解码部分每个反卷积层在做反卷积时,调用编码部分对应的卷积层图像特征。
在初始光流特征提取子网络和运动边界特征提取子网络中,en-1、en-2、en-3分别表示第1、2、3个卷积层;在光流滤波第一子网络和光流滤波第二子网络中,ec-2、ec-3、ec-4、ec-5、ec-6、ec-7分别表示编码部分的第1、2、3、4、5、6个卷积层;ec-8、dc-1、dc-2分别表示解码部分的第1、2、3个卷积层;dd-1、dd-2、dd-3分别表示解码部分的第1、2、3个反卷积层。
初始光流的尺寸为H×W×2,运动边界尺寸为H×W,其中H和W分别表示光流/运动边界的高和宽。在具体实施过程中,h=H=384,w=W=512。
初始光流结果可通过FlowNet算法获取,运动边界可通过LDMB算法获取。FlowNet算法采用端到端的卷积神经网络对两幅输入图像进行光流估计,可以快速生成初始光流结果。LDMB算法对输入图像和初始光流结果提取多种特征,可以生成较为可靠的运动边界结果。
步骤三:利用步骤一中的训练集对协同深度神经网络进行训练,得到训练完成的协同深度神经网络。协同深度神经网络的训练过程使用Caffe深度学习框架。
利用仿真数据集对协同深度神经网络进行训练,得到训练完成的深度学习模型。利用安装在Ubuntu系统上的Caffe平台训练该深度学习模型,其中Ubuntu系统版本为16.04。采用ADAM优化算法进行训练,该算法具有优秀性能,在深度网络模型训练方面应用广泛。初始学习率可设为0.001,该参数取值过大可能造成网络训练过程不收敛,过小可能造成网络模型性能较差,在实际训练过程中应根据经验和尝试进行调整。训练次数为600000次,其中,在训练次数为300000、400000和500000时,学习率依次除以10。通过逐步降低学习率,可以逐步收敛到最终的网络模型。
步骤四:将初始光流估计结果与运动边界输入训练完成的协同深度神经网络,可直接快速生成光流滤波结果,如图5所示,其中图5(a)为光流真实值,图5(b)为初始光流估计结果,图5(c)为本方法光流滤波结果。以图5(a)、图5(b)作为参考,所提出方法能够充分利用运动边界所包含的结构信息,在滤除光流噪声的同时保留更多边缘信息,提升光流估计的精度,并为后续的目标检测、识别、跟踪和分割等任务提供质量更高的光流结果。
以上所揭露的仅为本发明一种较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。
Claims (7)
1.基于协同深度神经网络的运动边界指导的光流滤波方法,其特征在于:包括以下步骤:
步骤一:构建运动边界指导的光流滤波数据集,包括训练集和测试集两部分;
步骤二:构建协同深度神经网络,输入为初始光流估计结果和运动边界,输出为滤波后的光流估计结果,包括四个子网络:初始光流特征提取子网络、运动边界特征提取子网络、光流滤波第一子网络和光流滤波第二子网络;
步骤三:利用步骤一中的训练集对协同深度神经网络进行训练,得到训练完成的协同深度神经网络;
步骤四:利用训练完成的协同深度神经网络,对初始光流估计结果进行滤波,快速生成更高精度的光流估计结果;
所述步骤二中初始光流特征提取子网络用于提取初始光流的特征,输入为初始光流,输出为初始光流特征;运动边界特征提取子网络用于提取运动边界的特征,输入为运动边界,输出为运动边界特征;光流滤波第一子网络和第二子网络对光流进行两阶段滤波,其中,光流滤波第一子网络输入为初始光流特征和运动边界特征,输出为第一阶段光流滤波特征;光流滤波第二子网络输入为初始光流特征、运动边界特征和第一阶段光流滤波特征,输出为最终的光流滤波结果。
2.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法,其特征在于:所述步骤二中初始光流特征提取子网络和运动边界特征提取子网络具有相同的网络结构,均包括3个卷积层,每个卷积层的输出特征图尺寸表示为高×宽×通道数,3个卷积层输出特征图尺寸依次为h×w×32,h×w×64,h×w×64。
3.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法,其特征在于:所述步骤二中光流滤波第一子网络和光流滤波第二子网络具有相同的网络结构,均包括12个网络层,其中前6层为编码部分,为6个卷积层,后6层是解码部分,解码部分包括3个反卷积层和3个卷积层,每个反卷积层在具体计算时需要调用编码部分对应卷积层的图像特征,12个网络层输出特征图尺寸表示为高×宽×通道数,12个网络层输出特征图尺寸依次为h×w×32,h/2×w/2×64,h/2×w/2×64,h/4×w/4×128,h/4×w/4×128,h/8×w/8×256,h/8×w/8×256,h/4×w/4×128,h/4×w/4×128,h/2×w/2×64,h/2×w/2×64,h×w×32。
4.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法,其特征在于:所述初始光流的尺寸为H×W×2,运动边界尺寸为H×W,其中H和W分别表示光流/运动边界的高和宽。
5.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法,其特征在于:所述步骤一中运动边界指导的光流滤波数据集的样本数量为22000,其中每个样本包含初始光流估计结果和运动边界,所述训练集和测试集的样本数量比为10:1。
6.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法,其特征在于:所述步骤二中初始光流结果可通过FlowNet算法获取,运动边界可通过LDMB算法获取。
7.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法,其特征在于:所述步骤三中协同深度神经网络的训练过程可使用Caffe、Tensorflow或PyTorch深度学习框架。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110422946.7A CN112991398B (zh) | 2021-04-20 | 2021-04-20 | 基于协同深度神经网络的运动边界指导的光流滤波方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110422946.7A CN112991398B (zh) | 2021-04-20 | 2021-04-20 | 基于协同深度神经网络的运动边界指导的光流滤波方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112991398A CN112991398A (zh) | 2021-06-18 |
CN112991398B true CN112991398B (zh) | 2022-02-11 |
Family
ID=76341289
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110422946.7A Active CN112991398B (zh) | 2021-04-20 | 2021-04-20 | 基于协同深度神经网络的运动边界指导的光流滤波方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112991398B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113671287B (zh) * | 2021-08-16 | 2024-02-02 | 广东电力通信科技有限公司 | 电网自动化终端智能检测方法、系统和可读存储介质 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909602A (zh) * | 2017-12-08 | 2018-04-13 | 长沙全度影像科技有限公司 | 一种基于深度学习的运动边界估计方法 |
CN108010061A (zh) * | 2017-12-19 | 2018-05-08 | 湖南丹尼尔智能科技有限公司 | 一种基于运动边界指导的深度学习光流估计方法 |
CN112446245A (zh) * | 2019-08-30 | 2021-03-05 | 北京大学深圳研究生院 | 一种基于运动边界小位移的高效运动表征方法及装置 |
-
2021
- 2021-04-20 CN CN202110422946.7A patent/CN112991398B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107909602A (zh) * | 2017-12-08 | 2018-04-13 | 长沙全度影像科技有限公司 | 一种基于深度学习的运动边界估计方法 |
CN108010061A (zh) * | 2017-12-19 | 2018-05-08 | 湖南丹尼尔智能科技有限公司 | 一种基于运动边界指导的深度学习光流估计方法 |
CN112446245A (zh) * | 2019-08-30 | 2021-03-05 | 北京大学深圳研究生院 | 一种基于运动边界小位移的高效运动表征方法及装置 |
Non-Patent Citations (1)
Title |
---|
基于运动估计的视频去噪算法研究;尹晓晴;《中国博士学位论文全文数据库 信息科技辑》;20210115;I138-147 * |
Also Published As
Publication number | Publication date |
---|---|
CN112991398A (zh) | 2021-06-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110210551B (zh) | 一种基于自适应主体敏感的视觉目标跟踪方法 | |
CN110781924B (zh) | 一种基于全卷积神经网络的侧扫声纳图像特征提取方法 | |
CN112396607B (zh) | 一种可变形卷积融合增强的街景图像语义分割方法 | |
CN110246148B (zh) | 多模态的深度信息融合和注意力学习的显著性检测方法 | |
CN112597985B (zh) | 一种基于多尺度特征融合的人群计数方法 | |
CN110853057B (zh) | 基于全局和多尺度全卷积网络的航拍图像分割方法 | |
CN109492596B (zh) | 一种基于K-means聚类和区域推荐网络的行人检测方法及系统 | |
CN114943963A (zh) | 一种基于双分支融合网络的遥感图像云和云影分割方法 | |
CN109461177B (zh) | 一种基于神经网络的单目图像深度预测方法 | |
CN111476133B (zh) | 面向无人驾驶的前背景编解码器网络目标提取方法 | |
CN112508079B (zh) | 海洋锋面的精细化识别方法、系统、设备、终端及应用 | |
CN112819853B (zh) | 一种基于语义先验的视觉里程计方法 | |
CN112287941A (zh) | 一种基于自动字符区域感知的车牌识别方法 | |
CN109345559B (zh) | 基于样本扩充和深度分类网络的运动目标跟踪方法 | |
CN113658200A (zh) | 基于自适应特征融合的边缘感知图像语义分割方法 | |
CN112991398B (zh) | 基于协同深度神经网络的运动边界指导的光流滤波方法 | |
CN115908793A (zh) | 一种基于位置注意力机制的编解码结构语义分割模型 | |
CN111310767A (zh) | 一种基于边界增强的显著性检测方法 | |
CN112036419B (zh) | 一种基于VGG-Attention模型的SAR图像部件解译方法 | |
CN113313077A (zh) | 基于多策略和交叉特征融合的显著物体检测方法 | |
CN113256528B (zh) | 基于多尺度级联深度残差网络的低照度视频增强方法 | |
CN115223033A (zh) | 一种合成孔径声呐图像目标分类方法及系统 | |
CN115578721A (zh) | 一种基于注意力特征融合的街景文本实时检测方法 | |
CN115457385A (zh) | 一种基于轻量级网络的建筑物变化检测方法 | |
CN115375925A (zh) | 一种基于相位信息和深度学习的水下声呐图像匹配算法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |