CN112991398B

CN112991398B - 基于协同深度神经网络的运动边界指导的光流滤波方法

Info

Publication number: CN112991398B
Application number: CN202110422946.7A
Authority: CN
Inventors: 尹晓晴; 李卫丽; 杨亚洲; 邓劲生; 刘静; 范俊; 李硕豪; 刘付军; 胡腾飞
Original assignee: National University of Defense Technology
Current assignee: National University of Defense Technology
Priority date: 2021-04-20
Filing date: 2021-04-20
Publication date: 2022-02-11
Anticipated expiration: 2041-04-20
Also published as: CN112991398A

Abstract

本发明公开基于协同深度神经网络的运动边界指导的光流滤波方法，构建运动边界指导的光流滤波数据集和协同深度神经网络，输入为初始光流估计结果和运动边界，输出为滤波后的光流估计结果，包括初始光流特征提取子网络、运动边界特征提取子网络、光流滤波第一子网络和光流滤波第二子网络，利用训练集对协同深度神经网络进行训练，利用训练完成的协同深度神经网络对初始光流估计结果进行滤波，快速生成更高精度的光流估计结果。本发明的方法利用协同深度神经网络来自动学习运动边界指导的光流滤波过程，准确模拟从输入变量到输出光流滤波结果的复杂函数关系，避免除运动边界之外的无关边缘信息引入新误差，提高光流滤波的效率和准确率。

Description

基于协同深度神经网络的运动边界指导的光流滤波方法

技术领域

本发明涉及图像处理与运动估计技术，具体指基于协同深度神经网络的运动边界指导的光流滤波方法。

背景技术

光流是视频图像中所有像素点的二维瞬时速度矢量场。作为计算机视觉领域的核心问题之一，光流估计是图像处理与运动估计的基础，在目标检测、目标识别、目标跟踪、目标分割、视频去噪和视频超分辨率等方面都有非常广泛的应用。运动边界是光流的不连续边界，将光流分割成若干区域，每个区域内部的光流值满足平滑性特征。利用运动边界指导初始光流进行滤波，能够滤除初始光流中的噪声和强化光流中的边缘信息，对于提高光流估计的精度具有重要意义。

现有光流滤波方法主要的缺点在于：(1)对光流滤波过程建模不够准确，滤波效果欠佳；(2)直接基于图像边缘进行光流滤波，而不是基于运动边界，在光流滤波过程中容易引入新的误差。本专利提出协同深度神经网络的运动边界指导的光流滤波方法，是视频图像运动分析中急需解决的问题。

发明内容

本发明为克服上述问题，旨在提供一种协同深度神经网络的运动边界指导的光流滤波方法，利用大量样本数据自动学习运动边界中的结构信息，并指导光流的滤波优化，以解决现有光流滤波方法建模不准确和引入新误差等问题。

基于协同深度神经网络的运动边界指导的光流滤波方法，包括以下步骤：

步骤一：构建运动边界指导的光流滤波数据集，包括训练集和测试集两部分；

所述步骤一中运动边界指导的光流滤波数据集的样本数量为22000，其中每个样本包含初始光流估计结果和运动边界，所述训练集和测试集的样本数量比为10:1。

步骤二：构建协同深度神经网络，输入为初始光流估计结果和运动边界，输出为滤波后的光流估计结果，包括四个子网络：初始光流特征提取子网络、运动边界特征提取子网络、光流滤波第一子网络和光流滤波第二子网络；

所述步骤二中初始光流特征提取子网络用于提取初始光流的特征，输入为初始光流，输出为初始光流特征；运动边界特征提取子网络用于提取运动边界的特征，输入为运动边界，输出为运动边界特征；光流滤波第一、第二子网络对光流进行两阶段滤波，其中：光流滤波第一子网络输入为初始光流特征和运动边界特征，输出为第一阶段光流滤波特征；光流滤波第二子网络输入为初始光流特征、运动边界特征和第一阶段光流滤波特征，输出为最终的光流滤波结果。

所述步骤二中初始光流特征提取子网络和运动边界特征提取子网络具有相同的网络结构，均包括3个卷积层，每个卷积层的输出特征图尺寸表示为高×宽×通道数，3个卷积层输出特征图尺寸依次为h×w×32，h×w×64，h×w×64。

所述步骤二中光流滤波第一子网络和光流滤波第二子网络具有相同的网络结构，均包括12个网络层，其中前6层为编码部分，为6个卷积层，后6层是解码部分，解码部分包括3个反卷积层和3个卷积层，每个反卷积层在具体计算时需要调用编码部分对应卷积层的图像特征，12个网络层输出特征图尺寸表示为高×宽×通道数，12个网络层输出特征图尺寸依次为h×w×32，h/2×w/2×64，h/2×w/2×64，h/4×w/4×128，h/4×w/4×128，h/8×w/8×256，h/8×w/8×256，h/4×w/4×128，h/4×w/4×128，h/2×w/2×64，h/2×w/2×64，h×w×32。

所述初始光流的尺寸为H×W×2，运动边界尺寸为H×W，其中H和W分别表示光流/运动边界的高和宽。

所述步骤二中初始光流结果可通过FlowNet算法获取，运动边界可通过LDMB算法获取。

步骤三：利用步骤一中的训练集对协同深度神经网络进行训练，得到训练完成的协同深度神经网络；

所述步骤三中协同深度神经网络的训练过程可使用Caffe、Tensorflow或PyTorch深度学习框架。

步骤四：利用训练完成的协同深度神经网络，对初始光流估计结果进行滤波，快速生成更高精度的光流估计结果。

本发明有益效果：

与现有技术中的光流滤波方法相比，本发明的方法利用协同深度神经网络来自动学习运动边界指导的光流滤波过程，省略了人工提取特征的过程，能够充分挖掘输入变量中的多维特征，准确模拟从输入变量到输出光流滤波结果的复杂函数关系，避免除运动边界之外的无关边缘信息引入新误差，提高光流滤波的效率和准确率。协同深度神经网络包括四个子网络：初始光流特征提取子网络、运动边界特征提取子网络、光流滤波第一子网络和光流滤波第二子网络。其中，初始光流特征提取子网络用于提取初始光流的特征，运动边界特征提取子网络用于提取运动边界的特征，光流滤波第一、第二子网络对光流进行两阶段滤波。

附图说明

图1是本发明方法的流程图；

图2是本发明协同深度神经网络架构。其中，EN1为初始光流特征提取子网络，EN2为运动边界特征提取子网络，FN1为光流滤波第一子网络，FN2为光流滤波第二子网络；

图3是初始光流特征提取子网络EN1和运动边界特征提取子网络EN2的网络架构；

图4是光流滤波第一子网络FN1和光流滤波第二子网络FN2的网络架构；

图5是光流滤波效果示意图。其中，图5(a)表示光流真实值，图5(b)表示初始光流估计结果，图5(c)表示光流滤波结果。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，本实施例提供的基于协同深度神经网络的运动边界指导的光流滤波方法，包括如下步骤：

步骤一：构建运动边界指导的光流滤波数据集，该数据集中每个样本包括初始光流估计结果、运动边界和光流真实值。在具体实施过程中，运动边界指导的光流滤波数据集中样本数量为22000，其中训练样本数量为20000，测试样本数量为2000。在构建数据集过程中，可以采用多种方法进行数据扩增，包括图像缩放、平移和增加噪声等方式，进一步提高网络模型性能。

步骤二：构建协同深度神经网络，模型总体结构如图2所示。模型输入为初始光流估计结果和运动边界，输出为滤波后的光流估计结果，包括四个子网络：初始光流特征提取子网络、运动边界特征提取子网络、光流滤波第一子网络和光流滤波第二子网络。

初始光流特征提取子网络用于提取初始光流的特征，输入为初始光流，输出为初始光流特征；运动边界特征提取子网络用于提取运动边界的特征，输入为运动边界，输出为运动边界特征；光流滤波第一、第二子网络对光流进行两阶段滤波，其中：光流滤波第一子网络输入为初始光流特征和运动边界特征，输出为第一阶段光流滤波特征；光流滤波第二子网络输入为初始光流特征、运动边界特征和第一阶段光流滤波特征，输出为最终的光流滤波结果。

初始光流特征：用初始光流特征提取子网络对初始光流进行处理，提取出的特征，具体形式为特征图；运动边界特征：用运动边界特征提取子网络对运动边界进行处理，提取出的特征，具体形式为特征图；第一阶段光滤波特征：用光流滤波第一子网络对初始光流特征和运动边界特征进行处理，提取出的特征，具体形式为特征图。

初始光流特征提取子网络和运动边界特征提取子网络具有相同的网络结构，如图3所示。两个子网络均包括3个卷积层，每个卷积层的输出特征图尺寸表示为高×宽×通道数，3个卷积层输出特征图尺寸依次为h×w×32，h×w×64，h×w×64。

光流滤波第一子网络和光流滤波第二子网络具有相同的网络结构，如图4所示。两个子网络均包括12个网络层，其中前6层为编码部分，为6个卷积层，后6层是解码部分，解码部分包括3个反卷积层和3个卷积层，每个反卷积层在具体计算时需要调用编码部分对应卷积层的图像特征，12个网络层输出特征图尺寸表示为高×宽×通道数，12个网络层输出特征图尺寸依次为h×w×32，h/2×w/2×64，h/2×w/2×64，h/4×w/4×128，h/4×w/4×128，h/8×w/8×256，h/8×w/8×256，h/4×w/4×128，h/4×w/4×128，h/2×w/2×64，h/2×w/2×64，h×w×32。卷积核尺寸为3×3，解码部分每个反卷积层在做反卷积时，调用编码部分对应的卷积层图像特征。

在初始光流特征提取子网络和运动边界特征提取子网络中，en-1、en-2、en-3分别表示第1、2、3个卷积层；在光流滤波第一子网络和光流滤波第二子网络中，ec-2、ec-3、ec-4、ec-5、ec-6、ec-7分别表示编码部分的第1、2、3、4、5、6个卷积层；ec-8、dc-1、dc-2分别表示解码部分的第1、2、3个卷积层；dd-1、dd-2、dd-3分别表示解码部分的第1、2、3个反卷积层。

初始光流的尺寸为H×W×2，运动边界尺寸为H×W，其中H和W分别表示光流/运动边界的高和宽。在具体实施过程中，h＝H＝384，w＝W＝512。

初始光流结果可通过FlowNet算法获取，运动边界可通过LDMB算法获取。FlowNet算法采用端到端的卷积神经网络对两幅输入图像进行光流估计，可以快速生成初始光流结果。LDMB算法对输入图像和初始光流结果提取多种特征，可以生成较为可靠的运动边界结果。

步骤三：利用步骤一中的训练集对协同深度神经网络进行训练，得到训练完成的协同深度神经网络。协同深度神经网络的训练过程使用Caffe深度学习框架。

利用仿真数据集对协同深度神经网络进行训练，得到训练完成的深度学习模型。利用安装在Ubuntu系统上的Caffe平台训练该深度学习模型，其中Ubuntu系统版本为16.04。采用ADAM优化算法进行训练，该算法具有优秀性能，在深度网络模型训练方面应用广泛。初始学习率可设为0.001，该参数取值过大可能造成网络训练过程不收敛，过小可能造成网络模型性能较差，在实际训练过程中应根据经验和尝试进行调整。训练次数为600000次，其中，在训练次数为300000、400000和500000时，学习率依次除以10。通过逐步降低学习率，可以逐步收敛到最终的网络模型。

步骤四：将初始光流估计结果与运动边界输入训练完成的协同深度神经网络，可直接快速生成光流滤波结果，如图5所示，其中图5(a)为光流真实值，图5(b)为初始光流估计结果，图5(c)为本方法光流滤波结果。以图5(a)、图5(b)作为参考，所提出方法能够充分利用运动边界所包含的结构信息，在滤除光流噪声的同时保留更多边缘信息，提升光流估计的精度，并为后续的目标检测、识别、跟踪和分割等任务提供质量更高的光流结果。

以上所揭露的仅为本发明一种较佳实施例而已，当然不能以此来限定本发明之权利范围，因此依本发明权利要求所作的等同变化，仍属本发明所涵盖的范围。

Claims

1.基于协同深度神经网络的运动边界指导的光流滤波方法，其特征在于：包括以下步骤：

步骤四：利用训练完成的协同深度神经网络，对初始光流估计结果进行滤波，快速生成更高精度的光流估计结果；

所述步骤二中初始光流特征提取子网络用于提取初始光流的特征，输入为初始光流，输出为初始光流特征；运动边界特征提取子网络用于提取运动边界的特征，输入为运动边界，输出为运动边界特征；光流滤波第一子网络和第二子网络对光流进行两阶段滤波，其中，光流滤波第一子网络输入为初始光流特征和运动边界特征，输出为第一阶段光流滤波特征；光流滤波第二子网络输入为初始光流特征、运动边界特征和第一阶段光流滤波特征，输出为最终的光流滤波结果。

2.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法，其特征在于：所述步骤二中初始光流特征提取子网络和运动边界特征提取子网络具有相同的网络结构，均包括3个卷积层，每个卷积层的输出特征图尺寸表示为高×宽×通道数，3个卷积层输出特征图尺寸依次为h×w×32，h×w×64，h×w×64。

3.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法，其特征在于：所述步骤二中光流滤波第一子网络和光流滤波第二子网络具有相同的网络结构，均包括12个网络层，其中前6层为编码部分，为6个卷积层，后6层是解码部分，解码部分包括3个反卷积层和3个卷积层，每个反卷积层在具体计算时需要调用编码部分对应卷积层的图像特征，12个网络层输出特征图尺寸表示为高×宽×通道数，12个网络层输出特征图尺寸依次为h×w×32，h/2×w/2×64，h/2×w/2×64，h/4×w/4×128，h/4×w/4×128，h/8×w/8×256，h/8×w/8×256，h/4×w/4×128，h/4×w/4×128，h/2×w/2×64，h/2×w/2×64，h×w×32。

4.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法，其特征在于：所述初始光流的尺寸为H×W×2，运动边界尺寸为H×W，其中H和W分别表示光流/运动边界的高和宽。

5.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法，其特征在于：所述步骤一中运动边界指导的光流滤波数据集的样本数量为22000，其中每个样本包含初始光流估计结果和运动边界，所述训练集和测试集的样本数量比为10:1。

6.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法，其特征在于：所述步骤二中初始光流结果可通过FlowNet算法获取，运动边界可通过LDMB算法获取。

7.根据权利要求1所述的基于协同深度神经网络的运动边界指导的光流滤波方法，其特征在于：所述步骤三中协同深度神经网络的训练过程可使用Caffe、Tensorflow或PyTorch深度学习框架。