CN111462191A

CN111462191A - 一种基于深度学习的非局部滤波器无监督光流估计方法

Info

Publication number: CN111462191A
Application number: CN202010328677.3A
Authority: CN
Inventors: 涂志刚; 陈雨劲; 刘祥建; 田龙
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2020-04-23
Filing date: 2020-04-23
Publication date: 2020-07-28
Anticipated expiration: 2040-04-23
Also published as: CN111462191B

Abstract

本发明公开了一种基于深度学习的非局部滤波器无监督光流估计方法。为了解决现实中缺少真实光流标签以及构造有标签光流数据耗时费力的问题，本发明设计了一种无监督深度网络架构，减少了对标注数据的依赖。为了提高无监督光流模型的精度，针对光流计算面临的3大难点问题，即噪声、边界模糊、遮挡，首先开发了一种基于卷积神经网络的非局部滤波器，对光流场进行滤波精炼，有效的处理了噪声与边界模糊。该非局部滤波器能从视频数据中自主学习到滤波权重，泛化能力强。其次利用精炼后的光流对遮挡进行推理，根据光流和遮挡图设计全新的损失函数。本发明不需要任何标注数据，以端到端的训练模式获取高精度的运动信息，且能较好的获取目标运动细节。

Description

一种基于深度学习的非局部滤波器无监督光流估计方法

技术领域

本发明属于视频分析技术领域，尤其涉及一种基于深度学习的非局部滤波器无监督光流估计方法。

背景技术

光流运动估计是计算机视觉技术中一个重要的研究与应用领域。光流运动信息作为最主要的视觉线索之一，被广泛地应用于视频分析领域的诸多视觉任务中。开发高精度的、可实时计算的光流方法成为视频分析的一个重要突破点。光流能够描述视频中相邻帧图像对应像素点的运动信息，从而使计算机从纷繁的视频图像序列中获取目标的运动信息，过滤掉不关心的信息。其实质是自动计算视频目标在时序上的运动变化所产生的运动信息，为高层次的视频分析与理解提供有效的运动线索。

目前主流的光流运动估计技术根据其实现的方式进行区分，可以概括为以下主要类型：

变分法光流估计方法。最早在1981年，人们将二维速度场与亮度变化进行结合构建数据项，同时又提出了基于整体平滑性约束的正则项，将数据项与正则项结合组建成能量函数，并采用变分法对能量函数进行求解来计算光流，进而建立了变分光流法的完整理论架构。由于变分法具有诸多优点，在2015年之前，即在基于深度学习的光流法出现之前，是光流计算最主要的技术。为了处理大位移和计算效率问题，人们引入了金字塔策略，并进一步与现代数值法结合提出了多重网格法。为处理遮挡，主要有两类方法：第一、同步交互处理遮挡与计算光流；第二、分步检测遮挡区域然后对标记的遮挡进行处理。为处理噪声，有两种主要策略被提出：第一、图像滤波预处理，如双边滤波法，导向滤波法等；第二、光流平滑后处理。

基于深度学习的有监督光流运动估计。随着深度学习的不断发展，人们开始使用卷积神经网络进行光流计算，提出了一系列的有监督的光流方法。目前有监督光流方法的速度能够满足实时计算的需要，并且精准度相比于传统的方法有了大幅度的提升。

基于深度学习的无监督光流运动估计。为了避免训练过程对真实标注数据的依赖，人们开始采用无监督的方式来对光流进行计算。由于无监督光流运动估计模型具有诸多优点，必将成为将来光流计算的主流方式。

光流运动估计技术是视频分析的基础。光流能够提供稠密的运动信息，它是处理很多视觉任务的关键，但目前的光流却无法在实际任务中被广泛应用。其原因在于，上述方法均存在不少缺陷：

传统变分光流计算需要解决大量优化问题，导致计算速度慢，不能够满足实时计算的要求。其次变分光流法的很多参数是人为设置的，导致变分光流方法往往只对某些特定场景的数据有效。

基于深度学习的有监督光流方法，在模型训练过程中需要大量标注好的光流信息，而这种标注信息不容易获取，标注成本较高，且标注的数据不具有随机性。

基于深度学习的无监督光流方法的精度不高，主要是因为无法有效的处理噪声、边界模糊、遮挡等难点问题。

发明内容

针对现有技术所存在的缺点，本发明采用了基于深度学习的无监督光流计算的策略。针对光流模型训练过程中需要大量标注好的光流信息，但光流标注信息不容易获取且标注成本较高的问题，本发明设计了一种无监督深度网络架构。针对目前无监督光流模型所面临的3大难点问题，即噪声、边界模糊、遮挡，开发了一种基于深度学习的非局部滤波器，并设计了可处理遮挡的全新损失函数，使得该方法能适用于各种复杂的现实场景，实现了在不使用标注数据的情况下，以端到端的训练模式获取高精度的运动信息，同时还能恢复出目标的运动细节。该方法能有效的处理了噪声、边界模糊与遮挡。

为实现上述目的，本发明提出了一种基于深度学习的非局部滤波器无监督光流估计方法，包括以下步骤：

步骤1：将监控视频解压成连续的图像序列帧，将其中相邻两帧图像作为输入；

步骤2：将相邻两帧图像输入到光流网络中提取光流，通过光流网络中金字塔模型对相邻两帧图像中第一帧图像进行采样，得到金字塔图像；

步骤3：在光流网络中金字塔模型l层，用相同的卷积模板分别获取l层相邻两帧图像的特征信息，通过金字塔模型l层相邻两帧图像的特征信息构建金字塔模型l层成本计算量，将金字塔模型l层成本计算量、金字塔模型l层相邻两帧图像中第一帧图像的特征信息输入到基于深度学习的光流估计器中，得到金字塔模型l层的光流图，将金字塔模型l层的光流图通过上采样得到上采样后金字塔模型l+1层的光流图；

步骤4：重复执行步骤3直至光流网络中金字塔模型的底层，以构建前向光流；

步骤5：交换相邻两张图像的输入顺序，重复执行步骤2-步骤4，以构建后向光流；

步骤6：根据传统非局部滤波器构建基于深度学习的非局部化滤波器，分别将前向光流、后向光流通过基于深度学习的非局部滤波器进一步处理，获得精炼后的前向光流、精炼后的后向光流；

步骤7：结合前后一致性检测原理，利用精炼后的前向光流、精炼后的后向光流对遮挡区域进行估计，并获取前向遮挡区域、后向遮挡区域；

步骤8：结合精炼后的前向光流、精炼后的后向光流、前向遮挡区域和后向遮挡区域，构建前后一致性惩罚函数、遮挡感知损失函数，进一步构建光流网络损失函数作为训练函数；

步骤9：结合光流网络损失函数对模型进行训练，直至光流网络损失函数收敛为止，输出最终的光流运动场。

作为优选，步骤1所述连续的图像序列帧为：

V＝{I₁,…,I_j,…I_N},j∈[1,N]

其中，N为分解的图像帧数，I_j表示第j帧图像；

步骤2所述其中相邻两帧图像用I_j、I_j+1表示；

作为优选，步骤2所述相邻两帧图像为I_j、I_j+1，I_j表示第j帧图像，j∈[1,N]，N为分解的图像帧数；

步骤2所述通过光流网络中金字塔模型对相邻两帧图像中第一帧图像进行采样为：

通过光流网络中金字塔模型对第j帧图像进行采样；

步骤2所述金字塔图像为：

其中，l∈[1,L],l用于表示光流网络中金字塔模型的第l层，L表示金字塔的总层数，I_j表示第j帧图像，j∈[1,N]，N为分解的图像帧数；

当l＝1时，表示金字塔图像的顶层即粗糙层；

当l＝L时，表示金字塔图像的底层即原始层；

作为优选，步骤3所述金字塔模型顶层为光流网络中金字塔模型的l层，l用于表示光流网络中金字塔模型第l层，当l＝1时表示金字塔图像的顶层，当l＝L时表示金字塔图像的底层，l∈[1,L]

当l＝1时，

步骤3所述相邻两帧图像为：

表示金字塔模型l层第j帧图像，j∈[1,N]，N为分解的图像帧数；

步骤3所述相邻两帧图像的特征信息为：

为相邻两帧图像中第一帧图像的特征信息，

为相邻两帧图像中第二帧图像的特征信息；

步骤3所述构建金字塔模型l层成本计算量为：

步骤3所述金字塔模型l层的光流图为：v^l；

步骤3所述上采样后金字塔模型l+1层的光流图为：

作为优选，步骤4所述前向光流为：

作为优选，步骤5所述交换相邻两张图像的输入顺序即(I_j,I_j+1)变为(I_j+1，I_j)；

步骤5所述后向光流为：

作为优选，步骤6所述传统非局部滤波器为：

ω(i，j)表示像素i与像素j之间的相似度，其权重大小满足0≤ω(i，j)≤1和∑_jω(i，j)＝1；

权重的计算方式为：

光流图中的像素点i和j的相似性取决于分别以i和j为中心的像素块的亮度相似性；

v(N_i)表示向量，它是由以像素点i为中心的区域像素点元素所组成的；

几何结构相似度是通过向量的欧几里得距离来衡量的，表示为：

其中，a>0，表示的是高斯核的标准差；

Z(i)为归一化系数，h为平滑参数用于控制高斯函数的衰减程度，h越大，高斯函数变化越平缓，去噪水平越高，但同时也会导致图像越模糊；

步骤6所述构建基于深度学习的非局部化滤波器为：

根据传统非局部化平均操作，在深度神经网络中定义一个非局部运算，来捕获长距离依赖关系：

其中，x_i表示光流图i点的亮度值，y_i表示输出像素点的亮度值。j是枚举所有可能的像素点；

g(x_j)＝W_g·x_j计算位置j处的输入信号，其中，W_g为学习到的权重矩阵；

函数用于计算像素点i和j的相似性；

其中，θ(x_i)＝W_θx_i，φ(x_j)＝W_φx_j，C(x)为归一化因子，

作为优选，步骤7所述前后一致性检测原理为：

若精炼后的前向光流为精炼后的后向光流的反向则为非遮挡区域；

若精炼后的前向光流和精炼后的后向光流的差异则为遮挡区域；

当精炼后的前向光流和精炼后的后向光流匹配差距超过阈值或者超出图像边界Ω时，认为像素被遮，则为遮挡区域；。

对于前向遮挡区域O_f来说，具体为：

当前后光流不满足如下约束模型时，将该点像素点的值设置为0，否则为1；所述约束模型如公式所示：

|v_f(x)+v_b(x+v_f(x))|²≤a₁(|v_f(x)|²+|v_b(x+v_f(x))|²)+a₁

其中，α₁、α₂分别为两个超参数，v_f表示前项光流，v_b表示精炼后的后向光流；

作为优选，步骤8所述前后一致性惩罚函数为：

O表示遮挡图，下标(f，b)用于区分前向遮挡和后向遮挡，O_f表示前向遮挡图。v表示光流图，下标用于区分精炼后的前向光流、精炼后的后向光流，即v_f表示精炼后的前向光流，v_b表示精炼后的后向光流。

步骤8所述遮挡感知损失函数为：

L_D(v_f，v_b，O_f，O_b)＝∑(1-O_f)·σ(F_D(I_j-I_j+1(x+v_f))+(1-O_b)·σ(F_D(I_j+1-I_j(x+v_b))

其中，I_j、I_j+1表示相邻两帧连续图像，σ(x)＝(x²+ε²)^τ，ε、τ均为设定的超参数，F_D表示亮度差异损失函数；

步骤8所述光流网络损失函数为：

L(I₁，I₂，v_f，v_b，O_f，O_b)＝L_C+L_D

新设计的损失函数充分的考虑了多种影响，有很强的约束能力，在面对遮挡、光照变化等较为复杂的状况时，该模型依然能够精准的计算出光流。

作为优选，步骤9所述训练的方法为随机梯度下降法，并通过使用反向传播来更新模型中可学习的参数；

所述模型为光流网络；

首先使用公开数据集FlyingChairs对模型进行预训练，使得模型具有较好的泛化能力，预训练好的模型就可以直接用于视频的光流运动估计。

总体而言，通过本发明所构思的以上技术方案与现有技术相比，能够取得下列有益效果：

使用面广。新设计的基于深度学习的非局部滤波器可以融入各种面向深度学习的光流计算网络。极大的拓展了非局部滤波器在光流计算中的使用性。

泛化能力强。相比于传统非局部滤波器的滤波权重是人为指定的，基于深度学习的非局部滤波器的权重是从视频图像大数据中学习得到的。非局部化滤波器的参数会根据任务自动更新，因此能被广泛应用于各种类型的视频图像。其次，其遮挡感知损失函数也是自主学习得到的。

效率高。该模型只在最后一层加入非局部滤波器，且该滤波器只包含5层神经层，使得本发明提出的非局部滤波器无需花费多少时间。

精度高。新设计的损失函数能够充分考虑了光流和遮挡的关系。使得本发明能较好的处理噪声、边界模糊、遮挡等问题。在精确计算光流运动信息的同时较好的恢复出运动细节。

由此，本发明提供了一种在无需光流标注数据的情况下，计算精度高，可有效处理噪声、边界模糊、遮挡的光流运动估计的方法。

附图说明

图1：是本发明的总结构图；

图2：是本发明的光流提取网络；

图3：是本发明的金字塔模型结构框图；

图4：是本发明的深度学习的非局部滤波器；

图5：是本发明的遮挡估计；

图6：是本发明的总流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。此外，下面所描述的本发明各个实施方式中所涉及到的技术特征只要彼此之间未构成冲突就可以相互组合。

图1为本发明方法一种基于深度学习非局部滤波器的高性能无监督光流运动估计方法的整体结构图。系统包括：光流提取网络；基于深度学习的非局部滤波器；基于前向后向一致性检测的遮挡估计。

下面结合图1至图6，介绍本发明的具体实施方式为一种基于深度学习的非局部滤波器无监督光流估计方法，包括以下步骤：

步骤1所述连续的图像序列帧为：

V＝{I₁,…,I_j,…I_N},j∈[1,N]

其中，N为分解的图像帧数，I_j表示第j帧图像；

步骤2所述其中相邻两帧图像用I_j、I_j+1表示；

所述光流提取网络见说明书附图2；

步骤2所述相邻两帧图像为I_j、I_j+1，I_j表示第j帧图像，j∈[1,N]，N为分解的图像帧数；

通过光流网络中金字塔模型对第j帧图像进行采样；

步骤2所述金字塔图像为：

当l＝1时，表示金字塔图像的顶层即粗糙层；

当l＝L时，表示金字塔图像的底层即原始层；

本发明中金字塔的采样率设置为0.5，且L＝6；

见说明书附图3，步骤3所述金字塔模型顶层为光流网络中金字塔模型的l层，l用于表示光流网络中金字塔模型第l层，当l＝1时表示金字塔图像的顶层，当l＝L时表示金字塔图像的底层，l∈[1,L]

当l＝1时，

步骤3所述相邻两帧图像为：

步骤3所述相邻两帧图像的特征信息为：

为相邻两帧图像中第一帧图像的特征信息，

为相邻两帧图像中第二帧图像的特征信息；

步骤3所述构建金字塔模型l层成本计算量为：

步骤3所述金字塔模型l层的光流图为：v^l；

步骤3所述上采样后金字塔模型l+1层的光流图为：

步骤4所述前向光流为：

步骤5：交换相邻两张图像的输入顺序，重复执行步骤2-步骤4，以构建后向光流。

步骤5所述交换相邻两张图像的输入顺序即(I_j,I_j+1)变为(I_j+1，I_j)；

步骤5所述后向光流为：

步骤6：根据传统非局部滤波器构建基于深度学习的非局部化滤波器，分别将前向光流、后向光流通过基于深度学习的非局部滤波器进一步处理，获得精炼后的前向光流、精炼后的后向光流，这样能有效的处理噪声、避免光流边界的过平滑；

步骤6所述传统非局部滤波器为：

光流图中像素点之间不是孤立存在的，某一点的像素与周边区域的其它像素点存在某种关联，可以概括为亮度相关度和几何结构相似度。同时相似像素点不局限于某个局部区域，如图像中的长边缘、结构纹理等，都是相似的，所以可以采用能够描述图像结构的图像块在整个图像上寻找相似块；

传统非局部滤波器定义如下：

权重的计算方式为：

其中，a>0，表示的是高斯核的标准差；

步骤6所述构建基于深度学习的非局部化滤波器为：

如图4所示，根据传统非局部化平均操作，在深度神经网络中定义一个非局部运算，来捕获长距离依赖关系：

函数用于计算像素点i和j的相似性；

其中，θ(x_i)＝W_θx_i，φ(x_j)＝N_φx_j，C(x)为归一化因子，

步骤7所述前后一致性检测原理为：

对于前向遮挡区域O_f来说，具体为：

如图5所示，当前后光流不满足如下约束模型时，将该点像素点的值设置为0，否则为1；所述约束模型如公式所示：

|v_f(x)+v_b(x+v_f(x))|²≤a₁(|v_f(x)|²+|v_b(x+v_f(x))|²)+a₁

将α₁设置为0.01，将α₂设置为0.05；

步骤8所述前后一致性惩罚函数为：

步骤8所述遮挡感知损失函数为：

步骤8所述光流网络损失函数为：

L(I₁，I₂，v_f，v_b，O_f，O_b)＝L_C+L_D

步骤9所述训练的方法为随机梯度下降法，并通过使用反向传播来更新模型中可学习的参数；

所述模型为光流网络；

为了避免梯度消失和梯度爆炸，将模型训练过程中批处理大小设置为为8，并使用Adam作为优化器，初始学习率为1e-4；

图6为本发明方法流程图。非局部滤波器在光流提取后执行，即经过光流提取网络后，使用非局部滤波器对前项光流和后向光流进行滤波器操作，得到精炼后的双向光流场，每次只执行一次滤波器操作。随后，使用精炼后的双向光流对进行遮挡估计，即使用前后一致性检测技术，对遮挡图进行推导。最后将遮挡估计融入到损失函数中，构建可处理遮挡的损失函数，对深度模型进行训练。该模型首先在FlyingChairs数据集上进行预训练，总迭代次数为30万次；批处理大小为8；初始学习率为0.0001，学习率每5万次衰减一半。代码使用Python语言，在PyTorch框架基础上搭建。操作系统为Linux Ubuntu。经过训练后的光流模型可以直接使用在其他场景中，无需标注数据。

以上所述实施例仅表达了本发明的实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。