CN110176023A

CN110176023A - 一种基于金字塔结构的光流估计方法

Info

Publication number: CN110176023A
Application number: CN201910356481.2A
Authority: CN
Inventors: 王瀚漓; 孙泽锋
Original assignee: Tongji University
Current assignee: Tongji University
Priority date: 2019-04-29
Filing date: 2019-04-29
Publication date: 2019-08-27
Anticipated expiration: 2039-04-29
Also published as: CN110176023B

Abstract

本发明涉及一种基于金字塔结构的光流估计方法，包括以下步骤：构建空间金字塔孪生网络模型；构建结构金字塔网络模型，结构金字塔的各个层设置至少一个卷积神经网络，从底层到高层，卷积神经网络的数量依次递减；在光流训练集中获取一组图片对和对应的光流标签；采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样，并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中；参照光流标签，同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调；在光流测试集上，使用该空间金字塔孪生网络模型和结构金字塔网络模型，获得光流测试集的预测光流场。与现有技术相比，本发明具有准确度高、效率高等优点。

Description

一种基于金字塔结构的光流估计方法

技术领域

本发明涉及一种光流估计方法，尤其是涉及一种基于金字塔结构的光流估计方法。

背景技术

光流是图像亮度模式的表观运动。当人的眼睛观察运动物体时，物体的景象在人眼的视网膜上形成一系列连续变化的图像，这一系列连续变化的信息不断“流过”视网膜(即图像平面)，好像一种光的“流”，故称之为光流。从本质上说，光流就是你在这个运动着的世界里感觉到的明显的视觉运动。光流表达了图像的变化，由于它包含了目标运动的信息，因此可被观察者用来确定目标的运动情况。由光流的定义可以引申出光流场，它是指图像中所有像素点构成的一种二维瞬时速度场，其中的二维速度矢量是景物中可见点的三维速度矢量在成像表面的投影。

对光流的研究已经成为计算机视觉及有关研究领域中的一个重要部分。二十多年来，多种光流估计的方法被提出，光流估计的准确性也不断得到提高。但是基于梯度的传统光流计算方法有多个前提假设，比如相邻帧之间的亮度恒定，相邻视频帧的取帧时间连续，相邻帧之间物体的运动比较“微小”，保持空间一致性等。这些假设可能影响在真实情况下的光流计算，导致在实际应用中准确度下降。同时，由于传统光流法采用迭代的方法，计算复杂耗时。基于匹配的传统光流估计算法通过不断地对目标主要特征区域进行定位、跟踪和匹配来计算稀疏光流。虽然这类算法可以对大位移运动和亮度变化的鲁棒性，但难以估计亚像素精度的光流且计算耗时。这两类传统方法如果没有特殊的硬件支持，很难应用于视频序列的实时检测。

如今，随着深度学习的发展，越来越多的研究领域开始借助深度学习的方法获得更多研究成果，比如图像分类、目标识别等等。深度学习是机器学习中一种基于对数据进行表征学习的方法。观测值可以使用多种方式来表示，如每个像素强度值的向量，或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务。深度学习能够通过对大量数据的学习获得提取特征的能力，从而替代手工获取特征。使用深度学习技术进行光流估计能够获得比传统光流法更高的准确度，并且大大提高光流估计的速度，达到接近实时检测的效果。

发明内容

本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于金字塔结构的光流估计方法。

本发明的目的可以通过以下技术方案来实现：

一种基于金字塔结构的光流估计方法，包括以下步骤：

S1：构建空间金字塔孪生网络模型；

S2：构建结构金字塔网络模型，结构金字塔的各个层设置至少一个卷积神经网络，从底层到高层，卷积神经网络的数量依次递减；

S3：在光流训练集中获取一组图片对和对应的光流标签；

S4：采用空间金字塔孪生网络模型对图片对进行多尺度特征提取和下采样，并将提取的特征对输入到结构金字塔网络模型对应层的卷积神经网络中；

S5：参照光流标签，同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调；

S6：在光流测试集上，使用步骤S5获得的空间金字塔孪生网络模型和结构金字塔网络模型，获得光流测试集的预测光流场。

进一步地，所述步骤S2中，结构金字塔的每一层中，采用稠密连接的方式将卷积神经网络两两连接，前一个卷积神经网络的输出作为后一个卷积神经网络的输入；

层与层之间，每一层的输出经过上采样后作为下一层的输入，最高层的输出经过上采样后，使得分辨率与输入图片分辨率相同，作为结构金字塔的输出结果。

进一步地，所述步骤S4中，对图片对进行多尺度特征提取和下采样，在空间金字塔的每个层获得不同分辨率和通道数的特征对，具体过程包括：

S401：将一对图片分别输入到空间金字塔孪生网络模型的两个输入流中；

S402：对两张图片进行多尺度特征提取，并对特征进行激活处理；

S403：对特征进行下采样；

S404：重复步骤S402和S403多次，获取多组特征对，分别作为位于结构金字塔不同层的卷积神经网络的输入，具体为：将空间金字塔孪生网络模型未被输入的特征对中分辨率最小的特征对，从最底层开始，输入结构金字塔一层中的每一个卷积神经网络中。

进一步地，所述步骤S4中，结构金字塔中的卷积神经网络接收到特征对后，首先在卷积神经网络的WCC模块中，对特征对进行特征扭曲(Warping)和代价体构建(CostVolume)，再衔接代价体、初始光流和特征对中的第一个特征(Concatenation)，计算残差光流，将初始光流和残差光流相加，得到优化后的光流场，最后输入到下一个卷积神经网络作为初始光流，结构金字塔最底层的第一个卷积神经网络的初始光流场为0。

进一步地，所述特征扭曲的表达式为；

式中，为输入结构金字塔第L层卷积神经网络的特征对中的第二个特征，为特征经过特征扭曲后的特征，为在坐标(x,y)处的特征向量，为在坐标(x,y)处的特征向量，u(x,y)为坐标(x,y)处的光流水平方向的分量，v(x,y)为坐标(x,y)处的光流竖直方向的分量。

进一步地，为了减少计算量，只计算局部特征代价体，所述代价体CV的表达式为：

式中，CV(x,y)为坐标(x,y)的代价体，为输入结构金字塔第L层卷积神经网络的特征对中的第一个特征，为在坐标(x,y)处的特征向量，d为计算局部特征代价的范围，N为的长度。

进一步地，所述计算残差光流f_residual的表达式为：

式中，f_initial为初始光流，为结构金字塔第L层第n个卷积神经网络。

进一步地，所述预测光流f_predicted的表达式为：

f_predicted＝f_residual+f_initial

进一步地，所述步骤S5中，结构金字塔网络模型在训练过程中的整体损失之和L(P)₁的表达式为：

式中，P为所有可学习参数的集合，α_l为结构金字塔第l层的损失权重，表示结构金字塔第l层的第n个卷积神经网络计算得到的光流场在(x,y)处的光流向量，表示结构金字塔第l层的第n个卷积神经网络的用于计算损失的标签光流场在(x,y)处的光流向量，γ为正则项的权重，|·|_k为计算k-范数。

进一步地，所述步骤S5中，结构金字塔网络模型在微调过程中的整体损失之和L(P)₂的表达式为：

式中，ε为一个常量参数，q为一个决定对异常值的惩罚程度的参数，q≤1。

与现有技术相比，本发明具有以下优点：

(1)本发明提出一种结构金字塔网络模型，在结构金字塔网络模型的各个层设置不同数量的多个串联的卷积神经网络，并在每个层中使用网络间的稠密连接，从而将参数量和计算量有效分配于结构金字塔的各个层上，在一定程度上提高光流估计效率。

(2)本发明对输入特征对进行了特征扭曲和代价体构建，再衔接代价体、初始光流和特征对中的第一个特征，计算残差光流，将初始光流和残差光流相加，得到优化后的光流场，这样的特征处理方式能增加光流估计的准确度。

(3)本发明将结构金字塔网络模型和空间金字塔网络模型结合，通过空间金字塔孪生网络模型进行多尺度特征提取，再将提取的多尺度特征分别输入到对应结构金字塔网络模型的各个层的卷积神经网络中，空间金字塔孪生网络模型能加快网络的训练速度，并且与结构金字塔网络模型相配合，从而在一定程度上提高光流估计效率。

(4)本发明对图片对进行了多次的多尺度特征提取和下采样，获取了多组具有较强不变性和可区分性的特征对，分别作为位于结构金字塔不同层的卷积神经网络的输入，从而增加了光流估计的准确度。

(5)本发明模型的参数量相比于其它光流估计方法的模型较少，有利于提高光流估计效率。

附图说明

图1为本发明的原理框架示意图；

图2为本发明训练模型流程图；

图3为本发明在Sintel测试集中部分结果的可视化，其中(3a)是Sintel训练集中某相邻图片对的第一张图片，(3b)是光流场标签的可视化展示，用于对比预测结果，(3c)是训练集上预测的光流场可视化结果，(3d)是Sintel测试集中某相邻图片对的第一张图片，(3e)是测试集上预测的光流场可视化结果；

图4为本发明在KITTI测试集中部分结果的可视化，其中(4a)是KITTI训练集中某相邻图片对的第一张图片，(4b)是光流场标签的可视化展示，用于对比预测结果，(4c)是训练集上预测的光流场可视化结果，(4d)是Sintel测试集中某相邻图片对的第一张图片，(4e)是测试集上预测的光流场可视化结果；

图5为各种光流估计方法的参数量比较图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

如图1和图2所示，本实施例提供一种基于金字塔结构的光流估计方法，包括以下步骤：

步骤1：构建一个5层的空间金字塔孪生网络模型(Spatial Pyramid)。

步骤2：构建一个5层的结构金字塔网络模型(Structural Pyramid)，结构金字塔的最底层设置5个卷积神经网络，从底层到高层，卷积神经网络的数量依次减1；

结构金字塔的连接规则包括：

每一层中，采用稠密连接的方式将卷积神经网络两两连接，前一个卷积神经网络的输出作为后一个卷积神经网络的输入；

步骤3：使用空间金字塔孪生网络模型，用于对输入的每一对图片进行特征提取和下采样，在空间金字塔的每个层提取不同分辨率和通道数的特征对，具体为：

3a)将一对图片分别输入到孪生网络的两个输入流中；

3b)每一个卷积层的两个输入流共享该层的参数，对两张图片进行特征提取，使用ReLU激活函数对提取的特征进行激活处理；

3c)使用步幅(stride)为2的卷积层对特征进行下采样，特征的分辨率变为原来的四分之一；

3d)重复步骤3b)和步骤3c)5次，获取5组特征对，分别作为位于结构金字塔不同层的卷积神经网络的输入。

步骤4：将空间金字塔孪生网络模型未被输入的特征对中分辨率最小的特征对，从最底层开始，输入结构金字塔一层中的每一个卷积神经网络中。

步骤5：在当前层中，获得由上一个卷积神经网络计算的初始光流场，(结构金字塔最底层的第一个卷积神经网络的初始光流场为0)，卷积神经网络在WCC模块中结合初始光流场，对输入特征对进行特征扭曲和构建代价体的操作，再衔接代价体、初始光流场和特征对中的第一个特征，进行卷积计算残差光流。

5a)设为输入结构金字塔第L层卷积神经网络的特征对，f_initial为当前L层第n个卷积神经网络获得的初始光流，(u,v)^T为初始光流f_initial的水平方向和竖直方向的分量，则在某个坐标(x,y)处的特征向量为该特征向量的长度为N，某个坐标(x,y)处的光流水平方向的分量为u(x,y)，竖直方向的分量为v(x,y)；

5b)根据初始光流f_initial水平方向和竖直方向的分量，对特征进行特征扭曲。设经过特征扭曲后的特征为公式如下：

5c)使用经过特征扭曲后的特征和构建代价体CV。为了减少计算量，只计算局部特征代价体，设d为计算局部特征代价的范围，公式如下：

5d)衔接代价体CV、初始光流场f_initial和特征对中的进行卷积计算残差光流：

步骤6：将初始光流光流和残差光流相加就得到优化后的光流场，输入到下一个卷积神经网络作为初始光流。

将残差光流和初始光流相加，获得预测光流，其表达式为：

f_predicted＝f_residual+f_initial

步骤7：重复步骤5和步骤6，直到结构金字塔的当前层的所有卷积神经网络先后都优化过光流。

步骤8：使用反卷积层(Deconv)将多次优化的光流场进行上采样，传递到空间金字塔的下一个层。

步骤9：重复步骤6和步骤7，直到获得光流场分辨率与输入图片分辨率相同，此时获得的光流场即为模型待训练的预测光流场。

步骤10：在光流训练集上同时对空间金字塔孪生网络模型和结构金字塔网络模型进行训练和微调。

10a)在飞椅数据集上同时训练空间金字塔孪生网络模型和结构金字塔网络模型。结构金字塔网络模型中的每一个卷积神经网络G都同时进行训练。在训练过程中，结构金字塔网络模型的不同层的卷积神经网络G有不同的损失权重，从第一层到第五层的损失权重分别设置为α₁＝0.32,α₂＝0.08,α₃＝0.02,α₄＝0.01,α₅＝0.005。设P为所有可学习参数的集合，表示结构金字塔第l层的第n个卷积神经网络计算得到的光流场在(x,y)处的光流向量，表示结构金字塔第l层的第n个卷积神经网络的用于计算损失的标签光流场在(x,y)处的光流向量。设γ为正则项的权重。|·|_k表示计算k-范数。ε表示一个常量参数，q≤1为一个决定惩罚程度的参数。

10b)在训练过程中的整体损失之和：

10c)在训练过程中的整体损失之和：

步骤11：在光流测试集上，使用步骤10获得的空间金字塔孪生网络模型和结构金字塔网络模型对图片对进行光流估计，获得光流测试集的预测光流场。

步骤12：测试结果使用average end point error(AEPE)来衡量，即预测光流场上所有光流向量和标签光流场上所有光流向量的欧式距离的平均值。在KITTI2015测试集上也使用Fl-all指标衡量异常光流向量占所有光流向量的百分比。

在对待处理图片进行光流估计时，也采用上述步骤10获得的空间金字塔孪生网络模型和结构金字塔网络模型，获得预测光流场。

本发明的另一实施例中，还提供一种基于金字塔结构的光流估计装置，包括处理器和存储器，所述存储器保存有计算机程序，所述处理器调用计算机程序执行如上所述的基于金字塔结构的光流估计方法的步骤。

为了验证本发明的性能，设计了以下三组实验。

实验一：结构金字塔相同层中的小型网络间使用稠密连接(with DC)和不使用稠密连接(w/o DC)的光流估计效果比较。

实验选取FlyingChairs训练集作为训练数据集，FlyingChairs验证集、Sintel、KITTI训练集作为测试数据，在一块Titan X GPU上进行本实验。在该对比实验中，除了是否在小型网络间使用稠密连接外，其他设置都相同。在FlyingChairs训练集训练完成后，分别在FlyingChairs验证集，Sintel，KITTI训练集上进行测试。对比实验测试结果AEPE如表1所示。从结果中可知，本发明在每个结构金字塔层中使用小型网络间的稠密连接能够提高光流估计的准确度。

表1本实验在小型网络间使用稠密连接(with DC)和不使用稠密连接(w/o DC)的光流估计效果比较

实验二：光流估计准确度以及估计速度比较。

在五个公开光流数据集(即：FlyingChairs、Sintel clean、Sintel final、KITTI2012、KITTI2015)上，按照相应数据集的实验规定进行训练和测试。在FlyingChairs验证集，Sintel clean测试集、Sintel final测试集，KITTI2012测试集上，实验输出averageend point error(AEPE)值；在KITTI 2015测试集上，实验输出Fl-all值。在上述五个数据集上，本发明的实验结果分别是1.63，4.40，5.51，1.7和9.15％，在Titan X GPU上计算分辨率1024x438的图片对的光流的时间为0.07s。测试实验结果证明本发明与目前公布的主流算法相比具有很大优势，具有较好的估计准确率和实时性。

实验三：如图5所示，本实验对比了本发明光流估计方法网络模型(StruPyNet)与其它各种光流估计方法网络模型的参数量,结果证明本发明光流估计方法网络模型的参数量较少。

以上所述仅为本发明的优选实施例，并不用于限制本发明。本发明还包括由以上技术特征任意组合所组成的技术方案。

Claims

1.一种基于金字塔结构的光流估计方法，其特征在于，包括以下步骤：

S1：构建空间金字塔孪生网络模型；

S3：在光流训练集中获取一组图片对和对应的光流标签；

2.根据权利要求1所述的一种基于金字塔结构的光流估计方法，其特征在于，所述步骤S2中，结构金字塔的每一层中，采用稠密连接的方式将卷积神经网络两两连接，前一个卷积神经网络的输出作为后一个卷积神经网络的输入；

层与层之间，每一层的输出经过上采样后作为下一层的输入，最高层的输出经过上采样后作为结构金字塔的输出结果。

3.根据权利要求1所述的一种基于金字塔结构的光流估计方法，其特征在于，所述步骤S4中，对图片对进行多尺度特征提取和下采样的具体过程包括：

S403：对特征进行下采样；

S404：重复步骤S402和S403多次，获取多组特征对，分别作为位于结构金字塔不同层的卷积神经网络的输入。

4.根据权利要求1所述的一种基于金字塔结构的光流估计方法，其特征在于，所述步骤S4中，结构金字塔中的卷积神经网络接收到特征对后，首先对特征对进行特征扭曲和代价体构建，再衔接代价体、初始光流和特征对中的第一个特征，计算残差光流，将初始光流和残差光流相加，得到优化后的光流场，最后输入到下一个卷积神经网络作为初始光流。

5.根据权利要求4所述的一种基于金字塔结构的光流估计方法，其特征在于，所述特征扭曲的表达式为：

6.根据权利要求4所述的一种基于金字塔结构的光流估计方法，其特征在于，所述代价体CV的表达式为：

7.根据权利要求4所述的一种基于金字塔结构的光流估计方法，其特征在于，所述计算残差光流f_residual的表达式为：

8.根据权利要求1所述的一种基于金字塔结构的光流估计方法，其特征在于，所述步骤S5中，结构金字塔网络模型在训练过程中的整体损失之和L(P)₁的表达式为：

9.根据权利要求8所述的一种基于金字塔结构的光流估计方法，其特征在于，所述步骤S5中，结构金字塔网络模型在微调过程中的整体损失之和L(P)₂的表达式为：