CN116309698A

CN116309698A - 一种基于运动特征弥补引导的多帧光流估计方法

Info

Publication number: CN116309698A
Application number: CN202310038906.1A
Authority: CN
Inventors: 李嘉茂; 陈勇虎; 朱冬晨; 石文君; 张广慧; 张晓林
Original assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Current assignee: Shanghai Institute of Microsystem and Information Technology of CAS
Priority date: 2023-01-11
Filing date: 2023-01-11
Publication date: 2023-06-23

Abstract

本发明涉及一种基于运动特征弥补引导的多帧光流估计方法，包括以下步骤：提取至少连续两帧的输入图像的图像特征；基于相邻两帧的输入图像的图像特征，采用运动编码器得到初始运动特征；将初始运动特征和历史集成特征输入至MFC单元，所述MFC单元通过交叉注意力得到增强运动特征，并与初始运动特征合并得到集成特征；将所述集成特征输入至迭代模块进行迭代计算，得到最终光流。本发明可以大大改进光流估计在遮挡区域的性能。

Description

一种基于运动特征弥补引导的多帧光流估计方法

技术领域

本发明涉及光流估计技术领域，特别是涉及一种基于运动特征弥补引导的多帧光流估计方法。

背景技术

运动分析是现阶段计算机视觉领域中具有挑战性的一个重要环节，在诸如自动驾驶，运动识别，场景环境理解，机器人等诸多领域都有着广泛的应用。随着人工智能技术的发展，现代的智能设备更期待可以在动态的环境中具有感知能力。光流(OpticalFlow)场描述的像素在前(参考帧)后(目标帧)图像帧中的位置变化关系，即从序列图像中的第I_t帧到第I_t+1帧的一个稠密的2D位移场。光流逐渐作为一个提供稠密对应关系的重要信息，为与视频流的运动相关的预测任务，提供重要的运动线索，从而服务于高层的实际应用，例如自动驾驶，行为识别，视频超分，视频插帧等。

光流估计方案的研究到现在已经有近50年的研究历史。早期的方法基于变分法框架，1976年由Horn和Schunck提出。变分法利用最简单的像素灰度作为参考像素和目标像素的匹配度描述，将光流场的匹配问题抽象成了泛函最小化的问题，并通过迭代的方法来求解光流估计问题。变分法框架涉及到的能量函数，在迭代计算的过程中复杂度较高而且容易陷入局部最优解。为了弥补变分法的不足，研究者也尝试从不同的方向进行改进。随着计算机视觉应用的流行，CNNs(卷积神经网络)逐渐体现出其重要性，基于深度学习的光流估计方法也呈现出必然的趋势。基于深度学习的光流估计方法自FlowNet提出后又经过了多年的发展，并且在近些年的发展中，已经在很多的场景中达到很高的精度，但即便如此，也很难在遮挡领域进行合理的推理估计。

2015年提出的FlowNet(S,C)是深度学习领域第一个对光流估计探索的方法，该方法奠定了深度学习在光流估计领域的基础。FlowNet(见图1)的提出展示了基于深度学习的光流估计算法的可能性，虽然它的光流估计精度与最优的传统方法相比仍有一定的差距，但是它证明了在深度学习的帮助下，光流估计任务可以同时关注到算法的运行速度和结果的精度。

为了进一步对网络结构进行改进，2018年提出的PWC-Net(见图2)利用特征金字塔网络自身下采样的性质，改进后的由粗到细策略将特征提取和下采样过程融为一体，提高了网络的运行效率。同时借助稠密连接、空洞卷积以及残差连接等多种深度学习技术手段，PWC-Net大幅提高了光流估计精度，相对于最优的传统方案也取得了绝对的领先。由于当前采用由粗到细策略的网络模型缺乏对特征提取模块的关注，该类方法在弱纹理、阴影等病态区域表现较差，同时运动边缘处的估计结果也比较模糊。2020提出的RAFT(见图3)通过一个4D代价体存储匹配代价，并通过一个迭代单元进行光流的迭代更新，将光流估计的精度达到了一个新的高度。后续有很多基于此的方法，但是这些方法在遮挡区域的推理性能都不是理想，也是现阶段大多数光流估计算法亟需改善的问题。

光流在遮挡区域是病态的，这是因为这些区域违反了亮度的一致性约束，因此解决遮挡带来的影响极大影响了光流估计的精度。在经典的变分法中，将遮挡区域作为异常值并通过优化鲁棒的目标函数的方法来处理遮挡的问题。其他也有一些方法同时估计光流和遮挡区域，也对遮挡区域的光流估计结果有了明显的改善。在一些无监督的方法中，遮挡掩码的计算就非常重要，因为方法中需要忽略掉遮挡区域的光度损失。在一些自监督方法中，遮挡掩码也是特征筛选中的必要，用来处理因遮挡造成的模糊。但即便如此，遮挡区域的光流估计精度仍有很大的改善空间。

首先介绍遮挡的定义，遮挡点表示一个点在可见状态和不可见状态之间进行了切换，如图4所示，该图展示了遮挡最常见的一种情况，碗的边缘从手指的后面移出来。这种情况是因为场景中物体的相对运动导致的相互遮挡。图5展示了另外一种遮挡，刀片的一部分移出了帧外。这两种情况都展示了遮挡点在光流的角度上是病态的，因为在目标帧中找不到与候选帧对应的匹配点。也就是说，对于这些遮挡点，找不到正确的点匹配关系。因此，在后续求解得到的特征图上，遮挡区域的特征也不具有一致性，进而在后续的特征匹配阶段会造成模糊。这种情况在双帧光流估计网络中更加严重。

由于遮挡造成模糊的代价体将会导致无法在遮挡区域进行光流推理。为了解决遮挡造成了光流精度下降的问题，在早期的变分法中，研究者会引入额外的目标函数来对遮挡区域进行约束。在深度学习时代，研究者通过卷积神经网络(CNNs)来生成遮挡掩码，但性能不佳。然后即便如此，考虑到运动特征的相关性，遮挡区域的一些点将可能和前一帧找到相应的匹配性，也有一些研究表明，从多帧图像中挖掘特征将有利于为场景中的运动提供补充信息。

发明内容

本发明提供一种基于运动特征弥补引导的多帧光流估计方法，能够解决由于遮挡造成的模糊问题。

本发明解决其技术问题所采用的技术方案是：提供一种基于运动特征弥补引导的多帧光流估计方法，包括以下步骤：

提取至少连续两帧的输入图像的图像特征；

基于相邻两帧的输入图像的图像特征，采用运动编码器得到初始运动特征；

将初始运动特征和历史集成特征输入至MFC单元，所述MFC单元通过交叉注意力得到增强运动特征，并与初始运动特征合并得到集成特征；

将所述集成特征输入至迭代模块进行迭代计算，得到最终光流。

所述基于所述图像特征，采用运动编码器得到初始运动特征，包括：

基于相邻两帧的输入图像的图像特征求取代价体；

采用运动编码器对代价体进行特征提取，得到初始运动特征。

所述增强运动特征表示为：

其中，/>

表示增强运动特征/>

的第i个维度的分量，f(·)表示注意力函数，Q(·)、κ(·)、υ(·)分别表示查询矩阵、键、值向量的投影函数，y_i表示初始运动特征y的第i个维度的分量，y_j表示初始运动特征y的第j个维度的分量，x_j表示历史集成特征x的第j个维度的分量。

所述集成特征表示为：

其中，/>

表示集成特征，Concat()为合并函数。

所述注意力函数采用softmax函数。

所述MFC单元在注意力机制中考虑了位置编码的影响，所述增强运动特征表示为：

其中，Pos_j-i为相对位置编码。

所述MFC单元在注意力函数中引入稀疏注意力机制。

有益效果

由于采用了上述的技术方案，本发明与现有技术相比，具有以下的优点和积极效果：本发明通过MFC单元可以保证在结果正确的基础上，减少冗余的匹配的关系，同时相比于现有方法，本发明可以大大改进光流估计在遮挡区域的性能。

附图说明

图1是现有技术中FlowNet的框架示意图；

图2是现有技术中PWC-Net的框架示意图；

图3是现有技术中RAFT光流估计框架示意图；

图4是遮挡定义示例图；

图5是光流遮挡和运动模糊示例图；

图6是本发明实施方式的框架示意图；

图7是本发明实施方式中MFC单元的结构示意图；

图8是本发明实施方式中稀疏注意力机制的示意图；

图9是本发明实施方式的效果图；

图10是本发明实施方式与RAFT光流估计框架的效果对比图；

图11是本发明实施方式在真实世界场景中应用的效果图。

具体实施方式

下面结合具体实施例，进一步阐述本发明。应理解，这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解，在阅读了本发明讲授的内容之后，本领域技术人员可以对本发明作各种改动或修改，这些等价形式同样落于本申请所附权利要求书所限定的范围。

给定连续的图像特征g_θ(I_t)和g_θ(I_t+1)，其中，g_θ(·)为特征提取器。相关体层将会基于两个图像特征求解出4D的代价体

代价体/>

中的网格采样的中心的偏移量将对应到光流OF_t→t+1。采样得到的运动特征MF将会存储帧I_t中每个像素与其最相关的匹配点，最终的光流估计结果将由MF通过CNNs块迭代计算得到。这种工作流程在大多数视频流场景中的效果都较为不错，但对于遮挡的情况，采样生成的MF特征将会跨越到代价体的边界，因此造成匹配点的模糊。换句话说，在遮挡区域进行网络采样时，将无法决定最相关的匹配点。如图5所示，点A′从t时刻将会移动到t+1时刻的点A″，此时该点已经不可见。目标点的不可见性将会在生成运动特征的过程中导致模糊的网格采样，从而无法为后续的迭代模块产生一个合理的运动特征。连续多个数据帧携带了关于物体的运动信息，这有利于对运动特征的恢复和对时间相关性进行约束。

为了解决由于遮挡造成的模糊，本发明的实施方式涉及一种基于运动特征弥补引导的多帧光流估计方法，包括以下步骤：提取至少连续两帧的输入图像的图像特征；基于相邻两帧的输入图像的图像特征，采用运动编码器得到初始运动特征；将初始运动特征和历史集成特征输入至MFC单元，所述MFC单元通过交叉注意力得到增强运动特征，并与初始运动特征合并得到集成特征；将所述集成特征输入至迭代模块进行迭代计算，得到最终光流。

上述方法基于一个多帧光流框架，用于集成历史运动和修复模糊的运动特征。如图6所示，以四帧光流为例，给定I_t-2、I_t-1、I_t和I_t+1四帧输入图像，网络的目标是求解I_t到I_t+1的光流

其中，上标I表示融合了历史帧中的所有信息，与OF_t→t+1相区别。该框架会首先通过共享的卷积神经网络g_θ(·)提取特征，相关体层将会基于g_θ(I_k)和g_θ(I_k+1)求解出4D的代价体/>

即每两个相邻特征进行一次代价体的求解。通过运动编码器，将代价体/>

基于运动特征编码得到运动特征MF_k，随后会通过一个MFC单元进行特征之间的相关性挖掘，基于此，将会优化原先模糊的运动特征MF_k，最后得到优化后的特征。通过连接MF_k和优化后的特征得到集成特征，最后通过迭代模块得到最终的光流。

对于特征编码器，采用的六层残差层，与RAFT等网络一致。对于代价体，其公式化表达如下：

这里(d,i,j)和(d,k,l)代表特征图g_θ(I_t)和g_θ(I_t+1)的元素位置，随后对代价体

进行特征提取将会得到对应的运动特征MF_t。

由于遮挡造成的模糊特征很难通过两帧图像特征进行缓解，这是因为在遮挡区域的局部信息是不充分的。但是，通过帧序列对时间相关性建模则可以为场景中的运动提供非局部信息，可以理解成对病态光流的一种非局部插值。

假设在一个较短的时间帧Δt内，尽管从t到t+1时刻推理得到的运动特征MF_t是模糊的，但是通过帧序列对时间相关性进行建模，进而对MF_t进行弥补和修复。从连续的图像帧I_t-1、I_t和I_t+1中可以推理得到运动特征MF_t-1和MF_t。在较短的时间Δt内，MF_t-1和MF_t在特征域内是内部一致的，即使MF_t是模糊的，但是可以通过MF_t-1来修复MF_t。本实施方式会通过历史帧提取运动特征，基于相关性对运动特征MF_t进行弥补，也就是说，本实施方式会更关注于相似的特征区域来修复特征。本实施方式采用注意力机制进行建模，不过和自注意力机制不同的是，本实施方式衡量的是不同时刻的运动特征的相似性，因此是一种交叉注意力机制。

如图7所示，经过前面阶段的计算，可以得到一个历史集成特征

此外对图像对{I_t,I_t+1}进行特征提取等一系列操作后可以得到初始的模糊特征MF_t。这里以/>

代表/>

以/>

代表MF_t。则通过交叉注意力后，得到的增强后的运动特征为/>

用/>

表示，则/>

的表达式为：

其中，

表示增强运动特征/>

的第i个维度的分量，D_m为特征图的通道数，Q(·)、κ(·)、υ(·)为查询矩阵、键、值向量的投影函数，而则f(·)为注意力函数，具体可以表示为：

三个投影函数表示为：

Q(y_i)＝W_qry(y_i)

κ(x_j)＝W_key(x_j)

υ(y_j)＝W_val(y_j)

其中，

则集成特征/>

标记为/>

则可以表示为：

本实施方式中可以在注意力机制上考虑位置编码的影响，则有：

其中，Pos_j-i为相对位置编码，可以根据索引j-i得到。由此可见，MFC单元的最终输出为：

历史特征和当前时刻特征的相关性有利于对当前的模糊特征进行修复，但并非所有的历史信息都是有意义的，因此将历史信息全部引入的同时也不会导致噪声。因此在进行特征修复的过程中时，应该更加关注具有很强相关性的特征，即需要选取相关的特征进行修复，而不相关的特征则可以适当丢弃。本实施方式采用注意力进制进行对相关性的建模，因此为了筛选出不相关的特征，可以在注意力矩阵中加入了稀疏注意力机制，其原理如图8所示。因此，前面求解注意力的过程，对于注意力函数，则可以改写为：

本实施方式的方法可以大大改进光流估计在遮挡区域的性能。需要说明的是，本实施方式的方法尽管是为了解决遮挡区域光流精度下降的问题，但该方法同样适用于非遮挡区域，尤其是对噪声区域同样有效，因此本实施方式的方法在全局都有很明显的精度提升。如图9所示，通过MFC单元，本实施方式的方法可以保证在结果正确的基础上，减少冗余的匹配的关系，并且在结果上，可以得到更加准确的结果。图10提供了本实施方式的方法与现有技术的性能对比结果，可见本实施方式的方法可以大大提高光流估计的精度。在真实世界场景中，本实施方式的方法也可以有很明显的精度改善，如图11所示。