CN116309698A - 一种基于运动特征弥补引导的多帧光流估计方法 - Google Patents
一种基于运动特征弥补引导的多帧光流估计方法 Download PDFInfo
- Publication number
- CN116309698A CN116309698A CN202310038906.1A CN202310038906A CN116309698A CN 116309698 A CN116309698 A CN 116309698A CN 202310038906 A CN202310038906 A CN 202310038906A CN 116309698 A CN116309698 A CN 116309698A
- Authority
- CN
- China
- Prior art keywords
- motion
- optical flow
- feature
- motion feature
- flow estimation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 61
- 238000000034 method Methods 0.000 title claims abstract description 41
- 230000006870 function Effects 0.000 claims description 19
- 230000007246 mechanism Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 3
- 230000010354 integration Effects 0.000 claims description 2
- 238000010586 diagram Methods 0.000 description 9
- 238000013135 deep learning Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 6
- 238000000605 extraction Methods 0.000 description 5
- 230000000875 corresponding effect Effects 0.000 description 4
- 239000004973 liquid crystal related substance Substances 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000013459 approach Methods 0.000 description 3
- 230000006872 improvement Effects 0.000 description 3
- 230000001575 pathological effect Effects 0.000 description 3
- 230000008439 repair process Effects 0.000 description 3
- 230000009286 beneficial effect Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000005065 mining Methods 0.000 description 2
- 238000005070 sampling Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000002596 correlated effect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 230000008092 positive effect Effects 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 230000000153 supplemental effect Effects 0.000 description 1
- 238000004800 variational method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/246—Analysis of motion using feature-based methods, e.g. the tracking of corners or segments
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T5/00—Image enhancement or restoration
Abstract
本发明涉及一种基于运动特征弥补引导的多帧光流估计方法,包括以下步骤:提取至少连续两帧的输入图像的图像特征;基于相邻两帧的输入图像的图像特征,采用运动编码器得到初始运动特征;将初始运动特征和历史集成特征输入至MFC单元,所述MFC单元通过交叉注意力得到增强运动特征,并与初始运动特征合并得到集成特征;将所述集成特征输入至迭代模块进行迭代计算,得到最终光流。本发明可以大大改进光流估计在遮挡区域的性能。
Description
技术领域
本发明涉及光流估计技术领域,特别是涉及一种基于运动特征弥补引导的多帧光流估计方法。
背景技术
运动分析是现阶段计算机视觉领域中具有挑战性的一个重要环节,在诸如自动驾驶,运动识别,场景环境理解,机器人等诸多领域都有着广泛的应用。随着人工智能技术的发展,现代的智能设备更期待可以在动态的环境中具有感知能力。光流(OpticalFlow)场描述的像素在前(参考帧)后(目标帧)图像帧中的位置变化关系,即从序列图像中的第It帧到第It+1帧的一个稠密的2D位移场。光流逐渐作为一个提供稠密对应关系的重要信息,为与视频流的运动相关的预测任务,提供重要的运动线索,从而服务于高层的实际应用,例如自动驾驶,行为识别,视频超分,视频插帧等。
光流估计方案的研究到现在已经有近50年的研究历史。早期的方法基于变分法框架,1976年由Horn和Schunck提出。变分法利用最简单的像素灰度作为参考像素和目标像素的匹配度描述,将光流场的匹配问题抽象成了泛函最小化的问题,并通过迭代的方法来求解光流估计问题。变分法框架涉及到的能量函数,在迭代计算的过程中复杂度较高而且容易陷入局部最优解。为了弥补变分法的不足,研究者也尝试从不同的方向进行改进。随着计算机视觉应用的流行,CNNs(卷积神经网络)逐渐体现出其重要性,基于深度学习的光流估计方法也呈现出必然的趋势。基于深度学习的光流估计方法自FlowNet提出后又经过了多年的发展,并且在近些年的发展中,已经在很多的场景中达到很高的精度,但即便如此,也很难在遮挡领域进行合理的推理估计。
2015年提出的FlowNet(S,C)是深度学习领域第一个对光流估计探索的方法,该方法奠定了深度学习在光流估计领域的基础。FlowNet(见图1)的提出展示了基于深度学习的光流估计算法的可能性,虽然它的光流估计精度与最优的传统方法相比仍有一定的差距,但是它证明了在深度学习的帮助下,光流估计任务可以同时关注到算法的运行速度和结果的精度。
为了进一步对网络结构进行改进,2018年提出的PWC-Net(见图2)利用特征金字塔网络自身下采样的性质,改进后的由粗到细策略将特征提取和下采样过程融为一体,提高了网络的运行效率。同时借助稠密连接、空洞卷积以及残差连接等多种深度学习技术手段,PWC-Net大幅提高了光流估计精度,相对于最优的传统方案也取得了绝对的领先。由于当前采用由粗到细策略的网络模型缺乏对特征提取模块的关注,该类方法在弱纹理、阴影等病态区域表现较差,同时运动边缘处的估计结果也比较模糊。2020提出的RAFT(见图3)通过一个4D代价体存储匹配代价,并通过一个迭代单元进行光流的迭代更新,将光流估计的精度达到了一个新的高度。后续有很多基于此的方法,但是这些方法在遮挡区域的推理性能都不是理想,也是现阶段大多数光流估计算法亟需改善的问题。
光流在遮挡区域是病态的,这是因为这些区域违反了亮度的一致性约束,因此解决遮挡带来的影响极大影响了光流估计的精度。在经典的变分法中,将遮挡区域作为异常值并通过优化鲁棒的目标函数的方法来处理遮挡的问题。其他也有一些方法同时估计光流和遮挡区域,也对遮挡区域的光流估计结果有了明显的改善。在一些无监督的方法中,遮挡掩码的计算就非常重要,因为方法中需要忽略掉遮挡区域的光度损失。在一些自监督方法中,遮挡掩码也是特征筛选中的必要,用来处理因遮挡造成的模糊。但即便如此,遮挡区域的光流估计精度仍有很大的改善空间。
首先介绍遮挡的定义,遮挡点表示一个点在可见状态和不可见状态之间进行了切换,如图4所示,该图展示了遮挡最常见的一种情况,碗的边缘从手指的后面移出来。这种情况是因为场景中物体的相对运动导致的相互遮挡。图5展示了另外一种遮挡,刀片的一部分移出了帧外。这两种情况都展示了遮挡点在光流的角度上是病态的,因为在目标帧中找不到与候选帧对应的匹配点。也就是说,对于这些遮挡点,找不到正确的点匹配关系。因此,在后续求解得到的特征图上,遮挡区域的特征也不具有一致性,进而在后续的特征匹配阶段会造成模糊。这种情况在双帧光流估计网络中更加严重。
由于遮挡造成模糊的代价体将会导致无法在遮挡区域进行光流推理。为了解决遮挡造成了光流精度下降的问题,在早期的变分法中,研究者会引入额外的目标函数来对遮挡区域进行约束。在深度学习时代,研究者通过卷积神经网络(CNNs)来生成遮挡掩码,但性能不佳。然后即便如此,考虑到运动特征的相关性,遮挡区域的一些点将可能和前一帧找到相应的匹配性,也有一些研究表明,从多帧图像中挖掘特征将有利于为场景中的运动提供补充信息。
发明内容
本发明提供一种基于运动特征弥补引导的多帧光流估计方法,能够解决由于遮挡造成的模糊问题。
本发明解决其技术问题所采用的技术方案是:提供一种基于运动特征弥补引导的多帧光流估计方法,包括以下步骤:
提取至少连续两帧的输入图像的图像特征;
基于相邻两帧的输入图像的图像特征,采用运动编码器得到初始运动特征;
将初始运动特征和历史集成特征输入至MFC单元,所述MFC单元通过交叉注意力得到增强运动特征,并与初始运动特征合并得到集成特征;
将所述集成特征输入至迭代模块进行迭代计算,得到最终光流。
所述基于所述图像特征,采用运动编码器得到初始运动特征,包括:
基于相邻两帧的输入图像的图像特征求取代价体;
采用运动编码器对代价体进行特征提取,得到初始运动特征。
所述增强运动特征表示为:其中,/>表示增强运动特征/>的第i个维度的分量,f(·)表示注意力函数,Q(·)、κ(·)、υ(·)分别表示查询矩阵、键、值向量的投影函数,yi表示初始运动特征y的第i个维度的分量,yj表示初始运动特征y的第j个维度的分量,xj表示历史集成特征x的第j个维度的分量。
所述注意力函数采用softmax函数。
所述MFC单元在注意力函数中引入稀疏注意力机制。
有益效果
由于采用了上述的技术方案,本发明与现有技术相比,具有以下的优点和积极效果:本发明通过MFC单元可以保证在结果正确的基础上,减少冗余的匹配的关系,同时相比于现有方法,本发明可以大大改进光流估计在遮挡区域的性能。
附图说明
图1是现有技术中FlowNet的框架示意图;
图2是现有技术中PWC-Net的框架示意图;
图3是现有技术中RAFT光流估计框架示意图;
图4是遮挡定义示例图;
图5是光流遮挡和运动模糊示例图;
图6是本发明实施方式的框架示意图;
图7是本发明实施方式中MFC单元的结构示意图;
图8是本发明实施方式中稀疏注意力机制的示意图;
图9是本发明实施方式的效果图;
图10是本发明实施方式与RAFT光流估计框架的效果对比图;
图11是本发明实施方式在真实世界场景中应用的效果图。
具体实施方式
下面结合具体实施例,进一步阐述本发明。应理解,这些实施例仅用于说明本发明而不用于限制本发明的范围。此外应理解,在阅读了本发明讲授的内容之后,本领域技术人员可以对本发明作各种改动或修改,这些等价形式同样落于本申请所附权利要求书所限定的范围。
给定连续的图像特征gθ(It)和gθ(It+1),其中,gθ(·)为特征提取器。相关体层将会基于两个图像特征求解出4D的代价体代价体/>中的网格采样的中心的偏移量将对应到光流OFt→t+1。采样得到的运动特征MF将会存储帧It中每个像素与其最相关的匹配点,最终的光流估计结果将由MF通过CNNs块迭代计算得到。这种工作流程在大多数视频流场景中的效果都较为不错,但对于遮挡的情况,采样生成的MF特征将会跨越到代价体的边界,因此造成匹配点的模糊。换句话说,在遮挡区域进行网络采样时,将无法决定最相关的匹配点。如图5所示,点A′从t时刻将会移动到t+1时刻的点A″,此时该点已经不可见。目标点的不可见性将会在生成运动特征的过程中导致模糊的网格采样,从而无法为后续的迭代模块产生一个合理的运动特征。连续多个数据帧携带了关于物体的运动信息,这有利于对运动特征的恢复和对时间相关性进行约束。
为了解决由于遮挡造成的模糊,本发明的实施方式涉及一种基于运动特征弥补引导的多帧光流估计方法,包括以下步骤:提取至少连续两帧的输入图像的图像特征;基于相邻两帧的输入图像的图像特征,采用运动编码器得到初始运动特征;将初始运动特征和历史集成特征输入至MFC单元,所述MFC单元通过交叉注意力得到增强运动特征,并与初始运动特征合并得到集成特征;将所述集成特征输入至迭代模块进行迭代计算,得到最终光流。
上述方法基于一个多帧光流框架,用于集成历史运动和修复模糊的运动特征。如图6所示,以四帧光流为例,给定It-2、It-1、It和It+1四帧输入图像,网络的目标是求解It到It+1的光流其中,上标I表示融合了历史帧中的所有信息,与OFt→t+1相区别。该框架会首先通过共享的卷积神经网络gθ(·)提取特征,相关体层将会基于gθ(Ik)和gθ(Ik+1)求解出4D的代价体/>即每两个相邻特征进行一次代价体的求解。通过运动编码器,将代价体/>基于运动特征编码得到运动特征MFk,随后会通过一个MFC单元进行特征之间的相关性挖掘,基于此,将会优化原先模糊的运动特征MFk,最后得到优化后的特征。通过连接MFk和优化后的特征得到集成特征,最后通过迭代模块得到最终的光流。
对于特征编码器,采用的六层残差层,与RAFT等网络一致。对于代价体,其公式化表达如下:
由于遮挡造成的模糊特征很难通过两帧图像特征进行缓解,这是因为在遮挡区域的局部信息是不充分的。但是,通过帧序列对时间相关性建模则可以为场景中的运动提供非局部信息,可以理解成对病态光流的一种非局部插值。
假设在一个较短的时间帧Δt内,尽管从t到t+1时刻推理得到的运动特征MFt是模糊的,但是通过帧序列对时间相关性进行建模,进而对MFt进行弥补和修复。从连续的图像帧It-1、It和It+1中可以推理得到运动特征MFt-1和MFt。在较短的时间Δt内,MFt-1和MFt在特征域内是内部一致的,即使MFt是模糊的,但是可以通过MFt-1来修复MFt。本实施方式会通过历史帧提取运动特征,基于相关性对运动特征MFt进行弥补,也就是说,本实施方式会更关注于相似的特征区域来修复特征。本实施方式采用注意力机制进行建模,不过和自注意力机制不同的是,本实施方式衡量的是不同时刻的运动特征的相似性,因此是一种交叉注意力机制。
如图7所示,经过前面阶段的计算,可以得到一个历史集成特征此外对图像对{It,It+1}进行特征提取等一系列操作后可以得到初始的模糊特征MFt。这里以/>代表/>以/>代表MFt。则通过交叉注意力后,得到的增强后的运动特征为/>用/>表示,则/>的表达式为:
三个投影函数表示为:
Q(yi)=Wqry(yi)
κ(xj)=Wkey(xj)
υ(yj)=Wval(yj)
本实施方式中可以在注意力机制上考虑位置编码的影响,则有:
其中,Posj-i为相对位置编码,可以根据索引j-i得到。由此可见,MFC单元的最终输出为:
历史特征和当前时刻特征的相关性有利于对当前的模糊特征进行修复,但并非所有的历史信息都是有意义的,因此将历史信息全部引入的同时也不会导致噪声。因此在进行特征修复的过程中时,应该更加关注具有很强相关性的特征,即需要选取相关的特征进行修复,而不相关的特征则可以适当丢弃。本实施方式采用注意力进制进行对相关性的建模,因此为了筛选出不相关的特征,可以在注意力矩阵中加入了稀疏注意力机制,其原理如图8所示。因此,前面求解注意力的过程,对于注意力函数,则可以改写为:
本实施方式的方法可以大大改进光流估计在遮挡区域的性能。需要说明的是,本实施方式的方法尽管是为了解决遮挡区域光流精度下降的问题,但该方法同样适用于非遮挡区域,尤其是对噪声区域同样有效,因此本实施方式的方法在全局都有很明显的精度提升。如图9所示,通过MFC单元,本实施方式的方法可以保证在结果正确的基础上,减少冗余的匹配的关系,并且在结果上,可以得到更加准确的结果。图10提供了本实施方式的方法与现有技术的性能对比结果,可见本实施方式的方法可以大大提高光流估计的精度。在真实世界场景中,本实施方式的方法也可以有很明显的精度改善,如图11所示。
Claims (7)
1.一种基于运动特征弥补引导的多帧光流估计方法,其特征在于,包括以下步骤:
提取至少连续两帧的输入图像的图像特征;
基于相邻两帧的输入图像的图像特征,采用运动编码器得到初始运动特征;
将初始运动特征和历史集成特征输入至MFC单元,所述MFC单元通过交叉注意力得到增强运动特征,并与初始运动特征合并得到集成特征;
将所述集成特征输入至迭代模块进行迭代计算,得到最终光流。
2.根据权利要求1所述的基于运动特征弥补引导的多帧光流估计方法,其特征在于,所述基于所述图像特征,采用运动编码器得到初始运动特征,包括:
基于相邻两帧的输入图像的图像特征求取代价体;
采用运动编码器对代价体进行特征提取,得到初始运动特征。
5.根据权利要求3所述的基于运动特征弥补引导的多帧光流估计方法,其特征在于,所述注意力函数采用softmax函数。
7.根据权利要求5所述的基于运动特征弥补引导的多帧光流估计方法,其特征在于,所述MFC单元在注意力函数中引入稀疏注意力机制。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310038906.1A CN116309698A (zh) | 2023-01-11 | 2023-01-11 | 一种基于运动特征弥补引导的多帧光流估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310038906.1A CN116309698A (zh) | 2023-01-11 | 2023-01-11 | 一种基于运动特征弥补引导的多帧光流估计方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116309698A true CN116309698A (zh) | 2023-06-23 |
Family
ID=86815814
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310038906.1A Pending CN116309698A (zh) | 2023-01-11 | 2023-01-11 | 一种基于运动特征弥补引导的多帧光流估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116309698A (zh) |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418032A (zh) * | 2020-11-11 | 2021-02-26 | 北京城市系统工程研究中心 | 一种人体行为识别方法、装置、电子设备及存储介质 |
CN113435421A (zh) * | 2021-08-26 | 2021-09-24 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
CN113808032A (zh) * | 2021-08-04 | 2021-12-17 | 北京交通大学 | 多阶段渐进式的图像去噪算法 |
CN114677412A (zh) * | 2022-03-18 | 2022-06-28 | 苏州大学 | 一种光流估计的方法、装置以及设备 |
CN114723787A (zh) * | 2022-03-01 | 2022-07-08 | 南昌航空大学 | 一种光流计算方法及系统 |
CN114821105A (zh) * | 2022-05-05 | 2022-07-29 | 南昌航空大学 | 一种联合图像金字塔引导和循环交叉注意力的光流计算方法 |
CN115330950A (zh) * | 2022-08-17 | 2022-11-11 | 杭州倚澜科技有限公司 | 基于时序上下文线索的三维人体重建方法 |
-
2023
- 2023-01-11 CN CN202310038906.1A patent/CN116309698A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112418032A (zh) * | 2020-11-11 | 2021-02-26 | 北京城市系统工程研究中心 | 一种人体行为识别方法、装置、电子设备及存储介质 |
CN113808032A (zh) * | 2021-08-04 | 2021-12-17 | 北京交通大学 | 多阶段渐进式的图像去噪算法 |
CN113435421A (zh) * | 2021-08-26 | 2021-09-24 | 湖南大学 | 一种基于跨模态注意力增强的唇语识别方法及系统 |
CN114723787A (zh) * | 2022-03-01 | 2022-07-08 | 南昌航空大学 | 一种光流计算方法及系统 |
CN114677412A (zh) * | 2022-03-18 | 2022-06-28 | 苏州大学 | 一种光流估计的方法、装置以及设备 |
CN114821105A (zh) * | 2022-05-05 | 2022-07-29 | 南昌航空大学 | 一种联合图像金字塔引导和循环交叉注意力的光流计算方法 |
CN115330950A (zh) * | 2022-08-17 | 2022-11-11 | 杭州倚澜科技有限公司 | 基于时序上下文线索的三维人体重建方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN107292912B (zh) | 一种基于多尺度对应结构化学习的光流估计方法 | |
Dockstader et al. | Multiple camera tracking of interacting and occluded human motion | |
CN110378348B (zh) | 视频实例分割方法、设备及计算机可读存储介质 | |
CN111723707B (zh) | 一种基于视觉显著性的注视点估计方法及装置 | |
CN109903315B (zh) | 用于光流预测的方法、装置、设备以及可读存储介质 | |
CN112465872B (zh) | 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法 | |
CN113313810A (zh) | 一种透明物体的6d姿态参数计算方法 | |
CN111612825A (zh) | 基于光流与多尺度上下文的图像序列运动遮挡检测方法 | |
CN115035171A (zh) | 基于自注意力导向特征融合的自监督单目深度估计方法 | |
CN113393496A (zh) | 一种基于时空注意力机制的目标跟踪方法 | |
Wang et al. | PFDN: Pyramid feature decoupling network for single image deraining | |
CN111753670A (zh) | 注意力修复和关键点检测迭代协同的人脸超分方法 | |
Huang et al. | Learning optical flow with R-CNN for visual odometry | |
CN114973071A (zh) | 基于长短期时序特征的无监督视频目标分割方法及系统 | |
CN115861384B (zh) | 基于生成对抗和注意力机制的光流估计方法及系统 | |
CN111275751B (zh) | 一种无监督绝对尺度计算方法及系统 | |
Coelho et al. | Data-driven motion estimation with spatial adaptation | |
CN116309698A (zh) | 一种基于运动特征弥补引导的多帧光流估计方法 | |
CN112446245A (zh) | 一种基于运动边界小位移的高效运动表征方法及装置 | |
CN110942463A (zh) | 一种基于生成对抗网络的视频目标分割方法 | |
CN116188555A (zh) | 一种基于深度网络与运动信息的单目室内深度估计算法 | |
CN115861647A (zh) | 一种基于多尺度全局交叉匹配的光流估计方法 | |
CN114707611A (zh) | 基于图神经网络特征提取与匹配的移动机器人地图构建方法、存储介质及设备 | |
CN114372944B (zh) | 一种多模态和多尺度融合的候选区域生成方法及相关装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |