CN115731263A - 融合移位窗口注意力的光流计算方法、系统、设备及介质 - Google Patents

融合移位窗口注意力的光流计算方法、系统、设备及介质 Download PDF

Info

Publication number
CN115731263A
CN115731263A CN202211339733.9A CN202211339733A CN115731263A CN 115731263 A CN115731263 A CN 115731263A CN 202211339733 A CN202211339733 A CN 202211339733A CN 115731263 A CN115731263 A CN 115731263A
Authority
CN
China
Prior art keywords
attention
optical flow
source image
target image
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211339733.9A
Other languages
English (en)
Inventor
安峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou Industrial Park Institute of Services Outsourcing
Original Assignee
Suzhou Industrial Park Institute of Services Outsourcing
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou Industrial Park Institute of Services Outsourcing filed Critical Suzhou Industrial Park Institute of Services Outsourcing
Priority to CN202211339733.9A priority Critical patent/CN115731263A/zh
Publication of CN115731263A publication Critical patent/CN115731263A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本方案涉及一种融合移位窗口注意力的光流计算方法、系统、计算机设备及存储介质。所述方法包括:获取源图像以及目标图像输入至SwinTransformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;通过移位窗口注意力计算源图像特征图与目标图像特征图之间的相关体;使用移位窗口注意力解析相关体并执行迭代光流计算。由于通过注意力机制可以分析像素间的相似关系,从而根据已知像素推导被遮挡像素的运动情况,解决遮挡的问题。基于此,引入注意力机制到光流计算网络中,解决卷积网络的局部性限制;同时,为了减轻图像注意力计算的负担,引入移位窗口注意力,从而提高了光流计算网络的计算精度。

Description

融合移位窗口注意力的光流计算方法、系统、设备及介质
技术领域
本发明涉及图像处理技术领域,特别是涉及一种融合移位窗口注意力的光流计算方法、系统、计算机设备及存储介质。
背景技术
光流计算旨在找出两幅图像间的像素对应运动关系,在计算机视觉领域中扮演着底层模块的角色,被广泛应用在视觉里程计、自动驾驶、场景重建和动作识别等应用中。一直以来光流计算被视为是优化求解问题,近年来随着深度学习的发展,涌现出较多的端到端深度网络直接计算光流值。端到端的光流计算网络受限于运动模糊、遮挡和大位移的问题,主要原因是当采用卷积网络提取图像特征时,只关注图像的局部特征,忽略了图像的全局自相似性,从而导致了当有像素被遮挡时无法准确预测。其中,遮挡的产生原因复杂,同时也是影响计算结果的主要因素。遮挡指的是在源图像的像素,在目标图像中没有对应像素。
人们提出很多方法来试图解决光流计算中的难题,特征提取和相关体被认为是提高光流计算精度的关键技术。然而当遮挡发生时,遮挡处的源像素在目标图中并没有对应的像素,就会导致通过特征提取、相关体计算的光流计算方法行不通。因此,传统的光流计算方法存在计算精度较低的问题。
发明内容
基于此,为了解决上述技术问题,提供一种融合移位窗口注意力的光流计算方法、系统、计算机设备及存储介质,可以提高光流计算的计算精度。
一种融合移位窗口注意力的光流计算方法,所述方法包括:
获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;
通过移位窗口注意力针对所述源图像特征图中的像素点,计算与所述目标图像特征图中所有像素点的相关性,得到所述源图像特征图与所述目标图像特征图之间的相关体;
使用所述移位窗口注意力解析所述相关体并执行迭代光流计算。
在其中一个实施例中,所述获取源图像以及目标图像,并输入至SwinTransformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图,包括:
通过所述Swin Transformer网络模型分别单独对所述源图像、所述目标图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;或
将所述源图像以及所述目标图像按照通道叠加后得到待处理图像,通过所述SwinTransformer网络模型对所述待处理图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图。
在其中一个实施例中,在结合相对位置编码生成源图像特征图、目标图像特征图之前,所述方法还包括:
将所述源图像中被遮挡部分作为遮挡图像,将所述遮挡图像作为位置编码;
确定所述遮挡图像中的目标像素点,并计算所述目标点与所述遮挡图像的其他所有像素点之间的注意力权重;
根据所述位置编码、所述注意力权重,确定所述相对位置编码。
在其中一个实施例中,A(i,j)是一个矩阵,指定了目标像素点(i,j)与所有其他像素点之间的注意力权重,相对位置偏置B是被加在点(i,j)周围的距离为r的矩形区域;其中,
Figure BDA0003915032690000021
在其中一个实施例中,所述通过移位窗口注意力针对所述源图像特征图中的像素点,计算与所述目标图像特征图中所有像素点的相关性,得到所述源图像特征图与所述目标图像特征图之间的相关体,包括:
分别获取所述源图像特征图中的像素点
Figure BDA0003915032690000022
所述目标图像特征图中所有像素点
Figure BDA0003915032690000023
通过将像素点
Figure BDA0003915032690000024
与像素点
Figure BDA0003915032690000025
点乘的方式计算初始相关体,
Figure BDA0003915032690000026
通过softmax来获取每个像素点与周围其他像素点的注意力权重,并更新存储的数值,得到相关体,
Figure BDA0003915032690000031
在其中一个实施例中,使用所述移位窗口注意力解析所述相关体,包括:
使用所述移位窗口注意力对所述相关体进行解析,得到二维运动向量;
将所述二维运动向量与所述源图像特征图输入至移位窗口,并通过GRU神经网络后输出光流增量。
在其中一个实施例中,使用所述移位窗口注意力解析所述相关体并执行迭代光流计算,包括:
将所述相关体切分为不同的窗口,分别在每个窗口内进行注意力计算得到所述光流增量;
移位窗口,进行迭代光流增量计算,得到光流计算结果。
一种融合移位窗口注意力的光流计算系统,所述系统包括:
特征提取模块,用于获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;
相关体计算模块,用于通过移位窗口注意力针对所述源图像特征图中的像素点,计算与所述目标图像特征图中所有像素点的相关性,得到所述源图像特征图与所述目标图像特征图之间的相关体;
光流计算模块,用于使用所述移位窗口注意力解析所述相关体并执行迭代光流计算。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;
通过移位窗口注意力针对所述源图像特征图中的像素点,计算与所述目标图像特征图中所有像素点的相关性,得到所述源图像特征图与所述目标图像特征图之间的相关体;
使用所述移位窗口注意力解析所述相关体并执行迭代光流计算。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;
通过移位窗口注意力针对所述源图像特征图中的像素点,计算与所述目标图像特征图中所有像素点的相关性,得到所述源图像特征图与所述目标图像特征图之间的相关体;
使用所述移位窗口注意力解析所述相关体并执行迭代光流计算。
上述融合移位窗口注意力的光流计算方法、系统、计算机设备及存储介质,通过获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;通过移位窗口注意力针对所述源图像特征图中的像素点,计算与所述目标图像特征图中所有像素点的相关性,得到所述源图像特征图与所述目标图像特征图之间的相关体;使用所述移位窗口注意力解析所述相关体并执行迭代光流计算。由于通过注意力机制可以分析像素间的相似关系,从而根据已知像素推导被遮挡像素的运动情况,解决遮挡的问题。基于此,引入注意力机制到光流计算网络中,解决卷积网络的局部性限制;同时,为了减轻图像注意力计算的负担,引入移位窗口注意力,从而提高了光流计算网络的计算精度。
附图说明
图1为一个实施例中融合移位窗口注意力的光流计算方法的应用环境图;
图2为一个实施例中融合移位窗口注意力的光流计算方法的流程示意图;
图3为一个实施例中SWin的网络架构示意图;
图4为图3SWin的网络架构中一个注意力模块的详细结构示意图;
图5为一个实施例中融合移位窗口注意力的光流计算的网络结构示意图;
图6为实验过程中Sintel下的部分场景图;
图7为实验过程中特征图与注意力特征图;
图8为实验过程中在KITTI数据集上的光流计算结果图形化显示示意图;
图9为实验过程中在FlyingChairs数据集上的光流计算结果图形化显示示意图;
图10为在实验过程中在Sintel数据集上的光流计算结果图形化显示示意图;
图11为一个实施例中融合移位窗口注意力的光流计算系统的结构框图;
图12为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请实施例提供的融合移位窗口注意力的光流计算方法,可以应用于如图1所示的应用环境中。如图1所示,该应用环境包括计算机设备110。计算机设备110可以获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;计算机设备110可以通过移位窗口注意力针对源图像特征图中的像素点,计算与目标图像特征图中所有像素点的相关性,得到源图像特征图与目标图像特征图之间的相关体;计算机设备110可以使用移位窗口注意力解析所述相关体并执行迭代光流计算。其中,计算机设备110可以但不限于是各种个人计算机、笔记本电脑、机器人、无人飞行器、平板电脑等设备。
在一个实施例中,如图2所示,提供了一种融合移位窗口注意力的光流计算方法,包括以下步骤:
步骤202,获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图。
计算机设备可以获取源图像以及目标图像,其中,定义I1为源图像,I2为目标图像,高和宽分别为H和W,每个像素的图像通道是3,因此计算机设备中可以使用维度为[3,H,W]的张量存储一幅图片。
计算机设备获取到源图像以及目标图像后,可以输入至Swin Transformer网络模型中进行特征提取。常见的特征提取方法是通过将图像输入到卷积网络进行处理,得到的被称为特征图,这种方法可以有效避免图像的色彩变化、噪声等对计算结果造成的损坏;然而当遮挡发生时,遮挡处的源像素在目标图中并没有对应的像素,就会导致通过特征提取行不通,原因是卷积网络在特征提取时的局部性特点,即卷积核只关心像素周围的部分区域,不能解决图像像素的全局相关性问题,如果出现遮挡,那么很难根据其它像素来推断光流。因此,本方案通过融合移位窗口注意力机制来进行特征提取,即Swin Transformer网络模型。其中,注意力机制可以得到更多全局信息,可以获得图像像素的全局自相关性;Transformer网络封装了自注意力,已在自然语言处理领域占据主导地位,目前在视觉领域的研究也日益广泛,其可以通过计算源图像间的像素自相关性来得出基本的图像语义层面的信息,这样在出现遮挡或模糊的时候,可以利用这样的信息来提取光流。
在本实施例中,移位窗口注意力主要时进行特征增强,之前通过卷积网络进行特征提取,从像素中提取特征得到所谓的特征图,但是卷积网络的局部性特点,使得提取出的特征局限在像素附近,尤其当遮挡发生时,通过卷积所得到的特征有效性大大降低;为了提取更有辨识度和有效性的特征,有必要引入注意力机制,来表达像素点与全局的相关性。因此通过将源图像以及目标图像输入Swin Transformer网络模型,以得到更具有辨识度和全局相关性的特征,从而结合相对位置编码生成源图像特征图F1、目标图像特征图F2。其中,生成特征图的公式为:
Figure BDA0003915032690000061
其中,T是Transformer,P是相对位置编码,T的第一个输入参数是Q,第二个输入参数分别是K和V,其中,V是从相关体中映射的,K和Q是从背景特征中映射的,即,引入的注意力机制为:
Figure BDA0003915032690000062
进行改进后可以得到多头自注意力机制:MSA=Concat(Attention1,...,Attentionn)W。
生成的源图像特征图F1、目标图像特征图F2,长和宽变为原图的1/8,且每个特征点有D个通道,计算机设备可以使用维度为[D,H/8,W/8]的张量存储一幅特征图。将源图像特征图F1视为一个平面,则每个特征点都有自己的平面坐标x,位于x处的特征点记作F1(x),位于x处的光流记作v1(x)。
步骤204,通过移位窗口注意力针对源图像特征图中的像素点,计算与目标图像特征图中所有像素点的相关性,得到源图像特征图与目标图像特征图之间的相关体。
其中,相关体记作Correlation Volume或者Cost Volume,记录了两幅特征图的像素相似度。针对每一个F1(x),计算其与F2中所有点的相关性,维度为[H′,W′],因此整个相关体的维度为[H′,W′,H′,W′]。相关体记录了两幅特征图的相关性,通常是逐像素的点乘得到,维度通常是H*W*H*W。当有遮挡发生时,所记录的相关性是有歧义的。此时,仍然通过应用注意力机制,来扩展一个每一个像素所记录的相关性。
由于注意力应用在图像处理上的难点是随着图像像素的增长,计算量呈平方倍数增长。因此,首先将图像切分成若干个窗口,每个窗口包含M*M个块,然后分别在每个窗口内执行注意力计算,然后将结果汇总。但这样会导致窗口之间的关系被忽略,所以SWin进一步提出了窗口移位的方法,即移动所有窗口的位置后,再次进行注意力计算,即使用移位窗口注意力计算方式。如图3所示,图3是SWin的网络架构,表示从输入图像开始的迭代处理流程,这个过程反复执行块合并和移位窗口注意力,因为每个窗口包含固定数量的块(M=4),因此块合并可以产生不同分辨率的图像窗口,从而生成层次化的输入数据。
如图4所示,图4为图3SWin的网络架构中一个注意力模块的详细结构,其中包含两个子网络,二者的区别是第一个直接进行窗口内的注意力计算,第二个则是首先对窗口的位置进行修改,即每个窗口朝右下移动M2的像素位置,然后再进行计算。图中的LN表示层归一化,可以使用Pytorch提供的nn.LayerNorm函数;MLP是由两个全连接层nn.Linear和GELU激活函数组成的多层感知机;窗口注意力(W-MSA)和移位窗口注意力(SW-MSA)均是基于多头自注意力机制的特例,即输入数据是窗口内的数据块。
其中,移位窗口注意力的整体计算过程可以表示为:
Figure BDA0003915032690000071
Figure BDA0003915032690000072
Figure BDA0003915032690000073
Figure BDA0003915032690000074
其中,zl-1是输入的图像块特征,通过层归一化LN和窗口注意力W-MSA之后,与zl-1相加之后得到,然后通过LN和MLP得到zl,后续处理过程与此类似,只不过使用移位窗口注意力SW-MSA进行注意力计算。
步骤206,使用移位窗口注意力解析相关体并执行迭代光流计算。
使用移位窗口注意力来进行相关体的解析操作,并且与特征增强中的窗口注意力共享权重参数。
在本实施例中,由于通过注意力机制可以分析像素间的相似关系,从而根据已知像素推导被遮挡像素的运动情况,解决遮挡的问题。基于此,引入注意力机制到光流计算网络中,解决卷积网络的局部性限制;同时,为了减轻图像注意力计算的负担,引入移位窗口注意力,从而提高了光流计算网络的计算精度。
在一个实施例中,提供的一种融合移位窗口注意力的光流计算方法还可以包括特征增强,通过移动窗口注意力机制提取图像特征的过程,具体过程包括:通过SwinTransformer网络模型分别单独对源图像、目标图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;或将源图像以及目标图像按照通道叠加后得到待处理图像,通过Swin Transformer网络模型对待处理图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图。
将源图像以及目标图像输入至Swin Transformer网络模型中,可以得到更具有辨识度和全局相关性的特征,其中,可以单独进行特征提取或与CNN联合;可以单独处理一幅图像,或先将两幅图像按通道叠加后进行处理。
在一个实施例中,提供的一种融合移位窗口注意力的光流计算方法还可以包括确定相对位置编码的过程,具体过程包括:将源图像中被遮挡部分作为遮挡图像,将遮挡图像作为位置编码;确定遮挡图像中的目标像素点,并计算目标点与遮挡图像的其他所有像素点之间的注意力权重;根据位置编码、注意力权重,确定相对位置编码。
计算自注意力时会忽略掉输入序列的空间位置信息,因此需要额外加入位置编码P,采取了相对位置编码,即像素与其它位置的偏移量。为了能够在注意力学习过程当中,加重对遮挡情况的学习,因此将图片的遮挡图作为位置编码,参与学习过程。
在一个实施例中,A(i,j)是一个矩阵,指定了目标像素点(i,j)与所有其他像素点之间的注意力权重,相对位置偏置B是被加在点(i,j)周围的距离为r的矩形区域;其中,
Figure BDA0003915032690000091
在训练过程中,r的值可以设置为5,经过训练之后的相对位置分布规律比较明显,即离距离(i,j)位置处2个像素位置处的权重最大,表明像素受到周围元素的影响。
在一个实施例中,提供的一种融合移位窗口注意力的光流计算方法还可以包括计算相关体的过程,具体过程包括:分别获取源图像特征图中的像素点
Figure BDA0003915032690000092
目标图像特征图中所有像素点
Figure BDA0003915032690000093
通过将像素点
Figure BDA0003915032690000094
与像素点
Figure BDA0003915032690000095
点乘的方式计算初始相关体,
Figure BDA0003915032690000096
通过softmax来获取每个像素点与周围其他像素点的注意力权重,并更新存储的数值,得到相关体,
Figure BDA0003915032690000097
在一个实施例中,提供的一种融合移位窗口注意力的光流计算方法还可以包括解析相关体的过程,具体过程包括:使用移位窗口注意力对相关体进行解析,得到二维运动向量;将二维运动向量与源图像特征图输入至移位窗口,并通过GRU神经网络后输出光流增量。
使用移位窗口注意力对相关体进行解析后可以得到2D运动向量,将运动向量分成x方向与y方向的向量,这样就得到了两类1D的运动向量,其维度分别为[H,W,X],然后将这些运动向量与背景特征图一起输入到窗口注意力模块,输出的向量保持同样的维度,经过GRU模块后进行迭代增量的光流计算。
在一个实施例中,提供的一种融合移位窗口注意力的光流计算方法还可以包括执行迭代光流计算的过程,具体过程包括:将相关体切分为不同的窗口,分别在每个窗口内进行注意力计算得到光流增量;移位窗口,进行迭代光流增量计算,得到光流计算结果。其中,经过迭代光流增量计算,可以不断改进光流预测精度,从而得到最终的光流计算结果。
在一个实施例中,按照监督训练的方式,其损失函数公式表示为:
Figure BDA0003915032690000098
其中的N指的是迭代次数,γn-i代表给予最新的预测更多权重。
在一个实施例中,融合移位窗口注意力的光流计算的网络结构如图5所示,网络结构沿用了RAFT光流计算网络的整体框架。主要特点一是计算全像素对的相关体;二是通过门控循环单元(Gate Recurrent Unit,简称GRU)进行迭代光流增量计算。在特征提取、相关体计算和迭代光流计算环节都引入了注意力机制,将SWin应用到特征注意力的提取上,也可称为特征增强,以将像素点之间的关系通过注意力机制编码到每个点。
与GMA、CRAFT等方法类似,引入注意力来处理相关体并解析计算光流,因为相关体本身的维度是,如果直接使用自注意力进行计算的话,会占用太多的计算资源,影响光流计算时间。因此引入移位窗口注意力,将相关体切分为不同的窗口,分别在每个窗口内进行注意力计算,并且移位窗口,以进行下一次的循环计算,经过移位窗口注意力得到光流增量,经过迭代光流增量计算,不断地改进光流预测精度,以得到最终的光流计算结果。
应该理解的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,对本申请提供的融合移位窗口注意力的光流计算方法进行了实验,实验过程以及实验数据如下:
首先,模型训练一共分为三个阶段,阶段一在FlyingChairs数据集上训练;阶段二在FlyingThings数据集上训练;阶段三基于Sintel、KITTI和HD1K数据集的数据进行微调训练。第一、二阶段的batchsize=8,各自执行120000次迭代训练;第三阶段batchsize=6,执行120000次迭代训练(如果是在KITTI数据集上进行评估实验,执行50000次迭代训练)。
评估实验在Sintel和KITTI数据集上进行,Sintel数据集是根据一段影片所提取的视频帧;KITTI数据来自于真实场景,根据发布年份可以细分为KITTI 2012和KITTI2015,如无特别说明,本文所涉及到的KITTI,统一指的是KITTI 2015。Sintel数据集的序列包括Clean、Final和Albedo。Clean序列使用亮度渲染,包括镜面反射等;Final序列的场景则更为复杂,包括运动模糊等;Albedo序列的场景没有亮度变化。图6是Sintel下的部分场景图片。
在所有试验当中使用一块RTX2080Ti GPU,64G内存,基于Cuda 11.1、Pytorch1.8、torchvision 0.9、Ubuntu18.04完成。
评估实验所使用的评价指标主要是AEPE(Average Endpoint Error)和ER(ErrorRates),AEPE也是Sintel数据集所推荐采用的排名评估方案;KITTI数据集使用F1-fg和F1-All两种评估标准,分别指的是在前景区域内或全图像区域内的错误个例的百分比(错误个例指的是EPE>3个像素或者>5%标签光流的情况)。
为了与本方案进行比较,选取了有代表性的光流计算网络GMFlow、CRAFT、GMA、FlowFormer和RAFT、SCV,其中RAFT和SCV网络并没有采用注意力机制。
表1显示了在Sintel数据集上与已有网络的量化比较,在Clean和Final序列上都达到或接近最新的计算效果,其中数据来源于各自论文中的测试结果数据。
表1在Sintel数据集上的结果对比
Figure BDA0003915032690000111
表2是在不同的遮挡情况下的计算结果对比,其中Noc表示无遮挡区域,Occ表示有遮挡区域,Occ-In和Occ-out分别表示目标图像中的对应像素是否运动到图像区域外,All是所有区域下的计算结果。
表2在Sintel数据集上不同区域的结果对比
Figure BDA0003915032690000121
表3显示在KITTI数据集上的量化比较,从表中可以看出,与最新的有监督训练相比,还是存在着差距,但是已经达到或超过了部分的有监督训练结果。
表3在KITTI数据集上的结果对比
Figure BDA0003915032690000122
表4显示了在引入注意力计算相关体前后的数据对比,可以看到在引入注意力之后,EPE有较大的改善。
表4引入注意力计算相关体前后的结果对比
Figure BDA0003915032690000123
如图7所示,图7是特征经过注意力节点前后的情况,第2列是经过卷积网络获得的特征图;第3列是添加了相对位置编码后的特征图;第4列是经过注意力模块后的增强特征图。在注意力特征图中,可以明显发现其解析到了更多的图像细节,包括人物的轮廓等,其在空间与通道维度上的图像特征更加集中、细节上更清晰,便于后续的光流计算。
如图8所示,图8是在KITTI数据集上的光流计算结果图形化显示,KITTI数据集中的图片来自于真实场景,很多光流计算方法在KITTI数据集上的表现都不佳,但经过注意力计算,从图中看出其可以正确捕捉到室外行驶车辆和自行车的运动情况。
图9是在FlyingChairs数据集上的光流计算结果图形化显示,该数据集是人工合成的,将一些3D的椅子模型随机放置在图片上。第2列是标签数据,第3列是计算得到的光流值,最后一列是遮挡图,白色像素表示被遮挡的部分。可以看到,即使在遮挡区域,预测光流仍然与标签值高度吻合。
图10是在Sintel数据集上的光流计算结果图形化显示。共选取了不同序列下的4副图片,包含了快速移动、大位移和遮挡等情况。第2列是本文所提出模型的计算结果;第3列是交换图片顺序后所得到的反向光流;第4列通过白色显示图片被遮挡的区域。从图10中可以看到,在快速移动和有遮挡的情况下,均能捕捉到相应的运动细节。
在一个实施例中,如图11所示,提供了一种融合移位窗口注意力的光流计算系统,包括:特征提取模块1110、相关体计算模块1120和光流计算模块1130,其中:
特征提取模块1110,用于获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;
相关体计算模块1120,用于通过移位窗口注意力针对源图像特征图中的像素点,计算与目标图像特征图中所有像素点的相关性,得到源图像特征图与目标图像特征图之间的相关体;
光流计算模块1130,用于使用移位窗口注意力解析相关体并执行迭代光流计算。
在一个实施例中,特征提取模块1110还用于通过Swin Transformer网络模型分别单独对源图像、目标图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;或将源图像以及目标图像按照通道叠加后得到待处理图像,通过Swin Transformer网络模型对待处理图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图。
在一个实施例中,特征提取模块1110还用于将源图像中被遮挡部分作为遮挡图像,将遮挡图像作为位置编码;确定遮挡图像中的目标像素点,并计算目标点与遮挡图像的其他所有像素点之间的注意力权重;根据位置编码、注意力权重,确定相对位置编码。
在一个实施例中,相关体计算模块1120还用于分别获取源图像特征图中的像素点
Figure BDA0003915032690000141
目标图像特征图中所有像素点
Figure BDA0003915032690000142
通过将像素点
Figure BDA0003915032690000143
与像素点
Figure BDA0003915032690000144
点乘的方式计算初始相关体,
Figure BDA0003915032690000145
通过softmax来获取每个像素点与周围其他像素点的注意力权重,并更新存储的数值,得到相关体,
Figure BDA0003915032690000146
在一个实施例中,光流计算模块1130还用于使用移位窗口注意力对相关体进行解析,得到二维运动向量;将二维运动向量与源图像特征图输入至移位窗口,并通过GRU神经网络后输出光流增量。
在一个实施例中,光流计算模块1130还用于将相关体切分为不同的窗口,分别在每个窗口内进行注意力计算得到光流增量;移位窗口,进行迭代光流增量计算,得到光流计算结果。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图12所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种融合移位窗口注意力的光流计算方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;
通过移位窗口注意力针对源图像特征图中的像素点,计算与目标图像特征图中所有像素点的相关性,得到源图像特征图与目标图像特征图之间的相关体;
使用移位窗口注意力解析相关体并执行迭代光流计算。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过SwinTransformer网络模型分别单独对源图像、目标图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;或将源图像以及目标图像按照通道叠加后得到待处理图像,通过Swin Transformer网络模型对待处理图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将源图像中被遮挡部分作为遮挡图像,将遮挡图像作为位置编码;确定遮挡图像中的目标像素点,并计算目标点与遮挡图像的其他所有像素点之间的注意力权重;根据位置编码、注意力权重,确定相对位置编码。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:分别获取源图像特征图中的像素点
Figure BDA0003915032690000151
目标图像特征图中所有像素点
Figure BDA0003915032690000152
通过将像素点
Figure BDA0003915032690000153
与像素点
Figure BDA0003915032690000154
点乘的方式计算初始相关体,
Figure BDA0003915032690000155
通过softmax来获取每个像素点与周围其他像素点的注意力权重,并更新存储的数值,得到相关体,
Figure BDA0003915032690000156
在一个实施例中,处理器执行计算机程序时还实现以下步骤:使用移位窗口注意力对相关体进行解析,得到二维运动向量;将二维运动向量与源图像特征图输入至移位窗口,并通过GRU神经网络后输出光流增量。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:将相关体切分为不同的窗口,分别在每个窗口内进行注意力计算得到光流增量;移位窗口,进行迭代光流增量计算,得到光流计算结果。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;
通过移位窗口注意力针对源图像特征图中的像素点,计算与目标图像特征图中所有像素点的相关性,得到源图像特征图与目标图像特征图之间的相关体;
使用移位窗口注意力解析相关体并执行迭代光流计算。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过SwinTransformer网络模型分别单独对源图像、目标图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;或将源图像以及目标图像按照通道叠加后得到待处理图像,通过Swin Transformer网络模型对待处理图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将源图像中被遮挡部分作为遮挡图像,将遮挡图像作为位置编码;确定遮挡图像中的目标像素点,并计算目标点与遮挡图像的其他所有像素点之间的注意力权重;根据位置编码、注意力权重,确定相对位置编码。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:分别获取源图像特征图中的像素点
Figure BDA0003915032690000161
目标图像特征图中所有像素点
Figure BDA0003915032690000162
通过将像素点
Figure BDA0003915032690000163
与像素点
Figure BDA0003915032690000164
点乘的方式计算初始相关体,
Figure BDA0003915032690000165
通过softmax来获取每个像素点与周围其他像素点的注意力权重,并更新存储的数值,得到相关体,
Figure BDA0003915032690000166
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:使用移位窗口注意力对相关体进行解析,得到二维运动向量;将二维运动向量与源图像特征图输入至移位窗口,并通过GRU神经网络后输出光流增量。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:将相关体切分为不同的窗口,分别在每个窗口内进行注意力计算得到光流增量;移位窗口,进行迭代光流增量计算,得到光流计算结果。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (10)

1.一种融合移位窗口注意力的光流计算方法,其特征在于,所述方法包括:
获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;
通过移位窗口注意力针对所述源图像特征图中的像素点,计算与所述目标图像特征图中所有像素点的相关性,得到所述源图像特征图与所述目标图像特征图之间的相关体;
使用所述移位窗口注意力解析所述相关体并执行迭代光流计算。
2.根据权利要求1所述的融合移位窗口注意力的光流计算方法,其特征在于,所述获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图,包括:
通过所述Swin Transformer网络模型分别单独对所述源图像、所述目标图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;或
将所述源图像以及所述目标图像按照通道叠加后得到待处理图像,通过所述SwinTransformer网络模型对所述待处理图像进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图。
3.根据权利要求1所述的融合移位窗口注意力的光流计算方法,其特征在于,在结合相对位置编码生成源图像特征图、目标图像特征图之前,所述方法还包括:
将所述源图像中被遮挡部分作为遮挡图像,将所述遮挡图像作为位置编码;
确定所述遮挡图像中的目标像素点,并计算所述目标点与所述遮挡图像的其他所有像素点之间的注意力权重;
根据所述位置编码、所述注意力权重,确定所述相对位置编码。
4.根据权利要求3所述的融合移位窗口注意力的光流计算方法,其特征在于,A(i,j)是一个矩阵,指定了目标像素点(i,j)与所有其他像素点之间的注意力权重,相对位置偏置B是被加在点(i,j)周围的距离为r的矩形区域;其中,
Figure FDA0003915032680000011
5.根据权利要求1所述的融合移位窗口注意力的光流计算方法,其特征在于,所述通过移位窗口注意力针对所述源图像特征图中的像素点,计算与所述目标图像特征图中所有像素点的相关性,得到所述源图像特征图与所述目标图像特征图之间的相关体,包括:
分别获取所述源图像特征图中的像素点
Figure FDA0003915032680000021
所述目标图像特征图中所有像素点
Figure FDA0003915032680000022
通过将像素点
Figure FDA0003915032680000023
与像素点
Figure FDA0003915032680000024
点乘的方式计算初始相关体,
Figure FDA0003915032680000025
通过softmax来获取每个像素点与周围其他像素点的注意力权重,并更新存储的数值,得到相关体,
Figure FDA0003915032680000026
6.根据权利要求1所述的融合移位窗口注意力的光流计算方法,其特征在于,使用所述移位窗口注意力解析所述相关体,包括:
使用所述移位窗口注意力对所述相关体进行解析,得到二维运动向量;
将所述二维运动向量与所述源图像特征图输入至移位窗口,并通过GRU神经网络后输出光流增量。
7.根据权利要求6所述的融合移位窗口注意力的光流计算方法,其特征在于,使用所述移位窗口注意力解析所述相关体并执行迭代光流计算,包括:
将所述相关体切分为不同的窗口,分别在每个窗口内进行注意力计算得到所述光流增量;
移位窗口,进行迭代光流增量计算,得到光流计算结果。
8.一种融合移位窗口注意力的光流计算系统,其特征在于,所述系统包括:
特征提取模块,用于获取源图像以及目标图像,并输入至Swin Transformer网络模型中进行特征提取,结合相对位置编码生成源图像特征图、目标图像特征图;
相关体计算模块,用于通过移位窗口注意力针对所述源图像特征图中的像素点,计算与所述目标图像特征图中所有像素点的相关性,得到所述源图像特征图与所述目标图像特征图之间的相关体;
光流计算模块,用于使用所述移位窗口注意力解析所述相关体并执行迭代光流计算。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202211339733.9A 2022-10-28 2022-10-28 融合移位窗口注意力的光流计算方法、系统、设备及介质 Pending CN115731263A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211339733.9A CN115731263A (zh) 2022-10-28 2022-10-28 融合移位窗口注意力的光流计算方法、系统、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211339733.9A CN115731263A (zh) 2022-10-28 2022-10-28 融合移位窗口注意力的光流计算方法、系统、设备及介质

Publications (1)

Publication Number Publication Date
CN115731263A true CN115731263A (zh) 2023-03-03

Family

ID=85294100

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211339733.9A Pending CN115731263A (zh) 2022-10-28 2022-10-28 融合移位窗口注意力的光流计算方法、系统、设备及介质

Country Status (1)

Country Link
CN (1) CN115731263A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486107A (zh) * 2023-06-21 2023-07-25 南昌航空大学 一种光流计算方法、系统、设备及介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486107A (zh) * 2023-06-21 2023-07-25 南昌航空大学 一种光流计算方法、系统、设备及介质
CN116486107B (zh) * 2023-06-21 2023-09-05 南昌航空大学 一种光流计算方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
Yan et al. Channel-wise attention-based network for self-supervised monocular depth estimation
US10593021B1 (en) Motion deblurring using neural network architectures
US10839543B2 (en) Systems and methods for depth estimation using convolutional spatial propagation networks
CN109978756B (zh) 目标检测方法、系统、装置、存储介质和计算机设备
WO2020177651A1 (zh) 图像分割方法和图像处理装置
CN111047548B (zh) 姿态变换数据处理方法、装置、计算机设备和存储介质
US11983903B2 (en) Processing images using self-attention based neural networks
EP3836083A1 (en) Disparity estimation system and method, electronic device and computer program product
Zhou et al. Self-distilled feature aggregation for self-supervised monocular depth estimation
CN114022799A (zh) 一种自监督单目深度估计方法和装置
WO2014155290A1 (en) Enhancing motion pictures with accurate motion information
Ding et al. Kd-mvs: Knowledge distillation based self-supervised learning for multi-view stereo
Guo et al. Context-enhanced stereo transformer
Rajput Mixed Gaussian-impulse noise robust face hallucination via noise suppressed low-and-high resolution space-based neighbor representation
CN115731263A (zh) 融合移位窗口注意力的光流计算方法、系统、设备及介质
CN114742112A (zh) 一种对象关联方法、装置及电子设备
CN114359361A (zh) 深度估计方法、装置、电子设备和计算机可读存储介质
Zhou et al. Learning occlusion-aware coarse-to-fine depth map for self-supervised monocular depth estimation
Long et al. Detail preserving residual feature pyramid modules for optical flow
CN116740570A (zh) 基于掩码图像建模的遥感图像道路提取方法、装置及设备
US20220148284A1 (en) Segmentation method and segmentation apparatus
Lu et al. Joint self-supervised depth and optical flow estimation towards dynamic objects
CN114863132A (zh) 图像空域信息的建模与捕捉方法、系统、设备及存储介质
Bao et al. Distilling resolution-robust identity knowledge for texture-enhanced face hallucination
WO2020077535A1 (zh) 图像语义分割方法、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination