CN115018888A - 一种基于Transformer的光流无监督估计方法 - Google Patents
一种基于Transformer的光流无监督估计方法 Download PDFInfo
- Publication number
- CN115018888A CN115018888A CN202210777017.2A CN202210777017A CN115018888A CN 115018888 A CN115018888 A CN 115018888A CN 202210777017 A CN202210777017 A CN 202210777017A CN 115018888 A CN115018888 A CN 115018888A
- Authority
- CN
- China
- Prior art keywords
- optical flow
- network
- feature
- estimation
- unsupervised
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000003287 optical effect Effects 0.000 title claims abstract description 196
- 238000000034 method Methods 0.000 title claims abstract description 34
- 238000012549 training Methods 0.000 claims abstract description 35
- 230000003068 static effect Effects 0.000 claims abstract description 24
- 230000006870 function Effects 0.000 claims description 37
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000010586 diagram Methods 0.000 claims description 10
- 230000009467 reduction Effects 0.000 claims description 5
- 238000012360 testing method Methods 0.000 claims description 5
- 238000009499 grossing Methods 0.000 claims description 4
- 230000002441 reversible effect Effects 0.000 claims description 3
- 230000033001 locomotion Effects 0.000 abstract description 6
- 230000007246 mechanism Effects 0.000 abstract description 6
- 238000003709 image segmentation Methods 0.000 abstract description 2
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 239000011159 matrix material Substances 0.000 description 10
- 230000006872 improvement Effects 0.000 description 5
- 238000013135 deep learning Methods 0.000 description 4
- 238000005286 illumination Methods 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 238000003058 natural language processing Methods 0.000 description 3
- 230000002829 reductive effect Effects 0.000 description 3
- 238000007670 refining Methods 0.000 description 3
- 238000005070 sampling Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 206010010356 Congenital anomaly Diseases 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000000137 annealing Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000000903 blocking effect Effects 0.000 description 1
- 239000000969 carrier Substances 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/269—Analysis of motion using gradient-based methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/20—Analysis of motion
- G06T7/254—Analysis of motion involving subtraction of images
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20081—Training; Learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T2207/00—Indexing scheme for image analysis or image enhancement
- G06T2207/20—Special algorithmic details
- G06T2207/20084—Artificial neural networks [ANN]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种基于Transformer的光流无监督估计方法。具体来说,本发明引入Transformer作为光流估计的特征编码器,利用其完全的自注意力机制,实现具有全局感受野的特征编码,有利于光流估计精度的提升。其次,在基于特征金字塔的光流解码器中,提出归一化互相关模块来计算两幅特征图之间的相关性,以使网络更加关注前景运动物体,弱化背景噪声对光流的干扰。同时,引入基于注意力的中间光流估计模块,对物体边界光流进行细化,进一步提升光流估计精度。最后,在光度一致损失和平滑损失函数的基础上,引入静态光流损失函数作为网络无监督的伪标签,为网络提供更加明确的训练方向。此方法可用于视觉导航、运动估计和图像分割等计算机视觉领域。
Description
技术领域
本发明属于光流无监督估计领域,涉及一种基于Transformer的光流无监督估计方法,该方法无需利用获取较为繁琐的光流真值作为监督信息即可实现对网络的训练,进而实现对输入两幅图像的光流估计。
背景技术
光流是指连续两帧图像中对应运动物体的像素移动,其作为一种计算机视觉基础任务,在导航、运动估计、图像分割等领域发挥了重要作用。目前光流估计主要分为两类,即传统的光流估计方法和基于深度学习的光流估计方法。传统的光流估计是以HS和LK为代表的变分模型优化方法,虽然传统方法可以取得较为准确的光流估计,但该类方法在大位移运动、运动遮挡或者背景光照变化等情况下会导致估计精度衰退较大,同时,由于该类方法通过迭代优化一个复杂的能量函数来实现较高的光流估计精度,导致其计算量较大,进而实时性较差。随着图形处理单元(Graphic Processing Unit,GPU)的发展,为深度学习提供了算力硬件支撑,使得越来越多的大规模网络被提出并用来进行光流估计。虽然基于深度学习的方法可以实现实时、高精度和端到端的光流估计,但目前大多数光流估计是基于有监督训练的,即需要大规模的真实光流数据(Ground Truth,GT)作为监督信息对网络进行训练。而真实世界中逐像素的光流真值获取是异常繁琐的,获取能够训练深度网络的真实世界的大规模光流真值是不现实的。因此,目前有监督网络大多利用合成数据集进行训练。而合成数据集又与现实世界中的运动存在差异,因此往往导致有监督网络在现实世界中表现不佳。因此,本发明提出的无监督光流估计方法具有重要的实用意义。
Transformer是一种完全基于自注意力机制的深度网络,相比较于传统的卷积神经网络,Transformer可提取到具有全局感受野的特征,在获取长距离的特征依赖上具有先天的优势,这对光流估计是至关重要的。因此,本发明提出利用Transformer作为特征编码器,对输入图像进行全局范围内的特征提取,而后对特征进行解码以实现光流估计。同时,为提升光流估计的精度,本发明还提出了在解码器中利用归一化互相关模块(NormalizedCross Correlation Module,NCCM)和基于注意力的中间光流估计模块(Attention basedIntermediate Flow Estimation module,AIFE)来对光流进行解码,以使得Transformer适用于光流估计任务。
发明内容
针对上述问题,本发明提供了一种基于Transformer的光流无监督估计方法,克服了有监督光流估计网络需要真值的弊端,且网络可以端到端的形式进行训练。与目前已有的基于卷积的光流估计网络不同,本发明提出的方法利用基于自注意力机制的Transformer作为特征编码器,来获取输入图像对的全局感受野,进而提升光流估计的精度。同时,在网络的解码器中引入归一化互相关模块(Normalized Cross CorrelationModule,NCCM)来计算两幅特征图之间的相关性,并将其作为输入特征的空间注意力图(Spatial Attention Map),使网络更加关注于显著性的前景物体,降低对背景物体的关注权重,来提高光流估计的精度。其次,引入基于注意力的中间光流估计模块(Attentionbased Intermediate Flow Estimation module,AIFE)来进一步提升光流估计精度。最后,在基于Census光度一致损失和平滑损失函数的基础上,通过引入静态光流损失函数(Static Optical Flow Loss Function)作为网络无监督的伪标签,为网络提供更加明确的训练方向。通过以上的改进,提高对运动物体光流的估计效果,进而获得精确、鲁棒的光流场。
为实现上述目的,本发明采取的技术方案是:
一种基于Transformer的光流无监督估计方法,其特征在于,包括以下步骤:
(1)训练阶段:
用于训练网络的数据仅为待求解光流的图片对,将训练图像对在通道维度进行拼接后,训练图像首先将被缩放到固定大小并输入给无监督光流估计网络,而后经Transformer编码器对图像特征进行全局编码,而后经过一个基于特征金字塔的改进光流解码器对特征解码,同时在每个金字塔层上求解光流,并将粗尺度Li上的求解的光流作为细尺度Li-1上的输入,直至在金字塔最细尺度L0上解算出光流W0后完成迭代,而后利用所估计的光流在改进的无监督损失函数上进行梯度回传,更新网络层参数,以使得损失函数趋向最优,直至完成训练;
所述步骤(1)中无监督光流估计网络的具体工作步骤如下:
首先,引入Transformer作为光流估计的特征编码器,获得具有全局感受野的光流特征编码,然后,在改进的特征金字塔解码器中引入归一化互相关模块NCCM来计算两幅特征图之间的相关性,并将该相关性作为空间注意力施加在输入特征上,进而获取输入特征中共同目标主体的显著性图,利用NCC计算两特征的相关性公式如下所示;
其中,N为输入特征的通道维数,即经特征降维后的输入的通道数,μA和μB分别代表特征A和B的均值,σA和σB代表各特征的标准差;
其次,在解码器中引入中间光流估计模块AIFE来利用额外估计的中间光流对初始光流进行修正,得到细化后的精确光流,在光流边界细化模块处所进行的计算如下;
最后,在基于Census光度一致损失和平滑损失函数的基础上,引入静态光流损失函数,通过将静态光流作为伪标签,通过总损失函数对网络训练方向进行明确指引,进而更新网络自身各层参数,直至训练完成;
(2)预测阶段:
训练完成后,将测试图像输入到参数固定的网络中,首先,测试图像会被缩放到与训练阶段相同的尺寸,而后经过Transformer编码器和特征金字塔解码器对光流进行逐层估计,在得到最细尺度上的光流W0后,利用双线性插值对W0进行上采样至输入图像大小,即得到最终的光流结果。
作为本发明进一步改进,所述静态光流损失函数如下所示:
LStatic=Θ(I1,I1,θ)-α
其中,Θ代表所提出的光流估计网络,I1代表网络的输入,其维度可表示为[B,C,H,W],θ代表网络的参数,α代表与输入I1具有相同大小的零光流矩阵,其尺寸为[B,2,H,W];
作为本发明进一步改进,所述Census光度损失函数如下所示:
Lp=∑(1-Of)·φ(Census(I1)-Census(x+Uf))
+(1-Ob)·φ(Census(I2)-Census(x+Ub))
其中,Of,Ob分别代表前向和反向光流遮挡掩膜,φ(x)=(x2+0.012)0.4为惩罚函数,Uf和Ub则分别代表网络所估计出的前向和反向光流。
作为本发明进一步改进,所述平滑损失函数如下所示:
其中,Nx由水平、垂直和x周围的两个对角线邻域共4个组成,s和r为x的邻域坐标。
5、根据权利要求1所述的一种基于Transformer的光流无监督估计方法,其特征在于:所述总损失函数为:
Ltotal=λ1LStatic+λ2Lp+λ3Ls
其中λ1-3为各项的平衡权重。
有益效果:
(1)本发明创新性的引入Transformer结构作为光流估计的特征编码器,通过获取输入图像对的全局感受野上的特征表示,提升光流的估计精度。
(2)本发明通过在光流解码器中引入归一化互相关模块NCCM来获取输入中的共同目标的显著性图,进而使网络关注于运动的前景目标,降低背景无用信息对光流求解的影响。
(3)本发明通过在光流估计层中引入中间光流估计模块AIFE来细化运动物体的轮廓,使得估计出的光流具有更明确且清晰的边界信息。
(4)本发明通过引入静态光流作为伪标签来为网络提供更加明确的训练方向,利用静态光流损失函数和Census光度一致损失以及平滑损失函数来完成所提出网络的无监督训练,摆脱对GT真值的依赖。
附图说明
图1是本发明所提出的基于Transformer的光流无监督估计网络的整体框架;
图2为本发明所提出的特征解码器网络结构;
图3为本发明所提出的归一化互相关模块NCCM;
图4为本发明所提出的中间光流估计模块AIFE;
图5为本发明所提出的空间注意力和通道注意力模块CSAM;
图6为本发明光流估计的一个实施例。
具体实施方式
下面结合附图与具体实施方式对本发明作进一步详细描述:
本发明面向在无法大规模获取光流真值条件下对深度学习网络的训练需求,利用无监督学习技术实现对输入图片对的光流估计。具体来说,光流估计作为机器视觉中一项重要的基础任务,其地面真值(Ground Truth,GT)获取异常困难,尤其是稠密光流估计所需的现实世界的真值,更是几乎不可能直接获取得到。因此,利用光流的无监督估计技术在应用层面具有重要的意义。为实现更精准和更鲁棒的光流估计,本发明提出了一种基于Transformer的光流无监督估计方法。首先,本发明引入完全基于自注意力机制的Transformer作为特征编码器,对输入光流图像对进行特征编码,获取具有全局感受野的特征,Transformer的这种自注意力机制对稠密光流这种逐像素预测任务具有先天性的优势。其次,在特征金字塔解码器中,引入归一化互相关模块NCCM来获取输入中的共同目标的显著性图,达到突出前景运动物体,弱化背景干扰噪声的作用,进而提升光流估计的精度。然后,提出了一种新型的光流估计器,通过整合通道和空间注意力模块CSAM和中间光流估计模块AIFE来估计光流,突出运动物体的边界信息,达到细化运动物体的轮廓的目的。最后,提出利用静态光流来作为伪标签,对网络进行明确的指导,同时结合Census光度一致损失和平滑损失函数,实现网络的无监督学习。此方法可用于以无人机、无人车以及水下无人潜器等为载体的,易受光照变化、阴雨天等恶劣条件影响的基于光流的自主导航任务。
本发明所提出的基于Transformer的光流无监督估计网络的整体框架如图1所示。首先,将待求解光流图像对(图片1和图片2,大小为w,h)按通道维度进行拼接,然后将其进行下采样至固定尺寸w0,h0后进行分块处理,将分块后的图像进行展平处理,完成线性映射并加入位置嵌入后直接输入给Transformer光流特征编码器,在完成对输入的全局感受野的特征编码后,与原始输入图像对(图片1和图片2)一并输入给基于特征金字塔的光流解码器,而后即可得到尺寸为w0,h0的稠密光流矩阵,最后利用双线性插值即可得到与原始输入大小w,h相同的光流矩阵。
下面将对本发明改进之处进行详细说明。
在光流特征编码器方面,本发明采用Transformer作为光流特征编码器,对输入图像进行特征提取与编码。Transformer是基于自注意机制的一种新型深度网络结构,最先应用于自然语言处理(Natural language processing,NLP)领域。因其可并行运算,且具有较高的精度和性能,使其迅速替代了在NLP领域中流行已久的循环神经网络(RecurrentNeural Network,RNN)。而ViT模型(Visual Transformer)则是首次将Transformer应用于计算机视觉领域的成功范例。因此,本发明所采用的Transformer是基于ViT设计,所不同之处在于,本发明所使用的Transformer的输出维度变为[B,2,w0,h0],其中,B为Batch size,w0,h0为图像下采样的固定尺寸。这样做可以在降低后续计算量的同时,保留Transformer所提取的具有全局感受野的特征表示。因经Transformer编码后的特征具有全局感受野,因此,通道为2的特征即可具有较好的特征表示。
在光流特征解码器方面,本发明在特征金字塔的基础上搭建光流解码器,用以对Transformer编码的特征进行解码并逐层细化光流估计。本发明设计的光流解码器如图2所示。光流特征解码器同时将Transformer的编码输出和原始图像对(图片1和图片2)作为输入,而后进行特征金字塔计算,随着层数的加深,特征尺寸不断降低,但通道数不断增多。为平衡计算量与精度,本发明采用4层金字塔结构(第0层代表最细尺度,第3层代表最粗尺度)。在金字塔的每层上,都包含一个光流估计器,用以进行光流估计,来获得当前层尺度的光流矩阵。除最顶层(第3层)外,每层光流估计器都将采用上一层的光流估计和当前层的特征作为输入。最顶层光流估计器则仅以当前层的特征作为输入。可以注意到,在第3和第2层上,加入了归一化互相关模块NCCM来加强输入特征的相关性,使得解码器更加关注于运动的前景物体,而忽略背景信息的干扰。
下面对归一化互相关模块NCCM进行说明。如图3所示,计算NCC的过程本质上是通过两个特征获取空间注意力的过程。特征1和特征2同时经过特征降维后,将特征1进行维度上的调整(特征1由[B,C,W,H]调整为[B,H*W,C/r],特征2由[B,C,W,H]调整为[B,C/r,H*W],其中B代表batch_size,C为通道数,r为降维倍率,H和W代表特征的尺寸),经过特征维度调整后,即可进行NCC的计算,两特征的相关性计算公式如下所示。
其中,N为输入特征的通道维数,即经特征降维后的输入的通道数,在本发明中N为C/r,μA和μB分别代表特征A和B的均值,σA和σB代表各特征的标准差。
经过NCC计算后,即可得到一个大小为[B,H*W,H*W]的相关性矩阵,代表了特征1中的每个元素与特征2中的所有元素的相关性。而后经过维度调整和激活后即可得到一个[B,1,H,W]的空间注意力矩阵,将该矩阵与特征1相乘即可得到最终的输出。这样即可使网络关注于前景运动目标,而忽略背景噪声信息的干扰。
下面对光流估计模块AIFE进行说明。如图4所示,以正向光流估计为例,在金字塔最顶层(L=3),光流估计器仅以金字塔提取到的当前层特征作为输入,而后经过通道和空间注意力模块CSAM来使网络专注于运动物体的边界,而后利用一层卷积进行光流估计。而在金字塔其它层,除了当前层的输入特征外,光流估计器还以上一层估计的光流结果UL+1作为输入,然后将UL+1进行二倍上采样后得到当前层的临时光流而后利用将特征进行warp操作映射到特征后与特征输入到CSAM计算特征的通道和空间注意力,通过注意力的计算使得网络可以专注于物体的边界轮廓。而后将获取注意力后的两个特征输入到中间光流估计模块中,该模块可以同时预测一个掩膜mask和中间光流mask用来指示运动物体的边界位置,而中间光流则为边界处的清晰光流。而后将mask和一同输入到光流边界细化模块中,即可得到当前层的最终光流。在光流边界细化模块处所进行的计算如下。
本发明所提出的通道和空间注意力模块CSAM如图5所示,首先对尺寸为[B,C,H,W]的输入特征计算通道注意力,即利用平均池化和最大池化对特征进行处理,得到两个大小为[B,C,1,1]的特征表示,而后经过一个卷积后进行求和,即可得到一个大小为[B,C,1,1]的通道注意力,将该注意力与输入进行相乘之后得到一个尺寸为[B,C,H,W]的特征,将该特征继续利用平均和最大化处理即可得到两个大小为[B,1,H,W]的矩阵,将两个特征矩阵在通道维度进行拼接,而后进行卷积,归一化和sigmoid激活处理,即可得到一个大小为[B,1,H,W]的空间注意力权重矩阵,将该矩阵与经通道注意力后得到的特征进行相乘,即可得到CSAM模块最终的输出,该输出同时加入了通道注意力和空间注意力,有助于使网络更加专注于对物体边界的提取,有利于估计出更为清晰且明确的光流边界轮廓信息。
下面对光流损失函数进行说明。为给网络提供更加明确的训练方向,本发明创新性地提出了将静态光流作为伪标签来对网络进行训练。本发明中的静态光流定义为两张完全相同的图片所对应的光流,此时的光流应为与输入图像尺寸完全一致的零矩阵,这可为无监督光流网络提供难能可贵的明确的训练信息。静态光流损失函数如下所示。
LStatic=Θ(I1,I1,θ)-α (4)
其中,Θ代表本发明所提出的光流估计网络,I1代表网络的输入,其维度可表示为[B,C,H,W],θ代表网络的参数。α代表与输入I1具有相同大小的零光流矩阵,其尺寸为[B,2,H,W]。静态光流损失函数可以给网络一条明确的学习线索,即所估计的结果与输入图像中的所包含的内容无关,只与运动的物体相关。这样有利于网络对光流的学习。
本发明所采用的第二个损失函数是Census光度一致损失函数。该损失函数来源于经典的变分光流法。即将输入的目标图像利用所求到的光流warp变换到参考图像后,两图像中每个对应点的亮度应该是一致的。但这只在光流无遮挡的部分生效,因此,本发明利用了前后一致性检验,以获得光流遮挡部分,并只在光流无遮挡部分计算光度一致性损失。同时,由于光度一致损失易受光照变化影响,因此,本发明利用Census增强该损失对于光照变化的鲁棒性。具体公式如下所示。
其中,Of,Ob分别代表前向和反向光流遮挡掩膜,φ(x)=(x2+0.012)0.4为惩罚函数,Uf和Ub则分别代表网络所估计出的前向和反向光流。光流遮挡掩膜是利用光流的前向后向一致性检验得到的。当不满足下式时,则认为所对应区域为遮挡区域,并在mask中将该位置标记为1.
其中,α1和α2分别取0.005和1.0。同理可计算得到Ob。
本发明所采用的第三个损失函数是平滑损失。平滑损失规定了每个光流值应与一个局部内的邻域内是相似的。其表达式如下所示。
其中,Nx由水平、垂直和x周围的两个对角线邻域组成(共4个)。s和r为x的邻域坐标。
综上,本发明提出的总损失函数为。
Ltotal=λ1LStatic+λ2Lp+λ3Ls (8)
其中λ1-3为各项的平衡权重。
在本发明提出的基于Transformer的光流估计网络训练阶段,两幅待求解光流的图像首先按通道维度直接进行拼接,缩放到固定尺寸后直接输入给光流估计网络的编码器。编码器在完成对输入图像的分块处理,图像块编码和位置编码后,直接输入给Transformer进行特征编码,以获取具有全局感受野的特征表示。而后将该特征表示输入给基于金字塔的光流解码器中,解码器利用归一化互相关模块NCCM来获取输入中的共同目标的显著性图,以突出前景运动物体,弱化静态背景信息的影响。随后在光流估计器中,通过整合通道和空间注意力模块CSAM和中间光流估计模块AIFE来估计光流,突出运动物体的边界信息,达到细化运动物体的轮廓的目的。在利用Census光度损失和平滑损失实现对网络无监督训练的基础上,引入静态光流损失,来为网络提供更为明确的指导信息。
在本发明提出的光流估计网络的测试阶段,两幅待求解的光流图首先按照通道维度进行拼接,并缩放到固定大小后,直接输入给光流估计网络,即可得到缩放尺寸的光流矩阵,而后经过双线性插值的上采样即可得到与原始图像大小一致的光流矩阵,即可完成光流的最终估计。
根据本发明的一个实例,详细的训练设备信息以及参数信息如下。训练设备上,本发明所采用的服务器的GPU为2块Nvidia RTX3090,单卡显存为24GB,整机内存为128GB,CPU为2块英特尔至强E5-2698 V4。在训练参数方面,本发明所采用的Transformer是在Imag-net数据集中进行预训练后得到的权重,整个光流估计网络在FlyingChairs数据集上以无监督学习的方式微调100个epoch,初始学习率为0.001,且学习率以余弦退火的方式进行衰减。batch size为32。损失函数中权重λ1-3分别为2,1,1。以上述配置训练一个epoch大约需要105分钟。在图6中可以看出,只利用Transformer进行光流估计时,网络所产生的光流轮廓较为模糊,且结果不准确。当引入本发明提出的归一化互相关模块NCCM和基于注意力的中间光流估计模块AIFE后,光流估计精度明显提高,在运动物体的边界处具有更为清晰的表现。
以上所述,仅是本发明的较佳实施例而已,并非是对本发明作任何其他形式的限制,而依据本发明的技术实质所作的任何修改或等同变化,仍属于本发明所要求保护的范围。
Claims (5)
1.一种基于Transformer的光流无监督估计方法,其特征在于,包括以下步骤:
(1)训练阶段:
用于训练网络的数据仅为待求解光流的图片对,将训练图像对在通道维度进行拼接后,训练图像首先将被缩放到固定大小并输入给无监督光流估计网络,而后经Transformer编码器对图像特征进行全局编码,而后经过一个基于特征金字塔的改进光流解码器对特征解码,同时在每个金字塔层上求解光流,并将粗尺度Li上的求解的光流作为细尺度Li-1上的输入,直至在金字塔最细尺度L0上解算出光流W0后完成迭代,而后利用所估计的光流在改进的无监督损失函数上进行梯度回传,更新网络层参数,以使得损失函数趋向最优,直至完成训练;
所述步骤(1)中无监督光流估计网络的具体工作步骤如下:
首先,引入Transformer作为光流估计的特征编码器,获得具有全局感受野的光流特征编码,然后,在改进的特征金字塔解码器中引入归一化互相关模块NCCM来计算两幅特征图之间的相关性,并将该相关性作为空间注意力施加在输入特征上,进而获取输入特征中共同目标主体的显著性图,利用NCC计算两特征的相关性公式如下所示;
其中,N为输入特征的通道维数,即经特征降维后的输入的通道数,μA和μB分别代表特征A和B的均值,σA和σB代表各特征的标准差;
其次,在解码器中引入中间光流估计模块AIFE来利用额外估计的中间光流对初始光流进行修正,得到细化后的精确光流,在光流边界细化模块处所进行的计算如下;
最后,在基于Census光度一致损失和平滑损失函数的基础上,引入静态光流损失函数,通过将静态光流作为伪标签,通过总损失函数对网络训练方向进行明确指引,进而更新网络自身各层参数,直至训练完成;
(2)预测阶段:
训练完成后,将测试图像输入到参数固定的网络中,首先,测试图像会被缩放到与训练阶段相同的尺寸,而后经过Transformer编码器和特征金字塔解码器对光流进行逐层估计,在得到最细尺度上的光流W0后,利用双线性插值对W0进行上采样至输入图像大小,即得到最终的光流结果。
2.根据权利要求1所述的一种基于Transformer的光流无监督估计方法,其特征在于:
所述静态光流损失函数如下所示:
LStatic=Θ(I1,I1,θ)-α
其中,Θ代表所提出的光流估计网络,I1代表网络的输入,其维度可表示为[B,C,H,W],θ代表网络的参数,α代表与输入I1具有相同大小的零光流矩阵,其尺寸为[B,2,H,W]。
3.根据权利要求1所述的一种基于Transformer的光流无监督估计方法,其特征在于:
所述Census光度损失函数如下所示:
Lp=∑(1-Of)·φ(Census(I1)-Census(x+Uf))+(1-Ob)·φ(Census(I2)-Census(x+Ub))
其中,Of,Ob分别代表前向和反向光流遮挡掩膜,φ(x)=(x2+0.012)0.4为惩罚函数,Uf和Ub则分别代表网络所估计出的前向和反向光流。
5.根据权利要求1所述的一种基于Transformer的光流无监督估计方法,其特征在于:所述总损失函数为:
Ltotal=λ1LStatic+λ2Lp+λ3Ls
其中λ1-3为各项的平衡权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210777017.2A CN115018888B (zh) | 2022-07-04 | 2022-07-04 | 一种基于Transformer的光流无监督估计方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210777017.2A CN115018888B (zh) | 2022-07-04 | 2022-07-04 | 一种基于Transformer的光流无监督估计方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115018888A true CN115018888A (zh) | 2022-09-06 |
CN115018888B CN115018888B (zh) | 2024-08-06 |
Family
ID=83079777
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210777017.2A Active CN115018888B (zh) | 2022-07-04 | 2022-07-04 | 一种基于Transformer的光流无监督估计方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115018888B (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345881A (zh) * | 2022-10-18 | 2022-11-15 | 上海交强国通智能科技有限公司 | 一种基于计算机视觉的路面病害检测方法 |
CN116405626A (zh) * | 2023-06-05 | 2023-07-07 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法 |
CN116486107A (zh) * | 2023-06-21 | 2023-07-25 | 南昌航空大学 | 一种光流计算方法、系统、设备及介质 |
CN117437523A (zh) * | 2023-12-21 | 2024-01-23 | 西安电子科技大学 | 联合sar ccd和全局信息捕获的微弱痕迹检测方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582483A (zh) * | 2020-05-14 | 2020-08-25 | 哈尔滨工程大学 | 基于空间和通道联合注意力机制的无监督学习光流估计方法 |
CN114187331A (zh) * | 2021-12-10 | 2022-03-15 | 哈尔滨工程大学 | 一种基于Transformer特征金字塔网络的无监督光流估计方法 |
KR20220050758A (ko) * | 2020-10-16 | 2022-04-25 | 현대자동차주식회사 | 다차원 어텐션 메커니즘에 기반한 다방향 장면 텍스트 인식 방법 및 시스템 |
CN114693744A (zh) * | 2022-02-18 | 2022-07-01 | 东南大学 | 一种基于改进循环生成对抗网络的光流无监督估计方法 |
-
2022
- 2022-07-04 CN CN202210777017.2A patent/CN115018888B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111582483A (zh) * | 2020-05-14 | 2020-08-25 | 哈尔滨工程大学 | 基于空间和通道联合注意力机制的无监督学习光流估计方法 |
KR20220050758A (ko) * | 2020-10-16 | 2022-04-25 | 현대자동차주식회사 | 다차원 어텐션 메커니즘에 기반한 다방향 장면 텍스트 인식 방법 및 시스템 |
CN114187331A (zh) * | 2021-12-10 | 2022-03-15 | 哈尔滨工程大学 | 一种基于Transformer特征金字塔网络的无监督光流估计方法 |
CN114693744A (zh) * | 2022-02-18 | 2022-07-01 | 东南大学 | 一种基于改进循环生成对抗网络的光流无监督估计方法 |
Non-Patent Citations (1)
Title |
---|
岑仕杰;何元烈;陈小聪;: "结合注意力与无监督深度学习的单目深度估计", 广东工业大学学报, no. 04, 14 July 2020 (2020-07-14) * |
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115345881A (zh) * | 2022-10-18 | 2022-11-15 | 上海交强国通智能科技有限公司 | 一种基于计算机视觉的路面病害检测方法 |
CN116405626A (zh) * | 2023-06-05 | 2023-07-07 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法 |
CN116405626B (zh) * | 2023-06-05 | 2023-09-22 | 吉林大学 | 一种全局匹配的水下运动目标视觉增强方法及系统 |
CN116486107A (zh) * | 2023-06-21 | 2023-07-25 | 南昌航空大学 | 一种光流计算方法、系统、设备及介质 |
CN116486107B (zh) * | 2023-06-21 | 2023-09-05 | 南昌航空大学 | 一种光流计算方法、系统、设备及介质 |
CN117437523A (zh) * | 2023-12-21 | 2024-01-23 | 西安电子科技大学 | 联合sar ccd和全局信息捕获的微弱痕迹检测方法 |
CN117437523B (zh) * | 2023-12-21 | 2024-03-19 | 西安电子科技大学 | 联合sar ccd和全局信息捕获的微弱痕迹检测方法 |
Also Published As
Publication number | Publication date |
---|---|
CN115018888B (zh) | 2024-08-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110111366B (zh) | 一种基于多级损失量的端到端光流估计方法 | |
CN110782490B (zh) | 一种具有时空一致性的视频深度图估计方法及装置 | |
CN115018888B (zh) | 一种基于Transformer的光流无监督估计方法 | |
Meng et al. | Single-image dehazing based on two-stream convolutional neural network | |
CN110163246A (zh) | 基于卷积神经网络的单目光场图像无监督深度估计方法 | |
CN110222588A (zh) | 一种人脸素描图像衰老合成方法、装置及存储介质 | |
CN110910437B (zh) | 一种复杂室内场景的深度预测方法 | |
CN113657388A (zh) | 一种融合图像超分辨率重建的图像语义分割方法 | |
CN115035171B (zh) | 基于自注意力导向特征融合的自监督单目深度估计方法 | |
CN115578255B (zh) | 一种基于帧间亚像素块匹配的超分辨率重建方法 | |
CN114693744A (zh) | 一种基于改进循环生成对抗网络的光流无监督估计方法 | |
CN111445496B (zh) | 一种水下图像识别跟踪系统及方法 | |
CN116071748A (zh) | 一种基于频域全局滤波的无监督视频目标分割方法 | |
CN116205962A (zh) | 基于完整上下文信息的单目深度估计方法及系统 | |
CN117456330A (zh) | 一种基于MSFAF-Net的低照度目标检测方法 | |
Cheng et al. | A transformer-based network for perceptual contrastive underwater image enhancement | |
CN117593275A (zh) | 一种医学图像分割系统 | |
CN118071643A (zh) | 水电站大坝水下机器人获取的光学图像去模糊方法 | |
CN109934283A (zh) | 一种融合cnn和sift光流的自适应运动目标检测方法 | |
CN117952883A (zh) | 一种基于双边网格和显著性引导的逆光图像增强方法 | |
CN117830889A (zh) | 基于光流图特征融合机制的视频显著性检测方法、系统及存储介质 | |
Shao et al. | Pixel-level self-paced adversarial network with multiple attention in single image super-resolution | |
Zou et al. | Diffcr: A fast conditional diffusion framework for cloud removal from optical satellite images | |
Olszewski | Hashcc: Lightweight method to improve the quality of the camera-less nerf scene generation | |
CN115115860A (zh) | 一种基于深度学习的图像特征点检测匹配网络 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |