CN115861384B

CN115861384B - 基于生成对抗和注意力机制的光流估计方法及系统

Info

Publication number: CN115861384B
Application number: CN202310165174.2A
Authority: CN
Inventors: 刘文印; 梁建业; 陈俊洪; 梁达勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2023-02-27
Filing date: 2023-02-27
Publication date: 2023-05-23
Anticipated expiration: 2043-02-27
Also published as: CN115861384A

Abstract

本发明公开了基于生成对抗和注意力机制的光流估计方法及系统，包括以下步骤：输入一对连续的RGB图像数据；对所述图像数据通过生成器进行特征提取、特征匹配和光流优化处理，生成光流结果；基于所述光流结果，再通过鉴别器进行处理，生成光流估计结果。本发明在现有基于关联量的光流估计方法的基础上，进一步提高了光流估计的准确性和和鲁棒性，增强了模型的泛化能力，即使处于极端环境下也能通过关联量匹配实现光流估计。

Description

基于生成对抗和注意力机制的光流估计方法及系统

技术领域

本发明属于图像处理技术领域，具体涉及基于生成对抗和注意力机制的光流估计方法及系统。

背景技术

光流在视频编辑的稳定化、压缩、慢动作等方面都有广泛的应用。光流是估计视频帧之间每像素运动的任务，通常用于图像平面上定量运动估计的基本方法。它描述的是空间中运动的物体在成像平面上，造成像素运动的瞬时速度。在计算机视觉中，光流被定义为图像中对象的移动，这个移动可以是相机移动或者物体移动引起的，具体是指视频图像的一帧中的代表同一对象(物体)像素点移动到下一帧的移动量。传统的光流算法包括HS光流法、Lucas-Kanada方法、Pyramidal LK方法等。这些算法通常只考虑到特征相似性和空间平滑度，将光流视为一对图像之间密集位移场空间的手工优化问题。然而,由于受到尺度和形状变化的影响，这些传统方法对于实现一个在各种不同场景均具有鲁棒性的优化模型具有很大的挑战性。近年来，基于关联量的深度学习方法极大地改进了光流估计。然而，虽然最新的方法在基准数据上非常准确，但在某些情况下，例如运动模糊的大位移，流动误差仍然可能很大。正因为卷积的局部性和刚性权重，导致被合并到像素特征中的上下文信息十分有限，并且计算的相关性也受到高度随机性的影响，这使得大多数的高相关性值是虚假匹配。除此之外，随着生成对抗网络为人工智能领域在生成方向上带来全新的突破，生成对抗网络已然成为了深度学习领域中的研究热点。因此，如何有效地增强特征的匹配从而提高真实的相关性匹配度，以及合理地引入生成对抗网络框架提高模型的准确性和鲁棒性是光流估计中的一个重要课题。

光流估计常用的方法是通过内积运算得到的四维关联量来执行，即通过给定关联量，后续模块对两幅图像进行匹配，以最大化匹配区域之间的总体相关性。其中，关联量存储了前一帧中的每个像素与后一帧中另一个像素之间的成对相似度。然而，关联量中的噪声会随着输入图像中的噪声而增加，例如纹理损失、光照变化和运动模糊等，从而导致图像匹配失败，输出流不准确。特别当存在大的位移时，这个问题将会变得更加突出。所以，减少噪声相关性可以显著提高光流估计的准确度。在本专利中，我们通过反向残差注意力网络增强提取后的每特征像素，有效地降低了低纹理和运动模糊区域引起的图像噪声，同时结合基于编解码器的生成对抗网络，针对性地解决了图像在经过映射和逆映射的重构过程中造成的信息丢失问题。

发明内容

本发明提出基于生成对抗和注意力机制的光流估计方法及系统，目的是在如纹理损失、光照变化、运动模糊等极端环境下获得较好的光流估计结果，降低模型受干扰程度，提高鲁棒性，与此同时在普通环境下相比其他方法也能大幅提高配准性能，从而生成高分辨率图像。

为实现上述目的，本发明提供了如下方案：

基于生成对抗和注意力机制的光流估计方法，包括以下步骤：

输入一对连续的RGB图像数据；

对所述图像数据通过生成器进行特征提取、特征匹配和光流优化处理，生成光流结果；

基于所述光流结果，再通过鉴别器进行处理，生成光流估计结果。

优选的，所述进行特征提取的方法包括：基于输入的图像，通过特征提取网络和上下文网络的残差块，提取特征图。

优选的，进行特征匹配的方法包括：反向残差注意力网络和关联层；所述反向残差注意力网络由反向残差块和注意力层构成的Transformer网络；所述注意力层包括自注意力网络和交叉注意力网络；所述关联层用于计算视觉相似度的，即通过在所有像素对之间构建一个关联金字塔以实现对像素进行关联查找的操作。

优选的，所述反向残差块对输入的特征向量重新排序，给定输入张量

，其中，H、W、C分别为其高度、宽度和通道，反向残差块表示为：

其中，BN、GeLU分别代表批量归一化、高斯误差线性单元；符号σ代表Sigmoid函数，符号

代表运算叠加；函数N₁代表由1×1卷积组成的通道扩展函数；函数D代表由3×3卷积组成的深度卷积函数；函数N₂代表由1×1卷积组成的通道投影函数。

优选的，所述注意力层的输入分别为查询向量Q、键向量K和值向量V，查询向量Q根据每个值向量V对应的键向量K与Q的点积计算出的注意力权重，从值向量V中检索信息；注意力层表示为：

其中，

为特征向量的维度，上标T表示为矩阵转置，softmax为归一化指数函数。

优选的，所述自注意力网络的输入特征

和/>

是一样的/>

或/>

，所述交叉注意力网络的输入特征/>

和/>

为/>

和/>

或/>

和/>

，计算变换特征之间的得分矩阵S：

其中，i,j分别代表第i，j帧图像，

和/>

为输入特征/>

和/>

在注意力层的表达方式，/>

是|FA||FB|，/>

则代表除以特征/>

和/>

的模；

然后在得分矩阵的两个维度上应用softmax得到软相互最近邻匹配的概率

：/>

基于置信矩阵

，设置置信度大于阈值/>

的匹配，通过相互最近邻准则进一步筛选，过滤离群匹配，匹配预测函数/>

为：

其中，

代表/>

矩阵中使用MNN算法后得到的元素；

通过计算置信矩阵

上的负对数似然损失，得到损失函数/>

：

其中，

表示的是真实匹配，它是通过计算两组分辨率网格的相互最近邻匹配得到的。

优选的，所述关联层通过对所有像素对的特征向量做内积去构建一个四维的

关联量，所述四维的/>

关联量的后两维将会被多尺度采样，从而构建一系列多尺度量。

优选的，给定图像特征

和/>

，通过获取所有特征向量对之间的点积来形成关联量C，计算单个矩阵乘法，计算公式如下所示：

其中，i和j代表第一个特征的长和宽；k和h代表第二个特征的长和宽；

通过对关联量的最后两个维度池化进行下采样操作，从而构建了一个四层金字塔

。优选的，所述鉴别器采用的是U-Net编码器-解码器结构，首先使用编码器对生成器输出的光流结果进行下采样，再将其输入到卷积输出层中，得到鉴别器的粗粒度输出特征，当编码器中前一层输出特征的分辨率与解码器中的某一层隐藏特征相匹配时，将这两个特征串联起来，作为解码器下一层的输入，在解码器中进行上采样后，获得具有与生成器的输出结果相同分辨率的细粒度输出图。

本发明还提供基于生成对抗和注意力机制的光流估计系统，包括：输入模块、生成器处理模块和鉴别器处理模块；

所述输入模块用于输入一对连续的RGB的图像数据；

所述生成器处理模块用于对所述输入模块输入的图像数据进行特征提取、特征匹配和光流优化处理；

所述鉴别器处理模块用于对所述生成器处理模块处理后的数据再通过鉴别器进行处理，生成光流估计结果。

本发明的有益效果为：

本发明优化了网络结构；使用反向残差注意力网络进行特征匹配，增强了像素特征值的可区分性，使得关联匹配在大位移、低纹理或模糊区域能够更好地通过特征值寻找对应点；同时在光流估计中引入了结合编解码器和生成对抗网络的方法，充分利用光流估计结果的粗粒度和细粒度信息，从而捕获更丰富的可区分信息，提高光流估计的准确性；同时本发明在现有基于关联量的光流估计方法的基础上，进一步提高了光流估计的准确性和和鲁棒性，增强了模型的泛化能力，即使处于极端环境下也能通过关联量匹配实现光流估计。

附图说明

为了更清楚地说明本发明的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的总体网络框架示意图；

图2为本发明实施例的特征提取网络结构示意图；

图3为本发明实施例的反向残差注意力网络结构示意图；

图4为本发明实施例的鉴别器网络结构示意图；

图5为本发明实施例的整体结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。

实施例一

如图1所示，为本发明的总体网络框架示意图；包括以下步骤：输入一对连续的RGB图像数据；对图像数据通过生成器进行特征提取、特征匹配和光流优化处理，生成光流结果；基于光流结果，再通过鉴别器进行处理，生成光流估计结果。

本实施例中，从给定一对连续的RGB图像

中，估计密集位移场/>

，即将/>

中的每个像素/>

映射到/>

中其对应的坐标/>

。

本实施例中，网络架构由生成器和鉴别器组成，其中生成器包括三个模块，分别为：特征提取模块、特征匹配模块和光流优化模块。本发明提出基于生成对抗和注意力机制的光流估计方法，该方法通过多次迭代训练的方式获取最终的光流。该方法在大位移、弱纹理、运动模糊等场景具有较高的鲁棒性和准确性。

特征提取模块：特征提取模块是指特征提取网络和上下文网络，它们的网络结构基本相同，如图2所示。显然，特征提取网络和上下文网络都是由6个残差块组成，输入的特征图像每经过两个残差块，其分辨率会减少一半。因此，输入特征在经过特征提取网络或上下文网络之后，它的分辨率将是原来大小的八分之一。

特征匹配模块：特征匹配模块包括反向残差注意力网络和关联层。前者是由反向残差块和注意力层构成的Transformer网络，其注意力层包括自注意力编码层和交叉注意力解码层。后者是用于计算视觉相似度的，即通过在所有像素对之间构建一个关联金字塔以实现对像素进行关联查找的操作。

反向残差注意力网络的详细结构如图3所示。注意力层的输入分别是查询向量Q、键向量K和值向量V。与信息检索类似，查询向量Q根据每个值向量V对应的键向量K与Q的点积计算出的注意力权重，从值向量V中检索信息。注意力层可以表示为：

其中

直观地说，注意力操作通过度量查询元素与每个键元素之间的相似度来选择相关信息，输出向量是相似度得分加权的值向量的和。因此，当相似度较高时，可从值向量中提取相关信息。然后，用一个倒置残差块替换Transformer块的多层感知器，并在注意力层操作之前通过这个倒置残差块对输入的特征向量进行重新排序。如此一来，就不需要添加额外的下采样层。

给定输入张量

，其中，H、W、C分别是其高度、宽度和通道，反向残差块可以表示为：

反向残差块不仅可以增强网络的表示能力，还能产生更好的下采样特征，有助于后续的注意力层获取到更全局的信息，增强模型的学习判别能力。此外，自注意力层的输入特征

和/>

是一样的(/>

或/>

)，而交叉注意力层的输入特征/>

和/>

为(/>

和/>

)或(/>

和/>

)。首先，我们计算变换特征之间的得分矩阵S：

其中，i,j分别代表第i，j帧图像，

和/>

为输入特征/>

和/>

在注意力层的表达方式，/>

是|FA||FB|，/>

则代表除以特征/>

和/>

的模；

然后在该得分矩阵的两个维度上应用softmax得到软相互最近邻匹配的概率

：/>

基于置信矩阵

，设置置信度大于阈值/>

的匹配，通过相互最近邻（MNN）准则进一步筛选，过滤可能的离群匹配。匹配预测函数/>

为：

其中，

代表/>

矩阵中使用MNN算法后得到的元素；

因此，通过计算置信矩阵

上的负对数似然损失，得到损失函数/>

：

其中，

关联层通过对所有像素对的特征向量做内积去构建一个四维的

关联量，这个四维关联量的后两维将会被多尺度采样，从而构建一系列多尺度量。给定图像特征/>

和/>

，我们通过取所有特征向量对之间的点积来形成关联量C，可以有效地计算为单个矩阵乘法，计算公式如下所示：

具体地说，首先通过对关联量的最后两个维度池化进行下采样操作，从而构建了一个四层金字塔

。其中，关联/>

量的尺寸为/>

。因此，通过这组关联量获取关于大位移和小位移的信息；此外，通过保存图像/>

的前两个维度，也保存了高分辨率信息，这使得能够捕获快速移动的小物体的运动。接着，定义一种查找操作/>

，它可以通过对关联金字塔进行索引来生成特征图。这种查找操作是以双线性采样的方式通过使用局部邻域/>

从关联量中进行索引。局部邻域/>

的表达式如下：

其中，

表示在给定光流/>

的当前估计时，/>

中的每个像素/>

映射到

中的估计对应关系，r是局部邻域/>

的单位半径。这样，可以通过使用网格/>

对维度为k的关联量/>

进行索引，实现对关联金字塔所有级别的查找。

光流优化模块：光流优化模块由算子更新层构成。它的作用是通过不断地根据当前的估计值从关联量集合中查找对应的光流值，以此循环地更新光流。我们使用最近邻插值填充遮挡间隙的方法为流场进行初始化，更新算子从

开始进行一系列流估计

，每次迭代都会产生一个相对于当前估计的更新方向/>

。接着，通过使用当前估计值/>

对关联金字塔进行索引得出对应的关联特征，并将其输入到两个卷积层以生成流特征。然后，把该流特征、关联量以及从上下文网络直接得到的上下文特征串联起来，作为算子更新层的输入特征图。把基于GRU单元的门控激活单元作为更新操作的核心组件，并卷积替换了完全连接的层：

其中，

是当前的估计流特征、关联量和上下文特征的串联。GRU的输出会经过两个卷积操作变成最终的光流，且输出光流的大小是原来的八分之一。最后，为了得到多个分辨率尺度，上采样部分会在粗分辨率上通过周围的3x3网格进行差值预测。我们这里使用两个卷积操作并经过一个softmax得到mask，最终原始分辨率的光流就通过mask进行加权获得。

如图4所示，鉴别器：鉴别器采用的是U-Net编码器-解码器结构，其中编码器和解码器具有对称的结构，都是由多个卷积层堆叠而成的。这些卷积层都是由权重归一化层和

的LeakyReLU激活函数层组成。首先使用编码器对生成器输出的光流结果进行下采样，再将其输入到卷积输出层中，这样就得到了鉴别器的粗粒度输出特征。此外，当编码器中前一层输出特征的分辨率与解码器中的某一层隐藏特征相匹配时，我们就将这两个特征串联起来，作为解码器下一层的输入。最后，在解码器中进行上采样后，我们就获得了具有与生成器的输出结果相同分辨率的细粒度输出图。鉴别器的输出结果如下：

其中，

和/>

分别表示真实光流和伪光流的粗粒度输出、细粒度输出、隐藏特征和光流值。接着，我们用LS-GAN损失函数/>

来更新鉴别器:

在更新生成器之前，我们先使用更新后的鉴别器再次提取这些特征，然后计算损失函数：

/>

其中，

代表生成器的损失函数。/>

和/>

是权重参数。/>

是对抗损失函数，它代表粗粒度输出和细粒度输出的均方误差之和，当它越接近1，则越容易欺骗鉴别器。/>

是特征匹配损失函数，它代表的是真实光流的隐藏特征和伪光流之间的平均绝对误差，用于提高对抗训练的稳定性。因此，Lg代表总的损失函数。

实施例二

如图5所示，为本发明的基于生成对抗和注意力机制的光流估计系统，包括：输入模块、生成器处理模块和鉴别器处理模块；

输入模块用于输入一对连续的RGB的图像数据；

生成器处理模块用于对输入模块输入的图像数据进行特征提取、特征匹配和光流优化处理；

鉴别器处理模块用于对生成器处理模块处理后的数据再通过鉴别器进行处理，生成光流估计结果。

我们通过摄像头获取一系列的视频流，然后把每帧图片输入到光流估计系统的输入模块当中。输入模块将这些一帧帧的图片以连续两帧为一个数据单位，输入到生成器处理模块中以进行图像的特征提取和特征匹配等处理。

生成器处理模块的作用主要是通过对输入的图像对进行特征提取、匹配、优化等一系列的处理操作后，输出一张密集速度矢量场图像。它包括特征提取模块，特征匹配模块和光流优化模块组成。其中，特征提取模块中的特征提取网络和上下文网络都是由6个残差块组成，输入的特征图像每经过两个残差块，其分辨率会减少一半。因此，输入特征在经过特征提取网络或上下文网络之后，它的分辨率将是原来大小的八分之一。接着，特征提取模块把提取后的特征输入到特征匹配模块中。特征匹配模块包括反向残差注意力网络和关联层。前者是由反向残差块和注意力层构成的Transformer网络，其注意力层包括自注意力编码层和交叉注意力解码层。后者是用于计算视觉相似度的，即通过在所有像素对之间构建一个关联金字塔以实现对像素进行关联查找的操作。因此，特征匹配模块将提取后的特征先输入到反向残差注意力网络中增强特征的空间信息，提高像素特征值的可区分性。然后，关联层则通过对所有像素对的特征向量做内积运算，构建一个四维的关联量，以获取像素中的位移信息。此外，关联层还定义了一种查找操作。它可以通过对关联金字塔进行索引来生成特征图。光流优化模块由算子更新层构成。它的作用是通过不断地根据当前的估计值从关联金字塔中查找对应的光流值，以此循环地更新光流。最终，生成器得到了一张大小为原图像八分之一的光流特征图，同时将该特征图输入到鉴别器中进行对抗学习训练。

鉴别器处理模块采用的是基于U-Net结构的编解码器，其中编码器和解码器具有对称的结构，都是由多个卷积层堆叠而成的。这些卷积层都是由权重归一化层和

的LeakyReLU激活函数层组成。首先使用编码器对生成器输出的光流结果进行下采样，再将其输入到卷积输出层中，这样就得到了鉴别器的粗粒度输出特征。此外，当编码器中前一层输出特征的分辨率与解码器中的某一层隐藏特征相匹配时，我们就将这两个特征串联起来，作为解码器下一层的输入。最后，在解码器中进行上采样后，我们就获得了具有与生成器的输出结果相同分辨率的细粒度输出图。鉴别器先对噪音样本和真实样本的粗细特征图进行一定次数的判别训练，学习能区分真假样本的能力，然后再对生成器的输出结果的粗细特征图进行真假判别训练。经过多次的迭代训练后，当鉴别器输出的粗粒度特征图和细粒度特征图的均方误差和无限接近于1的时候，鉴别器处理模块输出最终的光流估计结果。

以上所述的实施例仅是对本发明优选方式进行的描述，并非对本发明的范围进行限定，在不脱离本发明设计精神的前提下，本领域普通技术人员对本发明的技术方案做出的各种变形和改进，均应落入本发明权利要求书确定的保护范围内。

Claims

1.基于生成对抗和注意力机制的光流估计方法，其特征在于，包括以下步骤：

输入一对连续的RGB图像数据；

基于所述光流结果，再通过鉴别器进行处理，生成光流估计结果；

所述进行特征提取的方法包括：基于输入的图像，通过特征提取网络和上下文网络的残差块，提取特征图；

进行特征匹配的方法包括：反向残差注意力网络和关联层；所述反向残差注意力网络由反向残差块和注意力层构成的Transformer网络；所述注意力层包括自注意力网络和交叉注意力网络；所述关联层用于计算视觉相似度的，即通过在所有像素对之间构建一个关联金字塔以实现对像素进行关联查找的操作；

所述反向残差块对输入的特征向量重新排序，给定输入张量

其中，BN、GeLU分别代表批量归一化、高斯误差线性单元；符号σ代表Sigmoid函数，符号/>

代表运算叠加；函数N₁代表由1×1卷积组成的通道扩展函数；函数D代表由3×3卷积组成的深度卷积函数；函数N₂代表由1×1卷积组成的通道投影函数；

关联量，这个四维关联量的后两维将会被多尺度采样，从而构建一系列多尺度量；

通过对关联量的最后两个维度池化进行下采样操作，构建一个四层金字塔

；其中，关联/>

量的尺寸为/>

；

通过关联量获取关于大位移和小位移的信息；

通过保存图像

的前两个维度，也保存了高分辨率信息，这使得能够捕获快速移动的小物体的运动；

定义一种查找操作

，通过对关联金字塔进行索引来生成特征图；

这种查找操作是以双线性采样的方式通过使用局部邻域从关联量中进行索引。

2.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法，其特征在于，所述注意力层的输入分别为查询向量Q、键向量K和值向量V，查询向量Q根据每个值向量V对应的键向量K与Q的点积计算出的注意力权重，从值向量V中检索信息；注意力层表示为：

其中，/>

3.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法，其特征在于，所述自注意力网络的输入特征

和/>

是一样的，即为/>

或/>

，所述交叉注意力网络的输入特征/>

和/>

为/>

和/>

，或/>

和/>

，计算变换特征之间的得分矩阵S：

其中，i,j分别代表第i，j帧图像，/>

和/>

为输入特征/>

和/>

在注意力层的表达方式，/>

是|FA||FB|，/>

则代表除以特征/>

和/>

的模；

：

基于置信矩阵/>

，设置置信度大于阈值/>

为：

其中，/>

代表/>

矩阵中使用MNN算法后得到的元素；

通过计算置信矩阵

上的负对数似然损失，得到损失函数/>

：

其中，/>

4.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法，其特征在于，所述关联层通过对所有像素对的特征向量做内积去构建一个四维的

关联量，所述四维的/>

5.根据权利要求4所述的基于生成对抗和注意力机制的光流估计方法，其特征在于，给定图像特征

和/>

。

6.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法，其特征在于，所述鉴别器采用的是U-Net编码器-解码器结构，首先使用编码器对生成器输出的光流结果进行下采样，再将其输入到卷积输出层中，得到鉴别器的粗粒度输出特征，当编码器中前一层输出特征的分辨率与解码器中的某一层隐藏特征相匹配时，将这两个特征串联起来，作为解码器下一层的输入，在解码器中进行上采样后，获得具有与生成器的输出结果相同分辨率的细粒度输出图。