CN111582483B

CN111582483B - 基于空间和通道联合注意力机制的无监督学习光流估计方法

Info

Publication number: CN111582483B
Application number: CN202010409546.8A
Authority: CN
Inventors: 项学智; 李诗洋; 张荣芳; 翟明亮; 吕宁; 邱瑜鉴; 田大帅; 乔玉龙
Original assignee: Harbin Engineering University
Current assignee: Harbin Engineering University
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2022-12-13
Anticipated expiration: 2040-05-14
Also published as: CN111582483A

Abstract

本发明的目的在于提供基于空间和通道联合注意力机制的无监督学习光流估计方法，首先构建一种融合空洞卷积的新型特征金字塔网络，并利用其提取包含更多运动信息的多尺度特征。之后基于空间和通道联合注意力机制构建光流估计网络，使网络能够学习到更有针对性的运动信息。最后基于正反一致性校验和Census变换构造遮挡感知的无监督损失函数，并利用其对网络进行无监督训练，得到性能更优的无监督光流估计模型。

Description

基于空间和通道联合注意力机制的无监督学习光流估计方法

技术领域

本发明涉及的是一种光流估计方法。

背景技术

近年来，随着深度学习的发展，卷积神经网络已成功地应用于光流估计领域。卷积神经网络的训练过程较为耗时，但在推理阶段速度很快，可有效解决传统方法实时性差的问题，然而深度学习光流方法通过牺牲图像分辨率的方式增大卷积提取特征的感受野，导致网络损失大量空间细节信息。同时，基于深度学习的光流估计方法与传统光流估计方法相同，仍旧受到遮挡问题的影响。除此之外，由于真实场景下的稠密光流真值很难获取，用于光流估计的端到端卷积神经网络通常利用合成数据集进行有监督训练，因此在真实场景中测试时往往无法取得理想的结果。无监督训练方式可以有效解决真值获取困难的问题，然而现存的无监督光流估计方法大多基于亮度恒常假设来设计损失函数，光照变化将会影响无监督光流估计方法的准确性。

发明内容

本发明的目的在于提供可以针对无标签真实场景数据进行训练，以此规避网络对大量真值数据需求的基于空间和通道联合注意力机制的无监督学习光流估计方法。

本发明的目的是这样实现的：

本发明基于空间和通道联合注意力机制的无监督学习光流估计方法，其特征是：

(1)构建融合空洞卷积的特征金字塔网络：该特征金字塔网络包含2个网络架构完全相同的分支，在特征金字塔的第1层至第4层的底层部分，每个分支网络通过连续的卷积层逐步提取两帧图像的低级特征图，在特征金字塔的第5层至第6层的高层部分，通过连续的卷积层提取两帧图像的高级特征图，训练过程中两个分支互相共享网络权重，以确保两个分支对第1帧图像和第2帧图像做相同的处理，计算两帧图像在不同金字塔层上特征图之间的特征图匹配代价cost volume，将其作为光流估计网络的输入；

(2)构建空间和通道联合注意力机制的光流估计网络：光流估计网络利用每层金字塔获得的特征图匹配代价cost volume进行光流估计，得到对应尺度的光流结果；

(3)利用正反一致性校验计算非遮挡区域：将第1帧图像和第2帧图像输入到网络中，以得到正向光流，之后调换两帧图像的顺序再次输入网络，得到反向光流，之后对正向光流和反向光流进行正反一致性校验，以此推断出前向遮挡区域和反向遮挡区域；

(4)构造无监督学习损失函数：将Census变换结合到光流估计网络中，并构建无监督损失函数，在网络训练过程中对非遮挡区域的像素点计算无监督损失，之后将每层金字塔对应的损失项加权求和，作为无监督光流估计网络的总体损失，以此约束网络的训练过程；

(5)训练阶段：在网络输入端输入无标签数据，通过对损失权重求和得到总损失，之后利用反向传播算法训练网络，得到最后的无监督光流估计模型；

(6)利用训练好的模型进行测试，输入为图像对，输出为对应的光流图。

本发明还可以包括：

1、所述步骤(1)特征图匹配代价cost volume的获取方式如下：

其中F₁ ⁱ(x₁),F₂ ⁱ(x₂)分别表示金字塔第i层上第1帧和第2帧的特征图，M表示特征图F₁ ⁱ(x₁)和F₂ ⁱ(x₂)的长度，T表示向量的转置操作，Fcⁱ(x₁,x₂)表示金字塔第i层上的特征匹配特征图匹配代价cost volume结果；

变形特征图由光流估计网络计算出的光流对第2帧图像的特征图进行变形得到，特征变性操作的定义如下：

F_i ^2′(p)＝F_i ²(p+φ(O_i-1(p)))

其中p表示图像中的像素点，O_i-1(p)表示金字塔第i-1层光流估计网络计算得到的光流结果，φ(x)表示上采样操作，F_i ²(p)为金字塔第i-1层第2帧图像的特征图，F_i ^2′(p)表示变形后的特征图。

2、步骤(2)中，光流估计网络从金字塔第6层开始计算光流，计算得到的光流对第2帧图像的特征图进行变形，用于计算下一层的特征图匹配代价cost volume；第4层到第1层需要对本层的光流结果进行上采样，针对金字塔的第i层，首先计算金字塔第i-1层上的光流结果O_i-1，利用上采样操作使O_i-1与下一层金字塔尺度匹配，之后利用上采样光流对第i层的第2帧图像的特征图F_i ²做变形操作，使变形后的特征图F_i ^2′更趋向于第1帧图像的特征图F_i ¹，其中第6层到第5层跳过上采样操作，最后利用变形后的特征图F_i ^2′(p)和第1帧图像的特征图F_i ¹(p)来计算特征图匹配代价cost volume，并将计算得到的特征图匹配代价costvolume输入到金字塔第i层对应的光流估计网络中，得到这一层对应的光流结果。

3、步骤(3)中，使用正反性一致性校验算法对遮挡部位的像素点进行识别，以剔除光流误差区域：当正向光流和反向光流之间的匹配值超过阈值，即该像素点为遮挡像素点，对图像上所有像素点进行检验，将超过阈值的像素点用前向遮挡参数f和后向遮挡参数b标记，以此求出所有像素点的遮挡掩码。

4、步骤(4)中，将Census变换应用到数据项约束中，具体实现公式如下，

其中，W(p)表示以p为中心像素点的矩形变换窗口，q为矩形窗内其他点，I(p)、I(q)分别为p、q像素点处的灰度值，

为字符串连接符，σ为判别式的阈值；

将Census变换嵌入数据项中，得到下式，

其中，p表示图像中的像素点，O(p)表示光流估计网络计算得到的光流结果，

表示鲁棒惩罚函数，f表示前向遮挡参数，b表示后向遮挡参数，

表示第2帧图像的Census变换，

表示第1帧图像的Census变换；

总损失函数由金字塔第2至第6层的损失函数加权求和得到，公式如下，

其中，λ_c分别表示不同金字塔尺度下Census损失函数所占的权重。

本发明的优势在于：本发明可以针对无标签真实场景数据进行训练，以此规避网络对大量真值数据的需求。首先将空洞卷积引入特征金字塔网络，将特征金字塔高层部分的标准卷积层替换为空洞卷积层，使高级特征图中保留更多空间细节信息，从而提升特征金字塔网络提取特征的能力。之后基于空间和通道联合注意力机制构建光流估计网络，使网络能够学习到更具有针对性的运动信息。最后基于正反一致性校验和Census变换构造一种遮挡感知的无监督损失函数，并利用其对网络进行无监督训练，得到性能更优的无监督光流估计模型。

附图说明

图1为本发明的流程图；

图2为融合空洞卷积的特征金字塔网络架构示意图；

图3为空洞卷积示意图；

图4为空间和通道联合注意力机制的光流估计网络架构示意图；

图5为空间和通道联合注意力模块架构示意图；

图6为本发明的正反一致性检验原理图；

图7为本发明的无监督学习光流估计网络总体架构图。

具体实施方式

下面结合附图举例对本发明做更详细地描述：

本发明通过以下步骤实现：

S1.构建融合空洞卷积的新型特征金字塔网络。该特征金字塔网络包含2个网络架构完全相同的分支。在特征金字塔的第1层至第4层的底层部分，每个分支网络通过连续的卷积层逐步提取两帧图像的低级特征图，这里的卷积层都是由标准卷积层组成，网络底层的低级特征图尺寸会随着特征金字塔等级的增加而逐渐降低。在特征金字塔的第5层至第6层的高层部分，通过连续的卷积层提取两帧图像的高级特征图，这部分的卷积层使用标准卷积层和空洞卷积层结合的方式，卷积层的参数设置如图2所示。空洞卷积保证了高层特征图的尺度不会随着特征金字塔等级的增长而降低，保存更多有效的运动细节信息。训练过程中两个分支互相共享网络权重，以确保两个分支对第1帧图像和第2帧图像做相同的处理，计算两帧图像在不同金字塔层上特征图之间的特征图匹配代价cost volume，也就是计算两帧图像之间的匹配关系，将其作为光流估计网络的输入。

S2.构建空间和通道联合注意力机制的光流估计网络。光流估计网络利用每层金字塔获得的特征图匹配代价cost volume进行光流估计，得到对应尺度的光流结果。每层金字塔对应的光流估计网络结构相同，都是由5层标准卷积层与空间和通道联合注意力模块组成。卷积层使用大小为3×3，步长为1的卷积核，输出通道数分别为128、128、96、64、32。在每层卷积层后加入空间和通道联合注意力模块，联合注意力机制的架构如图5所示，每一层卷积层的输出都由联合注意力模块细化，联合注意力模块是由两个分支构成，分别为空间注意力模块和通道注意力模块。通道注意力提取通道间的关系，空间注意力则强调不同空间位置关系的特征。

S3.利用正反一致性校验计算非遮挡区域。将第1帧图像和第2帧图像输入到网络中，以得到正向光流，之后调换两帧图像的顺序再次输入网络，得到反向光流，之后对正向光流和反向光流进行正反一致性校验，以此推断出前向遮挡区域和反向遮挡区域，由于遮挡区域对数据项损失函数的影响较大，因此只对非遮挡区域的光流计算无监督损失。

S4.构造无监督学习损失函数。将Census变换结合到光流估计网络中，并构建无监督损失函数，在网络训练过程中对非遮挡区域的像素点计算无监督损失，之后将每层金字塔对应的损失项加权求和，作为无监督光流估计网络的总体损失，以此约束网络的训练过程。

S5.训练阶段，首先在网络输入端输入大量无标签数据，通过对损失权重求和得到总损失，之后利用反向传播算法训练网络，得到最后的无监督光流估计模型。

S6.利用训练好的模型进行测试，输入为图像对，输出为对应的光流图。

结合图1-7，以上步骤具体为：

S1.融合空洞卷积的特征金字塔包含两个架构相同的分支，特征金字塔网络一共包含12层卷积层，能够提取到6个尺度的特征图，如图2所示。第1层卷积层输入6×384×512的特征图，核尺寸3×3，步长为2，输出16×192×256的特征图，第2层卷积层输入16×192×256的特征图，核尺寸3×3，步长为1，输出16×192×256的特征图。第3层卷积层输入16×192×256的特征图，核尺寸3×3，步长为2，输出32×96×128的特征图，第4层卷积层输入32×96×128的特征图，核尺寸3×3，步长为1，输出32×96×128的特征图。第5层卷积层输入32×96×128的特征图，核尺寸3×3，步长为2，输出64×48×64的特征图，第6层卷积层输入64×48×64的特征图，核尺寸3×3，步长为1，输出64×48×64的特征图。第7层卷积层输入64×48×64的特征图，核尺寸3×3，步长为2，输出96×24×32的特征图，第8层卷积层输入96×24×32的特征图，核尺寸3×3，步长为1，输出96×24×32的特征图。第9层卷积层使用空洞卷积，空洞系数为2，输入96×24×32的特征图，核尺寸3×3，步长为1，输出128×24×32的特征图，第10层卷积层输入128×24×32的特征图，核尺寸3×3，步长为1，输出128×24×32的特征图。第11层卷积层使用空洞卷积，空洞系数为4，输入128×24×32的特征图，核尺寸3×3，步长为1，输出196×24×32的特征图，第12层卷积层输入196×24×32的特征图，核尺寸3×3，步长为1，输出196×24×32的特征图。

如图3所示，标准卷积核与空洞卷积核的对比图。图中包含两个标准卷积核和一个空洞卷积核，三者的卷积核大小分别为3×3，5×5，3×3，其中空洞卷积的空洞间隔为1。由于标准卷积核的感受野大小等于卷积核的尺寸，即左侧的两个标准卷积核的感受野分别为3×3，5×5，右侧的空洞卷积核的实际尺寸也是，但是由于卷积核采样点之间添加了空洞，且空洞参数为1，因此其感受野的大小将增大为(3+3+1)×(3+3+1)＝5×5。空洞卷积多了一个重要的参数，称之为空洞参数。空洞参数可以用来表示卷积核采样点之间的空洞间隔大小，间隔越大，卷积核的感受野将会越大。空洞卷积可以在提取运动特征的同时保证特征图分辨率不变，即不需要以减小特征图尺寸的方式来增大卷积核感受野，从而避免细节信息随着特征图尺寸的减小而丢失。

本发明中除了金字塔的最高层之外，每层特征图匹配代价cost volume计算的是第1帧图像的特征图和第2帧图像的变形特征图之间的匹配关系，即在金字塔的每一层上计算对应尺度下特征图之间的特征图匹配代价cost volume，作为下一部分光流估计网络的输入。特征图匹配代价cost volume的计算公式如下：

其中F₁ ⁱ(x₁),F₂ ⁱ(x₂)分别表示金字塔第i层上第1帧和第2帧的特征图，M表示特征图F₁ ⁱ(x₁)和F₂ ⁱ(x₂)的长度，T表示向量的转置操作，最后计算得到的Fcⁱ(x₁,x₂)表示金字塔第i层上的特征匹配特征图匹配代价cost volume结果。

变形特征图是由光流估计网络计算出的光流对第2帧图像的特征图进行变形得到的，特征变性操作的定义如下，

F_i ^2′(p)＝F_i ²(p+φ(O_i-1(p))) (2)

S2.如图4所示，空间和通道联合注意力机制的光流估计网络架构都是由5层标准卷积层与空间和通道联合注意力模块组成。卷积层使用大小为3×3，步长为1的卷积核，输出通道数分别为128、128、96、64、32。在每层卷积层后加入空间和通道联合注意力模块，其中，空间和通道联合的注意力机制架构包含空间注意力模块和通道注意力模块，如图5所示。空间注意力模块包含两层1×1的卷积层和两层空洞卷积层，输入特征图F₁∈R^C×H×W，空间注意力模块可以得到空间注意力特征图A^S∈R^1×H×W。第一层卷积层和两层空洞卷积输出C/r×H×W大小的特征图，r设置为16，空洞卷积率设置为4，空洞卷积卷积核大小为3×3。

通道注意力模块包括压缩和激励两部分，输入尺寸为C×H×W的特征图X＝x₁,x₂,...,x_c，注意力单元可以自适应地调整不同通道特征图的权重，其中压缩部分对输入特征图进行全局平均池化操作，输出特征图由S＝s₁,s₂,...,s_c表示，每个通道信息量s_c的定义如下，

激励部分可以自适应的学习每个通道的权重，包含两层卷积层和一层激活层，第一层卷积层连接一层ReLU层，用来压缩特征图的数量，输出C/r×1×1的特征图的数量，通道压缩参数r设置为64。第二层卷积层用来恢复通道的数量，通道权重由P＝p₁,p₂,...,p_c表示，之后将这些权重输入激活函数sigmoid将权重值规范化到0至1之间。最后将输入特征图X＝x₁,x₂,...,x_c与权重P＝p₁,p₂,...,p_c分别相乘，得到优化后的特征图R＝r₁,r₂,...,r_c，其中r_c的定义如下所示，

r_c＝x_c×p_c (4)

将两个模块结合，首先将注意力特征图映射调整为C×H×W大小，之后将空间注意力特征图和通道注意力特征图相乘，得到3D融合注意力图A′，并输入到sigmoid激活函数中，将权重规范到0到1之间。将A′与原始特征图相乘。最后利用跳跃连接将改进后的特征与原始特征进行累加。

光流估计网络从金字塔第6层开始计算光流，计算得到的光流需要对第2帧图像的特征图进行变形，用于计算下一层的特征图匹配代价cost volume。由于第4层到第1层的特征尺度不断增大，在对下一层的特征进行变形操作之前需要对本层的光流结果进行上采样，以得到和下一层特征图尺寸相匹配的光流图，而第6层到第5层的特征尺度保持不变，不需要对本层的光流结果进行上采样。针对金字塔第i层，首先计算金字塔第i-1层上的光流结果O_i-1，利用上采样操作将O_i-1的尺寸增大一倍，以得到与下一层金字塔尺度匹配的上采样光流O_i-1′，之后利用上采样光流对第i层的第2帧图像的特征图F_i ²做变形操作，使变形后的特征图F_i ^2′更趋向于第1帧图像的特征图F_i ¹，缩小了特征图之间的空间距离，进而减小特征图匹配代价cost volume的计算成本，其中第6层到第5层跳过上采样操作，同时由于需要学习的位移量减小，光流估计网络更容易学习到精确的光流结果。

最后利用变形后的特征图F_i ^2′(p)和第1帧图像的特征图F_i ¹(p)来计算特征图匹配代价cost volume，并将计算得到的特征图匹配代价cost volume输入到金字塔第i层对应的光流估计网络中，得到这一层对应的光流结果。变形操作采用双线性插值方法实现，具体定义如下所示，

其中p＝(x,y)^T表示双线性插值前特征图F上的源坐标，p_s＝(x_s,y_s)^T表示双线性插值后特征图F_s上的坐标，Ω(p)表示特征图F上某像素点p的四邻域像素，p′＝p_s-p表示像素点在插值前后的位移量，即为变形操作中使用的上采样光流值

S3.如图6所示，正反性一致性校验算法对遮挡部位的像素点进行识别，以剔除光流误差区域。正反一致性校验首先需要先计算出某像素点在第1帧图像上的正向光流与第2帧图像上对应像素点的反向光流，对于非遮挡区域Ω′内的像素点，其正向光流和对应像素点的反向光流应该呈现大小、方向完全相反的状态，当对二者进行匹配时，匹配值应该几近于零。当此像素点只存在于某一帧图像上，即该像素点为遮挡区域Ω内的像素点，对该像素点的正向光流和反向光流进行匹配时，匹配误差一定非常大。因此正反一致性算法的设计思想是当二者之间的匹配值超过一定阈值，即可认为该像素点为遮挡像素点，对图像上所有像素点进行检验，将超过阈值的像素点用前向遮挡参数f和后向遮挡参数b标记，以此可以求出所有像素点的遮挡掩码。以前向遮挡为例，首先需要得到第2帧图像对应像素点的反向光流的定义如下所示，

O_f ^v＝O_b(x+O_f(x)) (6)

其中O_b为第2帧图像的反向光流，x为第1帧图像上的像素点，x+O_f(x)表示该运动像素在第2帧图像上的对应像素点。

正反一致性校验的定义如下所示，

其中参数值设定为μ₁＝0.01,μ₂＝0.05，不满足上述条件的像素点即为遮挡部分像素点，此时需将前向遮挡参数f的值设为1。

S4.使用鲁棒的Census变换设计无监督损失函数，Census变换在光照变化情况下仍旧保持性能，可以避免光照变化对亮度恒常假设的影响。Census变换是一种非线性变换，在光照剧烈单调变化下具有守恒特性，将图像内某一矩形变换窗内的像素用一串二值序列表示，对Census变换应用到数据项约束中，具体实现公式如下，

为字符串连接符，σ为判别式的阈值。

将Census变换嵌入数据项中，得到下式，

表示鲁棒惩罚函数。前向遮挡参数f和后向遮挡参数b。

表示第2帧图像的Census变换，

表示第1帧图像的Census变换。

由于网络需要在不同金字塔尺度计算不同的Census损失函数，总损失函数由金字塔第2至第6层的损失函数加权求和得到，公式如下，

其中，λ_c分别表示不同金字塔尺度下Census损失函数所占的权重。分辨率越高层的统计损失函数在网络训练中起到的作用越大，权重系数越大。5层金字塔对应的λ_c值分别为12.7、4.35、3.9、3.4、1.1。

S5.在网络的输入端输入无标签数据，通过不同的损失权重求和得到总损失，并利用反向传播算法对无监督学习网络进行训练。

S6.在训练好的模型中输入数据，对无监督学习光流网络进行测试，输出为对应的稠密光流。

Claims

1.基于空间和通道联合注意力机制的无监督学习光流估计方法，其特征是：

(6)利用训练好的模型进行测试，输入为图像对，输出为对应的光流图；

步骤(1)特征图匹配代价cost volume的获取方式如下：

F_i ^2′(p)＝F_i ²(p+φ(O_i-1(p)))

其中p表示图像中的像素点，O_i-1(p)表示金字塔第i-1层光流估计网络计算得到的光流结果，φ(x)表示上采样操作，F_i ²(p)为金字塔第i-1层第2帧图像的特征图，F_i ^2′(p)表示变形后的特征图；

步骤(2)中，光流估计网络从金字塔第6层开始计算光流，计算得到的光流对第2帧图像的特征图进行变形，用于计算下一层的特征图匹配代价cost volume；第4层到第1层需要对本层的光流结果进行上采样，针对金字塔的第i层，首先计算金字塔第i-1层上的光流结果O_i-1，利用上采样操作使O_i-1与下一层金字塔尺度匹配，之后利用上采样光流对第i层的第2帧图像的特征图F_i ²做变形操作，使变形后的特征图F_i ^2′更趋向于第1帧图像的特征图F_i ¹，其中第6层到第5层跳过上采样操作，最后利用变形后的特征图F_i ^2′(p)和第1帧图像的特征图F_i ¹(p)来计算特征图匹配代价cost volume，并将计算得到的特征图匹配代价cost volume输入到金字塔第i层对应的光流估计网络中，得到这一层对应的光流结果；

步骤(3)中，使用正反性一致性校验算法对遮挡部位的像素点进行识别，以剔除光流误差区域：当正向光流和反向光流之间的匹配值超过阈值，即该像素点为遮挡像素点，对图像上所有像素点进行检验，将超过阈值的像素点用前向遮挡参数f和后向遮挡参数b标记，以此求出所有像素点的遮挡掩码；

步骤(4)中，将Census变换应用到数据项约束中，具体实现公式如下，

为字符串连接符，σ为判别式的阈值；

将Census变换嵌入数据项中，得到下式，

表示第2帧图像的Census变换，

表示第1帧图像的Census变换；