CN111582483A - 基于空间和通道联合注意力机制的无监督学习光流估计方法 - Google Patents

基于空间和通道联合注意力机制的无监督学习光流估计方法 Download PDF

Info

Publication number
CN111582483A
CN111582483A CN202010409546.8A CN202010409546A CN111582483A CN 111582483 A CN111582483 A CN 111582483A CN 202010409546 A CN202010409546 A CN 202010409546A CN 111582483 A CN111582483 A CN 111582483A
Authority
CN
China
Prior art keywords
optical flow
layer
network
pyramid
feature map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010409546.8A
Other languages
English (en)
Other versions
CN111582483B (zh
Inventor
项学智
李诗洋
张荣芳
翟明亮
吕宁
邱瑜鉴
田大帅
乔玉龙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Harbin Engineering University
Original Assignee
Harbin Engineering University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Harbin Engineering University filed Critical Harbin Engineering University
Priority to CN202010409546.8A priority Critical patent/CN111582483B/zh
Publication of CN111582483A publication Critical patent/CN111582483A/zh
Application granted granted Critical
Publication of CN111582483B publication Critical patent/CN111582483B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本发明的目的在于提供基于空间和通道联合注意力机制的无监督学习光流估计方法,首先构建一种融合空洞卷积的新型特征金字塔网络,并利用其提取包含更多运动信息的多尺度特征。之后基于空间和通道联合注意力机制构建光流估计网络,使网络能够学习到更有针对性的运动信息。最后基于正反一致性校验和Census变换构造遮挡感知的无监督损失函数,并利用其对网络进行无监督训练,得到性能更优的无监督光流估计模型。

Description

基于空间和通道联合注意力机制的无监督学习光流估计方法
技术领域
本发明涉及的是一种光流估计方法。
背景技术
近年来,随着深度学习的发展,卷积神经网络已成功地应用于光流估计领域。卷积神经网络的训练过程较为耗时,但在推理阶段速度很快,可有效解决传统方法实时性差的问题,然而深度学习光流方法通过牺牲图像分辨率的方式增大卷积提取特征的感受野,导致网络损失大量空间细节信息。同时,基于深度学习的光流估计方法与传统光流估计方法相同,仍旧受到遮挡问题的影响。除此之外,由于真实场景下的稠密光流真值很难获取,用于光流估计的端到端卷积神经网络通常利用合成数据集进行有监督训练,因此在真实场景中测试时往往无法取得理想的结果。无监督训练方式可以有效解决真值获取困难的问题,然而现存的无监督光流估计方法大多基于亮度恒常假设来设计损失函数,光照变化将会影响无监督光流估计方法的准确性。
发明内容
本发明的目的在于提供可以针对无标签真实场景数据进行训练,以此规避网络对大量真值数据需求的基于空间和通道联合注意力机制的无监督学习光流估计方法。
本发明的目的是这样实现的:
本发明基于空间和通道联合注意力机制的无监督学习光流估计方法,其特征是:
(1)构建融合空洞卷积的特征金字塔网络:该特征金字塔网络包含2个网络架构完全相同的分支,在特征金字塔的第1层至第4层的底层部分,每个分支网络通过连续的卷积层逐步提取两帧图像的低级特征图,在特征金字塔的第5层至第6层的高层部分,通过连续的卷积层提取两帧图像的高级特征图,训练过程中两个分支互相共享网络权重,以确保两个分支对第1帧图像和第2帧图像做相同的处理,计算两帧图像在不同金字塔层上特征图之间的特征图匹配代价cost volume,将其作为光流估计网络的输入;
(2)构建空间和通道联合注意力机制的光流估计网络:光流估计网络利用每层金字塔获得的特征图匹配代价cost volume进行光流估计,得到对应尺度的光流结果;
(3)利用正反一致性校验计算非遮挡区域:将第1帧图像和第2帧图像输入到网络中,以得到正向光流,之后调换两帧图像的顺序再次输入网络,得到反向光流,之后对正向光流和反向光流进行正反一致性校验,以此推断出前向遮挡区域和反向遮挡区域;
(4)构造无监督学习损失函数:将Census变换结合到光流估计网络中,并构建无监督损失函数,在网络训练过程中对非遮挡区域的像素点计算无监督损失,之后将每层金字塔对应的损失项加权求和,作为无监督光流估计网络的总体损失,以此约束网络的训练过程;
(5)训练阶段:在网络输入端输入无标签数据,通过对损失权重求和得到总损失,之后利用反向传播算法训练网络,得到最后的无监督光流估计模型;
(6)利用训练好的模型进行测试,输入为图像对,输出为对应的光流图。
本发明还可以包括:
1、所述步骤(1)特征图匹配代价cost volume的获取方式如下:
Figure BDA0002492681920000021
其中F1 i(x1),F2 i(x2)分别表示金字塔第i层上第1帧和第2帧的特征图,M表示特征图F1 i(x1)和F2 i(x2)的长度,T表示向量的转置操作,Fci(x1,x2)表示金字塔第i层上的特征匹配特征图匹配代价cost volume结果;
变形特征图由光流估计网络计算出的光流对第2帧图像的特征图进行变形得到,特征变性操作的定义如下:
Fi 2′(p)=Fi 2(p+φ(Oi-1(p)))
其中p表示图像中的像素点,Oi-1(p)表示金字塔第i-1层光流估计网络计算得到的光流结果,φ(x)表示上采样操作,Fi 2(p)为金字塔第i-1层第2帧图像的特征图,Fi 2′(p)表示变形后的特征图。
2、步骤(2)中,光流估计网络从金字塔第6层开始计算光流,计算得到的光流对第2帧图像的特征图进行变形,用于计算下一层的特征图匹配代价cost volume;第4层到第1层需要对本层的光流结果进行上采样,针对金字塔的第i层,首先计算金字塔第i-1层上的光流结果Oi-1,利用上采样操作使Oi-1与下一层金字塔尺度匹配,之后利用上采样光流对第i层的第2帧图像的特征图Fi 2做变形操作,使变形后的特征图Fi 2′更趋向于第1帧图像的特征图Fi 1,其中第6层到第5层跳过上采样操作,最后利用变形后的特征图Fi 2′(p)和第1帧图像的特征图Fi 1(p)来计算特征图匹配代价cost volume,并将计算得到的特征图匹配代价costvolume输入到金字塔第i层对应的光流估计网络中,得到这一层对应的光流结果。
3、步骤(3)中,使用正反性一致性校验算法对遮挡部位的像素点进行识别,以剔除光流误差区域:当正向光流和反向光流之间的匹配值超过阈值,即该像素点为遮挡像素点,对图像上所有像素点进行检验,将超过阈值的像素点用前向遮挡参数f和后向遮挡参数b标记,以此求出所有像素点的遮挡掩码。
4、步骤(4)中,将Census变换应用到数据项约束中,具体实现公式如下,
Figure BDA0002492681920000031
Figure BDA0002492681920000032
其中,W(p)表示以p为中心像素点的矩形变换窗口,q为矩形窗内其他点,I(p)、I(q)分别为p、q像素点处的灰度值,
Figure BDA0002492681920000033
为字符串连接符,σ为判别式的阈值;
将Census变换嵌入数据项中,得到下式,
Figure BDA0002492681920000034
其中,p表示图像中的像素点,O(p)表示光流估计网络计算得到的光流结果,
Figure BDA0002492681920000041
表示鲁棒惩罚函数,f表示前向遮挡参数,b表示后向遮挡参数,
Figure BDA0002492681920000042
表示第2帧图像的Census变换,
Figure BDA0002492681920000043
表示第1帧图像的Census变换;
总损失函数由金字塔第2至第6层的损失函数加权求和得到,公式如下,
Figure BDA0002492681920000044
其中,λc分别表示不同金字塔尺度下Census损失函数所占的权重。
本发明的优势在于:本发明可以针对无标签真实场景数据进行训练,以此规避网络对大量真值数据的需求。首先将空洞卷积引入特征金字塔网络,将特征金字塔高层部分的标准卷积层替换为空洞卷积层,使高级特征图中保留更多空间细节信息,从而提升特征金字塔网络提取特征的能力。之后基于空间和通道联合注意力机制构建光流估计网络,使网络能够学习到更具有针对性的运动信息。最后基于正反一致性校验和Census变换构造一种遮挡感知的无监督损失函数,并利用其对网络进行无监督训练,得到性能更优的无监督光流估计模型。
附图说明
图1为本发明的流程图;
图2为融合空洞卷积的特征金字塔网络架构示意图;
图3为空洞卷积示意图;
图4为空间和通道联合注意力机制的光流估计网络架构示意图;
图5为空间和通道联合注意力模块架构示意图;
图6为本发明的正反一致性检验原理图;
图7为本发明的无监督学习光流估计网络总体架构图。
具体实施方式
下面结合附图举例对本发明做更详细地描述:
本发明通过以下步骤实现:
S1.构建融合空洞卷积的新型特征金字塔网络。该特征金字塔网络包含2个网络架构完全相同的分支。在特征金字塔的第1层至第4层的底层部分,每个分支网络通过连续的卷积层逐步提取两帧图像的低级特征图,这里的卷积层都是由标准卷积层组成,网络底层的低级特征图尺寸会随着特征金字塔等级的增加而逐渐降低。在特征金字塔的第5层至第6层的高层部分,通过连续的卷积层提取两帧图像的高级特征图,这部分的卷积层使用标准卷积层和空洞卷积层结合的方式,卷积层的参数设置如图2所示。空洞卷积保证了高层特征图的尺度不会随着特征金字塔等级的增长而降低,保存更多有效的运动细节信息。训练过程中两个分支互相共享网络权重,以确保两个分支对第1帧图像和第2帧图像做相同的处理,计算两帧图像在不同金字塔层上特征图之间的特征图匹配代价cost volume,也就是计算两帧图像之间的匹配关系,将其作为光流估计网络的输入。
S2.构建空间和通道联合注意力机制的光流估计网络。光流估计网络利用每层金字塔获得的特征图匹配代价cost volume进行光流估计,得到对应尺度的光流结果。每层金字塔对应的光流估计网络结构相同,都是由5层标准卷积层与空间和通道联合注意力模块组成。卷积层使用大小为3×3,步长为1的卷积核,输出通道数分别为128、128、96、64、32。在每层卷积层后加入空间和通道联合注意力模块,联合注意力机制的架构如图5所示,每一层卷积层的输出都由联合注意力模块细化,联合注意力模块是由两个分支构成,分别为空间注意力模块和通道注意力模块。通道注意力提取通道间的关系,空间注意力则强调不同空间位置关系的特征。
S3.利用正反一致性校验计算非遮挡区域。将第1帧图像和第2帧图像输入到网络中,以得到正向光流,之后调换两帧图像的顺序再次输入网络,得到反向光流,之后对正向光流和反向光流进行正反一致性校验,以此推断出前向遮挡区域和反向遮挡区域,由于遮挡区域对数据项损失函数的影响较大,因此只对非遮挡区域的光流计算无监督损失。
S4.构造无监督学习损失函数。将Census变换结合到光流估计网络中,并构建无监督损失函数,在网络训练过程中对非遮挡区域的像素点计算无监督损失,之后将每层金字塔对应的损失项加权求和,作为无监督光流估计网络的总体损失,以此约束网络的训练过程。
S5.训练阶段,首先在网络输入端输入大量无标签数据,通过对损失权重求和得到总损失,之后利用反向传播算法训练网络,得到最后的无监督光流估计模型。
S6.利用训练好的模型进行测试,输入为图像对,输出为对应的光流图。
结合图1-7,以上步骤具体为:
S1.融合空洞卷积的特征金字塔包含两个架构相同的分支,特征金字塔网络一共包含12层卷积层,能够提取到6个尺度的特征图,如图2所示。第1层卷积层输入6×384×512的特征图,核尺寸3×3,步长为2,输出16×192×256的特征图,第2层卷积层输入16×192×256的特征图,核尺寸3×3,步长为1,输出16×192×256的特征图。第3层卷积层输入16×192×256的特征图,核尺寸3×3,步长为2,输出32×96×128的特征图,第4层卷积层输入32×96×128的特征图,核尺寸3×3,步长为1,输出32×96×128的特征图。第5层卷积层输入32×96×128的特征图,核尺寸3×3,步长为2,输出64×48×64的特征图,第6层卷积层输入64×48×64的特征图,核尺寸3×3,步长为1,输出64×48×64的特征图。第7层卷积层输入64×48×64的特征图,核尺寸3×3,步长为2,输出96×24×32的特征图,第8层卷积层输入96×24×32的特征图,核尺寸3×3,步长为1,输出96×24×32的特征图。第9层卷积层使用空洞卷积,空洞系数为2,输入96×24×32的特征图,核尺寸3×3,步长为1,输出128×24×32的特征图,第10层卷积层输入128×24×32的特征图,核尺寸3×3,步长为1,输出128×24×32的特征图。第11层卷积层使用空洞卷积,空洞系数为4,输入128×24×32的特征图,核尺寸3×3,步长为1,输出196×24×32的特征图,第12层卷积层输入196×24×32的特征图,核尺寸3×3,步长为1,输出196×24×32的特征图。
如图3所示,标准卷积核与空洞卷积核的对比图。图中包含两个标准卷积核和一个空洞卷积核,三者的卷积核大小分别为3×3,5×5,3×3,其中空洞卷积的空洞间隔为1。由于标准卷积核的感受野大小等于卷积核的尺寸,即左侧的两个标准卷积核的感受野分别为3×3,5×5,右侧的空洞卷积核的实际尺寸也是,但是由于卷积核采样点之间添加了空洞,且空洞参数为1,因此其感受野的大小将增大为(3+3+1)×(3+3+1)=5×5。空洞卷积多了一个重要的参数,称之为空洞参数。空洞参数可以用来表示卷积核采样点之间的空洞间隔大小,间隔越大,卷积核的感受野将会越大。空洞卷积可以在提取运动特征的同时保证特征图分辨率不变,即不需要以减小特征图尺寸的方式来增大卷积核感受野,从而避免细节信息随着特征图尺寸的减小而丢失。
本发明中除了金字塔的最高层之外,每层特征图匹配代价cost volume计算的是第1帧图像的特征图和第2帧图像的变形特征图之间的匹配关系,即在金字塔的每一层上计算对应尺度下特征图之间的特征图匹配代价cost volume,作为下一部分光流估计网络的输入。特征图匹配代价cost volume的计算公式如下:
Figure BDA0002492681920000071
其中F1 i(x1),F2 i(x2)分别表示金字塔第i层上第1帧和第2帧的特征图,M表示特征图F1 i(x1)和F2 i(x2)的长度,T表示向量的转置操作,最后计算得到的Fci(x1,x2)表示金字塔第i层上的特征匹配特征图匹配代价cost volume结果。
变形特征图是由光流估计网络计算出的光流对第2帧图像的特征图进行变形得到的,特征变性操作的定义如下,
Fi 2′(p)=Fi 2(p+φ(Oi-1(p))) (2)
其中p表示图像中的像素点,Oi-1(p)表示金字塔第i-1层光流估计网络计算得到的光流结果,φ(x)表示上采样操作,Fi 2(p)为金字塔第i-1层第2帧图像的特征图,Fi 2′(p)表示变形后的特征图。
S2.如图4所示,空间和通道联合注意力机制的光流估计网络架构都是由5层标准卷积层与空间和通道联合注意力模块组成。卷积层使用大小为3×3,步长为1的卷积核,输出通道数分别为128、128、96、64、32。在每层卷积层后加入空间和通道联合注意力模块,其中,空间和通道联合的注意力机制架构包含空间注意力模块和通道注意力模块,如图5所示。空间注意力模块包含两层1×1的卷积层和两层空洞卷积层,输入特征图F1∈RC×H×W,空间注意力模块可以得到空间注意力特征图AS∈R1×H×W。第一层卷积层和两层空洞卷积输出C/r×H×W大小的特征图,r设置为16,空洞卷积率设置为4,空洞卷积卷积核大小为3×3。
通道注意力模块包括压缩和激励两部分,输入尺寸为C×H×W的特征图X=x1,x2,...,xc,注意力单元可以自适应地调整不同通道特征图的权重,其中压缩部分对输入特征图进行全局平均池化操作,输出特征图由S=s1,s2,...,sc表示,每个通道信息量sc的定义如下,
Figure BDA0002492681920000081
激励部分可以自适应的学习每个通道的权重,包含两层卷积层和一层激活层,第一层卷积层连接一层ReLU层,用来压缩特征图的数量,输出C/r×1×1的特征图的数量,通道压缩参数r设置为64。第二层卷积层用来恢复通道的数量,通道权重由P=p1,p2,...,pc表示,之后将这些权重输入激活函数sigmoid将权重值规范化到0至1之间。最后将输入特征图X=x1,x2,...,xc与权重P=p1,p2,...,pc分别相乘,得到优化后的特征图R=r1,r2,...,rc,其中rc的定义如下所示,
rc=xc×pc (4)
将两个模块结合,首先将注意力特征图映射调整为C×H×W大小,之后将空间注意力特征图和通道注意力特征图相乘,得到3D融合注意力图A′,并输入到sigmoid激活函数中,将权重规范到0到1之间。将A′与原始特征图相乘。最后利用跳跃连接将改进后的特征与原始特征进行累加。
光流估计网络从金字塔第6层开始计算光流,计算得到的光流需要对第2帧图像的特征图进行变形,用于计算下一层的特征图匹配代价cost volume。由于第4层到第1层的特征尺度不断增大,在对下一层的特征进行变形操作之前需要对本层的光流结果进行上采样,以得到和下一层特征图尺寸相匹配的光流图,而第6层到第5层的特征尺度保持不变,不需要对本层的光流结果进行上采样。针对金字塔第i层,首先计算金字塔第i-1层上的光流结果Oi-1,利用上采样操作将Oi-1的尺寸增大一倍,以得到与下一层金字塔尺度匹配的上采样光流Oi-1′,之后利用上采样光流对第i层的第2帧图像的特征图Fi 2做变形操作,使变形后的特征图Fi 2′更趋向于第1帧图像的特征图Fi 1,缩小了特征图之间的空间距离,进而减小特征图匹配代价cost volume的计算成本,其中第6层到第5层跳过上采样操作,同时由于需要学习的位移量减小,光流估计网络更容易学习到精确的光流结果。
最后利用变形后的特征图Fi 2′(p)和第1帧图像的特征图Fi 1(p)来计算特征图匹配代价cost volume,并将计算得到的特征图匹配代价cost volume输入到金字塔第i层对应的光流估计网络中,得到这一层对应的光流结果。变形操作采用双线性插值方法实现,具体定义如下所示,
Figure BDA0002492681920000091
其中p=(x,y)T表示双线性插值前特征图F上的源坐标,ps=(xs,ys)T表示双线性插值后特征图Fs上的坐标,Ω(p)表示特征图F上某像素点p的四邻域像素,p′=ps-p表示像素点在插值前后的位移量,即为变形操作中使用的上采样光流值
Figure BDA0002492681920000092
S3.如图6所示,正反性一致性校验算法对遮挡部位的像素点进行识别,以剔除光流误差区域。正反一致性校验首先需要先计算出某像素点在第1帧图像上的正向光流与第2帧图像上对应像素点的反向光流,对于非遮挡区域Ω′内的像素点,其正向光流和对应像素点的反向光流应该呈现大小、方向完全相反的状态,当对二者进行匹配时,匹配值应该几近于零。当此像素点只存在于某一帧图像上,即该像素点为遮挡区域Ω内的像素点,对该像素点的正向光流和反向光流进行匹配时,匹配误差一定非常大。因此正反一致性算法的设计思想是当二者之间的匹配值超过一定阈值,即可认为该像素点为遮挡像素点,对图像上所有像素点进行检验,将超过阈值的像素点用前向遮挡参数f和后向遮挡参数b标记,以此可以求出所有像素点的遮挡掩码。以前向遮挡为例,首先需要得到第2帧图像对应像素点的反向光流的定义如下所示,
Of v=Ob(x+Of(x)) (6)
其中Ob为第2帧图像的反向光流,x为第1帧图像上的像素点,x+Of(x)表示该运动像素在第2帧图像上的对应像素点。
正反一致性校验的定义如下所示,
Figure BDA0002492681920000101
其中参数值设定为μ1=0.01,μ2=0.05,不满足上述条件的像素点即为遮挡部分像素点,此时需将前向遮挡参数f的值设为1。
S4.使用鲁棒的Census变换设计无监督损失函数,Census变换在光照变化情况下仍旧保持性能,可以避免光照变化对亮度恒常假设的影响。Census变换是一种非线性变换,在光照剧烈单调变化下具有守恒特性,将图像内某一矩形变换窗内的像素用一串二值序列表示,对Census变换应用到数据项约束中,具体实现公式如下,
Figure BDA0002492681920000102
Figure BDA0002492681920000103
其中,W(p)表示以p为中心像素点的矩形变换窗口,q为矩形窗内其他点,I(p)、I(q)分别为p、q像素点处的灰度值,
Figure BDA0002492681920000104
为字符串连接符,σ为判别式的阈值。
将Census变换嵌入数据项中,得到下式,
Figure BDA0002492681920000105
其中,p表示图像中的像素点,O(p)表示光流估计网络计算得到的光流结果,
Figure BDA0002492681920000106
表示鲁棒惩罚函数。前向遮挡参数f和后向遮挡参数b。
Figure BDA0002492681920000107
表示第2帧图像的Census变换,
Figure BDA0002492681920000108
表示第1帧图像的Census变换。
由于网络需要在不同金字塔尺度计算不同的Census损失函数,总损失函数由金字塔第2至第6层的损失函数加权求和得到,公式如下,
Figure BDA0002492681920000111
其中,λc分别表示不同金字塔尺度下Census损失函数所占的权重。分辨率越高层的统计损失函数在网络训练中起到的作用越大,权重系数越大。5层金字塔对应的λc值分别为12.7、4.35、3.9、3.4、1.1。
S5.在网络的输入端输入无标签数据,通过不同的损失权重求和得到总损失,并利用反向传播算法对无监督学习网络进行训练。
S6.在训练好的模型中输入数据,对无监督学习光流网络进行测试,输出为对应的稠密光流。

Claims (5)

1.基于空间和通道联合注意力机制的无监督学习光流估计方法,其特征是:
(1)构建融合空洞卷积的特征金字塔网络:该特征金字塔网络包含2个网络架构完全相同的分支,在特征金字塔的第1层至第4层的底层部分,每个分支网络通过连续的卷积层逐步提取两帧图像的低级特征图,在特征金字塔的第5层至第6层的高层部分,通过连续的卷积层提取两帧图像的高级特征图,训练过程中两个分支互相共享网络权重,以确保两个分支对第1帧图像和第2帧图像做相同的处理,计算两帧图像在不同金字塔层上特征图之间的特征图匹配代价cost volume,将其作为光流估计网络的输入;
(2)构建空间和通道联合注意力机制的光流估计网络:光流估计网络利用每层金字塔获得的特征图匹配代价cost volume进行光流估计,得到对应尺度的光流结果;
(3)利用正反一致性校验计算非遮挡区域:将第1帧图像和第2帧图像输入到网络中,以得到正向光流,之后调换两帧图像的顺序再次输入网络,得到反向光流,之后对正向光流和反向光流进行正反一致性校验,以此推断出前向遮挡区域和反向遮挡区域;
(4)构造无监督学习损失函数:将Census变换结合到光流估计网络中,并构建无监督损失函数,在网络训练过程中对非遮挡区域的像素点计算无监督损失,之后将每层金字塔对应的损失项加权求和,作为无监督光流估计网络的总体损失,以此约束网络的训练过程;
(5)训练阶段:在网络输入端输入无标签数据,通过对损失权重求和得到总损失,之后利用反向传播算法训练网络,得到最后的无监督光流估计模型;
(6)利用训练好的模型进行测试,输入为图像对,输出为对应的光流图。
2.根据权利要求1所述的基于空间和通道联合注意力机制的无监督学习光流估计方法,其特征是:所述步骤(1)特征图匹配代价cost volume的获取方式如下:
Figure FDA0002492681910000011
其中F1 i(x1),F2 i(x2)分别表示金字塔第i层上第1帧和第2帧的特征图,M表示特征图F1 i(x1)和F2 i(x2)的长度,T表示向量的转置操作,Fci(x1,x2)表示金字塔第i层上的特征匹配特征图匹配代价cost volume结果;
变形特征图由光流估计网络计算出的光流对第2帧图像的特征图进行变形得到,特征变性操作的定义如下:
Fi 2′(p)=Fi 2(p+φ(Oi-1(p)))
其中p表示图像中的像素点,Oi-1(p)表示金字塔第i-1层光流估计网络计算得到的光流结果,φ(x)表示上采样操作,Fi 2(p)为金字塔第i-1层第2帧图像的特征图,Fi 2′(p)表示变形后的特征图。
3.根据权利要求1所述的基于空间和通道联合注意力机制的无监督学习光流估计方法,其特征是:步骤(2)中,光流估计网络从金字塔第6层开始计算光流,计算得到的光流对第2帧图像的特征图进行变形,用于计算下一层的特征图匹配代价cost volume;第4层到第1层需要对本层的光流结果进行上采样,针对金字塔的第i层,首先计算金字塔第i-1层上的光流结果Oi-1,利用上采样操作使Oi-1与下一层金字塔尺度匹配,之后利用上采样光流对第i层的第2帧图像的特征图Fi 2做变形操作,使变形后的特征图Fi 2′更趋向于第1帧图像的特征图Fi 1,其中第6层到第5层跳过上采样操作,最后利用变形后的特征图Fi 2′(p)和第1帧图像的特征图Fi 1(p)来计算特征图匹配代价cost volume,并将计算得到的特征图匹配代价costvolume输入到金字塔第i层对应的光流估计网络中,得到这一层对应的光流结果。
4.根据权利要求1所述的基于空间和通道联合注意力机制的无监督学习光流估计方法,其特征是:步骤(3)中,使用正反性一致性校验算法对遮挡部位的像素点进行识别,以剔除光流误差区域:当正向光流和反向光流之间的匹配值超过阈值,即该像素点为遮挡像素点,对图像上所有像素点进行检验,将超过阈值的像素点用前向遮挡参数f和后向遮挡参数b标记,以此求出所有像素点的遮挡掩码。
5.根据权利要求1所述的基于空间和通道联合注意力机制的无监督学习光流估计方法,其特征是:步骤(4)中,将Census变换应用到数据项约束中,具体实现公式如下,
Figure FDA0002492681910000031
Figure FDA0002492681910000032
其中,W(p)表示以p为中心像素点的矩形变换窗口,q为矩形窗内其他点,I(p)、I(q)分别为p、q像素点处的灰度值,
Figure FDA0002492681910000033
为字符串连接符,σ为判别式的阈值;
将Census变换嵌入数据项中,得到下式,
Figure FDA0002492681910000034
其中,p表示图像中的像素点,O(p)表示光流估计网络计算得到的光流结果,
Figure FDA0002492681910000035
表示鲁棒惩罚函数,f表示前向遮挡参数,b表示后向遮挡参数,
Figure FDA0002492681910000036
表示第2帧图像的Census变换,
Figure FDA0002492681910000037
表示第1帧图像的Census变换;
总损失函数由金字塔第2至第6层的损失函数加权求和得到,公式如下,
Figure FDA0002492681910000038
其中,λc分别表示不同金字塔尺度下Census损失函数所占的权重。
CN202010409546.8A 2020-05-14 2020-05-14 基于空间和通道联合注意力机制的无监督学习光流估计方法 Active CN111582483B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010409546.8A CN111582483B (zh) 2020-05-14 2020-05-14 基于空间和通道联合注意力机制的无监督学习光流估计方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010409546.8A CN111582483B (zh) 2020-05-14 2020-05-14 基于空间和通道联合注意力机制的无监督学习光流估计方法

Publications (2)

Publication Number Publication Date
CN111582483A true CN111582483A (zh) 2020-08-25
CN111582483B CN111582483B (zh) 2022-12-13

Family

ID=72125045

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010409546.8A Active CN111582483B (zh) 2020-05-14 2020-05-14 基于空间和通道联合注意力机制的无监督学习光流估计方法

Country Status (1)

Country Link
CN (1) CN111582483B (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112183645A (zh) * 2020-09-30 2021-01-05 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112419313A (zh) * 2020-12-10 2021-02-26 清华大学 一种基于先心病超声的多切面的分类方法
CN112418005A (zh) * 2020-11-06 2021-02-26 北京工业大学 一种基于反向辐射注意力金字塔网络的烟雾多分类识别方法
CN112465872A (zh) * 2020-12-10 2021-03-09 南昌航空大学 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法
CN112529944A (zh) * 2020-12-05 2021-03-19 东南大学 一种基于事件相机的端到端无监督光流估计方法
CN112785629A (zh) * 2021-01-21 2021-05-11 陕西师范大学 一种基于无监督深度光流网络的极光运动表征方法
CN113538527A (zh) * 2021-07-08 2021-10-22 上海工程技术大学 一种高效轻量级光流估计方法
CN113781517A (zh) * 2020-09-30 2021-12-10 上海联影智能医疗科技有限公司 用于运动估计的系统和方法
CN114187331A (zh) * 2021-12-10 2022-03-15 哈尔滨工程大学 一种基于Transformer特征金字塔网络的无监督光流估计方法
CN114332800A (zh) * 2022-03-09 2022-04-12 西南石油大学 一种用于自动驾驶的街道场景解析语义分割方法
CN114494720A (zh) * 2022-01-07 2022-05-13 广州城市职业学院 降低图像识别中注意力运算参数量的方法、设备及介质
CN114677412A (zh) * 2022-03-18 2022-06-28 苏州大学 一种光流估计的方法、装置以及设备
CN115018888A (zh) * 2022-07-04 2022-09-06 东南大学 一种基于Transformer的光流无监督估计方法
CN115690170A (zh) * 2022-10-08 2023-02-03 苏州大学 一种针对不同尺度目标自适应的光流估计的方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809184A (zh) * 2015-10-30 2016-07-27 哈尔滨工程大学 一种适用于加油站的车辆实时识别跟踪与车位占用判断的方法
CN107392019A (zh) * 2017-07-05 2017-11-24 北京金睛云华科技有限公司 一种恶意代码家族的训练和检测方法及装置
CN109086807A (zh) * 2018-07-16 2018-12-25 哈尔滨工程大学 一种基于空洞卷积堆叠网络的半监督光流学习方法
CN110222595A (zh) * 2019-05-20 2019-09-10 中国科学院大学 一种基于时空卷积神经网络的视频目标分割方法
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN110929685A (zh) * 2019-12-10 2020-03-27 电子科技大学 基于混合特征金字塔和混合膨胀卷积的行人检测网络结构
WO2020088766A1 (en) * 2018-10-31 2020-05-07 Toyota Motor Europe Methods for optical flow estimation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105809184A (zh) * 2015-10-30 2016-07-27 哈尔滨工程大学 一种适用于加油站的车辆实时识别跟踪与车位占用判断的方法
CN107392019A (zh) * 2017-07-05 2017-11-24 北京金睛云华科技有限公司 一种恶意代码家族的训练和检测方法及装置
CN109086807A (zh) * 2018-07-16 2018-12-25 哈尔滨工程大学 一种基于空洞卷积堆叠网络的半监督光流学习方法
WO2020088766A1 (en) * 2018-10-31 2020-05-07 Toyota Motor Europe Methods for optical flow estimation
CN110222595A (zh) * 2019-05-20 2019-09-10 中国科学院大学 一种基于时空卷积神经网络的视频目标分割方法
CN110705457A (zh) * 2019-09-29 2020-01-17 核工业北京地质研究院 一种遥感影像建筑物变化检测方法
CN110929685A (zh) * 2019-12-10 2020-03-27 电子科技大学 基于混合特征金字塔和混合膨胀卷积的行人检测网络结构

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
MINGLIANG ZHAI 等: ""Optical flow estimation using channel attention mechanism and dilated convolutional neural networks"", 《NEUROCOMPUTING》 *
MINGLIANG ZHAI 等: ""SKFlow: Optical Flow Estimation Using Selective Kernel Networks"", 《IEEE ACCESS》 *
XUEZHI X 等: ""Flow Estimation Based on Adaptive Anisotropic Total Variation Flow-Driven Method"", 《MATHEMATICAL PROBLEMS IN ENGINEERING》 *
张荣芳: ""T-基于改进特征金字塔的无监督光流估计法研究"", 《中国优秀硕士学位论文全文数据库 (信息科技辑)》 *

Cited By (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113781517A (zh) * 2020-09-30 2021-12-10 上海联影智能医疗科技有限公司 用于运动估计的系统和方法
CN112183645B (zh) * 2020-09-30 2022-09-09 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112183645A (zh) * 2020-09-30 2021-01-05 深圳龙岗智能视听研究院 基于上下文感知的注意力机制的图像美学质量评价方法
CN112418005B (zh) * 2020-11-06 2024-05-28 北京工业大学 一种基于反向辐射注意力金字塔网络的烟雾多分类识别方法
CN112418005A (zh) * 2020-11-06 2021-02-26 北京工业大学 一种基于反向辐射注意力金字塔网络的烟雾多分类识别方法
CN112529944A (zh) * 2020-12-05 2021-03-19 东南大学 一种基于事件相机的端到端无监督光流估计方法
CN112465872B (zh) * 2020-12-10 2022-08-26 南昌航空大学 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法
CN112465872A (zh) * 2020-12-10 2021-03-09 南昌航空大学 一种基于可学习遮挡掩模与二次变形优化的图像序列光流估计方法
CN112419313A (zh) * 2020-12-10 2021-02-26 清华大学 一种基于先心病超声的多切面的分类方法
CN112785629A (zh) * 2021-01-21 2021-05-11 陕西师范大学 一种基于无监督深度光流网络的极光运动表征方法
CN113538527A (zh) * 2021-07-08 2021-10-22 上海工程技术大学 一种高效轻量级光流估计方法
CN113538527B (zh) * 2021-07-08 2023-09-26 上海工程技术大学 一种高效轻量级光流估计方法、存储介质及装置
CN114187331A (zh) * 2021-12-10 2022-03-15 哈尔滨工程大学 一种基于Transformer特征金字塔网络的无监督光流估计方法
CN114187331B (zh) * 2021-12-10 2024-10-18 哈尔滨工程大学 一种基于Transformer特征金字塔网络的无监督光流估计方法
CN114494720A (zh) * 2022-01-07 2022-05-13 广州城市职业学院 降低图像识别中注意力运算参数量的方法、设备及介质
CN114332800A (zh) * 2022-03-09 2022-04-12 西南石油大学 一种用于自动驾驶的街道场景解析语义分割方法
CN114677412A (zh) * 2022-03-18 2022-06-28 苏州大学 一种光流估计的方法、装置以及设备
CN115018888A (zh) * 2022-07-04 2022-09-06 东南大学 一种基于Transformer的光流无监督估计方法
CN115690170A (zh) * 2022-10-08 2023-02-03 苏州大学 一种针对不同尺度目标自适应的光流估计的方法及系统

Also Published As

Publication number Publication date
CN111582483B (zh) 2022-12-13

Similar Documents

Publication Publication Date Title
CN111582483B (zh) 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN112052886B (zh) 基于卷积神经网络的人体动作姿态智能估计方法及装置
CN112347859B (zh) 一种光学遥感图像显著性目标检测方法
CN110111366B (zh) 一种基于多级损失量的端到端光流估计方法
CN112132023B (zh) 基于多尺度上下文增强网络的人群计数方法
CN109377530B (zh) 一种基于深度神经网络的双目深度估计方法
CN111950649B (zh) 基于注意力机制与胶囊网络的低照度图像分类方法
CN110232394B (zh) 一种多尺度图像语义分割方法
CN111915660B (zh) 基于共享特征和注意力上采样的双目视差匹配方法及系统
CN112465718B (zh) 一种基于生成对抗网络的两阶段图像修复方法
CN111626159B (zh) 一种基于注意力残差模块和支路融合的人体关键点检测方法
CN109389667B (zh) 一种基于深度学习的高效全局光照明绘制方法
CN114170286B (zh) 一种基于无监督深度学习的单目深度估计方法
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN113792641A (zh) 一种结合多谱注意力机制的高分辨率轻量级的人体姿态估计方法
CN113283525A (zh) 一种基于深度学习的图像匹配方法
CN116486074A (zh) 一种基于局部和全局上下文信息编码的医学图像分割方法
CN112597847B (zh) 人脸姿态估计方法、装置、电子设备和存储介质
CN113538402B (zh) 一种基于密度估计的人群计数方法及系统
CN117576483B (zh) 基于多尺度卷积自编码器的多源数据融合地物分类方法
CN117934308A (zh) 一种基于图卷积网络的轻量化自监督单目深度估计方法
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、系统
CN117853596A (zh) 无人机遥感测绘方法及系统
CN112115786A (zh) 基于注意力U-net的单目视觉里程计方法
CN117115616A (zh) 一种基于卷积神经网络的实时低照度图像目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant