CN115861384B - 基于生成对抗和注意力机制的光流估计方法及系统 - Google Patents

基于生成对抗和注意力机制的光流估计方法及系统 Download PDF

Info

Publication number
CN115861384B
CN115861384B CN202310165174.2A CN202310165174A CN115861384B CN 115861384 B CN115861384 B CN 115861384B CN 202310165174 A CN202310165174 A CN 202310165174A CN 115861384 B CN115861384 B CN 115861384B
Authority
CN
China
Prior art keywords
optical flow
attention
layer
feature
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310165174.2A
Other languages
English (en)
Other versions
CN115861384A (zh
Inventor
刘文印
梁建业
陈俊洪
梁达勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202310165174.2A priority Critical patent/CN115861384B/zh
Publication of CN115861384A publication Critical patent/CN115861384A/zh
Application granted granted Critical
Publication of CN115861384B publication Critical patent/CN115861384B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了基于生成对抗和注意力机制的光流估计方法及系统,包括以下步骤:输入一对连续的RGB图像数据;对所述图像数据通过生成器进行特征提取、特征匹配和光流优化处理,生成光流结果;基于所述光流结果,再通过鉴别器进行处理,生成光流估计结果。本发明在现有基于关联量的光流估计方法的基础上,进一步提高了光流估计的准确性和和鲁棒性,增强了模型的泛化能力,即使处于极端环境下也能通过关联量匹配实现光流估计。

Description

基于生成对抗和注意力机制的光流估计方法及系统
技术领域
本发明属于图像处理技术领域,具体涉及基于生成对抗和注意力机制的光流估计方法及系统。
背景技术
光流在视频编辑的稳定化、压缩、慢动作等方面都有广泛的应用。光流是估计视频帧之间每像素运动的任务,通常用于图像平面上定量运动估计的基本方法。它描述的是空间中运动的物体在成像平面上,造成像素运动的瞬时速度。在计算机视觉中,光流被定义为图像中对象的移动,这个移动可以是相机移动或者物体移动引起的,具体是指视频图像的一帧中的代表同一对象(物体)像素点移动到下一帧的移动量。传统的光流算法包括HS光流法、Lucas-Kanada方法、Pyramidal LK方法等。这些算法通常只考虑到特征相似性和空间平滑度,将光流视为一对图像之间密集位移场空间的手工优化问题。然而,由于受到尺度和形状变化的影响,这些传统方法对于实现一个在各种不同场景均具有鲁棒性的优化模型具有很大的挑战性。近年来,基于关联量的深度学习方法极大地改进了光流估计。然而,虽然最新的方法在基准数据上非常准确,但在某些情况下,例如运动模糊的大位移,流动误差仍然可能很大。正因为卷积的局部性和刚性权重,导致被合并到像素特征中的上下文信息十分有限,并且计算的相关性也受到高度随机性的影响,这使得大多数的高相关性值是虚假匹配。除此之外,随着生成对抗网络为人工智能领域在生成方向上带来全新的突破,生成对抗网络已然成为了深度学习领域中的研究热点。因此,如何有效地增强特征的匹配从而提高真实的相关性匹配度,以及合理地引入生成对抗网络框架提高模型的准确性和鲁棒性是光流估计中的一个重要课题。
光流估计常用的方法是通过内积运算得到的四维关联量来执行,即通过给定关联量,后续模块对两幅图像进行匹配,以最大化匹配区域之间的总体相关性。其中,关联量存储了前一帧中的每个像素与后一帧中另一个像素之间的成对相似度。然而,关联量中的噪声会随着输入图像中的噪声而增加,例如纹理损失、光照变化和运动模糊等,从而导致图像匹配失败,输出流不准确。特别当存在大的位移时,这个问题将会变得更加突出。所以,减少噪声相关性可以显著提高光流估计的准确度。在本专利中,我们通过反向残差注意力网络增强提取后的每特征像素,有效地降低了低纹理和运动模糊区域引起的图像噪声,同时结合基于编解码器的生成对抗网络,针对性地解决了图像在经过映射和逆映射的重构过程中造成的信息丢失问题。
发明内容
本发明提出基于生成对抗和注意力机制的光流估计方法及系统,目的是在如纹理损失、光照变化、运动模糊等极端环境下获得较好的光流估计结果,降低模型受干扰程度,提高鲁棒性,与此同时在普通环境下相比其他方法也能大幅提高配准性能,从而生成高分辨率图像。
为实现上述目的,本发明提供了如下方案:
基于生成对抗和注意力机制的光流估计方法,包括以下步骤:
输入一对连续的RGB图像数据;
对所述图像数据通过生成器进行特征提取、特征匹配和光流优化处理,生成光流结果;
基于所述光流结果,再通过鉴别器进行处理,生成光流估计结果。
优选的,所述进行特征提取的方法包括:基于输入的图像,通过特征提取网络和上下文网络的残差块,提取特征图。
优选的,进行特征匹配的方法包括:反向残差注意力网络和关联层;所述反向残差注意力网络由反向残差块和注意力层构成的Transformer网络;所述注意力层包括自注意力网络和交叉注意力网络;所述关联层用于计算视觉相似度的,即通过在所有像素对之间构建一个关联金字塔以实现对像素进行关联查找的操作。
优选的,所述反向残差块对输入的特征向量重新排序,给定输入张量
Figure SMS_1
,其中,H、W、C分别为其高度、宽度和通道,反向残差块表示为:
Figure SMS_2
其中,BN、GeLU分别代表批量归一化、高斯误差线性单元;符号σ代表Sigmoid函数,符号
Figure SMS_3
代表运算叠加;函数N1代表由1×1卷积组成的通道扩展函数;函数D代表由3×3卷积组成的深度卷积函数;函数N2代表由1×1卷积组成的通道投影函数。
优选的,所述注意力层的输入分别为查询向量Q、键向量K和值向量V,查询向量Q根据每个值向量V对应的键向量K与Q的点积计算出的注意力权重,从值向量V中检索信息;注意力层表示为:
Figure SMS_4
其中,
Figure SMS_5
为特征向量的维度,上标T表示为矩阵转置,softmax为归一化指数函数。
优选的,所述自注意力网络的输入特征
Figure SMS_8
和/>
Figure SMS_9
是一样的/>
Figure SMS_14
或/>
Figure SMS_7
,所述交叉注意力网络的输入特征/>
Figure SMS_11
和/>
Figure SMS_12
为/>
Figure SMS_15
和/>
Figure SMS_6
或/>
Figure SMS_10
和/>
Figure SMS_13
,计算变换特征之间的得分矩阵S:
Figure SMS_16
其中,i,j分别代表第i,j帧图像,
Figure SMS_19
和/>
Figure SMS_21
为输入特征/>
Figure SMS_23
和/>
Figure SMS_18
在注意力层的表达方式,/>
Figure SMS_20
是|FA||FB|,/>
Figure SMS_22
则代表除以特征/>
Figure SMS_24
和/>
Figure SMS_17
的模;
然后在得分矩阵的两个维度上应用softmax得到软相互最近邻匹配的概率
Figure SMS_25
:/>
Figure SMS_26
基于置信矩阵
Figure SMS_27
,设置置信度大于阈值/>
Figure SMS_28
的匹配,通过相互最近邻准则进一步筛选,过滤离群匹配,匹配预测函数/>
Figure SMS_29
为:
Figure SMS_30
其中,
Figure SMS_31
代表/>
Figure SMS_32
矩阵中使用MNN算法后得到的元素;
通过计算置信矩阵
Figure SMS_33
上的负对数似然损失,得到损失函数/>
Figure SMS_34
Figure SMS_35
其中,
Figure SMS_36
表示的是真实匹配,它是通过计算两组分辨率网格的相互最近邻匹配得到的。
优选的,所述关联层通过对所有像素对的特征向量做内积去构建一个四维的
Figure SMS_37
关联量,所述四维的/>
Figure SMS_38
关联量的后两维将会被多尺度采样,从而构建一系列多尺度量。
优选的,给定图像特征
Figure SMS_39
和/>
Figure SMS_40
,通过获取所有特征向量对之间的点积来形成关联量C,计算单个矩阵乘法,计算公式如下所示:
Figure SMS_41
其中,i和j代表第一个特征的长和宽;k和h代表第二个特征的长和宽;
通过对关联量的最后两个维度池化进行下采样操作,从而构建了一个四层金字塔
Figure SMS_42
。优选的,所述鉴别器采用的是U-Net编码器-解码器结构,首先使用编码器对生成器输出的光流结果进行下采样,再将其输入到卷积输出层中,得到鉴别器的粗粒度输出特征,当编码器中前一层输出特征的分辨率与解码器中的某一层隐藏特征相匹配时,将这两个特征串联起来,作为解码器下一层的输入,在解码器中进行上采样后,获得具有与生成器的输出结果相同分辨率的细粒度输出图。
本发明还提供基于生成对抗和注意力机制的光流估计系统,包括:输入模块、生成器处理模块和鉴别器处理模块;
所述输入模块用于输入一对连续的RGB的图像数据;
所述生成器处理模块用于对所述输入模块输入的图像数据进行特征提取、特征匹配和光流优化处理;
所述鉴别器处理模块用于对所述生成器处理模块处理后的数据再通过鉴别器进行处理,生成光流估计结果。
本发明的有益效果为:
本发明优化了网络结构;使用反向残差注意力网络进行特征匹配,增强了像素特征值的可区分性,使得关联匹配在大位移、低纹理或模糊区域能够更好地通过特征值寻找对应点;同时在光流估计中引入了结合编解码器和生成对抗网络的方法,充分利用光流估计结果的粗粒度和细粒度信息,从而捕获更丰富的可区分信息,提高光流估计的准确性;同时本发明在现有基于关联量的光流估计方法的基础上,进一步提高了光流估计的准确性和和鲁棒性,增强了模型的泛化能力,即使处于极端环境下也能通过关联量匹配实现光流估计。
附图说明
为了更清楚地说明本发明的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例的总体网络框架示意图;
图2为本发明实施例的特征提取网络结构示意图;
图3为本发明实施例的反向残差注意力网络结构示意图;
图4为本发明实施例的鉴别器网络结构示意图;
图5为本发明实施例的整体结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。
实施例一
如图1所示,为本发明的总体网络框架示意图;包括以下步骤:输入一对连续的RGB图像数据;对图像数据通过生成器进行特征提取、特征匹配和光流优化处理,生成光流结果;基于光流结果,再通过鉴别器进行处理,生成光流估计结果。
本实施例中,从给定一对连续的RGB图像
Figure SMS_43
中,估计密集位移场/>
Figure SMS_44
,即将/>
Figure SMS_45
中的每个像素/>
Figure SMS_46
映射到/>
Figure SMS_47
中其对应的坐标/>
Figure SMS_48
本实施例中,网络架构由生成器和鉴别器组成,其中生成器包括三个模块,分别为:特征提取模块、特征匹配模块和光流优化模块。本发明提出基于生成对抗和注意力机制的光流估计方法,该方法通过多次迭代训练的方式获取最终的光流。该方法在大位移、弱纹理、运动模糊等场景具有较高的鲁棒性和准确性。
特征提取模块:特征提取模块是指特征提取网络和上下文网络,它们的网络结构基本相同,如图2所示。显然,特征提取网络和上下文网络都是由6个残差块组成,输入的特征图像每经过两个残差块,其分辨率会减少一半。因此,输入特征在经过特征提取网络或上下文网络之后,它的分辨率将是原来大小的八分之一。
特征匹配模块:特征匹配模块包括反向残差注意力网络和关联层。前者是由反向残差块和注意力层构成的Transformer网络,其注意力层包括自注意力编码层和交叉注意力解码层。后者是用于计算视觉相似度的,即通过在所有像素对之间构建一个关联金字塔以实现对像素进行关联查找的操作。
反向残差注意力网络的详细结构如图3所示。注意力层的输入分别是查询向量Q、键向量K和值向量V。与信息检索类似,查询向量Q根据每个值向量V对应的键向量K与Q的点积计算出的注意力权重,从值向量V中检索信息。注意力层可以表示为:
Figure SMS_49
其中
Figure SMS_50
为特征向量的维度,上标T表示为矩阵转置,softmax为归一化指数函数。
直观地说,注意力操作通过度量查询元素与每个键元素之间的相似度来选择相关信息,输出向量是相似度得分加权的值向量的和。因此,当相似度较高时,可从值向量中提取相关信息。然后,用一个倒置残差块替换Transformer块的多层感知器,并在注意力层操作之前通过这个倒置残差块对输入的特征向量进行重新排序。如此一来,就不需要添加额外的下采样层。
给定输入张量
Figure SMS_51
,其中,H、W、C分别是其高度、宽度和通道,反向残差块可以表示为:
Figure SMS_52
其中,BN、GeLU分别代表批量归一化、高斯误差线性单元;符号σ代表Sigmoid函数,符号
Figure SMS_53
代表运算叠加;函数N1代表由1×1卷积组成的通道扩展函数;函数D代表由3×3卷积组成的深度卷积函数;函数N2代表由1×1卷积组成的通道投影函数。
反向残差块不仅可以增强网络的表示能力,还能产生更好的下采样特征,有助于后续的注意力层获取到更全局的信息,增强模型的学习判别能力。此外,自注意力层的输入特征
Figure SMS_54
和/>
Figure SMS_57
是一样的(/>
Figure SMS_62
或/>
Figure SMS_56
),而交叉注意力层的输入特征/>
Figure SMS_59
和/>
Figure SMS_61
为(/>
Figure SMS_63
和/>
Figure SMS_55
)或(/>
Figure SMS_58
和/>
Figure SMS_60
)。首先,我们计算变换特征之间的得分矩阵S:
Figure SMS_64
其中,i,j分别代表第i,j帧图像,
Figure SMS_65
和/>
Figure SMS_68
为输入特征/>
Figure SMS_70
和/>
Figure SMS_66
在注意力层的表达方式,/>
Figure SMS_69
是|FA||FB|,/>
Figure SMS_71
则代表除以特征/>
Figure SMS_72
和/>
Figure SMS_67
的模;
然后在该得分矩阵的两个维度上应用softmax得到软相互最近邻匹配的概率
Figure SMS_73
:/>
Figure SMS_74
基于置信矩阵
Figure SMS_75
,设置置信度大于阈值/>
Figure SMS_76
的匹配,通过相互最近邻(MNN)准则进一步筛选,过滤可能的离群匹配。匹配预测函数/>
Figure SMS_77
为:
Figure SMS_78
其中,
Figure SMS_79
代表/>
Figure SMS_80
矩阵中使用MNN算法后得到的元素;
因此,通过计算置信矩阵
Figure SMS_81
上的负对数似然损失,得到损失函数/>
Figure SMS_82
Figure SMS_83
其中,
Figure SMS_84
表示的是真实匹配,它是通过计算两组分辨率网格的相互最近邻匹配得到的。
关联层通过对所有像素对的特征向量做内积去构建一个四维的
Figure SMS_85
关联量,这个四维关联量的后两维将会被多尺度采样,从而构建一系列多尺度量。给定图像特征/>
Figure SMS_86
和/>
Figure SMS_87
,我们通过取所有特征向量对之间的点积来形成关联量C,可以有效地计算为单个矩阵乘法,计算公式如下所示:
Figure SMS_88
其中,i和j代表第一个特征的长和宽;k和h代表第二个特征的长和宽;
具体地说,首先通过对关联量的最后两个维度池化进行下采样操作,从而构建了一个四层金字塔
Figure SMS_89
。其中,关联/>
Figure SMS_90
量的尺寸为/>
Figure SMS_91
。因此,通过这组关联量获取关于大位移和小位移的信息;此外,通过保存图像/>
Figure SMS_92
的前两个维度,也保存了高分辨率信息,这使得能够捕获快速移动的小物体的运动。接着,定义一种查找操作/>
Figure SMS_93
,它可以通过对关联金字塔进行索引来生成特征图。这种查找操作是以双线性采样的方式通过使用局部邻域/>
Figure SMS_94
从关联量中进行索引。局部邻域/>
Figure SMS_95
的表达式如下:
Figure SMS_96
其中,
Figure SMS_98
表示在给定光流/>
Figure SMS_100
的当前估计时,/>
Figure SMS_103
中的每个像素/>
Figure SMS_99
映射到
Figure SMS_101
中的估计对应关系,r是局部邻域/>
Figure SMS_102
的单位半径。这样,可以通过使用网格/>
Figure SMS_104
对维度为k的关联量/>
Figure SMS_97
进行索引,实现对关联金字塔所有级别的查找。
光流优化模块:光流优化模块由算子更新层构成。它的作用是通过不断地根据当前的估计值从关联量集合中查找对应的光流值,以此循环地更新光流。我们使用最近邻插值填充遮挡间隙的方法为流场进行初始化,更新算子从
Figure SMS_105
开始进行一系列流估计
Figure SMS_106
,每次迭代都会产生一个相对于当前估计的更新方向/>
Figure SMS_107
。接着,通过使用当前估计值/>
Figure SMS_108
对关联金字塔进行索引得出对应的关联特征,并将其输入到两个卷积层以生成流特征。然后,把该流特征、关联量以及从上下文网络直接得到的上下文特征串联起来,作为算子更新层的输入特征图。把基于GRU单元的门控激活单元作为更新操作的核心组件,并卷积替换了完全连接的层:
Figure SMS_109
其中,
Figure SMS_110
是当前的估计流特征、关联量和上下文特征的串联。GRU的输出会经过两个卷积操作变成最终的光流,且输出光流的大小是原来的八分之一。最后,为了得到多个分辨率尺度,上采样部分会在粗分辨率上通过周围的3x3网格进行差值预测。我们这里使用两个卷积操作并经过一个softmax得到mask,最终原始分辨率的光流就通过mask进行加权获得。
如图4所示,鉴别器:鉴别器采用的是U-Net编码器-解码器结构,其中编码器和解码器具有对称的结构,都是由多个卷积层堆叠而成的。这些卷积层都是由权重归一化层和
Figure SMS_111
的LeakyReLU激活函数层组成。首先使用编码器对生成器输出的光流结果进行下采样,再将其输入到卷积输出层中,这样就得到了鉴别器的粗粒度输出特征。此外,当编码器中前一层输出特征的分辨率与解码器中的某一层隐藏特征相匹配时,我们就将这两个特征串联起来,作为解码器下一层的输入。最后,在解码器中进行上采样后,我们就获得了具有与生成器的输出结果相同分辨率的细粒度输出图。鉴别器的输出结果如下:
Figure SMS_112
其中,
Figure SMS_113
和/>
Figure SMS_114
分别表示真实光流和伪光流的粗粒度输出、细粒度输出、隐藏特征和光流值。接着,我们用LS-GAN损失函数/>
Figure SMS_115
来更新鉴别器:
Figure SMS_116
在更新生成器之前,我们先使用更新后的鉴别器再次提取这些特征,然后计算损失函数:
Figure SMS_117
/>
其中,
Figure SMS_118
代表生成器的损失函数。/>
Figure SMS_119
和/>
Figure SMS_120
是权重参数。/>
Figure SMS_121
是对抗损失函数,它代表粗粒度输出和细粒度输出的均方误差之和,当它越接近1,则越容易欺骗鉴别器。/>
Figure SMS_122
是特征匹配损失函数,它代表的是真实光流的隐藏特征和伪光流之间的平均绝对误差,用于提高对抗训练的稳定性。因此,Lg代表总的损失函数。
实施例二
如图5所示,为本发明的基于生成对抗和注意力机制的光流估计系统,包括:输入模块、生成器处理模块和鉴别器处理模块;
输入模块用于输入一对连续的RGB的图像数据;
生成器处理模块用于对输入模块输入的图像数据进行特征提取、特征匹配和光流优化处理;
鉴别器处理模块用于对生成器处理模块处理后的数据再通过鉴别器进行处理,生成光流估计结果。
我们通过摄像头获取一系列的视频流,然后把每帧图片输入到光流估计系统的输入模块当中。输入模块将这些一帧帧的图片以连续两帧为一个数据单位,输入到生成器处理模块中以进行图像的特征提取和特征匹配等处理。
生成器处理模块的作用主要是通过对输入的图像对进行特征提取、匹配、优化等一系列的处理操作后,输出一张密集速度矢量场图像。它包括特征提取模块,特征匹配模块和光流优化模块组成。其中,特征提取模块中的特征提取网络和上下文网络都是由6个残差块组成,输入的特征图像每经过两个残差块,其分辨率会减少一半。因此,输入特征在经过特征提取网络或上下文网络之后,它的分辨率将是原来大小的八分之一。接着,特征提取模块把提取后的特征输入到特征匹配模块中。特征匹配模块包括反向残差注意力网络和关联层。前者是由反向残差块和注意力层构成的Transformer网络,其注意力层包括自注意力编码层和交叉注意力解码层。后者是用于计算视觉相似度的,即通过在所有像素对之间构建一个关联金字塔以实现对像素进行关联查找的操作。因此,特征匹配模块将提取后的特征先输入到反向残差注意力网络中增强特征的空间信息,提高像素特征值的可区分性。然后,关联层则通过对所有像素对的特征向量做内积运算,构建一个四维的关联量,以获取像素中的位移信息。此外,关联层还定义了一种查找操作。它可以通过对关联金字塔进行索引来生成特征图。光流优化模块由算子更新层构成。它的作用是通过不断地根据当前的估计值从关联金字塔中查找对应的光流值,以此循环地更新光流。最终,生成器得到了一张大小为原图像八分之一的光流特征图,同时将该特征图输入到鉴别器中进行对抗学习训练。
鉴别器处理模块采用的是基于U-Net结构的编解码器,其中编码器和解码器具有对称的结构,都是由多个卷积层堆叠而成的。这些卷积层都是由权重归一化层和
Figure SMS_123
的LeakyReLU激活函数层组成。首先使用编码器对生成器输出的光流结果进行下采样,再将其输入到卷积输出层中,这样就得到了鉴别器的粗粒度输出特征。此外,当编码器中前一层输出特征的分辨率与解码器中的某一层隐藏特征相匹配时,我们就将这两个特征串联起来,作为解码器下一层的输入。最后,在解码器中进行上采样后,我们就获得了具有与生成器的输出结果相同分辨率的细粒度输出图。鉴别器先对噪音样本和真实样本的粗细特征图进行一定次数的判别训练,学习能区分真假样本的能力,然后再对生成器的输出结果的粗细特征图进行真假判别训练。经过多次的迭代训练后,当鉴别器输出的粗粒度特征图和细粒度特征图的均方误差和无限接近于1的时候,鉴别器处理模块输出最终的光流估计结果。
以上所述的实施例仅是对本发明优选方式进行的描述,并非对本发明的范围进行限定,在不脱离本发明设计精神的前提下,本领域普通技术人员对本发明的技术方案做出的各种变形和改进,均应落入本发明权利要求书确定的保护范围内。

Claims (6)

1.基于生成对抗和注意力机制的光流估计方法,其特征在于,包括以下步骤:
输入一对连续的RGB图像数据;
对所述图像数据通过生成器进行特征提取、特征匹配和光流优化处理,生成光流结果;
基于所述光流结果,再通过鉴别器进行处理,生成光流估计结果;
所述进行特征提取的方法包括:基于输入的图像,通过特征提取网络和上下文网络的残差块,提取特征图;
进行特征匹配的方法包括:反向残差注意力网络和关联层;所述反向残差注意力网络由反向残差块和注意力层构成的Transformer网络;所述注意力层包括自注意力网络和交叉注意力网络;所述关联层用于计算视觉相似度的,即通过在所有像素对之间构建一个关联金字塔以实现对像素进行关联查找的操作;
所述反向残差块对输入的特征向量重新排序,给定输入张量
Figure QLYQS_1
,其中,H、W、C分别为其高度、宽度和通道,反向残差块表示为:
Figure QLYQS_2
其中,BN、GeLU分别代表批量归一化、高斯误差线性单元;符号σ代表Sigmoid函数,符号/>
Figure QLYQS_3
代表运算叠加;函数N1代表由1×1卷积组成的通道扩展函数;函数D代表由3×3卷积组成的深度卷积函数;函数N2代表由1×1卷积组成的通道投影函数;
关联层通过对所有像素对的特征向量做内积去构建一个四维的
Figure QLYQS_4
关联量,这个四维关联量的后两维将会被多尺度采样,从而构建一系列多尺度量;
通过对关联量的最后两个维度池化进行下采样操作,构建一个四层金字塔
Figure QLYQS_5
;其中,关联/>
Figure QLYQS_6
量的尺寸为/>
Figure QLYQS_7
通过关联量获取关于大位移和小位移的信息;
通过保存图像
Figure QLYQS_8
的前两个维度,也保存了高分辨率信息,这使得能够捕获快速移动的小物体的运动;
定义一种查找操作
Figure QLYQS_9
,通过对关联金字塔进行索引来生成特征图;
这种查找操作是以双线性采样的方式通过使用局部邻域从关联量中进行索引。
2.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,所述注意力层的输入分别为查询向量Q、键向量K和值向量V,查询向量Q根据每个值向量V对应的键向量K与Q的点积计算出的注意力权重,从值向量V中检索信息;注意力层表示为:
Figure QLYQS_10
其中,/>
Figure QLYQS_11
为特征向量的维度,上标T表示为矩阵转置,softmax为归一化指数函数。
3.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,所述自注意力网络的输入特征
Figure QLYQS_13
和/>
Figure QLYQS_16
是一样的,即为/>
Figure QLYQS_18
或/>
Figure QLYQS_14
,所述交叉注意力网络的输入特征/>
Figure QLYQS_17
和/>
Figure QLYQS_20
为/>
Figure QLYQS_21
和/>
Figure QLYQS_12
,或/>
Figure QLYQS_15
和/>
Figure QLYQS_19
,计算变换特征之间的得分矩阵S:
Figure QLYQS_23
其中,i,j分别代表第i,j帧图像,/>
Figure QLYQS_26
和/>
Figure QLYQS_28
为输入特征/>
Figure QLYQS_24
和/>
Figure QLYQS_25
在注意力层的表达方式,/>
Figure QLYQS_29
是|FA||FB|,/>
Figure QLYQS_30
则代表除以特征/>
Figure QLYQS_22
和/>
Figure QLYQS_27
的模;
然后在得分矩阵的两个维度上应用softmax得到软相互最近邻匹配的概率
Figure QLYQS_31
Figure QLYQS_32
基于置信矩阵/>
Figure QLYQS_33
,设置置信度大于阈值/>
Figure QLYQS_34
的匹配,通过相互最近邻准则进一步筛选,过滤离群匹配,匹配预测函数/>
Figure QLYQS_35
为:
Figure QLYQS_36
其中,/>
Figure QLYQS_37
代表/>
Figure QLYQS_38
矩阵中使用MNN算法后得到的元素;
通过计算置信矩阵
Figure QLYQS_39
上的负对数似然损失,得到损失函数/>
Figure QLYQS_40
Figure QLYQS_41
其中,/>
Figure QLYQS_42
表示的是真实匹配,它是通过计算两组分辨率网格的相互最近邻匹配得到的。
4.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,所述关联层通过对所有像素对的特征向量做内积去构建一个四维的
Figure QLYQS_43
关联量,所述四维的/>
Figure QLYQS_44
关联量的后两维将会被多尺度采样,从而构建一系列多尺度量。
5.根据权利要求4所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,给定图像特征
Figure QLYQS_45
和/>
Figure QLYQS_46
,通过获取所有特征向量对之间的点积来形成关联量C,计算单个矩阵乘法,计算公式如下所示:
Figure QLYQS_47
其中,i和j代表第一个特征的长和宽;k和h代表第二个特征的长和宽;
通过对关联量的最后两个维度池化进行下采样操作,从而构建了一个四层金字塔
Figure QLYQS_48
6.根据权利要求1所述的基于生成对抗和注意力机制的光流估计方法,其特征在于,所述鉴别器采用的是U-Net编码器-解码器结构,首先使用编码器对生成器输出的光流结果进行下采样,再将其输入到卷积输出层中,得到鉴别器的粗粒度输出特征,当编码器中前一层输出特征的分辨率与解码器中的某一层隐藏特征相匹配时,将这两个特征串联起来,作为解码器下一层的输入,在解码器中进行上采样后,获得具有与生成器的输出结果相同分辨率的细粒度输出图。
CN202310165174.2A 2023-02-27 2023-02-27 基于生成对抗和注意力机制的光流估计方法及系统 Active CN115861384B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310165174.2A CN115861384B (zh) 2023-02-27 2023-02-27 基于生成对抗和注意力机制的光流估计方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310165174.2A CN115861384B (zh) 2023-02-27 2023-02-27 基于生成对抗和注意力机制的光流估计方法及系统

Publications (2)

Publication Number Publication Date
CN115861384A CN115861384A (zh) 2023-03-28
CN115861384B true CN115861384B (zh) 2023-05-23

Family

ID=85658862

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310165174.2A Active CN115861384B (zh) 2023-02-27 2023-02-27 基于生成对抗和注意力机制的光流估计方法及系统

Country Status (1)

Country Link
CN (1) CN115861384B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116486107B (zh) * 2023-06-21 2023-09-05 南昌航空大学 一种光流计算方法、系统、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111881750A (zh) * 2020-06-24 2020-11-03 北京工业大学 基于生成对抗网络的人群异常检测方法
CN113221641A (zh) * 2021-04-01 2021-08-06 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN113313037A (zh) * 2021-06-02 2021-08-27 郑州大学 一种基于自注意力机制的生成对抗网络视频异常检测方法
CN114693744A (zh) * 2022-02-18 2022-07-01 东南大学 一种基于改进循环生成对抗网络的光流无监督估计方法
CN115210716A (zh) * 2020-03-05 2022-10-18 华为技术有限公司 用于多帧视频帧插值的系统和方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115210716A (zh) * 2020-03-05 2022-10-18 华为技术有限公司 用于多帧视频帧插值的系统和方法
CN111881750A (zh) * 2020-06-24 2020-11-03 北京工业大学 基于生成对抗网络的人群异常检测方法
CN113221641A (zh) * 2021-04-01 2021-08-06 哈尔滨工业大学(深圳) 基于生成对抗网络和注意力机制的视频行人重识别方法
CN113313037A (zh) * 2021-06-02 2021-08-27 郑州大学 一种基于自注意力机制的生成对抗网络视频异常检测方法
CN114693744A (zh) * 2022-02-18 2022-07-01 东南大学 一种基于改进循环生成对抗网络的光流无监督估计方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
融合生成对抗网络和姿态估计的视频行人再识别方法;刘一敏;蒋建国;齐美彬;刘皓;周华捷;;自动化学报(03);全文 *

Also Published As

Publication number Publication date
CN115861384A (zh) 2023-03-28

Similar Documents

Publication Publication Date Title
CN110503680B (zh) 一种基于非监督的卷积神经网络单目场景深度估计方法
CN110443883B (zh) 一种基于dropblock的单张彩色图片平面三维重建方法
CN112232134B (zh) 一种基于沙漏网络结合注意力机制的人体姿态估计方法
CN113313810B (zh) 一种透明物体的6d姿态参数计算方法
CN113657387B (zh) 基于神经网络的半监督三维点云语义分割方法
CN114049381A (zh) 一种融合多层语义信息的孪生交叉目标跟踪方法
CN113066017A (zh) 一种图像增强方法、模型训练方法及设备
CN115861384B (zh) 基于生成对抗和注意力机制的光流估计方法及系统
CN113284251B (zh) 一种自适应视角的级联网络三维重建方法及系统
CN114170088A (zh) 一种基于图结构数据的关系型强化学习系统及方法
CN113962858A (zh) 一种多视角深度获取方法
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、系统
CN112102163A (zh) 基于多尺度运动补偿框架和递归学习的连续多帧图像超分辨率重建方法
CN113920170A (zh) 结合场景上下文和行人社会关系的行人轨迹预测方法、系统及存储介质
CN116977674A (zh) 图像匹配方法、相关设备、存储介质及程序产品
CN117593702B (zh) 远程监控方法、装置、设备及存储介质
CN111860668B (zh) 一种针对原始3d点云处理的深度卷积网络的点云识别方法
CN111696167A (zh) 自范例学习引导的单张影像超分辨率重构方法
CN107133921A (zh) 基于多层次邻域嵌入的图像超分辨率重建方法及系统
Wan et al. Progressive convolutional transformer for image restoration
CN112700534B (zh) 一种基于特征迁移的超声或ct医学影像三维重建方法
CN112734906B (zh) 一种基于知识蒸馏的超声或ct医学影像的三维重建方法
CN112734907B (zh) 一种超声或ct医学影像三维重建方法
CN112700535B (zh) 一种面向智能医疗辅助诊断的超声影像三维重建方法
Xiao Research on Super‐Resolution Relationship Extraction and Reconstruction Methods for Images Based on Multimodal Graph Convolutional Networks

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant