CN115761594B - 一种基于全局与局部耦合的光流计算方法 - Google Patents

一种基于全局与局部耦合的光流计算方法 Download PDF

Info

Publication number
CN115761594B
CN115761594B CN202211502592.8A CN202211502592A CN115761594B CN 115761594 B CN115761594 B CN 115761594B CN 202211502592 A CN202211502592 A CN 202211502592A CN 115761594 B CN115761594 B CN 115761594B
Authority
CN
China
Prior art keywords
convolution
optical flow
representing
feature
motion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211502592.8A
Other languages
English (en)
Other versions
CN115761594A (zh
Inventor
张聪炫
王子旭
陈震
葛利跃
冯诚
胡卫明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanchang Hangkong University
Original Assignee
Nanchang Hangkong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanchang Hangkong University filed Critical Nanchang Hangkong University
Priority to CN202211502592.8A priority Critical patent/CN115761594B/zh
Publication of CN115761594A publication Critical patent/CN115761594A/zh
Application granted granted Critical
Publication of CN115761594B publication Critical patent/CN115761594B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Image Analysis (AREA)

Abstract

本发明公开了一种基于全局与局部耦合的光流计算方法,输入连续两帧图像,构建运动特征提取网络,构建匹配代价体积,构建空洞卷积残差块的上下文编码器,将匹配代价体积与初始光流场输入到运动特征编码器中,进行运动特征的循环迭代编码,构建运动特征编码器,将运动特征和上下文信息输入GRU单元进行迭代优化,输出光流计算结果。利用卷积的局部建模能力和混合Transformer的远距离建模能力来提升对运动特征的捕获能力,以及由空洞卷积组带来的更丰富的上下文信息,为光流解码提供更丰富的上下文信息,从而优化弱纹理图像区域以及遮挡区域的光流估计准确度,保证了光流估计的可靠性和鲁棒性。

Description

一种基于全局与局部耦合的光流计算方法
技术领域
本发明涉及光流处理技术,特别涉及一种基于全局与局部耦合的光流计算方法。
背景技术
光流是运动物体或场景表面像素点在投影平面的二维瞬时速度,其不仅包含了图像中运动目标与场景的运动参数,更携带了目标与场景的结构信息。传统光流计算被认为是一对图像之间密集位移场空间上的手工优化问题,这种方法已经取得了相当大的成功,但进一步的进展具有挑战性,因为手工设计一个能够适应各种极端情况的优化目标非常困难。近年来,深度学习的成功使得利用神经网络直接进行光流计算成为可能,基于深度学习的方法比传统的基于优化的方法表现出更强的性能和更快的推理速度,光流是一种早期任务,可以为下游任务提供充分的运动信息,例如:动作识别,视频插帧,自动驾驶和无人机导航。
近年来,基于深度学习的光流估计网络框架通常是通过一个编码器提取特征,再进行视觉相似度匹配得到代价体积。之后通过对代价体积中的运动信息进行解码得到光流。其中在编码器中通常使用3x3的残差块和7x7的卷积进行搭配提取两幅图的特征。但是,仅仅只通过小卷积核来对物体的局部信息进行建模是不够的。空洞卷积和深度可分离卷积是两种不错的选择,可以在提升感受野的同时平衡模型的参数量,可以消除由局部特征带来的歧义。因此针对现有模型的特征提取能力不足问题,引入深度可分离残差块以及空洞卷积组残差块用于增大感受野,并借助卷积的局部特性和Transformer的全局特性构造一个全局与局部耦合的运动信息编码器以及局部扩张的上下文编码器,有望提高弱纹理图像区域和遮挡区域的光流计算的精度与鲁棒性。
发明内容
本发明提供一种全局与局部耦合的光流计算方法,利用卷积的局部特性和Transformer的全局特性来提高模型提取图像特征的能力,优化遮挡区域和弱纹理图像区域提取的特征信息,减少代价体积构建误差,从而提高光流估计的精度与鲁棒性。
为了实现上述目的,提出一种基于全局与局部耦合的光流计算方法,其步骤如下:
1)输入连续两帧图像;
2)构建运动特征提取网络:
将深度可分离卷积残差块和由高效自注意力和交叉注意力构建的混合Transformer相结合,对图像序列中的连续两帧图像I1和I2进行运动特征提取,分为两步,计算公式如下:
式(1)代表深度可分离残差块提取图像特征的过程,其中Ii表示输入的第i帧图像,DwConvs(·)表示深度可分离卷积残差块,Conv2x2(·)表示步长为2、卷积核大小为2的卷积,DwConv7x7(·)表示步长为1、卷积核大小为3的深度卷积,Norm表示归一化操作,GELU表示非线性激活函数,PwConv(·)表示逐点卷积,fi表示经过深度可分离卷积残差块后提取到的第i帧图像特征图;
式(2)代表混合Transformer中提取图像特征的过程,其中:
第一个等式代表将经过深度可分离残差块提取到的第i帧图像特征图fi通过Conv7x7(·)进行下采样,其中Conv7x7(·)表示步长为2、卷积核大小为7的卷积;
第二个等式代表使用DwConv3x3(·)对上步下采样的特征再次进行逐层局部特征提取,其中DwConv3x3(·)表示步长为1、卷积核大小为3的深度卷积;
第三个等式代表Patch Embedding过程,利用深度卷积提取出的局部特征使用Sigmoid函数进行映射,再与下采样过后的图像特征相乘,得到局部位置增强的特征Fi
第四个等式代表经过Patch Embedding得到的Fi分别通过线性映射到qi,ki,vi三个向量,其中qi,ki,vi分别表示第i帧图像的查询向量(query)、键向量(key)、值向量(vaule),当使用自注意力时,qi,ki,vi由同一特征产生,使用交叉注意力时,qi由前一帧特征产生,ki,vi由其余特征产生;
第五个等式代表注意力操作,其中ki T表示ki向量的转置向量,表示ki向量维度的开方,softmax表示归一化指数函数,将qi和ki T相乘并乘以缩放因子/>后再进行softmax操作后得到自注意力的权重系数,然后乘以权值vi得到第i帧图像特征图Attentioni
第六个等式代表前馈神经网络操作,其中Linear(·)代表线性映射,GELU表示非线性激活函数,DwConv3x3(·)表示步长为1、卷积核大小为3的深度卷积,从而将第i帧图像特征图Attentioni经过该网络后得到后第i帧图像特征图MLPi
第七、八等式代表混合注意力提取图像特征的整体过程,是式(2)中前三个等式的一个整体概括,表示将经过深度可分离残差块后提取到的第i帧图像特征图fi再经过PatchEmbedding后第i帧图像特征图Fi输入混合注意力块得到特征图Ti,其中Norm表示归一化操作,Attention和MLP分别代表第五个和第六个等式的操作过程;
3)构建匹配代价体积:
网络将运动特征提取网络提取出来的两个特征图上的特征向量进行点积相似性运算,获取两个特征图上所有特征向量对的匹配代价信息,然后采用池化操作对计算出来的匹配代价体积进行下采样,从而将大位移的匹配代价信息转化为小位移的匹配代价信息,计算公式如下:
式(3)中,l表示匹配代价金字塔的层数,F1,F2分别表示对图像I1,I2进行特征提取后的特征图,⊙表示矩阵乘法操作,Cost为计算出来的匹配代价体积,AvgPool表示平均池化操作,Costl表示将匹配代价体积下采样后得到匹配代价金字塔的第l层,从而得到多尺度匹配代价信息,以更好的进行大、小位移光流估计;
4)构建空洞卷积残差块的上下文编码器:
利用空洞卷积构建了一种空洞卷积残差块用来提取丰富的上下文信息以供光流解码部分使用,计算公式如下:
式(4)代表空洞卷积残差块提取图像特征的过程,其中I1表示输入的第1帧图像,DiConvs(·)表示空洞卷积残差块,DiConv3x3,d=n(·)表示步长为1、卷积核大小为3、空洞率为n的卷积,其中n=1,2,3,Norm表示归一化操作,RELU表示非线性激活函数,ci表示经过空洞卷积残差块后提取到的第1帧图像特征图;
5)运动编码器:
将匹配代价体积与初始光流场输入到运动特征编码器中,进行运动特征的循环迭代编码,计算公式如下:
式(4)中,l表示代价体积的层数,j表示相关性查找表循环次数,共有n次迭代,在第一个等式中,Costl表示代价体积的第l层相似度度量特征图,Flowj表示第j次光流结果图,Conv表示卷积操作,Cat表示拼接特征图操作,FCost表示将代价体积中所有层按通道维度拼接进行卷积操作后得到的特征图,表示将第j次光流迭代结果图Flowj进行卷积操作后的特征图;在第二个等式中,Conv表示卷积操作,Cat表示在特征图的通道维度进行拼接操作,/>表示第j次运动编码特征图;
6)构建卷积GRU单元:
将运动特征编码器的运动特征以及上下文特征编码器的上下文特征输入到卷积GRU单元进行光流的循环迭代提取,计算公式如下:
式(5)中,j表示迭代次数,共有n次迭代过程,表示第j次运动特征编码器输出的特征图,Fcontext表示GRU中的隐状态,ConvGRU表示卷积GRU操作,Conv表示利用卷积提取特征,Flowj+1表示第j+1次迭代并输出的光流结果;
7)输出光流场:
重复步骤5)和步骤6)来循环迭代优化光流场,共迭代n次,并将最后一次迭代优化后的光流上采样到与输入图像同等分辨率大小,从而得到最终的光流结果。
本发明利用卷积的局部建模能力和混合Transformer的远距离建模能力来提升对运动特征的捕获能力,以及由空洞卷积组带来的更丰富的上下文信息,为光流解码提供更丰富的上下文信息,从而优化弱纹理图像区域以及遮挡区域的光流估计准确度,保证了光流估计的可靠性和鲁棒性。
附图说明
图1为本发明实施例中temple_1图像序列中的第二十四帧图像;
图2为本发明实施例中temple_1图像序列中的第二十五帧图像;
图3为本发明实施例中提取模块构成的编码器以及构建匹配代价体积和光流解码的结构图;
图4为本发明实施例中temple_1图像序列最终的光流估计结果可视化图。
具体实施方式
以下结合附图和实施例对本发明做进一步说明。参见图1至图4,一种基于全局与局部耦合的光流计算方法,其步骤如下:
1)选择temple_1图像序列中连续的第二十四帧和第二十五帧图像,并输入该连续的两帧图像(如图1和图2所示);
2)构建运动特征提取网络:
将深度可分离卷积残差块和由高效自注意力和交叉注意力构建的混合Transformer相结合,通过运动特征提取模块(Global-Local Motion Feature Encoder)对图像序列中的连续两帧图像I1和I2进行运动特征提取(如图3所示),分为两步。
首先通过Stage1和Stage2提取低级特征,每个Stage中包含一层下采样层(Downsampling)以及四个深度可分离残差块(DwConv Residual Block)。然后通过Stage3,将提取出的低级特征输入混合Transformer(Mixed Transformer)中,依次通过PatchEmbedding,混合注意力以及MLP,最终通过1x1卷积调整通道数输出连续两帧图像的运动特征。各个模块的计算公式如下:
式(1)代表深度可分离残差块提取图像特征的过程,其中:Ii表示输入的第i帧图像,DwConvs(·)表示深度可分离卷积残差块,Conv2x2(·)表示步长为2、卷积核大小为2的卷积,DwConv7x7(·)表示步长为1、卷积核大小为3的深度卷积,Norm表示归一化操作,GELU表示非线性激活函数,PwConv(·)表示逐点卷积,fi表示经过深度可分离卷积残差块后提取到的第i帧图像特征图;
式(2)代表混合Transformer中提取图像特征的过程,其中:
第一个等式代表将经过深度可分离残差块提取到的第i帧图像特征图fi通过Conv7x7(·)进行下采样,其中:Conv7x7(·)表示步长为2、卷积核大小为7的卷积;
第二个等式代表使用DwConv3x3(·)对上步下采样的特征再次进行逐层局部特征提取,其中:DwConv3x3(·)表示步长为1、卷积核大小为3的深度卷积;
第三个等式代表Patch Embedding过程,利用深度卷积提取出的局部特征使用Sigmoid函数进行映射,再与下采样过后的图像特征相乘,得到局部位置增强的特征Fi
第四个等式代表经过Patch Embedding得到的Fi分别通过线性映射到qi,ki,vi三个向量,其中:qi,ki,vi分别表示第i帧图像的查询向量(query)、键向量(key)、值向量(vaule),当使用自注意力时,qi,ki,vi由同一特征产生,使用交叉注意力时,qi由前一帧特征产生,ki,vi由其余特征产生;
第五个等式代表注意力操作,其中:ki T表示ki向量的转置向量,表示ki向量维度的开方,softmax表示归一化指数函数,将qi和ki T相乘并乘以缩放因子/>后再进行softmax操作后得到自注意力的权重系数,然后乘以权值vi得到第i帧图像特征图Attentioni
第六个等式代表前馈神经网络操作,其中:Linear(·)代表线性映射,GELU表示非线性激活函数,DwConv3x3(·)表示步长为1、卷积核大小为3的深度卷积,从而将第i帧图像特征图Attentioni经过该网络后得到后第i帧图像特征图MLPi
第七、八等式代表混合注意力提取图像特征的整体过程,是式(2)中前三个等式的一个整体概括,表示将经过深度可分离残差块后提取到的第i帧图像特征图fi再经过PatchEmbedding后第i帧图像特征图Fi输入混合注意力块得到特征图Ti,其中:Norm表示归一化操作,Attention和MLP分别代表第五个和第六个等式的操作过程;
3)构建匹配代价体积(如图3所示):
网络将运动特征提取网络提取出的两帧图像的特征向量进行点积相似性运算,获取两个特征图上所有特征向量对的匹配代价信息,然后采用平均池化(AvgPooling)操作对计算出来的匹配代价体积进行下采样,从而将大位移的匹配代价信息转化为小位移的匹配代价信息以构建如图3所示的CostVolumes。计算公式如下:
式(3)中,l表示匹配代价金字塔的层数,F1,F2分别表示对图像I1,I2进行特征提取后的特征图,⊙表示点乘操作,Cost为计算出来的匹配代价体积,AvgPool表示平均池化操作,Costl表示将匹配代价体积下采样后得到匹配代价金字塔的第l层,从而得到多尺度匹配代价信息,以更好的进行大、小位移光流估计;
4)构建空洞卷积残差块的上下文编码器(如图3所示):
利用空洞卷积构建了局部扩张的上下文信息提取模块(Local-ExtentContextFeature Encoder)用来提取图像I1中丰富的上下文信息以供光流解码部分使用。
首先在Stage1阶段使用卷积核大小为7x7,步长为2的卷积对图像I1进行低级提取,然后分别在Stage1,Stage2,Stage3阶段各使用2个连续的空洞卷积残差块(DilatedConv Residual Block)用于提取丰富的上下文特征信息,最终通过1x1卷积调整通道数输出第一帧图像的上下文信息用于光流解码部分。计算公式如下:
式(4)代表空洞卷积残差块提取图像特征的过程,其中:I1表示输入的第1帧图像,DiConvs(·)表示空洞卷积残差块,DiConv3x3,d=n(·)表示步长为1、卷积核大小为3、空洞率为n的卷积,其中:n=1,2,3,Cat表示将所有通道维度上由不同空洞率提取的特征进行拼接,Norm表示归一化操作,RELU表示非线性激活函数,ci表示经过空洞卷积残差块后提取到的第1帧图像特征图;
5)构建运动编码器:
将匹配代价金字塔与初始光流场输入到运动特征编码器中,进行运动特征的循环迭代编码,提取细化的运动特征,计算公式如下:
式(4)中,l表示代价体积的层数,j表示相关性查找表循环次数,共有n次迭代,在第一个等式中,Costl表示代价体积的第l层相似度度量特征图,Flowj表示第j次光流结果图,Conv表示卷积操作,Cat表示拼接特征图操作,FCost表示将代价体积中所有层按通道维度拼接进行卷积操作后得到的特征图,表示将第j次光流迭代结果图Flowj进行卷积操作后的特征图;在第二个等式中,Conv表示卷积操作,Cat表示在特征图的通道维度进行拼接操作,/>表示第j次运动编码特征图;
6)构建卷积GRU单元:
将运动特征编码器的运动特征以及上下文特征编码器的上下文特征输入到卷积GRU单元进行光流的循环迭代提取,计算公式如下:
式(5)中,j表示迭代次数,共有n次迭代过程,表示第j次运动特征编码器输出的特征图,Fcontext表示GRU中的隐状态,ConvGRU表示卷积GRU操作,Conv表示利用卷积提取特征,Flowj+1表示第j+1次迭代并输出的光流结果;
7)输出光流场(如图3,4所示):
重复步骤5)和步骤6)来循环迭代优化光流场,共迭代n次,并将最后一次迭代优化后的光流上采样到与输入图像同等分辨率大小,从而得到最终的光流结果。
本发明首先将输入连续两帧图像到由深度可分离卷积残差块和由高效自注意力和交叉注意力构建的混合Transformer构成的运动特征提取网络提取运动特征,再将第一帧图像输入由空洞卷积组组成的上下文信息提取网络提取上下文信息;其次通过点积相似度计算将两帧图像的运动特征映射为匹配代价体积,再由匹配代价体积构建多尺度匹配金字塔;然后构建运动特征编码器,将匹配代价金字塔中的特征匹配信息与光流编码为运动特征,并与上下文信息聚合输出全局运动特征;最后将运动特征、全局运动特征和上下文信息输入GRU循环单元进行迭代优化,输出最终的光流计算结果。

Claims (1)

1.一种基于全局与局部耦合的光流计算方法,其特征在于,其步骤如下:
1)输入连续两帧图像;
2)构建运动特征提取网络:
将深度可分离卷积残差块和由高效自注意力和交叉注意力构建的混合Transformer相结合,对图像序列中的连续两帧图像I1和I2进行运动特征提取,分为两步,计算公式如下:
式(1)代表深度可分离残差块提取图像特征的过程,其中Ii表示输入的第i帧图像,DwConvs(·)表示深度可分离卷积残差块,Conv2x2(·)表示步长为2、卷积核大小为2的卷积,DwConv7x7(·)表示步长为1、卷积核大小为7的深度卷积,Norm表示归一化操作,GELU表示非线性激活函数,PwConv(·)表示逐点卷积,fi表示经过深度可分离卷积残差块后提取到的第i帧图像特征图;
式(2)代表混合Transformer中提取图像特征的过程,其中:
第一个等式代表将经过深度可分离残差块提取到的第i帧图像特征图fi通过Conv7x7(·)进行下采样,其中Conv7x7(·)表示步长为2、卷积核大小为7的卷积;
第二个等式代表使用DwConv3x3(·)对上步下采样的特征再次进行逐层局部特征提取,其中DwConv3x3(·)表示步长为1、卷积核大小为3的深度卷积;
第三个等式代表Patch Embedding过程,利用深度卷积提取出的局部特征使用Sigmoid函数进行映射,再与下采样过后的图像特征相乘,得到局部位置增强的特征Fi
第四个等式代表经过Patch Embedding得到的Fi分别通过线性映射到qi,ki,vi三个向量,其中qi,ki,vi分别表示第i帧图像的查询向量、键向量、值向量,当使用自注意力时,qi,ki,vi由同一特征产生,使用交叉注意力时,qi由前一帧特征产生,ki,vi由其余特征产生;
第五个等式代表注意力操作,其中ki T表示ki向量的转置向量,表示ki向量维度的开方,softmax表示归一化指数函数,将qi和ki T相乘并乘以缩放因子/>后再进行softmax操作后得到自注意力的权重系数,然后乘以权值vi得到第i帧图像特征图Attentioni
第六个等式代表前馈神经网络操作,其中Linear(·)代表线性映射,GELU表示非线性激活函数,DwConv3x3(·)表示步长为1、卷积核大小为3的深度卷积,从而将第i帧图像特征图Attentioni经过该网络后得到后第i帧图像特征图MLPi
第七、八等式代表混合注意力提取图像特征的整体过程,是式(2)中前三个等式的一个整体概括,表示将经过深度可分离残差块后提取到的第i帧图像特征图fi再经过PatchEmbedding后第i帧图像特征图Fi输入混合注意力块得到特征图Ti,其中Norm表示归一化操作,Attention和MLP分别代表第五个和第六个等式的操作过程;
3)构建匹配代价体积:
网络将运动特征提取网络提取出来的两个特征图上的特征向量进行点积相似性运算,获取两个特征图上所有特征向量对的匹配代价信息,然后采用池化操作对计算出来的匹配代价体积进行下采样,从而将大位移的匹配代价信息转化为小位移的匹配代价信息,计算公式如下:
式(3)中,l表示匹配代价金字塔的层数,F1,F2分别表示对图像I1,I2进行特征提取后的特征图,⊙表示矩阵乘法操作,Cost为计算出来的匹配代价体积,AvgPool表示平均池化操作,Costl表示将匹配代价体积下采样后得到匹配代价金字塔的第l层,从而得到多尺度匹配代价信息,以更好的进行大、小位移光流估计;
4)构建空洞卷积残差块的上下文编码器:
利用空洞卷积构建空洞卷积残差块用来提取丰富的上下文信息以供光流解码部分使用,计算公式如下:
式(4)代表空洞卷积残差块提取图像特征的过程,其中I1表示输入的第1帧图像,DiConvs(·)表示空洞卷积残差块,DiConv3x3,d=n(·)表示步长为1、卷积核大小为3、空洞率为n的卷积,其中n=1,2,3,Norm表示归一化操作,RELU表示非线性激活函数,ci表示经过空洞卷积残差块后提取到的第1帧图像特征图;
5)运动编码器:
将匹配代价体积与初始光流场输入到运动特征编码器中,进行运动特征的循环迭代编码,计算公式如下:
式(5)中,l表示代价体积的层数,j表示相关性查找表循环次数,共有n次迭代,在第一个等式中,Costl表示代价体积的第l层相似度度量特征图,Flowj表示第j次光流结果图,Conv表示卷积操作,Cat表示拼接特征图操作,FCost表示将代价体积中所有层按通道维度拼接进行卷积操作后得到的特征图,表示将第j次光流迭代结果图Flowj进行卷积操作后的特征图;在第二个等式中,Conv表示卷积操作,Cat表示在特征图的通道维度进行拼接操作,/>表示第j次运动编码特征图;
6)构建卷积GRU单元:
将运动特征编码器的运动特征以及上下文特征编码器的上下文特征输入到卷积GRU单元进行光流的循环迭代提取,计算公式如下:
式(6)中,j表示迭代次数,共有n次迭代过程,表示第j次运动特征编码器输出的特征图,Fcontext表示GRU中的隐状态,ConvGRU表示卷积GRU操作,Conv表示利用卷积提取特征,Flowj+1表示第j+1次迭代并输出的光流结果;
7)输出光流场:
重复步骤5)和步骤6)来循环迭代优化光流场,共迭代n次,并将最后一次迭代优化后的光流上采样到与输入图像同等分辨率大小,从而得到最终的光流结果。
CN202211502592.8A 2022-11-28 2022-11-28 一种基于全局与局部耦合的光流计算方法 Active CN115761594B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211502592.8A CN115761594B (zh) 2022-11-28 2022-11-28 一种基于全局与局部耦合的光流计算方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211502592.8A CN115761594B (zh) 2022-11-28 2022-11-28 一种基于全局与局部耦合的光流计算方法

Publications (2)

Publication Number Publication Date
CN115761594A CN115761594A (zh) 2023-03-07
CN115761594B true CN115761594B (zh) 2023-07-21

Family

ID=85339403

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211502592.8A Active CN115761594B (zh) 2022-11-28 2022-11-28 一种基于全局与局部耦合的光流计算方法

Country Status (1)

Country Link
CN (1) CN115761594B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116205962B (zh) * 2023-05-05 2023-09-08 齐鲁工业大学(山东省科学院) 基于完整上下文信息的单目深度估计方法及系统
CN116823905B (zh) * 2023-06-26 2024-06-28 阿里巴巴达摩院(杭州)科技有限公司 图像配准方法、电子设备以及计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187331A (zh) * 2021-12-10 2022-03-15 哈尔滨工程大学 一种基于Transformer特征金字塔网络的无监督光流估计方法
CN114723787A (zh) * 2022-03-01 2022-07-08 南昌航空大学 一种光流计算方法及系统
CN114821105A (zh) * 2022-05-05 2022-07-29 南昌航空大学 一种联合图像金字塔引导和循环交叉注意力的光流计算方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102544800B1 (ko) * 2021-05-14 2023-06-20 한국과학기술원 광학 흐름 추정을 위한 딥 유사도 기반 비지도 학습의 컴퓨터 시스템 및 그의 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114187331A (zh) * 2021-12-10 2022-03-15 哈尔滨工程大学 一种基于Transformer特征金字塔网络的无监督光流估计方法
CN114723787A (zh) * 2022-03-01 2022-07-08 南昌航空大学 一种光流计算方法及系统
CN114821105A (zh) * 2022-05-05 2022-07-29 南昌航空大学 一种联合图像金字塔引导和循环交叉注意力的光流计算方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Coarse-to-fine optical flow estimation with image structure tensor;Zhen Chen 等;《2013 6th International Congress on Image and Signal Processing (CISP)》;第741-746页 *
一种基于卷积神经网络的立体匹配算法设计;鲁志敏 等;《信息技术与网络安全》(第05期);第5-9页 *
基于金字塔块匹配的双目场景流估计;陈震 等;《电子学报》;第50卷(第09期);第2164-2171页 *

Also Published As

Publication number Publication date
CN115761594A (zh) 2023-03-07

Similar Documents

Publication Publication Date Title
CN115761594B (zh) 一种基于全局与局部耦合的光流计算方法
US10353271B2 (en) Depth estimation method for monocular image based on multi-scale CNN and continuous CRF
US11763433B2 (en) Depth image generation method and device
CN113888744A (zh) 一种基于Transformer视觉上采样模块的图像语义分割方法
CN111915660B (zh) 基于共享特征和注意力上采样的双目视差匹配方法及系统
CN111582483A (zh) 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN110929736A (zh) 多特征级联rgb-d显著性目标检测方法
CN116612288B (zh) 一种多尺度轻量级实时语义分割方法、系统
CN113554032B (zh) 基于高度感知的多路并行网络的遥感图像分割方法
CN114723787A (zh) 一种光流计算方法及系统
CN113313176A (zh) 一种基于动态图卷积神经网络的点云分析方法
CN114549757A (zh) 一种基于注意力机制的三维点云上采样方法
CN110889868A (zh) 一种结合梯度和纹理特征的单目图像深度估计方法
CN111860668B (zh) 一种针对原始3d点云处理的深度卷积网络的点云识别方法
CN116342675B (zh) 一种实时单目深度估计方法、系统、电子设备及存储介质
CN117058392A (zh) 一种基于卷积局部增强的多尺度Transformer图像语义分割方法
CN116863241A (zh) 一种道路场景下基于计算机视觉的端到端语义鸟瞰图生成方法、模型及设备
CN116758415A (zh) 一种基于二维离散小波变换的轻量化害虫识别方法
CN115731280A (zh) 基于Swin-Transformer和CNN并行网络的自监督单目深度估计方法
CN114596474A (zh) 一种融合多模态信息的单目深度估计方法
CN116486107B (zh) 一种光流计算方法、系统、设备及介质
Chen et al. Improvement of AnyNet-based end-to-end phased binocular stereo matching network
CN118134952B (zh) 一种基于特征交互的医学图像分割方法
CN115641456A (zh) 基于RepVGG轻量级网络的图像匹配方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant