CN114677412B - 一种光流估计的方法、装置以及设备 - Google Patents

一种光流估计的方法、装置以及设备 Download PDF

Info

Publication number
CN114677412B
CN114677412B CN202210270582.XA CN202210270582A CN114677412B CN 114677412 B CN114677412 B CN 114677412B CN 202210270582 A CN202210270582 A CN 202210270582A CN 114677412 B CN114677412 B CN 114677412B
Authority
CN
China
Prior art keywords
feature
optical flow
frame
image
feature matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202210270582.XA
Other languages
English (en)
Other versions
CN114677412A (zh
Inventor
钟宝江
李牧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Suzhou University
Original Assignee
Suzhou University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Suzhou University filed Critical Suzhou University
Priority to CN202210270582.XA priority Critical patent/CN114677412B/zh
Publication of CN114677412A publication Critical patent/CN114677412A/zh
Application granted granted Critical
Publication of CN114677412B publication Critical patent/CN114677412B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/254Analysis of motion involving subtraction of images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Image Analysis (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

本发明公开了一种光流估计的方法、装置、设备以及计算机可读存储介质,包括:提取相邻两帧图像的特征,构建每一帧图像的特征矩阵;将每一帧图像的浅层特征矩阵输入多尺度通道注意力网络和多尺度空间注意力网络中进行处理,得到高鲁棒的每一帧图像的空间特征矩阵;计算相邻两帧图像的空间特征矩阵的相似度编码,根据相似度编码进行Encoder操作得到运动特征;利用上下文编码器提取第一帧图像的上下文特征;将运动特征和上下文特征进行融合输入GRU模块中得到光流残差;基于光流残差进行迭代运算,输出光流估计结果。本发明引入多尺度通道和空间注意力网络,增强网络的鲁棒性和对小物体的表征能力,提高小物体的光流估计结果。

Description

一种光流估计的方法、装置以及设备
技术领域
本发明涉及计算机视觉领域,特别是涉及一种光流估计的方法、装置、设备以及计算机可读存储介质。
背景技术
光流估计的目标是计算视频图像中的同一对象从当前帧移动到下一帧的移动量,它广泛运用于计算机视觉的多个领域,如运动分割、动作识别和自动驾驶等。传统的方法将光流估计任务看作迭代优化问题,尽管这些方法已经取得了不错的精度,但却不能满足日益复杂的现实场景和实时性的要求。
随着深度学习的快速发展,已经在许多视觉领域取得了巨大成功,光流估计领域近年来也提出了许多基于深度学习的光流估计方法。大体可以分为两种:一种是基于U-Net架构的模型,一种是维持高分辨率架构的模型。基于U-Net的模型以Dosovitskiy等人提出了FlowNet作为开创性工作,在光流估计领域取得了不错的进展,但是受限于U-Net架构,网络的层数不能动态扩展。为此,Teed和Deng提出了维持高分辨率架构的模型RAFT,RAFT不使用U-Net架构,而是使用固定尺度的下采样和GRU更新运算符相结合的方式,突破了网络层数的瓶颈,是光流估计领域的又一突破。
深度学习方法为了降低光流估计时相似度计算的复杂性,会对输入图像进行下采样从而获得高层的特征表示,这样就不可避免的造成了图像细节的损失。现有的光流估计方法对于那些图像上偏移较小的大物体已经取得了不错的表现,然而在遇到一些快速移动的小物体时,那些方法就会表现糟糕。
综上所述可以看出,如何提高快速移动小物体的流光估计准确度是目前有待解决的问题。
发明内容
本发明的目的是提供一种光流估计的方法、装置、设备以及计算机可读存储介质,以解决目前的方法对于快速移动的小物体光流估计失败的问题。本发明的目的通过以下步骤来实现。
为解决上述技术问题,本发明提供一种光流估计的方法,包括:
分别提取相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵;
将所述每一帧图像的浅层特征矩阵输入多尺度通道注意力网络中进行处理,输出每一帧图像的通道特征矩阵;
将所述每一帧图像的通道特征矩阵输入多尺度空间注意力网络中进行加权处理,输出每一帧图像的空间特征矩阵;
计算所述相邻两帧图像的空间特征矩阵的相似度,得到相似度编码,将所述相似度编码进行Encoder操作得到运动特征;
利用上下文编码器提取第一帧图像的上下文特征;
将所述运动特征和所述上下文特征进行融合,并输入GRU模块中进行处理,输出光流残差;
基于光流残差进行迭代运算,直至达到预设迭代次数,停止运算,输出光流估计结果。
优选地,所述分别提取相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵包括:
利用至少四个卷积层分别提取所述相邻两帧图像的浅层特征,将每一帧图像提取到的多个浅层特征组合为浅层特征矩阵。
优选地,所述利用所述多尺度通道注意力网络中的多个卷积层对所述浅层特征矩阵进行处理包括:
利用多个卷积层分别提取所述每一帧图像的浅层特征矩阵的多尺度通道特征;
将每一尺度通道特征分别利用平均池化层和最大池化层进行处理,得到平均信息特征和最大信息特征;
将所述平均信息特征和所述最大信息特征输入深度可分离卷积网络中,得到平均池化向量和最大池化向量;
将所述平均池化向量和所述最大池化向量合并,并使用元素加法生成所述每一尺度的通道注意力掩膜;
将所有尺度的通道注意力掩膜与所述多尺度特征分别进行元素加法,得到所述每一帧图像的通道特征矩阵。
优选地,所述每一尺度的通道注意力掩膜的计算公式为:
Figure BDA0003554528240000031
其中,σ为sigmoid函数,DSC为深度可分离卷积网络,AvgPool(F)为平均信息特征,MaxPool(F)为最大信息特征,
Figure BDA0003554528240000032
Figure BDA0003554528240000033
Figure BDA0003554528240000034
为深度可分离卷积网络的权重,
Figure BDA0003554528240000035
为平均池化向量,
Figure BDA0003554528240000036
为最大池化向量,C为卷积核通道数,r为缩放因子。
优选地,所述利用所述多尺度空间注意力网络对所述每一帧图像的通道特征矩阵进行加权处理包括:
利用多个卷积层分别提取所述每一帧图像的通道特征矩阵的多尺度空间特征;
利用两个1×1卷积核对每一尺度空间特征进行处理,得到第一特征矩阵和第二特征矩阵;
将所述第一特征矩阵和所述第二特征矩阵进行相似度计算,得到特征相似度矩阵;
利用第三个1×1卷积核对所述每一尺度空间特征进行处理,得到第三特征矩阵;
将所述特征相似度矩阵与所述第三特征矩阵合并,得到所述每一尺度的空间注意力掩膜;
将所有尺度的空间注意力掩膜进行元素相加,得到每一帧图像的空间特征矩阵。
优选地,所述每一尺度的空间注意力掩膜的计算公式为:
Figure BDA0003554528240000041
其中,Ai,u为所述特征相似度矩阵的通道i和位置u的一个标量,Φi,u为所述第三特征矩阵中集合的通道i和位置u的一个标量。
优选地,所述基于光流残差进行迭代运算,直至达到预设迭代次数,停止运算,输出光流估计结果包括:
S71:初始化光流为u=0,初始化训练次数为t=0,设置所述预设迭代次数T;
S72:将光流残差s进行叠加u=u+s,迭代次数为t=t+1;
S73:判断t=T;
S74:若成立,则输出u作为所述光流估计结果;
S75:若不成立,则计算下一组相邻两帧图像的光流残差si,并令s=si,返回执行S72。
本发明还提供了一种光流估计的装置,包括:
提取特征模块,用于分别提取相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵;
通道特征处理模块,用于将所述每一帧图像的浅层特征矩阵输入多尺度通道注意力网络中进行处理,输出每一帧图像的通道特征矩阵;
空间特征处理模块,用于将所述每一帧图像的通道特征矩阵输入多尺度空间注意力网络中进行加权处理,输出每一帧图像的空间特征矩阵;
相似度计算模块,用于计算所述相邻两帧图像的空间特征矩阵的相似度,得到相似度编码,将所述相似度编码进行Encoder操作得到运动特征;
编码提取模块,用于利用上下文编码器提取第一帧图像的上下文特征;
光流残差计算模块,用于将所述运动特征和所述上下文特征进行融合,并输入GRU模块中进行处理,输出光流残差;
迭代运算模块,用于基于光流残差进行迭代计算,直至达到预设迭代次数,停止运算,输出光流估计结果。
本发明还提供了一种光流估计的设备,包括:
存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种光流估计的方法的步骤。
本发明还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种光流估计的方法的步骤。
本发明所提供的一种光流估计的方法,首先提取相邻两帧图像的浅层特征,构建两个浅层特征矩阵,然后将两个特征矩阵依次利用多尺度通道注意力网络和多尺度空间注意力网络进行处理,增加网络的表征能力,有助于提取到小物体的特征,增加小物体光流估计的精度;然后计算两个处理后的特征矩阵之间的相似度,得到相似度编码,采用上下文处理器提取第一帧图像的上下文特征,得到第一上下文编码;最后结合相似度编码和第一上下文编码进行迭代计算,得到目标光流估计结果。本发明采用多尺度通道注意力网络和多尺度空间注意力网络提取小物体精度更高的特征,将相似度与上下文编码计算相结合,进一步提高了本发明光流估计的精度,在无人驾驶领域等领域具有良好的应用价值,本发明的光流估计方法能够捕获快速移动的汽车、行人等小物体,从而避免系统出现异常,为社会安全和技术革新做出了贡献。
附图说明
为了更清楚的说明本发明实施例或现有技术的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明所提供的光流估计的方法的第一种具体实施例的流程图;
图2为本发明所提供的光流估计的方法的第二种具体实施例的流程图;
图3为本发明所提供的通道注意力流程图;
图4为本发明所提供的空间注意力流程图;
图5为本发明所提供的光流估计训练过程方法的步骤流程图;
图6为本发明实施例提供的一种光流估计的装置的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面结合附图和具体实施方式对本发明作进一步的详细说明。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参考图1,图1为本发明所提供的光流估计的方法的第一种具体实施例的流程图;具体操作步骤如下:
步骤S11:分别提取相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵;
步骤S12:将所述每一帧图像的浅层特征矩阵输入多尺度通道注意力网络中,利用所述多尺度通道注意力网络中的多个卷积层对所述浅层特征矩阵进行处理,输出每一帧图像的通道特征矩阵;
步骤S13:将所述每一帧图像的通道特征矩阵输入多尺度空间注意力网络中,利用所述多尺度空间注意力网络对所述每一帧图像的通道特征矩阵进行加权处理,输出每一帧图像的空间特征矩阵;
步骤S14:计算所述相邻两帧图像的空间特征矩阵的相似度,得到相似度编码,将所述相似度编码进行Encoder操作得到运动特征;
步骤S15:利用上下文编码器提取第一帧图像的上下文特征;
步骤S16:将所述运动特征和所述上下文特征进行融合,并输入GRU模块中进行处理,输出光流残差;
步骤S17:基于光流残差进行迭代运算,直至达到预设迭代次数,停止运算,输出光流估计结果。
S171:初始化光流为u=0,初始化训练次数为t=0,设置所述预设迭代次数T;
S172:将光流残差s进行叠加u=u+s,迭代次数为t=t+1;
S173:判断t=T;
S174:若成立,则输出u作为所述光流估计结果;
S175:若不成立,则循环步骤S11至S16计算下一组相邻两帧图像光流残差si,并令s=si,返回执行S172。
在本实施例中,首先提取相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵,然后将每一帧的浅层特征矩阵输入多尺度通道注意力网络和多尺度空间注意力网络中进行处理,本发明将浅层特征矩阵输入多尺度通道注意力网络和多尺度空间注意力网络中,有助于网络根据注意力掩膜关注对小物体,增加小物体的光流估计精度;其次,多尺度增加了网络的表征能力,使提取的特征更加具有鲁棒性;使的本发明能欧捕获快速移动的汽车、行人等小物体,从而避免系统出现异常。
基于上述实施例,本实施例对本发明中的多尺度通道注意力网络和多尺度空间注意力网络进行详细的说明,请参考图2,图2为本发明所提供的光流估计的方法的第二种具体实施例的流程图,具体详情如下:
步骤S201:利用至少四个卷积层分别提取所述相邻两帧图像的浅层特征,将每一帧图像提取到的多个浅层特征组合为浅层特征矩阵;
使用四个卷积层来提取浅层的图像特征,它们的卷积核大小分别为7×7、5×5、3×3和3×3,通道数分别为64、64、96和128,从而降低了图像的分辨率,得到了图像的浅层特征。
步骤S202:将每一帧图像的浅层特征矩阵输入多尺度通道注意力网络中,划分为多尺度通道特征,输出多尺度度通道特征的通道注意力掩膜,进行元素相加,得到每一帧图像的通道特征矩阵;
利用多个卷积层分别提取所述每一帧图像的浅层特征矩阵的多尺度通道特征。
将每一尺度通道特征分别利用平均池化层和最大池化层进行处理,得到平均信息特征和最大信息特征。
将所述平均信息特征和所述最大信息特征输入深度可分离卷积网络中,得到平均池化向量和最大池化向量。
将所述平均池化向量和所述最大池化向量合并,并使用元素加法生成所述每一尺度的通道注意力掩膜。
将所有尺度的通道注意力掩膜与所述多尺度特征分别进行元素加法,得到所述每一帧图像的通道特征矩阵。
图3展示了通道注意力的流程图。首先利用5×5和3×3的卷积层将每一帧图像的浅层特征矩阵划分为多尺度通道特征,每一尺度用平均池化和最大池化操作进行汇总,得到两个空间信息的特征描述,分别表示为
Figure BDA0003554528240000081
Figure BDA0003554528240000082
然后这两个描述符都被送到一个共享的网络模块。在我们的方法中,为了降低计算复杂度,这个模块由多层深度可分离卷积(DSC)组成,其中包含一个隐藏层,隐藏层激活大小被设定为
Figure BDA0003554528240000083
其中r是还原率。最后,共享模块的输出特征向量被合并,通过使用元素加法产生通道注意力掩膜Mc。这个通道注意模块用公式表示为:
Figure BDA0003554528240000084
其中,σ为sigmoid函数,DSC为深度可分离卷积网络,AvgPool(F)为平均信息特征,MsxPool(F)为最大信息特征,
Figure BDA0003554528240000085
Figure BDA0003554528240000086
Figure BDA0003554528240000087
为深度可分离卷积网络的权重,
Figure BDA0003554528240000088
为平均池化向量,
Figure BDA0003554528240000089
为最大池化向量,C为卷积核通道数,r为缩放因子。
步骤S203:将每一帧图像的通道特征矩阵输入多尺度空间注意力网络中,划分为多尺度空间特征,计算每个尺度空间特征的空间注意力掩膜,将所述尺度空间特征的掩膜进行融合和元素相加,得到每一帧图像的空间特征矩阵;
利用多个卷积层分别提取所述每一帧图像的通道特征矩阵的多尺度空间特征;
利用两个1×1卷积核对每一尺度空间特征进行处理,得到第一特征矩阵和第二特征矩阵;
将所述第一特征矩阵和所述第二特征矩阵进行相似度计算,得到特征相似度矩阵;
利用第三个1×1卷积核对所述每一尺度空间特征进行处理,得到第三特征矩阵;
将所述特征相似度矩阵与所述第三特征矩阵合并,得到所述每一尺度的空间注意力掩膜;
将所有尺度的空间注意力掩膜进行元素相加,得到每一帧图像的空间特征矩阵。
图4显示了空间注意力模块的结构,首先利用5×5和3×3的卷积层将每一帧图像的通道特征矩阵划分为多尺度空间特征,利用两个1×1的卷积核对每一尺度空间特征进行处理,两个特征矩阵Q和K,Q和K的尺寸都是C′×H×W,其中C′是通道的维度,这个维度通常小于C,然后,通过对Q和K使用相似度计算的操作产生一个注意力掩膜
Figure BDA0003554528240000091
Figure BDA0003554528240000092
同时,对每一尺度空间特征使用另一个1×1的卷积核,产生另一个特征矩阵
Figure BDA0003554528240000093
用于特征匹配。在V的空间维度上的每个位置u,通道维度的尺寸都是
Figure BDA0003554528240000094
那么十字交叉的跳跃检索,便存在一个集合
Figure BDA0003554528240000095
以上信息通过聚集操作可以合并,公式化为:
Figure BDA0003554528240000096
其中,Ai,u为所述特征相似度矩阵的通道i和位置u的一个标量,Φi,u为所述第三特征矩阵中集合的通道i和位置u的一个标量。
步骤S204:计算所述相邻两帧图像的空间特征矩阵的相似度,得到相似度编码,将所述相似度编码进行Encoder操作得到运动特征;
步骤S205:利用上下文编码器提取第一帧图像的上下文特征;
步骤S206:将所述运动特征和所述上下文特征进行融合,并输入GRU模块中进行处理,输出光流残差;
步骤S207:基于光流残差进行迭代运算,直至达到预设迭代次数,停止运算,输出光流估计结果。
为了计算图像上每个像素点的偏移,我们需要计算两帧图像对应像素点的相似度关系,对处理好的特征矩阵进行相似度计算,得到相似度编码。
第一帧图像上每一个像素的位置信息决定了光流估计的起始点的信息,因此我们会使用上下文编码器来提取第一帧图像的上下文特征,得到上下文编码,编码记录了每个像素的位置信息。
在本实施例中,重点说明了多尺度通道注意力网络和多尺度空间注意力网络中详细的处理步骤,首先将每一帧图像的浅层特征矩阵分别通过平均池化层和最大池化层,得到平均信息特征和最大信息特征,再将两个信息特征输入深度可分离卷积网络中得到平均池化向量和最大池化向量,最后将其融合得到每一帧图像的通道特征矩阵;将每一帧图像的通道特征矩阵输入多尺度空间注意力网络中,求取特征相似度,最后输出每一帧图像的空间特征矩阵。本发明将浅层特征矩阵输入多尺度通道注意力网络和多尺度空间注意力网络中,有助于网络根据注意力掩膜关注对小物体,增加小物体的光流估计精度,其次,多尺度增加了网络的表征能力,使提取的特征更加具有鲁棒性;便于后续进行光流估计。
基于上述实施例,本实施例对本发明提供光流估计算法训练过程进行了详细的说明,请参考图5,图5为本发明所提供的光流估计训练过程方法的步骤流程图,具体详情如下:
步骤S501:提取已知流光值的相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵;
步骤S502:将每一帧图像的浅层特征矩阵输入多尺度通道注意力网络和多尺度空间注意力网络中进行处理得到每一帧图像的空间特征矩阵;
步骤S503:计算相邻两帧图像的空间特征矩的相似度编码,根据相似度编码得到运动特征;
步骤S504:利用上下文编码器提取第一帧图像的上下文特征;
步骤S505:将运动特征和上下文特征融合输入GRU模块,输出光流残差;
步骤S506:定义损失函数,基于光流残差迭代计算光流值;
步骤S507:直至损失函数收敛,停止计算,输出光流估计结果。
基于端点误差(EPE)作为损失函数,其公式为:
Figure BDA0003554528240000111
其中,W和H分别为两幅图像的宽度和高度,ui,j和vi,j为预测的光流值,u′i,j和v′i,j为对应的光流真值。
本实施例中,利用采用已知流光值的图像进行训练,提取已知流光值的图像,构建每一帧图像的浅层特征矩阵,利用多尺度通道注意力网络和多尺度空间注意力网络进行处理,然后计算相似度编码,运动特征和上下文特征,得到光流残差,定义损失函数,基于光流残差迭代计算光流值,用预测的光流值与真实的光流值进行比较,直至损失函数收敛,输出光流估计结果,确定迭代次数。本发明实现了小物体和快速移动物体的精准光流估计,采用多尺度通道注意力网络和多尺度空间注意力网络中,在增加了小物体光流估计的精度,然后利用上下文特征和相似度结合,进一步提高了预测精度。
请参考图6,图6为本发明实施例提供的一种光流估计的装置的结构框图;具体装置可以包括:
提取特征模块100,用于分别提取相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵;
通道特征处理模块200,用于将所述每一帧图像的浅层特征矩阵输入多尺度通道注意力网络中进行处理,输出每一帧图像的通道特征矩阵;
空间特征处理模块300,用于将所述每一帧图像的通道特征矩阵输入多尺度空间注意力网络中进行加权处理,输出每一帧图像的空间特征矩阵;
相似度计算模块400,用于计算所述相邻两帧图像的空间特征矩阵的相似度,得到相似度编码,将所述相似度编码进行Encoder操作得到运动特征;
编码提取模块500,用于利用上下文编码器提取第一帧图像的上下文特征;
光流残差计算模块600,用于将所述运动特征和所述上下文特征进行融合,并输入GRU模块中进行处理,输出光流残差;
迭代运算模块700,用于基于光流残差进行迭代计算,直至达到预设迭代次数,停止运算,输出光流估计结果。
本实施例的一种光流估计的装置用于实现前述的一种光流估计的方法,因此一种光流估计的装置中的具体实施方式可见前文中的一种光流估计的方法的实施例部分,例如,提取特征模块100,通道特征处理模块200,空间特征处理模块300,相似度计算模块400,编码提取模块500,光流残差计算模块600,迭代运算模块700,分别用于实现上述一种光流估计的方法中步骤S11,S12,S13,S14,S15,S16和S17所以,其具体实施方式可以参照相应的各个部分实施例的描述,在此不再赘述。
本发明具体实施例还提供了一种光流估计的设备,包括:存储器,用于存储计算机程序;处理器,用于执行所述计算机程序时实现上述一种光流估计的方法的步骤。
本发明具体实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述一种光流估计的方法的步骤。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上对本发明所提供的一种光流估计的方法、装置、设备以及计算机可读存储介质进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求的保护范围内。

Claims (8)

1.一种光流估计的方法,其特征在于,包括:
分别提取相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵;
将所述每一帧图像的浅层特征矩阵输入多尺度通道注意力网络中进行处理,输出每一帧图像的通道特征矩阵,利用多个卷积层分别提取所述每一帧图像的浅层特征矩阵的多尺度通道特征;将每一尺度通道特征分别利用平均池化层和最大池化层进行处理,得到平均信息特征和最大信息特征;将所述平均信息特征和所述最大信息特征输入深度可分离卷积网络中,得到平均池化向量和最大池化向量;将所述平均池化向量和所述最大池化向量合并,并使用元素加法生成每一尺度的通道注意力掩膜;将所有尺度的通道注意力掩膜与所述多尺度通道特征分别进行元素加法,得到所述每一帧图像的通道特征矩阵;
将所述每一帧图像的通道特征矩阵输入多尺度空间注意力网络中进行加权处理,输出每一帧图像的空间特征矩阵,利用多个卷积层分别提取所述每一帧图像的通道特征矩阵的多尺度空间特征;利用两个1×1卷积核对每一尺度空间特征进行处理,得到第一特征矩阵和第二特征矩阵;将所述第一特征矩阵和所述第二特征矩阵进行相似度计算,得到特征相似度矩阵;利用第三个1×1卷积核对所述每一尺度空间特征进行处理,得到第三特征矩阵;将所述特征相似度矩阵与所述第三特征矩阵合并,得到每一尺度的空间注意力掩膜;将所有尺度的空间注意力掩膜进行元素相加,得到所述每一帧图像的空间特征矩阵;
计算所述相邻两帧图像的空间特征矩阵的相似度,得到相似度编码,将所述相似度编码进行Encoder操作得到运动特征;
利用上下文编码器提取第一帧图像的上下文特征;
将所述运动特征和所述上下文特征进行融合,并输入GRU模块中进行处理,输出光流残差;
基于光流残差进行迭代运算,直至达到预设迭代次数,停止运算,输出光流估计结果。
2.如权利要求1所述的光流估计的方法,其特征在于,所述分别提取相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵包括:
利用至少四个卷积层分别提取所述相邻两帧图像的浅层特征,将每一帧图像提取到的多个浅层特征组合为浅层特征矩阵。
3.如权利要求1所述的光流估计的方法,其特征在于,所述每一尺度的通道注意力掩膜的计算公式为:
Figure FDA0004051873160000021
其中,σ为sigmoid函数,DSC为深度可分离卷积网络,AvgPool(F)为平均信息特征,MaxPool(F)为最大信息特征,
Figure FDA0004051873160000023
Figure FDA0004051873160000024
Figure FDA0004051873160000025
为深度可分离卷积网络的权重,
Figure FDA0004051873160000026
为平均池化向量,
Figure FDA0004051873160000027
为最大池化向量,C为卷积核通道数,r为缩放因子。
4.如权利要求1所述的光流估计的方法,其特征在于,所述每一尺度的空间注意力掩膜的计算公式为:
Figure FDA0004051873160000022
其中,Ai,u为所述特征相似度矩阵的通道i和位置u的一个标量,Φi,u为所述第三特征矩阵中集合的通道i和位置u的一个标量。
5.如权利要求1所述的光流估计的方法,其特征在于,所述基于光流残差进行迭代运算,直至达到预设迭代次数,停止运算,输出光流估计结果包括:
S71:初始化光流为u=0,初始化训练次数为t=0,设置所述预设迭代次数T;
S72:将光流残差s进行叠加u=u+s,迭代次数为t=t+1;
S73:判断t=T;
S74:若成立,则输出u作为所述光流估计结果;
S75:若不成立,则计算下一组相邻两帧图像的光流残差si,并令s=si,返回执行S72。
6.一种光流估计的装置,其特征在于,包括:
提取特征模块,用于分别提取相邻两帧图像的浅层特征,构建每一帧图像的浅层特征矩阵;
通道特征处理模块,用于将所述每一帧图像的浅层特征矩阵输入多尺度通道注意力网络中进行处理,输出每一帧图像的通道特征矩阵,利用多个卷积层分别提取所述每一帧图像的浅层特征矩阵的多尺度通道特征;将每一尺度通道特征分别利用平均池化层和最大池化层进行处理,得到平均信息特征和最大信息特征;将所述平均信息特征和所述最大信息特征输入深度可分离卷积网络中,得到平均池化向量和最大池化向量;将所述平均池化向量和所述最大池化向量合并,并使用元素加法生成每一尺度的通道注意力掩膜;将所有尺度的通道注意力掩膜与所述多尺度通道特征分别进行元素加法,得到所述每一帧图像的通道特征矩阵;
空间特征处理模块,用于将所述每一帧图像的通道特征矩阵输入多尺度空间注意力网络中进行加权处理,输出每一帧图像的空间特征矩阵,利用多个卷积层分别提取所述每一帧图像的通道特征矩阵的多尺度空间特征;利用两个1×1卷积核对每一尺度空间特征进行处理,得到第一特征矩阵和第二特征矩阵;将所述第一特征矩阵和所述第二特征矩阵进行相似度计算,得到特征相似度矩阵;利用第三个1×1卷积核对所述每一尺度空间特征进行处理,得到第三特征矩阵;将所述特征相似度矩阵与所述第三特征矩阵合并,得到每一尺度的空间注意力掩膜;将所有尺度的空间注意力掩膜进行元素相加,得到所述每一帧图像的空间特征矩阵;
相似度计算模块,用于计算所述相邻两帧图像的空间特征矩阵的相似度,得到相似度编码,将所述相似度编码进行Encoder操作得到运动特征;
编码提取模块,用于利用上下文编码器提取第一帧图像的上下文特征;
光流残差计算模块,用于将所述运动特征和所述上下文特征进行融合,并输入GRU模块中进行处理,输出光流残差;
迭代运算模块,用于基于光流残差进行迭代计算,直至达到预设迭代次数,停止运算,输出光流估计结果。
7.一种光流估计的设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至5任一项所述一种光流估计方法的步骤。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至5任一项所述一种光流估计的方法的步骤。
CN202210270582.XA 2022-03-18 2022-03-18 一种光流估计的方法、装置以及设备 Active CN114677412B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210270582.XA CN114677412B (zh) 2022-03-18 2022-03-18 一种光流估计的方法、装置以及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210270582.XA CN114677412B (zh) 2022-03-18 2022-03-18 一种光流估计的方法、装置以及设备

Publications (2)

Publication Number Publication Date
CN114677412A CN114677412A (zh) 2022-06-28
CN114677412B true CN114677412B (zh) 2023-05-12

Family

ID=82074164

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210270582.XA Active CN114677412B (zh) 2022-03-18 2022-03-18 一种光流估计的方法、装置以及设备

Country Status (1)

Country Link
CN (1) CN114677412B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117395423A (zh) * 2022-06-30 2024-01-12 深圳市中兴微电子技术有限公司 视频图像的处理方法、装置、电子设备和存储介质
CN115690170A (zh) * 2022-10-08 2023-02-03 苏州大学 一种针对不同尺度目标自适应的光流估计的方法及系统
CN115578260B (zh) * 2022-10-08 2023-07-25 苏州大学 针对图像超分辨率的方向解耦的注意力方法和系统
CN116309698B (zh) * 2023-01-11 2024-06-11 中国科学院上海微系统与信息技术研究所 一种基于运动特征弥补引导的多帧光流估计方法
CN116486107B (zh) * 2023-06-21 2023-09-05 南昌航空大学 一种光流计算方法、系统、设备及介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114125454A (zh) * 2022-01-26 2022-03-01 广东电网有限责任公司中山供电局 一种视频图像编码系统及方法

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107292912B (zh) * 2017-05-26 2020-08-18 浙江大学 一种基于多尺度对应结构化学习的光流估计方法
CN110111366B (zh) * 2019-05-06 2021-04-30 北京理工大学 一种基于多级损失量的端到端光流估计方法
CN110969577B (zh) * 2019-11-29 2022-03-11 北京交通大学 一种基于深度双重注意力网络的视频超分辨率重建方法
CN111242068B (zh) * 2020-01-17 2021-03-02 科大讯飞(苏州)科技有限公司 基于视频的行为识别方法、装置、电子设备和存储介质
CN111311490B (zh) * 2020-01-20 2023-03-21 陕西师范大学 基于多帧融合光流的视频超分辨率重建方法
CN111402130B (zh) * 2020-02-21 2023-07-18 华为技术有限公司 数据处理方法和数据处理装置
CN111340844B (zh) * 2020-02-24 2023-05-02 南昌航空大学 基于自注意力机制的多尺度特征光流学习计算方法
CN111325797B (zh) * 2020-03-03 2023-07-25 华东理工大学 一种基于自监督学习的位姿估计方法
CN111582483B (zh) * 2020-05-14 2022-12-13 哈尔滨工程大学 基于空间和通道联合注意力机制的无监督学习光流估计方法
CN111738090A (zh) * 2020-05-27 2020-10-02 北京三快在线科技有限公司 行人重识别模型训练方法、装置及行人重识别方法、装置
CN112348766B (zh) * 2020-11-06 2023-04-18 天津大学 一种用于监控视频增强的渐进式特征流深度融合网络
CN113283435B (zh) * 2021-05-14 2023-08-22 陕西科技大学 一种基于多尺度注意力融合的遥感图像语义分割方法
CN113554039B (zh) * 2021-07-27 2022-02-22 广东工业大学 基于多注意力机制的动态图像的光流图生成方法和系统
CN114118199A (zh) * 2021-09-01 2022-03-01 济宁安泰矿山设备制造有限公司 一种用于智能泵腔体内窥镜故障诊断的图像分类方法及系统
CN114187331A (zh) * 2021-12-10 2022-03-15 哈尔滨工程大学 一种基于Transformer特征金字塔网络的无监督光流估计方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114125454A (zh) * 2022-01-26 2022-03-01 广东电网有限责任公司中山供电局 一种视频图像编码系统及方法

Also Published As

Publication number Publication date
CN114677412A (zh) 2022-06-28

Similar Documents

Publication Publication Date Title
CN114677412B (zh) 一种光流估计的方法、装置以及设备
WO2020177651A1 (zh) 图像分割方法和图像处理装置
US20200394412A1 (en) Action recognition in videos using 3d spatio-temporal convolutional neural networks
CN110084274B (zh) 实时图像语义分割方法及系统、可读存储介质和终端
CN111914997B (zh) 训练神经网络的方法、图像处理方法及装置
Zhang et al. Object detection with location-aware deformable convolution and backward attention filtering
CN110443883B (zh) 一种基于dropblock的单张彩色图片平面三维重建方法
CN110889375B (zh) 用于行为识别的隐双流协作学习网络及方法
CN112541877B (zh) 基于条件生成对抗网络的去模糊方法、系统、设备及介质
CN115699088A (zh) 从二维图像生成三维对象模型
CN113807361B (zh) 神经网络、目标检测方法、神经网络训练方法及相关产品
Ma et al. Fusioncount: Efficient crowd counting via multiscale feature fusion
CN110598601A (zh) 一种基于分布式热力图的人脸3d关键点检测方法及系统
CN111105017A (zh) 神经网络量化方法、装置及电子设备
CN115147598A (zh) 目标检测分割方法、装置、智能终端及存储介质
CN113191318A (zh) 目标检测方法、装置、电子设备及存储介质
CN111179270A (zh) 基于注意力机制的图像共分割方法和装置
CN113344003A (zh) 目标检测方法及装置、电子设备和存储介质
CN114140831B (zh) 人体姿态估计方法、装置、电子设备及存储介质
CN116863194A (zh) 一种足溃疡图像分类方法、系统、设备及介质
CN114511798B (zh) 基于transformer的驾驶员分心检测方法及装置
CN115272691A (zh) 一种钢筋绑扎状态检测模型的训练方法、识别方法及设备
Jayasundara et al. Flowcaps: Optical flow estimation with capsule networks for action recognition
CN117237623B (zh) 一种无人机遥感图像语义分割方法及系统
CN113657225A (zh) 一种目标检测方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant