CN113554039B - 基于多注意力机制的动态图像的光流图生成方法和系统 - Google Patents

基于多注意力机制的动态图像的光流图生成方法和系统 Download PDF

Info

Publication number
CN113554039B
CN113554039B CN202110850016.1A CN202110850016A CN113554039B CN 113554039 B CN113554039 B CN 113554039B CN 202110850016 A CN202110850016 A CN 202110850016A CN 113554039 B CN113554039 B CN 113554039B
Authority
CN
China
Prior art keywords
optical flow
input image
matching
image
transformer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202110850016.1A
Other languages
English (en)
Other versions
CN113554039A (zh
Inventor
刘文印
方桂标
陈俊洪
梁达勇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110850016.1A priority Critical patent/CN113554039B/zh
Publication of CN113554039A publication Critical patent/CN113554039A/zh
Application granted granted Critical
Publication of CN113554039B publication Critical patent/CN113554039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20076Probabilistic image processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]

Abstract

本申请公开了基于多注意力机制的动态图像的光流图生成方法和系统,本方法包括分别获取两幅连续图像的稠密特征图F1、F2,对F1、F2进行特征处理得到匹配矩阵,基于F1、初始光流和匹配矩阵得到残差光流,再结合当前光流得到最终的光流图。本系统包括特征提取模块、特征匹配模块和光流更新模块;特征提取模块用于得到稠密特征图;特征匹配模块用于对稠密特征图进行特征匹配处理,得到匹配矩阵;光流更新模块用于根据F1、初始光流、匹配矩阵得到残差光流,再结合当前光流得到光流图。本申请有效降低了因分辨率低导致遗漏小物体信息的错误,有效识别并处理快速移动的小物体,确保实时预测与识别,提高了匹配精度,增强了模型的泛化能力。

Description

基于多注意力机制的动态图像的光流图生成方法和系统
技术领域
本申请属于动态图像处理领域,具体涉及基于多注意力机制的动态图像的光流图生成方法。
背景技术
光流在移动机器人中有广泛应用,例如,光流估计是现实环境中移动机器人实现避障的重要步骤。移动机器人首先获取障碍物的光流,再根据光流中的运动信息调整行驶策略,从而实现准确避障。传统方法通过超声波测距仪、激光雷达、红外传感器等传感器获取环境中障碍物的距离和分布信息,从而实现避障。虽然传统方法已经取得了很大进展,但是这些测距避障方式存在避障死角。而基于光流进行避障可有效规避避障死角,避障的可靠性更高,并且这种方法非常接近人类的视觉认知行为,对视觉信息采集设备要求较低。机器人在弱纹理、遮挡等复杂环境中作业时如何进行实时光流估计是移动机器人避障领域研究的重要课题。
光流是运动物体或场景表面像素点在投影平面的二维瞬时速度,因此图像序列对应的光流不仅携带其中运动目标与场景的运动信息,更包含了其结构信息。移动机器人执行避障任务要求光流预测系统具备实时性、适应能力以及模型泛化能力。而在实际作业场景中,弱纹理、物体遮挡和光线不足等是阻碍移动机器人获取准确光流的棘手问题。因而结合局部信息和全局信息对于获取更准确的光流信息具有重要意义。
现有技术普遍采用由粗到细的设计,也就是先用低分辨率估算光流,再用高分辨率采样调整,这种方式很可能会遗漏快速移动的小物体的信息;现有技术的网络结构普遍过于复杂,特别是在特征提取和匹配方面需要多重分支结构和金字塔结构,使得模型训练和测试时间过长;现有技术普遍采用构建匹配成本量作为特征匹配模块,这种方法的匹配精度不高,限制了后续光流估计的结果。
发明内容
本申请提出了基于多注意力机制的动态图像的光流图生成方法,提取前后连续的两幅原始图像中的每个像素的特征,使用多注意力Transformer进行处理,得到匹配矩阵,再通过对原始图像卷积处理,引入当前光流、残差光流概念,与匹配矩阵结合,得到最终的光流图,克服传统方式中容易遗漏细节信息、结构复杂且精度低的缺陷。
为实现上述目的,本申请提供了如下方案:
基于多注意力机制的动态图像的光流图生成方法,包括如下步骤:
提取第一输入图像中每个像素的特性,得到第一稠密特征图,提取第二输入图像中每个像素的特性,得到第二稠密特征图,所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像;
使用多注意力Transformer对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理,得到匹配矩阵;
设定初始光流为0,按照预定迭代次数对所述初始光流进行迭代处理,得到当前光流;基于所述当前光流和所述匹配矩阵,得到残差光流;
对所述残差光流和所述当前光流进行卷积处理,得到光流图,所述光流图用于动态图像中物体运动趋势的预测。
优选的,得到所述第一稠密特征图和所述第二稠密特征图的方法包括:
使用残差网络对所述第一输入图像和所述第二输入图像分别进行映射处理,分别得到所述第一稠密特征图和所述第二稠密特征图。
优选的,得到所述匹配矩阵的方法包括:
将所述第一稠密特征图展平为一维向量并添加对应的位置编码,得到第一输入图像一维特征;
将所述第二稠密特征图展平为一维向量并添加对应的位置编码,得到第二输入图像一维特征;
使用所述多注意力Transformer对所述第一输入图像一维特征进行处理,得到第一图像Transformer特征;
使用所述多注意力Transformer对所述第二输入图像一维特征进行处理,得到第二图像Transformer特征;
使用双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征,得到所述匹配矩阵。
优选的,所述位置编码以正弦格式给定每个像素的位置信息。
优选的,所述Transformer为线性多注意力Transformer。
优选的,得到所述残差光流的方法包括:
同时对所述当前光流和所述匹配矩阵进行卷积计算,再将卷积计算后的结果与所述第一稠密特征图叠加得到卷积GRU输入数据;
对所述卷积GRU输入数据进行卷积操作,得到所述残差光流。
优选的,得到所述光流图的方法包括:
使用所述残差光流补偿所述当前光流,得到当前光流的下一迭代光流;
对所述下一迭代光流进行迭代处理,得到最终光流;
使用归一化卷积上采样操作对所述最终光流进行恢复,得到所述光流图。
本申请还公开了基于多注意力机制的动态图像的光流图生成系统,包括:特征提取模块、特征匹配模块和光流更新模块;
所述特征提取模块用于从第一输入图像中提取得到第一稠密特征图,以及从第二输入图像中提取得到第二稠密特征图,所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像;
所述特征匹配模块用于对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理,得到匹配矩阵;
所述光流更新模块用于基于初始光流和所述匹配矩阵,得到当前光流和残差光流,根据所述第一稠密特征图、所述残差光流和所述当前光流,得到光流图,所述光流图用于动态图像中物体运动趋势的预测。
优选的,所述特征提取模块包括残差网络;
所述残差网络用于对所述第一输入图像和所述第二输入图像进行映射处理,分别得到所述第一稠密特征图和所述第二稠密特征图。
优选的,所述特征匹配模块包括:展平编码单元、多注意力Transformer单元和可微匹配单元;
所述展平编码单元用于将所述第一稠密特征图展平为一维向量并添加对应的位置编码,得到第一输入图像一维特征,以及将所述第二稠密特征图展平为一维向量并添加对应的位置编码,得到第二输入图像一维特征;
所述多注意力Transformer单元用于对所述第一输入图像一维特征进行处理,得到第一图像Transformer特征,以及对所述第二输入图像一维特征进行处理,得到第二图像Transformer特征;
所述可微匹配单元用于通过双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征,得到所述匹配矩阵。
本申请的有益效果为:
本申请公开了基于多注意力机制的动态图像的光流图生成方法和系统,针对动态图像中前后连续的两幅原始图像,提取图像中每个像素的特征,以高分辨率迭代更新光流,有效改善现有技术中因分辨率低导致遗漏小物体问题,能够有效识别并处理快速移动的小物体;提高了动态图像中物体运动趋势预测的准确度;使用残差网络和多注意力Transformer来进行特征提取与匹配,确保了光流实时预测与识别;使用自注意力和交叉注意力机制的Transformer来对特征进行匹配,实现局部信息与全局信息的结合,提高了匹配精度;本申请提高了光流图估计的效率、准确性和鲁棒性,增强了模型的泛化能力,即使处于极端环境也能实现光流图估计。
附图说明
为了更清楚地说明本申请的技术方案,下面对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例基于多注意力机制的动态图像的光流图生成方法流程示意图;
图2为本申请实施例基于多注意力机制的动态图像的光流图生成系统结构示意图;
图3为本申请实施例中特征提取模块中残差网络的参数示意图;
图4为本申请实施例引用的现有Transformer理论的处理流程示意图;
图5为本申请实施例中残差光流生成流程示意图及参数设定。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。
如图1所示,为本申请基于多注意力机制的动态图像的光流图生成方法流程示意图,本实施例以无人驾驶车辆自动导航过程中,通过视频捕获设备获取动态图像后,对动态图像进行处理生成光流图为例展开说明,具体包括如下步骤:
S102.通过自动导航系统的视频捕获设备获取动态图像后,任意选取前后连续的两幅原始图像,分别标记I1、I2,图像中包含了诸如人物、车辆、及其他相对于无人驾驶车辆的运动物体。使用残差网络分别提取出I1、I2中每个像素的特征,具体为:分别将I1和I2映射到分辨率为原始输入图像1/8的稠密特征图,得到第一稠密特征图F1和第二稠密特征图F2
S104.将第一稠密特征图F1和第二稠密特征图F2展平为一维向量,并分别添加对应的位置编码,得到第一输入图像一维特征和第二输入图像一维特征,其中,位置编码以正弦格式给定每个像素的位置信息;再使用线性多注意力Transformer分别对第一输入图像一维特征和第二输入图像一维特征进行特征处理,得到第一图像Transformer特征F1’和第二图像Transformer特征F2’,最后使用双softmax算子匹配第一图像Transformer特征和第二图像Transformer特征,得到匹配矩阵P。
S106.从初始光流f0=0开始,迭代m次后得到光流序列{f1,...,fm},在第k次迭代中,将当前光流fk和匹配矩阵P分别通过卷积操作映射为相同尺寸后,再与第一稠密特征图F1叠加组成卷积GRU的输入,卷积GRU的输出再经过卷积操作得到残差光流Δf,其分辨率为原来的1/8。
S108.使用残差光流Δf补偿当前光流fk,即fk+1=fk+Δf,再通过归一化卷积上采样操作将最终光流fm的分辨率恢复到原始大小得到光流f,即为最终的光流图,该光流图中显示了基于I1、I2两幅图像的各种物体的运动趋势,包括各种人物、车辆、及其他相对于无人驾驶车辆的运动物体的速度大小、方向、轮廓等,从而为自动导航系统提供了周边环境中各种物体的运动趋势,为下一步导航控制提供了参照数据。
本申请还公开了基于多注意力机制的动态图像的光流图生成系统,其结构如图2所示,包括:特征提取模块、特征匹配模块和光流更新模块。
其中,特征提取模块包括残差网络,用于提取两幅原始图像I1、I2的每个像素的特征,I1、I2均来自于视频捕获设备获取的动态图像,且是该动态图像中前后连续的两幅,I1、I2中均包含了诸如人物、车辆、及其他相对于无人驾驶车辆的运动物体。通过残差网络,分别将I1和I2映射到分辨率为原始输入图像1/8的稠密特征图,得到第一稠密特征图F1和第二稠密特征图F2。残差网络由2个卷积层和6个残差单元组成,1/2、1/4和1/8分辨率中各有2个残差单元,具体参数如图3所示。
残差网络具有翻译等值性和局部性,适合于特征提取。经过特征提取模块后,残差网络引入的下采样减少了Transformer模块的输入长度,这是保证计算成本处于可承受范围的关键。
特征匹配模块用于对第一稠密特征图F1和第二稠密特征图F2进行特征匹配处理,得到匹配矩阵;具体分为:展平编码单元、多注意力Transformer单元和可微匹配单元;
展平编码单元用于将第一稠密特征图F1和第二稠密特征图F2分别展平为一维向量并添加对应的位置编码,得到对应的第一输入图像一维特征和第二输入图像一维特征,其中,位置编码以正弦格式给定每个元素的位置信息。将位置编码添加到像素特征,变换后特征具有位置依赖性,这对于模糊区域的匹配能力很重要。
多注意力Transformer单元用于对第一输入图像一维特征和第二输入图像一维特征进行处理,分别得到第一图像Transformer特征F1’,以及第二图像Transformer特征F2’。Transformer现有理论的处理流程如图4所示。在本实施例中,多注意力Transformer单元采用线性多注意力Transformer,其中包含了N个交错分布的自注意力层和交叉注意力层。线性Transformer将普通Transformer中注意力层的相似度函数替换为sim(Q,K)=φ(Q)·φ(K)T,其中φ(·)=elu(·)+1,elu(·)为指数线性单元激活函数,Q、K和V分别为注意力层输入中的查询向量、键向量和值向量,上标T表示矩阵转置,而WQ、WK和WV分别为查询权重矩阵、键权重矩阵和值权重矩阵,这三个矩阵均由网络学习得到的。其中,对于自注意力层,输入特征gi和gj是一样的(全为F1或全为F2)。对于交叉注意力层,输入特征gi和gj为F1和F2或F2和F1。线性Transformer将普通Transformer中的点积注意力替换为线性注意力,使得计算复杂度从O(n2)降低到O(n),其中n为Transformer输入向量的长度。多注意力Transformer提取位置和上下文相关的局部特征,从而将特征变换为易于匹配的特征表示。
可微匹配单元使用双softmax算子来匹配变换后特征F1’和F2’,最终得到匹配矩阵P。双softmax算子的运算过程如下:首先通过
Figure BDA0003182072170000101
计算得到变换后特征的得分矩阵S,然后再通过P(i,j)=softmax(S(i,·))j·softmax(S(·,j))i计算得到匹配矩阵P,上述的i和j分别表示矩阵的i行和第j列,||·||2为欧几里德范数,而softmax为归一化指数函数。
设定初始光流f0=0,光流更新模块从初始光流f0=0开始迭代m次得到光流序列{f1,...,fm},在第k次迭代中,将当前光流fk和匹配矩阵P分别通过卷积操作映射为相同尺寸后,再与原始图像I1的第一稠密特征图F1叠加组成卷积GRU的输入,卷积GRU的输出再经过卷积操作得到残差光流Δf,其分辨率为原来的1/8,具体参数如图5所示。具体来说:首先将初始光流f0设为0,然后通过原始图像I2中以当前像素点施加当前光流fk的位移后的点为中心的9×9领域内索引匹配矩阵P的匹配结果,通过迭代上述操作后便可使匹配范围进一步扩大,进而通过卷积GRU得到残差光流Δf。用残差光流Δf来补偿当前光流fk,即fk+1=fk+Δf,最后通过归一化卷积上采样操作将最终光流fm的分辨率恢复到原始大小得到光流f,即最终的光流图,该光流图中展示了基于I1、I2两幅图像的各种物体的运动趋势,包括各种人物、车辆、及其他相对于无人驾驶车辆的运动物体的速度大小、方向、轮廓等,从而为自动导航系统提供了周边环境中各种物体的运动趋势,为下一步导航控制提供了参照数据。
卷积GRU将普通GRU的全连接层用卷积代替。相较于普通GRU,卷积GRU计算量更少更容易收敛。归一化卷积上采样是一种联合上采样方法,首先用前向映射从低分辨率图像构建出稀疏高分辨率网格图,以低分辨率图像和其他辅助数据为输入的权值估计网络生成低分辨率图像的像素级权值,然后使用前向映射以类似的方式将权重映射到高分辨率网格,接着由级联的归一化卷积层构成的插值网络接收高分辨率网格图和权重,并生成高分辨率图像。相较于双线性上采样,归一化卷积上采样的参数更少,且对于运动边界的恢复效果更好。
以上所述的实施例仅是对本申请优选方式进行的描述,并非对本申请的范围进行限定,在不脱离本申请设计精神的前提下,本领域普通技术人员对本申请的技术方案做出的各种变形和改进,均应落入本申请权利要求书确定的保护范围内。

Claims (7)

1.基于多注意力机制的动态图像的光流图生成方法,其特征在于,包括如下步骤:
提取第一输入图像中每个像素的特性,得到第一稠密特征图,提取第二输入图像中每个像素的特性,得到第二稠密特征图,所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像;
使用多注意力Transformer对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理,得到匹配矩阵,所述多注意力Transformer包含自注意力层和交叉注意力层;
设定初始光流为0,按照预定迭代次数对所述初始光流进行迭代处理,得到当前光流;基于所述当前光流和所述匹配矩阵,得到残差光流;
对所述残差光流和所述当前光流进行卷积处理,得到光流图,所述光流图用于动态图像中物体运动趋势的预测;
得到所述第一稠密特征图和所述第二稠密特征图的方法包括:
使用残差网络对所述第一输入图像和所述第二输入图像分别进行映射处理,具体的,分别将所述第一输入图像和所述第二输入图像映射到分辨率为原始输入图像1/8的稠密特征图,分别得到所述第一稠密特征图和所述第二稠密特征图。
2.根据权利要求1所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,得到所述匹配矩阵的方法包括:
将所述第一稠密特征图展平为一维向量并添加对应的位置编码,得到第一输入图像一维特征;
将所述第二稠密特征图展平为一维向量并添加对应的位置编码,得到第二输入图像一维特征;
使用所述多注意力Transformer对所述第一输入图像一维特征进行处理,得到第一图像Transformer特征;
使用所述多注意力Transformer对所述第二输入图像一维特征进行处理,得到第二图像Transformer特征;
使用双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征,得到所述匹配矩阵。
3.根据权利要求2所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,所述位置编码以正弦格式给定每个像素的位置信息。
4.根据权利要求2所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,所述Transformer为线性多注意力Transformer。
5.根据权利要求1所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,得到所述残差光流的方法包括:
同时对所述当前光流和所述匹配矩阵进行卷积计算,再将卷积计算后的结果与所述第一稠密特征图叠加得到卷积GRU输入数据;
对所述卷积GRU输入数据进行卷积操作,得到所述残差光流。
6.根据权利要求5所述的基于多注意力机制的动态图像的光流图生成方法,其特征在于,得到所述光流图的方法包括:
使用所述残差光流补偿所述当前光流,得到当前光流的下一迭代光流;
对所述下一迭代光流进行迭代处理,得到最终光流;
使用归一化卷积上采样操作对所述最终光流进行恢复,得到所述光流图。
7.基于多注意力机制的动态图像的光流图生成系统,其特征在于,包括:特征提取模块、特征匹配模块和光流更新模块;
所述特征提取模块用于从第一输入图像中提取得到第一稠密特征图,以及从第二输入图像中提取得到第二稠密特征图,所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像;
所述特征匹配模块用于对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理,得到匹配矩阵;
所述光流更新模块用于基于初始光流和所述匹配矩阵,得到当前光流和残差光流,根据所述第一稠密特征图、所述残差光流和所述当前光流,得到光流图,所述光流图用于动态图像中物体运动趋势的预测;
所述特征匹配模块包括:展平编码单元、多注意力Transformer单元和可微匹配单元;
所述展平编码单元用于将所述第一稠密特征图展平为一维向量并添加对应的位置编码,得到第一输入图像一维特征,以及将所述第二稠密特征图展平为一维向量并添加对应的位置编码,得到第二输入图像一维特征;
所述多注意力Transformer单元用于对所述第一输入图像一维特征进行处理,得到第一图像Transformer特征,以及对所述第二输入图像一维特征进行处理,得到第二图像Transformer特征,所述多注意力Transformer单元采用线性多注意力Transformer;
所述可微匹配单元用于通过双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征,得到所述匹配矩阵;
所述特征提取模块包括残差网络;
所述残差网络用于对所述第一输入图像和所述第二输入图像进行映射处理,具体的,分别将所述第一输入图像和所述第二输入图像映射到分辨率为原始输入图像1/8的稠密特征图,分别得到所述第一稠密特征图和所述第二稠密特征图。
CN202110850016.1A 2021-07-27 2021-07-27 基于多注意力机制的动态图像的光流图生成方法和系统 Active CN113554039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110850016.1A CN113554039B (zh) 2021-07-27 2021-07-27 基于多注意力机制的动态图像的光流图生成方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110850016.1A CN113554039B (zh) 2021-07-27 2021-07-27 基于多注意力机制的动态图像的光流图生成方法和系统

Publications (2)

Publication Number Publication Date
CN113554039A CN113554039A (zh) 2021-10-26
CN113554039B true CN113554039B (zh) 2022-02-22

Family

ID=78132981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110850016.1A Active CN113554039B (zh) 2021-07-27 2021-07-27 基于多注意力机制的动态图像的光流图生成方法和系统

Country Status (1)

Country Link
CN (1) CN113554039B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114677412B (zh) * 2022-03-18 2023-05-12 苏州大学 一种光流估计的方法、装置以及设备
CN116486107B (zh) * 2023-06-21 2023-09-05 南昌航空大学 一种光流计算方法、系统、设备及介质
CN117237856B (zh) * 2023-11-13 2024-03-01 腾讯科技(深圳)有限公司 图像识别方法、装置、计算机设备、存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462183A (zh) * 2020-03-31 2020-07-28 山东大学 一种基于注意力机制双流网络的行为识别方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104143195B (zh) * 2014-07-04 2017-04-05 华南理工大学 一种手势跟踪过程中手形变化导致跟踪偏移的修正方法
CA3213179A1 (en) * 2017-08-09 2019-02-14 Allen Institute Systems, devices, and methods for image processing to generate an image having predictive tagging
CN110176023B (zh) * 2019-04-29 2023-06-02 同济大学 一种基于金字塔结构的光流估计方法
CN111340844B (zh) * 2020-02-24 2023-05-02 南昌航空大学 基于自注意力机制的多尺度特征光流学习计算方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111462183A (zh) * 2020-03-31 2020-07-28 山东大学 一种基于注意力机制双流网络的行为识别方法及系统

Also Published As

Publication number Publication date
CN113554039A (zh) 2021-10-26

Similar Documents

Publication Publication Date Title
CN113554039B (zh) 基于多注意力机制的动态图像的光流图生成方法和系统
Rist et al. Semantic scene completion using local deep implicit functions on lidar data
CN111862126A (zh) 深度学习与几何算法结合的非合作目标相对位姿估计方法
CN111462324B (zh) 一种在线时空语义融合方法和系统
CN113283525B (zh) 一种基于深度学习的图像匹配方法
CN114463511A (zh) 一种基于Transformer解码器的3D人体模型重建方法
US11544898B2 (en) Method, computer device and storage medium for real-time urban scene reconstruction
CN116758130A (zh) 一种基于多路径特征提取和多尺度特征融合的单目深度预测方法
CN116258757A (zh) 一种基于多尺度交叉注意力的单目图像深度估计方法
JP2024507727A (ja) 潜在変数で条件付けた幾何学的形状認識ニューラルネットワークを使用した、シーンの新規画像のレンダリング
CN113284251A (zh) 一种自适应视角的级联网络三维重建方法及系统
CN114298946B (zh) 一种框架细节增强的深度学习点云补全方法
CN113610087A (zh) 一种基于先验超分辨率的图像小目标检测方法及存储介质
CN116309705A (zh) 一种基于特征交互的卫星视频单目标跟踪方法及系统
CN115049794A (zh) 通过深度补全生成稠密的全局点云图方法及系统
Jia et al. Depth measurement based on a convolutional neural network and structured light
CN111539288B (zh) 一种双手姿势的实时检测方法
CN116486155A (zh) 基于Transformer和级联特征的目标检测方法
Li et al. Monocular 3-D Object Detection Based on Depth-Guided Local Convolution for Smart Payment in D2D Systems
CN116229394A (zh) 一种自动驾驶图像识别方法、装置及识别设备
CN115330935A (zh) 一种基于深度学习的三维重建方法及系统
CN113538527B (zh) 一种高效轻量级光流估计方法、存储介质及装置
Ren et al. T-UNet: A novel TC-based point cloud super-resolution model for mechanical lidar
Zhao et al. Panoramic Image Position Optimization Based on Point Cloud
CN116310178A (zh) 基于注意力机制的第一视角认知编码地图构建与定位方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant