CN113554039B

CN113554039B - 基于多注意力机制的动态图像的光流图生成方法和系统

Info

Publication number: CN113554039B
Application number: CN202110850016.1A
Authority: CN
Inventors: 刘文印; 方桂标; 陈俊洪; 梁达勇
Original assignee: Guangdong University of Technology
Current assignee: Guangdong University of Technology
Priority date: 2021-07-27
Filing date: 2021-07-27
Publication date: 2022-02-22
Anticipated expiration: 2041-07-27
Also published as: CN113554039A

Abstract

本申请公开了基于多注意力机制的动态图像的光流图生成方法和系统，本方法包括分别获取两幅连续图像的稠密特征图F₁、F₂，对F₁、F₂进行特征处理得到匹配矩阵，基于F₁、初始光流和匹配矩阵得到残差光流，再结合当前光流得到最终的光流图。本系统包括特征提取模块、特征匹配模块和光流更新模块；特征提取模块用于得到稠密特征图；特征匹配模块用于对稠密特征图进行特征匹配处理，得到匹配矩阵；光流更新模块用于根据F₁、初始光流、匹配矩阵得到残差光流，再结合当前光流得到光流图。本申请有效降低了因分辨率低导致遗漏小物体信息的错误，有效识别并处理快速移动的小物体，确保实时预测与识别，提高了匹配精度，增强了模型的泛化能力。

Description

基于多注意力机制的动态图像的光流图生成方法和系统

技术领域

本申请属于动态图像处理领域，具体涉及基于多注意力机制的动态图像的光流图生成方法。

背景技术

光流在移动机器人中有广泛应用，例如，光流估计是现实环境中移动机器人实现避障的重要步骤。移动机器人首先获取障碍物的光流，再根据光流中的运动信息调整行驶策略，从而实现准确避障。传统方法通过超声波测距仪、激光雷达、红外传感器等传感器获取环境中障碍物的距离和分布信息，从而实现避障。虽然传统方法已经取得了很大进展，但是这些测距避障方式存在避障死角。而基于光流进行避障可有效规避避障死角，避障的可靠性更高，并且这种方法非常接近人类的视觉认知行为，对视觉信息采集设备要求较低。机器人在弱纹理、遮挡等复杂环境中作业时如何进行实时光流估计是移动机器人避障领域研究的重要课题。

光流是运动物体或场景表面像素点在投影平面的二维瞬时速度，因此图像序列对应的光流不仅携带其中运动目标与场景的运动信息，更包含了其结构信息。移动机器人执行避障任务要求光流预测系统具备实时性、适应能力以及模型泛化能力。而在实际作业场景中，弱纹理、物体遮挡和光线不足等是阻碍移动机器人获取准确光流的棘手问题。因而结合局部信息和全局信息对于获取更准确的光流信息具有重要意义。

现有技术普遍采用由粗到细的设计，也就是先用低分辨率估算光流，再用高分辨率采样调整，这种方式很可能会遗漏快速移动的小物体的信息；现有技术的网络结构普遍过于复杂，特别是在特征提取和匹配方面需要多重分支结构和金字塔结构，使得模型训练和测试时间过长；现有技术普遍采用构建匹配成本量作为特征匹配模块，这种方法的匹配精度不高，限制了后续光流估计的结果。

发明内容

本申请提出了基于多注意力机制的动态图像的光流图生成方法，提取前后连续的两幅原始图像中的每个像素的特征，使用多注意力Transformer进行处理，得到匹配矩阵，再通过对原始图像卷积处理，引入当前光流、残差光流概念，与匹配矩阵结合，得到最终的光流图，克服传统方式中容易遗漏细节信息、结构复杂且精度低的缺陷。

为实现上述目的，本申请提供了如下方案：

基于多注意力机制的动态图像的光流图生成方法，包括如下步骤：

提取第一输入图像中每个像素的特性，得到第一稠密特征图，提取第二输入图像中每个像素的特性，得到第二稠密特征图，所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像；

使用多注意力Transformer对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理，得到匹配矩阵；

设定初始光流为0，按照预定迭代次数对所述初始光流进行迭代处理，得到当前光流；基于所述当前光流和所述匹配矩阵，得到残差光流；

对所述残差光流和所述当前光流进行卷积处理，得到光流图，所述光流图用于动态图像中物体运动趋势的预测。

优选的，得到所述第一稠密特征图和所述第二稠密特征图的方法包括：

使用残差网络对所述第一输入图像和所述第二输入图像分别进行映射处理，分别得到所述第一稠密特征图和所述第二稠密特征图。

优选的，得到所述匹配矩阵的方法包括：

将所述第一稠密特征图展平为一维向量并添加对应的位置编码，得到第一输入图像一维特征；

将所述第二稠密特征图展平为一维向量并添加对应的位置编码，得到第二输入图像一维特征；

使用所述多注意力Transformer对所述第一输入图像一维特征进行处理，得到第一图像Transformer特征；

使用所述多注意力Transformer对所述第二输入图像一维特征进行处理，得到第二图像Transformer特征；

使用双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征，得到所述匹配矩阵。

优选的，所述位置编码以正弦格式给定每个像素的位置信息。

优选的，所述Transformer为线性多注意力Transformer。

优选的，得到所述残差光流的方法包括：

同时对所述当前光流和所述匹配矩阵进行卷积计算，再将卷积计算后的结果与所述第一稠密特征图叠加得到卷积GRU输入数据；

对所述卷积GRU输入数据进行卷积操作，得到所述残差光流。

优选的，得到所述光流图的方法包括：

使用所述残差光流补偿所述当前光流，得到当前光流的下一迭代光流；

对所述下一迭代光流进行迭代处理，得到最终光流；

使用归一化卷积上采样操作对所述最终光流进行恢复，得到所述光流图。

本申请还公开了基于多注意力机制的动态图像的光流图生成系统，包括：特征提取模块、特征匹配模块和光流更新模块；

所述特征提取模块用于从第一输入图像中提取得到第一稠密特征图，以及从第二输入图像中提取得到第二稠密特征图，所述第一输入图像和所述第二输入图像是动态图像中前后连续的两幅图像；

所述特征匹配模块用于对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理，得到匹配矩阵；

所述光流更新模块用于基于初始光流和所述匹配矩阵，得到当前光流和残差光流，根据所述第一稠密特征图、所述残差光流和所述当前光流，得到光流图，所述光流图用于动态图像中物体运动趋势的预测。

优选的，所述特征提取模块包括残差网络；

所述残差网络用于对所述第一输入图像和所述第二输入图像进行映射处理，分别得到所述第一稠密特征图和所述第二稠密特征图。

优选的，所述特征匹配模块包括：展平编码单元、多注意力Transformer单元和可微匹配单元；

所述展平编码单元用于将所述第一稠密特征图展平为一维向量并添加对应的位置编码，得到第一输入图像一维特征，以及将所述第二稠密特征图展平为一维向量并添加对应的位置编码，得到第二输入图像一维特征；

所述多注意力Transformer单元用于对所述第一输入图像一维特征进行处理，得到第一图像Transformer特征，以及对所述第二输入图像一维特征进行处理，得到第二图像Transformer特征；

所述可微匹配单元用于通过双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征，得到所述匹配矩阵。

本申请的有益效果为：

本申请公开了基于多注意力机制的动态图像的光流图生成方法和系统，针对动态图像中前后连续的两幅原始图像，提取图像中每个像素的特征，以高分辨率迭代更新光流，有效改善现有技术中因分辨率低导致遗漏小物体问题，能够有效识别并处理快速移动的小物体；提高了动态图像中物体运动趋势预测的准确度；使用残差网络和多注意力Transformer来进行特征提取与匹配，确保了光流实时预测与识别；使用自注意力和交叉注意力机制的Transformer来对特征进行匹配，实现局部信息与全局信息的结合，提高了匹配精度；本申请提高了光流图估计的效率、准确性和鲁棒性，增强了模型的泛化能力，即使处于极端环境也能实现光流图估计。

附图说明

为了更清楚地说明本申请的技术方案，下面对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例基于多注意力机制的动态图像的光流图生成方法流程示意图；

图2为本申请实施例基于多注意力机制的动态图像的光流图生成系统结构示意图；

图3为本申请实施例中特征提取模块中残差网络的参数示意图；

图4为本申请实施例引用的现有Transformer理论的处理流程示意图；

图5为本申请实施例中残差光流生成流程示意图及参数设定。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

为使本申请的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本申请作进一步详细的说明。

如图1所示，为本申请基于多注意力机制的动态图像的光流图生成方法流程示意图，本实施例以无人驾驶车辆自动导航过程中，通过视频捕获设备获取动态图像后，对动态图像进行处理生成光流图为例展开说明，具体包括如下步骤：

S102.通过自动导航系统的视频捕获设备获取动态图像后，任意选取前后连续的两幅原始图像，分别标记I₁、I₂，图像中包含了诸如人物、车辆、及其他相对于无人驾驶车辆的运动物体。使用残差网络分别提取出I₁、I₂中每个像素的特征，具体为：分别将I₁和I₂映射到分辨率为原始输入图像1/8的稠密特征图，得到第一稠密特征图F₁和第二稠密特征图F₂。

S104.将第一稠密特征图F₁和第二稠密特征图F₂展平为一维向量，并分别添加对应的位置编码，得到第一输入图像一维特征和第二输入图像一维特征，其中，位置编码以正弦格式给定每个像素的位置信息；再使用线性多注意力Transformer分别对第一输入图像一维特征和第二输入图像一维特征进行特征处理，得到第一图像Transformer特征F₁’和第二图像Transformer特征F₂’，最后使用双softmax算子匹配第一图像Transformer特征和第二图像Transformer特征，得到匹配矩阵P。

S106.从初始光流f₀＝0开始，迭代m次后得到光流序列{f₁,...,f_m}，在第k次迭代中，将当前光流f_k和匹配矩阵P分别通过卷积操作映射为相同尺寸后，再与第一稠密特征图F₁叠加组成卷积GRU的输入，卷积GRU的输出再经过卷积操作得到残差光流Δf，其分辨率为原来的1/8。

S108.使用残差光流Δf补偿当前光流f_k，即f_k+1＝f_k+Δf，再通过归一化卷积上采样操作将最终光流f_m的分辨率恢复到原始大小得到光流f，即为最终的光流图，该光流图中显示了基于I₁、I₂两幅图像的各种物体的运动趋势，包括各种人物、车辆、及其他相对于无人驾驶车辆的运动物体的速度大小、方向、轮廓等，从而为自动导航系统提供了周边环境中各种物体的运动趋势，为下一步导航控制提供了参照数据。

本申请还公开了基于多注意力机制的动态图像的光流图生成系统，其结构如图2所示，包括：特征提取模块、特征匹配模块和光流更新模块。

其中，特征提取模块包括残差网络，用于提取两幅原始图像I₁、I₂的每个像素的特征，I₁、I₂均来自于视频捕获设备获取的动态图像，且是该动态图像中前后连续的两幅，I₁、I₂中均包含了诸如人物、车辆、及其他相对于无人驾驶车辆的运动物体。通过残差网络，分别将I₁和I₂映射到分辨率为原始输入图像1/8的稠密特征图，得到第一稠密特征图F₁和第二稠密特征图F₂。残差网络由2个卷积层和6个残差单元组成，1/2、1/4和1/8分辨率中各有2个残差单元，具体参数如图3所示。

残差网络具有翻译等值性和局部性，适合于特征提取。经过特征提取模块后，残差网络引入的下采样减少了Transformer模块的输入长度，这是保证计算成本处于可承受范围的关键。

特征匹配模块用于对第一稠密特征图F₁和第二稠密特征图F₂进行特征匹配处理，得到匹配矩阵；具体分为：展平编码单元、多注意力Transformer单元和可微匹配单元；

展平编码单元用于将第一稠密特征图F₁和第二稠密特征图F₂分别展平为一维向量并添加对应的位置编码，得到对应的第一输入图像一维特征和第二输入图像一维特征，其中，位置编码以正弦格式给定每个元素的位置信息。将位置编码添加到像素特征，变换后特征具有位置依赖性，这对于模糊区域的匹配能力很重要。

多注意力Transformer单元用于对第一输入图像一维特征和第二输入图像一维特征进行处理，分别得到第一图像Transformer特征F₁’，以及第二图像Transformer特征F₂’。Transformer现有理论的处理流程如图4所示。在本实施例中，多注意力Transformer单元采用线性多注意力Transformer，其中包含了N个交错分布的自注意力层和交叉注意力层。线性Transformer将普通Transformer中注意力层的相似度函数替换为sim(Q,K)＝φ(Q)·φ(K)^T，其中φ(·)＝elu(·)+1，elu(·)为指数线性单元激活函数，Q、K和V分别为注意力层输入中的查询向量、键向量和值向量，上标T表示矩阵转置，而W_Q、W_K和W_V分别为查询权重矩阵、键权重矩阵和值权重矩阵，这三个矩阵均由网络学习得到的。其中，对于自注意力层，输入特征g_i和g_j是一样的(全为F₁或全为F₂)。对于交叉注意力层，输入特征g_i和g_j为F₁和F₂或F₂和F₁。线性Transformer将普通Transformer中的点积注意力替换为线性注意力，使得计算复杂度从O(n²)降低到O(n)，其中n为Transformer输入向量的长度。多注意力Transformer提取位置和上下文相关的局部特征，从而将特征变换为易于匹配的特征表示。

可微匹配单元使用双softmax算子来匹配变换后特征F₁’和F₂’，最终得到匹配矩阵P。双softmax算子的运算过程如下：首先通过

计算得到变换后特征的得分矩阵S，然后再通过P(i,j)＝softmax(S(i,·))_j·softmax(S(·,j))_i计算得到匹配矩阵P，上述的i和j分别表示矩阵的i行和第j列，||·||₂为欧几里德范数，而softmax为归一化指数函数。

设定初始光流f₀＝0，光流更新模块从初始光流f₀＝0开始迭代m次得到光流序列{f₁,...,f_m}，在第k次迭代中，将当前光流f_k和匹配矩阵P分别通过卷积操作映射为相同尺寸后，再与原始图像I₁的第一稠密特征图F₁叠加组成卷积GRU的输入，卷积GRU的输出再经过卷积操作得到残差光流Δf，其分辨率为原来的1/8，具体参数如图5所示。具体来说：首先将初始光流f₀设为0，然后通过原始图像I₂中以当前像素点施加当前光流f_k的位移后的点为中心的9×9领域内索引匹配矩阵P的匹配结果，通过迭代上述操作后便可使匹配范围进一步扩大，进而通过卷积GRU得到残差光流Δf。用残差光流Δf来补偿当前光流f_k，即f_k+1＝f_k+Δf，最后通过归一化卷积上采样操作将最终光流f_m的分辨率恢复到原始大小得到光流f，即最终的光流图，该光流图中展示了基于I₁、I₂两幅图像的各种物体的运动趋势，包括各种人物、车辆、及其他相对于无人驾驶车辆的运动物体的速度大小、方向、轮廓等，从而为自动导航系统提供了周边环境中各种物体的运动趋势，为下一步导航控制提供了参照数据。

卷积GRU将普通GRU的全连接层用卷积代替。相较于普通GRU，卷积GRU计算量更少更容易收敛。归一化卷积上采样是一种联合上采样方法，首先用前向映射从低分辨率图像构建出稀疏高分辨率网格图，以低分辨率图像和其他辅助数据为输入的权值估计网络生成低分辨率图像的像素级权值，然后使用前向映射以类似的方式将权重映射到高分辨率网格，接着由级联的归一化卷积层构成的插值网络接收高分辨率网格图和权重，并生成高分辨率图像。相较于双线性上采样，归一化卷积上采样的参数更少，且对于运动边界的恢复效果更好。

以上所述的实施例仅是对本申请优选方式进行的描述，并非对本申请的范围进行限定，在不脱离本申请设计精神的前提下，本领域普通技术人员对本申请的技术方案做出的各种变形和改进，均应落入本申请权利要求书确定的保护范围内。

Claims

1.基于多注意力机制的动态图像的光流图生成方法，其特征在于，包括如下步骤：

使用多注意力Transformer对所述第一稠密特征图和所述第二稠密特征图进行特征匹配处理，得到匹配矩阵，所述多注意力Transformer包含自注意力层和交叉注意力层；

对所述残差光流和所述当前光流进行卷积处理，得到光流图，所述光流图用于动态图像中物体运动趋势的预测；

得到所述第一稠密特征图和所述第二稠密特征图的方法包括：

使用残差网络对所述第一输入图像和所述第二输入图像分别进行映射处理，具体的，分别将所述第一输入图像和所述第二输入图像映射到分辨率为原始输入图像1/8的稠密特征图，分别得到所述第一稠密特征图和所述第二稠密特征图。

2.根据权利要求1所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，得到所述匹配矩阵的方法包括：

3.根据权利要求2所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，所述位置编码以正弦格式给定每个像素的位置信息。

4.根据权利要求2所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，所述Transformer为线性多注意力Transformer。

5.根据权利要求1所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，得到所述残差光流的方法包括：

对所述卷积GRU输入数据进行卷积操作，得到所述残差光流。

6.根据权利要求5所述的基于多注意力机制的动态图像的光流图生成方法，其特征在于，得到所述光流图的方法包括：

对所述下一迭代光流进行迭代处理，得到最终光流；

7.基于多注意力机制的动态图像的光流图生成系统，其特征在于，包括：特征提取模块、特征匹配模块和光流更新模块；

所述光流更新模块用于基于初始光流和所述匹配矩阵，得到当前光流和残差光流，根据所述第一稠密特征图、所述残差光流和所述当前光流，得到光流图，所述光流图用于动态图像中物体运动趋势的预测；

所述特征匹配模块包括：展平编码单元、多注意力Transformer单元和可微匹配单元；

所述多注意力Transformer单元用于对所述第一输入图像一维特征进行处理，得到第一图像Transformer特征，以及对所述第二输入图像一维特征进行处理，得到第二图像Transformer特征，所述多注意力Transformer单元采用线性多注意力Transformer；

所述可微匹配单元用于通过双softmax算子匹配所述第一图像Transformer特征和所述第二图像Transformer特征，得到所述匹配矩阵；

所述特征提取模块包括残差网络；

所述残差网络用于对所述第一输入图像和所述第二输入图像进行映射处理，具体的，分别将所述第一输入图像和所述第二输入图像映射到分辨率为原始输入图像1/8的稠密特征图，分别得到所述第一稠密特征图和所述第二稠密特征图。