CN111340844A

CN111340844A - 基于自注意力机制的多尺度特征光流学习计算方法

Info

Publication number: CN111340844A
Application number: CN202010110918.7A
Authority: CN
Inventors: 张聪炫; 周仲凯; 陈震; 黎明; 江少锋
Original assignee: Nanchang Hangkong University
Current assignee: Nanchang Hangkong University
Priority date: 2020-02-24
Filing date: 2020-02-24
Publication date: 2020-06-26
Anticipated expiration: 2040-02-24
Also published as: CN111340844B

Abstract

本发明公开了一种基于自注意力机制的多尺度特征光流学习计算方法，首先选择输入图像序列中的任意连续两帧图像，对选择的上述两帧图像进行金字塔特征提取，并求解序列初始光流场。其次对初始光流场和其对应特征进行特征融合，通过叠加融合特征与其对应的金字塔每层特征，并利用自注意力机制分别捕捉注意力依赖关系；进行通道层面的叠加后，进行特征提取计算求解残差光流场；从而进一步提高模型在大位移运动状态下图像边界或运动边缘处的光流计算精度。改善了图像序列光流计算中因大位移运动产生的边界模糊现象，对于复杂场景和大位移图像序列具有更高的计算精度和更好的适用性。

Description

基于自注意力机制的多尺度特征光流学习计算方法

技术领域

本发明涉及图像序列光流计算技术，特别涉及到一种基于自注意力机制的多尺度特征光流学习计算方法。

背景技术

光流是运动物体或场景表面像素点在投影平面的二维瞬时速度，其不仅包含了图像中运动目标与场景的运动参数，更携带了目标与场景的结构信息。研究光流计算的目的就是从图像序列中恢复目标物体与场景的运动和结构信息，进而应用于更高级的视觉任务。近年来，随着深度学习理论与技术的快速发展，卷积神经网络模型被广泛应用于光流计算技术研究，由于该类方法具有计算速度快、稳定性高等显著优点，因此逐渐成为光流计算研究领域的热点，研究成果被广泛应用于无人机实时导航与避障、车辆前景检测与辅助驾驶、运动目标跟踪与识别以及视频压缩与传输等对光流计算实时性要求较高的领域。

目前，基于特征金字塔的卷积神经网络模型是序列光流计算技术中常采用的一类方法，该类方法能够在一定程度上提升模型在大位移运动下的精度。但由于金字塔中每一层的特征并没有直接对输出光流场形成贡献，从而使输出光流场缺少多尺度信息，导致在运动边界处产生模糊。

发明内容

本发明的目的是提供一种基于自注意力机制的多尺度特征光流学习计算方法，解决基于特征金字塔的卷积神经网络模型图像在大位移运动下的运动边界模糊的技术问题。

为了解决上述技术问题，本发明采取以下技术方案。基于自注意力机制的多尺度特征光流学习计算方法，其步骤如下：

1)选择输入图像序列中的任意连续两帧图像；

2)对选择的上述两帧图像进行K层金字塔特征提取，并求解序列初始光流场；

3)利用3×3卷积操作对初始光流场和其对应特征进行特征融合，并对融合特征进行下采样，以匹配特征金字塔每一层中光流特征的尺寸；

4)通过叠加融合特征与其对应的金字塔每层特征，形成K-2个多尺度融合特征，并利用自注意力机制分别捕捉K-2个多尺度融合特征的注意力依赖关系；

5)分别对K-2个多尺度下的注意力依赖关系进行上采样至相同分辨率，进行通道层面的叠加后，进行特征提取计算求解残差光流场；

6)累和所求得的残差光流场与初始光流场求得最终细化光流场，从而进一步提高模型在大位移运动状态下图像边界或运动边缘处的光流计算精度。

进一步,所述步骤2)中金字塔特征层数为K，且1≤K。

进一步,所述步骤4)中自注意力机制的原理如下：

令

表示多尺度融合特征之一，其中符号C、H与W分别表示特征通道、长以及宽的尺寸；利用1×1标准卷积分别对多尺度融合特征进行三次特征提取，求得特征变量

以及

通过特征变量α和β求得注意力能量，计算公式如下：

式(1)中：

表示矩阵乘法操作；进一步对注意力能量进行归一化，计算公式如下：

式(2)中，给定规范化注意力能量矩阵

每一行元素表示其中一个像素点与整张特征图之间的联系；通过规范化注意力能量矩阵

以及特征变量η，求得注意力依赖特征Y，计算公式如下：

为使训练初期的注意力依赖特征Y更容易地从局部拓展到全局范围，采用残差连接对输入多尺度融合特征X与输出注意力依赖特征Y进行连接，求得全局范围的注意力依赖关系

计算公式如下：

式(4)中：λ为网络训练过程中的自适应学习参数。

本发明方法采用自注意力机制捕捉了特征金字塔中的多尺度信息，改善了图像序列光流计算中因大位移运动产生的边界模糊现象，对于复杂场景和大位移图像序列具有更高的计算精度和更好的适用性。

附图说明

图1a和图1b是Temple3图像序列连续两帧图像(其中：图1a是第一帧图像，图1b是第二帧图像)；

图2是本发明利用金字塔特征提取、变形和构建匹配代价光流估计模型求解得到的序列初始光流场图像；

图3是本发明利用基于自注意力机制的多尺度特征光流学习计算方法求解得到的序列残差光流场图像；

图4是本发明对序列残差光流场与初始光流场进行累加求得的最终细化光流场图像；

图5是本发明中基于自注意力机制的多尺度特征光流学习计算模块图。

具体实施方式

以下结合附图和实施例对本发明作进一步说明。参见图1a至图5，基于自注意力机制的多尺度特征光流学习计算方法，使用Temple3图像序列光流计算实验进行说明：

1)输入图1a和图1b是Temple3图像序列连续两帧图像；其中：图1a是第一帧图像，图1b是第二帧图像，对应分辨率为448×512；

2)对选择的该两帧图像进行K＝6层金字塔特征提取，并求解序列初始光流场，初始光流场如图2所示；

4)通过叠加融合特征与其对应的金字塔每层特征，形成4个多尺度融合特征，并利用自注意力机制分别捕捉4个多尺度融合特征的注意力依赖关系，其中：4个多尺度融合特征的分辨率分别为224×256、112×128、56×64、28×32，自注意力机制的原理如下：

令

以及

通过特征变量α和β求得注意力能量，计算公式如下：

式(1)中：

式(2)中，给定规范化注意力能量矩阵

以及特征变量η，求得注意力依赖特征Y，计算公式如下：

计算公式如下：

式(4)中：λ为网络训练过程中的自适应学习参数。

5)分别对4个多尺度下的注意力依赖关系进行上采样至相同分辨率224×256，进行通道层面的叠加后，进行特征提取计算求解残差光流场，残差光流场如图3所示；

6)累和所求得的残差光流场与初始光流场求得最终细化光流场，从而进一步提高模型在大位移运动状态下图像边界或运动边缘处的光流计算精度，最终细化光流场如图4所示。

上述过程如图5所示。根据图4中光流计算结果可以看出，本发明方法克服了图像序列光流计算结果中由大位移运动产生的运动边缘模糊问题，对于复杂场景和复杂边缘图像序列具有更高的计算精度和更好的适用性，例如，在人体异常行为识别的研究中，现有的基于深度学习的人体异常行为识别方法为了追求更好的识别性能往往采用“双流”的模型架构,该架构将网络模型输入分为空间特征流和时域流,空间流采用RGB图像作为输入,时域流采用预先提取的光流作为输入。但是由于光流本身很容易受到大位移运动的影响，导致运动目标整体或边缘出现模糊现象,使得“双流”架构的实用性受到了很大的限制。本发明方法提出的自注意力机制的多尺度特征光流学习模型，计算生成的光流场中运动目标整体或边缘清晰，作为双流架构中时域流的输入，可有效提升行为识别估计的有效性。