CN113920581B

CN113920581B - 一种时空卷积注意力网络用于视频中动作识别的方法

Info

Publication number: CN113920581B
Application number: CN202111148345.8A
Authority: CN
Inventors: 陈翰; 罗会兰
Original assignee: Jiangxi University of Science and Technology
Current assignee: Jiangxi University of Science and Technology
Priority date: 2021-09-29
Filing date: 2021-09-29
Publication date: 2024-04-02
Anticipated expiration: 2041-09-29
Also published as: CN113920581A

Abstract

本发明公开了一种时空卷积注意力网络用于视频中动作识别的方法。具体方法如下：首先，为了获取高级的空间语义特征时序语义特征，本发明设计了两个独立分支网络——空间卷积注意力网络和时序卷积注意力网络。其中，空间卷积注意力网络用于处理视频的RGB信号，使用自注意力方法捕捉视频空间维度的表观特征联系，用一维卷积提取动态信息。时序卷积注意力网络处理视频的光流信号，通过自注意力方法来获取时序维度上帧级特征间的关联信息，用2D卷积学习空间特征。最后，将两个分支网络的输出结果集成计算作为时空卷积注意力网络的识别性能。在UCF101和HMDB51数据集上的实验结果表明本发明算法具有较高的平均准确率。

Description

一种时空卷积注意力网络用于视频中动作识别的方法

技术领域

本发明属于计算机视觉领域，涉及对视频数据特征提取模型的改进、视频分类与仿真实现。

背景技术

近年来，人体动作行为识别在计算机视觉领域已经发展为一项研究的热点。该项研究在人机交互、智能监控、视频检索等多个领域都具有十分重要的应用价值。人体动作行为识别的研究目的是，让计算机能够像人一样智能识别出视频中人体正在进行的动作类型。然而，视频动作一般具有环境复杂，视角多变和动作差异性大等多项特点，所以从视频中提取有效的动态特征和外观特征是非常具有挑战性的。

目前基于深度学习的视频中动作识别算法主要是基于2D卷积神经网络和基于3D卷积神经网络两种。2D卷积神经网络能够有效地学习空间特征，但无法捕获时间特征。3D卷积神经网络可以联合学习时空特征，但是由于其参数量较大，导致训练困难且计算成本较高。为此，本文发明了将2D卷积神经网络与自注意力方法结合的神经网络，该网络可以从空间和时序两个维度分别来增强视频的语义信息，以此来提升网络的识别效果。其具体方法如下：首先，为了使用不同的自注意方法增强空间和时序两个维度上的全局信息，本发明设计了两个模块：空间卷积自注意模块和时序卷积自注意模块。接着在50层的残差网络的基础上，将空间卷积自注意模块和时序卷积自注意模块插入到残差网络的第五层后面，用于增强高级特征图的空间特征和时序特征。最后，将两个模块输出的空间特征和时序特征分别输入到各自的分类层中得到相应的分类结果，再通过融合计算将两种分类结果进行融合得到最终的识别准确率。

发明内容

1.发明目的：

本发明的目的是提出一种时空卷积注意力网络用于视频中动作识别的方法。

2.技术方案：

本发明提出一种时空卷积注意力网络用于视频中动作识别的方法。改方法分别通过本发明设计的空间卷积注意力模块和时序卷积注意力模块来计算两种视频数据信号获得最终的动作识别分类。其中空间卷积注意力模块处理RGB信号特征，时序卷积注意力模块处理由TVL1算法计算得到的光流特征。首先，本方法对原始的视频数据进行预处理，使用稀疏取帧的方式对两种信号输入进行采样得到神经网络的输入对象——RGB帧序列和堆叠的光流帧序列。接着使用残差网络ResNet-50前五层卷积层作为基础网络，再使用ResNet-50前五层卷积层对两种输入信号进行特征提取，得到RGB特征图和光流特征图。接着，将空间特征图输入到空间卷积注意力模块中，空间卷积自注意模块具有两个分支，其中一个分支利用横向和纵向的一维卷积滤波器，获得具有不同方向的局部空间特征的特征图，然后采用自注意力机制实现空间特征增强。另外一个分支采用一维度的时序卷积层对RGB特征图进行时序维度的动态信息提取，最终将增强后的空间特征和时序信息进行相加，得到输出特征。同样，将光流特征图输入到时序卷积注意力模块内，该模块同样具备两种不同的分支，其中注意力分支采用不同扩张率的时序卷积提取了多种具有不同时序感受野的动态特征视图，然后通过自注意力实现动态特征增强。丰富了模型的动态特征表示能力，空间卷积分支使用2D的空间卷积层对光流特征图进行空间特征的加强提取，接着将两种分支的结果相加。最终使用平均池化方法对将两个模块的输出特征进行下采样处理，处理后的结果输入到网络尾部的分类层中得到不同类别的识别概率分数。模型对两种不同分支网络的识别概率分数进行平均计算得到识别结果。

本发明所述的一种时空卷积注意力网络用于视频中动作识别的方法，包括以下步骤：

步骤(1)：使用TVL1算法对原视频数据进行处理，得到光流信号图像。接着，使用稀疏采用的方式对视频的RGB帧和光流图进行帧采样。首先，将视频分割为T个等长的片段，接着从RGB帧中的每一个片段中随机抽取一张帧，从光流图中的每一个片段中随机抽取5张帧；

步骤(2)：将步骤(1)得到的帧序列和堆叠的光流图分别输入到空间卷积注意力网络和时序卷积注意力网络中，帧序列和堆叠的光流图经过两种残差网络骨干处理得到特征图F₁和F₂。

步骤(3)：将步骤(2)中得到的特征图F₁输入到空间卷积注意力模块，空间卷积注意力模块由两条分支组成，分别学习特征图F₁的空间全局信息和时序局域信息。其中一个分支利用横向和纵向的一维卷积滤波器，获得具有不同方向的局部空间特征的特征图，然后采用自注意力机制实现空间特征增强。另外一个分支采用一维度的时序卷积层对RGB特征图进行时序维度的动态信息提取，最终将两条分支获得的特征相加融合，得到增强后的空间语义信息特征图。

步骤(4)：将步骤(2)中得到的特征图F₂输入到时序卷积注意力模块中，特征图F₂分别经过两条分支——时序自注意层和空间卷积层。其中时序自注意层用采用不同扩张率的时序卷积提取了多种具有不同时序感受野的动态特征视图，然后通过自注意力实现动态特征增强。而空间卷积层采用2D卷积捕捉特征图F₂的空间局域信息。最终将两种特征相加融合，得到增强后的时序语义信息特征图。

步骤(5)：分别将步骤(3)和步骤(4)得到的高级特征输入到分类层中得到分类结果。

步骤(6)：将步骤(5)中空间卷积注意力网络和时序卷积注意力网络输出的两种分类结果进行融合，得到最终的识别准确率。

3.有益效果：

本发明公开了一种时空卷积注意力网络用于视频中动作识别的方法，结合了基于自注意力和2D卷积神经网络两种方法的优点，解决了2D卷积网络不具备在全局视角上学习特征相关性的能力和自注意力忽略局部的位置特性的问题。在UCF101和HMDB51数据集上的实验结果表明本发明具有较好的识别效果。

附图说明

图1为本发明整体流程框架。

图2为本发明设计的空间卷积注意力模块结构。

图3为本发明在空间卷积注意力模块中自注意力结构图。

图4为本发明设计的时序卷积注意力模块结构。

图5为本发明在时序卷积注意力模块中自注意力结构图。

具体实施方式

下面结合附图和具体实施方式对本发明做进一步说明。一种时空卷积注意力网络用于视频中动作识别的方法：

(S1)：数据处理。

为了提取出光流信号图，本发明采用了TV-L1算法对视频数据进行处理，得到堆叠的光流图像。接着，采用了数据增强的方法对所有的视频数据进行了预处理，将视频中的每帧的大小调整为256×340，再裁剪为224×224，并对其进行水平翻转，转角裁剪和多角度裁剪。并使用稀疏采样的方法对视频的所有帧图像进行采样，采样帧数设置为8，最终得到信号类型分别为RGB和光流的8×224×224输入视频。

(S2)：设计空间卷积自注意(Spatial-temporal Convolutional Attention，SCA)模块。

为了引导模型更多关注到动作目标的特征，该模块由两个分支组成，其中第一个分支对每一帧单独进行空间卷积注意力增强，对不同帧的空间卷积注意力层使用了参数共享的方式。这种共享参数方式可以迫使空间卷积注意力学习到需要关注的同一类目标，便于后续时序特征的学习，另外参数共享也可以使得模型更加轻量化。另一分支进行时序维度的卷积，两个分支相加后得到增强后的时空特征图。在特征图通过空间注意力层时，特征图的每一帧均要经过3种不同的卷积分支进行预处理，生成查询特征(Q_s)、键特征(K_s)和值特征(Vs)，计算过程如式(1)、(2)、(3)所示。

Q_s＝x*w_k×1 (1)

K_s＝x*w_1×k (2)

V_s＝x*w_1×1 (3)

其中，w_1×k，w_k×1和w_1×1分别表示核大小为k×1，1×k和1×1的2D空间卷积滤波器，*表示卷积操作。Q_s和K_s是对输入特征分别沿着行和列方向进行滤波得到的结果，故它们的特征图中每一个特征点获得了水平方向和垂直方向的局部上下文特征。V_s用来保留源特征视图。接着，对Q_s和K_s进行压缩形变，使得原本形状为H×W×C的3维特征，变换为HW×C的2维特征。接着，将Q_s和K_s的转置进行相乘，并通过激活函数softmax激活后得到注意力信息特征图A_s，其过程如式(4)所示：

A_s＝σ(R(Q_s)×R(K_s ^T)) (4)

其中，表示激活函数，R(.)表示形变函数。As共包含了HW×HW个特征点，每一个特征点都关注到其他所有具有局部感受野的特征点，从而学习到全局的语义关系，用于生成注意力信息。不同于传统自注意模式的是，SCA通过卷积滤波扩大了自注意机制的感受野。A_s上的特征点表达的不仅是单点之间的信息，而是以单点为中心，不同方向上局域特征间的相关性，因此也能获得更多的位置信息。

然后，将得到的空间注意力图A_s与V_s相乘实现特征激励，该过程如式(5)所示：

x'＝V_s×A_s (5)

其中，表示经过SCA后的最终输出结果。接着，将所有帧的输出特征图有序连接为3D的视频级特征。

在另一个分支上，时序卷积层对整体的视频级输入特征X在时序维度上使用核大小为3的卷积核进行卷积，来获取不同时序位置上帧级特征图之间的动态信息。最终将经过空间注意力增强的特征X'与时序卷积层的输出结果相加，通过式(6)计算得到SCA模块的输出O_s。

O_s＝X'+conv_T(X) (6)

(S3)：设计时序卷积自注意(Temporal Convolutional Attention，TCA)模块。

为了增强时序特征中对动作识别重要的特征，本发明设计了时序卷积注意力模块，采用时序卷积注意力对输入特征在时序维度上进行特征增强，学习时序维度的特征关联。将特征图X分别输入到时序卷积注意力层和空间卷积层中，将两个分支的输出相加融合得到时序信息注意力增强的时空特征。

其中空间卷积分支，采用了参数共享的2维卷积对所有帧进行处理后，再将其在时序维度上串接到一起。而其中时序卷积注意力TCA层的结构如图5所示，分别使用不同的扩张率的扩张卷积对输入特征在时序维度上进行卷积核大小为3的一维卷积，通过式(7)和(8)计算得到特征视图Q_t和K_t。Q_t和K_t的每个特征点代表着不同时序感受野的动态信息。使用卷积核大小为1的一维普通卷积操作对输入特征在时序维度上进行卷积得到V_t，用于保留原特征信息，计算如式(9)所示。

K_t＝X*w_3,r2 (8)

V_t＝X*w₁ (9)

然后，使用函数对Q_t和K_t进行空间全局池化，将K_t与向量Q_t的转置进行矩阵相乘。并经过激活函数softmax激活后得到时序注意力信息特征图A_t，过程如式(10)所示：

A_t＝σ(g(Q_t)×g(K_t ^T)) (10)

假设输入视频共有T帧，则A_t的尺寸为T×T，每一个点都包含了时序维度上所有帧的全局空间信息，学习到视频帧间不同局域动态特征间的相互关系。最后，将得到的时序注意力信息特征图A_t与特征视图V_t相乘，将所获得的有助于动作识别的时序全局语义信息，为动作识别提供时序关键帧注意力指导。并且与空间卷积层的输出特征相加，通过式子(11)计算得到TCA模块的输出结果O_t。

(S4)：设计时空卷积注意力网络。

基于50层的残差网络作为骨干网络，将空间卷积自注意模块和时序卷积自注意模块插入到残差网络的第五层卷积层后面构建时空卷积注意力网络，如图1所示。时空卷积注意力网络通过残差网络对视频的空间特征进行初步提取生成特征图，接着将特征图输入到SCA模块和TCA模块中用于增强和学习视频中的空间语义信息和时序语义信息。然后，使用池化层将两个模块的输出特征进行下采样处理，并将其结果输入到各自的全连接层中得到输出结果。

(S5)：设置训练参数和损失函数

在训练过程中，本发明使用在ImageNet上预训练好的骨干网络权重，损失函数设置为交叉熵损失函数。训练的权重衰减系数设置为0.0005，动量为0.9。全连接层中dropout值为0.5，初始学习率设置为0.001。为了使得每一个分支网络都得到充分训练，本发明对双流网络的每个分支进行单独训练，空间卷积自注意网络采用RGB视频作为输入的训练数据，时序卷积自注意网络采用光流视频作为输入的训练数据。最后在测试过程中，采用平均计算的方式融合两个分支网络的分类结果。

表1比较了本发明提出的方法(以下简称STCA-Net)与其他方法在UCF101和HMDB51数据集上的识别精度。从表1的实验结果可以看出，本发明算法在两种数据集上与其他算法相比具有明显的优势。尤其与同样基于自注意力的方法相比，如：Temporal attention、压缩激励残差网络和STC-ResNet101，本发明提出的算法在UCF101数据集上分别提高0.8％，1.7％和0.4％，在HMDB51数据集上分别提高了4.5％，0.2％和2.7％。这说明本发明提出的两个模块能够有效的提取视频中空间维度和时序维度的特征信息，有利于提升视频中动作识别准确率。

表1与其他先进方法的准确率比较

Claims

1.一种时空卷积注意力网络用于视频中动作识别的方法，包括以下步骤：

步骤(1)：使用TVL1算法对原视频数据进行处理，得到光流信号图像；接着，使用稀疏采用的方式对视频的RGB帧和光流图进行帧采样；首先，将视频分割为T个等长的片段，接着从RGB帧中的每一个片段中随机抽取一张帧，从光流图中的每一个片段中随机抽取5张帧；

步骤(2)：将步骤(1)得到的帧序列和堆叠的光流图分别输入到空间卷积注意力网络和时序卷积注意力网络中，帧序列和堆叠的光流图经过两种残差网络骨干处理得到特征图F₁和F_2；

步骤(3)：将步骤(2)中得到的特征图F₁输入到空间卷积注意力模块，空间卷积注意力模块由两条分支组成，分别学习特征图F₁的空间全局信息和时序局域信息；其中一个分支利用横向和纵向的一维卷积滤波器，获得具有不同方向的局部空间特征的特征图，然后采用自注意力机制实现空间特征增强；另外一个分支采用一维度的时序卷积层对RGB特征图进行时序维度的动态信息提取，最终将两条分支获得的特征相加融合，得到增强后的空间语义信息特征图；

步骤(4)：将步骤(2)中得到的特征图F₂输入到时序卷积注意力模块中，特征图F₂分别经过两条分支——时序自注意层和空间卷积层；其中时序自注意层采用不同扩张率的时序卷积提取了多种具有不同时序感受野的动态特征视图，然后通过自注意力实现动态特征增强；而空间卷积层采用2D卷积捕捉特征图F₂的空间局域信息；最终将两种特征相加融合，得到增强后的时序语义信息特征图；

步骤(5)：分别将步骤(3)和步骤(4)得到的高级特征输入到分类层中得到分类结果；