CN111627052B

CN111627052B - 一种基于双流时空注意力机制的动作识别方法t-stam

Info

Publication number: CN111627052B
Application number: CN202010360993.9A
Authority: CN
Inventors: 代钦; 王黎明; 李怡颖; 王洪江; 刘芳
Original assignee: Shenyang Institute of Engineering
Current assignee: Shenyang Institute of Engineering
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2023-05-23
Anticipated expiration: 2040-04-30
Also published as: CN111627052A

Abstract

本发明公开了一种基于双流时空注意力机制的动作识别方法T‑STAM，包括如下步骤：S1：对视频进行处理获取RGB帧的光流图；S2：将通道注意力网络SE‑Net融入到双流基础网络BN‑Inception中得到SE‑BN‑Inception；S3：将选取的RGB帧及光流场信息输入到SE‑BN‑Inception中，对特征中不同通道的依赖关系进行建模得到视频的特征向量X；S4：将特征X输入到基于CNN的时间注意力网络来计算每帧对应的时间注意力得分；S5：将特征X输入到多空间注意力网络，提取帧的多个运动空间显著区域；S6：融合时空特征进一步增强视频的特征表达，按不同权重融合两流输出得到动作识别结果。

Description

一种基于双流时空注意力机制的动作识别方法T-STAM

技术领域

本发明涉及计算机视觉、视频分类等领域，特别提供了一种基于双流时空注意力机制的动作识别方法T-STAM。

背景技术

近年来，随着深度学习的兴起，基于卷积神经网络的方法在视频动作识别研究领域应用广泛。其中双流法将RGB输入到CNN中来获取外观信息，将多帧的光流场输入到CNN中来获取运动信息，能有效结合视频中的时空信息，在性能上相对较优。但双流法在提取视频特征时忽略了不同通道信息的联系。此外，它平等的处理视频中采样的帧，未对帧的不同位置的信息加以区分，无法重点利用视频中关键的时空信息。

基于注意力机制的动作识别方法可以突出视频中的关键信息。基于时空注意力的人体行为识别方法(专利申请号：CN201910250775.7，专利公开号：CN110059587A)的发明使用LSTM设计的时空注意力网络来提取视频中关键的时空信息。该方法存在以下不足：

(1)在提取运动显著空间区域信息时，仅使用一个空间注意力网络关注帧的多个显著区域，造成提取的部分区域不准确；

(2)使用LSTM设计的时间注意力网络结构复杂且必须按照时间的先后顺序来处理视频的帧，识别效率低。

针对以上不足，本发明提出一种基于双流时空注意力机制的动作识别方法T-STAM。通过引入通道注意力机制对通道特征进行重新校准，来增强特征的表达能力。设计的时空注意力网络结构简便且能将注意力集中在辨识度高的帧的多个运动显著区域上，进一步增强视频特征表达能力。

发明内容

本发明的主要目的是提供一种基于双流时空注意力机制的动作识别方法T-STAM，该方法能对通道特征进行重新校准，来增强特征的表达能力，设计基于CNN的时间注意力网络，使用较少的参数学习每帧的注意力得分，重点关注运动幅度明显的帧。提出一种多空间注意力网络，从不同角度计算每帧中各个位置的注意力得分，提取多个运动显著区域，结合时空特征能进一步增强视频的特征表示，提高动作识别准确率。

本发明提供的技术方案是:一种基于双流时空注意力机制的动作识别方法T-STAM，包括以下步骤。

S1：将视频等分成N段，每段中随机选取一帧，共选取N帧。从选取的RGB帧中提取光流数据，每个帧可提取到两个光流场图像，分别是沿x轴的光流图像，和沿y轴的光流图像。通过线性变换将光流场离散到从[0,255]，这使得光流场的范围和RGB图像相同。

S2：引入通道注意力网络SE-Net到双流基础网络BN-Inception中，得到能对通道特征进行建模的SE-BN-Inception。过程如下：BN-inception包含9个Inception操作，在每个Inception后加入SE-Net。由于全连接层的输出对空间和位置不够敏感，经过卷积层的输出在一定程度上保留了图像的空间结构，因此将BN-Inception保留至最后一个卷积层。

S3：将选取的RGB帧和光流场信息输入到SE-BN-Inception中，通过建模特征不同通道的关系，增强特征的表达能力。其中RGB帧输入到外观流提取物体外观信息，多帧光流场输入到运动流提取视频的运动信息。经过SE-BN-Inception得到视频的特征向量X，具体步骤如下：

S31：将经过卷积层之后的特征沿着通道维度执行全局平均池化的压缩操作；

S32：将压缩后的特征通过两个全连接层来建模不同通道间的依赖关系。其中第一个全连接层将输入通道维度降低为原来的1/16以减少计算量，之后通过ReLu激活函数增加非线性，第二个全连接层将通道降回原来的维度。再通过一个Sigmoid函数获得归一化的权重；

S33：通过特征重定向操作将权重加权到每个通道的特征上，得到视频级特征X。

S4：将视频级特征X输入到基于CNN的时间注意力网络来计算每个选取帧对应的时间权重

进而得到视频的时间特征f^t，包含如下步骤：

S41：对于视频第i帧特征向量x_i，先通过全连接层进行线性映射，映射后的特征为

如下：

其中w₁、b₁是网络中可学习的参数，整个视频的映射特征为

X∈R^N×D(D＝256)；

S42：将特征

通过一个卷积核大小为1×1的卷积层将视频特征维度变为1×N。沿视频帧的时间维度使用softmax函数得到视频的每一帧的时间注意力分数/>

计算如下：

其中conv代表卷积操作。

表示第i帧对动作识别的贡献程度；

S43：获得第i帧的注意力得分

后，将其与特征/>

相乘得到第i帧的时间特征，对所有帧的时间特征求和得到整个视频的时间特征f^t，计算如下:

其中f^t∈R^1×D，它考虑到了视频中每个选取帧的重要程度。

S5:将特征向量X输入到多空间注意力网络从不同角度提取帧的不同运动显著区域，进而得到视频的空间特征，包含步骤如下：

S51：从SE-BN-Inception之后获取的特征为X＝(x₁...x_i...x_N)，X∈R^N×C×W×H，对于第j个空间注意力网络，先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F＝256)以减少计算代价。然后经过第二个卷积层得到的特征为

计算如下：

其中w₂、w₃、b₂、b₃是网络中可学习的参数。第二个卷积层的卷积核尺寸为5×5，卷积步长为1，

l表示空间注意力网络数；

S52：将经过两个卷积层之后的特征

输入到softmax函数计算第i帧中每个空间区域的概率得分/>

计算如下：

其中，

表示第k个空间区域的对动作识别的重要程度；

S53：将

与每个映射特征进行元素相乘得到加权的空间特征。由于使用了l个空间注意力，每帧可提取l个空间特征。将每个视频选取帧的第j(j∈l)个空间特征求和，得到整个视频的第j个空间特征/>

计算如下：

S6:融合时空特征进一步增强视频的特征表达，将融合的特征送入到分类网络，提高了动作识别的准确率。步骤如下：

S61:经过S4和S5，每个视频分别获得l个空间特征

和一个时间特征f^t，先将每个空间特征映射到时间特征上。即把视频的空间特征/>

分别和视频的时间特征f^t相加得到l个特征F_l，计算如下；

S62:将这l个特征连接起来得到视频的时空特征F计算如下：

F＝concate(F₁,F₂...F_l)

其中concate表示连接操作；

S63:将F送入到由FC层和softmax层组成的分类网络对视频分类，按不同权重融合两流的输出结果得到最后分类结果。

附图说明：

图1本发明算法流程图；

图2本发明整体模型图

具体实施方式

下面结合附图对本发明的技术方案做进一步的详细说明。

本发明设计了一种基于双流时空注意力机制的动作识别方法T-STAM，参见图1，该方法包括以下步骤。

S1：对视频进行处理选择RGB帧，并获取选取的RGB帧的光流图；

S2：通道注意力机制能学习到每个特征通道的重要程度，按照重要程度提升对当前识别有用的通道特征，同时抑制识别力弱的通道特征得到结构。因此本发明引入通道注意力网络SE-Net到双流基础网络BN-Inception得到能对通道特征进行建模的SE-BN-Inception。引入通道注意力网络SE-Net到双流基础网络BN-Inception中，得到结构SE-BN-Inception。选择BN-Inception的原因：BN-Inception是GoogLeNet的升级版，它在准确率和效率之间有着较好的平衡。其中加入了批归一化操作，使得网络中每一层的数据分布更加稳定，能够加快训练过程，起到正则化的作用。具体融入过程如下：BN-inception包含9个Inception操作，在每个Inception后加入SE-Net。由于全连接层的输出对空间和位置不够敏感，经过卷积层的输出在一定程度上保留了图像的空间结构，因此将BN-Inception保留至最后一个卷积层。

S31：将输入特征沿着通道维度进行全局平均池压缩特征；

S4：视频中不同的帧对动作识别贡献程度不同。本发明提出一种基于CNN的时间注意力的特征增强网络。该网络结构简单、参数较少、计算代价小且能并行的处理多帧。先将视频级特征X输入到基于CNN的时间注意力网络来计算每个选取帧对应的时间注意力得分

以注意力得分判断视频中每一帧相对于动作识别的重要性，选择性的关注重点帧，进而得到视频的时间特征f^t，包含如下步骤：

S41：对于视频第i帧的特征向量x_i，先通过全连接层进行线性映射，映射后的特征为

如下：

X∈R^N×D(D＝256)；

S42：将特征

计算如下：

其中conv代表卷积操作。

表示第i帧对动作识别的贡献程度；

S43：获得第i帧的注意力得分

后，将其与特征/>

相乘得到第i帧的时间特征，对所有帧的时间特征求和得到整个视频的时间特征f^t如下:/>

其中f^t∈R^1×D，它考虑到了视频中每个选取帧的重要程度。

S51：从SE-BN-Inception之后获取的特征为X＝(x₁...x_i...x_N)，X∈R^N×C×W×H，将X经过空间注意力网络。本发明设计多个空间注意力网络，从不同的角度提取帧的空间信息，计算各个位置的注意力得分，从而关注帧中与动作相关的多个运动显著区域，从空间上进一步增强特征表示。每个空间注意力网络包括两个卷积层和一个softmax层。具体如下：对于第j个空间注意力网络，先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F＝256)以减少计算代价。然后经过第二个卷积层得到的特征为

计算如下:

其中w₂、w₃、b₂、b₃是网络中可学习的参数。第二个卷积层的卷积核尺寸为5×5，卷积步长为1。

l表示空间注意力网络数。其中BN表示批归一化操作，引入批归一化操作可以解决协方差偏移问题，使训练更加稳定；

S52：将经过两个卷积层之后的特征

输入到softmax函数计算第i帧中每个空间区域的概率得分/>

如下：

其中，

表示第k个空间区域的对动作识别的重要程度；

S53：将

计算如下：

S61:经过S4和S5，每个视频分别获得l个空间特征

分别和视频的时间特征f^t相加得到l个特征F_l，计算如下；

S62:将这l个特征连接起来得到视频的时空特征F如下：

F＝concate(F₁,F₂...F_l)

其中concate表示连接操作。将外观流得到的特征表示为F_rgb，运动流得到的特征表示为F_flow；

S63：将F_rgb和F_flow分别送入到由一个FC层和softmax层组成的分类网络后得到两流的分类结果分别为S_s和S_t，按照不同权重融合(得分融合)两流的输出得到最终动作识别结果如图2。

Claims

1.一种基于双流时空注意力机制的动作识别方法，其特征在于：包括如下步骤：

S1：对视频进行处理选择RGB帧，方法为将视频等分成N段，每段中随机选取一帧，共选取N帧，并获取选取的RGB帧的光流图；

S2：将通道注意力网络SE-Net填加到双流基础网络BN-Inception中，得到能对通道特征进行建模的SE-BN-Inception；

S3：将选取的RGB帧以及光流场信息输入到SE-BN-Inception中，对特征的不同通道信息进行建模，能增强特征的表达力，得到视频的特征向量X，具体步骤如下：

S32：将压缩后的特征通过两个全连接层来建模不同通道间的依赖关系，再通过一个Sigmoid函数获得归一化的权重；

S33：通过特征重定向操作将权重加权到每个通道的特征上，得到视频级特征X；

S4：将视频级特征X输入到基于CNN的时间注意力网络来计算每帧对应的时间注意力权重，重点关注运动幅度明显的帧，获取时间特征，步骤如下：

如下：

X∈R^N×D(D＝256)；

S42：将特征

通过一个卷积核大小为1×1的卷积层将视频特征维度变为1×N，沿视频帧的时间维度使用softmax函数得到视频的每一帧的时间注意力分数/>

S43：获得第i帧的注意力得分

后，将其与特征/>

相乘得到第i帧的时间特征，对所有帧的时间特征求和得到整个视频的时间特征f^t；

S5：将特征向量X输入到多空间注意力网络从不同角度计算帧的各个位置的注意力得分，提取帧的不同运动显著区域，获取空间特征，步骤如下：

S51：共设计l个空间注意力网络，对于第j j∈(1,l)个空间注意力网络，先将X经过一个1×1的卷积层和tanh激活函数把特征维度降至N×F×W×H(F＝256)以减少计算代价，然后经过第二个卷积层得到的特征为

计算如下：

其中w₂、w₃、b₂、b₃是网络中可学习的参数，第二个卷积层的卷积核尺寸为5×5，卷积步长为1，

T表示图像帧的编号，l表示空间注意力网络数，W和H分别表示图像的宽度和高度；

S52：将经过两个卷积层之后的特征

输入到softmax函数计算第i帧中每个空间区域的概率得分/>

S53：将

与每个映射特征进行元素相乘得到加权的空间特征，由于使用了l个空间注意力，每帧可提取l个空间特征，将每个视频选取帧的第j(j∈l)个空间特征求和，得到整个视频的第j个空间特征/>

S6：融合时空特征进一步增强视频的特征表达，将融合的特征送入到分类网络，步骤如下：

S61：经过S4和S5，每个视频分别获得l个空间特征

和一个时间特征f^t，先将每个空间特征映射到时间特征上，即把视频的空间特征/>

分别和视频的时间特征f^t相加得到l个特征F_l，计算如下：

S62：将这l个特征连接起来得到视频的时空特征F；

S63：将F送入到由FC层和softmax层组成的分类网络对视频分类，按不同权重融合两流的输出结果得到最后分类结果。

2.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM，其特征在于，S1中，每个帧可提取到两个光流场图像，分别是沿x方向的光流图像，沿y方向的光流图像，通过线性变换将光流场离散到从[0,255]，这使得光流场的范围和RGB图像相同。

3.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM，其特征在于，S2中，将SE-Net融入到BN-Inception过程如下：BN-inception包含9个Inception操作，在每个Inception后加入SE-Net，由于全连接层的输出对空间和位置不够敏感，经过卷积层的输出保留了图像的空间结构，因此将BN-Inception保留至最后一个卷积层。

4.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM，其特征在于，S3中，其中RGB帧输入到外观流提取物体外观信息，多帧光流场输入到运动流提取视频的运动信息。

5.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM，其特征在于，S31，其中第一个全连接层将输入通道维度降低为原来的1/16以减少计算量，之后通过ReLu激活函数增加非线性，第二个全连接层将通道回到原来的维度。

6.按照权利要求1所述的一种基于双流时空注意力机制的动作识别方法T-STAM，其特征在于，

S32，沿视频帧的时间维度使用softmax函数得到视频的每一帧的时间注意力分数